ทดสอบจริงโหมด識ภาพ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้น่าทึ่ง
วันนี้คุณถูกครอบคลุมด้วยการทดสอบ灰度โหมด識ภาพ DeepSeek หรือยัง?
ทุกคนรอคอยฟังก์ชันมัลติโมดัลของ DeepSeek มานานพอสมควรแล้ว เมื่อมีการเปิดตัวเวอร์ชัน V4 ความประหลาดใจก็ตามมาอย่างต่อเนื่อง ก่อนที่ทางการจะเปิดเผยรายละเอียดเพิ่มเติม บรรดาผู้ที่ชื่นชอบเทคโนโลยีก็ได้ขุดค้นเบาะแสเกี่ยวกับความสามารถ “識ภาพ” จากมุมมองต่างๆ มากมาย
มีการค้นพบมากมายจริงๆ
ตัวอย่างเช่น เบื้องหลังโหมด識ภาพของ DeepSeek ดูเหมือนจะเป็นโมเดลใหม่ที่แยกจาก V4 flash/pro

อีกตัวอย่างหนึ่ง “แนวโน้มในอนาคต” ที่ DeepSeek กล่าวถึงในรายงานทางเทคนิค V4 จริงๆ แล้วอาจจะบรรลุผลแล้วเป็นส่วนใหญ่

วันนี้เมื่อตื่นนอน ฉันก็โชคดีที่ได้รับสิทธิ์ทดสอบ灰度ด้วย ต่อไปนี้จะแสดงผลการทดสอบจริง
ทดสอบจริงโหมด識ภาพ DeepSeek
ในโหมด識ภาพ ผู้ใช้สามารถเลือกเปิดหรือปิดฟังก์ชันการคิดเชิงลึกได้

ในโหมดไม่คิด โมเดลภาพ DeepSeek นี้ตอบสนองเร็วมาก หลังจากกดปุ่มส่ง แทบไม่ต้องรอ คำตอบก็จะถูกสร้างขึ้นอย่างรวดเร็ว

แล้วในโหมดคิดและไม่คิด ความสามารถในการให้เหตุผลของโหมด識ภาพ DeepSeek แตกต่างกันอย่างไร?
ความสามารถในการให้เหตุผล
มาเริ่มด้วยโจทย์การให้เหตุผลเชิงพื้นที่กันก่อน: ในการประกอบรูปทรงด้านขวาให้เป็นรูปทรงลูกบาศก์ด้านซ้ายโดยไม่หมุน ควรเพิ่มรูปทรงใดในเครื่องหมายคำถาม?

โหมดไม่คิดให้คำตอบทันที แต่…ตอบผิดทันที

เมื่อเปิดการคิดเชิงลึก DeepSeek ผ่านด่านนี้สำเร็จ และให้คำตอบที่ถูกต้องคือ D

อย่างไรก็ตาม มันใช้เวลาคิดปัญหานี้ถึง 4 นาทีกว่า
เราสามารถสัมผัสได้ถึงความยาวนานของกระบวนการคิดนี้ – ในช่วงกลางของการคิด DeepSeek หาคำตอบที่ถูกต้องได้แล้ว:

แต่ตามมาด้วย “เดี๋ยวก่อน” แล้วก็วกวนไปมา

ปัญหานี้也有人反馈给นักวิจัย DeepSeek Chen Xiaokang

ลองหาจุดแตกต่างในรูปภาพดู: หาจุดแตกต่างทั้งหมดในสองรูปภาพ

ในโหมดไม่คิด DeepSeek หาจุดแตกต่างได้ 7 จุดอย่างรวดเร็ว

เห็นได้ชัดว่ามีภาพหลอนอยู่不少 เช่น จุดที่ 5 กุญแจในถาดไม่ทราบที่มา จุดที่ 7 ระหว่างแอปเปิ้ลกับกล้วยไม่มีจานสีขาว
ครั้งนี้โหมดคิดใช้เวลาเพียง 16 วินาที หาจุดแตกต่างได้ 12 จุด

แต่…ไม่รู้ว่าเกี่ยวข้องกับตัวรูปภาพหรือไม่ ภาพหลอนกลับมีมากขึ้น
ฟังก์ชันที่มีประโยชน์
ส่วนการให้เหตุผลยังมีพื้นที่ให้ปรับปรุง แล้วในด้านฟังก์ชันที่มีประโยชน์ โหมด識ภาพของ DeepSeek ทำได้ดีแค่ไหน?
ลองOCRดู
ป้อนภาพสรุปรายงานทางเทคนิค DeepSeek V4 เข้าไปในโหมด識ภาพ โดยไม่เปิดการคิดเชิงลึก มันก็ยังให้ผลลัพธ์อย่างรวดเร็ว และยังสร้างลิงก์โอเพนซอร์สเป็นไฮเปอร์ลิงก์อย่างใส่ใจ

ข้อความธรรมดาดูเหมือนไม่มีปัญหา ลองตารางดูว่า DeepSeek จะทำได้หรือไม่

ไม่มีปัญหา รูปแบบก็สามารถนำเสนอด้วย Markdown ได้อย่างเป็นระเบียบ
และวิธีการเล่นใหม่ที่ได้รับความนิยมมากขึ้นคือ การส่งภาพหน้าจอเว็บเพจให้ DeepSeek มันก็สามารถกู้คืนโค้ด HTML ที่สอดคล้องกันได้โดยตรง (ทำได้ในโหมดไม่คิด)

ปุ่มต่างๆ ในนั้นใช้งานได้ เช่น การให้ลิงก์เอกสาร API มันสามารถกำหนดค่าให้ทำการ跳转ได้โดยอัตโนมัติ

DeepSeek ยังสามารถผ่านการทดสอบ “รูปภาพที่ซ่อนอยู่” ได้อย่างราบรื่น

แต่ในการทดสอบตาบอดสี บางครั้งก็เกิดความผิดพลาด

ตามคำตอบของโหมด識ภาพเอง วันที่ตัดความรู้ของมันเหมือนกับ DeepSeek V4 flash/pro คือเดือนพฤษภาคม 2025

และจากความรู้โลกของมัน บล็อกเกอร์คนหนึ่งพบเบาะแส: โมเดลภาพรู้จัก “Ta” ในขณะที่ V4 flash/pro ไม่รู้จักเลย
นี่หมายความว่า โมเดลภาพในโหมด識ภาพได้รับการฝึกฝนแยกต่างหาก?

ตรวจสอบแล้ว flash เมื่อไม่ได้เชื่อมต่ออินเทอร์เน็ตก็ไม่มีความรู้เกี่ยวกับสตรีมเมอร์คนนี้จริงๆ แต่โหมด識ภาพหาข้อมูลจากเดือนเมษายน 2026 ได้


การกระทำเร็วกว่าคำมั่นสัญญา
ปัจจุบัน โหมด識ภาพของ DeepSeek ยังอยู่ในขั้นตอนการทดสอบ灰度 Chen Xiaokang เปิดเผยว่าขอบเขต灰度กำลังขยายออกไปเรื่อยๆ

จากการทดสอบจริง พูดตามตรง DeepSeek Vision ยังมีจุดที่ต้องปรับปรุงอีก不少
แต่กลับกัน ใครจะคิดว่าฟังก์ชันมัลติโมดัลของ DeepSeek จะมาเร็วขนาดนี้?
เมื่อ DeepSeek เขียนในรายงานทางเทคนิค V4 ว่า “เรากำลังพยายามรวมความสามารถมัลติโมดัลเข้ากับโมเดลของเรา” ทุกคนคิดว่านี่เป็นเพียงเป้าหมายที่มีลำดับความสำคัญไม่สูง เพื่อนๆ หลายคนเสียดาย แต่ก็เห็นด้วยว่า “ในสถานการณ์ทรัพยากรจำกัด การทำข้อความล้วนให้ดีก่อนเป็นสิ่งที่ถูกต้อง”
และตอนนี้ดูเหมือนว่า DeepSeek ทำได้มากกว่าและเร็วกว่าที่คนภายนอกคาดไว้
แล้วที่กล่าวใน论文ว่า “นอกเหนือจากสถาปัตยกรรม MoE และ Sparse Attention แล้ว จะสำรวจมิติใหม่ๆ ของความ稀疏ของโมเดลอย่างจริงจัง” ก็คง…

ลิงก์อ้างอิง:
[1]https://x.com/teortaxesTex/status/2049422327914332307?s=20
[2]https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/32799
