ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

ทดสอบจริงโหมด識ภาพ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้น่าทึ่ง

วันนี้คุณถูกครอบคลุมด้วยการทดสอบ灰度โหมด識ภาพ DeepSeek หรือยัง?

ทุกคนรอคอยฟังก์ชันมัลติโมดัลของ DeepSeek มานานพอสมควรแล้ว เมื่อมีการเปิดตัวเวอร์ชัน V4 ความประหลาดใจก็ตามมาอย่างต่อเนื่อง ก่อนที่ทางการจะเปิดเผยรายละเอียดเพิ่มเติม บรรดาผู้ที่ชื่นชอบเทคโนโลยีก็ได้ขุดค้นเบาะแสเกี่ยวกับความสามารถ “識ภาพ” จากมุมมองต่างๆ มากมาย

มีการค้นพบมากมายจริงๆ

ตัวอย่างเช่น เบื้องหลังโหมด識ภาพของ DeepSeek ดูเหมือนจะเป็นโมเดลใหม่ที่แยกจาก V4 flash/pro

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

อีกตัวอย่างหนึ่ง “แนวโน้มในอนาคต” ที่ DeepSeek กล่าวถึงในรายงานทางเทคนิค V4 จริงๆ แล้วอาจจะบรรลุผลแล้วเป็นส่วนใหญ่

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

วันนี้เมื่อตื่นนอน ฉันก็โชคดีที่ได้รับสิทธิ์ทดสอบ灰度ด้วย ต่อไปนี้จะแสดงผลการทดสอบจริง

ทดสอบจริงโหมด識ภาพ DeepSeek

ในโหมด識ภาพ ผู้ใช้สามารถเลือกเปิดหรือปิดฟังก์ชันการคิดเชิงลึกได้

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

ในโหมดไม่คิด โมเดลภาพ DeepSeek นี้ตอบสนองเร็วมาก หลังจากกดปุ่มส่ง แทบไม่ต้องรอ คำตอบก็จะถูกสร้างขึ้นอย่างรวดเร็ว

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

แล้วในโหมดคิดและไม่คิด ความสามารถในการให้เหตุผลของโหมด識ภาพ DeepSeek แตกต่างกันอย่างไร?

ความสามารถในการให้เหตุผล

มาเริ่มด้วยโจทย์การให้เหตุผลเชิงพื้นที่กันก่อน: ในการประกอบรูปทรงด้านขวาให้เป็นรูปทรงลูกบาศก์ด้านซ้ายโดยไม่หมุน ควรเพิ่มรูปทรงใดในเครื่องหมายคำถาม?

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

โหมดไม่คิดให้คำตอบทันที แต่…ตอบผิดทันที

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

เมื่อเปิดการคิดเชิงลึก DeepSeek ผ่านด่านนี้สำเร็จ และให้คำตอบที่ถูกต้องคือ D

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

อย่างไรก็ตาม มันใช้เวลาคิดปัญหานี้ถึง 4 นาทีกว่า

เราสามารถสัมผัสได้ถึงความยาวนานของกระบวนการคิดนี้ – ในช่วงกลางของการคิด DeepSeek หาคำตอบที่ถูกต้องได้แล้ว:

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

แต่ตามมาด้วย “เดี๋ยวก่อน” แล้วก็วกวนไปมา

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

ปัญหานี้也有人反馈给นักวิจัย DeepSeek Chen Xiaokang

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

ลองหาจุดแตกต่างในรูปภาพดู: หาจุดแตกต่างทั้งหมดในสองรูปภาพ

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

ในโหมดไม่คิด DeepSeek หาจุดแตกต่างได้ 7 จุดอย่างรวดเร็ว

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

เห็นได้ชัดว่ามีภาพหลอนอยู่不少 เช่น จุดที่ 5 กุญแจในถาดไม่ทราบที่มา จุดที่ 7 ระหว่างแอปเปิ้ลกับกล้วยไม่มีจานสีขาว

ครั้งนี้โหมดคิดใช้เวลาเพียง 16 วินาที หาจุดแตกต่างได้ 12 จุด

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

แต่…ไม่รู้ว่าเกี่ยวข้องกับตัวรูปภาพหรือไม่ ภาพหลอนกลับมีมากขึ้น

ฟังก์ชันที่มีประโยชน์

ส่วนการให้เหตุผลยังมีพื้นที่ให้ปรับปรุง แล้วในด้านฟังก์ชันที่มีประโยชน์ โหมด識ภาพของ DeepSeek ทำได้ดีแค่ไหน?

ลองOCRดู

ป้อนภาพสรุปรายงานทางเทคนิค DeepSeek V4 เข้าไปในโหมด識ภาพ โดยไม่เปิดการคิดเชิงลึก มันก็ยังให้ผลลัพธ์อย่างรวดเร็ว และยังสร้างลิงก์โอเพนซอร์สเป็นไฮเปอร์ลิงก์อย่างใส่ใจ

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

ข้อความธรรมดาดูเหมือนไม่มีปัญหา ลองตารางดูว่า DeepSeek จะทำได้หรือไม่

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

ไม่มีปัญหา รูปแบบก็สามารถนำเสนอด้วย Markdown ได้อย่างเป็นระเบียบ

และวิธีการเล่นใหม่ที่ได้รับความนิยมมากขึ้นคือ การส่งภาพหน้าจอเว็บเพจให้ DeepSeek มันก็สามารถกู้คืนโค้ด HTML ที่สอดคล้องกันได้โดยตรง (ทำได้ในโหมดไม่คิด)

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

ปุ่มต่างๆ ในนั้นใช้งานได้ เช่น การให้ลิงก์เอกสาร API มันสามารถกำหนดค่าให้ทำการ跳转ได้โดยอัตโนมัติ

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

DeepSeek ยังสามารถผ่านการทดสอบ “รูปภาพที่ซ่อนอยู่” ได้อย่างราบรื่น

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

แต่ในการทดสอบตาบอดสี บางครั้งก็เกิดความผิดพลาด

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

ตามคำตอบของโหมด識ภาพเอง วันที่ตัดความรู้ของมันเหมือนกับ DeepSeek V4 flash/pro คือเดือนพฤษภาคม 2025

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

และจากความรู้โลกของมัน บล็อกเกอร์คนหนึ่งพบเบาะแส: โมเดลภาพรู้จัก “Ta” ในขณะที่ V4 flash/pro ไม่รู้จักเลย

นี่หมายความว่า โมเดลภาพในโหมด識ภาพได้รับการฝึกฝนแยกต่างหาก?

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

ตรวจสอบแล้ว flash เมื่อไม่ได้เชื่อมต่ออินเทอร์เน็ตก็ไม่มีความรู้เกี่ยวกับสตรีมเมอร์คนนี้จริงๆ แต่โหมด識ภาพหาข้อมูลจากเดือนเมษายน 2026 ได้

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

การกระทำเร็วกว่าคำมั่นสัญญา

ปัจจุบัน โหมด識ภาพของ DeepSeek ยังอยู่ในขั้นตอนการทดสอบ灰度 Chen Xiaokang เปิดเผยว่าขอบเขต灰度กำลังขยายออกไปเรื่อยๆ

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

จากการทดสอบจริง พูดตามตรง DeepSeek Vision ยังมีจุดที่ต้องปรับปรุงอีก不少

แต่กลับกัน ใครจะคิดว่าฟังก์ชันมัลติโมดัลของ DeepSeek จะมาเร็วขนาดนี้?

เมื่อ DeepSeek เขียนในรายงานทางเทคนิค V4 ว่า “เรากำลังพยายามรวมความสามารถมัลติโมดัลเข้ากับโมเดลของเรา” ทุกคนคิดว่านี่เป็นเพียงเป้าหมายที่มีลำดับความสำคัญไม่สูง เพื่อนๆ หลายคนเสียดาย แต่ก็เห็นด้วยว่า “ในสถานการณ์ทรัพยากรจำกัด การทำข้อความล้วนให้ดีก่อนเป็นสิ่งที่ถูกต้อง”

และตอนนี้ดูเหมือนว่า DeepSeek ทำได้มากกว่าและเร็วกว่าที่คนภายนอกคาดไว้

แล้วที่กล่าวใน论文ว่า “นอกเหนือจากสถาปัตยกรรม MoE และ Sparse Attention แล้ว จะสำรวจมิติใหม่ๆ ของความ稀疏ของโมเดลอย่างจริงจัง” ก็คง…

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

ลิงก์อ้างอิง:
[1]https://x.com/teortaxesTex/status/2049422327914332307?s=20
[2]https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/32799

Like (0)
Previous 1 hour ago
Next 2026年3月29日 pm10:42

相关推荐