ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

1 hour ago • ข่าวสารอุตสาหกรรม AI • 6 views

ทดสอบจริงโหมด識ภาพ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้น่าทึ่ง

วันนี้คุณถูกครอบคลุมด้วยการทดสอบ灰度โหมด識ภาพ DeepSeek หรือยัง?

ทุกคนรอคอยฟังก์ชันมัลติโมดัลของ DeepSeek มานานพอสมควรแล้ว เมื่อมีการเปิดตัวเวอร์ชัน V4 ความประหลาดใจก็ตามมาอย่างต่อเนื่อง ก่อนที่ทางการจะเปิดเผยรายละเอียดเพิ่มเติม บรรดาผู้ที่ชื่นชอบเทคโนโลยีก็ได้ขุดค้นเบาะแสเกี่ยวกับความสามารถ “識ภาพ” จากมุมมองต่างๆ มากมาย

มีการค้นพบมากมายจริงๆ

ตัวอย่างเช่น เบื้องหลังโหมด識ภาพของ DeepSeek ดูเหมือนจะเป็นโมเดลใหม่ที่แยกจาก V4 flash/pro

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

อีกตัวอย่างหนึ่ง “แนวโน้มในอนาคต” ที่ DeepSeek กล่าวถึงในรายงานทางเทคนิค V4 จริงๆ แล้วอาจจะบรรลุผลแล้วเป็นส่วนใหญ่

วันนี้เมื่อตื่นนอน ฉันก็โชคดีที่ได้รับสิทธิ์ทดสอบ灰度ด้วย ต่อไปนี้จะแสดงผลการทดสอบจริง

ทดสอบจริงโหมด識ภาพ DeepSeek

ในโหมด識ภาพ ผู้ใช้สามารถเลือกเปิดหรือปิดฟังก์ชันการคิดเชิงลึกได้

ในโหมดไม่คิด โมเดลภาพ DeepSeek นี้ตอบสนองเร็วมาก หลังจากกดปุ่มส่ง แทบไม่ต้องรอ คำตอบก็จะถูกสร้างขึ้นอย่างรวดเร็ว

แล้วในโหมดคิดและไม่คิด ความสามารถในการให้เหตุผลของโหมด識ภาพ DeepSeek แตกต่างกันอย่างไร?

ความสามารถในการให้เหตุผล

มาเริ่มด้วยโจทย์การให้เหตุผลเชิงพื้นที่กันก่อน: ในการประกอบรูปทรงด้านขวาให้เป็นรูปทรงลูกบาศก์ด้านซ้ายโดยไม่หมุน ควรเพิ่มรูปทรงใดในเครื่องหมายคำถาม?

โหมดไม่คิดให้คำตอบทันที แต่…ตอบผิดทันที

เมื่อเปิดการคิดเชิงลึก DeepSeek ผ่านด่านนี้สำเร็จ และให้คำตอบที่ถูกต้องคือ D

อย่างไรก็ตาม มันใช้เวลาคิดปัญหานี้ถึง 4 นาทีกว่า

เราสามารถสัมผัสได้ถึงความยาวนานของกระบวนการคิดนี้ – ในช่วงกลางของการคิด DeepSeek หาคำตอบที่ถูกต้องได้แล้ว:

แต่ตามมาด้วย “เดี๋ยวก่อน” แล้วก็วกวนไปมา

ปัญหานี้也有人反馈给นักวิจัย DeepSeek Chen Xiaokang

ลองหาจุดแตกต่างในรูปภาพดู: หาจุดแตกต่างทั้งหมดในสองรูปภาพ

ในโหมดไม่คิด DeepSeek หาจุดแตกต่างได้ 7 จุดอย่างรวดเร็ว

เห็นได้ชัดว่ามีภาพหลอนอยู่不少 เช่น จุดที่ 5 กุญแจในถาดไม่ทราบที่มา จุดที่ 7 ระหว่างแอปเปิ้ลกับกล้วยไม่มีจานสีขาว

ครั้งนี้โหมดคิดใช้เวลาเพียง 16 วินาที หาจุดแตกต่างได้ 12 จุด

แต่…ไม่รู้ว่าเกี่ยวข้องกับตัวรูปภาพหรือไม่ ภาพหลอนกลับมีมากขึ้น

ฟังก์ชันที่มีประโยชน์

ส่วนการให้เหตุผลยังมีพื้นที่ให้ปรับปรุง แล้วในด้านฟังก์ชันที่มีประโยชน์ โหมด識ภาพของ DeepSeek ทำได้ดีแค่ไหน?

ลองOCRดู

ป้อนภาพสรุปรายงานทางเทคนิค DeepSeek V4 เข้าไปในโหมด識ภาพ โดยไม่เปิดการคิดเชิงลึก มันก็ยังให้ผลลัพธ์อย่างรวดเร็ว และยังสร้างลิงก์โอเพนซอร์สเป็นไฮเปอร์ลิงก์อย่างใส่ใจ

ข้อความธรรมดาดูเหมือนไม่มีปัญหา ลองตารางดูว่า DeepSeek จะทำได้หรือไม่

ไม่มีปัญหา รูปแบบก็สามารถนำเสนอด้วย Markdown ได้อย่างเป็นระเบียบ

และวิธีการเล่นใหม่ที่ได้รับความนิยมมากขึ้นคือ การส่งภาพหน้าจอเว็บเพจให้ DeepSeek มันก็สามารถกู้คืนโค้ด HTML ที่สอดคล้องกันได้โดยตรง (ทำได้ในโหมดไม่คิด)

ปุ่มต่างๆ ในนั้นใช้งานได้ เช่น การให้ลิงก์เอกสาร API มันสามารถกำหนดค่าให้ทำการ跳转ได้โดยอัตโนมัติ

DeepSeek ยังสามารถผ่านการทดสอบ “รูปภาพที่ซ่อนอยู่” ได้อย่างราบรื่น

แต่ในการทดสอบตาบอดสี บางครั้งก็เกิดความผิดพลาด

ตามคำตอบของโหมด識ภาพเอง วันที่ตัดความรู้ของมันเหมือนกับ DeepSeek V4 flash/pro คือเดือนพฤษภาคม 2025

และจากความรู้โลกของมัน บล็อกเกอร์คนหนึ่งพบเบาะแส: โมเดลภาพรู้จัก “Ta” ในขณะที่ V4 flash/pro ไม่รู้จักเลย

นี่หมายความว่า โมเดลภาพในโหมด識ภาพได้รับการฝึกฝนแยกต่างหาก?

ตรวจสอบแล้ว flash เมื่อไม่ได้เชื่อมต่ออินเทอร์เน็ตก็ไม่มีความรู้เกี่ยวกับสตรีมเมอร์คนนี้จริงๆ แต่โหมด識ภาพหาข้อมูลจากเดือนเมษายน 2026 ได้

การกระทำเร็วกว่าคำมั่นสัญญา

ปัจจุบัน โหมด識ภาพของ DeepSeek ยังอยู่ในขั้นตอนการทดสอบ灰度 Chen Xiaokang เปิดเผยว่าขอบเขต灰度กำลังขยายออกไปเรื่อยๆ

จากการทดสอบจริง พูดตามตรง DeepSeek Vision ยังมีจุดที่ต้องปรับปรุงอีก不少

แต่กลับกัน ใครจะคิดว่าฟังก์ชันมัลติโมดัลของ DeepSeek จะมาเร็วขนาดนี้?

เมื่อ DeepSeek เขียนในรายงานทางเทคนิค V4 ว่า “เรากำลังพยายามรวมความสามารถมัลติโมดัลเข้ากับโมเดลของเรา” ทุกคนคิดว่านี่เป็นเพียงเป้าหมายที่มีลำดับความสำคัญไม่สูง เพื่อนๆ หลายคนเสียดาย แต่ก็เห็นด้วยว่า “ในสถานการณ์ทรัพยากรจำกัด การทำข้อความล้วนให้ดีก่อนเป็นสิ่งที่ถูกต้อง”

และตอนนี้ดูเหมือนว่า DeepSeek ทำได้มากกว่าและเร็วกว่าที่คนภายนอกคาดไว้

แล้วที่กล่าวใน论文ว่า “นอกเหนือจากสถาปัตยกรรม MoE และ Sparse Attention แล้ว จะสำรวจมิติใหม่ๆ ของความ稀疏ของโมเดลอย่างจริงจัง” ก็คง…

ลิงก์อ้างอิง:
[1]https://x.com/teortaxesTex/status/2049422327914332307?s=20
[2]https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/th/archives/32799

Like (0)

0 0

DeepSeek เปิดตัวโมเดล Multimodal: ใช้พิกัด “ยึด” การให้เหตุผลทางภาพ แก้ปัญหา “ช่องว่างการอ้างอิง” ของโมเดลขนาดใหญ่

Previous 1 hour ago

NCCLbpf: ใช้ eBPF เพื่อเพิ่มความปลอดภัยและประสิทธิภาพในการสื่อสารคลัสเตอร์ GPU แก้ปัญหาความน่าเชื่อถือในการฝึกอบรม AI

Next 2026年3月29日 pm10:42

ข่าวสารอุตสาหกรรม AI

OpenAI จู่โจมยามดึก! GPT-5.4 เปิดตัวอย่างน่าตื่นตะลึง: ความสามารถควบคุมคอมพิวเตอร์แบบเนทีฟเหนือมนุษย์ทุกด้าน ครองตำแหน่งราชาแห่งการให้เหตุผลและการเขียนโปรแกรมแบบครบมิติ

หลังจากเผชิญกับแรงกดดันจากการแข่งขันมาสักระยะ OpenAI ได้เปิดตัวโมเดลเรือธงล่าสุด GPT-5.4 การเปิดตัวครั้งนี้รวมถึง:* ฝั่ง ChatGPT: GPT-5.4 Thinking และ GPT-5.4 Pro เปิดให้บริการเต็ม…

2026年3月6日
215000
ข่าวสารอุตสาหกรรม AI

Google เปิดตัว TPU รุ่นที่ 8: ชิปแยกการฝึกและการอนุมาน ประสิทธิภาพพุ่งสูง เร่งยุค Agent

TPU ถูกประเมินค่าต่ำเกินไป หลังจากดูTPU รุ่นที่ 8 ที่ Google เพิ่งเปิดตัว ในที่สุดผมก็เข้าใจความหมายของคำพูดของอีลอน มัสก์ TPU รุ่นที่ 8 ที่ Google สร้างขึ้นสำหรับยุค Agent โดยเฉพา…

2026年4月23日
56000
ข่าวสารอุตสาหกรรม AI

DAC-RL: กรอบการฝึกฝนการเรียนรู้แบบเสริมกำลังด้วยการอนุมานแบบแบ่งแยกและเอาชนะครั้งแรก ทำลายขีดจำกัดการคิดแบบเป็นโซ่ บรรลุการเพิ่มประสิทธิภาพการอนุมาน 6.3%

คำสำคัญ: การให้เหตุผลแบบแบ่งแยกและเอาชนะ, การเรียนรู้แบบเสริมกำลัง, ความสามารถในการปรับขยายได้ในระหว่างการทดสอบ, การคิดแบบเป็นโซ่, การฝึกโมเดลภาษาขนาดใหญ่ ในปีที่ผ่านมา โมเดลภาษาขน…

2026年2月5日
250000
ข่าวสารอุตสาหกรรม AI

โมเดลทางการเงินขนาดใหญ่ปี 2026: การปฏิวัติเทคโนโลยีที่ผสานคลาวด์เนทีฟและ AI ที่มีอยู่ทุกหนแห่ง

คำนำ ภูเขาไม่ปฏิเสธฝุ่นละออง แม่น้ำไม่รังเกียจความเต็มเปี่ยม ปี 2024 เป็นปีที่ 30 ที่อินเทอร์เน็ตเข้าสู่ประเทศจีน และอุตสาหกรรมการเงินของจีนก็ผ่านพ้น 10 ปีแห่งเทคโนโลยีการเงินและดิ…

2026年2月21日
292000
มกราคม 2026: ภาพรวมล่าสุดของโมเดล AI ขนาดใหญ่ – Alibaba, Tencent, Zhipu และบริษัทยักษ์ใหญ่ปล่อยความก้าวหน้าใหม่ด้านเสียง การมองเห็น และเอเจนต์อัจฉริยะอย่างหนาแน่น

5 มกราคม 【ปิดต้นทาง】 Alibaba Tongyi เปิดตัวโมเดลสังเคราะห์เสียง CosyVoice cosyvoice-v3-flash เพิ่ม 24 โทนเสียงใหม่เพื่อตอบสนองความต้องการหลากหลายสถานการณ์ โทนเสียงใหม่รวมถึง: ภาษาถ…

ข่าวสารอุตสาหกรรม AI 2026年2月2日
268000

ทดสอบโหมด識ภาพของ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้อย่างน่าทึ่ง

ทดสอบจริงโหมด識ภาพ DeepSeek: ใช้เวลาคิด 4 นาทีแต่ตอบผิดทันที แต่การกู้คืน HTML และ OCR ทำได้น่าทึ่ง

ทดสอบจริงโหมด識ภาพ DeepSeek

ความสามารถในการให้เหตุผล

ฟังก์ชันที่มีประโยชน์

การกระทำเร็วกว่าคำมั่นสัญญา

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

Google เปิดตัว TPU รุ่นที่ 8: ชิปแยกการฝึกและการอนุมาน ประสิทธิภาพพุ่งสูง เร่งยุค Agent

โมเดลทางการเงินขนาดใหญ่ปี 2026: การปฏิวัติเทคโนโลยีที่ผสานคลาวด์เนทีฟและ AI ที่มีอยู่ทุกหนแห่ง