คิดว่าการอัปเดต AI ครั้งใหญ่ของ DeepSeek รอบนี้คงจะจบลงแล้ว แต่ไม่มีใครคาดคิดว่าหลังจากเพิ่งปล่อยเวอร์ชัน V4 เมื่อสัปดาห์ที่แล้ว มันกลับสร้างเซอร์ไพรส์ที่ใหญ่กว่าเดิมอีกครั้ง

เมื่อไม่กี่นาทีที่ผ่านมา DeepSeek ได้เปิดตัวโหมด識รูปอย่างเป็นทางการ ซึ่งขณะนี้อยู่ในขั้นตอนการทดสอบแบบ灰度 ซึ่งหมายความว่าความสามารถ multimodal ของ DeepSeek ที่วงการพูดถึงกันมาทั้งปี ได้เริ่มใช้งานได้จริงแล้ว!

ปัจจุบัน หลังจากอัปเดตเว็บไซต์และแอป DeepSeek ผู้ใช้บางส่วนอาจถูกสุ่มให้เข้าถึงฟีเจอร์ใหม่นี้ APPSO ได้ทดสอบทันที Chen Xiaokang นักวิจัยด้าน multimodal ของ DeepSeek โพสต์บน X ว่า “Now, we see you” พร้อมรูปภาพหนึ่งรูป เราจึงให้ DeepSeek ตีความความหมายเบื้องหลังรูปนี้ด้วยตัวเอง

ผลลัพธ์แสดงให้เห็นว่ามันสามารถระบุอุปมาอุปไมยที่ซ่อนอยู่ในรูปได้ แม้ว่ารูปจะไม่มีข้อความใดที่กล่าวถึง DeepSeek โดยตรง แต่ด้วยการรวมข้อมูลผู้โพสต์และเนื้อหาของรูป มันสรุปได้ว่านี่คือการอัปเดตเกี่ยวกับความสามารถ multimodal ของ DeepSeek สุดท้าย มันให้บทสรุปที่แม่นยำมาก: “ปลาวาฬที่มองไม่เห็นโลก ตอนนี้ลืมตาแล้ว”

เมื่อเทียบกับคำตอบสุดท้าย APPSO พบว่ากระบวนการคิดของโหมด識รูปของ DeepSeek กลับน่าสนใจกว่า

เลื่อนขึ้นลงเพื่อดูกระบวนการคิดทั้งหมด ในอดีต เมื่อ AI เห็นภาพแคปหน้าจอจาก Twitter มันมักจะอธิบายอย่างตรงไปตรงมา: “ปลาวาฬสีน้ำเงินสองตัว ตัวซ้ายใส่ผ้าปิดตา ตัวขวาไม่ใส่” แต่ DeepSeek กลับเริ่มตั้งคำถามทันที: คนนี้คือใคร? ทำไมเขาถึงโพสต์สิ่งนี้? โลโก้ปลาวาฬหมายถึงอะไร? XX บนผ้าปิดตาบอกใบ้อะไร?

นี่คือสิ่งที่เกิดขึ้นจริงในสมองของเราเมื่อเราเห็นมีม ไม่มีใครนับก่อนว่ามีปลาวาฬกี่ตัว เราสนใจว่าใครพูดกับใคร และมีนัยอะไรซ่อนอยู่ในคำพูด และมันยังแก้ไขตัวเองซ้ำแล้วซ้ำเล่า เช่น มันเคยเชื่อมโยงผ้าปิดตาในรูปกับแว่นตาของคามินะจาก “Tengen Toppa Gurren Lagann” แล้วก็หักล้างตัวเอง: “ไม่ มันดูโอตาคุเกินไป” “เดี๋ยวก่อน ดูดีๆ…” “เปลี่ยนมุมมองอีกที…” การอนุมาน การเชื่อมโยง และการแก้ไขตัวเองในช่วงแรกนั้นยอดเยี่ยมพอแล้ว แต่ส่วนที่ขัดกับสามัญสำนึกที่สุดในกระบวนการคิดทั้งหมดคือ เมื่อการอนุมานใกล้จะจบ มันก็หยุดตัวเองและจัดการประชุมสอบขนาดเล็ก

มันตั้งคำถามสามข้อและตอบเอง: ยืนยันข้อเท็จจริงก่อน จากนั้นคาดเดาลักษณะของเหตุการณ์ และสุดท้ายจึงตีความ DeepSeek นำนิสัยการคิดที่เราเองก็ไม่รู้ตัวนี้ มาใช้เป็นตรรกะการคิดของโหมด識รูป เหมือนกับที่สมองของเราจะตรวจสอบก่อนสรุป: “เดี๋ยวก่อน ข้อสันนิษฐานนี้ถูกต้องไหม? สมมติฐานนั้นยืนหยัดได้ไหม? ถ้าฉันเข้าใจผิดล่ะ?” เรายังทดสอบ DeepSeek ด้วยคำถามคลาสสิกของ AI—การนับนิ้ว

มันคิดอยู่พักหนึ่งแล้วตอบผิด พร้อมบ่นระหว่างทาง: “ฉันนับจนมึนแล้วจริงๆ” อย่างไรก็ตาม ถ้าฉันแนะนำเล็กน้อย มันก็ยังให้คำตอบที่ถูกต้องได้

ในการทดสอบนับนิ้วอีกครั้ง หลังจากตอบผิดครั้งแรก ฉันไม่ได้ให้คำตอบ แค่ให้มันคิดอีกครั้ง มันก็ตอบถูก


เรายังลองทดสอบ “รูปหัวใจ” แบบคลาสสิก รูปนี้เคยทำให้ AI ทุกตัวล้มเหลวมาก่อน DeepSeek ก็ไม่สามารถระบุได้เช่นกัน

นอกจากการทดสอบขีดจำกัดที่ยากเหล่านี้แล้ว จากการทดสอบเบื้องต้นของ APPSO ความแม่นยำของโหมด識รูปของ DeepSeek ค่อนข้างสูง ถ้าไม่เปิดโหมดคิด ก็สามารถให้คำตอบได้ภายในครึ่งวินาที เช่น การระบุภาพนิ่งจากหนังนี้ น่าจะอยู่ในฐานข้อมูลของมันแล้ว

ความเข้าใจในภาพนามธรรมก็ทำได้ดีมาก

ความเข้าใจในภาพสินค้าของ Uniqlo นี้ก็ไม่มีปัญหา

อย่างไรก็ตาม กระบวนการ識รูปดูเหมือนจะไม่มีการค้นหาออนไลน์ และตอบตามฐานความรู้เท่านั้น ดังนั้น เนื้อหาที่ใหม่กว่าบางอย่างจึงไม่สามารถระบุได้ เช่น มาสคอตตัวใหม่ของ Apple อย่าง Finder-chan

นอกจากนี้ รูปแบบไฟล์ที่อัปโหลดในโหมด識รูปก็มีข้อจำกัด เช่น ไม่รองรับรูปแบบ HEIF

การเปิดตัวโหมด識รูปของ DeepSeek หมายความว่าปลาวาฬตัวนี้ได้ลืมตาแล้ว แต่นี่อาจเป็นเพียงจุดเริ่มต้น ความสามารถ multimodal อื่นๆ ของ DeepSeek อาจจะอัปเดตตามมาในเร็วๆ นี้ เมื่อช่องว่างนี้ถูกเติมเต็ม โครงสร้างของโมเดลในประเทศอาจเปลี่ยนแปลงอย่างละเอียดอีกครั้ง APPSO จะแชร์ประสบการณ์เพิ่มเติมเกี่ยวกับโหมด識รูปของ DeepSeek ต่อไป และยินดีต้อนรับทุกท่านที่ทดลองใช้แล้วมาแบ่งปันเคล็ดลับและรายละเอียดที่น่าสนใจกับเรา

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/32717
