DeepSeek เปิดตัวโมเดล Multimodal: ใช้พิกัด “ยึด” การให้เหตุผลทางภาพ แก้ปัญหา “ช่องว่างการอ้างอิง” ของโมเดลขนาดใหญ่

1 hour ago • ข่าวสารอุตสาหกรรม AI • 6 views

DeepSeek เปิดตัวโมเดล Multimodal: ใช้พิกัด "ยึด" การให้เหตุผลทางภาพ แก้ปัญหา "ช่องว่างการอ้างอิง" ของโมเดลขนาดใหญ่

วันหยุดวันแรงงานกำลังจะมาถึง DeepSeek เลือกที่จะเปิดเผยเทคโนโลยีใหม่ในช่วงเวลานี้ ซึ่งสร้างความสนใจอย่างกว้างขวาง

เมื่อวานนี้ Chen Xiaokang จาก DeepSeek โพสต์ข้อความบนแพลตฟอร์ม X ทำให้ผู้คนเริ่มให้ความสนใจกับความก้าวหน้าล่าสุดของ DeepSeek ในด้านมัลติโมดัล

ต่อมา ผู้ใช้บางส่วนสามารถสัมผัสความสามารถมัลติโมดัลของ DeepSeek ผ่านเว็บและแอปพลิเคชันได้แล้ว

เมื่อสักครู่ที่ผ่านมา DeepSeek ได้เปิดตัวโมเดลมัลติโมดัลอย่างเป็นทางการบน Github และเผยแพร่รายงานทางเทคนิคโดยละเอียดพร้อมกัน

นี่คือผลงานที่เพิ่งออกมาใหม่ และเป็นนวัตกรรมในกระบวนทัศน์การให้เหตุผลอย่างไม่ต้องสงสัย

ที่อยู่โปรเจกต์: https://github.com/deepseek-ai/Thinking-with-Visual-Primitives
รายงานทางเทคนิค: https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf

ต่อไป เราจะเจาะลึกถึงความก้าวหน้าที่ DeepSeek มหาวิทยาลัยปักกิ่ง และมหาวิทยาลัยชิงหัวร่วมกันสร้างขึ้น โดยอิงจากรายงานทางเทคนิคนี้

บทความนี้มีชื่อว่า “Thinking with Visual Primitives” ซึ่งชี้ให้เห็นถึงจุดอ่อนหลักของโมเดลมัลติโมดัลขนาดใหญ่เกือบทั้งหมดในปัจจุบัน: โมเดลเหล่านี้อาจ “มองเห็น” แต่ไม่จำเป็นต้อง “คิดให้ชัดเจน”

ตัวอย่างเช่น ให้รูปถ่ายฝูงชนหนาแน่นแล้วถาม GPT-5.4 ว่า “ในรูปมีกี่คน” มันอาจนับผิด ให้ Claude Sonnet 4.6 ดูแผนผังวงจรที่ซับซ้อนแล้วถามว่า “ตัวเก็บประจุสีแดงด้านซ้ายอยู่ทางซ้ายหรือขวาของขดลวดเหนี่ยวนำด้านขวา” คำตอบมักจะคลุมเครือหรือขัดแย้งกันเอง ปัญหาไม่ได้อยู่ที่โมเดลไม่สามารถมองเห็นภาพได้ชัดเจน แต่อยู่ที่โมเดลไม่สามารถ锁定วัตถุที่ต้องการอภิปรายได้อย่างมีประสิทธิภาพในระหว่างกระบวนการ “คิด”

DeepSeek เรียกปัญหานี้ว่า “Reference Gap” (ช่องว่างการอ้างอิง) และเสนอชุดโซลูชันที่สมบูรณ์

ความเป็นมา: “มองเห็น” กับ “คิดให้ชัดเจน” เป็นคนละเรื่องกัน

เพื่อให้เข้าใจปัญหานี้ ลองนึกภาพ: คุณกำลังอธิบายแผนผังกระดานหมากรุกที่ซับซ้อนให้เพื่อนที่มองไม่เห็นหน้าจอของคุณ คุณพูดว่า “ตัวหมากทางซ้ายจะกินตัวหมากที่อยู่ตรงกลางไปทางขวาเล็กน้อย” แต่เพื่อนของคุณไม่รู้ว่าคุณหมายถึงตัวหมากสองตัวไหน

นี่คือภาวะที่กลืนไม่เข้าคายไม่ออกที่โมเดลมัลติโมดัลขนาดใหญ่ในปัจจุบันเผชิญเมื่อให้เหตุผล พวกมันพึ่งพาภาษาธรรมชาติในการสร้าง “ห่วงโซ่ความคิด” (CoT) แต่ภาษาธรรมชาติมีความคลุมเครือ: “อันใหญ่ทางซ้าย” “วัตถุสีแดงใกล้ศูนย์กลาง” — คำอธิบายเหล่านี้ไม่สามารถระบุตำแหน่งได้อย่างแม่นยำในฉากที่หนาแน่น ความสนใจของโมเดลจะ “ล่องลอย” ไปเรื่อย ๆ ในระหว่างกระบวนการให้เหตุผล ทำให้เกิดความสับสนทางตรรกะและในที่สุดก็ได้ข้อสรุปที่ผิด

ก่อนหน้านี้ กลยุทธ์ของวงการวิชาการมุ่งเน้นไปที่การทำให้โมเดล “มองเห็นได้ชัดเจนขึ้น”: โดยการตัดภาพความละเอียดสูง แบ่งเป็นส่วนแบบไดนามิก ฯลฯ เพื่อให้แน่ใจว่าโมเดลสามารถรับรู้รายละเอียดได้ ซึ่งแก้ไข “ช่องว่างการรับรู้” (Perception Gap)

อย่างไรก็ตาม บทความของ DeepSeek ชี้ให้เห็นว่า แม้ความสามารถในการรับรู้จะแข็งแกร่งเพียงใด ก็ไม่สามารถแทนที่ “ความสามารถในการอ้างอิง” ที่แม่นยำได้ “การมองเห็น” และ “การสามารถบอกได้ว่ากำลังพูดถึงอันไหน” เป็นสองสิ่งที่แตกต่างกันโดยสิ้นเชิง

สถาปัตยกรรม: ยืนอยู่บนไหล่ของ V4-Flash

งานนี้ใช้ V4-Flash ที่ DeepSeek เพิ่งเปิดตัวเป็นแกนหลักทางภาษา — ซึ่งเป็นโมเดลผู้เชี่ยวชาญแบบผสม (MoE) ที่มีพารามิเตอร์รวม 284B และเปิดใช้งาน 13B พารามิเตอร์ระหว่างการอนุมาน ส่วนการเข้ารหัสภาพใช้ ViT (Vision Transformer) ที่ DeepSeek พัฒนาเอง ซึ่งรองรับอินพุตความละเอียดใดก็ได้

เป็นที่น่าสังเกตว่า การมีส่วนร่วมหลักของทีมนี้คือการเสนอ “ปรัชญาการฝึกอบรม” ที่สมบูรณ์: วิธีใช้โทเค็นภาพจำนวนน้อยมาก สอนให้โมเดลอ้างอิงวัตถุภาพได้อย่างแม่นยำในระหว่างกระบวนการให้เหตุผล

นวัตกรรมหลักที่หนึ่ง: แปลงพิกัดเป็น “หน่วยความคิด”

แนวคิดหลักที่สุดของบทความนี้สามารถสรุปได้เป็นประโยคเดียว: ใช้พิกัดจุดและกรอบขอบเขต (Bounding Box) เป็นหน่วยพื้นฐานของการให้เหตุผล สอดแทรกเข้าไปในห่วงโซ่ความคิดเหมือนกับข้อความ

ในวิธีดั้งเดิม กรอบขอบเขตเป็นเพียงส่วนหนึ่งของเอาต์พุต: โมเดลจะคิดให้เสร็จก่อน แล้วจึงบอกคุณว่า “เป้าหมายอยู่ที่พิกัด [100,200,300,400] ที่มุมซ้ายบนของภาพ” นี่คือการ标注หลังการคิด ไม่ใช่เครื่องมือในการคิด

วิธีของ DeepSeek แตกต่างอย่างสิ้นเชิง ในระหว่างกระบวนการให้เหตุผล ทุกครั้งที่โมเดลกล่าวถึงวัตถุภาพ มันจะส่งออกพิกัดพร้อมกัน:

“สแกนภาพเพื่อหาหมี เจอ <|ref|> หมี <|/ref|><|box|>[[452,23,804,411]]<|/box|> กำลังปีนต้นไม้ ไม่อยู่บนพื้น ตัดทิ้ง มองไปทางซ้ายล่าง เจออีกตัว <|ref|> หมี <|/ref|><|box|>[[50,447,647,771]]<|/box|> ยืนอยู่บนขอบหิน ตรงตามเงื่อนไข”

สิ่งนี้เหมือนกับเวลาที่มนุษย์นับของแล้วใช้นิ้วชี้ไปทีละชิ้น พิกัดไม่ใช่คำตอบสุดท้ายอีกต่อไป แต่เป็น “จุดยึด” ที่ขจัดความคลุมเครือในระหว่างกระบวนการให้เหตุผล ห่วงโซ่ตรรกะของโมเดลถูกยึดไว้อย่างแน่นหนากับพิกัดทางกายภาพของภาพ จะไม่เกิดการล่องลอย

กลไกนี้ประกอบด้วย “สิ่งดั้งเดิม” (Primitives) สองประเภท: กรอบขอบเขต (<|box|>) ใช้สำหรับวัตถุที่ต้องการข้อมูลตำแหน่งและขนาด; พิกัดจุด (<|point|>) ใช้สำหรับการอ้างอิงเชิงพื้นที่ที่เป็นนามธรรมมากขึ้น เช่น เส้นทางการสำรวจเขาวงกตหรือเส้นทางการติดตามเส้นโค้ง

นวัตกรรมหลักที่สอง: การบีบอัดภาพสูงถึง 7056 เท่า

นวัตกรรมทางเทคนิคอีกประการหนึ่งที่น่าประทับใจ มาจากการบีบอัดในระดับสถาปัตยกรรม

สำหรับภาพขนาด 756×756 วิธีดั้งเดิมต้องป้อนโทเค็นภาพจำนวนมากให้กับโมเดลภาษา ขั้นตอนของ DeepSeek มีดังนี้: ภาพจะผ่าน ViT ก่อน สร้างโทเค็นภาพ 2916 ชิ้น; จากนั้นผ่านการบีบอัดเชิงพื้นที่ 3×3 รวมเป็น 324 โทเค็นเพื่อป้อนให้โมเดลภาษา; สุดท้าย กลไก “Compressed Sparse Attention” (CSA) ที่ฝังอยู่ใน V4-Flash จะบีบอัด KV cache อีก 4 เท่า เหลือเพียง 81 รายการ KV ภาพ

จากพิกเซลดั้งเดิมไปจนถึงรายการ cache สุดท้าย อัตราส่วนการบีบอัดโดยรวมสูงถึง 7056 เท่า

ซึ่งหมายความว่า สำหรับภาพขนาด 800×800 โมเดลนี้ต้องการรายการ KV cache เพียงประมาณ 90 รายการ ในขณะที่ Claude Sonnet 4.6 ต้องการประมาณ 870 รายการ และ Gemini-3-Flash ต้องการประมาณ 1100 รายการ ข้อโต้แย้งของบทความคือ: ความสามารถในการอ้างอิงเชิงพื้นที่ที่แม่นยำ สามารถชดเชยการขาดแคลนโทเค็นภาพได้ในระดับหนึ่ง โมเดลไม่จำเป็นต้อง “มองเห็นมากขึ้น” แต่ต้อง “ชี้ให้แม่นยำขึ้น”

นวัตกรรมหลักที่สาม: การออกแบบข้อมูล Cold Start อย่างพิถีพิถัน

มิติที่สามของนวัตกรรมทางเทคนิค สะท้อนให้เห็นในวิธีการสร้างข้อมูลการฝึกอบรม

ทีมงานได้รวบรวมชุดข้อมูลที่เกี่ยวข้องกับการตรวจจับวัตถุกว่า 100,000 ชุด ผ่านการคัดกรองอย่างเข้มงวดสองรอบ (การตรวจสอบความหมายและการตรวจสอบคุณภาพทางเรขาคณิต) ในที่สุดก็เก็บรักษาแหล่งข้อมูลคุณภาพสูงไว้ประมาณ 31,700 แหล่ง และสร้างตัวอย่างการฝึกอบรมมากกว่า 40 ล้านตัวอย่าง

ในส่วนของข้อมูล Cold Start เฉพาะสำหรับ “การคิดกับภาพดั้งเดิม” ทีมงานได้ออกแบบงานสี่ประเภท

ประเภทแรกคืองานนับ แบ่งเป็นแบบหยาบ (“ในรูปมีกี่คน”) และแบบละเอียด (“มีกี่คนที่ใส่เสื้อสีฟ้า”) สำหรับการนับแบบหยาบ โมเดลเรียนรู้ “การ锁定แบบกลุ่ม” — ใส่กรอบวัตถุที่เป็นไปได้ทั้งหมดในครั้งเดียวแล้วนับ; สำหรับการนับแบบละเอียด เรียนรู้การสแกนทีละชิ้น ตรวจสอบคุณสมบัติทีละชิ้น กลยุทธ์ทั้งสองนี้สอดคล้องกับภาระการรับรู้ที่แตกต่างกัน และได้รับการฝึกอบรมแยกกัน

ประเภทที่สองคือการให้เหตุผลเชิงพื้นที่และการตอบคำถามภาพ ใช้ชุดข้อมูล GQA (ฉากธรรมชาติ) และเครื่องมือ CLEVR (ฉากสังเคราะห์ที่ควบคุมได้) อย่างมากในการสร้างตัวอย่างการให้เหตุผลแบบหลายขั้นตอน บังคับให้โมเดลใช้กรอบขอบเขต锁定วัตถุที่เกี่ยวข้องในทุกขั้นตอนของการให้เหตุผล

ประเภทที่สามคืองานนำทางเขาวงกต สร้างตัวอย่างทั้งหมด 460,000 ตัวอย่าง ทีมงานใช้อัลกอริทึม DFS (Depth-First Search), Prim และ Kruskal สร้างเขาวงกตที่มีโครงสร้าง拓扑สามแบบ: สี่เหลี่ยม วงกลม และหกเหลี่ยม และออกแบบเขาวงกตที่ “ดูเหมือนแก้ได้แต่จริง ๆ แล้วแก้ไม่ได้” โดยเฉพาะ เพื่อฝึกความทนทานของโมเดล โมเดลต้องใช้พิกัดจุดบันทึกเส้นทางการสำรวจในแต่ละขั้นตอน และเมื่อย้อนกลับก็ต้องใช้พิกัด标记เส้นทางที่ถูกตัดออกแล้ว

ประเภทที่สี่คืองานติดตามเส้นทาง มี 125,000 ตัวอย่าง ให้ภาพที่มีเส้นโค้ง Bezier หลายเส้นตัดกัน กำหนดให้โมเดลติดตามเส้นโค้งที่เริ่มต้นจากจุดที่กำหนดไปยังจุดสิ้นสุด ความท้าทายหลักคือ “การขจัดความคลุมเครือเมื่อเส้นตัดกัน”: เมื่อสองเส้นตัดกัน โมเดลต้อง判断ว่าเส้นไหนคือความต่อเนื่องของเส้นเป้าหมาย โดยไม่พึ่งพาสีเพื่อความสะดวก — เพื่อการนี้ ทีมงานได้ออกแบบเวอร์ชันทดสอบที่เส้นโค้งทั้งหมดมีสีเดียวกันโดยเฉพาะ

ขั้นตอนการฝึกอบรม: “แยกก่อน แล้วค่อยรวม”

ในขั้นตอนหลังการฝึกอบรม ทีมงานใช้กลยุทธ์ “ทำให้เป็นผู้เชี่ยวชาญก่อน แล้วค่อยรวมเป็นหนึ่ง”

ขั้นตอนแรก ใช้ข้อมูลกรอบขอบเขตและข้อมูลพิกัดจุดแยกกัน ฝึกโมเดลผู้เชี่ยวชาญสองตัว (FTwG และ FTwP) เพื่อหลีกเลี่ยงการรบกวนซึ่งกันและกันระหว่างสองรูปแบบเมื่อมีข้อมูลน้อย

ขั้นตอนที่สอง ใช้ Reinforcement Learning (RL) แยกกันกับโมเดลผู้เชี่ยวชาญทั้งสองตัว โดยใช้อัลกอริทึม GRPO การออกแบบกลไกการให้รางวัลนั้นละเอียดมาก: รางวัลรูปแบบ (ตรวจสอบว่ารูปแบบเอาต์พุตเป็นไปตามข้อกำหนดหรือไม่), รางวัลคุณภาพ (ให้ LLM ตัดสินว่าเนื้อหาความคิดสอดคล้องกับคำตอบหรือไม่), รางวัลความแม่นยำ (สำหรับงานเฉพาะ) ทำงานร่วมกันสามทาง ในงานนับ ใช้รางวัลแบบ Smooth Exponential Decay แทนการ判断ถูกผิดแบบ二元; รางวัลของงานเขาวงกตถูกแยกย่อยเป็นห้ารายการย่อย (ความคืบหน้าในการสำรวจเชิงสาเหตุ, ความสมบูรณ์ของการสำรวจ, การลงโทษการทะลุกำแพง, ประสิทธิผลของเส้นทาง, ความถูกต้องของคำตอบ) โดยมีจุดประสงค์เพื่อให้สัญญาณการเรียนรู้ที่หนาแน่นและอุดมด้วยข้อมูลแก่โมเดล

ขั้นตอนที่สาม ใช้ข้อมูล rollout ที่สร้างโดยโมเดลผู้เชี่ยวชาญทั้งสองตัว ดำเนินการ Unified Reinforcement Fine-Tuning (Unified RFT) จากนั้นเริ่มต้นใหม่จากโมเดลที่ผ่านการ pre-training และเริ่มฝึกอบรม ในที่สุดก็ได้โมเดลรวม F

ขั้นตอนที่สี่ ใช้ On-Policy Distillation เพื่อลดช่องว่างประสิทธิภาพระหว่างโมเดลรวมและโมเดลผู้เชี่ยวชาญ — ให้โมเดลนักเรียนสร้าง trajectory ของตัวเอง จากนั้นลด KL divergence ระหว่างการกระจายเอาต์พุตของมันกับการกระจายของผู้เชี่ยวชาญ

ผลการทดลอง: เหนือกว่า GPT-5.4 ใน “โจทย์ที่ท้าทายที่สุด”

บทความได้รับการประเมินในเกณฑ์มาตรฐาน 11 รายการ เปรียบเทียบกับโมเดลหลักเช่น Gemini-3-Flash, GPT-5.4, Claude Sonnet 4.6, Gemma4-31B, Qwen3-VL-235B (โมเดล前沿ทั้งหมดประเมินผ่าน API และใช้ prompt ที่เหมือนกัน)

สรุปผลลัพธ์ดังนี้:

ในงานนับ โมเดลนี้ได้คะแนน 89.2% ใน Pixmo-Count (การจับคู่ที่แน่นอน) เกิน Gemini-3-Flash ที่ 88.2% นำหน้า GPT-5.4 ที่ 76.6% และ Claude Sonnet 4.6 ที่ 68.7% อย่างมาก ในการนับแบบละเอียด (DS_Finegrained_Counting) ได้ 88.7% เกิน Qwen3-VL ที่ 87.2% ครองอันดับหนึ่ง
ในการทดสอบการให้เหตุผลเชิงพื้นที่หลายรายการ ประสิทธิภาพโดยรวมเทียบเท่าหรือสูงกว่าโมเดลชั้นนำเล็กน้อย อยู่ในอันดับต้นใน MIHBench (85.3%) และ SpatialMQA (69.4%)
ช่องว่างที่แสดงถึงความแตกต่างมากที่สุดปรากฏในงานการให้เหตุผลเชิง拓扑 ในการนำทางเขาวงกต (DS_Maze_Navigation) โมเดลนี้ได้ 66.9% ในขณะที่ GPT-5.4 ได้ 50.6%, Gemini-3-Flash ได้ 49.4%, Claude Sonnet 4.6 ได้ 48.9% — โมเดล前沿ทั้งหมดตอบถูกเพียงประมาณครึ่งเดียว ในขณะที่โมเดลนี้เพิ่มขึ้นประมาณ 17 เปอร์เซ็นต์ ในการติดตามเส้นทาง (DS_Path_Tracing) โมเดลนี้ได้ 56.7% เทียบกับ GPT-5.4 ที่ 46.5%, Gemini-3-Flash ที่ 41.4% ช่องว่างก็มีนัยสำคัญเช่นกัน

บทความยอมรับอย่างตรงไปตรงมาว่า: “โมเดล前沿ทั้งหมดทำงานได้ไม่ดีในงานการให้เหตุผลเชิง拓扑 ซึ่งบ่งชี้ว่าความสามารถในการให้เหตุผลของโมเดลมัลติโมดัลขนาดใหญ่ยังมีพื้นที่ให้ปรับปรุงอีกมาก”

ด้านล่างนี้คือตัวอย่างเชิงคุณภาพบางส่วน:

ข้อจำกัดและอนาคต

บทความไม่ได้หลีกเลี่ยงข้อจำกัดที่ทราบกันดีหลายประการ

โมเดลปัจจุบันต้องการ “คำกระตุ้น” ที่ชัดเจนเพื่อเปิดใช้งานกลไกภาพดั้งเดิม — มันยังไม่สามารถตัดสินใจได้เองว่าเมื่อใดควร “ใช้นิ้วชี้”
เนื่องจากข้อจำกัดของความละเอียดอินพุต ในฉากภาพที่ละเอียดมาก ตำแหน่งของภาพดั้งเดิมบางครั้งก็ไม่แม่นยำเพียงพอ ทีมงานเชื่อว่าการรวมกับโซลูชันการรับรู้ความละเอียดสูงที่มีอยู่เป็นขั้นตอนต่อไปที่เป็นธรรมชาติ
การใช้พิกัดจุดเพื่อแก้ปัญหาการให้เหตุผลเชิง拓扑ที่ซับซ้อน ความสามารถในการสรุปข้ามฉากในปัจจุบันยังคงมีจำกัด

บทสรุป: “ท่าทางการคิด” แบบใหม่

ความสำคัญของบทความนี้ไม่ได้อยู่ที่การเป็นผู้นำในบางอันดับเท่านั้น

คำถามที่มันตั้งขึ้น — “ความคลุมเครือของการอ้างอิงภาษาในกระบวนการให้เหตุผลเป็นหนึ่งในคอขวดพื้นฐานของโมเดลมัลติโมดัล” — ก่อนหน้านี้ไม่ใช่กระแสหลักของวาทกรรมทางวิชาการ

ทิศทางความพยายามหลักคือโมเดลที่ใหญ่ขึ้น ความละเอียดที่สูงขึ้น ข้อมูลการฝึกอบรมที่มากขึ้น บทความนี้เปิดเส้นทางอื่น: ไม่ใช่การทำให้โมเดล “มองเห็นมากขึ้น” แต่ทำให้โมเดล “ชี้ให้แม่นยำขึ้น” ใช้พิกัดแทนคำอธิบายภาษา ใช้จุดยึดเชิงพื้นที่เพื่อทำให้ห่วงโซ่ตรรกะมั่นคง

จากมุมมองนี้ “Thinking with Visual Primitives” เปรียบเสมือนการเพิ่ม “ท่าทางการคิด” ให้กับการให้เหตุผลแบบมัลติโมดัล — ท่าทางที่มนุษย์ใช้โดยสัญชาตญาณเมื่อจัดการกับงานภาพที่ซับซ้อน แต่ AI ขาดหายไปจนถึงตอนนี้: การชี้ไปที่สิ่งที่คิด

รายละเอียดเพิ่มเติมโปรดดูบทความต้นฉบับ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง