Fast-dVLM: การแพร่กระจายแบบบล็อกพลิกโฉมการถดถอยอัตโนมัติ เพิ่มความเร็วการอนุมาน VLM ถึง 6 เท่า แบนด์วิดท์หน่วยความจำไม่เป็นอุปสรรคอีกต่อไป

4 hours ago • การอนุมานโมเดลขนาดใหญ่ • 14 views

ปัญหาหลักที่บทความนี้ต้องการแก้ไข ไม่ใช่เพียงแค่การปรับปรุงคุณภาพคำตอบของโมเดลภาษาภาพ (VLM) เท่านั้น แต่คือการขจัดข้อจำกัดด้านความเร็วในการอนุมานที่เกิดจากการถอดรหัสแบบออโตรีเกรสซีฟแบบทีละโทเค็น (token-by-token autoregressive decoding) ในการใช้งานจริงโดยสิ้นเชิง

ในช่วงสองปีที่ผ่านมา โมเดลภาษาภาพได้ก้าวข้ามฟังก์ชันการทำงานเดี่ยวๆ อย่าง “ตอบคำถามจากภาพ” ไปแล้ว และได้กลายเป็นโมดูลหลักด้านการรับรู้และการอนุมานอเนกประสงค์ในสาขาต่างๆ เช่น ปัญญาประดิษฐ์เชิงกายภาพ (Physical AI), หุ่นยนต์, ยานยนต์ไร้คนขับ, การทำความเข้าใจเอกสาร, การวิเคราะห์แผนภูมิ และตัวแทนอเนกประสงค์แบบหลายรูปแบบ (multimodal agents)

แม้ว่าระดับความชาญฉลาดของตัวโมเดลจะพัฒนาไปอย่างรวดเร็ว แต่กลไกการอนุมานของมันยังคงพึ่งพาการถอดรหัสแบบออโตรีเกรสซีฟอย่างมาก: ในแต่ละขั้นตอนจะสร้างโทเค็นเพียงหนึ่งตัว ก่อนที่จะสร้างโทเค็นถัดไป จะต้องอ่านบริบทที่สร้างไว้แล้วทั้งหมด โหลดพารามิเตอร์ทั้งหมดของโมเดล และดำเนินการคำนวณไปข้างหน้าครบหนึ่งรอบ กลไกนี้ในบริการคลาวด์แบบแบตช์ขนาดใหญ่ (large batch) ยังพอจะลดต้นทุนได้ด้วยการประมวลผลแบบกลุ่ม แต่ในสถานการณ์ Physical AI เช่น หุ่นยนต์และระบบในรถยนต์ ซึ่งขนาดแบตช์ (batch size) ถูกกำหนดให้เป็น 1 ปัญหาด้านประสิทธิภาพจะถูกขยายให้รุนแรงขึ้นอย่างมาก

Fast-dVLM: Efficient Block-Diffusion VLM via Direct Conversion from Autoregressive VLM
https://arxiv.org/abs/2604.06832
หน้าโครงการ: https://nvlabs.github.io/Fast-dLLM/fast_dvlm
คลังโค้ด: https://github.com/NVlabs/Fast-dLLM
8000 คำ อ่าน 40 นาที, พอดแคสต์ 29 นาที

บทความชี้ให้เห็นอย่างชัดเจนว่า คอขวดของการอนุมาน VLM แบบคำขอเดียว (single-request) มักไม่ได้อยู่ที่พลังการคำนวณไม่เพียงพอ แต่อยู่ที่แบนด์วิธหน่วยความจำ (memory bandwidth) ที่ถูกใช้ไปซ้ำๆ กับการถอดรหัสแบบออโตรีเกรสซีฟ ทุกครั้งที่สร้างโทเค็นหนึ่งตัว โมเดลจำเป็นต้องเรียกใช้พารามิเตอร์จำนวนมหาศาลอีกครั้ง แต่ใช้ประโยชน์จากความสามารถในการคำนวณแบบขนานของฮาร์ดแวร์เพียงส่วนน้อยเท่านั้น สิ่งนี้นำไปสู่คำถามโดยธรรมชาติ: เนื่องจากส่วนสร้างข้อความของ VLM โดยพื้นฐานแล้วยังคงเป็นการสร้างภาษาของโมเดลภาษา การนำเทคนิคการแพร่แบบไม่ต่อเนื่อง (discrete diffusion) และการสร้างแบบขนานระดับบล็อก (block-level parallel generation) ที่กำลังเฟื่องฟูในโดเมนข้อความ มาใช้กับ VLM เพื่อเปลี่ยนกระบวนทัศน์จาก “ทีละหนึ่งโทเค็น” เป็น “การลดสัญญาณรบกวนแบบขนานหลายโทเค็นภายในบล็อกเดียว” ได้หรือไม่?

Fast-dVLM ให้คำตอบที่แน่ชัด มันใช้ Qwen2.5-VL-3B เป็นฐานออโตรีเกรสซีฟ และแปลงโดยตรงเป็น block-diffusion VLM รองรับการถอดรหัสแบบขนานระดับบล็อกที่เข้ากันได้กับ KV Cache และยังรวมเอาการถอดรหัสแบบบล็อกคาดเดาตนเอง (self-speculative block decoding), การบูรณาการกับ SGLang serving และการควอนไทซ์ SmoothQuant W8A8 FP8** รายงานของบทความระบุว่า:

ในการวัดประสิทธิภาพแบบหลายรูปแบบ (multimodal benchmark) 11 รายการ คุณภาพเฉลี่ยของงานตอบสั้นของ Fast-dVLM เทียบเท่ากับเส้นฐาน AR (AR baseline)
ในสถานการณ์การอนุมานแบบลูกโซ่ยาว (long-chain reasoning) ของ MMMU-Pro-V เส้นทางระบบสุดท้ายทำความเร่งการอนุมานแบบ end-to-end ได้ 6.18× เมื่อเทียบกับเส้นฐานออโตรีเกรสซีฟ

ตารางที่ 1: การเปรียบเทียบประสิทธิภาพพื้นฐานงานตอบสั้น (ส่วนที่ 1) ตารางนี้เปรียบเทียบประสิทธิภาพของ AR กับ VLM แบบแพร่ (diffusion VLM) ในการวัดประสิทธิภาพแบบหลายรูปแบบ 8 รายการสำหรับงานตอบสั้น Fast-dVLM (MDM/การถอดรหัสแบบคาดเดา) มีประสิทธิภาพเหนือกว่าเส้นฐาน AR ในงานต่างๆ เช่น GQA, POPE และความแม่นยำเฉลี่ยใกล้เคียงกับ Qwen2.5-VL-3B ในบรรดา VLM แบบแพร่รุ่นเดียวกัน Fast-dVLM ทำผลงานได้ดีที่สุด 8 รายการจากการวัดประสิทธิภาพงานตอบสั้น 11 รายการ ซึ่งเหนือกว่าโมเดลอย่าง LaViDa, Dimple อย่างมาก ซึ่งบ่งชี้ว่าสถาปัตยกรรมแบบบล็อกแพร่ (block diffusion) สามารถรักษาความแม่นยำในงานตอบสั้นได้โดยไม่สูญเสีย พร้อมกับมีศักยภาพในการเร่งการอนุมานอย่างมีนัยสำคัญ ตารางที่ 2: การเปรียบเทียบประสิทธิภาพพื้นฐาน (ส่วนที่ 2) ตารางนี้เพิ่มการวัดประสิทธิภาพงานตอบยาว MMMU-Pro-V และเมตริก Tokens/NFE ความแม่นยำเฉลี่ยของการถอดรหัสแบบคาดเดาของ Fast-dVLM อยู่ที่ 74.0 ซึ่งเท่ากับเส้นฐาน AR ทุกประการ Tokens/NFE ถึง 2.63× และการถอดรหัส MDM อยู่ที่ 1.95× ในการอนุมานข้อความยาว การถอดรหัสแบบคาดเดาลดช่องว่างความแม่นยำลงเหลือ 1.7 คะแนน พิสูจน์ว่าการรวมบล็อกแพร่เข้ากับการถอดรหัสแบบคาดเดาตนเอง สามารถบรรเทาปัญหาความต่อเนื่องของข้อความยาวที่เกิดจากการลดสัญญาณรบกวนแบบขนานได้อย่างมีประสิทธิภาพ โดยสร้างสมดุลระหว่างความเร็วและประสิทธิภาพของข้อความยาว

คุณค่าสำคัญของ Fast-dVLM ไม่ใช่เพียงแค่นำโมเดลแพร่ (diffusion model) มาปรับใช้กับ VLM อย่างง่ายๆ แต่คือการหาจุดสมดุลที่สามารถนำไปใช้งานได้จริง: ระหว่างบล็อกยังคงใช้วิธีออโตรีเกรสซีฟเพื่อรักษา KV cache ไว้ ในขณะที่ภายในบล็อกจะใช้การแพร่แบบไม่ต่อเนื่องเพื่อสร้างแบบขนาน ซึ่งจะช่วยปลดปล่อยความขนานของฮาร์ดแวร์ได้อย่างเต็มที่

unsetunsetสารบัญunsetunset

สารบัญ
หนึ่ง: ทำไมการอนุมาน VLM ถึงต้องเปลี่ยนกระบวนทัศน์การสร้าง
สอง: ปัญหาหลัก: ทำไมการขยายโมเดลภาษาแบบแพร่ไปยัง VLM จึงยาก
สาม: การแปลงโดยตรงหรือการแปลงสองขั้นตอน: ข้อสรุปเชิงประจักษ์ที่สำคัญที่สุดของบทความ
- 3.1 เส้นทางสองขั้นตอน
- 3.2 เส้นทางโดยตรง
สี่: การออกแบบการฝึก: Fast-dVLM ทำให้บล็อกแพร่ปรับให้เข้ากับอินพุตหลายรูปแบบได้อย่างไร
- 4.1 Causal context attention: รักษาโครงสร้างเชิงเหตุผลของโมเดล AR
- 4.2 Block-size annealing: อย่าให้โมเดลจัดการกับสัญญาณรบกวนบล็อกใหญ่ตั้งแต่แรก
- 4.3 Auto-truncation mask: ป้องกันคำตอบสั้นข้ามไปยัง prompt รอบถัดไป
- 4.4 Vision-efficient concatenation: อย่าคัดลอก visual token ซ้ำสองครั้ง
- 4.5 เป้าหมายการฝึก: ข้อจำกัดร่วมกันระหว่าง diffusion loss และ causal LM loss
ห้า: กลไกการอนุมาน: จาก MDM สู่การถอดรหัสแบบบล็อกคาดเดาตนเอง
- 5.1 Causal context decoding: แต่ละบล็อกเริ่มต้นด้วย AR token หนึ่งตัว
- 5.2 การแลกเปลี่ยนเกณฑ์ของ MDM decoding
- 5.3 Self-speculative block decoding: โมเดลเดียวกันทำหน้าที่ทั้ง draft และ verify
- 5.4 SGLang และ FP8: การเพิ่มประสิทธิภาพระบบเปลี่ยนผลประโยชน์จากอัลกอริทึมเป็น end-to-end
หก: ผลการทดลอง: คุณภาพคงอยู่จริงหรือไม่
- 6.1 งานตอบสั้น: คุณภาพเฉลี่ยเทียบเท่าเส้นฐาน AR
- 6.2 งานตอบยาว: MMMU-Pro-V ยังคงเป็นจุดที่ท้าทาย
- 6.3 การทดสอบการตัดทอน (Ablation): องค์ประกอบใดสำคัญที่สุด
เจ็ด: การร้อยเรียงกลไกหลักของ Fast-dVLM เป็นห่วงโซ่เดียว
แปด: งานที่เกี่ยวข้อง: Fast-dVLM อยู่ที่จุดบรรจบของ diffusion LLM, diffusion VLM และ speculative decoding
- 8.1 โมเดลภาษาแบบแพร่ไม่ต่อเนื่อง (Discrete Diffusion Language Models)
- 8.2 โมเดลภาษาภาพแบบแพร่ (Diffusion Vision-Language Models)
- 8.3 Speculative Decoding และ Diffusion Speculative Decoding
เก้า: บทสรุปและแนวโน้มในอนาคต
- 9.1 สรุปผล
- 9.2 การวิเคราะห์เชิงลึก
- 9.3 งานในอนาคต

unsetunsetหนึ่ง: ทำไมการอนุมาน VLM ถึงต้องเปลี่ยนกระบวนทัศน์การสร้างunsetunset

ความไร้ประสิทธิภาพของการถอดรหัสแบบออโตรีเกรสซีฟไม่ใช่ปัญหาใหม่ในการอนุมานโมเดลขนาดใหญ่ แต่ในสถานการณ์ Physical AI และ VLM เอดจ์ (edge VLM) มันได้พัฒนา จากปัญหาด้านประสิทธิภาพกลายเป็นคอขวดในการปรับใช้

วิธีการอนุมานหลักของโมเดลภาษาภาพยังคงเป็นการถอดรหัสแบบออโตรีเกรสซีฟ (autoregressive decoding) สมมติว่าลำดับโทเค็นเอาต์พุตคือ โมเดลออโตรีเกรสซีฟจะแจกแจงความน่าจะเป็นดังนี้:

ซึ่งหมายความว่ากระบวนการสร้างมีการพึ่งพาแบบอนุกรมอย่างเคร่งครัด: ต้องได้ ก่อน จึงจะสร้าง ได้

สอง: ความท้าทายหลัก: เหตุใดการขยายโมเดลภาษาแบบแพร่ไปยัง VLM จึงเต็มไปด้วยอุปสรรค

ในสถานการณ์การสนทนาข้อความล้วน รูปแบบการสร้างทีละโทเค็นของการถอดรหัสแบบออโตรีเกรสซีฟก็เป็นคอขวดของปริมาณงาน (throughput) อยู่แล้ว อย่างไรก็ตาม ในโมเดลภาษาภาพ (VLM) ปัญหากลับยุ่งยากยิ่งขึ้น เนื่องจากคำนำหน้า (prefix) ไม่เพียงมีข้อความ แต่ยังรวมถึง visual token, เอาต์พุตของตัวเข้ารหัสภาพ, ประวัติการสนทนาหลายรอบ และข้อมูลพรอมต์ที่มีโครงสร้าง

บทความมุ่งเน้นไปที่สถานการณ์การใช้งาน Physical AI โดยเฉพาะ หุ่นยนต์ ยานยนต์ไร้คนขับ และตัวแทนที่มีกายภาพ (embodied agents) มักไม่จำเป็นต้องประมวลผลคำขอจำนวนมหาศาลพร้อมกันเหมือนบริการคลาวด์ พวกมันมักจะทำการอนุมานแบบเรียลไทม์บนอุปกรณ์เครื่องเดียว ประมวลผลข้อมูลการรับรู้ชุดเดียว และมีขนาดแบตช์ (batch size) เป็น 1 ในโหมดเฉพาะนี้ การถอดรหัสแบบออโตรีเกรสซีฟแสดงลักษณะเฉพาะของการถูกจำกัดด้วยแบนด์วิธหน่วยความจำ (memory-bandwidth-bound): ทุกครั้งที่สร้างโทเค็นหนึ่งตัว จะต้องกระตุ้นให้เกิดการอ่านพารามิเตอร์โมเดลทั้งหมดและการคำนวณไปข้างหน้าครบหนึ่งรอบ แต่เนื่องจากขนาดแบตช์มีขนาดเล็กมาก ความสามารถในการคำนวณแบบขนานของ Tensor Core จึงยากที่จะถูกใช้ประโยชน์อย่างเต็มที่

โมเดลภาษาแบบแพร่ (Diffusion Language Model) นำเสนอเส้นทางที่แตกต่างอย่างสิ้นเชิง แตกต่างจากโมเดลออโตรีเกรสซีฟ การแพร่แบบปิดบัง (masked diffusion) จะสุ่มปิดบังโทเค็นบางส่วน และให้โมเดลเรียนรู้วิธีการกู้คืนโทเค็นที่สะอาดจากสถานะสัญญาณรบกวน:

หากโทเค็นหลายตัวสามารถลดสัญญาณรบกวนพร้อมกันในการแพร่กระจายไปข้างหน้ารอบเดียวกัน ปริมาณงานจะไม่ถูกจำกัดอย่างเคร่งครัดด้วยกฎ “หนึ่งโทเค็นต่อการแพร่กระจายไปข้างหน้าหนึ่งครั้ง” แต่ปัญหาคือ การแพร่แบบเต็มลำดับ (full-sequence diffusion) ทั่วไปนั้นยากที่จะใช้ประโยชน์จาก KV cache แบบเพิ่มหน่วย (incremental KV cache) ได้อย่างมีประสิทธิภาพ โดยเฉพาะอย่างยิ่งในบริบทของข้อความยาว การสนทนาหลายรอบ และคำนำหน้าภาพของ VLM การใช้กลไกความสนใจแบบสองทิศทางทั่วโลก (global bidirectional attention) โดยตรงจะทำให้ระบบบริการถอยกลับไปสู่สถานะที่ไร้ประสิทธิภาพ

Fast-dVLM เลือกใช้แผนการแพร่แบบไม่ต่อเนื่องทีละบล็อก (block-wise discrete diffusion):

ลำดับถูกแบ่งออกเป็นหลายบล็อก (block) การสร้างระหว่างบล็อกยังคงเป็นไปตามลำดับ บล็อกที่สร้างเสร็จแล้วสามารถนำ KV cache กลับมาใช้ใหม่ได้
ในขณะที่ภายในแต่ละบล็อก โทเค็นทั้งหมดจะลดสัญญาณรบกวนแบบขนาน

โครงสร้างนี้คงข้อดีของโมเดลออโตรีเกรสซีฟในด้านแคชแบบเพิ่มหน่วยไว้ ในขณะเดียวกันก็ปลดปล่อยศักยภาพของโมเดลแพร่ในด้านการสร้างแบบขนานบางส่วน

รูปที่ 1: ภาพรวมของบทความ รูปนี้แสดงผลลัพธ์หลักของ Fast-dVLM ในสามมิติ: การแลกเปลี่ยนระหว่างความเร็ว-ความแม่นยำ, การวัดประสิทธิภาพหลายรายการ, และการเร่งการอนุมานแบบ end-to-end ในมิติความเร็ว-ความแม่นยำ Fast-dVLM มีความแม่นยำเทียบเท่าเส้นฐานออโตรีเกรสซีฟ (AR) ในงาน MMMU-Pro-V พร้อมกับเพิ่มความเร็วอย่างมีนัยสำคัญ ในการวัดประสิทธิภาพหลายรายการ โดยใช้ Qwen2.5-VL-3B เป็นฐาน ความแม่นยำแทบไม่สูญเสียในงานหลายรูปแบบต่างๆ ในการเร่งการอนุมาน เมื่อรวมกับ SGLang และการควอนไทซ์ FP8 ในที่สุดก็ทำความเร่งแบบ end-to-end ได้มากกว่า 6 เท่า ซึ่งยืนยันว่าสถาปัตยกรรมแบบบล็อกแพร่สามารถทะลุคอขวดปริมาณงานของการถอดรหัส AR และเหมาะอย่างยิ่งสำหรับสถานการณ์การปรับใช้ Physical AI แบบเอดจ์แบบชุดเดียว (single-batch) เช่น หุ่นยนต์และยานยนต์ไร้คนขับ

จากมุมมองของสถาปัตยกรรมระบบ เป้าหมายของ Fast-dVLM ไม่ใช่ “การแทนที่ AR VLM ทั้งหมด” แต่คือในสถานการณ์เฉพาะ เช่น ขนาดแบตช์เป็น 1, เอาต์พุตยาว, เอดจ์ หรือ Physical AI การสร้างทีละโทเค็นซึ่งเดิมถูกจำกัดด้วยแบนด์วิธหน่วยความจำ จะถูกแปลงให้เป็นการสร้างระดับบล็อกที่สามารถใช้ประโยชน์จากความสามารถในการคำนวณแบบขนานของฮาร์ดแวร์ได้มากที่สุดเท่าที่จะเป็นไปได้

สอง: ปัญหาหลัก: ทำไมการขยายโมเดลภาษาแบบแพร่ไปยัง VLM จึงยาก

โมเดลการแพร่ข้อความได้พิสูจน์ศักยภาพของการสร้างแบบขนานระดับบล็อกแล้ว แต่ VLM ไม่ใช่แค่การต่อโทเค็นภาพชุดหนึ่งเข้ากับด้านหน้าของข้อความเท่านั้น

บทความได้แยกแยะความท้าทายออกมาอย่างชัดเจน Fast-dVLM สร้างขึ้นจาก Fast-dLLM v2 แต่การขยายจาก diffusion LLM (dLLM) แบบข้อความล้วนไปยัง VLM จำเป็นต้องแก้ไขปัญหาอย่างน้อยสี่ประเภท

ประการแรก ปัญหากลยุทธ์การแปลง ควรแปลงโครงข่ายหลัก (backbone) ของ LLM เป็น diffusion LLM ก่อน แล้วจึงเชื่อมต่อโมดูลภาพเพื่อทำการปรับแต่งแบบหลายรูปแบบ (multimodal fine-tuning) หรือควรแปลง AR VLM ที่ผ่านการฝึกฝนล่วงหน้าแล้วโดยตรงในขั้นตอนเดียวเป็น diffusion VLM? นี่ไม่ใช่แค่ความชอบในขั้นตอนการฝึก แต่เป็นกุญแจสำคัญที่决定ว่าโมเดลจะสามารถรักษาความสามารถในการจัดตำแหน่งหลายรูปแบบ (multimodal alignment) ที่มีอยู่แล้วได้หรือไม่
ประการที่สอง ปัญหาขอบเขตการสนทนาหลายรอบ ข้อมูลการฝึก VLM มีคำตอบสั้นๆ จำนวนมาก เช่น คำถามแบบเลือกตอบอาจตอบเพียงตัวอักษรเดียว หากขนาดบล็อก (block size) คงที่ และความยาวของคำตอบไม่ใช่จำนวนเท่าของขนาดบล็อก บล็อกลดสัญญาณรบกวนสุดท้าย (denoising block) อาจข้ามขอบเขตของคำตอบปัจจุบันไปเห็นโทเค็นพรอมต์ของรอบถัดไป ซึ่งจะทำให้เกิดการรั่วไหลของข้อมูลในอนาคต (future information leakage) ระหว่างการฝึก
ประการที่สาม ปัญหาประสิทธิภาพการฝึก Fast-dLLM v2 ใช้การออกแบบสองสตรีม (dual-stream design) คือ noisy stream และ clean stream หากคัดลอก visual token ไปยังทั้ง noisy stream และ clean stream อย่างง่ายๆ จะสิ้นเปลืองหน่วยความจำและทรัพยากรการคำนวณจำนวนมาก ที่สำคัญกว่านั้น เอมเบดดิ้งภาพ (visual embedding) ไม่จำเป็นต้องถูกปิดบัง (mask) ดังนั้นจึงไม่จำเป็นต้องปรากฏซ้ำใน noisy stream
ประการที่สี่ ปัญหาความเข้ากันได้เชิงเหตุผล (Causal Compatibility) วิธีการแพร่แบบบล็อกหลายวิธีใช้ความสนใจบริบทระดับบล็อก (block-level context attention) กับบริบทประวัติศาสตร์ แต่สิ่งนี้จะทำลายโครงสร้างเชิงเหตุผลระดับโทเค็น (token-level causal structure) ดั้งเดิมของโมเดล AR ที่ผ่านการฝึกฝนล่วงหน้า และยังทำให้โมเดลเดียวกันไม่สามารถดำเนินการตรวจสอบ AR (AR verification) ได้อย่างเป็นธรรมชาติ ซึ่งส่งผลต่อการถอดรหัสแบบคาดเดาตนเอง (self-speculative decoding)

ตารางที่ 3: การทดสอบการตัดทอนสูตรการฝึก (Training Recipe Ablation) ตารางนี้ยืนยันบทบาทขององค์ประกอบต่างๆ เช่น causal context, auto-truncation, block-size annealing การลบ causal context ทำให้ความแม่นยำลดลงอย่างรุนแรงถึง 22.5% ซึ่งเป็นองค์ประกอบที่สำคัญที่สุด การลบ annealing ทำให้ความแม่นยำในการอนุมานข้อความยาวลดลง 32.5% การลบ auto-truncation ทำให้คะแนน MMMU ลดลง 14.4% สูตรการฝึกหลักทั้งสี่นี้ทำงานร่วมกัน: causal attention รักษาความสามารถในการอนุมาน AR, annealing ปรับปรุงเสถียรภาพภายใต้ช่วงการลดสัญญาณรบกวนขนาดใหญ่, auto-truncation ป้องกันการรั่วไหลของข้อมูลในการสนทนาหลายรอบ

ส่วนวิธีการของ Fast-dVLM โดยพื้นฐานแล้วคือการให้โซลูชันที่สามารถฝึกได้ในทางวิศวกรรมสำหรับปัญหาทั้งสี่นี้: การแปลงโดยตรง (direct conversion), causal context attention, auto-truncation mask, vision-efficient concatenation, ประกอบกับการถอดรหัสแบบบล็อกคาดเดาตนเอง (self-speculative block decoding) และบริการ SGLang

สาม: การแปลงโดยตรงหรือการแปลงสองขั้นตอน: ข้อสรุปเชิงประจักษ์ที่สำคัญที่สุดของบทความ

ข้อสรุปการฝึกที่มีค่าที่สุดของ Fast-dVLM คือ: อย่าแปลง text LLM เป็น diffusion model ก่อนแล้วค่อยสร้างความสามารถหลายรูปแบบใหม่ การแปลงโดยตรงจาก AR VLM ที่จัดตำแหน่งไว้แล้วจะมีประสิทธิภาพมากกว่า

บทความเปรียบเทียบเส้นทางการแปลงจาก AR-to-diffusion สองเส้นทางอย่างเป็นระบบ

3.1 เส้นทางสองขั้นตอน

เส้นทางสองขั้นตอนเริ่มต้นจาก AR LLM เช่น Qwen2.5-Instruct-3B ใช้ข้อมูลข้อความตามสูตรของ Fast-dLLM v2 เพื่อฝึก diffusion LLM จากนั้นจึงเชื่อมต่อตัวเข้ารหัสภาพและโปรเจกเตอร์ MLP (projector) และทำการปรับแต่งร่วมกัน (joint fine-tuning) บนข้อมูลหลายรูปแบบ เพื่อให้ได้ diffusion VLM ในที่สุด

เส้นทางนี้ดูเหมือนจะเป็น “โมดูลาร์” มากกว่า: แก้ปัญหาการแพร่ข้อความก่อน แล้วค่อยแก้ปัญหาการจัดตำแหน่งภาพ แต่มีข้อบกพร่องร้ายแรง: ขั้นตอนที่สอง实际上是ให้ diffusion LLM แบบข้อความล้วนเรียนรู้การจัดตำแหน่งระหว่างภาพและภาษาใหม่ สำหรับงบประมาณการฝึกที่จำกัด วิธีนี้มีประสิทธิภาพต่ำมาก

3.2 เส้นทางโดยตรง

เส้นทางโดยตรงเริ่มต้นจาก AR VLM ที่สมบูรณ์และผ่านการฝึกฝนล่วงหน้าแล้ว (เช่น Qwen2.5-VL-3B) และแปลงเป็น block diffusion VLM ในครั้งเดียวบนข้อมูลหลายรูปแบบ ข้อดีของมันคือสืบทอดความสามารถในการจัดตำแหน่งภาพ-ภาษาที่ VLM ที่มีอยู่เรียนรู้ระหว่างการฝึกฝนล่วงหน้า กระบวนการฝึกจำเป็นต้องปรับให้เข้ากับกระบวนทัศน์การสร้างเท่านั้น ไม่ใช่การสร้างสะพานเชื่อมความหมายหลายรูปแบบขึ้นใหม่

รูปที่ 2: กลยุทธ์การแปลงสองแบบ รูปนี้เปรียบเทียบเส้นทางการแปลงสองขั้นตอนกับการแปลงโดยตรง เส้นทางสองขั้นตอนจะทำการปรับแต่งแบบแพร่ข้อความล้วน (text diffusion fine-tuning) บน LLM ก่อน จากนั้นจึงเชื่อมต่อตัวเข้ารหัสภาพเพื่อทำการปรับแต่งแบบหลายรูปแบบ การแปลงโดยตรงจะแปลง AR VLM ที่ผ่านการฝึกฝนล่วงหน้าอย่างสมบูรณ์เป็น block diffusion model ในขั้นตอนเดียว การทดลองในบทความยืนยันว่าภายใต้งบประมาณการฝึกที่เท่ากัน ประสิทธิภาพของการแปลงโดยตรงสูงกว่าแบบสองขั้นตอนมาก เนื่องจากใช้ความสามารถในการจัดตำแหน่งภาพ-ข้อความที่ผ่านการฝึกฝนล่วงหน้าโดยตรง โดยไม่ต้องสร้างความสัมพันธ์หลายรูปแบบขึ้นใหม่จากศูนย์ ในที่สุด การแปลงโดยตรงถูกกำหนดให้เป็นเส้นทางเทคนิคหลักของ Fast-dVLM ซึ่งช่วยลดความซับซ้อนของกระบวนการและเพิ่มประสิทธิภาพ

ผลการทดลองชัดเจนมาก ในการวัดประสิทธิภาพ 10 รายการ คะแนนเฉลี่ยของเส้นทางโดยตรงคือ 73.3 ในขณะที่เส้นทางสองขั้นตอนมีเพียง 60.2 เส้นทางโดยตรงมีประสิทธิภาพเหนือกว่าเส้นทางสองขั้นตอนในการวัดประสิทธิภาพทั้ง 10 รายการ งานที่มีช่องว่างมากที่สุด ได้แก่ DocVQA, ChartQA และ AI2D โดยบทความรายงานข้อได้เปรียบที่ +31.5, +21.4 และ +18.1 ตามลำดับ

รูปที่ 4: การเปรียบเทียบการแปลงโดยตรงกับการแปลงสองขั้นตอนในการวัดประสิทธิภาพ 10 รายการ แผนภาพเรดาร์แสดงให้เห็นอย่างชัดเจนว่าคะแนนเฉลี่ยของการแปลงโดยตรงคือ 73.3 ในขณะที่เส้นทางสองขั้นตอนมีเพียง 60.2 ในงานที่ต้องใช้การอนุมานสูง เช่น DocVQA, ChartQA, AI2D ช่องว่างระหว่างทั้งสองมากกว่า 18 คะแนน ข้อมูลการฝึกและงบประมาณการคำนวณของการทดลองทั้งสองกลุ่มเหมือนกันทุกประการ สาเหตุที่การแปลงโดยตรงชนะคือมันสืบทอดความรู้ก่อนหน้า (prior knowledge) เกี่ยวกับการจัดตำแหน่งหลายรูปแบบจาก VLM ที่ผ่านการฝึกฝนล่วงหน้า โดยไม่จำเป็นต้องเรียนรู้ความสัมพันธ์ระหว่างภาพและข้อความใหม่ ซึ่งพิสูจน์ให้เห็นถึงข้อได้เปรียบด้านประสิทธิภาพการฝึกของการแปลงโดยตรง และเป็นพื้นฐานหลักในการเลือกใช้ Fast-dVLM

ชุดผลลัพธ์นี้แสดงให้เห็นอย่างชัดเจนว่า ความสามารถในการจัดตำแหน่งหลายรูปแบบของ VLM ไม่ใช่โมดูลเสริมที่สามารถสร้างขึ้นใหม่ได้ง่ายๆ ผ่านการฝึกในระยะเวลาอันสั้น สำหรับ diffusion VLM เส้นทางที่มีประสิทธิภาพมากที่สุดไม่ใช่ “เริ่มจากโมเดลการแพร่ข้อความแล้วเชื่อมต่อโมดูลภาพ” แต่คือ “เริ่มจาก AR VLM ที่จัดตำแหน่งหลายรูปแบบเสร็จแล้ว และปรับเปลี่ยนกลไกการสร้างโดยตรง”

เส้นทางโดยตรงชนะ: ประสบการณ์การฝึกหลัก

ชัยชนะในที่สุดของเส้นทางการแปลงโดยตรงถือเป็นข้อมูลเชิงลึกด้านการฝึกที่สำคัญที่สุดของ Fast-dVLM ทั้งหมด: สามารถเพิ่มเป้าหมายการแพร่ (diffusion objective) ในภายหลังได้ แต่ควรหลีกเลี่ยงการเริ่มต้นการจัดตำแหน่งหลายรูปแบบจากศูนย์

ผู้เขียนบทความยังคงมีท่าทีระมัดระวังในเรื่องนี้ พวกเขาไม่ได้ยืนยันว่าเพดานประสิทธิภาพของเส้นทางการฝึกสองขั้นตอนจะต้องต่ำกว่า แต่เสนอสมมติฐานว่า: เส้นทางทั้งสองอาจมีเพดานสุดท้ายที่คล้ายคลึงกัน ความแตกต่างหลักอยู่ที่ประสิทธิภาพการใช้ประโยชน์จากงบประมาณการฝึก ภายใต้เงื่อนไขงบประมาณการฝึกที่เท่ากันหรือเทียบเคียงได้ เส้นทางโดยตรงย่อมคุ้มค่ากว่า ดังนั้นจึงถูกกำหนดให้เป็นสูตรการฝึก (recipe) เริ่มต้น

สี่: การออกแบบการฝึก: Fast-dVLM ทำให้บล็อกแพร่ปรับให้เข้ากับอินพุตหลายรูปแบบได้อย่างไร

แผนการฝึกของ Fast-dVLM ไม่ใช่เทคนิคเดียว แต่เป็นระบบข้อจำกัดที่ทำงานร่วมกัน: โทเค็นใดที่สามารถถูกปิดบัง (mask) ได้ บริบทใดที่ต้องคงความเป็นเหตุเป็นผล (causality) และ visual token ใดที่ไม่ควรถูกทำซ้ำ

กำหนดให้อินพุตเต็มคือ:

โดยที่ คือเวกเตอร์เอมเบดดิ้งของ visual token และ คือเวกเตอร์เอมเบดดิ้งของ text token Fast-dVLM จะกัดกร่อน (corrupt) เฉพาะ response text token เพื่อสร้าง noisy stream และต่อเข้ากับ clean stream เป็น:

โปรดทราบว่า noisy stream ที่นี่มีเฉพาะตำแหน่งข้อความ ไม่มี visual token ซ้ำ ซึ่งสอดคล้องกับ “vision-efficient concatenation” ที่จะกล่าวถึงต่อไป

รูปที่ 3: สถาปัตยกรรมการฝึกและมาสก์ความสนใจ (ขนาดบล็อก) ของ Fast-dVLM รูปนี้แสดงสถาปัตยกรรมการฝึกแบบสองสตรีม (noise+clean) และกฎมาสก์ความสนใจสามประเภท visual token จะถูกเก็บไว้ใน clean stream เท่านั้น noisy stream มีเฉพาะ text token เท่านั้น ใช้การลดสัญญาณรบกวนแบบขนานสองทิศทางภายในบล็อก ให้ noisy token สนใจข้อมูลภาพและข้อความที่สะอาดด้านหน้า รักษาความสนใจเชิงเหตุผลของ clean stream การออกแบบนี้ไม่สูญเสียความแม่นยำ แต่ลดหน่วยความจำสูงสุด (peak memory) ลง 15.0% ลดเวลาในการฝึกลง 14.2% และยังคงความสามารถในการถอดรหัส AR เพื่อรองรับการตรวจสอบแบบคาดเดาตนเอง (self-speculative verification) ซึ่งเป็นนวัตกรรมทางสถาปัตยกรรมที่สำคัญของ block diffusion แบบหลายรูปแบบ

4.1 Causal context attention: รักษาโครงสร้างเชิงเหตุผลของโมเดล AR

มาสก์ความสนใจ (attention mask) ระหว่างการฝึกประกอบด้วยสามส่วน

: noisy tokens ภายในบล็อกเดียวกัน (same block) ทำการคำนวณความสนใจแบบสองทิศทาง (bidirectional attention) เพื่อใช้ในการลดสัญญาณรบกวนแบบขนาน
: noisy tokens สามารถสนใจ clean blocks ทั้งหมดที่อยู่ข้างหน้า ซึ่งรวมถึง visual token
: clean tokens ยังคงใช้ความสนใจเชิงเหตุผลระดับโทเค็น (token-level causal attention) ต่อไป

แตกต่างจากวิธีการแพร่แบบบล็อก (block diffusion) บางวิธี Fast-dVLM ไม่ได้ใช้ความสนใจบริบทระดับบล็อก (block-level context attention) กับบริบทก่อนหน้าทั้งหมด แต่ยังคงความสนใจเชิงเหตุผล (causal attention) ไว้ สิ่งนี้มีความสำคัญอย่างยิ่งต่อการบรรลุเป้าหมายสองประการ: หนึ่งคือการปกป้องการแสดงลำดับการอนุมาน (sequential reasoning representation) ที่ AR VLM เรียนรู้จากการฝึกฝนล่วงหน้า สองคือการทำให้โมเดลเดียวกันยังคงสามารถดำเนินการถอดรหัสแบบออโตรีเกรสซีฟ (AR decoding) เพื่อใช้ในการตรวจสอบแบบคาดเดาตนเอง (self-speculative verification)

ผลการทดสอบการตัดทอน (ablation) ก็ยืนยันประเด็นนี้เช่นกัน หากลบ causal context และเปลี่ยนเป็นใช้ความสนใจแบบสองทิศทางระดับบล็อกกับบริบทก่อนหน้า จะทำให้คะแนนเฉลี่ยลดลงอย่างรวดเร็วจาก 57.3 เหลือ 44.4 หรือลดลงถึง 22.5%

ในการวัดประสิทธิภาพ MMMU-Pro-V ประสิทธิภาพลดลง 58.9% ใน SeedBench2+ ลดลง 39.5% สิ่งนี้แสดงให้เห็นอย่างเต็มที่ว่า causal context ไม่ใช่รายการเสริมที่ขาดไม่ได้ แต่เป็นองค์ประกอบหลักในการรักษาความสามารถในการอนุมานของโมเดล

4.2 Block-size annealing: อย่าให้โมเดลจัดการกับสัญญาณรบกวนบล็อกใหญ่ตั้งแต่แรก

Fast-dVLM ใช้กลยุทธ์หลักสูตรขนาดบล็อก (block size curriculum) ขนาดบล็อกที่เป็นตัวเลือกคือ:

เมื่อความคืบหน้าของการฝึกคือ ขนาดบล็อกปัจจุบันคำนวณได้ดังนี้:

แนวคิดคือ ให้โมเดลเรียนรู้งานลดสัญญาณรบกวนแบบละเอียดในบล็อกเล็กก่อน จากนั้นค่อยๆ เปลี่ยนไปจัดการกับการกัดกร่อนแบบช่วงยาว (long-span) ขนาดบล็อกเป้าหมายถูกกำหนดเป็น

การทดสอบการตัดทอนแสดงให้เห็นว่าหากใช้ขนาดบล็อกเป้าหมาย 32 ในการฝึกโดยตรงโดยไม่ใช้กลยุทธ์ annealing คะแนนเฉลี่ยจะลดลง 4.4% โดยเฉพาะใน MMMU-Pro-V ลดลงมากถึง 32.5% งานอนุมานแบบยาว (long reasoning tasks) มีความ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง