ปัญหาหลักที่บทความนี้ต้องการแก้ไข ไม่ใช่เพียงแค่การปรับปรุงคุณภาพคำตอบของโมเดลภาษาภาพ (VLM) เท่านั้น แต่คือการขจัดข้อจำกัดด้านความเร็วในการอนุมานที่เกิดจากการถอดรหัสแบบออโตรีเกรสซีฟแบบทีละโทเค็น (token-by-token autoregressive decoding) ในการใช้งานจริงโดยสิ้นเชิง
ในช่วงสองปีที่ผ่านมา โมเดลภาษาภาพได้ก้าวข้ามฟังก์ชันการทำงานเดี่ยวๆ อย่าง “ตอบคำถามจากภาพ” ไปแล้ว และได้กลายเป็นโมดูลหลักด้านการรับรู้และการอนุมานอเนกประสงค์ในสาขาต่างๆ เช่น ปัญญาประดิษฐ์เชิงกายภาพ (Physical AI), หุ่นยนต์, ยานยนต์ไร้คนขับ, การทำความเข้าใจเอกสาร, การวิเคราะห์แผนภูมิ และตัวแทนอเนกประสงค์แบบหลายรูปแบบ (multimodal agents)
แม้ว่าระดับความชาญฉลาดของตัวโมเดลจะพัฒนาไปอย่างรวดเร็ว แต่กลไกการอนุมานของมันยังคงพึ่งพาการถอดรหัสแบบออโตรีเกรสซีฟอย่างมาก: ในแต่ละขั้นตอนจะสร้างโทเค็นเพียงหนึ่งตัว ก่อนที่จะสร้างโทเค็นถัดไป จะต้องอ่านบริบทที่สร้างไว้แล้วทั้งหมด โหลดพารามิเตอร์ทั้งหมดของโมเดล และดำเนินการคำนวณไปข้างหน้าครบหนึ่งรอบ กลไกนี้ในบริการคลาวด์แบบแบตช์ขนาดใหญ่ (large batch) ยังพอจะลดต้นทุนได้ด้วยการประมวลผลแบบกลุ่ม แต่ในสถานการณ์ Physical AI เช่น หุ่นยนต์และระบบในรถยนต์ ซึ่งขนาดแบตช์ (batch size) ถูกกำหนดให้เป็น 1 ปัญหาด้านประสิทธิภาพจะถูกขยายให้รุนแรงขึ้นอย่างมาก
- Fast-dVLM: Efficient Block-Diffusion VLM via Direct Conversion from Autoregressive VLM
- https://arxiv.org/abs/2604.06832
- หน้าโครงการ: https://nvlabs.github.io/Fast-dLLM/fast_dvlm
- คลังโค้ด: https://github.com/NVlabs/Fast-dLLM
- 8000 คำ อ่าน 40 นาที, พอดแคสต์ 29 นาที
บทความชี้ให้เห็นอย่างชัดเจนว่า คอขวดของการอนุมาน VLM แบบคำขอเดียว (single-request) มักไม่ได้อยู่ที่พลังการคำนวณไม่เพียงพอ แต่อยู่ที่แบนด์วิธหน่วยความจำ (memory bandwidth) ที่ถูกใช้ไปซ้ำๆ กับการถอดรหัสแบบออโตรีเกรสซีฟ ทุกครั้งที่สร้างโทเค็นหนึ่งตัว โมเดลจำเป็นต้องเรียกใช้พารามิเตอร์จำนวนมหาศาลอีกครั้ง แต่ใช้ประโยชน์จากความสามารถในการคำนวณแบบขนานของฮาร์ดแวร์เพียงส่วนน้อยเท่านั้น สิ่งนี้นำไปสู่คำถามโดยธรรมชาติ: เนื่องจากส่วนสร้างข้อความของ VLM โดยพื้นฐานแล้วยังคงเป็นการสร้างภาษาของโมเดลภาษา การนำเทคนิคการแพร่แบบไม่ต่อเนื่อง (discrete diffusion) และการสร้างแบบขนานระดับบล็อก (block-level parallel generation) ที่กำลังเฟื่องฟูในโดเมนข้อความ มาใช้กับ VLM เพื่อเปลี่ยนกระบวนทัศน์จาก “ทีละหนึ่งโทเค็น” เป็น “การลดสัญญาณรบกวนแบบขนานหลายโทเค็นภายในบล็อกเดียว” ได้หรือไม่?
Fast-dVLM ให้คำตอบที่แน่ชัด มันใช้ Qwen2.5-VL-3B เป็นฐานออโตรีเกรสซีฟ และแปลงโดยตรงเป็น block-diffusion VLM รองรับการถอดรหัสแบบขนานระดับบล็อกที่เข้ากันได้กับ KV Cache และยังรวมเอาการถอดรหัสแบบบล็อกคาดเดาตนเอง (self-speculative block decoding), การบูรณาการกับ SGLang serving และการควอนไทซ์ SmoothQuant W8A8 FP8** รายงานของบทความระบุว่า:
- ในการวัดประสิทธิภาพแบบหลายรูปแบบ (multimodal benchmark) 11 รายการ คุณภาพเฉลี่ยของงานตอบสั้นของ Fast-dVLM เทียบเท่ากับเส้นฐาน AR (AR baseline)
- ในสถานการณ์การอนุมานแบบลูกโซ่ยาว (long-chain reasoning) ของ MMMU-Pro-V เส้นทางระบบสุดท้ายทำความเร่งการอนุมานแบบ end-to-end ได้ 6.18× เมื่อเทียบกับเส้นฐานออโตรีเกรสซีฟ
ตารางที่ 1: การเปรียบเทียบประสิทธิภาพพื้นฐานงานตอบสั้น (ส่วนที่ 1) ตารางนี้เปรียบเทียบประสิทธิภาพของ AR กับ VLM แบบแพร่ (diffusion VLM) ในการวัดประสิทธิภาพแบบหลายรูปแบบ 8 รายการสำหรับงานตอบสั้น Fast-dVLM (MDM/การถอดรหัสแบบคาดเดา) มีประสิทธิภาพเหนือกว่าเส้นฐาน AR ในงานต่างๆ เช่น GQA, POPE และความแม่นยำเฉลี่ยใกล้เคียงกับ Qwen2.5-VL-3B ในบรรดา VLM แบบแพร่รุ่นเดียวกัน Fast-dVLM ทำผลงานได้ดีที่สุด 8 รายการจากการวัดประสิทธิภาพงานตอบสั้น 11 รายการ ซึ่งเหนือกว่าโมเดลอย่าง LaViDa, Dimple อย่างมาก ซึ่งบ่งชี้ว่าสถาปัตยกรรมแบบบล็อกแพร่ (block diffusion) สามารถรักษาความแม่นยำในงานตอบสั้นได้โดยไม่สูญเสีย พร้อมกับมีศักยภาพในการเร่งการอนุมานอย่างมีนัยสำคัญ ตารางที่ 2: การเปรียบเทียบประสิทธิภาพพื้นฐาน (ส่วนที่ 2) ตารางนี้เพิ่มการวัดประสิทธิภาพงานตอบยาว MMMU-Pro-V และเมตริก Tokens/NFE ความแม่นยำเฉลี่ยของการถอดรหัสแบบคาดเดาของ Fast-dVLM อยู่ที่ 74.0 ซึ่งเท่ากับเส้นฐาน AR ทุกประการ Tokens/NFE ถึง 2.63× และการถอดรหัส MDM อยู่ที่ 1.95× ในการอนุมานข้อความยาว การถอดรหัสแบบคาดเดาลดช่องว่างความแม่นยำลงเหลือ 1.7 คะแนน พิสูจน์ว่าการรวมบล็อกแพร่เข้ากับการถอดรหัสแบบคาดเดาตนเอง สามารถบรรเทาปัญหาความต่อเนื่องของข้อความยาวที่เกิดจากการลดสัญญาณรบกวนแบบขนานได้อย่างมีประสิทธิภาพ โดยสร้างสมดุลระหว่างความเร็วและประสิทธิภาพของข้อความยาว
คุณค่าสำคัญของ Fast-dVLM ไม่ใช่เพียงแค่นำโมเดลแพร่ (diffusion model) มาปรับใช้กับ VLM อย่างง่ายๆ แต่คือการหาจุดสมดุลที่สามารถนำไปใช้งานได้จริง: ระหว่างบล็อกยังคงใช้วิธีออโตรีเกรสซีฟเพื่อรักษา KV cache ไว้ ในขณะที่ภายในบล็อกจะใช้การแพร่แบบไม่ต่อเนื่องเพื่อสร้างแบบขนาน ซึ่งจะช่วยปลดปล่อยความขนานของฮาร์ดแวร์ได้อย่างเต็มที่
unsetunsetสารบัญunsetunset
- สารบัญ
- หนึ่ง: ทำไมการอนุมาน VLM ถึงต้องเปลี่ยนกระบวนทัศน์การสร้าง
- สอง: ปัญหาหลัก: ทำไมการขยายโมเดลภาษาแบบแพร่ไปยัง VLM จึงยาก
- สาม: การแปลงโดยตรงหรือการแปลงสองขั้นตอน: ข้อสรุปเชิงประจักษ์ที่สำคัญที่สุดของบทความ
- 3.1 เส้นทางสองขั้นตอน
- 3.2 เส้นทางโดยตรง
- สี่: การออกแบบการฝึก: Fast-dVLM ทำให้บล็อกแพร่ปรับให้เข้ากับอินพุตหลายรูปแบบได้อย่างไร
- 4.1 Causal context attention: รักษาโครงสร้างเชิงเหตุผลของโมเดล AR
- 4.2 Block-size annealing: อย่าให้โมเดลจัดการกับสัญญาณรบกวนบล็อกใหญ่ตั้งแต่แรก
- 4.3 Auto-truncation mask: ป้องกันคำตอบสั้นข้ามไปยัง prompt รอบถัดไป
- 4.4 Vision-efficient concatenation: อย่าคัดลอก visual token ซ้ำสองครั้ง
- 4.5 เป้าหมายการฝึก: ข้อจำกัดร่วมกันระหว่าง diffusion loss และ causal LM loss
- ห้า: กลไกการอนุมาน: จาก MDM สู่การถอดรหัสแบบบล็อกคาดเดาตนเอง
- 5.1 Causal context decoding: แต่ละบล็อกเริ่มต้นด้วย AR token หนึ่งตัว
- 5.2 การแลกเปลี่ยนเกณฑ์ของ MDM decoding
- 5.3 Self-speculative block decoding: โมเดลเดียวกันทำหน้าที่ทั้ง draft และ verify
- 5.4 SGLang และ FP8: การเพิ่มประสิทธิภาพระบบเปลี่ยนผลประโยชน์จากอัลกอริทึมเป็น end-to-end
- หก: ผลการทดลอง: คุณภาพคงอยู่จริงหรือไม่
- 6.1 งานตอบสั้น: คุณภาพเฉลี่ยเทียบเท่าเส้นฐาน AR
- 6.2 งานตอบยาว: MMMU-Pro-V ยังคงเป็นจุดที่ท้าทาย
- 6.3 การทดสอบการตัดทอน (Ablation): องค์ประกอบใดสำคัญที่สุด
- เจ็ด: การร้อยเรียงกลไกหลักของ Fast-dVLM เป็นห่วงโซ่เดียว
- แปด: งานที่เกี่ยวข้อง: Fast-dVLM อยู่ที่จุดบรรจบของ diffusion LLM, diffusion VLM และ speculative decoding
- 8.1 โมเดลภาษาแบบแพร่ไม่ต่อเนื่อง (Discrete Diffusion Language Models)
- 8.2 โมเดลภาษาภาพแบบแพร่ (Diffusion Vision-Language Models)
- 8.3 Speculative Decoding และ Diffusion Speculative Decoding
- เก้า: บทสรุปและแนวโน้มในอนาคต
- 9.1 สรุปผล
- 9.2 การวิเคราะห์เชิงลึก
- 9.3 งานในอนาคต
unsetunsetหนึ่ง: ทำไมการอนุมาน VLM ถึงต้องเปลี่ยนกระบวนทัศน์การสร้างunsetunset
ความไร้ประสิทธิภาพของการถอดรหัสแบบออโตรีเกรสซีฟไม่ใช่ปัญหาใหม่ในการอนุมานโมเดลขนาดใหญ่ แต่ในสถานการณ์ Physical AI และ VLM เอดจ์ (edge VLM) มันได้พัฒนา จากปัญหาด้านประสิทธิภาพกลายเป็นคอขวดในการปรับใช้
วิธีการอนุมานหลักของโมเดลภาษาภาพยังคงเป็นการถอดรหัสแบบออโตรีเกรสซีฟ (autoregressive decoding) สมมติว่าลำดับโทเค็นเอาต์พุตคือ โมเดลออโตรีเกรสซีฟจะแจกแจงความน่าจะเป็นดังนี้:
ซึ่งหมายความว่ากระบวนการสร้างมีการพึ่งพาแบบอนุกรมอย่างเคร่งครัด: ต้องได้ ก่อน จึงจะสร้าง ได้
สอง: ความท้าทายหลัก: เหตุใดการขยายโมเดลภาษาแบบแพร่ไปยัง VLM จึงเต็มไปด้วยอุปสรรค
ในสถานการณ์การสนทนาข้อความล้วน รูปแบบการสร้างทีละโทเค็นของการถอดรหัสแบบออโตรีเกรสซีฟก็เป็นคอขวดของปริมาณงาน (throughput) อยู่แล้ว อย่างไรก็ตาม ในโมเดลภาษาภาพ (VLM) ปัญหากลับยุ่งยากยิ่งขึ้น เนื่องจากคำนำหน้า (prefix) ไม่เพียงมีข้อความ แต่ยังรวมถึง visual token, เอาต์พุตของตัวเข้ารหัสภาพ, ประวัติการสนทนาหลายรอบ และข้อมูลพรอมต์ที่มีโครงสร้าง
บทความมุ่งเน้นไปที่สถานการณ์การใช้งาน Physical AI โดยเฉพาะ หุ่นยนต์ ยานยนต์ไร้คนขับ และตัวแทนที่มีกายภาพ (embodied agents) มักไม่จำเป็นต้องประมวลผลคำขอจำนวนมหาศาลพร้อมกันเหมือนบริการคลาวด์ พวกมันมักจะทำการอนุมานแบบเรียลไทม์บนอุปกรณ์เครื่องเดียว ประมวลผลข้อมูลการรับรู้ชุดเดียว และมีขนาดแบตช์ (batch size) เป็น 1 ในโหมดเฉพาะนี้ การถอดรหัสแบบออโตรีเกรสซีฟแสดงลักษณะเฉพาะของการถูกจำกัดด้วยแบนด์วิธหน่วยความจำ (memory-bandwidth-bound): ทุกครั้งที่สร้างโทเค็นหนึ่งตัว จะต้องกระตุ้นให้เกิดการอ่านพารามิเตอร์โมเดลทั้งหมดและการคำนวณไปข้างหน้าครบหนึ่งรอบ แต่เนื่องจากขนาดแบตช์มีขนาดเล็กมาก ความสามารถในการคำนวณแบบขนานของ Tensor Core จึงยากที่จะถูกใช้ประโยชน์อย่างเต็มที่
โมเดลภาษาแบบแพร่ (Diffusion Language Model) นำเสนอเส้นทางที่แตกต่างอย่างสิ้นเชิง แตกต่างจากโมเดลออโตรีเกรสซีฟ การแพร่แบบปิดบัง (masked diffusion) จะสุ่มปิดบังโทเค็นบางส่วน และให้โมเดลเรียนรู้วิธีการกู้คืนโทเค็นที่สะอาดจากสถานะสัญญาณรบกวน:
หากโทเค็นหลายตัวสามารถลดสัญญาณรบกวนพร้อมกันในการแพร่กระจายไปข้างหน้ารอบเดียวกัน ปริมาณงานจะไม่ถูกจำกัดอย่างเคร่งครัดด้วยกฎ “หนึ่งโทเค็นต่อการแพร่กระจายไปข้างหน้าหนึ่งครั้ง” แต่ปัญหาคือ การแพร่แบบเต็มลำดับ (full-sequence diffusion) ทั่วไปนั้นยากที่จะใช้ประโยชน์จาก KV cache แบบเพิ่มหน่วย (incremental KV cache) ได้อย่างมีประสิทธิภาพ โดยเฉพาะอย่างยิ่งในบริบทของข้อความยาว การสนทนาหลายรอบ และคำนำหน้าภาพของ VLM การใช้กลไกความสนใจแบบสองทิศทางทั่วโลก (global bidirectional attention) โดยตรงจะทำให้ระบบบริการถอยกลับไปสู่สถานะที่ไร้ประสิทธิภาพ
Fast-dVLM เลือกใช้แผนการแพร่แบบไม่ต่อเนื่องทีละบล็อก (block-wise discrete diffusion):
- ลำดับถูกแบ่งออกเป็นหลายบล็อก (block) การสร้างระหว่างบล็อกยังคงเป็นไปตามลำดับ บล็อกที่สร้างเสร็จแล้วสามารถนำ KV cache กลับมาใช้ใหม่ได้
- ในขณะที่ภายในแต่ละบล็อก โทเค็นทั้งหมดจะลดสัญญาณรบกวนแบบขนาน
โครงสร้างนี้คงข้อดีของโมเดลออโตรีเกรสซีฟในด้านแคชแบบเพิ่มหน่วยไว้ ในขณะเดียวกันก็ปลดปล่อยศักยภาพของโมเดลแพร่ในด้านการสร้างแบบขนานบางส่วน
รูปที่ 1: ภาพรวมของบทความ รูปนี้แสดงผลลัพธ์หลักของ Fast-dVLM ในสามมิติ: การแลกเปลี่ยนระหว่างความเร็ว-ความแม่นยำ, การวัดประสิทธิภาพหลายรายการ, และการเร่งการอนุมานแบบ end-to-end ในมิติความเร็ว-ความแม่นยำ Fast-dVLM มีความแม่นยำเทียบเท่าเส้นฐานออโตรีเกรสซีฟ (AR) ในงาน MMMU-Pro-V พร้อมกับเพิ่มความเร็วอย่างมีนัยสำคัญ ในการวัดประสิทธิภาพหลายรายการ โดยใช้ Qwen2.5-VL-3B เป็นฐาน ความแม่นยำแทบไม่สูญเสียในงานหลายรูปแบบต่างๆ ในการเร่งการอนุมาน เมื่อรวมกับ SGLang และการควอนไทซ์ FP8 ในที่สุดก็ทำความเร่งแบบ end-to-end ได้มากกว่า 6 เท่า ซึ่งยืนยันว่าสถาปัตยกรรมแบบบล็อกแพร่สามารถทะลุคอขวดปริมาณงานของการถอดรหัส AR และเหมาะอย่างยิ่งสำหรับสถานการณ์การปรับใช้ Physical AI แบบเอดจ์แบบชุดเดียว (single-batch) เช่น หุ่นยนต์และยานยนต์ไร้คนขับ
จากมุมมองของสถาปัตยกรรมระบบ เป้าหมายของ Fast-dVLM ไม่ใช่ “การแทนที่ AR VLM ทั้งหมด” แต่คือในสถานการณ์เฉพาะ เช่น ขนาดแบตช์เป็น 1, เอาต์พุตยาว, เอดจ์ หรือ Physical AI การสร้างทีละโทเค็นซึ่งเดิมถูกจำกัดด้วยแบนด์วิธหน่วยความจำ จะถูกแปลงให้เป็นการสร้างระดับบล็อกที่สามารถใช้ประโยชน์จากความสามารถในการคำนวณแบบขนานของฮาร์ดแวร์ได้มากที่สุดเท่าที่จะเป็นไปได้
สอง: ปัญหาหลัก: ทำไมการขยายโมเดลภาษาแบบแพร่ไปยัง VLM จึงยาก
โมเดลการแพร่ข้อความได้พิสูจน์ศักยภาพของการสร้างแบบขนานระดับบล็อกแล้ว แต่ VLM ไม่ใช่แค่การต่อโทเค็นภาพชุดหนึ่งเข้ากับด้านหน้าของข้อความเท่านั้น
บทความได้แยกแยะความท้าทายออกมาอย่างชัดเจน Fast-dVLM สร้างขึ้นจาก Fast-dLLM v2 แต่การขยายจาก diffusion LLM (dLLM) แบบข้อความล้วนไปยัง VLM จำเป็นต้องแก้ไขปัญหาอย่างน้อยสี่ประเภท
- ประการแรก ปัญหากลยุทธ์การแปลง ควรแปลงโครงข่ายหลัก (backbone) ของ LLM เป็น diffusion LLM ก่อน แล้วจึงเชื่อมต่อโมดูลภาพเพื่อทำการปรับแต่งแบบหลายรูปแบบ (multimodal fine-tuning) หรือควรแปลง AR VLM ที่ผ่านการฝึกฝนล่วงหน้าแล้วโดยตรงในขั้นตอนเดียวเป็น diffusion VLM? นี่ไม่ใช่แค่ความชอบในขั้นตอนการฝึก แต่เป็นกุญแจสำคัญที่决定ว่าโมเดลจะสามารถรักษาความสามารถในการจัดตำแหน่งหลายรูปแบบ (multimodal alignment) ที่มีอยู่แล้วได้หรือไม่
- ประการที่สอง ปัญหาขอบเขตการสนทนาหลายรอบ ข้อมูลการฝึก VLM มีคำตอบสั้นๆ จำนวนมาก เช่น คำถามแบบเลือกตอบอาจตอบเพียงตัวอักษรเดียว หากขนาดบล็อก (block size) คงที่ และความยาวของคำตอบไม่ใช่จำนวนเท่าของขนาดบล็อก บล็อกลดสัญญาณรบกวนสุดท้าย (denoising block) อาจข้ามขอบเขตของคำตอบปัจจุบันไปเห็นโทเค็นพรอมต์ของรอบถัดไป ซึ่งจะทำให้เกิดการรั่วไหลของข้อมูลในอนาคต (future information leakage) ระหว่างการฝึก
- ประการที่สาม ปัญหาประสิทธิภาพการฝึก Fast-dLLM v2 ใช้การออกแบบสองสตรีม (dual-stream design) คือ noisy stream และ clean stream หากคัดลอก visual token ไปยังทั้ง noisy stream และ clean stream อย่างง่ายๆ จะสิ้นเปลืองหน่วยความจำและทรัพยากรการคำนวณจำนวนมาก ที่สำคัญกว่านั้น เอมเบดดิ้งภาพ (visual embedding) ไม่จำเป็นต้องถูกปิดบัง (mask) ดังนั้นจึงไม่จำเป็นต้องปรากฏซ้ำใน noisy stream
- ประการที่สี่ ปัญหาความเข้ากันได้เชิงเหตุผล (Causal Compatibility) วิธีการแพร่แบบบล็อกหลายวิธีใช้ความสนใจบริบทระดับบล็อก (block-level context attention) กับบริบทประวัติศาสตร์ แต่สิ่งนี้จะทำลายโครงสร้างเชิงเหตุผลระดับโทเค็น (token-level causal structure) ดั้งเดิมของโมเดล AR ที่ผ่านการฝึกฝนล่วงหน้า และยังทำให้โมเดลเดียวกันไม่สามารถดำเนินการตรวจสอบ AR (AR verification) ได้อย่างเป็นธรรมชาติ ซึ่งส่งผลต่อการถอดรหัสแบบคาดเดาตนเอง (self-speculative decoding)
ตารางที่ 3: การทดสอบการตัดทอนสูตรการฝึก (Training Recipe Ablation) ตารางนี้ยืนยันบทบาทขององค์ประกอบต่างๆ เช่น causal context, auto-truncation, block-size annealing การลบ causal context ทำให้ความแม่นยำลดลงอย่างรุนแรงถึง 22.5% ซึ่งเป็นองค์ประกอบที่สำคัญที่สุด การลบ annealing ทำให้ความแม่นยำในการอนุมานข้อความยาวลดลง 32.5% การลบ auto-truncation ทำให้คะแนน MMMU ลดลง 14.4% สูตรการฝึกหลักทั้งสี่นี้ทำงานร่วมกัน: causal attention รักษาความสามารถในการอนุมาน AR, annealing ปรับปรุงเสถียรภาพภายใต้ช่วงการลดสัญญาณรบกวนขนาดใหญ่, auto-truncation ป้องกันการรั่วไหลของข้อมูลในการสนทนาหลายรอบ
ส่วนวิธีการของ Fast-dVLM โดยพื้นฐานแล้วคือการให้โซลูชันที่สามารถฝึกได้ในทางวิศวกรรมสำหรับปัญหาทั้งสี่นี้: การแปลงโดยตรง (direct conversion), causal context attention, auto-truncation mask, vision-efficient concatenation, ประกอบกับการถอดรหัสแบบบล็อกคาดเดาตนเอง (self-speculative block decoding) และบริการ SGLang
สาม: การแปลงโดยตรงหรือการแปลงสองขั้นตอน: ข้อสรุปเชิงประจักษ์ที่สำคัญที่สุดของบทความ
ข้อสรุปการฝึกที่มีค่าที่สุดของ Fast-dVLM คือ: อย่าแปลง text LLM เป็น diffusion model ก่อนแล้วค่อยสร้างความสามารถหลายรูปแบบใหม่ การแปลงโดยตรงจาก AR VLM ที่จัดตำแหน่งไว้แล้วจะมีประสิทธิภาพมากกว่า
บทความเปรียบเทียบเส้นทางการแปลงจาก AR-to-diffusion สองเส้นทางอย่างเป็นระบบ
3.1 เส้นทางสองขั้นตอน
เส้นทางสองขั้นตอนเริ่มต้นจาก AR LLM เช่น Qwen2.5-Instruct-3B ใช้ข้อมูลข้อความตามสูตรของ Fast-dLLM v2 เพื่อฝึก diffusion LLM จากนั้นจึงเชื่อมต่อตัวเข้ารหัสภาพและโปรเจกเตอร์ MLP (projector) และทำการปรับแต่งร่วมกัน (joint fine-tuning) บนข้อมูลหลายรูปแบบ เพื่อให้ได้ diffusion VLM ในที่สุด
เส้นทางนี้ดูเหมือนจะเป็น “โมดูลาร์” มากกว่า: แก้ปัญหาการแพร่ข้อความก่อน แล้วค่อยแก้ปัญหาการจัดตำแหน่งภาพ แต่มีข้อบกพร่องร้ายแรง: ขั้นตอนที่สอง实际上是ให้ diffusion LLM แบบข้อความล้วนเรียนรู้การจัดตำแหน่งระหว่างภาพและภาษาใหม่ สำหรับงบประมาณการฝึกที่จำกัด วิธีนี้มีประสิทธิภาพต่ำมาก
3.2 เส้นทางโดยตรง
เส้นทางโดยตรงเริ่มต้นจาก AR VLM ที่สมบูรณ์และผ่านการฝึกฝนล่วงหน้าแล้ว (เช่น Qwen2.5-VL-3B) และแปลงเป็น block diffusion VLM ในครั้งเดียวบนข้อมูลหลายรูปแบบ ข้อดีของมันคือสืบทอดความสามารถในการจัดตำแหน่งภาพ-ภาษาที่ VLM ที่มีอยู่เรียนรู้ระหว่างการฝึกฝนล่วงหน้า กระบวนการฝึกจำเป็นต้องปรับให้เข้ากับกระบวนทัศน์การสร้างเท่านั้น ไม่ใช่การสร้างสะพานเชื่อมความหมายหลายรูปแบบขึ้นใหม่
รูปที่ 2: กลยุทธ์การแปลงสองแบบ รูปนี้เปรียบเทียบเส้นทางการแปลงสองขั้นตอนกับการแปลงโดยตรง เส้นทางสองขั้นตอนจะทำการปรับแต่งแบบแพร่ข้อความล้วน (text diffusion fine-tuning) บน LLM ก่อน จากนั้นจึงเชื่อมต่อตัวเข้ารหัสภาพเพื่อทำการปรับแต่งแบบหลายรูปแบบ การแปลงโดยตรงจะแปลง AR VLM ที่ผ่านการฝึกฝนล่วงหน้าอย่างสมบูรณ์เป็น block diffusion model ในขั้นตอนเดียว การทดลองในบทความยืนยันว่าภายใต้งบประมาณการฝึกที่เท่ากัน ประสิทธิภาพของการแปลงโดยตรงสูงกว่าแบบสองขั้นตอนมาก เนื่องจากใช้ความสามารถในการจัดตำแหน่งภาพ-ข้อความที่ผ่านการฝึกฝนล่วงหน้าโดยตรง โดยไม่ต้องสร้างความสัมพันธ์หลายรูปแบบขึ้นใหม่จากศูนย์ ในที่สุด การแปลงโดยตรงถูกกำหนดให้เป็นเส้นทางเทคนิคหลักของ Fast-dVLM ซึ่งช่วยลดความซับซ้อนของกระบวนการและเพิ่มประสิทธิภาพ
ผลการทดลองชัดเจนมาก ในการวัดประสิทธิภาพ 10 รายการ คะแนนเฉลี่ยของเส้นทางโดยตรงคือ 73.3 ในขณะที่เส้นทางสองขั้นตอนมีเพียง 60.2 เส้นทางโดยตรงมีประสิทธิภาพเหนือกว่าเส้นทางสองขั้นตอนในการวัดประสิทธิภาพทั้ง 10 รายการ งานที่มีช่องว่างมากที่สุด ได้แก่ DocVQA, ChartQA และ AI2D โดยบทความรายงานข้อได้เปรียบที่ +31.5, +21.4 และ +18.1 ตามลำดับ
รูปที่ 4: การเปรียบเทียบการแปลงโดยตรงกับการแปลงสองขั้นตอนในการวัดประสิทธิภาพ 10 รายการ แผนภาพเรดาร์แสดงให้เห็นอย่างชัดเจนว่าคะแนนเฉลี่ยของการแปลงโดยตรงคือ 73.3 ในขณะที่เส้นทางสองขั้นตอนมีเพียง 60.2 ในงานที่ต้องใช้การอนุมานสูง เช่น DocVQA, ChartQA, AI2D ช่องว่างระหว่างทั้งสองมากกว่า 18 คะแนน ข้อมูลการฝึกและงบประมาณการคำนวณของการทดลองทั้งสองกลุ่มเหมือนกันทุกประการ สาเหตุที่การแปลงโดยตรงชนะคือมันสืบทอดความรู้ก่อนหน้า (prior knowledge) เกี่ยวกับการจัดตำแหน่งหลายรูปแบบจาก VLM ที่ผ่านการฝึกฝนล่วงหน้า โดยไม่จำเป็นต้องเรียนรู้ความสัมพันธ์ระหว่างภาพและข้อความใหม่ ซึ่งพิสูจน์ให้เห็นถึงข้อได้เปรียบด้านประสิทธิภาพการฝึกของการแปลงโดยตรง และเป็นพื้นฐานหลักในการเลือกใช้ Fast-dVLM
ชุดผลลัพธ์นี้แสดงให้เห็นอย่างชัดเจนว่า ความสามารถในการจัดตำแหน่งหลายรูปแบบของ VLM ไม่ใช่โมดูลเสริมที่สามารถสร้างขึ้นใหม่ได้ง่ายๆ ผ่านการฝึกในระยะเวลาอันสั้น สำหรับ diffusion VLM เส้นทางที่มีประสิทธิภาพมากที่สุดไม่ใช่ “เริ่มจากโมเดลการแพร่ข้อความแล้วเชื่อมต่อโมดูลภาพ” แต่คือ “เริ่มจาก AR VLM ที่จัดตำแหน่งหลายรูปแบบเสร็จแล้ว และปรับเปลี่ยนกลไกการสร้างโดยตรง”
เส้นทางโดยตรงชนะ: ประสบการณ์การฝึกหลัก
ชัยชนะในที่สุดของเส้นทางการแปลงโดยตรงถือเป็นข้อมูลเชิงลึกด้านการฝึกที่สำคัญที่สุดของ Fast-dVLM ทั้งหมด: สามารถเพิ่มเป้าหมายการแพร่ (diffusion objective) ในภายหลังได้ แต่ควรหลีกเลี่ยงการเริ่มต้นการจัดตำแหน่งหลายรูปแบบจากศูนย์
ผู้เขียนบทความยังคงมีท่าทีระมัดระวังในเรื่องนี้ พวกเขาไม่ได้ยืนยันว่าเพดานประสิทธิภาพของเส้นทางการฝึกสองขั้นตอนจะต้องต่ำกว่า แต่เสนอสมมติฐานว่า: เส้นทางทั้งสองอาจมีเพดานสุดท้ายที่คล้ายคลึงกัน ความแตกต่างหลักอยู่ที่ประสิทธิภาพการใช้ประโยชน์จากงบประมาณการฝึก ภายใต้เงื่อนไขงบประมาณการฝึกที่เท่ากันหรือเทียบเคียงได้ เส้นทางโดยตรงย่อมคุ้มค่ากว่า ดังนั้นจึงถูกกำหนดให้เป็นสูตรการฝึก (recipe) เริ่มต้น
สี่: การออกแบบการฝึก: Fast-dVLM ทำให้บล็อกแพร่ปรับให้เข้ากับอินพุตหลายรูปแบบได้อย่างไร
แผนการฝึกของ Fast-dVLM ไม่ใช่เทคนิคเดียว แต่เป็นระบบข้อจำกัดที่ทำงานร่วมกัน: โทเค็นใดที่สามารถถูกปิดบัง (mask) ได้ บริบทใดที่ต้องคงความเป็นเหตุเป็นผล (causality) และ visual token ใดที่ไม่ควรถูกทำซ้ำ
กำหนดให้อินพุตเต็มคือ:
โดยที่ คือเวกเตอร์เอมเบดดิ้งของ visual token และ คือเวกเตอร์เอมเบดดิ้งของ text token Fast-dVLM จะกัดกร่อน (corrupt) เฉพาะ response text token เพื่อสร้าง noisy stream และต่อเข้ากับ clean stream เป็น:
โปรดทราบว่า noisy stream ที่นี่มีเฉพาะตำแหน่งข้อความ ไม่มี visual token ซ้ำ ซึ่งสอดคล้องกับ “vision-efficient concatenation” ที่จะกล่าวถึงต่อไป
รูปที่ 3: สถาปัตยกรรมการฝึกและมาสก์ความสนใจ (ขนาดบล็อก) ของ Fast-dVLM รูปนี้แสดงสถาปัตยกรรมการฝึกแบบสองสตรีม (noise+clean) และกฎมาสก์ความสนใจสามประเภท visual token จะถูกเก็บไว้ใน clean stream เท่านั้น noisy stream มีเฉพาะ text token เท่านั้น ใช้การลดสัญญาณรบกวนแบบขนานสองทิศทางภายในบล็อก ให้ noisy token สนใจข้อมูลภาพและข้อความที่สะอาดด้านหน้า รักษาความสนใจเชิงเหตุผลของ clean stream การออกแบบนี้ไม่สูญเสียความแม่นยำ แต่ลดหน่วยความจำสูงสุด (peak memory) ลง 15.0% ลดเวลาในการฝึกลง 14.2% และยังคงความสามารถในการถอดรหัส AR เพื่อรองรับการตรวจสอบแบบคาดเดาตนเอง (self-speculative verification) ซึ่งเป็นนวัตกรรมทางสถาปัตยกรรมที่สำคัญของ block diffusion แบบหลายรูปแบบ
4.1 Causal context attention: รักษาโครงสร้างเชิงเหตุผลของโมเดล AR
มาสก์ความสนใจ (attention mask) ระหว่างการฝึกประกอบด้วยสามส่วน
- : noisy tokens ภายในบล็อกเดียวกัน (same block) ทำการคำนวณความสนใจแบบสองทิศทาง (bidirectional attention) เพื่อใช้ในการลดสัญญาณรบกวนแบบขนาน
- : noisy tokens สามารถสนใจ clean blocks ทั้งหมดที่อยู่ข้างหน้า ซึ่งรวมถึง visual token
- : clean tokens ยังคงใช้ความสนใจเชิงเหตุผลระดับโทเค็น (token-level causal attention) ต่อไป
แตกต่างจากวิธีการแพร่แบบบล็อก (block diffusion) บางวิธี Fast-dVLM ไม่ได้ใช้ความสนใจบริบทระดับบล็อก (block-level context attention) กับบริบทก่อนหน้าทั้งหมด แต่ยังคงความสนใจเชิงเหตุผล (causal attention) ไว้ สิ่งนี้มีความสำคัญอย่างยิ่งต่อการบรรลุเป้าหมายสองประการ: หนึ่งคือการปกป้องการแสดงลำดับการอนุมาน (sequential reasoning representation) ที่ AR VLM เรียนรู้จากการฝึกฝนล่วงหน้า สองคือการทำให้โมเดลเดียวกันยังคงสามารถดำเนินการถอดรหัสแบบออโตรีเกรสซีฟ (AR decoding) เพื่อใช้ในการตรวจสอบแบบคาดเดาตนเอง (self-speculative verification)
ผลการทดสอบการตัดทอน (ablation) ก็ยืนยันประเด็นนี้เช่นกัน หากลบ causal context และเปลี่ยนเป็นใช้ความสนใจแบบสองทิศทางระดับบล็อกกับบริบทก่อนหน้า จะทำให้คะแนนเฉลี่ยลดลงอย่างรวดเร็วจาก 57.3 เหลือ 44.4 หรือลดลงถึง 22.5%
ในการวัดประสิทธิภาพ MMMU-Pro-V ประสิทธิภาพลดลง 58.9% ใน SeedBench2+ ลดลง 39.5% สิ่งนี้แสดงให้เห็นอย่างเต็มที่ว่า causal context ไม่ใช่รายการเสริมที่ขาดไม่ได้ แต่เป็นองค์ประกอบหลักในการรักษาความสามารถในการอนุมานของโมเดล
4.2 Block-size annealing: อย่าให้โมเดลจัดการกับสัญญาณรบกวนบล็อกใหญ่ตั้งแต่แรก
Fast-dVLM ใช้กลยุทธ์หลักสูตรขนาดบล็อก (block size curriculum) ขนาดบล็อกที่เป็นตัวเลือกคือ:
เมื่อความคืบหน้าของการฝึกคือ ขนาดบล็อกปัจจุบันคำนวณได้ดังนี้:
แนวคิดคือ ให้โมเดลเรียนรู้งานลดสัญญาณรบกวนแบบละเอียดในบล็อกเล็กก่อน จากนั้นค่อยๆ เปลี่ยนไปจัดการกับการกัดกร่อนแบบช่วงยาว (long-span) ขนาดบล็อกเป้าหมายถูกกำหนดเป็น
การทดสอบการตัดทอนแสดงให้เห็นว่าหากใช้ขนาดบล็อกเป้าหมาย 32 ในการฝึกโดยตรงโดยไม่ใช้กลยุทธ์ annealing คะแนนเฉลี่ยจะลดลง 4.4% โดยเฉพาะใน MMMU-Pro-V ลดลงมากถึง 32.5% งานอนุมานแบบยาว (long reasoning tasks) มีความ
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/34466
