PRISM: กรอบการขยายเวลาทดสอบที่มีประสิทธิภาพสำหรับโมเดลภาษาแบบกระจายไม่ต่อเนื่อง พลิกกระบวนทัศน์การอนุมานแบบอัตถดถอยแบบดั้งเดิม

1 day ago • การอนุมานโมเดลขนาดใหญ่ • 40 views

ในช่วงไม่กี่ปีที่ผ่านมา จุดสนใจของการปรับปรุงความสามารถของโมเดลขนาดใหญ่กำลังเปลี่ยนจาก “การขยายขนาดระหว่างการฝึก” ไปสู่ “การขยายขนาดระหว่างการอนุมาน” ตั้งแต่ Best-of-N, Self-Consistency ไปจนถึงกรอบการค้นหาและตรวจสอบที่ซับซ้อนยิ่งขึ้น การขยายขนาดระหว่างการทดสอบ (Test-Time Scaling) ได้กลายเป็นกระบวนทัศน์สำคัญในการยกระดับความสามารถในการให้เหตุผลที่ซับซ้อนของโมเดลขนาดใหญ่

อย่างไรก็ตาม ปัญหาที่ถูกมองข้ามมาเป็นเวลานานคือ: วิธีการเหล่านี้ส่วนใหญ่ถือว่าโมเดลใช้รูปแบบการสร้างแบบออโตรีเกรสซีฟ (Autoregressive) โดยปริยาย

สำหรับโมเดลภาษาแบบดิฟฟิวชันแบบไม่ต่อเนื่อง (Discrete Diffusion Language Models, dLLMs) สถานการณ์กลับแตกต่างอย่างสิ้นเชิง dLLM ไม่ได้สร้างโทเคนทีละตัวจากซ้ายไปขวา แต่เริ่มต้นจากลำดับที่ถูกปิดบัง (mask) และค่อยๆ กู้คืนคำตอบที่สมบูรณ์ผ่านการลดสัญญาณรบกวนหลายขั้นตอน (denoising) วิธีการสร้างแบบขนานและไม่ออโตรีเกรสซีฟนี้มีบริบทสองทิศทางทั่วโลกโดยธรรมชาติ ซึ่งเอื้อต่อการวางแผนและการแก้ไขตนเองมากกว่า แต่ในขณะเดียวกัน วิธีการค้นหาแบบต้นไม้ โมเดลรางวัลตามกระบวนการ และวิธีการให้เหตุผลแบบ Best-of-N ที่ออกแบบมาสำหรับโมเดลออโตรีเกรสซีฟแบบดั้งเดิม ไม่สามารถปรับใช้ได้อย่างมีประสิทธิภาพโดยตรง

เพื่อรับมือกับความท้าทายนี้ บทความได้เสนอ PRISM: Pruning, Remasking, and Integrated Self-verification Method ซึ่งเป็นกรอบการขยายขนาดระหว่างการทดสอบที่มีประสิทธิภาพสูงที่ออกแบบมาโดยเฉพาะสำหรับโมเดลภาษาแบบดิฟฟิวชันแบบไม่ต่อเนื่อง เป้าหมายหลักของมันชัดเจนมาก: ไม่ใช่แค่ให้โมเดล “ทำงานซ้ำหลายรอบ” แต่เป็นการระบุวิถีที่มีศักยภาพมากขึ้นในระหว่างกระบวนการลดสัญญาณรบกวน ดำเนินการตัดแต่งกิ่งแบบไดนามิก สร้างกิ่งก้านเฉพาะจุด และใช้โมเดลเองในการตรวจสอบแบบเบา เพื่อให้ใกล้เคียงหรือแม้กระทั่งเหนือกว่าผลลัพธ์ของ Best-of-N ภายใต้งบประมาณการอนุมานที่ต่ำกว่า

PRISM: กรอบการขยายเวลาทดสอบที่มีประสิทธิภาพสำหรับโมเดลภาษาแบบกระจายไม่ต่อเนื่อง พลิกกระบวนทัศน์การอนุมานแบบอัตถดถอยแบบดั้งเดิม

ชื่อบทความ: Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models
ที่อยู่ arXiv: https://arxiv.org/abs/2602.01842
ที่อยู่โค้ด: https://github.com/viiika/Prism

Best-of-N แบบดั้งเดิมมีต้นทุนสูง PRISM นิยามการค้นหาเชิงอนุมานของ dLLM ใหม่

สำหรับ dLLM วิธีการ Best-of-N แบบพื้นฐานมีต้นทุนโดยตรง: หากสุ่มตัวอย่าง N วิถี แต่ละวิถีต้องใช้ T ขั้นตอนในการลดสัญญาณรบกวน ดังนั้นจำนวนการเรียกใช้ฟังก์ชันทั้งหมดคือ O (NT) ซึ่งหมายความว่าผู้สมัครคำตอบทั้งหมดต้องดำเนินการจนเสร็จสมบูรณ์ แม้ว่าหลายวิถีจะแสดงคุณภาพต่ำอย่างชัดเจนในระหว่างทาง ก็ยังคงใช้งบประมาณเต็มจำนวน

แนวคิดหลักของ PRISM คือการแบ่งกระบวนการอนุมานออกเป็นสามขั้นตอน: การสำรวจแบบสุ่มในช่วงต้น การตัดแต่งกิ่งแบบค่อยเป็นค่อยไปในช่วงกลาง และการปรับแต่งในช่วงท้าย

ในช่วงที่มีสัญญาณรบกวนสูง ผลลัพธ์ของโมเดลยังไม่เสถียร ดังนั้น PRISM จึงรักษาชุดผู้สมัครที่กว้างไว้เพื่อรักษาความหลากหลาย ในหน้าต่างการลดสัญญาณรบกวนช่วงต้นถึงกลาง เมื่อ “โครงสร้างเชิงตรรกะ” ของคำตอบเริ่มเป็นรูปเป็นร่าง PRISM ใช้สัญญาณการตรวจสอบตนเองเพื่อตัดแต่งวิถีคุณภาพต่ำและจัดสรรทรัพยากรการคำนวณใหม่ให้กับผู้สมัครที่มีแนวโน้มดีกว่า ในที่สุด จะคงไว้เพียงไม่กี่วิถีเพื่อดำเนินการปรับแต่งต่อไป บทความเรียกกระบวนการนี้ว่าการค้นหาวิถีแบบลำดับชั้น (Hierarchical Trajectory Search, HTS)

การออกแบบนี้ทำให้ความซับซ้อนที่แท้จริงของ PRISM ใกล้เคียงกับ O (N + KT) โดยที่ K คือความกว้างของผู้สมัครที่คงไว้ในตอนท้ายที่เล็กกว่า เมื่อเทียบกับ O (NT) ของ Best-of-N แบบดั้งเดิม นี่เทียบเท่ากับการเปลี่ยนรูปแบบ “วิ่งทุกเส้นทางจนสุดทาง” เป็น “สำรวจอย่างกว้างขวางก่อน แล้วจึงรวมกำลังยิง”

ไม่ใช่เริ่มต้นใหม่ แต่เป็นการสร้างกิ่งก้านเฉพาะจุดบนโทเคนที่มีความเชื่อมั่นต่ำ

องค์ประกอบสำคัญที่สองของ PRISM คือการสร้างกิ่งก้านเฉพาะจุดผ่านการปิดบังบางส่วน (Local Branching via Partial Remasking) โดยสัญชาตญาณ โมเดลได้สร้างโทเคนที่มีความเชื่อมั่นสูงบางส่วนขึ้นในระหว่างการลดสัญญาณรบกวนในช่วงกลาง ซึ่งโทเคนเหล่านี้มักจะสอดคล้องกับโครงสร้างที่มั่นคงหรือโครงร่างเชิงตรรกะของคำตอบ ในขณะเดียวกัน โทเคนที่มีความเชื่อมั่นต่ำอาจสอดคล้องกับรายละเอียดการให้เหตุผลที่ไม่แน่นอน วิธีการนำไปใช้ หรือการแสดงออกเฉพาะจุด

PRISM จะไม่ทิ้งวิถีทั้งหมดอย่างรุนแรงเพื่อสุ่มตัวอย่างใหม่ แต่จะคงส่วนที่มีความเชื่อมั่นสูงไว้ และปิดบังเฉพาะตำแหน่งที่มีความเชื่อมั่นต่ำอีกครั้ง จากนั้นจึงสร้างกิ่งก้านใหม่จากการเปลี่ยนแปลงเฉพาะจุดเหล่านี้ ข้อดีของวิธีนี้คือ มันทั้งรักษาโครงสร้างคุณภาพสูงที่มีอยู่ และยังคงสำรวจรายละเอียดการนำไปใช้ที่แตกต่างกันต่อไป หลีกเลี่ยงการบรรจบกันก่อนเวลาอันควรไปยังเส้นทางเดียว รูปที่ 2 ของบทความแสดงกระบวนการนี้อย่างชัดเจน: ในขั้นตอนการตัดแต่งกิ่งแบบค่อยเป็นค่อยไป PRISM จะสร้างกิ่งก้านเฉพาะจุดรอบๆ วิถีที่มีคะแนนสูง และสร้างผู้สมัครใหม่ผ่านการปิดบังบางส่วน

ไม่ต้องพึ่งพาตัวตรวจสอบภายนอกอีกต่อไป: โมเดลให้คะแนนตัวเอง

วิธีการขยายขนาดระหว่างการทดสอบหลายวิธีอาศัยโมเดลรางวัลเพิ่มเติม (reward model) หรือตัวตรวจสอบ (verifier) เพื่อตัดสินคุณภาพของผู้สมัครคำตอบ แต่สิ่งนี้ทำให้เกิดค่าใช้จ่ายของระบบอย่างมีนัยสำคัญ: ต้องโหลดโมเดลเพิ่มเติมระหว่างการปรับใช้ ทำให้หน่วยความจำ ความหน่วง และความซับซ้อนทางวิศวกรรมเพิ่มขึ้น

PRISM เสนอการตอบกลับแบบตรวจสอบตนเอง (Self-Verified Feedback, SVF): ใช้ dLLM ตัวเดียวกันเป็นตัวตรวจสอบแบบสองคลาส โดยเฉพาะ โมเดลจะสร้างผู้สมัครคำตอบที่สมบูรณ์ก่อนตามสถานะการลดสัญญาณรบกวนระดับกลาง จากนั้นสร้างพรอมต์การตรวจสอบแบบ ใช่/ไม่ใช่ เพื่อให้โมเดลตัดสินว่าคำตอบนั้นน่าจะถูกต้องหรือไม่ PRISM แปลง logits ของ ใช่ และ ไม่ใช่ เป็นคะแนนปกติแบบไบนารี เพื่อใช้ในการจัดลำดับวิถี การตัดแต่ง และการเลือกขั้นสุดท้าย

คุณค่าของการออกแบบนี้คือ มันเปลี่ยนกระบวนการตรวจสอบจาก “โมเดลเพิ่มเติม” เป็น “การตรวจสอบตนเองแบบเบาเพียงครั้งเดียวของโมเดลเดียวกัน” บทความชี้ให้เห็นเพิ่มเติมว่าจำนวนการเรียกใช้ SVF นั้นน้อยเมื่อเทียบกับ NFE การลดสัญญาณรบกวน โดยทั่วไปในการทดลองจะต่ำกว่า 10% ของ NFE ทั้งหมด ดังนั้นจึงสามารถให้สัญญาณการค้นหาที่มีประสิทธิภาพโดยมีค่าใช้จ่ายเพิ่มเติมต่ำ

การทดลอง: บรรลุการปรับปรุงความคุ้มค่าอย่างมีนัยสำคัญในการให้เหตุผลทางคณิตศาสตร์และการสร้างโค้ด

บทความประเมิน PRISM บนเกณฑ์มาตรฐานสี่ประการ: งานให้เหตุผลทางคณิตศาสตร์ GSM8K, MATH-500 และงานสร้างโค้ด HumanEval, MBPP การทดลองครอบคลุมโมเดลภาษาแบบดิฟฟิวชันแบบไม่ต่อเนื่องสามตัว: LLaDA-8B-Instruct, Dream-7B-Instruct และ LLaDA-2.0-mini

บน LLaDA-8B-Instruct PRISM (K=8) เพิ่ม GSM8K จาก 67.58% เป็น 85.30% และ MATH-500 จาก 26.40% เป็น 42.80% ในงานโค้ด HumanEval เพิ่มขึ้น 24.39 จุดเปอร์เซ็นต์ และ MBPP เพิ่มขึ้น 16.40 จุดเปอร์เซ็นต์ ที่สำคัญกว่านั้น การปรับปรุงเหล่านี้ไม่ได้มาจากการเพิ่มปริมาณการคำนวณของ Best-of-N แบบเชิงเส้น: ตัวอย่างเช่น บน GSM8K PRISM ใช้ 1048 NFE เพื่อให้ได้ 85.30% ในขณะที่ Best-of-16 ต้องการ 4096 NFE เพื่อให้ได้ 87.50% ซึ่งประหยัดการคำนวณการลดสัญญาณรบกวนได้มากกว่า 4 เท่า

ในรูปที่ 1 ของบทความ PRISM แสดงเส้นโค้งประสิทธิภาพ-การคำนวณที่ดีกว่า Best-of-N ในหลายงาน: ที่ระดับความแม่นยำที่เทียบเคียงได้ GSM8K, MATH500, HumanEval, MBPP แสดงความได้เปรียบด้านความเร็ว 2.9×, 6.5×, 1.8×, 1.7× ตามลำดับ

บทความยังเปรียบเทียบกับวิธีการขยายขนาดระหว่างการอนุมานอื่นๆ บน TruthfulQA ROUGE-1/2/L ของ PRISM อยู่ที่ 31.8/35.5/31.9 โดยใช้เวลาในการอนุมาน 1048.0 วินาที ในขณะที่ LLaDA-ReMDM อยู่ที่ 29.5/31.8/29.5 โดยใช้เวลา 1354.8 วินาที ซึ่งแสดงให้เห็นว่า PRISM ไม่เพียงแต่ปรับปรุงประสิทธิภาพของงาน แต่ยังคงประสิทธิภาพการอนุมานที่ดีกว่า

ในการเปรียบเทียบตัวตรวจสอบภายนอก SVF ทำได้ 85.30% บน GSM8K โดยต้องโหลดเฉพาะโมเดล 8B ดั้งเดิมเท่านั้น แม้ว่าตัวตรวจสอบ Qwen3-8B จะทำได้ 87.35% แต่ต้องโหลดโมเดลเพิ่มเติม ทำให้จำนวนพารามิเตอร์ทั้งหมดถึง 16B บทความเห็นว่าข้อดีของ SVF ไม่ได้อยู่ที่การแทนที่ตัวตรวจสอบภายนอกทั้งหมดอย่างสมบูรณ์ แต่อยู่ที่การให้เส้นทางการขยายขนาดการอนุมาน dLLM ที่เบากว่าและปรับใช้ได้ง่ายกว่า

ความสำคัญ: เปิดเส้นทางการขยายขนาดระหว่างการอนุมานสำหรับโมเดลภาษาแบบไม่ออโตรีเกรสซีฟ

การมีส่วนร่วมหลักของ PRISM ไม่ใช่แค่การเสนอฮิวริสติกการค้นหาใหม่ แต่เป็นการนิยามใหม่ว่าการขยายขนาดระหว่างการทดสอบบน dLLM ควรเกิดขึ้นอย่างไร

สำหรับโมเดลออโตรีเกรสซีฟ การค้นหาเชิงอนุมานมักจะ围绕 “คำนำหน้า” (prefix) ในขณะที่สำหรับโมเดลดิฟฟิวชันแบบไม่ต่อเนื่อง สถานะระดับกลางคือลำดับทั่วโลกที่ถูกปิดบังบางส่วน รางวัลตามกระบวนการแบบคำนำหน้าและการค้นหาแบบต้นไม้แบบดั้งเดิมไม่สามารถปรับใช้ได้โดยธรรมชาติ PRISM นำการค้นหา การตัดแต่งกิ่ง การสร้างกิ่งก้านเฉพาะจุด และการตรวจสอบตนเองกลับเข้าไปในพลศาสตร์การลดสัญญาณรบกวนของ dLLM: จัดสรรงบประมาณอย่างเข้มข้นในช่วงที่โครงสร้างก่อตัว สำรวจการแสดงออกทางเลือกในพื้นที่ที่มีความเชื่อมั่นต่ำ และดำเนินการตรวจสอบโดยไม่ต้องใช้โมเดลเพิ่มเติม

ซึ่งหมายความว่า dLLM ไม่ใช่แค่กระบวนทัศน์ทางเลือกที่ “สร้างแบบขนานได้เร็วกว่า” อีกต่อไป แต่อาจพัฒนาเป็นสถาปัตยกรรมโมเดลภาษาแบบใหม่ที่เหมาะสำหรับการให้เหตุผล การวางแผน และการแก้ไขตนเอง เมื่อโมเดลอย่าง LLaDA, Dream, Mercury, Gemini Diffusion ผลักดันโมเดลภาษาแบบดิฟฟิวชันแบบไม่ต่อเนื่องไปสู่ขนาดที่ใหญ่ขึ้น PRISM เผยให้เห็นทิศทางสำคัญ: ทำให้โมเดลแบบไม่ออโตรีเกรสซีฟสามารถปรับปรุงประสิทธิภาพอย่างต่อเนื่องผ่านการลงทุนในการคำนวณระหว่างขั้นตอนการอนุมาน เช่นเดียวกับโมเดลภาษาขนาดใหญ่กระแสหลักในปัจจุบัน

จากมุมมองนี้ PRISM ไม่ใช่แค่ทางเลือกของ Best-of-N ที่มีประสิทธิภาพในการคำนวณสูงกว่า แต่เป็นชิ้นส่วนปริศนาที่ขาดไม่ได้ในการสร้างระบบการอนุมานที่มีประสิทธิภาพสำหรับโมเดลภาษาแบบดิฟฟิวชันแบบไม่ต่อเนื่อง

เกี่ยวกับผู้เขียน

บทความนี้ดำเนินการโดยนักวิจัยเช่น Jinbin Bai และคณะ ทีมวิจัยมุ่งเน้นไปที่กระบวนทัศน์การสร้างแบบใหม่ เช่น discrete diffusion และ masked generative modeling มาเป็นเวลานาน เนื้อหาการวิจัยครอบคลุมการสร้างข้อความเป็นภาพความละเอียดสูง การสร้างมัลติโมดัลแบบรวมศูนย์ การปรับแต่งความชอบและการเพิ่มประสิทธิภาพการอนุมานของโมเดลดิฟฟิวชันแบบไม่ต่อเนื่อง และโมเดลโลกแบบโต้ตอบได้

ก่อนหน้านี้ ทีมได้เสนอ Meissonic [1] เพื่อสำรวจศักยภาพของ masked generative transformer ในการสร้างข้อความเป็นภาพความละเอียดสูง ต่อมาได้เสนอ Muddit [2] เพื่อขยายการสร้างแบบจำลองดิฟฟิวชันแบบไม่ต่อเนื่องจากการสร้างภาพไปสู่กรอบการสร้างมัลติโมดัลที่รวมศูนย์มากขึ้น PRISM ซึ่งได้รับการคัดเลือกให้เข้าร่วม ICML 2026 ในครั้งนี้ ได้ขยายสายงานการวิจัยนี้ไปยังขั้นตอนการอนุมาน โดยมุ่งเน้นไปที่วิธีการทำให้โมเดลดิฟฟิวชันแบบไม่ต่อเนื่องสามารถบรรลุ Test-Time Scaling ที่มีประสิทธิภาพโดยไม่ต้องใช้ตัวตรวจสอบเพิ่มเติม ผ่านการค้นหาแบบลำดับชั้น การตอบกลับแบบตรวจสอบตนเอง และการปิดบังบางส่วนเฉพาะจุด

[1] Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis, ICLR 2025, https://arxiv.org/abs/2410.08261

[2] Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model, ICLR 2026, https://arxiv.org/abs/2505.23606

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง