In-Place Test-Time Training: ทำให้โมเดลภาษาขนาดใหญ่วิวัฒนาการในสถานที่ระหว่างการอนุมาน อัตราความแม่นยำของงานบริบทยาวเพิ่มขึ้นอย่างมีนัยสำคัญ

15 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 17 views

คำสำคัญ: การฝึกฝนระหว่างการทดสอบ, การอัปเดตแบบอินเพลซ, แบบจำลองภาษาขนาดใหญ่, บริบทยาว

“กระบวนทัศน์แบบ ‘ฝึกฝนแล้วจึงนำไปใช้งาน’ ที่เป็นแบบสถิตนั้น จำกัดความสามารถของแบบจำลองภาษาขนาดใหญ่ในการปรับน้ำหนักแบบไดนามิกตามข้อมูลใหม่ระหว่างการอนุมานโดยพื้นฐาน” นี่คือข้อสรุปหลักจากบทความวิจัยเรื่อง “In-Place Test-Time Training” ที่เผยแพร่โดยทีม Seed ของ ByteDance ร่วมกับมหาวิทยาลัยปักกิ่ง

เมื่อโมเดลขนาดใหญ่เช่น GPT-4, Llama 3 ถูกนำไปใช้งานแล้วและ “แข็งตัว” เป็นคลังความรู้แบบสถิตย์ พวกมันไม่สามารถเรียนรู้อย่างต่อเนื่องจากกระแสบริบทที่ต่อเนื่องเหมือนมนุษย์ได้ — นี่ไม่เพียงแต่เป็นความเสียดายทางด้านการรับรู้ แต่ยังเป็นข้อบกพร่องร้ายแรงในการจัดการงานที่มีบริบทยาวอีกด้วย

In-Place Test-Time Training: ทำให้โมเดลภาษาขนาดใหญ่วิวัฒนาการในสถานที่ระหว่างการอนุมาน อัตราความแม่นยำของงานบริบทยาวเพิ่มขึ้นอย่างมีนัยสำคัญ

เพื่อแก้ไขปัญหานี้ ทีมวิจัยได้เสนอกรอบงานใหม่ชื่อว่า In-Place Test-Time Training (การฝึกฝนระหว่างการทดสอบแบบอินเพลซ) แนวคิดพื้นฐานของมันกล้าหาญและสง่างาม: ไม่ได้นำโครงสร้างใหม่เข้ามา แต่ “ยืม” เมทริกซ์ฉายภาพสุดท้ายของโมดูล MLP ที่มีอยู่ทั่วไปใน Transformer มาใช้เป็น “น้ำหนักเร็ว” โดยตรง และอัปเดตแบบอินเพลซระหว่างการอนุมาน

นี่หมายความว่า แบบจำลองขนาดใหญ่ที่ผ่านการฝึกฝนล่วงหน้าแล้วใดๆ สามารถได้รับความสามารถในการเรียนรู้ไปพร้อมกับการอนุมานได้ เหมือนกับการติดตั้ง “ปลั๊กอิน” โดยไม่ต้องเปลี่ยนโครงสร้างหรือต้องฝึกฝนใหม่อีกครั้งซึ่งมีค่าใช้จ่ายสูง

ผลลัพธ์เป็นอย่างไร? ข้อมูลการทดลองแสดงให้เห็นว่า:

In-Place TTT ทำให้โมเดล Qwen3-4B มีอัตราความแม่นยำในงานที่มีบริบทยาว 128k เพิ่มขึ้นจาก 74.8% เป็น 77.0% เมื่อขยายขนาดโมเดลเป็น 14B ข้อได้เปรียบยังคงมั่นคง
ที่น่าตื่นเต้นยิ่งกว่านั้นคือ วิธีการนี้ในการฝึกฝนล่วงหน้าที่ความยาวบริบท 32k ได้เพิ่มคะแนนของ Transformer แบบดั้งเดิมในการทดสอบ RULER-16k จาก 6.58 เป็น 19.99 โดยตรง

งานวิจัยชิ้นนี้ไม่เพียงแต่เป็นความก้าวหน้าที่ยิ่งใหญ่ของ Test-Time Training ในยุคของโมเดลขนาดใหญ่ แต่ยังวาดภาพอนาคตของโมเดลที่“วิวัฒนาการอย่างต่อเนื่อง”ให้เราเห็นอีกด้วย

สารบัญ

หนึ่ง: “จุดอ่อนแห่งส้นเท้า” ของโมเดลแบบสถิตย์
สอง: In-Place TTT: หนทางแก้ปัญหาด้วยสามแนวทาง
- 2.1 ข้อมูลเชิงลึกหลัก: ยืม MLP มาใช้ แทนที่จะแทนที่ Attention
- 2.2 การอัปเดตแบบบล็อกใหญ่: ทำให้การคำนวณแบบขนาน “อิ่ม” จริงๆ
- 2.3 เป้าหมายการจัดตำแหน่งการสร้างแบบจำลองภาษา: จาก “จดจำปัจจุบัน” สู่ “คาดการณ์อนาคต”
- 2.4 การรับประกันทางทฤษฎี: ทำไมเป้าหมายการจัดตำแหน่ง LM จึงดีกว่า?
สาม: การนำไปใช้ทางวิศวกรรม: ความขนานของบริบทและการรับประกันความเป็นเหตุเป็นผล
- 3.1 การสแกนแบบขนาน: เปลี่ยน “ลำดับ” เป็น “ขนาน”
- 3.2 ความเป็นเหตุเป็นผลและการจัดการขอบเขต
สี่: การทดลอง: พูดด้วยข้อมูล
- 4.1 การทดลองที่หนึ่ง: ทำให้ Qwen3-4B “วิวัฒนาการอีกครั้ง”
- 4.2 การทดลองที่สอง: เริ่มจากศูนย์ เผชิญหน้ากับตระกูล TTT โดยตรง
- 4.3 การทดลองแบบแยกส่วน: วิเคราะห์การออกแบบแต่ละตัวเลือก
ห้า: งานที่เกี่ยวข้อง: ยืนบนบ่าของยักษ์
- 5.1 วิวัฒนาการของ Test-Time Training
- 5.2 สถาปัตยกรรมบริบทยาวที่มีประสิทธิภาพ
- 5.3 เครือข่ายประสาทเทียมที่เสริมด้วยความจำ
หก: บทสรุป: สู่กระบวนทัศน์ใหม่ของ “การเรียนรู้อย่างต่อเนื่อง”

หนึ่ง: “จุดอ่อนแห่งส้นเท้า” ของโมเดลแบบสถิตย์

ความสำเร็จของแบบจำลองภาษาขนาดใหญ่ในปัจจุบัน สร้างขึ้นบนกระบวนทัศน์คลาสสิกแบบ “ฝึกฝน-นำไปใช้งาน”: หลังจากโมเดลฝึกฝนล่วงหน้าบนข้อมูลข้อความมหาศาลแล้ว น้ำหนักของมันจะถูก “แช่แข็ง” และเมื่อนำไปใช้งานจะทำเพียงการอนุมานไปข้างหน้า ข้อดีของวิธีนี้คือมีความเสถียรและมีประสิทธิภาพ แต่ปัญหาก็ชัดเจนเช่นกัน — โมเดลสูญเสียความสามารถในการปรับการแสดงแทนภายในแบบไดนามิกตามบริบท

เมื่อคุณกำลังให้โมเดลประมวลผลรายงานวิชาชีพยาว 100,000 คำ ในหน้า 2 ของรายงานมีคำจำกัดความของคำศัพท์สำคัญปรากฏขึ้น และในหน้า 80 ต้องใช้การอนุมานตามคำจำกัดความนี้ กลไกความสนใจของโมเดลแบบดั้งเดิมต้องรักษาความสัมพันธ์การพึ่งพาที่ข้ามผ่านโทเค็นนับหมื่นนี้ไว้ใน KV Cache อย่างสมบูรณ์ ซึ่งนี่เป็นการใช้หน่วยความจำอย่างมหาศาล และยังกำหนดข้อกำหนดที่เข้มงวดสำหรับการดึงข้อมูลระยะยาวอีกด้วย

แน่นอนว่า In-Context Learning (การเรียนรู้จากบริบท) ให้แนวทางแก้ไข — นำข้อมูลประวัติทั้งหมดใส่เข้าไปในหน้าต่างบริบท แต่นี่แค่เป็นการย้ายปัญหาไปยังมิติอื่น: ความซับซ้อนกำลังสองของกลไกความสนใจทำให้การขยายหน้าต่างบริบทออกไปอย่างไม่จำกัดเป็นไปไม่ได้ในเชิงการคำนวณ

ในบริบทเช่นนี้เอง Test-Time Training ได้เข้าสู่สายตาของนักวิจัย แนวคิดหลักของ TTT คือ: ระหว่างการอนุมาน ให้อัปเดตพารามิเตอร์ส่วนเล็กๆ ของโมเดล (เรียกว่า “น้ำหนักเร็ว”) แบบไดนามิก ทำให้พารามิเตอร์เหล่านี้กลายเป็น “หน่วยความจำแบบบีบอัด” ของข้อมูลบริบท ด้วยวิธีนี้ โมเดลไม่จำเป็นต้องจดจำทุกโทเค็นอย่างละเอียด แต่กลั่นกรองข้อมูลสำคัญเข้าไปในน้ำหนัก

อย่างไรก็ตาม การนำ TTT ไปใช้กับ LLM สมัยใหม่ต้องเผชิญกับภูเขาสามลูกที่ยากจะก้าวข้าม:

ความไม่เข้ากันของสถาปัตยกรรม: วิธีการ TTT ที่มีอยู่ส่วนใหญ่ต้องนำเลเยอร์แบบวนซ้ำเฉพาะมาใช้แทนกลไกความสนใจ ซึ่งหมายความว่าต้องฝึกฝนล่วงหน้า “ตั้งแต่เริ่มต้น” ใหม่ ไม่สามารถนำทรัพย์สินโมเดลขนาดใหญ่ที่มีอยู่มาใช้ซ้ำได้
ประสิทธิภาพการคำนวณต่ำ: TTT แบบคลาสสิกใช้กลยุทธ์การอัปเดตทีละโทเค็น ซึ่งจำกัดความสามารถในการทำงานแบบขนานของ GPU/TPU อย่างรุนแรง
เป้าหมายการเรียนรู้ไม่ตรงกัน: TTT ที่มีอยู่ในปัจจุบันส่วนใหญ่ใช้ “การสร้างใหม่” เป็นเป้าหมายการเรียนรู้ด้วยตนเอง — ให้โมเดลจดจำการแสดงแทนของโทเค็นปัจจุบัน แต่นี่ไม่สอดคล้องกับเป้าหมายพื้นฐานของแบบจำลองภาษาในการ “ทำนายโทเค็นถัดไป”

การกำเนิดของ In-Place TTT นั้น เพื่อย้ายภูเขาทั้งสามลูกนี้ไปพร้อมกัน

สอง: In-Place TTT: หนทางแก้ปัญหาด้วยสามแนวทาง

2.1 ข้อมูลเชิงลึกหลัก: ยืม MLP มาใช้ แทนที่จะแทนที่ Attention

ข้อมูลเชิงลึกที่สำคัญที่สุดของ In-Place TTT คือ: “น้ำหนักเร็ว” ของ TTT ไม่จำเป็นต้องเป็นพารามิเตอร์ของโมดูลใหม่ มันสามารถ “อาศัย” อยู่ในโมดูลที่มีอยู่แล้วได้

เมื่อย้อนดูโครงสร้างของ Transformer บล็อก MLP (Multi-Layer Perceptron) ครอบครองพารามิเตอร์ส่วนใหญ่ของโมเดล สิ่งที่สำคัญยิ่งกว่านั้นคือ งานวิจัยที่มีอยู่แสดงให้เห็นว่า เลเยอร์ MLP ใน Transformer โดยพื้นฐานแล้วทำหน้าที่เป็นหน่วยความจำแบบคีย์-ค่า — มันเก็บความรู้ทั่วไปมหาศาลที่เรียนรู้ในระหว่างการฝึกฝนล่วงหน้า (ในฐานะ “น้ำหนักช้า”)

ถ้าอย่างนั้น ทำไมไม่ให้ระบบพารามิเตอร์ชุดเดียวกันนี้ ระหว่างการอนุมานก็รับหน้าที่เก็บข้อมูลบริบท (ในฐานะ “น้ำหนักเร็ว”) ด้วยล่ะ?

โดยเฉพาะอย่างยิ่ง In-Place TTT เลือกเมทริกซ์ฉายภาพสุดท้ายในโครงสร้าง MLP แบบมีเกตเป็นวัตถุที่จะถูกอัปเดต สูตรคำนวณของ MLP แบบมีเกตมีดังนี้:

MLP(x) = (SiLU(xW_g) ⊙ (xW_u)) W_o

โดยที่ x คือสถานะแฝงอินพุต SiLU คือฟังก์ชันกระตุ้น W_g และ W_u คือเมทริกซ์ฉายภาพอินพุต W_o คือเมทริกซ์ฉายภาพเอาต์พุต

ภายใต้กรอบงาน In-Place TTT W_g และ W_u จะถูกแช่แข็ง (เป็นน้ำหนักช้า) ในขณะที่ W_o จะถูกยืมมาใช้เป็นน้ำหนักเร็ว และจะถูกอัปเดตแบบไดนามิกระหว่างการอนุมาน

ความงดงามของการออกแบบแบบ “อินเพลซ” นี้อยู่ที่:

2.2 การอัปเดตแบบบล็อกใหญ่: ปลดปล่อยศักยภาพการคำนวณแบบขนาน

วิธีการ TTT แบบดั้งเดิมมักใช้กลไกการอัปเดตแบบลำดับทีละโทเค็น: เพื่อประมวลผลโทเค็นที่ i ต้องรอให้การอัปเดตของโทเค็น i-1 ก่อนหน้าสำเร็จก่อน การพึ่งพาลำดับที่เข้มงวดนี้จำกัดความสามารถในการคำนวณแบบขนานของฮาร์ดแวร์เช่น GPU อย่างรุนแรง

In-Place TTF หลีกเลี่ยงปัญหานี้อย่างชาญฉลาดผ่านการออกแบบสถาปัตยกรรม เนื่องจากกลไกความสนใจยังคงอยู่ครบถ้วนและรับผิดชอบการแลกเปลี่ยนข้อมูลระหว่างโทเค็นแบบละเอียด การอัปเดตน้ำหนักเร็วจึงสามารถใช้กลยุทธ์ที่ “หยาบ” กว่าได้ นั่นคือ: การอัปเดตแบบแบ่งบล็อก กระบวนการเฉพาะมีดังนี้:

In-Place Test-Time Training: ทำให้โมเดลภาษาขนาดใหญ่วิวัฒนาการในสถานที่ระหว่างการอนุมาน อัตราความแม่นยำของงานบริบทยาวเพิ่มขึ้นอย่างมีนัยสำคัญ
รูปที่ 1: กรอบงานโดยรวมของ In-Place TTT โมดูลประมวลผลบล็อกอินพุตตามลำดับ สำหรับแต่ละบล็อก น้ำหนักเร็วปัจจุบันจะถูกนำไปใช้กับค่าการกระตุ้นกลางก่อน เพื่อสร้างผลลัพธ์ หลังจากนั้น น้ำหนักเหล่านี้จะถูกอัปเดตโดยใช้ค่าการกระตุ้นของบล็อกปัจจุบันและค่าปลายทางที่ได้มาจากการฝังโทเค็น วงจร “นำไปใช้ก่อน แล้วจึงอัปเดต” นี้ ทำให้โมเดลสามารถปรับตัวเข้ากับบริบทอินพุตแบบไดนามิกด้วยวิธีที่เป็นเหตุเป็นผลอย่างเคร่งครัด

สำหรับลำดับที่มีความยาว L ขั้นแรกให้แบ่งค่าการกระตุ้นกลาง A และค่าปลายทาง V ออกเป็น K บล็อกที่ไม่ทับซ้อนกัน ขนาด B สำหรับบล็อกที่ k:
1. การดำเนินการนำไปใช้: ใช้น้ำหนักเร็วปัจจุบัน W_k ประมวลผลบล็อกนั้น เพื่อให้ได้ผลลัพธ์
2. การดำเนินการอัปเดต: คำนวณเกรเดียนต์จากค่าการกระตุ้นและค่าปลายทางของบล็อกนั้น และอัปเดตน้ำหนักเร็วแบบอินเพลซเป็น W_{k+1}

กลยุทธ์การอัปเดตระดับบล็อกนี้มีข้อได้เปรียบสองประการ:
* เป็นมิตรกับระบบขนาน: โทเค็นทั้งหมดภายในบล็อกสามารถถูกประมวลผลพร้อมกันได้ ซึ่งเพิ่มอัตราการใช้ฮาร์ดแวร์อย่างมาก
* รองรับบล็อกขนาดใหญ่: เนื่องจากเลเยอร์ความสนใจยังคงรับผิดชอบในการผสมโทเค็น In-Place TTT ไม่จำเป็นต้องพึ่งพาขนาดบล็อกที่เล็กมากเพื่อรับประกันคุณภาพของการแลกเปลี่ยนข้อมูล การทดลองแสดงให้เห็นว่าขนาดบล็อก B เป็น 512 หรือ 1024 จะให้ผลลัพธ์ดีที่สุด (ดูรูปที่ 3b ด้านล่าง)

In-Place Test-Time Training: ทำให้โมเดลภาษาขนาดใหญ่วิวัฒนาการในสถานที่ระหว่างการอนุมาน อัตราความแม่นยำของงานบริบทยาวเพิ่มขึ้นอย่างมีนัยสำคัญ
รูปที่ 3: การทดลองแบบแยกส่วนสำหรับตัวเลือกการออกแบบที่สำคัญของ In-Place TTT โดยใช้โมเดลพารามิเตอร์ 1.7 พันล้านตัว ประเมินบนมาตรฐาน RULER แผนภูมิแสดง: (a) ผลกระทบของมิติสถานะต่อประสิทธิภาพ; (b) การแลกเปลี่ยนประสิทธิภาพของขนาดบล็อก ขนาดกลาง (เช่น 512, 1024) เป็นค่าที่ดีที่สุด; (c) ความจำเป็นของการดำเนินการ Convolution และ Projection ในฟังก์ชันเป้าหมาย

2.3 เป้าหมายการจัดตำแหน่งการสร้างแบบจำลองภาษา: จากความจำสู่การทำนาย

หลังจากแก้ไขปัญหาสถาปัตยกรรมและประสิทธิภาพแล้ว ปัญหาหลักคือ: น้ำหนักเร็วควรเรียนรู้อะไร?

วิธีการ TTT ที่มีอยู่ในปัจจุบันส่วนใหญ่ใช้เป้าหมายการสร้างใหม่ นั่นคือให้โมเดลเรียนรู้การแมปการแสดงแทนบางอย่างของอินพุตปัจจุบันกลับไปยังตัวมันเองหรือค่าที่เกี่ยวข้อง ซึ่งโดยพื้นฐานแล้วคือการฝึกโมเดลให้ “จดจำ” สิ่งที่เห็นแล้ว

ทีมงาน In-Place TTT เชื่อว่าสำหรับงานการสร้างแบบจำลองภาษา เป้าหมายที่มีประสิทธิภาพมากกว่าคือการให้น้ำหนักเร็วเก็บข้อมูลที่มีประโยชน์สำหรับการทำนายในอนาคต เพื่อจุดประสงค์นี้ พวกเขาจึงเสนอเป้าหมายการจัดตำแหน่งการสร้างแบบจำลองภาษา ใหม่:

V = Proj(Conv(E))

โดยที่ E คือเมทริกซ์การฝัง

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง