ทีมวิจัยจากมหาวิทยาลัยชิงหัวเสนอ ViT³: ปฏิวัติการสร้างแบบจำลองลำดับด้วยการเรียนรู้เชิงลึก ความซับซ้อนเชิงเส้นเหนือกว่า Transformer

15 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 16 views

การสร้างแบบจำลองลำดับ (Sequence Modeling) เป็นปัญหาพื้นฐานหลักในด้านต่างๆ เช่น โมเดลภาษาขนาดใหญ่และคอมพิวเตอร์วิทัศน์ โมเดล Transformer ที่ใช้กันอย่างแพร่หลายในปัจจุบันมีความซับซ้อนในการคำนวณที่เพิ่มขึ้นแบบกำลังสองตามความยาวของลำดับ ซึ่งก่อให้เกิดคอขวดในการคำนวณอย่างมีนัยสำคัญเมื่อต้องจัดการกับงานลำดับยาว ดังนั้น วงการวิชาการจึงพยายามค้นคว้าหาวิธีการสร้างแบบจำลองลำดับที่มีประสิทธิภาพสูงและมีความซับซ้อนในการคำนวณเชิงเส้นอย่างต่อเนื่อง

โมเดล Test-Time Training (TTT) ซึ่งเป็นกระบวนทัศน์การสร้างแบบจำลองลำดับที่เกิดขึ้นใหม่ ได้นิยามการดำเนินการ Attention ใหม่เป็นกระบวนการเรียนรู้แบบออนไลน์ ในการอนุมานแต่ละครั้ง โมเดลนี้ใช้คู่ Key-Value เพื่อสร้างโมเดลภายในที่มีน้ำหนักเบา ซึ่งแตกต่างจากการออกแบบโมเดลที่กำหนดตายตัว กระบวนทัศน์นี้เปิดพื้นที่การออกแบบที่มีความซับซ้อนเชิงเส้นอันอุดมสมบูรณ์ ทำให้เป็นไปได้ที่จะบรรลุการสร้างแบบจำลองลำดับที่มีประสิทธิภาพสูงและมีความแม่นยำสูง

อย่างไรก็ตาม พื้นที่การออกแบบที่ยืดหยุ่นของ TTT ก็เป็นดาบสองคมเช่นกัน ในปัจจุบัน โมเดลประเภทนี้ขาดความเข้าใจและหลักการออกแบบที่เป็นระบบ การสร้างโมเดล TTT ทางด้านภาพในอุดมคติจากพื้นที่การออกแบบที่กว้างใหญ่ และการปรับปรุงประสิทธิภาพให้ดียิ่งขึ้น ล้วนเป็นปัญหาที่ท้าทายอย่างยิ่ง

ด้วยเหตุนี้ บทความนี้จึงได้ทำการศึกษาอย่างเป็นระบบเกี่ยวกับการสร้างและประสิทธิภาพของโมเดล Test-Time Training ในสาขาวิชาคอมพิวเตอร์วิทัศน์ ผ่านการทดลองและการวิเคราะห์หลายชุด เราได้สรุปหลักการออกแบบ 6 ประการสำหรับการสร้างโมเดล TTT ทางด้านภาพที่มีความแม่นยำสูงและมีประสิทธิภาพ และได้อภิปรายถึงแนวทางการปรับปรุงในอนาคต

จากข้อค้นพบเหล่านี้ เราได้สร้างโมเดล Vision Test-Time Training (ViT³) ซึ่งเป็นสถาปัตยกรรม TTT ล้วนๆ โมเดลนี้เหนือกว่าโมเดลที่มีความซับซ้อนเชิงเส้นที่มีอยู่ในปัจจุบันในงานด้านภาพต่างๆ ในขณะที่ยังคงความสามารถในการคำนวณแบบขนานและความเร็วในการอนุมานสูง ซึ่งเป็นพื้นฐานที่แข็งแกร่งสำหรับการวิจัย TTT ทางด้านภาพในอนาคต

ลิงก์บทความ: https://arxiv.org/abs/2512.01643
ลิงก์โค้ด: https://github.com/LeapLabTHU/ViTTT

มุมมองใหม่ของการสร้างแบบจำลองลำดับ

ในความเข้าใจแบบดั้งเดิม การคำนวณ Attention มักถูกมองว่าเป็นการถ่วงน้ำหนักค่า value ด้วยคะแนน Attention เพื่อหาผลรวมถ่วงน้ำหนัก อันที่จริง เราสามารถมองกลไก Attention ใหม่จากมุมมองของ “การสร้างโมเดลด้วยบริบท” ได้เช่นกัน

รูปที่ 1: แผนผังของ Softmax Attention, Linear Attention และโมดูล TTT

ดังแสดงในรูปที่ 1 สำหรับ Softmax Attention แบบคลาสสิก เราสามารถเข้าใจได้ว่า: ใช้ key และ value ของบริบทปัจจุบันเพื่อสร้างโมเดล MLP สองชั้น โดยที่น้ำหนักของเลเยอร์เชิงเส้นแรกของ MLP คือทรานสโพสของเมทริกซ์ key ฟังก์ชันกระตุ้นคือ Softmax และน้ำหนักของเลเยอร์เชิงเส้นที่สองคือเมทริกซ์ value กระบวนการคำนวณ Attention ทั้งหมด เทียบเท่ากับการป้อน query เข้าไปในโมเดล MLP สองชั้นที่สร้างขึ้นจาก key และ value ในทำนองเดียวกัน Linear Attention สามารถเข้าใจได้ว่า: ใช้น้ำหนักของเลเยอร์เชิงเส้นที่สร้างจาก key และ value จากนั้นป้อน query เข้าไปในโมเดลเชิงเส้นนี้ เพื่อให้ได้การคำนวณ Attention เชิงเส้น

ดังนั้น กระบวนทัศน์ Attention แบบคลาสสิกทั้งสองแบบ โดยพื้นฐานแล้วคือการใช้ key และ value เพื่อสร้างโมเดลขนาดเล็ก จากนั้นป้อน query เข้าไปในโมเดลนั้นเพื่อให้การสร้างแบบจำลองสมบูรณ์

ในมุมมองนี้ ความแตกต่างหลักระหว่างทั้งสองคือการบีบอัดหรือไม่ Softmax Attention ใช้ key และ value ที่สมบูรณ์เพื่อสร้าง MLP สองชั้น โดยไม่มีการบีบอัด ให้ผลลัพธ์ที่ดีเยี่ยมแต่มีต้นทุนการคำนวณสูง ในทางตรงกันข้าม Linear Attention บีบอัด key และ value อย่างมาก โดยบีบอัด key และ value ที่สมบูรณ์โดยตรงไปยังพื้นที่ d×d ผ่านการคูณเมทริกซ์ ดังนั้น ความซับซ้อนของพื้นที่และการคำนวณจึงต่ำกว่า Softmax Attention ที่ไม่มีการบีบอัดอย่างมีนัยสำคัญ อย่างไรก็ตาม เนื่องจากพื้นที่ d×d เป็นเชิงเส้นโดยสมบูรณ์ และวิธีการบีบอัดหยาบเกินไป Linear Attention จึงทำให้ประสิทธิภาพลดลงอย่างเห็นได้ชัด

ดังนั้น คำถามหลักจึงตามมา: เราสามารถบรรลุการบีบอัดในขณะที่รักษาประสิทธิภาพของโมเดล โดยคำนึงถึงทั้งความแม่นยำสูงและประสิทธิภาพสูงได้หรือไม่?

สำหรับคำถามนี้ นักวิจัยมีคำตอบที่แน่นอน ย้อนกลับไปในสาขาการเรียนรู้ของเครื่องทั้งหมด อัลกอริทึมการบีบอัดที่ประสบความสำเร็จมากที่สุดก็คือ Deep Learning Deep Learning บีบอัดข้อมูลลงในพื้นที่น้ำหนักโมเดลที่กะทัดรัดยิ่งขึ้นผ่านการไล่ระดับสี โดยทั่วไปสามารถบรรลุอัตราการบีบอัดสิบเท่าหรือร้อยเท่า ดังนั้น โมเดล Test-Time Training จึงพยายามจำลองความสำเร็จของ Deep Learning อีกครั้งในงานสร้างแบบจำลองลำดับ

ดังแสดงในรูปที่ 1 (c) โมเดล Test-Time Training พยายามบีบอัดข้อมูลของ key และ value ลงในโมเดลภายในขนาดเล็ก ซึ่งโครงสร้างของโมเดลภายในนี้แทบจะเป็นอะไรก็ได้ เพื่อให้บรรลุเป้าหมายนี้ TTT ถือว่า key และ value เป็น “ชุดข้อมูล” ขนาดเล็ก โดยกำหนดให้โมเดลสร้าง value ที่สอดคล้องกันขึ้นมาใหม่เมื่อป้อน key และอัปเดตน้ำหนักของโมเดลภายในผ่านการไล่ระดับสี:

โดยที่ ℒ คือฟังก์ชันการสูญเสียแบบสร้างใหม่แบบกำกับตนเอง เช่น การสูญเสีย L2 หลังจากการอัปเดตหลายครั้ง เราถือว่าข้อมูลของ key และ value ถูกบีบอัดลงในน้ำหนักของโมเดลภายใน TTT ได้ดีแล้ว ในเวลานี้ เราจะนำโมเดลภายในที่อัปเดตแล้วไปใช้กับ query ผ่านการแพร่กระจายไปข้างหน้าอย่างง่ายเพียงครั้งเดียว เพื่อให้ query อ่านข้อมูลของ key และ value จากน้ำหนักของโมเดลภายใน ความซับซ้อนในการคำนวณของกระบวนการ Test-Time Training ทั้งหมด เป็นสัดส่วนกับความซับซ้อนในการคำนวณของโมเดลภายใน

ดังนั้น เมื่อเลือกโมเดลที่มีความซับซ้อนเชิงเส้น เช่น MLP สองชั้นอย่างง่าย เป็นโมเดลภายใน TTT จะมีความซับซ้อนของพื้นที่และการคำนวณเชิงเส้น ในขณะเดียวกัน การบีบอัดตามการเรียนรู้และพื้นที่สถานะที่ไม่เป็นเชิงเส้นทำให้ TTT มีความสามารถในการแสดงออกที่ยอดเยี่ยม

วิธีการออกแบบ TTT ทางด้านภาพ

ดังที่ได้กล่าวไว้ก่อนหน้านี้ โมเดล Test-Time Training ประกอบด้วย “การเรียนรู้เชิงลึก” ขนาดเล็กภายในแต่ละ Block ซึ่งมีอิสระในการออกแบบสูงมาก ในปัจจุบัน TTT ขาดความเข้าใจและหลักการออกแบบที่เพียงพอ ซึ่งเป็นอุปสรรคต่อการพัฒนาในสาขาวิชาคอมพิวเตอร์วิทัศน์ บทความนี้ได้สำรวจพื้นที่การออกแบบของ TTT ในสาขาวิชาคอมพิวเตอร์วิทัศน์อย่างเป็นระบบ โดยมุ่งเน้นไปที่สองประเด็นหลัก: (1) การตั้งค่าการฝึกอบรมภายใน เช่น ฟังก์ชันการสูญเสีย อัตราการเรียนรู้ ขนาดแบตช์ จำนวนรอบการฝึก เป็นต้น (2) การออกแบบโมเดลภายใน เช่น สถาปัตยกรรมโมเดลภายใน ความกว้าง ความลึก เป็นต้น บทความนี้ใช้ DeiT-S เป็นฐานในการสำรวจ โดยแทนที่ Softmax Attention ดั้งเดิมด้วยโมดูล TTT และทำการทดลองบน ImageNet-1K

1. การตั้งค่าการฝึกอบรมภายใน

ข้อสังเกต 1: ฟังก์ชันการสูญเสีย L ที่อนุพันธ์ผสมอันดับสองหายไป (ประมาณ 0 หรือเท่ากับ 0) ไม่เหมาะสำหรับ TTT

รูปที่ 2: การเลือกฟังก์ชันการสูญเสียสำหรับการฝึกอบรมภายใน TTT

key, value ฯลฯ ที่จำเป็นสำหรับการฝึกอบรมภายในโมเดล TTT ได้รับการปรับให้เหมาะสมในระหว่างกระบวนการฝึกอบรมแบบ end-to-end ของเครือข่ายภายนอกทั้งหมด เมื่อทำการฝึกอบรมแบบ end-to-end ภายนอก เราจะถือว่าการไล่ระดับสีภายในเป็นนิพจน์ และให้โมเดลทั้งหมดทำการแพร่กระจายย้อนกลับแบบ end-to-end ในกระบวนการนี้ เราจำเป็นต้องหาอนุพันธ์ของนิพจน์การไล่ระดับสีภายในอีกครั้ง โดยคำนวณ “การไล่ระดับสีของการไล่ระดับสี” ซึ่งเป็นการดำเนินการแบบคลาสสิกในการเรียนรู้แบบเมตา ในการปรับให้เหมาะสมแบบ end-to-end การไล่ระดับสีภายนอกของเมทริกซ์การฉายภาพ value คือ:

หากอนุพันธ์ผสมเป็น (ประมาณ) 0 การไล่ระดับสีภายนอกของ จะหายไปและไม่สามารถปรับให้เหมาะสมได้ รูปที่ 2 ยืนยันสิ่งนี้: อนุพันธ์อันดับหนึ่งของการสูญเสีย MAE (L1) คือฟังก์ชันเครื่องหมาย อนุพันธ์ผสมอันดับสองเกือบเป็น 0 ทุกที่ ส่งผลให้ได้ผลลัพธ์ที่แย่ที่สุด อนุพันธ์ผสมอันดับสองของ Smooth L1 เป็น 0 ในบางพื้นที่ ซึ่งก็ให้ผลลัพธ์ที่ไม่ดีเช่นกัน

ข้อสังเกต 2: การฝึกอบรมภายในแบบเต็มแบตช์ครั้งเดียว (batch gradient) ให้ผลลัพธ์ที่ดีในงานด้านภาพ

รูปที่ 3: ขนาดแบตช์และ epoch ของการฝึกอบรมภายใน TTT

ดังแสดงในรูปที่ 3 B=N หมายถึงการใช้คู่ key-value ทั้งหมด N คู่สำหรับการไล่ระดับสีภายในแบบเต็มแบตช์ ในขณะที่ B=N/2, B=N/3, B=N/4 สอดคล้องกับการไล่ระดับสีแบบมินิแบตช์ กล่าวคือ แบ่งชุดข้อมูลออกเป็น 2, 3, 4 มินิแบตช์ต่อเนื่องกัน และการฝึกอบรมภายในแต่ละ epoch จะดำเนินการอัปเดตพารามิเตอร์ 2, 3, 4 ครั้ง

บทความนี้เชื่อว่าการไล่ระดับสีแบบมินิแบตช์ต่อเนื่องจะทำให้เกิดความสัมพันธ์เชิงเหตุผลอย่างชัดเจน: (1) การอัปเดตของมินิแบตช์ก่อนหน้าจะเปลี่ยนน้ำหนักของโมเดลภายใน ส่งผลต่อการคำนวณการไล่ระดับสีของแบตช์ถัดไป (2) การอัปเดตของแบตช์ถัดไปอาจเขียนทับการอัปเดตพารามิเตอร์ที่เกิดจากแบตช์ก่อนหน้า ความสัมพันธ์เชิงเหตุผลนี้เหมาะสมอย่างยิ่งกับข้อมูลเชิงเหตุผล เช่น ภาษาธรรมชาติ แต่มักไม่จำเป็นในงานด้านภาพ

การฝึกอบรมภายในหลาย epoch สามารถปรับปรุงประสิทธิภาพได้ แต่จะลดความเร็วในการอนุมานของโมเดลลงอย่างมาก

ข้อสังเกต 3: อัตราการเรียนรู้ภายในที่ค่อนข้างใหญ่ (เช่น 1.0) เหมาะกับ TTT มากกว่า

รูปที่ 4: อัตราการเรียนรู้สำหรับการฝึกอบรมภายใน TTT

ในรูปที่ 4 เราได้ตรวจสอบผลกระทบของอัตราการเรียนรู้ภายในที่แตกต่างกัน อัตราการเรียนรู้ที่น้อยเกินไปไม่เพียงพอที่จะอัปเดตน้ำหนักโมเดลภายในดั้งเดิมอย่างรวดเร็ว ในขณะที่อัตราการเรียนรู้ที่มากเกินไปจะทำให้การฝึกอบรมไม่เสถียร ในงานด้านภาพที่ตรวจสอบในบทความนี้ อัตราการเรียนรู้ภายใน 1.0 ค่อนข้างเหมาะสม

สิ่งที่ควรชี้ให้เห็นเป็นพิเศษคือ ในบางสถานการณ์พิเศษ อัตราการเรียนรู้ภายในสามารถรวมเข้ากับการดำเนินการปรับขนาดของ key และ value ได้ อย่างไรก็ตาม นี่ไม่ได้หมายความว่าการตั้งค่าอัตราการเรียนรู้ภายในนั้นไม่สำคัญ กรณีที่เทียบเคียงได้คือปัจจัยการปรับขนาดในกลไก Softmax Attention แม้ว่าจะสามารถดูดซับได้โดย query และ key แต่ความสำคัญของมันก็ไม่สามารถละเลยได้

2. การออกแบบโมเดลภายใน

รูปที่ 5: โครงสร้างโมเดลภายใน TTT โดยที่ r และ l แทนอัตราส่วนความกว้างของโมเดลและความลึกของโมเดลตามลำดับ

ข้อสังเกต 4: การเพิ่มความจุของโมเดลภายในสามารถเพิ่มความสามารถในการสร้างแบบจำลองลำดับของ TTT ได้อย่างต่อเนื่อง

ดังแสดงในส่วนแรกของรูปที่ 5 เราได้สร้างโมเดลภายในของ TTT เป็น MLP สองชั้นที่ใช้ฟังก์ชันกระตุ้น SiLU และค่อยๆ เพิ่มอัตราส่วนความกว้าง (อัตราส่วนของมิติเลเยอร์ที่ซ่อนต่อมิติอินพุต) จาก 1.0 เป็น 4.0 ผลการทดลองแสดงให้เห็นว่าประสิทธิภาพของโมเดลเพิ่มขึ้นอย่างต่อเนื่องตามความจุของโมเดลภายใน TTT ที่เพิ่มขึ้น สิ่งนี้แสดงให้เห็นถึงข้อได้เปรียบที่สำคัญของกระบวนทัศน์ Test-Time Training: ภายใต้เงื่อนไขที่ขนาดโมเดลภายนอกคงที่ การขยายขนาดของโมเดลภายในเพียงอย่างเดียวก็สามารถปรับปรุงผลลัพธ์ของการสร้างแบบจำลองลำดับได้อย่างมีประสิทธิภาพ

อย่างไรก็ตาม สิ่งที่ควรเน้นย้ำคือ ในขั้นตอนการอนุมาน โมเดลภายในหนึ่งตัวสร้างค่าใช้จ่ายในการคำนวณที่สูงกว่าโมดูลภายนอกที่มีขนาดเท่ากัน สำหรับโมดูลภายนอก การอนุมานจำเป็นต้องดำเนินการแพร่กระจายไปข้างหน้าเพียงครั้งเดียว ในขณะที่โมเดลภายในอย่างน้อยต้องผ่านขั้นตอนต่อไปนี้: (1) การแพร่กระจายไปข้างหน้าของ key ซึ่งเทียบเท่ากับปริมาณการคำนวณไปข้างหน้า 1 เท่า (2) การแพร่กระจายย้อนกลับของการสูญเสียภายใน ซึ่งประมาณเทียบเท่ากับปริมาณการคำนวณไปข้างหน้า 2 เท่า (3) การนำโมเดลภายในที่อัปเดตแล้วไปใช้กับ query ซึ่งต้องใช้ปริมาณการคำนวณไปข้างหน้าอีก 1 เท่า โดยรวมแล้ว ปริมาณการคำนวณของโมเดลภายในหนึ่งตัวจะอยู่ที่ประมาณ 4 เท่าของโมดูลภายนอกที่มีขนาดเท่ากัน ดังนั้น แม้ว่าการขยายโมเดลภายในอย่างง่ายจะสามารถเพิ่มความสามารถของโมเดลได้อย่างมีนัยสำคัญ แต่บทความนี้เชื่อว่าการออกแบบโมเดลภายในที่เบากว่าและมีประสิทธิภาพมากกว่ายังคงเป็นทิศทางการวิจัยที่สำคัญที่ควรค่าแก่การสำรวจอย่างลึกซึ้ง

ข้อสังเกต 5: ภายใต้กรอบการทำงาน TTT ในปัจจุบัน โมเดลภายในที่ลึกกว่าต้องเผชิญกับปัญหาการปรับให้เหมาะสม

ส่วนที่แล้วเราได้กล่าวถึงผลกระทบของการขยายความกว้างของโมเดลภายในเป็นหลัก อีกวิธีหนึ่งในการขยายที่พบบ่อยคือการเพิ่มความลึกของโมเดล ดังแสดงในส่วนที่สองของรูปที่ 5 เราได้นำโมเดลภายในไปใช้เป็นเลเยอร์เชิงเส้นชั้นเดียว MLP สองชั้น และ MLP สามชั้นตามลำดับ เพื่อตรวจสอบผลกระทบของความลึกของโมเดลภายในต่อประสิทธิภาพ ผลลัพธ์แสดงให้เห็นว่าเมื่อความลึกของโมเดลภายในเพิ่มขึ้น ประสิทธิภาพของโมเดลกลับลดลงอย่างต่อเนื่อง สิ่งนี้ขัดแย้งกับความคาดหวังของเราในระดับหนึ่ง เนื่องจากตามทฤษฎีแล้ว โมเดลภายในที่ลึกกว่ามีความจุมากกว่าและควรจะสามารถบรรลุผลการสร้างแบบจำลองลำดับที่ดีกว่า

รูปที่ 6: โมเดลภายใน TTT ที่ลึกกว่ามี loss ทั้งในระหว่างการฝึกอบรมและการทดสอบสูงกว่า

บทความนี้เชื่อว่าปัญหาการปรับให้เหมาะสมเป็นสาเหตุหลักที่ทำให้โมเดลภายในที่ลึกกว่ามีประสิทธิภาพไม่ดี เพื่อตรวจสอบสมมติฐานนี้ เราได้แสดง loss การฝึกอบรมและการทดสอบของโมเดลทั้งสามประเภทข้างต้นในรูปที่ 6 จะเห็นได้ว่าเมื่อใช้โมเดลภายในที่ลึกกว่า loss การฝึกอบรมของมันกลับสูงกว่า ซึ่งบ่งชี้ว่าประสิทธิภาพที่ลดลงไม่ได้เกิดจากการ overfitting แต่เป็น underfitting โมเดลภายในที่ลึกกว่าควรมีความสามารถในการ拟合ที่แข็งแกร่งกว่า แต่ในการฝึกอบรมจริงกลับ underfitting มากกว่าโมเดลที่ตื้นกว่า ซึ่งแสดงให้เห็นอย่างเต็มที่ว่าโมเดลภายในที่ลึกมีปัญหาการปรับให้เหมาะสมที่รุนแรง และยังห่างไกลจากความสามารถในการแสดงตามทฤษฎี ผลการทดลองในส่วนที่สองของรูปที่ 5 ยืนยันสิ่งนี้เพิ่มเติม: เมื่อบังคับให้เลเยอร์เอาต์พุตของ MLP สองชั้นหรือ SwiGLU จำกัดให้เป็นการแมป identity ประสิทธิภาพของโมเดลจะดีขึ้นอย่างมีนัยสำคัญ ซึ่งบ่งชี้โดยตรงว่าโมเดลภายในที่ลึกกว่ามีปัญหาการปรับให้เหมาะสมต่ำกว่าที่ควรอย่างชัดเจน

ความยากในการปรับให้เหมาะสมนี้เกี่ยวข้องอย่างใกล้ชิดกับคุณลักษณะการเรียนรู้แบบเมตาของ TTT ในแง่หนึ่ง น้ำหนักเริ่มต้นของโมเดลภายในเป็นพารามิเตอร์ที่เรียนรู้ได้ในระหว่างกระบวนการฝึกอบรมภายนอก โมเดลภายในที่ลึกกว่าอาจทำให้พารามิเตอร์เริ่มต้นเหล่านี้ปรับให้เหมาะสมได้ยาก ในอีกแง่หนึ่ง แม้ว่าจะได้รับพารามิเตอร์เริ่มต้นที่ดีแล้ว โมเดลภายในที่ลึกกว่าอาจพบปัญหาการหายไปหรือการระเบิดของการไล่ระดับสีในระหว่างการฝึกอบรมภายใน ซึ่งส่งผลต่อผลลัพธ์สุดท้าย

วิธีการแก้ปัญหาการปรับให้เหมาะสมของโมเดลภายในที่ลึกกว่าเป็นทิศทางที่สำคัญอย่างยิ่งในการพัฒนา TTT ในอนาคต การวิจัยเชิงทฤษฎีแสดงให้เห็นว่าความสามารถในการ拟合ของโครงข่ายประสาทเทียมจะเพิ่มขึ้นแบบทวีคูณตามความลึก ซึ่งเป็นเหตุผลสำคัญที่ทำให้โครงข่ายประสาทเทียมในปัจจุบันประสบความสำเร็จ ดังนั้น โมเดลภายในที่ลึกกว่าจึงมีศักยภาพมหาศาลในการบรรลุการสร้างแบบจำลองลำดับ Test-Time Training ที่มีความแม่นยำสูง

ข้อสังเกต 6: ในงานด้านภาพ โมเดลภายในเหมาะสมอย่างยิ่งกับการใช้สถาปัตยกรรมแบบ Convolution

ก่อนการถือกำเนิดของ Transformer การดำเนินการ Convolution เป็นรากฐานของคอมพิวเตอร์วิทัศน์มาโดยตลอด ในกรอบงาน TTT เราสามารถนำโมเดลภายในไปใช้เป็นเครือข่าย Convolutional แบบน้ำหนักเบาได้อย่างสมบูรณ์ โดยไม่จำเป็นต้องจำกัดให้เป็นส่วนประกอบประมวลผลโทเค็นเดี่ยว เช่น MLP หรือ SwiGLU ในส่วนที่สามของรูปที่ 5 เราได้แสดงวิธีการนำไปใช้ที่ง่ายที่สุดสองวิธี: การสร้างโมเดลภายในเป็น Convolution 3×3 หรือ Depthwise Convolution ผลการทดลองแสดงให้เห็นว่าทั้งสองวิธีนำมาซึ่งการปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญ

บทความนี้เชื่อว่าการใช้เครือข่าย Convolutional เป็นโมเดลภายใน TTT สามารถบรรลุการผสมผสานที่สมบูรณ์แบบของข้อมูลท้องถิ่นและข้อมูลส่วนกลาง โดยเฉพาะอย่างยิ่ง ในระหว่างกระบวนการฝึกอบรมภายในของ TTT ข้อมูลส่วนกลางที่มีอยู่ใน key และ value จะถูกบีบอัดลงในน้ำหนักของเคอร์เนล Convolution เมื่อ query ผ่านการแพร่กระจายไปข้างหน้าผ่านโมเดลภายใน มันจะสามารถรับข้อมูลท้องถิ่น (จาก receptive field ของเคอร์เนล Convolution) และข้อมูลส่วนกลาง (จากน้ำหนักเคอร์เนล Convolution ที่มีข้อมูลส่วนกลาง) ไปพร้อมกันได้อย่างเป็นธรรมชาติ ซึ่งสอดคล้องกับความต้องการของงานด้านภาพอย่างสมบูรณ์แบบ

ViT³: โมเดล Test-Time Training ทางด้านภาพ

จากการสำรวจข้างต้น บทความนี้ได้เสนอสถาปัตยกรรม TTT ล้วนๆ นั่นคือโมเดล Vision Test-Time Training (ViT³) โดยเฉพาะอย่างยิ่ง ในด้านการฝึกอบรมภายใน ใช้การไล่ระดับสีแบบเต็มแบตช์ครั้งเดียว อัตราการเรียนรู้ตั้งไว้ที่ 1.0 และใช้ฟังก์ชันการสูญเสียแบบ Dot Product ในด้านโมเดลภายใน ใช้ SwiGLU และ Depthwise Convolution แบบง่าย ในฐานะโมเดลพื้นฐานของสถาปัตยกรรม TTT ViT³ สามารถนำไปใช้กับกรอบงาน Vision Transformer ต่างๆ ได้อย่างยืดหยุ่นเพื่อทำงานที่แตกต่างกัน

บทความนี้ได้ตรวจสอบประสิทธิภาพของ ViT³ อย่างครอบคลุมในงานด้านภาพที่เป็นตัวแทน เช่น การจำแนกประเภท การตรวจจับ การแบ่งส่วน และการสร้าง ผลการทดลองแสดงให้เห็นว่า ViT³ สามารถเหนือกว่าการออกแบบที่มีความซับซ้อนเชิงเส้นขั้นสูงหลายแบบ เช่น กลไก Linear Attention และโมเดล Visual Mamba ผลลัพธ์นี้ไม่เพียงแต่ยืนยันประสิทธิผลของการออกแบบ ViT³ เท่านั้น แต่ยังเน้นย้ำถึงศักยภาพอันยิ่งใหญ่ที่โมเดล Test-Time Training แสดงให้เห็นในด้านการสร้างแบบจำลองลำดับภาพที่มีความซับซ้อนเชิงเส้นที่มีประสิทธิภาพและปรับขนาดได้

ต่อไปนี้เป็นผลการทดลองบางส่วน สำหรับผลลัพธ์โดยละเอียดเพิ่มเติม โปรดดูบทความต้นฉบับ:

รูปที่ 7: การทดลองจำแนกภาพ ImageNet-1K

รูปที่ 8: งานปลายน้ำความละเอียดสูง – การตรวจจับวัตถุ

รูปที่ 9: การทดลองสร้างภาพ

รูปที่ 10: ปริมาณงานอนุมานและการใช้หน่วยความจำที่เปลี่ยนแปลงตามความละเอียดอินพุต

สรุปและแนวโน้มในอนาคต

การออกแบบกระบวนทัศน์การสร้างแบบจำลองลำดับที่มีประสิทธิภาพและมีความสามารถในการแสดงออกสูง เป็นหัวข้อหลักในสาขาคอมพิวเตอร์วิทัศน์มาโดยตลอด

บทความนี้ได้สำรวจพื้นที่การออกแบบของ Test-Time Training (TTT) ซึ่งเป็นกระบวนทัศน์การสร้างแบบจำลองลำดับที่เกิดขึ้นใหม่อย่างเป็นระบบในสาขาวิชาคอมพิวเตอร์วิทัศน์

ผ่านการทดลองจำนวนมาก เราได้สรุปข้อสังเกตและการวิเคราะห์เป็นหลักการออกแบบ 6 ประการ ซึ่งกำหนดหลักเกณฑ์การออกแบบสำหรับการสร้างโมเดล TTT ทางด้านภาพที่มีประสิทธิภาพ และได้อภิปรายถึงทิศทางการวิจัยในอนาคตบางประการ

จากการวิจัยข้างต้น บทความนี้ได้เสนอโมเดล Vision Test-Time Training (ViT³) ซึ่งเป็นสถาปัตยกรรม TTT ล้วนๆ ที่ออกแบบมาเพื่อการสร้างแบบจำลองลำดับภาพโดยเฉพาะ ViT³ บรรลุผลลัพธ์ที่แข่งขันได้ในงานด้านภาพหลายงาน โดยเป็นพื้นฐานที่แข็งแกร่งสำหรับโมเดลที่มีความซับซ้อนเชิงเส้น

เราหวังว่าข้อสรุปและการวิเคราะห์ของบทความนี้จะเป็นข้อมูลอ้างอิงและแรงบันดาลใจที่เป็นประโยชน์สำหรับงานวิจัยโมเดล TTT ทางด้านภาพในอนาคต

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง