Meituan STAR โมเดลขนาดใหญ่: ฝ่าด่านภาวะศูนย์รวม ‘ความเข้าใจ-การสร้าง’ แบบหลายรูปแบบ คะแนน GenEval สูงกว่า 0.91

Meituan STAR โมเดลขนาดใหญ่: ฝ่าด่านภาวะศูนย์รวม 'ความเข้าใจ-การสร้าง' แบบหลายรูปแบบ คะแนน GenEval สูงกว่า 0.91

เมื่อเร็วๆ นี้ Meituan ได้เปิดตัวโซลูชันโมเดลใหญ่แบบหลายรูปแบบแบบรวมศูนย์ใหม่ STAR (STacked AutoRegressive Scheme for Unified Multimodal Learning) ด้วยการออกแบบหลักสองประการที่เป็นนวัตกรรม “สถาปัตยกรรมสแต็กออโต้รีเกรสซีฟ + การฝึกงานแบบก้าวหน้า” ทำให้เกิดความก้าวหน้าคู่ในด้าน “ความสามารถในการเข้าใจไม่ลดลง ความสามารถในการสร้างอยู่ในระดับสูงสุด”

ในการทดสอบมาตรฐานต่างๆ เช่น GenEval (การจัดตำแหน่งข้อความ-ภาพ), DPG-Bench (การสร้างฉากที่ซับซ้อน), ImgEdit (การแก้ไขภาพ) STAR ได้แสดงประสิทธิภาพระดับ SOTA; ตรรกะการฝึกที่เรียบง่ายที่สุดและการออกแบบโมเดลที่กะทัดรัด ทำให้โมเดลใหญ่แบบหลายรูปแบบแบบรวมศูนย์สามารถนำไปใช้งานในระดับอุตสาหกรรมได้จริง

Meituan STAR โมเดลขนาดใหญ่: ฝ่าด่านภาวะศูนย์รวม 'ความเข้าใจ-การสร้าง' แบบหลายรูปแบบ คะแนน GenEval สูงกว่า 0.91

  • ชื่อบทความวิจัย: STAR: Stacked AutoRegressive Scheme for Unified Multimodal Learning
  • ลิงก์บทความวิจัย: https://arxiv.org/pdf/2512.13752
  • หน้าแรกโครงการ: https://star-mm-ai.github.io
  • ที่อยู่โค้ด: https://github.com/MM-MVR/STAR
  • คำสำคัญ: หลายรูปแบบแบบรวมศูนย์, สแต็กออโต้รีเกรสซีฟ, การฝึกงานแบบก้าวหน้า

Meituan STAR โมเดลขนาดใหญ่: ฝ่าด่านภาวะศูนย์รวม 'ความเข้าใจ-การสร้าง' แบบหลายรูปแบบ คะแนน GenEval สูงกว่า 0.91

หนึ่ง. ปัญหาอุตสาหกรรม: “คำสาปแห่งความสามารถ” ของโมเดลใหญ่แบบหลายรูปแบบแบบรวมศูนย์

ในกระบวนการสู่ AGI การรวม “ความเข้าใจภาพ” และ “การสร้างภาพ” เข้าด้วยกันในพื้นที่พารามิเตอร์เดียวถือเป็นเป้าหมายสูงสุดของโมเดลใหญ่แบบหลายรูปแบบ อย่างไรก็ตาม ในทางปฏิบัติกลับถูกจำกัดด้วย “คำสาปแห่งความสามารถ” ซึ่งแสดงออกมาเป็นความขัดแย้งสามประการ

1. เป้าหมายการปรับให้เหมาะสมขัดแย้งกัน — เกมผลรวมศูนย์ระหว่างการจัดตำแหน่งความหมายและการคงความเที่ยงตรงของพิกเซล

หัวใจของงานด้านความเข้าใจคือ “การจัดตำแหน่งความหมายและการให้เหตุผลเชิงตรรกะ” ซึ่งโมเดลต้องจับความสัมพันธ์เชิงความหมายข้ามรูปแบบได้อย่างแม่นยำ ในขณะที่หัวใจของงานด้านการสร้างคือ “การคงความเที่ยงตรงของพิกเซลและการแสดงออกเชิงสร้างสรรค์” ซึ่งโมเดลต้องคำนึงถึงการคืนค่าลายละเอียดและความต่อเนื่องของเนื้อหา เป้าหมายการปรับให้เหมาะสมและพื้นที่คุณลักษณะของทั้งสองงานแตกต่างกันอย่างชัดเจน ทำให้การฝึกร่วมกันตกอยู่ในเกมผลรวมศูนย์: เสริมความสามารถในการสร้าง ความแม่นยำในการเข้าใจจะลดลง; มุ่งเน้นงานด้านความเข้าใจ ความชัดเจนและความสอดคล้องเชิงความหมายของภาพที่สร้างขึ้นจะลดลง

2. แนวทางการฝึกที่ซับซ้อน — ข้อจำกัดสองประการของการฝึกตั้งแต่เริ่มต้นและสถาปัตยกรรมแบบผสม

เส้นทางทางเทคนิคที่มีอยู่สองเส้นทางต่างเผชิญกับต้นทุนการฝึกที่สูง:
* การฝึกแบบ end-to-end ตั้งแต่เริ่มต้น: ต้องทำสมดุลหลายงานบนข้อมูลคู่ข้อความ-ภาพ/การสร้างระดับร้อยล้านมิติ พื้นที่การปรับให้เหมาะสมมีมิติสูง ความไวต่อไฮเปอร์พารามิเตอร์ขยายแบบทวีคูณ วงจรการฝึกมักใช้เวลาเป็น “เดือน”
* สถาปัตยกรรมแบบผสม: บรรลุการครอบคลุมฟังก์ชันผ่านการรวมโมเดล diffusion และโมเดลออโต้รีเกรสซีฟ แต่ต้องออกแบบสะพานแปลงคุณลักษณะที่ซับซ้อน ตัวปรับเพิ่มเติม หรือฟังก์ชันการสูญเสียแบบผสม ซึ่งเพิ่มความยากในการปรับพารามิเตอร์โดยรวม

3. การขยายความสามารถถดถอย — การลืมแบบหายนะและความจุอิ่มตัว

เมื่อเพิ่มงานสร้างเข้าไปในโครงสร้างหลักความเข้าใจที่ผ่านการฝึกล่วงหน้า โมเดลจะเกิดการลืมแบบหายนะ ความสามารถเดิมที่ถนัด เช่น การถามตอบภาพ การให้เหตุผลเชิงตรรกะ จะลดลงอย่างเห็นได้ชัด สาเหตุหลักมาจากความจุพารามิเตอร์อิ่มตัวและการรบกวนการแทนค่า — การรบกวนระดับพิกเซลจากงานสร้างก่อให้เกิดสัญญาณรบกวนในพื้นที่คุณลักษณะ ซึ่งเปลี่ยนแปลงคุณลักษณะเชิงความหมายที่ถูกจัดตำแหน่งไว้ก่อนหน้านี้

เมื่อเผชิญกับปัญหาอุตสาหกรรมเหล่านี้ ทีม MM ของ Meituan ได้ตั้งคำถามที่ตรงประเด็น: เป็นไปได้หรือไม่ที่จะเพิ่มความสามารถในการสร้างและแก้ไขของโมเดลอย่างต่อเนื่องและมีประสิทธิภาพ โดยยังคงรักษาความสามารถในการเข้าใจหลายรูปแบบไว้อย่างครบถ้วน? การกำเนิดของโซลูชัน STAR ได้ให้คำตอบที่แน่นอนและสามารถขยายได้

สอง. นวัตกรรมหลัก: ปรับกฎ “การเติบโตของความสามารถ” ของการเรียนรู้หลายรูปแบบใหม่

กุญแจสำคัญของ STAR ไม่ใช่การก้าวข้ามเทคโนโลยีเดียว แต่เป็นการสร้างระบบการเรียนรู้หลายรูปแบบที่ “ความสามารถซ้อนทับกันโดยไม่ขัดแย้ง” หลักการสำคัญอยู่ที่กระบวนทัศน์ “แช่แข็งพื้นฐาน + ซ้อนทับขยาย + ฝึกเป็นขั้นตอน” ผ่านการออกแบบหลักสามประการเพื่อบรรลุความสามัคคีของสามความสำคัญ “ความเข้าใจ การสร้าง การแก้ไข” ในขณะเดียวกันก็หลีกเลี่ยงการรบกวนซึ่งกันและกัน

1. สถาปัตยกรรมหลัก: โมเดล AR โครงสร้างเดียวกันซ้อนทับ

นวัตกรรมด้านสถาปัตยกรรมหลักของ STAR คือการออกแบบ “โมดูล AR โครงสร้างเดียวกันซ้อนทับ” ซึ่งทำให้ความซับซ้อนของการขยายความสามารถหลายรูปแบบง่ายขึ้นอย่างสิ้นเชิง:
* การออกแบบโครงสร้างเดียวกัน ต้นทุนการปรับใช้เป็นศูนย์: โมดูลซ้อนทับที่เพิ่มใหม่ใช้สถาปัตยกรรมเหมือนกันทุกประการกับโมเดล AR พื้นฐาน การกำหนดค่าเริ่มต้นพารามิเตอร์นำพารามิเตอร์ชั้นบนสุดของโมเดลพื้นฐานมาใช้โดยตรง ซึ่งหมายความว่าโมดูลใหม่ไม่จำเป็นต้องเรียนรู้คุณลักษณะพื้นฐานใหม่ สามารถปรับให้เข้ากับพื้นที่คุณลักษณะของโมเดลที่มีอยู่ได้อย่างรวดเร็ว หลีกเลี่ยงการออกแบบ “สะพานแปลงคุณลักษณะ” ที่ซับซ้อนในสถาปัตยกรรมแบบผสมแบบดั้งเดิม
* การฝึกเป้าหมายเดียว การปรับให้เหมาะสมที่เรียบง่ายที่สุด: ไม่จำเป็นต้องออกแบบฟังก์ชันการสูญเสียเพิ่มเติม สามารถฝึกความสามารถในการสร้างและแก้ไขได้เพียงผ่านเป้าหมายมาตรฐาน “การทำนายโทเค็นถัดไป” เป้าหมายนี้สอดคล้องกับเป้าหมายการฝึกของโมเดลพื้นฐานอย่างสมบูรณ์ ซึ่งรับประกันความเสถียรของกระบวนการฝึก
* พารามิเตอร์กะทัดรัด เป็นมิตรต่อการนำไปใช้งาน: STAR-3B เพิ่มพารามิเตอร์เพียง 1.2B จากพื้นฐานของ Qwen2.5-VL-3B และ STAR-7B เพิ่ม 3B พารามิเตอร์ แต่กลับทำให้ความสามารถในการสร้างก้าวกระโดด การออกแบบที่กะทัดรัดเหมาะอย่างยิ่งสำหรับการปรับใช้ในอุตสาหกรรม สามารถลดต้นทุนการอนุมานได้อย่างมีประสิทธิภาพ

Meituan STAR โมเดลขนาดใหญ่: ฝ่าด่านภาวะศูนย์รวม 'ความเข้าใจ-การสร้าง' แบบหลายรูปแบบ คะแนน GenEval สูงกว่า 0.91

2. กระบวนทัศน์หลัก: การฝึกงานแบบก้าวหน้า

STAR ทำลายรูปแบบ “ฝึกรวมกัน” ของโมเดลรวมศูนย์แบบดั้งเดิม โดยแยกการเรียนรู้หลายรูปแบบออกเป็นกระบวนการก้าวหน้าสี่ขั้นตอน ในแต่ละขั้นตอนจะแช่แข็งความสามารถหลักที่มีอยู่ และขยายทักษะใหม่:
1. ขั้นตอนที่หนึ่ง (การฝึก VQ): ฝึกความสามารถ “การแบ่งส่วนภาพ” ก่อน เพื่อวางรากฐานสำหรับการสร้าง/แก้ไขในภายหลัง
2. ขั้นตอนที่สอง (การฝึกล่วงหน้าข้อความสร้างภาพ): บนโมเดลความเข้าใจที่แช่แข็ง ซ้อนทับโมดูล AR เพื่อเรียนรู้งานข้อความสร้างภาพโดยเฉพาะ อัปเดตเฉพาะพารามิเตอร์โมดูลใหม่ ไม่แตะต้องความสามารถในการเข้าใจเดิม
3. ขั้นตอนที่สาม (การฝึกจัดตำแหน่ง AR-Diffusion): ปรับให้เหมาะสมตัวถอดรหัส diffusion แยกต่างหาก เพื่อให้ภาพที่สร้างขึ้นชัดเจนยิ่งขึ้น โมดูลอื่นๆ ยังคงแช่แข็ง
4. ขั้นตอนที่สี่ (การปรับแต่งคำสั่งแบบรวมศูนย์): ฝึกโมดูล AR ซ้อนทับและตัวถอดรหัส diffusion ร่วมกัน เพื่อเชี่ยวชาญ “การสร้างภาพ+การแก้ไข” พร้อมกัน ใช้กลไกหยุดเกรเดียนต์เพื่อป้องกันไม่ให้งานใหม่รบกวนความสามารถเดิม

ผ่านการฝึกงานแบบก้าวหน้า STAR บรรลุ “ความสามารถในการเข้าใจไม่ถดถอย ความสามารถในการสร้าง/แก้ไขเพิ่มขึ้นทีละขั้น”

Meituan STAR โมเดลขนาดใหญ่: ฝ่าด่านภาวะศูนย์รวม 'ความเข้าใจ-การสร้าง' แบบหลายรูปแบบ คะแนน GenEval สูงกว่า 0.91

3. กลไกเสริมความแข็งแกร่ง: การปรับให้เหมาะสมสำคัญสองประการ

1. เครื่องมือวัดปริมาณภาพความจุสูง
โมเดล VQ แบบดั้งเดิมแบ่งภาพหยาบ รายละเอียดสูญหายมาก STAR-VQ ได้ทำการอัปเกรดสำคัญสองประการ: ขยายขนาด codebook จาก 16384 เป็น 65536 เพิ่มมิติเวกเตอร์จาก 8 มิติ เป็น 512 มิติ เพื่อจับรายละเอียดภาพได้มากขึ้น และผ่านการเพิ่มชั้นแมป codebook เพื่อแก้ปัญหาการล่มสลายของ codebook ที่พบบ่อยในการฝึก codebook ขนาดใหญ่ รับประกันว่าโทเค็นทั้งหมดจะถูกใช้อย่างมีประสิทธิภาพ หน้าที่หลักคือสร้างโทเค็นภาพที่แม่นยำยิ่งขึ้น เพื่อให้งานสร้าง/แก้ไขในภายหลังสามารถคืนค่ารายละเอียดภาพที่ละเอียดอ่อนกว่าได้

2. กลไกการให้เหตุผลโดยนัย
เมื่อเผชิญกับคำแนะนำที่ซับซ้อน โมเดลสร้างแบบดั้งเดิมมักมีปัญหาเรื่องการจัดตำแหน่งความหมายผิดพลาดและละเลยรายละเอียด กลไกการให้เหตุผลโดยนัยของ STAR ทำให้โมเดลเรียนรู้ที่จะ “ให้เหตุผลก่อน แล้วจึงสร้าง”: เมื่อได้รับคำแนะนำที่ซับซ้อน โมเดล AR พื้นฐานที่แช่แข็งจะให้เหตุผลก่อน สร้างโทเค็นแฝงที่บรรจุความรู้หลัก จากนั้นโทเค็นแฝงเหล่านี้จะถูกใช้เป็นอินพุตเงื่อนไขเพื่อชี้นำโมดูลซ้อนทับในการสร้างภาพ การออกแบบนี้ทำให้เกิดการแยก “การให้เหตุผลเชิงความหมาย” และ “การสร้างพิกเซล” ซึ่งเพิ่มระดับการจัดตำแหน่งความหมายในสถานการณ์ที่ซับซ้อนอย่างมาก

สาม. ผลการทดลอง

ประสิทธิภาพที่ก้าวกระโดดของ STAR แสดงให้เห็นถึงความสามารถระดับสูงสุดในสามงานหลัก: ความเข้าใจ การสร้าง และการแก้ไข

1. งานสร้าง

ในการทดสอบมาตรฐานหลักของการสร้างข้อความ-ภาพ STAR แสดงผลที่น่าประทับใจ:
* GenEval (มาตรฐานอำนาจการจัดตำแหน่งความหมาย): STAR-7B ได้คะแนนรวม 0.91 ทำลายสถิติ SOTA ใหม่ ใน 6 งานย่อย เช่น การนับวัตถุ คุณสมบัติสี ความสัมพันธ์เชิงพื้นที่ คุณสมบัติเอนทิตี STAR ได้อันดับหนึ่งใน 5 งาน

(2) DPG-Bench (การประเมินการสร้างฉากที่ซับซ้อน): STAR-7B ได้คะแนนนำที่ 87.44 มีผลงานโดดเด่นในงานต่างๆ เช่น การรวมวัตถุหลายชิ้น คำอธิบายฉากที่ซับซ้อน ภาพที่สร้างขึ้นไม่เพียงแต่มีรายละเอียดอุดมสมบูรณ์ แต่ยังสามารถคืนค่าความสัมพันธ์เชิงตรรกะในข้อความได้อย่างแม่นยำ

(3) WISEBench (การประเมินการให้เหตุผลความรู้โลก): STAR-7B ได้คะแนนรวม 0.66 เหนือกว่าโมเดลรวมศูนย์ประเภทเดียวกัน ซึ่งพิสูจน์ว่ากลไกการให้เหตุผลโดยนัยสามารถใช้ประโยชน์จากความรู้โลกได้อย่างมีประสิทธิภาพ เพื่อเพิ่มคุณภาพการสร้างของคำแนะนำที่ซับซ้อน

Meituan STAR โมเดลขนาดใหญ่: ฝ่าด่านภาวะศูนย์รวม 'ความเข้าใจ-การสร้าง' แบบหลายรูปแบบ คะแนน GenEval สูงกว่า 0.91

Meituan STAR โมเดลขนาดใหญ่: ฝ่าด่านภาวะศูนย์รวม 'ความเข้าใจ-การสร้าง' แบบหลายรูปแบบ คะแนน GenEval สูงกว่า 0.91

2. งานแก้ไข

ในการประเมินการแก้ไขภาพ STAR แสดงความสามารถในการปรับตัวที่ยืดหยุ่นและทรงพลัง สามารถตอบสนองคำสั่งแก้ไขต่างๆ เช่น “เพิ่มวัตถุ เปลี่ยนพื้นหลัง ปรับสไตล์ ลบองค์ประกอบ” ได้อย่างแม่นยำ:

(1) ImgEdit (ครอบคลุม 9 ประเภทงานแก้ไข): STAR-7B ได้คะแนนรวม 4.34 ทำลายสถิติ SOTA ใหม่ ในงานย่อย “การแยกวัตถุ” และ “การแก้ไขการกระทำ” ได้คะแนน 4.19 และ 4.60 ตามลำดับ นำหน้าโมเดลประเภทเดียวกัน

(2) MagicBrush (การประเมินการแก้ไขความหมาย): STAR-7B ได้คะแนน CLIP-I ถึง 0.934 (ความสอดคล้องเชิงความหมาย) ค่าความคลาดเคลื่อน L1 ต่ำถึง 0.056 (ความเที่ยงตรงของพิกเซล) ซึ่งหมายความว่า STAR สามารถรักษาเนื้อหาหลักของภาพต้นฉบับได้มากที่สุดในขณะที่ทำงานแก้ไขเสร็จสิ้น หลีกเลี่ยง “การแก้ไขเกิน” หรือ “ความหมายเบี่ยงเบน”

Meituan STAR โมเดลขนาดใหญ่: ฝ่าด่านภาวะศูนย์รวม 'ความเข้าใจ-การสร้าง' แบบหลายรูปแบบ คะแนน GenEval สูงกว่า 0.91

Meituan STAR โมเดลขนาดใหญ่: ฝ่าด่านภาวะศูนย์รวม 'ความเข้าใจ-การสร้าง' แบบหลายรูปแบบ คะแนน GenEval สูงกว่า 0.91

3. งานความเข้าใจ

แม้จะมุ่งเน้นที่การเพิ่มความสามารถในการสร้างและแก้ไข ความสามารถในการเข้าใจของ STAR ยังคงอยู่ในระดับสูงสุด ใน 9 การประเมินความเข้าใจที่มีอำนาจ STAR มีผลงานนำหน้าโมเดลหลายรูปแบบประเภทเดียวกัน

Meituan STAR โมเดลขนาดใหญ่: ฝ่าด่านภาวะศูนย์รวม 'ความเข้าใจ-การสร้าง' แบบหลายรูปแบบ คะแนน GenEval สูงกว่า 0.91

สี่. สรุปและมุมมอง

แก่นแท้ของ STAR คือ “ใช้โครงสร้างที่เรียบง่ายที่สุดเพื่อบรรลุความสามัคคีของความสามารถที่ครอบคลุมที่สุด”: แก้ไขความขัดแย้งในการฝึกผ่าน “งานก้าวหน้า” ลดต้นทุนการขยายผ่าน “AR โครงสร้างเดียวกันซ้อนทับ” ยกระดับขีดจำกัดความสามารถผ่าน “STAR-VQ + การให้เหตุผลโดยนัย” ในที่สุดก็บรรลุประสิทธิภาพสูงสุดของสามงานหลัก “ความเข้าใจ การสร้าง การแก้ไข” ซึ่งให้แนวคิดใหม่สำหรับการขยายอย่างยั่งยืนของโมเดลหลายรูปแบบ

STAR ให้เส้นทางทางเทคนิคใหม่ทั้งหมดสำหรับการพัฒนาที่ไม่รบกวนและสามารถขยายได้ของโมเดลหลายรูปแบบ ในอนาคตสามารถสำรวจเพิ่มเติมจากทิศทางต่อไปนี้:

(1) การขยายขอบเขตความสามารถ: บนพื้นฐานความเข้าใจ การสร้าง การแก้ไขที่มีอยู่ รวมงานหลายรูปแบบที่ซับซ้อนยิ่งขึ้น เช่น การสร้างวิดีโอ การสร้าง 3D ใหม่ เพื่อตรวจสอบความสามารถในการ


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/23040

Like (0)
Previous 2026年2月4日 pm6:58
Next 2026年2月4日 pm8:12

相关推荐