ทีมงานจากมหาวิทยาลัยฟู่ต้านเสนอ MacTok: สร้างภาพ SOTA ด้วย 64 Token ได้รับรางวัล CVPR 2026 Highlight

2 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 9 views

ในด้านการสร้างภาพ การเพิ่มประสิทธิภาพการอนุมานของโมเดล Diffusion หรือ Autoregressive นั้น กุญแจสำคัญอยู่ที่การบีบอัดภาพให้เป็น Token จำนวนน้อยลง ปัจจุบัน ตัวแบ่งส่วนภาพ (Image Tokenizer) หลักๆ แบ่งเป็นแบบไม่ต่อเนื่อง (Discrete) เช่น VQ-VAE, VQ-GAN และแบบต่อเนื่อง (Continuous) เช่น KL-VAE แม้ตัวแบ่งส่วนภาพแบบไม่ต่อเนื่องจะถูกใช้อย่างแพร่หลาย แต่กระบวนการ Quantization ที่ไม่สามารถหาอนุพันธ์ได้นั้นจำเป็นต้องใช้การประมาณค่า Gradient ซึ่งมักทำให้เกิดข้อผิดพลาดจากการ Quantization ในทางตรงกันข้าม ตัวแบ่งส่วนภาพแบบต่อเนื่องได้ละทิ้ง Codebook แบบไม่ต่อเนื่องที่แข็งกร้าว คงไว้ซึ่งพื้นที่แฝง (Latent Space) ที่ราบรื่นและต่อเนื่อง รองรับการปรับแต่งด้วย Gradient โดยธรรมชาติ และสามารถเก็บรายละเอียดของการแสดงลักษณะได้มากกว่า จึงถูกมองว่าเป็นกระบวนทัศน์การบีบอัดที่มีศักยภาพมากกว่า

อย่างไรก็ตาม ตัวแบ่งส่วนภาพแบบต่อเนื่องเมื่อถูกบีบอัดอย่างรุนแรง (เช่น ใช้เพียง 64 Token) จะเผชิญกับความท้าทายหลัก: การทำ KL Regularization ที่เข้มงวดทำให้พื้นที่แฝงเสื่อมสภาพอย่างรุนแรง ตัวเข้ารหัส (Encoder) มักไม่สามารถเขียนคุณลักษณะเชิงความหมายได้อย่างมีประสิทธิภาพ แต่กลับยอมจำนนต่อการกระจายตัวก่อนหน้า (Prior Distribution) โดยตรง ทำให้เกิด “การยุบตัวของ Posterior” (Posterior Collapse) ที่รุนแรง ซึ่งมักส่งผลให้ภาพที่สร้างขึ้นใหม่หรือสร้างขึ้นสูญเสียรายละเอียด

MacTok (Masked Augmenting 1D Continuous Tokenizer) ที่นำเสนอในบทความนี้ เริ่มต้นจากตรรกะพื้นฐานของตัวแบ่งส่วนภาพแบบต่อเนื่อง นำเสนอข้อมูลเชิงลึกที่เรียบง่ายและใช้งานได้จริง: การทำให้พื้นที่แฝงเรียนรู้การแสดงลักษณะที่ “อุดมไปด้วยความหมาย” อย่างแท้จริงเท่านั้น จึงจะสามารถกำจัดการยุบตัวของ Posterior ได้อย่างสิ้นเชิง เพื่อบรรลุเป้าหมายนี้ MacTok ไม่ได้มุ่งเน้นการปรับแต่งเฉพาะจุดในระดับเดียว แต่ได้ออกแบบการทำงานร่วมกันแบบสองทางทั้งในพื้นที่ภาพ (Image Space) และพื้นที่การแสดงลักษณะ (Representation Space)

ทีมงานจากมหาวิทยาลัยฟู่ต้านเสนอ MacTok: สร้างภาพ SOTA ด้วย 64 Token ได้รับรางวัล CVPR 2026 Highlight

ชื่อบทความ: MacTok: Masked Augmenting 1D Continuous Tokenizer for Efficient Image Generation
ลิงก์บทความ: https://arxiv.org/pdf/2603.29634

ในระดับพื้นที่ภาพ MacTok ได้นำเสนอกลไกผสมผสานระหว่างการปกปิดแบบสุ่ม (Random Masking) และการปกปิดเชิงความหมาย (Semantic Masking) เพื่อบังคับให้โมเดลเติมเต็มพื้นที่โฟกัสที่มีความหนาแน่นของข้อมูลสูงที่สุดภายใต้สภาวะที่ขาดหายไปมากที่สุด ในระดับพื้นที่การแสดงลักษณะ ได้ใช้การจัดแนวการแสดงลักษณะทั้งในระดับโลก (Global) และระดับท้องถิ่น (Local) พร้อมกัน เพื่อควบคุมโครงสร้างความหมายของพื้นที่แฝงโดยตรง

ด้วยกลไกการทำงานร่วมกันนี้ MacTok ใช้เพียง 64 หรือ 128 Token ก็สามารถบรรลุค่า gFID ที่ 1.44 บน ImageNet 256×256 และ 1.52 บน 512×512 ซึ่งจำนวน Token ที่ใช้จริงนั้นถูกบีบอัดลงถึง 64 เท่าเมื่อเทียบกับวิธีการดั้งเดิม ผลงานนี้ได้รับการตอบรับให้ตีพิมพ์ใน CVPR 2026 และได้รับเลือกเป็นบทความ Highlight!

“ทำให้ซับซ้อนกลายเป็นง่าย”: ทำความเข้าใจใหม่เกี่ยวกับตัวแบ่งส่วนภาพแบบต่อเนื่องและการยุบตัวของ Posterior

เมื่อเทคโนโลยีตัวแบ่งส่วนภาพแบบไม่ต่อเนื่องค่อนข้าง成熟แล้ว เหตุใดอุตสาหกรรมจึงยังคงต้องศึกษาเชิงลึกเกี่ยวกับตัวแบ่งส่วนภาพแบบต่อเนื่อง? สาเหตุหลักคือข้อจำกัดด้านการแสดงลักษณะของ Codebook แบบไม่ต่อเนื่องเริ่มปรากฏชัดเจน ในขณะที่พื้นที่ต่อเนื่องมีความต่อเนื่องทางคณิตศาสตร์ที่ดีและมีข้อได้เปรียบด้าน Gradient โดยธรรมชาติ ซึ่งมีศักยภาพในการปรับแต่งที่สูงกว่า อย่างไรก็ตาม เพื่อให้ตัวแบ่งส่วนภาพแบบต่อเนื่องสามารถนำไปใช้ในเชิงพาณิชย์ได้ จำเป็นต้องแก้ไขอุปสรรคทางเทคนิคอย่าง “การยุบตัวของ Posterior”

การแสดงออกที่ชัดเจนของการยุบตัวของ Posterior คือ คุณลักษณะต่างๆ ในพื้นที่แฝงทับซ้อนกันอย่างรุนแรง ส่งผลให้สิ่งที่ตัวถอดรหัส (Decoder) สร้างขึ้นมามักจะเบลอ โดยพื้นฐานแล้ว เกิดจากภายใต้ข้อจำกัดสองประการคือ Regularization ที่เข้มงวดและ Token ที่ขาดแคลน โมเดลมีแนวโน้มที่จะเลือกเส้นทางการปรับแต่งที่ง่ายที่สุดเพื่อให้สอดคล้องกับการกระจายตัวก่อนหน้า แทนที่จะอธิบายความหมายเชิงซับซ้อนของภาพ

แนวทางแก้ไขก่อนหน้านี้ในแวดวงวิชาการส่วนใหญ่มุ่งเน้นไปที่การลดความเข้มข้นของ Regularization หรือเพิ่มค่าสัมประสิทธิ์การ Anneal แบบวนซ้ำ การปรับเปลี่ยนในระดับฟังก์ชันการสูญเสีย (Loss Function) เช่นนี้ยากที่จะเข้าถึงต้นตอของปัญหา หากนำกลยุทธ์การปกปิดแบบสุ่มทั่วไป (เช่น การบดบัง Latent Token โดยตรง) มาใช้ภายใต้ข้อจำกัดที่เข้มงวดของ 64 Token ก็อาจทำให้เกิดการยุบตัวอีกครั้งเนื่องจากการสูญเสียข้อมูลในการฝึกในช่วงท้าย

ทีม MacTok เสนอว่า วิธีเดียวที่จะเปลี่ยน “ความเกียจคร้านในการปรับแต่ง” ของโมเดลคือการบังคับให้มันเรียนรู้การแสดงลักษณะที่มีข้อมูลเชิงความหมายที่หลากหลาย ด้วยเหตุนี้ MacTok จึงละทิ้งการแก้ไขเฉพาะมิติเดียว และเสนอแผนการทำงานร่วมกันแบบสองทางที่ครอบคลุมทั้งพื้นที่ภาพ (Image Space) และพื้นที่การแสดงลักษณะ (Representation Space): ทางด้านภาพ เพิ่ม “ระดับความยากของโจทย์” ผ่านการปกปิด (Masking) ทางด้านการแสดงลักษณะ ฉีดการชี้นำเชิงความหมายโดยตรงผ่านการจัดแนว (Alignment) สร้างสภาพแวดล้อมการเรียนรู้ที่ทนทานต่อการยุบตัว

การออกแบบร่วมกันแบบสองพื้นที่: การฉีดความหมายจากภาพสู่การแสดงลักษณะ

ทีม MacTok ตระหนักดีว่า หลักการสำคัญในการหลีกเลี่ยงการยุบตัวของ Posterior มีเพียงหนึ่งเดียว: ต้องบังคับให้โมเดลเรียนรู้การแสดงลักษณะที่มีข้อมูลเชิงความหมายที่หลากหลาย เพื่อให้บรรลุเป้าหมายนี้ ไม่สามารถพึ่งพาเพียงการจัดแนวคุณลักษณะทั่วไปได้ ต้องทำงานพร้อมกันทั้งในพื้นที่ภาพและพื้นที่การแสดงลักษณะ เพื่อทำการฉีดความหมายแบบสองทาง

ประการแรกคือการออกแบบในพื้นที่ภาพ การใส่การปกปิดอย่างหนักที่ฝั่งอินพุตสามารถสร้างเป้าหมายการทำนายที่ยากขึ้นให้กับโมเดล ซึ่งจะช่วยเพิ่มความทนทานในการสกัดคุณลักษณะของโมเดล เพื่อเสริมสร้างการมุ่งเน้นไปที่ความหมายให้แข็งแกร่งยิ่งขึ้น MacTok จึงนำเสนอกลยุทธ์การปกปิดแบบผสมผสาน:

การปกปิดแบบสุ่ม (Random Masking): มอบความท้าทายในการสร้างใหม่ขั้นพื้นฐาน กระตุ้นให้โมเดลสร้างการแมปโครงสร้างที่แข็งแกร่งยิ่งขึ้น
การปกปิดเชิงความหมาย (Semantic Masking): นี่คือกุญแจสำคัญในการฉีดจิตสำนึกในการรักษาความหมายในระดับภาพ ระบบจะประเมินความสำคัญเชิงความหมายของแต่ละพื้นที่ของภาพ และจัดลำดับความสำคัญในการบดบังพื้นที่ที่ “อุดมไปด้วยความหมายสูงสุด” ทำให้โมเดลเมื่อต้องทำนายภาพที่ขาดหายไป ต้องให้ความสำคัญกับการอนุมานและความเชื่อมโยงของข้อมูลเชิงความหมายเชิงลึกมากขึ้น แทนที่จะเป็นการเติมเต็มพิกเซลโดยอาศัยพื้นผิวที่เรียบง่าย

ดังที่แสดงในกราฟด้านล่าง การนำการปกปิดเชิงความหมายมาใช้ช่วยปรับปรุงคุณภาพการสร้างได้อย่างมีนัยสำคัญ โดยการทดลองพบว่าอัตราส่วนการปกปิดภาพที่เหมาะสมที่สุดอยู่ที่ประมาณ 70%:

ประการที่สองคือข้อจำกัดโดยตรงในพื้นที่การแสดงลักษณะ นอกเหนือจากข้อจำกัดในการสร้างใหม่ในพื้นที่ภาพแล้ว MacTok ยังแนะนำการจัดแนวการแสดงลักษณะระดับโลกและระดับท้องถิ่น (Global and Local Alignment) โดยเฉพาะอย่างยิ่ง Latent Token ของตัวแบ่งส่วนภาพจะถูกจัดแนวไม่เพียงแต่ในมิติท้องถิ่นกับคุณลักษณะ Patch แบบละเอียดเท่านั้น แต่ยังรวมถึงในมิติระดับโลกกับคุณลักษณะ CLS ที่สรุปความหมายในระดับมหภาคอย่างเข้มข้นอีกด้วย

การปกปิดเชิงความหมายในระดับพื้นที่ภาพ (เพิ่มความยากในการทำความเข้าใจ) ควบคู่ไปกับการจัดแนวระดับโลก-ระดับท้องถิ่นในระดับพื้นที่การแสดงลักษณะ (ระบุทิศทางการปรับแต่ง) ทั้งสองอย่างนี้ส่งเสริมซึ่งกันและกัน กลไกการทำงานร่วมกันแบบสองพื้นที่นี้ร่วมกันสร้างความทนทานเชิงความหมายในระดับสูงของพื้นที่แฝงแบบต่อเนื่อง ซึ่งเป็นการขัดขวางการเกิดการยุบตัวของ Posterior ตั้งแต่ต้นตอ

ก้าวข้ามขีดจำกัดการบีบอัด: ประสิทธิภาพบน Benchmark หลัก

บนเกณฑ์มาตรฐานการตรวจสอบหลัก MacTok ซึ่งเน้นการใช้ Token น้อยมาก ยังคงรักษาประสิทธิภาพการทำงานและคุณภาพของภาพที่สูงมาก

1. ประสิทธิภาพที่ความละเอียด 256×256

เมื่อเปรียบเทียบกับโมเดลการสร้างที่ใช้ Token จำนวนมาก MacTok มีข้อได้เปรียบด้านความหนาแน่นของข้อมูลต่อ Token อย่างชัดเจน

จะเห็นได้ว่า MacTok ที่ใช้เพียง 64 Token ให้ผลลัพธ์การสร้างที่เหนือกว่า SoftVQ-VAE ภายใต้เงื่อนไขการทดสอบที่ไม่มี CFG (gFID ลดลง 2.21) ส่วน MacTok ที่ 128 Token นั้นมีประสิทธิภาพใกล้เคียงกับโมเดลพื้นฐานหลักที่มี 1024 Token (เช่น REPA ที่มี gFID 1.42)

2. ความสามารถในการขยายที่ความละเอียด 512×512

ที่ความละเอียด 512×512 ปริมาณข้อมูลภาพที่โมเดลต้องประมวลผลเพิ่มขึ้นเป็นทวีคูณ แต่ตัวชี้วัดหลักต่างๆ ของ MacTok ไม่ได้แสดงการลดลง:

ในการทดสอบที่ 512×512 MacTok ทั้งเวอร์ชัน 128 Token และ 64 Token ต่างก็ได้ค่า gFID ที่ 1.52 และ IS (Inception Score) ที่มากกว่า 306.0 ซึ่งรักษาผลลัพธ์ที่นำสมัยในระดับนี้ไว้ได้ในขณะที่ลดความยาวของลำดับลงอย่างมาก

สรุป

ด้วยการใช้การแสดงภาพแบบลดมิติด้วย UMAP เราสามารถประเมินการปรับปรุงการกระจายคุณลักษณะในพื้นที่แฝงของวิธีการนี้ได้อย่างเป็นกลาง: เมื่อเทียบกับวิธีการก่อนหน้านี้ที่มักเกิดจุดสุ่มที่ทับซ้อนกันอย่างรุนแรงเนื่องจากการยุบตัว MacTok สามารถรักษาโครงสร้างการจัดกลุ่มของแต่ละหมวดหมู่ความหมายได้อย่างชัดเจนยิ่งขึ้น

ผลการวิจัยของ MacTok ชี้ให้เห็นว่า สาเหตุของการยุบตัวของ Posterior อยู่ที่การขาดข้อจำกัดในการชี้นำคุณลักษณะข้อมูลที่มีประสิทธิภาพเพียงพอภายใต้ระบบ Regularization ที่เข้มงวด โดยไม่ต้องเปลี่ยนโครงสร้างพื้นฐานของสถาปัตยกรรมตัวแบ่งส่วนภาพดั้งเดิม เพียงแค่แนะนำงานสร้างใหม่แบบปกปิดเชิงความหมายที่ท้าทายในชั้นอินพุตของภาพ ก็สามารถกระตุ้นศักยภาพของพื้นที่แฝงแบบต่อเนื่องในการเข้ารหัสข้อมูลเชิงลึกได้อย่างมาก เมื่อเผชิญกับความต้องการที่เข้มงวดมากขึ้นในอนาคตสำหรับความละเอียดของภาพและความหน่วงของปริมาณงานในโมเดลขนาดใหญ่ MacTok นำเสนอแผนการอ้างอิงทางเทคนิคที่มีมูลค่าในทางปฏิบัติค่อนข้างสูง