บอกลา VAE! RAEv2 ใช้พรีเทรนเอนโค้ดเดอร์สร้างโมเดลการกระจายใหม่ คุณภาพการสร้างพุ่ง 150 เท่า

7 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 10 views

ในวงการสร้างภาพด้วย AI มีกฎที่ไม่ได้เขียนไว้มานานว่า ยิ่งประสิทธิภาพสูง ต้นทุนก็ยิ่งสูงตาม อย่างไรก็ตาม วงการวิชาการกำลังตั้งคำถามถึงความสิ้นเปลืองที่พื้นฐานกว่านั้น นั่นคือ VAE แบบดั้งเดิมแทบจะไม่สนใจข้อมูลเชิงความหมายของภาพเลย ในขณะเดียวกัน ตัวเข้ารหัสภาพ (Visual Encoder) อย่าง DINOv2 หรือ SigLIP ก็ได้ซึมซับความรู้ทางภาพทั่วไปจากข้อมูลภาพจำนวนมหาศาลไปแล้ว คำถามพื้นฐานจึงเกิดขึ้น: โมเดลสร้างภาพจำเป็นต้องเริ่มต้นจากศูนย์เพื่อ “เรียนรู้” ความเข้าใจภาพหรือไม่?

ในเดือนตุลาคม 2025 ทีมของ Xie Saining จากมหาวิทยาลัยนิวยอร์กได้เสนอกรอบงาน “Representation Autoencoder (RAE)” ซึ่งเป็นครั้งแรกที่มีการนำตัวเข้ารหัสภาพที่ผ่านการฝึกฝนล่วงหน้ามาใช้ในพื้นที่แฝง (Latent Space) ของโมเดล Diffusion อย่างเป็นระบบ สามารถอ่านรายงานที่เกี่ยวข้องได้ที่: 《ยุคของ VAE สิ้นสุดลงแล้ว? ทีมของ Xie Saining เปิดตัว “RAE” ตัวเข้ารหัสอัตโนมัติเชิงตัวแทนอาจเป็นรากฐานใหม่สำหรับการฝึก DiT》

ผลงานนี้สร้างแรงกระเพื่อมอย่างมากในวงการวิชาการ แต่ก็เผยให้เห็นปัญหาสำคัญสามประการที่ขัดขวางการนำไปใช้จริง ได้แก่ คุณภาพการสร้างใหม่ต่ำกว่า VAE เฉพาะทาง ไม่สามารถปรับใช้กับกลไกการนำทางแบบดั้งเดิม และความเร็วในการลู่เข้าที่ช้ามาก

ห้าเดือนต่อมา ทีมวิจัยเดียวกันร่วมมือกับ Adobe Research และมหาวิทยาลัยแห่งชาติออสเตรเลีย เปิดตัว RAEv2 ที่ได้รับการอัปเกรดอย่างสมบูรณ์

ชื่อบทความ: Improved Baselines with Representation Autoencoders
ที่อยู่บทความ: https://arxiv.org/abs/2605.18324v1
หน้าโครงการ: https://raev2.github.io

ทำไม VAE ถึงกลายเป็นคอขวด?

เพื่อให้เข้าใจความสำคัญของงานนี้ ก่อนอื่นต้องเข้าใจว่า VAE คืออะไร และเหตุใดมันจึงค่อยๆ กลายเป็นคอขวดของการพัฒนา

ลองนึกภาพห้องสมุดขนาดใหญ่แห่งหนึ่ง ระบบดัชนี (ตัวเข้ารหัส VAE) มีหน้าที่บีบอัดหนังสือแต่ละเล่มให้เป็นบัตรหนึ่งใบ เก็บไว้ในตู้บัตรขนาดใหญ่ (พื้นที่แฝง) โมเดล Diffusion ทำงานภายในตู้บัตรนี้: เริ่มจากกองบัตรที่ยุ่งเหยิง ค่อยๆ “ลดสัญญาณรบกวน” จนได้บัตรที่ชัดเจนหนึ่งใบ จากนั้นตัวถอดรหัสจะกู้คืนบัตรนั้นกลับเป็นหนังสือที่สมบูรณ์

ปัญหาคือ บัตรดัชนีแบบดั้งเดิม (พื้นที่แฝงของ VAE) บันทึกลักษณะทางกายภาพของหนังสือ เช่น ความหนา สี ขนาดตัวอักษร แต่สิ่งที่โมเดลต้องการจริงๆ คือเนื้อหาและความหมายของหนังสือ ทุกครั้งที่โมเดล Diffusion เริ่มจากสัญญาณรบกวน มันต้องเรียนรู้แนวคิดพื้นฐาน เช่น “นี่คือแมว” “นี่คือต้นไม้” ใหม่ทุกครั้ง ทำให้ประสิทธิภาพต่ำมาก

ตัวเข้ารหัสภาพที่ผ่านการฝึกฝนล่วงหน้า (เช่น DINOv2) แตกต่างอย่างสิ้นเชิง บัตรดัชนีของพวกเขาบันทึกความหมาย: หนังสือเล่มนี้เกี่ยวกับอะไร มีตัวละครอะไรบ้าง โครงสร้างเชิงพื้นที่ของฉากเป็นอย่างไร หากโมเดล Diffusion สามารถทำงานในพื้นที่แฝงเช่นนี้ได้ ก็เหมือนกับการยืนอยู่บนไหล่ของยักษ์ ไม่จำเป็นต้องเรียนรู้ “สามัญสำนึกทางภาพ” ซ้ำอีก

RAE ก็คือระบบดังกล่าว: ใช้ตัวเข้ารหัสที่ผ่านการฝึกฝนล่วงหน้าเป็นระบบดัชนีของห้องสมุด และฝึกตัวถอดรหัสเพื่อกู้คืนภาพ อย่างไรก็ตาม ปัญหาของ RAE รุ่นแรกคือ บัตรดัชนีชุดนี้บันทึกเฉพาะ “บทสรุปของบทสุดท้ายของหนังสือ” ทำให้สูญเสียรายละเอียดของเลเยอร์กลางไปมาก

สามข้อมูลเชิงลึก การอัปเกรดอย่างเป็นระบบครั้งหนึ่ง

หัวใจของ RAEv2 อยู่ที่ข้อมูลเชิงลึกทางเทคนิคสามประการที่เป็นอิสระแต่สนับสนุนซึ่งกันและกัน

ข้อมูลเชิงลึกที่หนึ่ง: เลเยอร์สุดท้ายไม่ใช่ทั้งหมด

RAE ดั้งเดิมใช้เอาต์พุตของเลเยอร์สุดท้ายของตัวเข้ารหัสภาพโดยตรงเป็นตัวแทนแฝง แต่ความรู้ของตัวเข้ารหัสที่ผ่านการฝึกฝนล่วงหน้าไม่ได้กระจุกตัวอยู่ที่เลเยอร์สุดท้ายเท่านั้น เช่นเดียวกับระบบความรู้ที่สมบูรณ์ของผู้เชี่ยวชาญ ไม่ได้มีเพียงข้อสรุปสุดท้ายของเขา แต่ยังกระจายอยู่ในกระบวนการให้เหตุผลของเขาด้วย

RAEv2 เสนอวิธีแก้ปัญหาที่เรียบง่ายมาก: นำคุณลักษณะของเลเยอร์ K สุดท้ายของตัวเข้ารหัสมาบวกกันโดยตรงเป็นตัวแทนแฝง การดำเนินการนี้ไม่เพิ่มพารามิเตอร์ใหม่ และไม่ต้องการข้อมูลการฝึกเพิ่มเติม (เช่น ข้อความหรือใบหน้า) แต่ทำให้คุณภาพการสร้างภาพใหม่ก้าวกระโดดอย่างมาก เมื่อ K เพิ่มขึ้นจาก 1 (RAE ดั้งเดิม) เป็น 23 (ทุกเลเยอร์) ข้อผิดพลาดในการสร้างใหม่ (rFID) ลดลงจาก 0.60 เหลือ 0.18 และอัตราส่วนสัญญาณต่อสัญญาณรบกวนสูงสุด (PSNR) เพิ่มขึ้นจาก 18.93 dB เป็น 27.03 dB

ข้อมูลเชิงลึกที่สอง: RAE และ REPA จริงๆ แล้วเสริมกัน ไม่ใช่แข่งขันกัน

นี่คือการค้นพบที่น่าประหลาดใจที่สุดในบทความทั้งหมด

ก่อนหน้านี้วงการวิชาการเชื่อกันโดยทั่วไปว่า: เนื่องจาก RAE ใช้คุณลักษณะของตัวเข้ารหัสที่ผ่านการฝึกฝนล่วงหน้าเป็นพื้นที่แฝงโดยตรง จึงไม่จำเป็นต้องใช้ REPA (Representation Alignment Loss ซึ่งกลั่นคุณลักษณะของตัวเข้ารหัสชุดเดียวกันไปยังเลเยอร์กลางของโมเดล Diffusion) อีกต่อไป — นี่ไม่ใช่การทำซ้ำซ้อนหรือ? ให้สัญญาณเดียวกันเดินสองเส้นทาง?

ทีมวิจัยทำการทดลองขนาดใหญ่กับตัวเข้ารหัสภาพ 27 ชนิด ผลลัพธ์น่าประหลาดใจ: ไม่ว่าจะใช้ตัวเข้ารหัสชนิดใด การใช้ทั้ง REPA และ RAE พร้อมกันให้ผลลัพธ์ดีกว่าการใช้อย่างใดอย่างหนึ่งเพียงอย่างเดียว

ที่น่าสนใจยิ่งกว่านั้นคือ ทั้งสองปรับปรุงในมิติที่แตกต่างกัน RAE ให้ “ความหมายระดับโลก” เช่น โมเดลรู้ว่ามีแมวอยู่ในภาพ REPA ให้ “โครงสร้างเชิงพื้นที่” เช่น โมเดลรู้ว่าแมวอยู่ที่มุมซ้ายบนของภาพ ดวงตาอยู่เหนือจมูก อย่างแรกสอดคล้องกับข้อมูลเชิงความหมาย (วัดด้วยความแม่นยำของ Linear Probe – LP) อย่างหลังสอดคล้องกับความคล้ายคลึงในตัวเองเชิงพื้นที่ (วัดด้วย LDS) ในการวิเคราะห์ความสัมพันธ์ของตัวเข้ารหัสทั้ง 27 ชนิด กลไกเสริมนี้ได้รับการยืนยันทางสถิติอย่างเข้มงวด โดยค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สันอยู่ที่ -0.81 (RAE ขึ้นอยู่กับ LP) และ -0.89 (REPA ขึ้นอยู่กับ LDS)

การค้นพบนี้ยังอธิบายด้วยว่าทำไม DINOv3-L ซึ่งเป็นตัวเข้ารหัสที่แข็งแกร่งกว่า ถึงทำงานได้แย่กว่า DINOv2-B ใน RAE รุ่นแรก: เพราะ RAE ดั้งเดิมใช้ประโยชน์เฉพาะมิติเชิงความหมาย ในขณะที่จุดแข็งของ DINOv3-L อยู่ที่ทั้งสองมิติแข็งแกร่ง มีเพียง RAE+REPA เท่านั้นที่สามารถปลดปล่อยศักยภาพของมันได้อย่างเต็มที่

ข้อมูลเชิงลึกที่สาม: “การนำทาง” (Guidance) ซ่อนอยู่ในโมเดลมาตลอด

นี่คือผลงานทางเทคนิคที่หรูหราที่สุด

โดยปกติแล้ว โมเดลสร้างภาพจำเป็นต้องใช้กลไกที่เรียกว่า “การนำทาง” (Guidance) ในระหว่างการอนุมานเพื่อปรับปรุงคุณภาพของภาพ — สาระสำคัญของมันคือการให้โมเดลทำค่าผลต่างระหว่างสถานะ “มีเงื่อนไข” และ “ไม่มีเงื่อนไข” เพื่อเสริมสร้างคุณลักษณะเป้าหมาย RAE ดั้งเดิมไม่สามารถใช้ Classifier-Free Guidance (CFG) มาตรฐานได้ จึงต้องฝึกโมเดล Diffusion “เวอร์ชันที่อ่อนแอกว่า” เพิ่มเติมเพื่อใช้เป็นเส้นฐานการนำทาง (AutoGuidance) ซึ่งไม่เพียงเพิ่มต้นทุนการฝึก แต่ยังต้องมีการคำนวณไปข้างหน้าเพิ่มอีกหนึ่งครั้งในระหว่างการอนุมาน

RAEv2 สังเกตเห็นคุณสมบัติที่สำคัญ: ภายใต้กรอบงาน RAE โดยพื้นฐานแล้ว REPA กำลังทำ “การทำนาย x” (ทำนายการแสดงภาพที่สะอาด) ในขณะที่หัวของ REPA สามารถเข้าถึงได้เฉพาะคุณลักษณะระดับตื้นของโมเดลเท่านั้น โดยธรรมชาติแล้วมันเป็น “เวอร์ชันที่อ่อนแอกว่า” การเปลี่ยนเอาต์พุตของโมเดลหลักให้เป็นรูปแบบการทำนาย x ก็สามารถใช้หัว REPA โดยตรงเป็นเส้นฐานการนำทาง ด้วยวิธีนี้ ไม่จำเป็นต้องฝึกโมเดลเพิ่มเติม และไม่ต้องคำนวณไปข้างหน้าเพิ่มเติม การนำทางจึง “ฟรี” อย่างสมบูรณ์

RAEv2 มีประสิทธิภาพอย่างไร?

ข้อมูลเชิงลึกทั้งสามประการรวมกันเป็น RAEv2 ซึ่งนำมาซึ่งการปรับปรุงที่ครอบคลุมและวัดผลได้

ในด้านคุณภาพการสร้างภาพ (ImageNet-256 วัดด้วย gFID ยิ่งต่ำยิ่งดี) RAEv2 บรรลุค่า 1.06 หลังจากฝึกเพียง 80 epochs

เมื่อวัดด้วย FDr₆ ซึ่งเป็นตัวชี้วัดที่เข้มงวดกว่า RAEv2 บรรลุค่า 2.17 ที่ 80 epochs แซงหน้าคะแนนที่ดีที่สุดของ RAE ดั้งเดิมที่ 3.26 ซึ่งต้องใช้เวลาในการฝึกนานถึงสิบเท่าและต้องพึ่งพาการประมวลผลภายหลัง

ทีมวิจัยได้แนะนำตัวชี้วัดประสิทธิภาพใหม่: EPFID@k ซึ่งก็คือ “จำนวน epochs การฝึกที่จำเป็นเพื่อให้ได้ gFID ที่ไม่มีการนำทาง ≤ k” ความสำคัญของตัวชี้วัดนี้คือ: ความแตกต่างเล็กน้อยของค่า gFID สัมบูรณ์แทบจะไม่สามารถรับรู้ได้ในการใช้งานจริง แต่ความแตกต่างของประสิทธิภาพการฝึกเป็นตัวกำหนดโดยตรงว่าใครจะสามารถทำซ้ำได้เร็วกว่าและทดลองด้วยต้นทุนที่ต่ำกว่า

EPFID@2 ของ RAE คือ 177 epochs ในขณะที่ RAEv2 บีบอัดเหลือเพียง 35 epochs — ความเร็วในการลู่เข้าเพิ่มขึ้นมากกว่า 5 เท่า และหากเปรียบเทียบกับวิธีการในยุคแรกๆ ก็เพิ่มขึ้นมากกว่า 10 เท่า

ในด้านต้นทุนการคำนวณ RAEv2 ยังคงใช้ 189 GFLOPs เท่ากับ RAE รุ่นแรกทุกประการ ในขณะที่โมเดลเชิงพาณิชย์ชั้นนำอย่าง FLUX.1 ต้องการ 448 GFLOPs ด้วยพลังการคำนวณน้อยกว่าครึ่งหนึ่ง RAEv2 สามารถสร้างคุณภาพที่เหนือกว่าระบบ同类ทั้งหมด นี่คือคุณค่าทางวิศวกรรมที่ตรงไปตรงมาที่สุดของ RAEv2

ในด้านคุณภาพการสร้างใหม่ แม้จะฝึกบน ImageNet เท่านั้น ผลลัพธ์การกู้คืนของ RAEv2 ก็เทียบได้กับโมเดลเฉพาะทางอย่าง FLUX VAE หรือ SDXL-VAE ที่ฝึกบนชุดข้อมูลขนาดใหญ่และหลากหลาย

เหนือกว่าการจำแนกภาพ: การประยุกต์ใช้ที่กว้างขึ้น

RAEv2 ไม่ได้จำกัดอยู่แค่การทดลองบน ImageNet บทความยังยืนยันความสามารถในการสรุปทั่วไปในสองทิศทาง

ในด้านการสร้างภาพจากข้อความ โมเดล RAEv2 ที่ใช้ SigLIP-2 เป็นตัวเข้ารหัส แสดงแนวโน้มการปรับปรุงที่สอดคล้องกับการทดลองบน ImageNet ในการทดสอบเกณฑ์มาตรฐานที่เกี่ยวข้อง เมื่อเทียบกับวิธีการควบคุมที่ใช้ VAE แล้ว ความเร็วในการลู่เข้าของมันเร็วกว่าอย่างเห็นได้ชัด

ในทิศทางของ World Model สำหรับการนำทาง — ซึ่งเป็นสถานการณ์ที่ AI ใช้ข้อมูลภาพเพื่อทำนายเฟรมในอนาคต — RAEv2 ก็นำมาซึ่งการปรับปรุงประสิทธิภาพอย่างต่อเนื่องเช่นกัน ซึ่งแสดงให้เห็นอย่างเต็มที่ว่ากรอบงานนี้ไม่ใช่เทคนิคพิเศษที่ออกแบบมาเพื่อการสร้างภาพเท่านั้น แต่เป็นวิธีการพื้นฐานที่มีความสามารถในการใช้งานทั่วไปข้ามงาน

เดิมพันที่ใหญ่กว่า

ความหมายของ RAEv2 นั้นไปไกลกว่า “การสร้างภาพที่เร็วขึ้น”

ในระบบ AI ภาพแบบดั้งเดิม “การเข้าใจภาพ” และ “การสร้างภาพ” อยู่ในรางคู่ขนาน: อย่างแรกอาศัยโมเดลจำแนกประเภท เช่น DINOv2, CLIP ในขณะที่อย่างหลังอาศัยโมเดลสร้าง เช่น Stable Diffusion, FLUX สิ่งที่ทั้งสองมีร่วมกันคือเพียงข้อมูลการฝึก ไม่ใช่ระบบความรู้

แนวคิดหลักของกรอบงาน RAE คือการรวมรางทั้งสองนี้เข้าด้วยกัน หากโมเดลสร้างสามารถทำงานภายในพื้นที่ความหมายของโมเดลความเข้าใจภาพได้โดยตรง การเข้าใจและการสร้างก็จะใช้ “ภาษาภาพ” ชุดเดียวกัน โมเดล multimodal แบบรวมในอนาคตจะมีความสามารถในการให้เหตุผลโดยตรงบนการแสดงภาพที่สร้างขึ้น

เริ่มต้นจากการปรับปรุงทางวิศวกรรมที่ดูเหมือนเรียบง่ายอย่าง “การลู่เข้าที่เร็วขึ้น” RAEv2 ชี้ไปยังคำถามที่ใหญ่กว่าโดยไม่ได้ตั้งใจ: AI multimodal รุ่นต่อไป ควรจะรวมการแสดง底层ของ “การมองเห็น” และ “การวาดภาพ” เข้าด้วยกันตั้งแต่พื้นฐานหรือไม่?

คำถามนี้ อาจน่าคิดมากกว่าค่า gFID เสียอีก

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/35731

Like (0)

0 0

ความก้าวหน้าใหม่ในการสร้าง 3D: DeG สอนให้ Gaussian Sphere รู้จัก “ประหยัด” และจัดสรรทรัพยากรตามความต้องการ

Previous 7 hours ago

OpenAI โมเดลทั่วไปก้าวข้ามปัญหาคณิตศาสตร์ที่ค้างคามา 80 ปี นักคณิตศาสตร์รางวัลฟิลด์สชื่นชม: AI ไขปัญหาที่ยังไม่มีคำตอบได้ด้วยตนเองเป็นครั้งแรก

Next 6 hours ago

วิศวกรรมโมเดลขนาดใหญ่

DeepSeek เปิดตัว Mega MoE: ปรับโครงสร้างพื้นฐานใหม่เชื่อมต่อ MoE แบบ Pipeline แบบถาวร เพิ่มอัตราการใช้ GPU พุ่งสูง

เมื่อบ่ายวานนี้ DeepSeek ได้อัปเดตสำคัญครั้งหนึ่งให้กับฐานโค้ดโอเพนซอร์ส DeepGEMM ของตน แกนหลักของการอัปเดตครั้งนี้คือการแนะนำโครงการใหม่ชื่อ Mega MoE Mega MoE มีการนำเสนอโดย Cheng…

2026年4月17日
102000
วิศวกรรมโมเดลขนาดใหญ่

โมเดลมนุษย์ดิจิทัลของ JD.com ฝ่าข้อจำกัดการโต้ตอบของเอเจนต์ AI บรรลุการสังเคราะห์อิสระในระดับนาที

ในการประชุม GTC ปี 2026 มีฉันทามติในอุตสาหกรรมเกิดขึ้นแล้วว่า AI กำลังก้าวเข้าสู่ยุคเอเจนต์ (Agent) อย่างไรก็ตาม ในขณะที่ผู้ผลิตหลายรายต่างเร่งวางแผนพัฒนาเอเจนต์ ความท้าทายในทางปฏิ…

2026年4月1日
199000
วิศวกรรมโมเดลขนาดใหญ่

In-Place Test-Time Training: ทำให้โมเดลภาษาขนาดใหญ่วิวัฒนาการในสถานที่ระหว่างการอนุมาน อัตราความแม่นยำของงานบริบทยาวเพิ่มขึ้นอย่างมีนัยสำคัญ

คำสำคัญ: การฝึกฝนระหว่างการทดสอบ, การอัปเดตแบบอินเพลซ, แบบจำลองภาษาขนาดใหญ่, บริบทยาว “กระบวนทัศน์แบบ ‘ฝึกฝนแล้วจึงนำไปใช้งาน’ ที่เป็นแบบสถิตนั้น จำกัดความสามารถข…

2026年4月10日
148000
วิศวกรรมโมเดลขนาดใหญ่

เส้นทางวิวัฒนาการของ Prompt Learning: จากระบบปรับปรุงแบบคงที่สู่ระบบวงจรปิด SIPDO ที่พัฒนาตนเอง

พรอมต์ (Prompt) ในฐานะอินเทอร์เฟซ กำหนดรูปแบบพฤติกรรมและขีดจำกัดประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (LLM) และระบบเอเจนต์โดยตรง ความเข้าใจและการควบคุมพรอมต์ (prompt) เป็นตัวกำหนดระดับคว…

2026年2月27日
294000
วิศวกรรมโมเดลขนาดใหญ่

จากทางแยกสู่เส้นทางเดียวกัน: การวิวัฒนาการและการบรรจบกันของ OpenAI Codex และ Anthropic Claude Code

เมื่อไม่นานมานี้ OpenAI ได้เปิดตัวโมเดลขนาดใหญ่รุ่นใหม่ GPT-5.4-Cyber อย่างเป็นทางการ โมเดลนี้มีการกำหนดกลุ่มเป้าหมายผู้ใช้, สถานการณ์การใช้งาน และแม้แต่กลยุทธ์การเปิดตัว ที่ตรงข้า…

2026年4月20日
117000