บอกลา VAE! RAEv2 ใช้พรีเทรนเอนโค้ดเดอร์สร้างโมเดลการกระจายใหม่ คุณภาพการสร้างพุ่ง 150 เท่า

บอกลา VAE! RAEv2 ใช้พรีเทรนเอนโค้ดเดอร์สร้างโมเดลการกระจายใหม่ คุณภาพการสร้างพุ่ง 150 เท่า

ในวงการสร้างภาพด้วย AI มีกฎที่ไม่ได้เขียนไว้มานานว่า ยิ่งประสิทธิภาพสูง ต้นทุนก็ยิ่งสูงตาม อย่างไรก็ตาม วงการวิชาการกำลังตั้งคำถามถึงความสิ้นเปลืองที่พื้นฐานกว่านั้น นั่นคือ VAE แบบดั้งเดิมแทบจะไม่สนใจข้อมูลเชิงความหมายของภาพเลย ในขณะเดียวกัน ตัวเข้ารหัสภาพ (Visual Encoder) อย่าง DINOv2 หรือ SigLIP ก็ได้ซึมซับความรู้ทางภาพทั่วไปจากข้อมูลภาพจำนวนมหาศาลไปแล้ว คำถามพื้นฐานจึงเกิดขึ้น: โมเดลสร้างภาพจำเป็นต้องเริ่มต้นจากศูนย์เพื่อ “เรียนรู้” ความเข้าใจภาพหรือไม่?

ในเดือนตุลาคม 2025 ทีมของ Xie Saining จากมหาวิทยาลัยนิวยอร์กได้เสนอกรอบงาน “Representation Autoencoder (RAE)” ซึ่งเป็นครั้งแรกที่มีการนำตัวเข้ารหัสภาพที่ผ่านการฝึกฝนล่วงหน้ามาใช้ในพื้นที่แฝง (Latent Space) ของโมเดล Diffusion อย่างเป็นระบบ สามารถอ่านรายงานที่เกี่ยวข้องได้ที่: 《ยุคของ VAE สิ้นสุดลงแล้ว? ทีมของ Xie Saining เปิดตัว “RAE” ตัวเข้ารหัสอัตโนมัติเชิงตัวแทนอาจเป็นรากฐานใหม่สำหรับการฝึก DiT》

ผลงานนี้สร้างแรงกระเพื่อมอย่างมากในวงการวิชาการ แต่ก็เผยให้เห็นปัญหาสำคัญสามประการที่ขัดขวางการนำไปใช้จริง ได้แก่ คุณภาพการสร้างใหม่ต่ำกว่า VAE เฉพาะทาง ไม่สามารถปรับใช้กับกลไกการนำทางแบบดั้งเดิม และความเร็วในการลู่เข้าที่ช้ามาก

ห้าเดือนต่อมา ทีมวิจัยเดียวกันร่วมมือกับ Adobe Research และมหาวิทยาลัยแห่งชาติออสเตรเลีย เปิดตัว RAEv2 ที่ได้รับการอัปเกรดอย่างสมบูรณ์

บอกลา VAE! RAEv2 ใช้พรีเทรนเอนโค้ดเดอร์สร้างโมเดลการกระจายใหม่ คุณภาพการสร้างพุ่ง 150 เท่า

  • ชื่อบทความ: Improved Baselines with Representation Autoencoders
  • ที่อยู่บทความ: https://arxiv.org/abs/2605.18324v1
  • หน้าโครงการ: https://raev2.github.io

ทำไม VAE ถึงกลายเป็นคอขวด?

เพื่อให้เข้าใจความสำคัญของงานนี้ ก่อนอื่นต้องเข้าใจว่า VAE คืออะไร และเหตุใดมันจึงค่อยๆ กลายเป็นคอขวดของการพัฒนา

ลองนึกภาพห้องสมุดขนาดใหญ่แห่งหนึ่ง ระบบดัชนี (ตัวเข้ารหัส VAE) มีหน้าที่บีบอัดหนังสือแต่ละเล่มให้เป็นบัตรหนึ่งใบ เก็บไว้ในตู้บัตรขนาดใหญ่ (พื้นที่แฝง) โมเดล Diffusion ทำงานภายในตู้บัตรนี้: เริ่มจากกองบัตรที่ยุ่งเหยิง ค่อยๆ “ลดสัญญาณรบกวน” จนได้บัตรที่ชัดเจนหนึ่งใบ จากนั้นตัวถอดรหัสจะกู้คืนบัตรนั้นกลับเป็นหนังสือที่สมบูรณ์

ปัญหาคือ บัตรดัชนีแบบดั้งเดิม (พื้นที่แฝงของ VAE) บันทึกลักษณะทางกายภาพของหนังสือ เช่น ความหนา สี ขนาดตัวอักษร แต่สิ่งที่โมเดลต้องการจริงๆ คือเนื้อหาและความหมายของหนังสือ ทุกครั้งที่โมเดล Diffusion เริ่มจากสัญญาณรบกวน มันต้องเรียนรู้แนวคิดพื้นฐาน เช่น “นี่คือแมว” “นี่คือต้นไม้” ใหม่ทุกครั้ง ทำให้ประสิทธิภาพต่ำมาก

ตัวเข้ารหัสภาพที่ผ่านการฝึกฝนล่วงหน้า (เช่น DINOv2) แตกต่างอย่างสิ้นเชิง บัตรดัชนีของพวกเขาบันทึกความหมาย: หนังสือเล่มนี้เกี่ยวกับอะไร มีตัวละครอะไรบ้าง โครงสร้างเชิงพื้นที่ของฉากเป็นอย่างไร หากโมเดล Diffusion สามารถทำงานในพื้นที่แฝงเช่นนี้ได้ ก็เหมือนกับการยืนอยู่บนไหล่ของยักษ์ ไม่จำเป็นต้องเรียนรู้ “สามัญสำนึกทางภาพ” ซ้ำอีก

RAE ก็คือระบบดังกล่าว: ใช้ตัวเข้ารหัสที่ผ่านการฝึกฝนล่วงหน้าเป็นระบบดัชนีของห้องสมุด และฝึกตัวถอดรหัสเพื่อกู้คืนภาพ อย่างไรก็ตาม ปัญหาของ RAE รุ่นแรกคือ บัตรดัชนีชุดนี้บันทึกเฉพาะ “บทสรุปของบทสุดท้ายของหนังสือ” ทำให้สูญเสียรายละเอียดของเลเยอร์กลางไปมาก

สามข้อมูลเชิงลึก การอัปเกรดอย่างเป็นระบบครั้งหนึ่ง

หัวใจของ RAEv2 อยู่ที่ข้อมูลเชิงลึกทางเทคนิคสามประการที่เป็นอิสระแต่สนับสนุนซึ่งกันและกัน

ข้อมูลเชิงลึกที่หนึ่ง: เลเยอร์สุดท้ายไม่ใช่ทั้งหมด

RAE ดั้งเดิมใช้เอาต์พุตของเลเยอร์สุดท้ายของตัวเข้ารหัสภาพโดยตรงเป็นตัวแทนแฝง แต่ความรู้ของตัวเข้ารหัสที่ผ่านการฝึกฝนล่วงหน้าไม่ได้กระจุกตัวอยู่ที่เลเยอร์สุดท้ายเท่านั้น เช่นเดียวกับระบบความรู้ที่สมบูรณ์ของผู้เชี่ยวชาญ ไม่ได้มีเพียงข้อสรุปสุดท้ายของเขา แต่ยังกระจายอยู่ในกระบวนการให้เหตุผลของเขาด้วย

RAEv2 เสนอวิธีแก้ปัญหาที่เรียบง่ายมาก: นำคุณลักษณะของเลเยอร์ K สุดท้ายของตัวเข้ารหัสมาบวกกันโดยตรงเป็นตัวแทนแฝง การดำเนินการนี้ไม่เพิ่มพารามิเตอร์ใหม่ และไม่ต้องการข้อมูลการฝึกเพิ่มเติม (เช่น ข้อความหรือใบหน้า) แต่ทำให้คุณภาพการสร้างภาพใหม่ก้าวกระโดดอย่างมาก เมื่อ K เพิ่มขึ้นจาก 1 (RAE ดั้งเดิม) เป็น 23 (ทุกเลเยอร์) ข้อผิดพลาดในการสร้างใหม่ (rFID) ลดลงจาก 0.60 เหลือ 0.18 และอัตราส่วนสัญญาณต่อสัญญาณรบกวนสูงสุด (PSNR) เพิ่มขึ้นจาก 18.93 dB เป็น 27.03 dB

บอกลา VAE! RAEv2 ใช้พรีเทรนเอนโค้ดเดอร์สร้างโมเดลการกระจายใหม่ คุณภาพการสร้างพุ่ง 150 เท่า

ข้อมูลเชิงลึกที่สอง: RAE และ REPA จริงๆ แล้วเสริมกัน ไม่ใช่แข่งขันกัน

นี่คือการค้นพบที่น่าประหลาดใจที่สุดในบทความทั้งหมด

ก่อนหน้านี้วงการวิชาการเชื่อกันโดยทั่วไปว่า: เนื่องจาก RAE ใช้คุณลักษณะของตัวเข้ารหัสที่ผ่านการฝึกฝนล่วงหน้าเป็นพื้นที่แฝงโดยตรง จึงไม่จำเป็นต้องใช้ REPA (Representation Alignment Loss ซึ่งกลั่นคุณลักษณะของตัวเข้ารหัสชุดเดียวกันไปยังเลเยอร์กลางของโมเดล Diffusion) อีกต่อไป — นี่ไม่ใช่การทำซ้ำซ้อนหรือ? ให้สัญญาณเดียวกันเดินสองเส้นทาง?

ทีมวิจัยทำการทดลองขนาดใหญ่กับตัวเข้ารหัสภาพ 27 ชนิด ผลลัพธ์น่าประหลาดใจ: ไม่ว่าจะใช้ตัวเข้ารหัสชนิดใด การใช้ทั้ง REPA และ RAE พร้อมกันให้ผลลัพธ์ดีกว่าการใช้อย่างใดอย่างหนึ่งเพียงอย่างเดียว

บอกลา VAE! RAEv2 ใช้พรีเทรนเอนโค้ดเดอร์สร้างโมเดลการกระจายใหม่ คุณภาพการสร้างพุ่ง 150 เท่า

ที่น่าสนใจยิ่งกว่านั้นคือ ทั้งสองปรับปรุงในมิติที่แตกต่างกัน RAE ให้ “ความหมายระดับโลก” เช่น โมเดลรู้ว่ามีแมวอยู่ในภาพ REPA ให้ “โครงสร้างเชิงพื้นที่” เช่น โมเดลรู้ว่าแมวอยู่ที่มุมซ้ายบนของภาพ ดวงตาอยู่เหนือจมูก อย่างแรกสอดคล้องกับข้อมูลเชิงความหมาย (วัดด้วยความแม่นยำของ Linear Probe – LP) อย่างหลังสอดคล้องกับความคล้ายคลึงในตัวเองเชิงพื้นที่ (วัดด้วย LDS) ในการวิเคราะห์ความสัมพันธ์ของตัวเข้ารหัสทั้ง 27 ชนิด กลไกเสริมนี้ได้รับการยืนยันทางสถิติอย่างเข้มงวด โดยค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สันอยู่ที่ -0.81 (RAE ขึ้นอยู่กับ LP) และ -0.89 (REPA ขึ้นอยู่กับ LDS)

การค้นพบนี้ยังอธิบายด้วยว่าทำไม DINOv3-L ซึ่งเป็นตัวเข้ารหัสที่แข็งแกร่งกว่า ถึงทำงานได้แย่กว่า DINOv2-B ใน RAE รุ่นแรก: เพราะ RAE ดั้งเดิมใช้ประโยชน์เฉพาะมิติเชิงความหมาย ในขณะที่จุดแข็งของ DINOv3-L อยู่ที่ทั้งสองมิติแข็งแกร่ง มีเพียง RAE+REPA เท่านั้นที่สามารถปลดปล่อยศักยภาพของมันได้อย่างเต็มที่

บอกลา VAE! RAEv2 ใช้พรีเทรนเอนโค้ดเดอร์สร้างโมเดลการกระจายใหม่ คุณภาพการสร้างพุ่ง 150 เท่า

ข้อมูลเชิงลึกที่สาม: “การนำทาง” (Guidance) ซ่อนอยู่ในโมเดลมาตลอด

นี่คือผลงานทางเทคนิคที่หรูหราที่สุด

โดยปกติแล้ว โมเดลสร้างภาพจำเป็นต้องใช้กลไกที่เรียกว่า “การนำทาง” (Guidance) ในระหว่างการอนุมานเพื่อปรับปรุงคุณภาพของภาพ — สาระสำคัญของมันคือการให้โมเดลทำค่าผลต่างระหว่างสถานะ “มีเงื่อนไข” และ “ไม่มีเงื่อนไข” เพื่อเสริมสร้างคุณลักษณะเป้าหมาย RAE ดั้งเดิมไม่สามารถใช้ Classifier-Free Guidance (CFG) มาตรฐานได้ จึงต้องฝึกโมเดล Diffusion “เวอร์ชันที่อ่อนแอกว่า” เพิ่มเติมเพื่อใช้เป็นเส้นฐานการนำทาง (AutoGuidance) ซึ่งไม่เพียงเพิ่มต้นทุนการฝึก แต่ยังต้องมีการคำนวณไปข้างหน้าเพิ่มอีกหนึ่งครั้งในระหว่างการอนุมาน

บอกลา VAE! RAEv2 ใช้พรีเทรนเอนโค้ดเดอร์สร้างโมเดลการกระจายใหม่ คุณภาพการสร้างพุ่ง 150 เท่า

RAEv2 สังเกตเห็นคุณสมบัติที่สำคัญ: ภายใต้กรอบงาน RAE โดยพื้นฐานแล้ว REPA กำลังทำ “การทำนาย x” (ทำนายการแสดงภาพที่สะอาด) ในขณะที่หัวของ REPA สามารถเข้าถึงได้เฉพาะคุณลักษณะระดับตื้นของโมเดลเท่านั้น โดยธรรมชาติแล้วมันเป็น “เวอร์ชันที่อ่อนแอกว่า” การเปลี่ยนเอาต์พุตของโมเดลหลักให้เป็นรูปแบบการทำนาย x ก็สามารถใช้หัว REPA โดยตรงเป็นเส้นฐานการนำทาง ด้วยวิธีนี้ ไม่จำเป็นต้องฝึกโมเดลเพิ่มเติม และไม่ต้องคำนวณไปข้างหน้าเพิ่มเติม การนำทางจึง “ฟรี” อย่างสมบูรณ์

RAEv2 มีประสิทธิภาพอย่างไร?

ข้อมูลเชิงลึกทั้งสามประการรวมกันเป็น RAEv2 ซึ่งนำมาซึ่งการปรับปรุงที่ครอบคลุมและวัดผลได้

ในด้านคุณภาพการสร้างภาพ (ImageNet-256 วัดด้วย gFID ยิ่งต่ำยิ่งดี) RAEv2 บรรลุค่า 1.06 หลังจากฝึกเพียง 80 epochs

บอกลา VAE! RAEv2 ใช้พรีเทรนเอนโค้ดเดอร์สร้างโมเดลการกระจายใหม่ คุณภาพการสร้างพุ่ง 150 เท่า

บอกลา VAE! RAEv2 ใช้พรีเทรนเอนโค้ดเดอร์สร้างโมเดลการกระจายใหม่ คุณภาพการสร้างพุ่ง 150 เท่า

เมื่อวัดด้วย FDr₆ ซึ่งเป็นตัวชี้วัดที่เข้มงวดกว่า RAEv2 บรรลุค่า 2.17 ที่ 80 epochs แซงหน้าคะแนนที่ดีที่สุดของ RAE ดั้งเดิมที่ 3.26 ซึ่งต้องใช้เวลาในการฝึกนานถึงสิบเท่าและต้องพึ่งพาการประมวลผลภายหลัง

บอกลา VAE! RAEv2 ใช้พรีเทรนเอนโค้ดเดอร์สร้างโมเดลการกระจายใหม่ คุณภาพการสร้างพุ่ง 150 เท่า

ทีมวิจัยได้แนะนำตัวชี้วัดประสิทธิภาพใหม่: EPFID@k ซึ่งก็คือ “จำนวน epochs การฝึกที่จำเป็นเพื่อให้ได้ gFID ที่ไม่มีการนำทาง ≤ k” ความสำคัญของตัวชี้วัดนี้คือ: ความแตกต่างเล็กน้อยของค่า gFID สัมบูรณ์แทบจะไม่สามารถรับรู้ได้ในการใช้งานจริง แต่ความแตกต่างของประสิทธิภาพการฝึกเป็นตัวกำหนดโดยตรงว่าใครจะสามารถทำซ้ำได้เร็วกว่าและทดลองด้วยต้นทุนที่ต่ำกว่า

EPFID@2 ของ RAE คือ 177 epochs ในขณะที่ RAEv2 บีบอัดเหลือเพียง 35 epochs — ความเร็วในการลู่เข้าเพิ่มขึ้นมากกว่า 5 เท่า และหากเปรียบเทียบกับวิธีการในยุคแรกๆ ก็เพิ่มขึ้นมากกว่า 10 เท่า

บอกลา VAE! RAEv2 ใช้พรีเทรนเอนโค้ดเดอร์สร้างโมเดลการกระจายใหม่ คุณภาพการสร้างพุ่ง 150 เท่า

ในด้านต้นทุนการคำนวณ RAEv2 ยังคงใช้ 189 GFLOPs เท่ากับ RAE รุ่นแรกทุกประการ ในขณะที่โมเดลเชิงพาณิชย์ชั้นนำอย่าง FLUX.1 ต้องการ 448 GFLOPs ด้วยพลังการคำนวณน้อยกว่าครึ่งหนึ่ง RAEv2 สามารถสร้างคุณภาพที่เหนือกว่าระบบ同类ทั้งหมด นี่คือคุณค่าทางวิศวกรรมที่ตรงไปตรงมาที่สุดของ RAEv2

ในด้านคุณภาพการสร้างใหม่ แม้จะฝึกบน ImageNet เท่านั้น ผลลัพธ์การกู้คืนของ RAEv2 ก็เทียบได้กับโมเดลเฉพาะทางอย่าง FLUX VAE หรือ SDXL-VAE ที่ฝึกบนชุดข้อมูลขนาดใหญ่และหลากหลาย

บอกลา VAE! RAEv2 ใช้พรีเทรนเอนโค้ดเดอร์สร้างโมเดลการกระจายใหม่ คุณภาพการสร้างพุ่ง 150 เท่า

เหนือกว่าการจำแนกภาพ: การประยุกต์ใช้ที่กว้างขึ้น

RAEv2 ไม่ได้จำกัดอยู่แค่การทดลองบน ImageNet บทความยังยืนยันความสามารถในการสรุปทั่วไปในสองทิศทาง

ในด้านการสร้างภาพจากข้อความ โมเดล RAEv2 ที่ใช้ SigLIP-2 เป็นตัวเข้ารหัส แสดงแนวโน้มการปรับปรุงที่สอดคล้องกับการทดลองบน ImageNet ในการทดสอบเกณฑ์มาตรฐานที่เกี่ยวข้อง เมื่อเทียบกับวิธีการควบคุมที่ใช้ VAE แล้ว ความเร็วในการลู่เข้าของมันเร็วกว่าอย่างเห็นได้ชัด

บอกลา VAE! RAEv2 ใช้พรีเทรนเอนโค้ดเดอร์สร้างโมเดลการกระจายใหม่ คุณภาพการสร้างพุ่ง 150 เท่า

ในทิศทางของ World Model สำหรับการนำทาง — ซึ่งเป็นสถานการณ์ที่ AI ใช้ข้อมูลภาพเพื่อทำนายเฟรมในอนาคต — RAEv2 ก็นำมาซึ่งการปรับปรุงประสิทธิภาพอย่างต่อเนื่องเช่นกัน ซึ่งแสดงให้เห็นอย่างเต็มที่ว่ากรอบงานนี้ไม่ใช่เทคนิคพิเศษที่ออกแบบมาเพื่อการสร้างภาพเท่านั้น แต่เป็นวิธีการพื้นฐานที่มีความสามารถในการใช้งานทั่วไปข้ามงาน

บอกลา VAE! RAEv2 ใช้พรีเทรนเอนโค้ดเดอร์สร้างโมเดลการกระจายใหม่ คุณภาพการสร้างพุ่ง 150 เท่า

เดิมพันที่ใหญ่กว่า

ความหมายของ RAEv2 นั้นไปไกลกว่า “การสร้างภาพที่เร็วขึ้น”

ในระบบ AI ภาพแบบดั้งเดิม “การเข้าใจภาพ” และ “การสร้างภาพ” อยู่ในรางคู่ขนาน: อย่างแรกอาศัยโมเดลจำแนกประเภท เช่น DINOv2, CLIP ในขณะที่อย่างหลังอาศัยโมเดลสร้าง เช่น Stable Diffusion, FLUX สิ่งที่ทั้งสองมีร่วมกันคือเพียงข้อมูลการฝึก ไม่ใช่ระบบความรู้

แนวคิดหลักของกรอบงาน RAE คือการรวมรางทั้งสองนี้เข้าด้วยกัน หากโมเดลสร้างสามารถทำงานภายในพื้นที่ความหมายของโมเดลความเข้าใจภาพได้โดยตรง การเข้าใจและการสร้างก็จะใช้ “ภาษาภาพ” ชุดเดียวกัน โมเดล multimodal แบบรวมในอนาคตจะมีความสามารถในการให้เหตุผลโดยตรงบนการแสดงภาพที่สร้างขึ้น

เริ่มต้นจากการปรับปรุงทางวิศวกรรมที่ดูเหมือนเรียบง่ายอย่าง “การลู่เข้าที่เร็วขึ้น” RAEv2 ชี้ไปยังคำถามที่ใหญ่กว่าโดยไม่ได้ตั้งใจ: AI multimodal รุ่นต่อไป ควรจะรวมการแสดง底层ของ “การมองเห็น” และ “การวาดภาพ” เข้าด้วยกันตั้งแต่พื้นฐานหรือไม่?

คำถามนี้ อาจน่าคิดมากกว่าค่า gFID เสียอีก

บอกลา VAE! RAEv2 ใช้พรีเทรนเอนโค้ดเดอร์สร้างโมเดลการกระจายใหม่ คุณภาพการสร้างพุ่ง 150 เท่า


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/35731

Like (0)
Previous 7 hours ago
Next 6 hours ago

相关推荐