ทีมงานของ He Kaiming ปฏิวัติกระบวนทัศน์โมเดลสร้าง: โมเดล Drift บรรลุการอนุมานขั้นเดียว ลาก่อนการฝึกซ้ำแบบวนซ้ำ

2026年2月8日 pm6:20 • ข่าวสารอุตสาหกรรม AI • 179 views

การฝึกโมเดลสร้างภาพเป็นงานที่ซับซ้อน

จากมุมมองของตรรกะพื้นฐาน โมเดลสร้างภาพเป็นกระบวนการปรับให้เหมาะสมแบบค่อยเป็นค่อยไป ต่างจากโมเดลจำแนกที่พบเห็นทั่วไปซึ่งมุ่งเน้นการแมปตัวอย่างเดี่ยวไปยังป้ายกำกับที่สอดคล้องกัน ในขณะที่โมเดลสร้างภาพมุ่งเน้นการแมปจากการกระจายตัวหนึ่งไปยังอีกการกระจายตัวหนึ่ง

ตัวอย่างเช่น โมเดลแพร่กระจาย (Diffusion Model) ที่ทุกคนคุ้นเคย โมเดลแพร่กระจายและวิธีการที่เกี่ยวข้องซึ่งอิงตามการไหล (Flow-based) มักจะอธิบายการแมปจากสัญญาณรบกวนไปยังข้อมูลผ่านสมการเชิงอนุพันธ์ (สมการเชิงอนุพันธ์สุ่ม SDE หรือสมการเชิงอนุพันธ์สามัญ ODE) อย่างไรก็ตาม การฝึกโมเดลแพร่กระจายใช้เวลานานและต้องใช้ความพยายามมาก กระบวนการคำนวณหลักของมันเป็นกระบวนการแบบวนซ้ำ

เพื่อเพิ่มประสิทธิภาพของโมเดลสร้างภาพ มีการวิจัยจำนวนมากมุ่งเน้นไปที่การลดจำนวนขั้นตอนการแพร่กระจาย งานที่เป็นตัวแทนประเภทหนึ่งคือวิธีการกลั่น (Distillation) ซึ่งกลั่นโมเดลหลายขั้นตอนที่ฝึกไว้ล่วงหน้าให้เป็นโมเดลขั้นตอนเดียว อีกประเภทหนึ่งของการวิจัยพยายามฝึกโมเดลแพร่กระจายขั้นตอนเดียวตั้งแต่เริ่มต้น ตัวอย่างเช่น:

ตัวเข้ารหัสอัตโนมัติแปรผัน (Variational Autoencoder – VAE): ฝึกฝนโดยการปรับให้เหมาะสมขอบเขตล่างของหลักฐาน (Evidence Lower Bound – ELBO) ซึ่งประกอบด้วยการสูญเสียจากการสร้างใหม่ (Reconstruction Loss) และพจน์ความแตกต่าง KL เมื่อใช้การแจกแจงก่อนแบบเกาส์เซียน VAE แบบคลาสสิกนั้นเป็นโมเดลสร้างภาพขั้นตอนเดียวโดยตัวมันเอง แต่ในการใช้งานหลักในปัจจุบัน VAE มักใช้การแจกแจงก่อนที่เรียนรู้จากโมเดลแพร่กระจายหรือโมเดลถดถอยอัตโนมัติ (Autoregressive Model) ในกรณีนี้ VAE ทำหน้าที่เป็นตัวแบ่งส่วนข้อมูล (Tokenizer) มากกว่า
การไหลแบบนอร์มัลไลซ์ (Normalizing Flows – NFs): เรียนรู้การแมปจากข้อมูลไปยังสัญญาณรบกวน และฝึกฝนโดยการเพิ่มค่าความน่าจะเป็นสูงสุดของตัวอย่าง (Maximizing Sample Log-Likelihood) วิธีการประเภทนี้ต้องการให้โครงสร้างโมเดลสามารถกลับด้านได้ (Invertible) และสามารถคำนวณดีเทอร์มิแนนต์จาโคเบียน (Jacobian Determinant) ได้อย่างชัดเจน จากมุมมองเชิงแนวคิด การไหลแบบนอร์มัลไลซ์เป็นตัวสร้างขั้นตอนเดียวในขั้นตอนการอนุมาน (Inference) โดยกระบวนการสร้างเสร็จสิ้นผ่านการแมปผกผันของเครือข่าย

อย่างไรก็ตาม วิธีการเหล่านี้ยังไม่สามารถหลุดพ้นจากพันธนาการของกระบวนการฝึกฝนแบบวนซ้ำอย่างต่อเนื่อง

ในทางตรงกันข้าม งานล่าสุดของทีมวิจัยของ He Kaiming ได้เสนอกระบวนทัศน์ที่แตกต่างกันโดยสิ้นเชิงในเชิงแนวคิด นั่นคือ โมเดลการเลื่อนไหล (Drifting Model) ซึ่งไม่พึ่งพาการแสดงออกด้วยสมการเชิงอนุพันธ์ที่พบเห็นทั่วไปในโมเดลแพร่กระจายและโมเดลการไหล โดยธรรมชาติแล้วรองรับการอนุมานขั้นตอนเดียว และสร้างเป้าหมายการฝึกฝนที่ทำให้ตัวปรับให้เหมาะสมเครือข่ายประสาทเทียมสามารถขับเคลื่อนวิวัฒนาการของการกระจายตัวได้โดยตรง

ทีมงานของ He Kaiming ปฏิวัติกระบวนทัศน์โมเดลสร้าง: โมเดล Drift บรรลุการอนุมานขั้นเดียว ลาก่อนการฝึกซ้ำแบบวนซ้ำ

ชื่อบทความวิจัย: Generative Modeling via Drifting
ลิงก์บทความวิจัย: https://arxiv.org/abs/2602.04770v1

โมเดลการเลื่อนไหล

ทีมงานของ He Kaiming ปฏิวัติกระบวนทัศน์โมเดลสร้าง: โมเดล Drift บรรลุการอนุมานขั้นเดียว ลาก่อนการฝึกซ้ำแบบวนซ้ำ
แผนภาพแสดงการฝึกโมเดลการเลื่อนไหล

ทีมวิจัยได้เสนอกระบวนทัศน์ใหม่สำหรับการสร้างแบบจำลองการสร้าง นั่นคือโมเดลการเลื่อนไหล

คุณลักษณะหลักของมันคือ: การแมปแบบผลักดันไปข้างหน้า (Pushforward Mapping) มีวิวัฒนาการอย่างต่อเนื่องในระหว่างกระบวนการฝึกฝน ดังนั้นจึงไม่จำเป็นต้องมีกระบวนการอนุมานแบบวนซ้ำอีกต่อไป การแมป f แสดงโดยเครือข่ายที่ไม่วนซ้ำและส่งต่อเพียงครั้งเดียว เนื่องจากกระบวนการฝึกฝนการเรียนรู้เชิงลึกนั้นเป็นกระบวนการปรับให้เหมาะสมแบบวนซ้ำโดยธรรมชาติ จึงสามารถมองได้ว่า: ผ่านการอัปเดต f อย่างต่อเนื่อง เพื่อวิวัฒนาการการกระจายตัวแบบผลักดัน ทีมงานของ He Kaiming ปฏิวัติกระบวนทัศน์โมเดลสร้าง: โมเดล Drift บรรลุการอนุมานขั้นเดียว ลาก่อนการฝึกซ้ำแบบวนซ้ำ

ดังที่แสดงในภาพ เครือข่าย f ดำเนินการผลักดันหนึ่งครั้ง: โดยแมปการกระจายตัวก่อนหน้า ทีมงานของ He Kaiming ปฏิวัติกระบวนทัศน์โมเดลสร้าง: โมเดล Drift บรรลุการอนุมานขั้นเดียว ลาก่อนการฝึกซ้ำแบบวนซ้ำ (เช่น การกระจายตัวแบบเกาส์เซียน) ไปเป็นการกระจายตัวแบบผลักดัน q (สีส้ม) เป้าหมายการฝึกฝนคือทำให้การกระจายตัวนี้เข้าใกล้การกระจายตัวข้อมูลจริง ทีมงานของ He Kaiming ปฏิวัติกระบวนทัศน์โมเดลสร้าง: โมเดล Drift บรรลุการอนุมานขั้นเดียว ลาก่อนการฝึกซ้ำแบบวนซ้ำ (สีน้ำเงิน)

เมื่อการฝึกฝนวนซ้ำไป จะได้ชุดของโมเดล ซึ่งสอดคล้องกับการสร้างชุดของการกระจายตัวแบบผลักดัน ทีมงานของ He Kaiming ปฏิวัติกระบวนทัศน์โมเดลสร้าง: โมเดล Drift บรรลุการอนุมานขั้นเดียว ลาก่อนการฝึกซ้ำแบบวนซ้ำ จุดสนใจหลักของโมเดลการเลื่อนไหลอยู่ที่วิถีวิวัฒนาการของการกระจายตัวแบบผลักดันนี้ในระหว่างกระบวนการฝึกฝน

เพื่อขับเคลื่อนวิวัฒนาการของการกระจายตัวแบบผลักดันในระหว่างขั้นตอนการฝึกฝน ทีมวิจัยได้แนะนำ สนามการเลื่อนไหล (Drifting Field) เพื่อควบคุมการเคลื่อนที่ของตัวอย่าง สนามการเลื่อนไหลนี้ขึ้นอยู่กับการกระจายตัวที่สร้างขึ้นและการกระจายตัวข้อมูล เมื่อการกระจายตัวทั้งสองนี้ตรงกัน สนามการเลื่อนไหลจะเป็นศูนย์ ระบบเข้าสู่สถานะสมดุล และตัวอย่างจะไม่เลื่อนไหลอีกต่อไป

ทีมงานของ He Kaiming ปฏิวัติกระบวนทัศน์โมเดลสร้าง: โมเดล Drift บรรลุการอนุมานขั้นเดียว ลาก่อนการฝึกซ้ำแบบวนซ้ำ
แผนภาพแสดงสนามการเลื่อนไหล: ตัวอย่างที่สร้างขึ้น 𝐱 (สีดำ) เลื่อนไหลตามเวกเตอร์ 𝐕=𝐕p+−𝐕q− โดยที่ 𝐕p+ เป็นเวกเตอร์การเลื่อนค่าเฉลี่ยของตัวอย่างบวก (สีน้ำเงิน) และ 𝐕q− เป็นเวกเตอร์การเลื่อนค่าเฉลี่ยของตัวอย่างลบ (สีส้ม) 𝐔 ถูกดึงดูดโดย 𝐕p+ และในขณะเดียวกันก็ถูกผลักออกโดย 𝐕q−

จากคำอธิบายนี้ ทีมวิจัยได้เสนอเป้าหมายการฝึกฝนที่เรียบง่ายเพื่อลดการเลื่อนไหลของตัวอย่างที่สร้างขึ้น ฟังก์ชันวัตถุประสงค์มีดังนี้:

เป้าหมายนี้จะเหนี่ยวนำให้ตัวอย่างเคลื่อนที่ และขับเคลื่อนวิวัฒนาการของการกระจายตัวแบบผลักดันพื้นฐานผ่านกระบวนการปรับให้เหมาะสมแบบวนซ้ำ (เช่น SGD)

ผลการทดลอง

การตรวจสอบการทดลองครอบคลุมหลายโดเมนและหลายขนาด ซึ่งให้หลักฐานที่ครอบคลุมเกี่ยวกับประสิทธิผลของวิธีการนี้

โมเดลการเลื่อนไหลรองรับการสร้างขั้นตอนเดียว (1-NFE) โดยธรรมชาติ และแสดงประสิทธิภาพที่แข็งแกร่งในการทดลอง บน ImageNet 256×256 ภายใต้โปรโตคอลการสร้างพื้นที่แฝงมาตรฐาน ทีมวิจัยได้ 1-NFE FID = 1.54 ซึ่งได้สถิติ SOTA ใหม่ในวิธีการสร้างขั้นตอนเดียว และผลลัพธ์นี้ยังคงมีความสามารถในการแข่งขันแม้เมื่อเปรียบเทียบกับโมเดลแพร่กระจายหลายขั้นตอน

นอกจากนี้ ภายใต้โปรโตคอลการสร้างพื้นที่พิกเซลที่ท้าทายมากขึ้น (กล่าวคือ ไม่ใช้ตัวแปรแฝง) วิธีการในบทความนี้ได้ 1-NFE FID = 1.61 ซึ่งดีกว่าวิธีการพื้นที่พิกเซลก่อนหน้านี้อย่างมีนัยสำคัญ ผลลัพธ์เหล่านี้บ่งชี้ว่าโมเดลการเลื่อนไหลเสนอกระบวนทัศน์ใหม่ที่มีศักยภาพสูงสำหรับการสร้างแบบจำลองการสร้างที่มีคุณภาพสูงและมีประสิทธิภาพ

ภาพด้านบนแสดงตัวอย่างของเล่นสองมิติ: ภายใต้เงื่อนไขการเริ่มต้นที่แตกต่างกันสามแบบ การกระจายตัวที่สร้างขึ้น q มีวิวัฒนาการทีละขั้นตอนในระหว่างกระบวนการฝึกฝน และในที่สุดก็เข้าใกล้การกระจายตัวแบบสองยอด p ในการทดลองนี้ วิธีการในบทความนี้สามารถเข้าใกล้การกระจายตัวเป้าหมายได้โดยไม่เกิดการยุบตัวของโหมด (Mode Collapse) แม้ว่า q จะถูกเริ่มต้นให้ยุบตัวไปยังโหมดเดียว (ดังแสดงในภาพด้านล่าง) คุณสมบัตินี้ก็ยังคงเป็นจริง

สิ่งนี้ให้คำอธิบายที่เข้าใจง่ายว่าทำไมวิธีการนี้จึงมีความทนทานต่อการยุบตัวของโหมด: เมื่อ q ยุบตัวไปยังโหมดหนึ่ง โหมดอื่นๆ ในการกระจายตัวเป้าหมาย p จะยังคงมี “แรงดึงดูด” ต่อตัวอย่าง ซึ่งกระตุ้นให้ตัวอย่างเคลื่อนที่ต่อไป และขับเคลื่อนให้ q มีวิวัฒนาการอย่างต่อเนื่อง การทดลองนี้แสดงให้เห็นถึงการลู่เข้าที่แข็งแกร่งต่อการกระจายตัวเป้าหมายหลายโหมด ในขณะเดียวกันก็หลีกเลี่ยงการยุบตัวของโหมด

นอกจากนี้ ทีมวิจัยได้ประเมินโมเดลที่เสนอบน ImageNet 256×256

ในตารางที่ 1 ทีมวิจัยได้ทำการทดลองตัดส่วนแบบทำลายล้าง (Ablation Experiment) โดยเจตนาทำลายการตั้งค่าความสมมาตรแบบตรงข้าม (Antisymmetry) ผลลัพธ์แสดงว่า: กรณีที่ตรงตามความสมมาตรแบบตรงข้าม (การตั้งค่าเริ่มต้น) มีประสิทธิภาพดี ในขณะที่การตั้งค่าอื่นๆ ที่ทำลายคุณสมบัตินี้มีประสิทธิภาพที่ล่มสลายอย่างหายนะ

วิธีการในบทความนี้ประมาณสนามเวกเตอร์ V โดยการสุ่มตัวอย่างตัวอย่างบวกและตัวอย่างลบ ในตารางที่ 2 ทีมวิจัยได้ศึกษาผลกระทบของจำนวนตัวอย่างบวก และจำนวนตัวอย่างลบ ทีมงานของ He Kaiming ปฏิวัติกระบวนทัศน์โมเดลสร้าง: โมเดล Drift บรรลุการอนุมานขั้นเดียว ลาก่อนการฝึกซ้ำแบบวนซ้ำ ภายใต้เงื่อนไขจำนวนรอบการฝึกฝน (Epoch) และขนาดแบทช์ B ที่คงที่

ตารางที่ 2 แสดงว่า และ ทีมงานของ He Kaiming ปฏิวัติกระบวนทัศน์โมเดลสร้าง: โมเดล Drift บรรลุการอนุมานขั้นเดียว ลาก่อนการฝึกซ้ำแบบวนซ้ำ ที่ใหญ่กว่าสามารถนำมาซึ่งผลลัพธ์ที่ดีขึ้น ขนาดตัวอย่างที่ใหญ่ขึ้นช่วยในการประมาณ V ได้แม่นยำยิ่งขึ้น ซึ่งจะช่วยเพิ่มคุณภาพการสร้าง

ผลการเปรียบเทียบในตารางที่ 3 แสดงให้เห็นว่าคุณภาพของตัวเข้ารหัสคุณลักษณะ (Feature Encoder) มีบทบาทสำคัญอย่างยิ่ง

ทีมวิจัยยังได้ฝึกตัวแปรโมเดลที่แข็งแกร่งขึ้น และสรุปไว้ในตารางที่ 4; การเปรียบเทียบกับวิธีการก่อนหน้านี้แสดงในตารางที่ 5

วิธีการในบทความนี้ได้ FID 1.54 ภายใต้เงื่อนไขการสร้าง 1-NFE ดั้งเดิม ซึ่งเกินวิธีการ 1-NFE ก่อนหน้านี้ทั้งหมดที่อิงตามการประมาณวิถีการแพร่กระจาย/การไหล เป็นที่น่าสังเกตว่าโมเดลขนาด Base ในบทความนี้สามารถแข่งขันกับโมเดลขนาด XL ก่อนหน้านี้ได้

ตารางที่ 6 เปรียบเทียบตัวสร้างพื้นที่พิกเซลที่แตกต่างกัน วิธีการพื้นที่พิกเซลขั้นตอนเดียวในบทความนี้ได้ FID 1.61 ซึ่งมีประสิทธิภาพเหนือกว่าหรือสามารถแข่งขันกับวิธีการหลายขั้นตอนก่อนหน้านี้ได้ เมื่อเปรียบเทียบกับวิธีการพื้นที่พิกเซลขั้นตอนเดียวอื่นๆ (เช่น GAN) วิธีการในบทความนี้ใช้ FLOPs เพียง 87G ก็สามารถบรรลุ FID 1.61 ได้ ในขณะที่ StyleGAN-XL ต้องการ FLOPs 1574G เพื่อให้ได้ FID 2.30

สรุป

โมเดลการเลื่อนไหลแก้ปัญหาการประนีประนอมพื้นฐานระหว่างคุณภาพและประสิทธิภาพใน AI สร้างสรรค์ โมเดลคุณภาพสูงแบบดั้งเดิม (เช่น โมเดลแพร่กระจาย) ได้รับผลลัพธ์ที่ยอดเยี่ยม แต่มีต้นทุนการคำนวณสูงในกระบวนการอนุมาน งานนี้แสดงให้เห็นว่า ด้วยการลดความต้องการในการคำนวณลงอย่างมาก ก็สามารถบรรลุคุณภาพที่คล้ายคลึงกันได้ ซึ่งอาจทำให้แอปพลิเคชันแบบเรียลไทม์ที่ก่อนหน้านี้ถูกจำกัดด้วยความเร็วในการอนุมานเป็นไปได้

วิธีการนี้ยังเน้นย้ำถึงความสำคัญของการแสดงคุณลักษณะที่แข็งแกร่งในการสร้างแบบจำลองการสร้าง บทบาทสำคัญของตัวแยกคุณลักษณะที่ฝึกไว้ล่วงหน้าแสดงให้เห็นว่าความก้าวหน้าในการเรียนรู้ด้วยการดูแลตนเอง (Self-supervised Learning) มีประโยชน์โดยตรงต่อกระบวนทัศน์นี้ สร้างผลกระทบเชิงบวกระหว่างการเรียนรู้การแสดงและการสร้าง

ความสำเร็จของวิธีการนี้ในโดเมนต่างๆ (ตั้งแต่การสังเคราะห์ภาพความละเอียดสูงไปจนถึงการควบคุมหุ่นยนต์ที่ซับซ้อน) บ่งชี้ว่าหลักการหลักของการวิวัฒนาการการกระจายตัวผ่านสนามการเลื่อนไหลอาจใช้ได้อย่างกว้างขวางกับงานการสร้างที่หลากหลาย ซึ่งเปิดเส้นทางการวิจัยใหม่สำหรับการสร้างแบบจำลองการสร้างที่มีประสิทธิภาพ

สำหรับรายละเอียดเพิ่มเติม โปรดดูบทความวิจัยต้นฉบับ

ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง