มาตรฐานทองคำ FID ที่ครองวงการสร้างภาพด้วย AI มาเกือบ 10 ปี ถูกดึงลงมาเป็นโค้ชครั้งแรก ทีมงานชาวจีนทั้งหมดเสนอ FD-loss เพื่อการปรับให้เหมาะสมโดยตรง
มาตรฐานทองคำที่ครองวงการสร้างภาพด้วย AI มาเกือบสิบปี ถูกดึงลงจากบัลลังก์เป็นครั้งแรก มารับบทบาทเป็น “โค้ช”
ที่กล่าวถึงนี้คือ FID (Frechet Inception Distance)
ตัวชี้วัดนี้ที่ใช้ต่อเนื่องมาตั้งแต่ปี 2017 ไม่เคยถูกนำมาใช้ในการฝึกโมเดลในชีวิตประจำวันได้โดยตรง
ปัจจุบัน ข้อจำกัดนี้ถูกทำลายลงแล้ว
ทีมวิจัยชาวจีนทั้งหมดจาก USC, CMU, CUHK และ OpenAI ได้เสนอวิธีการที่เรียกว่า FD-loss ซึ่งแยก “กลุ่มตัวอย่างสำหรับสถิติ” ออกจาก “แบตช์สำหรับคำนวณเกรเดียนต์” อย่างสิ้นเชิง
ด้วยการใช้คิวแคชความจุสูงที่ประกอบด้วยภาพหลายหมื่นภาพ หรือกลไกค่าเฉลี่ยเคลื่อนที่แบบเอ็กซ์โปเนนเชียล วิธีการนี้สามารถประมาณค่าการกระจายได้อย่างเสถียร และส่งกลับเกรเดียนต์เฉพาะข้อมูลในแบตช์ย่อยปัจจุบันเท่านั้น
ด้วยแนวคิดหลักเพียงข้อนี้ FID ที่ถูกจำกัดมานานก็สามารถทำหน้าที่เป็นฟังก์ชันการสูญเสียในการฝึก และเข้าร่วมกระบวนการปรับให้เหมาะสมของโมเดลได้โดยตรง
การทดลองให้ผลลัพธ์ที่คาดไม่ถึงหลายประการ:
- ジェネレเตอร์แบบขั้นตอนเดียวที่มีอยู่ หลังการฝึกเพิ่มเติม ทำ FID ได้ 0.72 บน ImageNet 256×256 โดยตรง โดยไม่มีต้นทุนการอนุมานเพิ่มขึ้น
- โมเดล扩散แบบหลายขั้นตอนที่เดิมต้องใช้การอนุมาน 50 ขั้น ถูกดัดแปลงเป็นジェネレเตอร์แบบขั้นตอนเดียวโดยตรง โดยไม่ต้องกลั่นจากครู ไม่ต้องฝึกแบบ adversarial แต่ผลลัพธ์ยังคงดีเยี่ยม
- สิ่งที่颠覆ความเชื่อเดิมมากที่สุดคือ: โมเดลที่มีค่า FID ดีที่สุด อาจไม่ได้ดูดีที่สุดในสายตา โมเดลที่ฝึกด้วยการแสดงภาพ前沿อย่าง DINOv2, MAE, SigLIP มีประสิทธิภาพ FID ต่ำกว่าเวอร์ชันที่ปรับให้เหมาะสมกับสถาปัตยกรรม Inception แต่ความสมบูรณ์ของโครงสร้างวัตถุและรายละเอียดในภาพนั้นดีกว่าอย่างเห็นได้ชัด

ในอุตสาหกรรม มีการพยายามปรับค่า FID ให้ดีขึ้นมาโดยตลอด แต่มาตรฐานการประเมินที่ใช้มาเกือบสิบปีนี้ถึงจุดอิ่มตัวแล้ว และอาจนำโมเดลไปในทิศทางการปรับที่ผิดพลาด
โดยการหาค่าเฉลี่ยของอัตราส่วนระยะทาง弗雷歇ที่ทำให้เป็นมาตรฐาน (Fréchet Distance, FD) จากพื้นที่การแสดงผล 6 ประเภท นักวิจัยได้ตัวชี้วัดรวมที่แข็งแกร่งขึ้น นั่นคือ FDrk
ตามมาตรฐานใหม่นี้ ค่าพื้นฐานของชุดตรวจสอบจริงคือ 1.0 ในขณะที่โมเดล生成ชั้นนำในปัจจุบันยังคงมีค่าสูงถึง 1.89
ซึ่งแสดงให้เห็นชัดเจนว่า ในด้านการสร้างภาพ ImageNet ยังมีหนทางอีกยาวไกลก่อนที่จะถึงความสมบูรณ์ทางเทคนิค
การแยกสถิติและการคำนวณเกรเดียนต์
FID เป็นเกณฑ์การประเมินหลักสำหรับประสิทธิภาพของโมเดล生成ทั้งหมด
ยิ่งค่านี้น้อยเท่าไหร่ ภาพที่สร้างขึ้นก็ยิ่งสมจริงมากขึ้นเท่านั้น และการกระจายของมันก็ยิ่งใกล้เคียงกับการกระจายจริง
วิธีการคำนวณคือ: ใช้ Inception-v3 ดึงคุณลักษณะของภาพจริงและภาพที่สร้างขึ้น จากนั้นคำนวณการกระจายแบบเกาส์เซียนสำหรับแต่ละชุด แล้วหาระยะห่างระหว่างการกระจายทั้งสองนี้
อย่างไรก็ตาม ในอดีต FID สามารถใช้เป็นตัวชี้วัดการประเมินเท่านั้น
เพราะการคำนวณ FID หนึ่งครั้งต้องใช้ข้อมูลสถิติจากภาพ 50,000 ภาพ ในขณะที่ GPU สามารถประมวลผลแบตช์ได้สูงสุดประมาณ 1,024 ภาพต่อขั้นตอนการฝึก
หากบังคับให้ตัวอย่าง 50,000 ภาพนี้เข้าร่วมการแพร่กระจายย้อนกลับทั้งหมด หน่วยความจำกราฟิกมักจะระเบิดทันที
แนวคิด突破ของงานวิจัยใหม่นี้คือ “การแยกอย่างสิ้นเชิง”
พูดง่ายๆ ทีมวิจัยใช้หน้าต่างขนาดใหญ่ (คิวหรือ EMA) ที่ประกอบด้วยภาพหลายหมื่นภาพเพื่อประมาณค่าเฉลี่ยและความแปรปรวนร่วมของการกระจายจริงและที่สร้างขึ้นอย่างเสถียร เพื่อให้แน่ใจถึงความถูกต้องของการคำนวณ FD ในขณะเดียวกัน เกรเดียนต์จะถูกส่งกลับเฉพาะข้อมูลในแบตช์ย่อยปัจจุบันเท่านั้น โดยไม่เพิ่มภาระการคำนวณในการฝึก
นักวิจัยออกแบบวิธีการใช้งานทางวิศวกรรมสองวิธี
วิธีแรกคือวิธีคิว (Queue)
วิธีนี้จะรักษาคิวคุณลักษณะขนาดใหญ่ (เช่น 50,000 รายการ) ทุกครั้งที่สร้างแบตช์ใหม่ จะเพิ่มเข้าไปในคิว และนำแบตช์ที่เก่าที่สุดออก เมื่อคำนวณ FD จะใช้ค่าเฉลี่ยและความแปรปรวนร่วมของทั้งคิว เมื่อแพร่กระจายย้อนกลับ จะเปิดการไหลของเกรเดียนต์เฉพาะคุณลักษณะ 1,024 รายการปัจจุบันเท่านั้น คุณลักษณะเก่าจะไม่เข้าร่วมการส่งกลับเกรเดียนต์ จึงมั่นใจได้ถึงความเสถียรทางสถิติโดยไม่เพิ่มค่าใช้จ่ายในการฝึก
วิธีที่สองคือวิธี EMA
วิธีนี้ไม่เก็บข้อมูลคุณลักษณะใดๆ เลย แต่ใช้ค่าเฉลี่ยเคลื่อนที่แบบเอ็กซ์โปเนนเชียลเพื่ออัปเดตโมเมนต์ที่หนึ่งและสองของคุณลักษณะตัวอย่างที่สร้างขึ้นแบบเรียลไทม์ ในแต่ละขั้นตอน จะใช้สถิติของแบตช์ปัจจุบันเพื่อปรับค่าประมาณค่าเฉลี่ยและความแปรปรวนร่วมทั่วโลกให้เรียบ เกรเดียนต์จะทำงานเฉพาะกับแบตช์ปัจจุบันเท่านั้น
วิธีนี้ไม่ต้องใช้หน่วยความจำกราฟิกจำนวนมาก ผลลัพธ์ทางสถิติเรียบเนียนและเสถียรกว่า และยังปรับให้เหมาะสมร่วมกันในพื้นที่การแสดงผลหลายแบบได้อย่างง่ายดาย วิธีนี้มีประสิทธิภาพดีกว่าในการทดลอง และกลายเป็นวิธีการใช้งานเริ่มต้นของบทความ

เพื่อตรวจสอบว่ากลไกการแยกนี้มีประสิทธิภาพจริงหรือไม่ นักวิจัยได้ทำการทดลอง消融สองชุดบนโมเดล pMF-B/16 (118M) ที่เล็กที่สุด
(หมายเหตุ: บทความใช้การแบ่งขนาดโมเดลที่ชัดเจนในการทดลอง โดยที่ B หมายถึงโมเดลขนาดเล็ก Base มีพารามิเตอร์ประมาณ 89M ถึง 131M)
ชุดแรกเปรียบเทียบความยาวคิว เมื่อไม่ใช้คิว (N=0) FID กลับแย่ลงจาก 3.31 เป็น 3.84 เมื่อเพิ่มคิวเป็น 50,000 FID ลดลงอย่างรวดเร็วเป็น 0.89 แต่ถ้าเพิ่มเป็น 500,000 เนื่องจากคุณลักษณะเก่าเกินไป FDr6 ก็พังทลายกลับไปเป็น 17.67
ชุดที่สองเปรียบเทียบอัตราการสลายตัวของ EMA เมื่อ β=0.999 FID ทำได้ 0.81 ซึ่งดีกว่าเวอร์ชันคิว และดีกว่าค่าที่สั้นเกินไปอย่าง 0.9 (0.98) และยาวเกินไปอย่าง 0.9999 (0.98) อย่างมีนัยสำคัญ
ดังนั้น การทดลองทั้งหมดที่ตามมา ไม่ว่าจะเป็นในพื้นที่พิกเซล/แฝง การเปลี่ยนจากหลายขั้นตอนเป็นขั้นตอนเดียว หรือโมเดลข้อความที่มีพารามิเตอร์ 2.5B ล้วนใช้วิธี EMA เป็นค่าเริ่มต้น
การค้นพบการทดลองสามประการที่ “ขัดกับสามัญสำนึก”
FD-loss ที่เสนอใหม่โดยพื้นฐานแล้วเป็นเป้าหมายการจัดแนวการกระจายหลังการฝึก
นักวิจัยเริ่มต้นจากジェネレเตอร์ที่ฝึกไว้แล้ว และใช้เฉพาะ FD-loss เพื่อปรับแต่งแบบเบา ภาพจริงจะปรากฏเพียงครั้งเดียวในขั้นตอนออฟไลน์ นั่นคือ คำนวณค่าเฉลี่ยและความแปรปรวนร่วมของชุดฝึกไว้ล่วงหน้าและจัดเก็บ หลังจากนั้นโมเดลจะไม่เห็นภาพจริงอีก และจะแก้ไขตัวเองโดยใช้เฉพาะตัวอย่างที่สร้างขึ้นเอง
ซึ่งหมายความว่า ไม่จำเป็นต้อง修改สถาปัตยกรรมเดิม ไม่ต้องฝึกตั้งแต่ต้น และไม่ต้องกลั่นจากครูหรือการเรียนรู้แบบ adversarial สามารถ嵌入流程ที่มีอยู่ได้โดยตรงเหมือนปลั๊กอิน
และไม่ว่าจะเป็นพื้นที่พิกเซลหรือพื้นที่แฝง โมเดลแบบขั้นตอนเดียวหรือหลายขั้นตอน ก็สามารถเสียบแล้วใช้ได้ทันที
ด้วยกรอบงานน้ำหนักเบานี้ ทีมวิจัยจึงสามารถทดสอบอย่างเป็นระบบว่า: เมื่อ FID กลายเป็นฟังก์ชันการสูญเสียจริงๆ โมเดล生成จะเกิดอะไรขึ้น

FD-loss นำมาซึ่งการค้นพบการทดลองที่สำคัญสามประการ
การค้นพบที่หนึ่ง: FD-loss ทำให้โมเดล生成แบบขั้นตอนเดียวบรรลุความสูงใหม่ของคุณภาพและความเร็วเป็นครั้งแรก
นักวิจัยนำジェネレเตอร์แบบขั้นตอนเดียวที่ฝึกไว้แล้ว pMF-H มาใช้ FD-loss ปรับแต่ง 100 รอบ ผลลัพธ์บน ImageNet 256×256 FID ลดลงจาก 2.29 เหลือ 0.77 ในขณะที่ยังคง 1-NFE (การ生成แบบขั้นตอนเดียว)
คะแนนนี้ surpass ระดับที่ดีที่สุดของโมเดล扩散แบบหลายขั้นตอนในอดีตอย่างมาก ทำลายกรอบความคิดเดิมที่ว่า “คุณภาพสูงต้องใช้หลายขั้นตอน ขั้นตอนเดียวได้แค่คุณภาพต่ำ”
พูดอีกอย่างคือ ต้นทุนการอนุมานไม่ได้เพิ่มขึ้นเลย แต่คุณภาพภาพกลับก้าวกระโดด
การดำเนินการเดียวกันกับ iMF-XL ในพื้นที่แฝง FID ก็ลดลงจาก 1.82 เหลือ 0.76 เช่นกัน
ที่สำคัญกว่านั้น การปรับปรุงนี้ไม่ใช่แค่การเพิ่มคะแนน ในการเปรียบเทียบเชิงคุณภาพในรูปที่ 4 ของบทความ นกแก้วหลังการฝึกมีขนที่ชัดเจนขึ้น และจุดของเสือดาวหิมะก็คมชัดขึ้น

การค้นพบที่สอง: FD-loss สามารถดัดแปลงโมเดล扩散แบบหลายขั้นตอนที่成熟แล้วให้เป็นジェネレเตอร์แบบขั้นตอนเดียวที่มีประสิทธิภาพสูงได้โดยตรง
นักวิจัยนำโมเดลหลายขั้นตอน JiT-L ที่ฝึกมาเพื่อทำงาน 50 ขั้นตอน มาบังคับให้ทำงานในโหมดขั้นตอนเดียว นั่นคือ ป้อนสัญญาณรบกวนบริสุทธิ์โดยตรง โมเดลทำงานเพียงครั้งเดียว และผลลัพธ์ที่ได้ก็ถือเป็นภาพสุดท้าย
ผลลัพธ์ FID พังทลายลงไปที่ 291.59 ภาพเบลอเป็นเละเทะ
จากนั้น พวกเขาไม่เปลี่ยนแปลงอะไรเลย ใช้ FD-loss ปรับแต่งโหมดขั้นตอนเดียวนี้ต่อไป
整个过程无需教师蒸馏,无需对抗训练,无需逐样本监督信号。
หลังจาก 50 รอบ FID ลดลงอย่างรวดเร็วจาก 291 เหลือ 0.77 คุณภาพการ生成เทียบเท่าหรือดีกว่าโมเดลหลายขั้นตอนเดิม และความเร็วในการอนุมานเพิ่มขึ้นหลายสิบเท่า

การค้นพบที่สาม: FID ต่ำที่สุด อาจไม่ใช่ดีที่สุด
นี่คือจุดที่มีคุณค่าต่อการสะท้อนอุตสาหกรรมมากที่สุด
เมื่อนักวิจัยนำ FD-loss ไปปรับให้เหมาะสมในพื้นที่การแสดงผลที่แตกต่างกัน สถานการณ์ก็แปลกประหลาด (ตกใจ.jpg)
การทดลองแสดงให้เห็นชัดเจนว่า โมเดลที่มี FID ต่ำที่สุด ไม่ได้ดีที่สุดในการประเมินตามอัตนัยของมนุษย์ โมเดลที่ปรับให้เหมาะสมด้วยคุณลักษณะ Inception ได้ FID ต่ำที่สุด แต่กลับอ่อนแอกว่าในด้านโครงสร้างวัตถุ รายละเอียดพื้นผิว และการรับรู้โดยรวม เมื่อเทียบกับโมเดลที่ฝึกด้วยการแสดงภาพสมัยใหม่อย่าง DINOv2, MAE, SigLIP โมเดลหลังมีค่า FID สูงกว่า แต่เมื่อมองด้วยตาเปล่าจะคมชัดกว่า โครงสร้างวัตถุสมบูรณ์กว่า และคุณภาพภาพดีกว่าอย่างเห็นได้ชัด
这表明,长期被奉为金标准的FID可能会误导研究方向……
ทีมวิจัยเสนอมาตรฐานใหม่
ถ้า FID ไว้ใจไม่ได้แล้ว เราควรใช้อะไร来衡量ความก้าวหน้าของโมเดล生成?
ทีมวิจัยเสนอตัวชี้วัดเฉลี่ยที่ทำให้เป็นมาตรฐานข้ามพื้นที่การแสดงผล 6 ประเภท FDrk
ตัวชี้วัดนี้คำนวณอัตราส่วน FD ที่ทำให้เป็นมาตรฐานจากพื้นที่การแสดงผล 6 มิติที่แตกต่างกัน ได้แก่ Inception-v3, ConvNeXtv2, DINOv2, MAE, SigLIP2, CLIP แล้วหาค่าเฉลี่ย ได้ผลการประเมินรวม FDr6
ตามมาตรฐานนี้ ค่าพื้นฐานของชุดตรวจสอบจริงคือ 1.0 ในขณะที่ FDr6 ของโมเดล生成ที่แข็งแกร่งที่สุดในปัจจุบันยังคงสูงถึง 1.89 ซึ่งเผยให้เห็นโดยตรงว่างาน生成 ImageNet ยังห่างไกลจากการแก้ไข
นอกจากนี้ ในการทดลองความชอบแบบ blind เลือกของมนุษย์ แม้แต่โมเดล pMF-H ที่ดีที่สุด ก็ได้คะแนนโหวตเพียง 37.4% ในขณะที่ภาพจริงยังคงชนะด้วยอัตรา 62.6%

值得一提的是,FD-loss具备极低的使用门槛与极强的泛化能力。它可作为轻量化的后训练插件直接嵌入现有训练流程,无需从零搭建模型,也不依赖复杂的训练策略与工程调优。
该方法同时兼容像素空间与隐空间生成模型,适配单步生成器与多步扩散模型,支持类别条件生成与文生图等多种任务模式。
在训练过程中,FD-loss 完全不需要修改原有的主干网络结构,也不涉及复杂的架构调整或从头训练的庞大成本。它仅仅依托队列或 EMA 统计更新机制,就能实现稳定的收敛,具备出色的复现性和实际部署可行性。
凭借这种简洁且通用的设计,FD-loss 显著降低了高质量、极速生成模型在工程实现上的门槛,使得各种生成架构都能快速获得明显的质量提升。
这种低投入、高回报的特性,正是 FD-loss 在工业界极具吸引力的核心原因。
ทีมวิจัย
根据公开资料,五位作者均为华人背景。
第一作者 Jiawei Yang 是南加州大学(USC)计算机系的博士生,师从 Yue Wang 教授,目前的研究重点是以视觉为中心的多模态模型的统一生成与理解。他曾在加州大学洛杉矶分校(UCLA)获得硕士学位,并荣获 NVIDIA 研究生奖学金。

Zhengyang Geng 本科毕业于四川大学计算金融专业,现为卡内基梅隆大学(CMU)计算机科学博士生,导师为 Zico Kolter。他长期专注于单步生成、动态系统以及模型高效化,是 MeanFlow、pMF 等系列工作的核心作者。他的个人主页提到“与 Kaiming He 有紧密合作”,两人连续合作了多篇单步生成领域的核心论文。

Xuan Ju 是香港中文大学的博士生,师从徐强教授,主要研究方向为图像与视频生成、高效多模态模型。她在 ICCV、SIGGRAPH 等顶级会议上发表了多项研究成果。

Yonglong Tian 博士毕业于麻省理工学院(MIT)计算机科学专业,现为 OpenAI 研究员。他是监督对比学习 SupContrast 等表征学习标志性工作的作者,曾任职于 Google DeepMind。

通讯作者 Yue Wang 是南加州大学(USC)助理教授,同时兼任英伟达研究科学家。他本科毕业于浙江大学,硕士毕业于加州大学圣地亚哥分校(UCSD),博士毕业于 MIT,研究领域涵盖 3D 视觉、生成模型与机器人。

论文 arXiv 链接:
https://arxiv.org/abs/2604.28190
点赞、转发、点亮爱心
欢迎在评论区留言交流!
— 完 —
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/33095
