มาตรฐานทองคำที่ครองวงการสร้างภาพด้วย AI มานานเกือบ 10 ปีอย่าง FID ถูกดึงลงมาเป็นโค้ชครั้งแรก ทีมนักวิจัยชาวจีนทั้งหมดเสนอ FD-loss เพื่อการปรับแต่งโดยตรง

2026年5月4日 pm8:15 • การประเมินโมเดลขนาดใหญ่ • 53 views

มาตรฐานทองคำ FID ที่ครองวงการสร้างภาพด้วย AI มาเกือบ 10 ปี ถูกดึงลงมาเป็นโค้ชครั้งแรก ทีมงานชาวจีนทั้งหมดเสนอ FD-loss เพื่อการปรับให้เหมาะสมโดยตรง

มาตรฐานทองคำที่ครองวงการสร้างภาพด้วย AI มาเกือบสิบปี ถูกดึงลงจากบัลลังก์เป็นครั้งแรก มารับบทบาทเป็น “โค้ช”

ที่กล่าวถึงนี้คือ FID (Frechet Inception Distance)

ตัวชี้วัดนี้ที่ใช้ต่อเนื่องมาตั้งแต่ปี 2017 ไม่เคยถูกนำมาใช้ในการฝึกโมเดลในชีวิตประจำวันได้โดยตรง

ปัจจุบัน ข้อจำกัดนี้ถูกทำลายลงแล้ว

ทีมวิจัยชาวจีนทั้งหมดจาก USC, CMU, CUHK และ OpenAI ได้เสนอวิธีการที่เรียกว่า FD-loss ซึ่งแยก “กลุ่มตัวอย่างสำหรับสถิติ” ออกจาก “แบตช์สำหรับคำนวณเกรเดียนต์” อย่างสิ้นเชิง

ด้วยการใช้คิวแคชความจุสูงที่ประกอบด้วยภาพหลายหมื่นภาพ หรือกลไกค่าเฉลี่ยเคลื่อนที่แบบเอ็กซ์โปเนนเชียล วิธีการนี้สามารถประมาณค่าการกระจายได้อย่างเสถียร และส่งกลับเกรเดียนต์เฉพาะข้อมูลในแบตช์ย่อยปัจจุบันเท่านั้น

ด้วยแนวคิดหลักเพียงข้อนี้ FID ที่ถูกจำกัดมานานก็สามารถทำหน้าที่เป็นฟังก์ชันการสูญเสียในการฝึก และเข้าร่วมกระบวนการปรับให้เหมาะสมของโมเดลได้โดยตรง

การทดลองให้ผลลัพธ์ที่คาดไม่ถึงหลายประการ:

ジェネレเตอร์แบบขั้นตอนเดียวที่มีอยู่ หลังการฝึกเพิ่มเติม ทำ FID ได้ 0.72 บน ImageNet 256×256 โดยตรง โดยไม่มีต้นทุนการอนุมานเพิ่มขึ้น
โมเดล扩散แบบหลายขั้นตอนที่เดิมต้องใช้การอนุมาน 50 ขั้น ถูกดัดแปลงเป็นジェネレเตอร์แบบขั้นตอนเดียวโดยตรง โดยไม่ต้องกลั่นจากครู ไม่ต้องฝึกแบบ adversarial แต่ผลลัพธ์ยังคงดีเยี่ยม
สิ่งที่颠覆ความเชื่อเดิมมากที่สุดคือ: โมเดลที่มีค่า FID ดีที่สุด อาจไม่ได้ดูดีที่สุดในสายตา โมเดลที่ฝึกด้วยการแสดงภาพ前沿อย่าง DINOv2, MAE, SigLIP มีประสิทธิภาพ FID ต่ำกว่าเวอร์ชันที่ปรับให้เหมาะสมกับสถาปัตยกรรม Inception แต่ความสมบูรณ์ของโครงสร้างวัตถุและรายละเอียดในภาพนั้นดีกว่าอย่างเห็นได้ชัด

มาตรฐานทองคำที่ครองวงการสร้างภาพด้วย AI มานานเกือบ 10 ปีอย่าง FID ถูกดึงลงมาเป็นโค้ชครั้งแรก ทีมนักวิจัยชาวจีนทั้งหมดเสนอ FD-loss เพื่อการปรับแต่งโดยตรง

ในอุตสาหกรรม มีการพยายามปรับค่า FID ให้ดีขึ้นมาโดยตลอด แต่มาตรฐานการประเมินที่ใช้มาเกือบสิบปีนี้ถึงจุดอิ่มตัวแล้ว และอาจนำโมเดลไปในทิศทางการปรับที่ผิดพลาด

โดยการหาค่าเฉลี่ยของอัตราส่วนระยะทาง弗雷歇ที่ทำให้เป็นมาตรฐาน (Fréchet Distance, FD) จากพื้นที่การแสดงผล 6 ประเภท นักวิจัยได้ตัวชี้วัดรวมที่แข็งแกร่งขึ้น นั่นคือ FDrk

ตามมาตรฐานใหม่นี้ ค่าพื้นฐานของชุดตรวจสอบจริงคือ 1.0 ในขณะที่โมเดล生成ชั้นนำในปัจจุบันยังคงมีค่าสูงถึง 1.89

ซึ่งแสดงให้เห็นชัดเจนว่า ในด้านการสร้างภาพ ImageNet ยังมีหนทางอีกยาวไกลก่อนที่จะถึงความสมบูรณ์ทางเทคนิค

การแยกสถิติและการคำนวณเกรเดียนต์

FID เป็นเกณฑ์การประเมินหลักสำหรับประสิทธิภาพของโมเดล生成ทั้งหมด

ยิ่งค่านี้น้อยเท่าไหร่ ภาพที่สร้างขึ้นก็ยิ่งสมจริงมากขึ้นเท่านั้น และการกระจายของมันก็ยิ่งใกล้เคียงกับการกระจายจริง

วิธีการคำนวณคือ: ใช้ Inception-v3 ดึงคุณลักษณะของภาพจริงและภาพที่สร้างขึ้น จากนั้นคำนวณการกระจายแบบเกาส์เซียนสำหรับแต่ละชุด แล้วหาระยะห่างระหว่างการกระจายทั้งสองนี้

อย่างไรก็ตาม ในอดีต FID สามารถใช้เป็นตัวชี้วัดการประเมินเท่านั้น

เพราะการคำนวณ FID หนึ่งครั้งต้องใช้ข้อมูลสถิติจากภาพ 50,000 ภาพ ในขณะที่ GPU สามารถประมวลผลแบตช์ได้สูงสุดประมาณ 1,024 ภาพต่อขั้นตอนการฝึก

หากบังคับให้ตัวอย่าง 50,000 ภาพนี้เข้าร่วมการแพร่กระจายย้อนกลับทั้งหมด หน่วยความจำกราฟิกมักจะระเบิดทันที

แนวคิด突破ของงานวิจัยใหม่นี้คือ “การแยกอย่างสิ้นเชิง”

พูดง่ายๆ ทีมวิจัยใช้หน้าต่างขนาดใหญ่ (คิวหรือ EMA) ที่ประกอบด้วยภาพหลายหมื่นภาพเพื่อประมาณค่าเฉลี่ยและความแปรปรวนร่วมของการกระจายจริงและที่สร้างขึ้นอย่างเสถียร เพื่อให้แน่ใจถึงความถูกต้องของการคำนวณ FD ในขณะเดียวกัน เกรเดียนต์จะถูกส่งกลับเฉพาะข้อมูลในแบตช์ย่อยปัจจุบันเท่านั้น โดยไม่เพิ่มภาระการคำนวณในการฝึก

นักวิจัยออกแบบวิธีการใช้งานทางวิศวกรรมสองวิธี

วิธีแรกคือวิธีคิว (Queue)

วิธีนี้จะรักษาคิวคุณลักษณะขนาดใหญ่ (เช่น 50,000 รายการ) ทุกครั้งที่สร้างแบตช์ใหม่ จะเพิ่มเข้าไปในคิว และนำแบตช์ที่เก่าที่สุดออก เมื่อคำนวณ FD จะใช้ค่าเฉลี่ยและความแปรปรวนร่วมของทั้งคิว เมื่อแพร่กระจายย้อนกลับ จะเปิดการไหลของเกรเดียนต์เฉพาะคุณลักษณะ 1,024 รายการปัจจุบันเท่านั้น คุณลักษณะเก่าจะไม่เข้าร่วมการส่งกลับเกรเดียนต์ จึงมั่นใจได้ถึงความเสถียรทางสถิติโดยไม่เพิ่มค่าใช้จ่ายในการฝึก

วิธีที่สองคือวิธี EMA

วิธีนี้ไม่เก็บข้อมูลคุณลักษณะใดๆ เลย แต่ใช้ค่าเฉลี่ยเคลื่อนที่แบบเอ็กซ์โปเนนเชียลเพื่ออัปเดตโมเมนต์ที่หนึ่งและสองของคุณลักษณะตัวอย่างที่สร้างขึ้นแบบเรียลไทม์ ในแต่ละขั้นตอน จะใช้สถิติของแบตช์ปัจจุบันเพื่อปรับค่าประมาณค่าเฉลี่ยและความแปรปรวนร่วมทั่วโลกให้เรียบ เกรเดียนต์จะทำงานเฉพาะกับแบตช์ปัจจุบันเท่านั้น

วิธีนี้ไม่ต้องใช้หน่วยความจำกราฟิกจำนวนมาก ผลลัพธ์ทางสถิติเรียบเนียนและเสถียรกว่า และยังปรับให้เหมาะสมร่วมกันในพื้นที่การแสดงผลหลายแบบได้อย่างง่ายดาย วิธีนี้มีประสิทธิภาพดีกว่าในการทดลอง และกลายเป็นวิธีการใช้งานเริ่มต้นของบทความ

เพื่อตรวจสอบว่ากลไกการแยกนี้มีประสิทธิภาพจริงหรือไม่ นักวิจัยได้ทำการทดลอง消融สองชุดบนโมเดล pMF-B/16 (118M) ที่เล็กที่สุด

(หมายเหตุ: บทความใช้การแบ่งขนาดโมเดลที่ชัดเจนในการทดลอง โดยที่ B หมายถึงโมเดลขนาดเล็ก Base มีพารามิเตอร์ประมาณ 89M ถึง 131M)

ชุดแรกเปรียบเทียบความยาวคิว เมื่อไม่ใช้คิว (N=0) FID กลับแย่ลงจาก 3.31 เป็น 3.84 เมื่อเพิ่มคิวเป็น 50,000 FID ลดลงอย่างรวดเร็วเป็น 0.89 แต่ถ้าเพิ่มเป็น 500,000 เนื่องจากคุณลักษณะเก่าเกินไป FDr6 ก็พังทลายกลับไปเป็น 17.67

ชุดที่สองเปรียบเทียบอัตราการสลายตัวของ EMA เมื่อ β=0.999 FID ทำได้ 0.81 ซึ่งดีกว่าเวอร์ชันคิว และดีกว่าค่าที่สั้นเกินไปอย่าง 0.9 (0.98) และยาวเกินไปอย่าง 0.9999 (0.98) อย่างมีนัยสำคัญ

ดังนั้น การทดลองทั้งหมดที่ตามมา ไม่ว่าจะเป็นในพื้นที่พิกเซล/แฝง การเปลี่ยนจากหลายขั้นตอนเป็นขั้นตอนเดียว หรือโมเดลข้อความที่มีพารามิเตอร์ 2.5B ล้วนใช้วิธี EMA เป็นค่าเริ่มต้น

การค้นพบการทดลองสามประการที่ “ขัดกับสามัญสำนึก”

FD-loss ที่เสนอใหม่โดยพื้นฐานแล้วเป็นเป้าหมายการจัดแนวการกระจายหลังการฝึก

นักวิจัยเริ่มต้นจากジェネレเตอร์ที่ฝึกไว้แล้ว และใช้เฉพาะ FD-loss เพื่อปรับแต่งแบบเบา ภาพจริงจะปรากฏเพียงครั้งเดียวในขั้นตอนออฟไลน์ นั่นคือ คำนวณค่าเฉลี่ยและความแปรปรวนร่วมของชุดฝึกไว้ล่วงหน้าและจัดเก็บ หลังจากนั้นโมเดลจะไม่เห็นภาพจริงอีก และจะแก้ไขตัวเองโดยใช้เฉพาะตัวอย่างที่สร้างขึ้นเอง

ซึ่งหมายความว่า ไม่จำเป็นต้อง修改สถาปัตยกรรมเดิม ไม่ต้องฝึกตั้งแต่ต้น และไม่ต้องกลั่นจากครูหรือการเรียนรู้แบบ adversarial สามารถ嵌入流程ที่มีอยู่ได้โดยตรงเหมือนปลั๊กอิน

และไม่ว่าจะเป็นพื้นที่พิกเซลหรือพื้นที่แฝง โมเดลแบบขั้นตอนเดียวหรือหลายขั้นตอน ก็สามารถเสียบแล้วใช้ได้ทันที

ด้วยกรอบงานน้ำหนักเบานี้ ทีมวิจัยจึงสามารถทดสอบอย่างเป็นระบบว่า: เมื่อ FID กลายเป็นฟังก์ชันการสูญเสียจริงๆ โมเดล生成จะเกิดอะไรขึ้น

FD-loss นำมาซึ่งการค้นพบการทดลองที่สำคัญสามประการ

การค้นพบที่หนึ่ง: FD-loss ทำให้โมเดล生成แบบขั้นตอนเดียวบรรลุความสูงใหม่ของคุณภาพและความเร็วเป็นครั้งแรก

นักวิจัยนำジェネレเตอร์แบบขั้นตอนเดียวที่ฝึกไว้แล้ว pMF-H มาใช้ FD-loss ปรับแต่ง 100 รอบ ผลลัพธ์บน ImageNet 256×256 FID ลดลงจาก 2.29 เหลือ 0.77 ในขณะที่ยังคง 1-NFE (การ生成แบบขั้นตอนเดียว)

คะแนนนี้ surpass ระดับที่ดีที่สุดของโมเดล扩散แบบหลายขั้นตอนในอดีตอย่างมาก ทำลายกรอบความคิดเดิมที่ว่า “คุณภาพสูงต้องใช้หลายขั้นตอน ขั้นตอนเดียวได้แค่คุณภาพต่ำ”

พูดอีกอย่างคือ ต้นทุนการอนุมานไม่ได้เพิ่มขึ้นเลย แต่คุณภาพภาพกลับก้าวกระโดด

การดำเนินการเดียวกันกับ iMF-XL ในพื้นที่แฝง FID ก็ลดลงจาก 1.82 เหลือ 0.76 เช่นกัน

ที่สำคัญกว่านั้น การปรับปรุงนี้ไม่ใช่แค่การเพิ่มคะแนน ในการเปรียบเทียบเชิงคุณภาพในรูปที่ 4 ของบทความ นกแก้วหลังการฝึกมีขนที่ชัดเจนขึ้น และจุดของเสือดาวหิมะก็คมชัดขึ้น

การค้นพบที่สอง: FD-loss สามารถดัดแปลงโมเดล扩散แบบหลายขั้นตอนที่成熟แล้วให้เป็นジェネレเตอร์แบบขั้นตอนเดียวที่มีประสิทธิภาพสูงได้โดยตรง

นักวิจัยนำโมเดลหลายขั้นตอน JiT-L ที่ฝึกมาเพื่อทำงาน 50 ขั้นตอน มาบังคับให้ทำงานในโหมดขั้นตอนเดียว นั่นคือ ป้อนสัญญาณรบกวนบริสุทธิ์โดยตรง โมเดลทำงานเพียงครั้งเดียว และผลลัพธ์ที่ได้ก็ถือเป็นภาพสุดท้าย

ผลลัพธ์ FID พังทลายลงไปที่ 291.59 ภาพเบลอเป็นเละเทะ

จากนั้น พวกเขาไม่เปลี่ยนแปลงอะไรเลย ใช้ FD-loss ปรับแต่งโหมดขั้นตอนเดียวนี้ต่อไป

整个过程无需教师蒸馏，无需对抗训练，无需逐样本监督信号。

หลังจาก 50 รอบ FID ลดลงอย่างรวดเร็วจาก 291 เหลือ 0.77 คุณภาพการ生成เทียบเท่าหรือดีกว่าโมเดลหลายขั้นตอนเดิม และความเร็วในการอนุมานเพิ่มขึ้นหลายสิบเท่า

การค้นพบที่สาม: FID ต่ำที่สุด อาจไม่ใช่ดีที่สุด

นี่คือจุดที่มีคุณค่าต่อการสะท้อนอุตสาหกรรมมากที่สุด

เมื่อนักวิจัยนำ FD-loss ไปปรับให้เหมาะสมในพื้นที่การแสดงผลที่แตกต่างกัน สถานการณ์ก็แปลกประหลาด (ตกใจ.jpg)

การทดลองแสดงให้เห็นชัดเจนว่า โมเดลที่มี FID ต่ำที่สุด ไม่ได้ดีที่สุดในการประเมินตามอัตนัยของมนุษย์ โมเดลที่ปรับให้เหมาะสมด้วยคุณลักษณะ Inception ได้ FID ต่ำที่สุด แต่กลับอ่อนแอกว่าในด้านโครงสร้างวัตถุ รายละเอียดพื้นผิว และการรับรู้โดยรวม เมื่อเทียบกับโมเดลที่ฝึกด้วยการแสดงภาพสมัยใหม่อย่าง DINOv2, MAE, SigLIP โมเดลหลังมีค่า FID สูงกว่า แต่เมื่อมองด้วยตาเปล่าจะคมชัดกว่า โครงสร้างวัตถุสมบูรณ์กว่า และคุณภาพภาพดีกว่าอย่างเห็นได้ชัด

这表明，长期被奉为金标准的FID可能会误导研究方向……

ทีมวิจัยเสนอมาตรฐานใหม่

ถ้า FID ไว้ใจไม่ได้แล้ว เราควรใช้อะไร来衡量ความก้าวหน้าของโมเดล生成?

ทีมวิจัยเสนอตัวชี้วัดเฉลี่ยที่ทำให้เป็นมาตรฐานข้ามพื้นที่การแสดงผล 6 ประเภท FDrk

ตัวชี้วัดนี้คำนวณอัตราส่วน FD ที่ทำให้เป็นมาตรฐานจากพื้นที่การแสดงผล 6 มิติที่แตกต่างกัน ได้แก่ Inception-v3, ConvNeXtv2, DINOv2, MAE, SigLIP2, CLIP แล้วหาค่าเฉลี่ย ได้ผลการประเมินรวม FDr6

ตามมาตรฐานนี้ ค่าพื้นฐานของชุดตรวจสอบจริงคือ 1.0 ในขณะที่ FDr6 ของโมเดล生成ที่แข็งแกร่งที่สุดในปัจจุบันยังคงสูงถึง 1.89 ซึ่งเผยให้เห็นโดยตรงว่างาน生成 ImageNet ยังห่างไกลจากการแก้ไข

นอกจากนี้ ในการทดลองความชอบแบบ blind เลือกของมนุษย์ แม้แต่โมเดล pMF-H ที่ดีที่สุด ก็ได้คะแนนโหวตเพียง 37.4% ในขณะที่ภาพจริงยังคงชนะด้วยอัตรา 62.6%

值得一提的是，FD-loss具备极低的使用门槛与极强的泛化能力。它可作为轻量化的后训练插件直接嵌入现有训练流程，无需从零搭建模型，也不依赖复杂的训练策略与工程调优。

该方法同时兼容像素空间与隐空间生成模型，适配单步生成器与多步扩散模型，支持类别条件生成与文生图等多种任务模式。

在训练过程中，FD-loss 完全不需要修改原有的主干网络结构，也不涉及复杂的架构调整或从头训练的庞大成本。它仅仅依托队列或 EMA 统计更新机制，就能实现稳定的收敛，具备出色的复现性和实际部署可行性。

凭借这种简洁且通用的设计，FD-loss 显著降低了高质量、极速生成模型在工程实现上的门槛，使得各种生成架构都能快速获得明显的质量提升。

这种低投入、高回报的特性，正是 FD-loss 在工业界极具吸引力的核心原因。

ทีมวิจัย

根据公开资料，五位作者均为华人背景。

第一作者 Jiawei Yang 是南加州大学（USC）计算机系的博士生，师从 Yue Wang 教授，目前的研究重点是以视觉为中心的多模态模型的统一生成与理解。他曾在加州大学洛杉矶分校（UCLA）获得硕士学位，并荣获 NVIDIA 研究生奖学金。

Zhengyang Geng 本科毕业于四川大学计算金融专业，现为卡内基梅隆大学（CMU）计算机科学博士生，导师为 Zico Kolter。他长期专注于单步生成、动态系统以及模型高效化，是 MeanFlow、pMF 等系列工作的核心作者。他的个人主页提到“与 Kaiming He 有紧密合作”，两人连续合作了多篇单步生成领域的核心论文。