การปฏิวัติระดับพิกเซล: ทีมของ He Kaiming ประสบความสำเร็จในการสร้างภาพแบบขั้นตอนเดียวโดยไม่ใช้พื้นที่แฝงด้วย pMF ทำสถิติ FID 2.22 ทำลายขีดจำกัดด้านประสิทธิภาพ

2026年2月3日 pm9:57 • ข่าวสารอุตสาหกรรม AI • 198 views

งานวิจัยใหม่ของทีม Kaiming He อีกครั้ง “หลักการยิ่งใหญ่ ยิ่งเรียบง่าย”

งานวิจัยครั้งนี้ชี้ไปที่ปัญหาทั่วไปของโมเดลแพร่กระจายหลักและโมเดลการจับคู่โฟลว์ในปัจจุบัน ซึ่งเป็นตัวแทนของ DiT และเสนอกรอบงานใหม่สำหรับการสร้างภาพแบบขั้นตอนเดียวและไร้สเปซแฝง (Latent-free)

ชื่อบทความวิจัย: One-step Latent-free Image Generation with Pixel Mean Flows
ที่อยู่ arXiv: https://arxiv.org/pdf/2601.22158v1

ในสาขา AI สร้างสรรค์ การแสวงหารูปแบบการสร้างที่มีประสิทธิภาพและตรงไปตรงมามากขึ้น一直是เป็นเป้าหมายหลักของแวดวงวิชาการ

ปัจจุบัน โมเดลแพร่กระจายหลักและโมเดลการจับคู่โฟลว์ซึ่งเป็นตัวแทนของ DiT อาศัยสองเสาหลักหลักเพื่อลดความยากในการสร้าง: หนึ่งคือการแยกการแปลงการกระจายที่ซับซ้อนออกเป็นขั้นตอนเล็กๆ ผ่านการสุ่มตัวอย่างหลายขั้นตอน สองคือการทำงานในสเปซแฝงของ VAE (ตัวเข้ารหัสแปรผันอัตโนมัติ) ที่ฝึกไว้ล่วงหน้าเพื่อลดมิติการคำนวณ

แม้การออกแบบเหล่านี้จะประสบความสำเร็จอย่างมากในด้านคุณภาพภาพ แต่จากจิตวิญญาณ “ปลายทางถึงปลายทาง” ของการเรียนรู้เชิงลึก การพึ่งพาการวนซ้ำหลายขั้นตอนและตัวเข้ารหัสที่ตั้งไว้ล่วงหน้านี้ ไม่ต้องสงสัยเลยว่าเพิ่มความซับซ้อนและต้นทุนการอนุมานของระบบ

เมื่อเผชิญกับความท้าทายเหล่านี้ ทีมของ Kaiming He ได้เสนอกรอบงาน pixel MeanFlow (pMF) สำหรับการสร้างภาพแบบขั้นตอนเดียวและไร้สเปซแฝง กรอบงานนี้สืบทอดแนวคิดของ improved MeanFlow (MF) โดยการเรียนรู้สนามความเร็วเฉลี่ย (คือ u) ผ่านการกำหนดฟังก์ชันการสูญเสียภายในสเปซความเร็วชั่วขณะ (คือ v)

ในเวลาเดียวกัน ได้รับแรงบันดาลใจจาก Just image Transformers (JiT) pMF ทำการกำหนดพารามิเตอร์ปริมาณทางกายภาพที่คล้ายกับภาพขจัดสัญญาณรบกวน (คือค่า x-prediction) โดยตรง และคาดว่าปริมาณทางกายภาพนี้จะอยู่บนแมนิโฟลด์มิติต่ำ

เพื่อให้เข้ากับการออกแบบทั้งสองนี้ ทีมได้นำกลไกการแปลงมาใช้ ซึ่งเชื่อมโยงสามสนาม v, u และ x การทดลองพิสูจน์ว่าการออกแบบนี้สอดคล้องกับสมมติฐานแมนิโฟลด์มากกว่า และสร้างเป้าหมายที่เรียนรู้ได้ง่ายกว่า (ดูรูปที่ 1 ด้านล่าง)

โดยสรุป pMF ฝึกเครือข่ายที่สามารถแมปอินพุตสัญญาณรบกวนไปยังพิกเซลภาพได้โดยตรง มันมีคุณลักษณะ “เห็นอะไรได้อย่างนั้น” ซึ่งไม่มีอยู่ในวิธีการสุ่มตัวอย่างหลายขั้นตอนหรือวิธีการที่ใช้สเปซแฝง คุณลักษณะนี้ทำให้การสูญเสียการรับรู้สามารถบูรณาการเข้ากับ pMF ได้อย่างเป็นธรรมชาติ จึงช่วยยกระดับคุณภาพการสร้างเพิ่มเติม

ผลการทดลองแสดงให้เห็นว่า pMF มีประสิทธิภาพแข็งแกร่งในการสร้างแบบขั้นตอนเดียวและไร้สเปซแฝง บนชุดข้อมูล ImageNet ที่ความละเอียด 256×256 ได้ค่า FID 2.22 ที่ความละเอียด 512×512 ได้ค่า FID 2.48 ทีมยังพิสูจน์เพิ่มเติมว่า การเลือกเป้าหมายการทำนายที่เหมาะสมมีความสำคัญอย่างยิ่ง: การทำนายสนามความเร็วโดยตรงในสเปซพิกเซลจะนำไปสู่การล่มสลายของประสิทธิภาพ

บทความนี้ยืนยันว่า: การสร้างแบบขั้นตอนเดียวและไร้สเปซแฝงกำลังกลายเป็นทั้งที่เป็นไปได้และมีความสามารถแข่งขันได้ นี่เป็นเครื่องหมายถึงก้าวที่มั่นคงสู่การสร้างแบบจำลองการสร้างโดยตรงในรูปแบบของเครือข่ายประสาทเทียมเดี่ยวแบบปลายทางถึงปลายทาง

กรอบวิธีการ

เพื่อให้บรรลุการสร้างแบบขั้นตอนเดียวและไร้สเปซแฝง ทีมได้นำ pMF (pixel MeanFlow) มาใช้ การออกแบบหลักของมันอยู่ที่การสร้างความสัมพันธ์ระหว่างสามสนามที่แตกต่างกันนี้คือ u, v และ x ทีมหวังว่าเครือข่ายจะส่งออก x โดยตรงเหมือน JiT ในขณะที่การสร้างแบบจำลองขั้นตอนเดียวจะดำเนินการภายในสเปซ u และ v เหมือน MeanFlow

สนามภาพขจัดสัญญาณรบกวน

ทั้ง iMF และ JiT สามารถถูกมองว่าเป็นการลดการสูญเสีย v ข้อแตกต่างคือ iMF ทำการทำนาย u ในขณะที่ JiT ทำการทำนาย x ทีมได้แนะนำความเชื่อมโยงระหว่าง u กับ x ในรูปแบบทั่วไป

สนามความเร็วเฉลี่ย u ที่กำหนดในสมการ (5) ของบทความวิจัยเดิม แสดงถึงค่าจริงพื้นฐาน (ground-truth) ที่แฝงอยู่ ซึ่งขึ้นอยู่กับ p_data, p_prior และการกำหนดเวลาตารางเวลา แต่ไม่ขึ้นกับเครือข่าย (ดังนั้นไม่ขึ้นกับพารามิเตอร์ θ) ทีมได้ดึงสนามใหม่ที่กำหนดเป็น x (z_t, r, t) ออกมา:

สมมติฐานแมนิโฟลด์ที่สามารถสรุปทั่วไปได้

รูปที่ 1 ด้านบนแสดงภาพสนาม u และสนาม x ผ่านการจำลองวิถี ODE ที่ได้จากโมเดลการจับคู่โฟลว์ (FM) ที่ฝึกไว้ล่วงหน้า u ประกอบด้วยภาพที่มีสัญญาณรบกวน เนื่องจากในฐานะสนามความเร็ว u ประกอบด้วยทั้งองค์ประกอบสัญญาณรบกวนและข้อมูล ในทางตรงกันข้าม สนาม x มีลักษณะที่ปรากฏของภาพขจัดสัญญาณรบกวน: พวกมันอาจเป็นภาพที่เกือบชัดเจน หรือภาพที่เบลอเนื่องจากขจัดสัญญาณรบกวนมากเกินไป ต่อไป ทีมได้อภิปรายถึงวิธีการสรุปสมมติฐานแมนิโฟลด์ไปยังปริมาณทางกายภาพ x

โปรดทราบว่า ขั้นตอนเวลา r ใน MeanFlow เป็นไปตาม: ทีมแสดงให้เห็นก่อนว่าสองกรณีขอบเขต r=t และ r=0 สามารถประมาณว่าตอบสนองสมมติฐานแมนิโฟลด์ได้ จากนั้นจึงอภิปรายกรณี 0＜r＜t

อัลกอริทึม

สนาม x ที่ได้มาจากสูตร (8) ด้านบน ให้วิธีการกำหนดพารามิเตอร์ใหม่สำหรับเครือข่าย MeanFlow โดยเฉพาะ ทีมให้เครือข่าย net_θ ส่งออก x โดยตรง และคำนวณสนามความเร็ว u ที่สอดคล้องกันตามสูตร (8):

จากนั้นนำ u_θ ในสูตร (11) เข้าไปในสูตร iMF นั่นคือใช้สูตร (7) ของบทความวิจัยเดิมร่วมกับการสูญเสีย v เป้าหมายการปรับให้เหมาะสมที่เฉพาะเจาะจงมีดังนี้:

ในเชิงแนวคิด นี่คือการสูญเสีย v ที่อิงจากการทำนาย x โดยที่ x ถูกแปลงไปยังสเปซ v ผ่านความสัมพันธ์ x→u→v เพื่อทำการถดถอยกับ v รหัสเทียมที่สอดคล้องกันดูได้ในอัลกอริทึม 1 ตามแนวคิดของ iMF อัลกอริทึมนี้สามารถขยายเพื่อรองรับการชี้นำแบบไม่มีตัวแปรแฝง (CFG)

ค่าเฉลี่ยพิกเซลพร้อมการสูญเสียการรับรู้

เครือข่าย x_θ(z_t,r,t) แมปอินพุตสัญญาณรบกวน z_t ไปยังภาพขจัดสัญญาณรบกวนโดยตรง ซึ่งทำให้โมเดลมีคุณลักษณะ “เห็นอะไรได้อย่างนั้น” ในระหว่างการฝึก ดังนั้นทีมจึงได้แนะนำการสูญเสียการรับรู้เพิ่มเติม วิธีการที่ใช้สเปซแฝงได้รับประโยชน์จากการสูญเสียการรับรู้ในการฝึกสร้างโทเคนไนเซอร์ใหม่ ในขณะที่วิธีการที่ใช้พิกเซลก่อนหน้านี้ไม่สามารถใช้ประโยชน์นี้ได้ง่าย

ในรูปแบบ เนื่องจาก x_θ เป็นภาพขจัดสัญญาณรบกวนในสเปซพิกเซล ทีมจึงใช้การสูญเสียการรับรู้ (เช่น LPIPS) กับมันโดยตรง เป้าหมายการฝึกทั้งหมดคือ ในทางปฏิบัติ การสูญเสียการรับรู้สามารถใช้ได้เฉพาะเมื่อสัญญาณรบกวนที่เพิ่มเข้ามาต่ำกว่าขีดจำกัดเฉพาะ (คือ t≤t_thr) เพื่อให้มั่นใจว่าภาพหลังขจัดสัญญาณรบกวนจะไม่เบลอเกินไป

ผลการทดลอง

การทดลองของเล่น (Toy)

ทีมแสดงให้เห็นผ่านการทดลองของเล่น 2D ก่อนว่า “เมื่อข้อมูลพื้นฐานอยู่บนแมนิโฟลด์มิติต่ำ การใช้ x-prediction ใน MeanFlow นั้นดีกว่า”

รูปที่ 2 แสดงว่า x-prediction มีประสิทธิภาพค่อนข้างดี ในขณะที่ประสิทธิภาพของ u-prediction ลดลงอย่างรวดเร็วเมื่อมิติ D เพิ่มขึ้น ทีมสังเกตว่าช่องว่างประสิทธิภาพนี้สะท้อนให้เห็นในความแตกต่างของการสูญเสียการฝึก: การสูญเสียการฝึกของ x-prediction ต่ำกว่าของ u-prediction ที่สอดคล้องกัน นี่บ่งชี้ว่าสำหรับเครือข่ายที่มีความจุจำกัด การทำนาย x นั้นง่ายกว่า

ทีมทำการทดลองตัดส่วนโดยปริยายบนชุดข้อมูล ImageNet ที่ความละเอียด 256×256 ทีมใช้สถาปัตยกรรม iMF ซึ่งเป็นรูปแบบหนึ่งของการออกแบบ DiT เว้นแต่จะระบุไว้เป็นอย่างอื่น ทีมตั้งค่าขนาดแพตช์เป็น 16×16 (แสดงเป็น pMF/16) โมเดลตัดส่วนได้รับการฝึกตั้งแต่เริ่มต้นเป็นเวลา 160 Epoch

เกี่ยวกับเป้าหมายการทำนายของเครือข่าย วิธีการของทีมอิงตามสมมติฐานแมนิโฟลด์ นั่นคือสมมติว่า x อยู่ในแมนิโฟลด์มิติต่ำและทำนายได้ง่ายกว่า ตารางที่ 2 ยืนยันสมมติฐานนี้

ก่อนอื่นใช้ความละเอียด 64×64 เป็นการตั้งค่าที่ง่ายกว่า เมื่อขนาดแพตช์เป็น 4×4 มิติของแพตช์คือ 48 (คือ 4×4×3) มิตินี้ต่ำกว่าความจุของเครือข่ายมาก (มิติของชั้นที่ซ่อนคือ 768) ดังนั้น pMF จึงทำงานได้ดีทั้งภายใต้ x-prediction และ u-prediction

ต่อไปพิจารณาความละเอียด 256×256 ตามธรรมเนียม ตั้งขนาดแพตช์เป็น 16×16 มิติของแพตช์สูงถึง 768 (คือ 16×16×3) สิ่งนี้นำไปสู่สเปซการสังเกตมิติที่สูงขึ้น ซึ่งเพิ่มความยากในการสร้างแบบจำลองเครือข่ายประสาทเทียม ในกรณีนี้ มีเพียง x-prediction เท่านั้นที่ทำงานได้ดี บ่งชี้ว่า x อยู่บนแมนิโฟลด์มิติที่ต่ำกว่า ดังนั้นเรียนรู้ได้ง่ายกว่า

ในทางตรงกันข้าม ประสิทธิภาพของ u-prediction ล่มสลายโดยสิ้นเชิง: ในฐานะปริมาณทางกายภาพที่มีสัญญาณรบกวน u มีการรองรับเต็มในสเปซมิติสูง ทำให้สร้างแบบจำลองยากกว่ามาก

เกี่ยวกับการสร้างความละเอียดสูง ทีมศึกษา pMF ที่ความละเอียด 256, 512 และ 1024 ในตารางที่ 4 ในการรักษาความยาวลำดับให้คงที่ (16^2) ต้นทุนการคำนวณโดยประมาณจะเหมือนกันในความละเอียดต่างๆ การทำเช่นนี้จะนำไปสู่ขนาดแพตช์ที่รุนแรงมาก (เช่น 64^2) และมิติแพตช์ (เช่น 12288)

ผลลัพธ์แสดงว่า pMF สามารถจัดการกับกรณีที่ท้าทายของสเปซการสังเกตมิติสูงนี้ได้อย่างมีประสิทธิภาพ โมเดลทำนาย x อย่างสม่ำเสมอ ซึ่งมิติพื้นฐานของมันไม่เติบโตตามสัดส่วนกับการเพิ่มขึ้นของมิติสเปซการสังเกต

ในด้านความสามารถในการขยาย ทีมรายงานผลการเพิ่มขนาดโมเดลและจำนวนรอบการฝึก (Epoch) ในตารางที่ 5 ตามที่คาดไว้ ประสิทธิภาพของ pMF ได้รับการยกระดับจากการขยายในทั้งสองมิตินี้

สุดท้าย ทีมเปรียบเทียบ pMF กับโมเดลก่อนหน้าอย่างครอบคลุมในตารางที่ 6 (256×256) และตารางที่ 7 (512×512)

ที่ความละเอียด 256×256 วิธีนี้ได้คะแนน FID 2.22 (ฝึก 360 Epoch) ดังแสดงในตารางที่ 6 เท่าที่ทีมทราบ วิธีการเดียวที่สามารถเปรียบเทียบได้ในหมวดหมู่นี้ (โมเดลแพร่กระจาย/โฟลว์แบบขั้นตอนเดียวและไร้สเปซแฝง) คือ EPG ที่เสนอมาเมื่อไม่นานมานี้ ซึ่งได้ FID 8.82 ภายใต้การตั้งค่าการฝึกล่วงหน้าแบบกำกับดูแลตนเอง

ที่ความละเอียด 512×512 pMF ได้คะแนน FID 2.48 ดังแสดงในตารางที่ 7 ผลลัพธ์นี้มีต้นทุนการคำนวณ (จำนวนพารามิเตอร์และ Gflops) เทียบเท่ากับรุ่น 256×256 ต้นทุนการคำนวณเพิ่มเติมมาจากเพียงชั้นการฝังแพตช์และชั้นการทำนายที่มีช่องทางมากขึ้น ในขณะที่โมดูล Transformer ทั้งหมดรักษาต้นทุนการคำนวณเดียวกัน