DeepGen 1.0: เปิดตัวโมเดลสร้างและแก้ไขหลายรูปแบบแบบรวมศูนย์ 5B พารามิเตอร์, 4060ti สร้างภาพใน 10 วินาที, หลายดัชนีวัดแซงโมเดลอุตสาหกรรมขนาดใหญ่กว่า 4 เท่า

2026年3月18日 am11:00 • โครงการโอเพนซอร์ส • 240 views

DeepGen 1.0: โมเดลสร้างและแก้ไขแบบหลายรูปแบบแบบรวมศูนย์ที่เป็นโอเพนซอร์ส

ในช่วงไม่กี่ปีที่ผ่านมา โมเดลสร้างและแก้ไขแบบหลายรูปแบบแบบรวมศูนย์กำลังพัฒนาไปในทิศทางที่มีพารามิเตอร์จำนวนมหาศาล โดยมักมีพารามิเตอร์หลายพันล้านตัว สิ่งนี้สร้างความท้าทายอย่างมากต่อการทำซ้ำโดยทีมวิจัยทั่วไปและการปรับใช้ในเครื่องส่วนบุคคล

เมื่อเร็วๆ นี้ ทีมวิจัยจากสถาบันต่างๆ เช่น Shanghai Chuangzhi College, มหาวิทยาลัย Fudan และ University of Science and Technology of China ได้ร่วมกันเปิดตัวโมเดลสร้างและแก้ไขแบบหลายรูปแบบแบบรวมศูนย์ DeepGen 1.0 โมเดลนี้มีพารามิเตอร์ทั้งหมด 5 พันล้านตัว (ประกอบด้วยส่วนโมเดลภาษาภาพ 3 พันล้านตัว และส่วน Diffusion Transformer 2 พันล้านตัว) พร้อมทั้งรวบรวมความสามารถหลักห้าประการ ได้แก่ การสร้างภาพ การแก้ไขภาพ การสร้างโดยใช้เหตุผล การแก้ไขโดยใช้เหตุผล และการเรนเดอร์ข้อความ

จากการทดสอบจริงในชุมชน โมเดลนี้ใช้เวลาประมาณ 10 วินาทีในการสร้างภาพบนการ์ดจอ NVIDIA GeForce RTX 4060 Ti 16GB เท่านั้น และยังมีประสิทธิภาพเหนือกว่าโมเดลสร้างระดับอุตสาหกรรมที่มีพารามิเตอร์มากกว่าถึงสี่เท่าในหลายดัชนีชี้วัดคุณภาพ

ทีมวิจัยได้เปิดซอร์สโค้ดการฝึกอบรมแบบครบวงจร รวมถึงการฝึกก่อน การปรับแต่งภายใต้การดูแล และการเรียนรู้แบบเสริมกำลัง พร้อมทั้งชุดข้อมูลฝึกอบรมคุณภาพสูงที่สอดคล้องกัน โดยมีวัตถุประสงค์เพื่อสนับสนุนชุมชนในการทำซ้ำผลลัพธ์โมเดลตั้งแต่เริ่มต้นหรือดำเนินการสำรวจเพิ่มเติม นอกจากนี้ ทีมยังได้เผยแพร่น้ำหนักโมเดลในขั้นตอนการฝึกอบรมต่างๆ เพื่อสนับสนุนการวิจัยเกี่ยวกับโมเดลสร้างและแก้ไขแบบหลายรูปแบบแบบรวมศูนย์ ในฐานะโมเดลน้ำหนักเบา DeepGen 1.0 สามารถปรับใช้ด้วยต้นทุนที่ต่ำกว่า ทำให้สามารถสร้างภาพแบบเรียลไทม์บนฮาร์ดแวร์สำหรับใช้ในบ้านได้

DeepGen 1.0: เปิดตัวโมเดลสร้างและแก้ไขหลายรูปแบบแบบรวมศูนย์ 5B พารามิเตอร์, 4060ti สร้างภาพใน 10 วินาที, หลายดัชนีวัดแซงโมเดลอุตสาหกรรมขนาดใหญ่กว่า 4 เท่า

ประเด็นสำคัญด้านเทคโนโลยีหลัก

การเชื่อมต่อช่องสัญญาณแบบสแต็กและ “Think Token” แบบโดยนัย: ผ่านเทคโนโลยีการเชื่อมต่อช่องสัญญาณแบบสแต็ก ทำให้เกิดการผสานรวมอย่างลึกซึ้งและมีประสิทธิภาพข้ามชั้นระหว่างความสามารถในการเข้าใจของโมเดลภาษาภาพและความสามารถในการสร้างของ Diffusion Transformer “Think Token” ที่สามารถเรียนรู้ได้ซึ่งถูกนำมาใช้เป็นห่วงโซ่การคิดแบบโดยนัย มีวัตถุประสงค์เพื่อเพิ่มความสามารถในการให้เหตุผลของโมเดลเมื่อเผชิญกับคำสั่งที่ซับซ้อน โดยไม่เพิ่มจำนวนพารามิเตอร์อย่างมีนัยสำคัญ
กลยุทธ์การฝึกอบรมหลายขั้นตอน: กระบวนการฝึกอบรมแบ่งออกเป็นสามขั้นตอน: การจัดตำแหน่งล่วงหน้า การปรับแต่งร่วมกัน และการจัดตำแหน่งกับความชอบของมนุษย์และเพิ่มความสามารถในการเรนเดอร์ข้อความผ่านการเรียนรู้แบบเสริมกำลัง
วิธีการเรียนรู้แบบเสริมกำลัง MR-GRPO: ในขั้นตอนการเรียนรู้แบบเสริมกำลัง ใช้ข้อจำกัดสองประการคือการสูญเสียจากการปรับแต่งภายใต้การดูแลเสริมและการทำให้เป็นมาตรฐาน KL ทำให้การฝึกอบรมสามารถขยายได้อย่างมั่นคงถึง 1500 ขั้นตอน

ความท้าทายของโมเดลสร้างและแก้ไขแบบหลายรูปแบบแบบรวมศูนย์ที่เป็นโอเพนซอร์ส

ในช่วงปีที่ผ่านมา โมเดลสร้างและแก้ไขแบบหลายรูปแบบแบบรวมศูนย์พัฒนาไปอย่างรวดเร็ว แต่อุตสาหกรรมยังคงเผชิญกับความท้าทายหลักหลายประการ: โมเดลระดับอุตสาหกรรมมีพารามิเตอร์จำนวนมาก ทำให้ความเร็วในการสร้างช้าและต้นทุนการฝึกอบรมสูง ทีมทั่วไปทำซ้ำได้ยาก; ความสามารถในการสร้างและแก้ไขมักถูกแบ่งออกโดยโมเดลที่แตกต่างกัน ซึ่งเพิ่มความซับซ้อนในการปรับใช้และการบำรุงรักษา; ที่สำคัญกว่านั้น ชุมชนขาดกระบวนการฝึกอบรมและอนุมานแบบโอเพนซอร์สที่สมบูรณ์และชุดข้อมูลฝึกอบรมคุณภาพสูง ทำให้ยากที่จะบรรลุผลระดับอุตสาหกรรม

การเปิดตัว DeepGen 1.0 มีวัตถุประสงค์เพื่อแก้ไขปัญหาข้างต้น

สถาปัตยกรรมและวิธีการฝึกอบรมของ DeepGen 1.0

DeepGen 1.0 ใช้สถาปัตยกรรมที่ผสมผสานระหว่างโมเดลภาษาภาพและ Diffusion Transformer (VLM 3B + DiT 2B) โมเดลภาษาภาพทำหน้าที่เป็นสาขาการทำความเข้าใจ รับผิดชอบในการประมวลผลข้อความและภาพอินพุต ให้ความเข้าใจความหมายและความรู้เกี่ยวกับโลก; Diffusion Transformer ทำหน้าที่เป็นสาขาการสร้าง สร้างภาพคุณภาพสูงภายใต้การชี้นำเงื่อนไขหลายรูปแบบที่ให้โดยโมเดลภาษาภาพ ทั้งสองเชื่อมต่อกันผ่านโมดูลตัวเชื่อมต่อตัวเข้ารหัสที่กระชับเพื่อจัดตำแหน่งคุณลักษณะ

บนพื้นฐานนี้ โมเดลใช้เทคโนโลยีการเชื่อมต่อช่องสัญญาณแบบสแต็กเพื่อผสานรวมทั้งสองสาขาอย่างลึกซึ้ง Think Tokens ที่สามารถเรียนรู้ได้ทำหน้าที่เป็นห่วงโซ่การคิดแบบโดยนัย มีวัตถุประสงค์เพื่อบรรเทาปัญหาการสูญเสียข้อมูลและการเปลี่ยนแปลงการแสดงผล ในขณะเดียวกันก็เพิ่มความสามารถในการให้เหตุผลของโมเดลในการจัดการคำสั่งที่ซับซ้อน โดยไม่แนะนำพารามิเตอร์เพิ่มเติมจำนวนมาก

การฝึกอบรมใช้กลยุทธ์หลายขั้นตอน: ขั้นแรกฝึกโมดูลตัวเชื่อมต่อเพื่อจัดตำแหน่งล่วงหน้า; จากนั้นปรับแต่งโมเดลภาษาภาพและ Diffusion Transformer ร่วมกันด้วยงานหลายอย่างคุณภาพสูง; สุดท้ายเพิ่มประสิทธิภาพภาพ视觉效果ผ่านการเรียนรู้แบบเสริมกำลัง และจัดตำแหน่งกับความชอบของมนุษย์

ข้อมูลการฝึกอบรมรวมข้อมูลจากโลกจริง ข้อมูลสังเคราะห์ และชุดข้อมูลโอเพนซอร์สที่คัดสรรมาอย่างดี ครอบคลุมงานหลายประเภท ได้แก่ การสร้างและแก้ไขทั่วไป การสร้างและแก้ไขโดยใช้เหตุผล การเรนเดอร์ข้อความ และงานที่มุ่งเน้นไปที่สถานการณ์การใช้งานเฉพาะ (เช่น การสร้างโปสเตอร์ การสร้างภาพบุคคล เป็นต้น)

การประเมินประสิทธิภาพของโมเดล

การวิเคราะห์ผลเชิงปริมาณ

การสร้างและแก้ไขทั่วไป
การสร้างโดยใช้เหตุผล
การแก้ไขโดยใช้เหตุผล

การแสดงผลการสร้าง

วิธีการเรียนรู้แบบเสริมกำลัง MR-GRPO

DeepGen ได้แนะนำวิธีการ MR-GRPO ในขั้นตอนการเรียนรู้แบบเสริมกำลัง เมื่อเทียบกับวิธีการดั้งเดิม MR-GRPO ใช้โมเดลรางวัลแบบจุดและแบบคู่ร่วมกัน เพื่อประเมินภาพที่สร้างขึ้น โดยใช้ฟังก์ชันรางวัลเสริมสามประเภท: รางวัลความชอบแบบคู่ตามโมเดลภาษาภาพ (ประเมินการจัดตำแหน่งภาพและข้อความและคุณภาพภาพ) รางวัล OCR (เพิ่มประสิทธิภาพความแม่นยำในการเรนเดอร์ข้อความ) และรางวัลความคล้ายคลึง CLIP (วัดความสอดคล้องทางความหมายโดยรวม)

เพื่อบรรเทาปัญหาการลดลงของความสามารถทั่วไปและการเกิดตารางภาพที่อาจเกิดขึ้นในการฝึกอบรมการเรียนรู้แบบเสริมกำลัง ทีมได้เสนอ การสูญเสียจากการปรับแต่งภายใต้การดูแลเสริมเป็นคำแนะนำผลลัพธ์ ให้สัญญาณการดูแลสำหรับการสร้างคุณภาพสูง ยึดเอาต์พุตของโมเดล ป้องกันการล่องลอยหรือการพังทลายของความสามารถในการฝึกอบรมระยะยาว; ในขณะเดียวกันเสริมด้วย การทำให้เป็นมาตรฐาน KL เป็นคำแนะนำกระบวนการ จำกัดไม่ให้โมเดลเบี่ยงเบนจากโมเดลอ้างอิงมากเกินไปบนเส้นทางการลดสัญญาณรบกวน ทั้งสองทำงานร่วมกัน ทำให้การฝึกอบรมการเรียนรู้แบบเสริมกำลังสามารถขยายได้อย่างมั่นคงถึง 1500 ขั้นตอน รายงานว่าความสามารถในการเรนเดอร์ข้อความเพิ่มขึ้นประมาณ 10% และความสามารถโดยรวมเพิ่มขึ้นประมาณ 1.5%

การทดลองแสดงให้เห็นว่า หลังจากลบการสูญเสียจากการปรับแต่งภายใต้การดูแลเสริม ประสิทธิภาพของโมเดลเริ่มลดลงอย่างมีนัยสำคัญหลังจากประมาณ 300 ขั้นตอน ในที่สุดประสิทธิภาพลดลงอย่างมาก และอาจต่ำกว่าระดับฐานก่อนการฝึกอบรมการเรียนรู้แบบเสริมกำลัง สิ่งนี้พิสูจน์ว่าการสูญเสียจากการปรับแต่งภายใต้การดูแลเสริมและการทำให้เป็นมาตรฐาน KL ให้ข้อจำกัดที่เสริมและจำเป็น

การสร้างกระบวนการโอเพนซอร์สเต็มรูปแบบที่มีประสิทธิภาพ

ในบริบทปัจจุบันที่โมเดลสร้างและแก้ไขแบบหลายรูปแบบแบบรวมศูนย์มักจะมุ่งไปสู่การปิดซอร์ส ทีมวิจัยนี้เลือกที่จะเปิดซอร์สอย่างเต็มที่ โดยเปิดเผยโค้ดการฝึกอบรม โค้ดการอนุมาน น้ำหนักโมเดล และข้อมูลฝึกอบรมคุณภาพสูง สิ่งนี้ทำให้ผู้วิจัยไม่จำเป็นต้องพึ่งพาคลัสเตอร์ GPU หลายร้อยตัว ก็สามารถทำซ้ำโมเดลตั้งแต่เริ่มต้นบนกรอบงานที่สมบูรณ์นี้ หรือพัฒนาโมเดลเฉพาะสำหรับโดเมนแนวตั้งบนพื้นฐานนี้

ลักษณะน้ำหนักเบาของ DeepGen 1.0 เป็นอีกหนึ่งข้อได้เปรียบ โมเดลที่มีพารามิเตอร์เพียง 5 พันล้านตัวทำให้สามารถสร้างภาพได้อย่างรวดเร็วบนการ์ดจอระดับผู้บริโภคเพียงใบเดียว เติมเต็มช่องว่างในด้าน “โมเดลเล็ก ความสามารถแข็งแกร่ง” ลดขีดจำกัดทางเทคนิคของการสร้างภาพคุณภาพสูง และยังให้ความเป็นไปได้ในการปรับใช้น้ำหนักเบาบนอุปกรณ์ปลายทางและการสร้างแบบเรียลไทม์

การเปิดซอร์ส DeepGen 1.0 มีวัตถุประสงค์เพื่อเติมเต็มแผนที่โอเพนซอร์สในสาขาโมเดลสร้างและแก้ไขแบบหลายรูปแบบแบบรวมศูนย์ ทีมวิจัยระบุว่าในอนาคตจะทำการวนซ้ำอย่างต่อเนื่อง เพื่อส่งเสริมการพัฒนาความร่วมมือแบบโอเพนซอร์สในสาขานี้

ชื่อเอกสาร: DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing
ลิงก์เอกสาร: https://arxiv.org/abs/2602.12205
ที่เก็บโค้ด: https://github.com/deepgenteam/deepgen
น้ำหนักโมเดล (Hugging Face): https://huggingface.co/deepgenteam/DeepGen-1.0
น้ำหนักโมเดล (รูปแบบ Diffusers): https://huggingface.co/deepgenteam/DeepGen-1.0-diffusers
ชุดข้อมูลฝึกอบรม: https://huggingface.co/datasets/deepgenteam/DeepGen-1.0