GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

8 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 12 views

GPT Image 2 กระตุ้นความสนใจทั่วโลก: เผยโฉมการปรับโครงสร้างสถาปัตยกรรมและทีมแกนหลัก

ประสิทธิภาพอันยอดเยี่ยมของ GPT Image 2 ได้รับความสนใจอย่างกว้างขวาง หัวหน้านักวิจัย Chen Boyuan เปิดเผยว่า โครงสร้างพื้นฐานของมันได้รับการปรับโครงสร้างใหม่ทั้งหมด

GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

สำหรับคำถามที่ว่าใช้โมเดล Diffusion หรือเทคโนโลยี Autoregressive หรือไม่ เขาไม่ได้ตอบตรงๆ แต่อธิบายโมเดลว่าเป็น “โมเดลอเนกประสงค์” หรือ “GPT ในด้านภาพ”

Chen Boyuan ระบุบนโซเชียลมีเดียว่า นับตั้งแต่ GPT Image 1.5 ในปลายเดือนธันวาคมปีที่แล้ว ใช้เวลาเพียงสี่เดือนก็สามารถพัฒนาประสิทธิภาพให้ดีขึ้นได้อย่างมาก

เบื้องหลังความสำเร็จอันน่าทึ่งนี้ ทีมงานหลักมีเพียง 13 คน หัวหน้าทีม Gabriel Goh ได้โชว์ภาพ “ครอบครัว” ของทีมที่สร้างขึ้นโดย AI

Chen Boyuan: จากที่ไม่รู้ Python สู่หัวหน้านักวิจัย

โครงสร้างเฉพาะของ GPT Image 2 OpenAI อาจยังไม่เปิดเผยในระยะสั้น แต่สามารถเห็นเค้าโครงได้จากภูมิหลังทางวิชาการของสมาชิกทีมหลัก

Chen Boyuan เป็นหัวหน้านักวิจัยของทีม เขาและสมาชิกอีกคน Kiwhan Song เรียนปริญญาเอกที่ MIT ภายใต้การดูแลของอาจารย์ที่ปรึกษาคนเดียวกันคือ Vincent Sitzmann

ผลงาน代表作ในช่วงปริญญาเอกของเขา “Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion” ได้รับคัดเลือกให้เป็นส่วนหนึ่งของ NeurIPS 2024 การวิจัยนี้เสนอ “Diffusion Forcing” ซึ่งเป็นกระบวนทัศน์การฝึกสร้างลำดับแบบใหม่ โดยผสมผสาน Diffusion แบบแยก noise ระดับต่อ token อิสระกับการทำนาย token ถัดไปแบบ causal รวมความสามารถในการสร้างความยาวแปรผันของโมเดล Autoregressive กับข้อได้เปรียบในการชี้นำระยะยาวของโมเดล Diffusion แบบเต็มลำดับ

ในช่วงฝึกงานที่ Google เขาเป็นผู้เขียนร่วมลำดับแรกในงานวิจัย “SpatialVLM” การวิจัยนี้ผ่านการสร้างชุดข้อมูล VQA การให้เหตุผลเชิงพื้นที่ 3D ขนาดใหญ่จากอินเทอร์เน็ตโดยอัตโนมัติ ทำให้โมเดลภาษาภาพมีความสามารถในการให้เหตุผลเชิงพื้นที่ทั้งเชิงปริมาณและเชิงคุณภาพ สามารถให้ค่าที่แม่นยำเช่น ระยะทางเมตริก ขนาด ทิศทาง จากภาพ 2D เดียว และนำการให้เหตุผลเชิงพื้นที่แบบ chain-of-thought ไปใช้ในด้าน embodied intelligence

เทคนิคการปรับจูนด้วยคำสั่ง (instruction tuning) ที่เขาพัฒนาขึ้นในช่วงฝึกงาน ต่อมาได้ถูกนำไปใช้ใน Gemini 2.0

Chen Boyuan เข้าร่วม OpenAI ในเดือนมิถุนายน 2025 และกลายเป็นหนึ่งในสมาชิกหลักของการสร้างภาพ GPT อย่างรวดเร็ว รับผิดชอบงานฝึกอบรมทั้งหมด และยังเป็นสมาชิกของทีมสร้างวิดีโอ Sora อีกด้วย

Jianfeng Wang จาก USTC: มอบความรู้เกี่ยวกับโลกให้โมเดลสร้างภาพ

Jianfeng Wang ที่จบจาก University of Science and Technology of China (USTC) ในทีมรับผิดชอบในการเพิ่มความสามารถของโมเดลในการทำตามคำสั่งและเข้าใจความรู้เกี่ยวกับโลก

ภาพนาฬิกาที่สร้างโดยโมเดลรุ่นเก่ามักมีเข็มชี้ไปที่ 10:10 ซึ่งเกิดจากอคติของข้อมูลฝึกอบรมจากภาพโฆษณาบนอินเทอร์เน็ต ในขณะที่โมเดลใหม่สามารถสร้างนาฬิกาที่แสดงเวลาใดๆ ที่ระบุได้อย่างแม่นยำ เช่น 2:25, 3:30

นอกจากนี้ สำหรับคำสั่งการจัดวางเชิงพื้นที่ที่ซับซ้อน เช่น “แอปเปิ้ลอยู่ตรงกลาง ถ้วยอยู่ทางขวา หนังสืออยู่ด้านบน” โมเดลก็สามารถปฏิบัติตามได้อย่างแม่นยำ

ก่อนเข้าร่วม OpenAI เขาทำงานที่ Microsoft เกือบเก้าปี ในช่วงนั้นเขาเคยร่วมงานกับทีม OpenAI ในโครงการ DALL-E 3 งานวิจัยของเขาช่วยเพิ่มความสามารถของโมเดลในการเข้าใจเนื้อหาอรรถศาสตร์และโครงสร้างหน้าที่ของวัตถุอย่างมาก

Yuguang Yang: สร้างอินโฟกราฟิกที่ซับซ้อนและแม่นยำสูง

Yuguang Yang สาธิตความสามารถของโมเดลในการสร้างอินโฟกราฟิกและ PPT ในการเปิดตัว

เมื่อป้อนเอกสาร GPT-3 ที่ยาว 75 หน้าเข้าไปใน ChatGPT จะสามารถสร้างบทสรุปที่มีสไลด์ 7 แผ่นได้โดยอัตโนมัติ

ประสบการณ์ของเขาค่อนข้างข้ามสาย: ปริญญาตรีที่ Chu Kochen Honors College, Zhejiang University ปริญญาเอกที่ Johns Hopkins University วิจัยด้านเคมีฟิสิกส์เชิงคำนวณและแมชชีนเลิร์นนิง; เคยทำงานเป็น quantitative analyst เป็น visiting researcher ที่ Tsinghua University จากนั้นทำงานวิจัยเสียง Alexa ที่ Amazon และรับผิดชอบความเข้าใจแบบสอบถามและความเข้าใจเอกสารสำหรับการค้นหาของ Bing ที่ Microsoft เขาเข้าร่วม OpenAI ในต้นปี 2025

เขาแนะนำในบัญชีส่วนตัวว่า ความสามารถในการสร้างอินโฟกราฟิกของ GPT Image 2 สามารถช่วยนักวิจัยประหยัดเวลาได้มาก และเตือนผู้ใช้ให้เลือกโหมด “คิด” เพื่อผลลัพธ์ที่ดีกว่า

จาก DALL-E สู่ GPT Image 2.0

ตามคำแนะนำของสมาชิกทีม Kenji Hata, GPT Image 1.0 คือส่วนสร้างภาพของ GPT-4o

หัวหน้าทีม Gabriel Goh เข้าร่วม OpenAI ในปี 2019 งานวิจัยในช่วงแรกเน้นด้านทฤษฎีเช่น interpretability และ convex optimization เริ่มเปลี่ยนโฟกัสมาสู่ด้านการสร้างภาพตั้งแต่โครงการ DALL-E

ประวัติการวิจัยของสมาชิกอีกคน Weixin Liang ก็เผยให้เห็นภูมิหลังทางเทคนิคบางส่วน ผลงานในช่วงฝึกงานที่ Meta “Mixture-of-Transformers” ผ่านการแนะนำระบบผู้เชี่ยวชาญผสม (MoE) ที่แยกส่วนตามโหมดและกลไกความสนใจที่แยกส่วน ช่วยลดต้นทุนการคำนวณในการฝึกก่อนของโมเดลหลายโหมดอย่างมีนัยสำคัญ

เขาจบจาก Stanford University และเข้าร่วม OpenAI พร้อมกับ Chen Boyuan หลังจากจบปริญญาเอกในปี 2025 และกลายเป็นสมาชิกหลัก

สมาชิกคนอื่นๆ ในทีม GPT Image 2.0 ยังรวมถึง:
* Ayaan Haque: เคยมีส่วนร่วมในการฝึกโมเดลพื้นฐานสร้างวิดีโอ Dream Machine ที่ Luma AI
* Bing Liang: ทำงานที่ Google กว่าห้าปี มีส่วนร่วมในโครงการ Imagen3, Veo, Gemini Multimodal เข้าร่วม OpenAI ในปี 2025
* Mengchao Zhong: รับผิดชอบด้านวิศวกรรมผลิตภัณฑ์หลายโหมด
* Dibya Bhattacharjee: พื้นหลังจาก Yale University
* Kiwhan Song: เข้าร่วมในเดือนตุลาคม 2025 นอกเหนือจากงานวิจัยแล้ว ยังเป็นผู้เชี่ยวชาญด้าน prompt ของทีม ภาพสาธิตทางการหลายภาพมาจากฝีมือของเขา

จาก DALL-E ถึง GPT Image 2.0 ทีมนี้ได้แก้ไขความท้าทาย “วาดออกมาได้” “วาดชัดเจน” “วาดสวยงาม” และ “วาดแม่นยำ” ตามลำดับ

แม้จะเผชิญกับการเคลื่อนย้ายของบุคลากร OpenAI ยังคงรักษาวัฒนธรรมการดึงดูดผู้มีความสามารถที่หลากหลายและข้ามสาย เชื่อในการวิจัยแบบ emergence จากล่างขึ้นบน เริ่มต้นจากการบุกเบิกของทีมเล็กๆ แล้วค่อยๆ รวบรวมทรัพยากรเพื่อขับเคลื่อนการเปลี่ยนแปลง

ตอนจบ

ก่อนหน้านี้ รูปโปรไฟเลียนแบบสไตล์ Studio Ghibli ที่สร้างโดย GPT-4o เคยเป็นที่นิยมชั่วขณะหนึ่ง ปัจจุบัน สมาชิกทีม GPT Image 2.0 ต่างเปลี่ยนรูปโปรไฟล์ของตัวเองเป็นสไตล์ภาพวาด “คอยาว” แบบนี้

prompt ที่ใช้สำหรับสไตล์ภาพวาดนี้ได้ถูกเผยแพร่โดยสมาชิกทีมแล้ว

ใช้เฉพาะรูปถ่ายของฉันเพื่อการระบุตัวตน วาดฉันใหม่เป็นสไตล์การ์ตูนสติกเกอร์ญี่ปุ่นแบบ surrealism แบบมินิมอล: คอเรียวยาว ใบหน้าเล็กไร้สีหน้า เส้นขอบดำมินิมอล สีเรียบอ่อน เกือบไม่มีเงา รายละเอียดบนหน้าน้อยมาก ทรงผมแบบง่ายๆ พื้นที่ว่างมาก พื้นหลังสีขาวล้วน ความรู้สึกสนุกๆ แบบงุ่มง่ามเล็กน้อย อัตราส่วนภาพยาว 1:3

ลิงก์อ้างอิง:
[1] https://x.com/gabeeegoooh/status/2046674385407512687?s=20
[2] https://venturebeat.com/technology/openais-chatgpt-images-2-0-is-here-and-it-does-multilingual-text-full-infographics-slides-maps-even-manga-seemingly-flawlessly