GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

GPT Image 2 กระตุ้นความสนใจทั่วโลก: เผยโฉมการปรับโครงสร้างสถาปัตยกรรมและทีมแกนหลัก

ประสิทธิภาพอันยอดเยี่ยมของ GPT Image 2 ได้รับความสนใจอย่างกว้างขวาง หัวหน้านักวิจัย Chen Boyuan เปิดเผยว่า โครงสร้างพื้นฐานของมันได้รับการปรับโครงสร้างใหม่ทั้งหมด

GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

สำหรับคำถามที่ว่าใช้โมเดล Diffusion หรือเทคโนโลยี Autoregressive หรือไม่ เขาไม่ได้ตอบตรงๆ แต่อธิบายโมเดลว่าเป็น “โมเดลอเนกประสงค์” หรือ “GPT ในด้านภาพ”

GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

Chen Boyuan ระบุบนโซเชียลมีเดียว่า นับตั้งแต่ GPT Image 1.5 ในปลายเดือนธันวาคมปีที่แล้ว ใช้เวลาเพียงสี่เดือนก็สามารถพัฒนาประสิทธิภาพให้ดีขึ้นได้อย่างมาก

GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

เบื้องหลังความสำเร็จอันน่าทึ่งนี้ ทีมงานหลักมีเพียง 13 คน หัวหน้าทีม Gabriel Goh ได้โชว์ภาพ “ครอบครัว” ของทีมที่สร้างขึ้นโดย AI

GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

Chen Boyuan: จากที่ไม่รู้ Python สู่หัวหน้านักวิจัย

โครงสร้างเฉพาะของ GPT Image 2 OpenAI อาจยังไม่เปิดเผยในระยะสั้น แต่สามารถเห็นเค้าโครงได้จากภูมิหลังทางวิชาการของสมาชิกทีมหลัก

Chen Boyuan เป็นหัวหน้านักวิจัยของทีม เขาและสมาชิกอีกคน Kiwhan Song เรียนปริญญาเอกที่ MIT ภายใต้การดูแลของอาจารย์ที่ปรึกษาคนเดียวกันคือ Vincent Sitzmann

GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

ผลงาน代表作ในช่วงปริญญาเอกของเขา “Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion” ได้รับคัดเลือกให้เป็นส่วนหนึ่งของ NeurIPS 2024 การวิจัยนี้เสนอ “Diffusion Forcing” ซึ่งเป็นกระบวนทัศน์การฝึกสร้างลำดับแบบใหม่ โดยผสมผสาน Diffusion แบบแยก noise ระดับต่อ token อิสระกับการทำนาย token ถัดไปแบบ causal รวมความสามารถในการสร้างความยาวแปรผันของโมเดล Autoregressive กับข้อได้เปรียบในการชี้นำระยะยาวของโมเดล Diffusion แบบเต็มลำดับ

GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

ในช่วงฝึกงานที่ Google เขาเป็นผู้เขียนร่วมลำดับแรกในงานวิจัย “SpatialVLM” การวิจัยนี้ผ่านการสร้างชุดข้อมูล VQA การให้เหตุผลเชิงพื้นที่ 3D ขนาดใหญ่จากอินเทอร์เน็ตโดยอัตโนมัติ ทำให้โมเดลภาษาภาพมีความสามารถในการให้เหตุผลเชิงพื้นที่ทั้งเชิงปริมาณและเชิงคุณภาพ สามารถให้ค่าที่แม่นยำเช่น ระยะทางเมตริก ขนาด ทิศทาง จากภาพ 2D เดียว และนำการให้เหตุผลเชิงพื้นที่แบบ chain-of-thought ไปใช้ในด้าน embodied intelligence

GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

เทคนิคการปรับจูนด้วยคำสั่ง (instruction tuning) ที่เขาพัฒนาขึ้นในช่วงฝึกงาน ต่อมาได้ถูกนำไปใช้ใน Gemini 2.0

Chen Boyuan เข้าร่วม OpenAI ในเดือนมิถุนายน 2025 และกลายเป็นหนึ่งในสมาชิกหลักของการสร้างภาพ GPT อย่างรวดเร็ว รับผิดชอบงานฝึกอบรมทั้งหมด และยังเป็นสมาชิกของทีมสร้างวิดีโอ Sora อีกด้วย

Jianfeng Wang จาก USTC: มอบความรู้เกี่ยวกับโลกให้โมเดลสร้างภาพ

Jianfeng Wang ที่จบจาก University of Science and Technology of China (USTC) ในทีมรับผิดชอบในการเพิ่มความสามารถของโมเดลในการทำตามคำสั่งและเข้าใจความรู้เกี่ยวกับโลก

GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

ภาพนาฬิกาที่สร้างโดยโมเดลรุ่นเก่ามักมีเข็มชี้ไปที่ 10:10 ซึ่งเกิดจากอคติของข้อมูลฝึกอบรมจากภาพโฆษณาบนอินเทอร์เน็ต ในขณะที่โมเดลใหม่สามารถสร้างนาฬิกาที่แสดงเวลาใดๆ ที่ระบุได้อย่างแม่นยำ เช่น 2:25, 3:30

GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ
GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

นอกจากนี้ สำหรับคำสั่งการจัดวางเชิงพื้นที่ที่ซับซ้อน เช่น “แอปเปิ้ลอยู่ตรงกลาง ถ้วยอยู่ทางขวา หนังสืออยู่ด้านบน” โมเดลก็สามารถปฏิบัติตามได้อย่างแม่นยำ

GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

ก่อนเข้าร่วม OpenAI เขาทำงานที่ Microsoft เกือบเก้าปี ในช่วงนั้นเขาเคยร่วมงานกับทีม OpenAI ในโครงการ DALL-E 3 งานวิจัยของเขาช่วยเพิ่มความสามารถของโมเดลในการเข้าใจเนื้อหาอรรถศาสตร์และโครงสร้างหน้าที่ของวัตถุอย่างมาก

Yuguang Yang: สร้างอินโฟกราฟิกที่ซับซ้อนและแม่นยำสูง

Yuguang Yang สาธิตความสามารถของโมเดลในการสร้างอินโฟกราฟิกและ PPT ในการเปิดตัว

GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

เมื่อป้อนเอกสาร GPT-3 ที่ยาว 75 หน้าเข้าไปใน ChatGPT จะสามารถสร้างบทสรุปที่มีสไลด์ 7 แผ่นได้โดยอัตโนมัติ

GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

ประสบการณ์ของเขาค่อนข้างข้ามสาย: ปริญญาตรีที่ Chu Kochen Honors College, Zhejiang University ปริญญาเอกที่ Johns Hopkins University วิจัยด้านเคมีฟิสิกส์เชิงคำนวณและแมชชีนเลิร์นนิง; เคยทำงานเป็น quantitative analyst เป็น visiting researcher ที่ Tsinghua University จากนั้นทำงานวิจัยเสียง Alexa ที่ Amazon และรับผิดชอบความเข้าใจแบบสอบถามและความเข้าใจเอกสารสำหรับการค้นหาของ Bing ที่ Microsoft เขาเข้าร่วม OpenAI ในต้นปี 2025

GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

เขาแนะนำในบัญชีส่วนตัวว่า ความสามารถในการสร้างอินโฟกราฟิกของ GPT Image 2 สามารถช่วยนักวิจัยประหยัดเวลาได้มาก และเตือนผู้ใช้ให้เลือกโหมด “คิด” เพื่อผลลัพธ์ที่ดีกว่า

GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ
GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

จาก DALL-E สู่ GPT Image 2.0

ตามคำแนะนำของสมาชิกทีม Kenji Hata, GPT Image 1.0 คือส่วนสร้างภาพของ GPT-4o

GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

หัวหน้าทีม Gabriel Goh เข้าร่วม OpenAI ในปี 2019 งานวิจัยในช่วงแรกเน้นด้านทฤษฎีเช่น interpretability และ convex optimization เริ่มเปลี่ยนโฟกัสมาสู่ด้านการสร้างภาพตั้งแต่โครงการ DALL-E

GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

ประวัติการวิจัยของสมาชิกอีกคน Weixin Liang ก็เผยให้เห็นภูมิหลังทางเทคนิคบางส่วน ผลงานในช่วงฝึกงานที่ Meta “Mixture-of-Transformers” ผ่านการแนะนำระบบผู้เชี่ยวชาญผสม (MoE) ที่แยกส่วนตามโหมดและกลไกความสนใจที่แยกส่วน ช่วยลดต้นทุนการคำนวณในการฝึกก่อนของโมเดลหลายโหมดอย่างมีนัยสำคัญ

GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

เขาจบจาก Stanford University และเข้าร่วม OpenAI พร้อมกับ Chen Boyuan หลังจากจบปริญญาเอกในปี 2025 และกลายเป็นสมาชิกหลัก

GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

สมาชิกคนอื่นๆ ในทีม GPT Image 2.0 ยังรวมถึง:
* Ayaan Haque: เคยมีส่วนร่วมในการฝึกโมเดลพื้นฐานสร้างวิดีโอ Dream Machine ที่ Luma AI
* Bing Liang: ทำงานที่ Google กว่าห้าปี มีส่วนร่วมในโครงการ Imagen3, Veo, Gemini Multimodal เข้าร่วม OpenAI ในปี 2025
* Mengchao Zhong: รับผิดชอบด้านวิศวกรรมผลิตภัณฑ์หลายโหมด
* Dibya Bhattacharjee: พื้นหลังจาก Yale University
* Kiwhan Song: เข้าร่วมในเดือนตุลาคม 2025 นอกเหนือจากงานวิจัยแล้ว ยังเป็นผู้เชี่ยวชาญด้าน prompt ของทีม ภาพสาธิตทางการหลายภาพมาจากฝีมือของเขา

จาก DALL-E ถึง GPT Image 2.0 ทีมนี้ได้แก้ไขความท้าทาย “วาดออกมาได้” “วาดชัดเจน” “วาดสวยงาม” และ “วาดแม่นยำ” ตามลำดับ

GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

แม้จะเผชิญกับการเคลื่อนย้ายของบุคลากร OpenAI ยังคงรักษาวัฒนธรรมการดึงดูดผู้มีความสามารถที่หลากหลายและข้ามสาย เชื่อในการวิจัยแบบ emergence จากล่างขึ้นบน เริ่มต้นจากการบุกเบิกของทีมเล็กๆ แล้วค่อยๆ รวบรวมทรัพยากรเพื่อขับเคลื่อนการเปลี่ยนแปลง

ตอนจบ

ก่อนหน้านี้ รูปโปรไฟเลียนแบบสไตล์ Studio Ghibli ที่สร้างโดย GPT-4o เคยเป็นที่นิยมชั่วขณะหนึ่ง ปัจจุบัน สมาชิกทีม GPT Image 2.0 ต่างเปลี่ยนรูปโปรไฟล์ของตัวเองเป็นสไตล์ภาพวาด “คอยาว” แบบนี้

GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ

prompt ที่ใช้สำหรับสไตล์ภาพวาดนี้ได้ถูกเผยแพร่โดยสมาชิกทีมแล้ว

ใช้เฉพาะรูปถ่ายของฉันเพื่อการระบุตัวตน วาดฉันใหม่เป็นสไตล์การ์ตูนสติกเกอร์ญี่ปุ่นแบบ surrealism แบบมินิมอล: คอเรียวยาว ใบหน้าเล็กไร้สีหน้า เส้นขอบดำมินิมอล สีเรียบอ่อน เกือบไม่มีเงา รายละเอียดบนหน้าน้อยมาก ทรงผมแบบง่ายๆ พื้นที่ว่างมาก พื้นหลังสีขาวล้วน ความรู้สึกสนุกๆ แบบงุ่มง่ามเล็กน้อย อัตราส่วนภาพยาว 1:3

ลิงก์อ้างอิง:
[1] https://x.com/gabeeegoooh/status/2046674385407512687?s=20
[2] https://venturebeat.com/technology/openais-chatgpt-images-2-0-is-here-and-it-does-multilingual-text-full-infographics-slides-maps-even-manga-seemingly-flawlessly

GPT Image 2 โดดเด่นทั่วเน็ต! ทีมแกนกลางของ OpenAI มีเพียง 13 คน, ปรับโครงสร้างสถาปัตยกรรมสำเร็จในสี่เดือน, เผยความก้าวหน้าใหม่ในการสร้างภาพ


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/31573

Like (0)
Previous 8 hours ago
Next 8 hours ago

相关推荐