GPT Image 2 惊艳全网:架构重构与核心团队揭秘
GPT Image 2 的出色效果引发广泛关注。研究负责人陈博远透露,其底层架构已实现彻底重构。

对于是否采用扩散模型或自回归技术,他并未直接回应,而是将模型描述为“通用模型”或“图像领域的 GPT”。

陈博远在社交媒体上表示,从去年 12 月底的 GPT Image 1.5 算起,仅用四个月便实现了如此显著的改进。

这项突破性成果的背后,核心团队仅有 13 人。团队负责人 Gabriel Goh 展示了由 AI 生成的团队“全家福”。

陈博远:从不懂 Python 到研究负责人
GPT Image 2 的具体架构,OpenAI 短期内可能不会公布,但从核心团队成员的学术背景中可窥见一斑。
陈博远是团队的研究负责人。他与另一位成员 Kiwhan Song 在 MIT 攻读博士时,师从同一位导师 Vincent Sitzmann。

他博士期间的代表作《Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion》入选了 NeurIPS 2024。该研究提出了“Diffusion Forcing”这一全新的序列生成训练范式,将逐 token 独立噪声级扩散与因果下一个 token 预测相结合,融合了自回归模型的可变长度生成能力与全序列扩散模型的长程引导优势。

在谷歌实习期间,他以共同第一作者身份发表了“SpatialVLM”。该研究通过自动构建互联网规模的 3D 空间推理 VQA 数据集,为视觉语言模型赋予了定量与定性的空间推理能力,使其能够从单张 2D 图像输出米制距离、尺寸、方位等精确数值,并将思维链空间推理应用于具身智能领域。

他在实习期间开发的指令微调技术,后续被 Gemini 2.0 采用。
陈博远于 2025 年 6 月加入 OpenAI,迅速成为 GPT 图像生成的核心成员之一,负责所有训练工作,同时也是 Sora 视频生成团队的成员。
中科大 Jianfeng Wang:赋予图像生成模型世界知识
毕业于中国科学技术大学的 Jianfeng Wang,在团队中负责提升模型的指令遵循与世界知识理解能力。

旧式模型生成的钟表图像指针常指向 10:10,这是源于网络广告图的训练数据偏差。而新模型已能准确生成 2:25、3:30 等任意指定时间的钟表。


此外,对于“苹果在中心、杯子在右边、书在上面”等复杂的空间布局指令,模型也能精准执行。

在加入 OpenAI 之前,他曾在微软工作近九年,期间便与 OpenAI 团队在 DALL-E 3 项目上有过合作。他的研究大幅提升了模型对对象语义内容与功能结构的理解能力。
Yuguang Yang:生成高精度复杂信息图表
Yuguang Yang 在发布活动中演示了模型生成信息图和 PPT 的能力。

将长达 75 页的 GPT-3 论文输入 ChatGPT,可自动生成包含 7 张幻灯片的摘要。

他的经历颇为跨界:本科就读于浙江大学竺可桢学院,博士在约翰斯·霍普金斯大学研究计算化学物理与机器学习;曾担任量化分析师,在清华大学做过访问研究员,之后在亚马逊从事 Alexa 语音研究,在微软负责 Bing 搜索的查询理解与文档理解。他于 2025 年初加入 OpenAI。

他在个人账号上介绍,GPT Image 2 的信息图生成能力可为科研人员节省大量时间,并提醒用户在使用时选择“思考模式”以获得更好效果。


从 DALL-E 到 GPT Image 2.0
根据团队成员 Kenji Hata 的介绍,GPT Image 1.0 即 GPT-4o 的图像生成部分。

团队负责人 Gabriel Goh 自 2019 年加入 OpenAI,早期研究侧重于可解释性与凸优化等理论方向,从 DALL-E 项目开始逐渐转向图像生成领域。

另一位成员 Weixin Liang 的研究履历也揭示了部分技术背景。他在 Meta 实习期间的成果“Mixture-of-Transformers”,通过引入模态解耦的混合专家系统(MoE)和解耦注意力机制,显著降低了多模态模型预训练的计算成本。

他毕业于斯坦福大学,与陈博远同在 2025 年博士毕业后加入 OpenAI并成为核心成员。

GPT Image 2.0 团队的其他成员还包括:
* Ayaan Haque:曾在 Luma AI 参与视频生成基础模型 Dream Machine 的训练。
* Bing Liang:在谷歌工作五年多,参与过 Imagen3、Veo、Gemini Multimodal 项目,于 2025 年加入 OpenAI。
* Mengchao Zhong:负责多模态产品工程。
* Dibya Bhattacharjee:耶鲁大学背景。
* Kiwhan Song:于 2025 年 10 月加入,除研究工作外,也是团队的提示词专家,许多官方演示图出自其手。
从 DALL-E 到 GPT Image 2.0,这个团队先后解决了“画得出来”、“画得清楚”、“画得好看”和“画得准”的挑战。

尽管面临人才流动,OpenAI 依然保持着吸引多元化、跨界人才的文化,信奉自下而上的涌现式研究,从小团队突破开始,逐步汇聚资源以推动变革。
尾声
此前,GPT-4o 模仿吉卜力风格生成的头像风靡一时。如今,GPT Image 2.0 的团队成员都将自己的头像换成了这种“奇脖子”画风。

这种画风所使用的提示词也已由团队成员公布。
仅使用我的照片进行身份识别。将我重绘为极简超现实日式贴纸风格漫画:细长脖颈、小巧面无表情的脸、极简黑色轮廓线、平涂浅色、几乎无阴影、极少面部细节、简化发型、大量留白、纯白背景、略带笨拙的趣味感。超长1:3画幅比例。
参考链接:
[1] https://x.com/gabeeegoooh/status/2046674385407512687?s=20
[2] https://venturebeat.com/technology/openais-chatgpt-images-2-0-is-here-and-it-does-multilingual-text-full-infographics-slides-maps-even-manga-seemingly-flawlessly

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/31572

