GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破

GPT Image 2 惊艳全网:架构重构与核心团队揭秘

GPT Image 2 的出色效果引发广泛关注。研究负责人陈博远透露,其底层架构已实现彻底重构。

GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破

对于是否采用扩散模型或自回归技术,他并未直接回应,而是将模型描述为“通用模型”或“图像领域的 GPT”。

GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破

陈博远在社交媒体上表示,从去年 12 月底的 GPT Image 1.5 算起,仅用四个月便实现了如此显著的改进。

GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破

这项突破性成果的背后,核心团队仅有 13 人。团队负责人 Gabriel Goh 展示了由 AI 生成的团队“全家福”。

GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破

陈博远:从不懂 Python 到研究负责人

GPT Image 2 的具体架构,OpenAI 短期内可能不会公布,但从核心团队成员的学术背景中可窥见一斑。

陈博远是团队的研究负责人。他与另一位成员 Kiwhan Song 在 MIT 攻读博士时,师从同一位导师 Vincent Sitzmann。

GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破

他博士期间的代表作《Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion》入选了 NeurIPS 2024。该研究提出了“Diffusion Forcing”这一全新的序列生成训练范式,将逐 token 独立噪声级扩散与因果下一个 token 预测相结合,融合了自回归模型的可变长度生成能力与全序列扩散模型的长程引导优势。

GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破

在谷歌实习期间,他以共同第一作者身份发表了“SpatialVLM”。该研究通过自动构建互联网规模的 3D 空间推理 VQA 数据集,为视觉语言模型赋予了定量与定性的空间推理能力,使其能够从单张 2D 图像输出米制距离、尺寸、方位等精确数值,并将思维链空间推理应用于具身智能领域。

GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破

他在实习期间开发的指令微调技术,后续被 Gemini 2.0 采用。

陈博远于 2025 年 6 月加入 OpenAI,迅速成为 GPT 图像生成的核心成员之一,负责所有训练工作,同时也是 Sora 视频生成团队的成员。

中科大 Jianfeng Wang:赋予图像生成模型世界知识

毕业于中国科学技术大学的 Jianfeng Wang,在团队中负责提升模型的指令遵循与世界知识理解能力。

GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破

旧式模型生成的钟表图像指针常指向 10:10,这是源于网络广告图的训练数据偏差。而新模型已能准确生成 2:25、3:30 等任意指定时间的钟表。

GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破
GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破

此外,对于“苹果在中心、杯子在右边、书在上面”等复杂的空间布局指令,模型也能精准执行。

GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破

在加入 OpenAI 之前,他曾在微软工作近九年,期间便与 OpenAI 团队在 DALL-E 3 项目上有过合作。他的研究大幅提升了模型对对象语义内容与功能结构的理解能力。

Yuguang Yang:生成高精度复杂信息图表

Yuguang Yang 在发布活动中演示了模型生成信息图和 PPT 的能力。

GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破

将长达 75 页的 GPT-3 论文输入 ChatGPT,可自动生成包含 7 张幻灯片的摘要。

GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破

他的经历颇为跨界:本科就读于浙江大学竺可桢学院,博士在约翰斯·霍普金斯大学研究计算化学物理与机器学习;曾担任量化分析师,在清华大学做过访问研究员,之后在亚马逊从事 Alexa 语音研究,在微软负责 Bing 搜索的查询理解与文档理解。他于 2025 年初加入 OpenAI。

GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破

他在个人账号上介绍,GPT Image 2 的信息图生成能力可为科研人员节省大量时间,并提醒用户在使用时选择“思考模式”以获得更好效果。

GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破
GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破

从 DALL-E 到 GPT Image 2.0

根据团队成员 Kenji Hata 的介绍,GPT Image 1.0 即 GPT-4o 的图像生成部分。

GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破

团队负责人 Gabriel Goh 自 2019 年加入 OpenAI,早期研究侧重于可解释性与凸优化等理论方向,从 DALL-E 项目开始逐渐转向图像生成领域。

GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破

另一位成员 Weixin Liang 的研究履历也揭示了部分技术背景。他在 Meta 实习期间的成果“Mixture-of-Transformers”,通过引入模态解耦的混合专家系统(MoE)和解耦注意力机制,显著降低了多模态模型预训练的计算成本。

GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破

他毕业于斯坦福大学,与陈博远同在 2025 年博士毕业后加入 OpenAI并成为核心成员。

GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破

GPT Image 2.0 团队的其他成员还包括:
* Ayaan Haque:曾在 Luma AI 参与视频生成基础模型 Dream Machine 的训练。
* Bing Liang:在谷歌工作五年多,参与过 Imagen3、Veo、Gemini Multimodal 项目,于 2025 年加入 OpenAI。
* Mengchao Zhong:负责多模态产品工程。
* Dibya Bhattacharjee:耶鲁大学背景。
* Kiwhan Song:于 2025 年 10 月加入,除研究工作外,也是团队的提示词专家,许多官方演示图出自其手。

从 DALL-E 到 GPT Image 2.0,这个团队先后解决了“画得出来”、“画得清楚”、“画得好看”和“画得准”的挑战。

GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破

尽管面临人才流动,OpenAI 依然保持着吸引多元化、跨界人才的文化,信奉自下而上的涌现式研究,从小团队突破开始,逐步汇聚资源以推动变革。

尾声

此前,GPT-4o 模仿吉卜力风格生成的头像风靡一时。如今,GPT Image 2.0 的团队成员都将自己的头像换成了这种“奇脖子”画风。

GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破

这种画风所使用的提示词也已由团队成员公布。

仅使用我的照片进行身份识别。将我重绘为极简超现实日式贴纸风格漫画:细长脖颈、小巧面无表情的脸、极简黑色轮廓线、平涂浅色、几乎无阴影、极少面部细节、简化发型、大量留白、纯白背景、略带笨拙的趣味感。超长1:3画幅比例。

参考链接:
[1] https://x.com/gabeeegoooh/status/2046674385407512687?s=20
[2] https://venturebeat.com/technology/openais-chatgpt-images-2-0-is-here-and-it-does-multilingual-text-full-infographics-slides-maps-even-manga-seemingly-flawlessly

GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/31572

(0)
上一篇 2天前
下一篇 2天前

相关推荐

  • MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式

    30B的小模型,竟然在重量级Agent基准测试上,超越了万亿参数的Kimi K2T? MiroThinker v1.5的开源,似乎正在悄然改写行业长久以来对参数规模的迷信。这不仅仅是一次模型迭代,其背后以“交互深度”为核心的训练思想,可能正在定义Agent发展的新范式。 L3的影子 过去几年,AI性能的提升主要围绕两个轴心:数据规模与上下文长度。然而到了20…

    2026年1月8日
    35200
  • 揭秘AI Agent、MCP、Skills:2026年Agentic AI三大核心如何协同驱动智能决策与执行

    2026年,Agentic AI(代理式人工智能)已从概念探索迈入规模化落地阶段,Manus AI、Replit Agent等实用工具的普及,让“AI自主执行任务”从科幻走向现实。 在这一变革中,AI Agent(智能体)、MCP(模型上下文协议,Model Context Protocol)与Skills(技能)作为Agentic AI系统的三大核心组件,…

    2026年2月25日
    1.6K00
  • Agent原生架构:Claude Code 后时代该如何构建智能体应用

    最近,Claude Code 的流行不仅源于其作为“Vibe编程神器”的体验,更在于它正在重塑智能体的开发范式。过去那种依赖胶水代码或拖拽式构建的、面向过程的传统智能体,正面临被一种全新模式的挑战:这种模式只需开发者描述目标结果,然后交由智能体通过持续循环运行来达成目标。 Claude Code 配合其恰到好处的插件与技能机制证明,一个优秀的编程智能体,本身…

    2026年1月11日
    40800
  • Wattchmen:突破GPU能耗建模瓶颈,指令级归因误差降至14%以下

    关键词:GPU 能耗建模、指令级能耗归因、SASS 微架构、线性方程组求解、异构计算功耗优化 “现代 GPU 丰富的高性能计算系统正日益受到能源约束。因此,理解应用的能耗变得至关重要。不幸的是,当前的 GPU 能耗归因技术要么不准确,要么不灵活,要么已经过时。” 这是来自威斯康星大学麦迪逊分校、NVIDIA 及橡树岭国家实验室联合团队在 ICS‘26 发表的…

    2天前
    4900
  • OpenClaw爆火背后:智能体技术迎来“可用性革命”,工程整合成关键突破点

    过去数月,AI领域很难绕开一个名字——OpenClaw。该项目在极短时间内获得了爆发式关注:数十万星标、惊人的Token消耗,以及几乎所有头部科技公司的快速跟进。表面上看,它像是又一个现象级AI产品;但进一步审视,一个更值得思考的问题随之浮现:OpenClaw的出现究竟意味着什么?它是一次技术突破,还是某种更深层变化的信号? 近日,端侧智能北京市重点实验室在…

    2026年3月31日
    65300