GPT-Image-2泄露:OpenAI新一代图像模型震撼亮相,文字渲染与知识理解全面超越前代

距离上代 GPT-Image-1.5 推出近 4 个月后,关于其继任者 GPT-Image-2 的消息开始在海外社区流传。

据悉,OpenAI 近期在大模型竞技场 Chatbot Arena 以多个代号对新一代多模态模型进行了测试,但相关测试目前已经下线。

GPT-Image-2泄露:OpenAI新一代图像模型震撼亮相,文字渲染与知识理解全面超越前代

根据流出的生成示例,该模型在文字渲染能力上表现突出。

GPT-Image-2泄露:OpenAI新一代图像模型震撼亮相,文字渲染与知识理解全面超越前代

信息显示,GPT-Image-2 曾使用「maskingtape-alpha」、「gaffertape-alpha」和「packingtape-alpha」等代号进行测试。除文字渲染外,其在世界知识理解方面的表现也备受关注。

GPT-Image-2泄露:OpenAI新一代图像模型震撼亮相,文字渲染与知识理解全面超越前代

例如,在生成精细的人体解剖学前视图等任务上,模型展现了较强的细节处理能力。

GPT-Image-2泄露:OpenAI新一代图像模型震撼亮相,文字渲染与知识理解全面超越前代

有评论指出,该模型在生成 YouTube 风格图片等复杂场景时,效果已接近真实。

GPT-Image-2泄露:OpenAI新一代图像模型震撼亮相,文字渲染与知识理解全面超越前代
GPT-Image-2泄露:OpenAI新一代图像模型震撼亮相,文字渲染与知识理解全面超越前代

另有观点认为,模型能力已从生成单一对象,转向理解并还原信息密度高的整张网页内容,完成度较高。

GPT-Image-2泄露:OpenAI新一代图像模型震撼亮相,文字渲染与知识理解全面超越前代

据称,GPT-Image-2 有望改善前代模型存在的“黄色滤镜”问题。在图像编辑任务中,其输出结果与原图的偏离程度也得到了显著优化。

GPT-Image-2泄露:OpenAI新一代图像模型震撼亮相,文字渲染与知识理解全面超越前代

GPT-Image-2泄露:OpenAI新一代图像模型震撼亮相,文字渲染与知识理解全面超越前代

在人物肖像生成方面,模型对细节的捕捉能力被认为可用于区分其与前代版本。

GPT-Image-2泄露:OpenAI新一代图像模型震撼亮相,文字渲染与知识理解全面超越前代

目前,GPT-Image-2 已开始向部分 ChatGPT 用户逐步开放测试。

GPT-Image-2泄露:OpenAI新一代图像模型震撼亮相,文字渲染与知识理解全面超越前代

有测试反馈将其与同类模型进行比较,认为其在多个方面具备优势。

GPT-Image-2泄露:OpenAI新一代图像模型震撼亮相,文字渲染与知识理解全面超越前代

GPT-Image-2泄露:OpenAI新一代图像模型震撼亮相,文字渲染与知识理解全面超越前代

评论指出,该模型在图像真实感和文字生成方面表现突出,并期待其与后续竞品的对比。

GPT-Image-2泄露:OpenAI新一代图像模型震撼亮相,文字渲染与知识理解全面超越前代

此外,该模型还被用于低分辨率图像提升、背景干扰元素去除等任务,处理后图像质量有所提升。

GPT-Image-2泄露:OpenAI新一代图像模型震撼亮相,文字渲染与知识理解全面超越前代

模型正式版尚未发布。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/28658

(0)
上一篇 2026年4月5日 下午6:46
下一篇 2026年4月5日 下午6:52

相关推荐

  • 构建可扩展、生产级的 Agentic RAG Pipeline:分层架构与六层核心设计详解

    面向大型数据集、符合行业标准的 Agentic RAG Pipeline 需要基于清晰、可扩展的分层架构进行构建。我们将系统结构化,使得 Agent 能够并行地进行推理、获取上下文、使用工具以及与数据库交互。每一层都承担明确的职责,涵盖从数据摄取、模型服务到 Agent 协调的全过程。这种分层方法有助于系统实现可预测的扩展,同时为终端用户保持较低的响应延迟。…

    2026年1月22日
    60300
  • GPT-5.2深度解析:专业生产力工具的进化与多模态能力突破

    OpenAI近期正式发布了GPT-5.2系列模型,这一更新标志着人工智能在专业工作场景中的应用迈入新阶段。数据显示,ChatGPT企业版用户平均每日可节省40-60分钟的工作时间,重度用户每周节省超过10小时,这不仅是效率的提升,更是工作模式的根本性变革。GPT-5.2的核心目标在于释放更广泛的经济价值,通过技术优化推动各行业知识工作者的生产力跃升。 在专业…

    2025年12月12日
    26700
  • 资本与劳动力的世纪大脱钩:从英伟达到沃尔玛,AGI时代的渐进革命

    当英伟达以4万亿美元市值创造历史纪录时,其背后隐藏着一个更为深刻的宏观经济现象:劳动与资本的大脱钩。这家仅凭3.6万名员工就支撑起相当于15亿印度人一年GDP市值的公司,正在重新定义现代企业的生产力范式。这种脱钩并非科技行业的专属现象,从沃尔玛十年营收增长2000亿美元却员工零增长,到亚马逊最新2000亿美元营收增长仅需新增3.6万名员工,一场静默的革命正在…

    2025年11月18日
    31700
  • 硅谷容貌革命:科技从业者医美潮背后的年龄焦虑与行业变革

    在科技创新的前沿阵地硅谷,一场静默的容貌革命正在悄然兴起。加州整形外科医生的最新数据显示,过去五年间,来自科技行业的男性求美者数量激增五倍,其中大厂中年程序员成为主力军。这一现象不仅揭示了科技从业者日益加剧的年龄焦虑,更折射出全球科技行业在AI时代下面临的结构性挑战。 深入分析这一趋势,首先需要关注医美项目的具体变化。根据硅谷整形外科医生本·塔莱博士的观察,…

    2025年11月7日
    32100
  • PhysX-Anything:单图生成仿真就绪3D资产,突破具身智能物理建模瓶颈

    在机器人、具身智能和交互仿真等前沿领域,对高质量、可直接用于物理仿真的3D资产需求日益迫切。传统3D生成方法多聚焦于几何外观与视觉保真度,却普遍忽视密度、绝对尺度、关节约束等关键物理属性,导致生成模型难以直接应用于真实世界的控制与交互任务。尽管已有少数研究探索可动3D对象生成,但受限于高质量物理标注数据的稀缺,现有方法多采用“检索现有模型+附加运动”的范式,…

    2025年11月23日
    24600