OpenAI发布ChatGPT Images 2.0:多语言支持、思考能力与精准控制

OpenAI 发布 ChatGPT Images 2.0:多语言支持、思考能力与精准控制(第 1/2 部分)

编辑:Panda、Youli

北京时间凌晨 3 点,直播准时开始,OpenAI 正式发布了 ChatGPT Images 2.0。

据介绍,「ChatGPT Images 2.0 是下一步进化:一个最先进的模型,能够处理复杂的视觉任务,并生成精确、可直接使用的视觉内容。」

似乎也正因为此,OpenAI 发布的官方博客内容还提供了两个版本(图像模式与经典模式),其中图像模式下的内容完全是由该模型生成的!

OpenAI发布ChatGPT Images 2.0:多语言支持、思考能力与精准控制

在博客中,OpenAI 表示:「图像是一种语言,而不是装饰。好的图像,就像好的句子一样,会进行选择、组织与呈现。它可以解释机制,营造氛围,验证想法,或构建论证。」

ChatGPT Images 2.0 模型在细致遵循指令方面实现了质的跃迁,能够准确放置与关联对象,并渲染高密度文本,同时支持多种宽高比生成。它在构图与视觉审美上的能力,使输出不再像「AI 生成」,而更像「有意设计」。

并且其在多语言环境下同样表现准确,并能利用扩展的视觉与世界知识为你补全细节,从而以更少提示词获得更智能的图像。

为应对最复杂的任务,Images 2.0 首次引入「思考能力」。在 ChatGPT 中选择 thinking 或 pro 模型时,Images 2.0 可以联网获取实时信息,从一个提示生成多张不同图像,并对自身输出进行复核。借助「思考」,模型能够承担从想法到图像之间更多的工作,尤其在准确性、时效性、一致性与视觉统一性至关重要时。

结合 OpenAI 推理模型的智能与对视觉世界的深刻理解,这一模型将图像生成从「渲染」提升为「策略性设计」,从工具进化为视觉系统,帮助人们将想法转化为可理解、可分享、可教学、可构建的成果。

该能力已从今日起向 ChatGPT、Codex 与 API 的所有用户开放。


更高的精度与控制力

Images 2.0 为图像创作带来了前所未有的具体性与还原度。它不仅能构思更复杂的图像,还能有效将其实现,能够严格遵循指令,保留关键细节,并渲染以往模型容易失真的精细元素:小文本、图标、UI 元素、高密度构图以及细微风格约束。在 API 中最高支持 2K 分辨率。结果不再是「差不多」,而是「可以直接使用」。

注意看,下面这张截图整体上其实是 Images 2.0 生成的!

OpenAI发布ChatGPT Images 2.0:多语言支持、思考能力与精准控制


更强的多语言能力

以往图像生成模型在英语及拉丁字母语言中表现更稳定,但在其他语言,尤其是复杂或密集文本时精度较低。

Images 2.0 突破了这一限制,在多语言理解上显著增强,尤其是在日语、韩语、中文、印地语与孟加拉语的文本渲染方面有明显提升。它不仅能正确生成非英语文本,还能保证语言表达自然流畅。

OpenAI发布ChatGPT Images 2.0:多语言支持、思考能力与精准控制

这不仅意味着翻译标签,而是让语言本身成为设计的一部分,从海报、说明图,到图解与漫画,都能实现视觉与语言的统一。这使模型具备更强的全球适用性,让用户能够在真实使用的语言环境中创作视觉内容。

在直播中,OpenAI 图像研究团队的成员陈博远展示了一个案例,他给出提示词:「Make a artistic marketing poster for a fictional OpenAI bakery. The poster should be in Japanese language.」

OpenAI发布ChatGPT Images 2.0:多语言支持、思考能力与精准控制

结果生成的海报完全符合提示词,且在细节上也能够做到精准。

OpenAI发布ChatGPT Images 2.0:多语言支持、思考能力与精准控制

「它非常擅长遵循非常详细的指令,所以如果你有非常具体的品牌语言、设计美学——所有那些对创意工作至关重要的东西——你都可以使用 ChatGPT 来创建和完善你的想法,从而得到你想要的结果。」陈博远说道。


更成熟的风格表达与真实感

Images 2.0 在多种视觉风格上的还原度显著提升。它更擅长捕捉照片的关键特征,包括那些增强真实感的微小瑕疵,同时也能稳定呈现电影感画面、像素艺术、漫画等多种视觉语言,在纹理、光影、构图与细节上更一致。

OpenAI发布ChatGPT Images 2.0:多语言支持、思考能力与精准控制

因此,模型输出更贴近指定风格,而非近似模仿。这对于游戏原型设计、分镜制作、营销创意,以及特定媒介或类型的资产创作尤为有价值。


灵活的宽高比

新模型在输出形式上更灵活,支持从 3:1 到 1:3 的多种宽高比,可直接适配横幅、演示文稿、海报、手机界面、书签及社交媒体图形等不同场景。你可以在提示中指定宽高比,或通过预设选项将已有图像重新生成至新的尺寸。

下面展示了两个非常规宽高比的示例:

OpenAI发布ChatGPT Images 2.0:多语言支持、思考能力与精准控制

OpenAI发布ChatGPT Images 2.0:多语言支持、思考能力与精准控制


更强的现实世界理解

Images 2.0 引入了截至 2025 年 12 月的知识,使生成结果在相关性与语境准确性上更进一步。这对于说明图、教育图形与可视化总结尤为关键,因为在这些场景中,正确性与清晰度与美观同样重要。

其智能能力还体现在端到端任务处理上:整合信息、撰写内容,并以清晰结构、合理留白与良好视觉流进行排版。

OpenAI发布ChatGPT Images 2.0:多语言支持、思考能力与精准控制


视觉思考伙伴

在 ChatGPT 中启用 thinking 模型后,系统会在后台进行更深入的理解与执行。它可以联网检索信息,将上传材料转化为清晰的视觉说明,并在生成前对图像结构进行推理。

在这种模式下,Images 2.0 更像一个视觉思考伙伴,帮助你将初步概念推进为完整成品,大幅降低工作量。

OpenAI发布ChatGPT Images 2.0:多语言支持、思考能力与精准控制

它还支持一次生成多张不同图像,这在 ChatGPT 图像生成中尚属首次。这使得诸如多页漫画、整屋设计方案、系列海报或多语言多尺寸社交素材等工作流变得高效可行。

你无需逐张生成再手动拼接,只需一次请求,即可获得最多八张在角色与元素上保持一致、且具有连续性的输出。

OpenAI发布ChatGPT Images 2.0:多语言支持、思考能力与精准控制


在 Codex 中使用图像生成

Images 能力被整合进 Codex,使视觉创作、迭代与交付在同一工作空间内完成,拓展了其在设计、营销、产品、销售及学习等领域的应用。

例如,你可以快速生成多种 UI 方向与原型,比较方案,并将最佳设计直接转化为产品或网页体验,无需离开 Codex。通过 ChatGPT 订阅即可使用,无需额外 API 密钥。


通过 API 将图像能力嵌入产品

开发者与企业可通过 gpt-image-2 API 将这些能力集成进自身产品,在现有工作流中加入高质量图像生成与编辑能力。

凭借更强的文本渲染、多语言生成、指令遵循能力,以及更多输出格式与宽高比支持,API 更易于构建真实业务场景中的图像工作流,例如本地化广告、信息图、说明图、教育内容、设计工具、创意平台及网页生成产品。


局限性

OpenAI 也在博客中提到了该模型的局限性:尽管 Images 2.0 是重要进步,但仍不完美。对于需要完整物理世界建模的任务(如折纸教程、魔方等复杂结构),以及隐藏面、倾斜面或反向表面的精确细节,模型仍可能表现不足。

极高密度或重复性细节(如细沙)也可能带来挑战。标签与图示在涉及精确箭头或部件标注时,仍建议人工校对。

这些都是未来改进的重要方向。

OpenAI发布ChatGPT Images 2.0:多语言支持、思考能力与精准控制

在 API 中,超过 2K 的输出目前仍处于测试阶段,可能出现不稳定情况。


定价与可用性

自即日起,ChatGPT Images 2.0 已向所有 ChatGPT 及 Codex 用户开放。具备“思考”能力的高级输出功能,面向 ChatGPT Plus、Pro 与 Business 用户提供。

gpt-image-2 模型已同步在 API 中上线,价格根据图像质量与分辨率有所差异。

OpenAI发布ChatGPT Images 2.0:多语言支持、思考能力与精准控制

OpenAI 官网也已上线大量案例展示,感兴趣的读者可自行前往查看。

我们亦进行了一些简单测试。例如,让模型生成一张中国高考数学试卷第 2 页,效果尚可:

OpenAI发布ChatGPT Images 2.0:多语言支持、思考能力与精准控制

实测过程中,我们观察到 ChatGPT Images 2.0 在生成一张图片时通常经历多个步骤:创建 → 打草稿 → 生成初稿 → 搭建场景 → 打磨细节 → 收尾 → 最后润色 → 最后微调。

接下来,我们进一步测试:要求生成一张《将进酒》繁体中文草书书法作品,宽高比 3:1,内容为李白《将进酒》全文,落款为“ChatGPT Images 2.0”:

OpenAI发布ChatGPT Images 2.0:多语言支持、思考能力与精准控制

不过,模型并未生成完整内容,且字体明显不是草书。

最后,我们尝试生成一页“闪电五连鞭”功夫招式图解说明:

OpenAI发布ChatGPT Images 2.0:多语言支持、思考能力与精准控制

效果颇为有趣。

整体体验下来,我们认为 ChatGPT Images 2.0 在能力上明显优于目前的 Nano Banana 2。接下来,且看谷歌如何应对。

你试过 ChatGPT Images 2.0 了吗?感觉如何?

OpenAI发布ChatGPT Images 2.0:多语言支持、思考能力与精准控制


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/31459

(0)
上一篇 2小时前
下一篇 2小时前

相关推荐

  • LLM驱动的核函数进化:CAKE框架如何革新贝叶斯优化

    在科学与工程实践中,常会遇到计算成本高、评估耗时的函数优化问题,例如复杂机器学习模型的超参数调整或新型材料的设计。贝叶斯优化(Bayesian Optimization,BO)作为针对这类“黑箱”问题的优化方法,已被证明具备良好效果。然而,该方法的性能很大程度上受限于其内部代理模型的选择,特别是当采用高斯过程(Gaussian Process,GP)作为代理…

    2025年12月2日
    28600
  • DeepSeek深夜上线快速/专家模式,V4模型真的要来了?

    DeepSeek深夜上线快速与专家模式,V4模型引猜测 DeepSeek网页端近期进行了一次重要更新,推出了“快速模式”和“专家模式”两项新功能。此外,一项带有图片图标的“视觉模型”功能也已开启灰度测试。 尽管官方未对两种新模式背后的具体模型进行说明,但用户通过测试发现了一些线索。 在交互中,模型自身透露了其版本信息,引发了关于其是否为V4模型的广泛讨论。 …

    2026年4月8日
    37700
  • 麦肯锡2025AI报告深度解析:AI普及浪潮下的效率幻象与红利鸿沟

    麦肯锡最新发布的《The state of AI in 2025》报告,基于对全球近2000家组织的调研数据,揭示了当前人工智能在企业应用中的复杂图景。这份报告不仅呈现了AI技术的快速普及,更深刻剖析了从“使用”到“见效”之间的巨大鸿沟,为企业管理者提供了关键的战略洞察。 **一、普及率与回报率的显著落差:效率提升≠盈利增长** 报告中最引人注目的数据对比是…

    2025年11月10日
    50900
  • WhisperLiveKit:突破本地实时语音转写瓶颈的同步流式技术解析

    在人工智能技术快速发展的今天,实时语音转文字已成为众多应用场景的核心需求,从在线会议、远程教育到智能客服、媒体生产,高效准确的语音转写能力直接影响用户体验与业务效率。然而,长期以来这一领域面临两大技术困境:一是依赖云服务的方案存在数据隐私与传输延迟问题,尤其对金融、医疗、政务等敏感行业构成合规挑战;二是本地化方案如直接使用OpenAI的Whisper模型处理…

    2025年11月10日
    32000
  • 移动传感器隐私防护新突破:PATN框架实现实时对抗扰动与数据保真双赢

    在移动互联网时代,智能手机已成为人们日常生活中不可或缺的智能终端。移动应用通过Android和iOS系统接口获取加速度计、陀螺仪等运动传感器数据,这些数据支撑了活动识别、计步、手势交互、游戏控制、健康监测等众多核心功能,构成了现代移动服务的技术基石。然而,传感器数据的高度细粒度特性在带来丰富应用可能性的同时,也埋下了严重的隐私安全隐患。近年来多项研究表明,看…

    2025年12月8日
    31100