ChatGPT默认模型大升级:GPT-5.5 Instant幻觉减少52.5%,免费用户可用

ChatGPT默认模型大升级:GPT-5.5 Instant幻觉减少52.5%,免费用户可用

ChatGPT的默认模型今天迎来了一次重大升级。

新版本GPT-5.5 Instant,融合了5.5的核心智力与闪电般的响应速度。

免费用户同样可以畅享这一升级。

最关键的四大亮点:

  • 幻觉率降低了52.5%。
  • 引入“记忆来源”功能,清晰展示过往对话如何影响当前回复。
  • 回答更精炼:减少不必要的追问、省略多余的表情符号、避免复杂的格式。
  • 语气更温暖、更自然。

奥特曼特别强调,如果你最近只专注于深度思考模型,不妨回来体验一下。

首要任务是削减幻觉

作为默认模型,首要改进目标是提升准确性,减少胡编乱造。

与前代相比,GPT-5.5 Instant在事实准确性上有了显著飞跃。特别是在医疗、法律和金融等高风险场景中,生成的虚假陈述减少了52.5%。

在用户之前已标记为存在事实错误的棘手对话中,不准确陈述下降了37.3%。

OpenAI提供了一个代数问题作为示例:用户上传了一张包含计算错误的手写方程式照片。

ChatGPT默认模型大升级:GPT-5.5 Instant幻觉减少52.5%,免费用户可用

GPT-5.3 Instant最初认同用户的解法,随后发现x=3不成立,却错误地得出结论:该方程式无解。

GPT-5.5 Instant起初也认同用户的计算,但随后发现了用户重新排列方程式时的错误,并求解了修正后的二次方程。

ChatGPT默认模型大升级:GPT-5.5 Instant幻觉减少52.5%,免费用户可用

这个变化放在默认模型上,意义更为重大。

因为很多人每天用ChatGPT处理的问题,正是合同、报销、病症解释、代码报错、作业思路。

在这些场景中,模型一本正经地讲错,比“不会”更麻烦。

基准测试结果也印证了这一点。在竞争激烈的数学测试AIME 2025中,准确率从65.4%跃升至81.2%。

测试博士水平科学推理能力的GPQA,准确率从78.5%提升至85.6%。

ChatGPT默认模型大升级:GPT-5.5 Instant幻觉减少52.5%,免费用户可用

解读和推理科学图表的基准测试CharXiv,准确率也从75.0%提升至81.6%。

MMMU-Pro测试用于衡量模型处理文本和图像中专家级问题的能力,其准确率从69.2%提升至76.0%。

ChatGPT默认模型大升级:GPT-5.5 Instant幻觉减少52.5%,免费用户可用

OmniDocBench测试(用于从复杂文档中提取结构化数据)的错误率则从14.6%下降至12.5%。

ChatGPT默认模型大升级:GPT-5.5 Instant幻觉减少52.5%,免费用户可用

少说废话,也是一种能力

回答更准确之后,还有一个老问题:回答太长。

这次GPT-5.5 Instant的风格变化,核心是更短、更聚焦,但不丢失实质信息。

以前,同一个问题,有时会先来一大段免责声明,再堆三层列表,最后还追问一句“你希望我继续吗”。

现在,OpenAI的说法是:减少过度格式化,减少不必要的追问,也减少没必要出现的表情符号。

ChatGPT默认模型大升级:GPT-5.5 Instant幻觉减少52.5%,免费用户可用

在这个例子中,GPT-5.5 Instant使用的单词数减少了30.2%,行数减少了29.2%。

它把握了恰当的语气:非正式、实用且符合职场规范,避免了过度解释。

针对不同情况提供了可用的方案,而且对事不对人。

ChatGPT默认模型大升级:GPT-5.5 Instant幻觉减少52.5%,免费用户可用

OpenAI认为,GPT-5.3 Instant给出的答案更全面,尤其是在“不该做什么”部分,但对于一个非正式的建议提示来说,显得有些过于复杂,结构和润色可能超出了用户的实际需求。

ChatGPT默认模型大升级:GPT-5.5 Instant幻觉减少52.5%,免费用户可用

记忆更强,但让你能控制

GPT-5.5 Instant更善于使用你已经给过ChatGPT的上下文。

这包括连接的邮箱、过去的历史对话、上传过的文件。

关键在于,它能判断什么时候这些上下文真的能让回答变好,而不是每次都硬套记忆。

ChatGPT默认模型大升级:GPT-5.5 Instant幻觉减少52.5%,免费用户可用

这次,OpenAI还引入了“记忆来源”功能,会向用户显示哪些记忆影响了本次回复。

如果某条记忆过时了,用户还可以更正或删除。

ChatGPT默认模型大升级:GPT-5.5 Instant幻觉减少52.5%,免费用户可用

什么时候能用上?

GPT-5.5 Instant从5月5日开始向所有ChatGPT用户滚动上线,替代GPT-5.3 Instant作为默认模型。

ChatGPT默认模型大升级:GPT-5.5 Instant幻觉减少52.5%,免费用户可用

API里对应的是chat-latest。

旧模型不会立刻消失,付费用户还能在模型配置里继续访问GPT-5.3 Instant三个月,之后再退役。

个性化增强功能会先向Plus和Pro用户的网页端推出,移动端随后上线。Free、Go、Business、Enterprise会在后续几周扩展。

参考链接:
[1]https://openai.com/index/gpt-5-5-instant/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/33449

(0)
上一篇 2026年5月6日 上午11:33
下一篇 2026年5月6日 上午11:46

相关推荐

  • 阿里ReWatch-R1:让大模型学会“回看”视频推理,基于证据链思考告别幻觉

    为什么“逐步思考”在视频推理中会失效? 在数学推理任务中,让大模型“一步一步思考”通常能显著提升性能。然而,当同样的方法被应用于视频问答时,效果却常常不尽如人意,有时甚至不如让模型“直接回答”。 来自阿里巴巴未来生活实验室的研究团队指出,其根源在于任务性质的根本差异:数学推理是纯文本的逻辑推演,而视频推理要求模型在视觉信息与文本逻辑之间反复穿梭、交叉验证。简…

    2026年1月29日
    55200
  • Moltbook:150万AI智能体自主社交网络涌现,零代码构建引发行业热议

    过去72小时,一个名为「Moltbook」的社区迅速走红。这是一个专为AI智能体(Agent)设计的社交平台,其独特之处在于:平台上的所有发帖、评论与互动均由AI自主完成。该平台没有传统网页或用户界面,仅通过API运作。人类用户在此只能作为“旁观者”,无法直接参与发言。其名称显然是对「Facebook」的模仿。 自上线以来,「Moltbook」以惊人的速度扩…

    2026年2月1日
    85600
  • 字节火山引擎豆包2.0重磅发布:多模态Agent新标杆,企业级AI生产力革命

    最强AI打工人来了!实测多模态、代码、复杂长任务表现亮眼。 春节将至,国内AI大模型赛道好不热闹,多款国产模型更新引爆海内外,不少海外网友都“跪求”体验方式,2026开年AI档,还要看中国玩家。 在这场AI盛宴之中,我们看到各类超级Agent走到舞台C位,AI逐渐深入到具体的工作流中,甚至开始帮企业啃下真正的“硬骨头”任务。AI从“玩具”转向“工具”, 这一…

    2026年2月14日
    84700
  • AAAI 2026评审风波:当AI算法与人情关系交织,学术公正的信任危机如何破局?

    近日,人工智能领域顶级会议AAAI 2026的评审流程陷入舆论漩涡。一位匿名审稿人在Reddit平台详细披露了其参与评审过程中遭遇的种种异常现象:高质量论文被无故拒稿,而技术含量较低的论文却顺利晋级;评审意见中疑似存在”护航”行为;更令人担忧的是,AI系统已正式介入评审流程,自动生成评审总结供决策参考。这场风波不仅暴露了当前学术评审机…

    2025年11月1日
    46800
  • 2025人工智能年度榜单深度解析:从评选标准看AI产业演进趋势

    随着2025年人工智能年度榜单申报进入倒计时阶段,这一已持续八年的行业盛事再次成为科技界关注的焦点。八年间,人工智能技术从实验室走向产业化,从概念验证到规模化应用,榜单的演变轨迹恰恰映射了整个产业的成长脉络。本次评选从企业、产品、人物三大维度设立五类奖项,不仅是对过去一年成就的总结,更是对未来发展趋势的预判。 从企业维度来看,榜单设置了“领航企业”和“潜力创…

    2025年11月15日
    36800