OpenAI发布GPT-5.5 Instant:幻觉率降低52.5%,模型更简洁更懂你

OpenAI 正式推出了 GPT-5.5 Instant,并将其设为 ChatGPT 的默认模型,取代了之前的 GPT-5.3 Instant,现已向所有用户开放。Instant 系列作为 ChatGPT 日常使用的主力模型,每天有数以亿计的用户在持续使用。官方表示,在这个规模下,即使是微小的改进,累积起来的效果也相当显著。这一版本聚焦于三大核心:更精准、更精炼、更个性化

OpenAI发布GPT-5.5 Instant:幻觉率降低52.5%,模型更简洁更懂你

相比上一代,新模型在保持低延迟的同时,在准确性、回复风格和个性化能力上均实现了显著提升。准确性的提升在高风险领域尤为突出。内部测试数据显示,GPT-5.5 Instant 在医疗、法律、金融等领域的幻觉率较上一版本下降了 52.5%。针对用户此前标记过的错误对话,错误率也减少了 37.3%。除了文字问答,图片和照片的分析能力、理科问题的解答质量,以及判断何时主动调用搜索工具的能力,均有所改善。

OpenAI发布GPT-5.5 Instant:幻觉率降低52.5%,模型更简洁更懂你

数学和科学能力的升级幅度更为明显。在 AIME 2025 竞赛数学测试中,GPT-5.5 Instant 得分 81.2,而 GPT-5.3 Instant 仅为 65.4。博士级科学测试 GPQA 的得分从 78.5 升至 85.6,多模态推理基准 MMMU-Pro 的得分从 69.2 升至 76,科学图表理解 CharXiv 从 75 升至 81.6,文档解析错误率则从 14.6% 降至 12.5%。OpenAI 通过一道代数题展示了两个版本的差异。用户提交了一道根式方程的解题过程,询问是否正确。GPT-5.3 Instant 发现 x=3 代入原方程不成立后,直接判定「无实数解」,未再进行深入排查。GPT-5.5 Instant 同样发现 x=3 无效,但随后定位到用户展开 (x-1)² 时的具体错误,并给出了正确解答。回复风格也是此次更新的重点。新模型更加简洁,不再堆砌格式和表情符号,也减少了不必要的追问。官方以一个日常场景为例:询问如何委婉地让话多的同事少说点话。

OpenAI发布GPT-5.5 Instant:幻觉率降低52.5%,模型更简洁更懂你

GPT-5.3 Instant 给出了五种分类策略,还附上「不该做什么」清单,结构完整但略显过度。GPT-5.5 Instant 的回复字数减少了 30.2%,行数减少了 29.2%,语气更像朋友的建议,重点放在如何将问题引导至自己的专注需求上,而非对方的说话习惯。

OpenAI发布GPT-5.5 Instant:幻觉率降低52.5%,模型更简洁更懂你

个性化能力是此次更新的另一条主线。Plus 和 Pro 用户可以让模型调取历史对话、上传文件以及关联的 Gmail 内容,从而获得更贴合个人情况的回答,无需每次重新解释背景。官方展示了一个茶馆推荐的对比:GPT-5.3 Instant 只知道用户在旧金山,推荐了几家通用热门店。GPT-5.5 Instant 则从历史对话中找到用户常去 Asha Tea House、偏好高山茶而非重糖奶茶的记录,据此推荐了风格更匹配的 Ceré Tea 和 Song Tea & Ceramics,并说明了推荐理由。与此同时,所有消费者版本将上线「记忆来源(Memory sources)」功能。当回答用到个人背景信息时,用户可以看到具体调用了哪些历史对话或已保存的记忆条目,并可随时删除或修正过时内容。

例如,用户询问本周晚餐建议后,ChatGPT 根据「正在备战马拉松」「偏好清淡高蛋白饮食」「喜欢饼干」等记忆,推荐了味噌三文鱼碗,并在右侧 Sources 面板列出本次回答调用的记忆来源;用户还能对单条记忆标记相关或不相关、进行纠正、查看全部记忆,或直接删除该记忆。

OpenAI发布GPT-5.5 Instant:幻觉率降低52.5%,模型更简洁更懂你

OpenAI 表示,这个视图展示的是最相关的部分来源,不一定覆盖模型检索过的全部记录,后续会持续完善。不想被记录的用户也可以选择临时对话模式,该模式不会读取或更新任何记忆。分享对话时,对方看不到这些来源记录。GPT-5.3 Instant 将保留三个月供付费用户使用,之后正式下线。个性化功能目前向 Plus 和 Pro 用户的网页端开放,移动端及免费、Go、企业等版本的推送计划在未来几周内陆续跟进,具体功能因地区而异。对开发者而言,GPT-5.5 Instant 已通过 API 以「chat-latest」名称提供。哦,对了,今天 OpenAI 也即将举行一场由 AI 发起的派对。奥特曼在 Stripe Sessions 的一场对谈里聊到,他在筹备 GPT-5.5 的上线派对时,顺手问了模型一句:你想要什么样的派对?模型认真给了一份清单。它希望派对定在美国当地时间 5 月 5 日,演讲环节越短越好,要有人类创造者上台致祝酒词,但它自己不想上台祝酒。

OpenAI发布GPT-5.5 Instant:幻觉率降低52.5%,模型更简洁更懂你

它还提议现场设一个专门收集 GPT-5.6 建议的环节,并把这些建议反馈给它自己。奥特曼说这些要求「很美好」,能让派对顺利进行。时间最终定在下午 5 点 55 分,也是模型自己的选择。而派对地点则定在 OpenAI 旧金山总部,非本地嘉宾的机票和酒店由 OpenAI 负责。

OpenAI发布GPT-5.5 Instant:幻觉率降低52.5%,模型更简洁更懂你

受邀名单由 Codex 从推文回复中筛选,报名链接于 4 月 30 日下午 5 点 55 分关闭。24 小时内有超过 8000 人报名,已有用户晒出了收到的邀请邮件。没被选上的人也收到了一封邮件,OpenAI 给他们的 Codex 调用额度提升了 10 倍。

OpenAI发布GPT-5.5 Instant:幻觉率降低52.5%,模型更简洁更懂你

奥特曼还回应了用户的调侃:马斯克如果想来也可以来,世界需要更多爱。话是这么说,可惜马斯克现在的爱全在状告 OpenAI 的起诉书里,庆祝 GPT-5.5 的香槟只能留给奥特曼自己喝了。

OpenAI发布GPT-5.5 Instant:幻觉率降低52.5%,模型更简洁更懂你

附上 OpenAI 博客地址 🔗:

https://openai.com/index/gpt-5-5-instant/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/33430

(0)
上一篇 2026年5月6日 上午6:58
下一篇 2026年5月6日 上午11:33

相关推荐

  • PyTorch Conf EU 2026:RISC-V如何攻克AI框架适配难题?从RVV向量化到CI/CD的硬核实践

    关键词: RISC-V、PyTorch、CI/CD、RVV 向量化、RISE 项目 在 PyTorch Conf EU 2026 上,Meta 软件工程师、RISE 项目技术指导委员会联合主席 Ludovic Henry 以一个质朴的问题“So… how do you start?”,揭示了新兴硬件生态最关键的命题:如何让 RISC-V 这一潜力…

    2026年4月17日
    27300
  • 突破显存壁垒:CLM系统如何让3D高斯泼溅技术在大场景渲染中实现消费级GPU部署

    3D高斯泼溅(3D Gaussian Splatting,简称3DGS)作为近年来新兴的视角合成技术,正以其高效的渲染能力和出色的图像质量,在计算机视觉与图形学领域掀起变革浪潮。该技术通过将3D场景表示为大量各向异性的3D高斯体,能够从一组带有位姿的输入图像中,迭代训练出能够捕捉场景外观与几何细节的表示模型。 用户可利用训练完成的场景表示,实时渲染出任意新视…

    2025年11月11日
    40900
  • AI赋能内容创作:新榜小豆芽如何破解多平台运营效率难题

    在数字化内容创作浪潮中,多平台同步运营已成为创作者和自媒体人的标配,但随之而来的效率瓶颈——如手动发布耗时、跨平台内容适配困难、素材处理繁琐等——却严重制约了创作产能与质量提升。近期,新榜推出的「小豆芽」工具,以其集成化的AI功能与合规接口,为这一行业痛点提供了系统性解决方案。本文将从技术架构、功能创新与行业影响三个维度,深入剖析该工具如何重塑内容创作工作流…

    2025年12月1日
    47500
  • 阿里通义实验室突发人事地震:林俊旸辞职,千问团队核心出走,谷歌DeepMind专家周浩或将接棒

    阿里通义实验室突发人事地震:林俊旸辞职,千问团队核心出走 阿里巴巴CEO吴泳铭在内部信中正式批准了通义实验室负责人林俊旸的辞职。 各位通义实验室同学:公司已决定批准林俊旸同学的辞职,感谢林俊旸过去在岗位上的付出。靖人会继续带领通义实验室推进后续工作。同时公司将成立基础模型支持小组,由我、靖人、范禹共同协调集团资源支持基础模型建设。技术发展不进则退。发展基础大…

    2026年3月5日
    42300
  • 图智能体革命:用图结构突破LLM Agent的四大瓶颈

    在人工智能领域,大型语言模型智能体(LLM Agent)正以前所未有的速度重塑技术格局。从自动化网页浏览、智能软件开发到复杂的具身控制系统,这些智能体展现出的自主能力令人瞩目。然而,在表面的繁荣之下,整个领域正面临深刻的系统性挑战。当前多数智能体系统在可靠规划、长期记忆维护、海量工具管理和多智能体协调等关键能力上仍显稚嫩,呈现出明显的“碎片化”发展态势和明显…

    2025年11月9日
    37700