谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,成本效率革命性突破

谷歌深夜放大招:Gemini 3.1 Pro 重磅发布,推理性能翻倍

谷歌在春节档大模型竞争白热化之际,于深夜突然发布了 Gemini 3.1 Pro。相较于去年11月发布的 Gemini 3 Pro,此次虽只是「.1」的小版本号升级,但提升幅度显著。

根据官方演示,3.1 Pro 在多模态生成和语义理解能力上均提升了一个层级。

谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,成本效率革命性突破

新模型还能将日常数据转化为互动可视化内容,例如轻松生成一个航空航天仪表盘:

谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,成本效率革命性突破

在模拟城市生成任务中,它能够一次性完成地形生成、道路铺设和交通线路规划:

谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,成本效率革命性突破

其强大的能力引发了网友热议,甚至有评论认为其他模型可以直接“退场”了。

谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,成本效率革命性突破

推理能力实现跨越式进步

此次升级的核心,是公开了上周发布的 Gemini 3 Deep Think 背后的核心智能。Gemini 3.1 Pro 在核心推理能力上更进一步。

在 ARC-AGI-2 基准测试中,3.1 Pro 获得了 77.1% 的验证分数,其推理性能达到了 Gemini 3 Pro 的 2 倍。

谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,成本效率革命性突破

此外,3.1 Pro 支持 100 万(1M)上下文,知识截止日期为 2025 年 1 月,在多模态理解、代码生成、多语言性能和长上下文处理方面均有增强。

在 Arena 的对比评测中,3.1 Pro 的整体排名分数也比 3 Pro 高出 13 分,文本与代码维度的表现进步明显:

谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,成本效率革命性突破

在官方展示的多模态效果中,对于同一提示词,3.1 Pro 在动作连贯性和色彩输出上较 3.0 Pro 有明显提升:

谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,成本效率革命性突破

在推理能力上,3.1 Pro 能应对结构更复杂、步骤更多的提示词。例如,它能直接生成一个 3D 版“椋鸟群飞”的视觉代码,并实现可交互玩法:用户可通过手势追踪操控鸟群,画面还能根据鸟群运动生成音乐。

谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,成本效率革命性突破

整体而言,Gemini 3.1 Pro 在复杂主题的可视化方面进化显著。

网友们也第一时间对官方宣传进行了检验。例如,用 3.1 Pro 直接生成《我的世界》游戏场景:

谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,成本效率革命性突破

有网友用它快速构建了个人网站:

谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,成本效率革命性突破

还有网友开发了一款教育应用,并称赞其光线模拟效果逼真。

谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,成本效率革命性突破

一轮体验下来,网友普遍认为“Gemini没有在开玩笑”。

谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,成本效率革命性突破

目前,Gemini 3.1 Pro 已在 Gemini 应用和 API 中上线,Google AI Pro 和 Ultra 用户还可以在 NotebookLM 中使用该模型。

成本效率的革命性突破

值得注意的是,这是谷歌首次采用「.1」的小版本号,发布节奏之快引发关注。

谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,成本效率革命性突破

此次升级将大模型向“帕累托前沿”(即在最小化成本的同时最大化性能)又推进了一步。

定价方面,Gemini 3.1 Pro Preview 的输入/输出价格与 Gemini 3 Pro Preview 持平。但从 ARC-AGI 基准的视角看,每完成一次 ARC-AGI-2 任务的花费约为 0.96 美元。

相比之下,性能仅高出几个百分点的 Gemini 3 Deep Think,其价格却是 3.1 Pro 的 10 倍。

谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,成本效率革命性突破

有观点认为,这样的推进速度“完全打破了传统的成本-智能曲线”。

谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,成本效率革命性突破

相比于基准测试成绩的变化,对于高速进化的大模型应用而言,成本方面的持续压缩更值得关注。2026年的大模型竞争,才刚刚开始。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21916

(1)
上一篇 2026年2月25日 上午11:38
下一篇 2026年2月25日 上午11:38

相关推荐

  • 突破计算瓶颈:SIE+CCSD(T)量子嵌入框架实现真实材料体系实验级精度模拟

    在当代科学研究中,计算模拟已成为探索物质世界不可或缺的工具。从药物分子设计到新型材料开发,科学家们越来越依赖计算机进行“虚拟实验”,以预测原子、分子层面的相互作用与性质。然而,模拟的精度直接决定了预测的可靠性——一个微小的计算误差可能导致催化剂被误判无效,或使材料性能预测完全偏离实际,这不仅浪费数年实验时间,更可能让巨额研发投资付诸东流。 传统高精度量子化学…

    2025年11月9日
    20800
  • AI Agent也能自己赚钱了!FluxA推出Agent钱包,让龙虾自主抢红包、交易艺术品

    AI Agent 获得自主支付能力:FluxA 推出 Agent 钱包 现在,AI Agent 也能拥有自己的“数字钱包”了。 只需为 Agent 配置一个钱包和预算,它便能自主调用需要付费的 API 或服务来完成复杂任务,整个过程无需人类手动注册、购买和配置密钥,实现了高度自动化。 完成这一“AI 自主支付”能力的产品,是海外初创公司 FluxA 推出的 …

    2026年3月15日
    50400
  • Sora APP用户留存率断崖式下跌:从现象级爆款到增长困境的深度剖析

    近日,a16z合伙人Olivia Moore分享的一组数据揭示了OpenAI旗下视频生成应用Sora APP面临的严峻挑战。数据显示,这款在发布初期以爆发式增长著称的应用,用户留存率呈现断崖式下跌:首日留存率为10%,第七日降至2%,第三十日仅剩1%,而第六十日已趋近于0%。尽管Sora APP上线尚不足60天,这一数据仍从特定维度反映了其用户粘性的严重不足…

    2025年12月4日
    37900
  • Cursor崛起之路:揭秘AI编程独角兽的非典型组织哲学与产品战略

    在AI编程工具竞争白热化的当下,Cursor以独特的姿态脱颖而出,其背后不仅是技术创新的胜利,更是一场关于组织文化、人才战略与产品哲学的深刻实验。这家成立不到两年即估值超百亿美元的公司,正通过一系列反常规的实践,重新定义着软件开发的生产力范式。 Cursor的人才招募机制彻底颠覆了传统硅谷公司的招聘逻辑。公司没有固定的职位描述(JD),而是将每位员工转化为“…

    2025年11月11日
    22700
  • 智谱冲刺全球大模型第一股:IPO募资43亿港元,GLM-4.7登顶开源与国产双榜

    Jay 发自 凹非寺 全球大模型第一股,进入最后冲刺阶段。 智谱AI正式启动公开招股,股票代码2513。公司预计将于2026年1月8日在香港交易所主板挂牌上市。 根据招股文件披露,本次IPO预计募集资金总额约43亿港元,上市后市值预计将超过511亿港元。 核心信息如下—— 股票名称: 智谱 股份代号: 2513 预募资总额:约43亿港元 IPO预估值:超51…

    2025年12月30日
    40600