谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

今天凌晨,谷歌正式发布了Gemini 3.1 Pro模型。该模型在多项基准测试中刷新了全领域SOTA(State-of-the-Art)记录,实现了推理能力的大幅跃升。
谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

在ARC-AGI-2测试中,Gemini 3.1 Pro得分77.1%,性能是上一代3.0 Pro的两倍多。在ARC-AGI-1测试中,新模型得分达到98%,超越了GPT-5.2 Pro和Claude Opus 4.6。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

参与过Gemini 3 Deep Think研究的清华校友姚顺宇也参与了3.1 Pro的研究,并发文表示:「后续还会有更好的模型源源不断地涌现」。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

在官方展示的“鹈鹕骑自行车”SVG动画中,同一提示词下,Gemini 3.1 Pro的生成效果相比前代有明显提升。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

百万Token上下文,刷爆全领域SOTA

Gemini 3.1 Pro具备原生的全模态输入能力,支持高达100万Token的超长上下文,知识截止日期为2025年1月。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

谷歌表示,3.1 Pro在核心推理能力上实现了进一步跃升。在内部基准测试中,该模型刷新了多个领域的SOTA成绩:

  • 推理能力:在人类最后考试(HLE)中,Gemini 3.1 Pro在零工具辅助下取得了44.4%的成绩,超越GPT-5.2(34.5%)和Opus 4.6(40%);
  • 科学知识:在GPQA钻石级测试中得分为94.3%;
  • 编码:在LiveCodeBench Pro上Elo得分为2887,在SWE-Bench Verified上得分为80.6%;
  • 多模态理解:在MMMLU测试中达到了92.6%。
谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

在Artificial Analysis的排行榜上,Gemini 3.1 Pro已跃居榜首。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

相比于上一代,Gemini 3.1 Pro的幻觉率降低了38%,这意味着模型在不确定答案时“瞎编”的倾向显著降低。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

应用效果大幅飞跃,SVG生成能力突出

Gemini 3.1 Pro在应用层面的表现相比前代有了显著进步。

例如,在生成3D建模的宝可梦世界时,3.1 Pro的效果更加生动,细节也更丰富。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

在多个演示案例中,3.1 Pro在SVG生成方面表现尤为突出。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

它还能开发逼真的城市规划应用程序,处理复杂地形、绘制基础设施图以及模拟交通,可视化效果质量很高。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

在创意编程方面,3.1 Pro能够将文学主题转化为可运行的代码。例如,为《呼啸山庄》设计一个现代风格的个人主页时,它能深入理解小说基调,构思出时髦现代的界面。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

价格不变,性价比突出

Gemini 3.1 Pro保持了与3 Pro相同的定价:输入每百万tokens 2美元起,输出每百万tokens 12美元起。

相比之下,Claude Opus 4.6的定价为5美元/25美元,GPT-5.2的定价为1.75美元/14美元。据Artificial Analysis计算,跑完整个智能指数测试集,Gemini 3.1 Pro的花费不到Claude Opus 4.6的一半。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

在ARC-AGI基准上,每完成一次ARC-AGI-2任务的花费约为0.96美元。相比之下,性能仅相差几个百分点的Gemini 3 Deep Think,价格是3.1 Pro的10倍。

谷歌表示,今天推出的Gemini 3.1 Pro是一个预览版,未来将在自主工作流等领域寻求进一步突破,并会正式全面开放。目前,该模型已在Gemini和NotebookLM中上线,开发者可通过Google AI Studio、Antigravity以及Android Studio抢先体验。

参考链接:
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
https://x.com/ShunyuYao14/status/2024570477390582189
https://deepmind.google/models/gemini/pro/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/22058

(0)
上一篇 2026年2月20日 上午8:52
下一篇 2026年2月20日 下午8:16

相关推荐

  • TL编译器:自动映射Tile程序至空间数据流架构,性能超越厂商库1.03×/1.91×

    TL 证明,编译器驱动的映射可以在空间数据流加速器上提供厂商级别的性能。在 GEMM 和 FlashAttention 上,以最少的人工干预实现了与厂商库足以竞争甚至更好的性能,将手工设计的内核转变为可重用编译流水线的输出。同时,TL 的硬件抽象使得编译器过程在很大程度上可在不同加速器间重用,简化了对多样化空间数据流架构的支持,并为未来芯片的设计空间探索提供…

    2026年2月1日
    16000
  • 具身智能专业破冰:上海交大引领全球教育变革与产业协同新范式

    近日,上海交通大学发布公告,拟于2025年增设具身智能本科专业,这标志着全球高等教育领域首次将具身智能作为独立本科专业进行系统化建设。这一举措不仅填补了现有教育体系在跨学科复合型人才培养上的结构性缺口,更折射出中国在人工智能前沿领域从跟随到引领的战略转型。 从全球视角审视,具身智能作为人工智能与物理世界交互的核心分支,正驱动着从纯软件智能向实体化智能体的范式…

    2025年11月30日
    15500
  • DSPy 3与GEPA:革新RAG框架的自动推理与提示进化技术

    近期,OpenAI 发布了 GPT-5.2 模型,引发了广泛关注。路透社报道称,OpenAI 在竞争压力下加速了研发进程。此次更新并非功能堆砌,而是聚焦于在智能、代码处理、长文本理解等核心能力上的显著提升,尤其擅长处理创建电子表格、制作演示文稿等复杂的多步骤任务。 简而言之,GPT-5.2 是一次面向实用场景的“精修”,在可靠性、长上下文处理、工具执行和输出…

    2026年1月20日
    13300
  • 像开发软件一样造世界,Agent2World来了,把世界模型做成可运行的符号环境

    让模型真正“能行动”,往往需要一个可执行、可验证的符号世界模型(Symbolic World Model)。它并非抽象的文字描述,而是能被规划器或执行器直接调用的形式化定义,例如PDDL领域/问题,或可运行的环境代码/模拟器。一旦世界被“写成可运行的规则”,我们就能在同一套约束下进行推演、测试与复现:模型不再停留在“会说”,而是能回答“如果我这样做,会发生什…

    2026年2月2日
    10400
  • 华为天才少年创业:全球首个虚实融合实时交互视频模型X1,让童年幻想“滚球兽”走进现实

    还记得童年的那个愿望吗? 随着《数码宝贝》进化曲的响起,屏幕前的你我或许都曾幻想过:要是那只从数码蛋中破壳而出的滚球兽,真的可以从电视屏幕那端跳出来,就好了。 彼时,我们只能将这种天马行空的「美梦」寄希望于「次元裂缝」的开启。再后来,增强现实(AR)技术曾一度带来了希望,但几经潮起潮落,结果仍停留在「预先制作的内容叠加」层面,数字角色无法真正感知环境。 而现…

    2026年2月9日
    4600