谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

今天凌晨,谷歌正式发布了Gemini 3.1 Pro模型。该模型在多项基准测试中刷新了全领域SOTA(State-of-the-Art)记录,实现了推理能力的大幅跃升。
谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

在ARC-AGI-2测试中,Gemini 3.1 Pro得分77.1%,性能是上一代3.0 Pro的两倍多。在ARC-AGI-1测试中,新模型得分达到98%,超越了GPT-5.2 Pro和Claude Opus 4.6。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

参与过Gemini 3 Deep Think研究的清华校友姚顺宇也参与了3.1 Pro的研究,并发文表示:「后续还会有更好的模型源源不断地涌现」。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

在官方展示的“鹈鹕骑自行车”SVG动画中,同一提示词下,Gemini 3.1 Pro的生成效果相比前代有明显提升。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

百万Token上下文,刷爆全领域SOTA

Gemini 3.1 Pro具备原生的全模态输入能力,支持高达100万Token的超长上下文,知识截止日期为2025年1月。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

谷歌表示,3.1 Pro在核心推理能力上实现了进一步跃升。在内部基准测试中,该模型刷新了多个领域的SOTA成绩:

  • 推理能力:在人类最后考试(HLE)中,Gemini 3.1 Pro在零工具辅助下取得了44.4%的成绩,超越GPT-5.2(34.5%)和Opus 4.6(40%);
  • 科学知识:在GPQA钻石级测试中得分为94.3%;
  • 编码:在LiveCodeBench Pro上Elo得分为2887,在SWE-Bench Verified上得分为80.6%;
  • 多模态理解:在MMMLU测试中达到了92.6%。
谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

在Artificial Analysis的排行榜上,Gemini 3.1 Pro已跃居榜首。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

相比于上一代,Gemini 3.1 Pro的幻觉率降低了38%,这意味着模型在不确定答案时“瞎编”的倾向显著降低。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

应用效果大幅飞跃,SVG生成能力突出

Gemini 3.1 Pro在应用层面的表现相比前代有了显著进步。

例如,在生成3D建模的宝可梦世界时,3.1 Pro的效果更加生动,细节也更丰富。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

在多个演示案例中,3.1 Pro在SVG生成方面表现尤为突出。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

它还能开发逼真的城市规划应用程序,处理复杂地形、绘制基础设施图以及模拟交通,可视化效果质量很高。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

在创意编程方面,3.1 Pro能够将文学主题转化为可运行的代码。例如,为《呼啸山庄》设计一个现代风格的个人主页时,它能深入理解小说基调,构思出时髦现代的界面。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

价格不变,性价比突出

Gemini 3.1 Pro保持了与3 Pro相同的定价:输入每百万tokens 2美元起,输出每百万tokens 12美元起。

相比之下,Claude Opus 4.6的定价为5美元/25美元,GPT-5.2的定价为1.75美元/14美元。据Artificial Analysis计算,跑完整个智能指数测试集,Gemini 3.1 Pro的花费不到Claude Opus 4.6的一半。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

在ARC-AGI基准上,每完成一次ARC-AGI-2任务的花费约为0.96美元。相比之下,性能仅相差几个百分点的Gemini 3 Deep Think,价格是3.1 Pro的10倍。

谷歌表示,今天推出的Gemini 3.1 Pro是一个预览版,未来将在自主工作流等领域寻求进一步突破,并会正式全面开放。目前,该模型已在Gemini和NotebookLM中上线,开发者可通过Google AI Studio、Antigravity以及Android Studio抢先体验。

参考链接:
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
https://x.com/ShunyuYao14/status/2024570477390582189
https://deepmind.google/models/gemini/pro/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/22058

(0)
上一篇 2026年2月20日 上午8:52
下一篇 2026年2月20日 下午8:16

相关推荐

  • MiniMax M2开源大模型深度解析:从注意力机制回归到数据工程创新

    近期,MiniMax发布的M2开源大模型在AI社区引发了广泛讨论。该模型不仅在多项基准测试中表现优异,更在香港大学AI-Trader模拟A股大赛中以20天10万本金盈利近三千元的成绩夺得第一。M2的成功并非偶然,其背后是一系列深思熟虑的技术选择与工程实践。本文将从注意力机制、数据处理流程和模型泛化能力三个维度,深入剖析M2的技术路径与创新突破。 **注意力机…

    2025年11月4日
    38400
  • 实测夸克AI浏览器「千问划词快捷指令」:7个高效Prompt技巧提升AI交互质量

    新年伊始,DeepSeek发布了一篇技术论文,其专业深度让不少网友直呼“看不懂”。 于是,在相关社群的评论区,出现了集体向AI求助的有趣场景:有人要求AI“用八十岁老太太能听懂的方式解释”,有人希望得到“大白话翻译”,还有人直接说“当我是幼儿园小朋友,给我讲明白”。 这一幕既幽默又真实地反映了现状:面对复杂信息时,我们的第一反应往往是寻求AI的帮助,而非自己…

    2026年1月15日
    59700
  • Vidu Q3:中国AI视频新王者,全球首个16秒音视频直出模型震撼发布

    金磊 发自 凹非寺 量子位 | 公众号 QbitAI 开年第一个月,国产AI视频生成领域竞争激烈。 AI视频生成圈迎来重磅发布——全球首个能够一次性直接生成16秒音视频的模型。 例如,用它来制作一段真人版《火影忍者》第四次忍界大战的名场面: 从画面、台词到音效,都颇具原版日漫的风格。 制作这段真人剧的模型,正是生数科技最新推出的Vidu Q3。 深度体验后,…

    2026年1月30日
    33100
  • AI创造AI系统:全球首个AI全生成深度学习框架VibeTensor深度解析

    关键词:AI for AI System、Deep learning runtime、Agent development、CUDA 副标题:“完全由 AI 生成”是否是一个有误导性的宣传标签? 见【关键问题二】 一个从 Python 接口到 CUDA 内存管理,几乎完全由 AI 代码助手生成的深度学习框架,其背后究竟遵循着怎样的开发范式? 如果你关注 AI …

    2026年2月2日
    47900
  • 英伟达NVARC小模型夺冠ARC-AGI 2:零预训练与合成数据策略解析

    在近期公布的ARC-AGI 2竞赛结果中,英伟达NVARC团队凭借其4B参数的小模型以27.64%的公开榜成绩力压GPT-5 Pro(18.3%)登顶榜首,引发业界广泛关注。这一成就不仅展示了小模型在特定任务上的巨大潜力,更揭示了通过创新方法突破传统Scaling Law限制的可能性。本文将从技术策略、数据构建、模型优化等多个维度,深入剖析NVARC夺冠背后…

    2025年12月8日
    22900