谷歌Gemini 3.1 Pro震撼发布：百万Token上下文、全领域SOTA刷新、SVG生成王者，价格不变性能翻倍

2026年2月20日上午11:31 • AI产业动态 • 阅读 356

今天凌晨，谷歌正式发布了Gemini 3.1 Pro模型。该模型在多项基准测试中刷新了全领域SOTA（State-of-the-Art）记录，实现了推理能力的大幅跃升。

谷歌Gemini 3.1 Pro震撼发布：百万Token上下文、全领域SOTA刷新、SVG生成王者，价格不变性能翻倍

在ARC-AGI-2测试中，Gemini 3.1 Pro得分77.1%，性能是上一代3.0 Pro的两倍多。在ARC-AGI-1测试中，新模型得分达到98%，超越了GPT-5.2 Pro和Claude Opus 4.6。

参与过Gemini 3 Deep Think研究的清华校友姚顺宇也参与了3.1 Pro的研究，并发文表示：「后续还会有更好的模型源源不断地涌现」。

在官方展示的“鹈鹕骑自行车”SVG动画中，同一提示词下，Gemini 3.1 Pro的生成效果相比前代有明显提升。

百万Token上下文，刷爆全领域SOTA

Gemini 3.1 Pro具备原生的全模态输入能力，支持高达100万Token的超长上下文，知识截止日期为2025年1月。

谷歌表示，3.1 Pro在核心推理能力上实现了进一步跃升。在内部基准测试中，该模型刷新了多个领域的SOTA成绩：

推理能力：在人类最后考试（HLE）中，Gemini 3.1 Pro在零工具辅助下取得了44.4%的成绩，超越GPT-5.2（34.5%）和Opus 4.6（40%）；
科学知识：在GPQA钻石级测试中得分为94.3%；
编码：在LiveCodeBench Pro上Elo得分为2887，在SWE-Bench Verified上得分为80.6%；
多模态理解：在MMMLU测试中达到了92.6%。

在Artificial Analysis的排行榜上，Gemini 3.1 Pro已跃居榜首。

相比于上一代，Gemini 3.1 Pro的幻觉率降低了38%，这意味着模型在不确定答案时“瞎编”的倾向显著降低。

应用效果大幅飞跃，SVG生成能力突出

Gemini 3.1 Pro在应用层面的表现相比前代有了显著进步。

例如，在生成3D建模的宝可梦世界时，3.1 Pro的效果更加生动，细节也更丰富。

在多个演示案例中，3.1 Pro在SVG生成方面表现尤为突出。

它还能开发逼真的城市规划应用程序，处理复杂地形、绘制基础设施图以及模拟交通，可视化效果质量很高。

在创意编程方面，3.1 Pro能够将文学主题转化为可运行的代码。例如，为《呼啸山庄》设计一个现代风格的个人主页时，它能深入理解小说基调，构思出时髦现代的界面。

价格不变，性价比突出

Gemini 3.1 Pro保持了与3 Pro相同的定价：输入每百万tokens 2美元起，输出每百万tokens 12美元起。

相比之下，Claude Opus 4.6的定价为5美元/25美元，GPT-5.2的定价为1.75美元/14美元。据Artificial Analysis计算，跑完整个智能指数测试集，Gemini 3.1 Pro的花费不到Claude Opus 4.6的一半。

在ARC-AGI基准上，每完成一次ARC-AGI-2任务的花费约为0.96美元。相比之下，性能仅相差几个百分点的Gemini 3 Deep Think，价格是3.1 Pro的10倍。

谷歌表示，今天推出的Gemini 3.1 Pro是一个预览版，未来将在自主工作流等领域寻求进一步突破，并会正式全面开放。目前，该模型已在Gemini和NotebookLM中上线，开发者可通过Google AI Studio、Antigravity以及Android Studio抢先体验。

参考链接：
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
https://x.com/ShunyuYao14/status/2024570477390582189
https://deepmind.google/models/gemini/pro/

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/22058

谷歌Gemini 3.1 Pro震撼发布：百万Token上下文、全领域SOTA刷新、SVG生成王者，价格不变性能翻倍

百万Token上下文，刷爆全领域SOTA

应用效果大幅飞跃，SVG生成能力突出

价格不变，性价比突出

相关推荐

MiniMax M2开源大模型深度解析：从注意力机制回归到数据工程创新

实测夸克AI浏览器「千问划词快捷指令」：7个高效Prompt技巧提升AI交互质量

Vidu Q3：中国AI视频新王者，全球首个16秒音视频直出模型震撼发布

AI创造AI系统：全球首个AI全生成深度学习框架VibeTensor深度解析

英伟达NVARC小模型夺冠ARC-AGI 2：零预训练与合成数据策略解析