
在ARC-AGI-2测试中,Gemini 3.1 Pro得分77.1%,性能是上一代3.0 Pro的两倍多。在ARC-AGI-1测试中,新模型得分达到98%,超越了GPT-5.2 Pro和Claude Opus 4.6。

参与过Gemini 3 Deep Think研究的清华校友姚顺宇也参与了3.1 Pro的研究,并发文表示:「后续还会有更好的模型源源不断地涌现」。

在官方展示的“鹈鹕骑自行车”SVG动画中,同一提示词下,Gemini 3.1 Pro的生成效果相比前代有明显提升。

百万Token上下文,刷爆全领域SOTA
Gemini 3.1 Pro具备原生的全模态输入能力,支持高达100万Token的超长上下文,知识截止日期为2025年1月。

谷歌表示,3.1 Pro在核心推理能力上实现了进一步跃升。在内部基准测试中,该模型刷新了多个领域的SOTA成绩:
- 推理能力:在人类最后考试(HLE)中,Gemini 3.1 Pro在零工具辅助下取得了44.4%的成绩,超越GPT-5.2(34.5%)和Opus 4.6(40%);
- 科学知识:在GPQA钻石级测试中得分为94.3%;
- 编码:在LiveCodeBench Pro上Elo得分为2887,在SWE-Bench Verified上得分为80.6%;
- 多模态理解:在MMMLU测试中达到了92.6%。

在Artificial Analysis的排行榜上,Gemini 3.1 Pro已跃居榜首。

相比于上一代,Gemini 3.1 Pro的幻觉率降低了38%,这意味着模型在不确定答案时“瞎编”的倾向显著降低。

应用效果大幅飞跃,SVG生成能力突出
Gemini 3.1 Pro在应用层面的表现相比前代有了显著进步。
例如,在生成3D建模的宝可梦世界时,3.1 Pro的效果更加生动,细节也更丰富。

在多个演示案例中,3.1 Pro在SVG生成方面表现尤为突出。

它还能开发逼真的城市规划应用程序,处理复杂地形、绘制基础设施图以及模拟交通,可视化效果质量很高。

在创意编程方面,3.1 Pro能够将文学主题转化为可运行的代码。例如,为《呼啸山庄》设计一个现代风格的个人主页时,它能深入理解小说基调,构思出时髦现代的界面。

价格不变,性价比突出
Gemini 3.1 Pro保持了与3 Pro相同的定价:输入每百万tokens 2美元起,输出每百万tokens 12美元起。
相比之下,Claude Opus 4.6的定价为5美元/25美元,GPT-5.2的定价为1.75美元/14美元。据Artificial Analysis计算,跑完整个智能指数测试集,Gemini 3.1 Pro的花费不到Claude Opus 4.6的一半。

在ARC-AGI基准上,每完成一次ARC-AGI-2任务的花费约为0.96美元。相比之下,性能仅相差几个百分点的Gemini 3 Deep Think,价格是3.1 Pro的10倍。
谷歌表示,今天推出的Gemini 3.1 Pro是一个预览版,未来将在自主工作流等领域寻求进一步突破,并会正式全面开放。目前,该模型已在Gemini和NotebookLM中上线,开发者可通过Google AI Studio、Antigravity以及Android Studio抢先体验。
参考链接:
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
https://x.com/ShunyuYao14/status/2024570477390582189
https://deepmind.google/models/gemini/pro/
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/22058
