今天,Google正式推出Gemini 3.1 Pro。在评估模型解决全新逻辑模式能力的ARC-AGI-2基准测试中,其得分达到77.1%,相较前代Gemini 3 Pro的31.1%实现了翻倍以上的飞跃。

具体基准测试表现
根据详细测试数据,Gemini 3.1 Pro在多个关键领域取得显著突破:

- 智能工具使用:能力提升82%,在APEX-Agents测试中得分从18.4%跃升至33.5%。在MCP Atlas(69.2%)和BrowseComp(85.9%)测试中排名第一。
- 编程能力:在评估实际编程和工具使用能力的严格测试中表现优异,SWE-Bench Verified得分80.6%,Terminal-Bench 2.0得分68.5%。
- 综合性能榜首:根据Artificial Analysis发布的v4.0智能指数报告,Gemini 3.1 Pro预览版在包含10项评估指标的综合测试中获得57分,重新夺回AI模型性能榜首,领先Claude Opus 4.6四分。

- 在六个领先评估项目中,最突出的是CritPt物理推理测试,其得分18%,比第二名高出5个百分点。该测试使用未发表的研究级物理问题,对科学推理能力要求极高。
- 编程能力方面,模型在Terminal-Bench Hard(智能编程和终端使用)和SciCode(编程)测试中均排名第一,分别获得54%和59%的成绩,领先Artificial Analysis编程指数。
- 知识与幻觉控制:

在AA-Omniscience测试中,模型的幻觉率从88%大幅降至50%,准确率保持在53%与前代相当。这一17分的提升主要源于模型在不知道答案时更少地进行错误猜测。

性能指标
- 速度:Gemini 3.1 Pro Preview平均输出速度为114 token/秒,比前代略慢10 token/秒,但在智能指数前10名模型中仍属较快,仅次于其他Google模型。
- 功能与多模态:模型保持了100万token的上下文窗口,支持工具调用、结构化输出和JSON模式。在多模态理解方面,其在MMMU-Pro测试中排名第一,领先于Gemini 3 Pro Preview和Gemini 3 Flash。
- 实际任务表现:值得注意的是,在实际工作任务的GDPval-AA测试中,模型的ELO分数从前代提升了100多分达到1316,但仍落后于Claude Sonnet 4.6、Opus 4.6、GPT-5.2 (xhigh)和GLM-5。
成本效率突破
本次发布在成本控制方面同样引人注目:

* Gemini 3.1 Pro Preview运行完整智能指数测试的成本为892美元,不到Claude Opus 4.6 (max)和GPT-5.2 (xhigh)等顶级模型的一半,尽管仍比开源权重模型GLM-5高约2倍。
* 模型在提升性能的同时保持了token效率。运行智能指数测试仅比前代多用100万个token(从56M增加到57M),增加成本仅72美元。
* 定价维持在每百万输入token 2美元,输出token 12美元。模型保持100万token上下文窗口,支持64k输出,知识截止时间为2025年1月。
实际应用案例展示
Google通过几个案例展示了3.1 Pro的实际能力:
-
实时ISS追踪仪表盘
模型需同时处理多个逻辑流:从公共API获取实时遥测数据、构建响应式UI、应用物理原理渲染准确的昼夜循环。
-
代码动画生成
可直接从文本提示生成网站就绪的动画SVG。因为是纯代码而非像素,在任何缩放比例下都保持清晰,文件体积比传统视频小得多。

有用户用相同的提示词“Create a svg in html of a red Ferrari supercar”测试了两个主流AI模型。左侧是Gemini 3.1 Pro生成的结果,右侧来自Claude Opus 4.6。从视觉效果看,Gemini生成的跑车线条流畅,设计更接近现代超跑,车身比例协调。Claude的版本则显得圆润。
-
交互式3D模拟
构建了一个椋鸟群飞行模拟,模型需要理解“murmuration”的物理原理,并让环境对手部追踪做出反应,同时生成随鸟群移动而变化的配乐。
-
创意编码
基于《呼啸山庄》构建个人作品集网站。模型不只是总结文本,而是推理小说的氛围基调来设计现代UI,生成能捕捉角色精髓的代码。
技术社区反应
技术社区对此次发布印象深刻。有评论指出,82%的工具使用能力提升和2.5倍的抽象推理改进并非渐进式优化,而是根本性的能力解锁。价格策略也引发讨论,有观点认为Google的定价具有颠覆性,让竞争对手的高价策略面临压力。
Gemini 3.1 Pro今天开始逐步推出,开发者可通过Google AI Studio、Antigravity、Gemini CLI和Android Studio的预览版访问。消费者版在Gemini应用和NotebookLM中提供,但更高配额仅限Google AI Pro和Ultra用户使用。
有业内人士评论,这次发布显示AI竞赛的重点正在从单纯的参数规模转向实际推理能力。当模型能理解复杂系统的内在逻辑而不仅仅是生成看似合理的回答时,真正的实用价值才开始显现。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21926
