Gemini 3.1 Pro Preview深度评测:推理速度登顶,成本优势收窄,与GPT-5.2上演巅峰对决

短的结论:王与马共天下

基本情况:

Google与OpenAI在顶尖模型上的追逐异常激烈。三个月前,Gemini 3 Pro曾领先于当时的GPT-5,随后被GPT-5.2反超,双方各领风骚数十天。如今,Gemini 3 Pro停留在Preview阶段,其继任者3.1 Pro Preview登场,而保持了两个月智力王冠的GPT-5.2,其领先地位再次被Google夺回。

然而,与Gemini 3 Pro时期全面领先的局面不同,3.1 Pro这一代的Token消耗有所上涨,已与GPT-5.2的“high”档位相差无几,仅低于其“xhigh”档位。综合成本优势也因此收窄,不如3 Pro时期显著。好在Google硬件资源充沛,平均120 TPS的推理速度,使得即便在思维链膨胀后,Gemini系列依然是头部阵营中速度最快的模型。

逻辑成绩:

Gemini 3.1 Pro Preview深度评测:推理速度登顶,成本优势收窄,与GPT-5.2上演巅峰对决

1 表格为突出对比关系,仅展示部分可对照模型,非完整排序。
2 题目及测试方式,参见相关逻辑能力评测。
3 完整榜单更新于指定网站。
4 红字模型代表工作在推理模式下(慢思考),黑色模型则为对应的非推理模式(快思考)。

以下主要对比Gemini 3.1 Pro Preview(以下简称G3.1P)与其前代Gemini 3 Pro Preview(以下简称G3P)。

改进:

  • 归纳推理:归纳能力是Gemini与GPT系列的特长。前代G3P就曾展现过仅用10K出头乃至几千Token,就能完成其他模型需要40K以上Token才能勉强得分的归纳类题目。G3.1P将这项长板进一步拉长。以#52棋谱问题为例,前代G3P拿到半数分数已领先除当时GPT-5外的所有模型,而G3.1P则可以稳定拿到满分,所用Token也不过20K出头。此类题目要求对全文保持零字符幻觉,并能从字符变化中找出规律、做出推测、反复验证。类似地,在#58数学规则推导题中,G3.1P与GPT-5.2也是唯二拿到半数分数的模型。

  • 指令遵循:前代G3P的指令遵循稳定性不足,一些需要稍加思考的间接指令容易出错,加之不低的上下文幻觉,导致推理越长,指令丢失越多。G3.1P几乎克服了这类问题,无论指令复杂度与上下文长度如何,都能稳定正确地执行。强大的指令遵循能力甚至泛化增强了其他并非以指令为考点但涉及规则的题目,例如包含大量处理规则的#48字符处理题,G3.1P是继GPT-5.2之后第二个拿到满分的模型。不过,与GPT-5.2相比,G3.1P的遵循稳定性仍稍逊一筹,在大规模使用时会有感知。

  • 计算能力:计算曾是Gemini系列的长期短板之一,在G3.1P这一代终于补齐。随着思维链的适当扩充,较复杂的计算也有了更多Token预算来展开算式,并能保持至少三位小数的运算精度。在之前的测试中曾提及,笔者的计算考察标准是参照不允许携带计算器的中学考试对人类的要求。对于更高级的考试或大模型,理应允许使用外部计算工具。因此,Gemini系列可以认为其“手动”计算能力已经毕业。

不足:

  • 长链推理:G3.1P的平均Token消耗较G3P有所增长,但并非普涨,主要增长点在于长链推理类问题,其Token消耗基本都有接近翻倍的涨幅。然而,多出来的Token并未换来成倍的性能提升,相关问题的极限得分仅小幅提高,稳定性反而有所下降。此前G3P仅用几千Token也能拿到高分、与其他模型相比惊为天人的景象已一去不返。

  • 幻觉:前代G3P饱受诟病的幻觉问题,在G3.1P上确有改善。但作为世界领先的模型,G3.1P的幻觉率仍高于GPT-5.2。在信息抽取类问题上,仍有不小概率无法精确完成。在#42年报总结问题中会出现数据丢失,#57单词组合问题也有类似表现,这与模型本身的智力水平极不相称。

赛博史官曰:

自Gemini团队开悟以来,Gemini与GPT系列便始终缠斗不休,从o3斗到GPT-5,再斗到GPT-5.2。GPT系列的看家本领——洞察思考力,也逐渐被Gemini追上并开始局部反超。此外,Gemini早已在多模态领域确立了统治级权威,在生视频和世界模型方面也频繁出招,OpenAI的领先优势被逐一蚕食。

不过,现在断言Gemini已全面领先为时尚早。GPT-5.2毕竟是两个月前的产品,下一代GPT-5.3也已箭在弦上,势必意图夺回第一。北美双雄之间如此激烈的阵地争夺战短期内不会结束,毕竟双方都奔着AGI圣杯而去,产品线与能力越来越相似是可以预期的。最终,北美大陆可能会并存两款超级模型,共分天下。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/22037

(0)
上一篇 2026年2月20日 下午8:16
下一篇 2026年2月21日 上午7:16

相关推荐

  • LibTV震撼发布:首款人+Agent双视角AI视频创作平台,无限画布+节点工作流颠覆传统

    LibTV:首款人+Agent双视角AI视频创作平台 传统AI视频工具往往仅聚焦于内容生成本身,而LibTV提出了一个全新的设计理念:将人类创作者与AI智能体(Agent)置于同等地位,提供“手动”与“自动”两种并行的创作范式。 这一设计在AI创作社区引发了广泛关注。其核心在于,它并非单一的生成工具,而是一个整合了无限画布、节点式工作流与丰富专业功能的一站式…

    2026年3月20日
    54800
  • 2026年AI工具全景指南:从S级通用助手到垂直领域利器

    如果你打算学习一款新的 AI 工具,这份经过实战筛选的清单将是你的最佳起点。 在过去的三年里,我深度体验了数十款 AI 工具,见证了它们的迭代与兴衰。有些工具表现出色,有些则不尽如人意,还有一些已退出市场。 以下是我根据实际使用体验,按类别分级整理出的最佳 AI 工具清单,并附上了详细的学习指南。 S 级:通用性最强,适合所有人使用的核心工具。 A 级:功能…

    2025年12月14日
    48400
  • 浏览器AI大战升级:Tabbit AI浏览器公测,重新定义人机交互新范式

    浏览器,正在成为 AI 落地最重要的战场。 去年 10 月,OpenAI 推出 AI 浏览器 Atlas,奥特曼将其定义为「十年一遇的机会」,放言要「改变 30 亿人使用互联网的方式」。Google DeepMind 推出「Project Mariner」,其口号正是「探索人机交互的未来,从浏览器开始」。 与此同时,微软将 Copilot 深度集成进 Edg…

    2026年3月4日
    36500
  • 特斯拉Robovan:20座无方向盘自动驾驶概念车,每公里成本仅3毛钱

    前段时间,旧金山大停电,Waymo 无人驾驶出租车集体趴窝,但依靠 FSD 系统驱动的特斯拉汽车丝毫不受影响。 而去年在「we,robot」活动首次亮相的特斯拉 Robovan 视频,也被网友翻了出来。 马斯克反手就是一个转发,并配文称「这将彻底改变街道的面貌」。 评论区也炸了锅。网友纷纷表示很有未来感,「我们终于可以过上像杰森一家那样的生活了」。 甚至有网…

    2025年12月28日
    40700
  • 华为码道引爆AI编程革命:2026年“人人可开发”时代来临的深度解析

    华为码道引爆AI编程革命:2026年“人人可开发”时代来临的深度解析(一) 2026年2月26日,华为云正式推出码道(CodeArts)代码智能体公测版。这一发布不仅标志着国内AI编程领域的一次重要技术进展,更被视为推动软件开发向“人人可开发”愿景迈进的关键信号。 华为云码道定位为一个工程化的AI编码平台,其核心并非单一的代码补全工具,而是整合了代码大模型、…

    2026年2月27日
    40700