Gemini 3.1 Pro Preview深度评测:推理速度登顶,成本优势收窄,与GPT-5.2上演巅峰对决

短的结论:王与马共天下

基本情况:

Google与OpenAI在顶尖模型上的追逐异常激烈。三个月前,Gemini 3 Pro曾领先于当时的GPT-5,随后被GPT-5.2反超,双方各领风骚数十天。如今,Gemini 3 Pro停留在Preview阶段,其继任者3.1 Pro Preview登场,而保持了两个月智力王冠的GPT-5.2,其领先地位再次被Google夺回。

然而,与Gemini 3 Pro时期全面领先的局面不同,3.1 Pro这一代的Token消耗有所上涨,已与GPT-5.2的“high”档位相差无几,仅低于其“xhigh”档位。综合成本优势也因此收窄,不如3 Pro时期显著。好在Google硬件资源充沛,平均120 TPS的推理速度,使得即便在思维链膨胀后,Gemini系列依然是头部阵营中速度最快的模型。

逻辑成绩:

Gemini 3.1 Pro Preview深度评测:推理速度登顶,成本优势收窄,与GPT-5.2上演巅峰对决

1 表格为突出对比关系,仅展示部分可对照模型,非完整排序。
2 题目及测试方式,参见相关逻辑能力评测。
3 完整榜单更新于指定网站。
4 红字模型代表工作在推理模式下(慢思考),黑色模型则为对应的非推理模式(快思考)。

以下主要对比Gemini 3.1 Pro Preview(以下简称G3.1P)与其前代Gemini 3 Pro Preview(以下简称G3P)。

改进:

  • 归纳推理:归纳能力是Gemini与GPT系列的特长。前代G3P就曾展现过仅用10K出头乃至几千Token,就能完成其他模型需要40K以上Token才能勉强得分的归纳类题目。G3.1P将这项长板进一步拉长。以#52棋谱问题为例,前代G3P拿到半数分数已领先除当时GPT-5外的所有模型,而G3.1P则可以稳定拿到满分,所用Token也不过20K出头。此类题目要求对全文保持零字符幻觉,并能从字符变化中找出规律、做出推测、反复验证。类似地,在#58数学规则推导题中,G3.1P与GPT-5.2也是唯二拿到半数分数的模型。

  • 指令遵循:前代G3P的指令遵循稳定性不足,一些需要稍加思考的间接指令容易出错,加之不低的上下文幻觉,导致推理越长,指令丢失越多。G3.1P几乎克服了这类问题,无论指令复杂度与上下文长度如何,都能稳定正确地执行。强大的指令遵循能力甚至泛化增强了其他并非以指令为考点但涉及规则的题目,例如包含大量处理规则的#48字符处理题,G3.1P是继GPT-5.2之后第二个拿到满分的模型。不过,与GPT-5.2相比,G3.1P的遵循稳定性仍稍逊一筹,在大规模使用时会有感知。

  • 计算能力:计算曾是Gemini系列的长期短板之一,在G3.1P这一代终于补齐。随着思维链的适当扩充,较复杂的计算也有了更多Token预算来展开算式,并能保持至少三位小数的运算精度。在之前的测试中曾提及,笔者的计算考察标准是参照不允许携带计算器的中学考试对人类的要求。对于更高级的考试或大模型,理应允许使用外部计算工具。因此,Gemini系列可以认为其“手动”计算能力已经毕业。

不足:

  • 长链推理:G3.1P的平均Token消耗较G3P有所增长,但并非普涨,主要增长点在于长链推理类问题,其Token消耗基本都有接近翻倍的涨幅。然而,多出来的Token并未换来成倍的性能提升,相关问题的极限得分仅小幅提高,稳定性反而有所下降。此前G3P仅用几千Token也能拿到高分、与其他模型相比惊为天人的景象已一去不返。

  • 幻觉:前代G3P饱受诟病的幻觉问题,在G3.1P上确有改善。但作为世界领先的模型,G3.1P的幻觉率仍高于GPT-5.2。在信息抽取类问题上,仍有不小概率无法精确完成。在#42年报总结问题中会出现数据丢失,#57单词组合问题也有类似表现,这与模型本身的智力水平极不相称。

赛博史官曰:

自Gemini团队开悟以来,Gemini与GPT系列便始终缠斗不休,从o3斗到GPT-5,再斗到GPT-5.2。GPT系列的看家本领——洞察思考力,也逐渐被Gemini追上并开始局部反超。此外,Gemini早已在多模态领域确立了统治级权威,在生视频和世界模型方面也频繁出招,OpenAI的领先优势被逐一蚕食。

不过,现在断言Gemini已全面领先为时尚早。GPT-5.2毕竟是两个月前的产品,下一代GPT-5.3也已箭在弦上,势必意图夺回第一。北美双雄之间如此激烈的阵地争夺战短期内不会结束,毕竟双方都奔着AGI圣杯而去,产品线与能力越来越相似是可以预期的。最终,北美大陆可能会并存两款超级模型,共分天下。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/22037

(0)
上一篇 2天前
下一篇 2天前

相关推荐