Gemini 3.1 Pro Preview深度评测:推理速度登顶,成本优势收窄,与GPT-5.2上演巅峰对决

短的结论:王与马共天下

基本情况:

Google与OpenAI在顶尖模型上的追逐异常激烈。三个月前,Gemini 3 Pro曾领先于当时的GPT-5,随后被GPT-5.2反超,双方各领风骚数十天。如今,Gemini 3 Pro停留在Preview阶段,其继任者3.1 Pro Preview登场,而保持了两个月智力王冠的GPT-5.2,其领先地位再次被Google夺回。

然而,与Gemini 3 Pro时期全面领先的局面不同,3.1 Pro这一代的Token消耗有所上涨,已与GPT-5.2的“high”档位相差无几,仅低于其“xhigh”档位。综合成本优势也因此收窄,不如3 Pro时期显著。好在Google硬件资源充沛,平均120 TPS的推理速度,使得即便在思维链膨胀后,Gemini系列依然是头部阵营中速度最快的模型。

逻辑成绩:

Gemini 3.1 Pro Preview深度评测:推理速度登顶,成本优势收窄,与GPT-5.2上演巅峰对决

1 表格为突出对比关系,仅展示部分可对照模型,非完整排序。
2 题目及测试方式,参见相关逻辑能力评测。
3 完整榜单更新于指定网站。
4 红字模型代表工作在推理模式下(慢思考),黑色模型则为对应的非推理模式(快思考)。

以下主要对比Gemini 3.1 Pro Preview(以下简称G3.1P)与其前代Gemini 3 Pro Preview(以下简称G3P)。

改进:

  • 归纳推理:归纳能力是Gemini与GPT系列的特长。前代G3P就曾展现过仅用10K出头乃至几千Token,就能完成其他模型需要40K以上Token才能勉强得分的归纳类题目。G3.1P将这项长板进一步拉长。以#52棋谱问题为例,前代G3P拿到半数分数已领先除当时GPT-5外的所有模型,而G3.1P则可以稳定拿到满分,所用Token也不过20K出头。此类题目要求对全文保持零字符幻觉,并能从字符变化中找出规律、做出推测、反复验证。类似地,在#58数学规则推导题中,G3.1P与GPT-5.2也是唯二拿到半数分数的模型。

  • 指令遵循:前代G3P的指令遵循稳定性不足,一些需要稍加思考的间接指令容易出错,加之不低的上下文幻觉,导致推理越长,指令丢失越多。G3.1P几乎克服了这类问题,无论指令复杂度与上下文长度如何,都能稳定正确地执行。强大的指令遵循能力甚至泛化增强了其他并非以指令为考点但涉及规则的题目,例如包含大量处理规则的#48字符处理题,G3.1P是继GPT-5.2之后第二个拿到满分的模型。不过,与GPT-5.2相比,G3.1P的遵循稳定性仍稍逊一筹,在大规模使用时会有感知。

  • 计算能力:计算曾是Gemini系列的长期短板之一,在G3.1P这一代终于补齐。随着思维链的适当扩充,较复杂的计算也有了更多Token预算来展开算式,并能保持至少三位小数的运算精度。在之前的测试中曾提及,笔者的计算考察标准是参照不允许携带计算器的中学考试对人类的要求。对于更高级的考试或大模型,理应允许使用外部计算工具。因此,Gemini系列可以认为其“手动”计算能力已经毕业。

不足:

  • 长链推理:G3.1P的平均Token消耗较G3P有所增长,但并非普涨,主要增长点在于长链推理类问题,其Token消耗基本都有接近翻倍的涨幅。然而,多出来的Token并未换来成倍的性能提升,相关问题的极限得分仅小幅提高,稳定性反而有所下降。此前G3P仅用几千Token也能拿到高分、与其他模型相比惊为天人的景象已一去不返。

  • 幻觉:前代G3P饱受诟病的幻觉问题,在G3.1P上确有改善。但作为世界领先的模型,G3.1P的幻觉率仍高于GPT-5.2。在信息抽取类问题上,仍有不小概率无法精确完成。在#42年报总结问题中会出现数据丢失,#57单词组合问题也有类似表现,这与模型本身的智力水平极不相称。

赛博史官曰:

自Gemini团队开悟以来,Gemini与GPT系列便始终缠斗不休,从o3斗到GPT-5,再斗到GPT-5.2。GPT系列的看家本领——洞察思考力,也逐渐被Gemini追上并开始局部反超。此外,Gemini早已在多模态领域确立了统治级权威,在生视频和世界模型方面也频繁出招,OpenAI的领先优势被逐一蚕食。

不过,现在断言Gemini已全面领先为时尚早。GPT-5.2毕竟是两个月前的产品,下一代GPT-5.3也已箭在弦上,势必意图夺回第一。北美双雄之间如此激烈的阵地争夺战短期内不会结束,毕竟双方都奔着AGI圣杯而去,产品线与能力越来越相似是可以预期的。最终,北美大陆可能会并存两款超级模型,共分天下。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/22037

(0)
上一篇 2026年2月20日 下午8:16
下一篇 2026年2月21日 上午7:16

相关推荐

  • 西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

    你是否也经历过这样的困境: 论文截稿在即,面对大段的文字,绘制图表和PPT插图却耗费了大量精力; 尝试用AI工具生成图片,结果要么逻辑混乱,要么文字模糊不清; 好不容易调整好了提示词,生成的图片却是一张无法编辑的“死图”。 这种“审美与逻辑难以兼顾、生成与编辑相互割裂”的痛点,如今有望被解决。 现在,你可以将大段的文字材料直接交给 AutoFigure ,这…

    2026年2月22日
    48800
  • 宇树科技发布Unitree As2机器狗:越野性能颠覆想象,仿生大模型赋能智能伙伴

    新年假期刚刚结束,AI与机器人已成为全民热议的焦点。在春晚舞台上,宇树科技的机器人凭借高动态、高协同的全自主集群控制技术,完成了全球首次公开表演,成为备受瞩目的科技明星。 当大众的目光聚焦于宇树的人形机器人时,其最初的产品形态——机器狗,似乎被暂时遗忘。就在昨日,宇树科技正式发布了其最新四足机器人产品:Unitree As2。 Unitree As2集超强越…

    2026年2月25日
    14900
  • 揭秘国内首个真人级AI导师:自研原生教育框架如何实现92.4%完课率

    第一次见到「爱学」前,王佳佳(化名)害怕和老师互动。这个来自安徽阜阳的初三女生,性格内向,在课堂上几乎从不举手。题不会,不敢问,宁愿空着;一被老师点名,就紧张到大脑一片空白。久而久之,数学和英语成了她最不愿面对的两门课。 直到有一天,她开始反复和一个「不会不耐烦」的对象对话。一句没听懂,就一直追问,直到彻底弄清楚。对方有表情,会根据她的反应实时调整讲解节奏,…

    2025年12月29日
    18200
  • 6款AI驱动的开源CLI工具:让终端开发更智能高效

    如果你大部分时间都在终端里工作,你一定知道一个得心应手的命令能省下数小时的工夫。如今,新一代的 CLI 工具正在改变游戏规则——它们将 AI、自动化与简洁性融为一体,让开发工作重新变得高效而有趣。 这里推荐六款我正在使用且非常喜欢的开源 CLI 工具。它们不花哨,但都是能解决实际问题的利器。 1. Qodo Command Qodo Command 就像是终…

    2026年1月2日
    19100
  • 华为码道引爆AI编程革命:2026年“人人可开发”时代来临的深度解析

    华为码道引爆AI编程革命:2026年“人人可开发”时代来临的深度解析(一) 2026年2月26日,华为云正式推出码道(CodeArts)代码智能体公测版。这一发布不仅标志着国内AI编程领域的一次重要技术进展,更被视为推动软件开发向“人人可开发”愿景迈进的关键信号。 华为云码道定位为一个工程化的AI编码平台,其核心并非单一的代码补全工具,而是整合了代码大模型、…

    2026年2月27日
    18800