Gemini-3-pro登顶AI评测榜首:性能飞跃31%成本激增,终结豆包250天霸榜神话

谷歌近期发布了Gemini-3-pro-preview新版本,官方称其在推理能力和多模态能力上达到最先进水平,在所有主要AI基准评测中显著超越Gemini-2.5-pro。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

Gemini-3-pro-preview版本表现:
* 测试题数:约1.5万
* 【总分】准确率:72.5%
* 平均耗时(每次调用):64s
* 平均消耗token(每次调用):3119
* 花费/千次调用(元):247.3

1、新旧版本对比

首先对比上个版本(gemini-2.5-pro),数据如下:

Gemini-3-pro登顶AI评测榜首:性能飞跃31%成本激增,终结豆包250天霸榜神话
Gemini-3-pro登顶AI评测榜首:性能飞跃31%成本激增,终结豆包250天霸榜神话

  • 历史性突破,终结豆包霸榜时代:新版本准确率从68.9%跃升至72.5%,提升了3.6个百分点,排名从第7位一举跃升至第1位,成为新的王者。
  • 专业能力大幅跃升:从细分领域来看,新版本在几乎所有维度都实现了显著提升。最突出的是“教育”领域,从49.1%大幅提升至64.8%,增幅高达15.7个百分点;“医疗与心理健康”从77.8%提升至89.5%(+11.7%);“推理与数学计算能力”从72.2%提升至81.8%(+9.6%),印证了官方关于“PhD级别推理能力”的说法。
  • 部分领域出现回退:值得注意的是,新版本在“语言与指令遵从”领域从70.6%下降至67.5%(-3.1%),“agent与工具调用”也从61.0%下降至58.6%(-2.4%),表明在多模态推理能力大幅提升的同时,基础语言理解能力有所权衡。
  • 成本激增31%:每千次调用的费用从189元大幅增加至247.3元,增幅达30.9%。虽然token消耗仅增加11%(从2810到3119),但输出价格从72.5元/M token上调至85.2元/M token,涨幅达17.5%,成为目前评测中成本最高的商用模型。
  • 响应速度略有优化:新版本的平均耗时从67s缩短至64s,提升约4.5%,在保证准确率大幅提升的同时实现了速度的小幅优化,体现了工程化能力的进步。

2、对比其他新模型

在当前主流大模型竞争格局中,Gemini-3-pro-preview作为新晋榜首表现如何?我们从同成本档位、新旧模型更替、开源VS闭源三个维度进行横向对比分析:

Gemini-3-pro登顶AI评测榜首:性能飞跃31%成本激增,终结豆包250天霸榜神话

维度一:同成本档位对比
* 最昂贵的榜首模型:Gemini-3-pro-preview以247.3元/千次的成本成为当前评测中最贵的模型,是第二名豆包(15.6元)的近16倍,比同为商用闭源的GPT-5.1-medium(87.9元)贵2.8倍,甚至比旧版本gemini-2.5-pro(189元)还要贵31%。
* 成本效能比分析:虽然准确率领先豆包0.8个百分点,但成本高出15.9倍;领先DeepSeek-V3.2-Exp-Think 2.4个百分点,成本却高出40倍。每提升1个百分点准确率,Gemini-3-pro-preview需要额外付出约310元成本,而豆包仅需约22元,成本效能比相差14倍。
* 商用场景挑战:在追求极致准确率的科研场景中,247.3元的成本或许可以接受,但对于日常商用场景,这一成本水平将严重限制其大规模应用的可能性。

维度二:新旧模型更替
* 终结霸榜传奇:自7月豆包doubao-seed系列登顶以来,该系列期间经历多次迭代升级始终稳居第一。Gemini-3-pro-preview的出现,终于打破了这一纪录。
* 响应速度对比:豆包的37s响应时间比Gemini-3-pro-preview的64s快73%,在实际用户体验上具有明显优势。这意味着在某些对实时性要求较高的场景,豆包可能依然是更优选择。
* 各有千秋的技术路线:Gemini-3-pro-preview凭借谷歌的技术积累在多模态推理上实现突破,而豆包则在thinking模式下保持了成本与性能的最佳平衡,两者代表了当前大模型发展的不同技术路径。

维度三:开源VS闭源
* 闭源模型仍占据性能制高点:前4名中有3个为闭源商用模型,最强开源模型DeepSeek-V3.2-Exp-Think以70.1%位列第3,与榜首差距2.4个百分点。这表明在绝对性能上,闭源模型依然保持领先。
* 开源模型的成本优势:DeepSeek-V3.2-Exp-Think仅需6.1元/千次,是Gemini-3-pro-preview(247.3元)的2.5%,是豆包(15.6元)的39%。在预算受限的场景下,开源模型展现出巨大的成本优势。
* 响应时间的巨大差异:DeepSeek-V3.2-Exp-Think的248s响应时间是Gemini-3-pro-preview(64s)的3.9倍,是豆包(37s)的6.7倍。开源模型在推理速度上的短板依然明显,这可能源于资源限制。
* 不同场景的最优选择:追求极致准确率且不计成本的场景选Gemini-3-pro-preview,追求性能与成本平衡的商用场景选豆包,预算极度有限或需要本地部署的场景选DeepSeek等开源方案,市场呈现出明显的分层格局。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14611

(0)
上一篇 2025年11月25日 上午11:57
下一篇 2025年11月25日 下午3:28

相关推荐

  • 大模型评测的演进之路:从静态指标到动态验证(2025)【Benchmarks解读】

    在人工智能快速迭代的今天,大型语言模型(LLM)的能力边界不断拓展。从最初的文本生成,到如今的复杂推理、多模态理解、智能体协作,模型能力的跃升令人瞩目。然而,一个更为关键的问题浮出水面:我们真的知道如何准确衡量这些模型的能力吗? 评测基准的发展轨迹,恰恰映射着整个行业对“智能”理解的演进。本文将系统梳理当前大模型评测的全景图谱,分享在实践中的洞察,并探讨未来…

    2025年11月11日
    8000
  • 腾讯混元HY 2.0 Think深度评测:思考能力初显,但前端实现仍欠火候

    混元大模型近期推出了HY 2.0 Think版本,其核心特性是深度思考能力。我们使用一套前端评测用例,对其代码生成能力进行了测试。 常规用例评测 这部分用例与之前的DeepSeek V3.2评测保持一致,旨在快速评估其整体水平。 (1) 复古打印机 核心功能完整实现,打字效果富有节奏感。卡片拖拽功能正常,页面风格也体现了复古韵味。 (2) 双栏响应式Hero…

    2025年12月10日
    18200
  • SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

    如今,大模型在理解、推理、编程等方面表现突出,但AI的“科学通用能力” (SGI) 尚无统一标准。 SGI强调多学科、长链路、跨模态与严谨可验证性,而现有基准仅覆盖碎片能力 (如学科问答、单步工具操作) ,难以反映真实科研中的循环与自纠错。为此,上海人工智能实验室通过引入实践探究模型 (PIM) ,将科学探究拆解为四个循环阶段,并与AI能力维度对应: 审思/…

    2025年12月27日
    12300
  • 破解医疗大模型落地难题:构建科学评测体系的三大关键维度

    近年来,大型语言模型正在重塑医疗领域的技术版图。从辅助临床决策到患者健康教育,从医学影像分析到复杂病例推理,这些技术展现出令人瞩目的应用前景。然而,我们也注意到一个关键问题:如何科学、全面地评测这些模型在医疗场景中的真实表现? 这个问题远比表面看起来复杂。医疗领域的特殊性——高风险、强专业性、数据敏感性——使得传统的模型评测方法面临前所未有的挑战。我们需要更…

    2025年11月7日
    6700
  • FysicsWorld:全球首个物理世界全模态评测基准,开启AI感知真实环境新纪元

    近年来,多模态大语言模型正经历快速的范式转变,研究焦点转向构建能够统一处理和生成跨语言、视觉、音频等多种感官模态信息的全模态大模型。这类模型的目标不仅是感知全模态内容,更要将视觉理解与生成整合进统一架构,实现模态间的协同交互。 这一转变的驱动力源于真实物理世界的复杂性。人类自文明诞生以来,正是通过对视觉线索、听觉信号、空间动态等复杂多模态信息的持续观察、分析…

    2025年12月28日
    9000