谷歌近期发布了Gemini-3-pro-preview新版本,官方称其在推理能力和多模态能力上达到最先进水平,在所有主要AI基准评测中显著超越Gemini-2.5-pro。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。
Gemini-3-pro-preview版本表现:
* 测试题数:约1.5万
* 【总分】准确率:72.5%
* 平均耗时(每次调用):64s
* 平均消耗token(每次调用):3119
* 花费/千次调用(元):247.3
1、新旧版本对比
首先对比上个版本(gemini-2.5-pro),数据如下:


- 历史性突破,终结豆包霸榜时代:新版本准确率从68.9%跃升至72.5%,提升了3.6个百分点,排名从第7位一举跃升至第1位,成为新的王者。
- 专业能力大幅跃升:从细分领域来看,新版本在几乎所有维度都实现了显著提升。最突出的是“教育”领域,从49.1%大幅提升至64.8%,增幅高达15.7个百分点;“医疗与心理健康”从77.8%提升至89.5%(+11.7%);“推理与数学计算能力”从72.2%提升至81.8%(+9.6%),印证了官方关于“PhD级别推理能力”的说法。
- 部分领域出现回退:值得注意的是,新版本在“语言与指令遵从”领域从70.6%下降至67.5%(-3.1%),“agent与工具调用”也从61.0%下降至58.6%(-2.4%),表明在多模态推理能力大幅提升的同时,基础语言理解能力有所权衡。
- 成本激增31%:每千次调用的费用从189元大幅增加至247.3元,增幅达30.9%。虽然token消耗仅增加11%(从2810到3119),但输出价格从72.5元/M token上调至85.2元/M token,涨幅达17.5%,成为目前评测中成本最高的商用模型。
- 响应速度略有优化:新版本的平均耗时从67s缩短至64s,提升约4.5%,在保证准确率大幅提升的同时实现了速度的小幅优化,体现了工程化能力的进步。
2、对比其他新模型
在当前主流大模型竞争格局中,Gemini-3-pro-preview作为新晋榜首表现如何?我们从同成本档位、新旧模型更替、开源VS闭源三个维度进行横向对比分析:

维度一:同成本档位对比
* 最昂贵的榜首模型:Gemini-3-pro-preview以247.3元/千次的成本成为当前评测中最贵的模型,是第二名豆包(15.6元)的近16倍,比同为商用闭源的GPT-5.1-medium(87.9元)贵2.8倍,甚至比旧版本gemini-2.5-pro(189元)还要贵31%。
* 成本效能比分析:虽然准确率领先豆包0.8个百分点,但成本高出15.9倍;领先DeepSeek-V3.2-Exp-Think 2.4个百分点,成本却高出40倍。每提升1个百分点准确率,Gemini-3-pro-preview需要额外付出约310元成本,而豆包仅需约22元,成本效能比相差14倍。
* 商用场景挑战:在追求极致准确率的科研场景中,247.3元的成本或许可以接受,但对于日常商用场景,这一成本水平将严重限制其大规模应用的可能性。
维度二:新旧模型更替
* 终结霸榜传奇:自7月豆包doubao-seed系列登顶以来,该系列期间经历多次迭代升级始终稳居第一。Gemini-3-pro-preview的出现,终于打破了这一纪录。
* 响应速度对比:豆包的37s响应时间比Gemini-3-pro-preview的64s快73%,在实际用户体验上具有明显优势。这意味着在某些对实时性要求较高的场景,豆包可能依然是更优选择。
* 各有千秋的技术路线:Gemini-3-pro-preview凭借谷歌的技术积累在多模态推理上实现突破,而豆包则在thinking模式下保持了成本与性能的最佳平衡,两者代表了当前大模型发展的不同技术路径。
维度三:开源VS闭源
* 闭源模型仍占据性能制高点:前4名中有3个为闭源商用模型,最强开源模型DeepSeek-V3.2-Exp-Think以70.1%位列第3,与榜首差距2.4个百分点。这表明在绝对性能上,闭源模型依然保持领先。
* 开源模型的成本优势:DeepSeek-V3.2-Exp-Think仅需6.1元/千次,是Gemini-3-pro-preview(247.3元)的2.5%,是豆包(15.6元)的39%。在预算受限的场景下,开源模型展现出巨大的成本优势。
* 响应时间的巨大差异:DeepSeek-V3.2-Exp-Think的248s响应时间是Gemini-3-pro-preview(64s)的3.9倍,是豆包(37s)的6.7倍。开源模型在推理速度上的短板依然明显,这可能源于资源限制。
* 不同场景的最优选择:追求极致准确率且不计成本的场景选Gemini-3-pro-preview,追求性能与成本平衡的商用场景选豆包,预算极度有限或需要本地部署的场景选DeepSeek等开源方案,市场呈现出明显的分层格局。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14611
