成本效率
-
Gemini 3.1 Pro震撼发布:推理能力翻倍,成本效率双突破,AI竞赛进入新阶段
今天,Google正式推出Gemini 3.1 Pro。在评估模型解决全新逻辑模式能力的ARC-AGI-2基准测试中,其得分达到77.1%,相较前代Gemini 3 Pro的31.1%实现了翻倍以上的飞跃。 具体基准测试表现 根据详细测试数据,Gemini 3.1 Pro在多个关键领域取得显著突破: 智能工具使用:能力提升82%,在APEX-Agents测试…
-
MiniMax M2.5中文场景实测:准确率提升2.1%,响应速度翻倍,成本效率比优化
MiniMax在春节假期前发布了MiniMax M2.5新版本,官方表示该模型经过数十万个真实复杂环境中的大规模强化学习训练,在编程、工具调用和搜索、办公等生产力场景达到了行业前沿水平。我们对MiniMax M2.5与上一代MiniMax M2.1进行了全面的中文场景对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 需要说明的…
-
MiniMax M2.5全面评测:中文场景性能跃升,Agent能力暴涨10.6%,成本效率比显著优化
MiniMax在春节假期前发布了MiniMax M2.5新版本。官方表示,该模型经过数十万个真实复杂环境中的大规模强化学习训练,在编程、工具调用和搜索、办公等生产力场景达到了行业前沿水平。我们对MiniMax M2.5与上一代MiniMax M2.1进行了全面的中文场景对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 本次评测…
-
GPT-5.2-high实测:速度飙升69%但准确率下滑,成本效率面临开源模型挑战
OpenAI近期发布了GPT-5.2版本,作为GPT-5系列的最新迭代。我们对GPT-5.2-high(思考模式)与上一版本GPT-5.1-high进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.2-high版本表现:* 测试题数:约1.5万* 总分(准确率):67.4%* 平均耗时(每次调用):36s…
-
DeepSeek-V3.2实测:稀疏注意力机制DSA如何实现推理效率与性能的协同突破
深度求索近期发布了DeepSeek-V3.2版本,这是一款在计算效率、推理能力和智能体性能方面实现协调统一的模型。其高算力变体DeepSeek-V3.2-Speciale在2025年IMO和IOI中均达到了金牌水平。此次评测重点是评测思考模式(Think),其思考模式下的DeepSeek-V3.2(下面简称DeepSeek-V3.2-Think)在多个维度实…
-
ERNIE-5.0思考模式预览版深度评测:推理能力跃升67.5%,但成本激增40倍引发效率挑战
百度近期发布了ERNIE-5.0-Thinking-Preview(思考模式预览版),作为文心系列的新产品,该版本在推理能力上进行了全新探索。我们对这个新版本进行了全面评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现。 ERNIE-5.0-Thinking-Preview版本表现:* 测试题数:约1.5万* 【总分】准确率:67.5%*…
-
超越准确率:揭秘AI Agent评测的三大真相与行为分析革命
当我们谈论AI Agent的性能时,一个百分比数字真的能说明全部问题吗?最近一项针对20,000多次Agent运行的深度研究《Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation》给出了发人深省的答案——远比我们想象的复杂。 这项研究覆盖了9个极具挑战性的…
