成本效率
-
GPT-5.2-high实测:速度飙升69%但准确率下滑,成本效率面临开源模型挑战
OpenAI近期发布了GPT-5.2版本,作为GPT-5系列的最新迭代。我们对GPT-5.2-high(思考模式)与上一版本GPT-5.1-high进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.2-high版本表现:* 测试题数:约1.5万* 总分(准确率):67.4%* 平均耗时(每次调用):36s…
-
DeepSeek-V3.2实测:稀疏注意力机制DSA如何实现推理效率与性能的协同突破
深度求索近期发布了DeepSeek-V3.2版本,这是一款在计算效率、推理能力和智能体性能方面实现协调统一的模型。其高算力变体DeepSeek-V3.2-Speciale在2025年IMO和IOI中均达到了金牌水平。此次评测重点是评测思考模式(Think),其思考模式下的DeepSeek-V3.2(下面简称DeepSeek-V3.2-Think)在多个维度实…
-
ERNIE-5.0思考模式预览版深度评测:推理能力跃升67.5%,但成本激增40倍引发效率挑战
百度近期发布了ERNIE-5.0-Thinking-Preview(思考模式预览版),作为文心系列的新产品,该版本在推理能力上进行了全新探索。我们对这个新版本进行了全面评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现。 ERNIE-5.0-Thinking-Preview版本表现:* 测试题数:约1.5万* 【总分】准确率:67.5%*…
-
超越准确率:揭秘AI Agent评测的三大真相与行为分析革命
当我们谈论AI Agent的性能时,一个百分比数字真的能说明全部问题吗?最近一项针对20,000多次Agent运行的深度研究《Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation》给出了发人深省的答案——远比我们想象的复杂。 这项研究覆盖了9个极具挑战性的…