成本分析 - 鲸林向海

Grok-4-1-fast-reasoning评测：速度与成本的革命性优化，准确率与专业能力的权衡

XAI近期发布了Grok-4-1-fast模型，官方将其定义为“针对高性能智能体工具调用进行优化的前沿多模态模型”。该模型支持思考模式与非思考模式两种版本。本次评测聚焦于思考模式版本 grok-4-1-fast-reasoning。相比此前的 grok-4-0709 版本，新版本在响应速度上实现了显著优化，但在准确率方面有所下降。我们对这两个版本在准确率、响…

2025年11月26日

287000

大模型评测

Gemini-3-pro登顶AI评测榜首：性能飞跃31%成本激增，终结豆包250天霸榜神话

谷歌近期发布了Gemini-3-pro-preview新版本，官方称其在推理能力和多模态能力上达到最先进水平，在所有主要AI基准评测中显著超越Gemini-2.5-pro。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 Gemini-3-pro-preview版本表现：* 测试题数：约1.5万* …

2025年11月25日

192000

大模型评测

GPT-5.1-medium深度评测：思考模式性能飙升，但成本激增175%引关注

OpenAI近期发布了GPT-5.1系列新版本，其中GPT-5.1-medium作为思考模式（thinking）的代表产品，在性能上实现了显著提升。官方强调该系列“在简单任务上反应更快，在复杂任务上思考更久”，并优化了对话自然度和情感共鸣。我们对GPT-5.1-medium与此前的GPT-5进行了全面对比评测，测试其在准确率、响应时间、token消耗和成本等…

2025年11月21日

186000

大模型评测

GPT-5.1性能评测：准确率骤降11.3%，OpenAI的“情绪价值”战略代价几何？

OpenAI近期发布了GPT-5.1新版本，主打更自然的对话体验和情感共鸣能力。值得注意的是，官方此次并未公布传统基准测试结果，而是强调“优秀的人工智能不仅应该是聪明的，而且应该提供令人愉快的交谈”。我们对GPT-5.1（默认非思考模式）与此前的GPT-5进行了全面对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.…

2025年11月20日

181000

大模型评测

GLM-4.6评测：速度提升40%却难敌豆包与DeepSeek，成本与准确率成致命短板

智谱AI近期发布了GLM-4.6新版本。根据官方介绍，相比GLM-4.5，新版本带来了多项关键改进：上下文窗口从128K扩展至200K tokens，以支持更复杂的智能体任务；代码性能显著提升；推理能力增强，支持在推理过程中调用工具；智能体能力更强，尤其在工具使用和搜索型任务方面表现出色；写作风格也更贴近人类偏好。在这场激烈的竞争中，GLM-4.6交出了一…

2025年10月17日

1.9K000