响应速度 - 鲸林向海

GPT-5.2实测：速度革命性突破，准确率小幅回退，定位转向实时应用

OpenAI近期发布了GPT-5.2新版本（默认非思考模式），相比此前的GPT-5.1非思考版本，在响应速度上实现了革命性突破，但在准确率方面出现了轻微回退。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.2版本表现：* 测试题数：约1.5万* 总分（准确率）：56.9%* 平均耗时（…

2025年12月13日

244001

大模型评测

腾讯混元HY 2.0 Instruct实测：速度提升109%、成本下降25%，能力结构调整下的性能突围

腾讯混元新发布了HY 2.0系列模型，除了推理版本HY 2.0 Think外，同步推出了非推理版本hunyuan-2.0-instruct-20251111。我们对新版本与上一版本hunyuan-turbos-20250926进行了全面对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 hunyuan-2.0-instruct-…

2025年12月7日

234000

大模型评测

GLM-4.6评测：速度提升40%却难敌豆包与DeepSeek，成本与准确率成致命短板

智谱AI近期发布了GLM-4.6新版本。根据官方介绍，相比GLM-4.5，新版本带来了多项关键改进：上下文窗口从128K扩展至200K tokens，以支持更复杂的智能体任务；代码性能显著提升；推理能力增强，支持在推理过程中调用工具；智能体能力更强，尤其在工具使用和搜索型任务方面表现出色；写作风格也更贴近人类偏好。在这场激烈的竞争中，GLM-4.6交出了一…

2025年10月17日

1.9K000