大模型评测

SWE-Bench：从1.96%到72.8%，AI编程能力的革命性突破与未来展望

2024年初，最先进的AI模型仅能解决不到2%的真实世界编程问题。如今，这一数字已飙升至72.8%。实现这一革命性突破的关键，是普林斯顿大学与芝加哥大学联合发布、发表于ICLR 2024的基准测试——SWE-bench（《SWE-bench: Can Language Models Resolve Real-World GitHub Issues?》）。一…

2025年11月5日

235000

大模型评测

GLM-4.6评测：速度提升40%却难敌豆包与DeepSeek，成本与准确率成致命短板

智谱AI近期发布了GLM-4.6新版本。根据官方介绍，相比GLM-4.5，新版本带来了多项关键改进：上下文窗口从128K扩展至200K tokens，以支持更复杂的智能体任务；代码性能显著提升；推理能力增强，支持在推理过程中调用工具；智能体能力更强，尤其在工具使用和搜索型任务方面表现出色；写作风格也更贴近人类偏好。在这场激烈的竞争中，GLM-4.6交出了一…

2025年10月17日

2.2K000

大模型评测

腾讯混元turbos新版实测：Agent能力暴跌25.7%，2元成本颠覆行业性价比格局

腾讯近期发布了混元turbos系列的最新迭代版本 hunyuan-turbos-20250926。官方介绍称，新版本在预训练底座数据质量和后训练（post-train）策略上实现突破，旨在持续提升Agent、英语小语种、指令遵循、代码及理科能力。数据显示，其理科类能力平均提升10.9%（数学提升13.8%，逻辑推理提升12.3%），文科类写作、指令遵循、知识…

2025年10月17日

664000

大模型评测

Kimi K2 ToolCall性能大揭秘：12家服务商评测结果出炉，开源测试集助力API一致性优化

自 Kimi K2 发布以来，Kimi开放平台收到了大量关于模型 ToolCall（工具调用）可靠性的反馈。我们观察到，这些反馈背后的主要原因是，不同 API 服务商采用的 Kimi K2 推理方案在 ToolCall 性能上存在显著差异。用户在选择 API 服务商时，往往优先考虑延迟和成本，却可能无意中忽略了更微妙却关键的模型精度差异。因此，Kimi开…

2025年10月16日

364000