大模型评测

  • SWE-Bench:从1.96%到72.8%,AI编程能力的革命性突破与未来展望

    2024年初,最先进的AI模型仅能解决不到2%的真实世界编程问题。如今,这一数字已飙升至72.8%。实现这一革命性突破的关键,是普林斯顿大学与芝加哥大学联合发布、发表于ICLR 2024的基准测试——SWE-bench(《SWE-bench: Can Language Models Resolve Real-World GitHub Issues?》)。 一…

    2025年11月5日
    6900
  • MiniMax-M2实测揭秘:轻量级MoE架构如何实现性能飙升与成本锐减

    Minimax近期发布了MiniMax-M2新版本,这是一款轻量、快速且极具成本效益的MoE模型(230B总参数,10B激活参数),专为Max级编码与智能体打造。相比上一代MiniMax-M1,新版本在多个维度实现了性能优化。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 MiniMax-M2版本…

    2025年11月4日
    9100
  • AI Agent评测体系全景:如何衡量智能体的真实能力?

    在AI Agent领域,我们正见证一场从“数量竞赛”到“质量较量”的深刻转变。 从年初Manus的横空出世,到最近Genspark Super Agent的火爆登场,通用智能体的能力边界不断被刷新。与此同时,扣子、腾讯元器等平台上涌现出成千上万个垂直领域Agent。这让我们不得不思考一个核心问题:当企业将Agent作为核心竞争力时,究竟应该追求“万能工具箱”…

    2025年10月31日
    7600
  • 超越准确率:揭秘AI Agent评测的三大真相与行为分析革命

    当我们谈论AI Agent的性能时,一个百分比数字真的能说明全部问题吗?最近一项针对20,000多次Agent运行的深度研究《Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation》给出了发人深省的答案——远比我们想象的复杂。 这项研究覆盖了9个极具挑战性的…

    2025年10月30日
    7800
  • RAG系统评测全攻略:五大核心指标与三种方法深度解析

    在构建RAG系统时,如何科学地评测系统效果是每个开发者都会面临的挑战。一个优秀的RAG系统不仅要能检索到相关信息,还要能准确理解用户意图并生成可靠的答案。本文将带你深入了解RAG系统的评测体系,从核心指标到实战落地,帮助你建立起完整的评测方法论。 一、为什么需要科学的评测体系? RAG系统本质上包含三个核心环节:理解用户问题、检索相关文档、生成最终答案。每个…

    2025年10月28日
    7300
  • DeepEval开源方案:用LLM合成数据,90%成本锐减,评测效率飙升

    测试LLM输出效果,离不开大量数据集。从零开始准备这些数据,费时、烧钱,还特别折腾。但现在情况不一样了:以前要花几周手工打造的数千条测试用例,现在几分钟就搞定。 合成数据生成的核心思路很简单:让LLM自己造数据,省掉收集、清洗、标注这些苦力活。有了GPT-4等这样的模型,合成出来的数据集比人工标注的更全面、更多样,速度还快得多。这些数据可以用来给LLM系统做…

    2025年10月24日
    7500
  • LLM应用评测全指南:核心指标、基准测试与实践方法

    手动抽查提示词和输出,既慢又容易遗漏,长期来看难以持续。要确保 LLM 应用上线后稳定可靠,必须将评估过程自动化、流水线化。本文旨在全面解析 LLM 评测的各个方面,帮助你构建长期稳定运行的 LLM 应用。 对 LLM 进行评测,是确保其输出符合人类预期的关键环节,涉及伦理安全、准确性、相关性等多个维度。从工程实践角度看,LLM 的输出可被转化为一系列单元测…

    2025年10月22日
    8000
  • GLM-4.6评测:速度提升40%却难敌豆包与DeepSeek,成本与准确率成致命短板

    智谱AI近期发布了GLM-4.6新版本。根据官方介绍,相比GLM-4.5,新版本带来了多项关键改进:上下文窗口从128K扩展至200K tokens,以支持更复杂的智能体任务;代码性能显著提升;推理能力增强,支持在推理过程中调用工具;智能体能力更强,尤其在工具使用和搜索型任务方面表现出色;写作风格也更贴近人类偏好。 在这场激烈的竞争中,GLM-4.6交出了一…

    2025年10月17日
    39800
  • 腾讯混元turbos新版实测:Agent能力暴跌25.7%,2元成本颠覆行业性价比格局

    腾讯近期发布了混元turbos系列的最新迭代版本 hunyuan-turbos-20250926。官方介绍称,新版本在预训练底座数据质量和后训练(post-train)策略上实现突破,旨在持续提升Agent、英语小语种、指令遵循、代码及理科能力。数据显示,其理科类能力平均提升10.9%(数学提升13.8%,逻辑推理提升12.3%),文科类写作、指令遵循、知识…

    2025年10月17日
    7200
  • Kimi K2 ToolCall性能大揭秘:12家服务商评测结果出炉,开源测试集助力API一致性优化

    自 Kimi K2 发布以来,Kimi开放平台收到了大量关于模型 ToolCall(工具调用)可靠性的反馈。我们观察到,这些反馈背后的主要原因是,不同 API 服务商采用的 Kimi K2 推理方案在 ToolCall 性能上存在显著差异。 用户在选择 API 服务商时,往往优先考虑延迟和成本,却可能无意中忽略了更微妙却关键的模型精度差异。 因此,Kimi开…

    2025年10月16日
    7800