大模型评测

  • 智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

    智谱AI近期发布了其2025年中的旗舰模型GLM-4.7,该版本的核心定位是强化Agentic Coding能力。 一句话总结:GLM-4.7在文本理解与创意写作方面表现突出,但在复杂代码生成与多模态理解上仍有明显不足,距离成为“Agentic Coding新标杆”尚需努力。 核心评测结论:* 三大亮点: * 基础推理扎实:在数学计算、逻辑推理、文本处理等基…

    2026年1月4日
    57500
  • 大模型编程应用测试-V3榜单:以工程应用标准量化模型能力

    #0 前言 笔者最早的编程测试V1采用传统的3 Pass测试法,25年下半年迭代了更贴近多轮场景的V2测试法。但仅测试3轮的V2方法局限性仍然很大。首先,该方法只观察模型在3轮自主修复中能取得的最终成绩,而实际Agent场景中,编程模型拥有几乎无限的轮次,只要能解决问题即可。其次,V2方法只提供运行结果反馈,不提供工具,而实际Agent可以借助Lint/Co…

    2026年1月3日
    7800
  • Google 刚发布 Gemini 3 Flash,说实话,AI 的经济模型被彻底改写了

    Google 刚发布了 Gemini 3 Flash,老实说?AI 经济学被改写了。 一款“快”模型如何重画价格-性能曲线 你今天早上打开 Gemini app,总觉得哪儿不一样。更快,更锐利。你可能都没注意到更新提示。 Google 把默认模型整个换了。全球范围。你睡觉的时候它就完成了。 这可不常见。公司一般不会一夜之间给几百万个应用换“发动机”。通常会先…

    2026年1月3日
    11400
  • 豆包AI现场激辩罗永浩:实时语音大模型通过“人机舌战”极限公测

    豆包AI现场激辩罗永浩:实时语音大模型通过“人机舌战”极限公测 罗永浩的年度科技创新分享大会,刷屏全网。 复盘整场四个多小时的直播,观众集体回味讨论的焦点似乎就两个: 第一,不知是因为迟到了40多分钟,还是提前就有谋划,罗永浩现场宣布给所有购票观众退票。 第二,罗永浩这张网络名嘴和豆包AI之间的“人机舌战”竟成最大亮点,火爆出圈。 光看二位的辩题,就已火药味…

    2026年1月1日
    15400
  • 阿里Qwen3 Max Preview Think实测:思维链模式带来1.7%准确率提升,代价是成本暴涨396%

    阿里巴巴近期发布了Qwen3-Max-Preview-Think新版本,这是在Qwen3-Max-Preview基础上引入思维链(Thinking)模式的升级版本。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。 Qwen3-Max-Preview-Think版本表现:* 测试题数: 约1.5万* …

    2025年12月30日
    10900
  • SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

    如今,大模型在理解、推理、编程等方面表现突出,但AI的“科学通用能力” (SGI) 尚无统一标准。 SGI强调多学科、长链路、跨模态与严谨可验证性,而现有基准仅覆盖碎片能力 (如学科问答、单步工具操作) ,难以反映真实科研中的循环与自纠错。为此,上海人工智能实验室通过引入实践探究模型 (PIM) ,将科学探究拆解为四个循环阶段,并与AI能力维度对应: 审思/…

    2025年12月27日
    12800
  • 阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点

    阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点 阿里近期发布了Qwen-Plus-Think-2025-12-01新版本,相比此前的Qwen-Plus-Think-2025-07-28版本,在多个维度的表现出现了明显波动。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、Token消耗和成本…

    2025年12月25日
    9500
  • MiniMax-M2.1实测:性能提升4%但响应时间翻倍,成本增加21.6%的深度评测

    MiniMax新发布了M2.1版本,相比此前的M2版本,在多个维度实现了性能变化。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 MiniMax-M2.1版本表现:* 测试题数:约1.5万* 总分(准确率):63.6%* 平均耗时(每次调用):111s* 平均token(每次调用消耗的token)…

    2025年12月24日
    55800
  • 智谱GLM-4.7全面评测:编程专用模型性能跃升,开源优势凸显

    智谱AI昨日开源了其编程专用模型GLM-4.7。相较于前代GLM-4.6版本,新模型在多项关键指标上实现了显著提升。我们对两个版本进行了全面评测,对比了准确率、响应时间、Token消耗及成本等维度。 GLM-4.7版本核心测试数据如下:* 测试题数:约1.5万* 总分(准确率):71.5%* 平均耗时(每次调用):96秒* 平均Token(每次调用):392…

    2025年12月23日
    51000
  • GLM-4.7震撼发布:编程与推理能力全面突破,多项基准测试超越GPT-5.2与Claude 4.5

    经过多日预热,12月22日,智谱AI正式发布新一代旗舰模型GLM-4.7。该模型在编程和复杂推理能力上实现重大突破,旨在对标当前顶尖闭源模型。 基准测试表现亮眼 根据官方信息,GLM-4.7在编程、复杂推理和工具使用方面均有显著提升,同时在聊天、创意写作和角色扮演等场景下的能力也有所增强。 官方公布的测试结果显示,GLM-4.7在多项关键基准测试中表现优异:…

    2025年12月23日
    54400