Grok-4-1-fast-non-reasoning评测:成本骤降69%但准确率暴跌14%,极端优化策略引质疑

XAI近期发布的Grok-4-1-fast模型提供思考模式(reasoning)和非思考模式(non-reasoning)两种版本。本次评测聚焦于非思考模式版本grok-4-1-fast-non-reasoning。相比此前的grok-3-mini版本,新版本在成本控制上实现了显著优化,但准确率却出现大幅下滑。我们对两个版本在准确率、响应时间、Token消耗和成本等关键指标上进行了全面对比。

grok-4-1-fast-non-reasoning版本表现:
* 测试题数:约1.5万
* 总分准确率:47.6%
* 平均耗时(每次调用):60秒
* 平均消耗Token(每次调用):685
* 花费/千次调用(元):1.6

1、新旧版本对比

首先与上个版本(grok-3-mini)进行对比:

Grok-4-1-fast-non-reasoning评测:成本骤降69%但准确率暴跌14%,极端优化策略引质疑
Grok-4-1-fast-non-reasoning评测:成本骤降69%但准确率暴跌14%,极端优化策略引质疑

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

  • 整体性能大幅倒退:新版本准确率从61.7%骤降至47.6%,下降了14.1个百分点,是一次显著的性能倒退。
  • 所有领域全面下滑:从细分领域看,新版本在所有维度均出现显著下降。其中“语言与指令遵从”从68.3%暴跌至44.0%,降幅达24.3个百分点;“推理与数学计算”从62.9%降至45.1%,下降17.8个百分点;“医疗与心理健康”从65.8%降至51.4%,下降14.4个百分点;“金融”从62.4%降至51.5%,下降10.9个百分点;“法律与行政公务”从64.0%降至50.7%,下降13.3个百分点;“教育”从36.7%降至25.9%,下降10.8个百分点。
  • Agent能力微弱优势:唯一的亮点是“agent与工具调用”能力相对稳定,从59.7%降至57.0%,仅下降2.7个百分点,这与官方强调的“针对智能体工具调用优化”定位基本吻合,但整体表现依然不佳。
  • 速度显著提升:每次调用的平均耗时从182秒大幅缩短至60秒,提速约67%,是新版本为数不多的优势之一。
  • 成本控制突破性进展:输出价格从3.625元/M Token略降至3.55元/M Token。得益于Token消耗的大幅减少,每千次调用的费用从5.2元暴降至1.6元,成本下降约69%。

2、对比其他新模型

在当前主流大模型竞争格局中,grok-4-1-fast-non-reasoning表现如何?我们选择了具有代表性的模型进行横向对比分析:

Grok-4-1-fast-non-reasoning评测:成本骤降69%但准确率暴跌14%,极端优化策略引质疑

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比分析
* 超低价档垫底表现:在1-3元/千次的超低成本区间,grok-4-1-fast-non-reasoning(1.6元)的47.6%准确率远低于同档位的hunyuan-turbos-20250926(2元,65.9%),准确率差距高达18.3个百分点,即使在超低价市场也缺乏竞争力。
* 性价比严重失衡:相比成本略高的grok-3-mini(5.2元,61.7%),新版本虽然成本降低69%,但准确率下降14.1个百分点,这种以性能换成本的策略走向了极端,导致产品实用价值大幅缩水。

新旧模型对比
* 新模型质量分化严重:从榜单看,标注(new)的最新模型表现两极分化——顶部的gemini-3-pro-preview(72.5%)、DeepSeek-V3.2-Exp-Think(70.1%)、gpt-5.1-medium(69.3%)等代表了技术前沿,而grok-4-1-fast-non-reasoning(47.6%)则垫底于新模型阵营,显示出产品策略的巨大差异。
* 极端成本优化策略:新版本选择了极端的“成本优先”路线,以牺牲准确率换取成本优势,但47.6%的准确率已接近“不可用”门槛,这种策略的市场前景值得怀疑。

开源VS闭源对比
* 闭源模型中的异类:作为闭源商用模型,grok-4-1-fast-non-reasoning的47.6%准确率不仅远低于主流闭源模型(gemini、doubao、openAI系列均在63%以上),甚至大幅落后于几乎所有开源模型,在闭源阵营中处于极度弱势地位。
* 开源模型碾压性优势:即使是非thinking模式的开源模型,如DeepSeek-V3.1(64.2%,6.5元),其准确率也比grok-4-1-fast-non-reasoning高出16.6个百分点,成本仅高4.9元,开源模型在这个价位段展现出碾压性优势。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14607

(0)
上一篇 2025年11月26日 下午12:50
下一篇 2025年11月26日 下午1:38

相关推荐

  • 评测驱动时代开启:李飞飞World Labs联手光轮智能,破解具身智能规模化评测难题

    最火世界模型,最火具身智能基建,联手了! 前者,是李飞飞旗下的World Labs;后者,是一家炙手可热的仿真合成数据公司——光轮智能。 具身智能生态中最受关注的两家公司双刃合璧,原因无他,正是瞄准困扰行业已久的「规模化评测」问题,发起一波攻势。 而随着这波号角的吹响,也标志着具身智能正式迈入评测驱动时代。 在这个赛道上,光轮智能基于全栈自研仿真技术体系所构…

    2026年1月19日
    6700
  • GAPS框架:全球首个专病循证评测标准,AI医生临床能力迎来硬核标尺

    蚂蚁健康与北京大学人民医院王俊院士团队联合发布全球首个大模型专病循证评测框架 蚂蚁健康与北京大学人民医院王俊院士团队历时6个多月,联合十余位胸外科医生共同打磨,发布了全球首个大模型专病循证能力的评测框架——GAPS (Grounding, Adequacy, Perturbation, Safety) ,及其配套评测集 GAPS-NSCLC-preview。…

    2025年12月29日
    11300
  • 2025年大模型评测工具终极指南:五大工具深度解析与选型策略

    在大模型应用开发中,我们常面临这样的困境:系统上线后,实际表现却未达预期。问题根源何在?如何有效改进?答案往往隐藏在一个至关重要却容易被忽视的环节——评测。 市面上大模型评测工具众多,宣传语诸如“自信交付你的LLM”、“告别猜测游戏”令人眼花缭乱。但究竟什么样的工具才能真正解决问题? 设想一个真实场景:你开发了一个用于自动化处理工作流的大模型应用,投入使用后…

    2025年11月13日
    7500
  • Grok-4-1-fast-reasoning评测:速度与成本的革命性优化,准确率与专业能力的权衡

    XAI近期发布了Grok-4-1-fast模型,官方将其定义为“针对高性能智能体工具调用进行优化的前沿多模态模型”。该模型支持思考模式与非思考模式两种版本。本次评测聚焦于思考模式版本 grok-4-1-fast-reasoning。相比此前的 grok-4-0709 版本,新版本在响应速度上实现了显著优化,但在准确率方面有所下降。我们对这两个版本在准确率、响…

    2025年11月26日
    11100
  • 破解医疗大模型落地难题:构建科学评测体系的三大关键维度

    近年来,大型语言模型正在重塑医疗领域的技术版图。从辅助临床决策到患者健康教育,从医学影像分析到复杂病例推理,这些技术展现出令人瞩目的应用前景。然而,我们也注意到一个关键问题:如何科学、全面地评测这些模型在医疗场景中的真实表现? 这个问题远比表面看起来复杂。医疗领域的特殊性——高风险、强专业性、数据敏感性——使得传统的模型评测方法面临前所未有的挑战。我们需要更…

    2025年11月7日
    6800