Grok-4-1-fast-non-reasoning评测：成本骤降69%但准确率暴跌14%，极端优化策略引质疑

2025年11月26日下午12:50 • 大模型评测 • 阅读 532

XAI近期发布的Grok-4-1-fast模型提供思考模式（reasoning）和非思考模式（non-reasoning）两种版本。本次评测聚焦于非思考模式版本grok-4-1-fast-non-reasoning。相比此前的grok-3-mini版本，新版本在成本控制上实现了显著优化，但准确率却出现大幅下滑。我们对两个版本在准确率、响应时间、Token消耗和成本等关键指标上进行了全面对比。

grok-4-1-fast-non-reasoning版本表现：
* 测试题数：约1.5万
* 总分准确率：47.6%
* 平均耗时（每次调用）：60秒
* 平均消耗Token（每次调用）：685
* 花费/千次调用（元）：1.6

1、新旧版本对比

首先与上个版本（grok-3-mini）进行对比：

Grok-4-1-fast-non-reasoning评测：成本骤降69%但准确率暴跌14%，极端优化策略引质疑

数据来源：ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

整体性能大幅倒退：新版本准确率从61.7%骤降至47.6%，下降了14.1个百分点，是一次显著的性能倒退。
所有领域全面下滑：从细分领域看，新版本在所有维度均出现显著下降。其中“语言与指令遵从”从68.3%暴跌至44.0%，降幅达24.3个百分点；“推理与数学计算”从62.9%降至45.1%，下降17.8个百分点；“医疗与心理健康”从65.8%降至51.4%，下降14.4个百分点；“金融”从62.4%降至51.5%，下降10.9个百分点；“法律与行政公务”从64.0%降至50.7%，下降13.3个百分点；“教育”从36.7%降至25.9%，下降10.8个百分点。
Agent能力微弱优势：唯一的亮点是“agent与工具调用”能力相对稳定，从59.7%降至57.0%，仅下降2.7个百分点，这与官方强调的“针对智能体工具调用优化”定位基本吻合，但整体表现依然不佳。
速度显著提升：每次调用的平均耗时从182秒大幅缩短至60秒，提速约67%，是新版本为数不多的优势之一。
成本控制突破性进展：输出价格从3.625元/M Token略降至3.55元/M Token。得益于Token消耗的大幅减少，每千次调用的费用从5.2元暴降至1.6元，成本下降约69%。

2、对比其他新模型

在当前主流大模型竞争格局中，grok-4-1-fast-non-reasoning表现如何？我们选择了具有代表性的模型进行横向对比分析：

数据来源：ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比分析
* 超低价档垫底表现：在1-3元/千次的超低成本区间，grok-4-1-fast-non-reasoning（1.6元）的47.6%准确率远低于同档位的hunyuan-turbos-20250926（2元，65.9%），准确率差距高达18.3个百分点，即使在超低价市场也缺乏竞争力。
* 性价比严重失衡：相比成本略高的grok-3-mini（5.2元，61.7%），新版本虽然成本降低69%，但准确率下降14.1个百分点，这种以性能换成本的策略走向了极端，导致产品实用价值大幅缩水。

新旧模型对比
* 新模型质量分化严重：从榜单看，标注（new）的最新模型表现两极分化——顶部的gemini-3-pro-preview（72.5%）、DeepSeek-V3.2-Exp-Think（70.1%）、gpt-5.1-medium（69.3%）等代表了技术前沿，而grok-4-1-fast-non-reasoning（47.6%）则垫底于新模型阵营，显示出产品策略的巨大差异。
* 极端成本优化策略：新版本选择了极端的“成本优先”路线，以牺牲准确率换取成本优势，但47.6%的准确率已接近“不可用”门槛，这种策略的市场前景值得怀疑。

开源VS闭源对比
* 闭源模型中的异类：作为闭源商用模型，grok-4-1-fast-non-reasoning的47.6%准确率不仅远低于主流闭源模型（gemini、doubao、openAI系列均在63%以上），甚至大幅落后于几乎所有开源模型，在闭源阵营中处于极度弱势地位。
* 开源模型碾压性优势：即使是非thinking模式的开源模型，如DeepSeek-V3.1（64.2%，6.5元），其准确率也比grok-4-1-fast-non-reasoning高出16.6个百分点，成本仅高4.9元，开源模型在这个价位段展现出碾压性优势。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/14607

Grok-4-1-fast-non-reasoning评测：成本骤降69%但准确率暴跌14%，极端优化策略引质疑

1、新旧版本对比

2、对比其他新模型

相关推荐

无需微调，Poetiq元系统让GPT-5.2推理准确率飙升至75%，创ARC-AGI-2新纪录

硬件Bug修复，AI智能体为何“水土不服”？北大HWE-Bench基准揭示残酷真相

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

AI Agent评测体系全景：如何衡量智能体的真实能力？

阿里Qwen3.5-27B实测：270亿参数密集模型杀入前十，成本骤降59%！