美团LongCat-Flash-Thinking-2601实测:5600亿参数MoE推理模型,免费但响应慢6倍?

美团近期发布了LongCat-Flash-Thinking-2601模型,作为一款基于MoE架构的5600亿参数大型推理模型,官方宣称其在智能体任务上有显著提升。我们对该模型进行了全面评测,测试其在准确率、响应时间、Token消耗等关键指标上的实际表现。

LongCat-Flash-Thinking-2601版本表现:
* 测试题数: 约1.5万
* 总分(准确率): 66.8%
* 平均耗时(每次调用): 376s
* 平均Token(每次调用消耗): 4484
* 平均花费(每千次调用): 0元(免费)

1、对比同类免费思考模型

由于LongCat-Flash-Thinking-2601是美团首个上榜模型,没有历史版本可供对比。我们选择同样免费的思考模型智谱GLM-4.5-Flash作为参照。

美团LongCat-Flash-Thinking-2601实测:5600亿参数MoE推理模型,免费但响应慢6倍? 美团LongCat-Flash-Thinking-2601实测:5600亿参数MoE推理模型,免费但响应慢6倍?
数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

  • 准确率优势明显: LongCat-Flash-Thinking-2601以66.8%的准确率超越GLM-4.5-Flash的63.0%,领先3.8个百分点。
  • 教育领域差距大: 在细分能力上,最显著的差异出现在“教育”领域,LongCat-Flash-Thinking-2601以47.3%大幅领先GLM-4.5-Flash的29.6%,差距达17.7个百分点,表明其在知识问答类任务上有更强的理解能力。
  • 医疗与金融能力突出: LongCat-Flash-Thinking-2601在“医疗与心理健康”(78.5% vs 73.3%)和“金融”(79.8% vs 70.3%)两个领域分别领先5.2和9.5个百分点,专业领域的表现更好。
  • 推理能力差距显著: 在“推理与数学计算”方面,LongCat-Flash-Thinking-2601以72.8%超越GLM-4.5-Flash的61.5%,领先11.3个百分点,体现了思维链训练带来的推理增强效果。
  • 语言理解能力略逊: 值得注意的是,在“语言与指令遵从”维度上,LongCat-Flash-Thinking-2601以56.5%落后于GLM-4.5-Flash的65.5%,差距达9.0个百分点,这表明在精确指令执行方面仍有优化空间。
  • 响应速度显著偏慢: LongCat-Flash-Thinking-2601平均耗时376s,是GLM-4.5-Flash(63s)的约6倍。这一响应时间在实际应用中可能影响用户体验,尤其是对于需要快速交互的场景。
  • Token消耗更高: LongCat-Flash-Thinking-2601每次调用平均消耗4484个Token,比GLM-4.5-Flash的3171高出约41%,反映出其更深度的思维链推理过程。

2、对比其他新模型

在当前主流大模型竞争格局中,LongCat-Flash-Thinking-2601表现如何?我们选择了具有代表性的模型进行横向对比分析。

美团LongCat-Flash-Thinking-2601实测:5600亿参数MoE推理模型,免费但响应慢6倍?
数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比
* 免费模型中的竞争者: 作为免费模型,LongCat-Flash-Thinking-2601在成本上具有天然优势。但在免费或低成本区间,豆包doubao-seed-1-8-251215以71.7%的准确率和7.3元/千次的成本表现更为均衡。
* 时间效率待提升: 虽然完全免费,但376s的响应时间大幅拉长了单次任务的等待成本。相比之下,grok-4-1-fast-reasoning在64.3%准确率档位,却仅需62s响应时间和8.1元/千次成本,时间效率更高。

新旧模型对比
* 与顶尖模型差距明显: 当前榜首gemini-3-pro-preview以72.5%准确率领先LongCat-Flash-Thinking-2601约5.7个百分点,且响应时间仅64s,综合体验更优。
* 思考模型赛道竞争激烈: 在思考类模型中,腾讯hunyuan-2.0-thinking-20251109以71.9%准确率、28s响应时间和9.5元/千次成本,在各维度都优于LongCat-Flash-Thinking-2601。豆包doubao-seed-1-6-thinking-250715更是以71.7%准确率和37s响应时间成为该赛道的标杆。
* 智谱产品线对比: 相比智谱的GLM-4.7(68.1%,59s,37.6元)和GLM-4.6(68.1%,59s,37.6元),LongCat-Flash-Thinking-2601在准确率上略有差距,但免费策略形成差异化竞争。

开源VS闭源对比
* 开源阵营中等水平: 作为开源模型,LongCat-Flash-Thinking-2601的66.8%准确率在开源模型中处于中等偏上位置,超越了DeepSeek-R1-0528(65.9%)和qwen3-235b-a22b-thinking-2507(65.5%)。
* 与闭源头部差距存在: 对比商用闭源模型如o4-mini(69.0%,35s)和gpt-5-2025-08-07(68.9%,72s),LongCat-Flash-Thinking-2601在准确率和响应速度上仍存在差距,但免费使用策略为开发者提供了低门槛的尝试机会。
* DeepSeek系列表现更优: 同为开源的DeepSeek-V3.2-Think(70.9%,144s)和DeepSeek-V3.2-Exp-Think(70.1%,248s)在准确率上明显领先,尽管响应时间也较长。

3、官方评测

根据官方页面披露的信息,LongCat-Flash-Thinking-2601在官方评测中展现了以下特点:

架构与训练特色
* 大规模MoE架构: 模型总参数5600亿,激活参数270亿,采用混合专家架构实现高效推理。
* 多环境强化学习: 官方强调通过环境扩展和多环境强化学习增强智能体思考能力,每个训练环境包含60+工具形成的依赖图谱。
* 噪声鲁棒训练: 针对真实世界任务中的不确定性,采用课程学习策略逐步增加环境噪声类型和强度,提升模型在非理想条件下的稳定性。

官方基准表现
美团LongCat-Flash-Thinking-2601实测:5600亿参数MoE推理模型,免费但响应慢6倍?
* 代码能力: LCB评测82.8%,OIBench EN评测47.7%,与GLM-4.7-Thinking(84.8%、30.8%)和DeepSeek-V3.2-Thinking(82.4%、43.3%)处于同一水平。
* 数学推理: AIME-25评测中标准模式99.6%、重思维模式达到100%满分,IMO-AnswerBench标准模式78.6%、重思维模式86.8%,数学能力是该模型的强项。
* 智能体工具调用: τ²-Bench平均88.2%,VitaBench达29.3%,在工具调用任务上表现较好。
* 智能体搜索: BrowseComp评测56.6%(含上下文管理技术后达73.1%),RW Search评测79.5%,搜索能力在对比模型中处于前列。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/19127

(0)
上一篇 2026年1月23日 上午11:53
下一篇 2026年1月23日 下午2:05

相关推荐

  • PaddleOCR-VL-1.5:0.9B参数超越GPT-5.2,异形文档识别新标杆

    现阶段,互联网上的公开文本数据已被大模型消耗殆尽,高质量文本数据趋于枯竭,AI 的发展面临瓶颈。 要进一步迭代优化,就必须从真实世界中获取更多高质量数据。海量的学术论文、复杂的金融报表、尘封的历史档案等非结构化文档蕴含着极高密度的专业知识,却因物理形态的阻隔,难以被 AI 有效利用。 因此,未来的 OCR 文字识别技术,或将成为向 AI 输送高质量「数据燃料…

    2026年1月30日
    37800
  • 自动驾驶范式迁移:从数据闭环到训练闭环的深度技术解析

    在自动驾驶技术发展的关键转折点,行业正经历一场深刻的范式迁移。端到端架构虽曾统一技术栈并释放Scaling Law潜力,但随着数据瓶颈日益凸显,单纯依赖模仿学习已难以突破人类司机能力上限。ICCV 2025的最新动向显示,头部企业正形成共识:强化学习与云端生成式世界模型将成为下一代自动驾驶系统的核心基座。 特斯拉与理想汽车在顶会现场的实践分享,揭示了这一转型…

    2025年11月8日
    36700
  • AI重塑跨境电商:1688“遨虾”如何用智能体重构B2B供应链三环节

    在AI技术从概念验证迈向产业落地的关键阶段,B2B领域正成为价值创造的前沿阵地。作为中国最大的B2B供应链平台,阿里巴巴旗下1688近期推出的跨境电商AI智能体“遨虾”(alphashop.cn),标志着AI正从辅助工具升级为核心生产力引擎。本文将从技术架构、产业影响和商业逻辑三个维度,深入分析这一变革如何重构跨境电商的选品、采购、上架全流程。 **一、技术…

    2025年12月7日
    96100
  • 揭秘Promptware:大模型安全新威胁的“五步杀链”

    当你用企业大模型处理邮件、分析数据乃至控制智能办公设备时,可能尚未意识到——针对大模型的攻击早已超越了“让模型说脏话”的初级阶段。 近期,一项由顶尖安全专家进行的研究揭示:针对大模型的攻击已演变为完整的“恶意软件”形态,研究者将其命名为“Promptware”(提示恶意软件)。这类攻击不再是单次的“提示注入”,而是像Stuxnet、NotPetya等传统高级…

    2026年1月23日
    58100
  • 鸿蒙AI操作系统:打破应用壁垒,迈向L3级智能协同新纪元

    2025年无疑是终端AI全面爆发的元年,整个产业迎来了继功能机向智能机跃迁后的又一个十字路口。 这场跃迁是一次商业模式与交互逻辑的根本性重塑,智能机时代以APP为中心的被动服务模式,正在向以AI智能体为中心的主动服务模式跨越。在这场跃迁之中,如何重构人与设备的连接,成为摆在所有厂商面前的共同考题。 行业中,一派倾向于改良,试图在既有的APP生态上做加法;另一…

    2025年12月27日
    34800