大模型评测

文心5.0正式版发布：2.4万亿参数全模态大模型登顶全球第一梯队

文心大模型5.0正式版发布：2.4万亿参数全模态大模型登顶全球第一梯队文心大模型5.0正式版，现已正式发布。这意味着，自2025年11月Preview版初露锋芒后，这个参数量高达2.4万亿、主打原生全模态的“巨无霸”模型的“完全体”已经到来。先来看一组“入场成绩单”：近三个月，在全球大模型竞技场LMArena上，文心5.0 Preview版多次在文本…

2026年1月23日

248000

AI产业动态

美团LongCat-Flash-Thinking-2601实测：5600亿参数MoE推理模型，免费但响应慢6倍？

美团近期发布了LongCat-Flash-Thinking-2601模型，作为一款基于MoE架构的5600亿参数大型推理模型，官方宣称其在智能体任务上有显著提升。我们对该模型进行了全面评测，测试其在准确率、响应时间、Token消耗等关键指标上的实际表现。 LongCat-Flash-Thinking-2601版本表现：* 测试题数：约1.5万* 总分（准确…

2026年1月23日

483000

AI产业动态

文心一言5.0正式版深度评测：国产大模型如何突破算力桎梏，在多模态赛道站稳脚跟？

核心结论：文心一言5.0正式版在预览版基础上进行了针对性打磨，整体可用性有所提升，在国产大模型中站稳了第二梯队的位置。其核心优势在于长链推理、多轮对话的稳定性，但算力消耗与上下文幻觉问题仍是主要挑战。逻辑能力表现：注1：表格为突出对比关系，仅展示部分可对照模型，非完整排序。注2：题目及测试方式，参见《大语言模型逻辑能力横评（25年12月榜）》，新增#55…

2026年1月23日

406000

AI产业动态

美团LongCat-Flash-Thinking-2601评测：工具调用亮眼，但基础推理与视觉理解存短板

美团近期发布了LongCat-Flash-Thinking-2601模型，作为首个支持在线免费体验「重思考模式」的开源模型，其核心宣传点在于强大的工具调用能力。官方称其在智能体搜索、智能体工具调用、工具交互推理等关键评测中均达到了开源模型的SOTA水平。核心评测结论：三大亮点：工具类网页完成度高：水印处理工具功能完整、交互流畅；复利计算器UI专业、图表…

2026年1月18日

226000

大模型评测

大模型评测实战：从Benchmark幻象到业务落地的量化艺术

当我们谈论大模型应用开发时，评测环节往往是那个“既重要又棘手”的存在。它决定了产品能否真正解决用户问题，却又充满了难以量化的灰色地带。这篇文章，聊聊在实践中对评测的一些观察与思考。为什么公开Benchmark的参考价值有限各家模型发布时，漂亮的Benchmark数据总是标配。如果仅看这些数字，似乎AGI已经近在咫尺。然而现实往往给人当头一棒——Ilya在…

2026年1月8日

218000

大模型评测

智谱GLM-4.7深度评测：Agentic Coding新标杆还是仍有短板？

智谱AI近期发布了其2025年中的旗舰模型GLM-4.7，该版本的核心定位是强化Agentic Coding能力。一句话总结：GLM-4.7在文本理解与创意写作方面表现突出，但在复杂代码生成与多模态理解上仍有明显不足，距离成为“Agentic Coding新标杆”尚需努力。核心评测结论：* 三大亮点： * 基础推理扎实：在数学计算、逻辑推理、文本处理等基…

2026年1月4日

1.2K000

大模型评测

大模型编程应用测试-V3榜单：以工程应用标准量化模型能力

#0 前言笔者最早的编程测试V1采用传统的3 Pass测试法，25年下半年迭代了更贴近多轮场景的V2测试法。但仅测试3轮的V2方法局限性仍然很大。首先，该方法只观察模型在3轮自主修复中能取得的最终成绩，而实际Agent场景中，编程模型拥有几乎无限的轮次，只要能解决问题即可。其次，V2方法只提供运行结果反馈，不提供工具，而实际Agent可以借助Lint/Co…

2026年1月3日

221000

AI产业动态

Google 刚发布 Gemini 3 Flash，说实话，AI 的经济模型被彻底改写了

Google 刚发布了 Gemini 3 Flash，老实说？AI 经济学被改写了。一款“快”模型如何重画价格-性能曲线你今天早上打开 Gemini app，总觉得哪儿不一样。更快，更锐利。你可能都没注意到更新提示。 Google 把默认模型整个换了。全球范围。你睡觉的时候它就完成了。这可不常见。公司一般不会一夜之间给几百万个应用换“发动机”。通常会先…

2026年1月3日

249000

大模型评测

豆包AI现场激辩罗永浩：实时语音大模型通过“人机舌战”极限公测

豆包AI现场激辩罗永浩：实时语音大模型通过“人机舌战”极限公测罗永浩的年度科技创新分享大会，刷屏全网。复盘整场四个多小时的直播，观众集体回味讨论的焦点似乎就两个：第一，不知是因为迟到了40多分钟，还是提前就有谋划，罗永浩现场宣布给所有购票观众退票。第二，罗永浩这张网络名嘴和豆包AI之间的“人机舌战”竟成最大亮点，火爆出圈。光看二位的辩题，就已火药味…

2026年1月1日

363000

大模型评测

阿里Qwen3 Max Preview Think实测：思维链模式带来1.7%准确率提升，代价是成本暴涨396%

阿里巴巴近期发布了Qwen3-Max-Preview-Think新版本，这是在Qwen3-Max-Preview基础上引入思维链（Thinking）模式的升级版本。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。 Qwen3-Max-Preview-Think版本表现：* 测试题数：约1.5万* …

2025年12月30日

327002