大模型评测
-
通义 Qwen3.5-Flash 测评:开源新锐的剑之所及
核心结论:开源新锐的剑之所及 基本情况: 通义千问近期发布了Qwen3.5-Flash模型。该模型是开源Qwen3.5-35B-A3B的增强版本。 官方宣称此代Flash模型的能力可媲美前代Qwen3-235B。在推理模式下,其表现确实大幅领先于235B;但在新模式下的稳定性仍需打磨,综合中位表现与235B基本持平。考虑到235B的参数量级更大,这一结果仍显…
-
字节豆包Seed 2.0 Mini实测:轻量级AI模型如何实现成本效益与性能平衡?
字节跳动近期正式发布了Seed 2.0系列,该系列针对大规模生产环境进行了系统性优化,旨在处理真实世界中的复杂任务。通过提供Pro、Lite、Mini及Code/Preview等全系列尺寸,该系列旨在为不同规模与复杂度的应用场景提供专业级支持。 本次评测的Doubao-Seed-2.0-mini是该系列的轻量级版本,面向低时延、高并发与成本敏感场景,强调快速…
-
成本与性能的完美平衡:字节豆包Seed 2.0 Lite深度评测,73.9%准确率仅需5.4元/千次调用
春节前夕,字节跳动正式发布了 Seed 2.0 系列大模型。在先前的评测中,我们已经对该系列的旗舰版本 Doubao-Seed-2.0-pro 进行了详细分析。 在实际的商业落地与开发场景中,模型的成本控制往往与性能表现同等重要。与 Doubao-Seed-2.0-pro 版本同期发布的,还有定位更加轻量、普惠的 Doubao-Seed-2.0-lite 模…
-
阿里Qwen3.5-Plus实测:3970亿参数模型性能飙升,成本骤降47%
阿里正式发布Qwen3.5系列,并推出了该系列的首个模型——Qwen3.5-397B-A17B的开放权重版本。作为原生视觉-语言模型,Qwen3.5-397B-A17B在推理、编程、智能体能力与多模态理解等全方位基准评测中表现优异。该模型采用创新的混合架构,将线性注意力(Gated Delta Networks)与稀疏混合专家(MoE)相结合,总参数量达39…
-
Gemini 3.1 Pro Preview深度评测:推理速度登顶,成本优势收窄,与GPT-5.2上演巅峰对决
短的结论:王与马共天下 基本情况: Google与OpenAI在顶尖模型上的追逐异常激烈。三个月前,Gemini 3 Pro曾领先于当时的GPT-5,随后被GPT-5.2反超,双方各领风骚数十天。如今,Gemini 3 Pro停留在Preview阶段,其继任者3.1 Pro Preview登场,而保持了两个月智力王冠的GPT-5.2,其领先地位再次被Goog…
-
字节Seed-2.0-pro深度评测:挑战GPT与Gemini,多模态推理新标杆
短的结论:通往下一个时代的钥匙 基本情况: 字节跳动推出的多模态大模型 Seed-2.0-pro,是其技术序列中的关键升级。此前,Doubao 1.8 版本已展现出接近国际领先水平的潜力,而如今经过全面打磨的 Seed-2.0-pro 旨在确立其顶尖地位。 综合来看,Seed-2.0-pro 无愧于“Pro”的定位,在核心能力上与 Gemini 3 Pro …
-
字节火山引擎豆包2.0重磅发布:多模态Agent新标杆,企业级AI生产力革命
最强AI打工人来了!实测多模态、代码、复杂长任务表现亮眼。 春节将至,国内AI大模型赛道好不热闹,多款国产模型更新引爆海内外,不少海外网友都“跪求”体验方式,2026开年AI档,还要看中国玩家。 在这场AI盛宴之中,我们看到各类超级Agent走到舞台C位,AI逐渐深入到具体的工作流中,甚至开始帮企业啃下真正的“硬骨头”任务。AI从“玩具”转向“工具”, 这一…
-
MiniMax M2.5深度评测:国模编程可用性突破,逻辑与工程能力全面进化
短的结论:向下扎根,向上生长 基本情况: 稀宇的前一代M2.1因技术问题,在逻辑能力上落后于M2。M2.5基本解决了这些问题,能力回归正轨,相比M2的综合性能提升约17%。 不过,部分进步是通过更长的思维链和更深的解空间探索换来的。M2.5的平均Token消耗在测试模型中排第6高,几乎是对手Sonnet的2倍。得益于稀宇充足的算力与可控的成本,M2.5在编程…
-
稀宇MiniMax M2.5深度评测:编程能力突破性提升,逻辑推理稳中有进
短的结论:向下扎根,向上生长 基本情况: 稀宇的前一代M2.1因技术问题,在逻辑能力上落后于M2。M2.5基本解决了这些问题,能力回归正轨。相比M2,M2.5的综合能力提升约17%。 部分进步源于更长的思维链和更深的解空间探索,M2.5的平均Token消耗在测试模型中位列第6,几乎是对手Sonnet的2倍。得益于稀宇充足的算力与可控的成本,M2.5在编程上虽…
-
MiniMax M2.5中文场景实测:准确率提升2.1%,响应速度翻倍,成本效率比优化
MiniMax在春节假期前发布了MiniMax M2.5新版本,官方表示该模型经过数十万个真实复杂环境中的大规模强化学习训练,在编程、工具调用和搜索、办公等生产力场景达到了行业前沿水平。我们对MiniMax M2.5与上一代MiniMax M2.1进行了全面的中文场景对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 需要说明的…
