性能对比 - 鲸林向海

腾讯混元HY 2.0 Think实测：MoE架构406B参数，准确率跃升4.6%至71.9%，响应时间缩短153%

腾讯混元最新版语言模型 Tencent HY 2.0 正式发布。HY 2.0 采用混合专家（MoE）架构，总参数 406B，激活参数 32B，支持 256K 上下文窗口。我们对新版本 hunyuan-2.0-thinking-20251109 与上一版本 hunyuan-t1-20250711 进行了全面对比评测，测试其在准确率、响应时间、token 消耗和…

2025年12月6日

237000

大模型评测

DeepSeek-V3.2非思考模式深度评测：速度提升63%但准确率下滑，开源模型成本优势下的性能取舍

深度求索近期发布了DeepSeek-V3.2版本，除了备受关注的思考模式外，其非思考模式（下文中的DeepSeek-V3.2均指非思考模式）同样值得关注。我们对新旧两个版本（DeepSeek-V3.2、DeepSeek-V3.2-Exp）进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 DeepSeek-V3.2版…

2025年12月5日

256000

大模型评测

GPT-5.1-high深度评测：推理能力飙升10%，但成本暴涨5.6倍，性价比失衡引争议

OpenAI近期发布了新版本GPT-5.1，其中GPT-5.1-high作为高性能思考模式（thinking）的旗舰产品，主打在复杂任务上的深度推理能力。官方强调该模型“在复杂任务上思考更久”，可提供更高质量的答案。我们对GPT-5.1-high与此前的GPT-5进行了全面对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GP…

2025年11月27日

190000

大模型评测

Grok-4-1-fast-reasoning评测：速度与成本的革命性优化，准确率与专业能力的权衡

XAI近期发布了Grok-4-1-fast模型，官方将其定义为“针对高性能智能体工具调用进行优化的前沿多模态模型”。该模型支持思考模式与非思考模式两种版本。本次评测聚焦于思考模式版本 grok-4-1-fast-reasoning。相比此前的 grok-4-0709 版本，新版本在响应速度上实现了显著优化，但在准确率方面有所下降。我们对这两个版本在准确率、响…

2025年11月26日

287000

大模型评测

Grok-4-1-fast-non-reasoning评测：成本骤降69%但准确率暴跌14%，极端优化策略引质疑

XAI近期发布的Grok-4-1-fast模型提供思考模式（reasoning）和非思考模式（non-reasoning）两种版本。本次评测聚焦于非思考模式版本grok-4-1-fast-non-reasoning。相比此前的grok-3-mini版本，新版本在成本控制上实现了显著优化，但准确率却出现大幅下滑。我们对两个版本在准确率、响应时间、Token消耗…

2025年11月26日

206000

大模型评测

Gemini-3-pro登顶AI评测榜首：性能飞跃31%成本激增，终结豆包250天霸榜神话

谷歌近期发布了Gemini-3-pro-preview新版本，官方称其在推理能力和多模态能力上达到最先进水平，在所有主要AI基准评测中显著超越Gemini-2.5-pro。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 Gemini-3-pro-preview版本表现：* 测试题数：约1.5万* …

2025年11月25日

192000

大模型评测

MiniMax-M2实测揭秘：轻量级MoE架构如何实现性能飙升与成本锐减

Minimax近期发布了MiniMax-M2新版本，这是一款轻量、快速且极具成本效益的MoE模型（230B总参数，10B激活参数），专为Max级编码与智能体打造。相比上一代MiniMax-M1，新版本在多个维度实现了性能优化。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 MiniMax-M2版本…

2025年11月4日

200000

大模型评测

腾讯混元turbos新版实测：Agent能力暴跌25.7%，2元成本颠覆行业性价比格局

腾讯近期发布了混元turbos系列的最新迭代版本 hunyuan-turbos-20250926。官方介绍称，新版本在预训练底座数据质量和后训练（post-train）策略上实现突破，旨在持续提升Agent、英语小语种、指令遵循、代码及理科能力。数据显示，其理科类能力平均提升10.9%（数学提升13.8%，逻辑推理提升12.3%），文科类写作、指令遵循、知识…

2025年10月17日

539000

大模型评测

GLM-4.6评测：速度提升40%却难敌豆包与DeepSeek，成本与准确率成致命短板

智谱AI近期发布了GLM-4.6新版本。根据官方介绍，相比GLM-4.5，新版本带来了多项关键改进：上下文窗口从128K扩展至200K tokens，以支持更复杂的智能体任务；代码性能显著提升；推理能力增强，支持在推理过程中调用工具；智能体能力更强，尤其在工具使用和搜索型任务方面表现出色；写作风格也更贴近人类偏好。在这场激烈的竞争中，GLM-4.6交出了一…

2025年10月17日

1.9K000