大模型评测

MiniMax M2.5全面评测：中文场景性能跃升，Agent能力暴涨10.6%，成本效率比显著优化

MiniMax在春节假期前发布了MiniMax M2.5新版本。官方表示，该模型经过数十万个真实复杂环境中的大规模强化学习训练，在编程、工具调用和搜索、办公等生产力场景达到了行业前沿水平。我们对MiniMax M2.5与上一代MiniMax M2.1进行了全面的中文场景对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。本次评测…

2026年2月13日

804000

AI产业动态

MeepleLM：首个基于MDA框架与玩家画像的大模型桌游虚拟评测系统

MeepleLM团队投稿量子位 | 公众号 QbitAI 大模型桌游体验官来了！不仅能快速给出评价与建议，还能模拟不同类型玩家的体验差异。近期，来自盛大东京研究院、上海创智学院、南开大学、上海人工智能实验室的研究团队联合提出了MeepleLM ，这是首个能模拟真实玩家视角，并基于动态游戏体验给出建设性批评的虚拟试玩模型。为了减轻AI评价的“悬浮感”…

2026年2月12日

174000

AI产业动态

Claude Opus 4.6实测：准确率跃升5.6%，成本骤降34%，自适应思考机制显威

Anthropic发布了Claude Opus 4.6新版本，官方定位为“最智能的模型”，主打复杂智能体任务和长时程工作。相比此前的Claude Opus 4.5版本，新版本在架构上进行了多项升级，包括首次在Opus级别支持100万token上下文窗口、引入自适应思考（adaptive thinking）机制等。我们对这两个版本进行了全面的对比评测，测试其…

2026年2月10日

606000

AI产业动态

深度解析月之暗面Kimi-K2.5-Thinking：旗舰推理模型在Agent、代码、图像任务上的突破与局限

Kimi-K2.5-Thinking是月之暗面最新发布的旗舰推理模型，被官方称为“Kimi迄今最智能的模型”。该模型在Agent、代码、图像、视频及一系列通用智能任务上取得了开源领域的最佳表现，其核心在于采用了深度思考架构，具备强大的推理能力。核心结论：三大亮点：深度推理能力出色：在数学计算和逻辑推理任务中表现优秀，能够提供详细的推理过程。中文语义理…

2026年2月6日

412000

AI产业动态

Claude Opus 4.6震撼发布：ARC-AGI得分68%创纪录，百万token上下文窗口开启AI新纪元

Anthropic 正式发布了其旗舰模型 Claude Opus 的最新版本 4.6。此次升级带来了显著的智能提升，尤其是在衡量抽象推理能力的 ARC-AGI 2 测试中取得了 68% 的得分，创造了新的纪录，并大幅领先于其他主流模型。核心能力提升 Opus 4.6 在编程能力上实现了重要进步，能够更细致地规划任务，在大型代码库中进行更可靠的操作，并提升了…

2026年2月6日

159000

AI产业动态

阶跃星辰Step-3.5-Flash：300tps极速推理，Agent时代的新答案

核心结论：速度是Agent时代的关键竞争力模型背景：阶跃星辰在去年7月参与国内大模型评测后，一度沉寂。这并非停滞，而是潜心研发。如今，其全新力作Step-3.5-Flash正式发布，集中体现了团队对Agent（智能体）时代模型需求的思考。在核心能力上，该模型实现了显著跨越：其智力水平已从落后梯队跃升至第二梯队，中位表现与体量更大的DeepSeek V3…

2026年2月2日

713000

AI产业动态

告别单一成功率：北大团队推出机器人操作评估新范式，实现细粒度质量与来源真实性双重验证

作者介绍* 刘梦源：北京大学深圳研究生院研究员，研究方向为人类行为理解与机器人技能学习。* 盛举义：北京大学在读博士研究生，研究方向为机器人操作技能学习方法。* 王梓懿、李培铭：北京大学在读硕士研究生，研究方向为视频理解分析。* 徐天铭：北京大学在读硕士研究生，研究方向为机器人操作技能学习方法。* 徐天添：中国科学院深圳先进技术研究院集成所研究员，研究领域为…

2026年1月31日

222000

AI产业动态

阿里Qwen3-Max新版实测：成本骤降58%，响应提速49%，性能小幅提升0.8%

阿里近期发布的Qwen3-Max新版本 qwen3-max-2026-01-23，作为千问旗舰模型的非思考模式版本，相比上一版本（qwen3-max-2025-09-23）在多个维度实现了优化。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。 qwen3-max-2026-01-23版本表现：* 测…

2026年1月29日

886000

AI产业动态

Kimi-K2.5-Thinking实测：推理效率提升33%，Agent能力意外滑坡，开源模型新标杆？

月之暗面发布了 Kimi-K2.5-Thinking 新版本，官方称其为“Kimi迄今最智能的模型”，在Agent、代码、图像、视频及一系列通用智能任务上取得了开源state-of-the-art表现。我们对新旧两个版本（Kimi-K2.5-Thinking、Kimi-K2-Thinking）进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成…

2026年1月28日

1.1K000

AI产业动态

ERNIE-5.0全面评测：2.4万亿参数旗舰大模型性能与成本深度解析

百度近期正式发布了原生全模态大模型ERNIE-5.0（文心5.0），这是一款参数达2.4万亿、采用原生全模态统一建模技术的旗舰级产品，支持文本、图像、音频、视频等多种信息的输入与输出。我们对ERNIE-5.0正式版与此前的ERNIE-5.0-Thinking-Preview版本进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的…

2026年1月24日

1.5K000