大模型评测
-
MiniMax M2.5全面评测:中文场景性能跃升,Agent能力暴涨10.6%,成本效率比显著优化
MiniMax在春节假期前发布了MiniMax M2.5新版本。官方表示,该模型经过数十万个真实复杂环境中的大规模强化学习训练,在编程、工具调用和搜索、办公等生产力场景达到了行业前沿水平。我们对MiniMax M2.5与上一代MiniMax M2.1进行了全面的中文场景对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 本次评测…
-
MeepleLM:首个基于MDA框架与玩家画像的大模型桌游虚拟评测系统
MeepleLM团队 投稿 量子位 | 公众号 QbitAI 大模型桌游体验官 来了!不仅能快速给出评价与建议,还能模拟不同类型玩家的体验差异。 近期,来自盛大东京研究院、上海创智学院、南开大学、上海人工智能实验室的研究团队联合提出了MeepleLM ,这是首个能模拟真实玩家视角,并基于动态游戏体验给出建设性批评的虚拟试玩模型。 为了减轻AI评价的“悬浮感”…
-
Claude Opus 4.6实测:准确率跃升5.6%,成本骤降34%,自适应思考机制显威
Anthropic发布了Claude Opus 4.6新版本,官方定位为“最智能的模型”,主打复杂智能体任务和长时程工作。相比此前的Claude Opus 4.5版本,新版本在架构上进行了多项升级,包括首次在Opus级别支持100万token上下文窗口、引入自适应思考(adaptive thinking)机制等。 我们对这两个版本进行了全面的对比评测,测试其…
-
深度解析月之暗面Kimi-K2.5-Thinking:旗舰推理模型在Agent、代码、图像任务上的突破与局限
Kimi-K2.5-Thinking是月之暗面最新发布的旗舰推理模型,被官方称为“Kimi迄今最智能的模型”。该模型在Agent、代码、图像、视频及一系列通用智能任务上取得了开源领域的最佳表现,其核心在于采用了深度思考架构,具备强大的推理能力。 核心结论: 三大亮点: 深度推理能力出色:在数学计算和逻辑推理任务中表现优秀,能够提供详细的推理过程。 中文语义理…
-
Claude Opus 4.6震撼发布:ARC-AGI得分68%创纪录,百万token上下文窗口开启AI新纪元
Anthropic 正式发布了其旗舰模型 Claude Opus 的最新版本 4.6。此次升级带来了显著的智能提升,尤其是在衡量抽象推理能力的 ARC-AGI 2 测试中取得了 68% 的得分,创造了新的纪录,并大幅领先于其他主流模型。 核心能力提升 Opus 4.6 在编程能力上实现了重要进步,能够更细致地规划任务,在大型代码库中进行更可靠的操作,并提升了…
-
阶跃星辰Step-3.5-Flash:300tps极速推理,Agent时代的新答案
核心结论:速度是Agent时代的关键竞争力 模型背景: 阶跃星辰在去年7月参与国内大模型评测后,一度沉寂。这并非停滞,而是潜心研发。如今,其全新力作Step-3.5-Flash正式发布,集中体现了团队对Agent(智能体)时代模型需求的思考。 在核心能力上,该模型实现了显著跨越:其智力水平已从落后梯队跃升至第二梯队,中位表现与体量更大的DeepSeek V3…
-
告别单一成功率:北大团队推出机器人操作评估新范式,实现细粒度质量与来源真实性双重验证
作者介绍* 刘梦源:北京大学深圳研究生院研究员,研究方向为人类行为理解与机器人技能学习。* 盛举义:北京大学在读博士研究生,研究方向为机器人操作技能学习方法。* 王梓懿、李培铭:北京大学在读硕士研究生,研究方向为视频理解分析。* 徐天铭:北京大学在读硕士研究生,研究方向为机器人操作技能学习方法。* 徐天添:中国科学院深圳先进技术研究院集成所研究员,研究领域为…
-
阿里Qwen3-Max新版实测:成本骤降58%,响应提速49%,性能小幅提升0.8%
阿里近期发布的Qwen3-Max新版本 qwen3-max-2026-01-23,作为千问旗舰模型的非思考模式版本,相比上一版本(qwen3-max-2025-09-23)在多个维度实现了优化。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。 qwen3-max-2026-01-23版本表现:* 测…
-
Kimi-K2.5-Thinking实测:推理效率提升33%,Agent能力意外滑坡,开源模型新标杆?
月之暗面发布了 Kimi-K2.5-Thinking 新版本,官方称其为“Kimi迄今最智能的模型”,在Agent、代码、图像、视频及一系列通用智能任务上取得了开源state-of-the-art表现。我们对新旧两个版本(Kimi-K2.5-Thinking、Kimi-K2-Thinking)进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成…
-
ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析
百度近期正式发布了原生全模态大模型ERNIE-5.0(文心5.0),这是一款参数达2.4万亿、采用原生全模态统一建模技术的旗舰级产品,支持文本、图像、音频、视频等多种信息的输入与输出。我们对ERNIE-5.0正式版与此前的ERNIE-5.0-Thinking-Preview版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的…
