模型评测
-
Kimi神秘模型Kiwi-do现身竞技场:融资35亿后,多模态K2-VL即将登场?
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 融资35亿后,Kimi的新模型紧跟着就要来了?! 大模型竞技场上,一个名叫Kiwi-do 的神秘模型悄然出现。 发现这个新模型的推特网友询问了模型的身份,结果模型自报家门,表示自己来自月之暗面Kimi,训练数据截止到2025年1月。 另有网友表示,Kiwi-do表现出了一些有趣的结果,尤其是在竞技场当中…
-
豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营
豆包近期发布了 doubao-seed-1-8-251215 新版本,官方重点强调其“更强 Agent 能力”和“多模态理解升级”。我们对 doubao-seed-1-8-251215 和上一代 doubao-seed-1-6-251015 进行了全面对比评测,测试其在准确率、响应时间、token 消耗和成本等关键指标上的表现差异。 doubao-seed-…
-
AI模型周报:阶跃星辰GUI Agent破纪录,Mistral 3系列开源引领多模态浪潮
12月1日 【开源】阶跃星辰开源GELab-Zero阶跃星辰开源了GELab-Zero,首次将GUI Agent模型与完整的配套基础设施同步开放,支持一键部署。其4B参数的GUI Agent模型在手机端、电脑端等多个GUI基准测试中全面刷新了同尺寸模型的性能纪录,取得了SOTA成绩。此外,阶跃还开源了基于真实业务场景的自建评测标准AndroidDaily,旨…
-
DeepSeek-V3.2实测:稀疏注意力机制DSA如何实现推理效率与性能的协同突破
深度求索近期发布了DeepSeek-V3.2版本,这是一款在计算效率、推理能力和智能体性能方面实现协调统一的模型。其高算力变体DeepSeek-V3.2-Speciale在2025年IMO和IOI中均达到了金牌水平。此次评测重点是评测思考模式(Think),其思考模式下的DeepSeek-V3.2(下面简称DeepSeek-V3.2-Think)在多个维度实…
-
Kimi K2 Thinking开源引爆AI界:超越GPT-5的300步工具调用模型实战指南
Kimi 最近开源了其思考模型:Kimi K2 Thinking。根据官方介绍,该模型具备“边思考,边使用工具”的能力,能够自主执行高达 300 步的工具调用流程,以解决复杂问题。在被称为“人类终极考试”的高难度推理与通用智力测试中,其表现超越了 GPT-5,达到了当前的最先进水平。 若想在 Kimi 官网体验此能力,可直接在 kimi.com 开启“长思考…
-
破解医疗大模型落地难题:构建科学评测体系的三大关键维度
近年来,大型语言模型正在重塑医疗领域的技术版图。从辅助临床决策到患者健康教育,从医学影像分析到复杂病例推理,这些技术展现出令人瞩目的应用前景。然而,我们也注意到一个关键问题:如何科学、全面地评测这些模型在医疗场景中的真实表现? 这个问题远比表面看起来复杂。医疗领域的特殊性——高风险、强专业性、数据敏感性——使得传统的模型评测方法面临前所未有的挑战。我们需要更…
-
MiniMax-M2实测揭秘:轻量级MoE架构如何实现性能飙升与成本锐减
Minimax近期发布了MiniMax-M2新版本,这是一款轻量、快速且极具成本效益的MoE模型(230B总参数,10B激活参数),专为Max级编码与智能体打造。相比上一代MiniMax-M1,新版本在多个维度实现了性能优化。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 MiniMax-M2版本…