模型评测
-
OpenAI深夜突袭!GPT-5.4 mini/nano发布:速度翻倍、成本骤降,编码推理直逼满血版
OpenAI 在毫无预热的情况下,正式推出了 GPT-5.4 mini 和 GPT-5.4 nano。这两款模型旨在解决生产环境中对 AI 能力、速度与成本的核心诉求,继承了 GPT-5.4 的优势,在轻量级模型中达到了新的高度。 最引人注目的性能数据如下:* 编码能力(SWE-Bench Pro):GPT-5.4 mini 取得了 54.4% 的成绩,与 …
-
MiniMax模型惊现“马嘉祺”识别Bug:Tokenizer机制缺陷引发“幽灵编辑”现象
最近,有用户发现了一个有趣的现象:MiniMax的模型在处理“马嘉祺”这个名字时,出现了识别异常。 起初这被认为是个偶然事件。但经过多方测试,该问题在不同接口和平台上均能稳定复现。 甚至有人调侃道:未来如果在OpenRouter上出现一个匿名模型,且它认不出“马嘉祺”,那么它很可能就来自MiniMax。 测试表明,无论是在MiniMax官方的Agent平台,…
-
谷歌Gemini 3.1 Flash-Lite震撼发布:性价比之王,每百万token仅0.25美元
谷歌发布Gemini 3.1 Flash-Lite:主打轻量高速与极致性价比 谷歌近日正式推出 Gemini 3.1 Flash-Lite 模型。从命名可知,该模型主打轻量化与高速度。官方将其定位为迄今为止 Gemini 3系列中性价比最高 的模型。 其定价极具竞争力:每百万输入token仅需0.25美元,每百万输出token为1.5美元。作为参考,仅需约1…
-
AI Ping:清华系AI Infra重塑大模型API服务秩序,评测路由双机制破解黑盒焦虑
中国版 OpenRouter + Artificial Analysis,让每一枚 Token 都能流向它最该去的地方。 大模型 API 服务的「黑盒」焦虑 Clawdbot 的病毒式裂变,仿佛是一年前 Manus 的魅影重现。同样一夜之间站上风口,同样点燃了无数开发者对「泼天富贵」的想象,也顺手把 Token 烧成了新的「硬通货」。 一组数据更具体地揭示了…
-
Kimi神秘模型Kiwi-do现身竞技场:融资35亿后,多模态K2-VL即将登场?
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 融资35亿后,Kimi的新模型紧跟着就要来了?! 大模型竞技场上,一个名叫Kiwi-do 的神秘模型悄然出现。 发现这个新模型的推特网友询问了模型的身份,结果模型自报家门,表示自己来自月之暗面Kimi,训练数据截止到2025年1月。 另有网友表示,Kiwi-do表现出了一些有趣的结果,尤其是在竞技场当中…
-
豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营
豆包近期发布了 doubao-seed-1-8-251215 新版本,官方重点强调其“更强 Agent 能力”和“多模态理解升级”。我们对 doubao-seed-1-8-251215 和上一代 doubao-seed-1-6-251015 进行了全面对比评测,测试其在准确率、响应时间、token 消耗和成本等关键指标上的表现差异。 doubao-seed-…
-
AI模型周报:阶跃星辰GUI Agent破纪录,Mistral 3系列开源引领多模态浪潮
12月1日 【开源】阶跃星辰开源GELab-Zero阶跃星辰开源了GELab-Zero,首次将GUI Agent模型与完整的配套基础设施同步开放,支持一键部署。其4B参数的GUI Agent模型在手机端、电脑端等多个GUI基准测试中全面刷新了同尺寸模型的性能纪录,取得了SOTA成绩。此外,阶跃还开源了基于真实业务场景的自建评测标准AndroidDaily,旨…
-
DeepSeek-V3.2实测:稀疏注意力机制DSA如何实现推理效率与性能的协同突破
深度求索近期发布了DeepSeek-V3.2版本,这是一款在计算效率、推理能力和智能体性能方面实现协调统一的模型。其高算力变体DeepSeek-V3.2-Speciale在2025年IMO和IOI中均达到了金牌水平。此次评测重点是评测思考模式(Think),其思考模式下的DeepSeek-V3.2(下面简称DeepSeek-V3.2-Think)在多个维度实…
-
Kimi K2 Thinking开源引爆AI界:超越GPT-5的300步工具调用模型实战指南
Kimi 最近开源了其思考模型:Kimi K2 Thinking。根据官方介绍,该模型具备“边思考,边使用工具”的能力,能够自主执行高达 300 步的工具调用流程,以解决复杂问题。在被称为“人类终极考试”的高难度推理与通用智力测试中,其表现超越了 GPT-5,达到了当前的最先进水平。 若想在 Kimi 官网体验此能力,可直接在 kimi.com 开启“长思考…
-
破解医疗大模型落地难题:构建科学评测体系的三大关键维度
近年来,大型语言模型正在重塑医疗领域的技术版图。从辅助临床决策到患者健康教育,从医学影像分析到复杂病例推理,这些技术展现出令人瞩目的应用前景。然而,我们也注意到一个关键问题:如何科学、全面地评测这些模型在医疗场景中的真实表现? 这个问题远比表面看起来复杂。医疗领域的特殊性——高风险、强专业性、数据敏感性——使得传统的模型评测方法面临前所未有的挑战。我们需要更…
