模型评测 - 鲸林向海

OpenAI深夜突袭！GPT-5.4 mini/nano发布：速度翻倍、成本骤降，编码推理直逼满血版

OpenAI 在毫无预热的情况下，正式推出了 GPT-5.4 mini 和 GPT-5.4 nano。这两款模型旨在解决生产环境中对 AI 能力、速度与成本的核心诉求，继承了 GPT-5.4 的优势，在轻量级模型中达到了新的高度。最引人注目的性能数据如下：* 编码能力（SWE-Bench Pro）：GPT-5.4 mini 取得了 54.4% 的成绩，与 …

10小时前

79000

大模型推理

MiniMax模型惊现“马嘉祺”识别Bug：Tokenizer机制缺陷引发“幽灵编辑”现象

最近，有用户发现了一个有趣的现象：MiniMax的模型在处理“马嘉祺”这个名字时，出现了识别异常。起初这被认为是个偶然事件。但经过多方测试，该问题在不同接口和平台上均能稳定复现。甚至有人调侃道：未来如果在OpenRouter上出现一个匿名模型，且它认不出“马嘉祺”，那么它很可能就来自MiniMax。测试表明，无论是在MiniMax官方的Agent平台，…

1天前

65000

AI产业动态

谷歌Gemini 3.1 Flash-Lite震撼发布：性价比之王，每百万token仅0.25美元

谷歌发布Gemini 3.1 Flash-Lite：主打轻量高速与极致性价比谷歌近日正式推出 Gemini 3.1 Flash-Lite 模型。从命名可知，该模型主打轻量化与高速度。官方将其定位为迄今为止 Gemini 3系列中性价比最高的模型。其定价极具竞争力：每百万输入token仅需0.25美元，每百万输出token为1.5美元。作为参考，仅需约1…

2026年3月4日

104000

AI产业动态

AI Ping：清华系AI Infra重塑大模型API服务秩序，评测路由双机制破解黑盒焦虑

中国版 OpenRouter + Artificial Analysis，让每一枚 Token 都能流向它最该去的地方。大模型 API 服务的「黑盒」焦虑 Clawdbot 的病毒式裂变，仿佛是一年前 Manus 的魅影重现。同样一夜之间站上风口，同样点燃了无数开发者对「泼天富贵」的想象，也顺手把 Token 烧成了新的「硬通货」。一组数据更具体地揭示了…

2026年2月2日

325000

AI产业动态

Kimi神秘模型Kiwi-do现身竞技场：融资35亿后，多模态K2-VL即将登场？

克雷西发自凹非寺量子位 | 公众号 QbitAI 融资35亿后，Kimi的新模型紧跟着就要来了？！大模型竞技场上，一个名叫Kiwi-do 的神秘模型悄然出现。发现这个新模型的推特网友询问了模型的身份，结果模型自报家门，表示自己来自月之暗面Kimi，训练数据截止到2025年1月。另有网友表示，Kiwi-do表现出了一些有趣的结果，尤其是在竞技场当中…

2026年1月5日

189000

大模型评测

豆包Seed1.8实测：Agent能力飙升63.1%，成本降13%跻身头部阵营

豆包近期发布了 doubao-seed-1-8-251215 新版本，官方重点强调其“更强 Agent 能力”和“多模态理解升级”。我们对 doubao-seed-1-8-251215 和上一代 doubao-seed-1-6-251015 进行了全面对比评测，测试其在准确率、响应时间、token 消耗和成本等关键指标上的表现差异。 doubao-seed-…

2025年12月20日

2.1K000

AI产业动态

AI模型周报：阶跃星辰GUI Agent破纪录，Mistral 3系列开源引领多模态浪潮

12月1日【开源】阶跃星辰开源GELab-Zero阶跃星辰开源了GELab-Zero，首次将GUI Agent模型与完整的配套基础设施同步开放，支持一键部署。其4B参数的GUI Agent模型在手机端、电脑端等多个GUI基准测试中全面刷新了同尺寸模型的性能纪录，取得了SOTA成绩。此外，阶跃还开源了基于真实业务场景的自建评测标准AndroidDaily，旨…

2025年12月8日

262000

大模型评测

DeepSeek-V3.2实测：稀疏注意力机制DSA如何实现推理效率与性能的协同突破

深度求索近期发布了DeepSeek-V3.2版本，这是一款在计算效率、推理能力和智能体性能方面实现协调统一的模型。其高算力变体DeepSeek-V3.2-Speciale在2025年IMO和IOI中均达到了金牌水平。此次评测重点是评测思考模式（Think），其思考模式下的DeepSeek-V3.2（下面简称DeepSeek-V3.2-Think）在多个维度实…

2025年12月4日

197000

开源项目

Kimi K2 Thinking开源引爆AI界：超越GPT-5的300步工具调用模型实战指南

Kimi 最近开源了其思考模型：Kimi K2 Thinking。根据官方介绍，该模型具备“边思考，边使用工具”的能力，能够自主执行高达 300 步的工具调用流程，以解决复杂问题。在被称为“人类终极考试”的高难度推理与通用智力测试中，其表现超越了 GPT-5，达到了当前的最先进水平。若想在 Kimi 官网体验此能力，可直接在 kimi.com 开启“长思考…

2025年11月17日

226000

大模型评测

破解医疗大模型落地难题：构建科学评测体系的三大关键维度

近年来，大型语言模型正在重塑医疗领域的技术版图。从辅助临床决策到患者健康教育，从医学影像分析到复杂病例推理，这些技术展现出令人瞩目的应用前景。然而，我们也注意到一个关键问题：如何科学、全面地评测这些模型在医疗场景中的真实表现？这个问题远比表面看起来复杂。医疗领域的特殊性——高风险、强专业性、数据敏感性——使得传统的模型评测方法面临前所未有的挑战。我们需要更…

2025年11月7日

215000