2025年AI大分流：100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

100万亿Token实证：2025年AI大分流全景图

2025年，人工智能领域迎来一个结构性转折点。OpenRouter与a16z联合发布了一份基于真实算力消耗的深度研究报告，通过分析过去一年处理的超过100万亿个Token的元数据，揭示了当前AI发展的核心趋势与反直觉洞察。这份报告摒弃了传统的学术基准或宣称的用户数，从全球300多个模型、60多个提供方的实际使用数据出发，描绘了一幅清晰的行业图景。

报告核心数据：
* 报告名称：《基于OpenRouter的100万亿Token实证研究》
* 报告地址：https://openrouter.ai/state-of-ai

核心发现速览：

开源崛起：开源模型流量占比已达30%，从“平替”转变为特定场景的首选。
亚洲力量：中国开源模型占据全球流量近30%，亚洲付费使用量翻倍至31%，中文成为全球第二大AI交互语言。
推理为王：推理优化模型流量占比飙升至50%以上，标志着AI从“生成文本”转向“思考问题”。
场景双雄：编程（占总流量50%+）统治生产力；角色扮演（占开源流量52%）统治创造力。
用户留存法则：遵循“水晶鞋效应”——新模型发布时若能完美解决特定痛点，用户将极难流失，否则流失率极高。
价格弹性悖论：整体降价10%仅带来<1%的增量需求，但在特定高效模型上，极致低价引发了使用量的“报复性增长”。

开源 vs. 闭源：三足鼎立的新格局

虽然闭源模型（OpenAI、Anthropic、Google等）仍在受监管和企业级关键业务中占据主导，贡献了约70%的Token使用量，但开源模型的份额已稳步增长至30%左右，并已深度融入生产环境。

这一增长由一系列高质量模型的发布持续推动，如DeepSeek V3/R1、Kimi K2、Qwen 3 Coder、GLM 4.6等。每次发布都带来显著的流量波峰，且增长具有持续性。

中国开源模型的爆发是最大亮点：
* 份额飞跃：从2024年末的1.2%，跃升至2025年下半年某些周次的近30%。
* 迭代速度：以DeepSeek、Qwen为代表的中国开发者，通过高频的模型更新迅速适应新兴工作负载。

闭源顶梁柱，开源占三成

图解：开源（浅蓝）与闭源（深蓝）模型的Token使用量趋势，垂直线标记了关键开源模型的发布时间点。

图解：开源和闭源模型的每周Token使用量堆叠图。深红为闭源，橙色为中国开源模型，青色为其他地区开源模型。

开源生态从“一家独大”到“百花齐放”：
2024年，DeepSeek一度占据开源模型流量的半壁江山。进入2025年，随着Qwen、Kimi、MiniMax、GLM、GPT-OSS、LLaMA等模型的加入，市场被迅速打散，没有任何一个开源模型能在全年后半段稳定占据超过25%的份额。这为开发者提供了按场景挑选的多个可靠选项。

图解：按模型作者划分的总Token量（2024年11月–2025年11月）。

图解：Top 15开源模型各自的Token贡献占比。

中型模型（15B-70B）成为新主流：
过去“小模型（<15B）”与“大模型（>70B）”的两极分化正在消失。Qwen 2.5 Coder 32B、Mistral Small 3等中型模型在能力与效率间找到了完美平衡，成为市场新宠，而小模型的整体份额在下降。

「中杯」模型才是真爱

图解：小型、中型和大型开源模型每周处理的Token量占比。

智能体与推理：AI进入“思考”时代

2025年是“智能体”的年份。AI的使用正从简单问答转向复杂的多步任务执行，推理优化模型成为主流。

推理模型已成主流：
数据显示，通过推理优化模型处理的Token占比从年初的微不足道，飙升至50%以上。用户要求模型进行思维链计算、规划和反思。在这一领域，xAI的Grok Code Fast 1与Google的Gemini 2.5系列共同领跑。

图解：推理与非推理模型的Token占比趋势。

推理模型已成主流

工具调用常态化：
越来越多的请求包含了“工具调用”指令，表明模型正作为更大系统中的一个组件被调用，而不再是孤立的对话者。

工具调用常态化

图解：按推理相关Token量统计的顶尖推理模型排名。

图解：工具调用采用率的上升趋势。

图解：按工具调用量统计的Top 10模型，主要集中在为智能体优化的模型上。

任务复杂度显著提升：
* 输入更长：平均输入Token数从1.5k增长至6k以上（暴涨4倍），用户开始提交整个代码库或长文档进行分析。
* 输出更重：平均输出Token从150增长到400（翻倍以上），主要源于推理内容的增加。

输入更长，任务更重

图解：平均提示词长度增长近四倍。

图解：平均完成Token数量增长近三倍。

图解：编程是提示Token增长的主要驱动力。

图解：平均序列长度（提示+补全）随时间变化，增长超过三倍。

图解：编程任务的序列长度系统性高于整体平均且增长更快。

场景洞察：编程与角色扮演的双极世界

通过数十亿次请求的分类分析，AI的真实使用场景高度集中：编程和角色扮演是两大绝对主导。

编程：统治生产力的核心场景
编程类请求占比从年初的11%飙升至50%以上，主要驱动力是AI辅助开发工具（IDE集成）的普及。
* 模型偏好：Anthropic的Claude系列在该领域占据统治地位，长期持有60%以上份额。
* 竞争态势：Qwen、MiniMax、GLM和OpenAI正在不断蚕食这一市场。

图解：被归类为编程的查询在所有LLM查询中的份额持续增加。

图解：编程工作负载高度集中于少数提供商，Anthropic领先。

角色扮演：开源模型的创意引擎
在开源模型领域，角色扮演以52%的流量占比成为绝对王者，打破了“AI仅是生产力工具”的偏见。用户利用开源模型的可定制性进行故事创作和情感陪伴。中国开源模型与西方开源模型在此领域平分秋色，例如DeepSeek的流量中超2/3来自角色扮演和闲聊。

角色扮演：被低估的创意引擎

图解：按总Token份额排名的前6大使用类别及其子标签细分。

图解：第7至12位类别的Token份额分布。

长尾场景：
科学（集中于ML/AI自身问题）、翻译、法律、健康等构成了丰富的长尾需求，其中健康类需求高度碎片化。

模型“性格”画像：
数据勾勒出各主流模型的鲜明特点：
* Anthropic：硬核“程序员”，80%以上流量用于编程和技术任务。
* DeepSeek：高情商“陪聊”，主打角色扮演和日常互动。
* Google：博学“全才”，在翻译、科学、法律等长尾领域表现均衡。
* OpenAI：处于转型期，从早期的科学/通用用途向编程/技术领域重心转移。
* xAI：高度集中于编程。
* Qwen：在编程任务上高度集中。

长尾场景：科学、翻译与健康

图解：Anthropic模型使用构成。

图解：Google模型使用构成。

图解：xAI模型使用构成。

图解：OpenAI模型使用构成。

图解：DeepSeek模型使用构成。

图解：Qwen模型使用构成。

地缘格局：AI全球化，亚洲时刻到来

AI的发展不再是硅谷的独角戏。报告明确指出，亚洲地区的付费使用量占比已从13%翻倍至31%，标志着全球AI力量格局的深刻变化。

地缘格局：AI使用的全球化

这不仅因为亚洲是重要的模型产地，更因为这里拥有庞大的应用场景和企业用户基础。

北美的相对下降：虽然仍是最大市场，但其份额已跌破50%。

语言分布：英语以82%的占比保持绝对主导地位。简体中文则以近5%的份额位居第二，不仅超越了西班牙语和俄语，也侧面印证了中文AI社区的活跃度。

留存率分析：「灰姑娘的水晶鞋」效应

这是本报告在理论层面最具洞察力的发现之一。在模型快速迭代的时代，传统的“用户留存”概念已然失效，取而代之的是一种被称为 “灰姑娘的水晶鞋（Cinderella Glass Slipper）” 的现象。

什么是「水晶鞋效应」？

当一个前沿新模型发布时，它就像那只水晶鞋。市场上存在大量未被满足的高难度潜在工作负载。如果新模型（水晶鞋）恰好能完美解决某类特定的高难度任务（灰姑娘），那么这批早期用户就会形成一个 “基石群组” 。他们的留存率极高，不会因为后续出现更便宜的模型而轻易迁移，因为他们已围绕该模型构建了完整的基础设施和工作流。反之，如果模型发布时未能解决任何特定痛点，或只是“够用”，就无法形成基石群组，用户流失率会非常高。

实证数据

赢家：GPT-4o Mini、Claude 4 Sonnet和Gemini 2.5 Pro在发布初期都形成了明显的基石群组，其留存率曲线在高位企稳。
输家：一些未能建立“模型-任务匹配”的模型，其所有用户群组的留存率都极其惨淡。
DeepSeek的「回旋镖效应」：DeepSeek的数据呈现了一个有趣异常——用户流失后又回来了。其留存曲线在数月后出现反弹，表明用户在尝试其他竞品后，发现DeepSeek在特定场景（如性价比或特定任务）上依然不可替代。

成本 vs. 使用量

单纯认为降价就能赢得市场的想法是错误的。通过对成本与使用量进行双对数坐标分析，研究揭示了以下规律：

首先，按任务类型可划分为四个象限：

溢价工作负载（高价+高频）：如编程、科技。这是兵家必争之地，用户愿意为闭源模型支付高价，因为其产出价值远高于Token成本。
大众流量驱动（低价+高频）：如角色扮演、普通问答。这是开源模型的舒适区，通过极致性价比捕获海量长尾需求。
专业专家（高价+低频）：如金融、医疗、学术。单次调用昂贵，但总频次低。
利基工具（低价+低频）：如翻译、法律助手。

0.73美元/百万Token的成本中位数，将应用场景垂直一分为二。

其次，按模型的使用-成本关系也可划分为四个象限：

高级领导者：成本不低，但使用量很高，如Claude Sonnet 4、Gemini 2.5 Pro。
高效巨头：价格非常便宜，但性能够好，如Gemini Flash、DeepSeek V3。
长尾模型：价格接近免费，但使用量有限。
高级专家：非常昂贵，专门服务“极少但极值钱”的任务，如o1-Pro、GPT-5 Pro。

AI模型市场：成本与使用

第三，模型定价对使用量的弹性比想象中小。 价格下降10%，使用量仅增加0.5%-0.7%。这意味着对于关键任务，用户对价格不敏感；对于低价值任务，单纯降价也未必能带来指数级增长。

此外，研究还观察到了 “杰文斯悖论” 的体现：当某些模型变得足够便宜且好用，人们会在更多场景、使用更长上下文、更频繁地调用它，导致总Token消耗飙升，总支出可能并未降低。

综合以上分析，可以得出一个实用认知：

闭源模型：主要服务于高价值、高风险、对质量稳定性要求极高的任务。
开源模型：主要服务于大量、成本敏感，但对完美度要求略低的任务。
降价 ≠ 少花钱：用户有时反而会“用得更多”。

2025年的AI启示录

纵观以上分析，AI竞赛已不再是单纯的技术比拼，而是一场关于场景适配、成本控制与生态构建的综合战争。

LLM不只“写文案”：编程已成为最大、最具战略意义的应用类别。同时，角色扮演和娱乐类应用的使用量同样巨大，丝毫不亚于生产力工具。
多模型生态已成定局：闭源模型负责高价值、与收入直接挂钩的工作负载；开源模型则主导低成本、大容量的任务。
智能体推理是新常态：更长的上下文、更多的工具调用、更复杂的多步逻辑正在成为标准。评估模型好坏不再只看“单次回答的质量”，更要看其在长链路中 “执行持续推理” 的可靠性与效率。
留存的本质是“解决难题”：模型厂商真正的“护城河”，在于率先解决关键工作负载并留住那批用户。这正是“水晶鞋效应”的核心：尽早抓住“合脚”的场景，比在排行榜上多待几个月更重要。
不再是美国的独角戏：亚洲，尤其是中国，已同时作为重要的模型生产者和重度用户加入战局。“多语言、多文化适配”将成为下一阶段的刚需能力。

研究局限说明：

本报告仅基于OpenRouter单一平台数据，未包含私有化部署及企业内部系统的流量。鉴于部分指标依赖代理推算（如地理位置和推理模式），上述结论旨在揭示行业演进的指示性趋势，而非绝对定论。

参考资料：
https://openrouter.ai/state-of-ai

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/13146

2025年AI大分流：100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

<img decoding="async" alt="2025年AI大分流：100万亿Token数据揭示开源崛起、推理为王与亚洲时刻" src="http://www.itsolotime.com/wp-content/uploads/2025/12/image-7793.jpg" />

100万亿Token实证：2025年AI大分流全景图

开源 vs. 闭源：三足鼎立的新格局

智能体与推理：AI进入“思考”时代

场景洞察：编程与角色扮演的双极世界

地缘格局：AI全球化，亚洲时刻到来

相关推荐

分割一切、3D重建一切还不够，Meta开源SAM Audio分割一切声音

MOSS-TTS Family：模思智能发布全场景语音生成模型家族，实现高保真音色克隆与实时交互

AI上车深水区：从ChatBot到整车智能体，阶跃星辰与千里科技给出新答案

《扩散模型原理》专著深度解析：统一理论框架如何重塑生成式AI的未来格局

阿里发布全球首个主动式实时交互世界模型HappyOyster，开启沉浸式AI创作新纪元

发表回复