
100万亿Token实证:2025年AI大分流全景图
2025年,人工智能领域迎来一个结构性转折点。OpenRouter与a16z联合发布了一份基于真实算力消耗的深度研究报告,通过分析过去一年处理的超过100万亿个Token的元数据,揭示了当前AI发展的核心趋势与反直觉洞察。这份报告摒弃了传统的学术基准或宣称的用户数,从全球300多个模型、60多个提供方的实际使用数据出发,描绘了一幅清晰的行业图景。

报告核心数据:
* 报告名称:《基于OpenRouter的100万亿Token实证研究》
* 报告地址:https://openrouter.ai/state-of-ai
核心发现速览:

- 开源崛起:开源模型流量占比已达30%,从“平替”转变为特定场景的首选。
- 亚洲力量:中国开源模型占据全球流量近30%,亚洲付费使用量翻倍至31%,中文成为全球第二大AI交互语言。
- 推理为王:推理优化模型流量占比飙升至50%以上,标志着AI从“生成文本”转向“思考问题”。
- 场景双雄:编程(占总流量50%+)统治生产力;角色扮演(占开源流量52%)统治创造力。
- 用户留存法则:遵循“水晶鞋效应”——新模型发布时若能完美解决特定痛点,用户将极难流失,否则流失率极高。
- 价格弹性悖论:整体降价10%仅带来<1%的增量需求,但在特定高效模型上,极致低价引发了使用量的“报复性增长”。
开源 vs. 闭源:三足鼎立的新格局
虽然闭源模型(OpenAI、Anthropic、Google等)仍在受监管和企业级关键业务中占据主导,贡献了约70%的Token使用量,但开源模型的份额已稳步增长至30%左右,并已深度融入生产环境。

这一增长由一系列高质量模型的发布持续推动,如DeepSeek V3/R1、Kimi K2、Qwen 3 Coder、GLM 4.6等。每次发布都带来显著的流量波峰,且增长具有持续性。
中国开源模型的爆发是最大亮点:
* 份额飞跃:从2024年末的1.2%,跃升至2025年下半年某些周次的近30%。
* 迭代速度:以DeepSeek、Qwen为代表的中国开发者,通过高频的模型更新迅速适应新兴工作负载。

闭源顶梁柱,开源占三成

图解:开源(浅蓝)与闭源(深蓝)模型的Token使用量趋势,垂直线标记了关键开源模型的发布时间点。

图解:开源和闭源模型的每周Token使用量堆叠图。深红为闭源,橙色为中国开源模型,青色为其他地区开源模型。
开源生态从“一家独大”到“百花齐放”:
2024年,DeepSeek一度占据开源模型流量的半壁江山。进入2025年,随着Qwen、Kimi、MiniMax、GLM、GPT-OSS、LLaMA等模型的加入,市场被迅速打散,没有任何一个开源模型能在全年后半段稳定占据超过25%的份额。这为开发者提供了按场景挑选的多个可靠选项。

图解:按模型作者划分的总Token量(2024年11月–2025年11月)。

图解:Top 15开源模型各自的Token贡献占比。
中型模型(15B-70B)成为新主流:
过去“小模型(<15B)”与“大模型(>70B)”的两极分化正在消失。Qwen 2.5 Coder 32B、Mistral Small 3等中型模型在能力与效率间找到了完美平衡,成为市场新宠,而小模型的整体份额在下降。

「中杯」模型才是真爱

图解:小型、中型和大型开源模型每周处理的Token量占比。
智能体与推理:AI进入“思考”时代
2025年是“智能体”的年份。AI的使用正从简单问答转向复杂的多步任务执行,推理优化模型成为主流。

推理模型已成主流:
数据显示,通过推理优化模型处理的Token占比从年初的微不足道,飙升至50%以上。用户要求模型进行思维链计算、规划和反思。在这一领域,xAI的Grok Code Fast 1与Google的Gemini 2.5系列共同领跑。

图解:推理与非推理模型的Token占比趋势。

推理模型已成主流
工具调用常态化:
越来越多的请求包含了“工具调用”指令,表明模型正作为更大系统中的一个组件被调用,而不再是孤立的对话者。

工具调用常态化

图解:按推理相关Token量统计的顶尖推理模型排名。

图解:工具调用采用率的上升趋势。

图解:按工具调用量统计的Top 10模型,主要集中在为智能体优化的模型上。
任务复杂度显著提升:
* 输入更长:平均输入Token数从1.5k增长至6k以上(暴涨4倍),用户开始提交整个代码库或长文档进行分析。
* 输出更重:平均输出Token从150增长到400(翻倍以上),主要源于推理内容的增加。

输入更长,任务更重

图解:平均提示词长度增长近四倍。

图解:平均完成Token数量增长近三倍。

图解:编程是提示Token增长的主要驱动力。

图解:平均序列长度(提示+补全)随时间变化,增长超过三倍。

图解:编程任务的序列长度系统性高于整体平均且增长更快。
场景洞察:编程与角色扮演的双极世界
通过数十亿次请求的分类分析,AI的真实使用场景高度集中:编程和角色扮演是两大绝对主导。

编程:统治生产力的核心场景
编程类请求占比从年初的11%飙升至50%以上,主要驱动力是AI辅助开发工具(IDE集成)的普及。
* 模型偏好:Anthropic的Claude系列在该领域占据统治地位,长期持有60%以上份额。
* 竞争态势:Qwen、MiniMax、GLM和OpenAI正在不断蚕食这一市场。

图解:被归类为编程的查询在所有LLM查询中的份额持续增加。

图解:编程工作负载高度集中于少数提供商,Anthropic领先。
角色扮演:开源模型的创意引擎
在开源模型领域,角色扮演以52%的流量占比成为绝对王者,打破了“AI仅是生产力工具”的偏见。用户利用开源模型的可定制性进行故事创作和情感陪伴。中国开源模型与西方开源模型在此领域平分秋色,例如DeepSeek的流量中超2/3来自角色扮演和闲聊。

角色扮演:被低估的创意引擎

图解:按总Token份额排名的前6大使用类别及其子标签细分。

图解:第7至12位类别的Token份额分布。
长尾场景:
科学(集中于ML/AI自身问题)、翻译、法律、健康等构成了丰富的长尾需求,其中健康类需求高度碎片化。
模型“性格”画像:
数据勾勒出各主流模型的鲜明特点:
* Anthropic:硬核“程序员”,80%以上流量用于编程和技术任务。
* DeepSeek:高情商“陪聊”,主打角色扮演和日常互动。
* Google:博学“全才”,在翻译、科学、法律等长尾领域表现均衡。
* OpenAI:处于转型期,从早期的科学/通用用途向编程/技术领域重心转移。
* xAI:高度集中于编程。
* Qwen:在编程任务上高度集中。

长尾场景:科学、翻译与健康

图解:Anthropic模型使用构成。

图解:Google模型使用构成。

图解:xAI模型使用构成。

图解:OpenAI模型使用构成。

图解:DeepSeek模型使用构成。

图解:Qwen模型使用构成。
地缘格局:AI全球化,亚洲时刻到来
AI的发展不再是硅谷的独角戏。报告明确指出,亚洲地区的付费使用量占比已从13%翻倍至31%,标志着全球AI力量格局的深刻变化。

地缘格局:AI使用的全球化
这不仅因为亚洲是重要的模型产地,更因为这里拥有庞大的应用场景和企业用户基础。

北美的相对下降:虽然仍是最大市场,但其份额已跌破50%。
语言分布:英语以82%的占比保持绝对主导地位。简体中文则以近5%的份额位居第二,不仅超越了西班牙语和俄语,也侧面印证了中文AI社区的活跃度。


留存率分析:「灰姑娘的水晶鞋」效应
这是本报告在理论层面最具洞察力的发现之一。在模型快速迭代的时代,传统的“用户留存”概念已然失效,取而代之的是一种被称为 “灰姑娘的水晶鞋(Cinderella Glass Slipper)” 的现象。

什么是「水晶鞋效应」?
当一个前沿新模型发布时,它就像那只水晶鞋。市场上存在大量未被满足的高难度潜在工作负载。如果新模型(水晶鞋)恰好能完美解决某类特定的高难度任务(灰姑娘),那么这批早期用户就会形成一个 “基石群组” 。他们的留存率极高,不会因为后续出现更便宜的模型而轻易迁移,因为他们已围绕该模型构建了完整的基础设施和工作流。反之,如果模型发布时未能解决任何特定痛点,或只是“够用”,就无法形成基石群组,用户流失率会非常高。

实证数据
- 赢家:GPT-4o Mini、Claude 4 Sonnet和Gemini 2.5 Pro在发布初期都形成了明显的基石群组,其留存率曲线在高位企稳。

- 输家:一些未能建立“模型-任务匹配”的模型,其所有用户群组的留存率都极其惨淡。
- DeepSeek的「回旋镖效应」:DeepSeek的数据呈现了一个有趣异常——用户流失后又回来了。其留存曲线在数月后出现反弹,表明用户在尝试其他竞品后,发现DeepSeek在特定场景(如性价比或特定任务)上依然不可替代。


成本 vs. 使用量
单纯认为降价就能赢得市场的想法是错误的。通过对成本与使用量进行双对数坐标分析,研究揭示了以下规律:
首先,按任务类型可划分为四个象限:
- 溢价工作负载(高价+高频):如编程、科技。这是兵家必争之地,用户愿意为闭源模型支付高价,因为其产出价值远高于Token成本。
- 大众流量驱动(低价+高频):如角色扮演、普通问答。这是开源模型的舒适区,通过极致性价比捕获海量长尾需求。
- 专业专家(高价+低频):如金融、医疗、学术。单次调用昂贵,但总频次低。
- 利基工具(低价+低频):如翻译、法律助手。

0.73美元/百万Token的成本中位数,将应用场景垂直一分为二。
其次,按模型的使用-成本关系也可划分为四个象限:
- 高级领导者:成本不低,但使用量很高,如Claude Sonnet 4、Gemini 2.5 Pro。
- 高效巨头:价格非常便宜,但性能够好,如Gemini Flash、DeepSeek V3。
- 长尾模型:价格接近免费,但使用量有限。
- 高级专家:非常昂贵,专门服务“极少但极值钱”的任务,如o1-Pro、GPT-5 Pro。


AI模型市场:成本与使用

第三,模型定价对使用量的弹性比想象中小。 价格下降10%,使用量仅增加0.5%-0.7%。这意味着对于关键任务,用户对价格不敏感;对于低价值任务,单纯降价也未必能带来指数级增长。
此外,研究还观察到了 “杰文斯悖论” 的体现:当某些模型变得足够便宜且好用,人们会在更多场景、使用更长上下文、更频繁地调用它,导致总Token消耗飙升,总支出可能并未降低。
综合以上分析,可以得出一个实用认知:
- 闭源模型:主要服务于高价值、高风险、对质量稳定性要求极高的任务。
- 开源模型:主要服务于大量、成本敏感,但对完美度要求略低的任务。
- 降价 ≠ 少花钱:用户有时反而会“用得更多”。

2025年的AI启示录
纵观以上分析,AI竞赛已不再是单纯的技术比拼,而是一场关于场景适配、成本控制与生态构建的综合战争。
- LLM不只“写文案”:编程已成为最大、最具战略意义的应用类别。同时,角色扮演和娱乐类应用的使用量同样巨大,丝毫不亚于生产力工具。
- 多模型生态已成定局:闭源模型负责高价值、与收入直接挂钩的工作负载;开源模型则主导低成本、大容量的任务。
- 智能体推理是新常态:更长的上下文、更多的工具调用、更复杂的多步逻辑正在成为标准。评估模型好坏不再只看“单次回答的质量”,更要看其在长链路中 “执行持续推理” 的可靠性与效率。
- 留存的本质是“解决难题”:模型厂商真正的“护城河”,在于率先解决关键工作负载并留住那批用户。这正是“水晶鞋效应”的核心:尽早抓住“合脚”的场景,比在排行榜上多待几个月更重要。
- 不再是美国的独角戏:亚洲,尤其是中国,已同时作为重要的模型生产者和重度用户加入战局。“多语言、多文化适配”将成为下一阶段的刚需能力。
研究局限说明:
本报告仅基于OpenRouter单一平台数据,未包含私有化部署及企业内部系统的流量。鉴于部分指标依赖代理推算(如地理位置和推理模式),上述结论旨在揭示行业演进的指示性趋势,而非绝对定论。
参考资料:
https://openrouter.ai/state-of-ai

关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/13146
