2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻


100万亿Token实证:2025年AI大分流全景图

2025年,人工智能领域迎来一个结构性转折点。OpenRouter与a16z联合发布了一份基于真实算力消耗的深度研究报告,通过分析过去一年处理的超过100万亿个Token的元数据,揭示了当前AI发展的核心趋势与反直觉洞察。这份报告摒弃了传统的学术基准或宣称的用户数,从全球300多个模型、60多个提供方的实际使用数据出发,描绘了一幅清晰的行业图景。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

报告核心数据
* 报告名称:《基于OpenRouter的100万亿Token实证研究》
* 报告地址:https://openrouter.ai/state-of-ai

核心发现速览

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

  • 开源崛起开源模型流量占比已达30%,从“平替”转变为特定场景的首选
  • 亚洲力量:中国开源模型占据全球流量近30%,亚洲付费使用量翻倍至31%,中文成为全球第二大AI交互语言。
  • 推理为王推理优化模型流量占比飙升至50%以上,标志着AI从“生成文本”转向“思考问题”。
  • 场景双雄编程(占总流量50%+)统治生产力;角色扮演(占开源流量52%)统治创造力。
  • 用户留存法则:遵循“水晶鞋效应”——新模型发布时若能完美解决特定痛点,用户将极难流失,否则流失率极高。
  • 价格弹性悖论:整体降价10%仅带来<1%的增量需求,但在特定高效模型上,极致低价引发了使用量的“报复性增长”。

开源 vs. 闭源:三足鼎立的新格局

虽然闭源模型(OpenAI、Anthropic、Google等)仍在受监管和企业级关键业务中占据主导,贡献了约70%的Token使用量,但开源模型的份额已稳步增长至30%左右,并已深度融入生产环境。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

这一增长由一系列高质量模型的发布持续推动,如DeepSeek V3/R1、Kimi K2、Qwen 3 Coder、GLM 4.6等。每次发布都带来显著的流量波峰,且增长具有持续性。

中国开源模型的爆发是最大亮点
* 份额飞跃:从2024年末的1.2%,跃升至2025年下半年某些周次的近30%
* 迭代速度:以DeepSeek、Qwen为代表的中国开发者,通过高频的模型更新迅速适应新兴工作负载。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

闭源顶梁柱,开源占三成

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:开源(浅蓝)与闭源(深蓝)模型的Token使用量趋势,垂直线标记了关键开源模型的发布时间点。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:开源和闭源模型的每周Token使用量堆叠图。深红为闭源,橙色为中国开源模型,青色为其他地区开源模型。

开源生态从“一家独大”到“百花齐放”
2024年,DeepSeek一度占据开源模型流量的半壁江山。进入2025年,随着Qwen、Kimi、MiniMax、GLM、GPT-OSS、LLaMA等模型的加入,市场被迅速打散,没有任何一个开源模型能在全年后半段稳定占据超过25%的份额。这为开发者提供了按场景挑选的多个可靠选项。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:按模型作者划分的总Token量(2024年11月–2025年11月)。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:Top 15开源模型各自的Token贡献占比。

中型模型(15B-70B)成为新主流
过去“小模型(<15B)”与“大模型(>70B)”的两极分化正在消失。Qwen 2.5 Coder 32B、Mistral Small 3等中型模型在能力与效率间找到了完美平衡,成为市场新宠,而小模型的整体份额在下降。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

「中杯」模型才是真爱

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:小型、中型和大型开源模型每周处理的Token量占比。


智能体与推理:AI进入“思考”时代

2025年是“智能体”的年份。AI的使用正从简单问答转向复杂的多步任务执行,推理优化模型成为主流。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

推理模型已成主流
数据显示,通过推理优化模型处理的Token占比从年初的微不足道,飙升至50%以上。用户要求模型进行思维链计算、规划和反思。在这一领域,xAI的Grok Code Fast 1Google的Gemini 2.5系列共同领跑。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:推理与非推理模型的Token占比趋势。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

推理模型已成主流

工具调用常态化
越来越多的请求包含了“工具调用”指令,表明模型正作为更大系统中的一个组件被调用,而不再是孤立的对话者。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

工具调用常态化

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:按推理相关Token量统计的顶尖推理模型排名。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:工具调用采用率的上升趋势。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:按工具调用量统计的Top 10模型,主要集中在为智能体优化的模型上。

任务复杂度显著提升
* 输入更长:平均输入Token数从1.5k增长至6k以上(暴涨4倍),用户开始提交整个代码库或长文档进行分析。
* 输出更重:平均输出Token从150增长到400(翻倍以上),主要源于推理内容的增加。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

输入更长,任务更重

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:平均提示词长度增长近四倍。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:平均完成Token数量增长近三倍。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:编程是提示Token增长的主要驱动力。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:平均序列长度(提示+补全)随时间变化,增长超过三倍。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:编程任务的序列长度系统性高于整体平均且增长更快。


场景洞察:编程与角色扮演的双极世界

通过数十亿次请求的分类分析,AI的真实使用场景高度集中:编程角色扮演是两大绝对主导。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

编程:统治生产力的核心场景
编程类请求占比从年初的11%飙升至50%以上,主要驱动力是AI辅助开发工具(IDE集成)的普及。
* 模型偏好:Anthropic的Claude系列在该领域占据统治地位,长期持有60%以上份额。
* 竞争态势:Qwen、MiniMax、GLM和OpenAI正在不断蚕食这一市场。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:被归类为编程的查询在所有LLM查询中的份额持续增加。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:编程工作负载高度集中于少数提供商,Anthropic领先。

角色扮演:开源模型的创意引擎
在开源模型领域,角色扮演52%的流量占比成为绝对王者,打破了“AI仅是生产力工具”的偏见。用户利用开源模型的可定制性进行故事创作和情感陪伴。中国开源模型与西方开源模型在此领域平分秋色,例如DeepSeek的流量中超2/3来自角色扮演和闲聊。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

角色扮演:被低估的创意引擎

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:按总Token份额排名的前6大使用类别及其子标签细分。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:第7至12位类别的Token份额分布。

长尾场景
科学(集中于ML/AI自身问题)、翻译、法律、健康等构成了丰富的长尾需求,其中健康类需求高度碎片化。

模型“性格”画像
数据勾勒出各主流模型的鲜明特点:
* Anthropic:硬核“程序员”,80%以上流量用于编程和技术任务。
* DeepSeek:高情商“陪聊”,主打角色扮演和日常互动。
* Google:博学“全才”,在翻译、科学、法律等长尾领域表现均衡。
* OpenAI:处于转型期,从早期的科学/通用用途向编程/技术领域重心转移。
* xAI:高度集中于编程。
* Qwen:在编程任务上高度集中。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

长尾场景:科学、翻译与健康

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:Anthropic模型使用构成。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:Google模型使用构成。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:xAI模型使用构成。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:OpenAI模型使用构成。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:DeepSeek模型使用构成。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

图解:Qwen模型使用构成。


地缘格局:AI全球化,亚洲时刻到来

AI的发展不再是硅谷的独角戏。报告明确指出,亚洲地区的付费使用量占比已从13%翻倍至31%,标志着全球AI力量格局的深刻变化。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

地缘格局:AI使用的全球化

这不仅因为亚洲是重要的模型产地,更因为这里拥有庞大的应用场景和企业用户基础。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

北美的相对下降:虽然仍是最大市场,但其份额已跌破50%。

语言分布:英语以82%的占比保持绝对主导地位。简体中文则以近5%的份额位居第二,不仅超越了西班牙语和俄语,也侧面印证了中文AI社区的活跃度。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻
2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

留存率分析:「灰姑娘的水晶鞋」效应

这是本报告在理论层面最具洞察力的发现之一。在模型快速迭代的时代,传统的“用户留存”概念已然失效,取而代之的是一种被称为 “灰姑娘的水晶鞋(Cinderella Glass Slipper)” 的现象。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

什么是「水晶鞋效应」?

当一个前沿新模型发布时,它就像那只水晶鞋。市场上存在大量未被满足的高难度潜在工作负载。如果新模型(水晶鞋)恰好能完美解决某类特定的高难度任务(灰姑娘),那么这批早期用户就会形成一个 “基石群组” 。他们的留存率极高,不会因为后续出现更便宜的模型而轻易迁移,因为他们已围绕该模型构建了完整的基础设施和工作流。反之,如果模型发布时未能解决任何特定痛点,或只是“够用”,就无法形成基石群组,用户流失率会非常高。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

实证数据

  • 赢家:GPT-4o Mini、Claude 4 Sonnet和Gemini 2.5 Pro在发布初期都形成了明显的基石群组,其留存率曲线在高位企稳。
    2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻
  • 输家:一些未能建立“模型-任务匹配”的模型,其所有用户群组的留存率都极其惨淡。
  • DeepSeek的「回旋镖效应」:DeepSeek的数据呈现了一个有趣异常——用户流失后又回来了。其留存曲线在数月后出现反弹,表明用户在尝试其他竞品后,发现DeepSeek在特定场景(如性价比或特定任务)上依然不可替代。
    2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻
    2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

成本 vs. 使用量

单纯认为降价就能赢得市场的想法是错误的。通过对成本与使用量进行双对数坐标分析,研究揭示了以下规律:

首先,按任务类型可划分为四个象限:

  • 溢价工作负载(高价+高频):如编程、科技。这是兵家必争之地,用户愿意为闭源模型支付高价,因为其产出价值远高于Token成本。
  • 大众流量驱动(低价+高频):如角色扮演、普通问答。这是开源模型的舒适区,通过极致性价比捕获海量长尾需求。
  • 专业专家(高价+低频):如金融、医疗、学术。单次调用昂贵,但总频次低。
  • 利基工具(低价+低频):如翻译、法律助手。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

0.73美元/百万Token的成本中位数,将应用场景垂直一分为二。

其次,按模型的使用-成本关系也可划分为四个象限:

  • 高级领导者:成本不低,但使用量很高,如Claude Sonnet 4、Gemini 2.5 Pro。
  • 高效巨头:价格非常便宜,但性能够好,如Gemini Flash、DeepSeek V3。
  • 长尾模型:价格接近免费,但使用量有限。
  • 高级专家:非常昂贵,专门服务“极少但极值钱”的任务,如o1-Pro、GPT-5 Pro。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

AI模型市场:成本与使用

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

第三,模型定价对使用量的弹性比想象中小。 价格下降10%,使用量仅增加0.5%-0.7%。这意味着对于关键任务,用户对价格不敏感;对于低价值任务,单纯降价也未必能带来指数级增长。

此外,研究还观察到了 “杰文斯悖论” 的体现:当某些模型变得足够便宜且好用,人们会在更多场景、使用更长上下文、更频繁地调用它,导致总Token消耗飙升,总支出可能并未降低。

综合以上分析,可以得出一个实用认知:

  • 闭源模型:主要服务于高价值、高风险、对质量稳定性要求极高的任务。
  • 开源模型:主要服务于大量、成本敏感,但对完美度要求略低的任务。
  • 降价 ≠ 少花钱:用户有时反而会“用得更多”。

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

2025年的AI启示录

纵观以上分析,AI竞赛已不再是单纯的技术比拼,而是一场关于场景适配、成本控制与生态构建的综合战争。

  • LLM不只“写文案”:编程已成为最大、最具战略意义的应用类别。同时,角色扮演和娱乐类应用的使用量同样巨大,丝毫不亚于生产力工具。
  • 多模型生态已成定局:闭源模型负责高价值、与收入直接挂钩的工作负载;开源模型则主导低成本、大容量的任务。
  • 智能体推理是新常态:更长的上下文、更多的工具调用、更复杂的多步逻辑正在成为标准。评估模型好坏不再只看“单次回答的质量”,更要看其在长链路中 “执行持续推理” 的可靠性与效率。
  • 留存的本质是“解决难题”:模型厂商真正的“护城河”,在于率先解决关键工作负载并留住那批用户。这正是“水晶鞋效应”的核心:尽早抓住“合脚”的场景,比在排行榜上多待几个月更重要。
  • 不再是美国的独角戏:亚洲,尤其是中国,已同时作为重要的模型生产者和重度用户加入战局。“多语言、多文化适配”将成为下一阶段的刚需能力。

研究局限说明:

本报告仅基于OpenRouter单一平台数据,未包含私有化部署及企业内部系统的流量。鉴于部分指标依赖代理推算(如地理位置和推理模式),上述结论旨在揭示行业演进的指示性趋势,而非绝对定论。

参考资料:
https://openrouter.ai/state-of-ai

2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/13146

(0)
上一篇 2025年12月6日 下午1:36
下一篇 2025年12月7日 上午9:04

相关推荐

  • 高通进军AI推理芯片市场:挑战英伟达霸权的移动技术新路径

    在人工智能芯片领域,英伟达长期占据主导地位,其GPU在训练和推理市场均形成近乎垄断的格局。然而,这种局面正面临来自多方的挑战。高通作为移动通信和计算领域的巨头,近日宣布将于明年推出AI200芯片,并计划在2027年跟进AI250芯片,正式进军AI推理芯片市场。这一战略举措不仅反映了高通自身业务拓展的雄心,更揭示了AI芯片市场格局可能发生的深刻变化。 高通此次…

    2025年10月28日
    500
  • 从TNT到AutoGLM:开源GUI Agent如何重塑人机交互与隐私边界

    在科技发展的长河中,某些超前的构想往往因时代局限而被视为激进的赌博,却在未来某个节点以更成熟的形式重新定义行业。七年前,锤子科技推出的TNT(Touch & Talk)系统,试图通过触控与语音结合的方式“重新定义个人电脑”,却因当时AI技术的不成熟而沦为科技圈的“永生梗”。然而,在2025年的今天,随着大模型与智能体技术的爆发,我们惊讶地发现:TNT…

    2025年12月10日
    900
  • 嵌套学习与记忆熊:AI记忆革命如何重塑大模型进化路径

    近期,Google Research发表的《Nested Learning: The Illusion of Deep Learning Architectures》论文在业界引发广泛关注,被普遍视为2017年《Attention is All You Need》的“精神续作”。这篇论文之所以获得如此高的评价,关键在于它提出了一种全新的机器学习范式——嵌套学…

    2025年12月3日
    700
  • 具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集

    近日,RoboChallenge 重磅推出!这是全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试。 通过科学的评估体系构建一个开放、公正、可复现的「真实考场」,克服真实环境下的性能验证、标准化测试条件、公开可访问测试平台等关键挑战,RoboChallenge 可为视觉-语言-动作模型(VLAs)在机器人的实际应用提供更加可…

    2025年10月16日
    12000
  • Qoder深度评测:国产AI编程工具如何颠覆真实软件研发?

    在当今快速迭代的软件开发领域,程序员们普遍面临着一个棘手的挑战:理解和维护大型、复杂的代码库。无论是接手遗留系统、参与开源项目,还是协作企业级应用,开发者往往需要耗费数周甚至数月的时间来梳理代码结构、理解业务逻辑。传统方法依赖人工阅读、文档搜索和团队沟通,效率低下且容易出错。 近期,一款名为Qoder的国产AI编程工具横空出世,旨在彻底改变这一现状。Qode…

    2025年11月27日
    1600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注