多模型路由时代:从OpenRouter《State of AI》报告看AI使用格局与Agent化趋势

多模型路由时代:从OpenRouter《State of AI》报告看AI使用格局与Agent化趋势

一、报告背景:OpenRouter 在整个 AI 版图中的位置

1.1 OpenRouter 是谁?这份报告在看什么?

OpenRouter 本质上是一个 多模型路由层(Model Router / Gateway)

  • 对上 :开发者、应用只需要对接一个 API;
  • 对下 :OpenRouter 接入了 300+ 模型、60+ 提供方 ,覆盖了主流闭源(OpenAI、Anthropic、Google 等)和大量开源模型
  • 侧重场景 :需要对比模型、做路由和成本优化的 开发者 / 产品团队 / Agent 架构

这份 《State of AI》 报告的数据口径:

  • 时间 :2024-11 ~ 2025-11,约 13 个月;
  • 规模 :统计了通过 OpenRouter 路由的 100 万亿(1e14)tokens 的真实调用元数据;
  • 内容
  • 模型维度:开源 vs 闭源、中国模型 vs 其他地区;
  • 用途维度:编程、Roleplay、翻译、信息检索、生产力工具等;
  • 地域 & 语言:按账单地区、按语言占比;
  • 成本 vs 使用量;
  • 留存(Cohort / Glass Slipper 效应)。

非常关键的一点

它不是“全世界所有 LLM 使用情况”的统计,而是 “通过 OpenRouter 这个多模型 API 通道看到的那一小片世界”

接下来所有分析,都要牢牢记住这个样本边界。

二、基于报告本身的 7 条关键洞见

本节先站在“接受样本前提”的基础上,总结 OpenRouter 报告本身传达的主要趋势。

2.1 多模型世界已成定局:没有“唯一神模型”

  • 从 Token 份额看
  • 闭源模型仍占据多数流量;
  • 开源模型整体份额已经稳定在约 1/3 左右
  • 中国系开源模型(DeepSeekQwenKimi 等)在若干时间窗口内甚至能冲到整体 Token 的近 30%。
  • 用量曲线显示
  • 大模型发布后的使用量不是“试用几周就掉光”,而是能维持在较高水平;
  • 模型之间存在明显的 分工与定位差异 (如 Qwen 更偏编程、DeepSeek 更偏 Roleplay)。

推论:

  • 行业格局不会是“一个模型统治所有场景”,而是 多模型协同 + 动态路由 的长期状态;
  • 对企业和开发者来说:架构层面应该从 Day 1 就 支持多模型切换与路由 ,避免锁死在单一供应商的 API 上。

2.2 推理模型与 Agent 化:从概念变成主流流量

报告显示:

  • 以 o1 为代表的 推理优化模型 在 2025 年使用量迅速上升,到年底已占据 整体调用量的相当大比例
  • 请求平均序列长度(Prompt+Completion)在 20 个月内从 <2000 tokens 上升到 >5400 tokens;
  • 编程类调用的平均长度是整体的 3–4 倍,是长上下文的绝对主力;
  • 大量调用呈现出多轮、多步、工具调用、链式推理的特征——报告称之为 Agentic Inference(代理式推理)

推论:

  • 产品形态正在从“聊天机器人”彻底转向 “能干活的 Agent / Copilot”
  • 模型竞争的下一阶段,不再是“谁写文案更顺”,而是:
  • 谁在多步骤任务上更稳定;
  • 谁的工具调用成功率更高;
  • 谁能在复杂工作流里更好地完成 end-to-end 任务。

2.3 开源 & 中国模型崛起:不是情绪,而是真实流量

  • 报告中,开源模型整体 Token 份额约 1/3;其中:
  • 中国开源(DeepSeek、Qwen、Kimi 等)在若干周高峰期占到近 30%;
  • 全年平均也有 ~13% 左右的份额。
  • 模型画像
  • DeepSeek 系 :Roleplay、情感对话、休闲聊天占比很大,编程使用在逐步上升;
  • Qwen 系 :高度聚焦编程,40–60% Token 用于代码场景。

推论:

  • 中国系开源模型已经进入全球主流舞台,而且出现了明显的 “角色分工”
  • 有做流量型 Roleplay/陪伴的;
  • 也有做工程型 Coder 的。
  • 未来两三年,很大概率会看到 “中国模型出海 + 本地化推理基础设施” 的组合打法,尤其是在亚洲及非英语市场。

2.4 真正的大头使用场景:编程 + Roleplay + 个人助理

报告基于 Google 分类体系,将调用分成多类后发现:

  • 在 OpenRouter 样本内部:
  • Programming / 编程辅助 是整体 Token 最大的“专业类”场景,也是长上下文和重任务的主要来源;
  • Roleplay / 创意对话 / 情感陪伴 是开源模型中最大单一场景之一,在某些模型上占比 >50%;
  • 个人助理 / Productivity (写作、总结、组织信息)也占据稳定高位;
  • 传统“高价值垂直行业”(金融、医疗、法律、科研等),在 Token 分布上显得“碎片化”“长尾化”。

推论:

  1. Coding Copilot 已经是 AI 的杀手级应用之一
    • 谁真正攻下了开发者生产力场景,谁就掌握了最稳定的高价值流量入口;
  2. Roleplay 是被严重低估的“超大盘消费场景”
    • 它的 Token 体量在 OpenRouter 样本中几乎可以和编程分庭抗礼,是 AI 娱乐 / 陪伴 / 社交产品的天然土壤;
  3. 传统行业并非没有需求,而是:
    • 目前缺乏成熟的 流程设计和工作流集成
    • 单纯“问答式”应用难以形成大规模、持续用量。

2.5 地理 & 语言格局:AI 使用正在全球化

  • 按账单地区统计
  • 北美仍是最大的单一市场,但多数时间已 不到 50% 花费份额
  • 亚洲的 Token 份额从约 13% 升至 ~31%,增长非常明显;
  • 按语言统计
  • 英文仍占 ~83% Tokens;
  • 简体中文约 ~5%,在非英文语言中占比最高。

推论:

  • AI 使用正在 去“北美中心化” ,尤其是亚洲地区的增长显著;
  • 对模型方:
  • 多语言和本地化不再是 Nice-to-have,而是基本门槛;
  • 对中国团队:
  • 既有中文 & 本地化优势,又能参与全球市场,是一个“内外双赛道”的窗口期。

2.6 成本与使用:还没走到“纯价格战的商品化”阶段

报告将“每百万 Token 实际成本 vs 总 Token 量”画成双对数散点,发现:

  • 高成本 & 高用量象限
  • 典型是科技 / 科学等高价值工作负载,愿意为性能买单;
  • 低成本 & 高用量象限
  • 典型是 编程 + Roleplay ,需要高效率、低成本;
  • 高成本 & 低用量象限
  • 如 GPT-4/5 Pro / Claude Opus 等高价高性能模型,用于关键但低频的任务(如重要代码审查等)。

报告还提到 Jevons Paradox(反常规悖论)

  • 模型越便宜、越快,被集成到的业务和产品越多,
  • 总体 Token 用量反而持续暴涨。

推论:

  • 短期内,LLM 还不是一个“完全商品化,只看价格”的市场:
    • 在关键任务上,企业更关注:成功率、稳定性、合规性和支持能力;
    • 开源模型即便价格趋近 0,如果可靠性不够,也难以进入生产主流程;
  • 真正的对比指标应该是:Cost per Successful Outcome(成功一次任务的总成本) ,而不是单纯每 Token 单价。

2.7 留存与“水晶鞋效应”:看的是谁真正匹配了某类任务

报告提出“Cinderella Glass Slipper(灰姑娘水晶鞋)效应 ”:

  • 当某个模型第一次真正解决了某类高价值 workload,会形成一批 “早期基础 Cohort”
  • 这批用户 / 企业的留存显著高于其他 Cohort,长期不愿换模型;
  • 这比短期注册或 Token 增长更能说明“模型是否创造了新的价值”。

同时报告还观察到:

  • 一些模型(如 DeepSeek)出现 “回流(Boomerang)效应”
    • 一部分用户会先流失,再在 2–3 个月后回到该模型;
    • 说明在某些任务上它的综合性价比更匹配。

推论:

  • 对模型 / 产品团队:
    • 真正值得看的 KPI 不是短期调用量,而是 按场景划分的 Cohort 留存
  • 对投资 / 战略决策者:
    • 谁先找到某个 workload 的“水晶鞋匹配”,谁就拥有更强的长期防御力——即便对手后来在 Benchmark 分数上更高,客户也未必愿意迁移。

三、样本偏差:为什么垂直行业在报告里会“长尾化”?

一个非常关键的视角是:

金融、医疗、法律等垂直行业数据高度敏感, 这类场景更可能用 直连 API / 私有化部署 ,而不是通过 OpenRouter 这样的公共多模型路由层。

因此,报告中“垂直行业 Token 占比低、长尾化”的现象,很可能包含明显的样本偏差。

3.1 OpenRouter 自己承认的局限

在 Methodology & Limitations 段落中,报告明确说明:

  • 数据只覆盖通过 OpenRouter 发出的调用;
  • 不包括
    • 直接调用 OpenAI / Anthropic / Google / Azure / Bedrock 等官方/云厂商 API;
    • ChatGPT / Claude / Gemini 的网页 & App 使用;
    • GitHub Copilot、Cursor、JetBrains AI、Office Copilot 等 IDE / 办公内嵌工具;
    • 企业内部的本地部署、私有云集群;
  • 特别强调:enterprise usage, locally hosted deployments, closed internal systems are out of scope

换句话说:

这份报告只观察到 “愿意通过 OpenRouter 发送请求”的那部分世界 , 企业本地、垂直 SaaS、消费端工具统统在视野之外。

3.2 垂直行业为什么在这份数据里会显得“长尾”?

原因至少有三层:

  1. 数据敏感 + 合规约束
    • 不允许客户数据、病历、交易记录等发往多租户第三方路由平台;
    • 更偏向直接签约企业通道、专有实例或本地部署。
    • 金融、医疗、政府等行业通常有严苛的合规要求:
    • 这些调用 没有任何一条会出现在 OpenRouter 的日志里
  2. 产品形态:垂直能力被“包在 SaaS 中”
    • 用户用的是“AI 医生 App”、“AI 法律助手”等,背后调用多为厂商直连。
    • 从 OpenRouter 视角看,这些 Token 完全“消失”。
  3. 高价值低频、天然 Token 占比偏小
    • 相比每天写代码、聊天,看病、打官司本身就是 低频、高价值决策
    • 报告里的“长尾”只是在 Token 维度的长尾,并不等价于经济价值的长尾。

结论小结:

  • 在 OpenRouter 样本中,垂直行业 Token 占比确实很低、呈长尾;
  • 但这 很大程度上是渠道/样本偏差 + 场景本身低频 的叠加;
  • 不能简单外推为“整个 AI 行业里,这些垂直行业都不重要”。

四、拼图视角:把 OpenRouter 放回“全局 AI 使用地图”

为了矫正样本偏差,我们把整个 LLM 使用看成五块“地块”:

  1. A:消费端 (ChatGPT / Claude / Gemini 等通用聊天 App)
  2. B:IDE / 办公工具 (Copilot、Cursor、Office/G Suite 等)
  3. C:多模型 API / 路由层 (OpenRouter + 部分企业自建网关)
  4. D:垂直行业 SaaS (AI 医疗、AI 法律、AI 投研等)
  5. E:企业私有化 / 本地部署 (金融、政府、大厂自建集群)

OpenRouter 报告只覆盖其中 C 这块的一部分

4.1 块 A:消费端 ChatGPT / Claude / Gemini

  • ChatGPT :非工作使用约 70%。主要用途是“查信息 + 实用建议 + 写东西”,编程和陪伴是小众用途(编程约 4.2%)。
  • Claude :情感支持类会话仅占 2.9%,大多数仍围绕工作任务和写作。

对比 OpenRouter 视角: OpenRouter 天然 低估了生活/写作/信息类使用 ,相对 高估了 API-heavy 的专业场景(如编程、Agent 调用)

4.2 块 B:IDE / 办公工具里的 AI 助手

  • 使用结构 :开发者主要入口是 IDE & 内部 Web 工具,场景全围绕写代码、补全、测试。
  • 规模 :GitHub Copilot 等工具已经显著提升开发效率,Anthropic 指出 79% 的 Claude Code 对话涉及“自动化任务”。

对比 OpenRouter 视角: 真正的全球编程 Token 大头其实藏在 B(IDE)+ C + E 块里。OpenRouter 看到的“编程是最大场景”,仅代表“用多模型 API 的这群开发者”的现状。

4.3 块 C:多模型 API / 路由层(OpenRouter 为代表)

  • 用户 :构建 AI 产品 / Agent 的开发者与团队。
  • 特征 :强需求多模型路由,对成本和性能敏感。
  • 使用结构 :编程占比极高(>50%),Roleplay 在开源模型中占比大,Agent 化趋势明显。

4.4 块 D & E:垂直 SaaS 与 企业私有化

  • 特征 :数据不经过 OpenRouter,高价值、高敏感。
  • 结论 :这两块的 Token 在报告中几乎完全不可见。

总结:OpenRouter = C 块里最大的观测点之一,但整个图还有 A/B/D/E 四块。

五、Token 数量级:OpenRouter 的 100 万亿在全局中占多少?

5.1 已知的几个锚点数字

5.2 占比估算

  • 与 Google 对比:OpenRouter 仅占 Google 总量的 0.85% 左右。
  • 与全网粗估对比:OpenRouter 约占全网推理 Token 的 0.3% 左右。

结论:OpenRouter 在“全网推理 tokens 池子”里占比约为 0.x% 的量级。但在 “多模型 API / Agent-heavy 的开发者世界” 里,它是一个非常具有代表性的样本。

六、解读报告的整体再判断

结合拼图和数量级估算,对洞见进行“二次校准”:

6.1 相对稳健的结论

  • 多模型世界是长期态势
  • 编程 在“开发者 + API/IDE 世界”里确实是最主要场景。
  • Roleplay 在“开源 + API 爱好者世界”是个巨大场景。
  • 推理模型 + Agent 化 趋势是真实存在的。

6.2 需带“样本滤镜”的结论

  • 垂直行业“长尾化”:仅在 OpenRouter 样本中成立,不能代表全行业。
  • Roleplay 的全局占比:在消费端 App 中占比很低,但在开源/API 社区很高。
  • “编程 = 最大场景”:在 API/IDE 世界是事实,但在大众消费端不是。

七、对不同角色的策略启示

7.1 企业决策者

  • 技术架构:预设多模型世界,规划统一的模型网关/路由层。
  • 评估指标:从“每 Token 单价”转向 “每任务成功成本 (Cost per Successful Outcome)”
  • KPI:重视留存和业务结果,而非表面使用量。

7.2 开发者 / 创业者

  • 赛道选择:开发者生产力、Roleplay/陪伴、垂直职业 Copilot。
  • 产品策略:默认支持推理模型、长上下文和多模型切换。把业务逻辑做在 Agent 层,而非 Prompt 里。
  • 视角修正:做 API 产品看 OpenRouter,做大众消费品看 ChatGPT 数据。

7.3 投资人 / 研究员

  • 看留存:关注“水晶鞋效应”,看是否形成了高留存的基础 Cohort。
  • 看基建:重视模型路由、评估、监控等中间层基础设施。
  • 看区域:关注亚洲及中国开源模型的本地化优势。

八、总结

把 OpenRouter 报告当成“C 块(多模型 API / Agent-heavy 开发者世界)”的高分辨率照片, 然后再把它嵌入 A/B/D/E 五块的大拼图中看,才能得到更接近真实的全局视角。

在这个前提下:

  • 编程 是 API 世界的重型场景;
  • Roleplay 是开源社区的重要场景;
  • 垂直行业 看似长尾,实则隐身于私有部署中。

一旦把这些因素都纳入视野,OpenRouter 每年 100T Tokens,虽然只占全网的 0.x% ,却精准折射了 AI 开发者与 Agent 的最前沿动态。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14537

(0)
上一篇 2025年12月12日 上午11:07
下一篇 2025年12月12日 下午2:17

相关推荐

  • 英伟达财报揭示AI算力革命:从泡沫论到计算范式迁移的结构性分析

    英伟达最新季度财报的发布,不仅是一份财务数据的展示,更是对当前人工智能发展阶段的深刻注解。当市场对AI泡沫的担忧日益加剧时,英伟达以创纪录的570亿美元季度营收和66%的数据中心业务同比增长,给出了强有力的回应。这份成绩单背后,隐藏着计算产业正在经历的根本性变革——从通用CPU计算向加速GPU计算的范式迁移。 深入分析英伟达的财务表现,数据中心业务达到512…

    2025年11月20日
    17600
  • 无需重训的视觉革命:PH-Reg自蒸馏框架如何高效消除ViT密集特征伪影

    在计算机视觉领域,Vision Transformers(ViTs)凭借其强大的全局建模能力,已成为图像分类、目标检测等任务的主流架构。然而,近期研究发现,ViT模型在生成密集特征图时,会出现与局部语义不一致的伪影(artifact),这些伪影会严重削弱模型在语义分割、深度估计等需要高空间精度的下游任务中的性能表现。传统解决方案通常需要在模型架构中引入reg…

    2025年11月19日
    18000
  • 阿里千问App全球首发AI办事功能:一句话点奶茶背后的全模态理解与AI Coding革命

    总裁现场喊话AI点40杯奶茶,然后骑手送到了!阿里千问这次玩真的。 1月15日,千问App上线超400项AI办事功能,成为全球首个能完成真实生活复杂任务的AI助手。千问App全面接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态业务,在全球首次实现点外卖、买东西、订机票等AI购物功能,并向所有用户开放测试。 同时,千问App“任务助理”开启邀测,包括移动端和网…

    2026年1月15日
    20300
  • 2025人工智能年度榜单深度解析:评选机制、行业趋势与未来展望

    随着人工智能技术从实验室走向产业化,行业竞争格局日益清晰,权威评选成为衡量企业实力、产品创新与人物贡献的重要标尺。量子位主办的「2025人工智能年度榜单」已进入第八个年头,这不仅是一个简单的奖项申报活动,更是对中国AI产业发展脉络的年度梳理与前瞻性洞察。 从评选维度来看,本届榜单延续了企业、产品、人物三大核心板块,但细分为五类奖项,体现了对产业生态的精细化观…

    2025年11月13日
    16900
  • AI大模型周报:蚂蚁Ring-2.5-1T开源、OpenAI发布GPT-5.3-Codex-Spark、字节跳动多模态模型全面升级

    2月11日 【开源】 蚂蚁集团旗下团队 inclusionAI 发布 Ring-2.5-1T,这是 Ring-1T 的升级版本,核心特性可概括为“快、深、长”。其生成效率提升超过 3 倍,访存开销降低 10 倍;具备国际数学奥林匹克竞赛金牌级别的深度思考能力,并能连续工作 2 小时编写出迷你操作系统。该模型采用 MIT 协议完全开源。 模型详情:https:…

    2026年2月16日
    8300