多模型路由时代：从OpenRouter《State of AI》报告看AI使用格局与Agent化趋势

一、报告背景：OpenRouter 在整个 AI 版图中的位置

1.1 OpenRouter 是谁？这份报告在看什么？

OpenRouter 本质上是一个 多模型路由层（Model Router / Gateway） ：

对上：开发者、应用只需要对接一个 API；
对下：OpenRouter 接入了 300+ 模型、60+ 提供方 ，覆盖了主流闭源（OpenAI、Anthropic、Google 等）和大量开源模型；
侧重场景 ：需要对比模型、做路由和成本优化的 开发者 / 产品团队 / Agent 架构 。

这份 《State of AI》 报告的数据口径：

时间：2024-11 ~ 2025-11，约 13 个月；
规模：统计了通过 OpenRouter 路由的 100 万亿（1e14）tokens 的真实调用元数据；
内容：
模型维度：开源 vs 闭源、中国模型 vs 其他地区；
用途维度：编程、Roleplay、翻译、信息检索、生产力工具等；
地域 & 语言：按账单地区、按语言占比；
成本 vs 使用量；
留存（Cohort / Glass Slipper 效应）。

非常关键的一点 ：

它不是“全世界所有 LLM 使用情况”的统计，而是 “通过 OpenRouter 这个多模型 API 通道看到的那一小片世界” 。

接下来所有分析，都要牢牢记住这个样本边界。

二、基于报告本身的 7 条关键洞见

本节先站在“接受样本前提”的基础上，总结 OpenRouter 报告本身传达的主要趋势。

2.1 多模型世界已成定局：没有“唯一神模型”

从 Token 份额看 ：
闭源模型仍占据多数流量；
开源模型整体份额已经稳定在约 1/3 左右 ；
中国系开源模型（DeepSeek 、Qwen 、Kimi 等）在若干时间窗口内甚至能冲到整体 Token 的近 30%。
用量曲线显示 ：
大模型发布后的使用量不是“试用几周就掉光”，而是能维持在较高水平；
模型之间存在明显的 分工与定位差异 （如 Qwen 更偏编程、DeepSeek 更偏 Roleplay）。

推论：

行业格局不会是“一个模型统治所有场景”，而是 多模型协同 + 动态路由 的长期状态；
对企业和开发者来说：架构层面应该从 Day 1 就 支持多模型切换与路由 ，避免锁死在单一供应商的 API 上。

2.2 推理模型与 Agent 化：从概念变成主流流量

报告显示：

以 o1 为代表的 推理优化模型 在 2025 年使用量迅速上升，到年底已占据 整体调用量的相当大比例 ；
请求平均序列长度（Prompt+Completion）在 20 个月内从 <2000 tokens 上升到 >5400 tokens；
编程类调用的平均长度是整体的 3–4 倍，是长上下文的绝对主力；
大量调用呈现出多轮、多步、工具调用、链式推理的特征——报告称之为 Agentic Inference（代理式推理） 。

推论：

产品形态正在从“聊天机器人”彻底转向 “能干活的 Agent / Copilot” ；
模型竞争的下一阶段，不再是“谁写文案更顺”，而是：
谁在多步骤任务上更稳定；
谁的工具调用成功率更高；
谁能在复杂工作流里更好地完成 end-to-end 任务。

2.3 开源 & 中国模型崛起：不是情绪，而是真实流量

报告中，开源模型整体 Token 份额约 1/3；其中：
中国开源（DeepSeek、Qwen、Kimi 等）在若干周高峰期占到近 30%；
全年平均也有 ~13% 左右的份额。
模型画像 ：
DeepSeek 系 ：Roleplay、情感对话、休闲聊天占比很大，编程使用在逐步上升；
Qwen 系 ：高度聚焦编程，40–60% Token 用于代码场景。

推论：

中国系开源模型已经进入全球主流舞台，而且出现了明显的 “角色分工” ：
有做流量型 Roleplay/陪伴的；
也有做工程型 Coder 的。
未来两三年，很大概率会看到 “中国模型出海 + 本地化推理基础设施” 的组合打法，尤其是在亚洲及非英语市场。

2.4 真正的大头使用场景：编程 + Roleplay + 个人助理

报告基于 Google 分类体系，将调用分成多类后发现：

在 OpenRouter 样本内部：
Programming / 编程辅助 是整体 Token 最大的“专业类”场景，也是长上下文和重任务的主要来源；
Roleplay / 创意对话 / 情感陪伴 是开源模型中最大单一场景之一，在某些模型上占比 >50%；
个人助理 / Productivity （写作、总结、组织信息）也占据稳定高位；
传统“高价值垂直行业”（金融、医疗、法律、科研等），在 Token 分布上显得“碎片化”“长尾化”。

推论：

Coding Copilot 已经是 AI 的杀手级应用之一 ：
- 谁真正攻下了开发者生产力场景，谁就掌握了最稳定的高价值流量入口；
Roleplay 是被严重低估的“超大盘消费场景” ：
- 它的 Token 体量在 OpenRouter 样本中几乎可以和编程分庭抗礼，是 AI 娱乐 / 陪伴 / 社交产品的天然土壤；
传统行业并非没有需求，而是：
- 目前缺乏成熟的 流程设计和工作流集成 ；
- 单纯“问答式”应用难以形成大规模、持续用量。

2.5 地理 & 语言格局：AI 使用正在全球化

按账单地区统计 ：
北美仍是最大的单一市场，但多数时间已 不到 50% 花费份额 ；
亚洲的 Token 份额从约 13% 升至 ~31%，增长非常明显；
按语言统计 ：
英文仍占 ~83% Tokens；
简体中文约 ~5%，在非英文语言中占比最高。

推论：

AI 使用正在 去“北美中心化” ，尤其是亚洲地区的增长显著；
对模型方：
多语言和本地化不再是 Nice-to-have，而是基本门槛；
对中国团队：
既有中文 & 本地化优势，又能参与全球市场，是一个“内外双赛道”的窗口期。

2.6 成本与使用：还没走到“纯价格战的商品化”阶段

报告将“每百万 Token 实际成本 vs 总 Token 量”画成双对数散点，发现：

高成本 & 高用量象限：
典型是科技 / 科学等高价值工作负载，愿意为性能买单；
低成本 & 高用量象限：
典型是 编程 + Roleplay ，需要高效率、低成本；
高成本 & 低用量象限：
如 GPT-4/5 Pro / Claude Opus 等高价高性能模型，用于关键但低频的任务（如重要代码审查等）。

报告还提到 Jevons Paradox（反常规悖论） ：

模型越便宜、越快，被集成到的业务和产品越多，
总体 Token 用量反而持续暴涨。

推论：

短期内，LLM 还不是一个“完全商品化，只看价格”的市场：
- 在关键任务上，企业更关注：成功率、稳定性、合规性和支持能力；
- 开源模型即便价格趋近 0，如果可靠性不够，也难以进入生产主流程；
真正的对比指标应该是：Cost per Successful Outcome（成功一次任务的总成本） ，而不是单纯每 Token 单价。

2.7 留存与“水晶鞋效应”：看的是谁真正匹配了某类任务

报告提出“Cinderella Glass Slipper（灰姑娘水晶鞋）效应 ”：

当某个模型第一次真正解决了某类高价值 workload，会形成一批 “早期基础 Cohort” ；
这批用户 / 企业的留存显著高于其他 Cohort，长期不愿换模型；
这比短期注册或 Token 增长更能说明“模型是否创造了新的价值”。

同时报告还观察到：

一些模型（如 DeepSeek）出现 “回流（Boomerang）效应” ：
- 一部分用户会先流失，再在 2–3 个月后回到该模型；
- 说明在某些任务上它的综合性价比更匹配。

推论：

对模型 / 产品团队：
- 真正值得看的 KPI 不是短期调用量，而是 按场景划分的 Cohort 留存 ；
对投资 / 战略决策者：
- 谁先找到某个 workload 的“水晶鞋匹配”，谁就拥有更强的长期防御力——即便对手后来在 Benchmark 分数上更高，客户也未必愿意迁移。

三、样本偏差：为什么垂直行业在报告里会“长尾化”？

一个非常关键的视角是：

金融、医疗、法律等垂直行业数据高度敏感，这类场景更可能用 直连 API / 私有化部署 ，而不是通过 OpenRouter 这样的公共多模型路由层。

因此，报告中“垂直行业 Token 占比低、长尾化”的现象，很可能包含明显的样本偏差。

3.1 OpenRouter 自己承认的局限

在 Methodology & Limitations 段落中，报告明确说明：

数据只覆盖通过 OpenRouter 发出的调用；
不包括 ：
- 直接调用 OpenAI / Anthropic / Google / Azure / Bedrock 等官方/云厂商 API；
- ChatGPT / Claude / Gemini 的网页 & App 使用；
- GitHub Copilot、Cursor、JetBrains AI、Office Copilot 等 IDE / 办公内嵌工具；
- 企业内部的本地部署、私有云集群；
特别强调：enterprise usage, locally hosted deployments, closed internal systems are out of scope 。

换句话说：

这份报告只观察到 “愿意通过 OpenRouter 发送请求”的那部分世界 ，企业本地、垂直 SaaS、消费端工具统统在视野之外。

3.2 垂直行业为什么在这份数据里会显得“长尾”？

原因至少有三层：

数据敏感 + 合规约束
- 不允许客户数据、病历、交易记录等发往多租户第三方路由平台；
- 更偏向直接签约企业通道、专有实例或本地部署。
- 金融、医疗、政府等行业通常有严苛的合规要求：
- 这些调用 没有任何一条会出现在 OpenRouter 的日志里 。
产品形态：垂直能力被“包在 SaaS 中”
- 用户用的是“AI 医生 App”、“AI 法律助手”等，背后调用多为厂商直连。
- 从 OpenRouter 视角看，这些 Token 完全“消失”。
高价值低频、天然 Token 占比偏小
- 相比每天写代码、聊天，看病、打官司本身就是 低频、高价值决策 。
- 报告里的“长尾”只是在 Token 维度的长尾，并不等价于经济价值的长尾。

结论小结：

在 OpenRouter 样本中，垂直行业 Token 占比确实很低、呈长尾；
但这 很大程度上是渠道/样本偏差 + 场景本身低频 的叠加；
不能简单外推为“整个 AI 行业里，这些垂直行业都不重要”。

四、拼图视角：把 OpenRouter 放回“全局 AI 使用地图”

为了矫正样本偏差，我们把整个 LLM 使用看成五块“地块”：

A：消费端 （ChatGPT / Claude / Gemini 等通用聊天 App）
B：IDE / 办公工具 （Copilot、Cursor、Office/G Suite 等）
C：多模型 API / 路由层 （OpenRouter + 部分企业自建网关）
D：垂直行业 SaaS （AI 医疗、AI 法律、AI 投研等）
E：企业私有化 / 本地部署 （金融、政府、大厂自建集群）

OpenRouter 报告只覆盖其中 C 这块的一部分 。

4.1 块 A：消费端 ChatGPT / Claude / Gemini

ChatGPT ：非工作使用约 70%。主要用途是“查信息 + 实用建议 + 写东西”，编程和陪伴是小众用途（编程约 4.2%）。
Claude ：情感支持类会话仅占 2.9%，大多数仍围绕工作任务和写作。

对比 OpenRouter 视角： OpenRouter 天然 低估了生活/写作/信息类使用 ，相对 高估了 API-heavy 的专业场景（如编程、Agent 调用） 。

4.2 块 B：IDE / 办公工具里的 AI 助手

使用结构 ：开发者主要入口是 IDE & 内部 Web 工具，场景全围绕写代码、补全、测试。
规模：GitHub Copilot 等工具已经显著提升开发效率，Anthropic 指出 79% 的 Claude Code 对话涉及“自动化任务”。

对比 OpenRouter 视角： 真正的全球编程 Token 大头其实藏在 B（IDE）+ C + E 块里。OpenRouter 看到的“编程是最大场景”，仅代表“用多模型 API 的这群开发者”的现状。

4.3 块 C：多模型 API / 路由层（OpenRouter 为代表）

用户：构建 AI 产品 / Agent 的开发者与团队。
特征：强需求多模型路由，对成本和性能敏感。
使用结构 ：编程占比极高（>50%），Roleplay 在开源模型中占比大，Agent 化趋势明显。

4.4 块 D & E：垂直 SaaS 与企业私有化

特征：数据不经过 OpenRouter，高价值、高敏感。
结论：这两块的 Token 在报告中几乎完全不可见。

总结：OpenRouter = C 块里最大的观测点之一，但整个图还有 A/B/D/E 四块。

五、Token 数量级：OpenRouter 的 100 万亿在全局中占多少？

5.1 已知的几个锚点数字

5.2 占比估算

与 Google 对比：OpenRouter 仅占 Google 总量的 0.85% 左右。
与全网粗估对比：OpenRouter 约占全网推理 Token 的 0.3% 左右。

结论：OpenRouter 在“全网推理 tokens 池子”里占比约为 0.x% 的量级。但在 “多模型 API / Agent-heavy 的开发者世界” 里，它是一个非常具有代表性的样本。

六、解读报告的整体再判断

结合拼图和数量级估算，对洞见进行“二次校准”：

6.1 相对稳健的结论

多模型世界是长期态势。
编程在“开发者 + API/IDE 世界”里确实是最主要场景。
Roleplay 在“开源 + API 爱好者世界”是个巨大场景。
推理模型 + Agent 化 趋势是真实存在的。

6.2 需带“样本滤镜”的结论

垂直行业“长尾化”：仅在 OpenRouter 样本中成立，不能代表全行业。
Roleplay 的全局占比：在消费端 App 中占比很低，但在开源/API 社区很高。
“编程 = 最大场景”：在 API/IDE 世界是事实，但在大众消费端不是。

七、对不同角色的策略启示

7.1 企业决策者

技术架构：预设多模型世界，规划统一的模型网关/路由层。
评估指标：从“每 Token 单价”转向 “每任务成功成本 (Cost per Successful Outcome)”。
KPI：重视留存和业务结果，而非表面使用量。

7.2 开发者 / 创业者

赛道选择：开发者生产力、Roleplay/陪伴、垂直职业 Copilot。
产品策略：默认支持推理模型、长上下文和多模型切换。把业务逻辑做在 Agent 层，而非 Prompt 里。
视角修正：做 API 产品看 OpenRouter，做大众消费品看 ChatGPT 数据。

7.3 投资人 / 研究员

看留存：关注“水晶鞋效应”，看是否形成了高留存的基础 Cohort。
看基建：重视模型路由、评估、监控等中间层基础设施。
看区域：关注亚洲及中国开源模型的本地化优势。

八、总结

把 OpenRouter 报告当成“C 块（多模型 API / Agent-heavy 开发者世界）”的高分辨率照片，然后再把它嵌入 A/B/D/E 五块的大拼图中看，才能得到更接近真实的全局视角。

在这个前提下：

编程是 API 世界的重型场景；
Roleplay 是开源社区的重要场景；
垂直行业 看似长尾，实则隐身于私有部署中。

一旦把这些因素都纳入视野，OpenRouter 每年 100T Tokens，虽然只占全网的 0.x% ，却精准折射了 AI 开发者与 Agent 的最前沿动态。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/14537

多模型路由时代：从OpenRouter《State of AI》报告看AI使用格局与Agent化趋势

一、报告背景：OpenRouter 在整个 AI 版图中的位置

1.1 OpenRouter 是谁？这份报告在看什么？

二、基于报告本身的 7 条关键洞见

2.1 多模型世界已成定局：没有“唯一神模型”

2.2 推理模型与 Agent 化：从概念变成主流流量

2.3 开源 & 中国模型崛起：不是情绪，而是真实流量

2.4 真正的大头使用场景：编程 + Roleplay + 个人助理

2.5 地理 & 语言格局：AI 使用正在全球化

2.6 成本与使用：还没走到“纯价格战的商品化”阶段

2.7 留存与“水晶鞋效应”：看的是谁真正匹配了某类任务

三、样本偏差：为什么垂直行业在报告里会“长尾化”？

3.1 OpenRouter 自己承认的局限

3.2 垂直行业为什么在这份数据里会显得“长尾”？

四、拼图视角：把 OpenRouter 放回“全局 AI 使用地图”

4.1 块 A：消费端 ChatGPT / Claude / Gemini

4.2 块 B：IDE / 办公工具里的 AI 助手

4.3 块 C：多模型 API / 路由层（OpenRouter 为代表）

4.4 块 D & E：垂直 SaaS 与 企业私有化

五、Token 数量级：OpenRouter 的 100 万亿在全局中占多少？

5.1 已知的几个锚点数字

5.2 占比估算

六、解读报告的整体再判断

6.1 相对稳健的结论

6.2 需带“样本滤镜”的结论

七、对不同角色的策略启示

7.1 企业决策者

7.2 开发者 / 创业者

7.3 投资人 / 研究员

八、总结

相关推荐

英伟达财报揭示AI算力革命：从泡沫论到计算范式迁移的结构性分析

无需重训的视觉革命：PH-Reg自蒸馏框架如何高效消除ViT密集特征伪影

阿里千问App全球首发AI办事功能：一句话点奶茶背后的全模态理解与AI Coding革命

2025人工智能年度榜单深度解析：评选机制、行业趋势与未来展望

AI大模型周报：蚂蚁Ring-2.5-1T开源、OpenAI发布GPT-5.3-Codex-Spark、字节跳动多模态模型全面升级

4.4 块 D & E：垂直 SaaS 与企业私有化