多模型路由时代:从OpenRouter《State of AI》报告看AI使用格局与Agent化趋势

多模型路由时代:从OpenRouter《State of AI》报告看AI使用格局与Agent化趋势

一、报告背景:OpenRouter 在整个 AI 版图中的位置

1.1 OpenRouter 是谁?这份报告在看什么?

OpenRouter 本质上是一个 多模型路由层(Model Router / Gateway)

  • 对上 :开发者、应用只需要对接一个 API;
  • 对下 :OpenRouter 接入了 300+ 模型、60+ 提供方 ,覆盖了主流闭源(OpenAI、Anthropic、Google 等)和大量开源模型
  • 侧重场景 :需要对比模型、做路由和成本优化的 开发者 / 产品团队 / Agent 架构

这份 《State of AI》 报告的数据口径:

  • 时间 :2024-11 ~ 2025-11,约 13 个月;
  • 规模 :统计了通过 OpenRouter 路由的 100 万亿(1e14)tokens 的真实调用元数据;
  • 内容
  • 模型维度:开源 vs 闭源、中国模型 vs 其他地区;
  • 用途维度:编程、Roleplay、翻译、信息检索、生产力工具等;
  • 地域 & 语言:按账单地区、按语言占比;
  • 成本 vs 使用量;
  • 留存(Cohort / Glass Slipper 效应)。

非常关键的一点

它不是“全世界所有 LLM 使用情况”的统计,而是 “通过 OpenRouter 这个多模型 API 通道看到的那一小片世界”

接下来所有分析,都要牢牢记住这个样本边界。

二、基于报告本身的 7 条关键洞见

本节先站在“接受样本前提”的基础上,总结 OpenRouter 报告本身传达的主要趋势。

2.1 多模型世界已成定局:没有“唯一神模型”

  • 从 Token 份额看
  • 闭源模型仍占据多数流量;
  • 开源模型整体份额已经稳定在约 1/3 左右
  • 中国系开源模型(DeepSeekQwenKimi 等)在若干时间窗口内甚至能冲到整体 Token 的近 30%。
  • 用量曲线显示
  • 大模型发布后的使用量不是“试用几周就掉光”,而是能维持在较高水平;
  • 模型之间存在明显的 分工与定位差异 (如 Qwen 更偏编程、DeepSeek 更偏 Roleplay)。

推论:

  • 行业格局不会是“一个模型统治所有场景”,而是 多模型协同 + 动态路由 的长期状态;
  • 对企业和开发者来说:架构层面应该从 Day 1 就 支持多模型切换与路由 ,避免锁死在单一供应商的 API 上。

2.2 推理模型与 Agent 化:从概念变成主流流量

报告显示:

  • 以 o1 为代表的 推理优化模型 在 2025 年使用量迅速上升,到年底已占据 整体调用量的相当大比例
  • 请求平均序列长度(Prompt+Completion)在 20 个月内从 <2000 tokens 上升到 >5400 tokens;
  • 编程类调用的平均长度是整体的 3–4 倍,是长上下文的绝对主力;
  • 大量调用呈现出多轮、多步、工具调用、链式推理的特征——报告称之为 Agentic Inference(代理式推理)

推论:

  • 产品形态正在从“聊天机器人”彻底转向 “能干活的 Agent / Copilot”
  • 模型竞争的下一阶段,不再是“谁写文案更顺”,而是:
  • 谁在多步骤任务上更稳定;
  • 谁的工具调用成功率更高;
  • 谁能在复杂工作流里更好地完成 end-to-end 任务。

2.3 开源 & 中国模型崛起:不是情绪,而是真实流量

  • 报告中,开源模型整体 Token 份额约 1/3;其中:
  • 中国开源(DeepSeek、Qwen、Kimi 等)在若干周高峰期占到近 30%;
  • 全年平均也有 ~13% 左右的份额。
  • 模型画像
  • DeepSeek 系 :Roleplay、情感对话、休闲聊天占比很大,编程使用在逐步上升;
  • Qwen 系 :高度聚焦编程,40–60% Token 用于代码场景。

推论:

  • 中国系开源模型已经进入全球主流舞台,而且出现了明显的 “角色分工”
  • 有做流量型 Roleplay/陪伴的;
  • 也有做工程型 Coder 的。
  • 未来两三年,很大概率会看到 “中国模型出海 + 本地化推理基础设施” 的组合打法,尤其是在亚洲及非英语市场。

2.4 真正的大头使用场景:编程 + Roleplay + 个人助理

报告基于 Google 分类体系,将调用分成多类后发现:

  • 在 OpenRouter 样本内部:
  • Programming / 编程辅助 是整体 Token 最大的“专业类”场景,也是长上下文和重任务的主要来源;
  • Roleplay / 创意对话 / 情感陪伴 是开源模型中最大单一场景之一,在某些模型上占比 >50%;
  • 个人助理 / Productivity (写作、总结、组织信息)也占据稳定高位;
  • 传统“高价值垂直行业”(金融、医疗、法律、科研等),在 Token 分布上显得“碎片化”“长尾化”。

推论:

  1. Coding Copilot 已经是 AI 的杀手级应用之一
    • 谁真正攻下了开发者生产力场景,谁就掌握了最稳定的高价值流量入口;
  2. Roleplay 是被严重低估的“超大盘消费场景”
    • 它的 Token 体量在 OpenRouter 样本中几乎可以和编程分庭抗礼,是 AI 娱乐 / 陪伴 / 社交产品的天然土壤;
  3. 传统行业并非没有需求,而是:
    • 目前缺乏成熟的 流程设计和工作流集成
    • 单纯“问答式”应用难以形成大规模、持续用量。

2.5 地理 & 语言格局:AI 使用正在全球化

  • 按账单地区统计
  • 北美仍是最大的单一市场,但多数时间已 不到 50% 花费份额
  • 亚洲的 Token 份额从约 13% 升至 ~31%,增长非常明显;
  • 按语言统计
  • 英文仍占 ~83% Tokens;
  • 简体中文约 ~5%,在非英文语言中占比最高。

推论:

  • AI 使用正在 去“北美中心化” ,尤其是亚洲地区的增长显著;
  • 对模型方:
  • 多语言和本地化不再是 Nice-to-have,而是基本门槛;
  • 对中国团队:
  • 既有中文 & 本地化优势,又能参与全球市场,是一个“内外双赛道”的窗口期。

2.6 成本与使用:还没走到“纯价格战的商品化”阶段

报告将“每百万 Token 实际成本 vs 总 Token 量”画成双对数散点,发现:

  • 高成本 & 高用量象限
  • 典型是科技 / 科学等高价值工作负载,愿意为性能买单;
  • 低成本 & 高用量象限
  • 典型是 编程 + Roleplay ,需要高效率、低成本;
  • 高成本 & 低用量象限
  • 如 GPT-4/5 Pro / Claude Opus 等高价高性能模型,用于关键但低频的任务(如重要代码审查等)。

报告还提到 Jevons Paradox(反常规悖论)

  • 模型越便宜、越快,被集成到的业务和产品越多,
  • 总体 Token 用量反而持续暴涨。

推论:

  • 短期内,LLM 还不是一个“完全商品化,只看价格”的市场:
    • 在关键任务上,企业更关注:成功率、稳定性、合规性和支持能力;
    • 开源模型即便价格趋近 0,如果可靠性不够,也难以进入生产主流程;
  • 真正的对比指标应该是:Cost per Successful Outcome(成功一次任务的总成本) ,而不是单纯每 Token 单价。

2.7 留存与“水晶鞋效应”:看的是谁真正匹配了某类任务

报告提出“Cinderella Glass Slipper(灰姑娘水晶鞋)效应 ”:

  • 当某个模型第一次真正解决了某类高价值 workload,会形成一批 “早期基础 Cohort”
  • 这批用户 / 企业的留存显著高于其他 Cohort,长期不愿换模型;
  • 这比短期注册或 Token 增长更能说明“模型是否创造了新的价值”。

同时报告还观察到:

  • 一些模型(如 DeepSeek)出现 “回流(Boomerang)效应”
    • 一部分用户会先流失,再在 2–3 个月后回到该模型;
    • 说明在某些任务上它的综合性价比更匹配。

推论:

  • 对模型 / 产品团队:
    • 真正值得看的 KPI 不是短期调用量,而是 按场景划分的 Cohort 留存
  • 对投资 / 战略决策者:
    • 谁先找到某个 workload 的“水晶鞋匹配”,谁就拥有更强的长期防御力——即便对手后来在 Benchmark 分数上更高,客户也未必愿意迁移。

三、样本偏差:为什么垂直行业在报告里会“长尾化”?

一个非常关键的视角是:

金融、医疗、法律等垂直行业数据高度敏感, 这类场景更可能用 直连 API / 私有化部署 ,而不是通过 OpenRouter 这样的公共多模型路由层。

因此,报告中“垂直行业 Token 占比低、长尾化”的现象,很可能包含明显的样本偏差。

3.1 OpenRouter 自己承认的局限

在 Methodology & Limitations 段落中,报告明确说明:

  • 数据只覆盖通过 OpenRouter 发出的调用;
  • 不包括
    • 直接调用 OpenAI / Anthropic / Google / Azure / Bedrock 等官方/云厂商 API;
    • ChatGPT / Claude / Gemini 的网页 & App 使用;
    • GitHub Copilot、Cursor、JetBrains AI、Office Copilot 等 IDE / 办公内嵌工具;
    • 企业内部的本地部署、私有云集群;
  • 特别强调:enterprise usage, locally hosted deployments, closed internal systems are out of scope

换句话说:

这份报告只观察到 “愿意通过 OpenRouter 发送请求”的那部分世界 , 企业本地、垂直 SaaS、消费端工具统统在视野之外。

3.2 垂直行业为什么在这份数据里会显得“长尾”?

原因至少有三层:

  1. 数据敏感 + 合规约束
    • 不允许客户数据、病历、交易记录等发往多租户第三方路由平台;
    • 更偏向直接签约企业通道、专有实例或本地部署。
    • 金融、医疗、政府等行业通常有严苛的合规要求:
    • 这些调用 没有任何一条会出现在 OpenRouter 的日志里
  2. 产品形态:垂直能力被“包在 SaaS 中”
    • 用户用的是“AI 医生 App”、“AI 法律助手”等,背后调用多为厂商直连。
    • 从 OpenRouter 视角看,这些 Token 完全“消失”。
  3. 高价值低频、天然 Token 占比偏小
    • 相比每天写代码、聊天,看病、打官司本身就是 低频、高价值决策
    • 报告里的“长尾”只是在 Token 维度的长尾,并不等价于经济价值的长尾。

结论小结:

  • 在 OpenRouter 样本中,垂直行业 Token 占比确实很低、呈长尾;
  • 但这 很大程度上是渠道/样本偏差 + 场景本身低频 的叠加;
  • 不能简单外推为“整个 AI 行业里,这些垂直行业都不重要”。

四、拼图视角:把 OpenRouter 放回“全局 AI 使用地图”

为了矫正样本偏差,我们把整个 LLM 使用看成五块“地块”:

  1. A:消费端 (ChatGPT / Claude / Gemini 等通用聊天 App)
  2. B:IDE / 办公工具 (Copilot、Cursor、Office/G Suite 等)
  3. C:多模型 API / 路由层 (OpenRouter + 部分企业自建网关)
  4. D:垂直行业 SaaS (AI 医疗、AI 法律、AI 投研等)
  5. E:企业私有化 / 本地部署 (金融、政府、大厂自建集群)

OpenRouter 报告只覆盖其中 C 这块的一部分

4.1 块 A:消费端 ChatGPT / Claude / Gemini

  • ChatGPT :非工作使用约 70%。主要用途是“查信息 + 实用建议 + 写东西”,编程和陪伴是小众用途(编程约 4.2%)。
  • Claude :情感支持类会话仅占 2.9%,大多数仍围绕工作任务和写作。

对比 OpenRouter 视角: OpenRouter 天然 低估了生活/写作/信息类使用 ,相对 高估了 API-heavy 的专业场景(如编程、Agent 调用)

4.2 块 B:IDE / 办公工具里的 AI 助手

  • 使用结构 :开发者主要入口是 IDE & 内部 Web 工具,场景全围绕写代码、补全、测试。
  • 规模 :GitHub Copilot 等工具已经显著提升开发效率,Anthropic 指出 79% 的 Claude Code 对话涉及“自动化任务”。

对比 OpenRouter 视角: 真正的全球编程 Token 大头其实藏在 B(IDE)+ C + E 块里。OpenRouter 看到的“编程是最大场景”,仅代表“用多模型 API 的这群开发者”的现状。

4.3 块 C:多模型 API / 路由层(OpenRouter 为代表)

  • 用户 :构建 AI 产品 / Agent 的开发者与团队。
  • 特征 :强需求多模型路由,对成本和性能敏感。
  • 使用结构 :编程占比极高(>50%),Roleplay 在开源模型中占比大,Agent 化趋势明显。

4.4 块 D & E:垂直 SaaS 与 企业私有化

  • 特征 :数据不经过 OpenRouter,高价值、高敏感。
  • 结论 :这两块的 Token 在报告中几乎完全不可见。

总结:OpenRouter = C 块里最大的观测点之一,但整个图还有 A/B/D/E 四块。

五、Token 数量级:OpenRouter 的 100 万亿在全局中占多少?

5.1 已知的几个锚点数字

5.2 占比估算

  • 与 Google 对比:OpenRouter 仅占 Google 总量的 0.85% 左右。
  • 与全网粗估对比:OpenRouter 约占全网推理 Token 的 0.3% 左右。

结论:OpenRouter 在“全网推理 tokens 池子”里占比约为 0.x% 的量级。但在 “多模型 API / Agent-heavy 的开发者世界” 里,它是一个非常具有代表性的样本。

六、解读报告的整体再判断

结合拼图和数量级估算,对洞见进行“二次校准”:

6.1 相对稳健的结论

  • 多模型世界是长期态势
  • 编程 在“开发者 + API/IDE 世界”里确实是最主要场景。
  • Roleplay 在“开源 + API 爱好者世界”是个巨大场景。
  • 推理模型 + Agent 化 趋势是真实存在的。

6.2 需带“样本滤镜”的结论

  • 垂直行业“长尾化”:仅在 OpenRouter 样本中成立,不能代表全行业。
  • Roleplay 的全局占比:在消费端 App 中占比很低,但在开源/API 社区很高。
  • “编程 = 最大场景”:在 API/IDE 世界是事实,但在大众消费端不是。

七、对不同角色的策略启示

7.1 企业决策者

  • 技术架构:预设多模型世界,规划统一的模型网关/路由层。
  • 评估指标:从“每 Token 单价”转向 “每任务成功成本 (Cost per Successful Outcome)”
  • KPI:重视留存和业务结果,而非表面使用量。

7.2 开发者 / 创业者

  • 赛道选择:开发者生产力、Roleplay/陪伴、垂直职业 Copilot。
  • 产品策略:默认支持推理模型、长上下文和多模型切换。把业务逻辑做在 Agent 层,而非 Prompt 里。
  • 视角修正:做 API 产品看 OpenRouter,做大众消费品看 ChatGPT 数据。

7.3 投资人 / 研究员

  • 看留存:关注“水晶鞋效应”,看是否形成了高留存的基础 Cohort。
  • 看基建:重视模型路由、评估、监控等中间层基础设施。
  • 看区域:关注亚洲及中国开源模型的本地化优势。

八、总结

把 OpenRouter 报告当成“C 块(多模型 API / Agent-heavy 开发者世界)”的高分辨率照片, 然后再把它嵌入 A/B/D/E 五块的大拼图中看,才能得到更接近真实的全局视角。

在这个前提下:

  • 编程 是 API 世界的重型场景;
  • Roleplay 是开源社区的重要场景;
  • 垂直行业 看似长尾,实则隐身于私有部署中。

一旦把这些因素都纳入视野,OpenRouter 每年 100T Tokens,虽然只占全网的 0.x% ,却精准折射了 AI 开发者与 Agent 的最前沿动态。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14537

(0)
上一篇 2025年12月12日 上午11:07
下一篇 2025年12月12日 下午2:17

相关推荐

  • 联邦学习新突破:FedVLR框架如何破解多模态推荐中的隐私与个性化悖论

    在人工智能与推荐系统深度融合的今天,多模态信息处理已成为提升用户体验的核心技术路径。然而,当这一技术趋势与日益严格的数据隐私保护要求相遇时,一个根本性矛盾便浮出水面:如何在确保用户数据“不出本地”的前提下,实现精准的图文内容理解与个性化推荐?悉尼科技大学龙国栋教授团队联合香港理工大学杨强教授、张成奇教授团队提出的FedVLR框架,正是针对这一行业痛点的一次系…

    2025年11月25日
    17300
  • 智源研究院:以“安卓”模式破局具身智能数据孤岛,引领行业生态共建新范式

    在2025年智源具身智能Open Day活动中,一场被业界称为“具身武林大会”的盛会,罕见地聚集了银河通用、智元、星海图、自变量、原力灵机、加速进化、北京人形、星源智、优必选、因时、软通天擎等机器人领域的主要厂商代表。这一现象背后,折射出当前具身智能产业面临的核心挑战与转型契机。 智源研究院院长王仲远在会上提出的“数据贡献与模型效用正向关联”机制,直指行业长…

    2025年11月21日
    16700
  • Meta SAM 3D与SAM 3深度解析:从单张图像到三维世界的技术革命

    在计算机视觉领域,Meta近日发布的SAM 3D和SAM 3系列模型标志着图像理解技术迈入了全新阶段。这次更新不仅延续了Segment Anything Model(SAM)系列在图像分割领域的领先地位,更将2D图像理解能力拓展到3D重建、物体姿态估计和概念分割等多个维度,为AR/VR、机器人、内容创作等应用场景提供了前所未有的技术支撑。 **SAM 3D:…

    2025年11月20日
    18600
  • 蚂蚁灵波开源最强具身智能大脑LingBot-VLA:20000小时真实数据验证Scaling Law,实现“一个大脑,多个身体”

    从3000小时到20000小时:真实数据验证Scaling Law 从3000小时到整整20000小时。 真实世界数据中的Scaling Law,直接催生了一个强大的VLA(视觉-语言-动作)基座模型! 这就是蚂蚁灵波最新开源的具身智能基座模型——LingBot-VLA。 为何称其为当前最强?首先看数据。 仅从“20000小时”这个规模来看,LingBot-…

    2026年1月28日
    37300
  • 谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,成本效率革命性突破

    谷歌深夜放大招:Gemini 3.1 Pro 重磅发布,推理性能翻倍 谷歌在春节档大模型竞争白热化之际,于深夜突然发布了 Gemini 3.1 Pro。相较于去年11月发布的 Gemini 3 Pro,此次虽只是「.1」的小版本号升级,但提升幅度显著。 根据官方演示,3.1 Pro 在多模态生成和语义理解能力上均提升了一个层级。 新模型还能将日常数据转化为互…

    2026年2月25日
    27500