多模型路由时代:从OpenRouter《State of AI》报告看AI使用格局与Agent化趋势

多模型路由时代:从OpenRouter《State of AI》报告看AI使用格局与Agent化趋势

一、报告背景:OpenRouter 在整个 AI 版图中的位置

1.1 OpenRouter 是谁?这份报告在看什么?

OpenRouter 本质上是一个 多模型路由层(Model Router / Gateway)

  • 对上 :开发者、应用只需要对接一个 API;
  • 对下 :OpenRouter 接入了 300+ 模型、60+ 提供方 ,覆盖了主流闭源(OpenAI、Anthropic、Google 等)和大量开源模型
  • 侧重场景 :需要对比模型、做路由和成本优化的 开发者 / 产品团队 / Agent 架构

这份 《State of AI》 报告的数据口径:

  • 时间 :2024-11 ~ 2025-11,约 13 个月;
  • 规模 :统计了通过 OpenRouter 路由的 100 万亿(1e14)tokens 的真实调用元数据;
  • 内容
  • 模型维度:开源 vs 闭源、中国模型 vs 其他地区;
  • 用途维度:编程、Roleplay、翻译、信息检索、生产力工具等;
  • 地域 & 语言:按账单地区、按语言占比;
  • 成本 vs 使用量;
  • 留存(Cohort / Glass Slipper 效应)。

非常关键的一点

它不是“全世界所有 LLM 使用情况”的统计,而是 “通过 OpenRouter 这个多模型 API 通道看到的那一小片世界”

接下来所有分析,都要牢牢记住这个样本边界。

二、基于报告本身的 7 条关键洞见

本节先站在“接受样本前提”的基础上,总结 OpenRouter 报告本身传达的主要趋势。

2.1 多模型世界已成定局:没有“唯一神模型”

  • 从 Token 份额看
  • 闭源模型仍占据多数流量;
  • 开源模型整体份额已经稳定在约 1/3 左右
  • 中国系开源模型(DeepSeekQwenKimi 等)在若干时间窗口内甚至能冲到整体 Token 的近 30%。
  • 用量曲线显示
  • 大模型发布后的使用量不是“试用几周就掉光”,而是能维持在较高水平;
  • 模型之间存在明显的 分工与定位差异 (如 Qwen 更偏编程、DeepSeek 更偏 Roleplay)。

推论:

  • 行业格局不会是“一个模型统治所有场景”,而是 多模型协同 + 动态路由 的长期状态;
  • 对企业和开发者来说:架构层面应该从 Day 1 就 支持多模型切换与路由 ,避免锁死在单一供应商的 API 上。

2.2 推理模型与 Agent 化:从概念变成主流流量

报告显示:

  • 以 o1 为代表的 推理优化模型 在 2025 年使用量迅速上升,到年底已占据 整体调用量的相当大比例
  • 请求平均序列长度(Prompt+Completion)在 20 个月内从 <2000 tokens 上升到 >5400 tokens;
  • 编程类调用的平均长度是整体的 3–4 倍,是长上下文的绝对主力;
  • 大量调用呈现出多轮、多步、工具调用、链式推理的特征——报告称之为 Agentic Inference(代理式推理)

推论:

  • 产品形态正在从“聊天机器人”彻底转向 “能干活的 Agent / Copilot”
  • 模型竞争的下一阶段,不再是“谁写文案更顺”,而是:
  • 谁在多步骤任务上更稳定;
  • 谁的工具调用成功率更高;
  • 谁能在复杂工作流里更好地完成 end-to-end 任务。

2.3 开源 & 中国模型崛起:不是情绪,而是真实流量

  • 报告中,开源模型整体 Token 份额约 1/3;其中:
  • 中国开源(DeepSeek、Qwen、Kimi 等)在若干周高峰期占到近 30%;
  • 全年平均也有 ~13% 左右的份额。
  • 模型画像
  • DeepSeek 系 :Roleplay、情感对话、休闲聊天占比很大,编程使用在逐步上升;
  • Qwen 系 :高度聚焦编程,40–60% Token 用于代码场景。

推论:

  • 中国系开源模型已经进入全球主流舞台,而且出现了明显的 “角色分工”
  • 有做流量型 Roleplay/陪伴的;
  • 也有做工程型 Coder 的。
  • 未来两三年,很大概率会看到 “中国模型出海 + 本地化推理基础设施” 的组合打法,尤其是在亚洲及非英语市场。

2.4 真正的大头使用场景:编程 + Roleplay + 个人助理

报告基于 Google 分类体系,将调用分成多类后发现:

  • 在 OpenRouter 样本内部:
  • Programming / 编程辅助 是整体 Token 最大的“专业类”场景,也是长上下文和重任务的主要来源;
  • Roleplay / 创意对话 / 情感陪伴 是开源模型中最大单一场景之一,在某些模型上占比 >50%;
  • 个人助理 / Productivity (写作、总结、组织信息)也占据稳定高位;
  • 传统“高价值垂直行业”(金融、医疗、法律、科研等),在 Token 分布上显得“碎片化”“长尾化”。

推论:

  1. Coding Copilot 已经是 AI 的杀手级应用之一
    • 谁真正攻下了开发者生产力场景,谁就掌握了最稳定的高价值流量入口;
  2. Roleplay 是被严重低估的“超大盘消费场景”
    • 它的 Token 体量在 OpenRouter 样本中几乎可以和编程分庭抗礼,是 AI 娱乐 / 陪伴 / 社交产品的天然土壤;
  3. 传统行业并非没有需求,而是:
    • 目前缺乏成熟的 流程设计和工作流集成
    • 单纯“问答式”应用难以形成大规模、持续用量。

2.5 地理 & 语言格局:AI 使用正在全球化

  • 按账单地区统计
  • 北美仍是最大的单一市场,但多数时间已 不到 50% 花费份额
  • 亚洲的 Token 份额从约 13% 升至 ~31%,增长非常明显;
  • 按语言统计
  • 英文仍占 ~83% Tokens;
  • 简体中文约 ~5%,在非英文语言中占比最高。

推论:

  • AI 使用正在 去“北美中心化” ,尤其是亚洲地区的增长显著;
  • 对模型方:
  • 多语言和本地化不再是 Nice-to-have,而是基本门槛;
  • 对中国团队:
  • 既有中文 & 本地化优势,又能参与全球市场,是一个“内外双赛道”的窗口期。

2.6 成本与使用:还没走到“纯价格战的商品化”阶段

报告将“每百万 Token 实际成本 vs 总 Token 量”画成双对数散点,发现:

  • 高成本 & 高用量象限
  • 典型是科技 / 科学等高价值工作负载,愿意为性能买单;
  • 低成本 & 高用量象限
  • 典型是 编程 + Roleplay ,需要高效率、低成本;
  • 高成本 & 低用量象限
  • 如 GPT-4/5 Pro / Claude Opus 等高价高性能模型,用于关键但低频的任务(如重要代码审查等)。

报告还提到 Jevons Paradox(反常规悖论)

  • 模型越便宜、越快,被集成到的业务和产品越多,
  • 总体 Token 用量反而持续暴涨。

推论:

  • 短期内,LLM 还不是一个“完全商品化,只看价格”的市场:
    • 在关键任务上,企业更关注:成功率、稳定性、合规性和支持能力;
    • 开源模型即便价格趋近 0,如果可靠性不够,也难以进入生产主流程;
  • 真正的对比指标应该是:Cost per Successful Outcome(成功一次任务的总成本) ,而不是单纯每 Token 单价。

2.7 留存与“水晶鞋效应”:看的是谁真正匹配了某类任务

报告提出“Cinderella Glass Slipper(灰姑娘水晶鞋)效应 ”:

  • 当某个模型第一次真正解决了某类高价值 workload,会形成一批 “早期基础 Cohort”
  • 这批用户 / 企业的留存显著高于其他 Cohort,长期不愿换模型;
  • 这比短期注册或 Token 增长更能说明“模型是否创造了新的价值”。

同时报告还观察到:

  • 一些模型(如 DeepSeek)出现 “回流(Boomerang)效应”
    • 一部分用户会先流失,再在 2–3 个月后回到该模型;
    • 说明在某些任务上它的综合性价比更匹配。

推论:

  • 对模型 / 产品团队:
    • 真正值得看的 KPI 不是短期调用量,而是 按场景划分的 Cohort 留存
  • 对投资 / 战略决策者:
    • 谁先找到某个 workload 的“水晶鞋匹配”,谁就拥有更强的长期防御力——即便对手后来在 Benchmark 分数上更高,客户也未必愿意迁移。

三、样本偏差:为什么垂直行业在报告里会“长尾化”?

一个非常关键的视角是:

金融、医疗、法律等垂直行业数据高度敏感, 这类场景更可能用 直连 API / 私有化部署 ,而不是通过 OpenRouter 这样的公共多模型路由层。

因此,报告中“垂直行业 Token 占比低、长尾化”的现象,很可能包含明显的样本偏差。

3.1 OpenRouter 自己承认的局限

在 Methodology & Limitations 段落中,报告明确说明:

  • 数据只覆盖通过 OpenRouter 发出的调用;
  • 不包括
    • 直接调用 OpenAI / Anthropic / Google / Azure / Bedrock 等官方/云厂商 API;
    • ChatGPT / Claude / Gemini 的网页 & App 使用;
    • GitHub Copilot、Cursor、JetBrains AI、Office Copilot 等 IDE / 办公内嵌工具;
    • 企业内部的本地部署、私有云集群;
  • 特别强调:enterprise usage, locally hosted deployments, closed internal systems are out of scope

换句话说:

这份报告只观察到 “愿意通过 OpenRouter 发送请求”的那部分世界 , 企业本地、垂直 SaaS、消费端工具统统在视野之外。

3.2 垂直行业为什么在这份数据里会显得“长尾”?

原因至少有三层:

  1. 数据敏感 + 合规约束
    • 不允许客户数据、病历、交易记录等发往多租户第三方路由平台;
    • 更偏向直接签约企业通道、专有实例或本地部署。
    • 金融、医疗、政府等行业通常有严苛的合规要求:
    • 这些调用 没有任何一条会出现在 OpenRouter 的日志里
  2. 产品形态:垂直能力被“包在 SaaS 中”
    • 用户用的是“AI 医生 App”、“AI 法律助手”等,背后调用多为厂商直连。
    • 从 OpenRouter 视角看,这些 Token 完全“消失”。
  3. 高价值低频、天然 Token 占比偏小
    • 相比每天写代码、聊天,看病、打官司本身就是 低频、高价值决策
    • 报告里的“长尾”只是在 Token 维度的长尾,并不等价于经济价值的长尾。

结论小结:

  • 在 OpenRouter 样本中,垂直行业 Token 占比确实很低、呈长尾;
  • 但这 很大程度上是渠道/样本偏差 + 场景本身低频 的叠加;
  • 不能简单外推为“整个 AI 行业里,这些垂直行业都不重要”。

四、拼图视角:把 OpenRouter 放回“全局 AI 使用地图”

为了矫正样本偏差,我们把整个 LLM 使用看成五块“地块”:

  1. A:消费端 (ChatGPT / Claude / Gemini 等通用聊天 App)
  2. B:IDE / 办公工具 (Copilot、Cursor、Office/G Suite 等)
  3. C:多模型 API / 路由层 (OpenRouter + 部分企业自建网关)
  4. D:垂直行业 SaaS (AI 医疗、AI 法律、AI 投研等)
  5. E:企业私有化 / 本地部署 (金融、政府、大厂自建集群)

OpenRouter 报告只覆盖其中 C 这块的一部分

4.1 块 A:消费端 ChatGPT / Claude / Gemini

  • ChatGPT :非工作使用约 70%。主要用途是“查信息 + 实用建议 + 写东西”,编程和陪伴是小众用途(编程约 4.2%)。
  • Claude :情感支持类会话仅占 2.9%,大多数仍围绕工作任务和写作。

对比 OpenRouter 视角: OpenRouter 天然 低估了生活/写作/信息类使用 ,相对 高估了 API-heavy 的专业场景(如编程、Agent 调用)

4.2 块 B:IDE / 办公工具里的 AI 助手

  • 使用结构 :开发者主要入口是 IDE & 内部 Web 工具,场景全围绕写代码、补全、测试。
  • 规模 :GitHub Copilot 等工具已经显著提升开发效率,Anthropic 指出 79% 的 Claude Code 对话涉及“自动化任务”。

对比 OpenRouter 视角: 真正的全球编程 Token 大头其实藏在 B(IDE)+ C + E 块里。OpenRouter 看到的“编程是最大场景”,仅代表“用多模型 API 的这群开发者”的现状。

4.3 块 C:多模型 API / 路由层(OpenRouter 为代表)

  • 用户 :构建 AI 产品 / Agent 的开发者与团队。
  • 特征 :强需求多模型路由,对成本和性能敏感。
  • 使用结构 :编程占比极高(>50%),Roleplay 在开源模型中占比大,Agent 化趋势明显。

4.4 块 D & E:垂直 SaaS 与 企业私有化

  • 特征 :数据不经过 OpenRouter,高价值、高敏感。
  • 结论 :这两块的 Token 在报告中几乎完全不可见。

总结:OpenRouter = C 块里最大的观测点之一,但整个图还有 A/B/D/E 四块。

五、Token 数量级:OpenRouter 的 100 万亿在全局中占多少?

5.1 已知的几个锚点数字

5.2 占比估算

  • 与 Google 对比:OpenRouter 仅占 Google 总量的 0.85% 左右。
  • 与全网粗估对比:OpenRouter 约占全网推理 Token 的 0.3% 左右。

结论:OpenRouter 在“全网推理 tokens 池子”里占比约为 0.x% 的量级。但在 “多模型 API / Agent-heavy 的开发者世界” 里,它是一个非常具有代表性的样本。

六、解读报告的整体再判断

结合拼图和数量级估算,对洞见进行“二次校准”:

6.1 相对稳健的结论

  • 多模型世界是长期态势
  • 编程 在“开发者 + API/IDE 世界”里确实是最主要场景。
  • Roleplay 在“开源 + API 爱好者世界”是个巨大场景。
  • 推理模型 + Agent 化 趋势是真实存在的。

6.2 需带“样本滤镜”的结论

  • 垂直行业“长尾化”:仅在 OpenRouter 样本中成立,不能代表全行业。
  • Roleplay 的全局占比:在消费端 App 中占比很低,但在开源/API 社区很高。
  • “编程 = 最大场景”:在 API/IDE 世界是事实,但在大众消费端不是。

七、对不同角色的策略启示

7.1 企业决策者

  • 技术架构:预设多模型世界,规划统一的模型网关/路由层。
  • 评估指标:从“每 Token 单价”转向 “每任务成功成本 (Cost per Successful Outcome)”
  • KPI:重视留存和业务结果,而非表面使用量。

7.2 开发者 / 创业者

  • 赛道选择:开发者生产力、Roleplay/陪伴、垂直职业 Copilot。
  • 产品策略:默认支持推理模型、长上下文和多模型切换。把业务逻辑做在 Agent 层,而非 Prompt 里。
  • 视角修正:做 API 产品看 OpenRouter,做大众消费品看 ChatGPT 数据。

7.3 投资人 / 研究员

  • 看留存:关注“水晶鞋效应”,看是否形成了高留存的基础 Cohort。
  • 看基建:重视模型路由、评估、监控等中间层基础设施。
  • 看区域:关注亚洲及中国开源模型的本地化优势。

八、总结

把 OpenRouter 报告当成“C 块(多模型 API / Agent-heavy 开发者世界)”的高分辨率照片, 然后再把它嵌入 A/B/D/E 五块的大拼图中看,才能得到更接近真实的全局视角。

在这个前提下:

  • 编程 是 API 世界的重型场景;
  • Roleplay 是开源社区的重要场景;
  • 垂直行业 看似长尾,实则隐身于私有部署中。

一旦把这些因素都纳入视野,OpenRouter 每年 100T Tokens,虽然只占全网的 0.x% ,却精准折射了 AI 开发者与 Agent 的最前沿动态。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14537

(0)
上一篇 2025年12月12日 上午11:07
下一篇 2025年12月12日 下午2:17

相关推荐

  • ReSeek框架:赋予搜索智能体动态自我修正能力,突破推理链中的连锁错误瓶颈

    在人工智能技术快速发展的今天,搜索智能体(Search Agent)作为连接大语言模型与实时信息世界的关键桥梁,正面临两大核心挑战:知识的实时性与推理的复杂性。传统的检索增强生成(RAG)技术虽然能够引入外部知识,但其本质上仍是被动的信息检索过程。而搜索智能体的革命性突破在于,它能够通过与实时搜索引擎进行多轮交互,主动分解并执行复杂的多步任务。这种能力在人物…

    2025年11月18日
    7700
  • GPT-5.2深度解析:专业生产力工具的进化与多模态能力突破

    OpenAI近期正式发布了GPT-5.2系列模型,这一更新标志着人工智能在专业工作场景中的应用迈入新阶段。数据显示,ChatGPT企业版用户平均每日可节省40-60分钟的工作时间,重度用户每周节省超过10小时,这不仅是效率的提升,更是工作模式的根本性变革。GPT-5.2的核心目标在于释放更广泛的经济价值,通过技术优化推动各行业知识工作者的生产力跃升。 在专业…

    2025年12月12日
    7900
  • 从语言到空间:世界模型如何重塑AI进化的底层逻辑

    近期AI领域两位重量级人物的发声,揭示了人工智能发展路径的重要转向。图灵奖得主杨立昆(Yann LeCun)被曝计划离开Meta,专注于以“世界模型”为核心的新事业;而斯坦福大学教授李飞飞则在社交媒体发表长文,直言大语言模型(LLM)的局限性,并提出“空间智能”才是通往通用人工智能(AGI)的关键。两人不约而同地强调“世界模型”的重要性,这标志着AI研究正从…

    2025年11月17日
    8700
  • ATEC2025线下挑战赛:全户外自主机器人极限测试,揭示具身智能四大技术瓶颈

    近日,第五届ATEC科技精英赛线下赛在香港中文大学圆满落幕。作为全球首个聚焦实景极端环境的人工智能与机器人赛事,本届比赛首次将机器人从实验室完全迁移至户外复杂场景,在无遥操作干预的前提下,要求机器人自主完成一系列高难度任务。这不仅是对当前机器人技术极限的公开检验,更是具身智能发展进程中的一次里程碑式事件。 比赛设置了垃圾分拣、自主浇花、定向越野和吊桥穿越四大…

    2025年12月8日
    8100
  • 从折纸到工程奇迹:14岁华裔少年如何用三浦折叠突破应急避难所设计

    在传统认知中,折纸往往被视为一种艺术或娱乐活动,但14岁的华裔少年迈尔斯·吴(Miles Wu)却通过这项古老技艺,在工程科学领域掀起了一场小型革命。今年10月,他凭借一项创新的折纸设计,在竞争激烈的赛默飞科学青少年创新挑战赛(JIC)中脱颖而出,斩获最高奖项及2.5万美元奖金。这一成就不仅为他赢得了“天才少年”的称号,更揭示了折纸在结构工程中的巨大潜力。 …

    2025年12月6日
    8400