AI公司开始为结果买单：Sierra估值150亿美元，RaaS模式能否终结AI泡沫？

自从黄仁勋在GTC大会上鼓励企业将Token消耗量纳入工程师的KPI考核后，一系列令人费解的现象便层出不穷。

先是Meta内部掀起了“烧Token竞赛”，员工为了冲刺KPI，编写死循环Bot、使用低效提示词来刷数据；紧接着，亚马逊员工为了证明自己“高频使用Agent”，即使是不需要自动化的任务，也强行将其自动化。表面上看，这是大厂员工在“内卷AI使用率”，但背后暴露的问题更为严峻：当企业无法衡量AI的真实价值时，便只能退而求其次，用“调用量”来替代“产出”。

AI公司开始为结果买单：Sierra估值150亿美元，RaaS模式能否终结AI泡沫？

这种失真现象，正逐渐成为整个行业的共同困境。

麦肯锡数据显示，88%的企业已在至少一个职能中常态化使用AI，但真正能被定义为“AI高绩效企业”（即EBIT因AI提升超过5%）的，却不到6%。大量预算、算力和工程师时间被投入，最终换来的往往只是一份“看起来很忙”的账单。企业知道AI很重要，也清楚竞争对手在用它，但核心问题是：这笔钱花得到底值不值？没人能给出明确答案。

这恰恰是过去两年AI落地过程中最尴尬的地方。

因为大多数AI公司销售的，本质上仍是“工具”。工具是否真正创造价值，风险天然由采购方承担。更何况，这次的AI工具不仅更贵、更复杂，还高度依赖企业自身的数据、流程和组织配合。于是，许多企业只能盯着Token、调用次数、Agent使用频率这些“过程指标”，试图从中推测AI是否产生了实际结果。

但问题的关键在于，企业真正想买的，从来不是Token。

CEO不会因为员工多调用了几次模型而欣喜，董事会也不会因Agent使用率提升就认可ROI。企业真正想要的，其实一直很简单：结果——而且是能被验证、能被归因、最好还能直接写进财报的结果。

只是过去，很少有AI公司敢为这个结果负责。

而现在，一批公司开始尝试改写这一局面：他们不再按“卖工具”收费，而是直接对结果收费，让AI真正背上KPI。其中，硅谷的Sierra与国内的零犀科技，恰好代表了这一模式在海内外的先行探索。

当AI公司开始为结果负责

今年3月，红杉的一篇文章带火了一个名为“RaaS（Result-as-a-Service）”的概念。

AI公司开始为结果买单：Sierra估值150亿美元，RaaS模式能否终结AI泡沫？

文章开篇便抛出一个断言：“下一个万亿美元级公司，将是一家伪装成服务公司的软件公司。”

如何理解？先看文中定义的两种AI商业模式：Copilot和Autopilot。前者卖的是工具——专业人士用AI提效，但雇人用AI还需额外花钱。后者卖的是“工作成果”本身：AI直接交付结果，客户只为可衡量的业务结果付费，而非软件订阅。

红杉的判断是：后者的价值高得多。因为数据摆在那里——企业每花1美元在软件工具上，就需在相关服务和人力上再花约6美元。AI的进步让“卖结果”成为可能，Autopilot公司可以直接切入这个远超工具市场的劳动预算。

这篇文章在业内引发轰动，原因很简单：一个顶级投资机构亲自点明了“卖结果”的前景和分量，等于为投资人指明了下一波重仓方向。

不过，也有人质疑这是投资机构在炒概念。但紧随其后的一则融资消息，让市场开始认真审视这个概念的分量。

这则消息来自一家名为Sierra的公司。该公司由OpenAI董事会主席Bret Taylor与前谷歌高管Clay Bavor联合创立，旨在通过AI为企业提供定制化的客户体验解决方案（如帮用户改订单、退款、调库存），其核心理念就是让客户“pay for a job well done”。今年5月，该公司宣布完成9.5亿美元融资，公司估值超过150亿美元。

AI公司开始为结果买单：Sierra估值150亿美元，RaaS模式能否终结AI泡沫？

要知道，这一估值是其ARR（1.5亿美元）的100多倍。对于一个刚刚被摆上牌桌的新赛道而言，这几乎已不是普通意义上的高估值，而更像是一种明确的下注。

而真正说服投资人的，是Sierra本身的商业化进展。目前，他们已覆盖超过40%的财富50强企业。在客户体验与自动化服务这种高度核心、又极度看重稳定性和ROI的场景中，大企业不会因为“概念性感”就大规模采购。某种意义上，这些客户本身就是最严格的投票人。

而Sierra拿下这些客户，本身就在说明一件事：RaaS已不再停留在PPT和融资故事里，而是开始完成真正的大规模商业验证。

在国内，类似的事情也在发生。而且国内公司还额外证明了一件事：RaaS模式能实现规模化盈利和正现金流。

让市场注意到这一点的，是一家名为零犀科技的公司。

AI公司开始为结果买单：Sierra估值150亿美元，RaaS模式能否终结AI泡沫？

坦白说，国内宣称走RaaS路线的公司不止一家，但现阶段，真正能拿出盈利数据的却凤毛麟角，而零犀恰恰是那个少数派。

他们做的事，其实可以理解为“让AI Agent直接去卖东西”。在保险、汽车等行业中，零犀的AI会直接面向C端用户沟通，从最初判断用户是否有兴趣，到中间的跟进、推荐，再到最后成交，整套销售流程都由AI自主完成。这个过程最大的难点在于，最终必须以结果说话——用户是否真的下单、保单是否真的成交、钱是否真的入账，是金标准。

但从2019年开始，零犀就选择为这件事的结果负责，并一路走到了今天：从早期负毛利，到2024年实现公司级净利转正，再到2025年跑出规模化盈利与正现金流。数据显示，某头部保险机构接入其智能体后，新增保费超过20亿元。而若用传统人机结合模式完成同样的增量，通常需要一支800到1000人的销售团队。

无论是硅谷的Sierra，还是国内的零犀，它们都在做同一件需要胆量的事：把传统上由客户承担的不确定性，主动揽到自己身上。

在AI仍被多数人当作“效率工具”的语境下，这种选择本质上需要足够的技术底气。因为只有当你真正相信，自己的系统能够稳定完成任务、持续优化结果、并长期控制波动时，你才敢签下这样的合同。否则，一次结果不达标，吞掉的就是真金白银的亏损。

也正因如此，RaaS真正有意思的地方，从来不只是商业模式创新，而是它天然会倒逼公司走向另一个维度的技术探索。而这，恰恰也是Sierra和零犀接下来最值得被拆解的地方。

为结果负责，不能单靠大模型基座

Sierra和零犀，表面上看业务差别很大。Sierra将“Better customer experiences. Built on Sierra.”挂在官网最显眼的位置，核心产品Agent OS帮企业批量打造AI客服，谈的是体验。零犀则一头扎进保险、汽车等销售场景，谈的是成交。

但从底层来看，两家公司面对的是同一个根本性难题：如何让AI在真实业务场景里稳定地完成任务，并为结果负责。正是这个共同的出发点，倒逼出了高度相似的技术路径。

首先，两家都不是在单纯地卖模型能力，而是在卖任务完成——Agent的设计目标从一开始就指向业务结果，而非简单的生成质量。为此，它们都在大模型之上额外搭建了一套执行、记忆与评估系统，并对模型本身做了二次干预，使其在特定场景下更可靠、更少犯错、更清楚什么算好结果。更关键的是，两套系统都不是静止的——它们在真实业务中持续运行、持续学习，越用越强。

这些共性让它们看起来走在同一条大路上。但接下来的岔口——客户体验与销售的本质差异，将两家推向了完全不同的技术纵深。

当回答对≠能成交

由于瞄准客户体验，Sierra的核心命题是“把事情做对”，目标是答对问题、少犯错、不出合规风险。围绕这一目标，Sierra搭建的是一套精密的模型编排体系：15款以上的异构模型按任务特性分工协作，再由监督者模型实时审查每一次输出。这是一种偏向“组织架构管理”的技术思路——控制住正确性，系统便能稳定运转。

AI公司开始为结果买单：Sierra估值150亿美元，RaaS模式能否终结AI泡沫？

对于主打销售场景的零犀而言，其面临的核心挑战与前者截然不同。问题的关键不在于“说得对不对”——因为话术再漂亮，也不等于能成功签单。举例来说，一位女士在咨询保险时表示“得回家和老公商量一下”，通用大模型可能会顺势回复“好的，您先回去商量”。表面上看，这个回应并无不妥。但在真实的销售一线，顶尖销售绝不会让对话就此终结，而是会敏锐捕捉到这句话背后隐藏的真实顾虑（例如担心买错产品，或是对保障范围仍有疑惑），并继续推进沟通。

在这种场景下，模型必须学会主动向高转化方向倾斜。因此，零犀真正需要的是一套完善的奖惩机制——行为正确时给予正向激励，未达预期则施加惩罚，通过后训练持续将模型的权重导向期望的方向。

然而，这个后训练过程远比训练模型完成编程等任务要曲折得多。销售场景的难点是系统性的：数据稀缺、信号稀疏、归因复杂，并且根本无法在虚拟环境中进行验证。

众所周知，销售成交率本身就很低，在实际场景中可能仅有百分之几，绝大多数用户并不会最终成交。这意味着你获取的正向反馈天然稀缺，无法像训练代码模型那样——写一段代码，运行一下看是否报错，就能立刻得到明确的对错判断，从而产生海量训练数据。销售结果是由真实的人决定的，你无法凭空创造一个虚拟用户，并设定“只要这样说他就一定会买”的理想环境，这样的环境根本不存在。

归因则是一个更为复杂的难题。一单成交了，是因为AI话术高明，还是客户本身就有购买意向？一单流失了，是AI策略失误，还是客户因客观原因放弃？这本质上与“吸烟是否导致肺癌”是同一类问题——无法通过个体案例直接验证，必须依赖大量真实样本的统计因果分析，才能建立起可信的归因逻辑。

但统计方法也并非万能。很多时候，基于统计的大模型无法区分真正的因果关系与虚假的相关性，这正是所谓“幻觉”的根源。当模型观察到“沟通时间长”与“成交”之间存在统计相关性，它可能就会拼命延长对话，却不知道如果用户一直在投诉，聊得再久也不会买单。单纯依赖统计因果，模型很容易被混淆变量带偏，这正是销售场景中最容易踩的坑。这也是为什么无论通用大模型能力多强，在销售转化这件事上都难以直接搞定。

零犀的突破口：让模型学会“因果”

正因为销售场景存在上述问题，零犀最终走出了一条与通用大模型截然不同的后训练路径。这条路径的关键，并非单纯让模型“更会说”，而是让模型在后训练阶段学会：用户为什么购买，什么策略真正有效且为何有效，以及什么样的策略应该被持续强化。

为了实现这一目标，首先要解决的就是“归因”问题。

前面提到，销售最大的难点之一，是模型很容易被虚假的统计相关性带偏。问题不在于模型不会统计，而在于它不知道真正起作用的“因”是什么。

因此，零犀沉淀的并非普通的对话数据，而是一套尽可能因果完备的全链路数据：用户当时处于什么状态、浏览了什么页面、AI为何采取这个策略、用户后续又给出了什么反馈……这些信息都会被完整记录，并沉淀为领域因果知识图谱，作为事实底盘约束模型输出。只有“因”足够完整，模型才不会只学到表面的相关性。

但数据只是基础，更难的是将销售经验真正转化为模型能力。

很多销售冠军并不一定能准确说清自己为什么厉害，但他们往往知道：什么情况下应该推进，什么情况下应该转移话题，什么情况下用户真正的顾虑其实没有说出口。零犀所做的，是将这些原本存在于人脑中的经验，拆解成一套“用户状态识别—策略选择—结果反馈”的因果逻辑，再通过后训练沉淀进模型。这套“逻辑因果”方法与“统计因果”共同作用，使得模型的输出更加可靠，能让模型知道什么该奖、什么该罚、什么样的策略值得被强化学习持续放大。

此外，反事实推理也发挥着重要作用。系统不仅记录“做了什么”，还会评估“如果没做会怎样”——对于每一次未成交，它会进行复盘：比如在给新生儿父母介绍保险时，如果当时没讲性价比，而是继续聊孩子保障缺口，转化率预计能达到多少？这种从“没发生的事”中提取知识的能力，让模型在真实数据稀疏时依然能持续学习。

当这些能力建立起来之后，系统的自主进化才真正开始运转。

由于零犀本身就是按结果收费，它天然能够获得最直接的反馈闭环。哪些策略带来了更高转化，哪些用户会在什么节点流失，哪些干预方式实际上适得其反，系统都能在真实业务环境中持续完成评估、归因和策略调优。

与此同时，新的业务规则、成功案例和失败教训，也会被不断加工成结构化的因果知识片段，重新沉淀回模型与知识图谱之中。随着服务规模扩大，系统对用户理解、策略选择和交付能力的积累也会越来越深，最终形成一种持续自我优化、自我进化的后训练体系。

因此，零犀的壁垒，本质上并非某一个单点技术，而是一套不断自我强化的飞轮：因果完备的数据、业务 know-how 的 AI 化，以及真实业务环境中的持续迭代，三者彼此咬合，最终形成了一个会越跑越快的后训练系统。

AI公司开始为结果买单：Sierra估值150亿美元，RaaS模式能否终结AI泡沫？

而支撑这个飞轮持续运转的，是一支优秀的后训练团队。除了来自头部高校和大厂的算法工程师之外，零犀还长期引入深耕行业十年以上的销售专家。他们参与的并不只是“标注数据”，还在帮助系统回答一个更难的问题：顶级销售真正有效的能力，到底该如何被 AI 理解、拆解和复制。

RaaS：AI 的价值回归

当我们把视线从具体的技术细节拉回来，会发现 Sierra 和零犀的探索，其实正在回答 AI 行业一个更根本的问题：AI 到底应该怎么创造价值，又该如何被定价？

这两年，一个趋势正变得越来越明显：单点工具的壁垒正在被快速瓦解。Claude Code 等 Agent 产品的出现，让很多专门工具，变成了“用时生成、用完即弃”的东西。工具本身的价值，正在以肉眼可见的速度被稀释。但与此同时，另一件事情的价值却在水涨船高：把工作真正做完、做好的服务。

原因很简单。工具只是流程里的一把锤子，你买了锤子，还得自己去钉钉子，钉歪了、钉错了，责任都在你。但服务交付的是“把钉子钉好”这件事本身——结果确定，风险转移。

这其实也是 AI 从诞生第一天开始，人们真正期待它做到的事情——成为一个能独立背 KPI 的数字劳动力。谁能真正做到这一点，谁能拿到的市场，就会比传统软件大出一个数量级。

而 RaaS 这个赛道更值得关注的地方在于，它的护城河并不会随着基础模型升级而被削弱，反而可能越来越深。

因为 SaaS 卖的是工具，客户今天能买，明天也能换；但 RaaS 一旦开始端到端地交付结果，它就会逐渐嵌入客户真正的业务流程。更关键的是，每一次真实交付，都会沉淀新的结果数据、行业 know-how、策略经验和合规逻辑。这些东西不会因为底层模型升级就被清零，相反，模型越强，它们的价值反而越会被放大。

还有一个容易被忽视的变化是：当客户开始习惯“按结果付费”之后，他们会反过来用这套标准去要求所有后来的 AI 服务商。

这也是为什么，零犀提到说，他们的一些大客户，已经开始不再关心“你用了哪个模型”“参数量是多少”，而是直接追问：“你到底能不能把转化率做上去？”一旦行业开始用结果而不是功能评估 AI，整个竞争逻辑都会被彻底改写。

所以，先发者真正占据的，并不只是时间窗口，而是定义规则的能力。

回到文章开头，那些大厂内部为了冲 AI 使用率而疯狂“烧 token”的荒诞场景，本质上其实暴露的是同一个问题：AI 的价值，始终没有被真正兑现。而 RaaS 真正重要的地方，恰恰在于它把这件事重新拉回了正轨。

从本质上来讲，这是一种价值回归：让 AI 真正对结果负责，让收益和风险对齐，也让“生产力”这个词第一次真正回到商业世界最朴素的衡量标准里——到底有没有把事情做成。

摩根士丹利 2026 年初发布的报告将 AI 定义为第六次技术革命。前五次技术革命的历史已经反复验证：短期卖“铲子”的基础设施商最先获利，长期最大价值却沉淀在应用层和采用者手中。由于这种生产率红利的滞后性，AI 对生产率的实质性带动可能要到 2030 年之后才会充分显现。当泡沫退去、噪音消散，真正穿越周期的，永远是那些敢于为结果负责、把技术转化为生产率的公司。

这正是 RaaS 模式能够获得长期市场信心的根本所在。无论是零犀还是 Sierra，它们的实践并非停留在理念层面，而是在复刻一个已被历史多次验证的商业逻辑：谁能将“工具”的价值发挥到极致，并真正交付完整的成果，谁就能主导未来十年的格局。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/35391

AI公司开始为结果买单：Sierra估值150亿美元，RaaS模式能否终结AI泡沫？

相关推荐

揭秘大语言模型逻辑能力进化：2026年1月最新评测榜单深度解析

遥感模型微调技术演进：从全参数到混合范式的全景解析

2026智算时代：GPU、AI服务器与算力架构的协同革命

GRPO-Guard：破解流模型强化学习过优化难题，重塑视觉生成对齐新范式

GPT-5.4 mini发布即遭质疑：性能仅排第13，价格却涨三倍