AI公司开始为结果买单:Sierra估值150亿美元,RaaS模式能否终结AI泡沫?

自从黄仁勋在GTC大会上鼓励企业将Token消耗量纳入工程师的KPI考核后,一系列令人费解的现象便层出不穷。

先是Meta内部掀起了“烧Token竞赛”,员工为了冲刺KPI,编写死循环Bot、使用低效提示词来刷数据;紧接着,亚马逊员工为了证明自己“高频使用Agent”,即使是不需要自动化的任务,也强行将其自动化。表面上看,这是大厂员工在“内卷AI使用率”,但背后暴露的问题更为严峻:当企业无法衡量AI的真实价值时,便只能退而求其次,用“调用量”来替代“产出”。

AI公司开始为结果买单:Sierra估值150亿美元,RaaS模式能否终结AI泡沫?

这种失真现象,正逐渐成为整个行业的共同困境。

麦肯锡数据显示,88%的企业已在至少一个职能中常态化使用AI,但真正能被定义为“AI高绩效企业”(即EBIT因AI提升超过5%)的,却不到6%。大量预算、算力和工程师时间被投入,最终换来的往往只是一份“看起来很忙”的账单。企业知道AI很重要,也清楚竞争对手在用它,但核心问题是:这笔钱花得到底值不值?没人能给出明确答案。

这恰恰是过去两年AI落地过程中最尴尬的地方。

因为大多数AI公司销售的,本质上仍是“工具”。工具是否真正创造价值,风险天然由采购方承担。更何况,这次的AI工具不仅更贵、更复杂,还高度依赖企业自身的数据、流程和组织配合。于是,许多企业只能盯着Token、调用次数、Agent使用频率这些“过程指标”,试图从中推测AI是否产生了实际结果。

但问题的关键在于,企业真正想买的,从来不是Token。

CEO不会因为员工多调用了几次模型而欣喜,董事会也不会因Agent使用率提升就认可ROI。企业真正想要的,其实一直很简单:结果——而且是能被验证、能被归因、最好还能直接写进财报的结果。

只是过去,很少有AI公司敢为这个结果负责。

而现在,一批公司开始尝试改写这一局面:他们不再按“卖工具”收费,而是直接对结果收费,让AI真正背上KPI。其中,硅谷的Sierra与国内的零犀科技,恰好代表了这一模式在海内外的先行探索。

当AI公司开始为结果负责

今年3月,红杉的一篇文章带火了一个名为“RaaS(Result-as-a-Service)”的概念。

AI公司开始为结果买单:Sierra估值150亿美元,RaaS模式能否终结AI泡沫?

文章开篇便抛出一个断言:“下一个万亿美元级公司,将是一家伪装成服务公司的软件公司。”

如何理解?先看文中定义的两种AI商业模式:Copilot和Autopilot。前者卖的是工具——专业人士用AI提效,但雇人用AI还需额外花钱。后者卖的是“工作成果”本身:AI直接交付结果,客户只为可衡量的业务结果付费,而非软件订阅。

红杉的判断是:后者的价值高得多。因为数据摆在那里——企业每花1美元在软件工具上,就需在相关服务和人力上再花约6美元。AI的进步让“卖结果”成为可能,Autopilot公司可以直接切入这个远超工具市场的劳动预算。

这篇文章在业内引发轰动,原因很简单:一个顶级投资机构亲自点明了“卖结果”的前景和分量,等于为投资人指明了下一波重仓方向。

不过,也有人质疑这是投资机构在炒概念。但紧随其后的一则融资消息,让市场开始认真审视这个概念的分量。

这则消息来自一家名为Sierra的公司。该公司由OpenAI董事会主席Bret Taylor与前谷歌高管Clay Bavor联合创立,旨在通过AI为企业提供定制化的客户体验解决方案(如帮用户改订单、退款、调库存),其核心理念就是让客户“pay for a job well done”。今年5月,该公司宣布完成9.5亿美元融资,公司估值超过150亿美元。

AI公司开始为结果买单:Sierra估值150亿美元,RaaS模式能否终结AI泡沫?

要知道,这一估值是其ARR(1.5亿美元)的100多倍。对于一个刚刚被摆上牌桌的新赛道而言,这几乎已不是普通意义上的高估值,而更像是一种明确的下注。

而真正说服投资人的,是Sierra本身的商业化进展。目前,他们已覆盖超过40%的财富50强企业。在客户体验与自动化服务这种高度核心、又极度看重稳定性和ROI的场景中,大企业不会因为“概念性感”就大规模采购。某种意义上,这些客户本身就是最严格的投票人。

而Sierra拿下这些客户,本身就在说明一件事:RaaS已不再停留在PPT和融资故事里,而是开始完成真正的大规模商业验证。

在国内,类似的事情也在发生。而且国内公司还额外证明了一件事:RaaS模式能实现规模化盈利和正现金流。

让市场注意到这一点的,是一家名为零犀科技的公司。

AI公司开始为结果买单:Sierra估值150亿美元,RaaS模式能否终结AI泡沫?

坦白说,国内宣称走RaaS路线的公司不止一家,但现阶段,真正能拿出盈利数据的却凤毛麟角,而零犀恰恰是那个少数派。

他们做的事,其实可以理解为“让AI Agent直接去卖东西”。在保险、汽车等行业中,零犀的AI会直接面向C端用户沟通,从最初判断用户是否有兴趣,到中间的跟进、推荐,再到最后成交,整套销售流程都由AI自主完成。这个过程最大的难点在于,最终必须以结果说话——用户是否真的下单、保单是否真的成交、钱是否真的入账,是金标准。

但从2019年开始,零犀就选择为这件事的结果负责,并一路走到了今天:从早期负毛利,到2024年实现公司级净利转正,再到2025年跑出规模化盈利与正现金流。数据显示,某头部保险机构接入其智能体后,新增保费超过20亿元。而若用传统人机结合模式完成同样的增量,通常需要一支800到1000人的销售团队。

无论是硅谷的Sierra,还是国内的零犀,它们都在做同一件需要胆量的事:把传统上由客户承担的不确定性,主动揽到自己身上。

在AI仍被多数人当作“效率工具”的语境下,这种选择本质上需要足够的技术底气。因为只有当你真正相信,自己的系统能够稳定完成任务、持续优化结果、并长期控制波动时,你才敢签下这样的合同。否则,一次结果不达标,吞掉的就是真金白银的亏损。

也正因如此,RaaS真正有意思的地方,从来不只是商业模式创新,而是它天然会倒逼公司走向另一个维度的技术探索。而这,恰恰也是Sierra和零犀接下来最值得被拆解的地方。

为结果负责,不能单靠大模型基座

Sierra和零犀,表面上看业务差别很大。Sierra将“Better customer experiences. Built on Sierra.”挂在官网最显眼的位置,核心产品Agent OS帮企业批量打造AI客服,谈的是体验。零犀则一头扎进保险、汽车等销售场景,谈的是成交。

但从底层来看,两家公司面对的是同一个根本性难题:如何让AI在真实业务场景里稳定地完成任务,并为结果负责。正是这个共同的出发点,倒逼出了高度相似的技术路径。

首先,两家都不是在单纯地卖模型能力,而是在卖任务完成——Agent的设计目标从一开始就指向业务结果,而非简单的生成质量。为此,它们都在大模型之上额外搭建了一套执行、记忆与评估系统,并对模型本身做了二次干预,使其在特定场景下更可靠、更少犯错、更清楚什么算好结果。更关键的是,两套系统都不是静止的——它们在真实业务中持续运行、持续学习,越用越强。

这些共性让它们看起来走在同一条大路上。但接下来的岔口——客户体验与销售的本质差异,将两家推向了完全不同的技术纵深。

当回答对≠能成交

由于瞄准客户体验,Sierra的核心命题是“把事情做对”,目标是答对问题、少犯错、不出合规风险。围绕这一目标,Sierra搭建的是一套精密的模型编排体系:15款以上的异构模型按任务特性分工协作,再由监督者模型实时审查每一次输出。这是一种偏向“组织架构管理”的技术思路——控制住正确性,系统便能稳定运转。

AI公司开始为结果买单:Sierra估值150亿美元,RaaS模式能否终结AI泡沫?

对于主打销售场景的零犀而言,其面临的核心挑战与前者截然不同。问题的关键不在于“说得对不对”——因为话术再漂亮,也不等于能成功签单。举例来说,一位女士在咨询保险时表示“得回家和老公商量一下”,通用大模型可能会顺势回复“好的,您先回去商量”。表面上看,这个回应并无不妥。但在真实的销售一线,顶尖销售绝不会让对话就此终结,而是会敏锐捕捉到这句话背后隐藏的真实顾虑(例如担心买错产品,或是对保障范围仍有疑惑),并继续推进沟通。

在这种场景下,模型必须学会主动向高转化方向倾斜。因此,零犀真正需要的是一套完善的奖惩机制——行为正确时给予正向激励,未达预期则施加惩罚,通过后训练持续将模型的权重导向期望的方向。

然而,这个后训练过程远比训练模型完成编程等任务要曲折得多。销售场景的难点是系统性的:数据稀缺、信号稀疏、归因复杂,并且根本无法在虚拟环境中进行验证。

众所周知,销售成交率本身就很低,在实际场景中可能仅有百分之几,绝大多数用户并不会最终成交。这意味着你获取的正向反馈天然稀缺,无法像训练代码模型那样——写一段代码,运行一下看是否报错,就能立刻得到明确的对错判断,从而产生海量训练数据。销售结果是由真实的人决定的,你无法凭空创造一个虚拟用户,并设定“只要这样说他就一定会买”的理想环境,这样的环境根本不存在。

归因则是一个更为复杂的难题。一单成交了,是因为AI话术高明,还是客户本身就有购买意向?一单流失了,是AI策略失误,还是客户因客观原因放弃?这本质上与“吸烟是否导致肺癌”是同一类问题——无法通过个体案例直接验证,必须依赖大量真实样本的统计因果分析,才能建立起可信的归因逻辑。

但统计方法也并非万能。很多时候,基于统计的大模型无法区分真正的因果关系与虚假的相关性,这正是所谓“幻觉”的根源。当模型观察到“沟通时间长”与“成交”之间存在统计相关性,它可能就会拼命延长对话,却不知道如果用户一直在投诉,聊得再久也不会买单。单纯依赖统计因果,模型很容易被混淆变量带偏,这正是销售场景中最容易踩的坑。这也是为什么无论通用大模型能力多强,在销售转化这件事上都难以直接搞定。

零犀的突破口:让模型学会“因果”

正因为销售场景存在上述问题,零犀最终走出了一条与通用大模型截然不同的后训练路径。这条路径的关键,并非单纯让模型“更会说”,而是让模型在后训练阶段学会:用户为什么购买,什么策略真正有效且为何有效,以及什么样的策略应该被持续强化。

为了实现这一目标,首先要解决的就是“归因”问题。

前面提到,销售最大的难点之一,是模型很容易被虚假的统计相关性带偏。问题不在于模型不会统计,而在于它不知道真正起作用的“因”是什么。

因此,零犀沉淀的并非普通的对话数据,而是一套尽可能因果完备的全链路数据:用户当时处于什么状态、浏览了什么页面、AI为何采取这个策略、用户后续又给出了什么反馈……这些信息都会被完整记录,并沉淀为领域因果知识图谱,作为事实底盘约束模型输出。只有“因”足够完整,模型才不会只学到表面的相关性。

但数据只是基础,更难的是将销售经验真正转化为模型能力。

很多销售冠军并不一定能准确说清自己为什么厉害,但他们往往知道:什么情况下应该推进,什么情况下应该转移话题,什么情况下用户真正的顾虑其实没有说出口。零犀所做的,是将这些原本存在于人脑中的经验,拆解成一套“用户状态识别—策略选择—结果反馈”的因果逻辑,再通过后训练沉淀进模型。这套“逻辑因果”方法与“统计因果”共同作用,使得模型的输出更加可靠,能让模型知道什么该奖、什么该罚、什么样的策略值得被强化学习持续放大。

此外,反事实推理也发挥着重要作用。系统不仅记录“做了什么”,还会评估“如果没做会怎样”——对于每一次未成交,它会进行复盘:比如在给新生儿父母介绍保险时,如果当时没讲性价比,而是继续聊孩子保障缺口,转化率预计能达到多少?这种从“没发生的事”中提取知识的能力,让模型在真实数据稀疏时依然能持续学习。

当这些能力建立起来之后,系统的自主进化才真正开始运转。

由于零犀本身就是按结果收费,它天然能够获得最直接的反馈闭环。哪些策略带来了更高转化,哪些用户会在什么节点流失,哪些干预方式实际上适得其反,系统都能在真实业务环境中持续完成评估、归因和策略调优。

与此同时,新的业务规则、成功案例和失败教训,也会被不断加工成结构化的因果知识片段,重新沉淀回模型与知识图谱之中。随着服务规模扩大,系统对用户理解、策略选择和交付能力的积累也会越来越深,最终形成一种持续自我优化、自我进化的后训练体系。

因此,零犀的壁垒,本质上并非某一个单点技术,而是一套不断自我强化的飞轮:因果完备的数据、业务 know-how 的 AI 化,以及真实业务环境中的持续迭代,三者彼此咬合,最终形成了一个会越跑越快的后训练系统。

AI公司开始为结果买单:Sierra估值150亿美元,RaaS模式能否终结AI泡沫?

而支撑这个飞轮持续运转的,是一支优秀的后训练团队。除了来自头部高校和大厂的算法工程师之外,零犀还长期引入深耕行业十年以上的销售专家。他们参与的并不只是“标注数据”,还在帮助系统回答一个更难的问题:顶级销售真正有效的能力,到底该如何被 AI 理解、拆解和复制。

RaaS:AI 的价值回归

当我们把视线从具体的技术细节拉回来,会发现 Sierra 和零犀的探索,其实正在回答 AI 行业一个更根本的问题:AI 到底应该怎么创造价值,又该如何被定价?

这两年,一个趋势正变得越来越明显:单点工具的壁垒正在被快速瓦解。Claude Code 等 Agent 产品的出现,让很多专门工具,变成了“用时生成、用完即弃”的东西。工具本身的价值,正在以肉眼可见的速度被稀释。但与此同时,另一件事情的价值却在水涨船高:把工作真正做完、做好的服务。

原因很简单。工具只是流程里的一把锤子,你买了锤子,还得自己去钉钉子,钉歪了、钉错了,责任都在你。但服务交付的是“把钉子钉好”这件事本身——结果确定,风险转移。

这其实也是 AI 从诞生第一天开始,人们真正期待它做到的事情——成为一个能独立背 KPI 的数字劳动力。谁能真正做到这一点,谁能拿到的市场,就会比传统软件大出一个数量级。

而 RaaS 这个赛道更值得关注的地方在于,它的护城河并不会随着基础模型升级而被削弱,反而可能越来越深。

因为 SaaS 卖的是工具,客户今天能买,明天也能换;但 RaaS 一旦开始端到端地交付结果,它就会逐渐嵌入客户真正的业务流程。更关键的是,每一次真实交付,都会沉淀新的结果数据、行业 know-how、策略经验和合规逻辑。这些东西不会因为底层模型升级就被清零,相反,模型越强,它们的价值反而越会被放大。

还有一个容易被忽视的变化是:当客户开始习惯“按结果付费”之后,他们会反过来用这套标准去要求所有后来的 AI 服务商。

这也是为什么,零犀提到说,他们的一些大客户,已经开始不再关心“你用了哪个模型”“参数量是多少”,而是直接追问:“你到底能不能把转化率做上去?”一旦行业开始用结果而不是功能评估 AI,整个竞争逻辑都会被彻底改写。

所以,先发者真正占据的,并不只是时间窗口,而是定义规则的能力。

回到文章开头,那些大厂内部为了冲 AI 使用率而疯狂“烧 token”的荒诞场景,本质上其实暴露的是同一个问题:AI 的价值,始终没有被真正兑现。而 RaaS 真正重要的地方,恰恰在于它把这件事重新拉回了正轨。

从本质上来讲,这是一种价值回归:让 AI 真正对结果负责,让收益和风险对齐,也让“生产力”这个词第一次真正回到商业世界最朴素的衡量标准里——到底有没有把事情做成。

摩根士丹利 2026 年初发布的报告将 AI 定义为第六次技术革命。前五次技术革命的历史已经反复验证:短期卖“铲子”的基础设施商最先获利,长期最大价值却沉淀在应用层和采用者手中。由于这种生产率红利的滞后性,AI 对生产率的实质性带动可能要到 2030 年之后才会充分显现。当泡沫退去、噪音消散,真正穿越周期的,永远是那些敢于为结果负责、把技术转化为生产率的公司。

这正是 RaaS 模式能够获得长期市场信心的根本所在。无论是零犀还是 Sierra,它们的实践并非停留在理念层面,而是在复刻一个已被历史多次验证的商业逻辑:谁能将“工具”的价值发挥到极致,并真正交付完整的成果,谁就能主导未来十年的格局。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35391

(0)
上一篇 2小时前
下一篇 2026年2月7日 上午11:55

相关推荐

  • 揭秘大语言模型逻辑能力进化:2026年1月最新评测榜单深度解析

    #1 参赛选手 本次更新模型(按发布时间顺序),共6个: 本月出榜: ERNIE 5.0 Preview(后继正式版)kimi-k2-0905-preview / Kimi-K2-Thinking(后继K2.5)Qwen3-30B-A3B-2507(不再跟踪)Doubao-Seed-1.8(后继1228版)Claude Haiku 4.5(不再跟踪)Qwen…

    2026年1月31日
    1.9K00
  • 遥感模型微调技术演进:从全参数到混合范式的全景解析

    近年来,在大数据与大模型的共同驱动下,遥感图像解译领域正经历着深刻的范式转变。传统上,研究重点多集中于模型结构本身的创新设计,然而随着计算资源的普及和预训练技术的成熟,业界逐渐转向「基础模型 + 微调」这一更具效率和应用潜力的新范式。这一转变的核心在于,通过利用在大规模通用数据上预训练的模型作为强大的特征提取器,再针对特定下游任务进行精细化调整,能够在显著降…

    2025年11月2日
    39800
  • 2026智算时代:GPU、AI服务器与算力架构的协同革命

    2026年,随着“东数西算”工程的深化落地、智算中心的规模化部署以及大模型技术的持续迭代,算力已成为驱动数字经济发展的核心生产要素。GPU作为释放算力的核心引擎,AI服务器作为承载算力的核心硬件,三者深度协同,共同支撑起人工智能、高性能计算(HPC)、智能制造等各类高算力需求场景。 本文基于2026年的行业现状,结合最新技术规格与市场数据,系统性地拆解算力、…

    2026年2月9日
    1.4K00
  • GRPO-Guard:破解流模型强化学习过优化难题,重塑视觉生成对齐新范式

    在视觉生成领域,强化学习从人类反馈(RLHF)及其变体已成为提升模型与人类偏好对齐的关键技术。其中,基于梯度的奖励策略优化(GRPO)因其高效性,在图像和视频生成的流模型中展现出显著潜力,如FlowGRPO和DanceGRPO等应用,已被证实能有效增强文本渲染、指令遵循及人类偏好对齐能力。然而,近期研究发现,GRPO在流模型训练中存在一个隐蔽却致命的问题——…

    2025年11月13日
    36800
  • GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

    GPT-5.4 mini 发布即遭质疑:性能仅排第13,价格却涨三倍 OpenAI 最新推出的 GPT-5.4 mini 模型,在发布首日便面临诸多质疑。 根据公开的大语言模型评测基准 Vals 数据显示,新发布的 GPT-5.4 mini 仅排名第 13 位,其性能优于 OpenAI 半年前 发布的 GPT-5。 值得注意的是,排名第 12 位的是于一月底…

    2026年3月18日
    82600