新年伊始,AI行业便已进入高强度竞技状态。
在全球科技风向标CES展会上,机器人×AI成为真正的主角。在拉斯维加斯的霓虹灯下,中国机器人军团站到了舞台中央——他们并非仅靠堆砌概念,而是凭借实实在在的订单和规模化落地速度,赢得了关注。

CES创新奖评委Chris Pereira指出,中国厂商正展现出将新兴技术快速转化为可量产、可交付、并能在全球市场销售的成熟产品的强大能力。
与此同时,AI正逐渐退居幕后,成为产品的底层能力。真正的竞争焦点,已转向实用性、工业设计以及可靠的执行力。
展会现场,最吸引眼球的依旧是“人形”机器人。

波士顿动力(现已归属韩国现代集团)的新版Atlas机器人亮相。
然而,在同一空间内,另一条技术路线也在同步展开。
在影智XBOT的透明橱窗前,人群层层围拢。这是全球首个支持冷热双杯同时出品的具身智能机器人,也是当前众多具身智能产品中,商业化落地最为深入的代表之一。
有人举着手机录像,有人已经开始讨论要把什么图案印在咖啡上。

影智 XBOT Lite 系列印花咖啡机器人——全球首个支持冷热双杯同出的具身机器人。
橱窗玻璃后,两只机械臂分工协作,打奶泡、印花、出杯,动作连贯流畅,犹如一段经过反复打磨的编舞。110秒后,一杯冰美式和一杯热拿铁同时完成,杯面上浮现出由AI生成的专属印花——每一杯的图案都独一无二。

“这玩意儿太酷了。”队伍中有人忍不住感叹,“能在咖啡上打印照片,绝对是游戏规则改变者。”有人已经等不及拍照分享到社交平台。

机器人持续稳定地出杯。“你能把公司logo印在咖啡上,这杯咖啡一下子就变得专属了,谁会不喜欢?”一位顾客说道。“而且不用付小费——对顾客和老板来说都是好事。”另一个人从更现实的角度补充了一句。

品尝完咖啡,又试吃了旁边影智XBOT冰淇淋机器人制作的冰淇淋,人群中笑声不断。“这哪是咖啡机?”有人指着橱窗笑道,“这是个能把人吸引过来的娱乐中心。”

与多数仍在努力“看起来很未来”的人形机器人不同,影智XBOT并不追求形似人类,而是致力于成为一台可以全天候运转的生产工具——不跳舞、不表演,直接为用户递上一杯口感稳定、品质出色的咖啡。
而这套商业逻辑,已经在真实世界中运行了相当长的时间。
从天安门广场、国家图书馆到成都锦里,影智XBOT经历的并非短暂的展示,而是数百万次的反复出杯验证。
目前,影智XBOT已在全球15个以上国家、100多个城市实现落地,部署量超过600台,累计制作咖啡400万杯以上。在部分核心商业点位,甚至实现了数月内回收成本的运营表现。
在具身智能普遍面临商业化挑战的当下,影智XBOT用一组明确的数据证明:它是目前行业内商用落地速度最快的具身智能机器人之一。

2025年8月,影智科技发布年度新品之一:影智XBOT Lite系列印花咖啡机器人。
回归商业常识:具身智能不等于“人形”
在当前关于具身智能的讨论中,“人形”几乎成为一种默认答案。但在打造影智XBOT的影智科技看来,这条路径更多源于技术想象,而非商业理性。
这一判断,源于公司创始人唐沐长期积累的产品与商业经验。
作为2022年福布斯中国十佳设计师,唐沐曾掌舵腾讯用户体验设计中心(CDC),并担任小米生态链副总裁。他既是QQ头像、微信表情包等现象级符号的缔造者,也是小米路由器、小爱智能音箱等亿级销量爆款产品的重要推动者。

公司创始人唐沐和影智 XBOT咖啡机器人。
长期站在技术、产品与规模化商业的交汇点,塑造了他极其务实的产品观:一切产品必须从真实场景出发,目标要指向大众市场,并且要经得起规模化、可靠性与成本结构的严格检验。
这也构成了影智科技切入具身智能领域的基本原则——回归商业常识。先解决人的真实需求,在一个足够垂直的场景中将事情做到极致,再去讨论所谓的“终极形态”。
在唐沐看来,机器人的进化路径不应从“像人”出发,而应回归“是否真正有用”。具身智能的价值,并不取决于外形是否拟人,而在于它能否围绕具体问题展开,在真实环境中灵活适应并精准执行。
在大量现实的消费与服务场景中,工程复杂度高、成本高昂且伴有不可控风险的人形设计,反而可能成为商业化落地的负担。
至于“为什么选择精品咖啡赛道”,则是多条现实线索叠加后的结果。
选择市场,首先要足够大,其次必须是一个成长型市场,咖啡完美符合这两个前提。它本身是一个高度全球化、已被充分验证的成熟消费市场,而中国市场正处于快速增长阶段。
数据显示,2023年我国人均年咖啡消费量约为16.74杯,几乎是2016年的两倍;到2024年,这一数字已提升至22.24杯以上。即便在瑞幸、库迪等品牌快速扩张的背景下,中国咖啡门店的整体密度,依然明显低于日本和韩国等成熟市场,增长空间可观。
在需求持续走高的同时,供给侧却长期受制于人力瓶颈。
咖啡师培养周期长、流动性高,岗位留存率普遍偏低;在高度内卷的竞争环境中,咖啡店比拼的是出单量与运营效率,对人力的挤压不断加剧,也放大了系统性的运营矛盾。
咖啡消费还呈现出明显的波峰与波谷特征。高峰期排队几乎成为常态,品质波动难以避免。尤其是在拉花这类对毫米级精度和连续轨迹高度敏感的操作中,人类不可避免的生理性抖动,会直接导致线条断裂或形状变形。
而对大多数用户而言,他们关心的不是“谁在做咖啡”,而是出杯是否足够快、品质是否始终稳定。以出杯量为例,每天三百杯以上的稳定输出,对人类咖啡师而言几乎不可持续;而对机器人来说,这只是连续、可复制的标准工作负载。
在这样的背景下,大模型技术的出现,让产品得以“升维”——从底层重新定义一套面向消费服务场景的具身智能系统。
市面上多数咖啡机,本质上仍是工业自动化设备,核心考虑是“怎么把咖啡做完”。具身智能除了关心效率,还关心“这杯咖啡是给谁喝的、在什么情境下喝、怎样才算一次好的体验”。咖啡这一日常消费场景,第一次有机会迈入以用户体验为核心的重构阶段。
历经两年多研发,影智XBOT问世并成功出圈,唐沐也因此多了一个被媒体反复引用的标签:“具身智能消费机器人第一人”。
具身智能的“三位一体”:为什么能做到万杯如一?
从原料开始,影智XBOT就在为“稳定性”服务。
目前,影智XBOT全部采用阿拉比卡咖啡豆,设备内设置两个豆仓:一个拼配豆仓,一个单品豆仓(如瑰夏),以覆盖不同用户的口味偏好;牛奶则与蒙牛合作统一供应。无论是在北京、上海,还是成都,用户下单后端到手里的那杯咖啡,都能保持高度一致的风味。

这种“万杯如一”的表现,并非依靠单一环节实现,而是依赖于一套完整的具身智能技术体系:负责理解与决策的“大脑”、统筹执行的操作系统(OS),以及完成精细物理动作的“小脑”。
影智XBOT的“大脑”,并非传统的点单系统,而是一套面向真实世界运行的具身智能餐饮大模型,其核心目标是更精准地理解用户需求。

当用户提出一句模糊需求——例如“我想来一杯热带风情的咖啡”——系统会在毫秒级时间内调取完整的饮品知识体系,覆盖公开菜单、配方逻辑与标准化制作流程(SOP),并理解“热带风情”可能意味着椰子、热带水果、冰爽口感与较高甜度。
接下来,大模型会调用口味拼配算法,在现有原料约束下寻找最优解:比例如何控制?先加什么、后加什么,才能在不破坏咖啡主体风味的前提下,呈现出“热带”风味特征?
这些原本高度依赖咖啡师经验与手感的判断,被转化为一组可计算、可推演的决策过程。算法甚至「知道」一些已经被反复验证的美味公式,如生椰与拿铁是绝配。
最终,你的抽象需求会被翻译成一连串精确到秒的动作调用:咖啡液多少秒、椰乳多少秒,冰、糖与水如何配合。每一个动作,都是机器人已经掌握的能力模块,可以被反复调用、稳定复现。
在「揽客」上,AI 数字人承担「意图入口」的角色。它具备长记忆能力,能识别老顾客与偏好——「Hi,Thomas,还是要上次的橙 C 冰美式吗?」甚至能在连续对话中保持上下文一致。

数字人还能根据状态做出情境化推荐,如夜深时建议一杯 double 浓缩。结合 AIGC,用户「随口一说」的创意,也能被实时「打印」成咖啡印花。

如果说「大脑」解决的是「逻辑上该怎么做」,那么影智XBOT操作系统 (LU BAN OS)要解决的是在真实世界中能不能这么做 ——这是双臂机器人实现落地的关键一环。
它更像一套神经中枢。当「大脑」给出高层指令后,OS并非简单转发,而是介入执行层,在复杂的真实环境中进行全局编排:统一调度机械臂、咖啡机、奶泡器、糖浆泵、制冰机、印花机等设备,确保每一个步骤、每一个动作,都发生在安全、合理且可控的物理条件之内。
做出一杯咖啡,看似线性的流程,背后其实是一套高并发的任务调度系统。通过底层运动算法,OS实现了双机械臂的空间解耦与时间同步 。即便在狭窄的操作空间内,两只手臂也能在毫秒级反馈下实时避障,像人类双手一样默契配合。
OS真正强大的地方,在于赋予了双臂「柔性作业 」的能力。在不同调度策略下,双臂可以进行高度非对称的协同,互不干扰地同时制作两款完全不同的饮品。

与此同时,OS还会持续监控设备状态,记录运行数据,提前识别潜在异常,并为下一单完成预准备,等等。正是这套全局感知与调度能力 ,使影智XBOT即便在无人值守的情况下,也能长期稳定地支撑高并发出杯。
当这套通用底座逐渐成熟,咖啡也就不再是它的唯一应用场景。冰淇淋、奶茶、鸡尾酒、面食,乃至教育、陪伴等更广泛的消费与服务领域,本质上都只是同一套具身智能系统之上的「技能插件」。
在此之下,「小脑」承担的是具身智能中最贴近物理世界的一层任务 :在液体流动、奶泡阻力与原料状态不断变化的真实环境中,依然把口味与视觉表现锁定在同一标准,实现真正意义上的「万杯如一」。
在硬件层面,团队自研双六轴定制工业机械臂,重复定位精度达到±0.03 毫米;配合高精度运控算法,整体操作精度达到 0.1 毫米,远超人类生理极限。
在萃取阶段,粉量误差被压缩至极小范围。糖浆添加与拉花动作被控制在毫米级精度。拉花时,机械臂的移动速度与喷头挤出节奏始终保持同步,一旦感知到液体阻力或流速偏移,系统便即时修正电机输出,确保线条连续、不抖动。

为了教会机器人各种餐饮手艺,比如「审美级」拉花能力,团队搭建了一套顶级红外光学动捕系统。

通过 11 组高精度摄像头,将顶级咖啡师最细微的手部摆动与力度变化,以毫米级精度完整记录下来,再借助自研算法,将这些大师级技巧翻译为机械臂可执行的控制指令,还实现了跨型号的自动校准。
最终,原本只存在于老师傅经验中的「手感」,被沉淀为可规模复制、稳定复现的工业级能力。
设计美学 × 商业策略:让具身智能真正成为一门生意
如果说,技术解决的是「能不能把事做对」,那么工业设计解决的,其实是「这东西能不能被真正用起来」。而后一个问题,才是 2B 商家是否掏出真金白银的分水岭。
商家的目标很简单,用尽可能确定、低摩擦的方式赚钱。因此,影智XBOT是否能够被设计成一台全年无休、稳定运转的生产设备,是否能持续替代人力,把那些琐碎、重复、长期消耗精力的管理问题一并吞掉,远比「看起来有多先进」更重要。
也正因如此,作为少数同时拿下 iF、红点 Best of the Best、IDEA、CMF 等国际设计大奖的团队,影智科技并没有把工业设计当作外观层面的加分项,而是将其视为一套用于降低商业摩擦成本的方法论。
这种思路,最先落到一个极其「现实」的指标上:空间效率。
通过高度紧凑的内部架构,影智XBOT将机械臂、咖啡机、制冰机、印花机等完整模块,压缩进约 1.35㎡–2.5㎡ 的占地范围内。在寸土寸金的商业环境中,这是直接影响坪效、租金模型,甚至点位是否成立的关键变量。

设计并未止步于「塞得下」,而是与商业运维深度绑定。
通过全模块化架构,将复杂硬件拆解为标准化服务组件,故障模块可在60 分钟内快拆更换;配合远程 OTA,实现系统、动作路径与配方的一键升级。同时,预留扩展接口,支持未来扩容料仓或接入其他服务设备,让单体机器不被功能锁死,具备持续演进的商业弹性。

在商业模式上,影智科技并未停留在「卖一台机器」,而是搭建了一套更贴近真实商业世界的三层结构:设备销售、联营模式,以及持续性的增值服务。
其中,「7S」服务体系是一个首创。通过将大量原本由运营者承担的风险前移至平台侧,释放出一个明确信号:咖啡机器人并不是在「与人抢工作」,而是在用技术降低创业门槛,让小生意重新变得可控。它瞄准的,正是那些有创业意愿、却缺乏技术、管理与抗风险能力的中小创业者——过去,这类人往往在高启动成本与不确定风险中迅速出局。
在传统「4S」基础上,「7S」补齐了三项关键能力:用数据运营替代经验判断;通过金融服务,将近 20 万元的初始投入拆解为更轻量的运营方案;通过回购与升级机制,赋予设备流动性与持续迭代空间,明确机器人是一种可持续优化的资产,而非一次性消耗品。

把具身智能先安放在当下
如果说人形机器人代表的是远方,那么影智科技更像是把具身智能先安放在当下。
它代表了另一类具身智能公司:不沉迷概念叙事,也不等待终极形态,而是用当下可行的技术,在复杂、开放、不可控的真实世界中,反复验证可复制的商业模式。
从底层运控算法、工业设计,到产品形态与商业模式,影智科技在一条全链路上不断打磨同一个问题——当具身智能真正进入现实生活,它如何成为一门成立的生意。至少在咖啡这门生意里,这个问题已经有了被市场验证的答案。
也许正是这些并不「人形」、却能持续运转的「中间态」产品,正在把具身智能从想象中的未来,一步步带进现实世界。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17798
