6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

消费级机器人行业，或许即将迎来一次真正的代际变革。

过去几年里，市面上涌现了大量机器狗：它们能跑、能跳、能翻跟头。但一个核心问题始终未被解决。

这些机器人在很多情况下，其实看不清、听不准，也思考不透彻。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

行业的主流配置，依然停留在200万像素摄像头、16线激光雷达和单芯片算力架构上。

机器人虽然能“动”，但距离真正“理解”世界，始终差着关键一步。

直到最近，我看到了一组令人惊讶的数据——

6600万像素、HDR140db、每秒223.2万点云、70亿参数的端侧模型跑出280TPS。

更值得注意的是，它没有在英伟达的既定规则里内卷。

而是通过6颗芯片组成异构计算集群，将消费级机器人的算力效率，直接拉升到行业平均水平的10倍以上。

这组数据，源自蔚蓝科技最新发布的BabyAlpha A3消费级四足机器人。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

这家公司已累计销售超过2.5万台消费级四足机器人，用户交互次数达到6548万次，使用时长超过9.5亿分钟。如今，它终于将过去几年积累的核心技术，集中释放到了A3身上。

一个明确的信号已经浮现：消费级四足机器人，正从“会动”的阶段，进入“会理解人”的新纪元。

随之而来的问题是：

当机器人的感知能力和算力都突破了行业天花板，具身智能究竟会被推向怎样的高度？

机器人终于告别“半盲”状态

过去几年，消费级机器人行业一直存在一个隐蔽的痛点。

大家都在疯狂比拼运动能力：翻跟头、跑酷、越障、爬坡，动作越来越像科幻电影中的场景。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

然而，感知系统却始终停留在“勉强能用”的层面。

逆光环境下容易模糊，复杂空间里容易误判，动态目标的捕捉速度也慢。

许多机器人表面上看起来很聪明，但本质上仍是在模糊地理解世界。

这也是为什么，行业里大量机器人虽然动作灵活，一旦脱离遥控或预设环境，就立刻暴露出“半盲选手”的本质。

如果机器人连世界都看不清，就谈不上真正的自主决策。

而A3最厉害的地方，就是直接将感知维度提升了一个时代。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

先来看视觉方面。

A3搭载了超能视觉感知系统，由5000万像素主摄、f/2.8超广角镜头和4K全景摄像头组成，分辨率分别达到8K、4K和4K，总像素高达6600万，还配备了1/1.3英寸大底传感器。

这是什么概念？许多旗舰手机的主摄，也不过是5000万像素。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

更关键的是，其感光能力达到了HDR140db视网膜级别。

行业主流的机器人，大多还停留在HDR90db以下，而人眼的理论动态范围大约在100db到120db之间。

A3首次将机器人视觉的动态范围，推到了超越人眼的水平。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

这意味着，过去机器人在强逆光、暗光或复杂明暗切换的环境中，往往会瞬间“失明”。

而现在，A3真正具备了在复杂光线条件下理解环境的能力。

还有一个容易被忽略的数据——最高帧率480fps。

行业主流大多还停留在30fps，相当于普通视频的流畅度。

480fps，接近超慢动作的视觉体验。

高速运动的物体、奔跑的儿童、突然出现的障碍物，在机器人眼中都变成了慢动作回放，是可以逐帧分析的清晰画面。

但这还不是最夸张的部分。

真正拉开代差的，是空间感知能力。

A3采用了5组3D ToF和3D结构光构成的360°环视面阵，点云密度达到了每秒223.2万点。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

而行业主流的16线激光雷达方案，点云密度仅为每秒4.8万点。

“点云密度”可以简单理解为：机器人每秒钟通过传感器采集到的三维空间点的数量。

高密度点云就像高清照片，能够分辨出细小的障碍物（比如电线、玩具、小台阶）。而低密度点云则像一张马赛克图。

4.8万点/秒对比223.2万点/秒，差距接近两个数量级。

如果说别人的机器人还在使用2G地图导航，那么A3已经切换到了4K实时地图。

它看到的，不再是障碍物的轮廓，而是一个高精度、实时变化的三维世界。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

听觉系统同样如此。业内许多机器人只是“听到声音”。

A3全球首发了12-Mic 3D Mesh仿生立体听觉，能够“听懂声音从哪来”。

12个麦克风组成了三维声场阵列，可以精准判断声音的方向、距离和空间位置。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

说得谦虚一点，它更接近具身智能。但在我看来，这本身就是具身智能！它不仅理解语言，还能理解环境。

就像人类干活时要求“知行合一”，只有感知正确，才能更好地行动。具身智能的终极目标，不正是如此吗？

在这样的感知能力支撑下，A3也在挑战自身极限，目前它的最高速度可达3.5m/s，能爬上45°角的斜坡，最大越障高度达28cm。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

注意，这并非单纯的数字炫耀。机器人对复杂环境的理解，已经发生了质变。

同时，这也意味着具身智能正从实验室逻辑，进入真实世界的逻辑。

但“看得见”只是第一步。

独创异构计算集群，绕开英伟达路线

感知到位了，还得“想得动”。

过去5年，无论是英伟达的旗舰产品OrinNX，还是国产性价比方案，大家本质上都在单芯片方案里内卷。

究其原因，还是端侧算力跟不上，无奈只能被拉进英伟达的路线硬扛。

事实上，这种路线存在明显的物理上限。功耗、散热、成本、实时协同能力，都会越来越难以突破。

于是，行业出现了一种诡异的状态。

机器人越来越贵，但真正的智能提升却越来越慢。

这也是为什么，很多机器人看起来越来越像“高配遥控车”。

能动，但不会思考。

A3这次选择了一条不同的突围路径，不再继续堆砌参数，而是直接绕开英伟达路线。

它设计了一套自研的“具身智能边缘端混合异构计算集群”。

简单来说，它更像一个“芯片智囊团”。不是让一颗芯片硬扛所有任务，而是6颗芯片分工协作。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

其中包括2颗5nm芯片、2颗8nm芯片、2颗3D堆叠芯片，总共22核CPU。

不同芯片负责不同任务：感知、决策、运动控制实时协同。

就像一家公司里，产品、技术、设计、运营各司其职，而不是一个人同时写代码、做PPT、还要去拉融资。

这背后其实是路线之争。跟着英伟达的规则走，只能拾人牙慧，不如换一条赛道，自己跑。

因为消费级机器人真正的问题，从来不是“能不能做出来”，而是“能不能让普通家庭买得起”。

这也是为什么，A3最核心的一组数据，不是参数本身，而是效率。

15亿参数模型下，617TPS；
30亿参数模型下，427TPS；
70亿参数模型下，280TPS。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

行业是什么水平？很多竞品在70亿参数下根本跑不起来。能跑的，最高也只有6TPS。

竞品思考一句话的时间，A3已经能完成一段对话了。

更关键的是成本：国产方案仅需300多美金，而英伟达Jetson Thor T5000，约需3000美金。

蔚蓝打破了算力垄断，用更低的成本实现了超越英伟达的效果，这让人不得不服。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

这件事真正有价值的地方在于，它首次将“端侧真正跑通大模型”，带入了消费级市场。

过去，行业存在一种严重的云端依赖，本质上还是芯片算力不足。

但机器人和ChatBot不同。它需要实时感知、实时决策、实时运动。

云端延迟，很多时候意味着机器人会直接撞墙。

而A3凭借强大的算力，能够在“端侧跑通大模型”。而这，恰恰是Physical AI得以落地的核心基石。

能进入家庭的机器人，首先必须足够安全

感知、算力、运动能力这些参数再强，也只是消费级机器人的入场券。

真正决定一台机器人能否进入家庭的，其实是另一件更底层的事：安全。

因为家庭环境和实验室完全不同。

实验室里没有突然蹿出来的猫，没有满地拖鞋和掉落的充电线，也没有刚学会走路的小孩。但在真实家庭里，这些场景全部存在。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

△ AI生成

蔚蓝很早就将安全放在了极高优先级，所有原材料和零部件均来自全球顶级供应商，许多设计思路都源于真实家庭中踩过的坑。

A3的一个显著特征在于，其大量安全能力并非后期添加，而是从底层设计之初就深度融合了进去。

以物理安全为例。行业中许多机器人的关节、线束和运动结构都裸露在外，儿童一旦误触，容易引发夹手或碰撞等风险。A3则直接采用了隐藏式关节、隐藏式线束和防夹手设计。即使在故障状态下，它也能实现毫秒级的安全制动。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

这类似于汽车行业从机械时代向智能时代的转变。真正高级的安全，不在于问题发生后能否挽救，而在于尽可能避免问题发生。系统安全也是如此。

当前，许多人讨论机器人时都在关注安全边界。当机器人具备长期联网、自主行动和持续感知环境的能力后，它本质上已成为一台可移动的智能终端，不能再按普通玩具的思路来设计。A3直接搭载了端云双重安全架构：端侧由360安全大脑负责拦截恶意攻击、木马病毒和远程攻击。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

云端则接入了等保三级、阿里云安全体系和Azure DDoS防护。本质上，它已经开始按照“智能终端级别”来构建安全体系。

另一个关键点是隐私。过去几年，许多用户对家庭机器人的最大顾虑并非价格，而是不放心。毕竟，家是每个人安全的港湾，是让人彻底放松的地方。如果一台集移动摄像头、麦克风和传感器于一身的设备长期待在家里，那意味着什么？因此，蔚蓝这次强调了一个原则：尽可能将算力和数据处理留在本地。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

这包括本地可信计算架构、全链路通信加密、端侧数据存储与处理、安全启动链等。这并非简单地说“我们不会泄露数据”，而是从架构层面确保大量数据根本不需要离开设备。这一点至关重要。尤其对于消费级具身智能来说，要想大规模进入家庭，“安全”比“智能”重要得多。

万元级消费机器人的背后

这也是消费级量产玩家稀少的原因。To B和To G业务还能依靠关系、项目或定制化拿单，但To C行不通：消费级市场只关心一件事——用户是否愿意掏钱。

蔚蓝没有依赖To B或To G先跑规模，而是选择了一条要求技术必须做到低成本、高可靠的艰难道路。公司自2019年成立第一天起，定位就是万元级消费产品，主打家庭场景和长期陪伴。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

△ AI生成

行业里许多公司还停留在Demo阶段，而蔚蓝的核心产品BabyAlpha已累计售出超过2.5万台，成为全球销量最高的消费级四足机器人产品。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

蔚蓝内部有一个重要逻辑：四足机器人是人形机器人真正成熟前必须经历的“启动阶段”。先用消费级四足产品获取真实世界数据，再反哺具身智能大脑训练。通过催熟大脑智能，建立产业链规模以压缩成本，从而解决人形机器人在消费场景下的成本-价值倒挂问题。

这一点非常关键。当前，要让机器人从“演示Demo”走向“实用落地”，许多玩家在训练产品时仍苦于缺乏高质量、规模化且具有真实物理交互的数据。很多公司还在依赖合成数据训练，而真实的家庭环境数据几乎无法模拟。殊不知，孩子突然扑过来、玩具散落一地、客厅灯光变化、多人同时说话……这些真实世界的噪声，才是机器人真正的考场。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

△ AI生成

而蔚蓝凭借2.5万余台的订单量、用户累计使用时长超9.5亿分钟、累计交互次数超6500万次所积累的数据，全部来自真实家庭环境，而非实验室生成。为了获取这些宝贵数据，蔚蓝分四步走：

以手机价格带的儿童陪伴产品完成规模出货，获取真实家庭场景数据；
基于用户数据训练云端模型并配合高密度OTA，不断提升产品用户粘性；
通过技术创新压缩产品成本，为算力让路，将云端模型下放端侧；
最后，对老用户进行低利润产品升级和回收，形成持续的“数据→智能→产品”完整飞轮。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

本质上，它已不是单纯卖硬件，而是在持续训练具身智能。

核心团队

最后，再聊聊团队。创始人刘维超是一位连续创业者，从中学时期就对智能体算法感兴趣。2009年至2011年，他连续三年获得RoboCup人形机器人国际冠军。之后赴德国留学，在波恩大学攻读人工智能机器人专业，师从德国波恩大学计算机学院院长Prof.Sven Behnke、莱布尼茨奖获得者Prof. Daniel Cremers，并与自动驾驶之父Prof. Sebastian Thrun系出同门。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

△ 蔚蓝科技创始人刘维超

2012年至2017年，刘维超创立过AUGTEX，还是LoRa Alliance创始董事成员、亚太区唯一董事成员。2018年，他开始筹备蔚蓝科技。目前，整个技术团队拥有宾夕法尼亚大学GRASP Lab、UIUC AI Lab、哈工大等全球顶级实验室背景。相比科研背景，他们搭建产业的能力同样强大。

这么说吧，前面提到的“感知、运动能力”是进入物理世界的身体，“算力”相当于底层引擎，“数据密度”是企业的护城河，“安全”是进入家庭场景的生死线。那么“产业化”就是具身智能公司把复杂技术带入消费级市场的最后一道门槛。在这方面，蔚蓝积累了多年经验。

2021年，其第2代工程机C200打破了MIT四足机器人的奔跑速度和旋转速度纪录。2022年，公司建成了国内首个四足机器人量产工厂。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

2023年，蔚蓝推出全球首款家庭陪伴四足机器人BabyAlpha。到2024年，全国首家消费级具身智能零售门店在南京德基落地。许多公司还在谈论未来，蔚蓝已开始将机器人真正放进商场和家庭。

消费级具身智能真正的难点，从来不是做出Demo，而是持续量产、持续迭代、持续进入真实世界。 BabyAlpha A3的有趣之处在于，它第一次将感知、算力和自主能力拉进了同一个时代。

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

当机器人开始看得比人更清楚、想得比过去更快时，一个新的问题出现了：人造劳动力，离普通家庭还有多远？ 或许，消费级具身智能真正的临界点，并不在实验室里，而是在某一天，一个售价万元级的机器人真正进入普通人的客厅。

据官方介绍，BabyAlpha A3预计于Q3正式上市。真正的消费级具身智能，可能要从这一代开始了。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/35198

6600万像素、70亿参数端侧运行，这款四足机器人把感知拉到人眼之上

机器人终于告别“半盲”状态

独创异构计算集群，绕开英伟达路线

能进入家庭的机器人，首先必须足够安全

△ AI生成

万元级消费机器人的背后

△ AI生成

△ AI生成

核心团队

△ 蔚蓝科技创始人刘维超

相关推荐

会聊天的AI小猫入驻桌面，SentiCat实测：写报告做PPT，国产自研能力亮眼

AI联合数学家破解群论悬案：谷歌新系统让数学难题无处遁形

Luma发布Uni-1图像生成模型：统一理解与生成，中文文字渲染能力突出

Cursor 2.0 正式发布：自研模型 Composer 与多智能体协作界面同步上线

Claude Code推出远程控制功能：让编程突破物理限制，随时随地无缝切换