6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

消费级机器人行业,或许即将迎来一次真正的代际变革。

过去几年里,市面上涌现了大量机器狗:它们能跑、能跳、能翻跟头。但一个核心问题始终未被解决。

这些机器人在很多情况下,其实看不清、听不准,也思考不透彻。

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

行业的主流配置,依然停留在200万像素摄像头、16线激光雷达和单芯片算力架构上。

机器人虽然能“动”,但距离真正“理解”世界,始终差着关键一步。

直到最近,我看到了一组令人惊讶的数据——

6600万像素、HDR140db、每秒223.2万点云、70亿参数的端侧模型跑出280TPS

更值得注意的是,它没有在英伟达的既定规则里内卷。

而是通过6颗芯片组成异构计算集群,将消费级机器人的算力效率,直接拉升到行业平均水平的10倍以上

这组数据,源自蔚蓝科技最新发布的BabyAlpha A3消费级四足机器人

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

这家公司已累计销售超过2.5万台消费级四足机器人,用户交互次数达到6548万次,使用时长超过9.5亿分钟。如今,它终于将过去几年积累的核心技术,集中释放到了A3身上。

一个明确的信号已经浮现:消费级四足机器人,正从“会动”的阶段,进入“会理解人”的新纪元。

随之而来的问题是:

当机器人的感知能力和算力都突破了行业天花板,具身智能究竟会被推向怎样的高度?

机器人终于告别“半盲”状态

过去几年,消费级机器人行业一直存在一个隐蔽的痛点。

大家都在疯狂比拼运动能力:翻跟头、跑酷、越障、爬坡,动作越来越像科幻电影中的场景。

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

然而,感知系统却始终停留在“勉强能用”的层面。

逆光环境下容易模糊,复杂空间里容易误判,动态目标的捕捉速度也慢。

许多机器人表面上看起来很聪明,但本质上仍是在模糊地理解世界。

这也是为什么,行业里大量机器人虽然动作灵活,一旦脱离遥控或预设环境,就立刻暴露出“半盲选手”的本质。

如果机器人连世界都看不清,就谈不上真正的自主决策。

而A3最厉害的地方,就是直接将感知维度提升了一个时代。

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

先来看视觉方面。

A3搭载了超能视觉感知系统,由5000万像素主摄、f/2.8超广角镜头和4K全景摄像头组成,分辨率分别达到8K、4K和4K,总像素高达6600万,还配备了1/1.3英寸大底传感器。

这是什么概念?许多旗舰手机的主摄,也不过是5000万像素。

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

更关键的是,其感光能力达到了HDR140db视网膜级别

行业主流的机器人,大多还停留在HDR90db以下,而人眼的理论动态范围大约在100db到120db之间。

A3首次将机器人视觉的动态范围,推到了超越人眼的水平。

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

这意味着,过去机器人在强逆光、暗光或复杂明暗切换的环境中,往往会瞬间“失明”。

而现在,A3真正具备了在复杂光线条件下理解环境的能力。

还有一个容易被忽略的数据——最高帧率480fps

行业主流大多还停留在30fps,相当于普通视频的流畅度。

480fps,接近超慢动作的视觉体验。

高速运动的物体、奔跑的儿童、突然出现的障碍物,在机器人眼中都变成了慢动作回放,是可以逐帧分析的清晰画面。

但这还不是最夸张的部分。

真正拉开代差的,是空间感知能力。

A3采用了5组3D ToF和3D结构光构成的360°环视面阵,点云密度达到了每秒223.2万点

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

而行业主流的16线激光雷达方案,点云密度仅为每秒4.8万点。

“点云密度”可以简单理解为:机器人每秒钟通过传感器采集到的三维空间点的数量。

高密度点云就像高清照片,能够分辨出细小的障碍物(比如电线、玩具、小台阶)。而低密度点云则像一张马赛克图

4.8万点/秒对比223.2万点/秒,差距接近两个数量级。

如果说别人的机器人还在使用2G地图导航,那么A3已经切换到了4K实时地图

它看到的,不再是障碍物的轮廓,而是一个高精度、实时变化的三维世界。

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

听觉系统同样如此。业内许多机器人只是“听到声音”。

A3全球首发了12-Mic 3D Mesh仿生立体听觉,能够“听懂声音从哪来”。

12个麦克风组成了三维声场阵列,可以精准判断声音的方向、距离和空间位置。

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

说得谦虚一点,它更接近具身智能。但在我看来,这本身就是具身智能!它不仅理解语言,还能理解环境。

就像人类干活时要求“知行合一”,只有感知正确,才能更好地行动。具身智能的终极目标,不正是如此吗?

在这样的感知能力支撑下,A3也在挑战自身极限,目前它的最高速度可达3.5m/s,能爬上45°角的斜坡,最大越障高度达28cm。

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

注意,这并非单纯的数字炫耀。机器人对复杂环境的理解,已经发生了质变

同时,这也意味着具身智能正从实验室逻辑,进入真实世界的逻辑。

但“看得见”只是第一步。

独创异构计算集群,绕开英伟达路线

感知到位了,还得“想得动”。

过去5年,无论是英伟达的旗舰产品OrinNX,还是国产性价比方案,大家本质上都在单芯片方案里内卷。

究其原因,还是端侧算力跟不上,无奈只能被拉进英伟达的路线硬扛。

事实上,这种路线存在明显的物理上限。功耗、散热、成本、实时协同能力,都会越来越难以突破。

于是,行业出现了一种诡异的状态。

机器人越来越贵,但真正的智能提升却越来越慢。

这也是为什么,很多机器人看起来越来越像“高配遥控车”。

能动,但不会思考。

A3这次选择了一条不同的突围路径,不再继续堆砌参数,而是直接绕开英伟达路线

它设计了一套自研的“具身智能边缘端混合异构计算集群”

简单来说,它更像一个“芯片智囊团”。不是让一颗芯片硬扛所有任务,而是6颗芯片分工协作

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

其中包括2颗5nm芯片、2颗8nm芯片、2颗3D堆叠芯片,总共22核CPU。

不同芯片负责不同任务:感知、决策、运动控制实时协同。

就像一家公司里,产品、技术、设计、运营各司其职,而不是一个人同时写代码、做PPT、还要去拉融资。

这背后其实是路线之争。跟着英伟达的规则走,只能拾人牙慧,不如换一条赛道,自己跑。

因为消费级机器人真正的问题,从来不是“能不能做出来”,而是“能不能让普通家庭买得起”

这也是为什么,A3最核心的一组数据,不是参数本身,而是效率。

  • 15亿参数模型下,617TPS;
  • 30亿参数模型下,427TPS;
  • 70亿参数模型下,280TPS。

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

行业是什么水平?很多竞品在70亿参数下根本跑不起来。能跑的,最高也只有6TPS。

竞品思考一句话的时间,A3已经能完成一段对话了。

更关键的是成本:国产方案仅需300多美金,而英伟达Jetson Thor T5000,约需3000美金

蔚蓝打破了算力垄断,用更低的成本实现了超越英伟达的效果,这让人不得不服。

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

这件事真正有价值的地方在于,它首次将“端侧真正跑通大模型”,带入了消费级市场。

过去,行业存在一种严重的云端依赖,本质上还是芯片算力不足。

但机器人和ChatBot不同。它需要实时感知、实时决策、实时运动。

云端延迟,很多时候意味着机器人会直接撞墙。

而A3凭借强大的算力,能够在“端侧跑通大模型”。而这,恰恰是Physical AI得以落地的核心基石。

能进入家庭的机器人,首先必须足够安全

感知、算力、运动能力这些参数再强,也只是消费级机器人的入场券。

真正决定一台机器人能否进入家庭的,其实是另一件更底层的事:安全

因为家庭环境和实验室完全不同。

实验室里没有突然蹿出来的猫,没有满地拖鞋和掉落的充电线,也没有刚学会走路的小孩。但在真实家庭里,这些场景全部存在

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

AI生成

蔚蓝很早就将安全放在了极高优先级,所有原材料和零部件均来自全球顶级供应商,许多设计思路都源于真实家庭中踩过的坑。

A3的一个显著特征在于,其大量安全能力并非后期添加,而是从底层设计之初就深度融合了进去。

物理安全为例。行业中许多机器人的关节、线束和运动结构都裸露在外,儿童一旦误触,容易引发夹手或碰撞等风险。A3则直接采用了隐藏式关节、隐藏式线束和防夹手设计。即使在故障状态下,它也能实现毫秒级的安全制动

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

这类似于汽车行业从机械时代向智能时代的转变。真正高级的安全,不在于问题发生后能否挽救,而在于尽可能避免问题发生。系统安全也是如此。

当前,许多人讨论机器人时都在关注安全边界。当机器人具备长期联网、自主行动和持续感知环境的能力后,它本质上已成为一台可移动的智能终端,不能再按普通玩具的思路来设计。A3直接搭载了端云双重安全架构:端侧由360安全大脑负责拦截恶意攻击、木马病毒和远程攻击。

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

云端则接入了等保三级、阿里云安全体系和Azure DDoS防护。本质上,它已经开始按照“智能终端级别”来构建安全体系。

另一个关键点是隐私。过去几年,许多用户对家庭机器人的最大顾虑并非价格,而是不放心。毕竟,家是每个人安全的港湾,是让人彻底放松的地方。如果一台集移动摄像头、麦克风和传感器于一身的设备长期待在家里,那意味着什么?因此,蔚蓝这次强调了一个原则:尽可能将算力和数据处理留在本地

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

这包括本地可信计算架构、全链路通信加密、端侧数据存储与处理、安全启动链等。这并非简单地说“我们不会泄露数据”,而是从架构层面确保大量数据根本不需要离开设备。这一点至关重要。尤其对于消费级具身智能来说,要想大规模进入家庭,“安全”比“智能”重要得多

万元级消费机器人的背后

这也是消费级量产玩家稀少的原因。To B和To G业务还能依靠关系、项目或定制化拿单,但To C行不通:消费级市场只关心一件事——用户是否愿意掏钱

蔚蓝没有依赖To B或To G先跑规模,而是选择了一条要求技术必须做到低成本、高可靠的艰难道路。公司自2019年成立第一天起,定位就是万元级消费产品,主打家庭场景和长期陪伴。

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

AI生成

行业里许多公司还停留在Demo阶段,而蔚蓝的核心产品BabyAlpha已累计售出超过2.5万台,成为全球销量最高的消费级四足机器人产品

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

蔚蓝内部有一个重要逻辑:四足机器人是人形机器人真正成熟前必须经历的“启动阶段”。先用消费级四足产品获取真实世界数据,再反哺具身智能大脑训练。通过催熟大脑智能,建立产业链规模以压缩成本,从而解决人形机器人在消费场景下的成本-价值倒挂问题。

这一点非常关键。当前,要让机器人从“演示Demo”走向“实用落地”,许多玩家在训练产品时仍苦于缺乏高质量、规模化且具有真实物理交互的数据。很多公司还在依赖合成数据训练,而真实的家庭环境数据几乎无法模拟。殊不知,孩子突然扑过来、玩具散落一地、客厅灯光变化、多人同时说话……这些真实世界的噪声,才是机器人真正的考场。

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

AI生成

而蔚蓝凭借2.5万余台的订单量、用户累计使用时长超9.5亿分钟、累计交互次数超6500万次所积累的数据,全部来自真实家庭环境,而非实验室生成。为了获取这些宝贵数据,蔚蓝分四步走:

  • 手机价格带的儿童陪伴产品完成规模出货,获取真实家庭场景数据
  • 基于用户数据训练云端模型并配合高密度OTA,不断提升产品用户粘性;
  • 通过技术创新压缩产品成本,为算力让路,将云端模型下放端侧
  • 最后,对老用户进行低利润产品升级和回收,形成持续的“数据→智能→产品”完整飞轮。

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

本质上,它已不是单纯卖硬件,而是在持续训练具身智能

核心团队

最后,再聊聊团队。创始人刘维超是一位连续创业者,从中学时期就对智能体算法感兴趣。2009年至2011年,他连续三年获得RoboCup人形机器人国际冠军。之后赴德国留学,在波恩大学攻读人工智能机器人专业,师从德国波恩大学计算机学院院长Prof.Sven Behnke、莱布尼茨奖获得者Prof. Daniel Cremers,并与自动驾驶之父Prof. Sebastian Thrun系出同门。

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

蔚蓝科技创始人刘维超

2012年至2017年,刘维超创立过AUGTEX,还是LoRa Alliance创始董事成员、亚太区唯一董事成员。2018年,他开始筹备蔚蓝科技。目前,整个技术团队拥有宾夕法尼亚大学GRASP Lab、UIUC AI Lab、哈工大等全球顶级实验室背景。相比科研背景,他们搭建产业的能力同样强大。

这么说吧,前面提到的“感知、运动能力”是进入物理世界的身体,“算力”相当于底层引擎,“数据密度”是企业的护城河,“安全”是进入家庭场景的生死线。那么“产业化”就是具身智能公司把复杂技术带入消费级市场的最后一道门槛。在这方面,蔚蓝积累了多年经验。

2021年,其第2代工程机C200打破了MIT四足机器人的奔跑速度和旋转速度纪录。2022年,公司建成了国内首个四足机器人量产工厂

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

2023年,蔚蓝推出全球首款家庭陪伴四足机器人BabyAlpha。到2024年,全国首家消费级具身智能零售门店在南京德基落地。许多公司还在谈论未来,蔚蓝已开始将机器人真正放进商场和家庭。

消费级具身智能真正的难点,从来不是做出Demo,而是持续量产、持续迭代、持续进入真实世界。 BabyAlpha A3的有趣之处在于,它第一次将感知、算力和自主能力拉进了同一个时代。

6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

当机器人开始看得比人更清楚、想得比过去更快时,一个新的问题出现了:人造劳动力,离普通家庭还有多远? 或许,消费级具身智能真正的临界点,并不在实验室里,而是在某一天,一个售价万元级的机器人真正进入普通人的客厅。

据官方介绍,BabyAlpha A3预计于Q3正式上市。真正的消费级具身智能,可能要从这一代开始了。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35198

(0)
上一篇 14小时前
下一篇 14小时前

相关推荐

  • 会聊天的AI小猫入驻桌面,SentiCat实测:写报告做PPT,国产自研能力亮眼

    这么可爱的AI小猫,现在住我电脑桌面上了! 能陪聊,能干活,还能提供情绪价值。 上班累了就找她摸摸鱼,真的感觉心都化了…… 这个抱着AI小猫的女孩叫SUSU,她们都来自AI初创公司SentiPulse思维光谱自主研发的AI Agent产品——SentiCat。 SentiCat拥有三大核心能力:办公自动化、深度研究、代码开发。不管是写报告、做PPT,还是帮你…

    2026年4月24日
    38100
  • AI联合数学家破解群论悬案:谷歌新系统让数学难题无处遁形

    数学界著名的“悬案簿”——Kourovka Notebook,如今迎来了AI的突破性进展。 群论领域一个困扰学界数十年的问题(第21.10号),被牛津大学数学家 Marc Lackenby 借助谷歌的新系统成功攻克。 有趣的是,AI首次提供的证明是错误的,但系统中的审查Agent敏锐地发现了其中的漏洞。 Lackenby在发现这个问题后,瞬间意识到:“等等,…

    2026年5月9日
    29300
  • Luma发布Uni-1图像生成模型:统一理解与生成,中文文字渲染能力突出

    上周,谷歌推出了 Nano Banana 2 模型,以其快速且经济的特性在社交平台上引发了广泛关注。 与此同时,海外 AI 初创公司 Luma 发布了一款全新的图像生成模型 Uni-1。 Uni-1 是 Luma 首个将“理解”与“生成”功能统一在同一架构下的模型,旨在使 AI 不仅能够生成图像,还能更好地理解指令。 例如,它可以生成极具视觉冲击力的时尚杂志…

    2026年3月6日
    85400
  • Cursor 2.0 正式发布:自研模型 Composer 与多智能体协作界面同步上线

    Cursor 2.0 正式发布,推出自研编码模型 Composer 及多智能体并行协作界面。Composer 在编码智能上达到前沿水平,生成速度达每秒 250 个 token,为同类模型的四倍,支持低延迟交互式编程。新版本界面以智能体为中心,支持多任务并行处理,并优化了代码评审与测试流程。此次更新标志着 Cursor 从依赖第三方模型的“AI 外壳”转型为“AI 原生平台”。

    2025年10月30日
    1.4K00
  • Claude Code推出远程控制功能:让编程突破物理限制,随时随地无缝切换

    想象这些场景:开始一个4小时的重构任务后去开会,期间通过手机回答AI的问题;散步时发现bug,直接从锁屏界面重定向Claude;下飞机时发现功能已经完成。 显然,Anthropic发现了这一痛点,刚刚为Claude Code增加了远程控制功能,让用户无缝切换场景,地铁,厕所写代码变成现实。对于需要进行长时间代理任务的开发者来说,这个功能使得代理编程真正变得实…

    2026年2月25日
    39500