智平方发布全球首个一站式具身智能开源社区AlphaBrain Platform

智平方发布全球首个一站式具身智能开源社区AlphaBrain Platform

特斯拉开源硬件专利后,所有人都在等:中国公司如何回应?

现在答案来了——跟风硬件意义有限,要开源就找比硬件更具价值的东西。

4月22日,智平方正式发布 AlphaBrain Platform开源社区 。这是全球 首个一站式开箱即用 的具身智能模型开源社区。

智平方发布全球首个一站式具身智能开源社区AlphaBrain Platform

值得注意的是,这次并非单一模型开源。智平方联合港科大(广州)熊辉团队,直接推出了一套“顶配全家桶”:

  • 具身前沿技术(类脑/世界模型
  • 最全架构覆盖(RL/传统VLA/类脑)
  • 最自由组合能力(跨范式即插即用)
  • 最公平评估标准(统一Benchmark)
  • 最广泛开发社群(汇聚全球产学研开源力量)

这些原本仅存在于 顶尖实验室 的前沿技术,现已全部开放,可供任意取用。

有开发者评价:

以前开源是给你一个工具,现在开源是直接给你一个工具箱。

成立于2023年的智平方,专注于AGI原生的 通用智能机器人 ,目前公司规模 近300人

凭借 一年12次融资 ,该公司被外界称为全球具身智能领域 融资节奏最快 的独角兽。摩根士丹利也将其列为具身基础模型的代表企业。

此时推出这样一套“工具箱”,智平方有何考量?

智平方发布全球首个一站式具身智能开源社区AlphaBrain Platform

过去两年,具身智能领域涌现了大量开源模型。但一个尴尬的现实是:开源模型虽多,真正“好用”的却很少。

开发者仍面临各种问题:这个模型如何运行?那个模型与它相比谁更强?想要实现的创新能否落地到真实场景?

如今,AlphaBrain Platform选择开源“让模型跑起来、比得清、落得地”的全链路能力, 方便复现、方便对比、方便场景化落地。

信号已十分明确:中国具身智能的开源之战,正式进入头部玩家卡位阶段。

五大技术亮点,三项最值得关注

如前所述,这套“顶配全家桶”集齐了业内五大核心技术。

其中最受关注的,当属 世界模型、类脑模型、RL Token和持续学习算法

智平方发布全球首个一站式具身智能开源社区AlphaBrain Platform

这些均为当前具身智能领域最热门的技术路线,各有独特优势。下面逐一解析。

世界模型:最受瞩目的“想象力引擎”

AlphaBrain Platform最为硬核之处,在于将世界模型的能力发挥到极致,推出了全球首个可插拔世界模型架构(WA)。

亮点主要有两个:

1、原生集成NVIDIA Cosmos Policy原始权重。

这并非简单的品牌借势。

开发者可以直接加载NVIDIA Cosmos Predict2的2B参数DiT原始预训练权重,在latent space中通过视频扩散模型预测机器人动作。

简而言之,就是将NVIDIA最核心的“动作预测”能力完整移植过来,可训练参数约 1,956M ,基础架构足够扎实。

2、预设三大主流世界模型Backbone,可自由切换。

  • Meta的V-JEPA 2.1(约18亿参数),视频联合嵌入预测架构;
  • NVIDIA自家的Cosmos Predict系列(约21亿参数)世界模型;
  • 通义万相的Wan 2.2(约50亿参数),是三者中体量最大的一款,主打大规模文本-视频生成。

这一阵容,基本将全球顶尖的世界模型一网打尽。

这三个Backbone可在Flow-Matching解码器中自由切换。也就是说,一个动作解码器(约1.1亿参数)可供这三个世界模型共同使用。

智平方发布全球首个一站式具身智能开源社区AlphaBrain Platform

开发者若想对比不同世界模型在相同任务上的表现,一键切换即可。

训练模式切换也做到了极致简化。

一条命令,即可通过统一配置入口切换训练模式,仅需简单修改配置文件即可运行。

RL Token:强化学习与VLA的黄金组合

智平方自创立之初,便将构建物理世界大模型确定为核心技术方向,在行业尚未形成共识前率先布局VLA架构。多年来对VLA的研究从未停止。

在VLA结合强化学习的研究方向上,开发者通常面临两大难题:动辄数十亿参数带来的极低推理效率门槛,以及微调时极易引发的“灾难性遗忘”问题。

RL Token正是打破这一僵局的“黄金组合”,也是让大模型真正实现场景化落地的利器。

智平方率先在LIBERO环境上完成了该路线的验证,并提出了一套对开发者极为友好的开源优化方案。

该方案的核心突破在于:

1、信息瓶颈编码与VLA主体冻结

为解决算力开销和遗忘问题,方案引入了信息瓶颈编码器与两阶段训练策略。

在RL微调阶段,庞大的VLA主体参数被完全冻结。这不仅守住了模型原有的通用能力底线(避免灾难性遗忘),更使训练的计算成本实现断崖式下降。

2、降低RL的训练门槛

通过架构优化,系统所需训练的参数量从原本庞大的3.9B骤降至约137M(仅占VLA总参数的3.5%)。

更为硬核的是,在实际的强化学习梯度更新环节,仅涉及极轻量的1.3M参数。

这意味着,开发者无需庞大的算力集群,仅需单张普通消费级RTX 4090显卡,即可跑通VLA的强化学习后训练(Post-training)。

3、告别推翻重来,实现“稳定进化”

换言之,广大开发者可以在不破坏模型原有能力的前提下,对特定任务进行低成本优化。

大模型终于可以像人类一样,在已有丰富经验的基础上不断精进,而非每次遇到新场景都反复推倒重来。

这套方案证明了 强化学习+VLA 这对黄金组合,可以让每个行业、每个场景都能用它来定制自己的“能干活的AI”。

持续学习:数据洪流下的“不会忘”工程

机器人一旦真实部署,每天都在产生新场景、新任务、新技能。

传统训练模式有一个老大难问题——学新的忘旧的,即业内公认的“灾难性遗忘”。

要打造通用智能机器人,持续学习(Continual Learning,CL)是绕不开的底层能力。

AlphaBrain Platform在这方面做了较为系统的工程化工作:将CL从“单模型上的研究玩具”推向多架构可复现的对比平台。

智平方发布全球首个一站式具身智能开源社区AlphaBrain Platform

技术亮点主要有三个:

1、多架构横向对比

当前前沿的VLA架构——QwenGR00T、NeuroVLA、LlamaOFT、PaliGemmaOFT——均被纳入同一套CL验证流程。

每个架构上都运行了全参与LoRA两种训练变体,形成统一基准下的横向对比,而非仅在某一backbone上展示单点效果。

2、跨架构解耦:算法和模型互不侵入

CL算法接口与业务模型完全解耦——更换backbone成本极低。

若想将Experience Replay换成其他CL方法,只需实现一个统一的抽象类,所有架构即可自动适配。

LoRA的注入、保存、加载合并也抽取为独立模块,对外仅暴露少量清晰API。

也就是说,算法研究者无需研读每个VLA的实现细节,模型开发者也不必关心CL算法内部如何运行,双方各司其职,协作成本显著降低。

3、开箱即用的训练-评估链路

从训练一条命令启动,到矩阵评估、遗忘分析出结果,整套pipeline配有配套的wrapper和文档。

LoRA路线下的checkpoint体积也显著小于全参版本,对显存和存储更为友好,更多研究者可在自己的机器上复现和二次改造。

总而言之,以往进行 “一个模型连续学多个任务还不忘” 这类实验,仅搭建环境就颇费周折。

现在这套工具链将门槛降低了一档:实现了一键切换架构、可复现、可对比、可扩展。

类脑模型:VLA的未来

前面讲述了 “想得远”“学得快” ,但真正让机器人像人类一样“边干边学、越干越聪明”的,还得是 类脑计算

智平方此次推出的 NeuroVLA ,是全球首个支持在公开基准上验证的类脑具身开源模型。

它并非简单贴上一个“类脑”标签,而是从底层架构上,向生物脑的学习机制迈出了一大步。关键设计有四点:

1、脉冲神经网络(SNN)动作头

好的,作为专业技术编辑,我已根据您的要求对原文片段进行了重写。重写后的内容已清洗广告、二维码及引导性话术,保留了技术核心,并规范了格式,直接输出为Markdown。


NeuroVLA 的核心技术创新

传统AI模型的输出多为连续数值,类似于“开/关”的二元状态。NeuroVLA模型则创新性地引入了LIF(Leaky Integrate-and-Fire)神经元,通过脉冲编码进行信息表达。

该机制模拟了生物神经元的“放电”过程:仅在接收到足够刺激时产生脉冲,无刺激时则处于静息状态,这与人类大脑的工作模式更为接近。

智平方发布全球首个一站式具身智能开源社区AlphaBrain Platform

2. R-STDP 训练算法

R-STDP算法的核心在于赋予机器人从“成功或失败”的经验中学习的能力。

该算法支持两种模式:
* 反向传播 + STDP 混合模式
* 纯 STDP 模式

其核心机制是:奖励信号会动态调整神经元的连接强度。当动作正确时,相关连接被强化;动作错误时,连接被削弱。这本质上模拟了生物大脑中 “用进废退” 的学习原则。

3. 在线 STDP 测试时自适应

传统模型在部署后通常是固定的,难以适应新环境。

NeuroVLA则不同。在运行阶段,它无需依赖反向传播,仅通过与环境的交互所产生的自监督奖励信号(例如,对状态预测的准确性、动作执行的平滑度),即可实时更新SNN(脉冲神经网络)的权重。

关键在于,此过程不产生任何额外的计算开销。这意味着机器人可以在执行任务的同时进行学习,且不消耗更多算力。

智平方发布全球首个一站式具身智能开源社区AlphaBrain Platform

4. GRU-FiLM 动作精修模块

在SNN输出动作指令后,GRU-FiLM模块扮演着“精修师”的角色。

该模块基于机器人当前的本体状态(如关节角度、速度),对动作指令进行条件性的修正。这种“先粗调,后精调”的机制,显著提升了动作的精确度。

简而言之,传统的机器人在出厂时能力便已定型,遇到新场景往往束手无策。而NeuroVLA方案赋予了机器人“终身学习”的能力,使其能边工作边学习,越做越好,且学习成本极低。这正是生物大脑的核心优势所在。

应用场景与技术生态

该开源平台集成了多种模型和工具,旨在降低开发门槛。

  • 模型集成与评测:平台不仅开源了智平方自身最先进的三个“全球首个”模型,还集成了其他头部模型。开发者无需复杂的依赖配置即可直接使用。平台提供了统一的评测基准(Benchmark),可一键评估不同模型的性能,简化了对比流程。

  • 全套工具链支持:平台提供了从数据、训练、架构到测试的完整工具链,旨在打通从技术研发到场景落地的全链路。此外,模型可在消费级显卡上运行,所需训练参数降至原有的3.5%,并支持通过低成本的强化学习进行后训练微调,以适配不同的机器人平台。

  • 技术可及性:类脑计算、世界模型、强化学习与VLA的融合等前沿技术,均可通过该开源社区获取。

智平方发布全球首个一站式具身智能开源社区AlphaBrain Platform

平台背景与技术演进

智平方并非首次进行开源。早在2024年6月,该公司便开源了其首个VLA模型——AlphaBrain的初期版本。据称,该模型规模仅为谷歌同类模型的1/20,但性能反超了80%,相关成果入选了NeurIPS 2024。

至2025年7月,智平方推出了“快慢系统”深度融合的新一代VLA架构,即业内首个“异构输入+异步频率”的双系统VLA模型,据称性能超越国际标杆Pi0达30%。该模型以117.7 Hz的控制频率,在响应速度与智能性上实现了突破。

智平方发布全球首个一站式具身智能开源社区AlphaBrain Platform

关于“世界模型”的讨论,智平方在2023年下半年便已提出,世界模型不应是VLA的外接模块,而应深度内生于模型之中。基于此理念,AlphaBrain在2025年11月整合了Video2Act架构,实现了“先预测、后执行”的能力。

智平方发布全球首个一站式具身智能开源社区AlphaBrain Platform

当前,智平方将类脑VLA模型(NeuroVLA)融入其AlphaBrain平台,并开源了包含多模型与工具链的AlphaBrain Platform,旨在推动技术共享与行业发展。

团队与产业化背景

智平方被部分行业观察者称为“最像特斯拉”的中国机器人公司,因其最早在人形机器人赛道引入端到端大模型技术路线。公司自创立之初便明确采用VLA技术路线,致力于开发“物理世界大模型”。

该公司创始人兼CEO郭彦东博士,拥有普渡大学电气与计算机工程博士学位,师从AI领域专家。他曾任职于微软美国研究院、小鹏汽车及OPPO,担任首席科学家与研发高管。郭彦东博士在2025年被任命为香港科技大学(广州)兼职教授,并入选当年福布斯中国科创人物。

智平方团队包括5位斯坦福全球前2%科学家,成员背景涵盖微软、谷歌、OPPO、小鹏、Momenta等企业,以及清华、北大、中科院、CMU、伯克利等国内外知名高校与研究机构。

不同于部分仅停留于演示阶段的机器人公司,智平方专注于开发“生产力型”通用智能机器人。其轮式通用智能机器人AlphaBot(爱宝)由AlphaBrain大模型驱动,于2025年开始在工业场景规模化应用。相关数据包括:

  • 2025年9月,自建产线启用。
  • 同月,与全球前三的液晶面板厂商惠科签订5亿元人民币订单。
  • 2025年12月,实现单月百台级AlphaBot 2真实交付。
  • 2026年产线规划扩至万台规模。

智平方发布全球首个一站式具身智能开源社区AlphaBrain Platform

作为工业场景之外的增量,其推出的全球首个模块化具身智能服务空间“智魔方”,已在多个城市常态化运营。


开源社区链接:https://www.alphabrain-platform.com/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/31475

(0)
上一篇 2天前
下一篇 1天前

相关推荐

  • GitNexus:为AI编程助手装上“代码透视眼”,彻底告别瞎改代码时代

    如今的开发工具,正从早期的简单代码补全,向能够自主工作的智能体(Agent)方向快速演进。 诸如 Cursor 和 Claude Code 等 AI 编程助手,已成为许多开发者日常必备的工具。 然而,使用 AI 辅助编程时,一个令人头疼的问题是:刚刚修复了一个 Bug,却可能在意想不到的地方引入三个新的 Bug。 其根本原因在于,当前的 AI 编程助手普遍缺…

    2026年2月26日
    1.9K00
  • AI掌控安卓手机:四大开源项目深度解析与实战指南

    AI掌控安卓手机:四大开源项目深度解析与实战指南 去年11月,一篇盘点GitHub上AI操控手机开源项目的文章引发了广泛关注。文章发布仅五天后,豆包便官宣推出AI手机,紧接着智谱AI开源了AutoGLM模型。这标志着AI与移动设备交互进入了一个新的阶段。 本文将整合最新的开源项目,对当前GitHub上主流的AI控制手机方案进行一次全面的梳理和解析。 01 智…

    2025年12月15日
    39700
  • 英伟达发布最强开源龙虾模型Nemotron 3 Super,120B参数、百万上下文窗口、5倍吞吐量提升

    英伟达发布开源混合专家模型Nemotron-3-Super,120B参数支持百万上下文 英伟达正式发布并开源了其最新的混合专家模型Nemotron-3-Super,该模型拥有1200亿参数,在多项基准测试中表现卓越。 在评估智能体控制能力的PinchBench测试中,Nemotron-3-Super取得了85.6%的高分,位列同类开源模型榜首。此外,在Art…

    2026年3月12日
    71500
  • 告别文档迷宫!开源项目将NVIDIA CUDA/PTX文档转为AI友好Markdown,GPU开发效率飙升

    在 GPU 计算与深度学习领域,NVIDIA CUDA 及其底层 PTX 指令集已成为高性能计算不可或缺的基石。无论是进行底层算子开发、极致性能优化,还是排查隐蔽的显存错误,开发者都深度依赖 NVIDIA 提供的官方文档。 然而,许多开发者都有过在 NVIDIA 官方文档庞大而复杂的 HTML 页面中迷失方向的痛苦经历。 一、 项目背景与核心痛点 1.1 P…

    2026年3月29日
    23500
  • 港大开源CLI-Anything:一条命令让任何软件变身AI Agent可操控工具,4天狂揽1.5万Star

    CLI-Anything:一条命令将软件源码转化为AI Agent可操控工具 香港大学团队近日开源了一个名为 CLI-Anything 的项目。该项目旨在通过一条命令,将任何拥有源代码的软件转化为AI Agent可以直接操控的命令行工具,无需手动编写API接口或配置浏览器自动化。 核心功能 其核心逻辑是构建一个全自动的七阶段流水线:1. 分析源码2. 设计命…

    2026年3月26日
    76300