京东宿迁社区大妈边做家务边采集AI数据:两年目标1000万小时,打造全球最大具身数据公司

在江苏宿迁,居民一边忙家务、一边参与一场全球规模空前的AI行动,这样的场景如今每天都在上演。

5月20日,京东宣布,全国首个具身智能数据采集社区已在宿迁正式投入运营。这是继今年3月京东宣布建设全球最大具身数据采集中心后,在具身智能数据基础设施领域的又一关键进展,也标志着京东距离“两年内积累超1000万小时人类真实场景视频数据”的目标更进一步。

边做家务边采集数据
宝妈助阵人工智能

该具身数据采集社区位于宿迁市湖滨新区,由京东与宿迁市联合打造。自今年4月试运行以来,社区居民踊跃报名。采集员经过专业技术人员培训后,在日常家务中即可完成数据采集工作。在正常进行擦桌子、叠衣服、整理收纳、地面清洁等劳动时,他们头戴的京东自研JoyEgoCam采集终端,能够获取上肢轨迹、力度分布、人与家居环境的交互关系等关键参数。

京东宿迁社区大妈边做家务边采集AI数据:两年目标1000万小时,打造全球最大具身数据公司

△宿迁湖滨社区居民做家务的同时采集具身数据

JoyEgoCam整机仅重220克,内置推理单元与车规级IMU,在居家、户外、产线等各类环境下均可实现毫米级精准采集,动作记录自然真实,且不干扰正常生活与生产。

数据采集工作轻松灵活,还能获得可观的收入补贴家用,因此深受宝妈等居家群体欢迎。居民采集的数据经过上传、质检、标注等流程,成为优质的“数据燃料”,输入具身智能模型,让模型更深刻地理解真实物理世界。模型再植入机器人等智能设备,使机器人更聪明能干,更快进入家庭发挥作用。

数据采集社区是京东布局具身智能数据基础设施的一部分。目前,京东已构建起“采集—标注—训练—验证”全流程数据流水线,覆盖物流仓储、工业制造、健康医疗、家庭服务、城市运维等五大核心场景,记录视觉、触觉、空间轨迹等全维度数据。

京东发挥20余年积累的丰富场景优势,将发动内部超10万名各类职业员工,以及外部50万各行业人员,开展“人类历史上规模最大的数据采集行动”,两年内采集超1000万小时优质数据。届时,京东也将成为全球最大的具身智能数据公司。其中在宿迁,京东就将发动超10万市民参与,覆盖家庭、办公室、工厂到物流、商店、环卫等超百个细分场景。

在养老院,采集员记录协助老人起身、喂药、康复训练等照护动作,为服务机器人提供真实的人类照护行为样本。在农田,采集内容覆盖果蔬采摘的手眼协调轨迹、农具握持与操作的力学数据、田间不规则地形下的行走与避障动作,适应农业作业的复杂环境等特征。在服装工厂,采集员在缝纫、裁剪、质检等工位作业,记录手部精细操作、多工位流转等数据,为工业柔性操作模型提供小样本、高精度、可复用的训练素材。

京东宿迁社区大妈边做家务边采集AI数据:两年目标1000万小时,打造全球最大具身数据公司

△在宿迁迷侯小镇的猕猴桃园,工人一边“绑枝”一边采集数据

依托丰富场景和产业厚度
京东AI全面进军物理世界

目前,具身智能产业化面临的核心瓶颈,是高质量实操数据的供给不足。行业测算显示,训练具备通用泛化能力的具身模型需要至少数千万小时的真实场景数据,而当前全球高质量实操数据仅有数十万小时,有效供给缺口显著。此外,数据成本高、标准不统一、复用率低,也制约了技术迭代与规模化落地。

京东建设全球最大具身数据采集中心,旨在破解上述产业瓶颈,助力人工智能快速发展。京东在数据基建方面,已实现“产业场景”与“技术投入”双轮驱动。在产业层面,京东AI应用覆盖零售、物流、健康等3000多个场景,已成为全球AI应用场景最多、产业厚度最强的企业之一;在技术层面,京东体系AI相关研发投入持续高速增长,为数据基建提供强力支撑。

京东宿迁社区大妈边做家务边采集AI数据:两年目标1000万小时,打造全球最大具身数据公司

△在京东具身智能数据采集中心,工作人员教机器人当收银员拣货

除了数据采集环节,京东云AI数据湖、JoyBuilder开发平台等系统,显著提升了数据处理质量和效率。以自采数据为核心训练的京东具身大模型JoyAI‑RA,真机实验成功率全球领先。同时,京东通过合规数据交易平台向学术界、第三方开发者和生态企业开放高精数据集,推动产学研协同创新。

2026年4月,随着京东数据交易平台首批高精数据集定向开放,国内具身智能、多模态大模型等领域的领军企业迅速展开合作,数据集已被广泛应用于各类场景的研发中。

从真实场景中来,到真实场景中去,是京东二十多年来技术研发应用的底层逻辑。未来,京东具身数采基础设施将持续扩容,推动京东“全球最大物理世界运营中心”的打造,带动各地经济发展和社会就业,助力实现万亿人工智能生态。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35655

(0)
上一篇 1天前
下一篇 6小时前

相关推荐

  • 月之暗面Seer引擎:突破LLM强化学习训练瓶颈,实现同步RL效率革命性提升

    在大型语言模型(LLM)快速发展的当下,强化学习(RL)已成为推动模型能力跃迁的核心技术。然而,随着模型规模不断扩大和任务复杂度持续提升,传统RL训练系统在端到端迭代过程中暴露出的性能瓶颈日益凸显,尤其是在生成阶段(rollout phase),资源利用率低、长尾延迟严重等问题严重制约了训练效率的进一步提升。 针对这一行业痛点,月之暗面联合清华大学研究团队近…

    2025年11月27日
    59300
  • 礼来27.5亿美元押注AI制药:传统药企的GPT时刻已至?

    制药业最保守的资金,开始流向最激进的技术。 当地时间3月29日,美国制药巨头礼来与AI制药公司英矽智能宣布达成战略合作。根据协议,礼来将支付1.15亿美元的前期付款,加上后续的里程碑付款,潜在总价值可达27.5亿美元,并包含未来的销售分成。 这一数字引发了行业震动:AI制药的“GPT时刻”是否已经到来? 01 AI造药:从“故事”到“真金白银” 此前,AI药…

    2026年3月30日
    27600
  • 智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?

    一场押注AI未来的技术豪赌。 北京时间1月29日,北京智源人工智能研究院推出的多模态大模型“悟界·Emu”登上Nature正刊。这是继DeepSeek之后第二个达成此成就的中国大模型团队研究成果,也是中国首篇围绕多模态大模型路线的Nature论文。 Nature编辑在点评中指出:“Emu3仅基于‘预测下一个token’实现了大规模文本、图像和视频的统一学习,…

    2026年2月1日
    78500
  • 2026数据中心机房建设新纪元:算力适配、绿色低碳与智能协同的全流程方案

    2026年,随着“十五五”规划将“全国一体化算力网”纳入国家级基础设施体系,数据中心机房建设正式进入“算力适配、绿色低碳、智能协同、安全可控”的高质量发展新阶段。 本方案立足《算力互联互通行动计划》等最新政策要求,结合GB 50174-2017规范延伸适配及2026年技术迭代趋势,整合传统机房与微模块机房的建设经验,融入产业链全维度分析,提供兼具科学性、技术…

    2026年2月11日
    3.3K00
  • Gemma 4震撼发布:256K上下文、原生多模态、Apache 2.0许可,开源模型新标杆

    Google DeepMind 正式发布 Gemma 4,这是一个包含四个型号的多模态开源模型家族。 四款模型分别为:E2B(2.3B 有效参数)、E4B(4.5B 有效参数)、31B(密集模型)以及 26B A4B(MoE 架构,4B 激活参数)。其中,31B 和 26B A4B 均支持 256K 上下文窗口,并可在单张 H100 GPU 上运行。 从架构…

    2026年4月3日
    1.2K00