在2026年GTC大会上,一个行业共识已然形成:AI正迈入智能体(Agent)时代。
然而,当众多厂商竞相布局智能体时,一个现实的挑战也随之浮现:这些具备智能的“数字大脑”,往往缺少一个足够生动、自然的“躯壳”。如果说某些前沿研究为AI智能体的工作范式指明了方向,那么在人机交互层面,如何让AI与人类进行自然、流畅的互动,技术上面临着诸多难题。
为AI打造一个表现力丰富、可控性强的数字形象,涉及复杂的多模态转换与协同,其难度远超想象。
近期,京东数字人团队发布的一系列研究成果,为这一领域带来了突破。其提出的JoyStreamer与JoyStreamer-Flash数字人模型,针对行业长期存在的文本指令控制力弱、多模态信号冲突、长视频生成能力不足等痛点,实现了长时长、自由姿态、可实时互动的数字人生成效果。相关论文已在arXiv上发布,其性能在多项指标上超越了当前的主流模型。
- 论文链接:https://arxiv.org/pdf/2602.00702,https://arxiv.org/abs/2512.11423
- 技术主页:https://joystreamer.github.io/
该系列模型展现出强大的文本指令控制能力,能够精准理解并执行复杂的动作描述。
提示词:一个小女孩先是面带灿烂笑容唱歌,然后她从桌上拿起相机,对准观众,闪光灯亮起。
提示词:一位女士站在室内,对着镜头说话。她先从柜子上拿起一个花瓶,若有所思地凝视它,最后将其放在场景中的一把椅子上。(要求人物全程保持在画面内。)
同时,模型能够实现分钟级时长的数字人视频合成。
JoyStreamer系列模型展现出代际优势,使数字人告别了传统的“站桩式播报”。它不仅能精准理解复杂指令,流畅完成全身动作,还能配合动态的镜头轨迹与背景变化。更重要的是,即使在剧烈运动过程中,模型仍能保持唇形与输入音频的完美同步。
例如,输入指令“拿起巧克力吃掉”,数字人能够流畅完成抓取和咀嚼的整套动作:
提示词:女孩拿起巧克力盒,向观众展示,然后取出一块巧克力吃掉。
输入指令“放下手中的箱子”,数字人不仅能平滑处理复杂动作与背景流转,还能在超过20秒的生成视频中保持人物身份的稳定性:
提示词:画面中的男子一边对镜头说话,一边将工具箱放在地上,然后爬上梯子,并保持自己在镜头内。他头戴白色安全帽,手持黑黄相间的工具箱,身后是一个正在装修的房间,附近摆放着梯子和水平尺。
京东数字人的三大技术创新
在生成式AI领域,高质量数据是模型学习的基础。然而,收集大量同时包含剧烈肢体运动和清晰语音的高质量视频数据成本极高。面对现有数据集中于静态播报的局限性,京东数字人团队采用了一种新颖的解决方案:双教师分布匹配蒸馏(DMD)后训练。

图1:双教师DMD后训练框架

图2:数字人模型预训练框架
该方法为数字人模型引入了两位“教师”:一位是专注于口型和节奏的“音频教师”(由数字人基础模型担任),另一位是擅长理解复杂动作指令的“文本教师”(引入视频生成大模型)。通过这种分离监督、融合学习的蒸馏机制,模型在不增加新训练数据的前提下,有效继承了视频模型对文本指令的强大理解与控制能力。
过去,让数字人同时听从文本指令做出复杂动作并严格对好口型,是一个难以兼顾的挑战。因为在模型内部,文本信号(控制全身动作)和音频信号(控制面部唇形)容易在潜在空间中发生冲突,导致生成画面失真。
为解决这一多模态控制冲突,团队提出了“动态CFG调制策略”。研究发现,在扩散模型生成视频的过程中,全局动作框架在早期高噪声阶段确定,而唇形等细节则在后期低噪声阶段雕琢。因此,该策略让两种信号“错峰出行”:在生成早期优先响应文本指令,搭建动作框架;在生成中后期则将控制权优先交给音频信号,确保唇形同步。这一设计使得文本与音频控制得以各司其职,互不干扰。
另一个面向实际应用的挑战是长视频生成中的“身份漂移”问题,即生成过程中人物外貌或服饰发生不期望的变化。
JoyStreamer的解决方案是结合历史帧编码模块(FramePack)与伪最后一帧策略。在推理时,模型持续将用户的参考图像作为“伪最后一帧”输入,为生成过程提供一个稳定的身份锚点。这使得模型能够支持30秒以上的长视频生成,全程保持身份一致与动作流畅,突破了传统数字人模型在时长和帧间稳定性上的限制。
为验证技术领先性,研究团队将JoyStreamer模型与业界主流闭源模型进行了主观GSB评分对比。结果显示,JoyStreamer在文本遵从度、唇形准确度、身份保持、视频画质等核心维度上均表现出显著优势。

图3:JoyStreamer模型实验结果对比
此外,团队在推理速度优化上也进行了大量创新,推出了JoyStreamer-Flash版本。该版本通过模型蒸馏、4步采样、KV缓存及多GPU并行推理等技术,实现了30 FPS的生成速度。研究还提出了渐进步数引导、运动条件注入、基于缓存重置的无限长上下文处理等创新点,旨在实现实时、流式生成无限时长的高保真数字人视频。
底层技术实现突破后,其应用潜力便得到充分释放。数字人直播作为核心商业场景,率先迎来体验升级:无论是7×24小时不间断的电商直播带货,还是对表现力要求极高的电商短视频,其整体内容形态与交互体验均实现了质的飞跃。
依托此次在长时长、自由态与实时互动方面的技术进展,京东数字人首先在京东自身的核心业务——数字人直播中落地验证。
从引发广泛关注的“采销东哥”数字人,到海尔、格力等品牌总裁数字人在直播间担当主力,再到对微表情和肢体动作要求严苛的明星数字人Vivi,京东数字人已在直播场景中完成多轮实战打磨,持续提升高表现力的直播交互能力。此前推出的“JoyAI 零帧起手”小程序,进一步降低了使用门槛,让普通用户也能轻松体验,将硬核的AI技术转化为大众可用的生产力工具。
结合最新技术,京东数字人JoyStreamer在业内率先推出“自由态数字人”,针对家电家居、时尚服饰等五大行业提供定制化模型,支持自然行走、灵活摆姿、镜头跟随及流畅的出画入画,即使在脸部遮挡情况下仍能保持高保真质感,实现了更为自然灵动的交互形态。
“自由态数字人”直播间
对观众而言,新一代数字人主播能够在直播间走动、展示商品细节,甚至实现多主播复杂互动,大幅提升了直播的趣味性;对电商运营来说,这种视觉表现力的跃升,有效延长了用户在直播间的停留时间。
京东致力于打造低门槛的数字人平台。面对中小商家可能对“影视级”、“高表现力”技术产生的成本顾虑,JoyStreamer提供了极具竞争力的解决方案:其数字人直播能力目前免费向商家开放,支持在商家后台一键配置、自定义模型,并可高度还原真人主播音色。
在此基础上,JoyStreamer推出的“数字人直播间复刻”功能,帮助商家高效沉淀直播资产。商家仅需上传一段真人直播视频,即可快速生成在形象、声线、神态及直播间布景上与真人高度一致的“数字分身”,将单次成功的直播转化为可长期复用的数字资产。
例如,箱包品牌新秀丽通过该功能实现稳定长期开播,其公域流量提升超过60%,直播间人均停留时长接近2分钟,充分验证了该功能的商业价值。

在京东平台上,数字人与真人直播同场竞技,流量竞争持续驱动数字人技术优化。每一次在数字人、语音、多模态等方面的技术迭代,都能获得数万商家的深度使用与实时反馈。
目前,京东数字人JoyStreamer已服务超过7万家商家,规模居于行业前列,几乎覆盖京东全品类,数字人直播正成为越来越多商家的标配选择。高表现力的数字人主播,已从早期的“尝鲜工具”逐步成长为拉动GMV增长的核心引擎之一。
京东AI的“护城河”
纵观全球AI竞争格局,行业普遍陷入高投入的“算力军备竞赛”。面对迅速增长的市场需求与前沿技术探索,京东采取了更为冷静务实的技术路径。京东相关负责人指出,大模型的发展应从追求参数规模的旧范式,转向效率、成本与性能平衡的新范式。
这一技术哲学不仅体现在数字人领域,也贯穿于京东大模型的整体布局。以京东近期开源的通用基础大模型JoyAI-LLM Flash为例,该模型总参数量为480亿,在实际推理中通过动态稀疏路由技术仅激活30亿参数,在智能体任务中的token消耗量仅为同类模型的五分之一,同时保持了优异效果。
在广阔的AI应用层面,大模型不仅需要宽广的知识覆盖面,还必须具备极低的推理成本与极快的响应速度,才能真正满足产业界对经济效益与实用效果的雙重要求。
作为一家兼具实体基因与数字技术能力的企业,京东拥有零售、物流、健康、工业等丰富的真实业务场景。目前,京东AI技术已深度融入其超级供应链体系,在超过2000个具体业务场景中落地应用。
JoyStreamer能够快速迭代出高表现力的数字人直播能力,正得益于每天数万商家在真实直播中提出的需求与反馈。这种基于实际商业场景形成的数据闭环与迭代飞轮,是许多纯技术公司难以复制的优势。
展望未来,数字人技术仍将持续演进。京东技术负责人表示,下一步将致力于让数字人主播实现实时换装、更丰富的跨主播互动,并最终攻克“零幻觉”难题。目前行业内尚未有团队完全解决这些挑战。
在京东的直播间里,这些具备高度表现力的数字形象仍在快速进化。京东AI在产业端的深入探索,才刚刚开始。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28083


