字节Seedance 2.0发布:170人团队公开论文,全球铺开却无美国,技术突破AI视频生成瓶颈

字节跳动旗下现象级AI视频生成技术Seedance 2.0的研究论文已在arXiv平台公开发布。

字节Seedance 2.0发布:170人团队公开论文,全球铺开却无美国,技术突破AI视频生成瓶颈

论文中包含了长达26页的基准测试(Benchmark)结果与完整的贡献者名单。

团队公开了全部170名成员的名单,体现了对研究贡献的充分署名与尊重。

字节Seedance 2.0发布:170人团队公开论文,全球铺开却无美国,技术突破AI视频生成瓶颈

论文发布之际,正值Seedance 2.0通过Byteplus平台向全球企业客户开放。全球100多个国家的客户可通过预付费API直接调用该服务。该模型支持文本、图像、视频、音频多模态输入,可生成4至15秒、最高720p分辨率的MP4视频。

值得注意的是,此次服务开放的“全球”国家列表中,未包含美国。

字节Seedance 2.0发布:170人团队公开论文,全球铺开却无美国,技术突破AI视频生成瓶颈

核心突破:解决复杂场景生成瓶颈

论文标题直指核心目标:使AI视频生成能够应对现实世界中的复杂场景。Seedance 2.0旨在突破过往生成式视频工具的一个主要瓶颈:传统模型通常仅依赖单一文本输入,在引用真实素材(如品牌图片、配音、既有视频片段)时难以保持一致性,且需要大量反复试验才能产出可用内容。这导致创作者面临迭代速度慢、输出结果不一致、工作流程难以满足实际制作需求等问题。

其突破性在于采用了一个原生统一的模型架构,能够同时生成视频与音频,并可在一个系统中接收并处理文本、图像、音频和视频四种模态的输入。具体技术特点包括:

  • 统一多模态理解:能同时理解并融合文字、图片、视频、音频指令。
  • 自然运动生成:生成的人物行走、奔跑、打斗、舞蹈等动作更为自然,符合物理规律,多人互动场景也能有序呈现。
  • 音画同步:自带双耳立体声音频,确保说话、唱歌、脚步声、背景音乐与画面精准同步,口型对齐准确。
  • 自动化导演能力:输入一段剧情描述,可自动进行分镜头、运镜设计并控制剪辑节奏。
  • 精细化编辑:支持对指定人物、动作、场景进行修改,亦可在现有视频基础上无缝续拍。

在评测部分,研究团队在VBench等多个主流基准上,从质量、运动、语义一致性等多个维度进行了全面量化对比。结果显示,Seedance 2.0已处于第一梯队,多项指标大幅领先同期其他模型。

字节Seedance 2.0发布:170人团队公开论文,全球铺开却无美国,技术突破AI视频生成瓶颈 字节Seedance 2.0发布:170人团队公开论文,全球铺开却无美国,技术突破AI视频生成瓶颈

论文最后两页列出了全部170位作者。与Seedance 1.5 Pro时期的197人团队相比,有89人离开,62人新加入,在不到半年时间内团队换血近半。

字节Seedance 2.0发布:170人团队公开论文,全球铺开却无美国,技术突破AI视频生成瓶颈

名单中保持稳定的核心成员包括:
* 吴永辉:现任字节跳动Seed团队基础研究负责人,是Seedance系列视频生成模型的最高技术决策者,直接向公司CEO梁汝波汇报。
* 曾妍:现任Seedance 2.0预训练负责人,是视频生成模型核心技术路线的关键执行者,工作地点位于美国帕洛阿尔托(Palo Alto)。

字节Seedance 2.0发布:170人团队公开论文,全球铺开却无美国,技术突破AI视频生成瓶颈

团队传闻与薪资结构披露

此前有消息称字节跳动以近亿元年薪挖角前DeepSeek研究员。对此,抖音副总裁李亮亲自辟谣,称该消息不实,并指出Seed团队薪资体系统一,近期未招聘年薪近亿元的员工。

此次辟谣同时意外披露了Seed团队的完整薪资结构:由现金、字节跳动期权及豆包(Doubao)期权组成,全部期权将在四年内归属。

李亮在辟谣后补充说明称:“Seed员工的字节和豆包期权未来收益根据期权价格有波动,假如业务发展得很好,不排除有些Seed技术人员四年后收益会达到数亿元。”此番言论被外界解读为借辟谣之机进行人才招募。

论文地址:
https://arxiv.org/abs/2604.14148

参考链接:
[1]https://www.byteplus.com/en/activity/seedance2-0
[2]https://weibo.com/7965906915/QB6lMCaGo


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/30722

(0)
上一篇 2026年4月17日 上午11:02
下一篇 2026年4月17日 上午11:05

相关推荐

  • AI反派困境:Moral RolePlay基准揭示大模型道德角色扮演的深层局限

    在人类叙事艺术中,复杂角色的塑造始终是衡量作品深度的核心标尺。从莎士比亚笔下的麦克白到《蝙蝠侠》中的小丑,反派角色的心理深度与道德复杂性往往成为故事张力的关键来源。当人工智能开始涉足创意生成领域时,一个根本性问题浮现:这些基于海量人类数据训练的大语言模型,能否真正理解并模拟人类道德光谱中的阴暗面?腾讯混元数字人团队与中山大学联合发布的「Moral RoleP…

    2025年11月22日
    60800
  • ICLR 2026 学术诚信危机:AI 幻觉引用如何挑战同行评审体系

    近期,ICLR 2026 会议陷入了一场前所未有的学术诚信风暴。继此前曝出 21% 审稿意见完全由 AI 生成、OpenReview 评审数据大规模泄露后,AI 生成内容检测平台 GPTZero 的最新调查再次揭示了更严峻的问题:在随机抽样的 300 篇投稿论文中,竟有 50 篇至少包含一处明显的“幻觉引用”。这一发现不仅暴露了当前学术评审体系的脆弱性,更引…

    2025年12月8日
    54200
  • AI大神Andrej Karpathy开源92个高质量信息源:从nanoGPT到RSS订阅,打造深度学习知识体系

    Andrej Karpathy 是 AI 领域公认的大神。他是 OpenAI 的创始成员,之后被马斯克挖走,领导了特斯拉自动驾驶团队。离开特斯拉后,他回到 OpenAI 参与了 GPT-4 的后续研发。 现在,他成立了一家 AI 教育公司 Eureka Labs,并经常在 X 和 YouTube 上活跃。如果你想学习 AI,尤其是技术原理,Andrej Ka…

    2026年2月10日
    1.5K00
  • 告别重复造轮子:7个Python库彻底解放AI工程师的双手

    我删掉了 350 行封装代码。取而代之的是这些。 “想要流式输出?SSE 我自己解析,有多难?” 难。离谱地难。我花了一个周末写了个能处理 OpenAI 格式的流式解析器,结果 Anthropic 改了他们的格式,我那所谓的“通用”解析器立刻就只通用于一家供应商了。 那一刻我决定不再写自定义 API 封装器。六个月后,伴随着一堆被删掉的代码,就是下面这 7 …

    2026年2月21日
    70500
  • 移动端高保真实时3D数字人革命:HRM²Avatar如何用单部手机突破SIGGRAPH Asia

    在计算机图形学、三维视觉、虚拟人与XR技术领域,SIGGRAPH Asia作为SIGGRAPH系列两大主会之一,始终代表着全球学术与工业界的最高研究水平与最前沿技术趋势。今年,淘宝技术-Meta技术团队凭借其自主研发的移动端高保真实时3D数字人重建与渲染系统HRM²Avatar,首次登陆这一国际顶级会议,标志着中国在轻量化数字人技术领域实现了重大突破。 当前…

    2025年12月18日
    57200