字节跳动旗下现象级AI视频生成技术Seedance 2.0的研究论文已在arXiv平台公开发布。

论文中包含了长达26页的基准测试(Benchmark)结果与完整的贡献者名单。
团队公开了全部170名成员的名单,体现了对研究贡献的充分署名与尊重。

论文发布之际,正值Seedance 2.0通过Byteplus平台向全球企业客户开放。全球100多个国家的客户可通过预付费API直接调用该服务。该模型支持文本、图像、视频、音频多模态输入,可生成4至15秒、最高720p分辨率的MP4视频。
值得注意的是,此次服务开放的“全球”国家列表中,未包含美国。

核心突破:解决复杂场景生成瓶颈
论文标题直指核心目标:使AI视频生成能够应对现实世界中的复杂场景。Seedance 2.0旨在突破过往生成式视频工具的一个主要瓶颈:传统模型通常仅依赖单一文本输入,在引用真实素材(如品牌图片、配音、既有视频片段)时难以保持一致性,且需要大量反复试验才能产出可用内容。这导致创作者面临迭代速度慢、输出结果不一致、工作流程难以满足实际制作需求等问题。
其突破性在于采用了一个原生统一的模型架构,能够同时生成视频与音频,并可在一个系统中接收并处理文本、图像、音频和视频四种模态的输入。具体技术特点包括:
- 统一多模态理解:能同时理解并融合文字、图片、视频、音频指令。
- 自然运动生成:生成的人物行走、奔跑、打斗、舞蹈等动作更为自然,符合物理规律,多人互动场景也能有序呈现。
- 音画同步:自带双耳立体声音频,确保说话、唱歌、脚步声、背景音乐与画面精准同步,口型对齐准确。
- 自动化导演能力:输入一段剧情描述,可自动进行分镜头、运镜设计并控制剪辑节奏。
- 精细化编辑:支持对指定人物、动作、场景进行修改,亦可在现有视频基础上无缝续拍。
在评测部分,研究团队在VBench等多个主流基准上,从质量、运动、语义一致性等多个维度进行了全面量化对比。结果显示,Seedance 2.0已处于第一梯队,多项指标大幅领先同期其他模型。

论文最后两页列出了全部170位作者。与Seedance 1.5 Pro时期的197人团队相比,有89人离开,62人新加入,在不到半年时间内团队换血近半。

名单中保持稳定的核心成员包括:
* 吴永辉:现任字节跳动Seed团队基础研究负责人,是Seedance系列视频生成模型的最高技术决策者,直接向公司CEO梁汝波汇报。
* 曾妍:现任Seedance 2.0预训练负责人,是视频生成模型核心技术路线的关键执行者,工作地点位于美国帕洛阿尔托(Palo Alto)。

团队传闻与薪资结构披露
此前有消息称字节跳动以近亿元年薪挖角前DeepSeek研究员。对此,抖音副总裁李亮亲自辟谣,称该消息不实,并指出Seed团队薪资体系统一,近期未招聘年薪近亿元的员工。
此次辟谣同时意外披露了Seed团队的完整薪资结构:由现金、字节跳动期权及豆包(Doubao)期权组成,全部期权将在四年内归属。
李亮在辟谣后补充说明称:“Seed员工的字节和豆包期权未来收益根据期权价格有波动,假如业务发展得很好,不排除有些Seed技术人员四年后收益会达到数亿元。”此番言论被外界解读为借辟谣之机进行人才招募。
论文地址:
https://arxiv.org/abs/2604.14148
参考链接:
[1]https://www.byteplus.com/en/activity/seedance2-0
[2]https://weibo.com/7965906915/QB6lMCaGo
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/30722

