字节Seedance 2.0发布:170人团队公开论文,全球铺开却无美国,技术突破AI视频生成瓶颈

字节跳动旗下现象级AI视频生成技术Seedance 2.0的研究论文已在arXiv平台公开发布。

字节Seedance 2.0发布:170人团队公开论文,全球铺开却无美国,技术突破AI视频生成瓶颈

论文中包含了长达26页的基准测试(Benchmark)结果与完整的贡献者名单。

团队公开了全部170名成员的名单,体现了对研究贡献的充分署名与尊重。

字节Seedance 2.0发布:170人团队公开论文,全球铺开却无美国,技术突破AI视频生成瓶颈

论文发布之际,正值Seedance 2.0通过Byteplus平台向全球企业客户开放。全球100多个国家的客户可通过预付费API直接调用该服务。该模型支持文本、图像、视频、音频多模态输入,可生成4至15秒、最高720p分辨率的MP4视频。

值得注意的是,此次服务开放的“全球”国家列表中,未包含美国。

字节Seedance 2.0发布:170人团队公开论文,全球铺开却无美国,技术突破AI视频生成瓶颈

核心突破:解决复杂场景生成瓶颈

论文标题直指核心目标:使AI视频生成能够应对现实世界中的复杂场景。Seedance 2.0旨在突破过往生成式视频工具的一个主要瓶颈:传统模型通常仅依赖单一文本输入,在引用真实素材(如品牌图片、配音、既有视频片段)时难以保持一致性,且需要大量反复试验才能产出可用内容。这导致创作者面临迭代速度慢、输出结果不一致、工作流程难以满足实际制作需求等问题。

其突破性在于采用了一个原生统一的模型架构,能够同时生成视频与音频,并可在一个系统中接收并处理文本、图像、音频和视频四种模态的输入。具体技术特点包括:

  • 统一多模态理解:能同时理解并融合文字、图片、视频、音频指令。
  • 自然运动生成:生成的人物行走、奔跑、打斗、舞蹈等动作更为自然,符合物理规律,多人互动场景也能有序呈现。
  • 音画同步:自带双耳立体声音频,确保说话、唱歌、脚步声、背景音乐与画面精准同步,口型对齐准确。
  • 自动化导演能力:输入一段剧情描述,可自动进行分镜头、运镜设计并控制剪辑节奏。
  • 精细化编辑:支持对指定人物、动作、场景进行修改,亦可在现有视频基础上无缝续拍。

在评测部分,研究团队在VBench等多个主流基准上,从质量、运动、语义一致性等多个维度进行了全面量化对比。结果显示,Seedance 2.0已处于第一梯队,多项指标大幅领先同期其他模型。

字节Seedance 2.0发布:170人团队公开论文,全球铺开却无美国,技术突破AI视频生成瓶颈 字节Seedance 2.0发布:170人团队公开论文,全球铺开却无美国,技术突破AI视频生成瓶颈

论文最后两页列出了全部170位作者。与Seedance 1.5 Pro时期的197人团队相比,有89人离开,62人新加入,在不到半年时间内团队换血近半。

字节Seedance 2.0发布:170人团队公开论文,全球铺开却无美国,技术突破AI视频生成瓶颈

名单中保持稳定的核心成员包括:
* 吴永辉:现任字节跳动Seed团队基础研究负责人,是Seedance系列视频生成模型的最高技术决策者,直接向公司CEO梁汝波汇报。
* 曾妍:现任Seedance 2.0预训练负责人,是视频生成模型核心技术路线的关键执行者,工作地点位于美国帕洛阿尔托(Palo Alto)。

字节Seedance 2.0发布:170人团队公开论文,全球铺开却无美国,技术突破AI视频生成瓶颈

团队传闻与薪资结构披露

此前有消息称字节跳动以近亿元年薪挖角前DeepSeek研究员。对此,抖音副总裁李亮亲自辟谣,称该消息不实,并指出Seed团队薪资体系统一,近期未招聘年薪近亿元的员工。

此次辟谣同时意外披露了Seed团队的完整薪资结构:由现金、字节跳动期权及豆包(Doubao)期权组成,全部期权将在四年内归属。

李亮在辟谣后补充说明称:“Seed员工的字节和豆包期权未来收益根据期权价格有波动,假如业务发展得很好,不排除有些Seed技术人员四年后收益会达到数亿元。”此番言论被外界解读为借辟谣之机进行人才招募。

论文地址:
https://arxiv.org/abs/2604.14148

参考链接:
[1]https://www.byteplus.com/en/activity/seedance2-0
[2]https://weibo.com/7965906915/QB6lMCaGo


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/30722

(0)
上一篇 3小时前
下一篇 3小时前

相关推荐

  • 字节豆包AI全面升级:多模态Agent、图像视频生成大版本革新,引爆春节AI大战

    「2026 年或将成为人类历史上最忙碌、也最具决定性的一年。」xAI 联创 Jimmy Ba 在离职宣言中如是说。 这话并非夸张。1 月初,Anthropic 推出 Agent 工具 Claude Cowork,并发布 11 个配套插件;一周前,Anthropic 与 OpenAI 又几乎同时推出新版本基础大模型 Claude Opus 4.6 与 GPT-…

    2026年2月14日
    44600
  • Superpowers:为Claude Code注入资深工程师思维,终结AI编程的“瞎写”时代

    你是否曾在用AI写代码时,经历过这样的崩溃时刻? 满怀期待地向AI提出需求,它确实反应迅速,顷刻间生成大段代码。然而,一旦运行,却是满屏报错,业务逻辑也常常残缺不全。更令人无奈的是,它今天写的代码,可能明天自己都无法理解。 究其根源,当前多数AI编程工具的症结在于“过于顺从”。它们缺乏停顿与思考,只是机械地堆砌代码片段。 有趣的是,今天GitHub Tren…

    2026年1月15日
    27800
  • 零代码革命:Postman AI Agent Builder一键将10万API转化为MCP服务器

    在技术领域,总有一些时刻会让人感到“魔法”般不可思议。 现在就是这样一个时刻。 Postman 悄然发布了一款 AI Agent Builder,它能够将超过 100,000 个现成的 API 一键转换为功能完备的 MCP(Model Context Protocol)服务器,整个过程无需编写任何代码。 你只需简单点击几下,下载一个 ZIP 文件,然后——你…

    2025年12月12日
    48200
  • 神经网络权重空间的柏拉图式启示:通用子空间假说如何重塑AI架构认知

    近期,约翰斯・霍普金斯大学的一项突破性研究揭示了神经网络训练中一个令人震撼的规律:超过1100个在不同数据集、不同初始化条件下训练的神经网络,其最终学到的权重都会收敛到一个共享的低维子空间。这一发现不仅挑战了传统机器学习中“数据驱动一切”的范式,更暗示着神经网络架构本身可能蕴含着某种先验的数学结构——所有训练过程本质上都是在“发现”而非“创造”这个早已存在的…

    2025年12月14日
    29200
  • 马斯克状告OpenAI:不要赔偿只要奥特曼下台,转身联手英特尔打造太空AI芯片

    马斯克修订诉讼:不求赔偿,只求奥特曼离开OpenAI董事会 马斯克对OpenAI的诉讼提出了关键修订。其核心诉求已不再是金钱赔偿,而是要求将萨姆·奥特曼从OpenAI非营利母公司董事会中除名。 根据修订后的诉讼文件,马斯克表示,如果胜诉,他将把所有赔偿款捐给OpenAI旗下的非营利机构。唯一的条件是奥特曼必须离开董事会。同时,OpenAI联合创始人兼总裁格雷…

    2026年4月8日
    13200