Seedance 1.0 视频生成模型技术报告公开
Seedance 1.0 视频生成模型技术报告公开
日期
2025-06-11
分类
技术发布
字节跳动 Seed 团队正式发布视频生成基础模型 Seedance 1.0。
Seedance 1.0 支持文字与图片输入,可生成多镜头无缝切换的 1080p 高品质视频,且主体运动稳定性与画面自然度较高。
相较 Seed 此前发布的视频生成模型,Seedance 1.0 核心亮点如下:
- 原生多镜头叙事能力:支持 2-3 个镜头切换的 10 秒视频生成,可进行远中近景画面切换,叙事能力大幅提升;
Prompt:女孩弹钢琴,多镜头切换,电影质感(I2V)。
Prompt:多个镜头。一名侦探进入一间光线昏暗的房间。他检查桌上的线索,手里拿起桌上的某个物品。镜头转向他正在思索。
- 更强运动生成效果:画面与主体动态效果更自然,结构稳定性与细节把控更好,生成崩坏率更低;
Prompt:滑雪者在滑雪,他转弯时扬起大片雪雾,沿着山坡逐渐加速,镜头平稳地移动着。
Prompt:一位身着黑色露背礼服的模特优雅地走在鲜艳的红色 T 台上。光线展现出面料的流动感。观众席间的目光追随模特,最后灯光渐暗。
- 支持高美感的多种风格创作:可精准响应指令生成写实、动漫、影视、广告等不同风格的高品质视频内容,画质更真实,且美感更强;
- 40+ 秒高速推理,更低成本:通过对模型结构的精细设计和极致的推理加速,可在更短时间完成视频创作,对于 5 秒 1080p 分辨率的视频生成任务,实测推理耗时 41.4 秒(基于 L20 测试)。
在第三方评测榜单 Artificial Analysis上,Seedance 1.0文生视频、图生视频两个任务的表现均位居首位。
Artificial Analysis 文生视频榜单
Artificial Analysis 图生视频榜单
(注:为实现评估上的统一,Artificial Analysis 将 Veo 3 Preview 生成视频去掉声音后参与上述榜单评测。)
团队还建立了一个综合基准,依靠人工对 Seedance 1.0 表现进行评估。该测试集包含 300 条文生视频、图生视频 Prompt,并邀请影视导演、业内专家联合制定评估标准,涵盖主体生成、动作稳定性、镜头切换和表达、美感、指令遵循等维度。
可以看到,在动态图像生成的各维度上,Seedance 1.0 有较好的综合表现,尤其动作生成、指令遵循等关键能力处于业界前列。此外,Seedance 1.0 在推理速度、用户好评度等方面表现也比较突出。
文生视频任务综合评测
图生视频任务综合评测
Seedance 1.0 已公开技术报告,并通过即梦、豆包及火山引擎 API 接口开放使用,欢迎体验交流。
项目主页(可查看完整技术报告):https://seed.bytedance.com/seedance
引入精准描述模型,提升数据多样性与可用性
Seedance 1.0 研发过程中,团队通过调研影视创作者等群体的真实需求,不仅将指令遵循、运动稳定性、画面质量等行业共识性指标纳入攻坚方向,同时,我们也将挑战多任务生成统一、极速高清视频生成等课题纳入研发目标。
在数据构建上,团队主要聚焦于视频多源采集与描述说明(Caption)获取,通过多阶段的筛选和均衡,我们提升了模型对动态视频中的主体、动作、场景、风格以及 Prompt 的理解力,令模型在生成上更加细致和精准。
Seedance 1.0 的数据处理流程
- 多样数据源&精准预处理,提升训练数据的可用性和多样性
我们构建了多种类型、风格、来源的大规模视频数据集,采集视频的时长、分辨率、主题、场景、艺术风格、镜头运动等关键维度,使模型能够充分提取不同场景、风格、主题、镜头画面、尺寸下的主体轮廓与动作特征。
为了提高数据的利用率,Seedance 1.0 还引入自动镜头边界检测技术,通过帧间差异分析,精准分割视频片段。
此外,我们还基于启发式规则与物体检测自适应裁剪帧,最大化保留主体内容,并进行精准数据筛选,同步提升数据量级与多样性。
- 引入“精准描述模型”,提升模型对动态静态信息的理解力
精准细致的视频描述数据,可以确保模型准确响应用户指令并生成复杂内容,但在实际训练中,此类数据较为缺失。为此,我们在研发中,专门训练了“精准描述模型”来生成视频描述(Caption),作为 Seedance 1.0 的训练数据。
该模型采用动静态特征融合的密集描述架构,既关注视频中主要的动作变化与镜头运动,同时也强调画面主要元素的性质特点与场景信息。其中,动态侧用于精细刻画视频的动作变化与镜头运动,静态侧则负责深度解析特定一帧的核心主体与场景信息。
统一高效的预训练框架,实现多镜头切换与多模态输入
通过高效的模型结构设计、多模态交织的位置编码和多任务统一建模,Seedance 1.0 实现了无缝支持多镜头视频创作,并且作为单个模型,可同时支持文生视频(T2V)和图生视频(I2V)等任务。
Seedance 1.0 预训练框架
相比业界已披露的方法,Seedance 1.0 在模型架构和训练策略上的优化包括:
- 解耦的空间与时间层
团队构建了解耦空间层和时间层的扩散 Transformer 模型,以提升训练和推理的效率。
其中,空间层在单帧内部执行注意力聚合,而时间层则专注于跨帧的注意力计算。在时间层中,团队在每帧内进行窗口划分,从而在时间维度上,实现了全局感受野。此外,文本 token 仅参与空间层中的跨模态交互。这些改进整体上提升了计算效率,为高效的模型研发打下基础。
- 多镜头多模态旋转位置编码
在 Seedance 1.0 中,除了按业内常规的策略对视觉 token 使用 3D 旋转位置编码,团队还为文本 token 添加了额外的一维位置编码,并在拼接后的序列中,引入了 3D 多模态旋转位置编码(MM-RoPE)。
MM-RoPE 方法支持视觉 token 与文本 token 的交错序列,且可以扩展到多镜头视频的训练。过程中,用于训练的镜头数据按照动作的时间顺序组织,每个镜头都配有精准描述模型提供的详细描述(Caption),通过这一训练方法, Seedance 1.0 多镜头生成能力和多模态理解力得以加强。
- 统一的任务框架
为了实现图像到视频的生成能力,团队使用二元掩码来指示哪些帧应遵循生成中的控制条件。在训练过程中,团队将这些任务混合训练,并通过控制条件输入来调整它们的影响比例。
通过这一框架,我们实现了统一框架下,不同生成任务(如文本到图像、文本生视频和图像生视频)之间相互学习,同时,部署侧只需一个模型就可实现多种任务,降低了模型应用门槛。
后训练构建复合奖励系统,提升画面生动性、稳定性和美感
通过在后训练阶段使用高质量的精调数据集、多维度的奖励模型和反馈学习算法,Seedance 1.0 在运动生动性、结构稳定性、画面质量等维度上取得提升。
此外,团队还采用了为视频生成定制的 RLHF 算法,从而大幅提升 Seedance 1.0 在文生视频、图片生成视频两个任务中的综合效果。
- 依靠高质量数据监督微调
在 SFT 阶段,团队精细地筛选了高质量视频-文本对数据集,让 Seedance 1.0 在该集合上进行有效训练。这些数据广泛覆盖各类风格和场景,并配有高质量且精准的视频描述(Caption),从而使模型能生成美学效果更佳、运动动态更一致的视频。
在微调过程中,团队基于精选数据子集上训练出多个独立模型,再将这些模型融合,以整合它们的优势。
- 三个维度奖励模型构成的复合奖励系统
考虑到图文对齐、结构稳定性、运动生成能力、美感是评判视频生成模型的核心,团队构建了一整套复合奖励系统,包括:
基础奖励模型:聚焦基础能力(如图文对齐与结构稳定性)增强,采用视觉语言模型(VLM)架构;
运动奖励模型:致力于抑制视频伪影,提升运动幅度、生动性与稳定性;
美学奖励模型:针对视频关键帧设计 image-space 输入的美感奖励模型,给予模型影视级美感。
- 视频定制化的反馈学习
在RLHF训练中,团队采用了最大化多个奖励模型(RM)奖励值的方法,对比 DPO/PPO/GRPO,该方法针对文本-视频对齐度、运动质量及美学表现等维度的提升效率与效果更佳。
我们还将 RLHF 扩展至加速后的超分模型,在低推理步数(NFE)场景下,提升了视频的运动质量与视觉保真度,同时保持了高效的计算效率。
从下图可以看到,伴随迭代次数增加,视频定制化 RLHF 优化方案结合多维度奖励模型,可实现模型多维能力的协同进化。
在基础模型和 Refiner RLHF 过程中,不同奖励模型曲线均呈现稳定、一致的上升趋势。
极致推理加速,最快约 40 秒生成 5 秒 1080p 视频
Seedance 1.0 采用模型算法与底层推理的协同优化技术,实现对模型的基本无损加速。在保证图文匹配、画面质量、运动质量等指标几乎不受影响的情况下,模型可以高效生成视频。对于 5 秒 1080p 分辨率的视频生成,团队使用 L20 实测推理耗时为 41.4 秒。Seedance 1.0 主要推理加速方法包括:
- 扩散模型算法加速
通过引入分段轨迹一致性、分数匹配与人类偏好引导的对抗蒸馏机制,在极低推理步数(NFE)下,我们实现了生成质量与速度的更优协同。针对像素域解码瓶颈,团队使用通道结构细化的轻量级 VAE 解码器,实现视频生成路径中感知质量无损的双倍加速。
- 底层推理加速
我们通过融合算子优化、异构量化稀疏策略、自适应混合并行、异步卸载与 VAE 并行分解等系统级改造,在不牺牲画质与可部署性的前提下,构建了面向长序列视频生成的高效推理路径,实现端到端吞吐与内存效率的更优协同。
未来规划
自 2024 年开始,视频生成类模型不断进化。团队认为,视频生成的生动性和自然度还将大幅提升,随着应用门槛降低,视频生成模型将真正成为内容创作的高效工具。
在此基础上,视频生成模型可作为世界模拟器,与人类进行实时互动,甚至能生成高质量游戏作品,也并不遥远。
未来,Seedance 团队计划在以下方向开展进一步研究:
- 探索更高效的结构设计与加速方法:构建效果更好、成本更低、生成更快的视频生成模型,并在此基础上构建可实时交互,且精准可控的视频生成模型;
- 提升模型智能化水平:拓展模型对世界知识的理解,增强生成真实感和物理规律合理性,探索多模态信息融合,如赋予模型音频输入输出能力;
- 探索数据、模型量级、奖励模型等维度的 Scaling 现象,推进视频生成模型的能力进一步涌现。