2024年9月18日

嗨，Seed-Music

我们的统一框架能够生成富有表现力的多语言人声音乐，允许用户对模型输出进行精确的音符级调整。用户也可以将自己的声音融入到音乐创作中，更有其他各种玩法。

阅读技术报告

概览

我们推出了 Seed-Music，一套全新的音乐生成系统，能够生成高质量音乐，并实现细粒度的风格控制。针对各类应用场景，我们设计了不同的方法论、实验和解决方案，没有依赖自回归（AR）或扩散等单一建模方法，而是提出了统一框架，以适应音乐人不断演变的工作流程。主要贡献体现在以下三个方面：

引入基于自回归语言模型（LM）的方法，在多样、多模态的用户输入条件下，生成高质量人声音乐。

提出一种基于扩散的方法，实现对音乐音频在音符级别的精细编辑。

提出一种零样本歌声转换的新方法，用户仅需提供一段 10 秒的歌唱或语音录音。

试听示例

以下展示的所有音频样本均由 Seed-Music 生成。这些样本的呈现顺序与我们技术论文中的一致。