开源AI音频工具AudioCraft

NOWDO写作训练营

AI 研究|2024-5-23|最后更新: 2024-5-30|
type
status
date
slug
summary
tags
category
icon
password
 
项目:
AudioCraft 是一个一站式代码库,可满足您所有的生成音频需求:音乐、音效和原始音频信号训练后的压缩
MusicGen 和 AudioGen 都由一个自回归语言模型 (LM) 组成,该模型对压缩的离散音乐表示流(即令牌)进行操作。我们介绍了一种简单的方法来利用并行令牌流的内部结构,并表明,通过单一模型和优雅的令牌交错模式,我们的方法有效地对音频序列进行建模,同时捕获音频中的长期依赖关系,并允许我们生成高质量的音频。
notion image
notion image
我们的模型利用 EnCodec 神经音频编解码器从原始波形中学习离散音频标记。EnCodec 将音频信号映射到一个或多个离散令牌的并行流。然后,我们使用单个自回归语言模型对来自 EnCodec 的音频标记进行递归建模。然后将生成的令牌馈送到 EnCodec 解码器,以将它们映射回音频空间并获得输出波形。最后,可以使用不同类型的条件模型来控制生成,例如将预训练的文本编码器用于文本到音频应用程序。
 
Loading...