MusicLM 将条件音乐生成过程视为分层的序列到序列建模任务。它可以以 24 kHz 的频率生成音乐,并在几分钟内保持一致。MusicLM 在音频质量和对文本描述的遵守方面优于以前的系统。
此外,我们证明 MusicLM 可以同时以文本和旋律为条件。它可以根据文本标题中描述的风格转换吹口哨和哼唱的旋律。这使得 MusicLM 能够生成各种各样的音乐作品。
为了支持未来的研究,我们公开发布了 MusicCaps,这是一个由 5.5k 音乐文本对组成的数据集,其中包含由人类专家提供的丰富文本描述。MusicCaps 可以为研究者提供有用的资源,帮助他们开发更强大的音乐生成模型。