“音频ChatGPT” | 谷歌的AI音乐生成器

追风者 • 来源：21dB声学人 • 2023年4月18日下午6:49 • 行业资讯

谷歌发布了一款先进的人工智能音乐生成器，可以将一段文本变成歌曲片段，但法律问题可能会阻止这家科技巨头与公众分享它。

人工智能革命：ChatGPT、DALL-E 2和其他能够根据用户提示生成文本或图像的高级人工智能在2022年大受欢迎，但它们不是第一批生成式人工智能，也不是神经网络能做的唯一例子。

几家公司还训练人工智能根据文本、音频或图像提示生成音乐——ChatGPT和DALL-E 2背后的研究公司OpenAI甚至在2020年发布了一款名为“Jukebox”的人工智能音乐生成器。

然而，这些系统并没有像文本和图像生成系统那样受欢迎，主要是因为它们的输出不那么令人印象深刻——大多数是低保真的、简单的，并且缺乏传统的歌曲结构，比如重复的合唱。

然而，音乐制作的人工智能正在变得越来越好，也许这项技术最令人印象深刻的例子是MusicLM，这是谷歌在2023年1月推出的人工智能音乐生成器。

该系统可以根据文本描述生成长达5分钟的片段，虽然音乐不会赢得任何格莱美奖，但音频听起来确实比其他AI生成的片段更像人类录制的东西。

工作原理：谷歌用来自《花木兰》的超过280,000小时的音乐训练了MusicLM，该模型经过训练，可以将音乐与自然语言的描述联系起来。

然后他们创建了MusicCaps，这是一个公开可访问的超过5500个音乐片段的数据集，用于评估人工智能音乐生成器。专业的音乐家为每个片段写了说明，以及描述它们的方面，如它们的类型或情绪。

在评估阶段，谷歌将MusicLM与另外两个文本转音乐人工智能（Mubert和Riffusion）进行了对比，使用了几种量化指标来评估剪辑的音频质量和对文本描述的依从性。

他们还向人类评估者展示了MusicCaps的描述和两个音频片段——这可能是两个由人工智能生成的剪辑，也可能是一个人工智能生成的剪辑，以及MusicCaps描述所基于的音乐。然后评估者选择他们认为最符合描述的片段。

根据谷歌在预打印服务器arXiv上共享的一篇论文，MusicLM的性能全面优于其他人工智能。

谷歌的人工智能音乐生成器能够产生听起来更接近人类创作的音乐的音频，但它仍然不能复制传统的歌曲结构，而且它创造的人声质量特别差，歌词晦涩难懂。

研究人员写道：“我们承认，与用例相关的创造性内容存在潜在的滥用风险……我们强调，未来需要开展更多工作来解决与音乐生成相关的这些风险。”

信息源于：freethink