谷歌的新人工智能可以根据像素生成音轨

2024年6月18日, Deep Mind展示了其生成式 AI 视频转音频研究的最新成果。这是一个新颖的系统,它将屏幕上看到的内容与用户的书面提示相结合,为给定的视频片段创建同步的音频音景。

谷歌的新人工智能可以根据像素生成音轨

Deep Mind 的生成音频团队在一篇博客文章中写道, V2A AI 可以与 Veo 等视频生成模型配对,可以为屏幕上的动作创建配乐、音效甚至对话。此外,Deep Mind 声称,其新系统可以通过使用积极和消极的提示来调整模型,分别鼓励或阻止使用特定声音,从而“为任何视频输入生成无限数量的配乐”。

该系统的工作原理是首先对视频输入进行编码和压缩,然后扩散模型利用这些输入,根据用户的可选文本提示和视觉输入,从背景噪音中迭代优化所需的音频效果。最终解码并导出该音频输出为波形,然后将其与视频输入重新组合。

最好的部分是,用户不必进入并手动(阅读:乏味地)同步音频和视频轨道,因为 V2A 系统会自动完成此操作。“通过对视频、音频和附加注释进行训练,我们的技术学会将特定的音频事件与各种视觉场景联系起来,同时响应注释或记录中提供的信息,”Deep Mind 团队写道。

然而,该系统还不够完善。首先,输出音频质量取决于视频输入的保真度,当输入中存在视频伪影或其他失真时,系统就会出错。据 Deep Mind 团队称,将对话同步到音轨仍然是一个持续的挑战。

“V2A 试图从输入的文字记录中生成语音,并将其与人物的唇部动作同步,”该团队解释道。“但配对视频生成模型可能不以文字记录为条件。这会产生不匹配,通常会导致奇怪的唇部同步,因为视频模型不会生成与文字记录相匹配的嘴部动作。”

该系统仍需经过“严格的安全评估和测试”,团队才会考虑将其发布给公众。该系统生成的每个视频和配乐都将贴上 Deep Mind 的SynthID 水印。该系统远非目前市场上唯一的音频生成 AI。Stability AI上周刚刚推出了一款类似的产品,而 ElevenLabs上个月也发布了他们的音效工具。

原文链接:

https://www.digitaltrends.com/computing/deepmind-video-to-audio-generator/

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论