Opus 1.5 音频编解码器能广泛利用机器学习技术

追风者 • 2024年3月5日上午10:00 • 行业资讯

Xiph.Org 的 Opus 有损音频编码开源音频格式推出了 Opus 1.5 版，作为一个重大更新，它将更多地利用机器学习。

根据今天的发布公告，Opus 1.5 带来了 “严重的机器学习升级”。1.5 演示页面将更多地使用机器学习总结为:

“这个 1.5 版本不同于以往的任何版本。它带来了许多新功能，可以改善音质和一般音频体验。这是通过机器学习实现的。虽然 Opus 以前也包含机器学习，甚至是深度学习（如语音/音乐检测），但这是它第一次使用深度学习技术来处理或生成信号本身。

与其从头开始设计一种新的基于 ML 的编解码器，我们更倾向于以完全兼容的方式改进 Opus。这是 Opus 中 ML 的一个重要设计目标。这不仅确保 Opus 能在较旧/较慢的设备上继续工作，而且还提供了一个简单的升级途径。部署新的编解码器可能是一个漫长而痛苦的过程。兼容性意味着 Opus 的旧版本和新版本可以共存，同时在新版本推出时仍能提供新版本的优势。

深度学习也常常与强大的 GPU 联系在一起，但在 Opus 中，我们对一切都进行了优化，使其可以在大多数 CPU（包括手机）上轻松运行。我们注意避免使用庞大的模型（这与拥有数千亿参数的 LLM 不同！）。最后，大多数用户应该不会注意到额外的成本，但使用老式（5 年以上）手机或微控制器的用户可能会注意到。因此，Opus 1.5默认禁用所有基于ML的新功能。它们需要编译时切换（出于体积原因）和运行时切换（出于 CPU 原因）”。

但如前所述，新的机器学习功能默认是禁用的。