音频压缩
-
WavTokenizer:重新定义音频压缩的突破性声学编解码器模型
大规模语言模型在涉及多发言人语音合成、音乐生成和音频生成的生成任务中取得了重大进展。将语音模态集成到多模态统一大型模型中也变得流行起来,例如 SpeechGPT 和 AnyGPT …
-
Siamese SIREN:隐式神经表征的音频压缩 | ICML 2023 Workshop
隐式神经表征 (INRs) 已经成为一种很有前景的表示各种数据模式的方法,包括3D形状、图像和音频。虽然最近的研究已经证明了 INRs 在图像和 3D 形状压缩方面的成功应用,但它…