Fish Agent v0.1 3B 发布:突破性的语音对语音模型,能够以前所未有的精度捕捉和生成环境音频信息

当前的文本转语音 (TTS) 系统(例如 VALL-E 和 Fastspeech)面临着与处理复杂语言特征、管理复音表达和生成自然的多语言语音相关的持续挑战。在处理依赖于上下文的复音词和跨语言合成时,这些限制变得尤为明显。传统的 TTS 方法依赖于字素到音素 (G2P) 的转换,通常难以管理多种语言的语音复杂性,导致质量不一致。随着对更复杂的语音克隆和多语言 AI ​​的需求不断增长,这些挑战阻碍了会话 AI 和无障碍工具等现实世界应用的进步。

Fish Audio 团队最近推出了 Fish Agent v0.1 3B,这是一款旨在解决 TTS 中这些挑战的创新解决方案。Fish Agent 建立在 Fish-Speech 框架之上,利用了新颖的双自回归 (Dual-AR) 架构和名为 Firefly-GAN (FF-GAN) 的高级声码器。与传统 TTS 系统不同,Fish Agent v0.1 3B 依靠大型语言模型 (LLM) 直接从文本中提取语言特征,无需进行 G2P 转换。这种方法提高了合成管道的效率和多语言能力,解决了当前 TTS 模型的缺点并简化了多语言文本处理。

Fish Agent v0.1 3B 发布:突破性的语音对语音模型,能够以前所未有的精度捕捉和生成环境音频信息

Fish Agent v0.1 3B 采用由 Slow Transformers 和 Fast Transformers 组成的串行快慢双自回归 (Dual-AR) 架构。Slow Transformer 处理全局语言结构,而 Fast Transformer 捕捉详细的声学特征,确保高质量和自然的语音合成。通过集成分组有限标量矢量量化 (GFSQ),该模型实现了出色的码本利用率和压缩率,从而以最小的延迟实现高效的合成。

此外,该模型的声码器 Firefly-GAN (FF-GAN) 采用增强的矢量量化技术,在序列生成期间提供高保真输出和稳定性。这些架构选择使 Fish Agent 在多语言处理、语音克隆和实时应用方面表现出色,使其成为 TTS 领域的重大进步。

Fish Agent v0.1 3B 发布:突破性的语音对语音模型,能够以前所未有的精度捕捉和生成环境音频信息

Fish Agent v0.1 3B 的重要性在于它能够解决长期以来困扰 TTS 系统的瓶颈问题。其非 G2P 方法简化了合成过程,可以更好地管理复杂的语言现象和混合语言内容。Fish-Speech 是在包含 720,000 小时多语言音频数据的庞大数据集上进行训练的,这使该模型能够有效地跨不同语言进行推广,并在多语言环境中保持质量。

实验评估表明,Fish-Speech 的词错误率 (WER) 为 6.89%,远远优于 CosyVoice (22.20%) 和 F5-TTS (13.98%) 等基线模型。此外,Fish Agent 的延迟仅为 150 毫秒,使其成为实时应用的最佳选择。这些性能指标证明了 Fish Agent v0.1 3B 在推动 AI 驱动语音技术方面具有潜力。

Fish Agent v0.1 3B 发布:突破性的语音对语音模型,能够以前所未有的精度捕捉和生成环境音频信息

Fish Audio 团队开发的 Fish Agent v0.1 3B 代表了 TTS 技术的重大突破。通过利用新颖的 Dual-AR 架构和先进的声码器功能,Fish Agent 解决了传统 TTS 系统的固有局限性,特别是在多语言和复音场景中。其在语言特征提取和语音克隆方面的出色表现为 AI 驱动的语音合成树立了新的标杆。

论文地址:https://arxiv.org/abs/2411.01156

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/53672.html

(0)

相关推荐

发表回复

登录后才能评论