Meta AI 发布 Meta Spirit LM:混合文本和语音的开源多模态语言模型

开发高级文本转语音 (TTS) 系统的主要挑战之一是转录和生成语音时缺乏表现力。传统上,用于构建 TTS 管道的大型语言模型 (LLM) 使用自动语音识别 (ASR) 将语音转换为文本,使用 LLM 进行处理,然后通过 TTS 将输出转换回语音。然而,这种方法通常会导致表现力下降,因为在 ASR 过程中会剥离语调、情感和音调等细微差别。因此,合成的语音往往听起来单调或不自然,无法充分传达兴奋、愤怒或惊讶等情绪。

Meta AI 最近发布了 Meta Spirit LM,这是一种创新的开源多模态语言模型,能够自由混合文本和语音,以解决这些限制。Meta Spirit LM 通过在单词级别集成文本和语音来解决现有 TTS 系统的局限性,使模型能够更无缝地跨模态。该模型使用单词级交错方法在语音和文本数据集上进行训练,有效捕捉口语的表达特征,同时保持基于文本的模型的强大语义能力。

Meta AI 发布 Meta Spirit LM:混合文本和语音的开源多模态语言模型

Meta Spirit LM 有两个版本:Spirit LM Base 和 Spirit LM Expressive。Spirit LM Base 使用语音标记对语音进行编码,从而可以高效地表示单词,而 Spirit LM Expressive 则更进一步,通过结合音调和风格标记来捕捉语气细节,例如兴奋或愤怒,并生成反映这些情绪的富有表现力的语音。这使得 Meta Spirit LM 成为一种强大的工具,可以整合文本和语音模式,从而产生连贯且自然的语音。

Meta Spirit LM 采用独特的词级交错方法对文本和语音数据集进行训练。该模型的架构旨在通过将两种模态编码为一组标记来实现文本和语音之间的自由转换。Spirit LM Base 利用源自​​语音表示的语音标记,而 Spirit LM Expressive 则结合了音高和风格标记,增加了表达层次,例如语调或情感细微差别。

这种架构使 Meta Spirit LM 能够生成更自然、语境更丰富的语音。该模型能够针对跨模态的任务进行少量学习,例如自动语音识别 (ASR)、文本转语音 (TTS) 和语音分类。这种多功能性使 Meta Spirit LM 成为传统多模态 AI 模型的重大改进,而传统多模态 AI 模型通常在孤立领域中运行。通过学习涵盖文本和语音的表示,该模型还可用于复杂的应用,包括富有表现力的故事讲述、情感驱动的虚拟助手和增强型交互式对话系统。

Meta Spirit LM 的重要性在于它能够在语音和文本之间自由转换,从而显著增强多模态 AI 体验。该模型的 Expressive 版本 (Spirit LM Expressive) 超越了标准语音模型,允许在不同模态中保留情绪和语调。语音文本情绪保留 (STSP) 基准的评估结果表明,Spirit LM Expressive 有效地保留了情感意图,与使用 ASR 和 TTS 级联的标准 LLM 相比,它提供了更自然、更富有情感的输出。

Meta Spirit LM 的另一个重要贡献是其跨不同模态的少样本学习能力。该模型已展示出处理跨模态任务的能力,例如将文本转换为富有表现力的语音,其具有竞争性的准确度,展示了其跨模态的广义理解。这使得 Meta Spirit LM 在开发对话代理、残疾人无障碍通信工具以及需要自然、富有表现力的对话的教育技术方面取得了重大飞跃。该模型的开源性质也吸引了更广泛的研究界来探索和改进其多模态能力。

Meta Spirit LM 代表着在不牺牲表现力的情况下将语音和文本模式集成到 AI 系统中的突破性一步。Meta Spirit LM Base 和 Spirit LM Expressive 通过使用交错方法对语音和文本数据集进行训练,展示了语义理解和富有表现力的语音生成的强大组合。无论是生成情感虚拟助手还是改进对话式 AI,Meta Spirit LM 的开源方法都为多模式 AI 技术更具创新性和表现力的用途打开了大门。Meta AI 对这一模型的贡献有望激发文本和语音交叉领域的进一步研究和开发,最终带来更自然、更强大的 AI 通信系统。

GitHub地址:https://github.com/facebookresearch/spiritlm

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论