情感语音转换技术研究取得新进展

追风者 • 来源：科技日报 • 2022年8月24日上午10:30 • 行业资讯

记者23日从内蒙古大学计算机学院获悉，该院刘瑞研究员所在科研团队与日本大阪大学科学与工业研究所科研团队合作，在国际信号处理领域TOP期刊《IEEE/ACM音频、语音和语言处理会刊》发表了“通过源滤波网络将独立于说话人的情感解耦以进行语音转换”的最新研究成果。

据介绍，情感语音转换（VC）旨在将中性语音转换为情感声音，同时保留语言信息和说话者的身份。科研团队注意到，将情感特征与其他语音信息（例如内容、说话者身份等）解耦是实现高质量转换效果的关键。由于情感语音中声学特征的解耦更加复杂，面向中性语音的特征解耦一直无法得到很好的处理。

科研团队针对情感语音转换的声学特征解耦问题开展研究，提出了一种基于“源—滤波器”模型的情感语音转换系统，具体来说，是为了解决情感语音转换的特征解耦问题而提出一种新颖的基于“源—滤波器”模型的情感VC模型（简称SFEVC），以从音色和音调特征中准确过滤说话人独立的情感线索。SFEVC模型由多通道编码器、情感独立编码器、预训练的说话人相关编码器和相应的解码器组成。所有编码器模块都采用信息瓶颈自动编码器。

为了进一步提高各种情绪的转化质量，研究团队还提出了基于二维VA（激活度—效价）空间的训练策略。实验结果表明，SFEVC模型以及VA训练策略的表现均优于所有基线系统，并基于非平行数据在说话人无关的情感VC场景下实现了最优性能。

版权声明：本文内容转自互联网，本文观点仅代表作者本人。本站仅提供信息存储空间服务，所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至1393616908@qq.com 举报，一经查实，本站将立刻删除。

赞 (0)

追风者认证作者

0 0

行业资讯

Zoom AI Companion 会议摘要数量突破百万

Zoom AI Companion 已达到 100 万次会议摘要里程碑。 Zoom 的生成式 AI 助手自该解决方案推出以来不到两个月就达到了这一数字，已有超过 125,000 个…

CTI观察
2023年10月31日
行业资讯

音视频产业下一个十年会是什么样？

1895年12月28日，一辆火车「驶入」法国巴黎的一家咖啡馆，尽管只是无声的黑白影像，在座观众还是被吓得四散奔逃，这也成为视频产业史上的经典注脚。音频和视频的发展几乎是同时的，留…

元二
2022年11月3日
文章分类

视频服务和流媒体行业 2024 年展望：人工智能仍然是焦点

一月份才刚刚过去，但我们已经开始期待下一届 IBC，它将像往常一样于九月在阿姆斯特丹 RAI 举行。与此同时， Content Everywhere 正在擦亮他们的水晶球，预测未来…

假装是大佬
2024年1月26日
行业资讯

Dot Group 将在 IBC2023 上展示加快数据传输的解决方案 DataSprint

Dot Group 将在 IBC2023（9 月 15-18 日，阿姆斯特丹 RAI，5.A62 展台）上展示其加快数据传输的独特方法。它将展示由 IBM Aspera 支持的面向…

海外观察
2023年7月27日
行业资讯

报告：新的行业编解码器（可能是 H.267）将在本十年末实现标准化

根据 InterDigital 发布的研究，到 2028/2029 年，广播行业可能会实现全新编解码器的标准化。在其报告《无线媒体：无处不在的视频网络》中，该公司表示，新的编解码…

假装是大佬
2025年5月28日
行业资讯

改善座席和客户联络中心体验的 10 个想法

多年来，企业将客户体验和员工体验视为两个不同的概念。在联络中心环境中，良好的员工体验对于降低座席人员流失率至关重要，而客户体验计划则能确保公司保持买家的忠诚度。然而，研究表明，&…

CTI观察
2024年3月7日

发表回复

登录后才能评论