机器聆听：使语音识别系统更具包容性

音频技术 • 来源：21dB声学人 • 2024年5月8日上午10:14 • 行业资讯

与亚马逊的Alexa、苹果的Siri和Google Assistant等语音技术的交互可以提高效率和生产力来让生活更轻松。但是，在交互过程中生成和理解语音的错误很常见。当使用这些设备时，说话者通常会将他们的语音从正常模式转变为更响亮、更慢的音域，称为技术导向语音。

对技术导向语音的研究通常集中在美国英语的主流变体上，而不考虑更容易被技术误解的说话者群体。在AIP Publishing代表美国声学学会出版的JASA Express Letters中，来自谷歌研究院、加州大学戴维斯分校和斯坦福大学的研究人员希望解决这一差距。

一个经常被语音技术误解的群体是说非裔美国人英语（AAE）的人。由于 AAE 使用者的自动语音识别错误率可能更高，因此可能会导致技术中语言歧视的下游影响。

“在所有自动语音识别系统中，黑人每十个单词中就有四个被错误地转录，”合著者Zion Mengesha说。“这影响了每个使用语音技术的机构中非裔美国人英语使用者的公平性。

“我们看到了一个机会，通过与黑人用户交谈并了解他们在使用语音技术时的情绪、行为和语言反应来更好地了解这个问题，”合著者Courtney Heldreth说。

该团队设计了一个实验来测试AAE说话者在想象与语音助手交谈时如何调整他们的语音，与与朋友，家人或陌生人交谈相比。该研究通过比较语速和音调变化，测试了熟悉的人、不熟悉的人和语音助手指导的语音条件。研究参与者包括19名被认定为黑人或非裔美国人的成年人，他们遇到过语音技术问题。每个参与者都向语音助手提出了一系列问题。同样的问题重复着，就好像对一个熟悉的人说话，又对一个陌生人说话。每个问题总共记录了153个录音。

对录音的分析表明，与与另一个人交谈相比，说话者在与语音技术交谈时表现出两种一致的调整：语速较慢，音调变化较小（更单调的语音）。

“这些发现表明，人们有如何与技术交谈的心智模型，”合著者Michelle Cohn说。“鉴于语音识别系统的差异，他们参与的一套’模式’可以更好地理解。”

还有其他群体被语音技术误解，例如第二语言使用者。研究人员希望扩大人机交互实验中探索的语言种类，并解决技术障碍，以便它能够支持每个想要使用它的人。

信息源于：AIP Publishing