丰桥技术科学大学(Toyohashi University of Technology)信息技术教育中心(CITE,Center for IT-Based Education)助理教授Yuya Hosoda开发了一种从通话音频中估计人类声带振动音高的方法。
该方法通过对复平面上语音的振幅和相位谱提取的特征量进行积分来估计基音。实验结果表明,该方法不仅可以有效地处理受通信标准限制的通话音频,而且可以在有背景噪声的环境下保持良好的鲁棒性。这项研究发表在《IEEE/ACM Transactions on Audio, Speech, and Language Processing》上。
帕金森病等神经退行性疾病的一种早期症状是构音障碍,为了防止疾病的加重,对构音障碍进行早期诊断是可取的。
构音障碍的特征是声音颤抖和呼吸紊乱。虽然临床测试是根据病人的声音来诊断症状的,但这样既耗时又费力。此外,在山区等偏远地区进行面对面诊断也很困难。因此,在本研究中,其目标是开发一种通过通信设备进行查房、通过远程医疗自动诊断构音障碍的系统。
在发声过程中出现异常的构音障碍患者中,其中发声是由喉咙和口腔中肺部释放的空气产生的声带振动产生的。在这项研究中,我们的目的是估计振动周期(音高,pitch),以诊断这些声带振动的状况。
目前,基于语音频率分析得到的幅度谱特征量,设计了一种对背景噪声具有较好的鲁棒性的基音测量方法。然而,由于通信标准的限制,通过远程医疗的呼叫音频缺乏一些期望的振幅频谱。因此,从具有简化信息的振幅谱中提取特征量可能导致基音估计误差。
在这项研究中,我们提出了一种从频率分析的副产物相位谱中提取附加特征量的方法。推导出了在时间和频率方向上相移与基音的关系方程,研究人员已经证实,将观测到的相移代入关系方程可以估计基音。
基于这一发现,研究人员从相谱中提取新的特征量来定量评估与关系方程的拟合程度。最后,通过在复平面上对从振幅谱中提取的特征量进行积分,研究人员补偿了在呼叫音频的基音估计中出现的特征量的缺失,同时保持了对背景噪声的鲁棒性。
在以往仅使用幅度谱的研究中,由于频带限制减少了信息量,估计出的基音高于原始值。然而,在该方法中,利用与振幅和相位谱相关的特征量,可以准确地从呼叫音频中估计出基音。
此外,总间距误差(GPE,gross pitch error)是一项表示出现错误的片段百分比的评估指标,之前研究的42.2%提高到9.5%。此外,对于有背景噪声的呼叫音频,该方法的GPE达到了15.2%,具有较好的鲁棒性。
虽然本研究的重点是音高估计来检测声带振动的异常,但呼吸和口腔异常也会导致构音障碍。为了检测这些症状,研究人员已经设计了从幅度谱中提取特征量的方法。然而,相谱的使用还没有得到充分的验证。
在未来,研究人员也将从其他情况下的相谱中提取相关的特征量。此外,通过综合分析这些特征量,目标是开发一个构音障碍诊断系统,可以有效地与远程医疗一起工作。
信息源于:medicalxpress
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。