LPC/LSP/LSF之间的关系(从线性预测编码到线谱频率)

我们在阅读语音或者数字信号处理的论文书籍时经常会遇到LPC,LSF和LSP这些和线性预测相关的名词,刚接触时容易一头雾水,今天我们就介绍下它们之间的关系。

LPC/LSP/LSF

线性预测编码(Linear Predictive coding ,LPC),是一种用于语音信号压缩和分析的方法。在LPC模型中,语音信号被看作是由若干个共振峰和各自对应的带通滤波器的输出叠加而成的。LPC算法估计线性滤波器的系数,该滤波器可以近似信号的谱包络,这些系数被称为线性预测系数(Linear Predictive Coefficients,LPCs)。线性预测系数一般用于描述这些带通滤波器的特性,包括各自的带宽、增益和位置等。线谱对(Line Spectral Pairs,LSP)是对线性预测系数的直接数学变换,即对线性预测系数进行表征。LSP具有良好的量化特性和高效性的表达性,因此在语音编码中被广泛运用。线谱对中单独的线通常被称为线谱频率(line spectral frequencies, LSF)。

The LPC Model

LPC模型可以视为一个全极点共振模型,它对信号的频谱包络进行建模,将信号的频谱包络表示为一系列极点,每个极点对应于信号的谐振频率。LPC 的最初目标是模拟人声的生成,它是一个source-filter模型,其中source对声带建模,filter则对声道建模,如下图所示。

图片

LPC 模型的阶数是滤波器中的极点数或共振峰数。通常每个共振峰包含两个极点。添加两到四个极点以表示源特性。LPC阶数与音频文件的采样率有关:

  • 10000 Hz – LPC 阶数= 12-14 (males) and 8-10 (females) 
  • 22050 Hz – LPC 阶数 = 24-26 (males) and 22-24 (females)

或者我们可以直接近似计算LPC的阶数N Poles = SR/(F0max*0.25)。The LSP Representation线性预测求解问题不是本文的重点,感兴趣的朋友可以参考以前的文章语音信号线性预测分析。下面我们由LPC系数推导LSF。首先对语音信号进行进行p阶的线性预测分析得到:

图片接着我们定义两个与A(z)相关的p+1阶的多项式P(z)和Q(z),这两个多项式表示人类声道的互连管模型,A(z)是它们的线性组合,即:

图片

它们是在LPC系数上增加额外对声门的闭合状态反馈得到,当声门处于闭合状态时为正,反之为负。于是有:
图片这两个多项式根的集合组成了线谱频率。显然,当LPC系统稳定时,这两个多项式的复数根位于z平面的单位圆上,并且在单位圆上交替排列。如果我们定义多项式复数根集合为θk,那么弧度表示的线谱频率为:

图片

相应的,如果我们知道了线谱频率,可以构造两个多项式如下所示,然后将其代入公式(2)中,就可以得到LPC系数了。

图片

LPC/LSP/LSF Visualization

在人类实际讲话过程声门并不是完全打开或者闭合的。因此,实际共振发生在LSP奇数和偶数两个极端条件之间某个位置的频率。如下图所示,我们在20ms的语音频谱上绘制LSF(奇数用实线表示,偶数虚数表示)显而易见频谱中的峰值往往被狭窄的LSP夹在中间,但频谱中的局部极小值往往没有LSP在其周围。正是这种特性使得LPC在语音分析、语音分类语音编解码领域被广泛应用。图片


参考文献:

[1]. https://ccrma.stanford.edu/~hskim08/lpc/

[2]. https://support.ircam.fr/docs/AudioSculpt/3.0/co/LPC.html

[3]. https://www.zhihu.com/question/421181752/answer/1503404054

[4]. A review of linear spectral pairs

作者:Ryuk | 来源:公众号——语音算法组

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(2)

相关推荐

发表回复

登录后才能评论