音频采样介绍(音视频基础知识)

声音是由物体振动产生的声波。是通过介质(空气或固体、液体)传播并能被人或动物听觉器官所感知的波动现象。最初发出振动(震动)的物体叫声源。声音以波的形式振动(震动)传播。声音是声波通过任何介质传播形成的运动。

声音是一种波。可以被人耳识别的声(频率在20 Hz~20000 Hz之间),我们称之为声音。

音频采样介绍

比如当你在吉他上弹奏G弦时,当触击吉他琴弦时,会产生特定频率和振幅的振动。琴弦前后振动的速率或频率决定了声音的音调。低音符产生低且慢速的频率:高音符产生高且快速的频率。振幅用来测量频率的相对强度,可以大致表示出你所听到的声音的音量。对于诸如吉他这种弦乐器,当你拨动琴弦的时候可以直观地看到信号的频率和振幅。这个振动会导致周围的空气分子移动,这些分子会依次同其临近的空气分子进行碰撞,之后再依次传递这个碰撞,将最初的振动能量不断地向各个方向进行传播。当这些波动传到接收者的耳中时,会带动耳膜以同样的频率和振幅振动。这些振动继续传递到内耳的耳蜗上,此时会将这些振动转换成电信号传给大脑,大脑会处理这个信号并知道“我听到了一个G调声音”。

当我们记录一个声音时,比如诸如钢琴或吉他等乐器所发出的声音,或捕捉其他环境的声音时,一般会使用麦克风设备。麦克风是将机械能量(声波)转换成电能量(电压信号)的转换设备。比如下图展示了话筒内部的高级视图

图片

在话筒的头部设备中所包含的,作为接收声音的一部分,是薄薄的被称为“膜片”的金属薄膜,当你对着话筒讲话时,膜片会根据其感受到的声波进行振动,推动里边的磁铁形成变化的电流,产生同输入信号相同频率和振幅的电流信号。使用示波器我们可以看到电信号的振荡,如下图所示

图片

下面回到之前关于采样的主题上,我们应该如何将这个连续的信号转换成相应的离散式呢?先灌输一点之后会详细介绍的音频信号处理的核心知识,即使用音频生成器,这里们创建了两个不同的音频正弦波,如下图

图片

我们对这个信号的两个方面比较感兴趣。第一个是振幅,它代表了电压的强度或相应信号的强度。虽然可以通过不同坐标系来呈现正弦曲线的变化,但是通常我们会选择-1.0f到1.0f作为坐标系的最大值和最小值。对于这个信号,我们感兴趣的另一个方面是频率,信号频率的测量单位是赫兹(Hz),表示在一定周期内振动完成循环的次数。上图左边的图片展示了1Hz情况下音频信号的一个周期,右边的图片展示了5Hz情况下的信号情况。人类可以听到的音频范围是20Hz~20kHz(20 000Hz),所以图上的这两个信号都是不能被听见的,只是其更适合展示而已。

注意:

虽然人类可以接收的音频范围为20Hz到20kHz,不过这个频率范围也只是理论上的范围。因为几乎没有人可以听见这两个边界频率之外的声音,因为一旦处于嘈杂的环境之下听力就会减弱,同样随着年龄的增长听力也会变弱。如果你在一个摇滚演唱会的现场,相信这个理论上的频率范围的限制也不复存在了。

这里我们提供一些不同频率的声音参照,如钢琴、AO最低音调的频率是27.5Hz和C8,最高频率接近4.1kHz

音频数字化的过程包含一个编码方法,称为线性脉冲编码调制(linear pulse-code modulation),比较常见的说法是Linear PCM或LPCM。这个过程采样或测量一个固定的音频信号,过程的周期率被称为采样率。下图展示了在一秒内对信号进行7次采样及信号的数字化结果图

图片

显然低采样率的数字信号版本无法很好地表现原始数据。播放这样的音频信息通常会用在点击或弹出等动作的情况下。问题主要在于上图所示的采样频率尚无法准确地表示信号原意。我们按图1-6所示的情况再做一次,这次我们提高采样频率。

图片

这次效果显然得到提升,但仍不能准确表示原始信号。不过通过这个示例你可以推测如果不断提高采样的频率,我们就有可能以数字化方式准确表现原始信号的信息。鉴于硬件条件的限制,我们还不能复制出完全一样的效果,但是我们能否找到一个采样频率用于生成足够好的数字呈现效果?答案是肯定的。我们称其为尼奎斯特频率(Nyquistrate)。20世纪30年代,HarryNyquist是贝尔实验室的一名工程师,他精确地捕捉到了一个特定频率,该频率为需要采样对象的最高频率的两倍。比如一个你需要捕捉的音频素材的最高频率为10kHz,你所需要的采样率最起码为20kHz才能得到较好的数字化效果。使用CD录制的音频采样率为44.1kHz,这就意味着能捕捉到的最大频率为22.05kHz,刚刚高过人耳能够识别的频率范围(20kHz)。44.1kHz的采样率可能还不能捕捉到初始资源中的所有频率范围,这意味着采样点可能会受到录制环境的干扰,不过对于人耳的听觉来说,这已经足够好了。

除采样率外,数字音频采样的另一个重要方面是我们能够捕捉到什么精度的音频样本。振幅在线性坐标系中进行测量,所以会有Linear PCM这个术语。用于保存样本值的字节数定义了在线性维度上可行的离散度,同时这个信息也被称为音频的位元深度。为每个样本的整体量化分配过少的位结果信息会导致数字音频信号产生噪声和扭曲。使用位元深度为8的方法可以提供256个离散级别的数据,对于一些音频资源来说,这个级别的采样率已经足够了,但对于大部分音频内容来说还不够高。CD音质的位元深度为16,可以达到65536个离散级别。专业级别的音频录制环境的位元深度可以达到24或更高。(采样率是记录每次采样值数值大小的位数,采样位数越大,所能记录声音的变化度就越细腻,相应的数据量就越大)

对信号进行数字化时,如果能够保留原始、未压缩的数字呈现效果,就是该媒体资源最纯粹的数字形式,但这样做需要大量的存储空间。比如一个44.1kHz、16位LPCM的音频文件每分钟可能要占用10MB的空间(计算在下面)。要数字化一个含12首歌的唱片,每首歌曲时间大概为5分钟的话,共需要近600MB的存储空间。即使在当今的海量存储和高带宽的情况下,这个文件体 积仍然很大。所以我们可以看到不经过压缩的数字音频资源会占用大量的存储空间。

比如音频资源:立体声,44.1khz 16位采样 1分钟需要占用的大小是多少?

44.1 khz * 16位(2byte) * 2 *60s = 10.09M 

如果当前的PCM需要在网络上进行流媒体播放,那么需要168Kb/s的网速才可以正常播放。

作者:Dscore

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

发表回复

登录后才能评论