AI 看唇语，在嘈杂场景的语音识别准确率高达75%

事实上，研究表明视觉线索在语言学习中起着关键的作用。相比之下，人工智能语言识别系统主要是建立在音频上。而且需要大量数据来训练，通常需要数万小时的记录。

为了研究视觉效果，尤其是嘴部动作的镜头，是否可以提高语音识别系统的性能。Meta 的研究人员开发了 Audio-Visual Hidden Unit BERT (AV-HuBERT)，这是一个通过观看学习和听人们说话来理解语言的框架。

Meta 声称 AV-HuBERT 比使用相同数量转录量的最佳视听语音识别系统准确率高 75%。此外，该公司表示，AV-HuBERT 使用十分之一的标记数据优于以前最好的视听语言识别系统，这使得它可能对音视频数据很少的语言具有潜在的用途。

Meta AI 研究科学家 Abdelrahman Mohamed 表示：“在未来，像 AV-HuBERT 这样的 AI 框架可用于提高语音识别技术在嘈杂的日常条件下的性能，例如，在聚会上或在熙熙攘攘的街头中进行的互动。智能手机中的助手、增强现实眼镜和配备摄像头的智能扬声器，例如 Alexa Echo Show 也可以在这项技术中受益。”

目前，Meta 已将相关代码开源到 GitHub。

1 AV-HuBERT

Meta 并不是第一个将人工智能应用于读唇语问题的公司。2016年，牛津大学的研究人员创建了一个系统，该系统在某些测试中的准确率几乎是经验丰富的唇读者的两倍，并且可以实时地处理视频。2017年，Alphabet 旗下的 DeepMind 在数千小时的电视节目中训练了一个系统，在测试集上可以正确翻译约 50%的单词而没有错误，远高于人类专家的 12.4%。

但是牛津大学和 DeepMind 的模型，与许多后续的唇读模型一样，在它们可以识别的词汇范围内受到限制。这些模型还需要与转录本配对的数据集才能进行训练，而且它们无法处理视频中任何扬声器的音频。

有点独特的是， AV-HuBERT 利用了无监督或自我监督的学习。通过监督学习，像 DeepMind 这样的算法在标记的示例数据上进行训练，直到它们可以检测到示例和特定输出之间的潜在关系。例如，系统可能会被训练在显示柯基的图片时写出单词「dog」。然而，AV-HuBERT 自学对未标记的数据进行分类，处理数据以从其固有结构中学习。

AV-HuBERT 也是多模态的，因为它通过一系列的音频和唇部动作提示来学习感知语言。通过结合说话过程中嘴唇和牙齿的运动等线索以及听觉信息，AV-HuBERT 可以捕捉这两种数据类型之间的细微关联。

最初的 AV-HuBERT 模型在 30 小时的 TED Talk 视频上进行了训练，大大少于之前最先进模型的 31,000 小时的训练时间。但是，尽管在较少的数据上进行了训练，AV-HuBERT 的单词错误率 (WER)（衡量语音识别性能的指标）在可以看到但听不到说话者的情况下略好于旧模型的 33.6%，前者为 32.5%。（WER 的计算方法是将错误识别的单词数除以总单词数；32.5% 转化为大约每 30 个单词出现一个错误。）在 433 小时的 TED 演讲训练进一步将 AV-HuBERT 的 WER 降低到 28.6%。

一旦 AV-HuBERT 很好地了解了数据之间的结构和相关性，研究人员就能够在未标记的数据上进一步训练它。上传到 YouTube 的 2,442 小时名人英语视频，这不仅使 WER 下降到 26.9%，而且 Meta 表示，它表明只需要少量标记数据来训练特定应用程序（例如，当多人同时说话时）或不同语言的框架。

事实上，Meta 声称当背景中播放响亮的音乐或噪音时，AV-HuBERT 在识别一个人的语音方面比纯音频模型好约 50%，当语音和背景噪音同样响亮时，AV-HuBERT 的 WER 为 3.2%，而之前的最佳多模式模型为 25.5%。