研究人员带来分析未标记音频和视频数据的新技术

来自麻省理工学院(MIT)、麻省理工-IBM沃森人工智能实验室(MIT-IBM Watson AI Lab)、IBM研究院(IBM Research)和其他机构的研究人员开发了一种用于分析未标记音频和视觉数据的新技术，可以提高用于语音识别和目标检测等应用程序的机器学习模型的性能。这项工作首次结合了自我监督学习，对比学习和掩蔽数据建模两种架构，以努力扩展机器学习任务，如单模态和多模态数据中的事件分类，而无需注释，从而复制人类如何理解和感知我们的世界。

“人类知识的很大一部分是以自我监督的方式学习的，因为我们并不总是得到监督信号，我们希望使机器学习模型具有相同的能力。”麻省理工学院计算机科学与人工智能实验室（CSAIL）的博士后Yuan Gong说。

“因此，另一种说法是，自我监督学习通常构成初始模型的基础，因为它可以学习大量未标记的数据。然后，如果你愿意，你可以使用经典的监督学习或强化学习来微调模型。”麻省理工学院高级研究科学家、麻省理工学院-IBM沃森人工智能实验室成员Jim Glass说。

该技术称为对比视听掩蔽自动编码器（CAV-MAE），是一种神经网络，可以通过在大型YouTube数据集上进行训练，学习从声学和视觉数据中提取有意义的潜在表示并将其映射到高维空间10秒剪辑。研究人员表示，该技术比以前的方法更有效，因为它以其他方法没有的方式明确地模拟了音频和视频数据之间的关系。

加入Gong和Glass研究的是麻省理工学院的研究生Andrew Rouditchenko和Alexander H. Liu，德克萨斯大学奥斯汀分校的David Harwath PhD’18，以及MIT-IBM Watson AI实验室成员Leonid Karlinsky和Hilde Kuehne。Kuehne还隶属于法兰克福歌德大学（Goethe University Frankfurt）。该方法最近在国际学习表示会议（International Conference on Learning Representations）上提出。

联合和协调的办法

CAV-MAE通过“通过预测学习”和“通过比较学习”来工作，Gong说。掩蔽数据建模或预测方法将视频与其协调的音频波形一起获取，将音频转换为频谱图，并屏蔽两者的75%。未屏蔽的数据被标记化，然后输入单独的音频和视频编码器，然后进入联合编码器/解码器，要求模型恢复丢失的数据。然后使用生成的重建预测与原始视听组合之间的差异来训练模型以获得更好的性能。这方面的一个例子是覆盖钢琴视频的一部分和钢琴音乐频谱图的一部分，然后要求模型尝试确定屏蔽的输入。不幸的是，这种方法可能无法捕获视频和音频对之间的关联，而对比学习利用了这一点，但可能会丢弃一些模态独特的信息，例如视频中的背景。

对比学习旨在映射彼此接近的相似表示。例如，该模型将尝试将不同鹦鹉的不同视频和音频数据彼此靠近放置，并远离吉他演奏的视频和音频对。与掩蔽自动编码类似，视听对被传递到单独的模态编码器中；但是，在模型执行池化和对比度损失之前，音频和视频组件分别保存在联合编码器中。通过这种方式，对比学习试图识别每个音频或视频中与另一个最相关的部分。例如，如果视频显示某人说话，并且相应的音频剪辑包含语音，则自动编码器将学习将说话者的嘴巴动作与正在说的话相关联。然后，它将调整模型的参数，以便这些输入彼此靠近。最终，CAV-MAE方法将这两种技术与多个前向数据流相结合，第一步是掩码，特定于模态的编码器和层归一化，因此表示强度相似。

“我们想将提出的CAV-MAE与仅使用掩蔽自动编码器训练的模型和仅使用对比学习训练的模型进行比较，因为我们想证明，通过结合掩蔽自动编码器和对比学习，我们可以获得一些性能改进。”Gong说，“结果支持我们的假设，即有明显的改善。”

研究人员使用标准AudioSet（20K和2M）和VGGSound数据集（标记的、真实的短片段，可能包括多种声音），在视听检索和视听事件分类任务上，将CAV-MAE以及他们的方法在没有对比损失或掩码自编码器的情况下与其他最先进的方法进行了测试。视听检索是指模型看到查询对的音频或视觉部分并搜索缺失的部分；事件分类包括在数据中识别动作或声音，如人唱歌或汽车驾驶。

总的来说，他们发现对比学习和隐藏数据建模是互补的方法。与具有可比计算能力的模型相比，CAV-MAE的事件分类性能比之前的技术（完全自监督预训练）高出约2%，更令人印象深刻的是，CAV-MAE与具有行业级计算资源的模型保持同步或超过了其性能。该团队的模型与只有相对损失的训练模型的排名相似。令人惊讶的是，该团队表示，将多模态数据纳入CAV-MAE预训练中，通过监督学习(使用一些标记数据)大大提高了单模态表示的微调和在纯音频事件分类任务上的性能。这表明，与人类一样，多模态信息甚至为只有音频或视觉的任务提供了额外的“软标签”增强；例如，它帮助模型了解它是在寻找电吉他还是原声吉他——一个更丰富的监督信号。

“我认为人们喜欢这种结合不同音频和视觉流信息的模式。它有对比和重建损失，与用相似数据评估过的模型相比，它显然在这些任务中做得非常好。”Glass说。

在此基础上，“一个特殊的事情是，我们的模型可以同时进行分类和检索，这是不常见的，”Gong补充说。“在这项工作之前，这些方法是单独使用的，但在这项工作之后，我看到大多数视听学习框架都隐式或显式地使用收缩损失和掩码自编码器。”

将自我监督的视听学习带入我们的世界

研究人员认为，他们的对比性视听掩码自编码器（CAV-MAE）的贡献是一个重要的里程碑，是应用的一个进步，这些应用正日益从单一模态转向多模态，需要或利用视听融合。他们假设有一天它可以用于运动、教育、娱乐、机动车辆和公共安全等领域的动作识别，有一天，它也可能扩展到其他模式。目前，“这只适用于视听数据可能是一个限制，但我们的目标是多模态学习，这是机器学习的趋势，”Gong说。“作为人类，我们有多种形态——我们有嗅觉、触觉——除了视听之外还有更多的东西。所以，当我们试图构建人工智能时，我们试图以某种方式模仿人类，不一定是从生物学的角度，这种方法可以（潜在地）推广到其他未探索的模式。”

随着机器学习模型继续在我们的生活中发挥越来越重要的作用，像这样的技术将变得越来越有价值。

这项研究得到了MIT-IBM Watson AI实验室的支持。

信息源于：news.mit.edu