浅谈音频鉴黄技术

随着互联网的迅猛发展和网络智能化的普及，音视频内容已成为互联网传播的主流形式，各大视频网站、直播平台及短视频应用不断涌现，为亿万用户提供了丰富多样的娱乐和资讯内容。然而，这种繁荣背后也隐藏着不容忽视的问题：不良音频信息的传播日益猖獗，给社会风气、青少年健康成长以及国家安全带来了严重威胁。

传统的音频不良信息检测主要依赖于人工审核，这种方式不仅效率低下，而且容易受到人为因素的影响，导致误判或漏判的情况频发。随着音视频内容数量的激增，单纯依靠人力进行监管已无法满足实际需求。为此，一些企业尝试通过分类或关键字检测等传统算法来开发服务接口，如百度、网易云等服务接口，又如格雷盒子、净网大师等软件，但这些技术仅针对含有不良文字和图片内容的信息进行拦截。作为视频信息的重要一部分，音频的不良信息检测可以起到重要的补充作用，而目前这方面的工作仍需要依靠人工进行审核，在造成人力浪费的同时也存在误判漏判的情况[1]。

技术应用

为此腾讯云安全天御团队成功研发了基于音频的鉴黄系统，并已广泛应用于腾讯云的点播、直播等业务中，显著提高了色情内容的识别与过滤效率。该系统每日能够处理超过亿条的音视频内容，准确识别数十万条色情音视频，准确率高达95%以上。在面对音频内容和场景多样性、信噪比低、音频时长短以及语音质量参差不齐等问题，腾讯云采用了i-vector系统来确保较长音频的准确快速识别，同时利用DNN embedding系统对短音频进行特定检测，两者相互补充，结合多种信道补偿算法，确保了系统的高效性和实时性。此外，为了确保训练模型的准确性，腾讯云在样本标注方面进行了精细化处理，对色情音频进行了多标签区分，如色情尖叫声、喘息声等，以提升模型的识别能力。[2]

声网也提供了一站式智能语音识别方案，开发者只需要在应用中集成声网 Agora SDK，即可让音频在 Agora SD-RTN网络中实时传输的过程中完成语音内容识别与审核。首先通过独家研发的 AI 音频降噪引擎消除背景音，优化音频质量，让语音更加清晰，再通过不同的模块来检测，将语音转化为文字通过内容安全引擎进一步过滤，结合“多意义上下文短文本垃圾检测”、“Deep Learning 垃圾检测”、“规则引擎”和“分类器”等模块，过滤掉音频中涉政、涉黄、暴恐、辱骂等违规内容。人工审核团队可以通过 Web 端后台，对机器审核的结果进行抽查和复审，不断优化机器审核的准确率。[3]

数美科技旗下的全栈式智能内容识别产品“天净”，能够通过智能音频过滤技术提供强有力的音频内容识别支持。智能音频过滤技术采用基于ffmpeg的音频信息动态转码技术、基于深度学习的语音识别技术和智能特色语义分析技术，能够对绝大部分音频格式进行多场景、多维度地检测与识别,其中包括涉政、涉黄、广告导流等诸多类型。[4]

百度内容审核平台的音频内容安全模块[5]声纹检测及文本审核能力，能有效识别色情、娇喘、违禁、辱骂等违规语音内容，支持短音频实时检测、长音频及音频流异步检测等多种方式。

ZEGO即构实时语音内容审核方案，通过娇喘识别技术与RNN音转文技术，可全面检测娇喘等特殊声音以及涉政、涉黄、广告等违规内容。基于即构语音处理引擎，优化语音识别效果。

此外，网易易盾也提出了基于高精度多语种ASR模型、娇喘ASMR等声纹技术能力的自研算法，结合丰富的场景策略经验，能够精准识别色情、敏感、谩骂等违规音频内容[6]。

方法介绍

基于音频的鉴黄技术包括了基于内容的音频分类算法[7]以及基于声音事件检测的算法[8]。

基于内容的音频检测常依赖于诸如梅尔倒谱系数（MFCC）等特性来实现音频的初步文本化，再利用文本分类模型来判断音频内容。这种方法的研究重心主要在于两个子任务：音频文本化，即语音识别和文本分类。如麻旭妍[9]提出了一种结合音频分类技术和模式匹配的方法。在此方法中，首先进行滤波、预处理和端点检测，以实现部分音频的分类与处理，从而进一步提纯音频，降低杂质并优化运算时空。其次，通过对比音频的几个特征参数，选定符合研究需求的MFCC特征参数。最后，利用LBG矢量量化和欧氏距离法进行检测识别。司朋举[10]通过收集和分析色情音频及文字小说，整理构建了色情音频和文本数据集，并融合语音识别与文本分类技术，提出了CA-PAD算法。然而，仅依赖内容的音频分类方法进行不良信息检测存在一些问题。初步语音识别的准确性会直接影响后续音频内容检测的误判率。同时，这种方法忽略了音频信号本身的时域、频域等特征信息。此外，对于包含无文本内容的音频，如色情歌曲、呻吟声或环境音等，基于内容的音频分类检测方法难以有效应用，且无法确定事件发生的具体时间。

音频事件检测（Sound Event Detection，简称SED）[11]是自然语言处理领域的一个重要子任务，它提供了一种有效的声学场景分类方法。该技术涵盖了场景分类、声音事件检测等多个方面，为电影、电视、直播及短视频等特定场景的内容检测提供了出色的解决方案，因此，音频事件检测算法在音频场景分析、自然语言处理、信息检索系统、音频情感分析和软件工程等多个领域均发挥了关键作用。近年来，随着声音事件检测的实际需求不断增长，该技术已引起国内外研究者的广泛关注。其主要目标是识别音频中的特定事件及其起始时间，目前在安全监控、情景分析、视频检索以及智能家居等多个领域均有重要应用。SED的常规做法是采用强标签数据（即同时标注了事件及其发生时间的音频数据）进行有监督学习。然而，这种方法存在标注过程耗时、易受主观因素影响的问题，且难以充分利用现实中大量的未标记音频数据。相对而言，弱标签数据（仅标注事件类别的音频数据）和无标签数据（无任何标注的音频数据）更易获取。鉴于仅依赖弱标签数据在实际应用中存在的诸多挑战，宫法明等[12]利用大量的未标记音频数据，结合少量的强标签和弱标签数据进行辅助训练。通过多层神经网络提取音频的帧和段特征，并迭代优化这些特征所产生的分类损失，从而构建了一个半监督学习的色情音频事件检测模型。

在互联网的广阔天地中，信息传播渠道众多，但不良信息的存在也不容忽视。随着社会对青少年身心健康的日益重视，以及国家对网络内容监管的加强，有效监控软件平台上的不良音频传播显得尤为重要。得益于计算机和人工智能技术的进步，我们现在能够利用智能音频内容审核系统，自动识别和标注音频中的事件及其时间，从而极大地提高了审核效率，减轻了工作人员的负担，同时也为企业节省了人力成本。这一技术的应用，不仅有助于企业更好地遵守互联网内容传播规定，也是维护网络环境清朗、保护青少年身心健康的重要举措，为各方的长远发展提供了坚实保障。

参考文献：

[1] 音频不良信息检测关键技术研究与应用.
[2] https://cloud.tencent.com/developer/article/1357559
[3] https://www.infoq.cn/article/ky2XV6ZF6LMhUKTUYMx9
[4] https://zhuanlan.zhihu.com/p/340214746
[5] https://ai.baidu.com/tech/speech/speechcensoring
[6] https://dun.163.com/product/audio-detection
[7] Text classification: a recent overview
[8] Sound event detection in real life audio using perceptual linear predictive feature with neural network
[9] 基于MFCC的不良音频检测的研究
[10] 面向色情音频检测的内容分类研究
[11] BLSTM-HMM hybrid system combined with sound activity detection network for polyphonic Sound Event Detection
[12] 基于改进教师-学生模型的色情音频事件检测