语音识别
-
基于Kaldi的语音识别引擎后端架构设计
1 概述 语音识别技术,是将语音信号转换为文本内容的技术。目前比较流行的语音识别技术主要有两种。一种是基于Kaldi的传统语音识别技术,另一种是目前流行的基于深度学习模型的端到端语…
-
语音识别如何改善电信业客服体验
近年来,电信业出现了大量 AI 驱动的技术,尤其是语音识别和翻译。多语种 AI 虚拟助手、数字人、聊天机器人、语音客服、音频转录等技术正在大幅改变电信业。企业正在呼叫中心部署 AI…
-
语音鉴伪&说话人识别
随着语音处理技术的不断提升,伪造语音的身影在社会生活中出现的更加频繁,一方面语音提醒、语音解锁以及短视频配音等自动化语音技术极大的丰富了人们业余生活,但是随之而来的滥用问题也给生活…
-
低延迟流式语音识别技术在人机语音交互场景中的实践
美团语音交互部针对交互场景下的低延迟语音识别需求,提出了一种全新的低出字延迟流式语音识别方案。本方法将降低延迟问题转换成一个知识蒸馏过程,极大地简化了延迟优化的难度,仅通过一个正则…
-
顺丰科技基于WeNet端到端语音识别方案落地
顺丰作为国内领先的快递物流综合服务商,一直致力于为用户提供更优质、更高效便捷的快递物流服务。顺丰科技作为顺丰集团旗下的科技公司,以科技深耕于物流与供应链行业,通过在大数据、人工智能…
-
语音识别系列之基于脉冲神经网络的语音唤醒
语音唤醒(Keyword Spotting,KWS)是较为初级的语音识别任务,在2014年陈果果的工作[1]后,学界兴起大量研究,业界也获普遍应用,如智能家居(音箱、TV)、智能穿…
-
语音识别资料汇总:常见库和特征对比
语音识别基础 语音数据是一种时间序列数据,它记录了声音在时间轴上的变化。 通常通过麦克风收集,每个时刻的声音信号被采样成数字形式,形成一个时间序列。 语音数据通常需要进行…
-
ICASSP2023论文分享 | DST:基于Transformer的可变形语音情感识别模型
本次分享华南理工大学、优必选研究院等合作在ICASSP2023会议发表的论文《DST: Deformable Speech Transformer for Emotion Reco…
-
B站语音识别技术的落地实践
自动语音识别(Automatic Speech Recognition,ASR)技术目前已大规模落地于B站相关业务场景,例如音视频内容安全审核,AI字幕(C端,必剪,S12直播等)…
-
MFCCA多通道多说话人语音识别模型上线魔搭(ModelScope)
实验室研发的基于多帧跨通道注意力机制(MFCCA)的多说话人语音识别模型近日上线魔搭(ModelScope)社区,该模型在AliMeeting会议数据集上获得当前最优性能。欢迎大家…
-
语音识别系统在嘈杂的工厂环境中控制机器
如今,我们已经习惯使用语音识别软件来控制智能手机和家用电器,但类似的语音控制系统还没有进入嘈杂的工业场所。 这种情况可能很快就会改变,这要得益于德国奥尔登堡弗劳恩霍夫数字媒体技术研…
-
AI 看唇语,在嘈杂场景的语音识别准确率高达75%
事实上,研究表明视觉线索在语言学习中起着关键的作用。相比之下,人工智能语言识别系统主要是建立在音频上。而且需要大量数据来训练,通常需要数万小时的记录。 为了研究视觉效果,尤其是嘴部…
-
如何把语音识别功能加到你的项目中?
如何用2分钟的时间,把语音识别功能加到你的项目中? 早在十年前,就有一些大厂推出了AI开放平台,这里面就包含语音识别的功能。 用法也非常简单,大概的流程就是,先把你的语音录制成文件…
-
Maqsam 推出突破性的阿拉伯语语音识别技术
2023 年 2 月 7 日—— 总部位于中东和北非的领先云通信公司 Maqsam 在阿拉伯语自动语音识别 (ASR) 领域取得了重大的全球突破;也称为语音转文本 (STT)。在准…
-
VoxEQ取得了语音分析方面的突破,超越了以前最先进的 “从声音中预测年龄 “的系统
2023 年 2 月 6 日,为了解声音背后的人而提供世界级专有人工智能工具的VoxEQ今天宣布,在 “从声音看年龄 “的预测方面取得了突破性进展,准确率提…
-
语音识别系列之脉冲神经网络特征工程
人工神经网络(Artificial Neural Network, ANN)中的单个人工神经元是对生物神经元的高度抽象、提炼和简化,模拟了后者的若干基本性质。得益于误差反向传播算法…
-
语音识别系列之CTC延迟削减
连接主义时间分类(Connectionist Temporal Classification, CTC)是自动语音识别(ASR)领域的一项经典技术,它的算法简单而优美,漂亮地解决了…
-
卡内基梅隆大学团队推出适用于数千种语言的语音识别项目
全世界使用的7000到8000种语言中只有一小部分受益于现代语言技术,如语音到文本转录、自动字幕、即时翻译和语音识别。卡内基梅隆大学的研究人员希望将自动语音识别工具的语言数量从大约…
-
网易易盾多级建模方法提升汉语语音识别效果
导读:语音是人类信息沟通的重要途径,同时也是人机交互的重要桥梁,自动语音识别可以表述为通过计算机将人类语音信号转录为书面形式的文字输出的过程。本文分享了网易易盾提出的多级建模单元的…
-
语音识别系列之基于CTC的VAD
语音活动性检测(Voice Activity Dection, VAD)常作为语音识别系统的前端模块过滤非语音段,为后续增强模块提供语音/非语音判据,从而更好的掌握背景噪声特性,进…