语音识别

技术文章

基于交互式注意力的语音情感识别联合网络 | IEEE ICME 2023论文

研究背景：语音情感识别（Speech Emotion Recognition，SER）指通过让机器检测和识别人类语音信号中如喜悦、愤怒、悲伤、惊讶、恐惧等多种情感类别。为了适用于如…

音频技术
2023年7月14日
技术文章

基于Kaldi的语音识别引擎后端架构设计

1 概述语音识别技术，是将语音信号转换为文本内容的技术。目前比较流行的语音识别技术主要有两种。一种是基于Kaldi的传统语音识别技术，另一种是目前流行的基于深度学习模型的端到端语…

音频技术
2023年7月6日
应用场景

语音识别如何改善电信业客服体验

近年来，电信业出现了大量 AI 驱动的技术，尤其是语音识别和翻译。多语种 AI 虚拟助手、数字人、聊天机器人、语音客服、音频转录等技术正在大幅改变电信业。企业正在呼叫中心部署 AI…

音频技术
2023年6月28日
技术文章

语音鉴伪&说话人识别

随着语音处理技术的不断提升，伪造语音的身影在社会生活中出现的更加频繁，一方面语音提醒、语音解锁以及短视频配音等自动化语音技术极大的丰富了人们业余生活，但是随之而来的滥用问题也给生活…

音频技术
2023年5月15日
技术文章

低延迟流式语音识别技术在人机语音交互场景中的实践

美团语音交互部针对交互场景下的低延迟语音识别需求，提出了一种全新的低出字延迟流式语音识别方案。本方法将降低延迟问题转换成一个知识蒸馏过程，极大地简化了延迟优化的难度，仅通过一个正则…

大厂Animal
2023年4月14日
技术文章

顺丰科技基于WeNet端到端语音识别方案落地

顺丰作为国内领先的快递物流综合服务商，一直致力于为用户提供更优质、更高效便捷的快递物流服务。顺丰科技作为顺丰集团旗下的科技公司，以科技深耕于物流与供应链行业，通过在大数据、人工智能…

大厂Animal
2023年3月31日
技术文章

语音识别系列之基于脉冲神经网络的语音唤醒

语音唤醒（Keyword Spotting，KWS）是较为初级的语音识别任务，在2014年陈果果的工作[1]后，学界兴起大量研究，业界也获普遍应用，如智能家居（音箱、TV）、智能穿…

音频技术
2023年3月20日
技术文章

语音识别资料汇总：常见库和特征对比

语音识别基础语音数据是一种时间序列数据，它记录了声音在时间轴上的变化。通常通过麦克风收集，每个时刻的声音信号被采样成数字形式，形成一个时间序列。语音数据通常需要进行…

音频技术
2023年3月18日
技术文章

ICASSP2023论文分享 | DST：基于Transformer的可变形语音情感识别模型

本次分享华南理工大学、优必选研究院等合作在ICASSP2023会议发表的论文《DST: Deformable Speech Transformer for Emotion Reco…

音频技术
2023年3月10日
技术文章

B站语音识别技术的落地实践

自动语音识别（Automatic Speech Recognition，ASR）技术目前已大规模落地于B站相关业务场景，例如音视频内容安全审核，AI字幕（C端，必剪，S12直播等）…

大厂Animal
2023年3月7日
技术文章

MFCCA多通道多说话人语音识别模型上线魔搭（ModelScope）

实验室研发的基于多帧跨通道注意力机制（MFCCA）的多说话人语音识别模型近日上线魔搭（ModelScope）社区，该模型在AliMeeting会议数据集上获得当前最优性能。欢迎大家…

音频技术
2023年2月22日
应用场景

语音识别系统在嘈杂的工厂环境中控制机器

如今，我们已经习惯使用语音识别软件来控制智能手机和家用电器，但类似的语音控制系统还没有进入嘈杂的工业场所。这种情况可能很快就会改变，这要得益于德国奥尔登堡弗劳恩霍夫数字媒体技术研…

音频技术
2023年2月21日
技术文章

AI 看唇语，在嘈杂场景的语音识别准确率高达75%

事实上，研究表明视觉线索在语言学习中起着关键的作用。相比之下，人工智能语言识别系统主要是建立在音频上。而且需要大量数据来训练，通常需要数万小时的记录。为了研究视觉效果，尤其是嘴部…

音频技术
2023年2月17日
技术文章

如何把语音识别功能加到你的项目中？

如何用2分钟的时间，把语音识别功能加到你的项目中？早在十年前，就有一些大厂推出了AI开放平台，这里面就包含语音识别的功能。用法也非常简单，大概的流程就是，先把你的语音录制成文件…

音频技术
2023年2月17日
文章分类

Maqsam 推出突破性的阿拉伯语语音识别技术

2023 年 2 月 7 日—— 总部位于中东和北非的领先云通信公司 Maqsam 在阿拉伯语自动语音识别 (ASR) 领域取得了重大的全球突破；也称为语音转文本 (STT)。在准…

海外观察
2023年2月8日
行业资讯

VoxEQ取得了语音分析方面的突破，超越了以前最先进的 “从声音中预测年龄 “的系统

2023 年 2 月 6 日，为了解声音背后的人而提供世界级专有人工智能工具的VoxEQ今天宣布，在 “从声音看年龄 “的预测方面取得了突破性进展，准确率提…

海外观察
2023年2月7日
技术文章

语音识别系列之脉冲神经网络特征工程

人工神经网络（Artificial Neural Network, ANN）中的单个人工神经元是对生物神经元的高度抽象、提炼和简化，模拟了后者的若干基本性质。得益于误差反向传播算法…

音频技术
2023年2月7日
技术文章

语音识别系列之CTC延迟削减

连接主义时间分类（Connectionist Temporal Classification, CTC）是自动语音识别（ASR）领域的一项经典技术，它的算法简单而优美，漂亮地解决了…

音频技术
2023年1月17日
行业资讯

卡内基梅隆大学团队推出适用于数千种语言的语音识别项目

全世界使用的7000到8000种语言中只有一小部分受益于现代语言技术，如语音到文本转录、自动字幕、即时翻译和语音识别。卡内基梅隆大学的研究人员希望将自动语音识别工具的语言数量从大约…

音频技术
2023年1月12日
技术文章

网易易盾多级建模方法提升汉语语音识别效果

导读：语音是人类信息沟通的重要途径，同时也是人机交互的重要桥梁，自动语音识别可以表述为通过计算机将人类语音信号转录为书面形式的文字输出的过程。本文分享了网易易盾提出的多级建模单元的…

大厂Animal
2023年1月10日