语音识别
-
Moonshine:一种快速、准确、轻量级的语音转文本模型,用于边缘设备转录和语音命令处理
语音识别技术已成为各种现代应用中的关键,尤其是实时转录和语音激活命令系统。它对于听力障碍人士的辅助工具、演示期间的实时字幕以及智能设备中的语音控制至关重要。这些应用需要即时、精确的…
-
Interspeech2024|基于离散语音单元的流式解码器语音识别
在当今数字化时代,大模型以其强大的数据处理和复杂问题解析能力,正深刻改变着我们的现实生活。以GPT4o等为例,大模型已经具备了令人惊叹的全双工语音交互能力,其中实时交互是语音对话的…
-
使用 LLM 评估和改进自动转录质量
转录是现代联络中心活动的重要组成部分,自动语音识别(ASR)系统在很大程度上为其提供了便利。然而,这些工具在准确性和可靠性方面可能存在不足。因此,评估转录质量变得势在必行,而传统的…
-
机器聆听:使语音识别系统更具包容性
与亚马逊的Alexa、苹果的Siri和Google Assistant等语音技术的交互可以提高效率和生产力来让生活更轻松。但是,在交互过程中生成和理解语音的错误很常见。当使用这些设…
-
谷歌发布基于声学建模的无限虚拟房间增强现实鲁棒语音识别技术
声学室模拟允许在AR眼镜上以最少的真实数据进行训练,用于开发鲁棒的语音识别声音分离模型。 随着增强现实(AR)技术的强大和广泛应用,它能应用到各种日常情境中。我们对AR技术的潜能感…
-
Trust Stamp面部生物识别层解决了深度伪造的语音漏洞
Trust Stamp推出了一项计划,旨在帮助金融机构通过多因素生物识别身份验证快速跟踪其深度造假检测能力。人脸生物识别公司的一份新闻稿将Trust Stamp的生物识别人脸认证产…
-
自动语音识别(ASR)常用的 ASR API 和提供商
自动语音识别(ASR),又称语音转文字,是一种能让机器将口语转换成书面文字的技术。它在虚拟助手、转录服务和声控界面等各种应用中日益普及。 ASR 的核心是依靠复杂的算法和机器学习模…
-
CHiME-8多通道远场语音识别Baseline介绍
语音领域每年都有很多比赛,每个比赛都有自己的侧重点,其中CHiME系列比赛的侧重点就是多通道远场语音识别,与其他的语音识别比赛有所区别的是,CHiME提供分布式麦克风和麦克风阵列数…
-
面向多种阵列拓扑的多通道语音识别模型:自动通道选择和空间特征融合 | ICASSP2024
多通道语音识别(Multi-channel ASR)的目标是识别由多个麦克风(如麦克风阵列)拾取的多通道音频,相较于标准的单通道语音识别,多通道语音识别通过有效利用多通道信号提供的…
-
波士顿大学计算机科学教授获得9.8万美元资助以改进语音识别技术
波士顿大学大都会学院计算机科学系的助理教授Shengzhi Zhang获得了思科98,197美元的资助,该项目将通过改进处理错误识别输入的方式来帮助构建更好的语音识别系统。 Zha…
-
接入语音翻译SDK,快速实现实时语音识别和文本翻译识别功能
本文介绍如何接入 ZegoRealtimeTranslation SDK(提供语音翻译SDK),实现“边说话边输出文字”等无障碍沟通效果。ZegoRealtimeTranslati…
-
ASRU2023 | BA-MoE: 基于边界感知混合专家的中英混杂语音识别
语种混杂(Code-mix)是一句话中交替使用两种或多种语言的行为,在当今全球化和文化多样的世界中变得越来越普遍。这种语言现象对语音和语言处理任务,特别是语音识别(ASR)形成了新…
-
端到端语音识别中的建模单元
端到端语音识别中不同的建模单元有着不同的应用场景,本文对中英文常用的一些建模方式以及如何生成对应的标签进行总结,希望对大家有所帮助。 I. 中文建模单元 音素(phoneme) 音…
-
西工大 ASLP 实验室在 WeNet 中开源基于 CPPN 的神经网络热词增强语音识别方案
语境偏置(Contextual biasing)旨在将语境知识集成到语音识别(ASR)系统中,以提高在相关领域词汇(俗称“热词”)上的识别准确率。在许多ASR场景中,待识别语音中可…
-
OOONA 和 AudioShake 联手提高 ASR 转录准确性
2023 年 9 月 6 日,为媒体本地化行业提供专业管理和制作工具的全球供应商 OOONA 今天宣布与 AudioShake 建立战略合作伙伴关系,以提高自动语音识别(ASR)转…
-
基于对比学习的一体化模型 | Interspeech2023
导读:Interspeech 是国际语音通信协会(ISCA)举办的年度会议,也是全球最大、最全面的专注于语音通信领域的学术盛会。2023 届 Interspeech 会议于 202…
-
人工智能的进步,提升了芯片语音识别能力
21dB声学人据悉,IBM和加州大学(California universities)旧金山和伯克利分校在语音识别技术方面的独立研究,为患有声带麻痹和失语症的患者带来了好消息。 I…
-
人工智能仅通过打字声音即可识别并窃取信息准确率高达95%
研究发现,AI经发展到可以透过聆听视讯软件Zoom和其他录音设备上录制的键盘打字声,来辨识出输入电脑的资讯和密码。且根据实测,精准度最高可达到95%。 据报导,这项研究发表于IEE…
-
基于交互式注意力的语音情感识别联合网络 | IEEE ICME 2023论文
研究背景:语音情感识别(Speech Emotion Recognition,SER)指通过让机器检测和识别人类语音信号中如喜悦、愤怒、悲伤、惊讶、恐惧等多种情感类别。为了适用于如…
-
基于Kaldi的语音识别引擎后端架构设计
1 概述 语音识别技术,是将语音信号转换为文本内容的技术。目前比较流行的语音识别技术主要有两种。一种是基于Kaldi的传统语音识别技术,另一种是目前流行的基于深度学习模型的端到端语…