直接开源，阿里达摩院公布下一代工业级语音识别模型

厂商动态 • 来源：IT之家 • 2022年12月22日下午4:06 • 行业资讯

12 月 22 日消息，阿里巴巴达摩院今日发布了新一代语音识别模型 Paraformer，适用于语音输入法、智能客服、车载导航、会议纪要等场景。

直接开源，阿里达摩院公布下一代工业级语音识别模型

据介绍，这是业界首个应用落地的非自回归端到端语音识别模型，在推理效率上最高可较传统模型提升 10 倍，且识别准确率在多个权威数据集上名列第一。目前，该模型于魔搭社区面向全社会开源。

数据显示，配合 GPU 推理，不同版本的 Paraformer 可将推理效率提升 5-10 倍。同时，Paraformer 使用了 6 倍下采样的低帧率建模方案，可将计算量降低近 6 倍，支持大模型的高效推理。

IT之家了解到，阿里达摩院方面表示，Paraformer 是阿里巴巴研发的下一代“杀手锏”级别的语音识别基础模型，未来将广泛应用于会议纪要产品“听悟”、钉钉语音转文字、高德导航等场景。

版权声明：本文内容转自互联网，本文观点仅代表作者本人。本站仅提供信息存储空间服务，所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至1393616908@qq.com 举报，一经查实，本站将立刻删除。

赞 (0)

厂商动态认证作者

0 0

行业资讯

VoxEQ取得了语音分析方面的突破，超越了以前最先进的 “从声音中预测年龄 “的系统

2023 年 2 月 6 日，为了解声音背后的人而提供世界级专有人工智能工具的VoxEQ今天宣布，在 “从声音看年龄 “的预测方面取得了突破性进展，准确率提…

海外观察
2023年2月7日
技术文章

AI 看唇语，在嘈杂场景的语音识别准确率高达75%

事实上，研究表明视觉线索在语言学习中起着关键的作用。相比之下，人工智能语言识别系统主要是建立在音频上。而且需要大量数据来训练，通常需要数万小时的记录。为了研究视觉效果，尤其是嘴部…

音频技术
2023年2月17日
技术文章

低延迟流式语音识别技术在人机语音交互场景中的实践

美团语音交互部针对交互场景下的低延迟语音识别需求，提出了一种全新的低出字延迟流式语音识别方案。本方法将降低延迟问题转换成一个知识蒸馏过程，极大地简化了延迟优化的难度，仅通过一个正则…

大厂Animal
2023年4月14日
技术文章

TwinMind 推出 Ear-3 语音识别模型，现有 ASR 解决方案竞争的有力产品

总部位于加州的语音 AI 初创公司 TwinMind 发布了 Ear-3 语音识别模型，声称其在多项关键指标上均达到了业界领先水平，并扩展了多语言支持。此次发布使 Ear-3 成为…

AIGC
2025年9月12日
技术文章

基于交互式注意力的语音情感识别联合网络 | IEEE ICME 2023论文

研究背景：语音情感识别（Speech Emotion Recognition，SER）指通过让机器检测和识别人类语音信号中如喜悦、愤怒、悲伤、惊讶、恐惧等多种情感类别。为了适用于如…

音频技术
2023年7月14日
技术文章

Meta AI 发布 Omnilingual ASR：一套支持1600 多种语言的开源语音识别模型

如何构建一个能够理解数千种语言（包括许多以前从未有过有效自动语音识别 (ASR )模型的语言）的语音识别系统？ Meta AI 发布了 Omnilingual ASR，这…

AIGC
2025年11月12日

发表回复

登录后才能评论