开源上新|FunASR多语言离线文件转写软件包

FunASR是由通义实验室开源的语音识别框架,集成了语音端点检测、语音识别、标点预测等领域的工业级模型的训练和部署,吸引了众多开发者参与体验和开发。

为了支持用户便捷高效的集成语音AI能力,FunASR社区推出了服务部署社区软件包,支持Docker化部署,多路请求。面对社区用户的需求与反馈,本次推出多语言离线文件转写软件包通过SenseVoiceSmall模型可实现中、英、日、粤、韩多语言的服务部署,同时具备多种语音理解能力,涵盖了语音识别(ASR)、语言识别(LID)、情感识别(SER)以及音频事件检测(AED),可以进行高精度、高效率与高并发的文件转写。

开源上新|FunASR多语言离线文件转写软件包
图1 FunASR社区软件包发布路线图

FunASR社区软件包地址:

https://github.com/modelscope/FunASR/blob/main/runtime/readme_cn.md

多语言离线文件转写软件包

开源上新|FunASR多语言离线文件转写软件包
图2 多语言离线文件转写服务架构图

上图中,FSMN-VAD为语音端点检测模型,用于检测输入音频中有效语音的起止时间点信息,从而将输入的长音频转化为短音频,将检测出来的有效音频片段输入声学模型进行识别,减少无效语音带来的识别错误。SenseVoiceSmall为声学模型,用于将输入的音频转化成文字序列,支持中、英、日、粤、韩五种语言,同时具备多种语音理解能力,涵盖了语音识别(ASR)、语言识别(LID)、情感识别(SER)以及音频事件检测(AED)。

SenseVoice-Small旨在提供全面的语音处理功能,从而支持构建更复杂的语音交互系统,是一款仅含编码器的轻量级基础语音模型,设计用于快速语音理解。它可以快速处理语音数据,并在有需要时迅速做出响应,适用于对延迟敏感的应用场合,如实时语音交互系统。

软件包安装使用指南

精简操作,即刻安装,FunASR软件包当前已开源

>>>步骤:

第零步:docker安装(可选)

# 如果您已安装docker,忽略本步骤

curl -O https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/shell/install_docker.sh;sudo bash install_docker.sh

第一步:镜像启动

sudo docker pull \  registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6mkdir -p ./funasr-runtime-resources/modelssudo docker run -p 10095:10095 -it --privileged=true \  -v $PWD/funasr-runtime-resources/models:/workspace/models \  registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6

第二步:服务端启动

cd FunASR/runtime; nohup bash run_server.sh --model-dir iic/SenseVoiceSmall-onnx > log.out 2>&1 &

第三步:测试与使用

等待服务端启动后,可以用客户端进行测试,支持python/c++/java/html网页等语言。支持多种音频格式输入(.wav, .pcm, .mp3等),也支持视频输入(.mp4等)。

客户端下载地址:https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/sample/funasr_samples.tar.gz我们以html网页版本client为例,进行说明:在浏览器中打开samples/html/static/index.html,出现如下页面,输入部署服务器ip与端口号后,可以直接进行体验。

开源上新|FunASR多语言离线文件转写软件包
html网页客户端体验

同时我们在云端部署了FunASR离线文件转写、实时语音听写等服务,用户可以直接在浏览器中进行体验:https://www.funasr.com/#/

‍▎特别致谢

与开发者们共力同工奔赴开源未来!FunASR离线文件转写软件包归属于FunASR开源项目。在项目开源过程中,众多志同道合的社区开发者们参与进来,与我们共同努力,共享知识、互相支持,形成一种紧密的合作关系,推动着开源项目的发展。

在此特别感谢:赵明(爱医声)、刘柏基(元象唯思)、马勇(北京理工大学)、朱云峰(上海电信)、张旭(云南日报)、杜靖(魔珐科技)、邱威(广州荔支网路)、郭欢(卡斯柯)、徐怀移(顶顶通)、王涛(blt)、王振平等。

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论