开源上新｜FunASR多语言离线文件转写软件包

FunASR是由通义实验室开源的语音识别框架，集成了语音端点检测、语音识别、标点预测等领域的工业级模型的训练和部署，吸引了众多开发者参与体验和开发。

为了支持用户便捷高效的集成语音AI能力，FunASR社区推出了服务部署社区软件包，支持Docker化部署，多路请求。面对社区用户的需求与反馈，本次推出多语言离线文件转写软件包，通过SenseVoiceSmall模型可实现中、英、日、粤、韩多语言的服务部署，同时具备多种语音理解能力，涵盖了语音识别（ASR）、语言识别（LID）、情感识别（SER）以及音频事件检测（AED），可以进行高精度、高效率与高并发的文件转写。

开源上新｜FunASR多语言离线文件转写软件包 — 图1 FunASR社区软件包发布路线图

FunASR社区软件包地址：

https://github.com/modelscope/FunASR/blob/main/runtime/readme_cn.md

‍多语言离线文件转写软件包

上图中，FSMN-VAD为语音端点检测模型，用于检测输入音频中有效语音的起止时间点信息，从而将输入的长音频转化为短音频，将检测出来的有效音频片段输入声学模型进行识别，减少无效语音带来的识别错误。SenseVoiceSmall为声学模型，用于将输入的音频转化成文字序列，支持中、英、日、粤、韩五种语言，同时具备多种语音理解能力，涵盖了语音识别（ASR）、语言识别（LID）、情感识别（SER）以及音频事件检测（AED）。

SenseVoice-Small旨在提供全面的语音处理功能，从而支持构建更复杂的语音交互系统，是一款仅含编码器的轻量级基础语音模型，设计用于快速语音理解。它可以快速处理语音数据，并在有需要时迅速做出响应，适用于对延迟敏感的应用场合，如实时语音交互系统。

软件包安装使用指南

精简操作，即刻安装，FunASR软件包当前已开源。

>>>步骤：

第零步：docker安装（可选）

# 如果您已安装docker，忽略本步骤

curl -O https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/shell/install_docker.sh；sudo bash install_docker.sh

第一步：镜像启动

sudo docker pull \  registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6mkdir -p ./funasr-runtime-resources/modelssudo docker run -p 10095:10095 -it --privileged=true \  -v $PWD/funasr-runtime-resources/models:/workspace/models \  registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6

第二步：服务端启动

cd FunASR/runtime; nohup bash run_server.sh --model-dir iic/SenseVoiceSmall-onnx > log.out 2>&1 &

第三步：测试与使用

等待服务端启动后，可以用客户端进行测试，支持python/c++/java/html网页等语言。支持多种音频格式输入（.wav, .pcm, .mp3等），也支持视频输入(.mp4等)。

客户端下载地址：https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/sample/funasr_samples.tar.gz我们以html网页版本client为例，进行说明：在浏览器中打开samples/html/static/index.html，出现如下页面，输入部署服务器ip与端口号后，可以直接进行体验。