开源音视频剪辑工具:FunASR-APP ClipVideo

视频剪辑是大家生活中经常使用的工具,现有的视频剪辑软件支持种类丰富的视频裁剪、编辑功能。对于一个长视频,剪辑出里面需要的视频片段,往往需要花费很长的时间来浏览视频,剪辑需要的音视频片段。

ClipVideo剪辑工具结合了达摩院语音实验室在Modelscope社区开源的语音识别相关能力,通过语音转文字,以及根据文字内容,快速裁剪出对应的视频片段,提升音视频剪辑的效率。

仅需通过上传视频、识别、复制所需文字片段、裁剪几个简单的步骤,用户可以快速方便的获取所需的视频片段,并且自动生成字幕。

ClipVideo的demo已经上线到Modelscope创空👇

https://modelscope.cn/studios/damo/funasr_app_clipvideo/summary

相应的工具包也在Github进行了开源👇:

https://github.com/alibaba-damo-academy/FunASR-APP

如何使用ClipVideo?

方法一:通过Modelscope创空间,在线便捷体验ClipVideo的DEMO;

方法二:通过源代码将ClipVideo服务部署在本地。

用户可以通过上述两种方式使用基于Gradio交互的ClipVideo服务,其界面设置如下,按以下三个步骤可以快速获取根据文本截取的视频片段:

(1)上传视频文件,点击“识别”按钮进行识别;

(2)复制识别结果中的文字段落至“待裁剪文本”处;

(3)配置字幕设置(可选),点击“裁剪”或“裁剪并添加字幕”按钮。

对于有批量处理文件需求的用户,ClipVideo支持通过命令行的方式交互,详见Github。

开源音视频剪辑工具:FunASR-APP ClipVideo
图1 通过Gradio服务使用ClipVideo

ClipVideo背后的语音技术

ClipVideo方便准确的裁剪的背后是达摩院语音实验室自研的一系列语音相关模型,包括语音端点检测(Voice Activity Detection, VAD),语音识别(Automatic Speech Recognition, ASR),标点预测(Punctuation Restoration)及时间戳预测(Timestamp Prediction, TP)。ClipVideo按如图2所示的逻辑组成了完整的交互链路。

开源音视频剪辑工具:FunASR-APP ClipVideo
图2 ClipVideo程序流程

为了准确而高效的识别(可能较长的)输入视频,ClipVideo调用了Paraformer-Large-长音频版识别模型,其链路中包含FSMN-VAD模型,支持时间戳预测的BiCIF-Paraformer-Large ASR模型以及CT-Transformer标点预测模型。

其中BiCIF-Paraformer-Large ASR模型是达摩院新一代端到端ASR方案,兼具AED(attention-encoder-decoder)框架的离线ASR准确性与非自回归(non-autoregressive)方案的高效率,并且使用额外的CIF头在多倍帧率的情况下进行帧权重预测从而得到时间戳,省略了传统时间戳预测所需要的额外的hybrid force-alignment模型(图3)。

开源音视频剪辑工具:FunASR-APP ClipVideo
图3 (a)Paraformer模型结构;(b)带有时间戳预测功能的BiCIF-Paraformer的Predictor结构

实验表明,Paraformer-Large模型的ASR准确率与时间戳预测准确率均为优异。

具体参见FunASR论文:https://arxiv.org/pdf/2305.11013.pdf

上述全部模型均已在ModelScope和FunASR社区进行了开源:https://github.com/alibaba-damo-academy/FunASR

上述全部模型均可以在modelscope上体验与下载:https://modelscope.cn/models?page=1&tasks=auto-speech-recognition&type=audio

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

  • AVS3:对称运动矢量差SMVD

    对于帧间预测来说,当视频内容较简单时编码残差的比特数可能会较少而编码运动信息的比特数占比可能会变高,此时编码运动信息的码率成为了压缩率的瓶颈。AVS3中引入了对称运动矢量差(SMV…

    2023年5月10日
  • PeekingDuck:计算机视觉框架

    计算机视觉项目可能会非常令人望而生畏,涉及到各种工具和包,如OpenCV、TensorFlow和PyTorch等等。不仅需要熟悉所涉及的工具和API,还需要正确组合各个包,以使整个…

    2023年6月8日
  • 什么是SDN?SDN控制器介绍

    随着5G、云计算、千兆宽带等技术的普及,传统网络架构也面临着严峻的考验。随着大规模数据中心的发展,其所提供的云计算技术对网络的虚拟化以及资源管理有了更高的要求。SDN以其简洁的策略…

    2023年8月13日
  • 秀场直播demo源码(跑通体验)

    秀场直播场景为社交娱乐模式下的视频互动场景,场景支持多人视频连麦互动,更容易吸引用户参与连麦互动,提升用户的消费意愿及粘性。 本次分享的源码为秀场直播体验 App Android …

    2022年12月29日
  • 语音通话质量是如何保障的?

    一、背景 1.1 语音传输频率支持 常见的语音通话系统包括手机通话、车载或音箱蓝牙通话、微信QQ等即时通讯VOIP通话,以及多人通话的会议、直播等场景。 传统的通话是建立在运营商制…

    2023年2月6日
  • 声学诊断技术现状浅析

    声音作为人们最熟悉的信息之一,具有采集容易,信息含量丰富,检测范围广等特点,因此声音在信息处理领域得到了很多的关注和研究。声学诊断技术就是其中一项重要内容,例如在各种大型机器工厂中…

    2023年3月7日

发表回复

登录后才能评论