云/移动端媒体处理技术分享

今天在部门内做了一个分享，我整理了一下也分享给大家。文章的内容是我在上家单位做的云剪辑和短视频处理用到的一些技术和架构。

先来说一下当初做这个跨平台媒体处理的一个指标吧,当初是对标阿里云媒体处理服务。当初我们对接阿里云媒体处理的合成效率是 1:1。后面我单独基于 FFmpeg 重新设计了一个媒体处理的架构。最终上线，我们的媒体处理效率是超出了预期的。

媒体处理指标:

上图所示为整个媒体处理的一个架构设计，主要分为 4 层

第一层：定义为应用对接层，大致可以分为 Android、IOS、Linux 三个对接平台

第二层：定义为 SDK 层，主要是基于当前使用平台的开发语言进行开发，将核心处理层在各平台上的一个 API 调用封装

第三层: 定义为媒体处理核心层，主要是用于音视频的编辑、转码、编解码、mp4 封装以 c++ 语言开发，具备跨平台的能力

第四层: 定义为系统平台层，在各个平台需要用到的原生库和跨平台的音视频处理开源库。

云剪辑不涉及渲染，所有处理基于 FFmpeg API 进行。

Web : 通常指运行在PC-浏览器上的程序

小程序: 指在微信生态上运行的小程序

发起媒体处理: 通过 HTTP-POST JSON 协议将需要处理的媒体资源按规定的定义传输

调度服务: 接收业务服务的 request task，将 request task 提交到空闲媒体处理服务器上

媒体处理服务: 运行 HTTPServer, 接入 Linux 平台媒体处理 SDK(动态库)

输入:

移动端的媒体数据输入主要包含 MP4文件、本地 Camera 相机数据采集、本地 AudioRecord 音频数据采集

媒体处理技术点:

编解码

视频裁剪:

视频裁剪主要分为精准裁剪和不精准裁剪，精准裁剪主要是找到之前最近的 I 帧，然后依次解码到 pts >= clipStartTime ,到 >= clipEndTime . 不精准一般就是 seekto 的点也就是 I 帧，到 pts >= clipEndTime

多段拼接:

多段拼接需要注意音频采样格式是否一致，视频的分辨率、yuv 格式、帧率是否一致。还需要注意 curPts > lastPts（有 B 帧的情况下，不然会导致花屏）

添加字幕:

OpenGL 不支持直接绘制 Text 文本，我们需要将 text 先渲染到 TextView 上，然后将 TextView 转成 Bitmap ，通过 OffScreenRenderer（离屏渲染）增加一个图层，实现图像的叠加效果实现字幕的渲染

添加滤镜:

添加贴纸:

实现贴纸的话需要将采集到相机原始 YUV 数据通过 OpenCV 或者其它图像处理框架，将识别到的人物头像的 Rect 坐标拿到，然后在将贴纸渲染到对于的坐标上即可。

添加 BGM:

将 2 段解码完的 PCM 进行重采样之后(如果格式不一致)，进行 mix ,最简单的算法原理为: 直接把两组 PCM 数据相加，相加后的数据范围不能超过 pcm 位宽的表示范围即可。具体算法可以参考 webrtc 内部的音频 mix 算法:https://chromium.googlesource.com/external/webrtc/stable/webrtc/+/master/modules/interface/module_common_types.h