智能横屏切换竖屏技术揭秘

随着移动互联网的发展与5G时代的到来,通过移动端的短视频传递信息的方式越来越普及,短视频的需求也越来越大,特别是能够提升移动端小屏观看体验的竖屏短视频,如果能够将已有的丰富海量的优质横屏视频内容通过自动裁剪的方式生产全面屏竖屏视频,将会大大提高全面屏视频的生产效率。

图片

横转竖技术对比

目前主流的横转竖产品是剪辑工具,主要分为“固定式”和“逐帧式”两类:

1、“固定式”横转竖:

直接将横屏视频拖至剪辑工具,选择竖屏比例,固定式裁剪。这种方式只能选择固定画面区域进行裁剪,裁剪往往出现人物偏离中心,显著性目标出画等问题。

2、竞品“逐帧式”横转竖:

用户使用剪辑工具逐帧对视频进行竖屏裁剪操作。这样剪辑出来的竖屏虽然能避免“固定式”竖屏裁剪出现的目标偏离问题,但是在规模化的剪辑中将耗费大量的人力物力。

智能横转竖不仅具有自动剪辑的能力,而且能保证目标检测准确,剪辑画面美观。以AI算法为基础,能有效地捕捉画面中的人脸,显著性目标,运动轨迹,通过镜头拆分和坐标平滑等操作能大规模集成化的生产高质量的AI竖屏视频。既能解决“固定式”横转竖目标偏离问题,又能解决“逐帧式”裁剪的人力费用问题。

横转竖技术介绍

底层能力由镜头检测、目标追踪检测、视频标签分类、人物识别跟踪、裁剪坐标平滑、高速运动目标识别、多维度视频内容理解等十余个核心算法构成。

图片

系统整体流程:

1)系统对输入的横屏视频进行镜头完整性检测,输出镜头信息;

2)精彩片段模块根据镜头信息及十余种基础算法能力的输出结果,预测视频中精彩片段的时间轴;

3)竖屏裁剪模块根据时间轴对核心区域进行识别检测确定要跟踪的目标,输出目标物体的轨迹坐标后,将坐标拟合输出连续每帧的图片中心;

4)合成模块,根据输出图片中心坐标与精彩片段的时间轴进行抽帧、裁剪、合成,遮标等处理输出精彩竖屏视频;

核心算法介绍:

● 镜头检测:采用感知相似度模型,实现相邻帧的相似性提取,并结合边缘检测,提升视频镜头切换帧的识别准确率;

● 目标追踪检测能力:基于深度卷积神经网络提取YOLO检测的目标特征,然后采用SiamRPN++算法进行目标预测与跟踪;

● 视频标签分类能力:组合多种分类模型,实现特征提取,完成视频标签分类。

● 人物识别跟踪:采用MTCNN和ArcFace,在大规模人脸图像库中确定人脸身份归属;同时结合视频前后帧人物位置信息,提高复杂情况下的人物识别率;

● 裁剪坐标平滑:基于上下文精彩内容识别结果,根据目标裁剪比例,跟踪前后的坐标结果自适应整合裁剪坐标,保证核心目标在裁剪区域内,并且避免抖动现象。

● 高速运动目标识别:结合显著性目标检测算法和运动区域检测算法,配合显著性区域聚类算法,完成高速运动目标的连续精准识别。

● 多维度视频内容理解:依托于人物识别、动作识别、目标跟踪、场景变换识别、核心区域定位等AI能力,对视频内容进行多维度的深度理解,综合评判核心内容区域,识别定位精彩画面内容。

图片
感知相似度模型
图片
Siamrpn
图片
Lstm
图片
MTCNN
图片
Arcface

结语

紧跟时代发展,以科技提高效率。智能横转竖极大的减轻竖屏视频制作成本,将成为竖屏视频制作的一大利器,高质量实时热点视频分享的重要推动者。

作者:魏云娜 来源:青榴实验室

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论

评论列表(2条)

  • 8516的头像
    8516 2023年5月25日 上午10:35

    您好,我想请问一下,这是某篇论文嘛?如果是的话,想问问是哪篇论文呢?

    • 实时互动的头像
      实时互动 2023年5月25日 上午10:39

      @8516这是青榴实验室发表的一篇文章,具体内容来源不清楚