互联网的快速发展引领了视频图像内容的需求和消费的急剧增长,大量的用户和流量催生了多元化的视频图像技术需求,用以满足创新内容创作需求、支持多样性社交互动、以及高效处理大量数据。本次我们将探讨云音乐中所运用的视频图像技术,通过了解这些技术,我们将更好地理解视频图像领域的发展动态,并了解如何利用这些技术为我们的业务注入更多的价值和可能性。
一、背景介绍
1. 当前现状
随着互联网的飞速发展和智能设备的广泛普及,视频及图像内容的需求和消费呈现出爆炸式的增长趋势。这种现象在云音乐表现得尤为显著,基于庞大的用户群体和流量基础,云音乐不断衍生出多元化的视频图像技术需求。这些技术不仅在满足日益更新的内容创意方面发挥着关键作用,还为日新月异的社交互动玩法提供了强大的支持。同时,对于庞大的后台数据的高效处理,这些技术同样扮演着举足轻重的角色。本次文章将深入探讨云音乐中都运用了哪些视频图像技术,这些技术如何在云音乐的各项业务中发挥重要的作用。我们将详细介绍这些技术在提升用户体验、增强音乐可视化效果、优化社交互动以及高效处理数据等方面的具体应用。
2. 技术架构
在业务应用的过程中,视频图像算法需要与其他环节进行紧密的耦合,以形成一个完整的技术价值链,从而实现与业务的协同效应并最大化其价值。因此,我们构建了一套全面的视频图像技术体系,其中包括以下模块:算法训练策略平台、基础算法库、算法服务端应用集群以及算法客户端应用引擎。这个技术体系实现了后台服务端和用户客户端之间的双向链路应用,从而在整个业务流程中发挥着综合且高效的作用。
二、算法方向
基于上述视频图像技术体系,本文章主要介绍视频图像基础算法模块。基础算法模块又可归纳为:内容理解、智能生产、智能审核、视频交互四个方面,下面我们将对这4个方面分别进行详细介绍。
1. 内容理解
a. 视频分类
视频分类,即对输入的长视频或短视频都需要进行分类。视频分类在一定意义具有很多的不确定性,因为有很多视频在分类过程中,不一定是视觉可分。单从视频本身可能无法准确定义出类型,因此云音乐使用跨模态方法进行视频分类,在整个分类过程中把音频信息和文本信息联合去做分类。
b. 乐谱识别
乐谱随着时代、科技的进步被不断创新,而数字乐谱在新兴科技的催化下,已经演变成了一个集乐谱、音频、视频的多维、能适应未来多种场景并具有多功能的音乐表现体系。乐谱识别加强了科学与艺术的交融,让“艺术越来越科学,科学越来越艺术”。而乐谱识别技术是基于图像识别的方法自动识别乐谱图片,提取其中的乐谱语义,结合歌词信息,一键生成相应的智能曲谱。一方面可以让一些珍贵的纸质乐谱转变为便于保存和传播的电子乐谱,另一方面又能让静止的图片乐谱动起来。我们研发了一套基于端到端的算法识别系统,从输入的乐谱图片中,基于分割算法对单行乐谱进行分割,并利用基于transformer的方法获取高精准的乐谱语义理解。
c. 歌单识别
在一定等场景下,用户在平台内看到歌单内的部分歌曲或者其他平台上看到心仪的歌单想在站内构建一样的歌单,为了简化用户操作流程,我们将用户上传的歌单截图中的歌曲进行识别,并一键生成云音乐歌单,避免用户手动逐首歌曲进行歌单创建过程,降低用户使用成本。我们使用版面分析结合OCR识别技术对截图歌单歌曲文字内容进行识别,并利用NLP进行纠错处理,输出最后的截图上的各个歌曲信息,给用户自动创建相应歌曲的歌单。
2. 智能生产
a. 视频增强
视频增强是指对输入的视频图像进行优化和提升,以改善其视觉效果,提高用户观看体验。在云音乐中,存在着一些老旧片源,如老版mv、早期用户上传的作品,或视频图像经反复缩编解码导致压缩噪声等,又或者由于用户设备、环境等原因导致拍摄的图像视频模糊、抖动、噪点、色彩昏暗等,都会促使站内资源中低质量视频图像存在。但是随着硬件设备的提升,这些低质量视频不能满足现在用户的观感需求,就需要对站内低质量视频进行视频增强,让画质清晰,提高用户观感体验。我们对使用场景切分,对不同的场景进行分别增强处理,并利用不同场景识别到的色彩系统动态调整亮度和色彩度,让画质看起来颜色明亮鲜明。同时相对于其他区域,人脸的增强对视觉感受的影响力最强,因此我们针对人脸区域单独做了人像增强,让人脸部分看上去皮肤光滑、细节清晰。
b. 智能封面
在视频作品中,封面往往起着至关重要的作用,它决定了用户对整个多媒体内容的第一印象。一个好的封面可以吸引用户的眼球,提高视频的点击率,增加视频的曝光率,可以帮助视频更好地推广。智能封面技术主要是利用AI技术对视频帧进行智能分析,并选取最优的帧作为封面。我们针对输入的视频序列,首先采用关键帧图像动态搜索算法搜索到整个视频中最优关键帧排序,在候选关键帧中再根据图像中的人脸信息综合根据五官、角度等综合计算图像中人脸质量分数排序,同时根据不同的展示位置尺寸比例要求,裁剪出最合适的区域,综合评定出最合适的图像帧作为封面。
c. 高光片段
在视频作品推广、直播间推荐等应用中,需要集中高效地传递信息,以迅速抓住用户的眼球,留住用户并促成点击。否则由于用户浏览速度快,如果不能在较短的时间内播放最可能吸引用户的精彩内容,那么就无法完成推广。动态封面相比静态封面,情节更丰富,让观众立即了解视频主题,具有更强的视觉冲击力和吸引力。而动态封面的生成需要使用提取视频中的最精彩的片段即为高光片段。我们以关键帧为基础,将视频切分成不同的视频片段序列,综合采用片段中的视频质量打分方法以及业务逻辑需求,提取最符合逻辑需求的高光片段。
3. 智能审核
在社交业务应用中,往往对用户的头像有一定的要求,例如头像要是人且非公众人物,上传的图像需要保持清晰,不能过于模糊等。云音乐利用3000+的明星名人识别、人脸属性信息如人脸检测、人脸年龄、性别、颜值等对用户头像进行管理审核,极大提高了用户管理成本。同时采用人脸聚类算法进行黑产用户挖掘,打击黑色产业,净化社区环境,提高人工审核效率,改善用户体验。
4. 视频交互
a. 美颜美妆
在社交直播业务中,美颜美妆技术对用户来说起着至关重要的作用,美颜美妆可以帮助主播改善外貌,以更好的状态与观众互动,吸引更多粉丝,增加营收。云音乐基于自研移动端上实时人脸检测、人脸关键点、五官分割等技术,为直播、社交互动、智能拍摄等应用场景提供完整的全套美颜美妆sdk,打造自然美颜、贴合真实的妆容效果。并结合上百种贴纸,为用户交互提供趣味性,提升用户体验。同时自研美颜美妆sdk在稳定性和低功耗方面有不错的表现,可支持复杂用户场景和360度人脸角度稳定持妆不掉妆,不同性能的机型流畅运行。
b. AI特效
特效在短视频内容生产中扮演着重要的角色,它们能够为视频增添趣味性和视觉吸引力,从而促进内容的生产和消费。云音乐基于用户需求,研发了多种实时高效的AI特效,这些特效不仅丰富了视频内容,还提高了产品的吸引力和用户的参与度。在移动端上,云音乐的AI特效可以在拍摄或上传视频的同时进行实时处理和优化,使得特效更加真实、生动、有趣。这些特效为创作者提供了更多的创作空间和想象力,提高了产品的吸引力和用户的参与度,推动了视频内容的生产和消费。
除此之外,尚存在多样的视频技术,然而考虑到篇幅限制以及技术保密的重要性,我们在此不进行深入阐述。我们热切期待与各位进行专业交流,并诚挚欢迎任何形式的批评指正,以共同推动这一领域的进步。
三、未来展望
我们身处在一个充满变革和机遇的时代。互联网技术正在以惊人的速度发展,尤其是近年AIGC为行业带来的新变革。视频图像技术在云音乐业务中的应用和规划,会更多探索多模态音视频创新,让用户可以更加生动地分享自己,分享生活,提高用户对产品的体验。同时,也会加强合作与交流,时刻保持行业敏锐度,共享资源和技术,共同推动视频图像技术的发展和创新。
作者:蔡苗苗
来源:网易云音乐技术团队
原文:https://mp.weixin.qq.com/s/eqf0niwdKkMFjhJm7gLOKQ
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。