写在前面:随着技术的不断进步和创新,人们对于视听体验的需求也在不断提升。通过将平面视频转变为3D视频,观赏者能够沉浸于更加立体、生动的视听世界中,享受到更加真实、逼真的观赏体验。随着实时2D转3D技术的不断发展,3D直播观赛技术正逐渐成为体育赛事领域的一大亮点,本文章将揭示3D直播观赛背后2D转3D技术。
来源:咪咕灯塔
原文:https://mp.weixin.qq.com/s/6CXXCtIeAOF6xBTUGz6nBg
背景篇
真实世界是三维(3D)的,人们通过视觉可以看到其中的明暗、光影和动态的3D景深。二维(2D)的图像和视频只有平面信息,缺失了深度信息,因而无法呈现对应的立体效果和真实感,而人类对3D效果的追求从古代就开始了。
3D显示发展简史
早在古希腊人类就通过浅浮雕技术实现艺术品和装饰品的立体效果。1838年,英国查尔斯·维夫特首次实现了3D摄影的原理,此后3D照片和3D观影装置逐渐发展兴盛。20世纪中叶,3D电影在好莱坞兴起,3D电影进入了黄金时代,影片如《创世纪》、《风暴魔域》等在影院广受欢迎。但因受到技术限制和成本因素的影响,应用场景受限,整体发展缓慢。
近年随着虚拟现实和增强现实技术的发展,3D显示技术开始日益走向成熟。3D眼镜、头戴设备例如VR头显等都支持3D显示,此外裸眼3D设备也走出实验室,开始在大众视野中出现,例如中兴努比亚PAD、酷派大观3的手机,京东方和海信的裸眼3D电视等,随着产业的成熟裸眼3D的应用也开始出现。
当前3D内容供给不足,数量和丰富度较低。传统的3D内容(例如3D电影)大多是对已经拍摄完成的2D影像进行后期的3D转换处理,一般需要较长的处理周期。随着2D到3D转换技术的发展,开始出现了实时2D到3D转换的转换能力,我们将这个技术落地实践,并在巴黎奥运会期间推出了裸眼3D直播。
沉浸式裸眼3D智能观赛
今年我们在欧洲杯和巴黎奥运会直播中上线了裸眼3D智能观赛业务。我们突破采集端为2D数据的限制,实时将2D视频转为3D,这是该技术在大型国际直播赛事中首次应用。我们的3D转制技术是基于双目视差的深度估计(相关原理可参考《下一代光电成像技术:计算光学成像》三维显示相关内容),以AI方式实现2D内容到3D内容的转制[2]相比于传统人工3D转制效率提升数倍。此外,我们在实时性、清晰度与稳定性方面均做了深度优化,实现了高流畅、低时延、零卡顿的观赛体验。
这一期我们就一起了解实时2D转3D背后的技术。
技术篇
2D转3D技术是指将传统的二维平面内容转换为具有立体效果的三维内容的技术。通过这种技术,原本平面的影像、图片或视频可以被转换为具有深度感的三维效果,让观众获得更加逼真的视觉体验。其中最常见的方法是应用AI算法对2D影像的各个部分进行深度分析和处理,然后根据分析结果重新构建出相应的三维内容,这个过程就是2D到3D的AI转制。
AI转制可以部署在云端也可以在端侧实现,云端和端侧相比效果更好, 云端算力大大强于端侧,转换效果也能够得到保证;随时更新和升级转换算法,以提供更高质量的转换效果和更多的功能;网络依赖性高,2D/3D转换过程需要大量的数据传输和计算,因此对网络连接的要求高。咪咕当前方案是云实时转制方案。本文介绍基于单一视角的平面视频生成基于双目视差左右格式(Side By Side,SBS)的3D视频的云转制方案。
全流程简介
本文重点介绍内容生产和内容分发这两部分的相关技术,采集部分和呈现部分后续文章再做探讨。从处理流程上看主要技术功能模块如下图所示。
首先,将输入的2D视频流进行音视频拆分和解码操作,根据视频格式进行分组解码,可以采用逐帧提取YUV(YUV是一种图像颜色编码方式,Y 表示亮度,U 和V表示色度)的方式,确保输入源的质量。然后,2D转3D能力引擎通过单目深度估计、空洞填充、视频超分、字幕抠图等AI能力和虚拟视点合成技术,实现2D平面内容到双目视差立体效果内容的转制,并配套添加3D效果的字幕,最终封装输出3D视频流,通过可靠的网络分发,送达给用户3D设备提供沉浸体验。下面对每个细分环节做详细介绍。
2D视频流解码
作为2D转3D的源头,对2D视频源流的音视频拆分和解码的质量,直接关系到最终输出效果。
针对音视频拆分,可以采用专业的解码工具ffmpeg,针对源视频进行解复用(支持主流的编码格式:H.264、H.265);同时在解复用后自动提取音频包缓存备用,并将解复用后提取到的视频包进行分组解码后由任务调度队列提供给2D转3D引擎使用。
针对视频包的解码,为保证图像数据的绝对完整性,可以采用逐帧提取YUV的方式(YUV是一种图像颜色编码方式,Y 表示亮度,U 和V表示色度)对解复用的视频包按照每24帧一组进行解码,并将解码后的数据封装为待处理任务缓存到任务调度队列。
2D转3D能力引擎
2D转3D能力引擎是整个系统的核心模块,将前面流程提取到的YUV 2D图像帧作为输入,转制输出基于双目视差3D效果的3D图像序列。在此我们先讲一下双目视差的原理。双目视差是指人类视觉系统中两只眼睛观察同一物体时由于两只眼睛位置不同而产生的视差现象。通过双目视差,人类可以感知到物体在空间中的深度和距离,实现立体感的视觉体验。
视差角度差异:由于两只眼睛的位置略有不同,在观察同一物体时,物体在两只眼睛所看到的像在视网膜上的位置会略有不同,形成视差角度差异。这种差异可以帮助大脑判断物体的远近位置。
视差感知融合:大脑会通过对两只眼睛的不同视差信息进行融合处理,形成一个3D的视图。通过比较两只眼睛看到的不同图像之间的差异,大脑可以计算出物体的深度和位置,从而实现立体感的感知。
视差深度感知:视差的大小与物体距离的关系是物体离眼睛越近,视差越大;物体离眼睛越远,视差越小。大脑通过比较两只眼睛的视差大小,来感知物体的距离远近,从而帮助我们判断物体的深度。
总的来说,双目视差原理是通过两只眼睛看到的不同视差信息的比较和融合,帮助人类感知物体的深度、位置和距离,实现立体感的视觉体验。这种生理现象也为人类视觉系统提供了重要的深度感知能力。
2D转3D能力引擎就是基于这个原理,将屏幕视频转换成基于双目视差效果的3D图像而实现立体感。主要利用单目深度估计、空洞填充、视频超分等AI能力和虚拟视点合成技术,实现无需人工干预的2D转3D自动化转制。
· 利用单目深度估计AI能力,对输入的原始视频图像序列进行深度预测。
· 根据深度序列信息生成视差图像,基于视差成像原理,进行虚拟视点合成,形成新视点序列。· 新视点序列由于存在遮挡像素,需对遮挡区域产生的空洞部分进行填充。
· 视频合成,生成左右格式(SBS)的3D图像序列。
· 字幕渲染(可选),基于字幕抠图能力将字幕从左图抠出,然后渲染到右图合适位置。
针对赛事直播实时性,我们通过多级认知技术、时空融合技术、对抗认知技术实现3D影片实时转制,支持2D直播流实时转制成3D直播流,整体处理转制比可以达到业界领先的1:1转制时长比。
针对赛事直播清晰度,针对不同分辨率的2D内容进行3D高清实时转制,结合视频超分等AI技术,对标准1080P(1920×1080)输入视频流可以输出4K(3840×1080)的左右全宽格式的3D视频流,享受和2D画面同等清晰度的3D画面。
针对赛事直播稳定性,针对直播场景下直播流抖动等问题,研发丢帧补时算法,新增帧间稳定模块,通过对体育复杂画面进行语义识别训练,提升空间视差关系正确性和图像稳定性。
综上,针对体育复杂画面进行视觉理解,提升空间视差关系正确性和视频画面稳定性,采取多种技术打造3D赛事直播的沉浸式体验,实现3D赛事直播实时性、清晰度与稳定性的三重保障。
3D实时智能字幕
这里特别提一下直播中的3D实时字幕,和2D相比3D直播字幕有以下难点,首先字幕相比普通画面在转的过程中更容易出现重影,抖动等问题;其次,由于3D转制流程中将音视频分开处理,因而有字幕与画面同步以及字幕的实时性等问题。
传统处理字幕的方式是通过2D视频添加字幕,然后将带有字幕的视频进行2D转3D处理,这种方式会导致转制的文字出现重影和抖动问题。为了避免这种问题,我们采用3D视频叠加3D字幕的方式,直接对具有3D效果的YUV图像进行字幕添加。首先我们对返回的YUV图像进行分屏,通过算法定位左右两帧图像的开始坐标,同时对左右两帧图像进行字幕压制。压制过程中需要设定左右字幕偏移量规则,如果偏移量不准确,会导致3D画面合成后出现重影现象,我们通过结合2D转3D引擎的3D参数,计算出适合3D字幕的最佳偏移量数值,解决了字幕重影和抖动问题。
由于2D转3D能力引擎为提升实时性一般采用多线程技术进行图像处理,生成的3D图像是无序的,我们通过对智能字幕系统在直播拉流开始时,以帧为单位标识字幕的排序编号,该编号与输入2D转3D引擎的图像帧序号一一对应,在2D转3D引擎返回3D图像帧的时候,根据序号获取到对应的字幕数据,再逐帧的进行字幕叠加,保证了3D画面与字幕的同步性。
针对实时性, 我们通过高并发处理1s内所有的数据帧,每一帧设置排序标识,每一个流程处理完将结果存入缓存中,等待1s的数据帧全部处理结束,从缓存中取出所有数据,按照设置好的排序标识,拼接完成1s的数据帧。通过这样的处理,字幕添加的性能提高了将近10倍。
高效3D视频编码
当前输入支持H264和H265编码格式、输出支持H265编码格式。为保证直播的实时性、画面质量和音视频同步,需要高效、无损的、同步的视频编码及音频合入。
针对实时性,可以优化提高编码效率,分发侧实现多分辨率编码并发调用,编码侧利用编码器池化技术实现多路编码器的高效复用,资源侧使用了支持GPU的多样化自动编码能力。
针对画面质量,采用自适应码率编码、自动下变换技术,有效保证了针对同一输入源的多分辨率输出质量的统一。
针对音视频同步,采用保留源音频帧原始素材、自动排序缓存技术,结合自适应音画匹配能力,确保输出时的音画同步效果。
网络智能化流量控制
在内容分发层面,可以基于NWDAF(5G网络数据分析功能)提供分发全链路服务。基于5G-A智能化网元NWDAF实时监测用户体验,按需开启QoS保障,保证3D内容在更高带宽需求情况下,高稳定、零卡顿的用户体验。
NWDAF是3GPP面向网络智能化在5G-A定义的一个重要网元。通过对业务的识别,体验感知,对应发起保障措施,实现在不影响其他APP体验的前提下,为大带宽需求的业务提供高流畅、低时延、零卡顿的沉浸式观赛体验保障,使用户可以享受到最佳的欧洲杯观赛服务。
针对业务识别,NWDAF通过业务类型实时自识别,例如识别出咪咕视频3D版。针对体验感知,NWDAF通过对接UPF实时采集用户业务体验数据、对接无线网管持续采集无线资源数据,对采集的数据开展智能分析,实现体验实时自感知。针对保障策略,在业务体验质差时,结合无线拥塞及可用资源信息的分析,智能决策生成视频业务的QoS策略建议给PCF,实现对咪咕视频3D版的保障。
应用篇
2D转3D显示技术在电影制作、游戏开发、虚拟现实和增强现实、教育培训等领域有着广泛应用。通过将传统的平面内容转换为3D影像,提供更加沉浸式和真实感的视觉体验,增强用户的观看和参与感,推动技术的发展和创新。
影视节目制作
一些经典电影通过2D转3D技术对经典的镜头重新呈现,为观众带来全新的观影体验。在2D转3D电影中,票房最成功的是《泰坦尼克号》(Titanic)。2012年,为纪念该片上映15周年,同时纪念泰坦尼克号沉船100周年,这部经典电影通过3D转换技术重新上映,全球票房达到了3.43亿美元。通过3D技术的应用,观众可以获得更加生动和逼真的视觉体验,让画面更具立体感和深度,使得观影者更加身临其境地感受到电影中的场景和情感。其他还有《狮子王》、《侏罗纪公园》等也推出了3D版本。
电视节目制作方面,例如纪录片片《地球脉动》在2010年推出了3D版本,展示了地球上最壮观的自然景象。还有《冰冻星球》通过3D技术展示了极地地区的壮丽景象和生物,增强了观众的视觉体验。还有演唱会,例如迈克尔·杰克逊《This Is It》的部分演唱会片段采用了3D技术,使观众感受到了更加真实和震撼的舞台效果。此外还在教育节目、儿童节目等不同类型电视节目中广泛的应用和成功经验,不仅提升了观众的观看体验,也为节目制作带来了新的可能性。
赛事直播
2024年6月欧洲杯期间,我们首次将裸眼3D观赛技术应用在足球直播赛事场景,实现了在体育直播场景的行业首创商用,带动终端和体验升级,打造了更丰富、更沉浸的“AI观赛”新体验。
2024年7月奥运会期间,我们在欧洲杯首次应用的基础上再次进行升级应用,通过对奥运会多种赛事场景如乒乓球、跳水、篮球等场景推出3D观赛效果。依托中国移动能力中台,将智能字幕技术应用于2D转3D体育直播场景,解决字幕抖动、实时同步等难题,让用户获得从“隔屏观赛”到“临场观赛”的沉浸体验。
中国移动咪咕公司沉浸式裸眼3D空间观赛,打造“裸眼3D观赛”系列内容,基于对体育复杂画面的视觉理解,提升空间视差关系正确性和视频画面稳定性,实现3D赛事直播实时性、清晰度与稳定性的三重保障。欧洲杯和奥运会期间,球迷可通过酷派大观3手机、中兴 Nubia Pad等终端设备,在咪咕视频3D版首页进入“3D观影”专区,不仅可以观看奥运会赛事3D直播内容,还可以观看3D点播内容精彩集锦,即使无法亲临奥运现场,也能感受身临其境的临场感,跨屏直击奥运会赛场高光时刻。
产业情况
2D转3D直播观赛为裸眼3D行业提供了基础技术解决方案,该解决方案为互联网行业的视频开辟了一个高流量的新渠道,为新媒体行业创造出一个高价值的新媒介,为其他领域颠覆式技术创新提供了新思路,如在医疗领域,利用裸眼3D技术可以实现更直观和精确的医学影像诊断和手术导航;在教育领域,利用裸眼3D技术可以实现更生动和有趣的教学内容和方式;在旅游领域,利用裸眼3D技术可以实现更真实和沉浸的旅游景点展示和体验等。
我们致力于拉通产业各层,与终端厂商例如中兴、京东方、酷派手机等进行技术合作,努力推进相关应用的落地。例如,采用了光栅膜技术的酷派大观3手机内置咪咕视频3D版APP应用,能够通过 AI 图像处理算法提供“多维交互体验”可以为用户提供更具交互性和沉浸感的裸眼3D内容。此外和产业联盟及研究机构等,如中国信息通信研究院、世界超高清视频产业联盟、AVS(音视频编码标准),共同探讨裸眼3D技术的最新发展趋势、技术瓶颈和解决方案。
展望篇
3D显示技术从内容生产到设备研发,当前处在快速发展期,新的显示技术、光学技术和算法优化将带来更加逼真的3D显示效果。因而对于3D内容应用场景越来越丰富,需求数量越来越多,质量要求越来越高。而2D转3D技术可以对已有的优质2D内容直接生成3D方式,快速生产优质3D内容,因而将在一段时期内成为3D内容提供的主要来源之一。
发展趋势
3D显示将成为视听发展的,随着3D显示技术的不断成熟和发展,显示设备将变得更加轻巧、便捷,用户体验将变得更加舒适和自然。同时,对用户体验进行优化,提高观看和交互的便利性也将成为发展的重点。新应用和跨界融合,3D显示技术将与虚拟现实(VR)、增强现实(AR)等新型技术结合,开发出更加丰富的创新应用。跨界合作将成为未来发展的趋势,3D显示技术的应用将延伸至更多领域,为用户带来更全面、多样的体验。因而对当前2D转3D的相关技术也提出新要求,除了基于双目视差的3D内容转制的基础上后续会需要有更多形式的优质的3D内容。
拓展应用领域:除了电影、游戏和广告等领域外,2D转3D技术将逐渐应用于更多的领域,例如医疗影像、建筑设计、虚拟现实、增强现实等,为这些行业带来更多创新和可能性。
多模态结合:未来的2D转3D技术可能会结合多种传感器数据和信息,如图像、声音、运动等,形成更加全面和丰富的3D场景,使观众能够更好地沉浸在虚拟环境中。
AI+ 技术在内容生产的应用,内容生产降本增效
相比于传统人工3D制作,AI自动2D转3D可以大幅提升影片自动化转制效率,降低制作成本。在该技术不仅适用于体育直播,也可赋能各行各业,如3D通话,3D云游戏,沉浸式3D地图,电商3D商品浏览等场景,具有广阔的应用前景和社会经济价值。深度学习算法的应用: 深度学习算法在图像处理领域取得了巨大成功,可以利用卷积神经网络等技术从2D图像中提取三维信息,实现2D到3D的转换。
生成对抗网络(GAN)的发展:GAN可以生成高质量的图像,并用于从2D图像中生成逼真的3D图像。这种技术在数字艺术、虚拟现实和游戏开发领域有很大的应用潜力。
点云生成和重建技术:通过将2D图像转换为点云数据,然后再将点云数据转换为3D模型,可以实现2D到3D的转换。这种方法在计算机辅助设计、增强现实等领域有重要的应用。
自动化建模和重建技术:利用AI技术自动化生成和重建3D模型,可以大大提高3D内容的制作效率和质量,帮助用户快速从2D图像生成真实感强的3D模型。
图像理解和语义分割技术:图像理解技术可以帮助机器更好地理解图像内容,结合语义分割技术可以实现将2D图像分割为不同的物体,并进一步转换为3D模型。
总的来说,借助AI技术的不断发展和创新,2D到3D的转换应用将会变得更加智能、高效和精准,为数字内容创作、虚拟现实、虚拟仿真等领域带来更多可能性和创新。
面临的挑战
精准度和真实感:要实现2D到3D的转换,需要确保转换后的图像具有高度的精准度和真实感。目前技术在这方面还存在一定的改进空间。
应用场景的适配性: 2D转3D技术的成功转换与应用场景的适配性密切相关。不同领域和应用场景对于3D效果的需求各不相同,如何满足不同场景的需求是一个挑战。
硬件支持和成本:对于一些高端的2D转3D技术,需要相应的硬件支持和成本投入。如何平衡技术成本和应用效果也是一个需要解决的问题。例如要实现裸眼3D自由,需要让终端设备的成本可接受,才能从极客们的玩具,变为广泛普及的大众消费品。当前,实现高质量的3D显示技术仍需要较高的成本投入,中兴Nubia平板,就高达上万元。从这个角度看,发展裸眼3D,也会带动国产显示器、半导体等产业投入研发,抢占这一新兴市场,让一般消费者也能尽快用上裸眼3D。
用户体验和接受度:最终2D转3D技术的成功与否还取决于用户体验和接受度。如何让用户更好地体验和接受这项技术是一个重要挑战。以裸眼3D为例,目前常见的裸眼3D屏幕显示解决方案有柱状光栅、液晶电子光栅、指向光源以及电子液晶透镜等。在终端亮度呈现方面,当前技术方案均存在一定程度的亮度折损,画面昏暗,导致观众容易视觉疲劳,进而影响裸眼3D观影的发展。
版权:在版权方面,2D视频转换为3D视频存在一些法律风险。如果2D视频是受版权保护的作品,未经版权所有者的授权或许可,直接将其转换为3D形式可能会侵犯原作品的著作权,包括复制权、改编权等。
隐私与安全:在新应用场景下,用户信息和隐私数据的安全问题变得尤为重要,需要加强相关保护措施。
相关标准匮乏,亟待填补空白
裸眼3D技术为代表的3D显示技术已经到达了阶段性成熟,并且在不同领域得到了应用。然而,缺乏统一的参考架构和技术要求相关的标准,导致市场上概念混乱,且存在着产品之间不兼容的问题,限制了裸眼3D等3D显示技术的发展,通过标准化可以促进不同厂商间的合作,提升用户体验,推动3D显示技术的进一步发展和应用,促进技术创新,面向千行百业孵化创新应用,实现用户视觉体验的全新升级,共创新的产业价值。
我们在世界超高清视频产业联盟牵头的裸眼 3D 系统相关的团体标准已经被批准立项。随着这一标准的逐步完善和实施,预计未来将有更多高质量的裸眼3D产品和解决方案问世,为消费者带来更加丰富和震撼的视觉体验。
综合而言,未来3D显示技术将继续保持快速发展的势头,随着技术的不断完善和创新,它将在多个领域得到广泛应用,为用户带来更加丰富、沉浸式的视听体验。
作者:吴新新 毕蕾 胥杰 陈文斌 刘泽
审核:单华琦 吴庆双 魏瓴
封面图片:咪咕视频3D版
【参考资料】
[1]工业和信息化部.关于印发《关于加快推进视听电子产业高质量发展的指导意见》的通知[OL].工业和信息化部.
[2]陈平.一种2D视频转3D视频的方法、装置及电子设备[P].中国专利,CN201910381887.6,2019-08
[3] “The Stereoscope: Its History, Theory, and Construction, With Its Application to the Fine and Useful Arts and to Education” by Sir David Brewster
[4] Simon J.D. Prince. “Computer Vision: Models, Learning, and Inference.”
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。