虚拟数字人与虚拟演播室结合应用案例浅析

在2022年两会期间,央视网在节目直播过程中首次将虚拟数字人融入虚拟演播室系统,并且与真实嘉宾一起置身于虚拟场景中进行实时互动。本文介绍了虚拟演播室系统、虚拟数字人和虚拟场景一体化制作及相关要点,虚拟演播室与虚拟数字人的技术融合,以及虚拟数字人动作与表情的实时数据捕捉技术。

作者:央视网 李金桓 康庄
来源:选自2022年第5期《现代电视技术》

央视网针对两会期间的热点话题,策划并制作了一档访谈直播节目《两会C+时刻》。该节目采用实拍抠像植入虚拟的方式,并且加入了时下流行的虚拟数字人(央视网虚拟主播小C),同时利用面部捕捉和动作捕捉技术,使虚拟数字人能够实时地与现场嘉宾互动,是央视网虚拟演播室系统应用的一次成功案例。

目前虚拟演播室技术应用已经非常广泛,技术架构也比较完善,随着AI、4K/8K和5G等技术的不断发展,虚拟演播室技术在实现手段和最终效果等方面还会迈向更高的台阶。随着人工智能的出现,还发展出了新的产物——虚拟数字人,通过不断学习,以庞大的数据库作支撑,最终成为完全和真人相似的虚拟人物,可以在某些方面替代真人完成相应的工作。此次案例中采用真人驱动虚拟人的方式,来实现相关话题的实时互动(驱动虚拟人的角色可以是任何声音甜美、性格活泼等合适的人选,本文用“驱动者”一词来代替这一角色)。

通过虚拟数字人与虚拟演播室完美融合,做一档直播节目,在制作技术上是一次突破,不仅使数字人与虚拟场景进行融合,更是与真实人物的无缝对话,践行了“思想+艺术+技术”的理念,为严肃的两会话题添加了活泼生动的元素,让年轻观众更容易接受。通过深度学习,为人工智能完全代替真人迈出坚实的一步,展示了智慧媒体对未来新科技的探索与追求。本次直播节目共3期,每期一个半小时,5个虚拟机位加1个虚拟数字人的备用机位,对两会访谈内容进行了全方位的直播报道。

下面对本次成功案例中的虚拟系统部分、虚拟场景制作及实时数据的捕捉等问题,进行简要的技术解析,供大家参考。

一、虚拟系统构成

央视网4K超高清虚拟演播室系统采用两套虚拟渲染引擎,既可以形成主备渲染通路,也可以实现VR和AR分别渲染输出,形成虚拟背景和虚拟前景相结合的场景展现方式。系统采用行业主流绿箱抠像方式,结合灯光系统并利用内置色键器进行抠像和图像合成,虚拟系统主要由虚拟渲染引擎、PTZ摄像机、色键器和绿幕等部分组成。

图片

图1为虚拟演播室多机位抠像合成图像。

1. 虚拟渲染引擎介绍

虚拟渲染引擎搭载的是UE4(Unreal Engine)实时3D渲染引擎,支持4K超高清实时渲染,配有摄像机跟踪计算软件、播出列表模板生成软件,内置实时抠像并合成功能。Unreal Engine是一种游戏制作的渲染引擎,但它的应用已经不仅限于游戏行业,还包括建筑、工业、运输、模拟训练等很多领域,当然还包括影视和广播行业。它不同于传统的影视制作软件,比如Maya、3ds Max、Blender、Cinema4D等。这些软件需要先将制作好的内容,以帧的方式渲染输出后再合成,加上音频、包装等最终成为优秀的影视作品。

而UE4则借助这些软件的资源(模型、动画、贴图、灯光等)可以实现与摄像机拍摄的画面进行实时交互的效果,并且实时渲染的逼真度也非常优秀。在这次节目直播中,虚拟数字人和接受采访的嘉宾进行了生动、有效的问答互动,使节目形式更加丰富。UE4起到了至关重要的作用,它是整个虚拟系统的核心,为观众提供逼真的特效,奇幻的场景和实时的互动。虚拟渲染服务器的性能也起到了支撑作用,Quadro RTX 6000的显卡渲染帧率每秒50帧,达到标准的高清制式。

图片

图2为数字人小C在虚拟场景中实时接收动捕数据并实时渲染。

2. 直播摄像机介绍

摄像机为4K专业PTZ摄像机AW-UE155KMC,20倍的光学变焦,广角最大可达75.1度,输出类型包括12G-SDI、3G-SDI、HDMI、光纤和IP,以及NDI(NDI|HX),支持自动跟踪功能,内置Free-D协议,Free-D协议是一种摄像机跟踪协议,可以将摄像机的实时数据包括水平旋转、推拉镜头、仰视和俯视、聚焦、变焦和光圈等通过IP(UDP协议)直接传输至虚拟合成系统。为了使最终的虚拟合成画面能够清晰、流畅,并且达到完美的抠像合成效果,需要将PTZ摄像机接入到虚拟系统的同步内,否则摄像机画面在移动的时候可能会出现卡顿的现象。同时配置了可以控制多台摄像机的操控台(AW-RP150MC),通过网络远程控制摄像机,不需要多个摄像师同时在拍摄现场就可以实现节目的正常直播。

图片

图3为多台4K专业PTZ摄像机正在进行拍摄前调试。

3. 无限绿箱简介

绿箱为4.5米×5.5米×2.8米的L形幕布,虽然空间不大,仅限在一个方向进行拍摄,但是在虚拟合成里加上无限绿箱后,则会变成360度全方位包裹的绿色背景,做一档访谈类节目,可以容纳3至4人。

4. 现场灯光简介

现场灯光主要使用了平板灯和聚光灯两种。人物的面部照明为5个LED平板灯,其中3个面光、两个为侧光。根据人物位置和角度调节面光和侧光的角度及光比。绿幕背景照明为7个平板灯,在面光照度的基础上调节背景光的照度和角度。色温均为5600K。除此之外,加入了人物的轮廓光,使人物和虚拟场景融合起来更加自然。

图片

图4为现场绿幕和灯光效果展示。

二、虚拟数字人与虚拟场景一体化制作

此次节目案例中,数字人小C与虚拟场景通过UE4进行一体化制作,虚拟场景主要以深蓝色为主,宇宙星空为背景,加上科幻风格的装饰。白色金属质感的央视网Logo十分醒目,加上灯光配合营造氛围,未来科技感十足。在UE4制作虚拟场景的过程中,需要注意几点,方便后续的调整和使最终效果符合视觉要求。

1. 尺寸比例

在三维模型制作软件里,长度参数是有基本单位的。比如Maya的默认单位为厘米(cm),3ds Max的默认单位为英寸(inch)或毫米(mm),UE4的默认单位为厘米(cm)。为了使虚拟场景的比例与真实拍摄的人物比例一致,最好将长度单位调至统一(这里推荐设置为厘米,与UE4相符),否则在场景合成的时候,会出现人物在虚拟场景里过大或过小的现象,给场景调试带来不必要的麻烦。

2. 场景坐标

虚拟场景的坐标也是需要注意的。根据需要,在实际拍摄场地内定义一个坐标原点,这个点有可能在绿幕中心,也有可能在摄像机脚下,可以自行设定。不过,最好设定在地平面上,也是为了设定虚拟摄像机位置时方便调整,而虚拟场景中的三维坐标原点(三维制作软件中的坐标为(0,0,0)的点)需要与实际场地中定义的原点,在同一个位置,这样将摄像机拍摄的画面,合成到虚拟场景中时,绿幕中的人和物体的位置,自然就会与虚拟场景的位置相匹配。否则当摄像机移动镜头(包括摇移、变焦)时,实际拍摄的人和物的位置会发生改变,增加了因位置错位引起其他麻烦的可能性。

3. 性能优化

UE4是可以实时渲染输出画面和声音的,所以虚拟场景中的物体、材质、灯光、反射等很多元素, 都有关于实时动态调整的设定,这样就必然会增加渲染服务器的计算负担,比如物体的可移动性、灯光的动态阴影、静态光烘焙等,再加上材质贴图的分辨率、光线跟踪、后期处理等诸多参数,都会影响到渲染的运算速度。因此,根据硬件的性能适当地调整相关参数,成为虚拟合成的主要工作之一。

一切以最终输出信号质量为标准,图5为在灯光作用下虚拟场景和现场实景抠像合成后的效果。

图片

4. 角色照明及实时动作渲染

此次节目案例中,数字人融入虚拟场景,同样需要考虑数字人的位置坐标、大小比例、性能优化等问题。包括虚拟场景的灯光,虚拟灯光分为场景灯光和角色灯光两种,场景灯光负责虚拟场景的整体照明,角色灯光指的是虚拟数字人所在区域的灯光,同实际舞台灯光一样,负责虚拟数字人在场景中的照明,其结果会直接影响到数字人的渲染效果和性能优化。在数字人做动作的同时,需保证光照均匀、色温一致,且与实际嘉宾的光线相匹配,尤其是面部照明,刻画数字人的脸部细节,提高虚拟数字人的逼真度。

数字人的实时动作渲染也是虚拟场景需要优化的一部分,为了动作流畅,虚拟服务器的显卡刷新率需要设置在60Hz以上,否则实时动作数据会出现丢包现象,虚拟场景的项目设置同样将帧率锁定在50帧/秒,确保数字人动作的连贯性,符合节目直播的要求。

三、虚拟演播室与虚拟数字人技术融合

通过UE4一体化场景设计,不仅将虚拟数字人小C的形象融入虚拟场景,而且通过UE4自带的Livelink,网络端实时接收数字人小C的全身动作捕捉数据和面部表情捕捉数据,并通过UE4渲染引擎实时渲染输出。

如图6所示,数据接收主机和虚拟人渲染主机通过演播室原有千兆交换机接入虚拟系统,驱动者穿戴上动捕装备后,其面部表情捕捉数据和动作捕捉数据通过千兆网络传输到虚拟人渲染主机和虚拟系统的两台渲染引擎,通过实时渲染,一台虚拟渲染引擎输出小C和现场嘉宾的全景画面,另一台输出现场嘉宾特写画面,虚拟人渲染主机输出小C的特写画面。通过灯光、摄像系统的统一调试,确保各画面中小C和嘉宾在光线、亮度、色度、对比度等环节保持一致,最终各画面送到导播系统,通过导播切换形成完整的节目播出画面。

图片

四、关键技术介绍

1. 动作捕捉技术

在这次节目直播中,数字主播的动作是靠实时动作捕捉技术来完成的。其采用的是可穿戴动作捕捉套装(Mocap)。此套装内有17支有线追踪传感器,其输出频率可达240Hz。配套的软件是MVN Animate Pro,可以多人同时动作捕捉,并且可以把数据实时同步到Unity或UE4。

相对于光学捕捉,此套装采用的惯性捕捉方式,是在人物的(不只是人,物体和其他生物也可以,或者某个体的局部)主要关节处固定惯性传感器(IMU)。其最大的特点就是准备时间短、操作简单,不受环境光线与空间距离的限制。要呈现可视化的回放和记录,还需要将信息捕捉的数据再经过MVN Animate Pro数据计算处理。计算方法主要是采用IK(反向动力学Inverse Kinematics)或FK(正向动力学Forward Kinematics),或IK和FK混合计算(IK/FK blend)。图片图7为MVN Animate Pro控制界面中对动作捕捉数据进行接收。

2. 面部捕捉技术

数字主播的面部表情相对于动作捕捉来说,会方便简单一些。这次节目直播采用带有ARKit和Animoji功能的手机(iPhone11和iPhone12), 通过“ 原深感摄像头(TrueDepth Camera)” 跟踪面部表情来进行捕捉数据。其原理简单概括就是基于人脸检测算法和SLAM算法(Simultaneous Localization and Mapping同步定位与地图构建),对人脸部分相应的位置变化进行计算。

对照人脸表情数据库,最后构建出三维的面部表情信息。iPhone手机需要安装Live Link Face应用程序,应用程序里设置虚拟服务器的IP地址和端口号(端口号自定义)。这里可以添加多个IP地址,以便多台虚拟服务器同时使用,同时在协议里选择对应虚幻引擎的版本号。然后在虚幻引擎里同样需要打开Apple ARKit和Apple ARKit Face support这几款插件,设置虚拟数字人的动画蓝图,将“Live Link Pose实时链接姿势”的动画节点添加到动画蓝图内,此节点选择手机端的实时数据,这样虚幻引擎就通过Live Link链接到手机的实时数据了,虚拟数字人的表情可以根据手机捕捉的动画实时联动了。

3. 数据传输技术Live link

实时数据传输采用Live link,它不仅在数据分析和游戏经营等领域应用广泛,在动画交互和影视制作领域也是如此。MVN Animate Pro将动作数据通过Live link发送至UE虚拟渲染引擎。在UE渲染引擎里,需要开启内置的Live link控件,将实时动作数据写入到虚拟数字人的动画蓝图里。当实时链接的数据传输状态正常时,虚拟数字人便可跟随驱动者一起实时舞动了。

做三维动画或游戏的同学都知道,一个人物模型的模型文件里,是可以有动画信息的。但动画信息导入到UE渲染引擎后,则无法调整动画细节,比如肩提高一些或者腿降低一些。如果要调整,需回到三维软件调整后重新导入UE,比较麻烦。而Live link的出现,使这些流程简化很多。在三维软件中调整动画的同时,可以通过Live link的实时数据传输,将调整的动画效果实时呈现在UE渲染引擎里,更直观地看到调整后的效果,极大地提高了调整动画的制作效率。这是Live link在这一领域的应用案例之一。补充说明,数据传输协议可以是TCP,也可以是UDP。

图片

图8为UE4中Live link控制界面。

4. 基于Free-D协议的虚拟摄像机跟踪技术

在虚拟系统中,如何保持多机位拍摄下,画面中虚拟场景、数字人小C与现场嘉宾的正确位置关系,是虚拟演播室能否成功的关键因素之一。否则在多机位切换或者摄像机做推、拉、摇、移等操作时,观众就会看到画面中数字人小C和嘉宾在虚拟场景中从一个地方跳到另一个地方,视觉上造成不真实的效果。

为此需要采用虚拟摄像机跟踪技术,该技术是虚拟演播室中一项关键技术,它可以获取摄像机在演播室中的实际位置参数和动作参数,从而判断摄像机、主持人、嘉宾与虚拟场景之间的相对位置关系,实时接收摄像机跟踪数据,锁定虚拟场景中数字人小C和嘉宾的位置关系。

央视网4K超高清虚拟演播室的摄像机跟踪方式不同于传统的机械传感方式。系统配备的4K专业PTZ摄像机支持Free-D协议(摄像机跟踪协议),实现摄像机运动检测和识别,其原理是将检测到的摄像机推、拉、摇、移、聚焦、变焦等操作,实时生成对应摄像机运动数据,再通过内置摄像机跟踪传输协议Free-D,将摄像机运动数据通过网络直接传输至虚拟系统中的3DTrackMaker软件,最后虚拟渲染引擎中的EM_cam(虚拟摄像机插件)实时读取3DTrackMaker中的摄像运动数据,从而锁定虚拟场景中数字人小C和嘉宾的位置关系,达到虚拟摄像机实时跟踪目的。

五、小结

《两会C+时刻》是央视网节目直播的一次突破,利用原有4K超高清虚拟演播室系统,通过技术融合,首次将虚拟数字人植入到虚拟节目直播中,实现了“虚拟+实景+虚拟数字人小C”的融合互动播出,为观众呈现出高品质的节目播出效果,用技术的方式呈现出更具吸引力的艺术效果。

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论