直播+X——直播行业新趋势

编者按：人类对感受与体验的不断追求，趋势音视频技术迅猛发展，音视频服务以前所未有之势被各行业强烈需要。如今，直播已然是一个所有人耳熟能详的名词，直播业务和生态，以及关键支撑技术，都在持续演进和迭代，生机勃勃。本次LiveVideoStackCon 2023上海站邀请到华为云陆振宇为大家分享如何在直播行业让“老树长新芽”。

文/陆振宇
编辑/LiveVideoStack
原文/https://mp.weixin.qq.com/s/66opAoJveHZONs25XMaxBQ

大家好，我是陆振宇，来自华为云。为了既能覆盖绝大数听众的参与感，又能让大家收获满满，我选择分享“直播+X”主题，主要介绍直播行业新趋势和玩法。

直播行业趋势

我们团队一直在总结过去，是为了预测未来或尽可能把握未来，核心观点如下：

一、多媒体技术，尤其是直播技术，并不是当下人们所认知的采集、编码、传输、播放及端侧轻度渲染的技术栈，直播或是流媒体是多种技术综合并且不断演进的体系：

①采集侧的发展：从古代人们作画、到愈发清晰的照片、再到更清更炫的电影大片的虚景制作技术。

②视频分发和消费方式的发展：最早是电视使用无线信号传视频，后来出现了互联网，出现了直播视频。“流媒体直播”这个名字是互联网加摄像机的采集，到PC机，所构成的当下大家所认知的技术栈。

③端侧的发展：从电影院电视机、到PC机、手机，再到各种各样的沉浸式设备。据我所知，中国移动也在推动裸眼3D产业发展，一块和手机或Tab没区别的屏幕却可以随时将内容转变为裸眼3D，并且效果非常惊艳。

从生成到传输及消费再到终端，它们是以综合的技术通过不断演进的方式在发展。我们团队预测，在未来视频生成方式会发生革命性变化，未来的二十年是所有从业者需要把握的机会。从前的视频是拍摄出来的，通过3D建模渲染生成的，以后我们应该更多地使用AI生成内容。此外，传输及分发方式也会发生重大变化，将跨越各种时空限制，不再只是单向地看视频，当内容显示设备变为沉浸式后，人会以数字人的形式进入空间，和视频产生更多互动。

以上是我们把握整个直播和多媒体行业的第一个要点，大家不要因为今天的产业所遇到的困境就困在当下，而应在未来找机会。

二、不断的技术进步背后的驱动力是消费者的体验，消费者对体验的追求时无止境的.通俗来讲，当下我们经常做的事情是幻想皇帝也吃十个馒头，用金锄子锄地，但在未来，一旦有了技术创新，人们的需求便会随之升级。我们在家看4K大片很开心，那么孩子在我们这个年纪会追求什么体验，所以要多去了解孩子心中的想法，并实现他们的梦想。

技术的综合及体验的不断升级是促使产业发展的动力，也是华为云在做所有的业务设计和战略设计的出发点。

接下来缩小范围，站在2023年的角度，我们可以看到直播正在不断突破时空限制，其适用范围和场景越来越多，主要有以下两点发展趋势：

1. 直播在中国，尤其是内地，从非常成熟的体系逐渐变为全球化的基础设施和能力。

在中国，这套体系非常成功，于是在海外很多地方都是降维打击。我们遇到过一个有意思的案例，有位用户对华为云的低时延直播非常感兴趣，认为适合他的业务体验，于是我们对其业务进行测试，然而结果并不理想。查明原因后，发现主播在乌克兰，观众在新加坡及其他东南亚国家，而客户对我们的要求是500ms时延。如果用国内的惯性思维看待这件事，那么我们所谓的“低时延直播”就是假的，光是从乌克兰推流至新加坡就有十几秒。这就启发我们要进行大量的优化将其变为跨越全球的直播服务，这是突破时间和空间的限制。当然最后也实现了将时延控制在500ms。这就是我所说的不断延伸服务的时间空间范围。

此外，许多直播场景越来越火，比如直播带岗是招聘行业最有效的转移方式，此外还有跨境带货、最近很火的弹幕游戏，它们都在丰富直播的玩法。直播不仅是娱乐行业的基础设施，更在不断地攻城略地，帮助其他行业提高生产力。

2. 超越“真实”，直播从拍摄内容到生成式直播。

左侧是传统以PGC/UGC拍摄为主的视频，内容是同一视角，1/N的分发。所以我们讨论的技术是CDN降本，最多消耗一点存储。

现在有非常多生成式内容，主要分为两个技术体系：

1. 实时渲染的生成式，通过计算机图形渲染引擎生成。我们准备用三角形把一个场景的物体和人全部建模出来。如何表达，并且使其变为人眼能够接受的高质量内容，这其中包含大量GPU算力，观众和内容的互动是1：1。

2. AIGC生成内容生成式，最典型的应用是数字人直播，包括很多AI推理的算力消耗，也是观众视角1：1。

AI会代替实时渲染吗？我认为不会，我认为CG和CV会深度融合，互相补充和促进。

原因如下：首先，如果AI推理在生成视频角度做到60fps/s，这就是直播。但目前在复杂场景如3D场景做到1080p/60fps是不可能的。其次，基于图形渲染在一些场景是不可替代的，例如工业场景需要人或模型的精度是1cm，这就必须用图形渲染处理，AI方法无法处理。

所以CG和CV技术在未来很长一段时间会深度融合，只有同时做好，才能够做好生成式内容。

另一个很大的变化挑战是内容是否必须1：1分发？需要怎样的带宽算力？如何大规模普及？这就需要运用一些技术做以存代算等，使得将来的分发介于完全点对点RTC和缓存加速的CDN状态。以上这些并不是在展望未来，不是期货，而是现货，是华为云正在进行的实践。

直播+X在演进中面临很多挑战，时空范围不断扩大，我们如何服务好全球的用户？如何满足他们时延安全，合规体验的要求？如何真正地做到遥遥领先，持续升级产业，让生成式的直播业务快速规模地带来价值？如何平衡算力消耗指数级的增长、点对点带宽的占用及时延的挑战？如何降低复杂的技术门槛？

突破时空限制

接下来介绍华为云所做的相关实践。

在突破“时空”限制方面，存在很大的机会。

其实我不太认同“业务出海”这个词，无论中国人出不出海，海外业务都在那里。我更关注本土业务，直播的收入空间非常大，这里指的是狭义的直播服务空间。可以看到从业务成熟的角度，亚太先行一步，因为在东南亚，我们已经熟悉的这一套体系比较完整，其次是北美和欧洲，目前南美增长非常快，快手已然成功在南美出海。

变化在海外不新鲜，2012年YY上市，是国内的先行者，2013年我在华为东南亚工作时，有一个同事在印尼开秀场直播，当时我并不理解。因为当时直播在东南亚只有文娱业务，而现在直播在这些区域是生产力工具。在亚太地区，大家都已经接受了直播的跨境电商，直播授课，全球竞技无论是在北美、亚太、欧洲都有当地的对标虎牙斗鱼的游戏直播平台，目前有越来越多跨国虚拟演唱会、虚拟社区等生成式场景。

以东南亚为例，直播电商规模在今年达到190亿美元，并且以直播作为生产工具的，对于行业来说赋能的商业闭环的基础设施正在充分成熟，包括支付及基本网络。我们对比中国和印尼的所有厂家建设直播带宽总量除以人口数，得出结果目前的印尼直播规模相当于中国2018年的水平，而2018年的国内直播已经可以随心所用，只要用户需要，CDN供应商都会扩。网络基础设施到位后，华为为这些国家建了5G基站，光纤到户，这样便有了足够的商业闭环，使得直播不只用于看电视或秀场内容，而变为了生产力工具，拥有相当大的可以发展的空间。

不只是中资出海，华为云更关注如何扎扎实实地找到并服务好本地客户。

中东是蓬勃发展的市场，其特点是非常喜欢网红直播，可能是供需不平衡所导致的。中国的MCN运行方式在中东蓬勃发展，这也是很大的机会。之前中东在5G方面存在一些问题，但这两年，其基础设施正在快速改善。

在拥有如此多的机会和如此大的技术空间前提下，我们的实践是如何高质量地帮助客户在全球化语境下开展业务，并不是走到中东当地为中东客户服务，而是如何为全球客户在全球的业务提供服务。通常，大家的惯性思维是用户在中国，推流在中国，播放也在中国，但在实际业务中，我们发现事实并非如此。在实际业务中，推流、推到源站、推到CDN及最后观看的观众都不在一个国家，这是一大挑战。

为了克服以上挑战，我们需要做到以下几点：

1、解决本地覆盖问题：对于云厂家来说，拥有大量资源就拥有了天然的优势。华为云过去两年，在全球很多地方新开服了Regions。我去过一些现场比如印尼，后续还有土耳其、沙特、南非，目前在全球已经有29个Regions，并且都是高标准的3AZ，大规模的CloudOcean/CloudSea方案，助力Regions提供海量算力和周边连接的资源加起来有83个AZ和超过2800个CDN节点。

2、解决跨区互联问题：拥有足够的基础设施后，如何更好地服务客户解决上文提到的挑战和场景？例如那位乌克兰主播，他的需求促使我们做了一些事情：原来做的ADN网络，是Overlay在CDN的一张叠加网，这张网络在海外也要布才能解决此问题。理解起来有些抽象，原来的CDN网络是树状结构，我们在上面Overlay了一层3、4层的加速网络，是网状的，互相之间做节点探测，进行多因子的最优选路路由，使我们提供了一张低成本高质量的Overlay的三层网络。

原来的CDN全部是南北向流量，是为了解决1：N的问题，现在我们的资源还可以为大家解决东西向的问题，如果业务中间不管哪个环节，比如云游戏云手机或其他场景，但凡有消费比较高，带宽平均价格高于10元的，都可以使用这个方案。更重要的是把南北向流量质量在全球化语境下做到最优，右侧是具体例子，如何在全球语境下做到海量节点，综合各因子最优选路。

按照过去的惯性是只考虑国内的一张网，但在做全球业务时，是将几十甚至上百张网拼接在一起，每张网上有不同运营商的节点，节点质量各不相同，跑的每个客户的业务也不相同，或是每个用户有多种业务。原来的路由选择及质量调优参数选择是针对国内一张网的场景，一个客户一个业务只需要一套参数即可。而全球语境促使我们将所有国家的所有运营商的所有节点，及所有客户的业务做到参数隔离及每一个参数基于大数据的自动调参，才能使对于不同租户选择不同选路策略的网络平面，满足租户业务特征SLA要求。

3、解决低时延分发问题：大家低时延技术都很熟悉，而低时延直播，本质是谷歌最早的技术在中国被更快更早地产品化，当然海外很多CDN创业公司也选择了这个赛道。虽然国内做的产品在海外深受喜爱，但使用受限是个问题，使用场景最大的限制来自与生态，来自于适配CA/DRM这一套生态上的天然短板。所以我们在这里呼吁整个行业相关友商联合起来，将这套国内的快直播低时延体系在DRM方面一起努力推动找到办法，从而使整套中国标准占据优势。

其实我们对接海外用户时很痛苦，不知道大家是否还记得MSS协议，它是微软smooth streaming，一个非常古老的协议。在海外由于生态原因，一些三星智能电视要求我们做MSS，还好华为都做过，能够从历史代码库中移植过去。研究低时延直播生态问题很有价值，它是未来直播的方式，未来的直播、内容、交互、显示都需要低时延，我们是否可以向微软、谷歌、苹果学习，抱团在这个生态打出自己的声音。

4、解决全球运维效率问题：拥有客户网络后，进行全球运维最主要的就是可视化，上文提到的调度、多客户匹配，前提是做到可视化，主要是流量级和应用级可视化、质量可视化、带宽可视化。

这里涉及到在ADN的Overlay的网络上大量的数据采集。

这是一个低时延直播案例，是土耳其用户和印度用户的Co-Watching，一边看直播一边玩小游戏，小游戏需要观众看了直播后在很短时间内给出反应，因此留给从采集到播放只有500ms，客户用HLS、DASH、CMAF的方案都没搞定，最后只有华为低时延直播或快直播的方式才能满足其业务需求。

超越“真实”

前不久，我们在杭州直播基地参加了一个闭门的现场会，未来20年的趋势就是AIGC，已经有很多用户明确表示会all in AIGC，但对很多人来说AIGC又很遥远，是否还是ChatGPT，还是大模型，主要靠发布？我们去了数字人直播基地，规模不大，但基地在4月15日解雇了所有主播，并且全部换为了数字人直播。我们去学习了如何运用数字人直播，这对华为意味着什么，我们的机会在哪里？

交流之后，我们认为AIGC的机会非常大。这里包括非常多应用场景，举几个例子，国内外很多电视台的经营其实并不好，比如凤凰卫视的技术团队人数很少，他们对于使用数字人技术进行内容播报非常感兴趣。再比如数字人直播带货以及部分商场出现了数字永生相关店铺，能够数字化老人和小朋友，进行情感陪伴，这些场景虽然还很初级，但共同表现了这就是未来的发展趋势。在元宇宙方面的场景更多，如在线游戏、虚拟偶像等，这已经不是文娱行业或者流媒体技术带来的变化，而是在全行业成为生产力要素。

接下来和大家分享两个成功的商业案例：

1、东南亚跨境带货：据不完全统计，每天跑的业务在一万路以上。其中包括大量的数字人直播，背后的最大驱动力是压倒一切低成本，如在东南亚卖一双鞋，20个国家有20种语言，去找20个主播来播显然不现实，那么就可以购买一位数字人主播，一天24h直播，无论是印尼语、马来语还是其他语言都会说。我可能是分享会中唯一会说印尼语的人，但并不重要，我的数字人分身能够说20种语言。数字人的出现解决了语音障碍，填补了真人主播的空档。

2、社交领域案例：图中这位女士原来是互联网的网红，有184万粉丝，年收入100w美金。她开启了虚拟女友服务，有很多人订阅，目前她的年收入达到6千万美金，比肩Taylor Swift。国内如果有伙伴想做类似业务，我们完全可以支撑。

3、3D空间案例：这个比较简单，数字人在元宇宙空间看直播。图中是华为自己的直播发布。

以上这么多场景，这么多创新，已经有先行者摘到了果实，那么我们如何在这个行业里服务好做业务创新的伙伴，核心问题是算力成本和传输成本，以及如何降低技术使用门槛的问题。

华为云的解决方案是研发了品牌MetaStudio数字人直播，它有三大能力，模型制作、直播话术及一卡十路，分别对应入门门槛，有效运营及快速降本问题。最后通过渲染(主要对应一卡十路)驱动数字人。

模型制作有三种方式：

1. 文字生成数字人：文生图，图生人，本质是文生数字人。输入对形象的描述，10s左右即可生成数字人，可以被后续驱动。

2. 照片生成数字人：一张照片，一分钟生成数字人。

3. 视频生成数字人：更多用于数字人直播场景，需要五分钟语料，训练3-6不等，生成数字人形象。

除了形象，数字人还要说话，对此，我们提供三种音色服务：

1. 预置音色：是免费的类机器人声音、

2.音色克隆：效果是典型的新闻联播音色，提供3-5min音频，用户能够在录制视频时直接说话，一并提交即可。虽然音色是本人的音色，但没什么情感，平铺直叙，以新闻联播方式播送内容，还原度可达80%，能够满足部分场景。

3.高保真音色克隆：在带货等场景需要更接近人声的音色，这就需要高保真音色克隆。需要2-5h录音棚级别声音素材进行训练，可以实现对用户说话时的习惯，甚至自身无法查觉的发音口头禅、停顿及情绪变化进行训练，还原度95%，成本也更高。

图中是分身数字人模型演示。训练模型的时间在3-6h，用户只需选择背景，输入话术，包括对弹幕礼物打赏的反馈，即可开启数字人直播。

这里需要澄清的是，虽然提供了这个平台，但华为并不会做其大量业务迭代的能力，因为我们的定位并不是自己造很多人然后运营，而是帮伙伴高性价比、高质量地造人，提供服务。所有能力后台都有API，希望伙伴客户通过API方式使用能力。欢迎伙伴们通过平台来试用，但还是要强调本身能力变成在数字人直播或其他运用场景大杀四方的SAAS平台并不是华为的定位。

此外，我们还提供数字人直播话术大模型，模型有很多，但客观地说不能信赖任何大模型。毕竟想仅仅依靠数字人直播，用ChatGPT，直播就火并不现实。于是，顺势而生了新职业——数字人直播运营师，许多从业者是聋哑人，这快速解决了聋哑人就业问题。聋哑人说话的意愿非常强烈，奈何生理限制，但他们的优势是做事更专注，成为数字人直播运营师并在盘古大模型或ChatGPT的加持下，他们可以不断优化迭代直播话术或直播运营，并且从中找到和人交流的快乐。