流媒体公司正在寻求 AI 来大幅提高压缩性能并降低成本,总部位于伦敦的 Deep Render 公司声称其技术已经破解了这一难题。
对于流媒体公司来说,每一点都很重要。他们在保持质量和减少带宽的同时压缩视频的能力对业务至关重要。但是,随着内容数量和丰富程度的增加,现有技术的局限性正在承受很大的压力。
这个迫在眉睫的问题几年前就已显现,开发人员将 AI 和机器学习作为潜在的救命稻草。据估计,到 2030 年,AI 编解码器的市场价值将达到 100 亿美元,因此 AI 编解码器开发商成为首要收购目标。
AI 技术已被用于优化现有的编解码器,如 H.264、HEVC 或 AV1,方法是改进运动估计、率失真优化或环内滤波。
Harmonic 率先采用内容感知技术,利用 AI 根据内容调整比特率。
英国公司 iSIZE 建立了一个基于 AI 的解决方案,允许第三方编码器以较低的比特率制作更高质量的视频,该公司去年冬天被索尼互动娱乐公司收购。
第二种方法是构建全新的 AI 编解码器。加州初创公司 WaveOne 正在按照这一思路进行开发,但很快于 2023 年 3 月被苹果公司收购。
这给 Deep Render 留下了机会,该公司声称已开发出世界上第一个 AI 编解码器,也是第一个将其商业化的公司。
革命性的 AI 集成
Deep Render 是一家总部位于伦敦的初创公司,它避开了整个传统的编解码器模式,取而代之的是神经网络模块。
Deep Render 联合创始人兼首席技术官 Arsalan Zafar 告诉 IBC365:”这是压缩行业的 iPhone 时刻。”经过多年的努力和卓越的研发,我们打造出了世界上第一个原生 AI 编解码器。”
他声称,其技术“在压缩方面已经显著提高,甚至超过了 VVC 等下一代编解码器,并且其方法提供了将压缩性能提高 10 到 100 倍的机会,使压缩领域进步几个世纪”。
此外,其技术已经在 “主要出版商和大型科技公司 “试用,这些公司包括 Meta、Netflix、亚马逊、YouTube、Twitch、Zoom 和微软。
该产品将从 2025 年第一季度开始推广,然后转向中端市场出版商和专业消费者。
Zafar 称:”有史以来,该行业将首次从国际电信联盟支持的标准化编解码器转变为一家公司为所有主要内容提供商提供编解码器支持。”
动态图像专家组(MPEG)制定数字压缩标准已有 30 多年,但最近其垄断地位已被急于寻找竞争优势的流媒体视频服务所侵蚀。目前流行的标准是 2015 年首次开发的 H.265 / HEVC,其后继者是 VVC,但 Deep Render 声称其技术比 MPEG-4/H.264 好 80%,比 VVC 领先约 10%,随着算法的发展,到今年年底还将取得重大进展。
“我们正在与主要的内容出版商合作,将我们的 AI 编解码器嵌入他们从编码器到解码器的整个内容交付链,以及中间的所有网络层,”Zafar 说。”我们将确保所有数据都能正常工作,并建立这种关系,让他们乐于依赖我们的编解码器,并让我们成为他们的主要编解码器供应商。他们将逐渐摆脱对 MPEG 编解码器的依赖。我们希望所有主要的内容发布商都使用 Deep Render 编解码器。”
潜在的成本节约
Zafar 毕业于伦敦帝国理工学院,主修航天器工程、计算机科学和机器学习。2019 年,他与帝国理工学院计算机科学专业的同学 Chris Besenbruch 一起创办了 Deep Render 公司。公司现有员工35人,去年获得了欧洲创新委员会210万英镑的资助,并在IP Group和Pentech Ventures 领投的风险投资中筹集了 490 万英镑。
公司的信心来自于一个需要解决的实际商业问题。Netflix 等大流量流媒体占用的带宽越多,它们向互联网服务提供商(ISP)等内容传输网络提供商支付的费用就越高。
Deep Render 公司估计,像 Netflix 这样的流媒体公司如果改用它的技术,每年可以节省超过 10 亿英镑的内容传输成本。
“全球在线发布的内容呈指数级增长,但现有的编解码器的收益却在递减,” Zafar 辩称。“如果将这两件事结合起来,对任何企业的未来来说都不是好事。”
他断言,YouTube 和 Twitch 传输大量内容需要付出巨大的带宽成本。“他们确实感受到了痛苦,并希望削减数十亿美元的内容传输成本。最简单的方法就是使用更好的编解码器。”
流媒体公司与电信公司在网络传输成本问题上一直存在矛盾。电信公司认为,流媒体应该支付更多费用。内容出版商知道自己的商业模式受到了威胁,因此进行了反击。
Zafar 说:” ISP(网络业务提供商)可能明天就会大幅提高传输费用,或降低流媒体的分辨率或帧速率,或者限制其在热门地区的带宽。对 ISP 的过度依赖威胁到了流媒体的商业模式。降低 ISP 杠杆率的一种方法是采用更好的压缩方案,这样压缩本身就不再是问题了。”
现有压缩的问题
传统的视频压缩方案可以说已接近效率的极限。基于 MPEG/ITU 的编解码器经过近 40 年的反复改进,运动估计、预测和变换编码算法的大部分重大改进已经实现。每一种新的编解码器都会增大数据块的大小,增加更多的参考帧,但这种情况持续的时间是有限的。
压缩效率的提高往往伴随着计算复杂度的增加,这对于实时应用程序或处理能力有限的设备来说可能是难以承受的。例如,每增加一个新编解码器,编码成本就会增加约 10 倍。
传统方法也很难将人类的视觉系统考虑在内。Zafar 认为,感知极限已经达到,因为我们对视觉的工作原理缺乏严格的理解,也无法用数学方法记录下来。然而,从数据中学习的方法可以学习这些模式,并最终实现这一点。
AI 压缩的优势
AI 编解码器使用算法分析视频的视觉内容,识别冗余和非功能性数据,并以比传统技术更有效的方式压缩视频。
基于 AI 的方案使用大型数据集来学习最佳编码和解码策略,与固定算法相比,能更有效地适应不同类型的内容。
其次,AI 模型无需将过程分解为单独的步骤(例如运动估计和变换编码),而是可以学习以端到端的方式执行压缩,从而共同优化整个过程。这使得编解码器更具情境感知能力。
AI 模型还可以直接进行优先感知质量的训练,通过关注人类观众最容易注意到的特征,以较低的比特率获得更好的视觉质量。
基于软件不仅意味着 AI 编解码器性能更佳,因为它们不依赖于专业硬件,而且手动破解和更换系统的费用和时间也变得毫无意义。这也意味着引入下一代编解码器的传统 6-8 年周期可以大幅缩短。
“这才是它的真正魅力所在,”Zafar 说道。“你可以在一夜之间用一整套新参数高效地传输新的编解码器。更新过程极其简单,而且由于不再需要专用芯片,因此成本大大降低。”
与传统编解码器(固定的、一刀切的系统)不同,AI编解码器可以针对特定内容进行优化,从而进一步提高效率。
Zafar 表示:“世界杯足球赛的流媒体播放量在 5 亿到 10 亿之间。针对足球比赛数据集进行专门训练的 AI 编解码器,在这种规模的流媒体中,每比特的成本将大大降低。”
Deep Render 表示,它将根据客户自己的数据为客户优化其内容专业化算法。
其他人工智能优化技术也正在进行商业应用评估。Bitmovin 等公司正在尝试使用人工智能动态优化编码参数,提高效率和视频质量。
Nvidia RTX 视频超分辨率使用 AI 驱动的后期处理,通过去噪、超分辨率和消除伪影来提高视频质量。
MPEG 目前正在研究使用基于学习的编解码器进行压缩,并在最近的会议上对此进行了报告。
MPEG 创始人 Leonardo Chiariglione 目前负责 AI 运动图像、音频和数据编码 (MPAI) 计划,并正在开发一套 AI 驱动的系统和标准,尤其是名为 EVC 的端到端视频编解码器。
但对于流媒体的紧急需求来说,这些齿轮可能转得太慢了。
“我们利用 AI 从头开始构建了一个全新的端到端、数据驱动、感知优化的编解码器,”Zafar 说,“他还制作了一门 AI 编解码器入门课程。运动估计、预测和变换编码等所有模块都包含在这个神经网络中。”
不过,有鉴于此,必须注意的是,AI 视频压缩是一个新兴领域,未来还有很多研发工作要做。
一个潜在的重大障碍是,部署基于 AI 的编解码器需要与现有的视频播放和流媒体基础设施兼容。另一个障碍是,AI 编解码器目前缺乏通用标准,这使得全行业采用更加困难。
Zafar 说,Deep Render 正在为 Deep Render 的标准化敞开大门。标准化过程会带来很多低效,我们更倾向于快速发展,但标准化并不是完全没有可能。它有一些好处,比如在客户中建立信心。”
至少要到 2025 年或以后,才有可能使用 Deep Render 压缩 8K UHD 视频中的数据。
“人工智能编解码器正处于开发周期的初期,” Zafar 说。”我们的内部研究显示,这些编解码器的性能明显优于其他编解码器。这些技术将在明年趋于成熟,在压缩性能方面带来前所未有的提升。我们还只是刚刚触及表面。”
作者:Adrian Pennington
原文:https://www.ibc.org/features/streamers-look-to-ai-to-crack-the-codec-code/11060.article
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/49822.html