D3T:Deadline-aware的实时视频流传输控制框架 | ICNP 2021

近年来,实时应用程序的截止日期要求迅速增加(例如云游戏、云虚拟现实、在线会议)。由于网络条件的多样性,满足这些应用程序的截止日期要求已成为研究的热点之一。然而,当前的方案主要关注提供高比特率而不是满足截止日期要求。在本文中提出了一种灵活的截止日期感知传输机制(D3T),旨在改善实时视频流的用户体验(QoE)。为了满足波动的网络条件下的不同截止日期要求,D3T使用一个截止日期感知的调度器,在截止日期之前选择高优先级的帧进行传输。为了减少拥塞和重传延迟,利用深度强化学习算法根据观察到的网络状态和帧信息做出发送速率和前向纠错(FEC)冗余比例的决策。我们通过涵盖多样的网络环境、视频内容和QoE指标的基于跟踪的模拟器对D3T进行评估。D3T通过减少截止日期之前的带宽浪费显著提高了帧完成率。在考虑的情景中,D3T在平均QoE改进方面优于先前的方法,提升了57%。

作者:L. Zhang, Y. Cui, J. Pan and Y. Jiang
来源:2021 IEEE 29th International Conference on Network Protocols (ICNP)
标题:Deadline-Aware Transmission Control for Real-Time Video Streaming
链接: https://ieeexplore.ieee.org/document/9651971
内容整理:鲁君一

简介

近年来,实时视频流媒体,包括在线会议、多部分互动直播、云VR、云游戏等领域,对端到端严格的延迟约束要求(即截止时间)迅速增加。例如,云VR应用程序应在25毫秒内提供运动到像素的延迟。其他实时视频流媒体应用程序也有类似的需求。不同的截止时间要求在实时应用中普遍存在。

本文关注复杂网络环境下面向具有严格时限要求的实时视频流应用的基本传输问题。端到端延迟由三个部分组成:

  1. 发送方的排队延迟。如果应用数据的速率高于发送方的发送速率,数据可能会在发送方的数据包缓冲区排队。
  2. 重传延迟。在丢包率高或往返时延(RTT)高的网络中,拥塞和随机丢包经常发生在数据包交换网络中。快速恢复和重传超时都会至少增加一个往返延迟。
  3. 网络中的排队延迟。如果发送方的发送速率高于可用带宽,数据可能会在网络缓冲区排队。

为了解决这些基本的延迟问题,考虑提供一个调度器来解决发送方的排队延迟,利用前向纠错(FEC)方案来减轻重传延迟,并利用拥塞控制算法来避免网络中的排队延迟。然而,预先确定的调度器、FEC和拥塞控制方案的策略无法处理由各种网络条件和应用要求引起的复杂情况。机器学习方法为复杂问题带来了机会,并使得灵活决策成为可能。尽管通过深度强化学习(DRL)算法使用单个模型来学习调度器、FEC和拥塞控制策略是可行的,但训练过程面临着高维状态/动作空间和复杂的优化函数。

为了解决上述问题,提出了一种截止日期敏感的传输系统D3T,旨在通过满足时限要求来提高QoE。为了简化代理训练,设计了一种启发式调度算法,并针对调度器、FEC和拥塞控制进行了DRL代理的训练,因为它们之间存在紧密的耦合关系。

架构

D3T的架构如下图所示,部署在发送方。开始时,实时应用程序在发送方持续生成新的帧,每个帧存储在帧队列中。调度器选择要发送的帧并丢弃过期帧。如果帧将错过截止日期,FEC编码器将根据DRL代理器提供的比率生成冗余数据包。这些冗余数据包与原始数据包一起被传输到拥塞控制。如果帧不需要添加冗余数据包,则直接发送到拥塞控制。然后,拥塞控制负责监测网络状态并从DRL代理器获取发送速率。发送方根据决策通过网络将这些数据包发送到接收方。另一方面,接收方将接收数据并解码每个帧。

D3T:Deadline-aware的实时视频流传输控制框架 | ICNP 2021
图1

利用先进的连续动作空间强化学习算法Soft Actor-Critic (SAC) 来训练代理器。代理器接收帧信息和网络状态,并在每个决策间隔中输出FEC冗余比率和发送速率。发送方负责定期估计网络状态。网络状态包括平均延迟、丢包率和吞吐量,并在发送方进行统计。接收方向发送方发送ACK。根据ACK计算帧完成率和网络状态。上述信息不仅提供给调度器,还提供给DRL代理器。

细节设计

Deadline-aware调度器

当带宽资源不足时,实时应用程序生成的帧会不断积累在发送方。调度器决定帧的发送顺序并丢弃过时的帧。截止时间感知的调度器的目标是在截止时间之前尽可能传输更多的高优先级帧。为了实现这个目标,在设计调度算法时需要考虑优先级、截止时间和网络状态。

调度器根据公式1和2计算帧队列中所有帧的剩余时间(remaining time)和权重(weight),选择⼀个权重最⼩的帧发送。

D3T:Deadline-aware的实时视频流传输控制框架 | ICNP 2021

其中,已过时间(pass time)是帧在帧队列中等待的时间。剩余大小(remain size)是帧中未发送的数据包数量。估计的往返时延(estimated rtt)表示当前的往返时延。帧的优先级从高到低可以定义为从0到N-1(例如,有N个优先级级别)。例如,在视频流传输中,I帧的优先级为0,B帧为1,P帧为2。公式(2)中的最大优先级(max priority)等于N。

强化学习DRL代理

前向学习任务中,FEC冗余和拥塞控制问题被建模为深度强化学习任务。DRL代理提供一个动态策略,将当前观测(即状态)映射到冗余比率和发送速率(即动作)。如下图所示,展示了D3T的actor-critic框架的组件。

D3T:Deadline-aware的实时视频流传输控制框架 | ICNP 2021
图2

自适应冗余

如果当前帧的剩余时间超过了截止时间,前向纠错(FEC)编解码器将不会执行。否则,如果帧的剩余时间少于两个往返时延(RTT),或者在更大可用带宽下可能会发生损坏的帧,则会从原始数据包生成冗余数据包。

拥塞控制

拥塞控制调节每个发送方的发送速率,以最大化吞吐量,最小化排队延迟和数据包丢失。具体而言,拥塞控制监视网络状况并提供网络测量数据,如吞吐量、往返时延(RTT)和丢包率。这些网络状况数据被提供给调度器和代理进行决策。本文中,我们采用发送速率作为决策依据。在每个决策周期中,拥塞控制从DRL代理获取发送速率。发送方根据当前的发送速率持续发送数据包,直到从代理获取新的动作为止。

性能

QoE性能:首先将其与现有的传输方法进行比较,设置了具有各种往返时延(RTT)和丢包率的网络跟踪数据,以测试不同解决方案的灵活性。下图显示了每种解决方案在跟踪数据集中实现的平均QoE。在各种网络条件和QoE指标下,D3T相对于现有解决方案的平均QoE改进达到了57%。对于QoE lin,D3T的平均QoE比平均而言高出11%。对于QoE log和QoE hd,D3T的表现分别比其他方案高出135%和26%。固定策略的基线解决方案在有丢包的网络中带宽利用率较低,并且不能有选择地增加紧急帧的FEC冗余。而D3T根据其关于FEC冗余和拥塞控制的灵活策略提供了更好的性能。

D3T:Deadline-aware的实时视频流传输控制框架 | ICNP 2021
图3

帧完成率:除了展示总体QoE性能的结果外,还选择不同类型的视频并进行了帧完成率和相应QoE的实验。实验结果证明D3T相对于现有解决方案平均提高了16%至52%的帧完成率,这是由于D3T的自适应FEC冗余和拥塞控制策略。

总结

本文提出了一种名为D3T的灵活的、具有截止日期感知的传输系统,该系统配备有截止日期意识调度程序和自适应的深度强化学习(DRL)代理,用于前向纠错(FEC)冗余和拥塞控制,无需任何指示即可满足截止日期要求。截止日期意识调度程序在截止日期之前选择高优先级帧,并丢弃过时的帧,以避免带宽浪费。

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论