使用 GStreamer 的 WebRTC Plumbing

GStreamer 是历史最悠久、最成熟的媒体处理库之一。作为 Linux 和 WebKit 中的核心媒体处理元素，它在世纪之交就已推出，因此许多早期的 WebRTC 项目使用它的各种组件也就不足为奇了。如今，GStreamer 通过将各种元素流水线化连接在一起，扩大了帮助开发人员构建 WebRTC 堆栈的选择范围。此外，GStreamer 现在还为端到端 WebRTC 呼叫提供了许多新选项，包括 WHIP 支持。

作者：Matthew Waters，GStramer 咨询公司 Centricular 的顾问。
原文：https://webrtchacks.com/webrtc-plumbing-with-gstreamer/

GStreamer 简介

有些读者可能知道 GStreamer 并曾使用过它。对于新手来说，GStreamer 是一个基于图形的多媒体框架，其中的组件可以连接在一起执行多媒体任务。GStreamer 广泛应用于各行各业，包括但不限于太空小工具、安全摄像头、医疗设备、电话会议、引力波分析、无线电流媒体、非线性视频编辑等。GStreamer 支持多种不同的网络传输，如 RT(S)P、SRT、RIST、HTTP(S)等，WebRTC 是其中最新的一种。读者如果想了解 GStreamer 的一般介绍，可以参阅 GStreamer 文档。

GStreamer 有许多插件和元素，能以许多有趣的方式转换数据。项目生态系统还包括各种用于不同目的的“out-of-tree”插件和元素。其中一些元素与特定的硬件编码器或解码器相关联。有些元素在严格的多媒体相关流程之外的领域提供功能，如引力波分析。这种灵活性允许将所有这些构件（GStreamer 所称的元素）组合到一个管道中，以执行所需的任务。

就 WebRTC 而言，这种灵活性使得 WebRTC 连接的源可以是 GStreamer 已经支持（或可以开发）的任何内容，如本地摄像头、RT(S)P/SRT/RIST/RTMP/HTTP 网络源、录制或读取文件、HLS 流媒体、其他 WebRTC 调用等。反之亦然。接收到的 WebRTC 流可以转发到许多不同的位置。结合对许多硬件编码和解码元素的支持，GStreamer 可以利用其运行硬件的大多数方面。

GStreamer 与 WebRTC 的历史

让我们开始探索 GStreamer 的 WebRTC 之旅，简要介绍一下 GStreamer 获得 WebRTC 原生支持之前的情况。WebRTC 早期有几个有趣的项目：OpenWebRTC、Kurento 和 Farstream，一起来了解下。

OpenWebRTC

OpenWebRTC 是爱立信的一个研究项目，旨在为 WebRTC 应用程序提供移动友好的 SDK，当时 libwebrtc 还未在该领域取得一些进展。GStreamer 的 WebRTC 实现中目前可用的部分功能也是 OpenWebRTC 的一部分。如今，OpenWebRTC 已不再维护，而是指向原生 GStreamer WebRTC 支持。

Kurento

Kurento 当时仅限于 MCU 的功能，需要重新编码数据流。它的目标是为 WebRTC SFU/MCU 服务器提供完整的功能，现在仍然如此。因此，它的 WebRTC 实现非常高级，与 Kurento 架构的集成相当紧密。当时，Kurento 的信令基础设施是一个必要组件。如今，Kurento 只处于维护模式，并已被 OpenVidu 取代，我对 OpenVidu 没有任何经验。

webrtchacks 编辑注：

向 OpenVidu 团队进行了核实，他们证实 Kurento 确实依赖 GStreamer 来路由、转码和处理媒体，但该项目没有重大开发计划。OpenVidu 是更高级别的 API，因此支持其他媒体服务器，主要是 mediasoup。

Farstream

Farstream 是另一个使用 GStreamer 的老项目。该项目旨在为音频/视频会议应用提供必要的基础设施。它帮助支持的一些 GStreamer 元素包括原始 RTP 元素和 libnice ICE GStreamer 元素。

让 GStreamer 像 libwebrtc 一样

在这种环境下，我被要求实现一个封装 libwebrtc 功能的 GStreamer 元素，以便在 GStreamer Plumbing中使用。这个方法相当成功，但也有很多局限性。其中最有问题的是：

libwebrtc 不能保证提供稳定的 API
几乎不支持应用程序提供的视频解码器和编码器
构建过程非常复杂，需要依赖谷歌专用工具

有鉴于此，我决定研究结合 GStreamer 中已有的相关组件来构建 WebRTC 实现的可能性。

初始实现：webrtcbin

WebRTC 可通过 webrtcbin 插件在 GStreamer 中使用。在构建 webrtcbin 的过程中，我们首先研究了最小实现所需的功能。这项工作的一个强大动力是，用户可以使用自己想要的编码器或解码器，还可以灵活地使用任何类型的源媒体。这意味着 webrtcbin 主要关注的是传输和网络方面的问题，而不是数据编码的细节。很快，我们就列出了以下所需的组件（及其各自的实现）：

ICE – libnice 用于启动 ICE 连接的 GObject 库
RTP – GStreamer 现有的经过实战检验的 RTP 协议栈
SRTP – libsrtp2 以及在 OpenWebRTC 中实现的一些相关 GStreamer 元素
DTLS – OpenWebRTC 开发人员编写的一些与 OpenSSL 有关的 GStreamer 元素

信令

除上述内容外，我们还必须考虑如何处理信令。我们需要一种方法来处理 webrtcbin 元素之间、webrtcbin 与浏览器之间以及浏览器与 webrtcbin 之间的信令。我们决定模仿 JSEP：Javascript 会话建立协议（现为 RFC 8829）中概述的 Web 应用程序使用的 API。虽然在实现过程中仍有一些缺失，但我们的目标是最终支持 JSEP 的全部内容。

您可以在此处查看开放的 “JSEP “问题，也可以在此处查看所有开放的 “WebRTC “问题。

媒体

在媒体方面，webrtcbin 可以摄取这些媒体类型中的一种：

原始音频/视频帧
编码音频/视频 – OPUS/H.264/VP8/AV1 等
RTP 有效载荷数据包（GStreamer 术语中的 “payloaded”）

由于要求用户使用他们选择的任何编码器，webrtcbin 将最低的合理数据格式作为输入—— 单个 RTP 有效负载数据包。webrtcbin 可以处理包括 RTP 会话、DTLS 连接、SRTP 启动/解密和 ICE 连接在内的一切事务。

由于使用了 GStreamer 现有的 RTP 协议栈，一些 RTP 功能开箱即受支持。RTCP 和 AVPF RTCP 配置文件等功能从第一天起就已实现。对 PLI、FIR 和 NACK 的支持也从第一天开始就已实现。

经过一段时间的开发，webrtcbin 的初始版本于 2017 年 10 月在年度 GStreamer 大会上向公众发布。公开发布的视频录像可从 https://gstconf.ubicast.tv/videos/gstreamer-webrtc/ 获取。2018 年初，webrtcbin 被合并，并将成为 GStreamer 1.14 版本的一部分。

缩小功能差距

webrtcbin 发布之初，与 libwebrtc 的功能相比，GStreamer 对 WebRTC 的实现非常有限。为了缩小功能差距，我们重新实现了 libwebrtc 中的大部分功能。为了加快进度，我们使用了 OpenWebRTC 项目中的许多元素。

有些功能在最初实施后很快就实现了，因为它们已经有了一些现有的 GStreamer 元素。前向纠错（FEC）在视频方面使用 ULPFEC，在音频方面使用 RED，就像 libwebrtc 所使用的那样。libwebrtc 的 ULPFEC 版本与RFC 版本略有不同，但差别很小，但却很重要。重传 (RTX) ( RFC 4588 ) 基于其他使用 RTP 的场景中一些先前存在的 GStreamer 元素。其他一些可快速添加的功能还包括 TURN 服务器支持、添加一些属性以遵循当时不断变化的 WebRTC 规范。

下面简要介绍其他一些核心功能：

数据通道：集成了 OpenWebRTC 的 SCTP 元素，并实施了 DCEP 协商（RFC 8832：数据通道建立协议）。
RTP 捆绑：GStreamer 的 RTP 实现支持接收捆绑的 RTP 流。为 webrtcbin 添加了配置，以便在单个套接字上对多个 RTP 流进行发送和接收分组。
流重新协商：2019 年添加了对添加/删除 RTP 流的初步支持，但有一些限制，例如，未移除或重用transceiver/m-line时“已删除”的流将被标记为非活动状态。
DSCP：添加了差异化服务代码点支持，可为支持 DSCP 的中间网络设备标记不同优先级的流，从而提高网络拥塞期间的性能。
端口选择：公开 libnice 的最小和最大 RTP 端口范围，以控制发送/接收数据的本地端口分配，为网络防火墙后的应用程序提供帮助。
传输范围拥塞控制（TWCC）：对发出的数据包实施 RTP 包头扩展，对收到的数据包实施 TWCC 反馈，以监控带宽使用情况。配置编码器的责任在于应用程序或 webrtcsink 等父级元素。
同步广播（仅发送或仅接收）：添加了 RTP 级联播支持，可发送/接收同一数据流的不同质量。这涉及在 RTP 付载过程中添加 RTP 标头扩展（MID、RID）。
兼容性：努力支持具有不同 SDP 格式的远程对等设备，包括不同的数据通道格式、非捆绑对等设备、ICE-lite 实现、SDP 中的 ICE 候选设备，以及浏览器对等设备的 MSID 支持，以允许对流进行分组。
统计信息：与 Web 的 PeerConnection API 类似的接口，用于连接统计信息，但不适用于 webrtcbin 的编码/解码和打包。我们不断提高与 webrtcbin 范围相关的报告统计数据的质量和数量。

其他集成

虽然 webrtcbin 功能强大，支持多种应用场景，但在编写成熟的应用程序时，实施难度相当大。例如，拥塞控制功能必须针对应用程序使用的特定编码器来实现。RTX/FEC 设置在某些浏览器中也存在兼容性问题，TWCC 在不同浏览器中的表现也可能不同。所有这些都意味着每个 webrtcbin 应用程序都需要额外的工作。

为了降低实现成本，GStreamer 为一些有限的情况添加了辅助元素——webrtcsink 和 webrtcsrc。

webrtcsink

webrtcsink 是在 webrtcbin 基础上构建的第一个辅助 GStreamer 元素。webrtcsink 被设计为 “batteries included “的仅用于发送 WebRTC 的元素。它实现了几项附加功能：

通过与对等方协商，为一组特定的编解码器选择相关编码器
使用 TWCC 信息和 GCC（谷歌拥塞控制）算法的重新实现进行拥塞控制（rtpgccbwe 元素）
自定义信令实现，便于在命令行上使用。

该数据流的多个消费者可以对源数据流进行各自独立的编码，并可根据其特定的网络条件对数据流进行定制。例如，假设发送对等点的网络不是问题，网络差的对等点不会影响网络好的对等点的质量。

webrtcsink 还支持接收预编码流（H.264、H.265、VP8 等）。不过，它不能为您执行相关的拥塞控制。要使拥塞控制在预编码流中发挥作用，应用程序必须参与进来，对编码器的比特率进行相应的配置。

我们还在考虑实施比特率阶梯支持的一些初步想法。当一个数据流需要以不同的分辨率和比特率进行固定次数的编码，以限制特定数据流的编码次数时，就需要这种支持。

默认的编解码器包括 VP8、VP9、H.264 和 H265。应用程序也可以限制编解码器的选择。

此外，请注意 AV1 支持最近已被合并到上游合并请求中。

最后，还有一个自定义信令器实现，用于处理将 webrtcbin 生成的 SDP 和 ICE 候选文件传输给对等设备。如果应用程序需要与不同的信令基础架构通信，可以重写该信令器。要与不同的 WebRTC 相关服务集成，通常需要为 webrtcsink 或 webrtcsrc 编写信令实现。上游还有一些外部服务的信令实现，如 AWS KVS、LiveKit、WHIP 等（下文将详细介绍）。

在命令行中运行此功能可以非常简单：

gst-launch-1.0 -v \
  videotestsrc ! video/x-raw,width=640,height=480,framerate=30/1 ! \
  webrtcsink stun-server=stun://stun.l.google.com:19302 signaller::uri=ws://<your-signaling-server>:8443

插件的 README 是提供可用功能概述的最佳资源。

webrtcsrc

webrtcsrc 支持与 webrtcsink 相同的自定义信令，一个 webrtcsink 可以为多个 webrtcsrc 消费者提供服务。

webrtcsrc 支持将接收到的数据流内部解码为原始音频/视频，但也可以按原样输出编码（VP8，VP9，H.264等）数据而无需任何解码。

也可以选择启用自定义数据通道协议，以便将接收器上的导航事件转换为发送器。webrtcsink 支持相同的数据通道协议。

在命令行中，如下：

gst-launch-1.0 -v \
  webrtcsrc stun-server=stun://stun.l.google.com:19302 signaler::uri=ws://<your-signaling-server>:8443 ! \
  queue ! videoconvert ! autovideosink

其他 WebRTC 集成

为简化 WebRTC pipeline 开发，GStreamer 为一些 WebRTC 服务提供了信令集成：

AWS Kinesis Video Streams：我们的首个外部信令实施针对 AWS 的 Kinesis Video Streams，它支持从 GStreamer 向 AWS 传输流媒体的 webrtcsink 功能。

LiveKit：LiveKit 的信令器支持 webrtcsink 和 webrtcsrc 角色，并已提出合并请求草案，以便与 LiveKit SFU 实现同步广播。

Janus VideoRoom：Janus VideoRoom 的信令器支持 webrtcsink 功能，并有一个上游合并请求草案，以纳入 webrtcsrc 支持。

WHIP：新的通用 WHIP 信令规范的信令发生器已可用，允许客户端和服务器使用 whipserversrc 和 whipclientsink。

WHEP：两份关于 WHEP 信令的合并请求草案涵盖了客户端和服务器实现。该主题在 GStreamer 内部仍在进行中。

未来

以下是我们目前正在开展工作的一些主要领域。

Rust

内存安全编程语言是一种新趋势，尤其是在处理可能不受信任的数据时。通过网络接收的 RTP 数据包就是可能不受信任的数据的一个例子。畸形数据包不应导致错误的应用程序行为。因此，我们一直在努力用 Rust（一种内存安全语言）重新实现 GStreamer RTP 的部分基础架构。我们已经在各种元素中实现了多个 RTP 有效载荷器和卸载器。我们还用 Rust 重写了 RTP 会话管理。我们还没有做到这一点，但 Rust 最终可能会取代现有的基于 C 语言的实现。

librice

另一个可能涉及不信任数据的途径是 ICE。我们也在努力用 Rust 编写 ICE 状态机的 sans-IO 实现（可从 https://github.com/ystreet/librice 获取）。sans-IO 是一种设计模式，所有外部状态都作为输入提供给运行中的状态机。这为应用程序接口的用户提供了灵活性和可重用性。对于那些不想使用 sans-IO API 的用户，我们会在上面提供一个辅助的 rust async API。

使用 sans-IO 设计模式的主要原因是，为 webrtcbin 提供 ICE 连接的 libnice 目前使用 GLib 和 GIO 进行联网，而 GLib 和 GIO 的性能并不尽如人意。在 libnice 或 GIO 中添加对一些更新、性能更好的 IO API 的支持是一项复杂的工作。sans-IO 设计允许应用程序灵活地提供自己的（高性能）IO 或使用 librice 的异步实现。

此外，sans-IO librice 还有一些（对 WebRTC 并无用处）兼容模式，适用于需要非 RFC 兼容的 ICE 实现的老化环境。这就导致了一些实施的复杂性，而仅使用 RFC 的 ICE 实施则不需要这些复杂性。这阻碍了 libnice 新功能的添加。

WebKitGTK/WebKitWPE

作为 Web 框架/浏览器，人们希望通过一些 WebKit 端口来支持 WebRTC。这些 WebKit 端口已经使用 GStreamer 支持 MSE、<video>标签等的媒体播放。因此，将 GStreamer 用于 WebRTC 播放也是合理的。WebRTC 支持曾基于 libwebrtc。但是，对于嵌入式使用案例，libwebrtc 并不容易集成。目前的默认实现基于 webrtcbin。

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/jishu/webrtc/50700.html