ChatGPT遇上WebRTC：生成式AI对实时通信意味着什么

ChatGPT正在改变计算，并作为一种延伸，改变我们与机器的互动方式。下面是它将如何影响WebRTC。

ChatGPT 成为所有互联网应用程序中增长率最高的服务，在推出的头两个月内就达到了 1 亿活跃用户。一些人每天都在使用它。其他人正在尝试使用它，许多人听说过它，我们所有人都会以这样或那样的方式受到它的影响。

我一直在试图弄清楚“ChatGPT WebRTC”二人组到底意味着什么，或者换句话说，ChatGPT 对我们这些从事 WebRTC 工作的人意味着什么。

以下是我到目前为止的想法。

关于ChatGPT的速成课程

让我们首先快速了解一下 ChatGPT 到底是什么（用外行的话来说，需要大量的操作，并且可能在此过程中会犯很多错误）。

BI、AI 和生成式 AI

我将从我为一群想了解这个问题的朋友所做的演讲而拼凑的几张幻灯片开始。

ChatGPT是一个利用机器学习的产品/服务。机器学习是一种经常被当作 AI 来推销的东西。如果你看一下这个领域是如何发展的，就会发现是下面这样的情况：

我们从简单的统计开始——取几个数字，将它们相加，除以它们的数量，你就得到了一个平均值。你可以用加权平均数把它复杂化一点。在此基础上增加一些统计数据，收集更多的数据点，拼凑出一个漂亮的BI（商业智能）系统。

在某种程度上，我们开始关注深度学习：

在这里，我们通过使用大量的数据点来训练一个模型，使该模型能够推断出关于给它的新数据的事情。比如 “你在这张照片中看到一只狗吗？”或 “这段录音中的文字是什么？”。

在这里，使用了很多 3 个字母的缩写，如 HMM、ANN、CNN、RNN、GNN……

深度学习在过去十年或二十年所做的是使机器能够描述事物——能够识别图像和视频中的物体，将语音转换为文本，等等。

这使它成为最终的分类器，改善了我们搜索和编目的方式。

然后以生成式人工智能的形式出现了一个新的解决方案领域。在这里，机器学习用于生成新数据，而不是对现有数据进行分类：

在这里，我们要做的是创建一个随机的输入向量，把它推到一个生成器模型中。生成器模型为我们创建了一个样本，一些应该产生我们想要创建的东西的类型（比如一张狗的照片）。然后，生成的样本被传递给 “传统的 “推理模型，检查这是否真的是我们想要生成的东西。如果不是，我们就反复尝试微调它，直到我们得到一个 “真实 “的结果。

这很耗费时间和资源，但对许多用例来说效果相当好（比如本网站文章中的一些图片，现在是在Midjourney的帮助下生成的）。

所以…

我们从平均值和统计数据开始
转向“深度学习”，这对我们来说很难解释算法是如何得出结果的（它不再基于简单的规则）
然后我们就到了人工智能产生新数据的阶段

ChatGPT 的崛起

问题是，如果没有 ChatGPT，我刚才解释的所有这一切都不会有趣——这项服务最近才出现在我们的生活中，成为最热门的东西。

ChatGPT 基于 LLMs——大型语言模型，它正迅速成为周围最热门的东西。没有其他服务的增长速度像 ChatGPT 一样快，这就是为什么世界上每个企业现在都在努力弄清楚 ChatGPT 是否以及如何适应他们的世界和服务。

为什么 ChatGPT 和 WebRTC 就像油和水

所以这就提出了一个问题：你能用 ChatGPT 和 WebRTC 做什么？

问题是，ChatGPT 和 WebRTC 就像油和水，它们并不那么容易混合。

ChatGPT 产生数据，而 WebRTC 使人们能够相互交流。WebRTC 中的 “生成 “部分是由人类负责的，他们主要是通过 WebRTC 进行互动。

一方面，这使得ChatGPT对WebRTC来说有点无用，或者至少在WebRTC中使用起来不是那么明显。

但另一方面，如果有人成功地正确破解了这个问题，他将拥有一个创新和独特的东西。

到目前为止，人们用 ChatGPT 和 WebRTC 做了什么？

在过去几个月里，看到人们和公司利用ChatGPT和WebRTC所做的事情是很有趣的。以下是我注意到的几件事：

Arin Sime 决定向ChatGPT 询问 WebRTC 的未来。很好，但并不是真正能让WebRTC和ChatGPT更多的相互融合的东西。
LiveKit 展示了如何将 ChatGPT 连接到实时 WebRTC 视频通话。其结果是令人难以置信的好——实际上是为ChatGPT提供了声音。
Twilio 展示了类似的东西——将 ChatGPT 连接到他们的可编程语音服务。稍微不那么引人注目但同样实用。
然后是整个转录空间，你可以看到ChatGPT及其同类产品被用于从会议转录中生成摘要和行动项目。

在 LiveKit 和 Twilio 的例子中，其概念是将人类的音频源作为 ChatGPT 的提示的一部分，然后用语音转换为文本，再将 ChatGPT 的回应用文本转换为语音，并在对话中传回给人类。

扩大范围：生成式AI

ChatGPT是许多生成性人工智能服务中的一个。它的重点是文本。其他生成式人工智能解决方案处理图像或声音或视频或几乎任何其他需要生成的数据。

在过去的几个月里，我一直在使用MidJourney来帮助我在这个博客中创建许多图像。

今天，似乎在任何需要创建新数据或信息的领域，生成式人工智能算法都可以成为一个很好的研究对象。而用营销术语来说，人工智能被过度使用，需要一个新的被过度炒作的术语来解释什么是创新和前沿–所以 “生成式 “这个词被添加到人工智能中，以达到这个目的。

将生成式 AI 融入 RTC 世界

那么，如何将生成式 AI 技术与通信联系起来呢？这个问题的答案并不明显或简单。据我所知，你可以在 3 个主要领域使用 WebRTC（或仅 RTC）的生成式 AI：

对话和机器人
媒体压缩
媒体处理

这是什么意思👇

对话和机器人

在这个领域，我们要么与机器人进行对话，要么让机器人 “偷听 “对话。

前面的 LiveKit 和 Twilio 示例是关于与机器人进行对话的，就像你使用ChatGPT的提示一样。

窃听对话的机器人可以在整个会议期间或会议结束后提供帮助——

它可以尝试捕捉会话的本质，将其转化为摘要
帮助做笔记和写下行动项目
在对话中找出额外的资源来分享，例如反映客户向呼叫中心代理抱怨的知识库项目。

正如我上面所说，这与 WebRTC 本身关系不大，它发生在管道的其他地方；对我来说，这主要是一种应用能力。

媒体压缩

人工智能开始被研究和使用的一个有趣领域是媒体压缩。我过去写过关于谷歌的人工智能语音编解码器Lyra 的文章。Lyra 对人类语音的声音和行为进行假设，以便在网络上发送更少的数据（有效地压缩），并让接收端使用机器学习找出并填补空白。这种方法可以被看作是生成性人工智能的一个案例吗？也许在演讲者已知的情况下，调查这种方法可以更好地压缩他们的音频甚至视频，是否有意义？

整个超级分辨率的角度如何呢？你以WVGA或720p的分辨率发送视频，然后让解码器将它们放大到1080p 或 4K，在这个过程中几乎没有损失。我们正在凭空产生数据，尽管可能不是生成式 AI 的 “经典 “意义。

我还认为，如果你知道最初的原始内容是用生成性人工智能生成的，可能有一种更好的方法，可以压缩数据并以较低的比特率发送。这是值得追求或调查的事情吗？我不知道。