人工智能在视频和语音应用中的作用

本文来自 WebRTC.ventures 创始人兼首席执行官 ArinSime 的分享,内容来自一场关于人工智能在视频和语音通信应用中的作用的小组讨论。

人工智能在视频和语音应用中的作用
TADSummit 小组(照片来源:Frédéric Luart,Apizee 首席技术官)

小组讨论成员

Paul Sweeney 是 Webio 公司的首席战略官兼联合创始人。Webio 是一家对话技术公司,总部位于爱尔兰,专注于欧洲市场的信用催收业务。他们为债务催收机构或银行提供非常有针对性的服务,帮助他们使用对话式人工智能有效地联系客户,帮助他们制定付款计划。由于其工作的金融性质,他们对隐私和安全有着坚定的承诺。

Lorenzo Miniero 是 Meetcho 的董事长,也是开源 Janus WebRTC 服务器的作者。Lorenzo 指出,他们的团队最近聘请了一位人工智能负责人,负责提供有关 Janus 的咨询和开发。他们已经在转录等方面加入了人工智能,并希望通过最新的招聘扩大这种能力。

Romain Valleux 是 Apizee(读作 “App E-Z”)公司的 DevRel 与合作经理,Apizee 是一家利用视频提供客户服务的 CPaaS 公司,其中包括 WebRTC 和更广泛的通信应用。他们非常专注于客户参与解决方案,已有十年的业务经验。

Pieter Luitjens 是 Private AI 公司的联合创始人兼首席技术官,该公司是一家在全球范围内围绕人工智能服务提供数据编辑服务的加拿大公司。Pieter 指出,如果你用过 Deepgram 或 AssemblyAI,那么你可能也用过他们的服务。Pieter 的背景是机器学习和大规模部署。

Paula Osés 是 Noumena 公司的人工智能工程师,这是一家位于巴塞罗那的计算机视觉公司。他们利用计算机视觉来理解人类与不同空间的互动,如办公空间、公共交通和公共空间。

小组讨论视频地址:https://youtu.be/7Ze7hqOoyaw

视频和语音应用中的人工智能用例

Lorenzo 在用例讨论中首先谈到了他们在 Janus 用户中看到的人工智能用例。他指出,有几个用例始于几年前,其中最主要的是转录。转录是通信应用中许多其他人工智能应用的基础。Janus 用户还建立了情感分析和身份验证解决方案,而 Janus 和 MeetEcho 团队的职责就是如何促进这些应用使用其服务器来处理视频和音频用例。Janus 有一个非常灵活的架构,允许他们的用户创造性地实现人工智能,例如有一个客户使用实时视频处理将人变成了梵高的画像。

Romain 谈到了他们在 Apizee 客户群中看到的使用案例。他指出了几个他们正在使用人工智能的领域。例如,他们在产品支持电话中启用了视频,然后使用人工智能来理解视频流,并尝试将其与现有的产品照片数据库相匹配,以帮助客户了解哪些产品有效,哪些产品无效。

Apizee 还有一个客户利用人工智能和远程视频监控工厂生产线,并在产品生产过程中查找缺陷。我注意到,这些都是将人工智能用于实际用途的绝佳范例,而不仅仅是改变背景检测和有趣的帽子。

Paul谈到了Webio如何在他们的短信平台中使用AI进行信用催收,这是一个非常有针对性的应用。信用催收对话的最大问题是人们不参与解决他们的信用问题,并且随着问题的堆积,他们会陷入更多麻烦。Webio 发现,短信实际上是信用对话的一种非常好的参与方式,因为客户可以按照自己的节奏做出回应,并且可以消除紧张对话中的一些情绪。客户可以花时间考虑他们的选择,然后做出回应。信用催收是一个非常有趣的环境,拥有更丰富的实时对话技术(例如语音)不会有帮助,因为这会迫使对话以更快的速度进行。

借助基于文本的对话式人工智能,您可以更好地解析消息,以了解客户的上下文和当前情况,并做出适当的响应。例如,如果客户说他们现在在医院并且无法回复,机器人可以理解并做出同理心的回复。强有力的对话式设计非常重要,当您稍后提出付款计划选项时,将会带来更好的结果。

Paula 谈到了 Noumena 的一个视频人工智能项目,他们在巴塞罗那的不同十字路口安装了摄像头,以帮助分析交通模式并更好地为交通设计提供信息。这使他们能够在车辆和行人之间找到更好的平衡。

最后,Pieter 介绍了他们在 Private AI 的工作。他们的数据编辑工作主要是围绕自动语音识别(ASR)进行的,他们也经常与聊天机器人打交道。我问 Pieter,是否存在因为隐私过于敏感而不应该使用人工智能的用例。由于现代数据编辑解决方案的强大功能,Pieter 认为没有任何情况不能使用人工智能。你只需要敏感地意识到哪些信息需要编辑,并制定好相应的计划就可以了。即使是在病人和医生对话等领域,只要有正确的控制和符合法规的数据编辑技术,也可以使用人工智能。

人工智能应用的架构

Pieter 就人工智能应用中的隐私问题和即将出台的法规发表了意见,为讨论人工智能应用的架构提供了切入点。法规因地区而异,由于本次小组讨论在巴黎举行,Pieter 特别指出了 GDPR 和即将出台的欧盟人工智能法案的重要性。Pieter 讨论了隐私问题,尤其是边缘应用中的隐私问题,是企业迟迟不愿采用人工智能应用的首要原因。例如,许多消费者对微软在电脑上运行的 copilot 应用程序的概念望而却步,因为他们担心自己所做的一切都会被拉入一个由微软控制的人工智能系统。

Paula 谈到了他们的大规模流量分析应用的架构。由于需要处理大量数据,该解决方案采用了非常集中的数据处理方式,但并非实时处理。他们必须在城市周围安装摄像头,并且必须遵守当地关于如何处理公共录像的规定,而这些规定不允许他们通过连接的网络传输视频流。因此,他们必须在设定的日期和时间内进行录像,然后将录像恢复到办公室进行集中处理。

这种选择需要购买大量 GPU,而且不具备可扩展性,因此他们正在考虑未来采用更多基于边缘计算的方案。在理想情况下,他们将在摄像机中直接安装更多的物体检测算法,然后只在中央数据库中存储汽车等物体的位置和数据,而不是完整的图像。

Romain 谈到了人工智能应用的可持续性。由于人工智能依赖大量的处理能力,人们对其碳足迹的担忧与对区块链应用的担忧类似。罗曼谈到了寻找边缘处理的平衡点,这可能会减少集中传输和存储的数据量。他指出,全球碳排放总量的2-3%来自数字经济,其中很大一部分是视频流。这些都是非常密集的解决方案,因此我们应该谨慎使用。废弃的手机对环境也有很大影响,因此设计可在旧移动设备上运行的系统也有助于可持续发展,因为用户不必频繁升级设备。

同样,设计应用程序时只包含有用的功能也有利于降低实施人工智能的财务成本和环境成本。Romain 指出,在部署功能后对其有用性进行衡量也是有益的,因为如果用户认为某项功能没有价值,您可以对应用程序进行设计,使其易于移除。

观众提问

在与专家小组成员讨论隐私和安全问题的最后一个环节之前,TADSummit 与会者参与了提问。一位与会者评论说,边缘计算只是云计算的延伸,他问小组成员,他们认为将更多实际工作负载转移到边缘狭小空间的最大挑战是什么?真正的分布式系统最大的问题是什么,或者说,如果我们认为云计算的性能非常高、延迟几乎为零,这是否并不重要?

Romain指出,功率是分布式人工智能的首要限制因素。如果必须在边缘设备上加入人工智能所需的处理能力,这会对移动或边缘设备的电池寿命造成多大影响?

Paul 谈到了着眼于整个系统的重要性–例如,不要只考虑系统中的无人机,而要系统地考虑你正在构建的系统。如果系统是太阳能供电的,比如 Paul 了解到的基于无人机的葡萄园监测人工智能应用,那么你就有效地摆脱了电力限制。

Pieter 谈到了目前的 LLM 模式。在很多情况下,根本无法实现边缘化,因为你无法在单个处理器上运行它们。人们有时会被误导,认为 “我只要下载一个开源的 LLaMA LLM 到我的电脑上就可以了”。但是,你仍然需要大量的计算能力才能用它做任何有用的事情,而且每年的计算能力加起来很容易达到六位数。同样重要的是,要认识到 OpenAI 等公司已经做了大量优化工作,而且 LLM 是为在数千个 GPU 上运行而构建的,因此很难在自己的环境中复制。

在回答另一个与会者的问题时,Paul 还指出,让用户事先知道他们是否在与人工智能对话是非常重要的。这关系到与用户之间的信任问题。保罗解释说,在某些情况下,用户实际上更愿意向人工智能披露信息,因为他们不会像担心被人类代理评判那样。当用户的自我意识降低时,他们就能披露更多必要信息,从而找到解决问题的办法。

通信应用程序中的人工智能隐私与安全

我们没有时间详细讨论通信应用中人工智能的隐私和安全问题,但 Pieter 在开场白中指出,可以对病人信息等机密数据进行管理,因此人工智能甚至可以用于医疗保健应用等敏感领域。消费者数据法规和隐私方面最重要的考虑因素之一是对可能用于模型训练的任何数据进行匿名处理。

在这方面,利用商业服务可能会有所帮助。托管的 LLM 服务会为您处理许多问题,就像 AWS 在其云上为您管理许多安全问题一样。但是,就像云服务器一样,你仍然必须以安全的方式使用它,这样才不会因为配置不当或数据管理程序粗心大意而引入漏洞。

小组成员的结论

最后,每位小组成员都分享了他们的下一步行动或对未来的预测。

Paula 谈到,他们的公共交通分析的下一个重要步骤是能够更好地分析大量数据,同时还能满足他们开展研究的每个地区的隐私限制。

Pieter 提到了针对用例进行优化的重要性–通用 LLM 在企业应用中通常无法很好地发挥作用,除非针对当前用例进行了训练和优化。在使用通用公共 LLM 时,请记住,您提供给它的任何有关您业务的信息都有可能作为它向其他用户提供的答案的一部分而跳出来。因此,分享信息时一定要小心谨慎!Romain 还强调要尊重用户数据的监管链。

Lorenzo 分享了他对人工智能在通信应用中的可能性的兴奋之情。即使是实时转录在不久前也是不可能的。对于小公司和项目来说,人工智能正变得越来越普及!

Paul Sweeney 最后预测,每家公司最终都将拥有自己的定制 LLM。

ArinSime 的见解

最后,ArinSime 在小组讨论上得出的一些关键见解:

  1. 考虑背景

添加人工智能是否真的能为客户和企业带来价值?不要仅仅为了技术上的炫酷因素而添加很酷的人工智能功能,这样会分散应用程序的实用性。

  1. 尽量减少影响和成本

在上一点的基础上,不要仅仅为了 “炫 “而在应用程序中添加人工智能。人工智能不仅会分散对更有用功能的注意力,还需要大量的计算能力–这意味着服务器使用的额外成本,以及对电网造成的额外负担,从而导致气候变化。这些都是造成不必要的人工智能功能浪费的额外经济和环境原因。

  1. 考虑隐私并向法律部门咨询

要注意与法律顾问共享哪些信息,以及与法律顾问共享用户数据的暴露程度,因为这些数据可能会被用于其他违反隐私或企业机密的用途。

  1. 针对用例进行优化

通用型 LLM 可能无法提供最有用的输出结果,因此请寻找可以优化、定制或(以保密和谨慎的方式)与 LLM 共享相关数据的方法,以便它能提供更有用的答案。

  1. 人工智能将留在云中

至少就目前而言,LLM 的计算资源对于大多数边缘计算架构来说过于庞大。根据您的使用案例,您或许可以在边缘进行一些分析,以尽量减少需要分析并存储在云存储库中的数据,但不太可能在边缘构建完整的人工智能解决方案。

  1. 利用专家

LLM 的维护非常复杂,我们的小组成员都以不同的方式提到了这一点。在 Paul Sweeney 在 TADSummit 上发表的另一个演讲中,他谈到了围绕人工智能解决方案所需的大量开发工作的 “ML Ops”。您能使用的既有服务和基础设施即服务(IaaS)越多,您需要自己管理的工作就越少。 您还可以考虑使用其他服务,如私人人工智能(Private AI)来为您处理敏感数据编辑等特定任务。

作者:ArinSime
原文:https://webrtc.ventures/2023/11/the-role-of-ai-in-video-and-voice-applications/

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/yinshipin/37551.html

(0)

相关推荐

发表回复

登录后才能评论