人工智能驱动的 WebRTC 应用程序或任何产品成功的背后是什么?为了展示人工智能和 WebRTC 的威力,以及创建优秀产品背后的步骤,我们组建了一个全明星内部团队,创建了一个随身实时语言翻译应用程序的概念验证。
Polybot.ai 将生成式人工智能和大型语言模型的强大功能与 WebRTC 的实时通信和媒体流操作功能相结合。我们喜欢叫它 Polly,它可以直接在网页浏览器中运行,随时准备融入个人和企业的日常工作中。它面向商务人士、旅行者、学生、病人以及任何需要快速、准确翻译的人。
在接下来的文章中,我们将引导您了解 Polly 的产品开发过程。我们将从品牌战略和完美、现代的用户体验/用户界面设计开始,到如何建立有效、巧妙的提示来指导 LLM 做什么,再到将每个组件集成到网络应用程序中的所有技术细节,最后到测试和部署应用程序。
但首先…
认识下 Polly
想象一下,您走进一家语言不通的外国医院或旅游机构。没问题!拿出您的手机(任何一款都可以–无需最新的高端人工智能设备),打开浏览器,对着屏幕说话,GenAI 驱动的实时翻译器就会代表您与代表对话。不仅如此,翻译代表还可以回话给您的设备,并接收他们的翻译。
Polly 演示了如何将 WebRTC 和 GenAI 结合起来实现这一功能。请看下面的视频。
https://youtu.be/cHygh9rYKbg?si=k4QJBz5JMqm9cvHl
Polly 背后
Polly 背后有多个组件。
首先,我们利用 Web Speech API 的 SpeechRecognition 接口来转录用户的音频。所有这些都在浏览器中完成(但请注意,有些浏览器(如 Chrome 浏览器)依赖于外部服务器端进程,因此离线时无法使用此功能)。您也可以使用第三方服务来实现这一功能,例如我们的合作伙伴 Symbl.ai。
在本示例中,我们还使用 getUserMedia 来显示用户的视频流。目前这只是一个可视化参考,但我们将在今后的文章中使用这里解释的概念来进行涉及视频和音频转录的实时对话,敬请期待。
一旦我们有了转录内容,它们就会被发送到 OpenAI 的 GPT3 LLM,后者会根据指示识别语言,并将此类输入转化为用户先前输入的第二语言的译文。
最后,LLM 的结果会显示在屏幕上,然后我们再次依靠网络语音应用程序接口(Web Speech API)使用 SpeechSynthesis 界面进行朗读。
所有这一切都显示在一个设计精美、直观和用户友好的界面上,让您可以专注于对话,而不必花太多时间去了解如何使用它。
后续文章中,我们将指导您完成 Polly 的创建过程,从设计光洁、现代的用户体验/用户界面,到如何创建有效、巧妙的提示来指导 LLM 做什么,再到将每个组件集成到网络应用程序中的所有技术细节。
译自:https://webrtc.ventures/2024/02/ai-webrtc-product-development-a-blueprint-for-success/
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/webrtc/43059.html