对话式 AI,例如 ChatGPT,近年来取得了重大进展,使其越来越能够模拟类人对话。这项技术的用例广泛多样,从客户服务交互到语言学习和娱乐。
此外,聊天机器人技术变得越来越复杂,许多聊天机器人现在能够理解上下文,甚至随着时间的推移使用机器学习来改进他们的响应。这使他们能够为用户的问题提供更有针对性和相关性的答案。反过来,这可以改善用户体验并提高服务满意度。
对话式 AI 的下一步是实际接受对话训练。目前,它是根据从 Web 和其他地方下载的大量文档进行训练的。这些文档建立了庞大的知识库。
但它也会导致实际上不那么自然的问答类型的交互。在 ChatGPT 中输入任何问题,您将得到看起来经过深思熟虑的答案,并附有一些“事实”和可能的警告。
要从问答式交互中继续前进,需要对 AI 进行实际对话的训练。
为了应对这些挑战,对话式 AI 的前进方向是建立一个视频通话语料库,并使用这个语料库来训练 AI 进行自然对话。 在视频通话上训练 AI 将导致更自然的对话形式。
视频通话包含大量信息,包括音频和视觉提示,可以为训练 AI 系统提供有价值的输入。视频通话的音频部分可用于训练语音识别和自然语言处理 (NLP) 算法。AI 将学习理解人类语音的细微差别(例如口音、语调和发音),这将提高其理解和响应人类语音的能力。
视频通话的视觉成分,如面部表情和肢体语言,可用于训练计算机视觉算法。人工智能将学会识别和理解对话伙伴的情绪状态,以及点头和指点等微妙的暗示。这将提高其理解对话上下文并做出适当回应的能力。
此类信息可以与音频数据整合,以更全面地理解对话。总而言之,这将为训练大型语言模型解锁一个新的数据源。这将解决大型语言模型缺乏训练数据的问题,福布斯认为这是人工智能当前状态的一个重要挑战。
本次培训的重点应该是赋予 AI 使用自然语言进行有效交流的能力——在自然的双向对话中。使用视频通话语料库将是实现这一目标的最有效方式,因为该数据目前可用,并且包含自然发生的对话。
此外,在视频通话中,说话者的脸大部分是可见的,因此可以分析面部表情和肢体语言并使其成为对话的一部分,而无需标准化输入数据。
视频通话语料库还可以训练 AI 针对特定用例进行对话。想要人工智能医生?使用远程医疗访问数据集训练 AI。想让 AI 为您的企业处理客户服务吗?使用真实客户服务电话的录音对其进行训练。视频通话语料库自然会导致为这些功能创建人工智能代理。运行此类服务的公司今天已经可以而且应该构建此类语料库。
引申
在视频开发者平台中,服务商可以专注于创建支持这种发展所必需的通信技术。方便客户将视频体验(如视频通话、交互式直播和云录制)嵌入到他们的网站和应用程序中。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/10865.html