语音识别技术一直是企业通信领域的核心技术。语音技术已经相当成熟,并提供了很高的实用性,特别是在电话和会议室方面。但是,随着人工智能的出现,语音的新应用也在不断涌现,需要从不同的角度加以考虑。
语音转文本和转录的准确性非常重要。但底层传统技术只能逐步改进,因此不具备变革能力。而AI驱动的语音识别技术则能提供创新,推动新的业务价值,这主要是因为这些功能可以应对不同的挑战。
将AI应用于语音识别所带来的规模和速度远远超出了传统语音技术所能处理的范围。转录的目的是准确捕捉语音和文本,而当今的AI则可以从所说的话中推断出理解和意图。这就产生了新的应用。
让我们来看看AI语音技术的一些主要优势和挑战。
AI语音技术优势
1. 转录的新价值
传统的语音转文本工具是劳动密集型的,根本无法捕捉到每一次对话。从表面上看,AI驱动的语音识别的好处是转录更好、更快、更便宜,使企业更具成本效益。此外,还可以考虑更高层次的回报,即在更大范围内实现语音到文本的转换。
AI的转录准确性是方程式的一部分,但更大的价值来自于语音转换为文本时的新数据流。输入人工智能引擎的数据越多,它提供的价值就越大,因为它应用机器学习等工具来进一步提高准确性并识别模式以推动更好的业务决策。
2. 工作流程自动化
随着语音识别准确率的不断提高,工人们越来越喜欢使用语音作为人工智能应用程序的界面,以实现工作流程自动化。与其手动通过多个步骤来安排会议或与团队分享报告结果,不如使用语音来引导聊天机器人自动完成这些任务和流程。这些被称为数字个人助理的功能刚刚兴起。它们能让员工拥有自己的机器人,能够理解基于语音的命令和查询。
生成式AI提供了更多自动化机会。虽然该技术的能力尚未成熟,但生成式AI将让工人使用语音或文本要求机器人用自己的声音撰写电子邮件或信件,从而节省更多的时间和精力。早期的结果很有希望,因为只需人类提供极少量的输入,就能生成可信的回复。
3. 非接触式交互
这是另一种形式的自动化,它起源于 COVID-19 大流行时代,当时物理距离和非接触式互动已成为常态。这些担忧现在已经减轻,但在许多用例中,语音是比触摸更好的媒介。这些用例与语音识别关系不大,而与语音和说话人识别关系更大。虽然大多数语音识别技术专注于通信,但这些非接触式应用程序的目标是身份验证。例如,语音生物识别技术可用于控制谁可以进入限制区域。语音提示还可用于开始和管理会议或进行金融交易。
AI语音技术风险
1. 语音准确性问题
尽管AI是重塑语音识别技术的创新基础,但重要的是要记住,AI并非百分之百准确。但是,人类也不是百分之百准确的。这里的风险在于,AI 应用具有相当基本的开箱即用功能。因此,它们最初的准确性表现可能会低于预期。
请记住:AI 是迭代的。您使用它的次数越多,它需要处理的数据集越多,性能就会提高。因此,期望AI从一开始就具有近乎完美的语音准确性是不合理的。然而,一旦错误被发现并修复,它们就不会再重演。随着时间的推移,围绕语音准确性的风险只会减少。
2. 内容准确性问题
这是一种不同类型的准确性,也是一种更具挑战性的风险。除了基本的语音到文本应用外,AI 工具还可用于识别人类无法看到的模式,并生成内容和摘要。AI 工具必须理解语言中更复杂的细微差别,如上下文和意图,才能在这方面发挥有效作用。
AI 只能根据人类提供的输入进行工作,因此它并不 “知道 “如何解析含义,尤其是在模棱两可的情况下。其中一个结果就是产生幻觉,即输出具有良好的语法和句法,但与事实不符或毫无意义。为了降低这种风险,人类必须参与到整个过程的各个环节。这种人工干预很快就会失去使用人工智能的初衷。
3. 信任和用户采用
人们不信任 AI 的原因有很多,如果效果不佳,这种感觉只会更加强烈。AI 应该让事情变得更好,而不是更糟。在语音方面,几乎没有出错的余地。即使使用复杂的工具,基于 AI 的语音转文本或聊天机器人也可能显得呆板、不近人情和机械化。如果人工智能过于努力地模仿人类情感,就会显得做作。
人类很快就会发现这些怪异之处,从而失去对 AI 的信任。没有信任,他们就不会采用这些工具,从而可能会对 IT 部门部署人工智能的决定产生质疑。风险在于对 AI 与语音的交集期望过高。信任一旦破灭,就很难挽回。相反,信任应被视为 AI 的核心基石,在企业部署新的 AI 语音技术时,建立信任应是一个主要的成功指标。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/38579.html