实时翻译功能的发展通过复杂的人工智能算法和自然语言处理实现跨语言的即时准确翻译,极大地促进了通信。
这些发展不仅消除了语言障碍,而且改变了商务旅行和社交网络中的全球互动,使得跨文化交流比以往任何时候都更加无缝。
据 Metrigy 称,超过50%的参与者希望通过第三方服务将会议翻译成其他语言,平均每次会议每种语言的费用为 172 美元。
集成翻译功能可降低这些成本、提高生产力并确保所有员工都有平等的发言权。
这种个性化的语言体验对于促进全球化劳动力的包容性和高效沟通至关重要。
自动语音识别(ASR)和机器翻译(MT)是人工智能(AI)领域最早的技术之一。
随着几十年来研究和技术的进步,转录和翻译任务的复杂性也随之增加。
改善全球沟通
如今,实时语音翻译改善了沟通,打破了语言障碍,使得虚拟会议的参与者无论讲什么语言都可以相互交流。
Microsoft Teams 已将实时翻译集成到其实时字幕功能中,允许用户从不断增长的支持语言列表中选择自己喜欢的语言,包括 Google Meet 在内的其他平台也已开始在其产品中加入翻译功能。
例如,Zoom 目前为 Zoom 会议、Zoom 活动提供实时语音翻译,以及为 Zoom 团队聊天提供文本翻译——该公司的人工智能驱动工具最多可支持 12 种语言。
Zoom 研究科学总监 Sebastian Stüker 表示:“为了使实时语音翻译有效,系统需要以低延迟运行,这意味着该技术需要能够尽快翻译以保持对话上下文。”
他解释说,当今的实时语音翻译系统是由多个系统组成的流水线,例如语音活动检测、ASR、文本规范化和 MT。
他说道:“目前,该流程中涉及的所有系统都是基于各种人工神经网络的端到端系统。”
Stüker 指出,与上一代技术相比,转向此类神经系统已导致管道各个阶段的性能得到显著提升。
思科协作设备高级副总裁兼总经理 Snorre Kjesbu 表示,实时翻译功能具有令人难以置信的变革性,尤其是在员工分散的组织中。
他说道:“这些功能有助于克服语言障碍,使公司能够专注于寻找最优秀的人才,而不受地点或母语的限制,从而提供人才和成本效益。”
思科利用人工智能完成诸如消除背景噪音和确保低带宽下的高视频质量等任务,以提供准确的实时转录和翻译。
他解释说,语言模型的改进、实时媒体模型的引入以及延迟的减少对于改进这项技术至关重要。
Kjesbu 表示,大型语言模型中多语言支持的出现以及变换器模型和注意力机制等算法的进步也提高了实时翻译的准确性。
“实现跨语言实时翻译的主要挑战是确保输入程序的数据的质量,”他解释道。
这包括输入信号的质量和包含不同口音和方言的高质量训练数据。
另一个挑战是纳入客户特定的词汇,例如技术术语、品牌名称和独特的术语。
例如,“Jira”或“IPv6”等行业术语和特定名称可能会被生成式 AI 模型误解,从而导致不准确。
不同语言中词语的使用环境可能存在很大差异,这使得翻译算法很难保持原有的含义。
“文化差异和习语表达又增加了一层复杂性,因为直接翻译往往无法传达相同的情感或含义,”Kiesbu 说道。“随着自然语言处理的进步,解决这些挑战以提高实时翻译的可靠性非常重要。”
他指出,实时翻译工具在处理不同语言之间的细微差别、习语和文化参考方面面临着巨大的挑战。
一个鲜活的例子是 Webex 与 Voiceitt 的合作,Voiceitt 是一款针对非标准语音人群的人工智能程序。
通过创新的人工智能字幕和转录,这一集成为言语障碍人士提供了一种在虚拟会议期间说话和被理解的方式。
有限的语言训练数据是一个挑战
Stüker 指出,全球大约有 7000 种语言,除了极少数语言外,足够的训练数据非常有限。
“语言通常具有需要特殊技术的独特属性,”他说。“通常,语音中承载最多信息的单词在训练数据中出现频率最低,这使得机器难以识别和翻译它们。”
他说,他相信语音翻译系统必须成为多模式翻译系统,处理所有可用的模式——会议上展示的幻灯片、输入的聊天消息和表情符号反应,以实时产生最佳翻译。
例如,对于会议记录,Zoom 最近添加了利用光学字符识别 (OCR) 的功能,使用通过屏幕共享共享的额外上下文来获得更准确、可靠的结果,以及使用会议内聊天获取上下文的功能。
“人类交流不仅仅是言语,而是一种不断发展的多模态体验,”Stüker 说道。“只有考虑到翻译时可用的所有上下文信息以及所有现有的实用和世界知识,才能实现真正准确的翻译。
凯斯布表示,尽管过去几年取得了令人难以置信的进步,但当前的实时翻译技术仍然面临着一些限制。
尽管说话人检测方面的进步有所帮助,但口音和方言检测仍然是一个挑战,会议参与者的串扰和过度交谈的问题也是如此。
他说,未来的技术旨在解决这些问题,提高实时翻译技术的准确性和可靠性。”
“处理资源匮乏的语言和当地特点,比如以英语为母语的人与像我一样带有挪威口音的非英语母语的人之间的交流也需要改进,”Kjesbu 说道。
作者:Nathan Eddy
译自:https://www.nojitter.com/ai-speech-technologies/power-babel-evolution-real-time-translation-features
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/53786.html