人工智能(AI)及其功能在短时间内极大地改变了语音技术。但是,一项同样令人兴奋的创新预计将更大程度地改变这一行业的游戏规则:量子计算。量子计算是计算机科学中一个不断进步的领域,它利用量子力学的独特原理,解决最先进的经典计算机也无法解决的问题。
尽管量子技术仍在发展之中,但它必将克服超级计算机难以解决或无法快速解决的复杂挑战。量子计算是一种突破性的计算方法,它利用量子力学执行某些任务的速度比传统计算机快得多。它依靠原子、离子或光子等量子粒子,利用量子比特或量子比特中的叠加、纠缠和干涉原理。传统计算机使用的经典比特仅限于 0 或 1 的状态,而量子比特则不同,由于叠加原理,量子比特可以同时存在于多种状态。
此外,纠缠还能在量子比特之间建立联系,使一个量子比特的状态依赖于另一个量子比特,从而实现并行处理。当波发生相互作用时,它们可以建设性地结合形成更大的波,也可以通过干涉相互抵消。量子计算利用这种干扰来放大正确的解决方案,同时抑制计算过程中不正确的解决方案。
TTEC Digital 公司创新架构师高级总监 Robert Wakefield-Carl 表示,新型量子芯片和系统的运行速度比传统精简指令集计算机或基于半导体的 CPU 快数千倍,处理信息的时间仅为它们的一小部分。
Quantinuum 公司首席科学家兼量子合成智能部门主管 Bob Coecke 说:”量子计算将使我们能够解决目前经典设备难以解决的问题,包括化学、机器学习、金融以及其他许多我们甚至还没有想到的问题。“
Textdrip 公司首席技术官 Dhaval Gajjar 也有同感。
他说:”量子计算是最令人兴奋的前沿领域之一,它可能会彻底改变信息处理流程。如果你想在迷宫中迷路,经典计算机会一次检查一条路径。量子计算机可以同时检查所有路径。“
事实上,量子计算是计算进化的下一个重要步骤——它必将对语音技术产生巨大影响。
量子如何重塑行业
传统的语音识别使用算法将音频信号转换成文本,因此计算要求很高,特别是因为语音输入会产生大量数据。而量子计算机可以同时处理大量的可能性,从而大大加快对这些音频流的分析。
Gajjar 指出:”将量子计算整合到语音应用中能带来诸多好处,这将改变语音技术的面貌。最重要的是,海量数据的处理速度前所未有。传统计算无法应对人类语言的复杂性,包括方言、口音和语境含义。但量子计算机可以处理海量数据,同时计算多个场景,使语音识别系统更快、更准确。”
考虑到实时翻译: 当前的系统在速度和准确性方面经常面临挑战,尤其是在处理复杂语言或习惯用语时。量子增强型语音模型可以同时评估多个翻译选项,提供更精确、更符合文化特点的结果。
“量子计算可以为实时处理树立新标准,扩大语音应用在客户服务、医疗保健和娱乐等行业的应用。该技术可以使语音交互更加无缝和自然,同时降低依赖大量语音处理的公司(如呼叫中心或全球虚拟助理)的成本,”AI 分析师兼 AI Tools 联合创始人 Mitchell Cookson 解释道。
量子计算还可以同时处理多种状态并优化自然语言处理 (NLP) 背后的算法。
“例如,语音识别系统依赖于识别声音、语境和语言结构中的模式,这需要巨大的计算能力。当前的传统方法涉及将语音输入与大量语音和语言模式数据库进行比较,以确定最准确的匹配,”Cookson 继续说道。“但量子算法使用叠加的量子位,可以更有效地比较和匹配这些模式。这将大大提高转录的速度和准确性,使虚拟助手或自动客户服务等系统更具响应性和准确性。量子算法还可以改进降噪和数据压缩技术,使语音识别在嘈杂环境中更加可靠。”
此外,量子计算可以彻底改变用于语音合成(将文本转换为逼真的语音)和情绪检测(分析语音中的情绪和情绪基调)的机器学习模型。由于涉及大量数据集,因此训练深度学习模型需要大量计算能力。量子计算机可以比传统系统更快地处理包含大量变量的更大数据集。这可以实现更自然的语音合成和更精确的情绪检测,从而增强各行各业人机交互的真实性和直观性。这一进步可以将语音技术从基本的语音识别系统转变为真正理解人类交流的复杂对话代理,从而实现更顺畅、更自然的互动。
当前的语音技术可以识别说话者,但量子计算可以显著提高识别和分析个人语音模式的精度。
Boost.ai 语音主管 Sam Danby 表示:“当今语音技术改进面临的主要挑战之一是当用户输入包含数百种口音或方言时如何识别语言。量子计算的集成通过提高现有 NLU 模型的速度和准确性直接解决了这一挑战,这对于保持用户满意度至关重要。”
设想一个个人助理,它能够理解和遵循命令,并通过语气检测用户的情绪。利用量子计算,这个助理可以快速理解用户语音中的潜意识信息,并提供量身定制的响应。
“想象一下,当你用担忧的语气向虚拟助手询问你的日常安排时,你会如何应对。量子增强系统可以识别其中的压力,并可能以更多的同理心做出回应,甚至建议休息一下,将常规互动变成更愉快的体验,”Gajjar 说。
量子计算还可以显著减少语音和语言模型的训练时间。
“大型语言模型 (LLM) GPT-4 的训练时间约为五到六个月。量子计算可能会将语音识别和文本转语音 (TTS) 训练模型所需的训练时间至少缩短一半,”Conversational Technologies 负责人 Deborah Dahl 表示。“这种训练将在语音系统开发过程中在幕后进行,除非以更准确的语音识别和更好的 TTS 的形式出现,否则用户不会注意到。更快的训练时间将大大降低成本,减少能源足迹,使使用更大的数据集成为可能,使一些目前不可能实现的应用程序变得实用,并使小公司更现实地训练自己的模型。”
Coecke 还指出,最近量子自然语言处理 (QNLP) 等新领域取得了惊人的进展,它利用了量子理论和语言之间的共同结构。
“最近的研究已经显示出相对于由人工智能驱动的现代法学硕士的优势,例如可解释性和组合泛化,”Coecke 说。“更具体地说,语言可以自然地被视为量子过程,因此,它具有量子计算的优势。当前 QNLP 的具体特点包括语言中立但仍然完全可解释的表示——远远超出当前 LLM 的意义意识,可以大大帮助语音识别以及本质上是多模态的结构,可以强烈支持多模态形式的语音技术。”
诱人的假设
语音技术在现实世界中受益于量子计算的前景和可能性非常诱人。举例来说,想象一下智能手机上的实时翻译应用程序,它不仅能转录口语,还能理解语境、语气、意图甚至情感。
“我们可能会有这样的虚拟助手:它们听起来非常像人类,你根本无法将它们与人类区分开来,而且它们可以利用基于 LLM 的自然语言理解能力,几乎可以理解任何语言的来电者所说的任何话。Wakefield-Carl 说:”实时语音翻译将使座席人员能够用任何语言为客户提供服务,无论他们或客户说的是什么语言,这意味着你可以用更少的人和对座席人员语言技能更低的要求为联络中心配备人员。”
在国际商务会议中,量子增强型语音技术可以毫不费力地消除语言障碍,使来自不同国家的与会者能够顺利交谈,同时保留意义和细微差别。这种能力在法律讨论等高风险场景中尤为重要,因为在这些场景中,准确性至关重要。
“或者考虑一下医疗领域的语音诊断,”#TheFutureTECHShow 主持人、独立技术顾问兼分析师 Waseem Mirza 解释道。举例来说: 语音模式的微妙变化可能预示着早期的神经系统疾病。量子增强算法可能会以更高的灵敏度检测到这些情况,从而导致神经科医生更早地进行干预,并提供更个性化的医疗保健解决方案。”
传统的语音识别系统往往难以在嘈杂或混乱的环境中准确解释语言。然而,量子计算可以同时处理大量潜在的信号变化,从而大大改进噪声过滤算法。
Cookson 表示:”这将使实时语音识别更加简洁、准确,即使在繁忙的机场或音乐会等环境中也是如此。例如,配备量子增强语音系统的客服人员可以处理来自嘈杂背景的电话,而不会遗漏关键信息。”
想象一下,量子驱动的医生文档应用程序可以轻松地实时分析多层音频输入,并更好地将语音从噪声中分离出来。或者想象一下由量子技术运行的虚拟语言导师。
“这款向用户教授第二语言的应用程序可以根据学生的说话方式、学习速度以及情感敏感程度立即改变教学方法,”Gajjar 说。“例如,如果学生发音不正确,系统可以实时分析他们的发音,并与数百万母语人士的发音进行比较,并提供即时反馈和个性化练习,以改善他们的特定发音状况。”
主要参与者
参与量子研究与开发的许多大公司都是众所周知的。但一些不太知名的组织也在发挥作用。专业人士认为,以下是这一领域的一些重要参与者和推动者:
IBM 是最重要的名字,也是多年来量子计算领域的真正先驱。“IBM 的量子体验平台不仅允许研究人员访问关键的处理器,而且还支持多个旨在确定如何将量子算法用于增强机器学习和自然语言处理的项目,”Gajjar 说。“这些研究人员正在积极研究如何应用量子计算来优化神经网络和提高语音识别系统的准确性。”
谷歌是另一个搅局的巨头。其量子人工智能部门正在开发新的方法,以增强机器在语音和语言方面的能力;借助量子算法的进步,该部门的目标是创建实时翻译服务,让人们能够无缝地进行跨语言交流。
Quantinuum 专注于 QNLP,可能在未来的语音技术中发挥关键作用。该公司是设计可解释量子人工智能模型的先驱,将量子力学和语言结构联系起来,旨在彻底改变机器理解和处理人类语言的方式。这种模型可以在未来的语音技术中发挥核心作用。
Rigetti Computing 公司专注于量子硬件和软件。Gajjar 说:”他们在量子-古典混合算法方面的工作可以显著提高语音技术的性能。他们正在开发的工具可以使语音识别系统不易受口音和方言变化的影响。“
学术机构,尤其是麻省理工学院和斯坦福大学,继续在量子计算和语言学的交叉领域开展突破性研究。那里的研究人员正在研究量子机器学习技术,以增强语音合成系统。
政府机构/组织,如美国国防部高级研究计划局 (DARPA)、美国国家标准与技术研究院 (NIST)、欧盟、美国国家航空航天局 (NASA) 和美国大学科学研究协会 (USRA)。
专家们提到的其他行业颠覆者包括 Genesys、NICE、微软、亚马逊网络服务(AWS)、Meta 和 D-Wave Systems。
下一步需要做什么
虽然前景一片光明,但在量子技术真正发挥出推动语音技术市场发展的潜力之前,还需要几项关键的发展。
Gajjar指出:”例如,需要针对语音处理应用调整更好的算法,因为目前大多数算法基本上都是纸上谈兵。“纠错技术也很重要,因为量子系统很脆弱。此外,还需要更有效的量子-经典混合模型,将现有技术与量子的新功能连接起来,从而为集成提供更便捷的途径。我们至少还需要五年的时间,才能在语音技术领域取得重大的量子进步,供企业和消费者使用。“
更重要的是,量子硬件必须变得更加稳定、抗错性更强,因为目前的系统受到量子噪声的影响,可靠性大打折扣。
“最大的挑战之一是物理量子比特对噪声和温度等因素的干扰非常敏感,这可能导致信息丢失。必须找到解决方案来提高量子计算的鲁棒性,” Dahl 警告说。“另一个障碍是量子计算机现在非常昂贵。据估计,一个量子比特的成本为 10,000 美元,而一台实用的量子计算机可能需要数百亿美元。只有规模最大、资金最雄厚的组织或财团才能负担得起这样的成本。”
Wakefield-Carl 也认为,建立和运行量子计算机的费用将不利于利基参与者。
“不过,我觉得不需要个人计算机,因为宽带连接和个人设备连接将使人们无需个人投资就能获得所需的资源和服务。很可能不会有量子计算服务的供应商,而是基于原始参与者运行的服务的应用程序。”
降低成本的一种方法是通过云提供量子计算资源,这使得大多数组织无需在现场托管量子计算机。
另一个需要关注的问题是量子系统的可扩展性。目前的量子计算机缺乏足够的量子比特或足够的相干时间来管理自动语音识别或 NLP 等语音应用所需的大型数据集。
“我们还需要开发专门针对语音技术任务(例如实时翻译和语音识别)而设计的量子算法,”Cookson 说。“不过,在短期内,混合量子-经典系统可以弥补这一差距,让量子计算机能够处理复杂的优化问题,而经典系统则负责语言处理。”
展望未来
尽管存在这些障碍,业内人士仍然乐观地认为量子技术在语音领域正步入快车道。
Gajjar 表示:“各公司已开始试验量子机器学习算法如何提高语音识别的准确性和效率。很难确定这项创新何时能够实现,但量子计算技术及其在语音技术中的应用正在快速进步。”
Gajjar 坚称,这种融合的前景十分光明,“随着人们对新量子发展的兴奋感不断增加,等待有意义的融合可能不会那么漫长。”
Mirza 还对迄今为止所观察到的加速进展以及量子技术彻底改变语音技术格局的能力感到鼓舞。
“它有可能使先进语音技术的使用变得民主化,让更广泛的用户和小公司能够使用高水平的功能,”米尔扎补充道。“随着这项技术的发展,它可以解锁创新,改变我们与机器的互动方式,使语音驱动技术比以往任何时候都更直观、更具适应性、更强大。”
虽然目前的进展确实比较缓慢,但不要忘记自生成式人工智能出现以来所获得的经验教训。
Danby 说:”特定技术的创新曲线几乎可以在一夜之间发生变化。”
作者:Erik J. Martin
译自:https://www.speechtechmag.com/Articles/ReadArticle.aspx?ArticleID=166696
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。