21dB声学人据悉,IBM和加州大学(California universities)旧金山和伯克利分校在语音识别技术方面的独立研究,为患有声带麻痹和失语症的患者带来了好消息。
IBM报告称,他们开发出一种更快、更节能的计算机芯片,能够增强语音识别模型的输出。
随着人工智能项目大型语言模型的爆炸性增长,硬件性能的限制,导致训练周期的延长和能源的消耗上升,这一点已经逐渐暴露出来。
在能源消耗方面,《麻省理工学院技术评论》(MIT Technical Review)最近报道称,训练单个人工智能模型会产生超过626,000磅的二氧化碳,这几乎是一辆美系汽车在其平均生命周期内排放量的五倍。
人工智能运算巨大能量消耗背后的一个关键因素是内存和处理器之间的数据交换。
寻求解决方案的IBM研究人员表示,他们的原型在芯片内集成了相变存储设备,优化了称为乘法累加(MAC)运算的基本AI流程,从而大大加快了芯片的运转速度。这减少了在内存和处理器之间重复性数据交换中的时间消耗和能源消耗。
IBM的Stefano Ambrogia表示:“从研究表明,当片上辅助计算时间、面积和能源效率相结合时,所提供的高能效率和数据吞吐量……可以扩展到整个模拟人工智能系统。”
在处理密集型语音识别操作中,IBM的原型机实现了每秒每瓦12.4万亿次操作,这效率水平比目前使用的最强大的CPU和GPU效率高出数百倍。
与此同时,加州大学旧金山分校和加州大学伯克利分校的研究人员表示,他们为失语症患者设计了一种脑机接口,帮助他们实现思维到语言的转化。
加州大学旧金山分校神经外科主任Edward Chang表示:“我们的目标是恢复一种完整、具体的沟通方式,这是我们与他人交谈最自然的方式。”
Edward Chang和他的团队在一名患有肌萎缩侧索硬化症(amyotrophic lateral sclerosis)的女性大脑表面上,植入了两个微型传感器。(肌萎缩侧索硬化症: 这种疾病会逐渐剥夺患者的行动能力和语言能力。)
尽管受试者仍然可以发出声音,但肌萎缩侧索硬化症限制了她的嘴唇、舌头和喉部说出连贯的单词。这些传感器通过脑机接口连接到装有语言解码软件的计算机组。
这位女士参加了25次培训,每次持续4个小时,在每次训练中她会阅读出260至480个句子。她在阅读过程中的大脑活动由解码器翻译,解码器检测音素并将其组合成单词。
然后,研究人员根据几年前她在婚礼上的讲话录音合成了她的声音,并设计了一个反映她的面部动作的影像。
经过四个月的训练,该模型能够检测出受试者想要发出的发音,并将其转换为可理解的单词。当基于125,000个单词的训练词汇(几乎涵盖了受试者想说的任何话)时,准确率为76%。
当词汇量限制在50个单词时,翻译系统的表现会更好,有90%的时间都能正确识别她的讲话。
此外,该系统翻译受试者讲话内容的速度是每分钟62个单词。尽管单词识别速率是早期类似实验的三倍,但研究人员意识到还需要改进系统,来达到正常人说话的每分钟160个单词的速率。
8月23日《自然》杂志上发表的文章中,该文章的合著者Frank Willett表示:“该项研究还不能正式投入到人们日常生活中,但这对于失语症患者来说是一项重大的进步。”
信息源于:Nature,编译:21dB声学人
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。