Meta AI与德克萨斯大学合作,开源了三种基于视听感知的新模型,可以帮助改善AR/VR体验。此次发布代表着Meta向元宇宙方向进一步转化。
第一个模型,视觉声学匹配模型(AViTAR),可以帮助转换音频剪辑中的声学效果,并使其听起来像特定图像中的目标空间。例如,一段听起来像是在一个空旷的地方录制的音频片段,可以与一个拥挤的餐厅的图像相匹配,从而产生听起来像是在餐厅的音频。
第二种模式被称为视觉信息去混响(visual-informed Dereverberation,VIDA),顾名思义,它执行相反的功能。VIDA使用观察到的声音和视觉线索来去除特定音频模式的混响。该模型提高了语音的质量,有助于语音的自动识别。
第三个模型是VisualVoice,它使用视听线索将语音与背景噪声分开。
虽然已经有相当多的研究致力于创造更好的视觉效果,但Meta AI还打算创造出让用户沉浸其中的声音。该公司创始人兼首席执行官马克·扎克伯格说:“正确处理空间音频是在元宇宙中传递现实存在感的关键。”“如果你在听音乐会或者只是在虚拟的桌子旁与朋友交谈,声音来自哪里的现实感会让你感觉自己就在那里。”
信息源于:analyticsindiamag
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。