元宇宙如何获得更好的音频体验？Meta开放三种新型AI驱动的声学模型

海外观察 • 2022年8月3日上午10:36 • 文章分类

Meta AI与德克萨斯大学合作，开源了三种基于视听感知的新模型，可以帮助改善AR/VR体验。此次发布代表着Meta向元宇宙方向进一步转化。

元宇宙如何获得更好的音频体验？Meta开放三种新型AI驱动的声学模型

第一个模型，视觉声学匹配模型（AViTAR），可以帮助转换音频剪辑中的声学效果，并使其听起来像特定图像中的目标空间。例如，一段听起来像是在一个空旷的地方录制的音频片段，可以与一个拥挤的餐厅的图像相匹配，从而产生听起来像是在餐厅的音频。

第二种模式被称为视觉信息去混响（visual-informed Dereverberation，VIDA），顾名思义，它执行相反的功能。VIDA使用观察到的声音和视觉线索来去除特定音频模式的混响。该模型提高了语音的质量，有助于语音的自动识别。

第三个模型是VisualVoice，它使用视听线索将语音与背景噪声分开。

虽然已经有相当多的研究致力于创造更好的视觉效果，但Meta AI还打算创造出让用户沉浸其中的声音。该公司创始人兼首席执行官马克·扎克伯格说：“正确处理空间音频是在元宇宙中传递现实存在感的关键。”“如果你在听音乐会或者只是在虚拟的桌子旁与朋友交谈，声音来自哪里的现实感会让你感觉自己就在那里。”

信息源于：analyticsindiamag

版权声明：本文内容转自互联网，本文观点仅代表作者本人。本站仅提供信息存储空间服务，所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至1393616908@qq.com 举报，一经查实，本站将立刻删除。

赞 (0)

海外观察认证作者

0 0

文章分类

Android NDK 常见面试题

Android 面试涉及到底层开发总是绕不开 NDK 的，一些常见的面试题也是帮忙大家加深印象和理解！！！一、谈谈你对 JNI 和 NDK 的理解 JNI： JNI 是 Java…

音视频开发进阶
2022年7月6日
文章分类

数字人虚拟偶像进军影视行业，虚拟数字人成企业入局元宇宙必修课

近日，新生代虚拟偶像许星悠“本色出演”的国产原创校园篮球动画剧集《左手上篮》在腾讯视频和腾讯体育全网首播。与此同时，《左手上篮》及旗下数字藏品平台NXTF_携手运动品牌Wilson…

虚拟现实
2023年2月9日
文章分类

「智能媒体生产」系列课程第一讲：概念、原理和基本使用

本文内容整理自「智能媒体生产」系列课程第一讲：概念、原理和基本使用，由阿里云视频云媒体服务技术负责人分享智能媒体生产的领域与定位、构架与服务层次、基本概念与技术原理，以及如何一站式…

大厂Animal
2023年2月9日
文章分类

度小满语音技术研究成果获世界顶级学术会议认可

　　近日，由度小满博士后科研工作站朱文静、李祥两位博士后共同撰写的GLAM论文：Speech Emotion Recognition with Global-Aware Fusio…

追风者
2022年5月11日
WebRTC

WebRTC 教程3：WebRTC如何在浏览器中启用/禁用

以下这些浏览器是支持WebRTC的浏览器： Google Chrome(28+) Mozilla Firefox(22+) Safari(11+) Microsoft Edge(1…

RTC观主
2022年5月10日
文章分类

音频新方案带给VR更“真实”的音频体验

作为约克大学XR Stories项目的一部分，专家们提出了一种新的声音方法来开发VR环境，该方法基于人们如何从现实世界接收图像和声音，最终改善用户体验并降低VR眩晕的风险。家用V…

音频技术
2022年8月10日

发表回复

登录后才能评论