近年来,人工智能取得了长足进步,但将实时语音交互与视觉内容相结合仍然是一项复杂的挑战。传统系统通常依靠单独的组件进行语音活动检测、语音识别、文本对话和文本转语音合成。这种分段方法可能会引入延迟,并且可能无法捕捉人类对话的细微差别,例如情绪或非语音声音。这些限制在旨在帮助视障人士的应用中尤为明显,因为及时准确地描述视觉场景至关重要。
为了应对这些挑战,Kyutai 推出了 MoshiVis,这是一种开源视觉语音模型 (VSM),可实现关于图像的自然、实时语音交互。在他们之前与 Moshi(一种专为实时对话而设计的语音文本基础模型)合作的基础上,MoshiVis 扩展了这些功能以包括视觉输入。这一增强功能使用户能够就视觉内容进行流畅的对话,标志着人工智能开发取得了显著的进步。
从技术上讲,MoshiVis 通过集成轻量级交叉注意模块来增强 Moshi,这些模块将现有视觉编码器的视觉信息注入 Moshi 的语音标记流。这种设计确保 Moshi 的原始对话能力保持不变,同时引入处理和讨论视觉输入的能力。交叉注意模块内的门控机制使模型能够有选择地处理视觉数据,保持效率和响应能力。值得注意的是,MoshiVis 在消费级设备(例如配备 M4 Pro 芯片的 Mac Mini)上每个推理步骤增加了大约 7 毫秒的延迟,导致每个推理步骤总共 55 毫秒。这种性能远低于实时延迟的 80 毫秒阈值,确保交互顺畅自然。

在实际应用中,MoshiVis 展示了其通过自然语音提供视觉场景详细描述的能力。例如,当呈现一幅描绘被树木环绕的绿色金属结构和一座外观为浅棕色的建筑物的图像时,MoshiVis 清晰地表达:
“我看到两座绿色金属结构,顶部有网状结构,周围环绕着大树。在背景中,你可以看到一栋建筑,外观呈浅棕色,屋顶为黑色,似乎是用石头砌成的。”
此功能为各种应用开辟了新途径,例如为视障人士提供音频描述、增强可访问性以及实现与视觉信息的更自然的交互。通过将 MoshiVis 作为开源项目发布,Kyutai 邀请研究界和开发人员探索和扩展这项技术,促进视觉语音模型的创新。模型权重、推理代码和视觉语音基准的可用性进一步支持了协作努力,以改进和多样化 MoshiVis 的应用。
总而言之,MoshiVis 代表了人工智能的重大进步,将视觉理解与实时语音交互相结合。它的开源性质鼓励广泛采用和开发,为更易于访问和自然的技术交互铺平了道路。随着人工智能的不断发展,像 MoshiVis 这样的创新使我们更接近多模式理解的无缝集成,增强了各个领域的用户体验。
查看更多技术细节,请访问:https://kyutai.org/moshivis
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/56862.html