Hertz-Dev：用于实时对话式 AI 的开源 8.5B 音频模型，在单 RTX 4090 上具有 80 毫秒理论延迟

AIGC • 2024年11月6日上午11:52 • 技术文章

对话式 AI 如今已成为技术的基石，但实现快速、高效和实时的交互仍然具有挑战性。延迟（输入和响应之间的延迟）限制了客户服务机器人和虚拟助手等应用程序，使交互变得迟缓。现有模型通常需要强大的计算能力，这使得小型设置和独立开发人员无法实现实时人工智能。我们仍然需要一种可访问、强大且高效的解决方案。

Standard Intelligence Lab 最近通过发布 Hertz-Dev 解决了这一问题：这是一个用于实时对话式 AI 的开源 85 亿参数音频模型。Hertz-Dev 旨在通过令人印象深刻的性能指标彻底改变实时应用程序，在单个 NVIDIA RTX 4090 GPU 上实现 80 毫秒的理论延迟和 120 毫秒的实际延迟。通过使高级 AI 更易于访问，Hertz-Dev 为没有广泛基础设施的开发人员和研究人员带来了高性能音频建模，使对话式 AI 领域变得民主化。

Hertz-Dev 的速度和响应能力出众，拥有 85 亿个优化参数，可将延迟降至最低。理论上延迟为 80 毫秒，实际使用中延迟为 120 毫秒，可确保流畅的对话体验，回复感觉即时而不是延迟。它在 RTX 4090 上高效运行，利用最新的 GPU 进步，无需多 GPU 设置。这种效率使 Hertz-Dev 成为独立开发者、初创公司和大型机构的理想选择，他们希望在保持高性能的同时优化成本。核心架构采用了新颖的优化技术，在保持输出质量的同时降低了计算开销。

Hertz-Dev 的重要性不仅在于其技术能力，还在于它有可能推动实时对话式 AI 的更广泛应用。实时音频处理的应用范围很广，从客户支持自动化到交互式 AI 伴侣，再到残障人士的辅助工具。通过将延迟保持在 120 毫秒以内（几乎与人类感知无异），Hertz-Dev 可实现自然的交互，使 AI 成为人类交流的自然延伸。

早期测试表明，在不同用例中均具有一致的性能，基准测试表明，与之前的开源模型相比，响应时间最多缩短了 40%。这种多功能性使 Hertz-Dev 适用于广泛的应用，包括客户服务自动化和智能家居通信。

Standard Intelligence Lab 发布的 Hertz-Dev 改变了实时对话式 AI 的格局。通过提供兼具经济性和尖端性能的开源高参数模型，Hertz-Dev 使高级 AI 技术的使用变得大众化。它将延迟降低到人机交互与人与人之间的交互几乎无法区分的水平。随着越来越多的开发人员和研究人员采用 Hertz-Dev，我们可以期待一波响应更快、更易于访问且无缝融入日常生活的对话式 AI 应用程序——突破人机交互的极限。

详细信息：https://si.inc/hertz-dev/
GitHub地址：https://github.com/Standard-Intelligence/hertz-dev

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/jishu/53640.html