NAB 2025 回顾:人工智能与音频的结合成为可能

在 NAB 2025 上, 人工智能(AI)作为一种概念和现实是一个重要的话题。

Telos Alliance 在展会上首次展示了其 Minnetonka Audio AudioTools Server 基于文件的音频自动化平台的 AI 驱动功能。新功能是 AudioTools Server 重要软件更新 ATS V7 的一部分,该更新旨在利用下一代音频的个性化功能,并将引入测量对话清晰度(音频相关的首要投诉)的功能,计划于今年晚些时候发布。

Telos Alliance 销售、营销和战略执行副总裁 Marty Sacks解释说:“清晰度是未来发展的一大难题,尤其是在小屏幕上。另一件让我们非常兴奋的事情是,我们能够帮助那些使用多种语言创作内容的人,让他们能够弄清楚如何将正确的内容分配到正确的渠道,这是我们与弗劳恩霍夫研究所合作的一部分,我们将使用他们开发的算法。”

他说,最终目标是能够将这些流程应用于体育等现场制作。

Lawo 的算法驱动的踢球追踪技术预示了现在人们对 AI 的大部分期望,而Lawo 首席营销官Andreas Hilmer认为,AI 在广播领域的未来可能更多地存在于幕后,而不是混音台后面,一些人员短缺的广播公司一直希望 AI 能够弥补不足。

“我认为主要影响首先会更多地体现在基础设施方面,”他说道,“管理基础设施、优化资源利用、如何管理网络、通过机器学习了解可能出现的潜在故障——我认为,这些方面才是我们(对 AI )产生最先影响的地方。毫无疑问,未来会有相关设备出现,但它们真的会改变工作流程吗?目前我并不这么认为。”

Clear-Com 产品管理副总裁 Dave McKinnon同样怀疑 AI 能否像一年前那样成为革命性的游戏规则改变者。“AI 绝对是我们正在考虑的。我在 NBCUniversal 的制作部门工作了 12 年,我一直讨厌那些噱头,无论是 3D 电视还是 8K 电视的噱头。我们将以一种非常周到的方式实施 AI,而不是仅仅为了噱头。” “我们目前在语音转文本和其他应用方面展示了一些东西。”

“但是,”他继续说道,“我告诉我的团队,我想引入 AI ,但我们希望以一种对我们的用户和用例有建设性的方式来做,而不仅仅是为了在盒子上盖上 AI 的章。”

NAB 2025 回顾:人工智能与音频的结合成为可能
Riedel 智能音频和混音引擎 (SAME)

AI 或许有点受其自身炒作的影响,但自动化音频系统无疑正在变得越来越智能。Riedel 的智能音频和混音引擎(SAME) 就是展会上的一个例子。SAME 于去年推出,并非纯粹为了技术而技术,而是为了工作流程的增强。SAME 拥有 30 多种先进的音频处理工具和混音器——从自动电平调整和动态均衡到 5.1 上混、响度计和信号分析仪,可满足画外音、自动混音、音频监控和在线流程插入等应用的需求。

Riedel Communications高级产品经理 Roger Heiniger 表示:“它满足了更多自动化的需求,但并不一定需要使用人工智能。SAME将为音频制作行业开辟一个全新的工作流程。”

演示展示了一台 A1 如何远程监控多位混音师的工作。他表示,重要的是,用户界面还可以根据子混音师的能力水平进行调整,或者允许他们自行管理音频。

数据带来改变

然而,人工智能的未来比许多人想象的更加广阔。RTS Intercom Systems 为 2025 年 NAB 展会推出了全新的NOMAD 无线对讲机和RVOC 混合云解决方案。谈到人工智能时代的对讲机,包括人工智能语言翻译,RTS 项目管理总监 Mike Keiffer指出,通常情况下,“在大型体育赛事中,解说员会坐在各个地方,用各种语言进行解说。现在,只需一位解说员,就能全自动地讲 20 种语言,延迟时间仅为几毫秒。”

他补充道,公司的研究现在涉及广泛的数据建模,以便更好地理解人工智能系统如何建立连接。“我们必须有一些东西来预测模型并路由[信号],”他解释道。“它即将到来。可能还需要两年时间,但凭借我们已经在做的云计算,我们现在就可以开始进行一些数据分析。它的美妙之处在于,一旦将数据导入云端,就可以开始使用数据,了解用户如何使用,然后我们就可以开始迁移到客户需要的功能集。”

Audinate 首席营销官 Josh Rush指出,数字网络正在生成和积累大量数据,这本身就带来了痛点。Audinate 的 Dante 格式未来或许能够利用人工智能来解决这一问题。“Dante 掌握着大量数据,”他解释道。“我们掌握着设备信息、网络利用率信息,以及我们在此展示的所有控制和管理工具信息。目前,我们只是从被动响应的角度来处理:如果某个设备断网,我们可以通知您。”

“但我们在实验室里研究的,”他继续说道,“是如何对这类事件进行更准确的预测。通过查看数据,能够在事件发生之前就告知人们我们认为存在发生此类事件的风险——这真是太酷了。”

沉浸式体验正在发生变化

铁三角广播业务发展总监 Gary Dixon 表示,上周市场发展速度飞快,但沉浸式音频仍处于发展初期。过去十年左右,杜比全景声 (Dolby Atmos) 等音频格式已经完善了软件,专业音频制造商也为其打造了一系列硬件,例如铁三角展位上展出的 8 通道BP3600麦克风——而与此同时,消费者则转向使用小型设备观看体育和其他内容。

“难点在于如何将声音传递给最终用户,”他说。“最终用户可能在家里的大屏幕上观看,家里可能有一套巨大的7.1或22.1声道系统,但他也可能在手机上观看,甚至可能在车里或火车上。你如何将所有这些声音混合在一起?你如何将它们传递到可以轻松适应所有不同环境的环境中?”

再加上广播公司制作预算的削减,沉浸式音频的普及速度有所减缓。“它的发展不如我们所愿,”Dixon 说。“不过,我们仍然需要提供达到最高水平的工具。”

音频分离

MPEG-H 音频编解码器的德国开发商弗劳恩霍夫研究所在展会上展示了该格式的一些新功能,包括分离音频流中各种源(特别是对话)的能力,然后可以将其作为沉浸式声场中的对象进行管理。

“这是MPEG-H的关键特性之一,它在ATSC 3.0中是标准化的,” Fraunhofer媒体技术和业务发展高级经理Yannik Grewe表示。“当然,这一点非常重要,因为用户个性化、对话增强和其他功能将为观众带来巨大的益处。”

说到音频分离,在 NAB 2024 上赢得 NAB 试点创新挑战赛的 AudioShake 今年展示了音源分离技术,重点是音乐:具体来说,就是如何从声场中去除音乐,以避免因无意侵犯版权而引发日益激烈的诉讼。

AudioShake 产品经理约翰·艾弗斯 (John Ivers)指出: “随着球队和联盟使用社交媒体来推动粉丝参与,这个问题变得越来越严重” ,尤其是当对冲基金和私募股权公司继续向音乐出版收购投入数十亿美元,并利用法庭来保护这些投资时。

AudioShake 的音频主干分离算法在该应用中的其他用途包括内容识别,以创建用于后期制作的提示列表和创建“体育场房间音调”,收集制作空间的环境音调,以便在后期制作中重新创建,以获得一致的声音体验。

信息源自sportsvideo.

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/57409.html

(0)

相关推荐

发表回复

登录后才能评论