媒体制作中的人工智能:自动生成配乐和社交媒体

人工智能主导了 2023 年许多垂直领域的科技话题。它可以在瞬间生成大量的副本,也可以生成艺术家可能需要数百小时才能完成的数字艺术作品。虽然广播领域的用例仍在不断涌现,但该领域正在迅速发展。

在 IBC2023 期间,来自亚马逊网络服务(AWS)和日本国家广播公司 NHK 的发言人介绍了他们如何在内部开发和实施人工智能。

通过专家们的见解,我们可以窥见整个行业的公司最终会如何将人工智能应用于其工作流程的主干,而不仅仅是外围或作为一种研究工具。

作为音乐工程师的人工智能

亚马逊印度 AWS 首席解决方案架构师 Punyabrota Dasgupta 介绍了该公司开发的一款音乐生成人工智能工具,并通过制作 “快乐 “和 “悲伤 “的背景音乐序列进行了演示。

“达斯古普塔说:”在电影或电视剧中,甚至有时在人们观看的煽情新闻中,背景音乐都会起到很大的作用。

“但问题是,我们谈论的是非常大量的内容,创建匹配的背景音乐或适合全球观众的背景音乐有时可能是一项具有挑战性的任务”。

AWS 的愿景是创建一个工具,减少为世界各地不同受众定制音乐内容的开销。

Dasgupta 说:“机器学习可以帮助我们实际合成新鲜、原创的无版权音乐,我们可以根据用户的品味和喜好来使用我们在世界各地喜欢的不同内容。”

它甚至可以用于根据相同的原始内容创建许多分叉,并带有针对特定市场或国家/地区量身定制的配乐。

“个性化有多个要素。我可能喜欢西方内容系列的同一版本,或者说来自以色列或阿拉伯世界或任何其他可能的韩国。但是,我想要更多能让我产生共鸣的背景音乐,那么我该怎么做呢?这就是为什么我们可以有多种模型。”

但这种音乐是如何产生的呢?这个特定演示背后的技术实际上相对传统,使用基于长期短期记忆的人工智能,可以有效地识别和复制音乐中发现的模式。其效果类似于知情自动完成,逐渐构建音乐片段,但对实际用户来说效果几乎是即时的。

首先向人工智能输入一段音乐。“我们需要一组样本文件,”达斯古普塔说。“我们可以通过两种方式来处理这个问题。一种是使用互联网上提供的无版权音乐及其乐谱。这将是一个起点。”

“然而,作为一名训练有素的音乐家,至少在印度古典音乐领域,我自己创造了这些乐谱。”

确保音乐真正补充其要对齐的内容的任务也围绕着人工智能。虽然该软件旨在创建音乐片段来匹配人类的情感,例如快乐、愤怒或恐惧,但为了使这种工具大规模发挥作用,还需要一种方法来实际从源中提取这些信息。

“你有一个媒体,可能是电影或电视剧集、新闻片段、宣传材料,然后我们必须根据提取的元数据构建一个模块,”达斯古普塔说。

人工智能可以通过对屏幕上的内容进行视觉分析来了解该内容。例如,可以检查一个人的面部特征以了解他们生气或悲伤的可能性。这只是视频附加的可能元数据中的一个线索。

“因此,首先,我们将对话进行文本到语音转换,”Dasgupta 说。

“关于这个特定的转录我们还能发现什么?也许情绪、情感、口音以及其他任何东西都可以帮助我们做到这一点。然后是视觉分析,包括演员、灯光设置,也许还有背景场景。一切都会增加它。”

还有其他路线。在 AWS 自己的演示中,电影概要是使用 LLM(大型语言模型)AI 生成的,这是人们在现实项目中可能访问的内容。然后人工智能也被用来推断该作品中可能的主题和情感。

人工智能作为社交媒体经理

AWS 在背景音乐生成方面的工作让我们了解人工智能有一天可能如何在平均制作工作流程中发挥作用,但日本国家广播公司 NHK 已经领先了几步。它已经使用人工智能将其广播内容重新调整为新的形式,在不大幅增加工作量的情况下最大限度地扩大其覆盖范围。

媒体制作中的人工智能:自动生成配乐和社交媒体
使用 Amazon Rekognition 进行情绪分析

NHK 研究工程师 Momoko Maezawa 表示:“我们已经进入了一个时代,不仅可以通过电视,还可以通过互联网访问大量视频内容。”

该广播公司使用人工智能生成其广播的较短版本,可以发布在社交网络上。新闻报道是这里使用的主要内容,但旅行节目使用人工智能进行了缩减,甚至用于为每一个片段挑选可能的缩略图。

“在广播电台,摘要视频和节目网站对于提高节目的知名度非常重要,”Maezawa 说。“但是,这么多视频和节目网站的制作,就像广播剪辑一样,专业化程度很高,工作量也很大。”

人工智能被用来大大减少这种工作量,创建以更传统的生产方式制作的内容的较短形式版本。“大约三分之二的节目持续时间可以自动生成摘要视频,”前泽说。

“首先,新闻编辑室视频会自动分成镜头。然后,我们从每个镜头中获取样本图像,并将这些图像的特征输入人工智能中。包含[新闻]主播图像的镜头被判定为介绍视频,其间的序列被判定为主要故事视频。”

由于内容的构成相对公式化,新闻电视新闻报道最终成为这种提高效率的人工智能的完美试验场。人工智能经过训练可以识别不同类型的镜头,例如新闻编辑室中的镜头与故事现场的镜头,并进行相应的处理。

Maezawa 说,它可以判断摄像机何时“放大关键人物并详细显示热门物体,以及事件中涉及的建筑物的特殊拍摄角度”。

她说:“使用图像分析人工智能从主要故事视频中提取重要的视频片段,该人工智能已经了解了重要新闻场景特有的主题类型和大小、构图和摄像机运动。” 它还被编程为识别新主播介绍独白中的关键短语何时在现场镜头中重复,这表明这可能是故事视觉效果的关键部分。

“利用这项技术,可以生成包含专业图片制作的摘要视频,”Maezawa 说。

不过,在现阶段,它的制作并非完全没有人性化。NHK 还开发了一个云界面,制作人可以在其中查看新闻故事和旅游节目的人工智能编辑版本的构成,以便移动片段。或者,最重要的是,删除广播公司无权在社交媒体上发布的部分。

NHK 提醒我们,虽然人工智能有时似乎即将彻底改变我们的工作方式,但一些公司已经以智能、实用的方式使用它。

阿姆斯特丹 IBC2023 期间的技术论文演示中讨论了人工智能如何推进媒体制作的主题。本次演讲由 Logical Media 总监 Nick Lodge 主持,NHK 研究工程师 Momoko Maezawa 和 AWS 印度首席解决方案架构师 Punyabrota Dasgupta 出席。

作者:Andrew Williams
原文:https://www.ibc.org/features/ai-in-media-production-auto-generating-soundtracks-and-social-media/10559.article

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/38524.html

(0)

相关推荐

发表回复

登录后才能评论