人工智能正在进一步涉足音频内容生成领域,并极大地改变了其发展。谷歌、Meta 和微软等知名供应商以及 Revoicer 和 WellSaid 等初创公司正在利用生成式人工智能,提供更灵活、更强大、更逼真的内容。这些解决方案可帮助公司、内容创建者、播客和企业家为越来越多的应用程序创建音频内容。这些进步确实带来了一些问题,例如需要专业技能、数据隐私问题和高成本,但未来几年市场有望大幅增长。
如今,内容为王,音频内容已成为企业与客户、合作伙伴和供应商联系的热门工具。传统上,创建此类材料是一个耗时、耗力且成本高昂的过程。
下一代生成式 AI 解决方案简化了音频数据的收集、生成和分发。因此,它们前景光明:根据 Zion Market Research 的数据,全球 AI 语音生成器市场在 2023 年达到 36 亿美元,预计到 2032 年将增至 106 亿美元,复合年增长率 (CAGR) 约为 20%。
另一家研究公司Market.us发布的数据略低,但整个行业的预测基本相同:它将是强劲发展的!
最新报告称,专家们一致认为,人工智能语音生成器市场正在快速增长,这得益于技术创新,特别是深度学习和自然语言处理领域的技术创新,这些技术创新显著提高了人工智能语音生成的质量和准确性。
Market.us 进一步表示,这些创新可能会扩大潜在的用例并增加娱乐、医疗保健和教育等领域的需求。
Market.us 分析师在报告中总结道:“进一步发展和应用的机会非常巨大,确保市场前景乐观。”特别是,“将人工智能语音生成器与增强现实、虚拟现实和物联网相结合开辟了新的增长途径。”
但目前,越来越多的应用程序已经在利用该技术。以下是几个例子。
- 文本转语音。 先进的 TTS 系统使用 AI 将书面文本转换为口语音频。这些工具变得越来越复杂,可以生成具有类似人类语调的自然声音。它们越来越多地可以唤起不同的情感。这些应用程序存在于联络中心、网站以及越来越多的智能设备(例如智能手机)中。
- 画外音自动化。 许多组织依赖专业工作室来制作高质量的音频内容。新系统使大部分流程自动化。公司在广告、教程和销售资料中使用口头内容,而人工智能正变得足够强大,可以生成整个合成播客。
- 语音合成。 随着组织构建大数据模型,公司正在使用语音合成来为虚拟助手配音、制作营销内容并模仿全球各地的措辞和各种方言。
- 音频编辑和增强。 自动化是新工具的一大亮点。人工智能解决方案通过执行任务实现声音混合自动化,例如自动降低背景噪音,甚至创建动态、自适应的音轨。
生成式 AI 音频内容创作工具有潜力通过多种方式提高性能。它们包括:
- 提高音频质量。AI 模型可以分析录音并消除不必要的间隙和噪音,从而产生听起来更好的音频内容。
- 节省时间。 人工智能可以快速生成音频内容,比手动流程快得多。“人工智能语音生成器可以快速创建音频内容,这对于时间敏感的项目或活动尤其有益,”Revoicer 的客户支持代理 Jack Stratford 说。另一个好处是,这些工具使组织能够创建比过去多得多的内容。
- 降低成本。 技术之所以如此受欢迎,是因为机器的成本低于人类。自动化音频内容创作降低了劳动力成本并简化了制作流程。新产品减少了对人工配音演员、音响工程师和录音室时间的需求。因此,它们极大地改变了音频成本指标,为小型组织打开了市场。公司不再需要昂贵的录音室或将音频设备从一个地方搬到另一个地方。一个连锁反应是,潜在创作者的数量增加了,因为制作高质量音频内容的基础设施变得更加容易获得且价格低廉。
- 提高一致性。 人都会犯错。人工智能从制作过程中消除了与人类相关的情绪、疲劳或情绪变化。因此,这些解决方案可以制作出具有一致质量、音调和风格的音频,这有助于提高品牌认知度。
- 生产力提升。 内容创作者有更多的时间专注于开发优质内容,而花更少的时间在音频制作设备上进行精细调整。
- 内容更加个性化。 自动化功能让组织能够更轻松地根据个人喜好定制内容。他们可以根据不同的人口统计数据调整音量,为年轻听众降低音量,为年长听众提高音量。他们还可以改变语调,以覆盖世界各地使用不同方言或口音的人群。内容还可以使用行业特定的术语、俚语、俗语等进行定制。
- 内容可访问性更广泛。 许多人患有残疾,难以使用各种媒体。这些产品将书面材料转换成语音,使视障人士和阅读困难者能够使用。一个有趣的用例是针对患有肌萎缩侧索硬化症(俗称卢格里格氏症)的人。WellSaid 首席执行官 Brian Cook 解释说:“当公司意识到患者患有 ALS 时,他们会用患者的声音训练 AI 模型。当他们失去说话能力时,系统听起来就像他们在说话。”
- 多语言输出。 世界变得越来越小,因此公司希望创建可以在更多地方分发的内容。这些解决方案使他们能够快速轻松地将信息从一种语言翻译成另一种语言。
人工智能工具的广度不断扩大
对于一个潜力巨大的市场来说,它仍处于发展的早期阶段。尽管如此,许多公司(包括初创公司和行业标准)一直在突破可能的界限。其中最活跃的公司包括 IBM、Google、Amazon Web Services、Microsoft、百度、三星、Synthesio、Speechify、Speechelo、Wondercraft AI、ElevenLabs、OpenAI、Cerence WellSaid Labs、CereProc(最近被 Capacity 收购)、Listnr AI 和 Respeecher。
例如,谷歌率先在人工智能语音合成领域取得进展,尤其是通过其谷歌云文本转语音和谷歌助手。谷歌云文本转语音 API 的最新更新允许开发人员为其应用程序构建更逼真、更富有表现力的声音。该 API 现在提供 40 多种语言的 220 多种声音。其深度学习技术为各种设备和应用程序提供支持,进一步扩展了消费者和企业领域的人工智能语音技术。其 AudioPaLM 产品将音频生成模型与语言模型相结合,以协助语音识别和语音转语音翻译。该工具可以根据需要进行微调以使用和生成标记化音频,并将内容翻译成不同的语言。
亚马逊继续凭借 Alexa 及其 AWS Polly 服务在智能音箱行业占据主导地位,帮助企业将语音功能集成到其应用程序和设备中。其最新进展为 Alexa 带来了更复杂的人工智能对话能力,使用户能够生成更具动态性和情境感知的响应。
微软通过其 Azure AI Speech 平台在人工智能方面也取得了重大进展,为医疗保健、零售和客户服务等多个行业提供高质量的语音转文本和文本转语音解决方案。
IBM 专注于通过 IBM Watson Text-to-Speech 将 AI 语音技术集成到企业解决方案中,使企业能够创建定制的、可扩展的语音应用程序。
尽管 Meta Platforms 并不一定被视为语音技术巨头,但该公司是 Facebook、Instagram、WhatsApp 和其他几款社交媒体和通信应用程序的母公司,也积极参与语音 AI 开发。其 Voicebox 生成 AI 模型专门用于从现有剪辑中创建音频。该软件还包括音频编辑、采样和风格化功能,并执行消除背景噪音等任务,从而提高音频质量。
第二个 Meta 解决方案 Audiobox 通过语音输入和自然语言文本提示生成音频音效。个人按照自然语言提示描述他们想要生成的声音或音频类型。
其他一些在语音人工智能领域引起轰动的鲜为人知的公司包括 TikTok 母公司字节跳动开发的 Make-An-Audio,它可以从自然语言输入和现有音频中生成个性化的音频片段;Murf.ai 为企业和娱乐目的(如广告、教育课程和演示)提供文本转音频工具;WellSaid Labs 提供了一个工作室平台,允许用户为特定用例制作和管理自定义声音;ElevenLabs,其解决方案用于为有声读物和新闻文章配音、为视频游戏角色制作动画、电影前期制作、娱乐媒体本地化、为社交媒体和广告创建动态音频内容以及使用多达 32 种语言培训医疗专业人员;Revoicer 专注于人工智能生成的画外音,已经创建了大约 100,000 个画外音和 100 万分钟的音频。
一系列挑战出现
虽然人们对这些产品的兴趣日益浓厚,但企业在部署这些产品时必须克服几个值得注意的障碍。其中包括:
- 技术不成熟。 这些解决方案很新,因此经常迫使组织走出舒适区,因为他们几乎没有经验。Opus Research 创始人 Dan Miller 解释说:“接下来的 12 个月将用于研究如何确保特定用例和应用程序的安全,以及让联络中心管理员和 IT 专业人员做好准备,以支持包括语音 AI 在内的数字客户服务方法。”由于员工缺乏专业知识,企业需要向供应商或第三方专家寻求帮助。
- 依赖数据。 训练 AI 音频生成模型非常耗时。需要大量音频来确保模型能够理解并适应人类语音中的许多细微差别。
- 大量的基础设施投资。 “训练这些模型可能非常复杂,需要大量资源,”Revoicer 的 Stratford 表示。“它需要专门的硬件和软件,并且需要花费大量时间和精力才能让模型表现良好。”
- 用例还会影响提供高质量结果所需的处理能力。 “供应商面临着速度和质量之间的持续平衡,”WellSaid 的 Cook 解释道。“高质量需要大量的处理和计算能力。要提供快速的呼叫中心 IVR,高质量的响应就变得具有挑战性。”
- 技术限制。 这些互动发生在机器和人之间。因此,供应商必须处理当人们停下来整理思路或系统在将查询发送到云端进行处理时遇到延迟时出现的问题,米勒说。
- 不错但不完美。 收集足够的高质量数据来建立模型需要大量投资。然后,公司必须不断调整模型以提高其准确性。如果数据有偏差、过时或不足,结果就会有缺陷。现实情况是,系统永远无法达到 100% 的准确率。那么什么才算足够好?85%?90%?95%?制定商业案例来证明提高准确率所需的大量投资是管理层不断努力解决的问题。
- 缺乏情感。 传统上,解决方案听起来像机器一样——笨拙而虚假——使其缺乏吸引力。虽然已经取得了一些进步,但系统可能难以理解和响应复杂的语调,例如幽默和愤怒。
- 道德考量。 人工智能生成技术正陷入道德争论之中。人们对收集和生成数据模型的过程提出了质疑。此外,这些系统能够在未经个人同意的情况下模仿个人声音,这也引发了人们对其正确使用方式的质疑。
- 数据收集难题。数据模型通常依赖于个人互动,这一过程引发了有关数据所有权的问题。挑战始于同意。用户并不总是完全了解他们的口头和文本互动是如何存储和使用的。供应商通常会在个人访问系统时签署的复杂法律文件中概述他们的意图。措辞可能难以辨认,含义也不明确。各国政府,例如欧盟政府,一直在制定法律,旨在提高这一过程的透明度。此外,供应商正在推出新的使用模型。在某些情况下,他们会与参与者分享收入,这些参与者的投入构建了他们的数据模型。
- 意外监控。 使用语音 AI 的设备通常会监听触发词来唤醒自己并为客户提供所需的信息。有时,客户并不知道系统已启动并正在收集数据,即使他们没有明确授权此类过程。
- 固有偏见。 归根结底,数据模型和 AI 内容生成解决方案所使用的代码是由人类编写的。每个人都是其环境的产物,对世界抱有先入为主的观念,这些观念可以反映在他们创建的解决方案中。业界一直在努力识别和消除偏见,但同样,这些系统的基础是由不完美的人类构建的。
- 版权侵权。 在许多情况下,个人将不合法属于自己的信息输入数据模型,从而导致数据被滥用或误用。因此,版权和所有权问题随之而来。这个领域一直在快速发展,而且很难驾驭。
- 语音克隆滥用。 语音克隆技术已经变得相当复杂,允许内容创建者模仿个人声音,然后使用文本转语音生成虚拟音频内容。潜在用途包括欺诈、传播错误信息和市场操纵。
- 缺乏信任。 创建逼真的音频深度伪造的能力可能会导致人们对音频内容的真实性产生普遍怀疑,使人们更难相信他们所听到的内容。部署该技术的公司可能会发现,客户拒绝而不是接受新的解决方案。
如何选择正确的用例
鉴于存在大量功能和部署问题,公司很难确定在何处部署 AI 内容生成。这些产品似乎最适合常规、大量或个性化任务,如语音助手和转录服务。这些工具现在可能不太适合需要大量情感或模仿复杂音频传递的应用程序。
尽管存在局限性,但采用人工智能的速度仍然很快。根据 eMarketer 的数据,大多数公司(74%)现在使用人工智能来生成内容。这个数字预计还会增长:“使用人工智能来生成内容是不可避免的,”Opus Research 的 Miller 总结道。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/56157.html