利用 AI 模型提高视频流中手语的无障碍性

流媒体能够连接不同的观众,但让所有人都能观看视频内容仍然是一项挑战。无障碍必须成为优先事项,尤其是对于面临独特障碍的聋哑和听力障碍观众。虽然传统字幕(音频和视频)对某些人有帮助,但缺乏手语的丰富性和表现力,限制了对关键信息和情感细微差别的访问。为了弥补市场空白,Bitmovin 团队探索利用人工智能技术将手语化身引入视频流。这种创新方法将美国手语 (ASL) 姿势的文本表示转换为客户端化身,从而创建了一个更具包容性的解决方案,而无需额外的视频通道或画中画功能。

在这篇文章中,我们将分享我们如何应对这一挑战,详细介绍我们的初步假设、工作流程设计、解决方案的关键组件以及在此过程中获得的见解。从字幕文本轨道作为输入数据开始,以验证这一突破性方法的可行性,为让所有人都能更轻松地享受流媒体服务铺平道路。

解决方案概述

我们通过多步骤流程实施了该项目,该流程将人工智能和机器学习驱动的自然语言处理 (NLP) 与 3D 动画技术相结合。一般来说,它可以分为两个重要的主要组件,即服务器端组件和客户端组件。

服务器端组件:对于每个视频资产,现有的字幕文本轨道用于生成额外的“字幕轨道”,其中包含HamNoSys(汉堡手语符号系统)的表示,这是一种标准化的转录系统,旨在以书面形式表示手语手势(稍后会详细介绍)。此基于文本的手势轨道作为视频资产的一部分进行存储和交付,就像任何其他字幕轨道一样。可以按需生成手势轨道(只要客户端视频播放器请求),也可以作为现有编码和打包工作流程的一部分。对于可以使用哪种流媒体技术,这里没有限制,它非常适合 DASH 和 HLS。

客户端组件:每当播放包含手势轨道的视频并在视频播放器中激活手势轨道时,都会初始化可自定义的 3D 化身并将其与视频一起渲染。手势轨道中的 HamNoSys 表示以及所包含的时间信息用于生成单个手势和姿势的临时SiGML(手势标记语言)描述,然后将其输入到 3D 化身的渲染和动画引擎中。

该图说明了整个端到端管道,从服务器端的符号轨道生成,到在客户端的视频播放器中集成的可定制 3D 化身的动画。

利用 AI 模型提高视频流中手语的无障碍性

我们如何实现它

1. 服务器端处理:文本到 HamNoSys

HamNoSys 是一种标准化的音标系统,旨在以书面形式表示手语手势。该系统的开发旨在提供一种一致且系统的方式来记录和分析手语的视觉空间元素,重点关注手势中的手势形状、位置、动作和面部表情的具体特征。

如上所述,在此场景中,用于翻译为 HamNoSys 的输入是视频资产中现有的字幕文本轨道。在我们的第一个原型中,我们使用Gloss作为中间表示,它可以看作是手语语法的简化形式,将单个手势一一对应地转录。这种 Gloss 表示使我们能够重复使用一些现有工具[1]、[2],然后根据来自公开可用数据库的映射将其翻译成 HamNoSys。

大致来说,整个翻译工作流程如下:

  1. 输入文本的标记化
  2. 删除和过滤停用词和标点符号
  3. 通过词形还原得出基本词形
  4. 重新排列单词以符合美国手语 (ASL) 的手语语法规则
  5. 生成最终的光泽度表示
  6. 将 Gloss 表示转换为 HamNoSys

2. 客户端处理和动画

在CWA 手语头像项目[3]的基础上,我们将 3D 头像集成到我们世界一流的视频播放器套件中。头像需要 SiGML 作为输入;这是一种基于 XML 的语言,专门用于表示数字应用(例如 3D 头像或手语识别系统)的手语手势。 

对于手势轨迹,我们选择使用 HamNoSys 而不是 SiGML,因为它在服务器端生成 SiGML 时是一种更紧凑的表示,而将其传送到视频播放器会使手势轨迹的文件大小增加 10 倍。此外,从 HamNoSys 到 SiGML 的转换复杂度相对较低,因此适合在客户端完成,我们按照本出版物[4] 中概述的方法进行了转换。

我们在客户端集成中发现的一个挑战是将动画的时间与音频的速度相匹配,因此我们必须实现一种同步机制,根据标志轨道中包含的时间信息自动加快或减慢动画速度。

优点

我们的生成手语并将其集成到视频内容中的解决方案具有几个关键优势,使其成为增强可访问性的有力方法:

兼容性

通过将手语表示为专用字幕轨道,我们的解决方案可以无缝集成现有的视频播放器和流媒体技术。这意味着视频播放器不需要进行任何特殊修改即可支持手语,或者可以选择像忽略未知语言的字幕轨道一样直接忽略它。因此,无论您使用的是 DASH、HLS 还是任何其他流媒体协议,我们的手语轨道都可以使用标准流媒体格式和工作流程与视频内容一起提供。这种通用兼容性确保可以轻松将手语添加到各种平台和设备上的视频内容中。

灵活的头像集成

我们的方法可以灵活而简单地将 3D 头像集成到视频播放器中,以直观的方式呈现手语。由于头像的动画由手语字幕轨道中嵌入的时间和内容信息驱动,因此任何显示字幕提示的视频播放器都可以轻松扩展以支持头像叠加。此外,头像的外观、行为甚至位置都可以自定义,以符合个人用户的偏好或符合特定的品牌指导方针。

无附加视频内容

将手语表示为字幕轨道和灵活的头像的另一个主要好处是,无需再为通常以画中画体验显示的手语创建单独的视频内容。虽然画中画方法看似更简单,但它也存在一些缺点:

  • 并非所有视频播放器和流媒体平台都支持 PiP 功能,从而限制了手语内容的覆盖面和可访问性。
    • 例如,许多 Android 电视一次只能解码一个视频
  • PiP 窗口可能会遮挡主视频的部分内容,从而可能分散观众的注意力并妨碍他们充分参与内容。
  • 为手语提供额外的视频轨道会显著增加带宽消耗,可能会导致缓冲问题和加载时间变慢,尤其是对于互联网连接有限的用户而言。
  • 额外的视频轨道下载和解码会增加电池使用量
  • 由于必须存储两个视频而不是一个视频,因此对服务器的存储要求明显更高,从而导致更高的成本。
  • 用户通常对 PiP 窗口的位置和大小的控制有限,这会进一步影响观看体验,尤其是对于有视力障碍的用户。
  • 与视频相比,字幕轨道的更新更快、更容易,视频需要更长的再生和重新编码工作流程,尤其是在录制人类签名者的声音时。

挑战与不足

虽然我们的解决方案展示了人工智能驱动的视频内容手语生成的潜力,但重要的是要认识到当前的局限性和未来改进的领域:

  • 注解不能完全体现 ASL 的语法复杂性。它更像是逐字逐句的翻译。例如,在注解的句子中,手势可能被表示为英语单词,而不考虑 ASL 独特的语法
  • HamNoSys 旨在将手语语法表示为文本并进行分析,但无法提供足够的信息将其翻译回手语。HamNosys 不支持手语转换和叠加。
  • 动画手势的时机
  • 表现和激活面部表情是手语的重要组成部分。
  • 手语表达的情感和语境较多,字幕限制较大。手语生成的进一步解决方案需要使用更多数据源(音频、视频、字幕等),以便在手语中包含更准确的语境信息。

下一步该怎么做

关于我们下一步可以采取哪些措施来推进这个项目,以帮助为聋人社区创造更有价值和更有用的体验,以下是一些想法: 

  • 探索 HamNoSys 和 Gloss 之外的替代中间表示,以捕捉更细致入微、更自然的手语语法。
  • 利用随机模型,例如隐马尔可夫模型 (HMM) 或循环神经网络 (RNN),可以让系统学习和预测不同手势序列的概率,从而生成更自然、更适合语境的手语。
  • 多模式数据处理,融合音频、字幕和视觉提示,以更全面地理解内容,从而实现更准确的手语。
  • 在服务器端生成手语姿势,并使用手势轨道简单地包含头像姿势指令,删除客户端 SiGML 处理并使头像与手语无关。
  • 探索更复杂的模型,能够准确捕捉和重现手语表达中涉及的面部肌肉的复杂运动,包括从源视频中进行情绪识别分析,以帮助合成面部表情。
  • 继续与更多聋人社区成员和大学手语语言学研究人员合作并获取反馈。

结论

正如我们在这篇博文中所探讨的那样,人工智能手语生成具有巨大的潜力,可以弥合聋哑人士和听力障碍人士的沟通障碍。通过将手语无缝集成到视频内容中,我们可以创建一个更具包容性和可访问性的数字环境,让每个人都可以充分参与并享受视觉叙事的丰富性。

我们的方法利用了 AI 和 NLP 技术,提供了一种引人注目的方法,既与现有的视频播放器基础架构兼容,又足够灵活,可以适应未来的发展。这是一个很难实现自动化的问题,虽然在语言表达、面部表情建模和同步等领域仍然存在挑战,但正在进行的研究和与学术机构的合作正在为重大改进铺平道路。

我们设想,未来,手语和口头对话将随处可见,出现在各种形式的视频内容中,从教育材料和娱乐到新闻广播和社交媒体。这不仅将为聋人和听力障碍者群体赋能,还将通过提供对各种沟通方式的更深理解和欣赏,丰富每个人的观看体验。通过拥抱创新和促进合作,我们可以共同努力,实现视频内容真正为所有人所用、包容的未来。 

参考资料:
[1] https://nlp.stanford.edu/software/lex-parser.shtml

[2] https://stanfordnlp.github.io/stanza

[3] https://vhg.cmp.uea.ac.uk/tech/jas/std/

[4] https://aclanthology.org/2020.lrec-1.739.pdf

作者:Mario,Kevin
原文:https://bitmovin.com/blog/ai-sign-language-video-streaming-accessibility/

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/55072.html

(0)

相关推荐

发表回复

登录后才能评论