近日,由国家工业信息安全发展研究中心举办的以“智融应用质惠未来”为主题的人工智能高质量融合与安全应用研讨会在京成功举办。会上,火山引擎作为通过国家语音及图像识别产品质量检验检测中心(以下简称“AI国检中心”)检验检测的优秀行业企业之一,其语音合成产品继获得语音合成增强级检验检测证书后,再次得到权威认可,荣获语音合成有声阅读及汽车行业性能A级评估证书,各项测评要求均已达到AI国检中心的最高等级标准,充分表明在火山语音支持下的语音合成技术能力已达行业领先水平。
长期以来,火山语音面向字节跳动各大业务线提供行业优势的AI语音技术能力以及全栈语音产品解决方案,强力助推用户体验优化以及业务增长。目前团队的语音识别和语音合成覆盖了多种语言和方言,涵盖有声阅读、车载、语音交互、音视频、游戏、广告等多种应用场景。
本次参评的火山引擎语音合成产品为火山语音团队自主研发,采用了业内领先的生成式神经网络技术,并针对有声阅读和汽车车载领域的行业属性以及应用场景特性做了诸多优化。
具体来说针对有声阅读场景,“在满足发音清晰、韵律连贯、语调起伏的要求基础上,我们研发了基于半监督学习的端到端风格控制声学模型;此外针对「副语言」现象进行了精细化的建模还原,实现了在有声书中常见的重音停顿、疑问反问、笑声哭腔以及各类叹息叫喊声等,为用户打造更沉浸式的听觉盛宴。”火山语音团队表示。
此外,面对看似常见但门槛却不低的车载场景,团队则采用了半监督情感模块,仅凭1小时的情感数据作为参考,就可智能分析出全量语料的情感类型和强度,让所有数据参与合成语音情感能力的建模,实现更显著、更自然和更细腻的情感表现力,在哪吒新车发布同期上线的活力动感、富有“人情味儿”的车载语音助手音色也得到了充分体现。同时团队还为车机场景专业名词文本分析提供了高效热修复机制,可在分钟级修复问题。
无论是有声阅读领域还是车载场景,火山语音TTS技术引擎都提供了端云一体的解决方案,让用户可以在无网环境下也能无缝衔接体验。对于移动端引擎,团队自研开发了业界领先的全链路神经网络模型,合成自然度接近云端效果且方案适配多平台,覆盖中高低端多类型芯片。
目前火山语音,字节跳动 AI Lab Speech & Audio 智能语音与音频团队,将打磨多年的语音技术能力面向市场并通过火山引擎开放给外部企业,如今已覆盖汽车、有声阅读、金融、视频配音等众多应用场景,并助力多家行业头部企业实现AI 语音能力的应用与拓展,未来还将不断探索前沿科技与业务场景的高效结合,持续为用户体验和业务增长注入创新势能,以实现更大价值。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。