语音合成

技术文章

IndexTTS2：用极致表现力颠覆听觉体验

在语音合成技术不断演进的背景下，早期版本的IndexTTS虽然在多场景应用中展现出良好的表现，但在情感表达的细腻度与时长控制的精准性方面仍存在提升空间。为了解决这些问题，并进一步推…

大厂Animal
2025年7月11日
技术文章

Boson AI 推出 Higgs 音频理解和 Higgs 音频生成：具有实时音频推理和富有表现力的语音合成功能

在当今的企业环境中，尤其是在保险和客户支持领域，语音和音频数据不仅仅是简单的录音；它们是宝贵的触点，能够改变运营和客户体验。借助 AI 音频处理，企业可以以惊人的准确度自动转录，从…

AIGC
2025年4月11日
技术文章

人工智能语音合成：为虚拟形象创建逼真的数字声音

虚拟形象已不再只是屏幕上的动画角色，它们是我们的代表、助手，有时甚至是同伴。从视频游戏和客户支持机器人到虚拟影响者和元宇宙人物，这些虚拟形象都应以自然而令人信服的方式与用户互动。提…

虚拟现实
2025年3月28日
技术文章

推进可扩展的文本转语音合成：Llasa 基于 Transformer 的框架可提高语音质量和情感表达能力

LLM 的最新进展（例如 GPT 系列和新兴的“o1”模型）凸显了扩展训练和推理时间计算的好处。虽然在训练期间扩展（通过增加模型大小和数据集量）是一种行之有效的策略，但最近的研究结…

AIGC
2025年2月12日
技术文章

ConvoFusion: 用于语音手势合成的多模态对话扩散 | CVPR 2024

手势在人类交流中起着关键作用。最近的共语手势生成方法虽然能够生成与节拍对齐的动作，但在生成与话语语义对齐的手势方面仍然存在困难。相比于自然与音频信号对齐的节拍手势，语义连贯的手势需…

AIGC
2024年8月5日
技术文章

AAAI2024 基于异构图上下文建模实现对话语音合成的情感渲染 | 论文分享

本次分享内蒙古大学S2LAB与字节跳动、港中文(深圳)合作，关于情感对话语音合成的工作《Emotion Rendering for Conversational Speech Sy…

音频技术
2024年2月23日
技术文章

可控情感的表现力语音驱动面部动画合成

高度逼真的面部动画生成需求量很大，但目前仍然是一项具有挑战性的任务。现有的语音驱动面部动画方法可以产生令人满意的口部运动和嘴唇同步，但在表现力情感表达和情感控制的灵活性方面仍存在不…

音频技术
2023年9月26日
技术文章

语音合成模型NaturalSpeech 2：只需几秒提示语音即可定制语音和歌声

编者按：如果问华语乐坛近期产量最高的歌手是谁，“AI 孙燕姿”一定有姓名。歌迷们先用歌手的音色训练 AI，再通过模型将其他歌曲转换成以歌手音色“翻唱”的歌曲。语音合成技术是“AI …

音频技术
2023年5月11日
技术文章

基于多因素解耦的高表现力语音合成 | ICASSP2023

人类语音是极富表现力的，包括语调、重读、风格、情感的各种表达。表现力语音合成（Expressive Speech Synthesis）的目标就是准确的表达出语音中的各种表现力因素。…

音频技术
2023年3月29日
技术文章

小布助手：业界首个基于对话音频的小样本语音合成技术实践

01 背景传统基于神经网络的语音合成方法TTS已成为主流,技术相对也比较成熟,但是需要大量发音人的原始录音数据,制作成本相对较高。因此,少量语音样本的自定义TTS技术是语音合成领…

音频技术
2023年1月17日
行业资讯

火山语音发布超自然对话语音合成技术

近期，网上就出现了这样一段由两位女声组合而成的音频片段。在音频中，两位女生追忆了自己当年第一次听到周杰伦的心情，还对周董的音乐风格进行了解读，两人一问一答，时长长达近 3 分钟。 …

厂商动态
2022年9月15日