音频技术认证作者
-
声学模型和语言模型融合的N种方式
作者:Ryuk来源:语音算法组链接:https://mp.weixin.qq.com/s/PMKFQvPNLJH7qXqp8fWjkA 语音识别算法目的是从声学特征x中找到最有可能…
-
Moonshine:一种快速、准确、轻量级的语音转文本模型,用于边缘设备转录和语音命令处理
语音识别技术已成为各种现代应用中的关键,尤其是实时转录和语音激活命令系统。它对于听力障碍人士的辅助工具、演示期间的实时字幕以及智能设备中的语音控制至关重要。这些应用需要即时、精确的…
-
OpenAI 和 LiveKit 合作将高级语音转变为 API
LiveKit 和 OpenAI 正在合作,帮助您使用支持 ChatGPT 新的高级语音功能的相同技术构建自己的应用程序。
-
AI 如何解决“鸡尾酒会问题”及其对未来音频技术的影响
本文我们将探讨 AI 在解决鸡尾酒会问题方面的进展,以及它为未来音频技术带来的潜力。
-
探索 Pydub 库:Python 中音频处理的综合指南
从媒体处理到数据分析,音频处理是许多应用程序的一个重要方面。Python 中的 Pydub 库为音频处理提供了一个易于使用的界面,让您可以高效地处理音频文件。在本文中,我们将结合实…
-
研究 | 超越降噪:主动声音控制的基础与未来
主动声音控制(Active Sound Control, ASC)在当今已应用于许多实际噪声控制,包括汽车发动机和道路噪声控制、螺旋桨飞机降噪以及降噪耳机等。尽管该技术的研究和开发…
-
Kyutai 开放源码 Moshi:突破性的全双工实时对话系统
多年来,口语对话系统领域取得了长足的发展,从简单的语音界面发展到能够维持实时对话的复杂模型。Siri、Alexa 和谷歌助手等早期系统开创了声控交互的先河,允许用户通过语音命令触发…
-
沉浸式音频:新瓶装旧酒还是真前沿?
“沉浸式音频 ”一词被用来描述几乎所有非传统立体声(或单声道)的音频呈现方式。然而,沉浸式音频并不是一个新概念,本文作者对此发表了相关观点。
-
GDC的SyncWaveX:利用AI驱动的音频到视频技术重新定义视频制作
在快速发展的视频制作世界中,创新是保持领先地位的关键。科技行业的领跑者 GDC 最近推出了其开创性的产品 SyncWaveX,该产品有望重新定义视频制作领域。SyncWaveX 利…
-
SIP 中继语音带宽?
SIP 中继的普及使这些 SIP 中继的语音带宽计算成为 IT 组织必须解决的问题。带宽过大,就无法实现投资回报率,总体拥有成本也会高于必要水平。带宽太小会导致呼叫阻塞,呼叫者放弃…
-
突破音频质量障碍:引入 PeriodWave-Turbo 实现高效波形合成
在音频合成中实现高保真波形生成是一项重大挑战,特别是由于传统模型(如条件流匹配 (CFM))的推理时间较长,需要大量的常微分方程 (ODE) 步骤。虽然这些模型质量很好,但它们通常…
-
Vec-Tok-VC+: 双重训练策略下基于渐进式损失约束和残差增强的鲁棒零样本语音转换 | INTERSPEECH2024
零样本语音转换 (zero-shot voice conversion) 旨在保留语言内容的同时,将源说话人语音转换成任意目标说话人的语音。随着深度学习技术的引入,零样本语音转换技…
-
音频技术在虚拟现实及增强现实中的应用
在当今数字化时代,虚拟现实(Virtual Reality,VR)和增强现实(Augmented Reality, AR)技术正迅速成为创新交互体验的前沿。这些技术通过模拟或增强用…
-
使用 RecordRTC.js 库流式传输音频
RecordRTC.js 是一个方便的 JavaScript 库,可让您直接从浏览器录制音频和视频。通过使用 WebRTC 技术,它能让捕捉音频、视频甚至屏幕录制等媒体流变得超级简…
-
紧凑但强大:Intel N-DNS Challenge 冠军方案解析
微软举办的DNS Challenge比赛做语音的朋友们或多或少有所了解,但是这个比赛更多的注重语音增强的效果。然而在实际场景下,很多语音增强的算法要放在低算力的端侧运行,这就对模型…
-
MPEG-H 与广播音频的发展
MainConcept 战略与业务发展副总裁 Thomas Kramer 和 Fraunhofer IIS 媒体技术高级工程师 Yannik Grewe 详细介绍了 MPEG-H …
-
低噪音创新:声音如何促进电信业的未来
声波有多种应用,但并不总是广为人知:它们不仅用于通信,还可用于冷却或加热建筑物、监测鸟类迁徙或控制电视。随着社会的变化,声学领域涉及许多创新,为日常挑战提供解决方案。 电信世界也不…
-
风噪抑制方案解析
风噪,专业名称为空气动力噪声,是由流场中运动的物体与物体之间的作用产生,或者是由流体自身的湍流运动导致的流体之间的相互作用产生。在多种实际应用场景中都可能遇到风噪的问题,常见的比如…
-
2024 年 MLB 全明星赛现场直播:新技术让音频制作变得复杂
FOX Sports 为 MLB 全明星赛制作音频的过程对观众来说可能冗长而不透明,但这对他们充分欣赏比赛绝对至关重要。由于新技术和多样化技术的应用,视频变得越来越复杂,而同步那些…
-
Interspeech2024|基于离散语音单元的流式解码器语音识别
在当今数字化时代,大模型以其强大的数据处理和复杂问题解析能力,正深刻改变着我们的现实生活。以GPT4o等为例,大模型已经具备了令人惊叹的全双工语音交互能力,其中实时交互是语音对话的…