-
Krikey AI 与 ElevenLabs 合作推出人工智能语音虚拟形象
2025 年 4 月 2 日,AI 动画软件 Krikey AI 宣布与 AI 语音技术公司 ElevenLabs 建立合作伙伴关系。通过此次整合,游戏工作室和媒体公司可以在使用 …
-
PJSIP 技术架构与核心注册模块工作机制分析
PJSIP 是一个功能强大、轻量级的开源SIP协议栈,广泛应用于VoIP、实时通信和嵌入式系统。它采用模块化设计,支持跨平台(Windows、Linux、macOS、iOS、And…
-
测量 OpenAI 基于 WebRTC 的实时 API 的响应延迟
从 Chrome 浏览器中提取的原始 RTP 数据包来测量总延迟,本文分析了这种方法在 OpenAI 的 WebRTC 实时 API 中的应用,并分析了结果。
-
Netflix 扩展字幕和配音选项
Netflix 宣布,其订阅用户现在可以在流媒体平台上选择观看的影片时,在配音和字幕目录中的 30 多种语言之间切换。 Netflix 在一篇博文中表示:“随着越来越多的会员享受来…
-
Vizrt 推出首个专用 NDI 音频连接解决方案
Vizrt 推出了其首个专用 NDI 音频连接解决方案。 该公司表示,Viz Connect Audio 使用户能够连接、配置和转换模拟音频源到 NDI,从而提供了通过视觉和听…
-
减少大型视觉语言模型中的幻觉:潜在空间引导方法
幻觉仍然是部署大型视觉语言模型 (LVLM) 的一大挑战,因为这些模型通常会生成与视觉输入不一致的文本。与 LLM 中因语言不一致而产生的幻觉不同,LVLM 难以应对跨模态差异,导…
-
融合网络将为未来的体育场馆和体育直播提供动力
体育直播正处于转折点。直播和数字平台的兴起不仅改变了体育爱好者观看直播赛事的方式,也改变了他们与体育的互动方式。 多年来,整个数字生态系统已经出现,球迷们也越来越期待体育场馆内的数…
-
FFmpeg 播放器入门教程(4):线程分治
本教程分为 7 篇,将逐步讲解如何基于 FFmpeg 的 API 用 1000 行左右的代码开发一个简易播放器,非常适合初学者学习音视频开发。本文为第 4 篇:《FFmpeg 播放…
-
Gladia 推出 Solaria:一个多语言、具有全球可扩展性的语音转文本模型
2025年 4 月 2 日,AI 转录和音频智能提供商 Gladia 宣布推出 Solaria,这是一种下一代自动语音识别 (ASR) 模型,旨在重新定义联络中心和其他语音优先平台…
-
预防 CPaaS 电信网络中的欺诈行为:GenAI 正在发挥作用
在当今这个超级互联的世界里,企业面临着前所未有的通信流量。 虽然这种连接性对运营至关重要,但也为复杂的欺诈预谋打开了大门。 其中,人工膨胀流量(AIT)构成了重大威胁,耗费资源,影…
-
8×8 四大举措缩小 CCaaS、UCaaS 和 CPaaS 之间的差距
8×8 发布了四项功能更新,以整合其企业通信产品组合。 通过将每项更新作为一个协调版本的一部分发布,8×8 旨在支持企业统一其分散的客户服务堆栈。 带着这一主题,以下是 8×8 最…
-
Qt 6.9 发布,性能提升、表情符号处理更佳、可视化功能更强
2025年4月2日,Qt 6.9 发布,为应用程序开发人员和设备创建人员提供了新的功能和改进!作为其中的亮点,升级到 Qt 6.9 可使现有应用程序中的表情符号渲染达到最新标准,为…
-
Cocos Creator 3.8.6 正式版发布!更新包体、性能、Spine、Skew、Box2D和鸿蒙Next等
在经历了近 3 个月的共同努力后,Cocos Creator 3.8.6 如期发布了。Cocos Creator 3.8.6 主要更新: 包体优化 新增了 ”压缩引擎内部属性“ 功…
-
最新的 intoPIX JPEG XS 编解码器为 FOR-A 的 FA-1616 提供支持,可实现高效 IP 制作
轻量级视频压缩领域的服务商 intoPIX 今天宣布将其 JPEG XS 技术集成到FOR-A FA-1616 中,这是一款专为高端广播和专业视频应用而设计的多通道信号处理器。此次…
-
MulticoreWare 和 V-Nova 携手加快 MPEG-5 LCEVC 在巴西 TV 3.0 推广中的应用
2025 年 4 月 1 日,视频编解码器、人工智能视频解决方案服务商 MulticoreWare, Inc. 和 MPEG-5 LCEVC 的主要创新者 V-Nova 宣布建立战…
-
dTelecom 推出具有独家 AI 语音翻译功能的去中心化直播应用
2025 年 4 月 1 日 – dTelecom.org 宣布推出一项新的直播功能,旨在提供有关 DePIN 和 Web3 技术最新趋势的实时见解和讨论。借助此功能,…
-
FFmpeg 播放器入门教程(3):播放音频
本教程分为 7 篇,将逐步讲解如何基于 FFmpeg 的 API 用 1000 行左右的代码开发一个简易播放器,非常适合初学者学习音视频开发。本文为第 3 篇:《FFmpeg 播放…
-
AI-Media 与 AudioShake 合作,为现场直播音频提供清晰和高质量的翻译
AI-Media 是一家专注于人工智能语言技术和解决方案的公司,它很高兴地宣布与 AudioShake 建立高级合作伙伴关系,AudioShake 是一家专注于声音分离的先锋音频技…
-
Evertz 推出 “可处理任何格式 ”的媒体处理平台
Evertz 推出了 RFK-ITXE-HW-DUO,这是一个灵活的平台,可用于批量信号采集和高密度编码/解码应用。 该公司表示,该平台可用作信号采集和规范化的多路径转码器,也可用…
-
从缓冲到卓越质量:码率控制创新降低体育直播的成本和风险
无论是直播还是点播,在大规模提供最高质量的视频的同时尽量降低带宽成本始终是一大挑战。随着全球流媒体观众的不断增长,体育广播公司和流媒体平台正在寻求有效的方法来优化带宽,同时又不影响…