技术文章
-
Meta AI 推出 CoCoMix:将标记预测与连续概念相结合的预训练框架
大型语言模型 (LLM) 预训练的主要方法依赖于下一个标记预测,这种方法已被证明可以有效捕捉语言模式。然而,这种方法也有明显的局限性。语言标记通常传达的是表层信息,需要模型处理大量…
-
Deepgram 推出 Nova-3,为企业推出改进的基于 AI 的语音转录功能
2025年2月12日,企业用例语音 AI 平台 Deepgram 宣布推出迄今为止最先进的语音转文本(STT) 模型Nova-3。Nova -3 突破了 AI 驱动转录的界限,在具…
-
从交通摄像头到 Web 应用程序:流式传输架构概述
建立实时视频流管道并非易事。它需要多个组件协调工作,以无缝捕获、处理和传输视频数据。在本文中,我将向您介绍我所构建的架构,该架构用于将交通摄像头源转换为 RTSP 流,使用人工智能…
-
Jitsi Meet(视频会议)Linux 设置的分步指南
Jitsi 是一组开源项目,可提供安全的视频会议解决方案。以下是有关 Jitsi 的一些要点: 步骤 1:更新系统 首先,确保系统是最新的: 步骤 2:添加 Jitsi 存储库 将…
-
用于多视角视频压缩的显隐混合表达
内容摘要: 随着3D显示和虚拟现实的日益普及,多视角视频成为一种极具前景的格式。然而,其高分辨率和多相机拍摄导致数据量大幅增加,使得存储和传输成为一项具有挑战性的任务。为了解决这些…
-
杜比全景声 (Dolby Atmos) 如何提升流媒体音频质量
流媒体服务彻底改变了人们的媒体消费方式,使高质量的音频和视频比以往任何时候都更容易获得。随着技术的进步,音频质量发生了重大转变,而杜比全景声是该领域最具突破性的创新之一。杜比全景声…
-
ControlVideo:单镜头文本驱动的视频编辑 | 清华大学朱军团队
研究意义 文本驱动的视频编辑要求编辑后的视频应忠实地保留源视频的内容,各帧之间保持时间一致性,并且与目标文本以及 (optional) 参考图像对齐。然而,同时满足这三个要求存在很…
-
用基础扩散模型实现有损图像压缩 | ECCV 2024
将扩散模型纳入图像压缩领域,有可能产生逼真而详细的重建效果,尤其是在比特率极低的情况下。以往的方法主要是将扩散模型用作对条件信号中的量化误差具有鲁棒性的表达式解码器。然而,要以这种…
-
推进可扩展的文本转语音合成:Llasa 基于 Transformer 的框架可提高语音质量和情感表达能力
LLM 的最新进展(例如 GPT 系列和新兴的“o1”模型)凸显了扩展训练和推理时间计算的好处。虽然在训练期间扩展(通过增加模型大小和数据集量)是一种行之有效的策略,但最近的研究结…
-
Microsoft Azure 中 VoIP 的高可用性
对于追求可扩展性和灵活性的提供商来说,在云中运行 VoIP 服务已成为一种常见的方法。典型的高可用性解决方案包括一对主动/备用服务器,其中只有一台服务器处于活动状态,其他服务器作为…
-
FFmpeg H.265透明视频解码
作者:quink来源:Fun With FFmpeg链接:https://mp.weixin.qq.com/s/xzKF0k7V3mh1bnB-Vduzng 一、透明视频的应用场景…
-
使用 Socket.io 和 MERN 构建实时聊天应用程序
在当今的数字时代,实时通信是现代 Web 应用的基石。无论是客户支持、游戏还是社交网络,即时收发信息的能力都至关重要。在本文中,我们将探讨如何使用 Socket.io 和 MERN…
-
构建完全端到端加密的 PHP 聊天应用程序
此时此刻,在某个地方,你自以为私密的对话正被不怀好意的人读取。数据泄露的新闻隔三差五就会见诸报端,老实说,隐私已经不再是你想当然的东西了。 如果你是一名 PHP 开发人员,你需要从…
-
WebRTC Node.js 实时通信指南
学习用于实时通信的 WebRTC Node.js、编码示例以及创建自己应用程序的技巧! 随着技术的进步,我们经常发现自己需要更快、更高效的方式来相互连接。在本文将引导您了解 Web…
-
Zyphra 推出 Zonos 测试版:具有高保真语音克隆功能的高度表现力 TTS 模型
近年来,文本转语音 (TTS) 技术取得了长足进步,但在创建自然、富有表现力和高保真的语音合成方面仍然存在挑战。许多 TTS 系统难以复制人类语音的细微差别,例如语调、情感和口音,…
-
WebRTC API 更新 2025
本文内容来自 WebRTC 专家 Olivier Anguenot 的分享。 对于 WebRTC API 而言,2024 年是无聊的一年吗?2024 年,没有全新的 WebRTC …
-
WebRTC 应用程序故障排除的基本工具和技术
通过 WebRTC 的强大功能,数百万人可以与各大洲的同事进行面对面连接、在虚拟白板上实时协作、与支持团队共享屏幕等等。然而,当问题出现时,在复杂的连接网络中找出根本原因就像大海捞…
-
Eyevinn Technology 的开源对讲解决方案
长期以来,广播领域的传统对讲系统一直由专有解决方案主导,这些解决方案成本高昂,基础设施僵化。广播公司经常发现自己被锁定在昂贵且不灵活的系统中,这限制了他们适应和扩展的能力。为了应对…
-
B站自研的第二代视频连麦系统(上):如何使用WebRTC的标准应用编程接口来接入视频连麦业务
本系列文章将从客户端、服务器以及音视频编码优化三个层面,介绍如何基于WebRTC构建视频连麦系统。希望通过这一系列的讲解,帮助开发者更全面地了解 WebRTC 的核心技术与实践应用…
-
Meta AI 推出 MILS:一种无需训练的多模态 AI 框架,用于零样本图像、视频和音频理解
大型语言模型 (LLM) 主要用于基于文本的任务,这限制了它们解释和生成多模态内容(例如图像、视频和音频)的能力。传统上,多模态操作是针对大量标记数据进行训练的任务特定模型,这使得…