技术文章

实时音视频

如何通过 ZEGO SDK 在视频通话中实现音频静音

视频通话已成为我们沟通的主要方式之一。背景噪音或其他干扰有时会让人难以集中注意力或进行清晰的对话。此时，音频静音功能便显得尤为实用。它允许用户暂时关闭麦克风，从而减少背景噪音，提升…

ZEGO即构科技
2025年11月10日
即时通讯

ZEGO即时通讯SDK发布2.24.0版本，新增查询合并消息支持携带messageID等功能

2025 年11 月 6 日，ZEGO即时通讯SDK（ZIM）2.24.0 版本发布，新增查询合并消息支持携带 messageID、离线推送功能支持附带 OPPO 私信模版等功能。…

ZEGO即构科技
2025年11月7日
实时音视频

FFmpeg 的 TLS/DTLS 安全层是这么实现的

本文将深入剖析 FFmpeg 中 TLS/DTLS 安全层的实现细节，从架构设计到具体实现，从证书管理到错误处理，带您全面了解这一重要模块。

FFmpeg笔记
2025年11月7日
WebRTC

从远程观看到实时交互：WebRTC双通道在云测试中的实践与创新

本文将揭秘马上消费如何基于WebRTC，在云测平台实现双向技术突破：不仅完成了手机到浏览器200ms超低延迟投屏，更创新实现了浏览器到手机的活体认证视频流逆向传输。

大厂Animal
2025年11月7日
实时音视频

ZLMediaKit Pro 专业版推出，专业级流媒体服务器解决方案

重磅推荐：基于广受好评的ZLMediaKit开源版本，全新推出专业版！ ZLMediaKit Pro在保留开源版强大功能的基础上，新增了多项企业级功能，为您的流…

RTC观主
2025年11月6日
WebRTC

Juturna：简化实时媒体处理的 Python 库

Juturna 是一款采用 Python 编写的轻量级实时数据处理库，它的设计目的是让构建音频/视频/传感器处理工作流程变得简单。

webrtc学习和实践
2025年11月6日
技术文章

云端协同构建 VR 院线，加速 LBE 产业化与规模化发展

本文基于云 VR 串流技术与 VR 一体机的协同发展这一逻辑，从产业现状、破局思路、实施路径三个维度展开分析，探索 VR 院线如何加速 LBE 产业化与规模化发展。

虚拟现实
2025年11月5日
技术文章

Meta：大规模视频隐形水印技术

本文将分享 Meta 如何克服隐形水印技术扩展过程中的挑战，包括如何构建基于CPU的解决方案，该方案不仅能提供与 GPU 相当的性能，更具备更优的运行效率。

大厂Animal
2025年11月5日
实时音视频

通过 CDN 实现低延迟流媒体：如何优化 LL-HLS 和 LL-DASH 以实现低于 3 秒的延迟

直播技术正在不断演进，观众如今期待近乎即时的播放体验。Gcore 推出低延迟直播解决方案，通过采用 LL-HLS 和 LL-DASH 技术，实现端到端 2.0-3.0秒的延迟。该方…

mazhu
2025年11月4日
技术文章

评估基于 LLM 的语音助手：超越传统指标的指南

这是一份实用指南，指导如何使用涵盖实用性、准确性、安全性和系统性能的多维指标来评估基于 LLM 的语音助手。

AIGC
2025年11月4日
技术文章

为 AI 时代升级 H.26x 视频编码功能

作者：Miska Hannuksela，Jill Boyce译自：https://www.nokia.com/blog/upgrading-h26x-video-coding-fe…

编解码
2025年11月4日
技术文章

体积视频如何将3D渲染视频变为现实

诺基亚技术公司体积视频编码首席工程师兼技术负责人劳里·伊洛拉解释了体积视频如何推动增强现实和扩展现实领域的新应用。

虚拟现实
2025年11月4日
WebRTC

如何为 WebRTC 设置安全的 TURN 服务器（Coturn）

本文讲介绍如何自行部署 TURN 服务器，以实现安全、私密且具备生产环境就绪性的解决方案。

webrtc学习和实践
2025年11月3日
技术文章

大语言模型能够理解空间音频吗？

清华大学、剑桥大学与字节跳动的研究团队提出了一种让大语言模型（LLM）理解空间音频的新方法。与当前多模态大模型只能解析普通音频不同，这项工作让 LLM 有初步“听懂”三维空间中声音方向与定位的能力。

音频技术
2025年11月3日
即时通讯

95% 的互联网用户已使用即时通讯应用：这是最普遍的数字化习惯

数字世界中有一位无可争议的王者：移动即时通讯。根据 Statista 的数据，全球超过 94.5% 的互联网用户每月都会使用聊天应用程序。这一数字使即时通讯成为最普及的数字活动，其…

ZEGO即构科技
2025年11月3日
实时音视频

LongCat-Flash-Omni 正式发布并开源：开启全模态实时交互时代

自9月1日，美团正式发布 LongCat-Flash 系列模型，现已开源 LongCat-Flash-Chat 和 LongCat-Flash-Thinking 两大版本，获得了开…

大厂Animal
2025年11月3日
技术文章

AV1 运动矢量保真度实现高效的光流估计，作为高质量替代方案

运动估计是计算机视觉任务中至关重要却计算密集的环节，研究人员一直在寻求提高其效率的方法。来自都柏林圣三一学院的 Julien Zouein、Vibhoothi Vibhoothi…

编解码
2025年10月31日
实时音视频

流媒体服务商为何应采用统一可观测性策略以避免代价高昂的网站故障

在超级碗、格莱美颁奖礼和奥运会等重大直播活动中，观众期待的是清晰流畅、实时无中断的观赛体验。数百万观众同时收看，广告商更是不惜重金将产品展示在观众眼前。幕后，这给流媒体服务商带来了…

直播技术
2025年10月30日
实时音视频

什么是毫秒级延迟直播？毫秒级延迟直播方案有哪些

在流媒体领域，”延迟 “是指视频或音频数据从源传输到观众设备的延迟时间。试想一下，在观看足球比赛等直播活动时，在您的流媒体上看到进球发生之前，您的邻居就已经…

ZEGO即构科技
2025年10月30日
实时音视频

音视频网络传输优化

这个系列文章我们来介绍音视频相关面试题，对于想要开始学习音视频技术的朋友，这些文章是份不错的入门资料，本篇介绍网络传输优化。 ——来自公众号“关键帧Keyframe”的分享 1、优…

RTC观主
2025年10月30日