技术文章
-
撕歌的在线K歌体验优化实践
编者按:从2019年初在线实时K歌玩法开始兴起,提出了许多不同于直播、会议、语聊房、离线K歌场景的新要求,像是音质、耳返、延迟、实时对齐等等。撕歌作为一个创业团队,如何在有限的资源…
-
针对压缩视频理解的编码框架(UVC)
视频理解任务在计算机视觉领域备受关注,但是很少研究各种计算机视觉方法在压缩视频上的表现,而在实际场景下,视频理解通常是视频压缩的下游任务。因此,需要研究传输比特率和视频理解性能的权…
-
如何使用 FFmpeg 和 Node.JS 从视频中提取图像
有时,我们需要执行一些不同寻常的任务,例如,我们有一段视频,需要从中获取缩略图。在本文中,我们将使用 FFmpeg 和带有 Javascript 的 Node.JS 来完成这些任务…
-
如何通过 WebRTC 显示 H.265 帧?
本文将演示如何通过 WebRTC 显示 H.265 帧,如上一篇文章《不使用 DataChannel 的 WebRTC H.265》中所述。 媒体源扩展 (MSE) 媒体源 API…
-
用于无监督视频语义压缩的非语义抑制掩码学习 | ICCV 2023
视频压缩的大多数方法旨在改进重建视频质量,而非特别保留AI任务所需的语义信息,这会降低下游AI任务的完成效果。此外,任务无关的网络将编码系统与下游任务解耦,并且对于数据稀缺情况友好…
-
使用 Socket.io 和 MERN 堆栈创建 Web 实时聊天应用
本文介绍如何使用 Socket.io 和 MERN 堆栈创建 Web 实时聊天应用程序。 配置 首先,创建一个新的 MERN 堆栈应用程序或使用现有的应用程序。如果您要创建新项目,…
-
网络连接不良以及如何在 WebRTC 通话中检测它?
当您在在线视频/音频会议平台上进行通话时,是否曾遇到过 “网络连接不良 “指示灯,或断断续续或机械般的音频、冻结的视频?您是否想过浏览器是如何判断连接好坏的…
-
不使用 DataChannel 的 WebRTC H.265
背景:WebRTC 用于从我的 Raspberry Pi 摄像头流式传输视频和音频。为了节省网络带宽并满足我的个人兴趣,我想让它支持 H.265。多亏了 Chrome 浏览器,它现…
-
视频会议应用程序开发指南(视频会议开发技术方案)
视频通信工具的激增已成为远程医疗、娱乐、在线学习、健身、电子商务和其他在线相关业务的催化剂。如果您想在自己的产品中实施实时视频通信,集成一个即用型解决方案将是一个简单的方法。但是,…
-
AVS3:双向光流BIO
AVS3引入了双向光流(BI-directional Optical flow,BIO)技术,和H.266/VVC中的BDOF类似,BIO用于解决基于块的预测会存在块内某些区域仍会…
-
即构Web播放器插件上线,支持CDN直播拉流
近日,ZEGO 发布了自研 Web 端播放器插件,可结合 CDN 直播服务,快速集成到 Web 应用中,为开发者提供可监控、稳定、流畅的 CDN 直播播放能力。 Web播放器插件接…
-
延迟与吞吐量有什么区别?
在网络性能方面,有两个关键指标常常被放在首位–延迟和吞吐量。延迟是指将一个信息包从源发送到目的地的时间。另一方面,吞吐量是数据的实际传输速率。 那么,哪个对无缝视频流更…
-
是否应该将移动 WebRTC 应用程序构建为渐进式 Web 应用程序 (PWA)?
渐进式 Web 应用程序(PWA)是一种旨在充当本机应用程序的 Web 应用程序。它们在浏览器中运行,因此无需安装,而且可在多个平台上使用。这种组合使 PWA 既能方便开发人员发布…
-
马尔可夫切换拓扑多智能体系统的分布式最优一致性:同步和异步通信 | 张娟,张化光,周博文,解相朋
研究意义 分布式最优一致性问题作为协同控制研究的基础,吸引了研究者的广泛关注,并且取得了丰富的理论结果。值得注意的是,大多数研究结果都要求系统中所有智能体连续通信,而在资源有限的微…
-
SEED:在大语言模型中播下一颗视觉的”种子”
本文作者提出了一个精心设计的图像Tokenizer:SEED。它能为大语言模型赋予同时理解和绘制的能力。由于使用量化视觉Tokens的框架在多模态理解和生成方面的表现欠佳,此前关于…
-
苹果专利分享AR/VR多用户通信时的关联App的会话状态保存方案
在多用户通信会话内执行的XR应用程序可以不时地自动保存应用程序状态信息,而设备可以利用所述信息将特定应用程序重新启动到所保存的状态。这种技术对由两个或多个设备参与XR环境的通信会话…
-
基于深度特征融合和概率估计的高效 VVC 帧内预测 | TMM 2022
VVC 作为最新的有损视频编码标准,一直受到视频编码界的关注。与其前身相比,该标准的压缩效率有了显著提高,然而,VVC 的增益是以显著的编码复杂度为代价:VVC 继承了早期标准中基…
-
SMART360: 360°视频流媒体的运动预测和自适应比特率策略模拟 | MMSys ’23
自适应比特率(ABR)算法在流媒体中被用来根据观众的网络条件调整视频或音频质量,以提供流畅的播放体验。随着虚拟现实(VR)头戴设备的兴起,360° 视频流媒体正迅速发展,需要高效的…
-
X-HRNet:基于空间线性 self-attention 机制的轻量级人体姿态估计网络
2D 人体姿势估计旨在从整个图像空间中定位所有人体关节。但是想要实现高性能的人姿态估计,高分辨率是必不可少的重要前提,随之带来的是计算复杂度的提升,导致很难将其部署在广泛使用的移动…
-
音视频学习–liblinphne 和 bzrtp 代码走读
Linphone 的 特点是用户界面和核心引擎分离,允许在相同的功能之上创建各种类型的用户界面。 Liblinphone是核心引擎,这是实现Linphone所有功能的库。它是一款功…