技术文章
-
RGB图像的相对位姿估计 | CVPR 2021
本文提出了一种在极端情况下估计 RGB 图像对相对三维旋转的方法,即使图像没有或几乎没有重叠部分。通过观察图像中的隐含线索,如光源方向、消失点和场景对称性,作者设计了一种网络,通过…
-
IM专题:分层架构IM系统(19)—分布式三高分析
前面通过 18 篇文章,非常系统地分析了 IM 的分层架构、每一层的核心职责和关键设计、以及基于分层架构下核心功能逻辑的实现。 分层架构的 IM 系统肯定是分布式部署,作为 “分层…
-
现有的 WebRTC 对于广播用例来说并不出色
WebRTC最初是为与少数参与者进行实时通信而设计的,其中对延迟的要求极为严格(通常<250ms)。然而,它也被利用于广播用例,如YouTube Studio或Cloudfl…
-
即构实时音视频SDK新增背景虚化、虚拟背景和实时变声等功能
本文介绍 ZEGO ExpressSDK 3月新增部分功能。主要集中在 Native 新增 SDK 内置媒体播放器支持播放带透明度的视频、支持外放场景下的人声增强效果,游戏语音支持自定义设置发声模式和收听模式等。Web 新增背景虚化、虚拟背景功能和实时变声等功能。
-
Zynq 及 Vitis HLS 助力面向声音合成和声学控制的低时延技术
从音频输入到输出,现有的实时数字音频系统很难实现低于 1ms 的时延。实际上,200µs 是到目前为止可实现的最佳时延。INSA(法国)的 Emeraude 研究团队正在开发 Sy…
-
元宇宙场景下的实时互动RTI技术能力构建
元宇宙可谓是处在风口浪尖,无数的厂商都对元宇宙未来抱有非常美好的憧憬。正因如此,许许多多厂商都在用他们自己的方案,为元宇宙更快、更好的实现,在自己的领域贡献力量。LiveVideo…
-
2D人脸识别Camera图像采集
本文介绍2D人脸识别中的Camera图像采集部分,目前市面上Android阵营中大部分机型都使用的是2D人脸识别;图像采集主要是获取目标的RGB图像,2D人脸图像获取相对简单,只需…
-
什么是 NVLink?NVLink的历史和作用
NVLink 是加速系统中 GPU 和 CPU 处理器的高速互连技术,推动数据和计算加速得出可执行结果。 加速计算是一项曾经只有政府研究实验室中才有的高性能计算能力。如今,它已成为…
-
E-NeRV:时空信息解耦的视频隐式神经表达
内容摘要:最近,视频的图像隐含神经表示法 NeRV 因其有希望的结果和比常规像素隐含表示法迅速的速度而受到欢迎。然而,网络结构中的冗余参数会导致在扩展时出现较大的模型尺寸,以获得理…
-
在 Xcode 中将 OpenCV 集成到你的 Swift iOS 项目中并使用 UIImages
假设在你的 iOS 应用程序中,你想对图像执行抓取或使用特定插值调整图像大小,作为机器学习模型的预处理步骤。你无法在 Xcode 上使用 Apple 的原生框架(例如 Core I…
-
苹果AR/VR专利申请多视图视频解码器
对于AR/VR,注视点成像主要基于图像内的感兴趣区域,亦即用户注视点来改变整个图像的图像分辨率,从而优化负载。然而,由于感兴趣区域在图像流内的位置会改变,所以必须并行解码具有不同注…
-
实时传输协议RTP简况及实现概述
RTP是由IETF的音频/视频传输工作组开发的,后来被国际电联作为其H.323系列建议的一部分而采用,并被其他各种标准组织采用。RTP的第一个版本是在1996年1月完成的,在完成之…
-
音视频网络简介及RTP协议起源
使用包网络(如互联网)传输语音和视频的想法并不新鲜。分组网络上的语音实验可以追溯到20世纪70年代早期。关于这个主题的第一个RFC—网络语音协议-从1977年起。视频出现的较晚,但…
-
如何使用 CPaaS 构建 WebRTC 应用程序(第一部分:原因)
在 “如何使用 CPaaS 构建 WebRTC 应用 “系列的第一部分中,我们将阐述 CPaaS 所扮演的角色,并对该过程进行概述。在后面的文章中,我们将看…
-
AI 会改变视频压缩格局吗?
经过长达十年的努力,使用深度学习的完全神经视频压缩在正常情况下并未击败传统编解码器标准的最佳配置。使用 AI 来优化标准视频编解码器会改变这种格局吗?
-
FFmpeg 流媒体组成、媒体文件封装及传输协议
流媒体,从字面上理解就是像流一样的媒体,类比实际中就是类似水流、电流一样的概念。事实上,流媒体出现之前,网络上是不能播放电影,只能是通过下载文件到电脑上然后才可以观看,相信很多80…
-
基于环路多帧预测的深度视频压缩 | TCSVT 2022
本文基于端到端深度视频压缩框架,提出了一种环路多帧预测模块(in-loop frame prediction module),在不额外消耗码率的情况下,对当前帧实现基于多个参考帧的…
-
音视频编解码–BMP格式
BMP图像是一种光栅图像(包含像素数据而不是矢量图像)格式。BMP图像的每个像素由单个位或一组位定义。自个人计算早期就已存在。它是一种无损格式,意味着保存图像时不会丢失任何信息。但…
-
汇聚音视频新能量 探索行业新蓝海
视频行业卷成红海,如何突破瓶颈,去探索行业的新蓝海,本次LiveVideoStackCon 2022北京站邀请到快手高级副总裁、研发线负责人于冰,以《汇聚音视频新能量,探索行业新蓝…
-
基于深度强化学习的拥塞控制 | PMLR 2019
本文提出并研究了深度强化学习 (RL) 的一个新的及时的应用领域:互联网拥塞控制。拥塞控制是调节流量源数据传输速率以有效利用网络容量的核心网络任务。随着网络直播、虚拟现实和万物互联…