技术文章

技术文章

2023 年直播制作的未来展望

随着媒体行业的发展，我们知道更高效的工作方式将改变视频直播。本文畅想一下 2023 年直播制作的各种可能性。 5G + 专用网络切片在谈论未来时，如果我们不重点关注 5G 创新，…

直播技术
2023年7月19日
技术文章

ffmpeg的函数调用知识点

av_dump_format 打印的内容是什么意思？ av_dump_format 会打印出AVFormatContext的内容，打印的内容是什么意思？我们使用av_dump_f…

FFmpeg笔记
2023年7月19日
技术文章

用于学习图像压缩的多级空间上下文模型 | ICASSP 2023

先进的学习图像压缩方法以空间上下文模型为特色，与超先验方法相比，在率失真方面取得了巨大的改进。然而，自回归上下文模型需要串行解码，限制了运行性能。Checkerboard 上下文模…

图像处理
2023年7月19日
WebRTC

WebRTC SDP 协议规范和内容解析

0 前言 SDP会话描述协议是一种很有历史的格式，在 20 世纪的会议系统中通常都是使用 SDP 格式的文本来交互多媒体通信双方的连接属性信息和媒体属性信息。在今天 JSON 这…

webrtc学习和实践
2023年7月19日
WebRTC

如何在 WebRTC 中设置自适应抖动

在 WebRTC 中，自适应抖动缓冲器是默认启用的，因此无需明确设置。不过，您可以配置抖动缓冲器的参数，以针对特定使用情况优化其性能。要调整自适应抖动缓冲区的参数，可以使用以下 …

webrtc学习和实践
2023年7月18日
技术文章

基于可学习令牌的Transformer架构视频片段定位网络 | 李坤,郭丹,汪萌

研究意义在视频理解任务中，视频片段定位是一个新兴且极具挑战的任务。给定一个自然语言描述的查询和一个未裁剪的视频，视频片段定位需要在这个未裁剪的长视频中找到符合这个描述的视频片段，…

视频技术
2023年7月18日
技术文章

从 0 到 1 搭建机器人 | 使用 NVIDIA Isaac Sim Replicator 和 TAO 套件进行数据合成和训练

从头开始创建机器人是不是很有挑战性？从零开始创建一个机器人并非及其困难，使用合适的工具，就能够轻松达到事半功倍的效果。从 0 到 1 搭建机器人系列文章将从第一步开始，拆解并串联起…

虚拟现实
2023年7月18日
技术文章

Vulkan中的同步机制，含显示和隐藏的同步控制

在前面的文章中，我们讲解了Vulkan的多线程设计理念，分析了其底层的机制。我们知道在Vulkan的设计中，尽量避免资源的同步竞争，但是在某些复杂场景和多线程优化过程中难免会遇到资…

字节流动
2023年7月18日
WebRTC

WebRtc(M105)视频编码器选择代码分析

本文WebRtc 视频编码器选择代码分析，基于M105版本。编码参数设置到WebRtcEngine模块里 WebRtcVideoChannel，会调用到这里： SelectSen…

webrtc学习和实践
2023年7月17日
WebRTC

WebRTC 实战: QT for Windows 多人音视频通话

在经过前面几篇文章对 WebRTC 的描述，相信已经不需再过多对它介绍了。前面几篇文章我们实现了 Web 、Android 端的音视频通话项目，该篇我们使用 QT UI 框架搭建…

webrtc学习和实践
2023年7月17日
技术文章

微软为AR/VR空间音频提出了一种声音参数化建模

实时声学效果的建模和渲染是非常密集的计算。如果没有复杂和昂贵的硬件，就很难呈现出真实的声学效果。对真实或虚拟场景的声学特性进行建模，同时允许声源和听者的移动，这是一个困难的问题，特…

虚拟现实
2023年7月17日
技术文章

基于星链网络的实时多媒体服务：现实检测 | NOSSDAV 2023

最近，低地球轨道卫星网络（LSN）被认为是未来6G通信基础设施中高带宽和低延迟全球覆盖的关键和有前途的组成部分。SpaceX 的 Starlink 可以说是迄今为止最大、最可操作的…

RTE基础设施
2023年7月17日
技术文章

具有非协同步长的噪声鲁棒分布式资源分配算法 | 吴温文,朱善迎,刘帅,关新平

研究意义资源分配问题在智能电网的经济调度、移动边缘计算任务卸载和资源分配、机器人集群任务分配等场景中广泛应用。该问题通过对网络中有限资源的优化配置，在满足网络整体供需平衡需求、各…

音频技术
2023年7月17日
技术文章

HTTP网络协议演进史

HTTP（HyperText Transfer Protocol）是当今互联网上应用最为广泛的一种网络协议，是万维网（World Wide Web）数据通信的的基础，最初设计只是为…

RTE基础设施
2023年7月17日
技术文章

D-NeRV：面向不同视频的可扩展神经表示 | CVPR 2023

这篇文章主要介绍了一种名为D-NeRV的框架。该框架将每个视频解耦为特定的视觉内容和运动信息，并分别对其进行建模。此外，该框架引入了时间推理和任务导向流等技术，以更好地处理视频中的…

视频技术
2023年7月17日
技术文章

基于Speech框架实现APP智能语音交互的解决方案

使用手机的语音框架可以识别录制或现场音频中的口语单词，系统的键盘的听写也支持使用语音识别将音频内容翻译成文本。本文透过和家亲上的实践应用案例，介绍基于Speech框架实现APP智能…

音频技术
2023年7月17日
技术文章

Make-It-3D: 利用扩散先验从单张图像创建高保真三维图像

在本文中，研究者的目标是实现从一个真实或人工生成的单张图像中创建高保真度的3D内容。该方法可以为像Stable Diffusion这样的前沿2D生成模型创建的幻想图像带来3D效果。…

图像处理
2023年7月17日
技术文章

神经重塑：单张图像人物体型编辑 | 陈贝佳,周昆,郑友怡等

研究意义对单张图片中人物体型进行具有语义的编辑，例如增加身高、降低体重等，已经成为图像编辑领域的新兴话题。然而，这个问题在本质上区别于简单的图像缩放；因为人物体型变形实际上是在…

图像处理
2023年7月17日
WebRTC

WebRTC Demo 在线网站(WebRTC Demo GitHub)

为方便开发者体验和快速实现 WebRTC 的音视频通话或低延迟直播等功能，我们在 GitHub 及 Gitee 提供了 WebRTC Demo 在线网页和示例源码，下面我们来了解一…

ZEGO即构科技
2023年7月16日
技术文章

混响的基础知识

混响可以说是现代录音中最常用的效果之一，也可能是最容易被误解的效果之一。考虑到这样一个事实是很有趣的：就像许多事情一样，他们花了几十年的时间完善不同的方法来模仿自然界中自然发生的事…

音频技术
2023年7月15日