技术文章
-
VideoMAE V2:使用双重掩蔽的缩放视频掩蔽自编码器 | CVPR 2023
训练具有数十亿参数的视频基础模型是一个具有挑战性的任务。视频掩蔽自编码器(VideoMAE)是一种可扩展的通用自监督预训练模型,用于建立视频基础模型。这篇文章在模型和数据方面对Vi…
-
语音生成模型整理以及LauraGPT介绍
因为最近做了一段时间的语音生成方向,期间也整理了一些开源项目和相关论文,每个或多或少都有可借鉴的地方,对于了解现阶段语音生成的相关技术还是比较有帮助的,后续也会根据自己的节奏来分享…
-
如何使用 WebRTC 实现超低延迟?
在了解 WebRTC 解决超低延迟流媒体问题的方法之前,我们有必要讨论一下超低延迟的定义。什么才是实时视频流中的超低延迟?在过去十年中,什么被认为是 “超低延迟 …
-
SBC 路由和负载平衡技术
试想一下,在 VoIP 系统中,路由决策的制定非常精准,故障转移非常顺畅,您甚至不会注意到系统出现故障。这就是配备智能路由和负载平衡功能的 SBC 的威力。 对于新手来说,会话边界…
-
Google CameraX,看这篇文章就够了
Camera、Camera2、CameraX?3者之间啥关系? CameraX、CamX分不清? 今天我们就一起来学习、了解下这些内容,为大家解开迷惑。 这篇文章分下面几点展开: …
-
Funcodec:一个基本的,可复制的和可集成的开源神经语音编解码器工具包
FunCodec是一个基础的神经语音编解码器工具包。FunCodec为最新的神经语音编解码器模型(如SoundStream和Encodec)提供可复制的训练配方和推理脚本。 题目:…
-
使用 Laravel Reverb 和 Vue 3 实现实时聊天
在当今的数字环境中,实时通信应用程序已成为最大限度提升用户体验的关键。即时消息、即时客户支持和协作工具使用户能够快速高效地进行交流,从而简化企业和个人的日常运营。在本文中,你将了解…
-
使用 SRS 开启 SRT 协议的视频直播服务
SRS是一款国产的开源流媒体服务器,支持RTMP、SRT等主流直播协议。本文讲解如何通过 SRS 与ffmpeg 实现 SRT 协议的推流功能。 SRS在编译和启动的时候已经默认支…
-
将 LAM(大型动作模型)与 WebRTC 集成
本文内容来自 WebRTC.ventures 的 Alberto Gonzalez,探讨 WebRTC 应用程序作为使用大型行动模型接口的潜力,包括机遇、挑战和用例。 LAM(大型…
-
IABM 技术和趋势路线图(2024年版)
IABM 是一个独立的国际贸易和商业组织,为整个媒体技术生态系统提供连接、支持和信息。IABM 帮助人们了解广播、媒体和娱乐技术领域正在发生的数字转型,让行业了解变革性媒体技术,并…
-
什么是 ZIM Audio SDK?IM 语音组件轻松实现语音消息录制和播放
ZIM Audio SDK 是即构自研的即时通讯语音组件,它具备完整语音处理功能,包括语音采集、播放、解码、噪声抑制(ANS)、自动增益控制(AGC)等,开发可以轻松实现高清语音消…
-
基于相对难度蒸馏的图像语义分割算法 | 南航陈松灿团队
研究意义 基于深度学习的语义分割算法通常需要大量的计算资源和高昂的计算成本,限制了其在资源受限环境中的应用。为了解决这个问题,研究者们提出了知识蒸馏这种模型压缩的方法,能够显著简化…
-
在 Swift 中实现稳健的 WebSocket 实时通信
在当今的互联世界中,实时通信对许多应用都至关重要。WebSockets 为客户端和服务器之间的双向、全双工通信提供了强大的解决方案。在本文中,我们将探讨如何在 Swift 中稳健地…
-
音视频面试题集锦第 25 期 | 直播相关功能技术方案
分享音视频技术社群关键帧的音视频开发圈整理的音视频面试题集锦第 25 期。 下面是第 24 期面试题精选,我们来讲讲直播相关功能技术方案: 1、直播美颜如何实现? 下面是实现美颜的…
-
先进编码技术如何革新体育直播
今年是体育运动繁忙的一年,球迷参与的需求不断增加,因此提供高质量的体育直播比以往任何时候都更为重要。先进的编码技术处于这一转变的前沿,使广播公司能够提供 4K、超高清 (UHD)、…
-
基于Freetype的文字渲染流程以及缓存策略
1. 前言 OpenGL 对于文字的绘制以及字体的操纵提供了低层次的支持,即位图字体。每个字形根据他们的编号被放到位图字体中的确切位置,在渲染这些字形的时候根据这些排列…
-
开源上新|FunASR离线文件转写GPU软件包1.0
FunASR是由通义实验室开源的语音识别框架,集成了语音端点检测、语音识别、标点预测等领域的工业级模型的训练和部署,自开源以来,吸引了众多开发者参与体验和开发。为了支持用户便捷高效…
-
这可能是全网关于Camera慢动作录像(SlowMotion)介绍最全的文章了
这是一篇关于慢动作录像(slowmotion)的文章,看完后相信你对慢动作录像不会再感到陌生了~ 这篇文章针对下面几点来展开: 1)写这篇文章的原由? 2)什么是慢动作录像(Slo…
-
为什么使用 RTSP 协议?RTSP 流媒体依然重要的 4 个原因
1996 年,人们使用 Netscape Navigator 浏览互联网,仍然通过 Yahoo 进行搜索(更不用说 AltaVista 了),第一款翻盖手机是当时最酷的小工具。19…
-
用于高效流式传输逼真自由视角视频 的 3D 高斯实时训练 | CVPR2024
从多视图视频重建动态场景的逼真自由视点视频 (FVV) 是一项具有挑战性的工作。尽管当前的神经渲染技术取得了显着的进步,但这些方法通常需要完整的视频序列进行离线训练,并且不能进行实…