技术文章
-
python-ffmpeg 音视频处理库的安装和实操
python-ffmpeg 是一个基于 Python 的音视频处理库,它可以使用 FFmpeg 的各种功能来实现音视频的剪辑、转码、合成等操作。该库是由 FFmpeg 直接绑定的 …
-
点播体验优化:成本与体验的“非零和博弈”
随着移动互联网和智能终端的普及,越来越多的海内外互联网企业开始发力短视频业务。在短视频用户全球化,短视频产品及内容消费井喷式增长的今天,用户开始逐渐对体验有了越来越高的要求。为了更…
-
H264的编码帧类型(IDR帧、I帧、P帧或B帧)和帧结构
通常一个H264码流中包含了多个GOP(图像组),每一个GOP里面包含多个视频编码帧,如下图所示。GOP(Group of Pictures)图像组的意思。H264码流对GOP的划…
-
基于图注意力机制的音频语意概述 | IEEE SPL
音频语意概述是一项跨模态音频内容理解任务,旨在通过自然语言描述音频信号蕴含信息,使机器具备理解表达音频场景事件语意内容的能力。现有的主流音频语意概述方法几乎均采用在AudioSet…
-
IM专题:分层架构IM系统(17)—未读数逻辑实现
在 IM 系统中,“未读数” 是一个非常核心的概念。 首先,从产品体验上,用户登录之后,往往是由消息 “未读数” 引导用户后续的操作;其次,“未读数” 实现逻辑直接影响了上层业务的…
-
UV 体积:可编辑人体自由视角的实时渲染 | CVPR 2023
神经体积渲染使得在自由视角下进行逼真的人体表现成为沉浸式 VR / AR 应用的关键任务,但是渲染过程中的高计算成本限制了其实际应用。为解决这一问题,作者提出了一种新的方法,称为“…
-
基于AIGC的3D场景创作引擎概述
通过改变3D场景制作流程复杂、成本高、门槛高、流动性差的现状,让商家像玩转2D一样去玩转3D,让普通消费者也能参与到3D内容创作和消费中,真正实现内容生产模式从PGC/UGC过渡到…
-
Android App音视频开发学习路线(android音视频开发方向)
本文分享 Android 新手上手 App 音视频开发的学习路线应该是什么样的;同时介绍下 Android 项目中音视频实际开发会遇到的一些事情以及解决方案,我们今天只谈思路涉及具…
-
HEVC 中的 IDR 与 CRA 帧的区别及用例
IDR(Instantaneous Decoder Refresh)和 CRA(Clean Random Access)帧是视频编码中的 IRAP(Random Access Pi…
-
窄带高清画质增强之生成式细节修复
阿里云窄带高清本质上是一种转码质量优化技术,是一套以“人眼主观感受最优”为基准的视频编码技术。研究的是在带宽受限的情况下,如何追求最佳的视觉感受,即人眼感受的主观质量最优。 视频画…
-
WebRTC Android 视频硬编码实现分析
前面我们分析了 WebRTC 的相机采集和预览,接下来的环节就是编码和传输了。本篇关注编码相关的内容,同样也是聚焦于三个问题: 数据怎么送进编码器? 怎么从编码器取数据? 如何做流…
-
AI 教你从前端转型音视频开发高手
前面我们介绍过几篇关于音视频开发的文章,这里不得不提下 ffmpeg。 最直观的案例: 转码 对指定高分辨率的进行低分辨率的转码: 对应的命令: *、”-i a.mp4…
-
腾讯云快直播低延时播放质量的优化实践
直播已经潜移默化成为许多人日常生活密不可分的一部分。无论是紧张刺激的比赛直播,还是垂涎欲滴的美食直播,亦或者自卖自夸的购物直播,大家都不希望在观看时出现长时间的加载和卡顿,对一些需…
-
基于深度学习的交通噪声评估与控制方法
随着城市不断发展,交通噪声日益得到人们的关注,若长时间暴露在交通噪声之中,对人的身心健康会产生一定的负面影响,如听力障碍、情绪烦躁、心脏病等。目前控制并减少交通噪声是交通噪声管理研…
-
新媒体可视化互动视频制作系统在新闻报道中的应用
随着媒体融合的快速发展,新闻报道形式不再 局限于传统的图文和视频,而是呈现多元化的媒体形 态,新闻传播的互动性逐渐增强,观众需要更加沉浸 式和交互式的观看体验。互动视频是一种全新的…
-
视频技术新纪元-面向机器编解码标准
后疫情时代,随着技术的不断发展,机器已经转化为人们生活中的第三只“眼”,如工业质检,无人驾驶,智慧城市等应用愈加依赖与视频信息分析与理解,而使得视频能够更利于机器分析的同时能够进一…
-
元宇宙开放标准(MSF)简介
元宇宙是一个虚拟空间,它结合了网络的连接性和空间计算的沉浸性,汇集了多种颠覆性技术,元宇宙标准论坛是标准组织和更广泛的行业之间的合作场所,以促进开放和包容的元宇宙的互操作性标准的发…
-
NED:自然视频中保持语音的人脸表情语义控制 | CVPR 2022
这篇文章提出了一种用于在自然视频中对人物的情绪状态进行真实感操纵的深度学习方法。该方法基于输入场景中人物的 3D 人脸参数表示,从头部姿态和面部表情中解耦了人脸身份,然后使用一个新…
-
宽高比和 16:9 宽高比:视频技术中宽高比的综合指南
在视频世界中,“宽高比”在视觉内容的呈现和质量方面起着重要作用。宽高比是指图像或视频的宽度和高度之间的比例关系。 你的视频的宽高比会影响它在不同设备屏幕上的显示方式,从而影响观众体…
-
边缘计算,光的形式
“嘿,Siri,今天天气怎么样?” 设想这样一个场景,当你早上起床,向你的智能手机发起这样一个语音指令,从用户命令到结果可能有大约0.2秒的延迟——看似一个非常小的数字,但实际上,…