技术文章
-
视频播放花屏问题的分析和解决丨音视频实战经验
当遇到视频播放器花屏时,我们可以从多个层面来思考这个问题。首先要理清视频播放的整个链路:从解码、渲染到显示,每个环节都可能导致花屏。
-
了解 OpenAI WebRTC API
OpenAI RealTime 模型添加了一个新接口。现在它支持 WebRTC!本文是 WebRTC 专家 Gustavo Garcia 对此的看法和评测,一起来了解下。 鉴于有这…
-
了解视频和音频编解码器:转码之前您应该知道的内容
在数字媒体世界中,视频和音频编解码器在多媒体内容的编码、解码和流式传输中发挥着重要作用。无论您是要为社交媒体创建内容、开发 OTT 平台,还是要对旧视频进行存档,在深入研究视频转码…
-
CoordTok:可扩展的视频标记器,可学习从基于坐标的表示到输入视频的相应块的映射
将视频分解成视觉模型所需的更小、更有意义的部分仍然颇具挑战性,特别是长视频。视觉模型依靠这些较小的部分(称为标记)来处理和理解视频数据,但高效地创建这些标记却十分困难。虽然近期的工…
-
IEC 61937-16《符合IEC 60958的非线性PCM编码音频比特流 第16部分:AVSA》正式发布
IEC 61937 系列标准是对音频编码格式的非线性 PCM 比特流传输的方法支持,使得其可以在光纤、同轴和 HDMI 等信道上传输使用。该系列标准的制定和维护归口于国际电工委员会…
-
开发实时消息系统的挑战和解决方案
社交媒体网络、服务市场和在线商店都在很大程度上依赖于实时消息传递,即时通信对于平台至关重要。实时互动加快了增长速度,促进了用户参与,因此消息传递功能对于任何企业在线成功都至关重要。…
-
AGUVIS:一种统一的纯视觉框架,可跨平台转变自主 GUI 交互
图形用户界面 (GUI) 在人机交互中起着基础性作用,为用户提供跨 Web、桌面和移动平台完成任务的媒介。该领域的自动化具有变革性,可以大幅提高生产力并实现无缝任务执行而无需人工干…
-
webrtc之rtp协议(三): 封装VP8
本文介绍Rtp如何封装vp8遍码,webrtc中,常用编码格式vp8,协议规范在rfc7741中。本文内容: 作者:音视频小话原文:https://mp.weixin.qq.com…
-
NOVA:一种无需矢量量化的新型视频自回归模型
自回归 LLM 是复杂的神经网络,通过顺序预测生成连贯且上下文相关的文本。这些 LLMS 擅长处理大型数据集,并且在翻译、摘要和对话式 AI 方面非常强大。然而,实现高质量的视觉生…
-
通义3D-Speaker多说话人日志功能
说话人日志任务(Speaker Diarization)是指将音频划分为属于不同说话人的多个段落。其目标是确定音频中有多少个不同的说话人,并且识别出每个说话人在音频中的开始时间和结…
-
VBR 与 CBR 哪个更适合直播?
在视频流媒体领域,尤其是直播流媒体领域,选择正确的比特率策略对于向观众提供高质量、无缝的内容至关重要。流媒体领域主要有两种编码技术: 可变比特率 (VBR) 和恒定比特率 (CBR…
-
WebRTC 音视频通话延时问题的分析和解决丨音视频实战经验
关于 WebRTC 视频通话延迟优化的复杂技术问题,我们来梳理一下思路。 首先,要理解视频通话中的延迟到底是如何产生的。整个流程中涉及采集、编码、传输、解码、渲染等多个环节,每个环…
-
开源轻量级 IM 框架 MobileIMSDK 的 鸿蒙 NEXT 客户端库已发布!
今天,即时通讯网 JackJiang 发布了开源轻量级 IM 框架 MobileIMSDK 的 鸿蒙 NEXT 客户端库。 MobileIMSDK – 鸿蒙端是一套基于…
-
Google DeepMind 推出“SALT”:一种使用 SLM 高效训练高性能大型语言模型的机器学习方法
大型语言模型 (LLM) 是众多应用的支柱,例如对话代理、自动内容创建和自然语言理解任务。它们的有效性在于它们能够从庞大的数据集中建模和预测复杂的语言模式。然而,由于训练的计算成本…
-
AV1 及更多…Jitsi Meet 如何选择视频编解码器?
Jitsi 博客最新的一篇文章表示经过彻底的实验和对实际性能数据的分析,AV1 视频编解码器将很快成为所有 Jitsi 部署中的默认首选编解码器,将其卓越的带宽效率和视频质量带给更…
-
视频质量评估 | 全面综述
视频质量评估(Video Quality Assessment, VQA) 旨在以高度符合人类感知的方式预测视频质量。然而,传统基于自然图像或视频统计特性的VQA模型在面对用户生成…
-
Microsoft AI 推出 SCBench:用于评估大型语言模型中长上下文方法的综合基准
长上下文 LLM 支持从 128K 到 10M 个 token 的扩展上下文窗口,从而支持诸如存储库级代码分析、长文档问答和多镜头上下文学习等高级应用。然而,这些功能在推理过程中面…
-
React 和 Python 中的 WebSockets 连接,通过基于令牌的授权进行实时通信
在现代Web应用中,实时通信往往是提供无缝用户体验的关键,尤其是在消息、通知、实时更新等应用中。WebSockets 是一种通过单个长期连接提供全双工通信通道的协议。在本文中,我们…
-
Meta AI 发布 Apollo:用于视频理解的全新 Video-LMM 大型多模态模型系列
虽然多模态模型 (LMM) 在文本和图像任务方面取得了显著进展,但基于视频的模型仍然不够完善。视频本质上很复杂,结合了空间和时间维度,需要更多的计算资源。现有方法通常直接采用基于图…
-
谷歌发布用于视频生成的 Veo 2 和用于图像创建的 Imagen 3 :为生成 4K 视频和数分钟长视频设定新标准
视频和图像生成创新正在提高视觉效果的质量,并专注于使 AI 模型对详细提示做出更灵敏的响应。AI 工具通过更准确地再现现实世界的物理和人类运动,为艺术家、电影制作人、企业和创意专业…