技术文章
-
怎么解决码流多slice场景下的马赛克、绿屏问题?
没有丢数据的情况,在解码器上进行解码,呈现出花屏或者绿屏的现象是什么原因导致的呢?该怎么解决?
-
视频比特率是指什么(视频比特率一般设置为多少)
你可能听说过“比特率”一词。但它是什么?为什么它在视频直播中很重要?它如何连接到其他视频规范?简单地说,视频比特率是构成数字视频文件的每秒比特数。它决定了视频的质量以及播放它需要多…
-
LLM-PCGC | 基于大模型的点云几何压缩
摘要:有效的点云压缩的关键在于获得与复杂的三维数据结构一致的鲁棒上下文模型。近年来,大语言模型(LLMs)的发展突显了它们不仅在上下文学习和生成方面表现出强大的预测能力,同时也是有…
-
IP 就像一把瑞士军刀:使用综合平台简化实时视频传输
在当今的广播和体育节目制作领域,IP 可以作为实时视频的瑞士军刀,实现几年前还无法想象的灵活性和可扩展性。然而,同样的灵活性也可能导致复杂性,尤其是在涉及多种协议和格式时。在充分利…
-
OpenPTT:开源的数字对讲系统,打造一个免费开源的通信平台
OpenPTT是一款基于WebRTC和WebSocket技术构建的实时数字对讲(PoC)系统,支持多人通话、群组调度等功能,并具备良好的可扩展性和互操作性。项目支持 iOS、And…
-
使用 Node.js + FFmpeg 生成缩略图、压缩视频、生成预览片段和 HLS 片段
本文分享如何使用 Node.js 和 FFmpeg 优化上传的视频。处理一些有趣的用例,例如生成缩略图、视频压缩、生成预览片段和生成 HLS 片段。 主要依赖项: 在介绍完依赖关系…
-
Action Cable:超越聊天应用程序、Ruby on Rails
Action Cable 是 Rails 功能强大的 WebSocket 框架,它不仅仅适用于简单的聊天应用程序。从即时通知和用户状态跟踪到协作文档编辑和动态分析仪表板,它是一款能…
-
TAMS:实现 IP 互操作性的承诺
在演播室环境中,使用 SMPTE 2110 向 IP 过渡已取得广泛成功,但在直播和近直播领域,互操作性仍有待提高。英国广播公司(BBC)最近的一项创新可以提供答案。 由 BBC …
-
Meta AI 推出 AdaCache:一种无需训练即可加速视频扩散变换器 (DiT) 的方法
视频生成已迅速成为人工智能研究的焦点,尤其是在生成时间一致、高保真视频方面。该领域涉及创建保持帧间视觉连贯性并随时间保留细节的视频序列。机器学习模型,尤其是扩散变换器 (DiT),…
-
Fish Agent v0.1 3B 发布:突破性的语音对语音模型,能够以前所未有的精度捕捉和生成环境音频信息
当前的文本转语音 (TTS) 系统(例如 VALL-E 和 Fastspeech)面临着与处理复杂语言特征、管理复音表达和生成自然的多语言语音相关的持续挑战。在处理依赖于上下文的复…
-
STanH:用参数化的量化模块实现变比特率的图像压缩 | TIP 2024
在端到端学习图像压缩中,编码器和解码器联合训练以最小化 R + λD 成本函数,其中 λ 控制量化潜在表示的速率和图像质量之间的权衡。但是,必须为每个 λ 训练具有数百万个参数的不…
-
Hertz-Dev:用于实时对话式 AI 的开源 8.5B 音频模型,在单 RTX 4090 上具有 80 毫秒理论延迟
对话式 AI 如今已成为技术的基石,但实现快速、高效和实时的交互仍然具有挑战性。延迟(输入和响应之间的延迟)限制了客户服务机器人和虚拟助手等应用程序,使交互变得迟缓。现有模型通常需…
-
音视频面试题集锦第 37 期 | iOS 播放器 SDK 方向
音视频面试题集锦第 37 期,来自音视频技术社群关键帧的音视频开发圈。 下面是大厂音视频面试中,一些关于 iOS 播放器 SDK 开发方向的面试题: 1、在开发 iOS 视频播放器…
-
如何在 Linux 服务器上使用 Nginx-RTMP、HLS 和 DASH 设置视频流服务器
从直播和在线课堂到娱乐平台和社交媒体,视频流已成为现代数字体验的基石。对于希望建立自己的流媒体基础架构的开发人员和内容创建者来说,拥有一个强大且可扩展的流媒体服务器至关重要。 本文…
-
音视频面试题集锦第 36 期|客户端音视频开发
音视频面试题集锦第 36 期,来自音视频技术社群关键帧的音视频开发圈。下面是第 36 期面试题精选: 1、iOS 使用 CoreText 渲染字体的时候,如何计算字体所需要的高度?…
-
OuteTTS-0.1-350M 发布:无需外部适配器即可利用纯语言建模的新型 TTS 合成模型
近年来,文本转语音 (TTS) 合成领域取得了快速发展,但仍然充满挑战。传统的 TTS 模型通常依赖于复杂的架构,包括深度神经网络和专用模块,例如声码器、文本分析器和其他适配器,以…
-
将淘宝直播间融入H5页面的技术探索
在数字化转型的浪潮中,如何将直播间无缝融入H5页面,成为提升用户体验和业务转化率的关键挑战之一。本文探讨了这一创新实践,通过技术解析和实际案例,展示了如何在H5页面上实现直播间的高…
-
基于IM场景下的Wasm初探:提升Web应用性能|得物技术
一 何为Wasm ? Wasm,全称 WebAssembly,官网描述是一种用于基于堆栈的虚拟机的二进制指令格式。Wasm被设计为一个可移植的目标,用于编译C/C++/Rust等高…
-
REST 的消亡:WebSockets 将成为 AI 代理的新标准
想象一下,AI co-pilot 不仅仅是一个聊天机器人,它还具有语音功能,能够倾听、理解并立即做出响应,为您的应用程序创造自然的交互体验。随着 AI 和大型语言模型(LLM)进一…
-
WebRTC API 应用:如何使用 JavaScript 访问相机和拍照
在当今的数字时代,通过网络浏览器访问用户设备上的摄像头已成为从社交媒体平台到视频会议工具等各种应用的基本功能。WebRTC API 为这一功能提供了便利,它允许开发人员利用实时媒体…