技术文章
-
视频编解码算法优化的三大法宝:移植,调参和测试
视频编解码的(软件)算法优化,大多时候是工程开发。 个人觉得,编解码算法,尤其编码器的优化主要依靠三个法宝,它们分别是:移植,调参和测试。 第一个法宝是移植。可以是从A编码器(标准…
-
如何将 WebRTC Web应用无缝集成到 Flutter WebView 中
WebRTC (Web Real-Time Communication)是一个开源框架和协议套件,可实现浏览器、移动应用程序或其他设备之间的实时点对点通信。它主要用于音频/视频通话…
-
Meta AI 发布 Llama Guard 3-1B-INT4:用于人机对话的紧凑型高性能 AI 调节模型
生成式人工智能系统改变了人类与技术的互动方式,提供了突破性的自然语言处理和内容生成功能。然而,这些系统也存在重大风险,特别是在生成不安全或违反政策的内容时。应对这一挑战需要先进的审…
-
了解 VoIP 多编解码器转码
VoIP 多编解码器转码可根据 VoIP 网络条件的变化切换编解码器,并在此过程中避免编码或格式不匹配导致掉线或低质量视频。这项技术在保持企业级视听质量的同时,还能优化带宽。 什么…
-
什么是 VoIP 编解码器?VoIP 编解码器详解
高质量 VoIP 通话的关键在于正确的编解码器。本文探索常见的编解码器、它们的功能和潜在缺点,为 VoIP 优化选择正确的编解码器。 VoIP 让用户通过互联网拨打电话,而不是传统…
-
FFmpeg:在 MacOS 上预处理截屏视频的更好选择
分享如何利用 FFmpeg 在 MacOS 上预处理截屏视频。 为什么使用命令行工具? 在 MacOS 上安装 FFmpeg 剪辑视频中的部分内容 公平地说,QuickTime具有…
-
Composio 推出 AgentAuth:专为 AI 代理设计的综合身份验证解决方案
构建与各种服务交互的 AI 代理(AI agent)面临重大挑战,特别是在管理身份验证方面。开发人员经常面临为 Gmail 设置 OAuth 流程、处理 Linear 等平台的 A…
-
Khronos 发布 Vulkan 两个编码扩展: Encode AV1 和 Encode Quantization Map
Khronos® Group 的 Vulkan® 工作组自 2022 年以来推出了一系列视频解码和编码扩展,统称为 “Vulkan Video”。这些扩展将使用广泛采用的编解码器进…
-
使用 FastAPI 在前端流式传输视频的不同方法
FastAPI 是一个快速、现代的 Web 框架,以支持异步 REST API 和易于使用而闻名。 在本文中,我们将了解如何使用 FastAPI 在前端流式传输视频。 流式响应 1…
-
NVIDIA AI 推出 Fugatto:拥有 25 亿个参数的音频模型,可根据文本和音频输入生成音乐、语音和声效
创作、编辑和转换音乐和声音既有技术挑战,也有创意挑战。当前的人工智能模型往往在多功能性方面存在问题,专攻狭隘的任务或缺乏有效概括的能力。这限制了人工智能辅助制作并阻碍了创造性的适应…
-
Neural Magic 发布 Sparse Llama 3.1 8B:更小的模型,实现高效的 GPU 推理
人工智能模型规模的快速增长带来了巨大的计算和环境挑战。近年来,深度学习模型(尤其是语言模型)规模大幅扩张,需要更多的资源进行训练和部署。这种需求的增加不仅增加了基础设施成本,还导致…
-
webrtc之rtp协议
本文介绍一下rtp协议和rtcp协议。因为ffmpeg的rtp/rtcp协议实现比较简单,这里改用其他开源代码(mediasoup)来介绍。 作者:音视频小话原文:https://…
-
使用 Vue.js 和 WebRTC 构建实时视频应用程序
有没有想过 Zoom 或 Google Meet 等现代视频应用程序是如何无缝传输实时视频的?WebRTC 就是幕后的魔法。它是一种强大的网络技术,可直接在浏览器中实现音频、视频和…
-
中山大学卢伟团队 | 基于视频流谱特征空间的深度伪造检测
研究意义 基于深度伪造技术的篡改视频在社交媒体上广泛传播,部分恶意视频对公众权利和社会稳定造成了极大威胁,深入研究高效的深度伪造检测方法具有重要意义。然而,深度伪造视频在每一帧上表…
-
LTX-Video:开创性的实时视频生成开源模型,在 ComfyUI 中提供 DayOne 原生支持
Lightricks 是一家以创意工具创新技术进步而闻名的公司,它推出了突破性的视频生成开源模型LTX Video (LTXV)。LTXV 为行业树立了标杆,在发布第一天就在 Co…
-
Apple 发布 AIMv2:先进的开放式视觉编码器系列
多年来,视觉模型得到了长足的发展,每一次创新都能解决以往方法的局限性。在计算机视觉领域,研究人员经常面临如何平衡复杂性、通用性和可扩展性的挑战。目前的许多模型都难以有效地处理各种视…
-
WebRTC vs WebSockets:主要区别是什么?
本文重点论述了WebRTC 、WebSocket协议,两者的区别、使用场景、以及何时可以组合使用。 1. 什么是WebRTC? WebRTC 是一组 JavaScript API,…
-
微软研究院推出 Reducio-DiT:通过高级压缩技术提高视频生成效率
视频生成模型的最新进展使得人们能够制作出高质量、逼真的视频片段。然而,由于训练和推理所需的计算量,这些模型在大规模实际应用中面临挑战。目前的商用模型如 Sora、Runway Ge…
-
OpenSIPS 发布新 Python 包,让集成更简单、更快速、更高效
在当今的集成服务世界中,OpenSIPS 与外部应用程序交互的能力不再是可选的 – 而是一种必需品。为了满足这种必要性,OpenSIPS 发布了一个新的 Python …
-
在 React 应用程序中构建安全的实时聊天:使用 Socket.IO 和 CryptoJS 的指南
虽然端到端加密是信息安全的黄金标准,但许多平台需要更灵活的方法。企业通常需要信息访问来解决争议、保证质量或遵守法律。本文展示了一种兼顾安全性和业务需求的实用解决方案。 对于刚刚开始…