技术文章
-
Neural Magic 发布 Sparse Llama 3.1 8B:更小的模型,实现高效的 GPU 推理
人工智能模型规模的快速增长带来了巨大的计算和环境挑战。近年来,深度学习模型(尤其是语言模型)规模大幅扩张,需要更多的资源进行训练和部署。这种需求的增加不仅增加了基础设施成本,还导致…
-
webrtc之rtp协议
本文介绍一下rtp协议和rtcp协议。因为ffmpeg的rtp/rtcp协议实现比较简单,这里改用其他开源代码(mediasoup)来介绍。 作者:音视频小话原文:https://…
-
使用 Vue.js 和 WebRTC 构建实时视频应用程序
有没有想过 Zoom 或 Google Meet 等现代视频应用程序是如何无缝传输实时视频的?WebRTC 就是幕后的魔法。它是一种强大的网络技术,可直接在浏览器中实现音频、视频和…
-
中山大学卢伟团队 | 基于视频流谱特征空间的深度伪造检测
研究意义 基于深度伪造技术的篡改视频在社交媒体上广泛传播,部分恶意视频对公众权利和社会稳定造成了极大威胁,深入研究高效的深度伪造检测方法具有重要意义。然而,深度伪造视频在每一帧上表…
-
LTX-Video:开创性的实时视频生成开源模型,在 ComfyUI 中提供 DayOne 原生支持
Lightricks 是一家以创意工具创新技术进步而闻名的公司,它推出了突破性的视频生成开源模型LTX Video (LTXV)。LTXV 为行业树立了标杆,在发布第一天就在 Co…
-
Apple 发布 AIMv2:先进的开放式视觉编码器系列
多年来,视觉模型得到了长足的发展,每一次创新都能解决以往方法的局限性。在计算机视觉领域,研究人员经常面临如何平衡复杂性、通用性和可扩展性的挑战。目前的许多模型都难以有效地处理各种视…
-
WebRTC vs WebSockets:主要区别是什么?
本文重点论述了WebRTC 、WebSocket协议,两者的区别、使用场景、以及何时可以组合使用。 1. 什么是WebRTC? WebRTC 是一组 JavaScript API,…
-
微软研究院推出 Reducio-DiT:通过高级压缩技术提高视频生成效率
视频生成模型的最新进展使得人们能够制作出高质量、逼真的视频片段。然而,由于训练和推理所需的计算量,这些模型在大规模实际应用中面临挑战。目前的商用模型如 Sora、Runway Ge…
-
OpenSIPS 发布新 Python 包,让集成更简单、更快速、更高效
在当今的集成服务世界中,OpenSIPS 与外部应用程序交互的能力不再是可选的 – 而是一种必需品。为了满足这种必要性,OpenSIPS 发布了一个新的 Python …
-
在 React 应用程序中构建安全的实时聊天:使用 Socket.IO 和 CryptoJS 的指南
虽然端到端加密是信息安全的黄金标准,但许多平台需要更灵活的方法。企业通常需要信息访问来解决争议、保证质量或遵守法律。本文展示了一种兼顾安全性和业务需求的实用解决方案。 对于刚刚开始…
-
播放器的音视频同步问题分析和解决丨音视频实战经验
音视频实战经验——播放器的音视频同步问题分析和解决,来自公众号关键帧Keyframe的分享。 1、原因和解决思路 播放器的音视频出现同步问题一般有以下原因和解决思路: 1)解码耗时…
-
哔哩哔哩客服坐席调度系统的演进
本文详细探讨了哔哩哔哩客服坐席调度系统的演进,特别是在线客服和工单客服的调度策略。随着客户需求的增加,尤其是在大型活动期间,客服系统面临着突发的高流量和复杂的客户问题。为了提高服务…
-
Netflix 泰森与保罗直播大战出了什么问题?了解背后的点播和直播技术
一直以来,Netflix 都是向全球数百万观众提供高质量视频点播内容的标杆。他们在提供静态内容方面的专业技术几乎无与伦比。然而,在最近的一次直播活动中,即备受瞩目的杰克-保罗对迈克…
-
如何利用多播为 VoIP、UC 和视频系统助力
通过利用多播,组织可以优化网络带宽使用率,并在视频会议、多媒体广播和其他类似场景中支持更多并发用户。 这使得多播成为 UC 和VoIP 解决方案的关键组成部分,从而提供更高效、更经…
-
LLaVA-o1:一个能够进行与 GPT-o1 类似的自发、系统推理的视觉语言模型
视觉语言模型 (VLM) 的开发在处理复杂的视觉问答任务方面面临挑战。尽管 OpenAI 的 GPT-o1 等大型语言模型在推理能力方面取得了长足进步,但 VLM 仍然难以进行系统…
-
Nexa AI 发布 OmniVision-968M:最小的视觉语言模型,可为边缘设备减少 9 倍的 Token 数量
边缘人工智能长期以来一直面临着平衡效率和有效性的挑战。由于边缘设备规模大、计算需求高以及延迟问题,在边缘设备上部署视觉语言模型 (VLM) 非常困难。为云环境设计的模型通常会因边缘…
-
图像识别需要了解的 AI 模型
图像识别已成为许多行业不可分割的一部分。这项技术的核心主要围绕更复杂的 AI 图像识别模型。此类模型使机器能够以几乎完美的准确度定位、分类和理解视觉信息。让我们深入了解将图像识别从…
-
WebAssembly FFmpeg H.265解码的SIMD加速
WebAssembly FFmpeg H.265解码的SIMD加速。从测试效果来看,编译器自动向量化加速效果明显,手写加速效果更好,在Intel 12700和Apple M1上实现WebAssembly单线程解码1080P 140FPS问题不大。
-
B站直播S14保障全解析:高效保障技术实践
在高并发、大流量的互联网时代,如何在大型活动期间保障系统的稳定性和用户的流畅体验,是每个技术团队都面临的挑战。本文以B站直播团队在英雄联盟2024赛季全球总决赛(S14)期间的保障…
-
音视频面试题集锦第 39 期|视频编辑 SDK 方向
音视频面试题集锦第 39 期,来自音视频技术社群关键帧的音视频开发圈。 下面是大厂音视频面试中,关于视频编辑 SDK 的面试题提纲: 1、音视频编辑 SDK 核心架构设计 问题描述…