技术文章
-
播放器的音视频同步问题分析和解决丨音视频实战经验
音视频实战经验——播放器的音视频同步问题分析和解决,来自公众号关键帧Keyframe的分享。 1、原因和解决思路 播放器的音视频出现同步问题一般有以下原因和解决思路: 1)解码耗时…
-
哔哩哔哩客服坐席调度系统的演进
本文详细探讨了哔哩哔哩客服坐席调度系统的演进,特别是在线客服和工单客服的调度策略。随着客户需求的增加,尤其是在大型活动期间,客服系统面临着突发的高流量和复杂的客户问题。为了提高服务…
-
Netflix 泰森与保罗直播大战出了什么问题?了解背后的点播和直播技术
一直以来,Netflix 都是向全球数百万观众提供高质量视频点播内容的标杆。他们在提供静态内容方面的专业技术几乎无与伦比。然而,在最近的一次直播活动中,即备受瞩目的杰克-保罗对迈克…
-
如何利用多播为 VoIP、UC 和视频系统助力
通过利用多播,组织可以优化网络带宽使用率,并在视频会议、多媒体广播和其他类似场景中支持更多并发用户。 这使得多播成为 UC 和VoIP 解决方案的关键组成部分,从而提供更高效、更经…
-
LLaVA-o1:一个能够进行与 GPT-o1 类似的自发、系统推理的视觉语言模型
视觉语言模型 (VLM) 的开发在处理复杂的视觉问答任务方面面临挑战。尽管 OpenAI 的 GPT-o1 等大型语言模型在推理能力方面取得了长足进步,但 VLM 仍然难以进行系统…
-
Nexa AI 发布 OmniVision-968M:最小的视觉语言模型,可为边缘设备减少 9 倍的 Token 数量
边缘人工智能长期以来一直面临着平衡效率和有效性的挑战。由于边缘设备规模大、计算需求高以及延迟问题,在边缘设备上部署视觉语言模型 (VLM) 非常困难。为云环境设计的模型通常会因边缘…
-
图像识别需要了解的 AI 模型
图像识别已成为许多行业不可分割的一部分。这项技术的核心主要围绕更复杂的 AI 图像识别模型。此类模型使机器能够以几乎完美的准确度定位、分类和理解视觉信息。让我们深入了解将图像识别从…
-
WebAssembly FFmpeg H.265解码的SIMD加速
WebAssembly FFmpeg H.265解码的SIMD加速。从测试效果来看,编译器自动向量化加速效果明显,手写加速效果更好,在Intel 12700和Apple M1上实现WebAssembly单线程解码1080P 140FPS问题不大。
-
B站直播S14保障全解析:高效保障技术实践
在高并发、大流量的互联网时代,如何在大型活动期间保障系统的稳定性和用户的流畅体验,是每个技术团队都面临的挑战。本文以B站直播团队在英雄联盟2024赛季全球总决赛(S14)期间的保障…
-
音视频面试题集锦第 39 期|视频编辑 SDK 方向
音视频面试题集锦第 39 期,来自音视频技术社群关键帧的音视频开发圈。 下面是大厂音视频面试中,关于视频编辑 SDK 的面试题提纲: 1、音视频编辑 SDK 核心架构设计 问题描述…
-
Broadcast Box:基于WebRTC的实时广播盒子
Broadcast Box 是一套服务器端的开源部署解决方案。用户使用广播盒子可以在不到一秒的时间内向他人广播。它的设计简单易用且易于修改。这种广播解决方案的目的是通过实时部署的方…
-
在统一通信网络中应用 QoS 的基本步骤
VoIP、统一通信 (UC)、视频会议和协作系统等网络服务从根本上取决于底层网络基础设施的质量和稳健性。在部署企业网络时,必须执行合理的网络设计原则,以保证最佳的性能、可靠性和可扩…
-
掌握 STUN 和 TURN 服务器:WebRTC 应用程序正确集成指南
在 WebRTC 看似无缝的体验背后,是一个复杂的服务器和协议网络,用于管理浏览器、本地应用程序和媒体服务器之间的实时点对点连接。建立和维护这些连接需要多个步骤,每个步骤对于可靠和…
-
DeepSeek AI 发布 JanusFlow:图像理解和生成的统一框架
人工智能驱动的图像生成和理解领域取得了快速进展,但重大挑战阻碍了无缝统一方法的发展。目前,擅长图像理解的模型往往难以生成高质量的图像,反之亦然。需要为每个任务维护单独的架构不仅增加…
-
Fixie AI 推出 Ultravox v0.4.1:专为实现与 LLM 实时对话而训练的开放式语音模型系列
人工智能实时无缝交互对开发人员和研究人员来说一直是一项复杂的任务。一项重大挑战在于将多模态信息(例如文本、图像和音频)集成到一个有凝聚力的对话系统中。尽管 GPT-4 等大型语言模…
-
使用 Janus WebRTC 媒体服务器构建视频会议应用程序
对于网络上基本的一对一视频通信,我们可以只使用 WebRTC 并直接连接对等点。但是,当我们需要高级功能(即录制或转码)时,或者如果我们有更多参与者,我们将需要媒体服务器的帮助。W…
-
如何在 IOS 的 WebView 中实施 WebRTC
在本文中,我们将学习如何在 IOS 的 WebView 中实施 WebRTC。 在 IOS WebView 中实施 WebRTC 让我们一步步创建一个启用了 WebRTC 的简单应…
-
TensorOpera AI 发布 Fox-1:系列小型语言模型包括 Fox-1-1.6B 和 Fox-1-1.6B-Instruct-v0.1
大型语言模型 (LLM) 的最新进展已在从解决数学问题到回答医学问题的广泛应用中展现出强大的能力。然而,由于这些模型规模庞大,并且需要大量的计算资源来训练和部署它们,因此它们变得越…
-
声学模型和语言模型融合的N种方式
作者:Ryuk来源:语音算法组链接:https://mp.weixin.qq.com/s/PMKFQvPNLJH7qXqp8fWjkA 语音识别算法目的是从声学特征x中找到最有可能…
-
音视频面试题集锦第 38 期 | iOS 渲染方向
分享音视频面试题集锦第 38 期,来自音视频技术社群关键帧的音视频开发圈。 下面是几道关于 iOS 渲染方向的面试题: 1、在 iOS 中属性 kCVPixelBufferIOS…