技术文章
-
直播推流组件架构、重点需求技术方案和常见问题解析
本文分享来自公众号——关键帧Keyframe的分享。 本文中,我们来介绍在实际工作中,我们实现的直播推流组件架构、重点需求技术方案和常见问题解析。 其中,重点需求技术方案包括: 1…
-
Google DeepMind 发布 PaliGemma 2 Mix:针对多种视觉语言任务进行微调的新型指令视觉语言模型
视觉语言模型 (VLM) 长期以来一直有望弥合图像理解和自然语言处理之间的差距。然而,实际挑战依然存在。传统的 VLM 通常会在图像分辨率的变化、上下文细微差别以及将视觉数据转换为…
-
FreeSWITCH环境中核心模块mod_dptools 的工作机制,配置和优化讨论分析
FreeSWITCH环境中,有很多模块是经常使用的重要模块,需要开发人员深入掌握这些模块。 mod_dptools 模块就是主要模块之一。我们针对此模块做更多解释,希望帮助读者对业…
-
FreeSWITCH企业电话系统典型远程注册NAT场景架构分析与优化建议
NAT问题是非常常见的企业电话系统中远程用户使用问题。在FreeSWITCH环境中,很多用户基本上没有SBC的边界控制能力,只能手搓,使用默认环境来配置。但是,配置后,随着用户数量…
-
直播间互动框架性能优化与稳定性实践
导读:直播间互动体验框架技术实践,揭秘性能与稳定性优化之道,快来探索吧!在百度直播间歌会红包等活动中,我们创新性地将红包互动与高质内容深度融合,通过技术架构升级与系统性优化,打造了…
-
DFSQ:用于超分辨率网络的分布灵活的子集量化方法 | 厦门大学纪荣嵘团队
研究意义 图像超分辨率(SR)技术旨在从低分辨率图像中恢复高分辨率图像,广泛应用于医学影像、视频增强和卫星图像处理等领域。然而,现有的SR模型通常依赖庞大的网络规模和计算资源,难以…
-
One-D-Piece:图像Tokenizer满足质量可控压缩
当前的图像标记化方法需要大量标记来捕获图像中包含的信息。尽管图像的信息量不同,但大多数图像分词器仅支持固定长度的分词化,导致分词分配效率低下。在本研究中,本文介绍了 One-D-P…
-
增强扩散模型:稀疏性和正则化在高效生成 AI 中的作用
扩散模型已成为一个重要的生成式 AI 框架,在图像合成、视频生成、文本到图像转换和分子设计等任务中表现出色。这些模型通过两个随机过程发挥作用:一个是逐渐向数据添加噪声并将其转换为高…
-
基于流媒体点直播业务的算法赋能探索
本文从B站流媒体点直播的日常业务出发,结合具体业务实例详细介绍如何利用算法赋能业务。 作者丨Fiver来源 | 多媒体 哔哩哔哩技术 背景概述 早在20世纪人们就开始了人工智能的相…
-
音频流服务的系统设计
音频流应用程序的系统设计在如何处理特殊业务需求方面具有独特性。通常,音频流需要在有限的网络通信通道带宽内传输大量数据。 一个成功的音频流媒体服务必须能够处理来自不同地理位置的数百万…
-
Swell v1.19.0 发布,更新沙盒、安全性并内置功能齐全的 WebRTC 套件,并改进 UI/UX
在当今快节奏的开发环境中,强大的 API 测试至关重要。工程师们依靠这些工具在开发周期的早期验证功能,而不依赖于完全实现的前端。Swell 是一个尖端的 API 测试和开发平台,旨…
-
Nous Research 发布 DeepHermes 3 预览版:基于 Llama-3-8B 的模型,结合深度推理、高级函数调用和无缝对话智能
近年来,人工智能见证了自然语言处理 (NLP) 的快速发展,但许多现有模型仍在努力平衡直观响应与深度结构化推理。虽然传统的人工智能聊天模型在对话流畅性方面很出色,但在面对需要逐步分…
-
苹果公司与罗切斯特大学联合开发生成式空间音频模型,进一步提升沉浸式体验
在虚拟现实、增强现实以及各种沉浸式体验领域,生成高质量的空间音频一直是技术挑战。现有的生成式音频模型通常只能生成单声道或立体声,无法准确地将声音源定位到所需的空间位置。 近日,来自…
-
webrtc视频会议AI实时语音转字幕
音视频的很多业务也开始使用AI工具,本文介绍如何使用AI对webrtc视频会议进行升级,实时生成会议内容的实时字幕。主要集中在语音内容的实时字幕,而TTS服务部分。
-
AI 聊天机器人如何模仿人类行为:从 LLM 的多轮评估中获得的启示
AI 聊天机器人通过生成看似人类的自然对话,创造了具有情感、道德或意识的幻觉。许多用户与 AI 互动是为了聊天和陪伴,这强化了它真正理解的错误信念。这会导致严重的风险。用户可能会过…
-
隐式视频表示的快速编码和解码 | ECCV 2024
尽管视频数据可用性高、内容丰富,但其高维性对视频研究提出了挑战。最近的进展已经探索了使用神经网络对视频进行隐式表示,并在视频压缩和增强等应用中展示了强大的性能。然而,延长的编码时间…
-
FreeSWITCH环境中事件机制event_handlers的工作流程和详细配置,以及优化方法
在FreeSWITCH环境中,事件(Event)机制是核心功能之一,能够对系统内外的多种状态变化进行响应。通过精准配置和优化事件处理器(Event Handlers),可以实现对呼…
-
opus编码控制参数
本文介绍了Opus交互式语音与音频编解码器,以及Opus编解码器在编码器正常运行期间动态调整的控制参数(无需中断编码器到解码器的音频流)等内容。
-
OPC-UA 和 MQTT:协议指南和 Python 实现
探索OPC-UA 和 MQTT两种基本的物联网协议:用于安全和结构化工业设备通信的 OPC-UA 和用于遥测的轻量级实时协议 MQTT。
-
FreeSWITCH如何开启Event Socket Language支持
本文介绍如何在FreeSWITCH中开启Event Socket Language(ESL)支持,以及如何使用golang语言来编写ESL应用程序。