技术文章

技术文章

开源 SwiftKV：可将 Cortex AI 上 Meta Llama LLM 的推理成本降低 75%

大型语言模型 (LLM) 已成为人工智能的关键，为从聊天机器人到内容生成工具的各种应用提供支持。然而，大规模部署它们带来了显著的挑战。高计算成本、延迟和能耗通常会限制它们的广泛使用…

AIGC
2025年1月22日
WebRTC

了解 WebRTC 安全架构和 IoT

在物联网世界中，安全是最大的挑战之一。当您通过网络将多个设备连接在一起时，各种安全威胁之门都会半开，同时涉及数据传输的门本身数量也会增加。然而，数据传输是物联网不可或缺的一部分，…

webrtc学习和实践
2025年1月21日
技术文章

利用去中心化 AI 提高视频会议质量

视频会议已成为跨国通信、教育、医疗保健和远程工作的必要手段。然而，传统方法有几个缺点，如视频和音频质量差、延迟问题、带宽限制和日益严重的数据安全问题。这些限制使得有效协作和交流更具…

假装是大佬
2025年1月21日
技术文章

与 FFmpegKit 说再见

FFmpeg 工具包 FFmpegKit 作者 Taner Sener 表示自2025 年 1 月 6 日起，FFmpegKit正式退役，不会再发布任何新版本。以下为全文：做出…

FFmpeg笔记
2025年1月20日
技术文章

构建现代流媒体服务：MCP 架构和技术选择

人工智能代理有可能从根本上改变个人在流媒体平台、软件应用程序、新闻媒体等各种服务中管理订阅的方式。本文章将分享实施支持 MCP（模型上下文协议）的流媒体服务原型的经验，以证明人工…

RTC观主
2025年1月20日
技术文章

VideoChat-Flash：针对长文本视频建模的分层压缩技术，可在计算量减少 100 倍的情况下处理长文本视频

多模态大型语言模型最重要、最先进的功能之一是长上下文视频建模，它允许模型处理长达数小时的电影、纪录片和直播。然而，尽管 LLM 在视频理解（包括字幕生成和问题解答）方面取得了值得称…

AIGC
2025年1月20日
即时通讯

鸿蒙（HarmonyOS）即时通讯 SDK 发布，助力开发适用于鸿蒙OS的实时通信互动 App

近日，即构 HarmonyOS 即时通讯SDK 发布，对齐 iOS/Android/macOS/Windows 等平台的 2.19.0 版本，支持用户管理、房间管理、群组管理、消息…

ZEGO即构科技
2025年1月17日
技术文章

通过适当的路由选择，最大限度地减少抖动、延迟和其他统一通信问题

路由是网络运营的重要组成部分，正确使用路由对于任何企业网络都至关重要。在网络环境中，路由是数据包在从一个节点传输到另一个节点时被定向到最终目的地的过程。路由设计的许多方面都会影响…

RTC观主
2025年1月17日
技术文章

Kyutai Labs 发布 Helium-1 预览版：具有 2B 参数的轻量级语言模型，针对边缘和移动设备

边缘和移动设备对 AI 模型的依赖日益增加，凸显了重大挑战。平衡计算效率、模型大小和多语言能力仍然是一个持续的障碍。传统的大型语言模型(LLM) 虽然功能强大，但通常需要大量资源，…

AIGC
2025年1月17日
WebRTC

优化慢速网络上的 WebRTC 性能：网络层面的关键注意事项

无论您是在构建 VoIP 应用程序、视频会议平台还是任何实时通信解决方案，确保在网络速度缓慢或不可靠的环境中实现最佳性能都是一项重大挑战。移动网络和卫星通信尤其如此，延迟、数据包丢…

webrtc学习和实践
2025年1月16日
技术文章

xLSTM-SENet：重新定义单通道语音增强

语音处理系统通常难以在嘈杂的环境中提供清晰的音频。这一挑战影响了助听器、自动语音识别 (ASR) 和说话人验证等应用。传统的单通道语音增强 (SE) 系统使用 LSTM、CNN 和…

音频技术
2025年1月16日
技术文章

MinMo：约 8B 参数的多模态大型语言模型，实现无缝语音交互

大型语言和多模态语音文本模型的进步为无缝、实时、自然和类人语音交互奠定了基础。要实现这一点，系统需要处理语音内容、情绪语调和音频提示，同时给出准确而连贯的响应。然而，在克服语音和文…

AIGC
2025年1月16日
技术文章

人工智能和音频：技术进入广播声景的影响

人工智能 (AI) 已在专业音频领域占有重要地位。它正在自动化和简化诸如编辑、混音、母带制作以及越来越多的音乐创作和生成等任务。它使制作人和工程师能够更快、更高效地工作，并提供新的…

音频技术
2025年1月16日
即时通讯

使用 Kafka 构建基于 WebSocket 的聊天服务器

作为一名对 Kafka 生态系统感兴趣的开发人员，尝试将 Kafka 与其他技术相结合总是非常有趣的。本文将演示如何结合 WebSocket 和 Kafka 来构建一个简单的聊天服…

IM开发老王
2025年1月15日
技术文章

OpenBMB发布MiniCPM-o 2.6：一种灵活的多模态模型，可理解视觉、语音和语言并在边缘设备上运行

OpenBMB 发布 MiniCPM-o 2.6 ，该模型提供全面的多模式功能，支持视觉、语音和语言处理，同时可在智能手机、平板电脑和 iPad 等边缘设备上高效运行。

AIGC
2025年1月15日
技术文章

Meta AI 推出 CLUE：旨在解决传统图像安全系统缺陷的 AI 框架

数字平台的快速发展使图像安全问题成为关注焦点。从露骨的内容到暴力的描述，有害图像给内容审核带来了巨大挑战。人工智能生成内容（AIGC）的激增加剧了这些挑战，因为先进的图像生成模型可…

图像处理
2025年1月14日
WebRTC

如何在 Kubernetes 上部署 Janus WebRTC 服务器

本文分享如何在 Kubernetes 上部署 Janus WebRTC 服务器。无论您是 Kubernetes 爱好者还是 Janus 专家（或两者都不是），本指南都将逐步指导您完…

webrtc学习和实践
2025年1月13日
技术文章

Sa2VA：通过 SAM-2 和 LLaVA 集成实现密集基础视频和图像理解的统一 AI 框架

多模态大型语言模型(MLLM) 彻底改变了各种图像和视频相关任务，包括视觉问答、叙事生成和交互式编辑。该领域的一个关键挑战是实现细粒度的视频内容理解，这涉及像素级分割、使用语言描述…

AIGC
2025年1月13日
技术文章

发展和提升：标准在向更多受众推广沉浸式视频中的作用

InterDigital 视频实验室元视频组主任兼负责人 Philippe Guillotel 评论了标准在为触觉技术和沉浸式视频提供基础方面的关键性。随着我们的沟通和娱乐模式不…

视频技术
2025年1月13日
技术文章

FFmpeg解码出来的frame data可以修改吗？

以下内容来自公众号“ Fun With FFmpeg”的分享。有朋友问：“ffmpeg的decoder解码出来的frame是不是不能直接修改data的内容？” 提出此问，说明两件…

FFmpeg笔记
2025年1月10日