技术文章
-
字节跳动推出 OmniHuman-1:基于单一人体图像和运动信号生成人体视频的端到端多模态框架
尽管人工智能驱动的人体动画取得了进展,但现有模型在动作逼真度、适应性和可扩展性方面往往面临限制。许多模型难以生成流畅的肢体动作,并且依赖于过滤后的训练数据集,这限制了它们处理各种场…
-
Yandex 开发并开源 Perforator:一款每年可为企业节省数十亿美元服务器基础设施费用的开源工具
科技公司 Yandex 开发并开源了Perforator,这是一种用于对服务器和应用程序进行持续实时监控和分析的创新工具。 Perforator 可帮助开发人员识别资源最密集的代码…
-
如何使用 WebRTC 和 React 构建实时代码协作编辑器
远程办公越来越多,实时协作工具已成为开发团队必不可少的工具。虽然有 VS Code Live Share 这样的平台,但了解如何创建自己的协作代码编辑器可以为实时同步和点对点通信提…
-
Google AI 推出 Learn-by-Interact:一种以数据为中心的自适应高效 LLM 代理开发框架
由大型语言模型(LLM)驱动的自主代理研究已显示出在提高人类生产力方面的巨大潜力。这些代理旨在协助完成各种任务,例如编码、数据分析和网页导航。它们通过自动执行常规数字任务,让用户专…
-
如何使用 Docker 安装 Asterisk?
VoIP 不只是技术人员的专利。它适用于任何准备深入 SIP、pjsip 和扩展世界的人,同时还能玩转 Docker!本文将向你展示如何使用 Docker 安装 Asterisk(…
-
EvaByte:由 EVA 提供支持的开源 6.5B 先进无标记语言模型
标记化是将文本分解成更小单元的过程,长期以来一直是自然语言处理 (NLP) 中的一个基本步骤。然而,它带来了一些挑战。基于标记器的语言模型 (LM) 经常难以处理多语言文本、词汇表…
-
PC 中沉浸式音频体验的高级信号处理
在数字创新时代,音频质量已成为 PC(personal computing) 的一个决定性特征。无论是游戏、视频会议、内容创建还是媒体消费,对沉浸式的高品质音频体验的需求都在不断增…
-
WebAssembly视频检测在社区创作平台的落地与实践 | 得物技术
一 背景&现状 创作者服务平台作为得物为社区创作者提供的PC端视频发布入口,地位非常重要。且随着功能的升级迭代,用户群体也越来越多。但我们偶尔会收到如下反馈: 视频的损坏不…
-
使用 WebRTC 和 Web Audio API 构建低延迟音乐协作应用程序
远程音乐协作已大为流行,但许多解决方案都因延迟问题而无法实现实时性能。在本文中,我们将使用 WebRTC 和 Web Audio API 构建一个低延迟音乐协作应用程序,使音乐家们…
-
开源 SwiftKV:可将 Cortex AI 上 Meta Llama LLM 的推理成本降低 75%
大型语言模型 (LLM) 已成为人工智能的关键,为从聊天机器人到内容生成工具的各种应用提供支持。然而,大规模部署它们带来了显著的挑战。高计算成本、延迟和能耗通常会限制它们的广泛使用…
-
了解 WebRTC 安全架构和 IoT
在物联网世界中,安全是最大的挑战之一。当您通过网络将多个设备连接在一起时,各种安全威胁之门都会半开,同时涉及数据传输的门本身数量也会增加。 然而,数据传输是物联网不可或缺的一部分,…
-
利用去中心化 AI 提高视频会议质量
视频会议已成为跨国通信、教育、医疗保健和远程工作的必要手段。然而,传统方法有几个缺点,如视频和音频质量差、延迟问题、带宽限制和日益严重的数据安全问题。这些限制使得有效协作和交流更具…
-
与 FFmpegKit 说再见
FFmpeg 工具包 FFmpegKit 作者 Taner Sener 表示自2025 年 1 月 6 日起,FFmpegKit正式退役,不会再发布任何新版本。 以下为全文: 做出…
-
构建现代流媒体服务:MCP 架构和技术选择
人工智能代理有可能从根本上改变个人在流媒体平台、软件应用程序、新闻媒体等各种服务中管理订阅的方式。 本文章将分享实施支持 MCP(模型上下文协议)的流媒体服务原型的经验,以证明人工…
-
VideoChat-Flash:针对长文本视频建模的分层压缩技术,可在计算量减少 100 倍的情况下处理长文本视频
多模态大型语言模型最重要、最先进的功能之一是长上下文视频建模,它允许模型处理长达数小时的电影、纪录片和直播。然而,尽管 LLM 在视频理解(包括字幕生成和问题解答)方面取得了值得称…
-
鸿蒙(HarmonyOS)即时通讯 SDK 发布,助力开发适用于鸿蒙OS的实时通信互动 App
近日,即构 HarmonyOS 即时通讯SDK 发布,对齐 iOS/Android/macOS/Windows 等平台的 2.19.0 版本,支持用户管理、房间管理、群组管理、消息…
-
通过适当的路由选择,最大限度地减少抖动、延迟和其他统一通信问题
路由是网络运营的重要组成部分,正确使用路由对于任何企业网络都至关重要。 在网络环境中,路由是数据包在从一个节点传输到另一个节点时被定向到最终目的地的过程。路由设计的许多方面都会影响…
-
Kyutai Labs 发布 Helium-1 预览版:具有 2B 参数的轻量级语言模型,针对边缘和移动设备
边缘和移动设备对 AI 模型的依赖日益增加,凸显了重大挑战。平衡计算效率、模型大小和多语言能力仍然是一个持续的障碍。传统的大型语言模型(LLM) 虽然功能强大,但通常需要大量资源,…
-
优化慢速网络上的 WebRTC 性能:网络层面的关键注意事项
无论您是在构建 VoIP 应用程序、视频会议平台还是任何实时通信解决方案,确保在网络速度缓慢或不可靠的环境中实现最佳性能都是一项重大挑战。移动网络和卫星通信尤其如此,延迟、数据包丢…
-
xLSTM-SENet:重新定义单通道语音增强
语音处理系统通常难以在嘈杂的环境中提供清晰的音频。这一挑战影响了助听器、自动语音识别 (ASR) 和说话人验证等应用。传统的单通道语音增强 (SE) 系统使用 LSTM、CNN 和…