技术文章
-
FFmpeg的默认值陷阱
前面我们讲过FFmpeg的参数配置系统: avformat avcodec等API都用到了搜索子对象配置的功能。比如使用libx264编码器,你可以使用avcodec公共参数来配置…
-
Nexa AI 发布 OmniAudio-2.6B:用于边缘部署的快速音频语言模型
音频语言模型 (ALM) 在各种应用中发挥着至关重要的作用,从实时转录和翻译到语音控制系统和辅助技术。然而,许多现有解决方案都面临着诸如高延迟、大量计算需求以及对基于云的处理依赖等…
-
使用 WebRTC 在 Next.js 应用程序中实现实时协作功能
了解如何在 Next.js 中使用 WebRTC 构建实时协作应用程序。通过实时更新实现无缝交互! 为什么要进行实时协作? 想象一下,在类似 Google 文档的体验中,多个用户可…
-
InternLM-XComposer2.5-OmniLive:用于长期流式视频和音频交互的综合多模态 AI 系统
AI 系统正在通过实现与动态环境的实时交互来模拟人类认知。从事 AI 工作的研究人员旨在开发无缝集成音频、视频和文本输入等多模态数据的系统。通过模仿人类的感知、推理和记忆,这些系统…
-
语音生成大模型CosyVoice升级2.0版本 | 开源更新
CosyVoice是阿里巴巴通义实验室语音团队于今年7月份开源的语音生成大模型,依托大模型技术,实现自然流畅的语音生成体验。与传统语音生成技术相比,CosyVoice具有韵律自然、…
-
基于逐帧和逐段时空交互记忆网络的高效视频目标分割 | 党吉圣,郑慧诚,赖剑煌等
研究意义 视频目标分割(Video Object Segmentation, VOS)是一项旨在自动分割视频中目标的核心任务,广泛应用于视频编辑、机器人导航、自动驾驶等领域。然而,…
-
微软 AI 推出 Phi-4:全新 140 亿参数小型语言模型,专攻复杂推理
大型语言模型在理解自然语言、解决编程任务和应对推理挑战方面取得了令人瞩目的进步。然而,它们的高计算成本和对大规模数据集的依赖带来了一系列问题。许多数据集缺乏复杂推理所需的多样性和深…
-
AMD 发布 AMD ROCm 6.3:一款具有先进工具和优化功能的开源平台,可增强 AI、ML 和 HPC 工作负载
随着人工智能 (AI)、机器学习 (ML) 和高性能计算 (HPC) 成为各行各业创新的核心,它们也带来了不容忽视的挑战。这些工作负载需要强大的计算资源、高效的内存管理和经过优化的…
-
如何跨多个浏览器窗口共享实时 WebSocket 数据
WebSockets 通过在客户端和服务器之间实现持久的全双工连接,彻底改变了实时通信。对于依赖实时更新的应用程序(如聊天应用程序、协作工具或实时仪表板)来说,跨多个浏览器窗口共享…
-
OpenAI Sora 与 AWS Nova 的区别:哪个更适合视频创作?
最近,OpenAI 的 Sora 和亚马逊(AWS)的 Nova 在 Bedrock 平台上发布,标志着 AI 领域翻开了激动人心的新篇章。虽然这两种模式都以各自的方式推动着这一领…
-
Google AI 发布 Gemini 2.0 Flash:比 Gemini 1.5 Pro 快 2 倍的全新 AI 模型
Google AI Research 推出了 Gemini 2.0 Flash,这是其 Gemini AI 模型的最新版本。此版本侧重于性能改进,尤其是速度显著提高和多模式功能扩展…
-
优化 WebRTC 连接:在 Debian 上安装和配置 coturn TURN 服务器的指南
WebRTC 改变了我们通过互联网体验实时通信的方式。从视频会议和在线游戏到直播和远程协作,WebRTC 实现了直接在网络浏览器和移动应用程序中进行无缝点对点通信。然而,网络地址转…
-
MQ消息乱序问题解析与实战解决方案
1. 背景 在分布式系统中,消息队列(MQ)是实现系统解耦、异步通信的重要工具。然而,MQ消费时出现的消息乱序问题,经常会对业务逻辑的正确执行和系统稳定性产生不良影响。本文将详细探…
-
从规模到密度:评估大型语言模型的新型 AI 框架
大型语言模型 (LLM)在人工智能领域取得了重大进展,随着参数和训练数据的增长,它们在各种任务上都表现出色。GPT -3、PaLM和Llama-3.1在具有数十亿个参数的众多应用中…
-
3D直播观赛的背后:2D转3D技术
写在前面:随着技术的不断进步和创新,人们对于视听体验的需求也在不断提升。通过将平面视频转变为3D视频,观赏者能够沉浸于更加立体、生动的视听世界中,享受到更加真实、逼真的观赏体验。随…
-
Media Over QUIC 能在下一代流媒体领域超越 WHIP 和 WHEP 吗?
直播和点播流媒体的发展速度令人惊叹。为满足全球受众不断升级的需求而设计的新兴技术正在加入甚至取代传统协议。WebRTC-HTTP Ingestion Protocol (WHIP)…
-
Meta AI 推出 SPDL:改善 AI 训练期间数据传递方式的工具
如今,训练 AI 模型不仅要设计更好的架构,还要有效地管理数据。现代模型需要大量数据集,并且需要将这些数据集快速传送到 GPU 和其他加速器。问题是什么?传统的数据加载系统往往落后…
-
webrtc之rtp协议(二): 封装H264
Webrtc在对媒体编码H264进行rtp封装,在RFC6184有详细解释。本文介绍:rtp如何封装H264和代码实现。
-
噪声增强 CAM(连续自回归模型):推进实时音频生成
自回归模型(Autoregressive models)用于生成离散标记序列。在该方法中,下一个标记由给定序列中的前一个标记决定。最近的研究表明,自回归生成连续嵌入序列也是可行的。…
-
Connected in 3D | 与Marc Petit探讨实时3D的变革力量
摘要: 在本期《3D 连接:实时解决方案与数字孪生》播客中,Ashley Crowder与Epic Games前副总裁兼Unreal Engine总经理Marc Petit进行访谈…