技术文章
-
开源 | MeiGen-MultiTalk:基于单张照片实现多人互动演绎
近日,美团推出了音频驱动的多人对话视频生成框架MultiTalk,并在GitHub上开源,首创L-RoPE绑定技术,通过标签旋转位置编码精准解决多音频流与人物错位难题。该框架创新性…
-
探索 FFmpeg Basics 音视频技术(13): 数学函数
FFmpeg工具提供的一个巨大优势是内置的数学函数,可以对某些音频和视频过滤器、选项和源进行各种修改。
-
为什么 SRT 能够助力下一代流媒体工作流
提供高质量的直播视频比以往任何时候都更加苛刻。广播公司、流媒体平台和内容所有者需要满足观众日益增长的期望,即跨平台、跨地域实现无缝、低延迟的观看体验,同时还要应对预算紧缩、团队精简…
-
多声源定位新方法:结合α稳定模型与神经网络的SHAMaNS
声源定位(Sound Source Localization, SSL)作为机器听觉领域的基础任务,在增强听觉、机器人技术、自动驾驶等场景中应用广泛。现有 SSL 技术主要分为声学…
-
探索 FFmpeg Basics 音视频技术(12): 时间操作
多媒体处理包括改变输入持续时间,设置延迟,仅从输入中选择特定部分等。本文将分享 FFmpeg 时间操作方面相关的内容。
-
淘宝直播数字人:LLM弹幕互动技术
本专题是淘宝直播技术团队打造智能数字人的部分实践总结。我们将探讨六大核心环节:LLM文案生产赋予数字人思考和内容生成能力,如同其“大脑”;LLM互动能力则聚焦对话逻辑与拟人化交流,…
-
使用 FFmpeg 和开源媒体服务器进行 ABR WHIP 流媒体传输
提供高质量的实时视频流,确保在任何网络上都能稳定播放,并且能够即时呈现互动内容,这是我们的最终目标。对于希望实现这一目标的用户来说,将 FFmpeg 与开源WHIP/WHEP服务器…
-
为什么 MPLS 对于实时通信仍然很重要
随着越来越多的企业转向基于云的通信,远程办公成为常态,确保分散站点之间的一致性能已成为电信和统一通信 (UC) 提供商的首要任务。对于负责部署可靠实时通信服务(如 VoIP 和 U…
-
RTMP 协议之控制消息
协议控制消息: RTMP为协议控制消息保留了消息类型ID 1-7。这些消息包含了RTM Chunk Stream协议或RTMP本身所需的信息。类型ID为1和2的协议消息是为RTM …
-
探索 FFmpeg Basics 音视频技术(11): 格式之间转换
ffmpeg工具的最常见用法是从一种音频或视频格式转换为另一种相关的格式。格式参数在输出文件之前由-f选项设置,或者在输入文件之前也有原始输入。
-
BAAI推出OmniGen2:多模态人工智能的统一扩散和变压器模型
北京智源人工智能研究院 (BAAI) 推出了新一代开源多模态生成模型 OmniGen2。该新架构在其前身 OmniGen 的基础上进行了扩展,将文本转图像生成、图像编辑和主题驱动生…
-
更智能的视频压缩如何创造可持续的未来
体育直播尤其容易受到气候变化的影响,从极端天气事件的干扰,到成本上升和物流挑战。随着减少体育媒体制作碳足迹的压力日益增大,编码和压缩技术正成为该行业更广泛的可持续发展努力中的有力工…
-
直播技术的未来:CXO 应该了解什么
在日益移动优先的世界里,移动应用程序开发服务对直播的未来至关重要。直播技术已成为一种强大的工具,改变着企业与客户、员工和利益相关者的互动方式。 对于 CXO(首席体验官、首席营销官…
-
B站:从拥塞控制算法热交换到内核错误修复
最近在哔哩哔哩,我们开发了一种改进的 BBR 拥塞控制算法,需要在真实环境中进行测试。该算法本身以内核模块的形式存在,因此将其安装到服务器上不是问题。然而,在快节奏的迭代过程中,我…
-
探索 FFmpeg Basics 音视频技术(10): 为视频添加文字
这个系列文章我们来介绍一位海外工程师如何探索 FFmpeg Basics 音视频技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 10 篇:FFmpeg …
-
AVS3标准首次亮相世俱杯直播,中国自主音视频技术迈入全球产业化新阶段
在近日举行的国际足联俱乐部世界杯(FIFA Club World Cup,简称:世俱杯)赛事中,中国自主研发的AVS3(The 3rd generation o…
-
节省 50% 带宽!英特尔 WebRTC H.265 实现在 Chrome 中默认启用
英特尔 Web 工程团队在 Chrome 浏览器 136 版实现默认启用 WebRTC H.265,通过在功率和性能方面的重大改进,可支持更流畅、更高效的流媒体体验。
-
可扩展且安全的边缘 AI 联邦学习架构
现代应用对实时数据处理和隐私保护的需求日益增长,边缘 AI (Edge AI) 成为人们关注的焦点。边缘 AI 是指将 AI 模型直接部署在边缘设备上,例如智能手机、物联网传感器、…
-
探索 FFmpeg Basics 音视频技术(9): 画中画 – overlay
Overlay 视频技术经常被使用。常见的例子包括放置在电视屏幕上的电视频道标志,通常位于右上角,用于标识特定频道。另一个例子是画中画功能,可以在主屏幕的一个角落显示一个小窗口。
-
IBM 的 MCP Gateway:基于 FastAPI 的统一模型上下文协议网关,适用于下一代 AI 工具链
高级 AI 系统的开发和部署越来越依赖于灵活、强大的编排层,这些编排层能够连接各种模型、工具和资源。IBM 的 MCP Gateway 满足了这一需求,它为模型上下文协议 (MCP…