技术文章
-
使用 FFmpeg 从图片生成 WebM/MP4/MKV 视频
在多媒体处理过程中,经常需要将一组图片转换成连贯的视频。这对于制作幻灯片、延时视频或简单地将一系列图像合并成一个视频文件都很有用。功能强大的多媒体框架 FFmpeg 提供了方便的命…
-
通过Freeswitch实现语音智能家居开关控制
通过FreeSWITCH实现智能家居开关控制,可以让你通过电话系统来远程操控家中的智能设备,比如灯光、空调等。这种集成通常涉及到FreeSWITCH与智能家居设备或控制系统的API…
-
FFmpeg OpenCL加速
最近有人给FFmpeg提了个patch,目的是在苹果设备上同时使用VideoToolbox和OpenCL。我这才发现,还真的有人在macOS上用OpenCL。 OpenCL是在异构…
-
音视频面试题集锦第 17 期:iOS CVPixelBufferRef 及音视频同步
分享来自“关键帧的音视频开发圈”的音视频面试题集锦,下面是第 17 期面试题精选: 1、聊聊 iOS CVPixelBufferRef 相关的细节? CVPixelBufferRe…
-
用于实现真实世界时间一致性视频超分的运动引导潜在扩散模型
最近,扩散模型在为图像增强任务中生成逼真细节方面表现出了令人信服的性能。然而,由于扩散过程具有随机性,因此很难控制还原图像的内容。将扩散模型应用于 VSR(Video Super-…
-
FreeSWITCH 视频呼叫设置
FreeSWITCH是一个开源的通信平台,支持多种通信协议,包括SIP,它可以用于构建包括视频呼叫在内的复杂的通信系统。以下是使用FreeSWITCH实现视频呼叫的基本步骤: 1….
-
Mozilla:在所有浏览器中实现端到端加密 WebRTC!
2024 年 2 月 21 日,Mozilla终于更新了博客,由 Jan-Ivar Bruaroey 发布了主题《End-to-end-encrypt WebRTC in all …
-
即构多场景快速转场解决方案,1v1 场景可达到平均 95 % 的 APP 内接通率
在之前的文章中我们有分享过,即构将 1 对 1 场景的用户路径拆解为 4 个环节:用户匹配——主播接单——房内互动——成交结算。这些环节之间的每一步流转都会无法避免的产生订单折损,…
-
WHIP(WebRTC-HTTP ingestion protocol)协议草案更新发布
WHIP(WebRTC-HTTP ingestion protocol)是一种用于简化WebRTC媒体流输入到流媒体服务器或其他接收端点的协议。WHIP的目标是提供一种轻量级、易于…
-
音视频书籍推荐:《RTC 程序设计 · 实时音视频权威指南》
2024年最新音视频书籍推荐:《RTC 程序设计 · 实时音视频权威指南》。本书作者戴维是字节的一位大佬,多年的音视频开发经验凝集在此,阅读此书可助你快速掌握实时音视频端到端知识全…
-
如何在 Android 中实现聊天功能
移动聊天应用程序是创建数字环境的一种有效方式,在这种环境中,世界各地的人们和设备可以轻松协作、社交、获得新体验并实时交换信息。全球最流行的操作系统是Android,它是一个开源移动…
-
5G TSN融合发展和应用方案探索
摘要:为了达到5G使能工业网络的目的,3GPP对低时延、高可靠场景进行了全面增强,在标准上深度讨论和制定了支持TSN的确定性业务的方案。5G TSN打造全面互通灵活接入的确定性工业…
-
ELECARD 视频压缩手册第六~七章: 上下文自适应二进制算术编码
本文是上下文自适应二进制算术编码的内容,主要包括算术编码器基础、二进制算术编码器介绍及算术编码过程的流程图。 标题:Context-adaptive binary arithmet…
-
NAT, STUN, TURN 和 ICE
在构建 p2p 应用程序的联网过程中,您可能听说过 NAT、STUN、TURN 和 ICE。那么这些到底是什么呢?让我们通过一个类比来了解一下。 先从定义开始: NAT:网络地址转…
-
XSwitch通信百科之TGML铃音生成
TGML(Tone Generation Markup Language)用于在 XSwitch 内生成各种铃音。TGML 可以直接在 XSwitch 界面上设置,如: TGML …
-
SIP 常用开源库 SIPp、PJSIP 和 Belle-sip 简介
SIP是什么 SIP(会话发起协议)属于IP应用层协议,用于在IP网上为用户提供会话应用。会话(Session)指两方或多方用户之间的语音、视频、及其他媒体形式的通信,具体可能是I…
-
通过asterisk实现小区物业报警语音通知
使用Asterisk实现小区物业的语音报警通知系统可以提高小区安全管理的效率和效果。这样的系统可以在紧急情况(如火灾、入侵等)下自动向物业管理人员、安全人员或居民发送预录制的语音消…
-
多模态说话人开源项目3D-Speaker
3D-Speaker是通义实验室语音团队贡献的一个结合了声学、语义、视觉三维模态信息来解决说话人任务的开源项目。本项目涵盖说话人日志,说话人识别和语种识别任务,开源了多个任务的工业…
-
WebRTC 录制挑战和解决方案
您的应用程序需要 WebRTC 录制功能吗?了解实施 WebRTC 时的各种要求和架构决策。 作者:Tsahi Levent-Levi译自:https://bloggeek.me/…
-
面向 “双碳” 目标的未来绿色移动通信技术 | 西电李建东, 张夏雨, 刘俊宇等
研究意义 为应对日益严峻的气候问题并迎接全球范围内的第三次能源革命, 我国作为世界上最大的发展中国家, 率先面向提出 “碳达峰” 和 “碳中和” 的 “双碳” 目标。在移动通信网络…