技术文章
-
XSwitch通信百科之TGML铃音生成
TGML(Tone Generation Markup Language)用于在 XSwitch 内生成各种铃音。TGML 可以直接在 XSwitch 界面上设置,如: TGML …
-
SIP 常用开源库 SIPp、PJSIP 和 Belle-sip 简介
SIP是什么 SIP(会话发起协议)属于IP应用层协议,用于在IP网上为用户提供会话应用。会话(Session)指两方或多方用户之间的语音、视频、及其他媒体形式的通信,具体可能是I…
-
通过asterisk实现小区物业报警语音通知
使用Asterisk实现小区物业的语音报警通知系统可以提高小区安全管理的效率和效果。这样的系统可以在紧急情况(如火灾、入侵等)下自动向物业管理人员、安全人员或居民发送预录制的语音消…
-
多模态说话人开源项目3D-Speaker
3D-Speaker是通义实验室语音团队贡献的一个结合了声学、语义、视觉三维模态信息来解决说话人任务的开源项目。本项目涵盖说话人日志,说话人识别和语种识别任务,开源了多个任务的工业…
-
WebRTC 录制挑战和解决方案
您的应用程序需要 WebRTC 录制功能吗?了解实施 WebRTC 时的各种要求和架构决策。 作者:Tsahi Levent-Levi译自:https://bloggeek.me/…
-
面向 “双碳” 目标的未来绿色移动通信技术 | 西电李建东, 张夏雨, 刘俊宇等
研究意义 为应对日益严峻的气候问题并迎接全球范围内的第三次能源革命, 我国作为世界上最大的发展中国家, 率先面向提出 “碳达峰” 和 “碳中和” 的 “双碳” 目标。在移动通信网络…
-
ELECARD 视频压缩手册第五章:HEVC中的后处理
本文是对 ELECARD Video Compression Book 第五章的翻译,本章节主要介绍如何对解码图像实施后处理,以减少HEVC中量化效应的影响。 标题:Post-pr…
-
FFmpeg前端视频合成实践
视频合成能力的开发背景 想要开发一个具有视频合成功能的应用,从原理层面和应用层面都有一定的复杂度。原理上,视频合成需要应用使用各种算法对音视频数据进行编解码,并处理各类不同音视频格…
-
一次直播和图像识别技术应用的探索之旅
背景 Think Better。 很多行业都在“卷”,作为金融科技行业的信也,也不例外。除了卷云计算、大数据和人工智能这些非常有深度的技术以外,信也向着技术融合创新的方向逐步探索,…
-
如何为visionOS准备和提供视频内容 | WWDC2023
本文将介绍使用 HLS(HTTP Live Streaming) 为 visionOS 准备和交付视频内容的方法。我们将深入了解 HLS 媒体交付流程,并探索如何扩展交付管道以支持…
-
如何开发类似 WhatsApp 的聊天应用程序
即时通讯应用程序已成为我们日常生活中的主要工具。WhatsApp 就是这样一款广受欢迎的应用程序,它拥有友好的用户界面、丰富的功能和实时通信特性。创建像 WhatsApp 这样的聊…
-
如何使用FFmpeg实现无人直播带货
什么是无人直播? 无人直播是指提前录制好直播内容,然后在直播过程中循环播放这些录制好的视频,以达到24小时不间断直播的效果。这种方式可以节省人力和物力成本,实现低成本引流、卖货以及…
-
2024 年 Web 开发十大前端框架
在快节奏的 Web 开发世界中,掌握最新的前端框架对于创建稳健高效的 Web 应用程序至关重要。前端框架在实现这一目标的过程中发挥着举足轻重的作用,它为开发人员提供了创建响应式、交…
-
ELECARD 视频压缩手册第四章:HEVC中的运动补偿
本文是对 ELECARD Video Compression Book 第四章的翻译。本章节介绍了HEVC 中的运动矢量预测算法:参考图像信息和运动矢量预测。 题目:Motion …
-
从视频编解码角度看Sora视频
要问2024年什么技术话题最火爆,那必须是OpenAI的Sora莫属了。虽然Sora还尚未公布对公众何时开放使用,但似乎并妨碍大家的讨论热情。 Sora的厉害之处在于它可以根据用户…
-
ELECARD 视频压缩手册第三章:HEVC中的空间(帧内)预测
本文是对 ELECARD Video Compression Book 第三章的翻译。本章节的内容包括消除视频图像中的时间或空间冗余的可能方法、HEVC中图像处理的逐块基础、空间预…
-
打开 Camera app 出图,前几帧图像偏暗、偏色该怎样去避免?
1、问题背景 使用的安卓平台,客户的应用是要尽可能快的获取到1帧图像效果正常的图片。 但当打开 camera 启动出流后,前3-5帧图像是偏暗、偏色的,如下图所示,是抓取出流的前2…
-
面向多种阵列拓扑的多通道语音识别模型:自动通道选择和空间特征融合 | ICASSP2024
多通道语音识别(Multi-channel ASR)的目标是识别由多个麦克风(如麦克风阵列)拾取的多通道音频,相较于标准的单通道语音识别,多通道语音识别通过有效利用多通道信号提供的…
-
OpenCV分享:计算机视觉研究不同阶段,如何发表研究成果
在之前的博文中,OpenCV分享了包括朴素起源,背后机制,任务,以及领先品牌如何利用其潜力来推动其业务向前发展等的计算机视觉基础知识,以及成为计算机视觉工程师的指南。 在新一篇博文…
-
UDP 与 RTP 实现高效的音视频通信
协议确定了双方通信的规则和流程。在互联网的协议集中,有一种无连接的传输协议,被称为用户数据报协议(UDP,User Datagram Protocol)。 UDP 为应用程序提供了…