技术文章

WebRTC

WebRTC 音频设备模块 ADM

我真正接触 WebRTC 的 ADM 是在做 iOS 混音的时候，iOS 的音频采集、播放之前没有做过，所以想着从 WebRTC 的音频采集播放代码里借鉴一下 AudioUnit …

webrtc学习和实践
2023年5月24日
技术文章

在线 KTV 实时打分功能，音高线提取精确率高达 99%

当我们对音乐的体验不再止步于单纯的演唱与倾听，对音乐演唱及互动反馈有了更多的需求时， KTV 打分功能便应运而生。传统的线下 KTV，通常会用在 KTV 打分系统中预先存储好每首…

ZEGO即构科技
2023年5月24日
技术文章

MetaAI发布语音识别错误率是OpenAI的Whisper模型的一半且支持1107种语言的语音模型：MMS

今天，Meta的首席AI科学家Yann LeCun在推特上宣布了MetaAI的最新研究成果：MMS，一个支持1107种语言的自动语音识别模型和语音合成模型，该模型自动语音识别的单词…

追风者
2023年5月24日
技术文章

人脑启示录：AGI能力演进与未来发展趋势

2023年4月28日，中共中央政治局会议提出，要重视通用人工智能发展，营造创新生态，重视防范风险。通用人工智能（AGI）终极目标是到达人类的智能水平，具备理解、学习、推理和创新的能…

假装是大佬
2023年5月24日
实时音视频

嵌入式音视频开发面试过程遇到的问题！

今天继续给大家分享音视频面试过程会被常问到的一些问题！面试的具体题目 1、说一下播放器的设计过程这里的话主要分以下几步完成：开启一个线程进行解封装操作 , 这包括：读取音频、…

RTC观主
2023年5月24日
实时音视频

实时互动下视频 QoE 端到端轻量化网络建模

在实时视频互动中，影响观众对视频体验的有较多且复杂的因素，包括：画质、流畅度以及与其耦合的观看设备等。传统客观算法会利用网络传输或编解码参数拟合接收端人的感知体验，或者使用图像质量…

大厂Animal
2023年5月24日
实时音视频

uniapp音视频通话SDK接入指南(uniapp音视频开发系列2)

本文分享即构uniapp音视频SDK接入指南。即构 uni-app SDK 是一个基于 ZegoExpressEngine 原生 Android 及 iOS SDK 的 uni-a…

ZEGO即构科技
2023年5月23日
技术文章

探索标清流媒体直播：标清流媒体的优点和缺点

SD Live Streaming代表标清直播，既有优点也有缺点。从积极的方面来看，标清流媒体与各种设备兼容，可以为广大观众所用。它需要更少的带宽，导致更快的加载时间和更少的缓冲。…

直播技术
2023年5月23日
WebRTC

在Chrome、Firefox、Edge和其他iOS上的WebRTC

从iOS 14.3开始，现在可以使用Chrome或替代Safari的WebRTC兼容浏览器，与iPad或iPhone进行音频和视频通话。这是一个伟大的改进，将帮助我们在移动设备上构…

webrtc学习和实践
2023年5月23日
实时音视频

如何实现音视频录制和RTMP直播推拉流

音视频录制 1、录音通过条件编译识别pc或者mac: 根据short_name寻找自己的采集图像设备，short_name可以是硬件名称或编码格式h264、aac等。以下是简单的…

RTC观主
2023年5月23日
技术文章

视频流媒体中如何个性化和负责任的使用数据

个性化是一个成功的流媒体视频服务的基石之一。它提供了显著的用户利益，提高了观众在每个接触点的体验。但是，有效的个性化可能需要大量的数据，只有通过访问和分析关于观众及其使用习惯的大量…

视频技术
2023年5月23日
即时通讯

IM专题：模型分析（3）—读写扩散模型

读写扩散模型，即读扩散和写扩散模型；读扩散，也叫拉取模型，描述对数据进行读取操作时，有更多的读取动作；写扩散，也叫推送模型，描述对数据进行写入操作时，有更多的写入动作。 IM …

IM开发老王
2023年5月23日
技术文章

OpenGL 转场特效都是怎么实现的

前言转场效果在视频编辑工具中最为常见，在两段视频或图像之间增加一个「过渡」的效果，可以让整个过程更佳柔滑自然。常见的转场如渐变过渡、旋转、擦除等（下图为 iMovie 自带转场）…

字节流动
2023年5月23日
技术文章

音视频编解码–多媒体格式系列开篇

前面一个系列，我们介绍了图像的编解码和文件格式，在接下来的系列中，我们将会涵盖多种音视频文件和编码格式，包括但不限于MP4、AVI、MKV、H.264、AAC、MP3等。通过深入了…

编解码
2023年5月23日
技术文章

SRS的vhost概述及示例

vhost概述 Vhost(Virtual Host)就是虚拟域，用来隔离客户或业务。 Vhost的主要应用场景包括：总结：vhost作为应用配置的单元，能隔离客户，应用不同的配…

RTC观主
2023年5月23日
技术文章

媒体传输协议的演进与未来

音视频应用近年来呈现出迅猛的发展趋势，成为互联网流量的主要载体，其玩法丰富，形态多样，众多繁杂的媒体传输协议也应运而生。LiveVideoStackCon 2022北京站邀请到快手…

大厂Animal
2023年5月23日
技术文章

移动边缘云计算网络中基于推荐的边缘缓存的联邦深度强化学习丨论文分享

1 研究背景目前，大量终端设备接入互联网以在无线网络中实现各种服务和应用（如内容访问、虚拟导航/管理和环境监测），这不可避免地导致严重的骨干网络拥塞，并降低用户的服务质量。为了…

RTE基础设施
2023年5月23日
技术文章

使用 C++ 和 GStreamer 将 RTMP 推流到本地

之前文章《使用GStreamer将网络摄像头数据传输到RTMP服务器》展示了如何将本地网络摄像头流式传输到 RTMP 服务器，这次我将向您展示如何使用 C++ 和 GStreame…

RTC观主
2023年5月22日
技术文章

InstructPix2Pix: 用于图像编辑的动态扩散模型 | CVPR 2023

这篇论文提出了一种协作扩散模型，无需重新训练已有的单模态扩散模型便可实现多模态的人脸合成与编辑。具体而言，作者提出了动态扩散器，这个扩散器通过预测每个预训练的单模态模型的空间-时间…

图像处理
2023年5月22日
技术文章

微软推出 Hierarchical Transformer 实现更高准确率的语音评测

对于语言学习者来说，练习发音并获得及时准确的反馈，是提高口语水平的重要环节。多年来，微软一直深耕基于 Azure 认知服务的语音功能，不断优化语音评测[1]功能的底层技术，从准确率…

音频技术
2023年5月22日