技术文章
-
iOS WebRTC 视频聊天 — 可靠连接示例
WebRTC 是通过网络进行实时通信的事实上的标准库。它支持声音、视频和通用数据流。它是开源的,所有主要平台都支持。 尽管在互联网上看到过许多优秀的 iOS 示例,但它们要么非常过…
-
腾讯视频「智臻」系列 – AI终端实时超分正式上线
导语:7月3日,腾讯视频发布画质增强功能,为提升腾讯视频基础画质,改善用户消费体验,腾讯视频联合多媒体实验室、微信打造了移动端终端实时超分方案,对480P基础档位提供实时画质增强能…
-
代码只有千行左右的JPEG编码器
时至今日,我想JPEG(1992)应该是有损压缩图片编码格式里最最简单的一个吧。 有多简单呢,如果用代码量来看的话,网上开源的TinyJPEG项目,即使算上代码注释,总共也只有12…
-
从抓娃娃机到成熟物联网架构的演化
1 背景 早期 X 团队在物联网做了众多探索,娃娃机是第一个项目,作为隐藏福利陪伴晚归米粒。企微打通身份识别,网络层 WebSocket 作为长连接控制机器的开局,这个是物联网技术…
-
音视频学习–DTMF代码走读
上一篇介绍了DTMF的基本原理,本文以WebRTC中代码进行代码层面的解读,以便能够更好地理解DTMF。 Demo 基本框图如下: 代码走读 Webrtc作为一个开源工具,已经提供…
-
OpenGL ES Shader 怎样绘制一颗“心”
今天讲一下绘制心形的两种方式,主要是为了扩展一下绘制复杂形状的思路,为后面讲特效做一些简单的铺垫。 心形绘制可以参考 ShaderToy 上的代码:https://www.shad…
-
浅谈混响及一些去混响方法
混响问题描述 在封闭的空间中,当声源产生的声音经过反射物(墙壁、地面和室内装饰物等)多次反射叠加后会形成混响,如图1所示。在均匀介质声场中,声源到传声器的直达声传播时间最短,人们将…
-
探索 Spring Boot WebSocket 实时通信的强大功能
在不断发展的网络开发领域,提供实时通信和交互已不再是一种奢望,而是一种必需。无论是更新实时数据、启用即时消息还是促进协作功能,在客户端和服务器之间建立无缝实时连接的能力已变得至关重…
-
基于动作敏感性学习的时序动作定位 | ICCV2023
淘天集团-内容理解算法团队与浙江大学杨易教授团队合作的关于视频时序定位的论文被ICCV2023录取。 本文在业界首次将视频帧级别的细粒度信息引入至时序动作定位领域(Temporal…
-
IDeudemon:基于神经辐射场和生成性先验的人脸图像身份隐私保护 | ICCV 2023
该工作由上海交通大学宋利教授带领的Medialab实验室与悉尼科技大学合作产出,并于近期被ICCV 2023所接收。该工作实现了对人脸图像的身份隐私保护,旨在隐藏面部的真实身份,同…
-
基于图像分割及修复的数据生成
随着硬件及技术的发展,深度学习技术得到广泛的研究及应用,而数据作为驱动深度学习发展的重要输入,变得越来越重要。但是针对一些特殊场景,存在数据少、隐私风险等问题。针对上述问题,结合任…
-
构建混合 WebRTC 体验: 将在线互动和人机互动的优点结合起来
WebRTC 是一种赋予现代网络应用程序实时通信能力的技术。它有助于视频、音频和数据的加密、无缝通信。其用途包括视频会议、工作场所协作工具、广播等。 远程通信的威力在于它能够促进地…
-
物联网通信技术之LORA简介
物联网有很多种方式将各种物联网传感器数据进行回传,以及对一些联网设备进行控制。我们在日常项目中应用的比较多的有通过网线传输,通过WIFI传输,也有通过4G/5G进行物联网数据传输与…
-
医学图像的诊断无损压缩 | ICML 2023
医学图像(例如 X 射线)通常以高分辨率和大尺寸采集,以便捕捉更清晰的细节。本文工作实现了医学图像的压缩,同时保留了诊断所需的细粒度特征,这种特性被称为诊断无损。为此,使用超过一百…
-
腾讯云V265/TXAV1直播场景下的编码优化和应用
编者按:随着视频直播不断向着超高清、低延时、高码率的方向发展, Apple Vision的出现又进一步拓展了对3D, 8K 120FPS的视频编码需求,视频的编码优化也变得越来越具…
-
FFmpeg6.0调用MediaCodec解码
在前面的博文中我们介绍了关于使用NDK编译FFMpeg6.0的一些坑以及相关的解决方法。 详情请参考:NDK编译ffmpeg6.0与x264的坑 在写《NDK编译ffmpeg6.0…
-
近实时智能应答 2D 数字人搭建
早在大语言模型如 GPT-3.5 等的兴起和被日渐广泛地采用之前,教育行业已经在 AI 辅助教学领域有过各种各样的尝试。在教育行业,人工智能技术的采用帮助教育行业更好地实现教学目标…
-
一个简单的说话人日志系统
最近一段时间做了点和说话人日志(speaker diarization)相关的工作,所以在这里对说话人日志做一个简单的整理。说话人日志也叫说话人分离,是从一个连续的多人说话的语音中…
-
ICE-Pick: 用于DNN的高效迭代剪枝 | ICML 2023
剪枝是深度神经网络 (DNN) 的主要压缩方法之一,从 DNN 模型中删除不太相关的参数以减少其内存占用。为了获得更好的最终精度,通常迭代地执行剪枝,在每一步中删除越来越多的参数,…
-
基于神经网络的生成式三维数字人研究综述:表示、渲染与学习 | 晏轶超,翟广涛,杨小康等
研究意义 虚拟数字人即运用数字技术创造的、拥有数字化表现形式的虚拟人物,大规模生产高质量虚拟数字人化身,既是人类进入“元宇宙”等虚拟世界的基础,也是人类进一步探索更广阔的数字空间的…