技术文章
-
Android 和 iOS 如何关闭 WebRTC PeerConnections
WebRTC 是一项令人着迷的技术,为网络带来了实时通信功能。虽然 WebRTC 相对易于使用,但它有许多复杂之处,如果不正确理解,可能会导致问题。其中一个问题是关闭 PeerCo…
-
One-2-3-45:从单张图像生成3D形状
简介:本方法以任意物体的单幅图像作为输入,在单次前传中生成完整的三维网格和纹理。给定一张单幅图像,本工作首先使用一个基于视角为条件的2D扩散模型(Zero123)为输入视角生成多视…
-
KITE:一种用于语义操作的人工智能框架,使用关键点作为视觉基础和精确动作推理的表示
随着人工智能领域的不断进步,人工智能技术开始与机器人技术相结合。从计算机视觉和自然语言处理到边缘计算,人工智能正在与机器人技术相集成,以开发有意义且有效的解决方案。人工智能机器人是…
-
Ubuntu22.04 编译 x86 FFmpeg 6.0
本文介绍在 Ubuntu22.04 下编译 x86 版本的 FFmpeg 6.0。 Setp1 建立目录 在希望存放项目的目录下创建三个文件夹,分别是: 可以直接在GNOME桌面中…
-
FFmpeg实时推流&MQTT实时控制推流启动关闭
FFmpeg 是一个开源的自由软件,它包含了音频和视频多种格式的录制、转换、流媒体功能,同时也是一个音频与视频格式转换库(Library),许多开源的工具都是基于 FFmpeg 构…
-
音频文件格式–MP3 代码走读
上一篇《音频格式–MP3格式介绍》我们大概了解了MP3的发展历程,文件结构和关键点等内容,本文我们在FFMPEG中进行代码走读,更加全面和深入的学习和掌握MP3。 FFPlay&n…
-
Shader 编程基本图形:圆和曲线
由于主流的 Shader 编程网站,如 ShaderToy, gl-transitions 都是基于 GLSL 开发 Shader ,加上 MSL 和 GLSL 语法上差别不大,后…
-
基于交互式注意力的语音情感识别联合网络 | IEEE ICME 2023论文
研究背景:语音情感识别(Speech Emotion Recognition,SER)指通过让机器检测和识别人类语音信号中如喜悦、愤怒、悲伤、惊讶、恐惧等多种情感类别。为了适用于如…
-
用户跟踪及人车互联功能加入车载音频系统 | 苹果专利
近日,美国专利商标局公布了苹果公司与Project Titan相关的专利申请,该申请专注于将用户跟踪头枕音频控件和扬声器集成到未来的汽车座椅中。 苹果在其专利背景中指出,声学设备(…
-
将体视频表示为动态 MLP maps | CVPR 2023
体视频以3D形式捕捉动态场景,用户可以从任意角度观看,并获得丰富的体验。它是下一代媒体的基石,具有许多重要应用。与2D视频一样,体积视频应该能够进行高质量的实时渲染,并进行压缩以实…
-
低延迟流媒体协议 LL-HLS、LL-DASH、LL-CMAF和WebRTC 的优势及功能
在直播领域,延迟(直播事件发生到在屏幕上观看之间的时间延迟)是影响观众体验的重要因素。较低的延迟通常会带来更好的用户体验,特别是对于体育直播、在线游戏或互动直播活动等互动内容。本文…
-
什么是NAT?NAT的工作原理和各种类型
在广阔的网络领域,网络地址转换(NAT)在实现跨网络无缝数据流方面发挥着至关重要的作用。它是一个基本概念,允许专用网络中的多个设备共享一个公共IP地址。NAT已成为现代网络的重要组…
-
HLS协议是什么意思?HLS协议深度分析
HLS是什么意思? HLS(HTTP Live Streaming)是一种直播流协议,它利用当前广泛使用的 HTTP 技术为广大观众提供实时视频+音频体验。 它最初由 Apple …
-
如何在Expo React Native应用程序上部署WebRTC
如果你是一个React Native开发者,你很可能听说过Expo。事实上,我敢说你肯定听说过Expo。Expo CLI极大地简化了原生应用的构建、测试和发布,Expo CLI已经…
-
视频编码与视频转码有什么区别?
在当今的数字时代,视频已成为我们在线参与的一个重要方面,占据了社交媒体和流媒体平台。然而,视频的创建和分发需要技术程序,特别是视频编码和转码。 尽管视频编码和转码看似相似,但它们在…
-
ACL 2023 | 持续进化中的语言基础模型
尽管如今的 AI 模型已经具备了理解自然语言的能力,但科研人员并没有停止对模型的不断改善和理论探索。自然语言处理(NLP)领域的技术始终在快速变化和发展当中,酝酿着新的潮流和突破。…
-
百度iOS端长连接组件建设及应用实践
在过去的十年里,移动端技术飞速发展,移动应用逐渐成为主要的便捷访问和使用互联网的方式,承接了越来越多的业务和功能,这也意味着对移动端和服务器之间的通信效率和稳定性提出了更高的要求。…
-
使用基于 CNN 的定位器进行对象定位
对象定位是指精确识别和定位图像中感兴趣的对象的任务。它在计算机视觉应用中发挥着至关重要的作用,可实现对象检测、跟踪和分割等任务。在基于 CNN 的定位器中,对象定位涉及训练卷积神经…
-
虚拟语聊房Demo及示例源码运行指引
虚拟语聊房是元宇宙场景里一种新颖的语聊玩法,通过虚拟形象代替真人出镜,进行互动连麦语聊。在延续真人神秘感的同时,增加麦上用户之间的互动性,支持表情随动、声音驱动等多种 AI 驱动模…
-
视频会议应用中的人工智能集成架构
随着机器学习(ML)技术的最新改进,特别是生成算法和大型语言模型的改进,越来越多的会议应用正在将这些功能添加到其产品中。 这种ML技术可在两个不同层面应用于会议应用:基础设施层面,…