技术文章
-
聊聊做 NeRF-3D重建性能优化经历
本文作者尘漠加入大淘宝到现在也有5年了,一路走来很开心,他认为在这里可以让他静心做技术研究。以下是尘漠的自述—— 在淘宝前三年,我主要偏向研究 2d计算机视觉算法,相比于研究GAN…
-
优化WebRTC回声消除过程:舒适噪声生成算法的应用与原理
在回声消除中,舒适噪声生成(Comfort Noise Generator,CNG)算法是一种常用的技术,它被用来减轻回声消除过程中产生的不适感和声音失真。舒适噪声生成算法通过添加…
-
利用 eKuiper 与 EMQX 实现车联网 CAN Bus 数据实时流处理
在之前的文章中,我们对车联网 CAN Bus 协议进行了详细解读,同时介绍了目前 CAN Bus 数据在实时采集与处理中面临的挑战。我们也针对这些挑战提出了一个可行的方案:利用开源…
-
对话钉钉音视频专家冯津伟:大模型不是万能的
在音视频技术领域,ICASSP 大会是行业的风向标会议,也是语音学界从业者研究下一代技术发展的盛宴。近期,国内外各大企业陆陆续续放出论文入顶会的消息,钉钉蜂鸣鸟音频实验室 2 篇论…
-
WebRTC 和 AI:创新和影响的交集
向我们这一代人的前瞻性思维打招呼! 我是WebRTC先生,这是我在实时音视频通信和游戏流方面的历程的证明。作为一名经验丰富的WebRTC工程师和人工智能研究科学家,我亲身经历了这两…
-
如何用WebRTC和Socket.IO实现共享屏幕?
我们可以在几乎所有的会议应用程序中找到共享屏幕。这些应用程序可以是本机应用程序,也可以只是Web应用程序。有了屏幕共享权限,你的Web应用可以捕捉你的浏览器标签或整个屏幕。而且,你…
-
在 JavaScript 中捕捉摄像头/麦克风
在浏览器中直接捕捉摄像头和麦克风的能力已经彻底改变了Web开发,实现了沉浸式的用户体验和广泛的应用,从摄像头会议到增强现实。利用 getUserMedia API,你可以访问用户的…
-
音频格式–MP3格式介绍
发展背景MP3 技术的起源在 Hans Musmann 教授的一篇论文中进行了全面描述。在 80 年代末和 1990 年代初由德国弗劳恩霍夫协会的一组工程师在 Karlheinz …
-
WebTransport:实时通信的未来,弥合 WebRTC 之外的鸿沟
你听说过WebTransport吗?这是一个全新的网络标准,将彻底改变数据在客户端和服务器之间的传输方式。让我用简单的语言为你分析一下。 WebTransport 是一个新协议,在…
-
如何使用React和NestJS录制高质量的现场音频(高达48KHz,立体声)?
在许多 Web 应用中,我们可能需要为许多目的录制音频,如语音转文字、记录对话、实时音频/视频会议、语音消息、语言学习和发音练习,以及用户反馈和客户支持。 使用 MediaReco…
-
什么是往返时间以及它与网络延迟的关系?
往返时间是一个重要的指标,可以表明两个端点之间可用的通信质量。这是我们团队经常与客户讨论的一个指标,因为它直接关系到用户体验到的服务质量。往返时间可以受到一系列设计决策的影响,特别…
-
什么是通讯API?如何选择通讯API
在快速发展的商业环境中,有效的沟通是成功的核心所在。然而,传统的通讯方法不足以满足不断发展的企业需求。今天,企业需要不间断地访问视频会议、即时通讯功能、双向短信和其他通信功能。这就…
-
深度学习在声源定位中的应用
什么是声源定位(Sound Source Localization,SSL)技术?声源定位(SSL)是基于记录的多通道传声器信号来估计一个或多个声源相对于某个任意参考点的位置的问题…
-
Unity AI生成VR全景工具迎来重大更新,草图+文本控制模式上线
文本生成 360° 全景图的工具又发布了重磅更新。重磅更新是什么呢?原来我们只能通过文本控制生成,只能控制生成的内容,但没办法控制生成的结构。 比如我想在某个位置有扇门,某个位置有…
-
淘宝拍照基于端云协同的视频流实时搜索实践
本文介绍了实时视频流的主体识别场景,未来实时搜将会融合图搜主链路并在XR场景发力,未来的场景我们取名为“元视界”(MetaSight)。 作者:绍楠、素流来源:大淘宝技术 引言 很…
-
使用HLS(HTTP直播流媒体协议)进行视频传输时要避免的 7 个错误
在过去的几年里,流媒体视频已经成为一个主要的娱乐来源,它已经成为全世界互联网使用的主要消费者。随着全世界有这么多人收看他们喜爱的电影和电视节目,流媒体和内容提供商应该知道如何避免在…
-
Meeting Application Deadlines with DTP | ICNP 2022
许多应用程序对数据传递有截止时间要求,例如实时视频、多人游戏和云端增强现实/虚拟现实。然而,当前的传输层API过于原始,无法满足这些要求。因此,如今的应用程序被迫构建定制和复杂的截…
-
视频传输协议有哪些: RTMP、SRT、HLS、MPEG-DASH 和 CMAF的优缺点
从 RTMP 到 SRT、HLS、MPEG-DASH 和 CMAF,当前可用的视频传输协议列表非常广泛且令人困惑。作为我们的视频编码基础系列的一部分,我们试图揭开视频编码的一些基础…
-
视觉说明:通过实时视觉画面增强语言交流
在日常生活的对话中,人们会提及他人不熟悉的主题内容。在Zoom等在线会议中,即时的字幕可以帮助人们理解他人所说的话语。在这些场景下,该工作提出使用视觉图像进行辅助传达信息。具体来说…
-
linux下离线安装FFmpeg,配套组件 yasm
FFmpeg是处理音频、视频、字幕和相关元数据等多媒体内容的库和工具的集合。这里记录linux下离线安装的过程。 ffmpeg下载地址: http://www.ffmpeg.org…