技术文章
-
微软发布 VoiceRAG:使用 GPT-4 和 Azure AI 搜索的高级语音界面,用于实时对话应用程序
微软推出了VoiceRAG,这是一款基于语音的检索增强生成 (RAG) 系统,它利用新的 Azure OpenAI GPT-4O-realtime-preview 模型将音频输入和…
-
VCISR:在盲图像超分中考虑视频压缩带来的伪影 | WACV 2024
在盲单图像超分辨率 (SISR) 任务中,现有工作已成功恢复图像级未知退化。然而,当单个视频帧成为输入时,这些工作通常无法解决由视频压缩引起的退化,例如蚊式噪声、振铃、块状和阶梯噪…
-
Ovis 1.6:一种开源多模态大型语言模型 (MLLM) 架构,旨在结构化地对齐视觉和文本嵌入
人工智能 (AI) 正在迅速变革,尤其是在多模态学习方面。多模态模型旨在结合视觉和文本信息,使机器能够理解和生成需要来自两个来源的输入的内容。此功能对于图像字幕、视觉问答和内容创建…
-
ICIP 2024 | 一种新的多人人物交互数据集与NVS基准
IEEE ICIP 是历史悠久的图像处理技术盛会。本工作是上海交通大学图像所 MediaLab 在 ICIP 2024的技术成果介绍。近期,在人物交互场景研究中,新视角合成(NVS…
-
分布式在线多步Frank-Wolfe凸优化的动态遗憾增强 | 张文韬,施阳,张保勇等
针对多智能体分布式在线约束优化问题,本文在时变多智能体网络上,通过结合一种多步迭代技术,提出一种分布式在线多步迭代Frank-Wolfe算法。
-
AI 如何解决“鸡尾酒会问题”及其对未来音频技术的影响
本文我们将探讨 AI 在解决鸡尾酒会问题方面的进展,以及它为未来音频技术带来的潜力。
-
使用 fluent-ffmpeg 在 Node.js 中从视频生成缩略图
从视频创建缩略图是展示内容预览的好方法。在本文中,我将介绍如何使用 Node.js 和 fluent-ffmpeg 从视频文件生成缩略图。 开始之前,请确保您的系统已安装 Node…
-
探索 Pydub 库:Python 中音频处理的综合指南
从媒体处理到数据分析,音频处理是许多应用程序的一个重要方面。Python 中的 Pydub 库为音频处理提供了一个易于使用的界面,让您可以高效地处理音频文件。在本文中,我们将结合实…
-
互动白板 Demo,多人实时白板互动的示例源码
本 Demo 是 ZEGO 提供的完整多人实时白板互动的示例,包括:白板涂鸦、实时轨迹同步、文档共享、文件转码等功能。 本示例源码仅用于演示 ZEGO 超级白板产品功能。以Andr…
-
五个和SIP安全相关的头字段,IMS/3GPP安全验证Sec-Agree头字段说明
很多用户经常看到SIP验证401,407消息,不知道为什么会产生不同的消息。在应用环境中,SIP协议对不同环境提供了安全验证的处理,通过不同的安全头字段来验证安全实体,因此返回的响…
-
使用 Vite、Vue 3 和 Node.js 开发一个简单的聊天室
介绍如何使用 Vite、Vue 3 和 Node.js 开发一个简单的聊天室。 创建项目 设计界面 打开 src 文件夹中的 App.vue 文件,开始设计你想要的样式。 也可以参…
-
研究 | 超越降噪:主动声音控制的基础与未来
主动声音控制(Active Sound Control, ASC)在当今已应用于许多实际噪声控制,包括汽车发动机和道路噪声控制、螺旋桨飞机降噪以及降噪耳机等。尽管该技术的研究和开发…
-
【音视频】面试题集锦第 29 期 | 视频渲染相关各种问题
分享来自音视频技术社群关键帧的音视频开发圈的面试题集锦,下面是第 29 期面试题精选: 1、调试 OpenGL 特效的时候图像不对,有什么调试技巧能快速排查原因? 2、在实现类似 …
-
如何使用加密技术确保 WebRTC 通信安全
WebRTC 被广泛用于基于浏览器的视频通话、语音通话和数据传输。其受欢迎的原因在于低延迟、流畅的音频/视频传输和开源可用性。然而,由于网络威胁不断增加,保护 WebRTC 通信至…
-
Source-Disentangled 神经音频编解码器 (SD-Codec):一种结合音频编码和源分离的新型 AI 方法
神经音频编解码器通过将连续音频信号转换为离散标记,彻底改变了音频的压缩和处理方式。该技术使用在离散标记上训练的生成模型来生成复杂的音频,同时保持音频的出色质量。这些神经编解码器显著…
-
适应广播卫星技术不断发展的格局
国际通信卫星组织副总裁兼媒体总经理 Pascale Fromont 分享了对卫星广播现状、IP 分发的影响以及卫星技术未来的见解。 在瞬息万变的技术环境中,卫星技术仍然是广播行业的…
-
理解 Vulkan 指令缓存
Vulkan 指令缓存 在 Vulkan 中,指令缓存(Command Buffer)是用于记录和存储一系列绘图和计算指令的对象。 这些指令将在 GPU 上执行,可以用于执行不同类…
-
OpenXR与Godot引擎集成,通过开源推动XR开发
本文将深入探讨如何通过 Khronos OpenXR 工作组的支持和开源社区的共同努力,实现 Godot 开源引擎的功能增强。
-
XR通信与系统的物理层信号处理 | 上交大吴泳澎, 北航徐迈等技
XR通信系统的高质量无线视频传输同时要求超高的数据速率、超低的延迟、高QoE、高效的带宽和资源使用,这给无线通信系统带来了新的挑战。物理层信号处理技术是如何解决这些问题?
-
技术怎样支撑和游戏主播一起云玩游戏
0x01 游戏和直播间会碰撞出什么样的火花 游戏直播是玩家通过互联网平台实时分享其游戏过程和技巧的一种媒介。玩家可以通过这种媒介,与观众分享其游戏过程、探讨游戏玩法并可以展开小范围…