技术文章
-
使用 FFMPEG 降低比特率
FFMPEG 实用程序用于修改媒体文件。我们将学习如何降低视频文件的比特率。 使用以下命令: 在我们的例子中,源文件名为 input.mp4,输出文件名为 output.mp4,目…
-
OpenAI 和 LiveKit 合作将高级语音转变为 API
LiveKit 和 OpenAI 正在合作,帮助您使用支持 ChatGPT 新的高级语音功能的相同技术构建自己的应用程序。
-
使用 React 和 Express 以及 Socket.io 和点对点连接创建视频通话应用程序
在本文中,我们将使用 Socket.io 和 Peer-to-Peer 库在 React 和 Express 之间为视频通话应用程序建立连接。 设置后端 1. 安装必要的软件包 2…
-
NVIDIA AI 推出 FACTS:基于 RAG 的企业聊天机器人综合框架
在当今快速发展的环境中,企业聊天机器人正成为提高员工工作效率的重要工具,它能让员工快速获取组织知识。然而,构建有效、可扩展且安全的检索增强生成 (RAG) 系统的过程充满挑战。NV…
-
LOONG:一款基于自回归 LLM 的新型视频生成器,可生成长达一分钟的视频
利用自回归大语言模型(LLM) 生成视频是一个新兴领域,发展前景广阔。虽然 LLM 在自然语言处理中生成连贯且冗长的标记序列方面表现出色,但它们在视频生成中的应用仅限于几秒钟的短视…
-
如何在不降低质量的情况下缩小视频尺寸?
随着互联网的发展,视频流媒体服务越来越受欢迎。通过提供简短、生动的视频概述您的操作,这是推销产品或服务的好方法。但当您导出最终视频时,却发现视频文件太大,无法上传到网站或直播流媒体…
-
音视频面试题集锦第 30 期
分享来自音视频技术社群关键帧的音视频开发圈的第 30 期面试题精选: 1、为什么自制的动态图片导出到相册无法识别成动态图片? Live Photo 需要有一个特殊的 Metadat…
-
微软发布 VoiceRAG:使用 GPT-4 和 Azure AI 搜索的高级语音界面,用于实时对话应用程序
微软推出了VoiceRAG,这是一款基于语音的检索增强生成 (RAG) 系统,它利用新的 Azure OpenAI GPT-4O-realtime-preview 模型将音频输入和…
-
VCISR:在盲图像超分中考虑视频压缩带来的伪影 | WACV 2024
在盲单图像超分辨率 (SISR) 任务中,现有工作已成功恢复图像级未知退化。然而,当单个视频帧成为输入时,这些工作通常无法解决由视频压缩引起的退化,例如蚊式噪声、振铃、块状和阶梯噪…
-
Ovis 1.6:一种开源多模态大型语言模型 (MLLM) 架构,旨在结构化地对齐视觉和文本嵌入
人工智能 (AI) 正在迅速变革,尤其是在多模态学习方面。多模态模型旨在结合视觉和文本信息,使机器能够理解和生成需要来自两个来源的输入的内容。此功能对于图像字幕、视觉问答和内容创建…
-
ICIP 2024 | 一种新的多人人物交互数据集与NVS基准
IEEE ICIP 是历史悠久的图像处理技术盛会。本工作是上海交通大学图像所 MediaLab 在 ICIP 2024的技术成果介绍。近期,在人物交互场景研究中,新视角合成(NVS…
-
分布式在线多步Frank-Wolfe凸优化的动态遗憾增强 | 张文韬,施阳,张保勇等
针对多智能体分布式在线约束优化问题,本文在时变多智能体网络上,通过结合一种多步迭代技术,提出一种分布式在线多步迭代Frank-Wolfe算法。
-
AI 如何解决“鸡尾酒会问题”及其对未来音频技术的影响
本文我们将探讨 AI 在解决鸡尾酒会问题方面的进展,以及它为未来音频技术带来的潜力。
-
使用 fluent-ffmpeg 在 Node.js 中从视频生成缩略图
从视频创建缩略图是展示内容预览的好方法。在本文中,我将介绍如何使用 Node.js 和 fluent-ffmpeg 从视频文件生成缩略图。 开始之前,请确保您的系统已安装 Node…
-
探索 Pydub 库:Python 中音频处理的综合指南
从媒体处理到数据分析,音频处理是许多应用程序的一个重要方面。Python 中的 Pydub 库为音频处理提供了一个易于使用的界面,让您可以高效地处理音频文件。在本文中,我们将结合实…
-
互动白板 Demo,多人实时白板互动的示例源码
本 Demo 是 ZEGO 提供的完整多人实时白板互动的示例,包括:白板涂鸦、实时轨迹同步、文档共享、文件转码等功能。 本示例源码仅用于演示 ZEGO 超级白板产品功能。以Andr…
-
五个和SIP安全相关的头字段,IMS/3GPP安全验证Sec-Agree头字段说明
很多用户经常看到SIP验证401,407消息,不知道为什么会产生不同的消息。在应用环境中,SIP协议对不同环境提供了安全验证的处理,通过不同的安全头字段来验证安全实体,因此返回的响…
-
使用 Vite、Vue 3 和 Node.js 开发一个简单的聊天室
介绍如何使用 Vite、Vue 3 和 Node.js 开发一个简单的聊天室。 创建项目 设计界面 打开 src 文件夹中的 App.vue 文件,开始设计你想要的样式。 也可以参…
-
研究 | 超越降噪:主动声音控制的基础与未来
主动声音控制(Active Sound Control, ASC)在当今已应用于许多实际噪声控制,包括汽车发动机和道路噪声控制、螺旋桨飞机降噪以及降噪耳机等。尽管该技术的研究和开发…
-
【音视频】面试题集锦第 29 期 | 视频渲染相关各种问题
分享来自音视频技术社群关键帧的音视频开发圈的面试题集锦,下面是第 29 期面试题精选: 1、调试 OpenGL 特效的时候图像不对,有什么调试技巧能快速排查原因? 2、在实现类似 …