技术文章
-
glTF:现在和未来
glTF™ 已不再只是一种独立的 3D 格式。它现已被采纳为ISO 国际标准,并成为快速扩张的软件工具、标准和扩展生态系统的核心。 鉴于 glTF 在实现跨不同平台、设备和网络的 …
-
图像识别中最强大的深度学习技术
图像识别已成为现代技术的基石,改变着医疗保健、零售、汽车和安防等行业。深度学习技术使机器能够非常准确地识别、分类和解释图像。这一进步的核心是复制人脑处理视觉信息方式的强大算法。下面…
-
SAM2Long:用于长视频分割的 SAM 2 免训练增强版
长视频分割涉及将视频分解成若干部分,以分析运动、遮挡和不同光线条件等复杂过程。它在自动驾驶、监控和视频编辑中有着多种应用。在长视频序列中准确分割对象具有挑战性,但也至关重要。困难在…
-
Meta AI 发布 NotebookLlama:谷歌 NotebookLM 的开放版本
Meta 最近发布了 NotebookLlama,这是 Google NotebookLM 的开放版本,它为研究人员和开发人员提供了可访问、可扩展的交互式数据分析和文档解决方案。N…
-
音视频面试题集锦第 32 期 | 面试官针对编解码方向的问题
分享来自音视频技术社群关键帧的音视频开发圈的音视频面试题集锦第 32 期内容。 本期给大家挑选了一些我们的音视频技术面试官在面试中往编解码方向深入考察的问题,其中每题都给出了考察重…
-
webrtc开发实战系列2 – windows下编译WebRTC支持H264
在本系列上一篇文章《webrtc音视频开发实战系列 – windows下编译WebRTC》中,我们详细介绍了如何在windows平台上下载webrtc源码和安装相关的编…
-
腾讯TVQA斩获ECCV 2024压缩视频质量评估比赛冠军
近日,ECCV 2024 AIM Workshop大赛结果公布,在压缩视频质量评估赛道上,腾讯TVQA-C视频质量评估算法获得比赛冠军。未来,相关能力将在腾讯云媒体处理(MPS)产…
-
Salesforce AI Research 推出 BLIP-3-Video:用于视频的多模态语言模型,旨在有效捕捉多帧的时间信息
视觉语言模型(VLM)因其整合视觉和文本数据的能力而在人工智能领域日益突出。这些模型在视频理解、人机交互和多媒体应用等领域发挥着至关重要的作用,提供了根据视频输入回答问题、生成字幕…
-
Meta AI 发布 Llama 3.2(1B 和 3B)的新量化版本:推理速度提高 2-4 倍,模型大小缩小 56%
大型语言模型 (LLM) 的快速发展为各个领域带来了重大进步,但也带来了巨大的挑战。Llama 3 等模型在自然语言理解和生成方面取得了令人瞩目的进步,但它们的大小和计算要求往往限…
-
使用 MCU 和 SFU 构建 WebRTC 和 SIP 集成
会话初始协议(SIP)和 WebRTC 都是实时通信领域的重要技术,特别是在 IP 语音和视频领域。虽然它们的作用互补,但运行方式不同,功能也各异。 在本篇文章中,我们将探讨如何使…
-
音视频面试题集锦第 31 期 | 面试官常用的基础问题
分享来自音视频技术社群关键帧的音视频开发圈的音视频面试题集锦第 39 期。 下面是一名音视频技术面试官在面试中常用的一些开场基础面试题,包含音视频基础概念、编解码、传输协议、性能优…
-
Moonshine:一种快速、准确、轻量级的语音转文本模型,用于边缘设备转录和语音命令处理
语音识别技术已成为各种现代应用中的关键,尤其是实时转录和语音激活命令系统。它对于听力障碍人士的辅助工具、演示期间的实时字幕以及智能设备中的语音控制至关重要。这些应用需要即时、精确的…
-
Google DeepMind 开源 SynthID 用于 AI 内容水印
人工智能生成的内容发展迅速,既带来了机遇,也带来了挑战。随着生成式人工智能工具成为主流,人类和人工智能生成的文本的混合引发了人们对真实性、作者身份和错误信息的担忧。区分人类创作的内…
-
如何在 Web 应用中基于 WebRTC 实现视频会议
近年来,实时通信(RTC)已成为现代 Web 应用程序的一项基本功能,可直接通过浏览器实现视频通话、语音通话和屏幕共享等功能。WebRTC 就是实现这些功能的技术。 WebRTC …
-
在 Kubernetes 上搭建直播平台的分步指南
在当今的数字世界中,流媒体直播平台越来越受欢迎,而具有协调和扩展服务能力的 Kubernetes 是托管此类平台的绝佳选择。本文将指导您使用 Nginx、FFmpeg 和流媒体服务…
-
基于跨模态对比表征学习的鲁棒视频问答 | 杨勋,曾建明,汪萌等
视频问答是一个具有挑战性且很重要的多媒体理解任务,其需要对底层的视觉内容和高层的文本语义进行综合理解,进而做出正确的决策。
-
CMU 研究人员发布 Pangea-7B:适用于 39 种语言的完全开放多模态大型语言模型 MLLM
尽管多模态大型语言模型 (MLLM) 近期取得了进展,但这些模型的开发主要围绕英语和以西方为中心的数据集。这种侧重导致语言和文化代表性存在巨大差距,全球许多语言和文化背景仍未得到充…
-
IBM 面向 AI 企业发布 Granite 3.0 2B 和 8B AI 模型
IBM 正式发布了 Granite 3.0 AI 模型,这是一系列全新的基础模型,旨在为企业带来先进的 AI 功能。Granite 3.0 基于 IBM 的 WatsonX AI 和数据平台构建,旨在让企业能够轻松地将 AI 集成到其工作流程中。
-
开源上新|FunASR多语言离线文件转写软件包
FunASR是由通义实验室开源的语音识别框架,集成了语音端点检测、语音识别、标点预测等领域的工业级模型的训练和部署,吸引了众多开发者参与体验和开发。 为了支持用户便捷高效的集成语音…
-
什么是企业通信解决方案?如何选择企业通信解决方案
除了过去几年科技行业明显可见的人工智能(AI)热潮之外,企业通信解决方案的实施也是近来的另一个趋势。随着企业对远程工作的重视,企业通信和协作解决方案如今非常受欢迎。 不过,在决定采…