技术文章

技术文章

ZipNN：一种针对神经网络的新型无损压缩方法

大型语言模型 (LLM) 的快速发展暴露了模型部署和通信方面的关键基础设施挑战。随着模型规模和复杂性的扩大，它们会遇到严重的存储、内存和网络带宽瓶颈。模型大小的指数增长带来了计算和…

RTE基础设施
2024年12月6日
技术文章

Google DeepMind 发布 PaliGemma 2：全新开放式视觉语言模型系列（3B、10B 和 28B）

视觉语言模型 (VLM) 已经取得了长足的进步，但在有效推广到不同任务方面，它们仍然面临重大挑战。这些模型通常难以处理各种输入数据类型，例如各种分辨率的图像或需要精细理解的文本提示…

AIGC
2024年12月6日
技术文章

通义语音处理技术ClearerVoice-Studio

随着语音技术的普及，语音质量已成为人们关注的焦点。环境噪声、混响、设备拾音等问题，常常使语音质量和可懂度大打折扣。无论是录制清晰语音却因周围环境嘈杂充满噪声，还是在地铁、餐厅等喧闹…

大厂Animal
2024年12月6日
技术文章

沉浸式音频第二部分：为下一代声音混音

几十年来，混音控制台不断适应专业音响的发展，以容纳更多的输入，这主要是由音乐制作推动的；当磁带的容量在 20 世纪 90 年代达到 48 个音轨的最大值，录音转到（理论上）无限的虚…

音频技术
2024年12月5日
技术文章

沉浸式音频第 1 部分：专注于捕捉的工具包

有关广播沉浸式音频的讨论往往集中在输出方面：主要是扬声器的数量和位置，尤其是头顶的四个扬声器。在美国，杜比全景声（Dolby Atmos）是主流的沉浸式音频格式，这通常已成定局。然…

音频技术
2024年12月5日
技术文章

对齐人类主观偏好的图像质量评价方法 | 火山引擎论文入选国际会议ACM MM’24

2024年10月28日至11月1日，ACM Multimedia(ACM MM) 2024在澳大利亚墨尔本召开，该会议是中国计算机学会(CCF)推荐的多媒体领域的A类国际学术会议。…

大厂Animal
2024年12月4日
技术文章

亚马逊推出 Amazon Nova：新一代 SOTA 基础模型，可提供高级智能以及价格与性能的良好平衡

人工智能和机器学习的进步为各行各业的企业带来了新功能。从文本生成到视频合成，现代人工智能模型正在改变组织的运营和创新方式。然而，像 GPT-4 和 Llama 这样的大型基础模型在…

AIGC
2024年12月4日
WebRTC

OpenVidu 3.0.0 正式发布，将使实时应用更高效、性能更强、更可靠安全

OpenVidu 3.0.0 从测试版到全面上市标志着近两年前开始的旅程的结束。当时，OpenVidu 团队决定彻底改变平台的底层技术和架构，以提供实时媒体领域的最新进展。以下内…

RTC观主
2024年12月3日
技术文章

视频编解码算法优化的三大法宝：移植，调参和测试

视频编解码的(软件)算法优化，大多时候是工程开发。个人觉得，编解码算法，尤其编码器的优化主要依靠三个法宝，它们分别是：移植，调参和测试。第一个法宝是移植。可以是从A编码器(标准…

编解码
2024年12月3日
WebRTC

如何将 WebRTC Web应用无缝集成到 Flutter WebView 中

WebRTC （Web Real-Time Communication）是一个开源框架和协议套件，可实现浏览器、移动应用程序或其他设备之间的实时点对点通信。它主要用于音频/视频通话…

webrtc学习和实践
2024年12月2日
技术文章

Meta AI 发布 Llama Guard 3-1B-INT4：用于人机对话的紧凑型高性能 AI 调节模型

生成式人工智能系统改变了人类与技术的互动方式，提供了突破性的自然语言处理和内容生成功能。然而，这些系统也存在重大风险，特别是在生成不安全或违反政策的内容时。应对这一挑战需要先进的审…

AIGC
2024年12月2日
技术文章

了解 VoIP 多编解码器转码

VoIP 多编解码器转码可根据 VoIP 网络条件的变化切换编解码器，并在此过程中避免编码或格式不匹配导致掉线或低质量视频。这项技术在保持企业级视听质量的同时，还能优化带宽。什么…

编解码
2024年12月2日
技术文章

什么是 VoIP 编解码器？VoIP 编解码器详解

高质量 VoIP 通话的关键在于正确的编解码器。本文探索常见的编解码器、它们的功能和潜在缺点，为 VoIP 优化选择正确的编解码器。 VoIP 让用户通过互联网拨打电话，而不是传统…

RTC观主
2024年11月27日
技术文章

FFmpeg：在 MacOS 上预处理截屏视频的更好选择

分享如何利用 FFmpeg 在 MacOS 上预处理截屏视频。为什么使用命令行工具？在 MacOS 上安装 FFmpeg 剪辑视频中的部分内容公平地说，QuickTime具有…

FFmpeg笔记
2024年11月27日
技术文章

Composio 推出 AgentAuth：专为 AI 代理设计的综合身份验证解决方案

构建与各种服务交互的 AI 代理（AI agent）面临重大挑战，特别是在管理身份验证方面。开发人员经常面临为 Gmail 设置 OAuth 流程、处理 Linear 等平台的 A…

AIGC
2024年11月27日
技术文章

Khronos 发布 Vulkan 两个编码扩展： Encode AV1 和 Encode Quantization Map

Khronos® Group 的 Vulkan® 工作组自 2022 年以来推出了一系列视频解码和编码扩展，统称为 “Vulkan Video”。这些扩展将使用广泛采用的编解码器进…

编解码
2024年11月26日
技术文章

使用 FastAPI 在前端流式传输视频的不同方法

FastAPI 是一个快速、现代的 Web 框架，以支持异步 REST API 和易于使用而闻名。在本文中，我们将了解如何使用 FastAPI 在前端流式传输视频。流式响应 1…

视频技术
2024年11月26日
技术文章

NVIDIA AI 推出 Fugatto：拥有 25 亿个参数的音频模型，可根据文本和音频输入生成音乐、语音和声效

创作、编辑和转换音乐和声音既有技术挑战，也有创意挑战。当前的人工智能模型往往在多功能性方面存在问题，专攻狭隘的任务或缺乏有效概括的能力。这限制了人工智能辅助制作并阻碍了创造性的适应…

音频技术
2024年11月26日
技术文章

Neural Magic 发布 Sparse Llama 3.1 8B：更小的模型，实现高效的 GPU 推理

人工智能模型规模的快速增长带来了巨大的计算和环境挑战。近年来，深度学习模型（尤其是语言模型）规模大幅扩张，需要更多的资源进行训练和部署。这种需求的增加不仅增加了基础设施成本，还导致…

AIGC
2024年11月26日
WebRTC

webrtc之rtp协议

本文介绍一下rtp协议和rtcp协议。因为ffmpeg的rtp/rtcp协议实现比较简单，这里改用其他开源代码(mediasoup)来介绍。作者：音视频小话原文：https://…

webrtc学习和实践
2024年11月26日