技术文章
-
Fish Agent v0.1 3B 发布:突破性的语音对语音模型,能够以前所未有的精度捕捉和生成环境音频信息
当前的文本转语音 (TTS) 系统(例如 VALL-E 和 Fastspeech)面临着与处理复杂语言特征、管理复音表达和生成自然的多语言语音相关的持续挑战。在处理依赖于上下文的复…
-
STanH:用参数化的量化模块实现变比特率的图像压缩 | TIP 2024
在端到端学习图像压缩中,编码器和解码器联合训练以最小化 R + λD 成本函数,其中 λ 控制量化潜在表示的速率和图像质量之间的权衡。但是,必须为每个 λ 训练具有数百万个参数的不…
-
Hertz-Dev:用于实时对话式 AI 的开源 8.5B 音频模型,在单 RTX 4090 上具有 80 毫秒理论延迟
对话式 AI 如今已成为技术的基石,但实现快速、高效和实时的交互仍然具有挑战性。延迟(输入和响应之间的延迟)限制了客户服务机器人和虚拟助手等应用程序,使交互变得迟缓。现有模型通常需…
-
音视频面试题集锦第 37 期 | iOS 播放器 SDK 方向
音视频面试题集锦第 37 期,来自音视频技术社群关键帧的音视频开发圈。 下面是大厂音视频面试中,一些关于 iOS 播放器 SDK 开发方向的面试题: 1、在开发 iOS 视频播放器…
-
如何在 Linux 服务器上使用 Nginx-RTMP、HLS 和 DASH 设置视频流服务器
从直播和在线课堂到娱乐平台和社交媒体,视频流已成为现代数字体验的基石。对于希望建立自己的流媒体基础架构的开发人员和内容创建者来说,拥有一个强大且可扩展的流媒体服务器至关重要。 本文…
-
音视频面试题集锦第 36 期|客户端音视频开发
音视频面试题集锦第 36 期,来自音视频技术社群关键帧的音视频开发圈。下面是第 36 期面试题精选: 1、iOS 使用 CoreText 渲染字体的时候,如何计算字体所需要的高度?…
-
OuteTTS-0.1-350M 发布:无需外部适配器即可利用纯语言建模的新型 TTS 合成模型
近年来,文本转语音 (TTS) 合成领域取得了快速发展,但仍然充满挑战。传统的 TTS 模型通常依赖于复杂的架构,包括深度神经网络和专用模块,例如声码器、文本分析器和其他适配器,以…
-
将淘宝直播间融入H5页面的技术探索
在数字化转型的浪潮中,如何将直播间无缝融入H5页面,成为提升用户体验和业务转化率的关键挑战之一。本文探讨了这一创新实践,通过技术解析和实际案例,展示了如何在H5页面上实现直播间的高…
-
基于IM场景下的Wasm初探:提升Web应用性能|得物技术
一 何为Wasm ? Wasm,全称 WebAssembly,官网描述是一种用于基于堆栈的虚拟机的二进制指令格式。Wasm被设计为一个可移植的目标,用于编译C/C++/Rust等高…
-
REST 的消亡:WebSockets 将成为 AI 代理的新标准
想象一下,AI co-pilot 不仅仅是一个聊天机器人,它还具有语音功能,能够倾听、理解并立即做出响应,为您的应用程序创造自然的交互体验。随着 AI 和大型语言模型(LLM)进一…
-
WebRTC API 应用:如何使用 JavaScript 访问相机和拍照
在当今的数字时代,通过网络浏览器访问用户设备上的摄像头已成为从社交媒体平台到视频会议工具等各种应用的基本功能。WebRTC API 为这一功能提供了便利,它允许开发人员利用实时媒体…
-
Meta AI 发布 Sparsh:首个基于视觉的触觉传感通用编码器
触觉传感在机器人技术中起着至关重要的作用,它能帮助机器有效地了解环境并与之互动。然而,基于视觉的触觉传感器的现状带来了巨大挑战。传感器的形状、光照和表面标记各不相同,因此很难构建通…
-
音视频面试题集锦第 35 期 | 播放器功能方案(附伪代码)
音视频面试题集锦第 35 期,来自音视频技术社群关键帧的音视频开发圈。 下面是大厂音视频面试中,关于播放器一些具体功能技术方案的面试题提纲,我们在参考答案中使用伪代码进行了模块实现…
-
超低延迟多路径传输:技术演进与大规模业务实践
在网络技术迅猛发展的当下,超低延迟已成为视频流媒体传输的关键需求。2022 年起,火山引擎多媒体实验室针对超低延迟多路径传输领域展开了深入的前沿探索与研究。 目前,多媒体实验室与流…
-
如何在 Linux 上安装带有 NVIDIA GPU 加速的 FFmpeg
FFmpeg 是一款适用于 Linux 和类 Unix 系统的免费开源视频格式转换器套件。不过,在 Ubuntu/Debian Linux 和其他发行版上,基于 NVIDIA 硬件…
-
VoIP 协议比较:SIP、H.323 和 WebRTC 的区别
本文将详细探讨三种著名的 VoIP 协议: SIP(会话发起协议)、H.323 和 WebRTC。我们将研究它们的功能、用例、性能、安全性、互操作性等。
-
SmolLM2 发布:新系列(0.1B、0.3B 和 1.7B)小语言模型,性能优于 Meta Llama 3.2 1B
近年来,大型语言模型 (LLM) 的激增极大地改变了我们处理自然语言处理任务的方式。然而,这些进步并非没有缺点。GPT-4 和 Meta 的 LLaMA 等大型 LLM 的广泛使用…
-
Meta AI 发布 MobileLLM 125M、350M、600M 和 1B 模型检查点
大型语言模型 (LLM) 的广泛采用为对话式 AI、内容生成和设备端应用等领域带来了重大进步。然而,部署这些模型严重依赖大量云资源,引发了对延迟、成本和环境可持续性的担忧。像 GP…
-
webrtc demo功能示例(视频互动及通讯功能Demo)
该文章为即构科技webrtc的使用示例demo,希望帮助开发者快速上手webrtc-sdk;每个页面展示sdk一种功能,可根据实际场景自由组合。 WebRTC Demo 在线演示地…
-
音视频面试题集锦第 34 期|直播和视频播放器方向
音视频面试题集锦第 34 期,内容来自音视频技术社群关键帧的音视频开发圈。 下面是大厂音视频面试官常备的播放器面试题提纲,这些面试题覆盖了播放器 SDK 技术的主要方面,包括架构设…