技术文章
-
GPU 在 WebRTC 中的重要性:加速 AI、视频流和实时通信
图形处理器(GPU)最初设计用于加速游戏,使复杂的图形计算能够并行运行。中央处理器(CPU)擅长一次高精度地执行几条指令,而 GPU 则不同,GPU 专为大规模并行性而构建,可同时…
-
即时通讯应用程序的5个类型
即时通讯(又称IM、实时聊天、实时消息)彻底改变了我们的沟通方式,使我们能够在全球范围内进行基于文本的实时对话。即时通讯应用程序种类较多,本文将介绍其中五种主要类型,包括技术细节及…
-
Hugging Face 推出 FastRTC 以简化实时 AI 语音和视频应用
估值超过 40 亿美元的人工智能初创公司Hugging Face推出了FastRTC,这是一个开源 Python 库,它为开发人员在构建实时音频和视频人工智能应用程序时消除了一个重…
-
Hume 推出 Octave TTS:一种新的文本转语音模型,可根据定制的情绪创建自定义 AI 语音
在快速发展的数字通信领域,传统的文本转语音 (TTS) 系统往往难以捕捉到人类的全部情感和细微差别。传统系统往往以平淡、不变的语调“阅读”文本,而忽略了使人类语音如此引人入胜的微妙…
-
百万级群聊的设计实践
本文介绍了服务端在搭建 Web 版的百万人级别的群聊系统时,遇到的技术挑战和解决思路,内容包括:通信方案选型、消息存储、消息有序性、消息可靠性、未读数统计。 作者:来自 vivo …
-
.NET中的WebSocket:客户端-服务器实时通信指南
本文探讨了如何在 .NET 应用程序中实现 WebSocket 这一功能强大的全双工通信协议。本文包括设置 WebSocket 服务器、创建客户端以及使用 System.Net.W…
-
高解析度音频(Hi-Res Audio)是什么?
什么是 Hi-Res 音频?高分辨率音频(Hi-Res)指的是比传统格式(如 MP3 或标准 CD)提供更好音质的数字音乐文件。本文介绍了 Hi-Res 音频的格式、原理以及与其他音频的比较。
-
Moonshot AI 推出 Muon 和 Moonlight:利用高效训练技术优化大规模语言模型
优化大规模语言模型需要先进的训练技术,以降低计算成本并保持高性能。优化算法对于确定训练效率至关重要,尤其是在具有大量参数的大型模型中。虽然像 AdamW 这样的优化器已被广泛采用,…
-
3D 视频会议的未来一瞥
在最近举行的欧洲集成系统会议上,思科展示了其空间 Webex 会议解决方案,该方案利用了苹果 Vision Pro 护目镜。人们普遍猜测,下一代苹果护目镜将更加便宜。谷歌展示了其创…
-
关于FreeSWITCH的状态机工作机制和运行优化建议讨论
没有状态机,就无法控制状态。这是废话,但是是核心。就像人脱离了大脑控制,AI脱离了算法控制一样,多多少少会出现幻觉。对于一个靠会话来控制系统运行的软件环境来说,没有状态机就无法正常…
-
VoIP DDoS:VoIP 网络安全策略
全面了解 VoIP 中的 DDoS 攻击是什么,以及如何通过成熟的策略和主动防御保护您的企业 VoIP 网络免受 DDoS 攻击,确保业务通信不中断。 想象一下,当您最需要 VoI…
-
使用 Scoket.io、React、NestJS 和 Redis Cluster 构建可扩展的实时聊天应用程序
本文将引导您使用现代技术构建一个可扩展的实时聊天应用程序。我们将重点讨论如何创建一个既能处理数千个并发用户,又能保持实时性能的系统。 架构概述 聊天应用程序采用可扩展架构,包含以下…
-
Meta 工程师分享 AV1 集成到 Android 生态系统的问题,挑战和解决方案
大型内容所有者采用 AV1 编解码器的过程漫长而复杂,Meta 高级媒体软件工程师 David Ronca(曾在 Netflix 开发编码解决方案长达 12 年)对此深有体会。在与…
-
人工智能正在快速实现音频内容的自动化生成
人工智能正在进一步涉足音频内容生成领域,并极大地改变了其发展。谷歌、Meta 和微软等知名供应商以及 Revoicer 和 WellSaid 等初创公司正在利用生成式人工智能,提供…
-
音视频消费侧各组件框架
本文分享音视频消费侧各组件框架,包括播放组件层、播放内核层和底层能力层。另分析音视频下载、音视频解封装、音视频解码和音视频渲染等模块内容。
-
构建法律 AI 聊天机器人:使用 bigscience/T0pp LLM、开源 NLP 模型、Streamlit、PyTorch 和 Hugging Face Transformers 的分步指南
在本教程中,我们将使用开源工具构建一个高效的法律 AI 聊天机器人。它提供了使用bigscience/T0pp LLM、Hugging Face Transformers 和 Py…
-
FreeSWITCH 中 mod_limit 的作用讨论
limit到底是干什么的?如何一个稳定的系统需要多种极限的设计来保证系统的稳定运行。下面,我们来讨论一个FreeSWITCH环境下大家不经常关注,但是必须注意机制设置模块limit…
-
用meson加速Windows系统FFmpeg构建
如果因各种原因只能用Windows的,比如做Windows的硬件解码和播放,meson构建ffmpeg不失为一个提升开发效率的选择。
-
直播推流组件架构、重点需求技术方案和常见问题解析
本文分享来自公众号——关键帧Keyframe的分享。 本文中,我们来介绍在实际工作中,我们实现的直播推流组件架构、重点需求技术方案和常见问题解析。 其中,重点需求技术方案包括: 1…
-
Google DeepMind 发布 PaliGemma 2 Mix:针对多种视觉语言任务进行微调的新型指令视觉语言模型
视觉语言模型 (VLM) 长期以来一直有望弥合图像理解和自然语言处理之间的差距。然而,实际挑战依然存在。传统的 VLM 通常会在图像分辨率的变化、上下文细微差别以及将视觉数据转换为…