技术文章
-
JPEG-LM | 利用规范编解码器实现LLMs对图像的高效生成
近期的图像和视频生成工作采用了自回归的大语言模型(LLM)架构,这种架构具有通用性,可能更容易与多模态系统集成。将语言生成中的自回归训练应用于视觉生成的关键在于离散化——也就是将图…
-
Python FFmpeg 处理音视频的 13 个代码示例
FFmpeg是一种跨平台解决方案,用于录制、转换和流式传输音频和视频。通过将FFmpeg与Python相结合,可以自动执行许多与多媒体相关的任务,从而提高内容平台的可扩展性、用户体…
-
OpenVidu 3.0.0-beta3 发布
2024年10月15日,OpenVidu 3 发布了通用版本之前的最后一个测试版本。很快在 2024 年第四季度的某个时间点将发布可供生产的版本。 更新日志 集中配置 OpenVi…
-
Google AI 推出 Gemma-APS:用于文本到命题分割的 Gemma 模型集合
人们越来越依赖机器学习模型来处理人类语言,但同时也面临着一些障碍,如准确理解复杂的句子、将内容分割成可理解的部分以及捕捉多个领域中存在的上下文细微差别。在这种情况下,对能够将错综复…
-
什么是 VoIP 编解码器?VoIP 编解码器详解
高质量 VoIP 通话的关键在于正确的编解码器。本文探索常见的编解码器、它们的功能和潜在缺点,为 VoIP 优化选择正确的编解码器。 VoIP 让用户通过互联网拨打电话,而不是传统…
-
MEGA-Bench:一项全面的 AI 基准测试,以可控的推理成本将多模态评估扩展到 500 多个实际任务
视觉语言模型 (VLM) 评估面临的一个主要挑战是了解它们在各种实际任务中的各种能力。现有的基准测试往往存在不足,侧重于狭窄的任务集或有限的输出格式,导致无法充分评估模型的全部潜力…
-
使用 Express、TypeScript、Socket.IO 和 Next.js 构建实时聊天室应用程序
在本教程中,我们将创建一个实时聊天室应用程序。我们将把它分为两个主要部分: 后端:使用 Express、TypeScript、Socket.IO 和 MongoDB。前端:使用 N…
-
WLAN 和 VoIP:您需要了解的信息
随着企业越来越多地采用无线局域网 (WLAN),了解其对 Voice over IP (VoIP) 的影响至关重要。虽然 WLAN 提供了灵活性和移动性,但它可能会因接入点切换期间…
-
如何在 Ubuntu/Debian 上安装 Jitsi Meet 并自动使用 Let’s Encrypt SSL
本文探讨在 Ubuntu 或 Debian 服务器上设置 Jitsi Meet 的详细指南,包括配置主机和使用 Let’s Encrypt 的 Certbot 自动设置…
-
OpenR:增强大型语言模型推理能力的开源 AI 框架
大型语言模型 (LLM) 在语言生成方面取得了重大进展,但其推理能力仍然不足以解决复杂的问题。数学、编码和科学问题等任务继续带来重大挑战。增强 LLM 的推理能力对于将其能力提升到…
-
Cocos Creator 3.8.4 来了,更快更稳更好用!
Cocos Creator 3.8.4 版本发布了!这个版本不仅在性能、渲染方面大幅增强,编辑器体验和稳定性也有诸多改善,建议大家升级。 自 Cocos Creator 3.8.0…
-
GPU 与 TPU 哪个更适合 AI 工作负载?
随着人工智能的兴起,对能够支持复杂计算的更高性能硬件加速器的需求也在增长。其中有用的加速器包括图形处理单元 (GPU) 和张量处理单元 (TPU)。每种加速器都有其优势,了解这些差…
-
如何理解 Vulkan 同步机制
Vulkan 的同步机制用于控制 GPU 和 CPU 之间的任务执行顺序,确保资源的正确访问顺序和任务的按序执行。 由于 Vulkan 是高度并发的 API,需要明确管理同步,防止…
-
使用 FFmpeg 在 Go 中进行视频压缩
作为一名开发人员,没有什么比将繁琐的任务自动化更令人满意了。如果您要处理视频和音频,FFmpeg 就可以派上用场,但如果我们能直接从 Go 应用程序中控制它,那又会怎样呢?本篇文章…
-
WebRTC 完美协商
本文将讨论如何通过在两个对等方(peers)之间建立连接时消除竞争条件来实现完美协商,假设我们已经建立了一个信令服务器。 协商是一种非对称操作,一方作为 “调用者”,另一方作为 “…
-
InstructG2I:一种基于图形上下文感知的稳定扩散模型,用于从多模态属性图中合成图像
多模态属性图 (MMAG) 尽管在图像生成方面用途广泛,但并未受到太多关注。MMAG 以图形结构的方式表示具有组合复杂性的实体之间的关系。图中的节点包含图像和文本信息。与文本或图像…
-
JD Voice Assistant:一个Python打造的跨平台智能语音助手
JARVIS Desktop Voice Assistant 是由众多开发者基于python开发的一个开源桌面语音助手,有人又在它的基础上开发了一个中文版的Jarvis,支持中文对…
-
CBR 与 VBR – 恒定和动态比特率流媒体之间的区别
CBR(恒定比特率)和 VBR(动态比特率)是两种不同的码率控制方法,用于通过 Internet 流式传输视频的视频编码。顾名思义,CBR 旨在保持比特数不变,同时牺牲视频质量,而…
-
在 iPad 上调试 WebRTC
如何在 iPad 上调试 WebRTC?本文介绍了为什么现在需要在 iPad 上 Safari 以外的浏览器上测试应用程序?以及基于 Apple 的开发设置,如何设置远程调试。
-
亚马逊生成式 AI 购物助手 Rufus 背后的技术!
Rufus 可以回答亚马逊购物应用中的各种问题,从商品详情、商品比较到推荐,帮助亚马逊客户做出更明智的购物决策。它的存在得益于人工智能的进步和创新。