技术文章
-
工具增强型 AI Agents 如何利用推理、记忆和自主性重新定义语言模型
早期的大型语言模型 (LLM) 擅长生成连贯的文本;然而,它们在处理需要精确操作的任务(例如算术计算或实时数据查找)时却举步维艰。工具增强型代理的出现弥补了这一缺陷,它赋予 LLM…
-
OpenVidu 3.2.0 发布,提供 Azure 原生部署
WebRTC 开源实时通信平台 OpenVidu 发布了 3.3.0 版本。提供 Azure 原生部署、Azure 录制、单节点 PRO、更新 LiveKit 堆栈等功能。 变更…
-
以边缘为中心的 DevOps:分布式 AI 环境中的持续集成和交付
随着人工智能(AI) 从集中式云系统迁移到分布式边缘环境,传统的 DevOps 方法面临着新的挑战。边缘 AI 工作负载需要实时处理、低延迟响应和自适应部署,这使得持续集成和交付 …
-
探索 OpenGL 音视频渲染技术(9):相机
讨论如何在 OpenGL 中设置相机。我们将讨论一种飞行风格的相机,它允许你在 3D 场景中自由移动。我们还将讨论键盘和鼠标输入,并以一个自定义的相机类结束。
-
Yandex 发布 Alchemist:用于提升文本转图像 T2I 模型质量的增强型监督微调数据集
尽管 DALL-E 3、Imagen 3 和 Stable Diffusion 3 等模型在文本转图像 (T2I) 生成方面取得了显著进展,但实现一致的输出质量(包括美观度和对齐度…
-
2025 年体积视频压缩技术市场:受AI编解码器和沉浸式媒体需求驱动,复合年增长率达 28%
2025年体积视频压缩技术市场报告:深入分析增长动力、创新和全球机遇。探索塑造未来五年的关键趋势、预测和竞争洞察。 执行摘要和市场概览 体积视频压缩技术是实现沉浸式媒体体验的前沿技…
-
探索 OpenGL 音视频渲染技术(8):坐标系统
这个系列文章我们来介绍一位海外工程师如何探索 OpenGL 音视频渲染技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 8 篇:OpenGL 坐标系统。 …
-
50+ 值得探索的模型上下文协议 (MCP) 服务器
什么是模型上下文协议(MCP)? Anthropic 于 2024 年 11 月推出的模型上下文协议 (MCP),为 AI 模型建立了一个标准化、安全的接口,使其能够通过基于 JS…
-
Meta 和 Norsk 选择流媒体编解码器的驱动因素
在流媒体领域,关于编解码器选择的争论从 H.264 到 AV1 和 HEVC,甚至更多,那么当解决方案和服务提供商帮助创作者和客户在线直播和点播视频时,是什么驱动着他们选择编解码器…
-
从“单聊”到“多 AI 群聊”,即构发布实时互动 AI Agent 2.2版本
ZEGO正式发布实时互动 AI Agent 2.2版本,解锁核心能力——「1个用户与多个AI角色语音互动」,为你开启前所未有的沉浸式多角色语音群聊时代! 语音陪伴升级:从“单聊”到…
-
字节跳动发布图像编辑模型SeedEdit 3.0!更强保持力,更高可用率
依靠 AI 完成指令式图像编辑的需求,广泛存在于视觉内容创意工作中。但此前,图像编辑模型在主体&背景保持、指令遵循等方面能力相对有限,导致编辑图像可用率不高。 图像编辑模型…
-
十大 WebSocket 客户端工具,不容错过!
探索开发人员应了解的强大且可靠的 WebSocket 客户端工具。从调试实时应用程序到测试 WebSocket 服务器,这些工具简化了开发过程并提高了工作效率,千万不要错过这些重要…
-
探索 OpenGL 音视频渲染技术(7):变换
这个系列文章我们来介绍一位海外工程师如何探索 OpenGL 音视频渲染技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 7 篇:OpenGL 变换。 ——…
-
Salesforce AI 推出 CRMArena-Pro:首个面向 LLM 代理的多轮企业级基准测试
由 LLM 驱动的 AI 代理在处理复杂业务任务方面展现出巨大潜力,尤其是在客户关系管理 (CRM) 等领域。然而,由于缺乏公开可用的真实业务数据,评估其实际效果颇具挑战性。现有的…
-
vivo Pulsar万亿级消息处理实践(1):数据发送原理解析和性能调优
本文是vivo互联网大数据团队《vivo Pulsar万亿级消息处理实践》系列文章第1篇。 文章以Pulsar client模块中的Producer为解析对象,通过对Produce…
-
探索 OpenGL 音视频渲染技术(6):纹理
这个系列文章我们来介绍一位海外工程师如何探索 OpenGL 音视频渲染技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 6 篇:OpenGL 纹理。 ——…
-
NVIDIA AI 发布 Llama Nemotron Nano VL:专为文档理解而优化的紧凑型视觉语言模型
NVIDIA 推出了Llama Nemotron Nano VL,这是一种视觉语言模型 (VLM),旨在高效、精准地处理文档级理解任务。该版本基于 Llama 3.1 架构构建,并…
-
WHIP Muxer 与 FFmpeg 合并,实现毫秒级延迟流式传输
一夜之间,一个大型项目并入了 FFmpeg,为毫秒级延迟流提供了 WHIP muxer。 WHIP 是 WebRTC-HTTP Ingestion Protocol 的缩写,是一种…
-
2025 年应该了解的 10 种最流行的视频格式
本文带您了解 2025 年最流行的 10 种视频格式、了解每种格式的用途,以及如何为您的工作流程选择最佳格式。 10 种最流行的视频格式 1. MP4(.mp4) MP4 仍然统治…
-
Hugging Face 发布 SmolVLA:经济高效的机器人紧凑型 VLA 模型
尽管近期通过大规模视觉-语言-动作 (VLA) 模型实现机器人控制取得了进展,但实际部署仍然受到硬件和数据需求的限制。大多数 VLA 模型依赖于基于 Transformer 的主干…