技术文章
-
探索 FFmpeg Basics 音视频技术(8): 模糊、锐化与其他降噪技术
这个系列文章我们来介绍一位海外工程师如何探索 FFmpeg Basics 音视频技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 8 篇:FFmpeg …
-
为什么小型语言模型(SLM)有望重新定义 Agentic AI:效率、成本和实际部署
LLM 因其类似人类的能力和对话技巧而广受推崇。然而,随着 Agentic AI 系统的快速发展,LLM 越来越多地被用于执行重复性、专业化的任务。这种转变势头强劲——超过一半的大…
-
WebRTC回音消除AECM的实现原理总结
本文对 WebRTC 音频处理模块 APM(Audio Processing Module)中针对回音消除问题的AECM解决方案进行技术理论和工作流程上的大致总结。
-
探索 FFmpeg Basics 音视频技术(7): 翻转和旋转视频
本文介绍 FFmpeg 如何翻转和旋转视频。翻转和旋转视频帧是常见的视觉操作,可用于创建各种有趣的效果,例如输入的镜像版本。
-
使用 WebSockets、Redis、Kafka 和 PostgreSQL 构建可扩展的聊天应用程序
从 WhatsApp 到多人游戏,实时通信为一切提供了动力。虽然搭建一个 WebSocket 服务器可能感觉像一个周末就能完成的项目,但如何将其扩展到数千个用户而不至于在负载下崩溃…
-
探索 FFmpeg Basics 音视频技术(6):填充视频
填充视频是指向视频帧添加额外区域以包含额外内容。当输入需要在具有不同宽高比的显示器上播放时,通常需要填充视频。
-
Twitch 的双布局直播:技术创新还是行业变革?
作为视频消费者,您在横屏(横向)和竖屏(纵向)之间的选择很可能受到您年龄的影响。如果您超过 40 岁,您可能会选择横屏观看。如果您比较年轻,则很可能默认为竖屏。 但作为视频制作者,…
-
探索 FFmpeg Basics 音视频技术(5):裁剪视频
裁剪视频是指从输入中选择想要的矩形区域到输出,不留下任何多余部分。裁剪通常用于调整大小、填充和其他编辑任务。
-
专利态势分析显示 Fraunhofer 和 Dolby 领先音频编解码器竞争
从高保真音乐流媒体到无缝视频会议,再到沉浸式虚拟现实环境,数字音频技术已成为现代通信和娱乐不可或缺的一部分。这一变革的核心是音频编解码器——一种先进的技术,用于对数字音频流进行编码…
-
探索 FFmpeg Basics 音视频技术(4):调整和伸缩视频
在FFmpeg中,调整视频的大小是指通过一个选项改变其宽度和高度,而缩放则意味着使用一个具有高级功能的scale滤镜来改变帧的大小。
-
Sakana AI 推出 Text-to-LoRA (T2L):基于任务文本描述生成特定任务 LLM 适配器 (LoRA) 的超级网络
Transformer 模型显著影响了 AI 系统处理自然语言理解、翻译和推理任务的方式。这些大型模型,尤其是大型语言模型 (LLM),在规模和复杂度上不断增长,如今已涵盖了各个领…
-
AWS Wickr 是什么?AWS 的安全通信
AWS(亚马逊网络服务)可能会放弃其核心 UCaaS 产品 Chime,但这并不意味着它放弃了商业通信。联络中心负责人仍然可以通过 Amazon Connect 访问全渠道客户服务…
-
探索 FFmpeg Basics 音视频技术(3):比特率/帧率/文件大小
比特率和帧速率是视频的基本特征,它们的正确设置对整体视频质量至关重要。由于在使用 FFmpeg 工具时对帧速率和比特率的理解很重要,因此本文对每个术语进行了简要介绍。
-
NVIDIA 研究人员在 Transformer LLM 中引入动态内存稀疏化 (DMS),实现 8× KV 缓存压缩
随着推理密集型任务需求的增长,大型语言模型 (LLM) 越来越有望生成更长的序列或并行推理链。然而,推理时间性能不仅受限于生成的令牌数量,还严重受限于键值 (KV) 缓存的内存占用…
-
使用 WebRTC 与 Python 构建由 AI 驱动的实时应用程序
在这个以响应速度和互动性引导用户期望的时代,掌握实时通信技术正迅速成为一项不可或缺的技能。无论您是在设计 AI 语音界面、协作学习工具,还是在设计下一代多人游戏环境,跨设备即时且智…
-
vivo Pulsar 万亿级消息处理实践(2)-从0到1建设 Pulsar 指标监控链路
本文是《vivo Pulsar万亿级消息处理实践》系列文章第2篇,Pulsar支持上报分区粒度指标,Kafka则没有分区粒度的指标,所以Pulsar的指标量级要远大于Kafka。在…
-
探索 FFmpeg Basics 音视频技术(2):文本帮助
FFmpeg 工具有一个很大的控制台帮助,可以完整显示或关于特定元素 – 解码器,编码器等。下表介绍了可用选项,斜体文本将替换为要显示的项目。ffplay 和 ffprobe 也有类似的选项。
-
语言模型到底能记忆多少内容?Meta 的新框架定义了比特级的模型容量
现代语言模型的记忆行为面临越来越多的质疑。例如,一个拥有 80 亿个参数的转换器,需要用 15 万亿个词元进行训练,研究人员开始质疑这些模型是否能够以有意义的方式记忆训练数据。数据…
-
探索 FFmpeg Basics 音视频技术(1):基本介绍
这个系列文章我们来介绍一位海外工程师如何探索 FFmpeg Basics 音视频技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 1 篇:FFmpeg 基…
-
Meta 推出 LlamaRL:基于 PyTorch 的可扩展强化学习 RL 框架,可实现高效的大规模 LLM 训练
强化学习已成为一种强大的方法,可以对大型语言模型 (LLM) 进行微调,使其更加智能。这些模型已经能够执行从摘要到代码生成的各种任务。强化学习能够根据结构化反馈调整其输出,从而提供…