实时互动行业周刊【第 6 期】

分享实时互动行业每周干货，包含人工智能、音视频技术、编解码、图像/视觉等。

编辑：大河。微信号：rteworld，欢迎投稿。

人工智能

7月19日，在2024年阿斯彭安全论坛上，微软、OpenAI、英特尔、谷歌、英伟达、亚马逊、思科、IBM、Anthropic等十多家科技巨头联合成立，专注于AI大模型安全部署、应用的开源联盟——CoSAI。

微软亚洲研究院提出 Q-Sparse 实现了 LLMs 激活的完全稀疏性。该研究不仅揭示了包括推理优化规模法则（inference-optimal scaling law）在内的多项新发现，还展现出广泛的兼容性，其与 BitNet 正交且互补，为 LLMs 推理中的数据类型提供了全面优化。此外，Q-Sparse 强大的适用性，对从头开始训练、持续训练以及微调都可以提供有效的支持。

GPT-4o mini背后团队揭秘：9人团华人面孔过半，清华北大同济校友在列

OpenAI的GPT-4o mini一登场，又登上了大模型话题榜榜首。并且这次话题焦点，是OpenAI不仅再树新标杆，还一出手就把性价比卷爆了——直接把此前大受开发者好评的Gemini 1.5 Flash和Claude 3 Haiku给碾压了。…这个团队此番9位负责人中，有5位都是华人面孔。

大模型集体失智！9.11和9.9哪个大，几乎全翻车了

没眼看……“9.11和9.9哪个大”这样简单的问题，居然把主流大模型都难倒了？？

音视频技术

为什么摄像头拉流的方案越来越行不通了？

摄像头拉流是一种非常成熟的视频监控调取视频流的方法，为了方便摄像头的扩展应用，广大摄像头厂家都集成了摄像头拉流的功能。只需要知道摄像头的IP地址，用户名和密码，就可以通过RTSP方式调取视频监控摄像头的视频流。但是近些年，我们发现，在很多项目中，这种方式拉取视频流的方法越来越行不通。为什么会出现这种情况呢？

疾风亦有归途！风噪抑制方案解析

风噪作为一种特殊的噪声，其噪声频谱使用常规的噪声估计算法很难跟踪，本文介绍几种风噪抑制方案。

网易云信周梁伟：大模型在融合通信产品中的应用实践

IM 和 RTC 技术作为融合通信的关键技术，在社交、客服、协同办公等诸多场景中得到充分利用；在大模型快速发展和日渐成熟的背景下促使行业也发生了很大的变化，特别是 LLM 技术的第一个现象级应用 ChatGPT 就是以会话作为唯一交互形态；如何结合 LLM 和通信 PaaS 平台加速场景化落地成为一个关键议题。

利用SRT协议构建手机APP的直播Demo

以SRT协议为例，介绍如何通过OBS Studio和SRT Streamer向流媒体服务器做SRT直播推流。

浅谈大模型的多模态和语音流式技术

本文从多模态和流式等技术问题出发，尝试用行业最新的相关论文解析gpt4o可能使用的基础技术。

编解码

AVS3率失真优化量化的快速算法和流水线硬件设计

本文提出的算法在在RA和LDP配置下仅引入了0.4%和0.3%的BD-Rate损失，在可接受的损失范围内。通过高层次综合将算法转换为硬件设计。在32×32的尺寸下，RDOQ处理一个TU需要538个处理周期，200MHz时钟频率下可以满足4K@30fps的性能要求。

七牛云基于 AV1 的转码系统实践

以 Google 为代表的开放媒体联盟(AOM, Alliance for Open Media)所制定的 AV1 标准，在保持相同画质的条件下，码率可比 H.265 低 20%左右。同时其免费的专利政策与广泛的生态支持（尤其是浏览器的支持），相比于 H.265 等视频编码标准，优势显著，成为产业界推广 AV1 的重要原因之一。

常见的6种音频编码有哪些特性？

目前常用的音频编码，根据产生背景，应用场景不同，有着不同的特点和采样范围，这些编码都有哪些特点呢？

图像技术

TCSVT 2024 | 生成式人脸图像压缩与压缩域视觉任务分析

图像压缩与视觉分析通常作为独立领域研究，很少结合讨论。本论文提出了一种分层端到端人脸图像编码模型，该模型在高压缩比下提供高质量的人脸图像重建，同时支持多种视觉分析任务。

一文详解OpenGL ES矩阵变换：三维空间中的旋转、平移和缩放

在OpenGL ES中，三维空间中模型的平移、缩放和旋转操作，通常通过Matrix（4×4矩阵）变换来实现，从而改变3D模型对象的位置、大小和方向。如下图所示的旋转的三角形、旋转放大的地球两种变化效果，其中就涉及到了旋转变换、缩放变换。

Vulkan 物理设备

Vulkan 物理设备（PhysicalDevice）一般是指支持 Vulkan 的物理硬件，通常是系统的一部分–显卡、加速器、数字信号处理器或者其他的组件。系统里有固定数量的物理设备，每个物理设备都有自己的一组固定的功能。

行业资讯

苹果获得“姿势感知”系统专利，可用于向HMD用户提供3D内容和音频等

近日美国专利商标局公布了一项授予苹果公司的专利。这项专利主要涉及姿势感知技术，尤其是分层姿势感知的系统、设备和方法。这项技术能够影响3D内容向用户呈现的方式，并调整空间音频的音量，从而提升用户体验。在更深层次上，这项专利与苹果的Vision Pro的EyeSight功能密切相关。

LTE-M、NB-IoT、LTE Cat-1，如何选择？

LTE-M的带宽更宽，因此能更好地满足不断发展的新用例的需求。对于那些从一开始要求就很明确而且基本保持不变的用例来说，NB-IoT则是合适的选择。LTE Cat-1具有更高的网络容量，能够以统一的连接技术实现全球部署，因此灵活性大大提高。

噪音消除：NVIDIA Broadcast 强效助力直播和远程工作

NVIDIA Broadcast 应用程序就是一个例子，它可使用本地 RTX GPU 上的 Tensor Core 不间断地提升音频和视频质量。通过将这款应用与 GeForce RTX 和 NVIDIA RTX GPU 内置的 NVIDIA 编码器（NVENC）搭配使用，您可轻松上手直播，或在视频会议通话中尽展专业风范。

Vodafone与RingCentral扩大战略合作伙伴关系

Vodafone Business联络中心与RingCentral合作，通过为客服人员配备人工智能 (AI)，使企业能够更轻松地建立和运营联络中心，其中包括通话摘要、文字记录、自动评分卡、对话洞察和指导，以提供无缝的客户体验。

如何改变游戏和体育观看方式？Web 和手机的互动直播机会

据统计，全球 50 亿人次观赛 2024 欧洲杯，美洲杯次之。但回顾 2024 年欧洲杯和 2024 年美洲杯的观看体验，可以明显看出，在 Web和移动平台上观看体育直播赛事、电竞和游戏直播仍有很大的创新空间。