实时互动行业周刊【第 5 期】

分享实时互动行业每周干货，包含人工智能、音视频技术、编解码、图像/视觉等。

编辑：大河。微信号：rteworld，欢迎投稿。

提示：点击新闻标题可以跳转原文

人工智能

美国提出《COPIED法案》，针对ChatGPT、Udio、Suno等产品

7月12日晚，美国参议院官网公布了一个由，Cantwell、Blackburn和Heinrich三位两党国会议员提出新的法案——COPIED Act。这个法案的主要目的是，制定完善的规则来标记、验证和检测ChatGPT、Uido、Suno、Midjourney等生成式AI产品，提升生成内容的透明度防止被非法乱用以及保护公众的个人数据和隐私。

微软退出OpenAI董事会，苹果也不加入了

7月10日晚，abc消息，微软已经退出了OpenAI董事会，而宣布即将加入董事会的苹果也放弃了。主要原因就是，美国联邦贸易委员会和欧盟委员会等，对科技巨头的垄断行为审核越来越严格，火爆全球的OpenAI成为了主要调查目标之一。

AI Agent满级进化！骑马种田、办公修图，样样精通，昆仑万维等发布通用Agent新框架

近日，昆仑万维携手北京智源人工智能研究院、新加坡南洋理工大学、北京大学等顶尖名校机构，联合提出了迄今为止第一个既能玩多种商业游戏又能操作各种软件应用的AI框架——Cradle。

一夜醒来，Transformer和Mamba都被超越了！大模型最强架构TTT问世！

这篇文章提出了一种新型的序列建模方法，名为Test-Time Training（TTT）层，旨在解决现有循环神经网络（RNN）在处理长文本时表达能力受限的问题。作者指出，尽管自注意力机制在处理长文本方面表现出色，但其计算复杂度呈二次方增长。相比之下，传统的RNN层虽然具有线性复杂度，但其隐藏状态的表达能力在面对长文本时会受到限制。

音视频技术

火山引擎 RTC 实时媒体处理平台的技术实践

随着实时音视频（RTC）技术在娱乐、教育、会议、游戏等领域的广泛应用，用户对音视频通话的核心功能需求不断提升，同时也衍生出许多扩展需求。这些扩展功能在业务场景扮演着越来越重要的作用，已经成为许多业务场景的核心路径。看看火山引擎 RTC 实时媒体处理平台如何处理这些需求？

点播CDN回源标准化策略

如何提升CDN厂商回源稳定性、保障源站安全，在出现问题时能快速定位并且及时止损，减少因为回源问题导致CDN质量受损的情况？了解下哔哩哔哩的点播CDN回源标准化策略。

GB/T28181和GB35114是什么关系？

在很多的视频联网项目中，经常会涉及到GB/T28181协议和GB35114协议的应用，很多人不太能搞清楚这两种协议具体是什么关系，有什么区别，具体应用在哪些场景。

蓝调还是爵士？浅谈音乐分类技术

音乐分类技术能够基于音乐内容的深度分析，自动为音乐作品添加准确的类别标签，从而在音乐资源的高效整理、快速检索以及个性化推荐等领域展现出巨大的研究价值与应用潜力。

Cocos Creator 3.x 3D 空间音频解决方案！

最近在用 Cocos Creator 3.8 制作一个 3D 联机坦克大战游戏。因为项目需要，在 Cocos Creator 中实现了 3D 空间音效的方案，在此分享给大家，希望能对大家有所帮助。

编解码

INTERSPEECH2024丨Single-Codec: 面向高性能语音合成的单码本语音编解码器

该论文提出一种单码本的语音编解码器 Single-Codec，该编解码器以梅尔频谱作为建模目标，从特征解耦和语音内容建模两个方面出发提升单码本编解码器性能，能够在 304bps 带宽下将一秒语音压缩为 23 个离散单元。现对该论文进行简要的解读和分享。

【VISION GUIDE – 13】视频编码中的SCC

SCC是指屏幕内容编码（Screen Content Coding），是视频编码中的一种技术，主要用于编码屏幕内容或计算机生成的图像。在传统视频编码中，编码器通常会通过分析视频帧的像素值来进行编码，但对于屏幕内容或计算机生成的图像，传统方法可能会导致失真或者效率较低。

图像技术

Inf-DiT：利用内存高效的扩散Transformer对任意分辨率的图像进行超分辨率

近年来，扩散模型在图像生成方面展现了强大的能力。然而，其对大容量显存的要求导致一般情况下只能生成1024×1024分辨率的图像。本工作提出了一种单向块注意力机制，可以自适应地调整模型推理过程中的显存开销和处理全局依赖关系。基于这一模块，本文将DiT架构用于超分辨率，提出了一种无限的超分辨率模型，能够提升各种形状的图像的分辨率。

TiTok：将图像标记为32个Tokens以实现图像重建和生成

基于Transformer的一维图像标记器：TiTok（Transformer-based 1-Dimensional Tokenizer），这是一种将图像标记为一维(1D)潜在序列的创新方法。TiTok提供了一种更紧凑的潜在表示，比传统技术产生的表示更高效和有效。

行业资讯

苹果通过一个音频技巧改善 AirPods通话质量

得益于Apple 正在测试的新固件更新，AirPods 的通话质量将变得越来越好。此次更新解决了使用 AirPods 麦克风时音频质量下降这一长期存在的问题。此前，使用AirPods麦克风通话意味着要牺牲音质。怎么做到的？

关于实时AGI、大模型落地、沉浸式空间计算的深度思考

7月6日，声网联合 CSDN 举办的“当 RTC 遇上 AI ，大模型创新应用星城论道”主题沙龙在湖南长沙圆满收官。在本场沙龙活动中，声网首席科学家、CTO 钟声、声网解决方案架构师管浩森、芒果融创科技有限公司（广电总局 5G 实验室）产品技术中心总经理吴红、亚马逊生成式 AI 专家团队经理郭韧为现场的开发者们分享了 RTC 与 AI 在当下的发展趋势，并展望了 RTC+AI 对技术与业务的创新价值。

顶级赛事的背后：即构赛事直播解决方案，为用户还原“现场感”纯享体验

体育、电竞等赛事已经成为人们日常娱乐的重要组成部分，即构在为全国、国际范围顶级赛事转播方提供音视频技术服务的过程中，沉淀了大量的赛事直播经验与用户体验洞察，推出 ZEGO 赛事直播解决方案 —— 为用户提供极具“现场感”的高品质音视频体验，创新更多观赛形式，让用户观赛旅程更尽兴，目前已服务于体育直播、电竞直播等赛事场景。

月薪集中在8k-17k、近六成的人一年没跳槽、AI可减少20%-40%工作量，2024中国开发者调查报告来了！

今年 3 月，CSDN&《新程序员》发起了一份围绕开发者现状、人工智能和开源的深度调查问卷，最终形成了一份详尽的《2024 中国开发者调查报告》。这份报告不仅揭示了中国开发者在工作、学习和生活中的真实情况，还深入探讨了生成式 AI 工具和开源应用的最新进展。

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/zixun/50443.html

实时互动行业周刊【第 5 期】

人工智能

音视频技术

编解码

图像技术

行业资讯

相关推荐

实时互动行业周刊【第 6 期】

实时互动行业周刊【第 10 期】

实时互动行业周刊【1】| 2024年6月10日-16日

实时互动行业周刊【第三期】

实时互动行业周刊【第 14 期】

发表回复