实时互动行业周刊【第 10 期】

分享实时互动行业每周干货,包含人工智能、音视频技术、编解码、图像/视觉等。   

编辑:大河。微信号:rteworld,欢迎投稿

人工智能

知网状告AI搜索:搜到我家论文题目和摘要,你侵权了!

创业团队秘塔AI搜索,被知网给告了!足足28页的侵权告知函,总结一句话就是:贵司的AI搜索,能搜到我家的学术文献题录及摘要数据,且没经我司许可,严重侵权。

Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿,作者0收入

Nature的一篇文章透露:你发过的paper,很可能已经被拿去训练模型了!有的出版商靠卖数据,已经狂赚2300万美元。然而辛辛苦苦码论文的作者们,却拿不到一分钱,这合理吗?

全球首个AI流媒体音乐App来了!中国造的

全球首个AI流媒体音乐App来了。这个App里的音乐都是由AI生成的。无限流式,可以做到一直生成一直听。

如何理解和探索大模型的多语言能力?

大语言模型在未使用多语言平行语料库进行预训练的情况下,依然表现出了卓越的多语言能力。但大模型如何处理多语言文本的底层机制仍是一个具有挑战性的问题。对此,微软亚洲研究院联合中国人民大学提出了语言激活概率熵,用于识别大模型中的语言特定神经元。

英伟达开源新大模型:训练数据减少40倍,算力节省1.8倍

全球AI领导者英伟达(Nvidia)开源了最新大模型Nemotron-4-Minitron-4B和Nemotron-4-Minitron-8B。据悉这两个模型是基于Meta开源的Llama-3.1 8B,但英伟达使用了两种高效的训练方法结构化剪枝和知识蒸馏。

音频/视频技术

【音视频】特效编辑等场景常用的动画系统:PAG 与 Lottie|音视频实战经验

在音视频编辑、特效等场景我们通常需要用到一些动画效果,结合一些动画系统解决方案,可以大大降低我们开发的工作量,这里面常用到开源动画系统的就有:Lottie 和 PAG。这篇文章里我们就来介绍一下这两者。

原创 | 音频技术在虚拟现实及增强现实中的应用

虚拟现实(Virtual Reality,VR)和增强现实(Augmented Reality, AR)技术正迅速成为创新交互体验的前沿。这些技术通过模拟或增强用户的视觉和听觉感知,开辟了全新的沉浸式体验领域。音频技术在这一进程中扮演着至关重要的角色。它不仅增强了视觉体验的真实感,还通过声音的空间定位、动态反馈和情感表达,为用户创造了一个全方位、多层次的感官世界。

为什么GB/T28181越来越受欢迎?

GB/T28181协议是我国自主设计的一套应用于公共安全领域的视频监控联网协议。主要设计目的为了解决公共安全领域大规模视频监控设备的联网需求。但是近年来,我们会发现,很多视频相关项目都要求视频监控需要支持GB/T28181协议。

音视频开发之旅(87)- 视频画质评测算法之VSFA

目前很多视频是用户通过移动设备拍摄生成的UGC视频, 低质的视频会影响用户的体验,为此自动识别和剔除低质视频就很有必要。本文分享了VSFA算法的解决措施。

北航于天舒,夏长群,李甲 | 面向不平衡运动:基于部件解耦的视频人像分割方法

视频人像分割(Video Portrait Segmentation, VPS)旨在从连续的视频帧序列中发现并分割出所有的显著前景人像。该技术在视频创作领域展现出了广泛的应用潜力,如背景替换、人像效果变换等场景。

编解码

问题汇总-RK平台H264编码参数调试

在RK3399平台上调试 MPP 编码框架进行1080P分辨率编码传输时,碰到几个问题导致画面有马赛克。针对这些问题,如何对MPP编码框架的调优?

【VISION GUIDE – 22】视频编码中的量化

本文介绍视频编码中的量化。包括量化的基本原理和HEVC中的量化与反量化。部分内容参考了《新一代高效视频编码H.265/HEVC 原理、标准与实现》、《H.265/HEVC 视频编码新标准及其扩展》和《High Efficiency Video Coding (Hevc): Algorithms and Architectures》。

HarmonyOS 音视频之Lame MP3编码实现

MP3是版权编码,一般手机厂商不包含MP3硬件编码器,只有MP3硬件解码器,市面上最常用的开源MP3软编码器是Lame,本文我们以Lame 为例,从跨平台编译到接入应用全流程基于Lame 事件MP3 软编码器。

图像技术

一文详解ETC1压缩纹理:移动平台纹理加载高性能解决方案

ETC1(Ericsson Texture Compression)是一种有损纹理压缩技术,2005年初由爱立信研究院参与研发,目的是用于减少移动设备和嵌入式系统中纹理存储的内存占用,应用场景见于游戏、VR、AR等需要大量的纹理资源来创建高质量的视觉效果以及复杂的动画效果场景。

Vulkan 窗口表面(Surface)

Vulkan 是一个平台无关的图形 API ,这意味着它不能直接与特定的窗口系统(如 Windows、Linux 或 macOS 的窗口系统)交互。

行业资讯

高通分享:glTF 2.0扩展MPEG、3GPP在AR/VR 3D场景的沉浸式体验

解释了将glTF 2.0纳入MPEG-I Scene Description的过程,以及内容创建者和开发者可以如何开始使用这个新标准来开发交互式实时应用

对话Tom Boellstorff教授:探秘虚拟人生

为了深入地探究虚拟世界中的丰富文化,我们非常荣幸地邀请到加利福尼亚大学欧文分校的人类学教授 Tom Boellstorff 与我们分享他的研究成果和见解。他将带领我们一起探索虚拟世界的独特魅力和文化内涵。

空间计算时代下的虚拟音乐活动新“夜”景

数字艺术发展至今,人们不再满足单纯的听觉体验,享受音乐的方式正在从“被听见”向“被看见”转变,虚拟音乐演出类的活动由此展现出了鲜活的生命力,并在游戏、线下沉浸式演出以及XR内容中创造了无数场视听盛宴。

AI助力,火山引擎打造智能观赛新体验

作为2024年巴黎奥运会的特权转播商,抖音以火山引擎为技术底座,联动豆包APP、今日头条等平台,为用户带来奥运会全程直播的同时,还通过裸眼 3D 观赛、VR 直播观赛等众多新技术、新玩法,全方位捕捉与展现了奥运赛事的每一个精彩瞬间,让用户仿佛亲临奥运赛场,沉浸式观赛,感受赛事的热烈氛围,开启智能观赛新体验。

2024 年“体育之夏”对流媒体未来的启示

现场体育赛事对全球观众有着巨大的吸引力,尤其是在今年这样的年份。互联网和 IP 不仅提供内容,而且越来越多地成为通向观众的最后一公里。这一转变主要归功于流媒体的兴起。

「每周只上一天班」谷歌散漫制度遭前CEO怒斥:输给OpenAI,再下去要输创业公司了

在本周三公布的一份斯坦福大学公开课视频中,谷歌前 CEO 埃里克・施密特(Eric Schmidt)在被问到谷歌为什么落后于 OpenAI 时,终于开炮了。

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/51561.html

(0)

相关推荐

发表回复

登录后才能评论