实时互动行业周刊【1】| 2024年6月10日-16日

分享实时互动行业相关干货。
欢迎投稿加微信号:rteworld。

实时互动行业周刊【1】| 2024年6月10日-16日

音视频技术

Smart Pointers:八年,内存泄露终于解决

8年后,SRS开源服务器团队使用自己实现的有限的简单Smart Pointers,解决了SRS的内存泄漏问题,保持项目的可维护性。

淘宝短视频流工程重构(下):实践篇

随着视频流业务的发展,业务的复杂性越来越高,视频流老工程在架构设计、代码质量、工程能力等方面的问题也逐渐凸显。在这样的背景下淘天集团-内容技术团队开启了一次对老工程的大型重构。

B站画质补完计划(3):智能修复让宝藏视频重焕新生

针对老片中存在的模糊感、卡顿感、毛刺感等画质问题,B站多媒体实验室的画质团队研发了一套智能修复系统,有效修复了上述画质问题,大幅提升老片观感。

苹果获得两项空间音频相关专利

关于《根据信号特征修改相对于距离的信号衰减》 和 《基于头部到躯干方向的空间音频再现》

连续两年入选CVPR !快手KVQ,大模型加持的视频质量评价“黄金眼”

KVQ(Kuaishou Visual Quality),是一套快手自研的图像/视频质量评估方法。它基于海量的视频数据+AI大模型训练而成,是针对视频质量的科学量化的衡量手段。

Web直播怎么做?用互动直播 UIKit 实现简直不要太简单

基于 ZEGO 的 互动直播 UIKit 来实现的 Web 直播。互动直播 UIKit 可以适用于几乎所有编程语言和框架,能支持 PC 端和移动端浏览器(包括 WebViews)。

使用 GStreamer 的 WebRTC Plumbing

GStreamer 是历史最悠久、最成熟的媒体处理库之一。作为 Linux 和 WebKit 中的核心媒体处理元素,它在世纪之交就已推出,因此许多早期的 WebRTC 项目使用它的各种组件也就不足为奇了。本文由 Matthew Waters(GStreamer WebRTC 支持的主要作者)撰写,链接https://webrtchacks.com/webrtc-plumbing-with-gstreamer/

图像技术

抖音 Android 端图片优化实践

本文从抖音Android端图片优化历程着笔,主要介绍字节自研BDFresco图片框架及其在抖音的最佳实践、经验沉淀、业务价值。通过分享业务视角遇到的一些问题和我们的解决思路,希望能抛砖引玉,为遇到类似困扰的伙伴们提供有价值的参考。

CVPR 2024 |抖音“BDVQAGroup”获得 DXOMARK 图像质量评估挑战赛全球第二

近期,在计算机视觉领域最具影响力的「国际竞赛 CVPR 2024 NTIRE」中,抖音基础体验QA团队与AI 平台团队同学组成的“BDVQAGroup”小组,在 DXOMARK的图像质量评估赛道中,凭借自研算法「SampleIQA」取得了全球第二名的好成绩。

Efficient Contextformer:利用空间通道窗口注意力机制实现可学习图像压缩中的快速上下文建模

熵估计对学习型图像压缩的性能至关重要。研究表明,基于Transformer的熵模型在实现高压缩比方面具有重要意义,但代价是显著的计算开销。在这项工作中,引入了高效的上下文Transformer(eContextformer):一种计算效率高的基于Transformer的自回归上下文模型,用于可学习图像压缩。

图像格式–FFMPEG代码走读-TIFF格式编码

作者从FFMPEG源码角度解读一下TIFF编码内容。

行业资讯

AVS3-P10实时语音编码标准完成FCD,全新AI语音编码标准引领行业变革!

2024年6月13日,第89次AVS工作组会议在绍兴召开。AVS音频组经过讨论,正式宣布,《信息技术 智能媒体编码 第 10 部分:实时语音》(简称AVS3-P10) 已经完成FCD(Final Committee Draft)阶段,即将正式对外发布。

“飞高”低空经济:通信产业有什么?做什么?

无人机、低空物流、空中观光……这些新兴词汇正逐渐融入我们的日常生活,描绘出一个前所未有的低空经济蓝图,我国低空经济发展迎来重大机遇期。通信产业,作为连接万物的纽带,在这波澜壮阔的低空经济发展浪潮中,又该如何扮演自己的角色?

这是“世界上第一个”使用空间音频拨打的电话

无人机、低空物流、空中观光……这些新兴词汇正逐渐融入我们的日常生活,描绘出一个前所未有的低空经济蓝图,我国低空经济发展迎来重大机遇期。通信产业,作为连接万物的纽带,在这波澜壮阔的低空经济发展浪潮中,又该如何扮演自己的角色?

声网发布场景化API:代码缩减95%,高效、更优的集成实时互动场景

声网于近期正式推出 场景化 API 方案,该方案是面向客户业务场景化的一体化开发工具包,通过简单几个 API 就能快速实现场景构建,并通过预设参数配置帮助客户实现场景的最佳实践。

TRTC推出对话式AI解决方案,构建更自然的大模型实时音视频互动体验

腾讯云实时音视频TRTC基于腾讯长期积累的低成本、低延时、高品质的全链路实时音视频技术,推出了一站式的对话式AI解决方案,帮助大模型厂商高效打造实时音视频互动能力,让用户能够通过语音等更自然的形式,与AI进行实时互动。

人工智能

英伟达开源3400亿巨兽,98%合成数据训出最强开源通用模型!性能对标GPT-4o

英伟达全新发布的开源模型Nemotron-4 340B,有可能彻底改变训练LLM的方式!从此,或许各行各业都不再需要昂贵的真实世界数据集了。而且,Nemotron-4 340B直接超越了Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2,甚至可以和GPT-4掰手腕!

GPTZero获1000万美元,可检测ChatGPT等生成内容

GPTZero是一个AI检测平台,你只需要把文本内容提交上去,它就能识别出这个是ChatGPT写的还是人类写的,还会帮你生成一份报告深度解读为什么判定是AI或者人类,主要适用于教育、营销、写作等领域。

AI视频新霸主诞生!Dream Machine官宣免费用,电影级大片全网玩疯

继Pika宣布上新2.0版本后,视频生成领域又有新模型加入。成立于2021年的Luma AI 刚刚官宣了文生视频/图生视频模型Dream Machine,而且提供免费使用API,高质量的生成效果获得了很多网友的好评。

苹果智能炸裂登场:直接GPT-4o加持,全家桶都上生成式AI,Siri脱胎换骨

北京时间 6 月 11 日凌晨,苹果全球开发者大会 WWDC 在库比蒂诺的 Apple Park 正式召开。这场大会,苹果如我们所愿终于带来了覆盖全线产品的生成式 AI 技术,与此同时还有些预料之外的消息。

规格拉满!Llama和Sora作者都来刷脸的中国AI春晚,还开源了一大堆大模型成果

Sora团队负责人Aditya Ramesh与DiT作者谢赛宁同台交流,李开复与张亚勤炉边对话,Llama2/3作者Thomas Scialom,王小川、杨植麟等最受关注AI创业者……也都现场亮相。

规格拉满!Llama和Sora作者都来刷脸的中国AI春晚,还开源了一大堆大模型成果

来自上海AI Lab、香港大学、上海交大、浙江大学等多家机构提出了 MMT-Bench。这是一个全方位的多模态基准测试,旨在全面评估大型视觉语言模型(LVLMs)在多模态多任务理解方面的表现。研究团队对当前几个代表的视觉大模型进行了能力评估,结果发现感知错误、推理错误是所有模型最常见的两大错误。

本文为原创稿件,版权归作者所有,如需转载,请注明出处:https://www.nxrte.com/zixun/49392.html

(0)

相关推荐

发表回复

登录后才能评论