实时互动行业周刊【第三期】

分享实时互动行业每周干货,包含人工智能、音视频技术、编解码、图像/视觉等。  

人工智能

Luma新增关键帧功能,一键生成好莱坞特效大片

6月29日,知名3D建模平台Luma AI宣布,其文生视频模型Dream Machine新增“关键帧”功能,并向所有用户免费开放使用。

OpenAI 宣布推迟发布 ChatGPT语音助手功能

6月26日,OpenAI已宣布推迟发布备受期待的ChatGPT语音助手功能,以确保它能够安全有效地处理来自数百万用户的请求。OpenAI在5月份的产品发布会上为GPT-4o推出了语音选项,GPT-4o是GPT-4模型的更新版本,在实时处理文本、音频和图像方面做得更好。

OpenAI在一份声明中表示,该公司原本打算在6月底向一小部分付费ChatGPT plus用户推出语音功能,但后来认为还需要一个月的时间才能“达到我们的标准”。周二,OpenAI还表示,该公司计划在秋季向所有付费用户推出语音功能,同时其也在努力发布视频和屏幕共享功能。该公司已在5月份的活动中展示了这些功能。

国产大模型新高度!讯飞星火4.0发布:整体超越GPT-4 Turbo,8个国际权威测试集测评第一

星火大模型V4.0再次进化,不仅在文本生成、语言理解、知识问答、逻辑推理和数学五大能力方面完成了对GPT-4 Turbo的整体超越,并进一步缩小了在代码、多模态能力方面的差距,尤其是多模态能力达到了后者97%的水平。

GPT-4批评GPT-4实现「自我提升」!OpenAI前超级对齐团队又一力作被公开

OpenAI 放出了新模型CriticGPT,CriticGPT同样基于GPT-4训练,但目的却是用来指正GPT-4的输出错误,实现「自我批评」。

牛了,LSTM+Transformer王炸结合创新,荣登Nature,精度高达95.65%

【LSTM结合Transformer】的研究方向探索了如何利用Transformer模型处理序列数据的能力以及LSTM在捕捉时间序列依赖性方面的优势。这一方向的意义在于通过融合两种模型的特点,提高了对复杂时空数据的预测准确性,尤其是在智能电网攻击检测、多变量时间序列预测和时空预测等领域。

音视频技术

语音文本顺滑技术

语音文本顺滑任务的方法大体上可以分为四类:基于噪声信道模型的方法、基于序列标注的方法、基于句法的方法、基于神经网络的方法。

CVPR 2024 | 模块化盲视频质量评估

盲视频质量评估 (BVQA) 在评估和改善各种基于视频的平台和服务的最终用户的观看体验方面发挥着关键作用。当代基于深度学习的模型主要以积极的下采样格式分析视频内容,而忽视了实际空间分辨率和帧速率对视频质量的影响。本文提出了一种模块化 BVQA 模型以及一种训练它以提高其模块化性的方法。

编解码

Netflix 押注高级视频编码的内幕

讲述 Netflix 的高级编码技术主管 Aaron 和 她团队的故事,揭秘她们在视频编码领域如何帮助 Netflix 保持领先地位。

图像技术

CVPR 2024 |抖音“BDVQAGroup”获得 DXOMARK 图像质量评估挑战赛全球第二

近期,在计算机视觉领域最具影响力的「国际竞赛 CVPR 2024 NTIRE」中,抖音基础体验QA团队与AI 平台团队同学组成的“BDVQAGroup”小组,在 DXOMARK的图像质量评估赛道中,凭借自研算「SampleIQA」取得了全球第二名的好成绩.

视频剪辑中的色彩空间

在剪辑场景下,往往需要处理多个视频文件,而视频文件的颜色信息又可能各不相同,如何正确使用这些参数,让播放时视频正确的显示在屏幕上,导出的视频不会产生偏色?带着这些问题,哔哩哔哩技术团队分享了一些色彩空间的概念:色域、传递函数、转换矩阵、YUV/YCbCr模型。

【VISION GUIDE – 11】一文看懂图像质量评估

图像视频的质量失真,通常使用质量评估(Quality Assessment, QA)算法来建模。质量评估算法能准确地衡量编解码模型、通信传输系统、图像增强和重建算法的优劣,在社交媒体共享平台和生成式大模型普及的今天,进行用户终端的图像视频质量监控,评价AI生成内容(AI Generated Content, AIGC)的多维度质量。

图像格式–TIFF支持的压缩算法汇总

TiffCompr结构体列出了多种TIFF、TIFF/EP和DNG文件的压缩类型,每个枚举值对应一种压缩方法,针对每一种压缩图像算法,我们做一下简单说明和对比。

行业资讯

2024 年 Gartner® 通信平台即服务 (CPaaS) 魔力象限发布

今年,Gartner 在 CPaaS 市场中选择了 11 家(去年13家)不同的供应商,从 “执行层面”(Y 轴)和 “战略愿景层面”(X 轴)进行了分组。腾讯云连续第二年入选,阿里巴巴已出局。

「团结引擎1.2.0」正式上线!功能全面升级

本次技术更新的内容,涵盖了微信小游戏、团结引擎车机版、OpenHarmony、Audio、Virtual Geometry、Open Euler/Arm Linux 几大方向。

Omdia 预计,随着企业潜力的不断挖掘,2024年生成式AI软件市场将增长124%

Omdia 最新发布的《人工智能软件市场预测》显示,生成式人工智能(GenAI)软件收入将从 2023 年开始以 53% 的复合年增长率增长,到 2028 年达到 580 亿美元。2024 年 GenAI 软件收入将增长 124%,比之前预测的 100%有所上调。

影响 WebRTC 媒体服务器的新型 DoS 漏洞

处理 WebRTC 的 DTLS-SRTP 的媒体服务器中,特别是在处理 ClientHello 消息时,发现了一个严重的拒绝服务 (DoS) 漏洞。该漏洞是由 ICE 和 DTLS 流量之间的竞争条件引起的,可被利用来中断媒体会话,从而损害实时通信服务的可用性。缓解措施包括根据 ICE 验证的 IP 和端口组合过滤数据包。文章还指出了检测攻击的安全测试方法和策略。

如何构建云边协同的全球音视频云?| HDC 2024 分享

即构科技基于在实时互动领域的多年技术积累与实践,落地了云边协同的全球音视频云架构:多云基础设施、边缘容器、全球多中心、MSDN (Massive Serial Data Network)海量有序数据网络。这也帮助即构建立了“生于云、长于云”的云原生全球音视频云,为客户提供高品质的实时互动通信。

本文为原创稿件,版权归作者所有,如需转载,请注明出处:https://www.nxrte.com/zixun/49942.html

(0)

相关推荐

发表回复

登录后才能评论