技术文章
-
Google AI 发布 Gemini 2.0 Flash:比 Gemini 1.5 Pro 快 2 倍的全新 AI 模型
Google AI Research 推出了 Gemini 2.0 Flash,这是其 Gemini AI 模型的最新版本。此版本侧重于性能改进,尤其是速度显著提高和多模式功能扩展…
-
优化 WebRTC 连接:在 Debian 上安装和配置 coturn TURN 服务器的指南
WebRTC 改变了我们通过互联网体验实时通信的方式。从视频会议和在线游戏到直播和远程协作,WebRTC 实现了直接在网络浏览器和移动应用程序中进行无缝点对点通信。然而,网络地址转…
-
MQ消息乱序问题解析与实战解决方案
1. 背景 在分布式系统中,消息队列(MQ)是实现系统解耦、异步通信的重要工具。然而,MQ消费时出现的消息乱序问题,经常会对业务逻辑的正确执行和系统稳定性产生不良影响。本文将详细探…
-
从规模到密度:评估大型语言模型的新型 AI 框架
大型语言模型 (LLM)在人工智能领域取得了重大进展,随着参数和训练数据的增长,它们在各种任务上都表现出色。GPT -3、PaLM和Llama-3.1在具有数十亿个参数的众多应用中…
-
3D直播观赛的背后:2D转3D技术
写在前面:随着技术的不断进步和创新,人们对于视听体验的需求也在不断提升。通过将平面视频转变为3D视频,观赏者能够沉浸于更加立体、生动的视听世界中,享受到更加真实、逼真的观赏体验。随…
-
Media Over QUIC 能在下一代流媒体领域超越 WHIP 和 WHEP 吗?
直播和点播流媒体的发展速度令人惊叹。为满足全球受众不断升级的需求而设计的新兴技术正在加入甚至取代传统协议。WebRTC-HTTP Ingestion Protocol (WHIP)…
-
Meta AI 推出 SPDL:改善 AI 训练期间数据传递方式的工具
如今,训练 AI 模型不仅要设计更好的架构,还要有效地管理数据。现代模型需要大量数据集,并且需要将这些数据集快速传送到 GPU 和其他加速器。问题是什么?传统的数据加载系统往往落后…
-
webrtc之rtp协议(二): 封装H264
Webrtc在对媒体编码H264进行rtp封装,在RFC6184有详细解释。本文介绍:rtp如何封装H264和代码实现。
-
噪声增强 CAM(连续自回归模型):推进实时音频生成
自回归模型(Autoregressive models)用于生成离散标记序列。在该方法中,下一个标记由给定序列中的前一个标记决定。最近的研究表明,自回归生成连续嵌入序列也是可行的。…
-
Connected in 3D | 与Marc Petit探讨实时3D的变革力量
摘要: 在本期《3D 连接:实时解决方案与数字孪生》播客中,Ashley Crowder与Epic Games前副总裁兼Unreal Engine总经理Marc Petit进行访谈…
-
视频播放卡顿问题的分析和解决丨音视频实战经验
1、原因和解决思路 首先得理清楚视频播放过程中卡顿的根本原因: 我们这里来探讨一下如何从缓冲策略上来做优化。 缓冲策略设计需要考虑以下核心要素: 这些都需要在架构设计中体现出来。因…
-
多播ABR是直播的未来吗?能挽救保罗与泰森之战吗
当 Netflix 为创纪录的 6500 万同时在线观众播放保罗与泰森的比赛时,并非一帆风顺。许多观众因缓冲、卡顿和音频同步问题而感到沮丧。与许多其他供应商一样,流媒体技术领域的主…
-
ZipNN:一种针对神经网络的新型无损压缩方法
大型语言模型 (LLM) 的快速发展暴露了模型部署和通信方面的关键基础设施挑战。随着模型规模和复杂性的扩大,它们会遇到严重的存储、内存和网络带宽瓶颈。模型大小的指数增长带来了计算和…
-
Google DeepMind 发布 PaliGemma 2:全新开放式视觉语言模型系列(3B、10B 和 28B)
视觉语言模型 (VLM) 已经取得了长足的进步,但在有效推广到不同任务方面,它们仍然面临重大挑战。这些模型通常难以处理各种输入数据类型,例如各种分辨率的图像或需要精细理解的文本提示…
-
通义语音处理技术ClearerVoice-Studio
随着语音技术的普及,语音质量已成为人们关注的焦点。环境噪声、混响、设备拾音等问题,常常使语音质量和可懂度大打折扣。无论是录制清晰语音却因周围环境嘈杂充满噪声,还是在地铁、餐厅等喧闹…
-
沉浸式音频第二部分:为下一代声音混音
几十年来,混音控制台不断适应专业音响的发展,以容纳更多的输入,这主要是由音乐制作推动的;当磁带的容量在 20 世纪 90 年代达到 48 个音轨的最大值,录音转到(理论上)无限的虚…
-
沉浸式音频第 1 部分:专注于捕捉的工具包
有关广播沉浸式音频的讨论往往集中在输出方面:主要是扬声器的数量和位置,尤其是头顶的四个扬声器。在美国,杜比全景声(Dolby Atmos)是主流的沉浸式音频格式,这通常已成定局。然…
-
对齐人类主观偏好的图像质量评价方法 | 火山引擎论文入选国际会议ACM MM’24
2024年10月28日至11月1日,ACM Multimedia(ACM MM) 2024在澳大利亚墨尔本召开,该会议是中国计算机学会(CCF)推荐的多媒体领域的A类国际学术会议。…
-
亚马逊推出 Amazon Nova:新一代 SOTA 基础模型,可提供高级智能以及价格与性能的良好平衡
人工智能和机器学习的进步为各行各业的企业带来了新功能。从文本生成到视频合成,现代人工智能模型正在改变组织的运营和创新方式。然而,像 GPT-4 和 Llama 这样的大型基础模型在…
-
OpenVidu 3.0.0 正式发布,将使实时应用更高效、性能更强、更可靠安全
OpenVidu 3.0.0 从测试版到全面上市标志着近两年前开始的旅程的结束。当时,OpenVidu 团队决定彻底改变平台的底层技术和架构,以提供实时媒体领域的最新进展。 以下内…