分享实时互动行业每周干货及资讯,包含人工智能、音视频技术、编解码、图像/视觉等。
编辑:大河。微信号:rteworld,欢迎投稿。
人工智能
阿里史上最大规模开源发布,超GPT-4o 、Llama-3.1!
阿里巴巴官宣了史上最大规模的开源发布,推出了基础模型Qwen2.5、专用于编码Qwen2.5-Coder和数学的Qwen2.5-Math。这三大类模型一共有10多个版本,包括0.5B、1.5B、3B、7B、14B、32B和72B,适用于个人、企业以及移动端、PC等不同人群不同业务场景的模型。
李飞飞任CEO,空间智能公司World Labs亮相,全明星阵容曝光
斯坦福大学计算机科学家李飞飞正式宣布创办 AI 初创公司 World Labs,旨在向人工智能系统传授有关物理现实的深入知识。李飞飞表示在 AI 领域中,真正难以解决的问题是空间智能 —— 这项技术可以赋能和实现创作、设计、学习、AR/VR、机器人等领域的无数可能用例。
在最新发布的o1-mini和o1-preview版本中,尽管在HumanEval基准测试中的提升仅为2.2%,看似相较于其前代产品GPT-4o并没有显著飞跃,但它们的实际技术进展却不可小觑。
Transformer推理天花板被谷歌打破?DeepMind首席科学家亮出84页PPT,却遭LeCun反对
随OpenAI爆火的CoT,已经引发了大佬间的激战!谷歌DeepMind首席科学家Denny Zhou拿出一篇ICLR 2024论文称:CoT可以让Transformer推理无极限。但随即他就遭到了田渊栋和LeCun等的质疑。最终,CoT会是通往AGI的正确路径吗?
AI 3D生成天花板再拉升!清华团队炼成3D Scaling Law
《黑神话·悟空》的火爆,带火的不仅是3D游戏本身,还有背后暗潮汹涌的AI 3D生成技术。国内3D大模型头部玩家VAST更新了旗下的大模型Tripo,是基于千万级高质量原生自有数据库训出来的那种超强版本。
TDD(Target-Driven Distillation)作为一种创新的加速技术,不仅在生成高清且富有挑战性的图像领域展现出卓越性能,还具备高度的灵活性和兼容性。它能够无缝适应各种基础模型,与多种 Lora 技术完美融合,并支持 ControlNet 和 InstantID 等先进的控制策略,确保在多样化的应用场景中提供卓越的性能和用户体验。
音视频技术
投屏属于音视频开发的一个细分领域知识体系,所以了解必备的音视频基础知识也是非常非常有必要的,本节就给大家讲解投屏相关的必备音视频基础知识。
实际演示如何搭建一个简单的 1v1 音视频通话,让理论知识真正应用于实践。同时,还将介绍多路通信架构,探索如何在 WebRTC 中处理复杂的通信需求。
LASS 旨在通过自然语言查询,从混合音频中分离出目标声音。作为其中的代表模型AudioSep,是一种适用于开放领域音频源分离的基础模型,支持基于自然语言查询进行操作。
在当下的直播业务中,实时音视频交互已经变成主播与主播,主播与用户之间的主要交流模式。B 站通过对互动中心进行平台化架构升级,来融合各种互动业务,降低系统复杂度同时提升系统性能。
本文提出了一种基于预训练神经渲染场 (NeRF) 模型的生成式 3D 视频会议系统,旨在解决传统视频会议系统在弱网络条件下存在的画面冻结和质量下降问题。
编解码
AVS工作组视频组组长马思伟教授接受联想研究院与联想未来中心的联合专访, 围绕AVS、超高清视频编解码、3D以及沉浸式到底是什么、怎么样、未来前景如何等先进技术问题展开深入探讨。
视频编码的重要任务和研究重点,就是如何达到压缩率和视频质量的最优平衡,即在设计时需要这种考虑视频的码率和失真,在提高压缩效率的同时降低视频质量损失,即本文将要介绍的视频编码中的率失真优化技术。
H.264/H.265 Vulkan编码器支持已合并到FFmpeg
FFmpeg 多媒体库继续加强对 Vulkan 视频 API 的支持,最新的提交合并了对 H.264 和 H.265/HEVC Vulkan 编码的支持。
H.266,也被称为VVC,是近年来由MPEG和ITU联合开发并发布的新一代国际视频编码标准。尽管H.266拥有诸多技术优势,但至今仍未能在市场上广泛流行,这背后有多重原因。
图像技术
色彩一致性是人类视觉感知的一个特性,看苹果如何软硬件结合,在拍摄上重现该“生理”特性。
多模态模型(LMMs)在视觉和语言方面展现出非常强大的能力,它们能够很好地理解高级视觉内容和感知低级视觉属性,但现有研究(Q-Bench)已经证明,它们在准确预测与人类偏好一致的分数方面仍然不足。本论文作者研究了它们重要的最后一英里:如何教导 LMMs 预测与人类一致的分数?
图像超分一直是一个活跃的研究课题,旨在从低分辨率(LR)重建高分辨率(HR)图像。Real-ESRGAN通过一系列创新性的改进,有效地解决了图像超分辨率领域的多个关键问题。
在调节黑电平的过程中,我们都知道黑电平扣多了图像会偏绿,扣的少了会偏紫,但具体是怎么推导出来的呢?
行业资讯
一个通信老司机,从技术的角度,给大家解读一下BP机爆炸事件。
摩尔线程正式开源OpenCV-MUSA,加速计算机视觉应用开发
近日,摩尔线程宣布其自研统一系统架构MUSA已完成与开源计算机视觉库OpenCV的适配,并正式发布OpenCV-MUSA开源项目。
基于FreeSWITCH的开源电话系统-FusionPBX 5.3.x发布,新界面新体验
FusionPBX是基于FreeSWITCH开发的单机或基于域的多租户PBX、运营级PBX交换机支持各种呼入呼出的语音呼叫,电子传真,和会议服务等功能。新发布版本重新优化了界面设计,更直观和更符合F界面设计理念。
定档10月25-26日!第十届 RTE 大会邀您共探 AI+RTE 的超级进化
10月25日-26日,由声网和RTE开发者社区联合主办的RTE2024 第十届实时互联网大会将在北京·悠唐皇冠假日酒店正式开启!开放报名中。
伴随着AI技术的进步发展与落地应用,社交行业正在积极探索人工智能与社交场景的深度融合,为用户带来全新的体验和可能性。本文探讨了AI技术与社交领域深度融合的机遇与挑战。
IDC最新发布的《AR/VR头显市场季度追踪报告》显示,2024年上半年,中国AR/VR头显出货23.3万台(sales-in口径),同比下滑29.1%。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/52518.html