AIGC
-
VideoChat-Flash:针对长文本视频建模的分层压缩技术,可在计算量减少 100 倍的情况下处理长文本视频
多模态大型语言模型最重要、最先进的功能之一是长上下文视频建模,它允许模型处理长达数小时的电影、纪录片和直播。然而,尽管 LLM 在视频理解(包括字幕生成和问题解答)方面取得了值得称…
-
Kyutai Labs 发布 Helium-1 预览版:具有 2B 参数的轻量级语言模型,针对边缘和移动设备
边缘和移动设备对 AI 模型的依赖日益增加,凸显了重大挑战。平衡计算效率、模型大小和多语言能力仍然是一个持续的障碍。传统的大型语言模型(LLM) 虽然功能强大,但通常需要大量资源,…
-
MinMo:约 8B 参数的多模态大型语言模型,实现无缝语音交互
大型语言和多模态语音文本模型的进步为无缝、实时、自然和类人语音交互奠定了基础。要实现这一点,系统需要处理语音内容、情绪语调和音频提示,同时给出准确而连贯的响应。然而,在克服语音和文…
-
OpenBMB发布MiniCPM-o 2.6:一种灵活的多模态模型,可理解视觉、语音和语言并在边缘设备上运行
OpenBMB 发布 MiniCPM-o 2.6 ,该模型提供全面的多模式功能,支持视觉、语音和语言处理,同时可在智能手机、平板电脑和 iPad 等边缘设备上高效运行。
-
Sa2VA:通过 SAM-2 和 LLaVA 集成实现密集基础视频和图像理解的统一 AI 框架
多模态大型语言模型(MLLM) 彻底改变了各种图像和视频相关任务,包括视觉问答、叙事生成和交互式编辑。该领域的一个关键挑战是实现细粒度的视频内容理解,这涉及像素级分割、使用语言描述…
-
HBI V2:一种灵活的 AI 框架,可通过多元合作游戏提升视频语言学习
视频语言表征学习是多模态表征学习的一个重要子领域,它专注于视频与其相关文本描述之间的关系。它在许多领域都有应用,从问答和文本检索到摘要。在这方面,对比学习已经成为一种强大的技术,它…
-
VITA-1.5:多模态大语言模型,通过三阶段训练方法整合视觉、语言和语音
VITA-1.5,这是一种多模态大型语言模型,通过精心设计的三阶段训练方法将视觉、语言和语音融为一体。
-
Dolphin 3.0 发布(Llama 3.1 + 3.2 + Qwen 2.5):本地优先、可操控的 AI 模型
人工智能已经取得了长足进步,改变了我们的工作、生活和互动方式。然而,挑战依然存在。许多人工智能系统严重依赖基于云的基础设施,这引发了合理的隐私担忧。其他系统提供有限的用户控制,使定…
-
通过流匹配实现高效、高质量的文本转音频生成
文本转音频生成技术彻底改变了音频内容的创建方式,使传统上需要大量专业知识和时间的流程自动化。该技术可以将文本提示转换为丰富多样且富有表现力的音频,从而简化音频制作和创意行业的工作流…
-
AutoSculpt:基于模式的自动剪枝框架,旨在利用图形学习和深度强化学习提高效率和准确性
由于深度神经网络 (DNN) 计算密集型的特性,在智能手机和自动驾驶汽车等边缘设备上部署深度神经网络 (DNN) 仍然是一项重大挑战。大多数现有的剪枝算法都难以在高压缩率和推理精度…
-
AGUVIS:一种统一的纯视觉框架,可跨平台转变自主 GUI 交互
图形用户界面 (GUI) 在人机交互中起着基础性作用,为用户提供跨 Web、桌面和移动平台完成任务的媒介。该领域的自动化具有变革性,可以大幅提高生产力并实现无缝任务执行而无需人工干…
-
NOVA:一种无需矢量量化的新型视频自回归模型
自回归 LLM 是复杂的神经网络,通过顺序预测生成连贯且上下文相关的文本。这些 LLMS 擅长处理大型数据集,并且在翻译、摘要和对话式 AI 方面非常强大。然而,实现高质量的视觉生…
-
Google DeepMind 推出“SALT”:一种使用 SLM 高效训练高性能大型语言模型的机器学习方法
大型语言模型 (LLM) 是众多应用的支柱,例如对话代理、自动内容创建和自然语言理解任务。它们的有效性在于它们能够从庞大的数据集中建模和预测复杂的语言模式。然而,由于训练的计算成本…
-
Microsoft AI 推出 SCBench:用于评估大型语言模型中长上下文方法的综合基准
长上下文 LLM 支持从 128K 到 10M 个 token 的扩展上下文窗口,从而支持诸如存储库级代码分析、长文档问答和多镜头上下文学习等高级应用。然而,这些功能在推理过程中面…
-
谷歌发布用于视频生成的 Veo 2 和用于图像创建的 Imagen 3 :为生成 4K 视频和数分钟长视频设定新标准
视频和图像生成创新正在提高视觉效果的质量,并专注于使 AI 模型对详细提示做出更灵敏的响应。AI 工具通过更准确地再现现实世界的物理和人类运动,为艺术家、电影制作人、企业和创意专业…
-
微软人工智能研究院推出 OLA-VLM:以视觉为中心的多模态大型语言模型优化方法
多模态大型语言模型 (MLLM) 正在快速发展,使机器能够同时解释和推理文本和视觉数据。这些模型在图像分析、视觉问答和多模态推理方面具有变革性的应用。通过弥合视觉与语言之间的差距,…
-
InternLM-XComposer2.5-OmniLive:用于长期流式视频和音频交互的综合多模态 AI 系统
AI 系统正在通过实现与动态环境的实时交互来模拟人类认知。从事 AI 工作的研究人员旨在开发无缝集成音频、视频和文本输入等多模态数据的系统。通过模仿人类的感知、推理和记忆,这些系统…
-
微软 AI 推出 Phi-4:全新 140 亿参数小型语言模型,专攻复杂推理
大型语言模型在理解自然语言、解决编程任务和应对推理挑战方面取得了令人瞩目的进步。然而,它们的高计算成本和对大规模数据集的依赖带来了一系列问题。许多数据集缺乏复杂推理所需的多样性和深…
-
OpenAI Sora 与 AWS Nova 的区别:哪个更适合视频创作?
最近,OpenAI 的 Sora 和亚马逊(AWS)的 Nova 在 Bedrock 平台上发布,标志着 AI 领域翻开了激动人心的新篇章。虽然这两种模式都以各自的方式推动着这一领…
-
Google AI 发布 Gemini 2.0 Flash:比 Gemini 1.5 Pro 快 2 倍的全新 AI 模型
Google AI Research 推出了 Gemini 2.0 Flash,这是其 Gemini AI 模型的最新版本。此版本侧重于性能改进,尤其是速度显著提高和多模式功能扩展…