语言模型
-
Meta AI 发布 LongVU:一种可解决长视频理解重大挑战的多模态大型语言模型
理解和分析长视频一直是人工智能领域的一大挑战,这主要是因为需要大量的数据和计算资源。由于上下文长度有限,传统的多模态大型语言模型 (MLLM) 难以处理大量视频内容。这一挑战对于长…
-
Mini-InternVL: 多模态大语言模型 (MLLM) 1B 至 4B 系列,仅用 5%的参数就能实现 90% 的性能
多模态大型语言模型 (MLLM) 在人工智能领域发展迅速,它集成了视觉和语言处理功能,以增强对各种数据类型的理解和交互。这些模型通过将视觉和文本数据处理结合到一个连贯的框架中,在图…
-
SAM2Long:用于长视频分割的 SAM 2 免训练增强版
长视频分割涉及将视频分解成若干部分,以分析运动、遮挡和不同光线条件等复杂过程。它在自动驾驶、监控和视频编辑中有着多种应用。在长视频序列中准确分割对象具有挑战性,但也至关重要。困难在…
-
Salesforce AI Research 推出 BLIP-3-Video:用于视频的多模态语言模型,旨在有效捕捉多帧的时间信息
视觉语言模型(VLM)因其整合视觉和文本数据的能力而在人工智能领域日益突出。这些模型在视频理解、人机交互和多媒体应用等领域发挥着至关重要的作用,提供了根据视频输入回答问题、生成字幕…
-
CMU 研究人员发布 Pangea-7B:适用于 39 种语言的完全开放多模态大型语言模型 MLLM
尽管多模态大型语言模型 (MLLM) 近期取得了进展,但这些模型的开发主要围绕英语和以西方为中心的数据集。这种侧重导致语言和文化代表性存在巨大差距,全球许多语言和文化背景仍未得到充…
-
Meta AI 发布 Meta Spirit LM:混合文本和语音的开源多模态语言模型
Meta AI 最近发布了 Meta Spirit LM,这是一种创新的开源多模态语言模型,能够自由混合文本和语音。Meta Spirit LM 通过在单词级别集成文本和语音来解决现有 TTS 系统的局限性,使模型能够更无缝地跨模态。
-
Open Collective 发布 Magnum/v4 系列型号,参数从 9B 到 123B
Open Collective最近推出了 Magnum/v4 系列,其中包括 9B、12B、22B、27B、72B 和 123B 参数的模型。它旨在为大型语言模型创建新标准,供研究人员和开发人员免费使用。
-
JPEG-LM | 利用规范编解码器实现LLMs对图像的高效生成
近期的图像和视频生成工作采用了自回归的大语言模型(LLM)架构,这种架构具有通用性,可能更容易与多模态系统集成。将语言生成中的自回归训练应用于视觉生成的关键在于离散化——也就是将图…
-
MEGA-Bench:一项全面的 AI 基准测试,以可控的推理成本将多模态评估扩展到 500 多个实际任务
视觉语言模型 (VLM) 评估面临的一个主要挑战是了解它们在各种实际任务中的各种能力。现有的基准测试往往存在不足,侧重于狭窄的任务集或有限的输出格式,导致无法充分评估模型的全部潜力…
-
Llamafile 0.8.14 引入新的 CLI 聊天机器人界面
Llamafile 是 Mozilla 的一个开源项目,它允许将大型语言模型以单个文件的形式发布,可以跨操作系统运行,也可以在 CPU 或 GPU 上运行,全面简化了 LLM 的发…
-
OpenR:增强大型语言模型推理能力的开源 AI 框架
大型语言模型 (LLM) 在语言生成方面取得了重大进展,但其推理能力仍然不足以解决复杂的问题。数学、编码和科学问题等任务继续带来重大挑战。增强 LLM 的推理能力对于将其能力提升到…
-
LOONG:一款基于自回归 LLM 的新型视频生成器,可生成长达一分钟的视频
利用自回归大语言模型(LLM) 生成视频是一个新兴领域,发展前景广阔。虽然 LLM 在自然语言处理中生成连贯且冗长的标记序列方面表现出色,但它们在视频生成中的应用仅限于几秒钟的短视…
-
微软发布 VoiceRAG:使用 GPT-4 和 Azure AI 搜索的高级语音界面,用于实时对话应用程序
微软推出了VoiceRAG,这是一款基于语音的检索增强生成 (RAG) 系统,它利用新的 Azure OpenAI GPT-4O-realtime-preview 模型将音频输入和…
-
Ovis 1.6:一种开源多模态大型语言模型 (MLLM) 架构,旨在结构化地对齐视觉和文本嵌入
人工智能 (AI) 正在迅速变革,尤其是在多模态学习方面。多模态模型旨在结合视觉和文本信息,使机器能够理解和生成需要来自两个来源的输入的内容。此功能对于图像字幕、视觉问答和内容创建…
-
AMD 发布 AMD-135M:开源小语言模型
近日,AMD 宣布,“AMD-135M ”是他们公开发布的首个小型语言模型。AMD-135M 是开源的,其训练代码、数据集和权重都是开源的,有助于其他 SLM 和 LLM 的开发。…
-
Kyutai 开放源码 Moshi:突破性的全双工实时对话系统
多年来,口语对话系统领域取得了长足的发展,从简单的语音界面发展到能够维持实时对话的复杂模型。Siri、Alexa 和谷歌助手等早期系统开创了声控交互的先河,允许用户通过语音命令触发…
-
云栖发布:从级联到端到端语音翻译大模型Gummy
在2024年云栖大会上,通义实验室语音团队和自然语言处理团队联盟推出了端到端语音翻译大模型Gummy,可实时流式生成语音识别与翻译结果。Gummy目前支持中文、英语、粤语、日语、韩…
-
IBM 发布 PowerLM-3B 和 PowerMoE-3B:利用 30 亿个参数和先进的 Power 调度器革新语言模型,实现高效的大规模 AI 训练
IBM 推出 PowerLM-3B 和 PowerMoE-3B 标志着 IBM 在提高语言模型训练效率和可扩展性方面取得了重大进展。IBM 基于创新方法推出了这些模型,这些方法解决…
-
ollama v0.3 发布,支持 Llama 3.1 和 Mistral Large 2
ollama 是在系统上轻松运行大型语言模型 (LLM) 的开源工具,对于 ollama 的爱好者来说,olama v0.3 已经发布,并支持最新的激动人心的模型。 连夜发布的 o…
-
语音生成模型整理以及LauraGPT介绍
因为最近做了一段时间的语音生成方向,期间也整理了一些开源项目和相关论文,每个或多或少都有可借鉴的地方,对于了解现阶段语音生成的相关技术还是比较有帮助的,后续也会根据自己的节奏来分享…