语言模型
-
LLaVA-o1:一个能够进行与 GPT-o1 类似的自发、系统推理的视觉语言模型
视觉语言模型 (VLM) 的开发在处理复杂的视觉问答任务方面面临挑战。尽管 OpenAI 的 GPT-o1 等大型语言模型在推理能力方面取得了长足进步,但 VLM 仍然难以进行系统…
-
Nexa AI 发布 OmniVision-968M:最小的视觉语言模型,可为边缘设备减少 9 倍的 Token 数量
边缘人工智能长期以来一直面临着平衡效率和有效性的挑战。由于边缘设备规模大、计算需求高以及延迟问题,在边缘设备上部署视觉语言模型 (VLM) 非常困难。为云环境设计的模型通常会因边缘…
-
Fixie AI 推出 Ultravox v0.4.1:专为实现与 LLM 实时对话而训练的开放式语音模型系列
人工智能实时无缝交互对开发人员和研究人员来说一直是一项复杂的任务。一项重大挑战在于将多模态信息(例如文本、图像和音频)集成到一个有凝聚力的对话系统中。尽管 GPT-4 等大型语言模…
-
TensorOpera AI 发布 Fox-1:系列小型语言模型包括 Fox-1-1.6B 和 Fox-1-1.6B-Instruct-v0.1
大型语言模型 (LLM) 的最新进展已在从解决数学问题到回答医学问题的广泛应用中展现出强大的能力。然而,由于这些模型规模庞大,并且需要大量的计算资源来训练和部署它们,因此它们变得越…
-
声学模型和语言模型融合的N种方式
作者:Ryuk来源:语音算法组链接:https://mp.weixin.qq.com/s/PMKFQvPNLJH7qXqp8fWjkA 语音识别算法目的是从声学特征x中找到最有可能…
-
Cerebras Systems 改变 AI 推理:使用 Llama 3.1-70B 实现 3 倍速度提升,每秒处理 2,100 个 Token
AI 继续快速发展,但这种发展带来了一系列技术挑战,需要克服这些挑战才能真正蓬勃发展。当今最紧迫的挑战之一是推理性能。大型语言模型 (LLM)(例如基于 GPT 的应用程序中使用的…
-
Fish Agent v0.1 3B 发布:突破性的语音对语音模型,能够以前所未有的精度捕捉和生成环境音频信息
当前的文本转语音 (TTS) 系统(例如 VALL-E 和 Fastspeech)面临着与处理复杂语言特征、管理复音表达和生成自然的多语言语音相关的持续挑战。在处理依赖于上下文的复…
-
OuteTTS-0.1-350M 发布:无需外部适配器即可利用纯语言建模的新型 TTS 合成模型
近年来,文本转语音 (TTS) 合成领域取得了快速发展,但仍然充满挑战。传统的 TTS 模型通常依赖于复杂的架构,包括深度神经网络和专用模块,例如声码器、文本分析器和其他适配器,以…
-
SmolLM2 发布:新系列(0.1B、0.3B 和 1.7B)小语言模型,性能优于 Meta Llama 3.2 1B
近年来,大型语言模型 (LLM) 的激增极大地改变了我们处理自然语言处理任务的方式。然而,这些进步并非没有缺点。GPT-4 和 Meta 的 LLaMA 等大型 LLM 的广泛使用…
-
Meta AI 发布 MobileLLM 125M、350M、600M 和 1B 模型检查点
大型语言模型 (LLM) 的广泛采用为对话式 AI、内容生成和设备端应用等领域带来了重大进步。然而,部署这些模型严重依赖大量云资源,引发了对延迟、成本和环境可持续性的担忧。像 GP…
-
Meta AI 发布 LongVU:一种可解决长视频理解重大挑战的多模态大型语言模型
理解和分析长视频一直是人工智能领域的一大挑战,这主要是因为需要大量的数据和计算资源。由于上下文长度有限,传统的多模态大型语言模型 (MLLM) 难以处理大量视频内容。这一挑战对于长…
-
Mini-InternVL: 多模态大语言模型 (MLLM) 1B 至 4B 系列,仅用 5%的参数就能实现 90% 的性能
多模态大型语言模型 (MLLM) 在人工智能领域发展迅速,它集成了视觉和语言处理功能,以增强对各种数据类型的理解和交互。这些模型通过将视觉和文本数据处理结合到一个连贯的框架中,在图…
-
SAM2Long:用于长视频分割的 SAM 2 免训练增强版
长视频分割涉及将视频分解成若干部分,以分析运动、遮挡和不同光线条件等复杂过程。它在自动驾驶、监控和视频编辑中有着多种应用。在长视频序列中准确分割对象具有挑战性,但也至关重要。困难在…
-
Salesforce AI Research 推出 BLIP-3-Video:用于视频的多模态语言模型,旨在有效捕捉多帧的时间信息
视觉语言模型(VLM)因其整合视觉和文本数据的能力而在人工智能领域日益突出。这些模型在视频理解、人机交互和多媒体应用等领域发挥着至关重要的作用,提供了根据视频输入回答问题、生成字幕…
-
CMU 研究人员发布 Pangea-7B:适用于 39 种语言的完全开放多模态大型语言模型 MLLM
尽管多模态大型语言模型 (MLLM) 近期取得了进展,但这些模型的开发主要围绕英语和以西方为中心的数据集。这种侧重导致语言和文化代表性存在巨大差距,全球许多语言和文化背景仍未得到充…
-
Meta AI 发布 Meta Spirit LM:混合文本和语音的开源多模态语言模型
Meta AI 最近发布了 Meta Spirit LM,这是一种创新的开源多模态语言模型,能够自由混合文本和语音。Meta Spirit LM 通过在单词级别集成文本和语音来解决现有 TTS 系统的局限性,使模型能够更无缝地跨模态。
-
Open Collective 发布 Magnum/v4 系列型号,参数从 9B 到 123B
Open Collective最近推出了 Magnum/v4 系列,其中包括 9B、12B、22B、27B、72B 和 123B 参数的模型。它旨在为大型语言模型创建新标准,供研究人员和开发人员免费使用。
-
JPEG-LM | 利用规范编解码器实现LLMs对图像的高效生成
近期的图像和视频生成工作采用了自回归的大语言模型(LLM)架构,这种架构具有通用性,可能更容易与多模态系统集成。将语言生成中的自回归训练应用于视觉生成的关键在于离散化——也就是将图…
-
MEGA-Bench:一项全面的 AI 基准测试,以可控的推理成本将多模态评估扩展到 500 多个实际任务
视觉语言模型 (VLM) 评估面临的一个主要挑战是了解它们在各种实际任务中的各种能力。现有的基准测试往往存在不足,侧重于狭窄的任务集或有限的输出格式,导致无法充分评估模型的全部潜力…
-
Llamafile 0.8.14 引入新的 CLI 聊天机器人界面
Llamafile 是 Mozilla 的一个开源项目,它允许将大型语言模型以单个文件的形式发布,可以跨操作系统运行,也可以在 CPU 或 GPU 上运行,全面简化了 LLM 的发…