语言模型 - 实时互动网第3页

技术文章

SmolLM2 发布：新系列（0.1B、0.3B 和 1.7B）小语言模型，性能优于 Meta Llama 3.2 1B

近年来，大型语言模型 (LLM) 的激增极大地改变了我们处理自然语言处理任务的方式。然而，这些进步并非没有缺点。GPT-4 和 Meta 的 LLaMA 等大型 LLM 的广泛使用…

AIGC

2024年11月1日

技术文章

Meta AI 发布 MobileLLM 125M、350M、600M 和 1B 模型检查点

大型语言模型 (LLM) 的广泛采用为对话式 AI、内容生成和设备端应用等领域带来了重大进步。然而，部署这些模型严重依赖大量云资源，引发了对延迟、成本和环境可持续性的担忧。像 GP…

AIGC

2024年11月1日

技术文章

Meta AI 发布 LongVU：一种可解决长视频理解重大挑战的多模态大型语言模型

理解和分析长视频一直是人工智能领域的一大挑战，这主要是因为需要大量的数据和计算资源。由于上下文长度有限，传统的多模态大型语言模型 (MLLM) 难以处理大量视频内容。这一挑战对于长…

AIGC

2024年10月31日

技术文章

Mini-InternVL: 多模态大语言模型 (MLLM) 1B 至 4B 系列，仅用 5%的参数就能实现 90% 的性能

多模态大型语言模型 (MLLM) 在人工智能领域发展迅速，它集成了视觉和语言处理功能，以增强对各种数据类型的理解和交互。这些模型通过将视觉和文本数据处理结合到一个连贯的框架中，在图…

AIGC

2024年10月30日

技术文章

SAM2Long：用于长视频分割的 SAM 2 免训练增强版

长视频分割涉及将视频分解成若干部分，以分析运动、遮挡和不同光线条件等复杂过程。它在自动驾驶、监控和视频编辑中有着多种应用。在长视频序列中准确分割对象具有挑战性，但也至关重要。困难在…

视频技术

2024年10月28日

技术文章

Salesforce AI Research 推出 BLIP-3-Video：用于视频的多模态语言模型，旨在有效捕捉多帧的时间信息

视觉语言模型（VLM）因其整合视觉和文本数据的能力而在人工智能领域日益突出。这些模型在视频理解、人机交互和多媒体应用等领域发挥着至关重要的作用，提供了根据视频输入回答问题、生成字幕…

AIGC

2024年10月25日

技术文章

CMU 研究人员发布 Pangea-7B：适用于 39 种语言的完全开放多模态大型语言模型 MLLM

尽管多模态大型语言模型 (MLLM) 近期取得了进展，但这些模型的开发主要围绕英语和以西方为中心的数据集。这种侧重导致语言和文化代表性存在巨大差距，全球许多语言和文化背景仍未得到充…

AIGC

2024年10月23日

技术文章

Meta AI 发布 Meta Spirit LM：混合文本和语音的开源多模态语言模型

Meta AI 最近发布了 Meta Spirit LM，这是一种创新的开源多模态语言模型，能够自由混合文本和语音。Meta Spirit LM 通过在单词级别集成文本和语音来解决现有 TTS 系统的局限性，使模型能够更无缝地跨模态。

AIGC

2024年10月21日

技术文章

Open Collective 发布 Magnum/v4 系列型号，参数从 9B 到 123B

Open Collective最近推出了 Magnum/v4 系列，其中包括 9B、12B、22B、27B、72B 和 123B 参数的模型。它旨在为大型语言模型创建新标准，供研究人员和开发人员免费使用。

AIGC

2024年10月21日

技术文章

JPEG-LM | 利用规范编解码器实现LLMs对图像的高效生成

近期的图像和视频生成工作采用了自回归的大语言模型（LLM）架构，这种架构具有通用性，可能更容易与多模态系统集成。将语言生成中的自回归训练应用于视觉生成的关键在于离散化——也就是将图…

图像处理

2024年10月17日

技术文章

MEGA-Bench：一项全面的 AI 基准测试，以可控的推理成本将多模态评估扩展到 500 多个实际任务

视觉语言模型 (VLM) 评估面临的一个主要挑战是了解它们在各种实际任务中的各种能力。现有的基准测试往往存在不足，侧重于狭窄的任务集或有限的输出格式，导致无法充分评估模型的全部潜力…

AIGC

2024年10月15日

行业资讯

Llamafile 0.8.14 引入新的 CLI 聊天机器人界面

Llamafile 是 Mozilla 的一个开源项目，它允许将大型语言模型以单个文件的形式发布，可以跨操作系统运行，也可以在 CPU 或 GPU 上运行，全面简化了 LLM 的发…

追风者

2024年10月15日

技术文章

OpenR：增强大型语言模型推理能力的开源 AI 框架

大型语言模型 (LLM) 在语言生成方面取得了重大进展，但其推理能力仍然不足以解决复杂的问题。数学、编码和科学问题等任务继续带来重大挑战。增强 LLM 的推理能力对于将其能力提升到…

AIGC

2024年10月14日

技术文章

LOONG：一款基于自回归 LLM 的新型视频生成器，可生成长达一分钟的视频

利用自回归大语言模型(LLM) 生成视频是一个新兴领域，发展前景广阔。虽然 LLM 在自然语言处理中生成连贯且冗长的标记序列方面表现出色，但它们在视频生成中的应用仅限于几秒钟的短视…

AIGC

2024年10月8日

技术文章

微软发布 VoiceRAG：使用 GPT-4 和 Azure AI 搜索的高级语音界面，用于实时对话应用程序

微软推出了VoiceRAG，这是一款基于语音的检索增强生成 (RAG) 系统，它利用新的 Azure OpenAI GPT-4O-realtime-preview 模型将音频输入和…

AIGC

2024年10月4日

技术文章

Ovis 1.6：一种开源多模态大型语言模型 (MLLM) 架构，旨在结构化地对齐视觉和文本嵌入

人工智能 (AI) 正在迅速变革，尤其是在多模态学习方面。多模态模型旨在结合视觉和文本信息，使机器能够理解和生成需要来自两个来源的输入的内容。此功能对于图像字幕、视觉问答和内容创建…

AIGC

2024年9月30日

行业资讯

AMD 发布 AMD-135M：开源小语言模型

近日，AMD 宣布，“AMD-135M ”是他们公开发布的首个小型语言模型。AMD-135M 是开源的，其训练代码、数据集和权重都是开源的，有助于其他 SLM 和 LLM 的开发。…

AIGC

2024年9月29日

技术文章

Kyutai 开放源码 Moshi：突破性的全双工实时对话系统

多年来，口语对话系统领域取得了长足的发展，从简单的语音界面发展到能够维持实时对话的复杂模型。Siri、Alexa 和谷歌助手等早期系统开创了声控交互的先河，允许用户通过语音命令触发…

音频技术

2024年9月20日

行业资讯

云栖发布：从级联到端到端语音翻译大模型Gummy

在2024年云栖大会上，通义实验室语音团队和自然语言处理团队联盟推出了端到端语音翻译大模型Gummy，可实时流式生成语音识别与翻译结果。Gummy目前支持中文、英语、粤语、日语、韩…

厂商动态

2024年9月19日

技术文章

IBM 发布 PowerLM-3B 和 PowerMoE-3B：利用 30 亿个参数和先进的 Power 调度器革新语言模型，实现高效的大规模 AI 训练

IBM 推出 PowerLM-3B 和 PowerMoE-3B 标志着 IBM 在提高语言模型训练效率和可扩展性方面取得了重大进展。IBM 基于创新方法推出了这些模型，这些方法解决…

AIGC

2024年9月12日