语言模型
-
Ovis 1.6:一种开源多模态大型语言模型 (MLLM) 架构,旨在结构化地对齐视觉和文本嵌入
人工智能 (AI) 正在迅速变革,尤其是在多模态学习方面。多模态模型旨在结合视觉和文本信息,使机器能够理解和生成需要来自两个来源的输入的内容。此功能对于图像字幕、视觉问答和内容创建…
-
AMD 发布 AMD-135M:开源小语言模型
近日,AMD 宣布,“AMD-135M ”是他们公开发布的首个小型语言模型。AMD-135M 是开源的,其训练代码、数据集和权重都是开源的,有助于其他 SLM 和 LLM 的开发。…
-
Kyutai 开放源码 Moshi:突破性的全双工实时对话系统
多年来,口语对话系统领域取得了长足的发展,从简单的语音界面发展到能够维持实时对话的复杂模型。Siri、Alexa 和谷歌助手等早期系统开创了声控交互的先河,允许用户通过语音命令触发…
-
云栖发布:从级联到端到端语音翻译大模型Gummy
在2024年云栖大会上,通义实验室语音团队和自然语言处理团队联盟推出了端到端语音翻译大模型Gummy,可实时流式生成语音识别与翻译结果。Gummy目前支持中文、英语、粤语、日语、韩…
-
IBM 发布 PowerLM-3B 和 PowerMoE-3B:利用 30 亿个参数和先进的 Power 调度器革新语言模型,实现高效的大规模 AI 训练
IBM 推出 PowerLM-3B 和 PowerMoE-3B 标志着 IBM 在提高语言模型训练效率和可扩展性方面取得了重大进展。IBM 基于创新方法推出了这些模型,这些方法解决…
-
ollama v0.3 发布,支持 Llama 3.1 和 Mistral Large 2
ollama 是在系统上轻松运行大型语言模型 (LLM) 的开源工具,对于 ollama 的爱好者来说,olama v0.3 已经发布,并支持最新的激动人心的模型。 连夜发布的 o…
-
语音生成模型整理以及LauraGPT介绍
因为最近做了一段时间的语音生成方向,期间也整理了一些开源项目和相关论文,每个或多或少都有可借鉴的地方,对于了解现阶段语音生成的相关技术还是比较有帮助的,后续也会根据自己的节奏来分享…
-
LM4LV:用于低级视觉任务的冻结大型语言模型
大语言模型(LLM)的成功促进了多模态大语言模型(MLLM)的新研究趋势,改变了计算机视觉各个领域的范式。尽管 MLLM 在许多 high-level vision 和 visio…
-
Zipper: 一种融合多种模态的多塔解码器架构
整合多个生成基础模型,特别是那些在不同模态上训练的模型,是一项具有挑战性的任务。主要困难在于:一是对齐数据的可用性,即在不同模态下表达相似意义的概念;二是在跨领域生成任务中有效利用…
-
WirelessLLM: 面向无线智能的通信大模型
大家好!今天给大家介绍我们团队最新的研究成果《WirelessLLM: Empowering Large Language Models Towards Wireless Inte…
-
什么是 Google ScreenAI?
Google ScreenAI 是 Google AI 最近推出的视觉语言模型(VLM)。VLM 是一种能够理解信息的视觉和文本方面的人工智能。简单地说,ScreenAI 可以理解…
-
基于LLM大模型Agent的适用范围和困境
本文提到大模型通常的工作方式,即通过提示词进行问答,并指出了两个主要问题:历史对话信息的管理和令牌数量的限制。文章讨论了知识库问答和个人助手两个应用场景,并分析了各自面临的困境,如…
-
LongRoPE:超越极限,将大模型上下文窗口扩展超过200万tokens
编者按:大模型的飞速发展给人们的生活带来了前所未有的便利。我们是否能够设想利用大模型的潜力,快速扫描整部百科全书、解析繁琐复杂的法律条款,甚至对文章进行精准引用呢?在未来,这些将统…
-
AnyMAL:一种高效、可拓展的任意模态增强语言模型
这篇文章介绍了一种名为AnyMAL的高效、可扩展的任意模态增强语言模型。AnyMAL是一个统一的模型,能够处理多种输入模态信号(例如文本、图像、视频、音频、惯性测量单元和运动传感器…
-
从Language Model到Chat Application:对话接口的设计与实现
RTP-LLM 是阿里巴巴大模型预测团队开发的大模型推理加速引擎,作为一个高性能的大模型推理解决方案,它已被广泛应用于阿里内部。本文从对话接口的设计出发,介绍了业界常见方案,并分享…
-
PROSPER:使用LLM提取协议规范 | HotNets 2023
本文探讨了大型语言模型(LLM)(特别是 GPT-3.5-turbo)的应用,以从 Internet 请求评论(RFC)文档中提取规范并自动理解网络协议。LLM在理解医学和法律等专…
-
DiffusionGPT:大规模语言模型驱动的文本到图像生成系统
扩散模型为图像生成领域开辟了新途径,导致开源平台上共享的高质量模型激增。然而,当前的文本到图像系统仍然存在一个重大挑战,通常无法处理不同的输入,或者仅限于单一模型结果。目前的统一尝…
-
大模型推理框架RTP-LLM对LoRA的支持
01 引言 LoRA(Low-rank Adapter)在大模型(如GPT-3,LLama, Qwen等)中,是一种重要的微调技术。该技术通过在不改变预训练模型参数的同时,添加低阶…
-
用大语言模型合成正确的路由配置需要什么?
本文研究了大型语言模型(例如 GPT-4)是否能够在减少人工工作量的情况下合成正确的路由器配置。作者团队发现单独的 GPT-4 表现非常糟糕,它可以生成有一定可行性的粗略配置,但在…
-
CacheGen:语言模型应用程序的快速上下文加载
随着大型语言模型(LLM)开始承担越来越复杂的任务,它们的输入包含更长的上下文来解决需要领域知识或特定于用户的对话历史的问题。然而,使用长上下文对响应式LLM系统提出了挑战,因为在…