语言模型
-
LM4LV:用于低级视觉任务的冻结大型语言模型
大语言模型(LLM)的成功促进了多模态大语言模型(MLLM)的新研究趋势,改变了计算机视觉各个领域的范式。尽管 MLLM 在许多 high-level vision 和 visio…
-
Zipper: 一种融合多种模态的多塔解码器架构
整合多个生成基础模型,特别是那些在不同模态上训练的模型,是一项具有挑战性的任务。主要困难在于:一是对齐数据的可用性,即在不同模态下表达相似意义的概念;二是在跨领域生成任务中有效利用…
-
WirelessLLM: 面向无线智能的通信大模型
大家好!今天给大家介绍我们团队最新的研究成果《WirelessLLM: Empowering Large Language Models Towards Wireless Inte…
-
什么是 Google ScreenAI?
Google ScreenAI 是 Google AI 最近推出的视觉语言模型(VLM)。VLM 是一种能够理解信息的视觉和文本方面的人工智能。简单地说,ScreenAI 可以理解…
-
基于LLM大模型Agent的适用范围和困境
本文提到大模型通常的工作方式,即通过提示词进行问答,并指出了两个主要问题:历史对话信息的管理和令牌数量的限制。文章讨论了知识库问答和个人助手两个应用场景,并分析了各自面临的困境,如…
-
LongRoPE:超越极限,将大模型上下文窗口扩展超过200万tokens
编者按:大模型的飞速发展给人们的生活带来了前所未有的便利。我们是否能够设想利用大模型的潜力,快速扫描整部百科全书、解析繁琐复杂的法律条款,甚至对文章进行精准引用呢?在未来,这些将统…
-
AnyMAL:一种高效、可拓展的任意模态增强语言模型
这篇文章介绍了一种名为AnyMAL的高效、可扩展的任意模态增强语言模型。AnyMAL是一个统一的模型,能够处理多种输入模态信号(例如文本、图像、视频、音频、惯性测量单元和运动传感器…
-
从Language Model到Chat Application:对话接口的设计与实现
RTP-LLM 是阿里巴巴大模型预测团队开发的大模型推理加速引擎,作为一个高性能的大模型推理解决方案,它已被广泛应用于阿里内部。本文从对话接口的设计出发,介绍了业界常见方案,并分享…
-
PROSPER:使用LLM提取协议规范 | HotNets 2023
本文探讨了大型语言模型(LLM)(特别是 GPT-3.5-turbo)的应用,以从 Internet 请求评论(RFC)文档中提取规范并自动理解网络协议。LLM在理解医学和法律等专…
-
DiffusionGPT:大规模语言模型驱动的文本到图像生成系统
扩散模型为图像生成领域开辟了新途径,导致开源平台上共享的高质量模型激增。然而,当前的文本到图像系统仍然存在一个重大挑战,通常无法处理不同的输入,或者仅限于单一模型结果。目前的统一尝…
-
大模型推理框架RTP-LLM对LoRA的支持
01 引言 LoRA(Low-rank Adapter)在大模型(如GPT-3,LLama, Qwen等)中,是一种重要的微调技术。该技术通过在不改变预训练模型参数的同时,添加低阶…
-
用大语言模型合成正确的路由配置需要什么?
本文研究了大型语言模型(例如 GPT-4)是否能够在减少人工工作量的情况下合成正确的路由器配置。作者团队发现单独的 GPT-4 表现非常糟糕,它可以生成有一定可行性的粗略配置,但在…
-
CacheGen:语言模型应用程序的快速上下文加载
随着大型语言模型(LLM)开始承担越来越复杂的任务,它们的输入包含更长的上下文来解决需要领域知识或特定于用户的对话历史的问题。然而,使用长上下文对响应式LLM系统提出了挑战,因为在…
-
基于指令提升的语言模型泛化能力增强方法
研究意义 大语言模型如ChatGPT具有强大的跨任务泛化能力,可以不在目标任务数据上进行训练仅仅依靠输入的文本指令就可以完成各种各样的任务。实现该能力的关键技术就是指令微调。以往指…
-
Cola:大语言模型是视觉推理协调器 | NeurIPS 2023
视觉推理需要多模态感知能力和对世界常识的认知能力。最近,人们提出了多种视觉语言模型(VLMs),在各个领域都具有出色的常识推理能力。然而,如何综合利用这些互补的视觉语言模型却很少被…
-
SEED:在大语言模型中播下一颗视觉的”种子”
本文作者提出了一个精心设计的图像Tokenizer:SEED。它能为大语言模型赋予同时理解和绘制的能力。由于使用量化视觉Tokens的框架在多模态理解和生成方面的表现欠佳,此前关于…
-
在企业中部署大型语言模型的机会和限制
生成式人工智能风靡一时。在过去的几个月里,我们看到了现成的大型语言和开源模型的爆炸式增长,例如Meta的Llama 2、OpenAI的GPT-4、Anthropic的Claude …
-
从压缩视角看语言大模型
本文提出了压缩和预测任务的等价性,并鼓励从压缩视角来评估大模型,其贡献有: 论文题目:Language Modeling Is Compression来源:arxiv作者:Delé…
-
ACL 2023 | 持续进化中的语言基础模型
尽管如今的 AI 模型已经具备了理解自然语言的能力,但科研人员并没有停止对模型的不断改善和理论探索。自然语言处理(NLP)领域的技术始终在快速变化和发展当中,酝酿着新的潮流和突破。…