语言模型
-
DiffusionGPT:大规模语言模型驱动的文本到图像生成系统
扩散模型为图像生成领域开辟了新途径,导致开源平台上共享的高质量模型激增。然而,当前的文本到图像系统仍然存在一个重大挑战,通常无法处理不同的输入,或者仅限于单一模型结果。目前的统一尝…
-
大模型推理框架RTP-LLM对LoRA的支持
01 引言 LoRA(Low-rank Adapter)在大模型(如GPT-3,LLama, Qwen等)中,是一种重要的微调技术。该技术通过在不改变预训练模型参数的同时,添加低阶…
-
用大语言模型合成正确的路由配置需要什么?
本文研究了大型语言模型(例如 GPT-4)是否能够在减少人工工作量的情况下合成正确的路由器配置。作者团队发现单独的 GPT-4 表现非常糟糕,它可以生成有一定可行性的粗略配置,但在…
-
CacheGen:语言模型应用程序的快速上下文加载
随着大型语言模型(LLM)开始承担越来越复杂的任务,它们的输入包含更长的上下文来解决需要领域知识或特定于用户的对话历史的问题。然而,使用长上下文对响应式LLM系统提出了挑战,因为在…
-
基于指令提升的语言模型泛化能力增强方法
研究意义 大语言模型如ChatGPT具有强大的跨任务泛化能力,可以不在目标任务数据上进行训练仅仅依靠输入的文本指令就可以完成各种各样的任务。实现该能力的关键技术就是指令微调。以往指…
-
Cola:大语言模型是视觉推理协调器 | NeurIPS 2023
视觉推理需要多模态感知能力和对世界常识的认知能力。最近,人们提出了多种视觉语言模型(VLMs),在各个领域都具有出色的常识推理能力。然而,如何综合利用这些互补的视觉语言模型却很少被…
-
SEED:在大语言模型中播下一颗视觉的”种子”
本文作者提出了一个精心设计的图像Tokenizer:SEED。它能为大语言模型赋予同时理解和绘制的能力。由于使用量化视觉Tokens的框架在多模态理解和生成方面的表现欠佳,此前关于…
-
在企业中部署大型语言模型的机会和限制
生成式人工智能风靡一时。在过去的几个月里,我们看到了现成的大型语言和开源模型的爆炸式增长,例如Meta的Llama 2、OpenAI的GPT-4、Anthropic的Claude …
-
从压缩视角看语言大模型
本文提出了压缩和预测任务的等价性,并鼓励从压缩视角来评估大模型,其贡献有: 论文题目:Language Modeling Is Compression来源:arxiv作者:Delé…
-
ACL 2023 | 持续进化中的语言基础模型
尽管如今的 AI 模型已经具备了理解自然语言的能力,但科研人员并没有停止对模型的不断改善和理论探索。自然语言处理(NLP)领域的技术始终在快速变化和发展当中,酝酿着新的潮流和突破。…