语言模型
-
基于指令提升的语言模型泛化能力增强方法
研究意义 大语言模型如ChatGPT具有强大的跨任务泛化能力,可以不在目标任务数据上进行训练仅仅依靠输入的文本指令就可以完成各种各样的任务。实现该能力的关键技术就是指令微调。以往指…
-
Cola:大语言模型是视觉推理协调器 | NeurIPS 2023
视觉推理需要多模态感知能力和对世界常识的认知能力。最近,人们提出了多种视觉语言模型(VLMs),在各个领域都具有出色的常识推理能力。然而,如何综合利用这些互补的视觉语言模型却很少被…
-
SEED:在大语言模型中播下一颗视觉的”种子”
本文作者提出了一个精心设计的图像Tokenizer:SEED。它能为大语言模型赋予同时理解和绘制的能力。由于使用量化视觉Tokens的框架在多模态理解和生成方面的表现欠佳,此前关于…
-
在企业中部署大型语言模型的机会和限制
生成式人工智能风靡一时。在过去的几个月里,我们看到了现成的大型语言和开源模型的爆炸式增长,例如Meta的Llama 2、OpenAI的GPT-4、Anthropic的Claude …
-
从压缩视角看语言大模型
本文提出了压缩和预测任务的等价性,并鼓励从压缩视角来评估大模型,其贡献有: 论文题目:Language Modeling Is Compression来源:arxiv作者:Delé…
-
ACL 2023 | 持续进化中的语言基础模型
尽管如今的 AI 模型已经具备了理解自然语言的能力,但科研人员并没有停止对模型的不断改善和理论探索。自然语言处理(NLP)领域的技术始终在快速变化和发展当中,酝酿着新的潮流和突破。…