语言模型
-
Google DeepMind 推出“SALT”:一种使用 SLM 高效训练高性能大型语言模型的机器学习方法
大型语言模型 (LLM) 是众多应用的支柱,例如对话代理、自动内容创建和自然语言理解任务。它们的有效性在于它们能够从庞大的数据集中建模和预测复杂的语言模式。然而,由于训练的计算成本…
-
Microsoft AI 推出 SCBench:用于评估大型语言模型中长上下文方法的综合基准
长上下文 LLM 支持从 128K 到 10M 个 token 的扩展上下文窗口,从而支持诸如存储库级代码分析、长文档问答和多镜头上下文学习等高级应用。然而,这些功能在推理过程中面…
-
微软人工智能研究院推出 OLA-VLM:以视觉为中心的多模态大型语言模型优化方法
多模态大型语言模型 (MLLM) 正在快速发展,使机器能够同时解释和推理文本和视觉数据。这些模型在图像分析、视觉问答和多模态推理方面具有变革性的应用。通过弥合视觉与语言之间的差距,…
-
Nexa AI 发布 OmniAudio-2.6B:用于边缘部署的快速音频语言模型
音频语言模型 (ALM) 在各种应用中发挥着至关重要的作用,从实时转录和翻译到语音控制系统和辅助技术。然而,许多现有解决方案都面临着诸如高延迟、大量计算需求以及对基于云的处理依赖等…
-
语音生成大模型CosyVoice升级2.0版本 | 开源更新
CosyVoice是阿里巴巴通义实验室语音团队于今年7月份开源的语音生成大模型,依托大模型技术,实现自然流畅的语音生成体验。与传统语音生成技术相比,CosyVoice具有韵律自然、…
-
微软 AI 推出 Phi-4:全新 140 亿参数小型语言模型,专攻复杂推理
大型语言模型在理解自然语言、解决编程任务和应对推理挑战方面取得了令人瞩目的进步。然而,它们的高计算成本和对大规模数据集的依赖带来了一系列问题。许多数据集缺乏复杂推理所需的多样性和深…
-
从规模到密度:评估大型语言模型的新型 AI 框架
大型语言模型 (LLM)在人工智能领域取得了重大进展,随着参数和训练数据的增长,它们在各种任务上都表现出色。GPT -3、PaLM和Llama-3.1在具有数十亿个参数的众多应用中…
-
Google DeepMind 发布 PaliGemma 2:全新开放式视觉语言模型系列(3B、10B 和 28B)
视觉语言模型 (VLM) 已经取得了长足的进步,但在有效推广到不同任务方面,它们仍然面临重大挑战。这些模型通常难以处理各种输入数据类型,例如各种分辨率的图像或需要精细理解的文本提示…
-
亚马逊推出 Amazon Nova:新一代 SOTA 基础模型,可提供高级智能以及价格与性能的良好平衡
人工智能和机器学习的进步为各行各业的企业带来了新功能。从文本生成到视频合成,现代人工智能模型正在改变组织的运营和创新方式。然而,像 GPT-4 和 Llama 这样的大型基础模型在…
-
Neural Magic 发布 Sparse Llama 3.1 8B:更小的模型,实现高效的 GPU 推理
人工智能模型规模的快速增长带来了巨大的计算和环境挑战。近年来,深度学习模型(尤其是语言模型)规模大幅扩张,需要更多的资源进行训练和部署。这种需求的增加不仅增加了基础设施成本,还导致…
-
LLaVA-o1:一个能够进行与 GPT-o1 类似的自发、系统推理的视觉语言模型
视觉语言模型 (VLM) 的开发在处理复杂的视觉问答任务方面面临挑战。尽管 OpenAI 的 GPT-o1 等大型语言模型在推理能力方面取得了长足进步,但 VLM 仍然难以进行系统…
-
Nexa AI 发布 OmniVision-968M:最小的视觉语言模型,可为边缘设备减少 9 倍的 Token 数量
边缘人工智能长期以来一直面临着平衡效率和有效性的挑战。由于边缘设备规模大、计算需求高以及延迟问题,在边缘设备上部署视觉语言模型 (VLM) 非常困难。为云环境设计的模型通常会因边缘…
-
Fixie AI 推出 Ultravox v0.4.1:专为实现与 LLM 实时对话而训练的开放式语音模型系列
人工智能实时无缝交互对开发人员和研究人员来说一直是一项复杂的任务。一项重大挑战在于将多模态信息(例如文本、图像和音频)集成到一个有凝聚力的对话系统中。尽管 GPT-4 等大型语言模…
-
TensorOpera AI 发布 Fox-1:系列小型语言模型包括 Fox-1-1.6B 和 Fox-1-1.6B-Instruct-v0.1
大型语言模型 (LLM) 的最新进展已在从解决数学问题到回答医学问题的广泛应用中展现出强大的能力。然而,由于这些模型规模庞大,并且需要大量的计算资源来训练和部署它们,因此它们变得越…
-
声学模型和语言模型融合的N种方式
作者:Ryuk来源:语音算法组链接:https://mp.weixin.qq.com/s/PMKFQvPNLJH7qXqp8fWjkA 语音识别算法目的是从声学特征x中找到最有可能…
-
Cerebras Systems 改变 AI 推理:使用 Llama 3.1-70B 实现 3 倍速度提升,每秒处理 2,100 个 Token
AI 继续快速发展,但这种发展带来了一系列技术挑战,需要克服这些挑战才能真正蓬勃发展。当今最紧迫的挑战之一是推理性能。大型语言模型 (LLM)(例如基于 GPT 的应用程序中使用的…
-
Fish Agent v0.1 3B 发布:突破性的语音对语音模型,能够以前所未有的精度捕捉和生成环境音频信息
当前的文本转语音 (TTS) 系统(例如 VALL-E 和 Fastspeech)面临着与处理复杂语言特征、管理复音表达和生成自然的多语言语音相关的持续挑战。在处理依赖于上下文的复…
-
OuteTTS-0.1-350M 发布:无需外部适配器即可利用纯语言建模的新型 TTS 合成模型
近年来,文本转语音 (TTS) 合成领域取得了快速发展,但仍然充满挑战。传统的 TTS 模型通常依赖于复杂的架构,包括深度神经网络和专用模块,例如声码器、文本分析器和其他适配器,以…
-
SmolLM2 发布:新系列(0.1B、0.3B 和 1.7B)小语言模型,性能优于 Meta Llama 3.2 1B
近年来,大型语言模型 (LLM) 的激增极大地改变了我们处理自然语言处理任务的方式。然而,这些进步并非没有缺点。GPT-4 和 Meta 的 LLaMA 等大型 LLM 的广泛使用…
-
Meta AI 发布 MobileLLM 125M、350M、600M 和 1B 模型检查点
大型语言模型 (LLM) 的广泛采用为对话式 AI、内容生成和设备端应用等领域带来了重大进步。然而,部署这些模型严重依赖大量云资源,引发了对延迟、成本和环境可持续性的担忧。像 GP…