语言模型

技术文章

Sa2VA：通过 SAM-2 和 LLaVA 集成实现密集基础视频和图像理解的统一 AI 框架

多模态大型语言模型(MLLM) 彻底改变了各种图像和视频相关任务，包括视觉问答、叙事生成和交互式编辑。该领域的一个关键挑战是实现细粒度的视频内容理解，这涉及像素级分割、使用语言描述…

AIGC
2025年1月13日
技术文章

VITA-1.5：多模态大语言模型，通过三阶段训练方法整合视觉、语言和语音

VITA-1.5，这是一种多模态大型语言模型，通过精心设计的三阶段训练方法将视觉、语言和语音融为一体。

AIGC
2025年1月7日
技术文章

Dolphin 3.0 发布（Llama 3.1 + 3.2 + Qwen 2.5）：本地优先、可操控的 AI 模型

人工智能已经取得了长足进步，改变了我们的工作、生活和互动方式。然而，挑战依然存在。许多人工智能系统严重依赖基于云的基础设施，这引发了合理的隐私担忧。其他系统提供有限的用户控制，使定…

AIGC
2025年1月6日
技术文章

Google DeepMind 推出“SALT”：一种使用 SLM 高效训练高性能大型语言模型的机器学习方法

大型语言模型 (LLM) 是众多应用的支柱，例如对话代理、自动内容创建和自然语言理解任务。它们的有效性在于它们能够从庞大的数据集中建模和预测复杂的语言模式。然而，由于训练的计算成本…

AIGC
2024年12月20日
技术文章

Microsoft AI 推出 SCBench：用于评估大型语言模型中长上下文方法的综合基准

长上下文 LLM 支持从 128K 到 10M 个 token 的扩展上下文窗口，从而支持诸如存储库级代码分析、长文档问答和多镜头上下文学习等高级应用。然而，这些功能在推理过程中面…

AIGC
2024年12月19日
行业资讯

微软人工智能研究院推出 OLA-VLM：以视觉为中心的多模态大型语言模型优化方法

多模态大型语言模型 (MLLM) 正在快速发展，使机器能够同时解释和推理文本和视觉数据。这些模型在图像分析、视觉问答和多模态推理方面具有变革性的应用。通过弥合视觉与语言之间的差距，…

AIGC
2024年12月17日
技术文章

Nexa AI 发布 OmniAudio-2.6B：用于边缘部署的快速音频语言模型

音频语言模型 (ALM) 在各种应用中发挥着至关重要的作用，从实时转录和翻译到语音控制系统和辅助技术。然而，许多现有解决方案都面临着诸如高延迟、大量计算需求以及对基于云的处理依赖等…

音频技术
2024年12月17日
技术文章

语音生成大模型CosyVoice升级2.0版本 | 开源更新

CosyVoice是阿里巴巴通义实验室语音团队于今年7月份开源的语音生成大模型，依托大模型技术，实现自然流畅的语音生成体验。与传统语音生成技术相比，CosyVoice具有韵律自然、…

大厂Animal
2024年12月16日
技术文章

微软 AI 推出 Phi-4：全新 140 亿参数小型语言模型，专攻复杂推理

大型语言模型在理解自然语言、解决编程任务和应对推理挑战方面取得了令人瞩目的进步。然而，它们的高计算成本和对大规模数据集的依赖带来了一系列问题。许多数据集缺乏复杂推理所需的多样性和深…

AIGC
2024年12月13日
技术文章

从规模到密度：评估大型语言模型的新型 AI 框架

大型语言模型 (LLM)在人工智能领域取得了重大进展，随着参数和训练数据的增长，它们在各种任务上都表现出色。GPT -3、PaLM和Llama-3.1在具有数十亿个参数的众多应用中…

AIGC
2024年12月11日
技术文章

Google DeepMind 发布 PaliGemma 2：全新开放式视觉语言模型系列（3B、10B 和 28B）

视觉语言模型 (VLM) 已经取得了长足的进步，但在有效推广到不同任务方面，它们仍然面临重大挑战。这些模型通常难以处理各种输入数据类型，例如各种分辨率的图像或需要精细理解的文本提示…

AIGC
2024年12月6日
技术文章

亚马逊推出 Amazon Nova：新一代 SOTA 基础模型，可提供高级智能以及价格与性能的良好平衡

人工智能和机器学习的进步为各行各业的企业带来了新功能。从文本生成到视频合成，现代人工智能模型正在改变组织的运营和创新方式。然而，像 GPT-4 和 Llama 这样的大型基础模型在…

AIGC
2024年12月4日
技术文章

Neural Magic 发布 Sparse Llama 3.1 8B：更小的模型，实现高效的 GPU 推理

人工智能模型规模的快速增长带来了巨大的计算和环境挑战。近年来，深度学习模型（尤其是语言模型）规模大幅扩张，需要更多的资源进行训练和部署。这种需求的增加不仅增加了基础设施成本，还导致…

AIGC
2024年11月26日
技术文章

LLaVA-o1：一个能够进行与 GPT-o1 类似的自发、系统推理的视觉语言模型

视觉语言模型 (VLM) 的开发在处理复杂的视觉问答任务方面面临挑战。尽管 OpenAI 的 GPT-o1 等大型语言模型在推理能力方面取得了长足进步，但 VLM 仍然难以进行系统…

AIGC
2024年11月19日
技术文章

Nexa AI 发布 OmniVision-968M：最小的视觉语言模型，可为边缘设备减少 9 倍的 Token 数量

边缘人工智能长期以来一直面临着平衡效率和有效性的挑战。由于边缘设备规模大、计算需求高以及延迟问题，在边缘设备上部署视觉语言模型 (VLM) 非常困难。为云环境设计的模型通常会因边缘…

AIGC
2024年11月18日
技术文章

Fixie AI 推出 Ultravox v0.4.1：专为实现与 LLM 实时对话而训练的开放式语音模型系列

人工智能实时无缝交互对开发人员和研究人员来说一直是一项复杂的任务。一项重大挑战在于将多模态信息（例如文本、图像和音频）集成到一个有凝聚力的对话系统中。尽管 GPT-4 等大型语言模…

AIGC
2024年11月14日
技术文章

TensorOpera AI 发布 Fox-1：系列小型语言模型包括 Fox-1-1.6B 和 Fox-1-1.6B-Instruct-v0.1

大型语言模型 (LLM) 的最新进展已在从解决数学问题到回答医学问题的广泛应用中展现出强大的能力。然而，由于这些模型规模庞大，并且需要大量的计算资源来训练和部署它们，因此它们变得越…

AIGC
2024年11月13日
技术文章

声学模型和语言模型融合的N种方式

作者：Ryuk来源：语音算法组链接：https://mp.weixin.qq.com/s/PMKFQvPNLJH7qXqp8fWjkA 语音识别算法目的是从声学特征x中找到最有可能…

音频技术
2024年11月13日
技术文章

Cerebras Systems 改变 AI 推理：使用 Llama 3.1-70B 实现 3 倍速度提升，每秒处理 2,100 个 Token

AI 继续快速发展，但这种发展带来了一系列技术挑战，需要克服这些挑战才能真正蓬勃发展。当今最紧迫的挑战之一是推理性能。大型语言模型 (LLM)（例如基于 GPT 的应用程序中使用的…

AIGC
2024年11月11日
技术文章

Fish Agent v0.1 3B 发布：突破性的语音对语音模型，能够以前所未有的精度捕捉和生成环境音频信息

当前的文本转语音 (TTS) 系统（例如 VALL-E 和 Fastspeech）面临着与处理复杂语言特征、管理复音表达和生成自然的多语言语音相关的持续挑战。在处理依赖于上下文的复…

AIGC
2024年11月7日