语言模型

技术文章

减少大型视觉语言模型中的幻觉：潜在空间引导方法

幻觉仍然是部署大型视觉语言模型 (LVLM) 的一大挑战，因为这些模型通常会生成与视觉输入不一致的文本。与 LLM 中因语言不一致而产生的幻觉不同，LVLM 难以应对跨模态差异，导…

AIGC
2025年4月3日
技术文章

Kyutai 发布 MoshiVis：可实现图像的自然、实时语音交互的开源实时语音模型

近年来，人工智能取得了长足进步，但将实时语音交互与视觉内容相结合仍然是一项复杂的挑战。传统系统通常依靠单独的组件进行语音活动检测、语音识别、文本对话和文本转语音合成。这种分段方法可…

AIGC
2025年3月24日
技术文章

NVIDIA AI 开源 Canary 1B 和 180M Flash：多语言语音识别和翻译模型

在人工智能领域，多语言语音识别和翻译已成为促进全球交流的重要工具。然而，开发能够实时准确地转录和翻译多种语言的模型面临着巨大的挑战。这些挑战包括管理不同的语言细微差别、保持高准确性…

AIGC
2025年3月21日
技术文章

Google AI 发布 Gemma 3：实现高效设备端 AI 的轻量级多模态开放模型

人工智能领域，仍然存在两个持续的挑战。许多高级语言模型需要大量的计算资源，这限制了小型组织和个人开发者对它们的使用。此外，即使这些模型可用，它们的延迟和大小也常常使它们不适合部署在…

AIGC
2025年3月13日
技术文章

AutoAgent：一个全自动、高度自主开发的框架，仅通过自然语言就能创建和部署 LLM 代理

从业务流程到科学研究，AI 代理可以处理海量数据集、简化流程并帮助决策。然而，即使有了这些发展，构建和定制 LLM 代理对大多数用户来说仍然是一项艰巨的任务。主要原因是 AI 代理…

AIGC
2025年3月10日
技术文章

阿里发布 Babel：开放多语言大型语言模型 LLM 服务全球 90% 以上使用者

阿里巴巴集团达摩院的研究人员推出了Babel，这是一款多语言 LLM ，旨在通过覆盖使用最广泛的 25 种语言来支持全球 90% 以上的使用者。

AIGC
2025年3月7日
行业资讯

更小尺寸、更强性能，通义千问 QwQ-32B 推理模型开源！

刚刚，阿里云发布并开源全新的推理模型通义千问QwQ-32B。通过大规模强化学习，千问QwQ-32B在数学、代码及通用能力上实现质的飞跃，整体性能比肩DeepSeek-R1。在保持强…

AIGC
2025年3月6日
技术文章

IBM AI 发布 Granite 3.2 8B Instruct 和 Granite 3.2 2B Instruct 模型：提供实验性思维链推理功能

大型语言模型 (LLM) 利用深度学习技术来理解和生成类似人类的文本，这使得它们对于文本生成、问答、摘要和检索等各种应用都非常有用。虽然早期的 LLM 表现出了卓越的能力，但它们的…

AIGC
2025年3月3日
技术文章

Hume 推出 Octave TTS：一种新的文本转语音模型，可根据定制的情绪创建自定义 AI 语音

在快速发展的数字通信领域，传统的文本转语音 (TTS) 系统往往难以捕捉到人类的全部情感和细微差别。传统系统往往以平淡、不变的语调“阅读”文本，而忽略了使人类语音如此引人入胜的微妙…

AIGC
2025年2月27日
技术文章

Moonshot AI 推出 Muon 和 Moonlight：利用高效训练技术优化大规模语言模型

优化大规模语言模型需要先进的训练技术，以降低计算成本并保持高性能。优化算法对于确定训练效率至关重要，尤其是在具有大量参数的大型模型中。虽然像 AdamW 这样的优化器已被广泛采用，…

AIGC
2025年2月26日
技术文章

Google DeepMind 发布 PaliGemma 2 Mix：针对多种视觉语言任务进行微调的新型指令视觉语言模型

视觉语言模型 (VLM) 长期以来一直有望弥合图像理解和自然语言处理之间的差距。然而，实际挑战依然存在。传统的 VLM 通常会在图像分辨率的变化、上下文细微差别以及将视觉数据转换为…

AIGC
2025年2月21日
技术文章

Nous Research 发布 DeepHermes 3 预览版：基于 Llama-3-8B 的模型，结合深度推理、高级函数调用和无缝对话智能

近年来，人工智能见证了自然语言处理 (NLP) 的快速发展，但许多现有模型仍在努力平衡直观响应与深度结构化推理。虽然传统的人工智能聊天模型在对话流畅性方面很出色，但在面对需要逐步分…

AIGC
2025年2月18日
技术文章

Zyphra 推出 Zonos 测试版：具有高保真语音克隆功能的高度表现力 TTS 模型

近年来，文本转语音 (TTS) 技术取得了长足进步，但在创建自然、富有表现力和高保真的语音合成方面仍然存在挑战。许多 TTS 系统难以复制人类语音的细微差别，例如语调、情感和口音，…

AIGC
2025年2月11日
技术文章

Google AI 推出 Learn-by-Interact：一种以数据为中心的自适应高效 LLM 代理开发框架

由大型语言模型(LLM)驱动的自主代理研究已显示出在提高人类生产力方面的巨大潜力。这些代理旨在协助完成各种任务，例如编码、数据分析和网页导航。它们通过自动执行常规数字任务，让用户专…

AIGC
2025年1月24日
技术文章

EvaByte：由 EVA 提供支持的开源 6.5B 先进无标记语言模型

标记化是将文本分解成更小单元的过程，长期以来一直是自然语言处理 (NLP) 中的一个基本步骤。然而，它带来了一些挑战。基于标记器的语言模型 (LM) 经常难以处理多语言文本、词汇表…

AIGC
2025年1月23日
技术文章

开源 SwiftKV：可将 Cortex AI 上 Meta Llama LLM 的推理成本降低 75%

大型语言模型 (LLM) 已成为人工智能的关键，为从聊天机器人到内容生成工具的各种应用提供支持。然而，大规模部署它们带来了显著的挑战。高计算成本、延迟和能耗通常会限制它们的广泛使用…

AIGC
2025年1月22日
技术文章

VideoChat-Flash：针对长文本视频建模的分层压缩技术，可在计算量减少 100 倍的情况下处理长文本视频

多模态大型语言模型最重要、最先进的功能之一是长上下文视频建模，它允许模型处理长达数小时的电影、纪录片和直播。然而，尽管 LLM 在视频理解（包括字幕生成和问题解答）方面取得了值得称…

AIGC
2025年1月20日
技术文章

Kyutai Labs 发布 Helium-1 预览版：具有 2B 参数的轻量级语言模型，针对边缘和移动设备

边缘和移动设备对 AI 模型的依赖日益增加，凸显了重大挑战。平衡计算效率、模型大小和多语言能力仍然是一个持续的障碍。传统的大型语言模型(LLM) 虽然功能强大，但通常需要大量资源，…

AIGC
2025年1月17日
技术文章

MinMo：约 8B 参数的多模态大型语言模型，实现无缝语音交互

大型语言和多模态语音文本模型的进步为无缝、实时、自然和类人语音交互奠定了基础。要实现这一点，系统需要处理语音内容、情绪语调和音频提示，同时给出准确而连贯的响应。然而，在克服语音和文…

AIGC
2025年1月16日
技术文章

OpenBMB发布MiniCPM-o 2.6：一种灵活的多模态模型，可理解视觉、语音和语言并在边缘设备上运行

OpenBMB 发布 MiniCPM-o 2.6 ，该模型提供全面的多模式功能，支持视觉、语音和语言处理，同时可在智能手机、平板电脑和 iPad 等边缘设备上高效运行。

AIGC
2025年1月15日

1 / 5
1
2
3
4
5
下一页