语言模型
-
Kyutai 发布 MoshiVis:可实现图像的自然、实时语音交互的开源实时语音模型
近年来,人工智能取得了长足进步,但将实时语音交互与视觉内容相结合仍然是一项复杂的挑战。传统系统通常依靠单独的组件进行语音活动检测、语音识别、文本对话和文本转语音合成。这种分段方法可…
-
NVIDIA AI 开源 Canary 1B 和 180M Flash:多语言语音识别和翻译模型
在人工智能领域,多语言语音识别和翻译已成为促进全球交流的重要工具。然而,开发能够实时准确地转录和翻译多种语言的模型面临着巨大的挑战。这些挑战包括管理不同的语言细微差别、保持高准确性…
-
Google AI 发布 Gemma 3:实现高效设备端 AI 的轻量级多模态开放模型
人工智能领域,仍然存在两个持续的挑战。许多高级语言模型需要大量的计算资源,这限制了小型组织和个人开发者对它们的使用。此外,即使这些模型可用,它们的延迟和大小也常常使它们不适合部署在…
-
AutoAgent:一个全自动、高度自主开发的框架,仅通过自然语言就能创建和部署 LLM 代理
从业务流程到科学研究,AI 代理可以处理海量数据集、简化流程并帮助决策。然而,即使有了这些发展,构建和定制 LLM 代理对大多数用户来说仍然是一项艰巨的任务。主要原因是 AI 代理…
-
阿里发布 Babel:开放多语言大型语言模型 LLM 服务全球 90% 以上使用者
阿里巴巴集团达摩院的研究人员推出了Babel,这是一款多语言 LLM ,旨在通过覆盖使用最广泛的 25 种语言来支持全球 90% 以上的使用者。
-
更小尺寸、更强性能,通义千问 QwQ-32B 推理模型开源!
刚刚,阿里云发布并开源全新的推理模型通义千问QwQ-32B。通过大规模强化学习,千问QwQ-32B在数学、代码及通用能力上实现质的飞跃,整体性能比肩DeepSeek-R1。在保持强…
-
IBM AI 发布 Granite 3.2 8B Instruct 和 Granite 3.2 2B Instruct 模型:提供实验性思维链推理功能
大型语言模型 (LLM) 利用深度学习技术来理解和生成类似人类的文本,这使得它们对于文本生成、问答、摘要和检索等各种应用都非常有用。虽然早期的 LLM 表现出了卓越的能力,但它们的…
-
Hume 推出 Octave TTS:一种新的文本转语音模型,可根据定制的情绪创建自定义 AI 语音
在快速发展的数字通信领域,传统的文本转语音 (TTS) 系统往往难以捕捉到人类的全部情感和细微差别。传统系统往往以平淡、不变的语调“阅读”文本,而忽略了使人类语音如此引人入胜的微妙…
-
Moonshot AI 推出 Muon 和 Moonlight:利用高效训练技术优化大规模语言模型
优化大规模语言模型需要先进的训练技术,以降低计算成本并保持高性能。优化算法对于确定训练效率至关重要,尤其是在具有大量参数的大型模型中。虽然像 AdamW 这样的优化器已被广泛采用,…
-
Google DeepMind 发布 PaliGemma 2 Mix:针对多种视觉语言任务进行微调的新型指令视觉语言模型
视觉语言模型 (VLM) 长期以来一直有望弥合图像理解和自然语言处理之间的差距。然而,实际挑战依然存在。传统的 VLM 通常会在图像分辨率的变化、上下文细微差别以及将视觉数据转换为…
-
Nous Research 发布 DeepHermes 3 预览版:基于 Llama-3-8B 的模型,结合深度推理、高级函数调用和无缝对话智能
近年来,人工智能见证了自然语言处理 (NLP) 的快速发展,但许多现有模型仍在努力平衡直观响应与深度结构化推理。虽然传统的人工智能聊天模型在对话流畅性方面很出色,但在面对需要逐步分…
-
Zyphra 推出 Zonos 测试版:具有高保真语音克隆功能的高度表现力 TTS 模型
近年来,文本转语音 (TTS) 技术取得了长足进步,但在创建自然、富有表现力和高保真的语音合成方面仍然存在挑战。许多 TTS 系统难以复制人类语音的细微差别,例如语调、情感和口音,…
-
Google AI 推出 Learn-by-Interact:一种以数据为中心的自适应高效 LLM 代理开发框架
由大型语言模型(LLM)驱动的自主代理研究已显示出在提高人类生产力方面的巨大潜力。这些代理旨在协助完成各种任务,例如编码、数据分析和网页导航。它们通过自动执行常规数字任务,让用户专…
-
EvaByte:由 EVA 提供支持的开源 6.5B 先进无标记语言模型
标记化是将文本分解成更小单元的过程,长期以来一直是自然语言处理 (NLP) 中的一个基本步骤。然而,它带来了一些挑战。基于标记器的语言模型 (LM) 经常难以处理多语言文本、词汇表…
-
开源 SwiftKV:可将 Cortex AI 上 Meta Llama LLM 的推理成本降低 75%
大型语言模型 (LLM) 已成为人工智能的关键,为从聊天机器人到内容生成工具的各种应用提供支持。然而,大规模部署它们带来了显著的挑战。高计算成本、延迟和能耗通常会限制它们的广泛使用…
-
VideoChat-Flash:针对长文本视频建模的分层压缩技术,可在计算量减少 100 倍的情况下处理长文本视频
多模态大型语言模型最重要、最先进的功能之一是长上下文视频建模,它允许模型处理长达数小时的电影、纪录片和直播。然而,尽管 LLM 在视频理解(包括字幕生成和问题解答)方面取得了值得称…
-
Kyutai Labs 发布 Helium-1 预览版:具有 2B 参数的轻量级语言模型,针对边缘和移动设备
边缘和移动设备对 AI 模型的依赖日益增加,凸显了重大挑战。平衡计算效率、模型大小和多语言能力仍然是一个持续的障碍。传统的大型语言模型(LLM) 虽然功能强大,但通常需要大量资源,…
-
MinMo:约 8B 参数的多模态大型语言模型,实现无缝语音交互
大型语言和多模态语音文本模型的进步为无缝、实时、自然和类人语音交互奠定了基础。要实现这一点,系统需要处理语音内容、情绪语调和音频提示,同时给出准确而连贯的响应。然而,在克服语音和文…
-
OpenBMB发布MiniCPM-o 2.6:一种灵活的多模态模型,可理解视觉、语音和语言并在边缘设备上运行
OpenBMB 发布 MiniCPM-o 2.6 ,该模型提供全面的多模式功能,支持视觉、语音和语言处理,同时可在智能手机、平板电脑和 iPad 等边缘设备上高效运行。
-
Sa2VA:通过 SAM-2 和 LLaVA 集成实现密集基础视频和图像理解的统一 AI 框架
多模态大型语言模型(MLLM) 彻底改变了各种图像和视频相关任务,包括视觉问答、叙事生成和交互式编辑。该领域的一个关键挑战是实现细粒度的视频内容理解,这涉及像素级分割、使用语言描述…