

AIGC
-
Kyutai 发布 MoshiVis:可实现图像的自然、实时语音交互的开源实时语音模型
近年来,人工智能取得了长足进步,但将实时语音交互与视觉内容相结合仍然是一项复杂的挑战。传统系统通常依靠单独的组件进行语音活动检测、语音识别、文本对话和文本转语音合成。这种分段方法可…
-
NVIDIA AI 开源 Canary 1B 和 180M Flash:多语言语音识别和翻译模型
在人工智能领域,多语言语音识别和翻译已成为促进全球交流的重要工具。然而,开发能够实时准确地转录和翻译多种语言的模型面临着巨大的挑战。这些挑战包括管理不同的语言细微差别、保持高准确性…
-
Speech-to-Speech 基础模型为无缝多语言互动铺平道路
在 NVIDIA GTC25 上,Gnani.ai 专家公布了语音 AI 领域的突破性进展,重点关注 Speech-to-Speech 基础模型的开发和部署。这种创新方法有望克服传…
-
ollama 0.6.2 发布,支持 AMD Strix Halo
2025年3月18日,ollama 开源软件的最新版本发布,它可以轻松运行 Llama 3、DeepSeek-R1、Gemma 3 和其他大型语言模型。ollama 软件可以轻松利…
-
Meta AI 的 MILS:改变零样本多模态 AI 的游戏规则
多年来,人工智能 (AI)取得了令人瞩目的发展,但它始终存在一个根本性的限制,即无法像人类一样处理不同类型的数据。大多数 AI 模型都是单峰的,这意味着它们只专注于一种格式,如文本…
-
Google AI 发布 Gemma 3:实现高效设备端 AI 的轻量级多模态开放模型
人工智能领域,仍然存在两个持续的挑战。许多高级语言模型需要大量的计算资源,这限制了小型组织和个人开发者对它们的使用。此外,即使这些模型可用,它们的延迟和大小也常常使它们不适合部署在…
-
Cartesia 融资 6400 万美元,利用 Sonic 2.0 推进实时语音 AI
语音 AI 正在变得更快、更智能、更自然。专注于实时 AI 驱动语音技术的公司 Cartesia 在由 Kleiner Perkins 领投的 A 轮融资中筹集了 6400 万美元…
-
Salesforce AI 发布 Text2Data:一种用于低资源数据生成的训练框架
生成式人工智能在平衡自主性和可控性方面面临着重大挑战。虽然自主性通过强大的生成模型取得了显著进步,但可控性已成为机器学习研究人员关注的焦点。基于文本的控制变得尤为重要,因为自然语言…
-
AutoAgent:一个全自动、高度自主开发的框架,仅通过自然语言就能创建和部署 LLM 代理
从业务流程到科学研究,AI 代理可以处理海量数据集、简化流程并帮助决策。然而,即使有了这些发展,构建和定制 LLM 代理对大多数用户来说仍然是一项艰巨的任务。主要原因是 AI 代理…
-
阿里发布 Babel:开放多语言大型语言模型 LLM 服务全球 90% 以上使用者
阿里巴巴集团达摩院的研究人员推出了Babel,这是一款多语言 LLM ,旨在通过覆盖使用最广泛的 25 种语言来支持全球 90% 以上的使用者。
-
更小尺寸、更强性能,通义千问 QwQ-32B 推理模型开源!
刚刚,阿里云发布并开源全新的推理模型通义千问QwQ-32B。通过大规模强化学习,千问QwQ-32B在数学、代码及通用能力上实现质的飞跃,整体性能比肩DeepSeek-R1。在保持强…
-
Agentic AI 和 AI Agents 的区别:技术深度剖析
人工智能已经从简单的基于规则的系统发展成为执行复杂任务的复杂、自主的实体。在此背景下经常出现的两个术语是 AI Agents 和 Agentic AI 。虽然它们看起来可以互换,但…
-
IBM AI 发布 Granite 3.2 8B Instruct 和 Granite 3.2 2B Instruct 模型:提供实验性思维链推理功能
大型语言模型 (LLM) 利用深度学习技术来理解和生成类似人类的文本,这使得它们对于文本生成、问答、摘要和检索等各种应用都非常有用。虽然早期的 LLM 表现出了卓越的能力,但它们的…
-
简化自监督视觉:编码率正则化如何改变 DINO 和 DINOv2
从大量未标记的图像中学习有用的特征非常重要,DINO和DINOv2等模型就是为此而设计的。这些模型非常适合图像分类和分割等任务,但它们的训练过程很困难。一个关键挑战是避免表示崩溃,…
-
Hume 推出 Octave TTS:一种新的文本转语音模型,可根据定制的情绪创建自定义 AI 语音
在快速发展的数字通信领域,传统的文本转语音 (TTS) 系统往往难以捕捉到人类的全部情感和细微差别。传统系统往往以平淡、不变的语调“阅读”文本,而忽略了使人类语音如此引人入胜的微妙…
-
Moonshot AI 推出 Muon 和 Moonlight:利用高效训练技术优化大规模语言模型
优化大规模语言模型需要先进的训练技术,以降低计算成本并保持高性能。优化算法对于确定训练效率至关重要,尤其是在具有大量参数的大型模型中。虽然像 AdamW 这样的优化器已被广泛采用,…
-
构建法律 AI 聊天机器人:使用 bigscience/T0pp LLM、开源 NLP 模型、Streamlit、PyTorch 和 Hugging Face Transformers 的分步指南
在本教程中,我们将使用开源工具构建一个高效的法律 AI 聊天机器人。它提供了使用bigscience/T0pp LLM、Hugging Face Transformers 和 Py…
-
Google DeepMind 发布 PaliGemma 2 Mix:针对多种视觉语言任务进行微调的新型指令视觉语言模型
视觉语言模型 (VLM) 长期以来一直有望弥合图像理解和自然语言处理之间的差距。然而,实际挑战依然存在。传统的 VLM 通常会在图像分辨率的变化、上下文细微差别以及将视觉数据转换为…
-
增强扩散模型:稀疏性和正则化在高效生成 AI 中的作用
扩散模型已成为一个重要的生成式 AI 框架,在图像合成、视频生成、文本到图像转换和分子设计等任务中表现出色。这些模型通过两个随机过程发挥作用:一个是逐渐向数据添加噪声并将其转换为高…
-
Nous Research 发布 DeepHermes 3 预览版:基于 Llama-3-8B 的模型,结合深度推理、高级函数调用和无缝对话智能
近年来,人工智能见证了自然语言处理 (NLP) 的快速发展,但许多现有模型仍在努力平衡直观响应与深度结构化推理。虽然传统的人工智能聊天模型在对话流畅性方面很出色,但在面对需要逐步分…