

AIGC
-
利用迭代细化,Loop-Residual 神经网络显示出与更大的 GPT-2 变体相当的结果
Transformer 架构彻底改变了自然语言处理,使 GPT 等模型能够高效地预测序列中的下一个 token。然而,这些模型存在一个根本性的局限性,即需要对所有之前的 token…
-
Deepgram 推出 Aura-2:专业且具备成本效益的企业级文本转语音模型
面向企业用例的语音 AI 平台 Deepgram 昨天发布了下一代文本到语音(TTS)模型Aura-2,该模型专为关键任务业务环境中的实时语音应用而设计。 Aura-2专为实现清晰…
-
ServiceNow AI 发布 Aprilel-5B,以更少的资源超越更大的 LLM
随着语言模型的规模和复杂性不断增长,训练和部署它们所需的资源需求也随之增长。虽然大规模模型可以在各种基准测试中取得卓越的性能,但由于基础设施的限制和高昂的运营成本,许多组织往往无法…
-
NVIDIA AI 发布 UltraLong-8B:超长上下文语言模型,旨在处理大量文本序列
大型语言模型 LLM 在各种文本和多模态任务中展现出卓越的性能。然而,许多应用,例如文档和视频理解、上下文学习以及推理时间扩展,都需要能够处理和推理长序列的标记。LLM 有限的上下…
-
Boson AI 推出 Higgs 音频理解和 Higgs 音频生成:具有实时音频推理和富有表现力的语音合成功能
在当今的企业环境中,尤其是在保险和客户支持领域,语音和音频数据不仅仅是简单的录音;它们是宝贵的触点,能够改变运营和客户体验。借助 AI 音频处理,企业可以以惊人的准确度自动转录,从…
-
谷歌推出 Agent2Agent (A2A):一种新的开放协议,允许 AI 代理跨生态系统安全协作,不受框架或供应商的限制
Google AI 近期宣布推出Agent2Agent (A2A),这是一种开放协议,旨在促进基于不同平台和框架构建的 AI 代理之间安全、可互操作的通信。A2A 旨在通过提供标准…
-
减少大型视觉语言模型中的幻觉:潜在空间引导方法
幻觉仍然是部署大型视觉语言模型 (LVLM) 的一大挑战,因为这些模型通常会生成与视觉输入不一致的文本。与 LLM 中因语言不一致而产生的幻觉不同,LVLM 难以应对跨模态差异,导…
-
AI-Media 与 AudioShake 合作,为现场直播音频提供清晰和高质量的翻译
AI-Media 是一家专注于人工智能语言技术和解决方案的公司,它很高兴地宣布与 AudioShake 建立高级合作伙伴关系,AudioShake 是一家专注于声音分离的先锋音频技…
-
PilotANN:基于图形的 ANNS 的 CPU-GPU 混合系统
近似最近邻搜索 (ANNS) 是一种基本的向量搜索技术,可以有效地识别高维向量空间中的相似项。传统上,ANNS 一直是检索引擎和推荐系统的骨干,但它很难跟上采用更高维嵌入和更大数据…
-
TokenBridge:弥合可视化生成中连续和离散token表示法之间的差距
自回归视觉生成模型已成为一种突破性的图像合成方法,其灵感来自语言模型 token 预测机制。这些创新模型利用图像标记器将视觉内容转换为离散或连续 token。该方法促进了灵活的多模…
-
Kyutai 发布 MoshiVis:可实现图像的自然、实时语音交互的开源实时语音模型
近年来,人工智能取得了长足进步,但将实时语音交互与视觉内容相结合仍然是一项复杂的挑战。传统系统通常依靠单独的组件进行语音活动检测、语音识别、文本对话和文本转语音合成。这种分段方法可…
-
NVIDIA AI 开源 Canary 1B 和 180M Flash:多语言语音识别和翻译模型
在人工智能领域,多语言语音识别和翻译已成为促进全球交流的重要工具。然而,开发能够实时准确地转录和翻译多种语言的模型面临着巨大的挑战。这些挑战包括管理不同的语言细微差别、保持高准确性…
-
Speech-to-Speech 基础模型为无缝多语言互动铺平道路
在 NVIDIA GTC25 上,Gnani.ai 专家公布了语音 AI 领域的突破性进展,重点关注 Speech-to-Speech 基础模型的开发和部署。这种创新方法有望克服传…
-
ollama 0.6.2 发布,支持 AMD Strix Halo
2025年3月18日,ollama 开源软件的最新版本发布,它可以轻松运行 Llama 3、DeepSeek-R1、Gemma 3 和其他大型语言模型。ollama 软件可以轻松利…
-
Meta AI 的 MILS:改变零样本多模态 AI 的游戏规则
多年来,人工智能 (AI)取得了令人瞩目的发展,但它始终存在一个根本性的限制,即无法像人类一样处理不同类型的数据。大多数 AI 模型都是单峰的,这意味着它们只专注于一种格式,如文本…
-
Google AI 发布 Gemma 3:实现高效设备端 AI 的轻量级多模态开放模型
人工智能领域,仍然存在两个持续的挑战。许多高级语言模型需要大量的计算资源,这限制了小型组织和个人开发者对它们的使用。此外,即使这些模型可用,它们的延迟和大小也常常使它们不适合部署在…
-
Cartesia 融资 6400 万美元,利用 Sonic 2.0 推进实时语音 AI
语音 AI 正在变得更快、更智能、更自然。专注于实时 AI 驱动语音技术的公司 Cartesia 在由 Kleiner Perkins 领投的 A 轮融资中筹集了 6400 万美元…
-
Salesforce AI 发布 Text2Data:一种用于低资源数据生成的训练框架
生成式人工智能在平衡自主性和可控性方面面临着重大挑战。虽然自主性通过强大的生成模型取得了显著进步,但可控性已成为机器学习研究人员关注的焦点。基于文本的控制变得尤为重要,因为自然语言…
-
AutoAgent:一个全自动、高度自主开发的框架,仅通过自然语言就能创建和部署 LLM 代理
从业务流程到科学研究,AI 代理可以处理海量数据集、简化流程并帮助决策。然而,即使有了这些发展,构建和定制 LLM 代理对大多数用户来说仍然是一项艰巨的任务。主要原因是 AI 代理…
-
阿里发布 Babel:开放多语言大型语言模型 LLM 服务全球 90% 以上使用者
阿里巴巴集团达摩院的研究人员推出了Babel,这是一款多语言 LLM ,旨在通过覆盖使用最广泛的 25 种语言来支持全球 90% 以上的使用者。