AIGC的文章 - 实时互动网个人中心 - 实时互动网

AIGC

这个人很懒，什么都没有留下～

230 文章

0 评论

0 粉丝

技术文章

利用迭代细化，Loop-Residual 神经网络显示出与更大的 GPT-2 变体相当的结果

Transformer 架构彻底改变了自然语言处理，使 GPT 等模型能够高效地预测序列中的下一个 token。然而，这些模型存在一个根本性的局限性，即需要对所有之前的 token…

AIGC
2025年4月17日
技术文章

Deepgram 推出 Aura-2：专业且具备成本效益的企业级文本转语音模型

面向企业用例的语音 AI 平台 Deepgram 昨天发布了下一代文本到语音（TTS）模型Aura-2，该模型专为关键任务业务环境中的实时语音应用而设计。 Aura-2专为实现清晰…

AIGC
2025年4月16日
技术文章

ServiceNow AI 发布 Aprilel-5B，以更少的资源超越更大的 LLM

随着语言模型的规模和复杂性不断增长，训练和部署它们所需的资源需求也随之增长。虽然大规模模型可以在各种基准测试中取得卓越的性能，但由于基础设施的限制和高昂的运营成本，许多组织往往无法…

AIGC
2025年4月15日
技术文章

NVIDIA AI 发布 UltraLong-8B：超长上下文语言模型，旨在处理大量文本序列

大型语言模型 LLM 在各种文本和多模态任务中展现出卓越的性能。然而，许多应用，例如文档和视频理解、上下文学习以及推理时间扩展，都需要能够处理和推理长序列的标记。LLM 有限的上下…

AIGC
2025年4月14日
技术文章

Boson AI 推出 Higgs 音频理解和 Higgs 音频生成：具有实时音频推理和富有表现力的语音合成功能

在当今的企业环境中，尤其是在保险和客户支持领域，语音和音频数据不仅仅是简单的录音；它们是宝贵的触点，能够改变运营和客户体验。借助 AI 音频处理，企业可以以惊人的准确度自动转录，从…

AIGC
2025年4月11日
技术文章

谷歌推出 Agent2Agent (A2A)：一种新的开放协议，允许 AI 代理跨生态系统安全协作，不受框架或供应商的限制

Google AI 近期宣布推出Agent2Agent (A2A)，这是一种开放协议，旨在促进基于不同平台和框架构建的 AI 代理之间安全、可互操作的通信。A2A 旨在通过提供标准…

AIGC
2025年4月10日
技术文章

减少大型视觉语言模型中的幻觉：潜在空间引导方法

幻觉仍然是部署大型视觉语言模型 (LVLM) 的一大挑战，因为这些模型通常会生成与视觉输入不一致的文本。与 LLM 中因语言不一致而产生的幻觉不同，LVLM 难以应对跨模态差异，导…

AIGC
2025年4月3日
行业资讯

AI-Media 与 AudioShake 合作，为现场直播音频提供清晰和高质量的翻译

AI-Media 是一家专注于人工智能语言技术和解决方案的公司，它很高兴地宣布与 AudioShake 建立高级合作伙伴关系，AudioShake 是一家专注于声音分离的先锋音频技…

AIGC
2025年4月2日
技术文章

PilotANN：基于图形的 ANNS 的 CPU-GPU 混合系统

近似最近邻搜索 (ANNS) 是一种基本的向量搜索技术，可以有效地识别高维向量空间中的相似项。传统上，ANNS 一直是检索引擎和推荐系统的骨干，但它很难跟上采用更高维嵌入和更大数据…

AIGC
2025年3月31日
技术文章

TokenBridge：弥合可视化生成中连续和离散token表示法之间的差距

自回归视觉生成模型已成为一种突破性的图像合成方法，其灵感来自语言模型 token 预测机制。这些创新模型利用图像标记器将视觉内容转换为离散或连续 token。该方法促进了灵活的多模…

AIGC
2025年3月28日
技术文章

Kyutai 发布 MoshiVis：可实现图像的自然、实时语音交互的开源实时语音模型

近年来，人工智能取得了长足进步，但将实时语音交互与视觉内容相结合仍然是一项复杂的挑战。传统系统通常依靠单独的组件进行语音活动检测、语音识别、文本对话和文本转语音合成。这种分段方法可…

AIGC
2025年3月24日
技术文章

NVIDIA AI 开源 Canary 1B 和 180M Flash：多语言语音识别和翻译模型

在人工智能领域，多语言语音识别和翻译已成为促进全球交流的重要工具。然而，开发能够实时准确地转录和翻译多种语言的模型面临着巨大的挑战。这些挑战包括管理不同的语言细微差别、保持高准确性…

AIGC
2025年3月21日
技术文章

Speech-to-Speech 基础模型为无缝多语言互动铺平道路

在 NVIDIA GTC25 上，Gnani.ai 专家公布了语音 AI 领域的突破性进展，重点关注 Speech-to-Speech 基础模型的开发和部署。这种创新方法有望克服传…

AIGC
2025年3月19日
行业资讯

ollama 0.6.2 发布，支持 AMD Strix Halo

2025年3月18日，ollama 开源软件的最新版本发布，它可以轻松运行 Llama 3、DeepSeek-R1、Gemma 3 和其他大型语言模型。ollama 软件可以轻松利…

AIGC
2025年3月19日
技术文章

Meta AI 的 MILS：改变零样本多模态 AI 的游戏规则

多年来，人工智能 (AI)取得了令人瞩目的发展，但它始终存在一个根本性的限制，即无法像人类一样处理不同类型的数据。大多数 AI 模型都是单峰的，这意味着它们只专注于一种格式，如文本…

AIGC
2025年3月17日
技术文章

Google AI 发布 Gemma 3：实现高效设备端 AI 的轻量级多模态开放模型

人工智能领域，仍然存在两个持续的挑战。许多高级语言模型需要大量的计算资源，这限制了小型组织和个人开发者对它们的使用。此外，即使这些模型可用，它们的延迟和大小也常常使它们不适合部署在…

AIGC
2025年3月13日
行业资讯

Cartesia 融资 6400 万美元，利用 Sonic 2.0 推进实时语音 AI

语音 AI 正在变得更快、更智能、更自然。专注于实时 AI 驱动语音技术的公司 Cartesia 在由 Kleiner Perkins 领投的 A 轮融资中筹集了 6400 万美元…

AIGC
2025年3月12日
技术文章

Salesforce AI 发布 Text2Data：一种用于低资源数据生成的训练框架

生成式人工智能在平衡自主性和可控性方面面临着重大挑战。虽然自主性通过强大的生成模型取得了显著进步，但可控性已成为机器学习研究人员关注的焦点。基于文本的控制变得尤为重要，因为自然语言…

AIGC
2025年3月11日
技术文章

AutoAgent：一个全自动、高度自主开发的框架，仅通过自然语言就能创建和部署 LLM 代理

从业务流程到科学研究，AI 代理可以处理海量数据集、简化流程并帮助决策。然而，即使有了这些发展，构建和定制 LLM 代理对大多数用户来说仍然是一项艰巨的任务。主要原因是 AI 代理…

AIGC
2025年3月10日
技术文章

阿里发布 Babel：开放多语言大型语言模型 LLM 服务全球 90% 以上使用者

阿里巴巴集团达摩院的研究人员推出了Babel，这是一款多语言 LLM ，旨在通过覆盖使用最广泛的 25 种语言来支持全球 90% 以上的使用者。

AIGC
2025年3月7日

点击查看更多