

AIGC
-
Google DeepMind 发布 PaliGemma 2 Mix:针对多种视觉语言任务进行微调的新型指令视觉语言模型
视觉语言模型 (VLM) 长期以来一直有望弥合图像理解和自然语言处理之间的差距。然而,实际挑战依然存在。传统的 VLM 通常会在图像分辨率的变化、上下文细微差别以及将视觉数据转换为…
-
增强扩散模型:稀疏性和正则化在高效生成 AI 中的作用
扩散模型已成为一个重要的生成式 AI 框架,在图像合成、视频生成、文本到图像转换和分子设计等任务中表现出色。这些模型通过两个随机过程发挥作用:一个是逐渐向数据添加噪声并将其转换为高…
-
Nous Research 发布 DeepHermes 3 预览版:基于 Llama-3-8B 的模型,结合深度推理、高级函数调用和无缝对话智能
近年来,人工智能见证了自然语言处理 (NLP) 的快速发展,但许多现有模型仍在努力平衡直观响应与深度结构化推理。虽然传统的人工智能聊天模型在对话流畅性方面很出色,但在面对需要逐步分…
-
AI 聊天机器人如何模仿人类行为:从 LLM 的多轮评估中获得的启示
AI 聊天机器人通过生成看似人类的自然对话,创造了具有情感、道德或意识的幻觉。许多用户与 AI 互动是为了聊天和陪伴,这强化了它真正理解的错误信念。这会导致严重的风险。用户可能会过…
-
GPTBots.ai 推出高级音频 LLM 功能,为全面的 AI SDR 解决方案铺平道路
近日,企业级 AI 平台 GPTBots.ai 宣布推出其最新的音频 LLM 功能,为实时语音驱动的 AI 交互树立了新标准。此次更新实现了由 OpenAI 的原生音频多模式 LL…
-
Meta AI 推出 CoCoMix:将标记预测与连续概念相结合的预训练框架
大型语言模型 (LLM) 预训练的主要方法依赖于下一个标记预测,这种方法已被证明可以有效捕捉语言模式。然而,这种方法也有明显的局限性。语言标记通常传达的是表层信息,需要模型处理大量…
-
Deepgram 推出 Nova-3,为企业推出改进的基于 AI 的语音转录功能
2025年2月12日,企业用例语音 AI 平台 Deepgram 宣布推出迄今为止最先进的语音转文本(STT) 模型Nova-3。Nova -3 突破了 AI 驱动转录的界限,在具…
-
推进可扩展的文本转语音合成:Llasa 基于 Transformer 的框架可提高语音质量和情感表达能力
LLM 的最新进展(例如 GPT 系列和新兴的“o1”模型)凸显了扩展训练和推理时间计算的好处。虽然在训练期间扩展(通过增加模型大小和数据集量)是一种行之有效的策略,但最近的研究结…
-
Zyphra 推出 Zonos 测试版:具有高保真语音克隆功能的高度表现力 TTS 模型
近年来,文本转语音 (TTS) 技术取得了长足进步,但在创建自然、富有表现力和高保真的语音合成方面仍然存在挑战。许多 TTS 系统难以复制人类语音的细微差别,例如语调、情感和口音,…
-
Kyutai 发布 Hibiki:一款 27 亿 S2ST 和语音转文本翻译产品,具有接近人类水平的音质和语音转换功能
实时语音翻译是一项复杂的挑战,需要无缝集成语音识别、机器翻译和文本转语音合成。传统的级联方法通常会引入复合错误,无法保留说话者身份,并且处理速度缓慢,因此不太适合现场翻译等实时应用…
-
Meta AI 推出 MILS:一种无需训练的多模态 AI 框架,用于零样本图像、视频和音频理解
大型语言模型 (LLM) 主要用于基于文本的任务,这限制了它们解释和生成多模态内容(例如图像、视频和音频)的能力。传统上,多模态操作是针对大量标记数据进行训练的任务特定模型,这使得…
-
字节跳动推出 OmniHuman-1:基于单一人体图像和运动信号生成人体视频的端到端多模态框架
尽管人工智能驱动的人体动画取得了进展,但现有模型在动作逼真度、适应性和可扩展性方面往往面临限制。许多模型难以生成流畅的肢体动作,并且依赖于过滤后的训练数据集,这限制了它们处理各种场…
-
Yandex 开发并开源 Perforator:一款每年可为企业节省数十亿美元服务器基础设施费用的开源工具
科技公司 Yandex 开发并开源了Perforator,这是一种用于对服务器和应用程序进行持续实时监控和分析的创新工具。 Perforator 可帮助开发人员识别资源最密集的代码…
-
Google AI 推出 Learn-by-Interact:一种以数据为中心的自适应高效 LLM 代理开发框架
由大型语言模型(LLM)驱动的自主代理研究已显示出在提高人类生产力方面的巨大潜力。这些代理旨在协助完成各种任务,例如编码、数据分析和网页导航。它们通过自动执行常规数字任务,让用户专…
-
EvaByte:由 EVA 提供支持的开源 6.5B 先进无标记语言模型
标记化是将文本分解成更小单元的过程,长期以来一直是自然语言处理 (NLP) 中的一个基本步骤。然而,它带来了一些挑战。基于标记器的语言模型 (LM) 经常难以处理多语言文本、词汇表…
-
开源 SwiftKV:可将 Cortex AI 上 Meta Llama LLM 的推理成本降低 75%
大型语言模型 (LLM) 已成为人工智能的关键,为从聊天机器人到内容生成工具的各种应用提供支持。然而,大规模部署它们带来了显著的挑战。高计算成本、延迟和能耗通常会限制它们的广泛使用…
-
VideoChat-Flash:针对长文本视频建模的分层压缩技术,可在计算量减少 100 倍的情况下处理长文本视频
多模态大型语言模型最重要、最先进的功能之一是长上下文视频建模,它允许模型处理长达数小时的电影、纪录片和直播。然而,尽管 LLM 在视频理解(包括字幕生成和问题解答)方面取得了值得称…
-
Kyutai Labs 发布 Helium-1 预览版:具有 2B 参数的轻量级语言模型,针对边缘和移动设备
边缘和移动设备对 AI 模型的依赖日益增加,凸显了重大挑战。平衡计算效率、模型大小和多语言能力仍然是一个持续的障碍。传统的大型语言模型(LLM) 虽然功能强大,但通常需要大量资源,…
-
MinMo:约 8B 参数的多模态大型语言模型,实现无缝语音交互
大型语言和多模态语音文本模型的进步为无缝、实时、自然和类人语音交互奠定了基础。要实现这一点,系统需要处理语音内容、情绪语调和音频提示,同时给出准确而连贯的响应。然而,在克服语音和文…
-
OpenBMB发布MiniCPM-o 2.6:一种灵活的多模态模型,可理解视觉、语音和语言并在边缘设备上运行
OpenBMB 发布 MiniCPM-o 2.6 ,该模型提供全面的多模式功能,支持视觉、语音和语言处理,同时可在智能手机、平板电脑和 iPad 等边缘设备上高效运行。