AIGC
-
Google DeepMind 推出“SALT”:一种使用 SLM 高效训练高性能大型语言模型的机器学习方法
大型语言模型 (LLM) 是众多应用的支柱,例如对话代理、自动内容创建和自然语言理解任务。它们的有效性在于它们能够从庞大的数据集中建模和预测复杂的语言模式。然而,由于训练的计算成本…
-
Microsoft AI 推出 SCBench:用于评估大型语言模型中长上下文方法的综合基准
长上下文 LLM 支持从 128K 到 10M 个 token 的扩展上下文窗口,从而支持诸如存储库级代码分析、长文档问答和多镜头上下文学习等高级应用。然而,这些功能在推理过程中面…
-
谷歌发布用于视频生成的 Veo 2 和用于图像创建的 Imagen 3 :为生成 4K 视频和数分钟长视频设定新标准
视频和图像生成创新正在提高视觉效果的质量,并专注于使 AI 模型对详细提示做出更灵敏的响应。AI 工具通过更准确地再现现实世界的物理和人类运动,为艺术家、电影制作人、企业和创意专业…
-
微软人工智能研究院推出 OLA-VLM:以视觉为中心的多模态大型语言模型优化方法
多模态大型语言模型 (MLLM) 正在快速发展,使机器能够同时解释和推理文本和视觉数据。这些模型在图像分析、视觉问答和多模态推理方面具有变革性的应用。通过弥合视觉与语言之间的差距,…
-
InternLM-XComposer2.5-OmniLive:用于长期流式视频和音频交互的综合多模态 AI 系统
AI 系统正在通过实现与动态环境的实时交互来模拟人类认知。从事 AI 工作的研究人员旨在开发无缝集成音频、视频和文本输入等多模态数据的系统。通过模仿人类的感知、推理和记忆,这些系统…
-
微软 AI 推出 Phi-4:全新 140 亿参数小型语言模型,专攻复杂推理
大型语言模型在理解自然语言、解决编程任务和应对推理挑战方面取得了令人瞩目的进步。然而,它们的高计算成本和对大规模数据集的依赖带来了一系列问题。许多数据集缺乏复杂推理所需的多样性和深…
-
OpenAI Sora 与 AWS Nova 的区别:哪个更适合视频创作?
最近,OpenAI 的 Sora 和亚马逊(AWS)的 Nova 在 Bedrock 平台上发布,标志着 AI 领域翻开了激动人心的新篇章。虽然这两种模式都以各自的方式推动着这一领…
-
Google AI 发布 Gemini 2.0 Flash:比 Gemini 1.5 Pro 快 2 倍的全新 AI 模型
Google AI Research 推出了 Gemini 2.0 Flash,这是其 Gemini AI 模型的最新版本。此版本侧重于性能改进,尤其是速度显著提高和多模式功能扩展…
-
从规模到密度:评估大型语言模型的新型 AI 框架
大型语言模型 (LLM)在人工智能领域取得了重大进展,随着参数和训练数据的增长,它们在各种任务上都表现出色。GPT -3、PaLM和Llama-3.1在具有数十亿个参数的众多应用中…
-
Meta AI 推出 SPDL:改善 AI 训练期间数据传递方式的工具
如今,训练 AI 模型不仅要设计更好的架构,还要有效地管理数据。现代模型需要大量数据集,并且需要将这些数据集快速传送到 GPU 和其他加速器。问题是什么?传统的数据加载系统往往落后…
-
什么是 Microsoft Copilot Agents?解锁 Agentic AI
准备好进入人工智能生产力的新时代了吗?微软的 Copilot Agents 可能就是你正在寻找的革命性工具。 Copilot Agents 只是微软最近推出的最新智能创新之一。当该…
-
Google DeepMind 发布 PaliGemma 2:全新开放式视觉语言模型系列(3B、10B 和 28B)
视觉语言模型 (VLM) 已经取得了长足的进步,但在有效推广到不同任务方面,它们仍然面临重大挑战。这些模型通常难以处理各种输入数据类型,例如各种分辨率的图像或需要精细理解的文本提示…
-
Gemini AI 如何让通话速度更快?
人们急于尽快完成任务,无论是个人任务还是专业任务。Google 的人工智能工具 Gemini AI 正在开发令人印象深刻的快速呼叫技术。但它是如何工作的呢? 简化技术实现快速连接 …
-
亚马逊推出 Amazon Nova:新一代 SOTA 基础模型,可提供高级智能以及价格与性能的良好平衡
人工智能和机器学习的进步为各行各业的企业带来了新功能。从文本生成到视频合成,现代人工智能模型正在改变组织的运营和创新方式。然而,像 GPT-4 和 Llama 这样的大型基础模型在…
-
Cohere 将在 2024 年推动企业 AI 发展:生成模型、多语言处理和开发者工具方面的创新
Cohere 是一家专注于企业级人工智能 (AI) 解决方案的知名公司。该公司位于加拿大多伦多,在 2024 年取得了突破性进展,这些进展涵盖生成式人工智能、多语言处理和企业级人工…
-
Meta AI 发布 Llama Guard 3-1B-INT4:用于人机对话的紧凑型高性能 AI 调节模型
生成式人工智能系统改变了人类与技术的互动方式,提供了突破性的自然语言处理和内容生成功能。然而,这些系统也存在重大风险,特别是在生成不安全或违反政策的内容时。应对这一挑战需要先进的审…
-
Composio 推出 AgentAuth:专为 AI 代理设计的综合身份验证解决方案
构建与各种服务交互的 AI 代理(AI agent)面临重大挑战,特别是在管理身份验证方面。开发人员经常面临为 Gmail 设置 OAuth 流程、处理 Linear 等平台的 A…
-
Neural Magic 发布 Sparse Llama 3.1 8B:更小的模型,实现高效的 GPU 推理
人工智能模型规模的快速增长带来了巨大的计算和环境挑战。近年来,深度学习模型(尤其是语言模型)规模大幅扩张,需要更多的资源进行训练和部署。这种需求的增加不仅增加了基础设施成本,还导致…
-
Apple 发布 AIMv2:先进的开放式视觉编码器系列
多年来,视觉模型得到了长足的发展,每一次创新都能解决以往方法的局限性。在计算机视觉领域,研究人员经常面临如何平衡复杂性、通用性和可扩展性的挑战。目前的许多模型都难以有效地处理各种视…
-
NFL 如何利用 AI 改变球迷体验比赛的方式
近几年,科技已经融入到体育领域,其中最令人兴奋的运动之一就是 NFL(美国国家橄榄球联盟)。橄榄球世界以球场上的激烈动作、激烈的竞争和根深蒂固的传统而闻名。 现在,NFL 正在利用…