AIGC
-
NFL 如何利用 AI 改变球迷体验比赛的方式
近几年,科技已经融入到体育领域,其中最令人兴奋的运动之一就是 NFL(美国国家橄榄球联盟)。橄榄球世界以球场上的激烈动作、激烈的竞争和根深蒂固的传统而闻名。 现在,NFL 正在利用…
-
LLaVA-o1:一个能够进行与 GPT-o1 类似的自发、系统推理的视觉语言模型
视觉语言模型 (VLM) 的开发在处理复杂的视觉问答任务方面面临挑战。尽管 OpenAI 的 GPT-o1 等大型语言模型在推理能力方面取得了长足进步,但 VLM 仍然难以进行系统…
-
Nexa AI 发布 OmniVision-968M:最小的视觉语言模型,可为边缘设备减少 9 倍的 Token 数量
边缘人工智能长期以来一直面临着平衡效率和有效性的挑战。由于边缘设备规模大、计算需求高以及延迟问题,在边缘设备上部署视觉语言模型 (VLM) 非常困难。为云环境设计的模型通常会因边缘…
-
GenAI 如何塑造商业未来:NTT DATA 2025 年报告的关键见解
NTT DATA最新的全球 GenAI 报告基于对 34 个国家/地区 2,307 名高管的广泛调查,深入探讨了生成式人工智能(GenAI) 如何在 2025 年重新定义商业格局。…
-
Fixie AI 推出 Ultravox v0.4.1:专为实现与 LLM 实时对话而训练的开放式语音模型系列
人工智能实时无缝交互对开发人员和研究人员来说一直是一项复杂的任务。一项重大挑战在于将多模态信息(例如文本、图像和音频)集成到一个有凝聚力的对话系统中。尽管 GPT-4 等大型语言模…
-
TensorOpera AI 发布 Fox-1:系列小型语言模型包括 Fox-1-1.6B 和 Fox-1-1.6B-Instruct-v0.1
大型语言模型 (LLM) 的最新进展已在从解决数学问题到回答医学问题的广泛应用中展现出强大的能力。然而,由于这些模型规模庞大,并且需要大量的计算资源来训练和部署它们,因此它们变得越…
-
MOS-Bench:用于训练和评估主观语音质量评估 (SSQA) 模型的综合数据集
主观语音质量评估 (SSQA) 的一个关键挑战是使模型能够在各种未见过的语音领域中推广。通用 SSQA 模型评估了许多模型在其训练领域之外表现不佳,主要是因为这种模型在跨领域表现不…
-
Cerebras Systems 改变 AI 推理:使用 Llama 3.1-70B 实现 3 倍速度提升,每秒处理 2,100 个 Token
AI 继续快速发展,但这种发展带来了一系列技术挑战,需要克服这些挑战才能真正蓬勃发展。当今最紧迫的挑战之一是推理性能。大型语言模型 (LLM)(例如基于 GPT 的应用程序中使用的…
-
OpenAI 在实时图像和虚拟世界创建方面的突破
探讨 OpenAI 在实时图像和虚拟世界的突破对各行各业的专业人士意味着什么、带来了哪些机遇,以及随着这些功能的发展,未来可能会是什么样子。
-
LLM-PCGC | 基于大模型的点云几何压缩
摘要:有效的点云压缩的关键在于获得与复杂的三维数据结构一致的鲁棒上下文模型。近年来,大语言模型(LLMs)的发展突显了它们不仅在上下文学习和生成方面表现出强大的预测能力,同时也是有…
-
Fish Agent v0.1 3B 发布:突破性的语音对语音模型,能够以前所未有的精度捕捉和生成环境音频信息
当前的文本转语音 (TTS) 系统(例如 VALL-E 和 Fastspeech)面临着与处理复杂语言特征、管理复音表达和生成自然的多语言语音相关的持续挑战。在处理依赖于上下文的复…
-
Hertz-Dev:用于实时对话式 AI 的开源 8.5B 音频模型,在单 RTX 4090 上具有 80 毫秒理论延迟
对话式 AI 如今已成为技术的基石,但实现快速、高效和实时的交互仍然具有挑战性。延迟(输入和响应之间的延迟)限制了客户服务机器人和虚拟助手等应用程序,使交互变得迟缓。现有模型通常需…
-
OuteTTS-0.1-350M 发布:无需外部适配器即可利用纯语言建模的新型 TTS 合成模型
近年来,文本转语音 (TTS) 合成领域取得了快速发展,但仍然充满挑战。传统的 TTS 模型通常依赖于复杂的架构,包括深度神经网络和专用模块,例如声码器、文本分析器和其他适配器,以…
-
Meta AI 发布 Sparsh:首个基于视觉的触觉传感通用编码器
触觉传感在机器人技术中起着至关重要的作用,它能帮助机器有效地了解环境并与之互动。然而,基于视觉的触觉传感器的现状带来了巨大挑战。传感器的形状、光照和表面标记各不相同,因此很难构建通…
-
SmolLM2 发布:新系列(0.1B、0.3B 和 1.7B)小语言模型,性能优于 Meta Llama 3.2 1B
近年来,大型语言模型 (LLM) 的激增极大地改变了我们处理自然语言处理任务的方式。然而,这些进步并非没有缺点。GPT-4 和 Meta 的 LLaMA 等大型 LLM 的广泛使用…
-
Meta AI 发布 MobileLLM 125M、350M、600M 和 1B 模型检查点
大型语言模型 (LLM) 的广泛采用为对话式 AI、内容生成和设备端应用等领域带来了重大进步。然而,部署这些模型严重依赖大量云资源,引发了对延迟、成本和环境可持续性的担忧。像 GP…
-
Meta AI 发布 LongVU:一种可解决长视频理解重大挑战的多模态大型语言模型
理解和分析长视频一直是人工智能领域的一大挑战,这主要是因为需要大量的数据和计算资源。由于上下文长度有限,传统的多模态大型语言模型 (MLLM) 难以处理大量视频内容。这一挑战对于长…
-
Mini-InternVL: 多模态大语言模型 (MLLM) 1B 至 4B 系列,仅用 5%的参数就能实现 90% 的性能
多模态大型语言模型 (MLLM) 在人工智能领域发展迅速,它集成了视觉和语言处理功能,以增强对各种数据类型的理解和交互。这些模型通过将视觉和文本数据处理结合到一个连贯的框架中,在图…
-
Meta AI 发布 NotebookLlama:谷歌 NotebookLM 的开放版本
Meta 最近发布了 NotebookLlama,这是 Google NotebookLM 的开放版本,它为研究人员和开发人员提供了可访问、可扩展的交互式数据分析和文档解决方案。N…
-
Salesforce AI Research 推出 BLIP-3-Video:用于视频的多模态语言模型,旨在有效捕捉多帧的时间信息
视觉语言模型(VLM)因其整合视觉和文本数据的能力而在人工智能领域日益突出。这些模型在视频理解、人机交互和多媒体应用等领域发挥着至关重要的作用,提供了根据视频输入回答问题、生成字幕…