DeepSeek AI 发布 JanusFlow:图像理解和生成的统一框架

人工智能驱动的图像生成和理解领域取得了快速进展,但重大挑战阻碍了无缝统一方法的发展。目前,擅长图像理解的模型往往难以生成高质量的图像,反之亦然。需要为每个任务维护单独的架构不仅增加了复杂性,而且限制了效率,使得处理需要理解和生成的任务变得繁琐。此外,许多现有模型严重依赖架构修改或预先训练的组件来有效地执行任一功能,这导致性能权衡和集成挑战。

DeepSeek AI 发布了 JanusFlow:一个强大的 AI 框架,将图像理解和生成统一到一个模型中。JanusFlow 旨在通过将图像理解和生成集成到一个统一的架构中来解决前面提到的低效率问题。这个新颖的框架采用极简设计,利用自回归语言模型与整流流(一种最先进的生成建模方法)相结合。通过消除对单独的 LLM 和生成组件的需求,JanusFlow 实现了更具凝聚力的功能,同时降低了架构复杂性。它引入了一种双编码器-解码器结构,将理解和生成任务分离并对齐表示以确保统一训练方案中的性能一致性。

DeepSeek AI 发布 JanusFlow:图像理解和生成的统一框架

技术细节

JanusFlow 以轻量级和高效的方式将整流流与大型语言模型 (LLM) 集成在一起。该架构由用于理解和生成任务的独立视觉编码器组成。在训练期间,这些编码器会进行对齐以提高语义连贯性,从而使系统在图像生成和视觉理解任务中都表现出色。这种编码器的解耦可防止任务干扰,从而增强每个模块的功能。该模型还采用无分类器引导 (CFG) 来控制生成的图像与文本条件的对齐,从而提高图像质量。

与使用扩散模型作为外部工具或使用矢量量化技术的传统统一系统相比,JanusFlow 提供了更简单、更直接的生成过程,限制更少。该架构的有效性在于它能够在多个基准测试中匹敌甚至超越许多特定于任务的模型的性能。

DeepSeek AI 发布 JanusFlow:图像理解和生成的统一框架

JanusFlow 重要性

JanusFlow 的重要性在于其效率和多功能性,解决了多模态模型开发中的一个关键问题。通过消除对单独的生成和理解模块的需求,JanusFlow 允许研究人员和开发人员利用单个框架执行多项任务,从而显著降低复杂性和资源使用率。

基准测试结果表明,JanusFlow 的表现优于许多现有的统一模型,在 MMBench、SeedBench 和 GQA 上分别获得了 74.9、70.5 和 60.3 的分数。在图像生成方面,JanusFlow 超越了 SDv1.5 和 SDXL 等模型,在 MJHQ FID-30k 上的得分为 9.51,在 GenEval 上的得分为 0.63。这些指标表明它在仅使用 13 亿个参数的情况下生成高质量图像和处理复杂多模态任务方面具有卓越的能力。

值得注意的是,JanusFlow 无需依赖大量修改或过于复杂的架构即可实现这些结果,为一般 AI 应用程序提供了更易于访问的解决方案。

DeepSeek AI 发布 JanusFlow:图像理解和生成的统一框架

JanusFlow 是开发能够理解和生成图像的统一 AI 模型的重要一步。其极简主义方法(专注于将自回归功能与整流流相结合)不仅提高了性能,还简化了模型架构,使其更高效、更易于访问。通过在训练期间解耦视觉编码器和对齐表示,JanusFlow 成功弥合了图像理解和生成之间的差距。随着 AI 研究不断突破模型所能实现的界限,JanusFlow 代表着朝着创建更通用、更通用的多模态 AI 系统迈出的重要里程碑。

论文地址:https://huggingface.co/deepseek-ai/JanusFlow-1.3B

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/53885.html

(0)

相关推荐

发表回复

登录后才能评论