图像生成
-
微软和清华大学推出Distilled Decoding:在自回归模型中加速图像生成而无质量损失的新方法
自回归 (AR) 模型改变了图像生成领域,为生成高质量视觉效果树立了新标杆。这些模型将图像创建过程分解为连续步骤,每个标记都基于先前的标记生成,从而创建具有出色真实感和连贯性的输出…
-
谷歌发布用于视频生成的 Veo 2 和用于图像创建的 Imagen 3 :为生成 4K 视频和数分钟长视频设定新标准
视频和图像生成创新正在提高视觉效果的质量,并专注于使 AI 模型对详细提示做出更灵敏的响应。AI 工具通过更准确地再现现实世界的物理和人类运动,为艺术家、电影制作人、企业和创意专业…
-
DeepSeek AI 发布 JanusFlow:图像理解和生成的统一框架
人工智能驱动的图像生成和理解领域取得了快速进展,但重大挑战阻碍了无缝统一方法的发展。目前,擅长图像理解的模型往往难以生成高质量的图像,反之亦然。需要为每个任务维护单独的架构不仅增加…
-
InstructG2I:一种基于图形上下文感知的稳定扩散模型,用于从多模态属性图中合成图像
多模态属性图 (MMAG) 尽管在图像生成方面用途广泛,但并未受到太多关注。MMAG 以图形结构的方式表示具有组合复杂性的实体之间的关系。图中的节点包含图像和文本信息。与文本或图像…
-
基于生成表征的自条件图像生成
本文提出了一种表征条件图像生成方法(Representation-Conditioned image Generation, RCG)。无需任何人类标注提示,它以自监督的表征分布为…
-
Tailored Visions:利用个性化提示重写增强文本到图像生成
创建与个人用户的愿望和偏好紧密结合的个性化视觉表示仍然具有挑战性。这个过程需要用户用可以被模型理解的语言表达他们的想法,这给许多用户带来了困难。在本文中,作者通过利用用户与系统的历…
-
基于GAN网络的图像数据生成技术浅析
Labs 导读:图像数据的生成一直是计算机视觉领域一个具有挑战性的任务。传统的图像数据生成方法通常是基于数学模型生成图像,难以生成逼真的真实图像。随着深度神经网络和大规模数据集的出…
-
面向文本生成图像的可验证和可复制的人工评估 | CVPR2023
人类评估对于验证文本到图像生成模型的性能至关重要,因为这种高度认知的过程需要对文本和图像有深刻的理解。然而,作者对最近37篇论文的调查显示,许多工作完全依赖于自动测量(例如,FID…
-
文本到图像生成的对齐 | CVPR2023 Tutorial Talk
本视频围绕文本到图像生成对齐,讨论了以下四个方面的工作:可控制的生成和编辑、更好地遵循文本提示和概念定制。 来源:CVPR 2023 Tutorial Talk主讲人:Zhengy…
-
HyperDreamBooth: 用于文本到图像模型快速个性化生成的超网络
个性化生成已成为生成领域的重要需求之一,然而微调大模型的成本是很高的。为了克服这个困难,本文提出了 HyperDreamBooth——一种能够从单个人脸图像高效生成一组个性化权重的…
-
人类难以理解真实图像或 AI 生成图像之间的差异
与计算机相比,人类历来在识别面部和照片方面表现出色,但根据一项研究人们如何看待假图像与真实图像的新研究,人工智能生成的照片的出现给人类带来了麻烦。 技术专家一直警告说,人工智能生成…
-
GLIGEN: 开放集基于定位语言的图像生成 | CVPR2023
大规模的文本到图像扩散模型已经取得了惊人的进步。然而,现状是只使用文本输入作为条件,这可能会阻碍可控性。GLIGEN,是一种基于定位语言的图像生成,在现有的预训练文本到图像扩散模型…