图像生成

技术文章

FLUX提速1.9X & LoRA热插拔！图像生成加速新标杆lyraDiff全面开源！

刚刚，腾讯天琴实验室在官微宣布 lyraDiff 全面开源，以下为全文内容。还在忍受原生Stable Diffusion与FLUX等文生图模型的龟速推理和显存与成本焦虑？第三方加…

大厂Animal
2025年3月31日
技术文章

微软和清华大学推出Distilled Decoding：在自回归模型中加速图像生成而无质量损失的新方法

自回归 (AR) 模型改变了图像生成领域，为生成高质量视觉效果树立了新标杆。这些模型将图像创建过程分解为连续步骤，每个标记都基于先前的标记生成，从而创建具有出色真实感和连贯性的输出…

图像处理
2024年12月27日
技术文章

谷歌发布用于视频生成的 Veo 2 和用于图像创建的 Imagen 3 ：为生成 4K 视频和数分钟长视频设定新标准

视频和图像生成创新正在提高视觉效果的质量，并专注于使 AI 模型对详细提示做出更灵敏的响应。AI 工具通过更准确地再现现实世界的物理和人类运动，为艺术家、电影制作人、企业和创意专业…

AIGC
2024年12月18日
技术文章

DeepSeek AI 发布 JanusFlow：图像理解和生成的统一框架

人工智能驱动的图像生成和理解领域取得了快速进展，但重大挑战阻碍了无缝统一方法的发展。目前，擅长图像理解的模型往往难以生成高质量的图像，反之亦然。需要为每个任务维护单独的架构不仅增加…

图像处理
2024年11月14日
技术文章

InstructG2I：一种基于图形上下文感知的稳定扩散模型，用于从多模态属性图中合成图像

多模态属性图 (MMAG) 尽管在图像生成方面用途广泛，但并未受到太多关注。MMAG 以图形结构的方式表示具有组合复杂性的实体之间的关系。图中的节点包含图像和文本信息。与文本或图像…

图像处理
2024年10月12日
技术文章

基于生成表征的自条件图像生成

本文提出了一种表征条件图像生成方法（Representation-Conditioned image Generation, RCG)。无需任何人类标注提示，它以自监督的表征分布为…

图像处理
2024年1月5日
技术文章

Tailored Visions:利用个性化提示重写增强文本到图像生成

创建与个人用户的愿望和偏好紧密结合的个性化视觉表示仍然具有挑战性。这个过程需要用户用可以被模型理解的语言表达他们的想法，这给许多用户带来了困难。在本文中，作者通过利用用户与系统的历…

图像处理
2023年12月19日
技术文章

基于GAN网络的图像数据生成技术浅析

Labs 导读：图像数据的生成一直是计算机视觉领域一个具有挑战性的任务。传统的图像数据生成方法通常是基于数学模型生成图像，难以生成逼真的真实图像。随着深度神经网络和大规模数据集的出…

图像处理
2023年12月18日
技术文章

面向文本生成图像的可验证和可复制的人工评估 | CVPR2023

人类评估对于验证文本到图像生成模型的性能至关重要，因为这种高度认知的过程需要对文本和图像有深刻的理解。然而，作者对最近37篇论文的调查显示，许多工作完全依赖于自动测量(例如，FID…

图像处理
2023年11月18日
技术文章

文本到图像生成的对齐 | CVPR2023 Tutorial Talk

本视频围绕文本到图像生成对齐，讨论了以下四个方面的工作：可控制的生成和编辑、更好地遵循文本提示和概念定制。来源：CVPR 2023 Tutorial Talk主讲人：Zhengy…

图像处理
2023年10月12日
技术文章

HyperDreamBooth: 用于文本到图像模型快速个性化生成的超网络

个性化生成已成为生成领域的重要需求之一，然而微调大模型的成本是很高的。为了克服这个困难，本文提出了 HyperDreamBooth——一种能够从单个人脸图像高效生成一组个性化权重的…

图像处理
2023年7月21日
行业资讯

人类难以理解真实图像或 AI 生成图像之间的差异

与计算机相比，人类历来在识别面部和照片方面表现出色，但根据一项研究人们如何看待假图像与真实图像的新研究，人工智能生成的照片的出现给人类带来了麻烦。技术专家一直警告说，人工智能生成…

假装是大佬
2023年6月5日
技术文章

GLIGEN: 开放集基于定位语言的图像生成 | CVPR2023

大规模的文本到图像扩散模型已经取得了惊人的进步。然而，现状是只使用文本输入作为条件，这可能会阻碍可控性。GLIGEN，是一种基于定位语言的图像生成，在现有的预训练文本到图像扩散模型…

图像处理
2023年6月5日