生成式人工智能在平衡自主性和可控性方面面临着重大挑战。虽然自主性通过强大的生成模型取得了显著进步,但可控性已成为机器学习研究人员关注的焦点。基于文本的控制变得尤为重要,因为自然语言提供了人机之间的直观界面。这种方法在图像编辑、音频合成和视频生成方面实现了卓越的应用。
最近的文本到数据生成模型,特别是那些采用扩散技术的模型,通过利用来自大量数据文本对数据集的语义洞察,已经显示出令人印象深刻的结果。
然而,在资源匮乏的情况下,由于数据结构复杂,获取足够的文本配对数据变得过于昂贵或复杂,这会出现重大障碍。分子数据、运动捕捉和时间序列等关键领域通常缺乏足够的文本标签,这限制了监督学习能力并阻碍了高级生成模型的部署。这些限制可以预见地导致生成质量差、模型过度拟合、偏差和输出多样性有限——揭示了在优化文本表示以在数据有限的环境中实现更好的对齐方面存在巨大差距。
低资源情景促使人们提出了几种缓解方法,但每种方法都有其固有的局限性。数据增强技术通常无法将合成数据与原始文本描述准确地对齐,并且有过度拟合的风险,同时增加了扩散模型的计算需求。半监督学习难以克服文本数据中固有的模糊性,使得在处理未标记样本时难以正确解释。迁移学习虽然对于有限的数据集很有前景,但经常会遭受灾难性的遗忘,即模型在适应新的文本描述时会丢失以前获得的知识。这些方法上的缺陷凸显了对专为低资源环境中的文本到数据生成而设计的更稳健的方法的需求。
在本文中,来自 Salesforce AI Research 的研究人员介绍了Text2Data,它引入了一个基于扩散的框架,通过两阶段方法增强了低资源场景中文本到数据的可控性。
首先,它通过无监督扩散模型使用未标记数据掌握数据分布,避免了半监督方法中常见的语义模糊性。
其次,它在不扩展训练数据集的情况下对文本标记数据实现可控的微调。相反,Text2Data 采用基于约束优化的学习目标,通过将模型参数保持在接近其预微调状态来防止灾难性遗忘。
这个独特的框架有效地利用了标记和未标记数据来保持细粒度的数据分布,同时实现了卓越的可控性。理论验证支持优化约束选择和泛化界限,三种模态的全面实验证明了与基线方法相比,Text2Data 具有卓越的生成质量和可控性。
Text2Data 通过学习条件分布 pθ(x|c) 来解决可控数据生成问题,其中有限的配对数据会带来优化挑战。如下图所示,该框架分为两个不同的阶段运行。首先,它利用更丰富的未标记数据来学习边际分布 pθ(x),从而在集合 Θ 内获得最优参数 θ̂。此方法利用了边际分布和条件分布之间的数学关系,其中 pθ(x) 近似于文本分布上 pθ(x|c) 的预期值。随后,Text2Data 使用可用的标记数据-文本对对这些参数进行微调,同时实施约束优化,以使更新后的参数 θ̂’ 保持在 Θ 和 Θ’ 的交集内。此约束可确保模型在获得文本可控性的同时保持对整体数据分布的了解,从而有效地防止通常在微调过程中发生的灾难性遗忘。

Text2Data 实施两阶段方法,首先使用所有可用数据和 NULL 标记作为条件来学习一般数据分布。这允许模型优化 pθ(x|∅),由于 NULL 标记与 x 无关,因此它实际上等于 pθ(x)。第二阶段引入了一个约束优化框架,该框架可在文本标记数据上微调模型,同时防止参数偏离先前学习的分布。从数学上讲,这表示为最小化条件概率 pθ(x|c) 的负对数似然,但要满足边际分布性能保持接近第一阶段建立的最佳值 ξ 的约束。这种基于约束的方法直接解决了灾难性遗忘问题,方法是确保模型参数保持在最佳集合内,其中一般数据表示和文本特定的可控性可以共存——本质上解决了平衡这些相互竞争的目标的词典优化问题。
它通过将理论目标转化为实际损失函数来实现无分类器扩散指导。该框架优化了三个关键组件:用于一般数据分布学习的 L1(θ)、用于标记数据分布保存的 L’1(θ) 和用于文本条件生成的 L2(θ)。这些都是使用可用数据样本进行经验估计的。算法 1 中详述的词典优化过程通过使用参数 λ 动态调整梯度更新来平衡这些目标,该参数 λ 强制约束同时允许有效学习。这种方法使用一种复杂的更新规则,其中 θ 是根据两个目标的梯度的加权组合进行修改的。可以在训练期间放宽约束以改善收敛,认识到参数不需要是原始参数空间的精确子集,而应该保持近端以在获得可控性的同时保留分布知识。

Text2Data 通过验证参数选择的泛化边界为其约束优化方法提供了理论基础。该框架确定了从扩散过程中得到的随机变量是亚高斯的,从而可以制定严格的置信边界。定理 0.2 提供了三个关键保证:首先,置信边界内的经验参数集完全包含真正的最优集;其次,经验解在主要目标上与理论最优值有效竞争;第三,经验解保持对理论约束的合理遵守。实际实施引入了一个松弛参数 ρ,它可以调整约束的严格性,同时将其保持在数学上合理的置信区间内。这种松弛承认了现实世界中可以获得大量未标记样本的条件,即使在处理具有数百万个参数的模型时,置信边界也相当紧密。涉及 45,000 个样本和 1400 万个参数的运动生成实验证实了该框架的实际可行性。

与基线方法相比,Text2Data 在多个领域表现出卓越的可控性。在分子生成中,与 EDM-finetune 和 EDM 相比,它在所有属性上实现了更低的平均绝对误差 (MAE),尤其是在 ϵLUMO 和 Cv 等属性方面表现出色。对于运动生成,Text2Data 在 R 精度和多模态距离指标方面超越了 MDM-finetune 和 MDM。在时间序列生成中,它在所有评估属性上的表现始终优于 DiffTS-finetune 和 DiffTS。除了可控性之外,Text2Data 还保持了卓越的生成质量,在时间序列中显示出分子有效性、稳定性、运动生成多样性和分布一致性的改进。这些结果验证了 Text2Data 在减轻灾难性遗忘的同时保持生成质量的有效性。

Text2Data 有效地解决了在资源匮乏的情况下跨多种模式进行文本到数据生成的挑战。通过最初利用未标记数据来掌握整体数据分布,然后在对标记数据进行微调时实施约束优化,该框架成功地平衡了可控性和分布保持性。这种方法可以防止灾难性遗忘,同时保持生成质量。实验结果一致表明,Text2Data 在可控性和生成质量方面均优于基线方法。尽管使用扩散模型实现,但 Text2Data 的原理可以很容易地适应其他生成架构。
更多详细信息请查看:https://github.com/SalesforceAIResearch/text2data
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/56548.html