LOONG：一款基于自回归 LLM 的新型视频生成器，可生成长达一分钟的视频

AIGC • 2024年10月8日下午2:44 • 技术文章

利用自回归大语言模型(LLM) 生成视频是一个新兴领域，发展前景广阔。虽然 LLM 在自然语言处理中生成连贯且冗长的标记序列方面表现出色，但它们在视频生成中的应用仅限于几秒钟的短视频。为了解决这个问题，研究人员推出了 Loong，这是一种基于自回归 LLM 的视频生成器，能够生成长达数分钟的视频。

训练像 Loong 这样的视频生成模型涉及一个独特的过程。该模型从头开始训练，将文本标记和视频标记视为统一序列。研究人员提出了一种渐进式的短到长训练方法和损失重新加权方案，以缓解长视频训练的损失不平衡问题。这使得 Loong 可以在 10 秒的视频上进行训练，然后扩展为以文本提示为条件生成分钟级的长视频。

然而，大视频的生成相当棘手，未来还有许多挑战。首先，训练过程中存在损失不平衡的问题。当以下一个 token 预测为目标进行训练时，从文本提示预测早期帧的 token 比根据前几帧预测晚期帧的 token 更难，导致训练期间损失不均衡。随着视频长度的增加，来自简单 token 的累积损失掩盖了来自困难 token 的损失，主导了梯度方向。其次，该模型根据真实 token 预测下一个 token，但在推理过程中依赖于自己的预测。这种差异会造成误差累积，尤其是由于强帧间依赖性和许多视频 token，导致长视频推理中的视觉质量下降。

为了缓解视频 token 难度不平衡的挑战，研究人员提出了一种渐进式短到长训练策略，并重新调整损失，如下所示：

循序渐进的短期至长期训练

训练分为三个阶段，这增加了训练长度：

第一阶段：在大型静态图像数据集上使用文本到图像生成对模型进行预训练，帮助模型为建模每帧外观奠定坚实的基础

第二阶段：模型在图像和短视频片段上进行训练，学习捕捉短期时间依赖性

第三阶段：增加视频帧数，继续进行联合训练

Loong 采用双组件系统设计，一个将视频压缩为标记的视频标记器、一个解码器和一个根据文本标记预测下一个视频标记的转换器。

Loong 使用 3D CNN 架构作为tokenizer，灵感来自 MAGViT2。该模型适用于低分辨率视频，并将超分辨率留给后期处理。Tokenizer 可以将 10 秒的视频（65 帧，128*128 分辨率）压缩为 17*16*16 个离散 token 序列。基于自回归 LLM 的视频生成将视频帧转换为离散 token，使文本和视频 token 形成统一的序列。文本到视频的生成被建模为基于文本 token 的自回归预测视频 token，使用仅解码器的 Transformers。

大型语言模型可以推广到较长的视频，但超出训练时长可能会导致错误积累和质量下降。有很多方法可以纠正它：

视频令牌重新编码
采样策略
超分辨率和细化

该模型采用 LLaMA 架构，参数大小从 700M 到 7B 不等。模型从头开始训练，没有文本预训练权重。词汇表包含 32,000 个文本标记、8,192 个视频标记和 10 个特殊标记（共 40,202 个）。视频标记器复制了 MAGViT2，对第一个视频帧使用因果 3D CNN 结构。空间维度压缩了 8 倍，时间维度压缩了 4 倍。量化使用聚类矢量量化 (CVQ)，与标准 VQ 相比，提高了码本的使用率。视频标记器有 246M 个参数。