DALL·E 2: 让 AI 获得想象力(一)

发布网友

我来回答

1个回答

热心网友

DALL·E 2,由OpenAI所推出的最新成果,旨在根据自然语言的描述生成*真的图像与艺术作品。它能够对现有图像进行真实感编辑,同时在考虑阴影、反射与纹理的基础上增删元素。这一技术在图像与文本之间的关系学习上表现出色,通过一种称为“扩散”的过程,从随机点的图案开始,逐步调整以匹配图像特定特征。这种技术对图像分布转变具有稳健性,并在多种视觉和语言任务中展现出强大的零样本能力。

CLIP,OpenAI在2021年发表的多模态模型,通过互联网上的大量数据集进行训练,显著提升了“零样本”识别能力。CLIP预训练了一个图像编码器(ResNet50或ViT)与文本编码器(Transformer结构),以预测文本与图像间的匹配程度。通过对比学习,CLIP被转化为一个零样本分类器,其强大性能很大程度上得益于从互联网收集的庞大数据集。

对比学习是CLIP采取的高效方法,通过将图片与其对应文本配对作为正样本,其他图片文本对作为负样本进行学习。给定一批图像文本对,CLIP通过联合训练图像编码器与文本编码器,以最大化正样本对的图像与文本嵌入的余弦相似度,同时最小化负样本对嵌入的相似度。在相似性分数上优化对称交叉熵损失,实现模型的训练。

Prompt工程在应用中也十分有趣,OpenAI除了使用互联网数据集外,还利用prompt技术进行额外的指导。这一创新有助于在生成任务中提高样本质量与多样性。

扩散模型,如DDPM,通过正向扩散过程(逐步向图像添加高斯噪声)与逆向过程(逐步从噪声恢复图像)推动图像生成任务的进步。DDPM模型设计基于马尔可夫链,从随机高斯噪声图片开始,通过预测高斯分布的均值与方差,再基于预测的分布进行随机采样生成最终图像。正向扩散过程的特性使得可以采样任意时刻的加噪结果,方便后续训练。

Guided Diffusion模型进一步改进了类别引导扩散模型生成方式,通过在逆向过程的每一步使用分类网络对生成的图片进行分类,并基于分类分数与目标类别的交叉熵损失计算梯度,以梯度引导下一步生成采样。这一方法无需重新训练扩散模型,仅在前馈时加入引导即可实现相应的生成效果。

DALL·E 2将两种方法结合,首先训练一个扩散编码器逆向CLIP图像编码器,以生成图像。编码器的非确定性特性使得在给定图像嵌入时可以生成多个图像,提供超越文本到图像翻译的能力。作者将这种方法称为unCLIP,因为它通过倒置CLIP图像编码器生成图像。在文本到图像生成过程中,使用CLIP嵌入空间的显著优势是能够通过在任何编码文本向量的方向上移动来对图像进行语义修改。

为了获得完整图像生成模型,作者结合CLIP图像解码器与先验模型,后者从给定的文本标题生成可能的CLIP图像嵌入。作者将文本到图像系统与DALL-E和GLIDE等其他系统进行比较,发现样本在质量上与GLIDE相当,但在多样性上更胜一筹。作者还开发了在嵌入空间中训练扩散先验的方法,并表明它们实现了与自回归先验相当的性能,同时具有更高的计算效率。

训练数据集由图像与对应的标题组成,作者设计的生成堆栈利用两个组件从标题生成图像:解码器在给定CLIP图像嵌入的情况下反向生成图像,而先验模型学习图像嵌入的生成模型。堆叠这两个组件产生一个生成模型,将图像从给定标题生成。

作者为先前模型探索了两种模型类型,并提出了在训练过程中随机丢弃文本条件信息的无分类器采样方法,以提高样本质量。通过应用主成分分析降低CLIP图像嵌入的维度,保留几乎所有信息,同时提高训练稳定性。在文本嵌入与图像嵌入之间添加表示点积的token,允许在更高的点积上调整模型,提高生成图像的描述准确性。

对于扩散先验,作者在序列上训练带有因果注意掩码的解码器Transformer,该序列包含编码文本、CLIP文本嵌入、扩散时间步嵌入、噪声CLIP图像嵌入与最终嵌入。作者选择不直接在文本嵌入上调节扩散先验,而是生成两个样本并选择与目标样本具有更高点积的样本,以提高采样质量。

综上所述,DALL·E 2通过结合图像与文本之间的深度学习模型,实现了从自然语言描述生成高保真图像与艺术作品的能力,展现出在图像生成领域的突破性进展。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com