OpenAI研究 具有 CLIP 潜能的分层文本条件图像生成
CLIP 等对比模型已被证明可以学习捕获语义和风格的图像的稳健表示。为了利用这些表示来生成图像,我们提出了一个两阶段模型:一个在给定文本标题的情况下生成 CLIP 图像嵌入的先验模型,以及一个以图像嵌入为条件生成图像的解码器。我们表明,显式生成图像表示可以提高图像多样性,同时将真实感和字幕相似性的损失降到最低。我们以图像表示为条件的解码器还可以生成图像的变体,同时保留其语义和风格,同时改变图像表示中不存在的非必要细节。此外,CLIP 的联合嵌入空间能够以零样本的方式进行语言引导的图像操作。