转载

2023-04-24
浏览 (99)
评论 (0)

OpenAI研究具有 CLIP 潜能的分层文本条件图像生成

CLIP 等对比模型已被证明可以学习捕获语义和风格的图像的稳健表示。为了利用这些表示来生成图像，我们提出了一个两阶段模型：一个在给定文本标题的情况下生成 CLIP 图像嵌入的先验模型，以及一个以图像嵌入为条件生成图像的解码器。我们表明，显式生成图像表示可以提高图像多样性，同时将真实感和字幕相似性的损失降到最低。我们以图像表示为条件的解码器还可以生成图像的变体，同时保留其语义和风格，同时改变图像表示中不存在的非必要细节。此外，CLIP 的联合嵌入空间能够以零样本的方式进行语言引导的图像操作。

OpenAI研究

相关文章

Loading...