OpenAI又放大招—Dall---E模型可从文本直接生成图像！

来源：华院数据时间：2021-01-15 16:10:02 作者：

OpenAI开发的GPT-3模型可用自然语言指导神经网络完成各种文本生成任务，Image GPT模型则可用同类型神经网络生成高质量的图像。在不断加深对这二者的研究之后，研究人员发现，自然语言与视觉图像之间的二次元壁可打破。

和GPT-3一样，DALL·E也是基于Transformer的语言模型，它同时接受文本和图像数据并以单一数据流（1280个tokens）形式输入，使用极大似然的方法训练模型来生成所有的tokens，这种训练流程不仅可以使得DALL-E能生成一个图像，而且可以以与文本提示一致的方式，重新生成能够延伸到现有图像右下角任何矩形区域。

研究小组发现，生成模型的工作可能对社会产生深远影响，他们计划对DALL类的语言模型如何与社会问题关联进行分析，比如，经济影响、语言模型输出是否存在偏见、以及该技术一直存在的道德挑战。

除此之外，DALL·E可以自动分析复杂句式生成画面。视觉效果中显示的每个标题下的图像示例都是在使用CLIP重新排名后，从512个中选前32张获得的，但不使用任何手动筛选，除了缩略图和外部显示的独立图像。另外，研究小组通过修改实体对象的属性和它出现的次数来测试DALL•E的性能。

同时掌握多实物属性以及各部位空间关系是DALL·E需要面临的一个全新挑战。下面这条文本信息 “一只刺猬带着红帽子、黄手套、蓝衬衫和绿裤子”，DALL·E为了正确解读这条信息，不仅要正确地搭配动物的每一件服装，而且要在不混淆的情况下形成组合(帽子，红色)，(手套，黄色)，(衬衫，蓝色)和(裤子，绿色)。

如果实物数量较少，DALL·E可控制物体属性以及它们所处位置，不过正确率取决于文字如何表述。但文字描述的物体一旦增多，DALL·E就容易混淆物体与其颜色之间的关联关系，生成正确图像的概率就会大幅度降低。并且，在以下情况下DALL·E在标题重述方面很脆弱：可替代的或者与语义等价的标题通常不能被准确的解释。

由于DALL·E可以控制场景的视角以及渲染场景的3D风格，研究小组让DALL·E从一系列等距角度重复绘制每个角度下的某个名人的头部。最后发现，DALL•E可以恢复旋转头部的平滑动画。

DALL·E还能给场景加一些光学畸变的特效，比如“超广角鱼眼镜头”“球面全景图”，这些发现激发研究小组探索DALL·E更多可能性。同时，“极端特写视图”和“ x射线”样式的样本促使研究小组进一步探索DALL·E用横截面渲染内部结构和用微距照片渲染外部结构的能力。

但文本生成图像的任务具有不定性：一句话通常可画出无数个合要求的画面。比如画“一只日落下坐在草坪上的海豚”，根据海豚坐在地上的方向，很有必要给这只海豚画一个阴影，尽管这个细节没有明确提出来。

DALL·E是从三个方面解决这种不定性：改变风格、搭配和时间；变换位置画同一个物体；绘制画面时为它专门写一段文字。

由于可靠性不同，DALL·E允许经自然语言描述得到图像的3D渲染效果，这样它可以定向改变一部分物体属性、数量和排列顺序，也可以决定从哪个角度、位置渲染场景，按所需方向、光源情况画图。与3D渲染引擎不同的是，DALL·E不需要准确无误、完整的文本信息。如果文本没有明确表明某个信息而是将其暗含其中，它会以“填空”的形式将其画出。

因为语言具有创作性，所以人们可以描述现实中的事物、想象中事物，而DALL·E也具备这一能力。它可将碎片式的想法组合起来画出一个物体，甚至有些物体并不存在这个世界上。研究人员是通过以下两点发现它这一特质的：将概念和物体的属性转换出来，再发挥想象将天马行空的想法设计出来。

DALL·E绘制实物时除了结合各种天马行空的概念，在文字处理上还具备以下三种能力：将动物、物体拟人化、动与物结合、表情符号。

OpenAI开发的GPT-3模型不需要额外数据进行训练，就可依据文字、线索独立完成各种任务，根据文本框提供的内容输出答案。例如，文本框输入“这个句子‘一个人牵着他的狗走在公园里’”，将这句话翻译成法语：”，GPT-3就可以写出“un homme qui promène son chien dans le parc.”这个能力被称为零样本学习，DALL·E可将这种能力拓展到视觉领域。如果文本输入正确，还可以实现一些图像对图像“翻译”的工作。

但研究小组并不希望DALL·E的这项能力与神经网络融合或者对神经网络没有任何质的提升或者微调，相反，他们通过瑞文标准图形推理测验（20世纪一个常见的IQ测试题）检测到DALL·E对类比推理问题具有解决能力。

DALL·E可掌握地理知识、地标、领界区域，而且这些知识惊人的准确，但也存在纰漏

除了拓展DALL·E知识领域广度，也拓展它的知识宽度

基于Transformer解码部分的DALL·E可以接收来自文本和图片的1280个tokens，其中256个用于文字，1024个用于图像——属于自回归模型。在其64个自注意力层中的每个注意力掩码允许每个图像的token加入到所有的文本token中。DALL-E对文本token使用标准的因果掩码，根据层对行、列或卷积注意力模式的图像标记使用稀疏注意力机制。

自从Reed诞生，文本合成图像一直是研究领域专注的部分，它的方法是使用文本低维嵌入表征的GAN模型，这种低维嵌入表征向量是由对比损失函数训练的编码器生成，像CLIP一样，StackGAN 和 StackGAN++使用多种尺度的GAN模型来提升图像分辨率和保真度。

AttnGAN将与文字与图片特征有关的注意力整合起来，呈现文本与图像的对比特征，弥补丢失的辅助目标。其它模型将培训期间有关督查的附属资源整合起来以提高画质，最后，基于采样策略，Nguyen和Cho利用预训练多模态判别模型生成图像。

这与VQVAE-2使用的舍选抽样相似，在交互视觉中，从512个样本抽出前32个，根据文字重新排列。这个过程可以看作语言导向检索，对样本质量有非常大的影响。