颠覆想象的AI绘画：Dall-E 2使用指南

围绕 OpenAI 推出的第二代 DALL-E 2 系统的讨论一直处于两极分化的状态，甚至在其推出了几个月后依旧如此。

有用户认为这是一项可以重新定义艺术的突破性创新，而批评者则将其视为人工智能图像生成器给创意产业带来厄运的开始。

然而毫无疑问的是，DALL-E 2 为我们创造和消费艺术开辟了新的可能性和挑战。本文详细介绍了 AI 图像生成器 DALL-E 2 的用法和缺点。

什么是 DALL-E 2？

DALL-E 2 是一款人工智能图像生成器，它可以根据自然语言的文本描述创建图像和艺术形式。换句话说，它是一个根据文本生成图像的人工智能系统。

2021 年 1 月，OpenAI 推出了 DALL-E 模型，DALL-E 2 是其升级版。「DALL-E」这个名字源于西班牙著名艺术家 Salvador Dalí和广受欢迎的皮克斯动画机器人「Wall-E」的组合。

2022 年 7 月，DALL-E 2 进入测试阶段，可供白名单中的用户使用。同年 9 月 28 日，OpenAI 取消了白名单的要求，推出了任何人都可以访问并且使用的开放测试版。

与最初的 DALL-E 一样，DALL-E 2 也是一种语言生成模型，它使用文本提示来创建原始图像。

尽管和之前 DALL-E 具有的 120 亿个参数的模型不同，DALL-E 仅仅具有大约 35 亿个参数，但 DALL-E 2 生成的图像分辨率是 DALL-E 的四倍，这是一次令人印象深刻的升级。同时，DALL-E 2 在真实感和字幕匹配方面似乎也做得更好。

如何使用 DALL-E 2？

听起来，DALL-E 2 很有未来感，可能会让新用户望而生畏，但它使用起来非常简单。我们不进行详细介绍，仅通过迷你教程为大家提供快速概览。

首先，登陆 DALL-E 2 的官网并创建一个帐户，如果您此前已经拥有 OpenAI 的帐户，登陆即可。需要注意的是，系统会要求您提供电子邮件和电话号码以进行验证。

一旦帐户准备就绪，我们就可以开始生成图像。用户最多提供 400 个字符的描述性文本，AI 艺术生成器将对其进行处理。根据测试，我们可以从文本提示中得到许多原创且有趣的结果。

比如，我们输入「狼群在满月时嚎叫」就收到了如下的结果。

输入「一个 3D 渲染的罗马士兵正在休息」则获得了以下的图像。

DALL-E 2 的工作原理是什么？

DALL-E 2 为 AI 图像生成器的质量提供了新的基准。它与之前的同类产品相比，能够更好地理解文本描述。

其卓越的自然语言理解能力可以更严格地控制图像的风格、主题、角度、背景、位置和概念，并获得更高质量的图像和令人印象深刻的艺术形式。

那么让我们来看看 DALL-E 2 的工作原理。

要了解 AI 图像生成器的工作原理，我们首先需要了解 CLIP、先验模型和解码器扩散模型（unCLIP）。

什么是 CLIP？CLIP 指的是对比语言图像预训练，是 DALL-E 2 架构中最关键的模块。

该训练基于用户可以用自然语言教计算机不同图像之间如何相互关联，并由文本和图像编码器这两个神经网络组成。

文本和图像编码器都接受了大量不同的图像文本对集合的训练。该模型分析这些图像 – 标题对以创建称为文本 / 图像嵌入的矢量表示。换句话说，CLIP 充当文本（输入）和图像（输出）之间的桥梁。

先验模型采用标题 /CLIP 文本嵌入，并以此为基础生成 CLIP 图像嵌入。

unCLIP 则是使用 CLIP 图像嵌入生成图的原始 CLIP 模型的逆模型。DALL-E 2 通过先验模型和 unCLIP 模型来创建输出。

下图大致概述了其基本过程。

如图所示，unCLIP 模型创建了图像的「心理」表示。基于此，创建了原始图像。

这些「心理再现」保留了语义一致的核心特征和特点，例如「动物、物体、颜色、风格和背景等关键要素」。然而，因为扩散学习是变化的，每一次输出的图像也会有所不同。

请注意，上文只是 DALL-E 2 工作原理的简要表述，实现的技术细节和数学更加复杂，我们就不在这里赘述。如果您对 DALL-E 2 的技术规格感兴趣，可以参看 OpenAI 在今年早些时候发表的论文《Hierarchical Text-Conditional Image Generation with CLIP Latents》。

使用 DALL-E 2 可以做什么？

只要用户给出精确和具有描述性的文本提示，就可以通过 AI 艺术生成器得到多个高质量的图像，甚至在几秒钟的时间里实现画家或数字艺术家需要数小时甚至数天才能达到的质量水平。

用户可以免费查看所有这些视觉创意，无需支付场地费，也无需向创意人员和模特支付工资。

然而这也对我们的内容创作经济带来了一定的影响。

DALL-E 2 使用自己对主题、风格、调色板和所需概念意义的「理解」，生成相应的图像。