【技术解析】从CLIP潜空间到高清图像：DALL·E 2的层级扩散生成架构

2026/6/28 18:39:16

1. CLIP潜空间：文本与图像的桥梁

当你用"一只戴着墨镜的柴犬在沙滩上冲浪"这样的描述生成图像时，DALL·E 2首先需要理解这句话的深层语义。这正是CLIP模型的看家本领——它将文本和图像映射到同一个共享潜空间。想象这个空间就像 multilingual 的翻译官，能把英语的"dog"、法语的"chien"和一张狗的照片，都转换成同一种"犬科动物"的通用编码。

CLIP的训练方式很特别：它同时看4亿对图文数据，学习判断哪些文字描述配哪些图片。这种对比学习产生的潜空间有个神奇特性——语义相近的内容会自然聚在一起。比如"猫"和"喵星人"的文本编码，与真实猫照片的图像编码，在潜空间中的距离会比"卡车"的编码近得多。实测发现，这个空间甚至能捕捉到"国王-男人+女人≈女王"这样的类比关系。

但CLIP潜空间也有局限。它更关注全局语义而非细节，就像只看轮廓的简笔画。当我尝试生成"红色方块在蓝色圆形左边"时，模型常会混淆位置关系。这是因为CLIP训练时没有显式学习物体空间布局，就像人类能一眼看出两幅画的构图差异，但CLIP可能只记住了"都有方块和圆形"。

2. 层级扩散：从模糊到清晰的魔法

2.1 先验模型：文本到潜空间的翻译官

有了CLIP的文本编码，DALL·E 2用扩散先验模型将其转化为图像潜编码。这个过程就像把菜谱文字转换成厨师脑海中的菜品画面。我测试过不同先验模型的效果：自回归(AR)先验像老式电报，逐个像素预测；而扩散先验更像现代视频通话，能并行生成整体画面。

具体实现上，模型会先对CLIP图像编码做PCA降维，只保留319个关键维度。这相当于把高清照片压缩成JPEG，但神奇的是，解码时主要特征仍能完美还原。训练时还会随机丢弃10%的文本条件，这招叫无分类器引导，能让模型在推理时通过调节引导强度来控制生成效果——强度低则创意足，强度高则更符合描述。

2.2 解码器：潜编码的显影液

拿到图像潜编码后，层级扩散解码器开始工作。它不像传统GAN一步到位，而是像显影照片般分阶段细化：

基础生成：64x64分辨率下，U-Net结构的扩散模型通过约1000步去噪，将随机噪声逐渐塑形。这里的关键是加入了CLIP潜编码作为条件，就像雕塑家参照设计图工作。
空间上采样：两个额外的扩散模型接力工作，先放大到256x256，再提升到1024x1024。有趣的是，上采样器会故意给输入加噪，这相当于给模型"模糊版本+噪声提示"，迫使它学会补全真实细节而非简单插值。

实测中我发现，这种层级结构对保持连贯性至关重要。若直接生成高清图，模型常会产生割裂的局部特征；而分阶段生成就像画家先打草稿再细化，每步都建立在前一步的稳定基础上。