一种让图像生成模型懂得自我纠错的新技术 这篇研究来自英伟达NVIDIA旗下的Nemotron Labs团队论文于2026年6月29日发布于预印本平台arXiv编号为arXiv:2606.29814v1感兴趣的读者可通过该编号查阅完整原文。**研究概要**假设你雇了一位画师来帮你画一幅肖像但这位画师有个奇怪的规矩他把每一笔落下去之后就永远不能修改那一笔只能继续往下画。你可以想象这种工作方式很容易让早期的一个失误在整幅画中越来越放大最终画出来的作品可能与期望相差甚远。这恰恰就是当前许多主流AI图像生成系统面临的核心困境——它们在生成图像时一旦某个局部被确认便无法回头修改。英伟达的研究团队意识到这个问题并为此专门研发了一套名为Nemotron-Labs-Diffusion-Image简称NLD-Image的全新图像生成系统。这套系统不仅让AI学会在生成过程中随时改稿还解决了另一个让业界头疼已久的难题当图像词典越来越大时AI的学习效率会急剧下降。这两项技术突破共同构成了这篇论文的核心贡献。在多项标准测试中NLD-Image取得了相当亮眼的成绩在GenEval一个专门测试AI是否能准确理解文字描述并生成对应图像的基准上得分0.90在DPG另一个衡量图像与文字语义匹配程度的基准上得分86.9在MJHQ数据集的HPSv3专门用人类审美偏好训练的评分模型指标上取得了10.76的高分与Qwen-Image等旗舰级商业模型相当。---一、AI画图的两种主流方式以及它们各自的烦恼在正式介绍这项研究的创新之前有必要先理解AI生成图像领域目前的两大主流路径因为NLD-Image所要解决的问题正是其中一种路径固有的缺陷。第一种路径叫做连续扩散模型Latent Diffusion ModelsLDM目前最广为人知的代表包括Stable Diffusion、FLUX和SD3等。这类模型的工作方式可以比作雕塑家用一大块黏土逐步捏出作品的过程——一开始整块黏土是随机噪音雕塑家反复揉捏、修整每一轮都让形状更接近目标直到最终成品浮现。这种方式有一个天然的优势每一轮修整都是在整体上进行的早期的偏差有机会在后续步骤中被逐步纠正。第二种路径叫做掩码离散扩散模型Masked Discrete Diffusion ModelsMDMNLD-Image就属于这一类。这类模型的工作方式完全不同图像首先被切割成一个个像素词条就像把一幅画拆成一张张小拼图然后模型从一张全部空白的拼图开始逐步把各个位置填上合适的词条直到整幅图完成。这种方式的好处在于它可以同时填写多个位置而不用像某些早期AI那样从左到右逐字逐行生成速度更快此外它天然与大语言模型如GPT、LLaMA等的工作方式相兼容便于将图像和文字的理解与生成融合在一个统一的系统中。然而MDM有一个严重的先天缺陷一旦某个位置的词条被填上它就固定了后续步骤无法再修改它。回到拼图的比喻——如果拼图工人在第三步错误地放了一块蓝色天空的拼图在本应是绿色草地的位置而他的规则不允许拔出已经放好的拼图那么整幅图最终可能变得面目全非。正因如此MDM生成的图像往往存在各种奇怪的瑕疵某个局部的纹理与周边格格不入或者人物的面部细节出现轻微的错位和失真。这不是模型不聪明而是它被自身的规则所束缚无法在发现错误后进行修正。---二、让画师学会改稿——词条编辑机制的原理与设计NLD-Image针对上述缺陷提出的解决方案可以用一个直观的比喻来理解传统MDM的画师只能在白纸上逐步添加内容而NLD-Image的画师不仅可以添加内容还随时可以拿出橡皮擦对已经画好但不满意的地方重新修改。具体来说研究团队在模型的训练方式上做了一个关键改动。传统的MDM训练中模型学习的任务是预测被遮住的部分应该填什么词条而已经填好的部分则被当作永久正确的、不需要理会的内容。NLD-Image则在训练时故意给已经填好的词条引入一些错误它把部分正确的词条替换成轻微偏差的错误词条然后要求模型不仅要预测空白位置还要检测并纠正这些被故意污染的位置。这种训练方式让模型学会了一种全新的能力在推理也就是真正生成图像时每走一步模型都会反过来审视之前已经填好的词条如果它发现某个词条应该换成另一个词条而且它的把握很高超过预设的置信阈值τ就会直接覆盖掉那个词条。研究团队把这个阈值设定为τ0.6也就是说当模型对新的候选词条的把握超过60%时才会触发修改。在错误词条的选取策略上研究团队进行了大量实验。他们测试了三种策略完全随机地从词汇表中抽取词条、从同一张图像中随机抽取词条、以及从词条嵌入空间中相邻位置抽取词条。所谓嵌入空间中相邻可以理解为在AI的词汇词典里语义相似的词条被存放在彼此附近就像一本按照含义排列的词典猫和猫科动物挨在一起猫和汽车则相隔甚远。实验结果表明单纯的随机抽取效果最差HPSv3得分8.53因为随机词条与真实预测错误时出现的词条差异太大训练出来的模型在推理时会认不出真正的错误从相邻嵌入空间抽取词条的效果明显更好8.81而将相邻词条与同图重采样词条结合使用时效果最佳8.99。最终NLD-Image采用了后一种组合策略并将整体污染率α设定为0.1即每轮训练中大约有10%的已填好词条会被故意替换成错误词条。实验证明这种改稿机制带来了实质性的图像质量提升。在相同随机种子下的对比测试中启用改稿机制后图像中的瑕疵、纹理错误和细节失真都有明显改善尤其在人像的面部细节、物体边缘的精细度等方面表现突出。更令人感兴趣的是改稿机制还显著提高了模型对推理步骤数量减少的容忍度——在只用32次推理步骤NFE32的情况下启用改稿的模型的图像质量与不启用改稿时需要64次步骤才能达到的质量相当相当于在同等质量目标下计算量减少了一半。---三、词汇词典越大越难学——大词典稀疏训练信号的困境解决了无法改稿的问题之后研究团队还面临另一个挑战这个挑战来自图像词条词典本身的规模。在MDM中图像的每个局部区域都被映射到一个词条也叫码字。词典越大每个词条所代表的视觉信息就越精细最终重建出的图像质量也就越高。这就像摄影中的像素密度像素越多画面越清晰。NLD-Image使用的词典规模高达131,072个词条约13万个远超许多同类模型如Show-o的8,192个、Emu3的32,678个。然而词典规模的扩大带来了一个严峻的训练难题研究团队将其称为码书稀疏问题。以一个具体的计算为例假设训练数据集包含100万张图像每张图像被切割成256个词条那么这批数据中词条的总数是2.56亿。如果词典大小是8,192平均每个词条在训练数据中出现约31,250次但如果词典扩大到20万同样的训练数据中每个词条平均只出现约1,280次仅为前者的4%。这意味着什么用学外语来类比假设你要让一个人学会认识8,192个汉字你给他31,250次练习机会现在你要让他学会认识200,000个字却只给他1,280次练习机会。同样一批练习材料词典越大每个字练习的机会就越少学习效果自然大幅下降。更糟糕的是传统的训练目标标准交叉熵损失对这种稀疏性非常不友好。这个损失函数的工作方式就像一道非黑即白的判断题模型要么猜对了某个词条得到正反馈要么猜错了哪怕猜了一个视觉上几乎一样的词条也会得到同等强度的负反馈。对于13万词条的大词典两个视觉上高度相似的图像局部可能在词典里被分配到相邻但不同的词条编号而标准损失函数完全无视这种相似性将猜了相邻词条和猜了完全不相关词条的惩罚设置为一模一样。这不仅浪费了大量语义信息还会给模型的优化制造无谓的困难。---四、按语义相似度分组打分——分组交叉熵目标函数为了解决上述稀疏训练信号的问题研究团队设计了一个名为分组交叉熵Grouped Cross-EntropyGCE的全新训练目标。GCE的核心思路可以用一个打靶比赛的比喻来理解。传统的训练方式就像一场非常严苛的比赛只有打中靶心才能得分打中靶心周围一圈算零分。GCE则更像是一场合理的比赛打中靶心得满分打中靶心附近的区域也能得一些分而不是一律零分。这样一来即使选手偶尔没有打中靶心只要打到了附近也能获得有效的练习反馈。具体操作上研究团队用一种叫做K均值聚类的方法在模型训练之前预先将13万个词条按照它们的语义相似程度分成若干组。研究团队尝试了两种分组粒度分成16,384组和8,192组。分成16,384组时每组平均包含约8个词条粒度更细分成8,192组时每组约16个词条粒度更粗。研究发现仅用8,192组的粗粒度监督效果FID得分3.67略逊于仅用16,384组的细粒度监督效果3.44而将两种粒度同时使用、形成层次化的多级监督信号时效果最佳3.40。GCE的训练信号因此具备了一种层次结构词条级别的精准监督负责让模型尽量猜对具体词条组级别的监督在两个粒度上各加一个损失项则负责让模型在猜错具体词条时至少猜到语义相近的那个组里。三项损失同时优化相互补充构成了完整的训练目标。从梯度角度理解这个设计会更清晰。在每一次训练中目标词条所在组的全部词条都会收到正向梯度被鼓励其他组的词条收到负向梯度被抑制。这意味着在13万个词条的词典中每次训练不仅帮助模型认识那个唯一正确的词条还顺带强化了与它语义相近的整个家族有效缓解了词条频率低、训练信号稀疏的问题。研究团队还将GCE与另一种类似方案——SNCE软标签交叉熵进行了比较后者由同一团队在此前的工作中提出。SNCE的做法是给目标词条周围的词条赋予预设的固定概率比如给目标词条0.7的概率给相邻词条分配剩余的0.3而不是使用严格的one-hot标签。然而这种固定软标签存在一个微妙的问题如果模型已经以0.8的置信度预测了正确词条但软标签只给目标词条0.7的目标概率那么目标词条反而会收到负向梯度造成不必要的训练不稳定。GCE不存在这个问题因为它始终给目标词条正向梯度。此外SNCE需要存储每个训练样本的完整实数概率向量内存开销巨大GCE只需存储整数类别标签内存效率大幅提升。在ImageNet-256的类别条件图像生成实验中使用标准交叉熵、SNCE和GCE三种训练目标在其他条件完全相同的情况下进行对比。训练100轮后标准交叉熵取得FID 7.53SNCE为3.62GCE为3.40。训练300轮后标准交叉熵为5.44SNCE为3.42GCE为3.00。值得一提的是更大词典262,144词条的FVQ词典上的实验也显示了同样的趋势SNCE得FID 3.20GCE进一步提升到2.69。FID的数值越小代表生成质量越高这一系列数据清晰地显示出GCE相对于两种基线方法的稳定优势。---五、给大词典装上加速引擎——自定义高效算子的工程创新GCE虽然在数学上优雅但朴素的代码实现会带来不可接受的计算开销。研究团队对此专门进行了工程优化设计了一个自定义融合算子fused operator大幅降低了GCE的显存占用和运行延迟。理解这个工程挑战可以用一个具体的场景来感受。在处理16,384个词条对应4张1024×1024分辨率图像或64张256×256分辨率图像时GCE的朴素实现需要分配一个形状为N×|V|的完整矩阵——在词典大小13万的情况下这张矩阵每次都会消耗约17GB的额外显存加上输入本身的8.1GB峰值显存高达25.2GB延迟也高达44毫秒。关键的优化思路在于不同词条组的大小是有上限的。研究团队统计发现在8,192组的方案中最大的那个组也只包含391个词条在16,384组的方案中最大的组只包含192个词条。因此不需要为整个13万维的词典分配矩阵只需分配一个N×391或N×192的小矩阵就足够了这不到朴素实现所需内存的1%。在反向传播也就是计算梯度、更新参数的步骤中研究团队避免使用PyTorch自动微分机制直接手写梯度计算公式并利用PyTorch的in-place scatter_add操作高效地将稀疏梯度累加回完整的梯度矩阵进一步节省了内存。经过优化后的GCE算子延迟从44毫秒降至20毫秒峰值显存从25.2GB降至16.1GB——与标准交叉熵硬标签实现12.71毫秒16.1GB峰值显存相比额外的延迟开销仅约7毫秒而整个模型单步训练时间约为3.2秒这7毫秒的开销几乎可以忽略不计。---六、模型整体架构——为何选择只有解码器的设计NLD-Image在模型架构上也做出了与众多同类工作不同的选择并带来了实质性的优势。许多前辈工作如Meissonic采用的是编码器-解码器的双体结构用一个预训练的文字编码器如CLIP把用户输入的文字描述转换成固定向量再用一个单独的图像生成网络根据这些向量生成图像。这种结构有一个明显的局限CLIP编码器的输入窗口最长只有77个词条也就是说用户的提示词不能超过约77个英文单词否则多出来的内容会被截断忽略。NLD-Image采用了一个纯解码器decoder-only架构也就是说文字提示词和图像词条序列被放在一起共同输入同一个Transformer模型进行处理。这个模型从一个预训练的扩散语言模型Nemotron-Labs-Diffusion初始化该语言模型本身就是通过大量文字数据训练出来的具备强大的语言理解能力。通过在图像生成任务上进一步微调NLD-Image可以直接将语言模型的语义理解能力迁移到图像生成中而无需从零开始学习文字的含义。这种设计带来的实际好处是多方面的。文字提示词的长度不再受77词的限制可以包含更详细、更复杂的描述可以利用LLM训练中成熟的序列打包技术当一批图像对应的提示词长短不一时把多个短提示词拼接成一个序列一起处理避免浪费计算资源而且整个模型可以端到端地联合优化图像生成能力和语言理解能力相互促进。NLD-Image整体参数规模约为80亿8B与同类模型如LaViDa-O的10B、BAGEL的14B属于同一量级但在多项基准上超越了更大的模型。---七、训练过程、数据和实验结果NLD-Image的训练分为两个阶段。第一阶段在256×256分辨率上训练200,000步全局批次大小为1,024学习率1×10??此阶段不开启词条编辑功能第二阶段先在512×512分辨率训练20,000步再扩展到1024×1024分辨率训练80,000步批次大小256学习率1×10??此阶段开启词条编辑功能。整个训练在64块英伟达H100 GPU上进行总计耗时约16天。训练数据方面团队汇集了来自LAION-2B、COYO-700M、BLIP3o-60k和ShareGPT4o-Image四个公开数据集的共约1.37亿张图文对。对于来自LAION-2B和COYO-700M的图像团队使用Qwen3-VL模型重新生成图像描述以替代原始的alt-text标注这类标注往往嘈杂且不准确。不过团队保留了其中CLIP分数较高的原始标注并在训练时随机切换使用VLM生成描述或原始标注目的是让模型学会响应高质量、4K等人工关键词因为这类词语在VLM自动生成的描述中几乎不会出现。在主要测试基准上NLD-Image展现出相当竞争力的表现。在GenEval基准上NLD-Image取得总分0.90在单一物体0.98、双物体0.93、计数0.83、颜色0.94、位置0.88和颜色属性0.82六个子项上全面超越同为掩码扩散范式的Meissonic总分0.54和LaViDa-O总分0.77也超越了Flux-dev0.66等连续扩散模型与Qwen-Image-25070.87和BAGEL0.88等更大参数量的前沿模型相当。在DPG基准上NLD-Image经过合成数据微调后取得86.9分超越GPT-4o85.3和SD383.5。在MJHQ-30k数据集上NLD-Image的HPSv3得分10.76微调后版本在所有对比模型中处于前列。推理速度方面NLD-Image展现出MDM范式的天然优势。在1024×1024分辨率下与同类系统相比Emu3.5自回归模型每张图像需要约347秒而NLD-Image仅需约8.2秒速度提升约42.4倍相比于Qwen-Image流匹配模型的16.8秒和Infinity-8BVAR模型的10.3秒NLD-Image也明显更快。这种速度优势在实际应用中意义重大。少步数生成能力方面NLD-Image还展现出一个有趣的特性即便只用4步就完成生成正常情况下使用64步图像质量依然相对合理而对比的连续流匹配模型Qwen-Image在4步以下甚至会出现NaN数值错误。这种少步数鲁棒性不需要任何专门的蒸馏训练而是从MDM的离散扩散机制中自然涌现出来的。---说到底NLD-Image这篇论文做了什么用最直白的话来概括英伟达的团队找到了让AI图像生成模型在生成过程中改稿的方法并且设计了一套更聪明的学习方式让模型能在使用超大词典时依然高效学习。这两个改进合在一起让一类原本在速度上有优势但在质量上稍逊一筹的图像生成方式真正跻身一流水准。对普通用户而言这意味着未来基于这类技术的图像生成工具不仅可以更快地生成高分辨率图像还能更好地理解复杂的文字描述并在较少步骤内生成令人满意的结果——对于追求既快又好的创作工具的用户来说这些都是切实的体验提升。当然研究团队也坦承词条编辑机制并不能消除所有瑕疵模型仍然可能生成错误的输出GCE的实现还有进一步优化的空间例如通过定制低级CUDA内核可能实现更大的加速。这些都留作未来工作。此外研究团队也特别提醒任何强大的图像生成模型都可能被用于生成有害内容该模型目前主要用于研究目的使用者应遵守相关规范。有兴趣深入了解技术细节的读者可以通过arXiv编号2606.29814查阅完整论文所有引用资源也均在论文中有完整记录。---QAQ1NLD-Image的词条编辑机制在推理时如何决定是否修改一个已生成的词条A在每一个推理步骤中模型会对所有已填好的词条重新计算概率分布。当模型预测出一个与当前词条不同的新词条且对这个新词条的把握置信度超过预设阈值τ默认值为0.6即60%时就会用新词条覆盖掉原来的词条。阈值的高低直接影响修改频率阈值太低会导致过度修改引入混乱太高则几乎不触发修改实验表明τ0.6在大多数步骤数设置下效果最佳。Q2分组交叉熵GCE和普通交叉熵在训练时有什么实际区别A普通交叉熵只给唯一正确的词条正向反馈其余所有词条一律给同等强度的负向反馈完全无视语义相似性。GCE则通过K均值聚类把词条分成若干组在词条级精准监督之外额外加入组级别的监督正确词条所在组的全体成员都能收到正向反馈语义相近但不在同一组的词条也能通过更粗粒度的聚类获得部分正向信号。这种设计让词典越大、训练信号越稀疏的场景受益最大。Q3NLD-Image生成一张1024×1024图像需要多长时间A在单块H100 GPU、批次大小为1的条件下NLD-Image生成一张1024×1024分辨率图像约需8.2秒使用64步推理。相比之下自回归模型Emu3.5需要约347秒速度约慢42倍。如果降低推理步数至32步配合词条编辑机制开启可以在基本不损失质量的前提下进一步缩短生成时间。