Stable Diffusion WebUI 从零到精通的完整实战指南:安装、提示词与高级技巧

1. 项目概述:为什么你需要这份Stable Diffusion指南?

如果你最近被网上那些“AI绘画”、“一句话生成图片”的酷炫效果刷屏,心里痒痒的,但一打开各种教程,扑面而来的“WebUI”、“Checkpoint”、“LoRA”、“VAE”这些术语又让你瞬间头大,感觉无从下手——那么,你找对地方了。

这份指南,就是为你准备的。它不是一份冷冰冰的软件说明书,也不是东拼西凑的零散教程。我把它看作一份“从零到一,再到精通”的实战地图。在过去一年多的时间里,我几乎每天都在和Stable Diffusion打交道,用它完成商业项目、进行个人创作,也踩遍了新手可能遇到的所有坑。我发现,绝大多数人学不会SD,不是因为工具复杂,而是因为缺乏一条清晰、连贯、能立刻看到反馈的学习路径。

Stable Diffusion,这个2022年横空出世的AI绘画模型,彻底降低了图像生成的门槛。它不再是少数研究员的玩具,而是每个有创意想法的人都能握在手中的画笔。其核心价值在于“可控的创造力”:你不再需要高超的绘画技巧,而是通过“提示词”(Prompt)与AI进行对话,引导它生成你脑海中的画面。而AUTOMATIC1111开发的WebUI,则像给这台强大的引擎装上了方向盘、油门和仪表盘,让它变得易于驾驶。

但问题也在这里。功能太强大,选项太繁多,社区资源太爆炸。新手很容易迷失在安装配置、模型下载、参数调试的海洋里,折腾几天可能连一张像样的图都出不来,热情迅速被挫败感浇灭。

所以,这份“五月最新版”指南的目标非常明确:帮你绕开所有不必要的弯路,用最高效的方式,掌握Stable Diffusion WebUI的核心用法,并立刻开始创作。我会从最基础的“如何把它成功跑起来”讲起,一步步带你理解核心概念,掌握关键操作,并分享那些只有长期使用才能积累的“调参直觉”和避坑技巧。无论你是想用它做设计素材、游戏原画、社交媒体配图,还是单纯享受创造的乐趣,这篇指南都将是你最可靠的起点。

2. 环境部署与WebUI安装:避开99%的安装坑

万事开头难,而安装SD WebUI对新手来说往往是第一道坎。网上教程五花八门,有让你装Python、Git的,有直接下整合包的,还有推荐云端运行的。这里我直接给你最稳妥、最高效的方案,并解释为什么这么选。

2.1 硬件要求与方案选择:你的电脑能跑吗?

首先,你得知道你的设备是否够格。SD的核心计算依赖显卡的GPU(尤其是NVIDIA的CUDA核心)。

  • 最低配置(能跑,但体验受限): NVIDIA显卡,显存4GB(如GTX 1650)。你可以生成512x512的标准图,但批次生成(batch)或使用高分辨率修复(Hires. fix)时会非常慢,甚至爆显存。这是很多新手觉得“卡顿”的主要原因。
  • 推荐配置(舒适体验): NVIDIA显卡,显存8GB或以上(如RTX 3060 12G, RTX 4060 Ti 16G)。这是目前的主流甜点区间,可以流畅运行大部分模型,进行高清修复和局部重绘。
  • 高性能配置(创作无忧): 显存12GB以上(如RTX 4080, 4090)。你可以随意尝试各种大型模型,进行多图对比、快速迭代,效率极高。
  • 苹果Mac(M系列芯片): 通过特定版本(如--precision full --no-half参数)可以运行,速度尚可,但生态兼容性(如某些插件)不如NVIDIA平台。
  • AMD显卡/集成显卡/无显卡: 非常不推荐本地部署。你可以选择云端方案,这是成本最低的入门方式。

我的实操心得:不要盲目追求顶级显卡。对于绝大多数初学者和普通创作者,一张8GB显存的显卡(如RTX 3060 12G版)性价比最高。它能覆盖90%的创作需求。如果你只有4GB显存,重点学习如何优化参数(如使用--medvram--lowvram启动参数,以及后面会讲的TAESD预览器)来避免爆显存。

2.2 本地部署:秋叶整合包——新手的绝对首选

对于Windows用户,我强烈反对从零开始安装Python、Git、配置环境。那是最容易出错、最劝退新手的路径。社区大神“秋葉aaaki”制作的启动器整合包,是中文社区公认的“救命神器”。

为什么选它?

  1. 一键安装:解压即用,内置了所有依赖(Python, Git, CUDA库等),无需复杂配置。
  2. 强大的启动器:图形化界面管理版本、插件、模型,还能一键更新、修复依赖、设置启动参数,对新手极度友好。
  3. 问题排查工具:内置了环境检测、错误日志查看等功能,出了问题能快速定位。
  4. 社区支持:用户基数大,你遇到的任何问题,几乎都能在相关讨论中找到答案。

安装步骤(2024年5月最新版流程):

  1. 获取整合包:在可靠的源(如秋葉的B站动态或AI绘画社区)下载最新的Stable Diffusion整合包v4.x。文件较大(约10GB),确保网络稳定。
  2. 解压:找一个磁盘空间充足(建议预留50GB以上)且路径不含中文和特殊字符的文件夹进行解压。例如D:\SDWebUI
  3. 首次启动:进入解压后的文件夹,双击运行启动器运行依赖.exe(只需运行一次),安装系统必要的运行库。然后运行A启动器.exe
  4. 一键启动:在启动器界面,直接点击右下角的“一键启动”。启动器会自动完成剩余环境的配置和WebUI的启动。首次启动会下载一些必要组件(如clip模型),需要一定时间,请保持网络通畅。
  5. 访问WebUI:当命令行窗口出现 “Running on local URL: http://127.0.0.1:7860” 时,打开浏览器,输入这个地址,就能看到SD WebUI的界面了。

踩坑记录:如果启动失败,90%的问题源于网络(下载失败)或路径有中文。请检查启动器日志,并尝试:

  • 在启动器“高级选项”中,设置“国内镜像加速”(如阿里云、清华源)。
  • 彻底关闭杀毒软件和Windows Defender实时保护(有时会误杀关键文件)。
  • 确认磁盘空间足够。

2.3 备选方案:云端部署——零硬件门槛的体验

如果你的电脑不符合要求,或者不想占用本地资源,云端服务是完美选择。它的原理是租用远程服务器的显卡来运行SD。

主流平台对比:

平台优点缺点适合人群
Google Colab免费(有限制),直接在线运行笔记本需要科学上网,免费额度不稳定,运行时长短尝鲜者,轻度用户
AutoDL国内网络直连,按量计费(约1-2元/小时),镜像丰富,关机不计费需要实名认证,存储需额外购买国内主流选择,学生、创作者
Lambda Labs海外主流,机器性能强需要国际支付方式,网络延迟可能较高海外用户,专业团队

以AutoDL为例的极简流程:

  1. 注册并实名认证AutoDL。
  2. 在“容器实例”页面,选择“社区镜像”,搜索“stable-diffusion-webui”,选择一个高星镜像(如“秋葉”或“Stable-Diffusion-WebUI”)。
  3. 选择显卡型号(RTX 3090/4090等),点击“立即创建”。
  4. 实例创建成功后,在“快捷工具”栏点击“自定义服务”,即可获取访问WebUI的链接。
  5. 所有操作都在浏览器中进行,模型文件保存在云端,下次开机数据仍在。

注意事项:云端方案按使用时长计费,不用时一定要关机!同时,重要产出记得及时下载到本地,避免因平台策略变化导致数据丢失。

3. 核心界面与工作流解析:读懂AI绘画的“控制台”

成功打开WebUI后,别被密密麻麻的按钮吓到。我们只需聚焦几个最核心的区域,就能开始创作。整个生成流程可以概括为:写提示词 -> 选模型 -> 调参数 -> 点生成 -> 后处理

3.1 文生图(txt2img):一切的起点

这是最常用、最基础的功能。你描述文字,AI生成图片。

核心区域详解:

  1. 提示词(Prompt)输入框:这是你与AI沟通的“语言”。分为两栏:

    • 正向提示词:描述你想要什么。越详细、越具体越好。例如:masterpiece, best quality, 1girl, solo, long silver hair, blue eyes, detailed cyberpunk city background, neon lights, rain, cinematic lighting
    • 反向提示词(Negative prompt):描述你不想要什么。用于排除常见瑕疵,能极大提升出图质量。一个通用的基础反向词库是:(worst quality, low quality:1.4), monochrome, zombie, (extra limbs, poorly drawn hands, poorly drawn face:1.2), mutated hands, mutated fingers, bad anatomy。你可以保存这个组合,每次生成时调用。
  2. 生成参数区

    • 采样方法(Sampling method):AI从噪声中“绘制”图像的算法。新手推荐:
      • Euler a:创意性强,出图快,风格多变,适合探索。
      • DPM++ 2M Karras:细节扎实,稳定性高,适合需要精准控制的场景。
    • 采样迭代步数(Sampling steps):AI“思考”的步数。不是越高越好!通常20-30步是质量和速度的平衡点。步数过高(如50以上)不仅耗时,还可能产生过饱和的奇怪效果。
    • 宽度/高度(Width/Height):生成图像的尺寸。重要原则:不要一上来就追求2K、4K大图!SD在训练时多用512x512或768x768的图。直接生成大尺寸图容易导致人物畸形、画面元素重复。正确的做法是:先用基础尺寸(如512x768竖图,768x512横图)生成满意的构图,再用高清修复(Hires. fix)功能放大。
    • 提示词相关性(CFG Scale):AI听从你提示词指令的“程度”。通常设置在7-12之间。太低(<5)则天马行空,不听话;太高(>15)则色彩过度饱和,画面僵硬。
    • 随机种子(Seed):图像的“DNA”。固定种子,在其它参数不变时,可以生成几乎完全相同的图;设置为-1则每次随机。这是复现优秀结果进行细微调整的关键。
  3. 模型选择区:点击左上角下拉框,选择你加载的模型。模型决定了画风、知识范围和生成质量。这是影响出图效果的第一大因素

3.2 图生图(img2img):基于现有图像的再创造

这是功能最强大的模块之一。你可以上传一张图,让AI在此基础上进行重绘、风格迁移、内容扩展等。

核心模式解析:

  • 重绘幅度(Denoising strength):这是图生图的“灵魂参数”,控制AI在多大程度上“无视”原图。

    • 低重绘(0.2-0.4):微调。适合给线稿上色、修复老照片、轻微风格化。原图结构基本保留。
    • 中重绘(0.5-0.7):再创作。适合改变画风(如真人转二次元)、替换局部内容。原图构图和色彩会被较大程度参考。
    • 高重绘(0.7以上):大变样。AI几乎只把原图当作一个“噪声起点”,生成全新内容。适合彻底改变画面。
  • 局部重绘(Inpaint)修图神器。用画笔涂黑你想修改的区域,AI会只重绘这个区域,并与周围画面自然融合。比如给人物换发型、换衣服,去掉图片中不想要的物体。

    • 蒙版模糊(Mask blur):让蒙版边缘过渡更自然,值通常设为4-8。
    • 蒙版模式
      • 重绘蒙版内容:只画你涂黑的区域。
      • 重绘非蒙版内容:只画你没涂的区域(保护涂黑区域)。
  • 涂鸦(Sketch)与局部重绘(上传蒙版):可以手绘草图或上传精确的蒙版图来指导AI作画,控制力更强。

3.3 模型管理与扩展:你的AI艺术工具箱

模型(Checkpoint)是SD的“大脑”,决定了它的绘画风格和能力。WebUI的models/Stable-diffusion目录就是存放大脑的地方。

模型类型全解:

  1. 基础大模型(Checkpoint):完整模型,文件大(通常2-7GB),是生成图像的基石。例如:

    • chilloutmix:擅长亚洲风格真人。
    • dreamshaper:通用性强,写实与动漫兼顾。
    • revAnimated:动画风格,表现力强。
    • SDXL 1.0:新一代官方模型,原生支持1024x1024高分辨率,细节更丰富,但对硬件要求更高。
  2. 微调模型(LoRA/LyCORIS):小型适配器(通常几十到几百MB),用于对特定风格、人物或概念进行精细控制。它必须配合大模型使用。比如,加载一个“汉服LoRA”,就能让任何大模型画出汉服人物。LoRA是实现定制化创作的利器。

  3. 变分自编码器(VAE):负责控制图像的色彩和细节。有些大模型内置了VAE,有些需要额外加载。如果你觉得生成的图片灰蒙蒙、色彩暗淡,尝试在“设置”->“Stable Diffusion”中加载一个合适的VAE(如vae-ft-mse-840000-ema-pruned.ckpt),画面会立刻鲜艳清晰起来。

  4. 超网络(Hypernetwork)与嵌入(Embedding/Textual Inversion):更轻量级的微调方式。Embedding是几个KB的小文件,通过特定的触发词来调用,常用于定义某种画风或纠正模型偏差(如“bad-hands-5”用于改善手部绘制)。

如何安装与管理?

  • 下载:从Civitai、Hugging Face等模型站下载对应文件。
  • 放置
    • 大模型(.safetensors或.ckpt)放入models/Stable-diffusion
    • LoRA放入models/Lora
    • VAE放入models/VAE
    • Embedding放入embeddings
  • 刷新:在WebUI左上角点击刷新按钮,即可在下拉菜单中看到新模型。

核心技巧:不要贪多!新手期下载2-3个评价高、风格喜欢的大模型,搭配几个实用的LoRA(如细节增强、特定画风)足矣。模型太多不仅占用硬盘,还会让你选择困难。先精通一个模型,再拓展。

4. 提示词工程与参数精调:从“抽卡”到“指挥”

掌握了界面和模型,接下来就是最核心的“沟通艺术”——写提示词和调参数。这是区分“随机抽卡”和“精准控制”的关键。

4.1 提示词结构化写作法:让AI听懂你的话

好的提示词不是词语的堆砌,而是有结构的“描述文档”。

1. 基础结构(从全局到局部):

(画质与风格标签),(主体描述),(细节与属性),(场景与环境),(构图与镜头),(光影与色彩),(其他特效)
  • 示例masterpiece, best quality, ultra-detailed, 1girl, beautiful detailed eyes, long flowing blonde hair, wearing elegant white dress, standing in a sunlit forest clearing, dappled sunlight, photorealistic, depth of field, bokeh

2. 权重控制语法(精确调整影响力):

  • (word):提高权重,约为1.1倍。((word))约为1.21倍。括号可嵌套。
  • [word]:降低权重,约为0.9倍。
  • (word:1.5):精确指定权重为1.5倍。
  • word1 AND word2:组合提示词,让AI同时考虑两个概念。

3. 负面提示词(Negative Prompt)黄金公式:反向提示词能有效过滤低质量内容。建议建立一个文本文件保存你的“负面词库”,每次生成时粘贴。一个高效的组合如下:

(worst quality, low quality, normal quality:1.4), (jpeg artifacts, signature, watermark, username, blurry:1.2), (bad anatomy, bad hands, missing fingers, extra digit, fewer digits:1.3), (bad feet, extra legs, extra arms, extra fingers, mutated hands:1.3), (text, error, missing, extra digit, fewer digits, cropped:1.2), (deformed iris, deformed pupils, semi-realistic, 3d, doll:1.1)

4.2 关键参数深度解读:不只是滑动条

每个参数背后都有其数学和工程原理,理解它们能让你调参时更有把握。

1. 采样迭代步数(Steps)与采样器(Sampler):

  • Steps:可以理解为AI“去噪”的步骤。步数太少(<10),画面粗糙未完成;步数适中(20-30),细节和效率平衡;步数过多(>50),收益递减,甚至引入噪声。
  • Sampler:不同采样器是求解同一方程的不同数学方法。
    • Euler a:祖先采样器,随机性强,每一步都引入新噪声,适合创意发散,但连续性差(相邻步数结果可能差异大)。
    • DPM系列(如DPM++ 2M Karras):现代主流,收敛快,细节好,稳定性高,适合需要确定性的工作。
    • DDIM:较老的采样器,速度慢但过程可逆,常用于图像编辑研究。
    • 新手建议文生图用DPM++ 2M Karras,Steps=20图生图用Euler a,Steps=20-30,利用其随机性创造更多变化。

2. 提示词相关性(CFG Scale):这个参数控制条件(你的提示词)对生成过程的引导强度。可以想象成一个“听话度”旋钮。

  • 低CFG(1-5):AI自由发挥,艺术性强,但可能完全偏离提示。
  • 常用范围(7-12):在遵循指令和保持画面自然间取得平衡。人像常用7-9,场景常用9-12。
  • 高CFG(>15):AI会“过度解读”你的提示词,导致色彩对比度过强、线条生硬、画面像塑料。除非追求特定高对比度风格,否则慎用。

3. 高清修复(Hires. fix):小图起稿,智能放大这是生成高分辨率图像的正确姿势,能有效避免直接生成大图时的畸形和多头多手问题。

  • 原理:先以低分辨率(如512x768)生成一张图,然后使用一个独立的“放大算法”对其上采样,最后再用SD模型以较低的“重绘幅度”对放大后的图进行细节补充和微调。
  • 参数设置
    • 放大算法(Upscaler):推荐R-ESRGAN 4x+Latent(速度快)用于真人,R-ESRGAN 4x+ Anime6B用于动漫。
    • 重绘幅度(Denoising strength)关键参数!通常设置在0.2-0.4之间。太低(<0.2)只是单纯放大,细节模糊;太高(>0.5)会引入过多新噪声,改变原图。
    • 放大倍数(Upscale by):2倍通常是安全且效果好的选择。你可以多次使用,例如先2倍,满意后再2倍。

4.3 X/Y/Z图表:科学实验般的参数对比

这是WebUI里最强大的分析工具,没有之一。它可以让你一次性对比多个参数的不同取值,直观地看到每个参数的影响。

如何使用?

  1. 在文生图或图生图界面,生成一张你觉得还不错的图。
  2. 拉到页面最下方,找到“脚本(Script)”下拉菜单,选择“X/Y/Z plot”。
  3. X轴类型:选择你想对比的第一个参数,如“采样器(Sampler)”。
  4. X轴值:输入你想对比的采样器,用逗号隔开,如Euler a, DPM++ 2M Karras, DDIM
  5. Y轴类型:选择第二个参数,如“CFG Scale”。
  6. Y轴值:输入一系列CFG值,如7, 9, 11, 13
  7. 点击生成。你会得到一个网格图,横向是不同的采样器,纵向是不同的CFG值,一眼就能看出哪种组合效果最佳。

我的工作流:在确定大致构图和提示词后,我几乎必用X/Y/Z图表。最常用的对比组合是:X轴:Steps (15, 20, 25, 30),Y轴:CFG Scale (7, 8, 9, 10)。这能帮我快速找到当前模型和提示词下的最优“步数-CFG”平衡点,极大提升出图效率和质量。

5. 高级功能与插件生态:释放SD的终极潜力

当你熟悉了基础操作后,这些高级功能和插件将把你的创作能力提升到新的维度。

5.1 ControlNet:精准控制构图与姿态

如果说提示词是“语言指挥”,那么ControlNet就是“手把手教AI画画”。它允许你通过输入一张草图、姿势图、深度图或边缘检测图,来严格控制生成图像的构图、姿态和结构。

核心预处理器与模型:

  1. OpenPose(姿态检测):上传一张人物照片,它能提取骨骼姿态,让生成的人物摆出完全相同的姿势。这是画角色一致性漫画或特定动作的利器。
  2. Canny(边缘检测):上传线稿或任何图片,它提取清晰的轮廓线,让AI严格按照这个轮廓填充内容。适合将草图变成完成稿。
  3. Depth(深度图):控制画面的前后景深关系。可以让AI理解哪里是前景,哪里是背景,生成具有立体感的图像。
  4. Scribble(涂鸦):你随便画几笔色块,AI就能脑补出一张完整的画。控制力较弱,但创意发散性强。
  5. IP-Adapter(参考图风格/内容):2023年的革命性插件,可以上传一张图,让AI同时参考其内容(是什么)和风格(像什么)。效果极其强大。

安装与使用要点:

  • 安装:在WebUI的“扩展(Extensions)”标签页,选择“从网址安装”,输入ControlNet的GitHub仓库地址即可。
  • 使用流程:安装后,在文生图/图生图界面下方会出现ControlNet折叠面板。通常你需要:
    1. 上传控制图(如一张姿势照片)。
    2. 勾选“启用”。
    3. 选择“预处理器”(如openpose)和“模型”(如control_v11p_sd15_openpose)。
    4. 调整“控制权重”和“引导介入时机”等参数。权重一般从1.0开始尝试。

避坑指南:ControlNet不是万能的。权重过高(如>1.5)会导致画面僵硬,失去AI的创造性;权重过低(如<0.5)则控制力不足。通常,对于需要严格控制的线稿(Canny),权重可以高一些(1.0-1.2);对于只是提供参考的姿势(OpenPose),权重可以低一些(0.8-1.0)。多试几次找到感觉。

5.2 附加功能(Extras)与后期处理

生成图片后,WebUI内置的“附加功能”标签页提供了强大的后期处理工具。

核心工具:

  1. 图片缩放(Upscale):使用不同的AI放大算法(如ESRGAN系列)来提升图片分辨率,同时增强细节。与Hires. fix的事前放大不同,这是事后放大。
  2. 面部修复(Face Restoration):当生成的人脸模糊或畸形时,使用GFPGANCodeFormer可以奇迹般地修复。CodeFormer在保真度和修复效果上通常更胜一筹,权重调到0.5-0.7之间效果较好。
  3. 图片信息(PNG Info):将任何SD生成的图片拖入此标签页,可以读取其生成参数(种子、提示词等),一键发送到文生图进行复现或修改。这是学习他人优秀作品的最佳途径。

5.3 扩展(Extensions)推荐:必备效率神器

WebUI的扩展系统极其丰富。除了必装的ControlNet,还有几个能极大提升体验的扩展:

  1. Dynamic Prompts(动态提示词):支持在提示词中使用__动物__这样的语法,让AI每次从预设列表中随机选择一个词,用于批量生成多样化内容。
  2. Civitai Helper(模型管理):可以直接在WebUI内浏览、下载Civitai上的模型和LoRA,并自动匹配预览图,管理模型变得无比轻松。
  3. Tagger(图像反推):比内置的CLIP反推更强大,特别是对动漫图片,能反推出非常详细的Danbooru风格标签,为图生图提供优秀的提示词起点。
  4. After Detailer(adetailer)手部、面部修复救星。在生成后自动检测画面中的人脸或手部,并用更高的精度重绘这些区域,显著改善崩坏问题。
  5. Mov2mov(视频生成):让SD处理视频,实现风格化、补帧等效果,虽然计算量大,但打开了视频创作的大门。

6. 实战工作流与问题排查:从想法到成品

理论说再多,不如实际走一遍。我们用一个完整的案例,串联起所有知识点。

案例目标:生成一张“在夜晚雨中的赛博朋克都市,一位打着透明雨伞的机甲少女”的插画。

6.1 工作流步骤拆解

第一步:模型与构思

  • 模型选择:赛博朋克风格,我选择dreamshaper大模型,因为它对科幻和现实风格的融合处理得很好。再加载一个cyberpunk_style的LoRA来强化风格。
  • 构思提示词:在脑中拆解元素:主体(机甲少女)、属性(透明雨伞)、场景(夜晚、雨中、赛博都市)、风格(插画、霓虹、电影感)。

第二步:文生图出草稿

  • 正向提示词(masterpiece, best quality, ultra-detailed, 8k wallpaper), 1girl, cyborg, mechanical parts on face and arms, wearing sleek black armor, holding a transparent umbrella, (rainy night, wet streets:1.3), neon-lit cyberpunk city, towering skyscrapers, holographic advertisements, (cinematic lighting, volumetric fog, reflections:1.2), dynamic angle, looking at viewer
  • 反向提示词:粘贴我们的“黄金公式”。
  • 参数:采样器DPM++ 2M Karras,步数25,尺寸512x768(竖图),CFG8,种子-1(随机)。
  • 生成:点击生成,得到一批草图。选择一张构图、氛围最接近预期的一张,固定它的种子(比如12345)。

第三步:使用ControlNet强化控制

  • 我发现选中图片的人物姿势不错,但背景建筑有点乱。我想让建筑更规整一些。
  • 打开ControlNet单元,上传一张干净的赛博朋克城市线稿(或找一张类似的照片)。
  • 预处理器选择canny,模型选择control_v11p_sd15_canny,控制权重1.1
  • 保持其他参数和种子不变,再次生成。这次,AI会更好地遵循我提供的城市轮廓。

第四步:高清修复与细节优化

  • 在文生图界面,勾选“高清修复(Hires. fix)”。
  • 放大算法选R-ESRGAN 4x+,放大倍数2,重绘幅度0.35
  • 点击生成。得到一张分辨率更高(1024x1536)、细节更丰富的图。
  • 观察发现,机甲少女的面部细节有些模糊。转到“附加功能”页,使用CodeFormer进行面部修复,权重设0.6
  • 如果对手部不满意,可以启用adetailer扩展,指定检测手部并进行重绘。

第五步:局部调整(可选)

  • 我觉得雨伞不够“透明”,想加强一下。
  • 进入“图生图”的“局部重绘”模式,上传最终图片。
  • 用画笔仔细涂抹雨伞区域。
  • 提示词改为:crystal clear umbrella, raindrops on surface, highly transparent
  • 重绘幅度设为0.5,蒙版模糊6
  • 生成,得到一个雨伞更透明的版本,与周围环境融合。

6.2 常见问题与速查表

在实操中,你一定会遇到各种问题。这里列出最典型的几种及其解决方案:

问题现象可能原因解决方案
画面模糊、缺乏细节1. 步数(Steps)太低
2. CFG Scale太低
3. 模型本身能力有限或未加载VAE
1. 增加步数至25-30
2. 提高CFG至8-10
3. 在设置中加载一个VAE文件
人物面部畸形、多手多脚1. 分辨率设置不当(非标准比例或直接过大)
2. 提示词描述矛盾或过于复杂
3. 模型在人体解剖上训练不足
1. 使用标准尺寸(如512x512, 512x768, 768x512),并用Hires. fix放大
2. 简化提示词,在反向词中加入bad anatomy
3. 使用adetailer扩展或生成后使用CodeFormer修复
色彩暗淡、发灰未加载或使用了不合适的VAE在“设置”->“Stable Diffusion”中,选择vae-ft-mse-840000-ema-pruned.ckpt或其他VAE
生成速度极慢1. 显存不足,使用了虚拟内存
2. 图片尺寸过大
3. 未启用xformers优化
1. 在启动参数中添加--medvram--lowvram
2. 减小生成尺寸,或用小图+Hires. fix
3. 确认xformers已安装(秋叶包通常已集成)
画面元素混乱、不符合提示1. 提示词权重或顺序不当
2. CFG Scale过高或过低
3. 不同概念在提示词中冲突
1. 使用括号()加强核心词,用[ ]减弱次要词
2. 将CFG调整到7-12之间
3. 使用AND连接符分隔冲突概念,或分步生成
安装/启动报错1. 路径含中文/特殊字符
2. 网络问题导致依赖下载失败
3. 显卡驱动或CUDA版本不匹配
1. 确保SD所在路径全英文
2. 使用启动器内的“版本管理”或“疑难解答”功能修复
3. 更新显卡驱动至最新版

6.3 我的核心心得:培养“参数直觉”

最后,分享几点只有长期使用才能悟出的经验:

  1. 先求有,再求好:不要在第一张图上纠结一小时。用低步数(15-20)、小尺寸快速生成几十张草图,找到喜欢的构图和感觉,再固定种子进行精细化调整。这比死磕一张图效率高十倍。
  2. 善用“随机种子-1”:当你没有明确想法时,把种子设为-1,批量生成4-9张图,是寻找灵感和意外惊喜的最佳方式。
  3. 模型决定上限,提示词和参数决定下限:一个优秀的模型是成功的基础,但能否发挥其潜力,取决于你的提示词和参数调校。多花时间研究你主力模型的“脾气”。
  4. 建立你的素材库:收藏优秀的提示词组合、参数设置、以及生成的图片(记得保存PNG信息)。这些是你未来创作的宝贵弹药库。
  5. 拥抱不完美:AI绘画目前仍是一个“协作”过程,它负责提供创意和草稿,你负责筛选、指导和后期微调。接受它的随机性,并将其转化为创意的火花。

Stable Diffusion的世界没有终点,新的模型、插件和工作流每天都在涌现。这份指南为你打下了坚实的地基和绘制了核心地图,但最精彩的旅程,需要你亲自迈出第一步,在无数次“生成-调整-再生成”的循环中,找到属于你自己的创作节奏和独特风格。现在,打开你的WebUI,输入第一个提示词,开始这场充满惊喜的创作之旅吧。