【Stable Diffusion初学者指南】稳定扩散提示:权威指南
开发一个流程来构建良好的提示是每个稳定扩散用户解决的第一步。本文总结了通过实验和其他用户的输入开发的过程和技术。目标是写下我所知道的有关提示的所有内容,以便您可以在一处了解所有内容。
剖析一个好的提示
一个好的提示需要详细、具体。一个好的过程是查看关键字类别列表并决定是否要使用其中任何一个。
关键字类别是
主题 中等的 风格 艺术家 网站 解决 额外细节 颜色 灯光
提示生成器中提供了每个类别的广泛关键字列表。您还可以在此处找到简短的列表。
您不必包含所有类别的关键字。将它们视为清单以提醒您可以使用哪些内容。
让我们回顾一下每个类别,并通过添加每个类别的关键字来生成一些图像。我将使用 v1.5 基本模型。为了单独查看提示的效果,我暂时不会使用否定提示。别担心,我们将在本文的后面部分研究负面提示。所有图像均由 DPM++ 2M Karas 采样器的 30 个步骤生成,图像尺寸为 512×704。
主题
主题是您想在图像中看到的内容。一个常见的错误是关于这些主题写得不够多。
假设我们想要生成一个施展魔法的女术士。新手可能会写
一个女巫
这就留下了太多的想象空间。你希望女巫看起来怎么样?有什么形容她的词可以缩小她的形象吗?她穿什么?她到底施展了什么魔法?她是站立、奔跑还是漂浮在空中?背景场景是什么?
稳定扩散无法读懂我们的想法。我们必须准确地说出我们想要什么。
对于人类受试者来说,一个常见的技巧是使用名人的名字。它们具有很强的效果,是控制拍摄对象外观的绝佳方法。但是,请注意,这些名称不仅可能改变脸部,还可能改变姿势和其他东西。我将把这个主题推迟到本文的后面部分。
作为演示,让我们将女术士塑造得像艾玛·沃特森(Emma Watson),这是《稳定扩散》中最常用的关键字。假设她强大而神秘,并且使用闪电魔法。我们希望她的服装非常细致,这样她就会看起来很有趣。
艾玛·沃特森饰演强大的神秘女巫,施展闪电魔法,细致的服装



我们 10 次中有 11 次都是艾玛·沃特森。她的名字对模特的影响如此之大。我认为她在稳定扩散用户中很受欢迎,因为她看起来体面、年轻,并且在各种场景中保持一致。相信我,我们不能对所有女演员说同样的话,尤其是那些活跃在90年代或更早的女演员......
中等的
媒介是用来制作艺术品的材料。例如插图、油画、3D 渲染和摄影。Medium 具有很强的效果,因为仅一个关键字就可以极大地改变风格。
让我们添加关键字“数字绘画”。
艾玛·沃特森饰演强大的神秘女巫,施展闪电魔法,细致的服装,数字绘画



我们看到了我们所期望的!图像从照片变成了数字绘画。到目前为止,一切都很好。我想我们可以到此为止了。只是在开玩笑。
风格
风格是指图像的艺术风格。例子包括印象派、超现实主义、波普艺术等。
让我们在提示中添加超现实、幻想、超现实、全身。
艾玛·沃特森饰演强大的神秘女巫,施展闪电魔法,细致的服装,数字绘画,超写实,奇幻,超现实主义,全身



嗯……不确定他们是否添加了很多。也许这些关键词已经被前面的关键词所暗示了。但我想保留它也没什么坏处。
艺术家
艺术家的名字是强有力的修饰语。它们允许您使用特定艺术家作为参考来调整精确的风格。使用多个艺术家名字来融合他们的风格也很常见。现在让我们加上超级英雄漫画艺术家Stanley Artgerm Lau和19 世纪肖像画家Alphonse Mucha 。
艾玛·沃特森扮演强大的神秘女巫,施展闪电魔法,细致的服装,数字绘画,超现实主义,幻想,超现实主义,全身,作者:Stanley Artgerm Lau 和 Alphonse Mucha



我们可以看到两位艺术家的风格很好地融合并产生了效果。
网站
Artstation和Deviant Art等小众图形网站聚集了许多不同流派的图像。在提示中使用它们是引导图像走向这些风格的可靠方法。
让我们将artstation添加到提示中。
艾玛·沃特森扮演强大的神秘女巫,施展闪电魔法,详细的服装,数字绘画,超现实主义,幻想,超现实主义,全身,作者:Stanley Artgerm Lau 和 Alphonse Mucha,artstation



这不是一个巨大的变化,但图像看起来确实像你在 Artstation 上看到的那样。
解决
分辨率代表图像的清晰度和细节程度。让我们添加高度详细且焦点明确的关键字。
艾玛·沃特森饰演强大的神秘女巫,施展闪电魔法,详细的服装,数字绘画,超现实主义,幻想,超现实主义,全身,作者:Stanley Artgerm Lau 和 Alphonse Mucha,artstation,高度详细,锐利焦点



嗯,效果可能不是很大,因为之前的图像已经非常清晰和详细。但添加也没什么坏处。
额外细节
其他细节是添加甜味剂以修改图像。我们将添加科幻、美丽和反乌托邦的元素,为图像增添一些氛围。
艾玛·沃特森饰演强大的神秘女巫,施展闪电魔法,细致的服装,数字绘画,超现实主义,幻想,超现实主义,全身,作者:Stanley Artgerm Lau 和 Alphonse Mucha,artstation,高度细致,锐利聚焦,科幻,美得惊人,反乌托邦的



颜色
您可以通过添加颜色 关键字来控制图像的整体颜色。您指定的颜色可能会显示为色调或对象中。
让我们使用关键字iridescent gold为图像添加一些金色。
艾玛·沃特森饰演强大的神秘女巫,施展闪电魔法,细致的服装,数字绘画,超现实主义,幻想,超现实主义,全身,作者:Stanley Artgerm Lau 和 Alphonse Mucha,artstation,高度细致,锐利聚焦,科幻,美得惊人,反乌托邦,虹彩金色



黄金出来了,太棒了!
灯光
任何摄影师都会告诉您灯光是创造成功图像的关键因素。照明关键字会对图像的外观产生巨大影响。让我们为提示添加电影灯光和黑暗。
艾玛·沃特森饰演强大的神秘女巫,施展闪电魔法,细致的服装,数字绘画,超现实主义,幻想,超现实主义,全身,作者:Stanley Artgerm Lau 和 Alphonse Mucha,artstation,高度细致,锐利聚焦,科幻,美得惊人,反乌托邦,虹彩金色,电影灯光,黑暗



这样就完成了我们的示例提示。
评论
您可能已经注意到,在主题中添加了一些关键字后,图像已经相当不错了。在构建稳定扩散的提示时,通常不需要有很多关键字即可获得良好的图像。
负面提示
使用负面提示是引导图像的另一种好方法,但你不是放入你想要的东西,而是放入你不想要的东西。它们不需要是对象。它们也可以是样式和不需要的属性。(例如丑陋、变形)
对于v2 模型来说,使用否定提示是必须的。如果没有它,图像看起来会远不如 v1 的图像。对于 v1 模型来说,它们是可选的,但我经常使用它们,因为它们要么有帮助,要么无害。
我将使用通用的否定提示。如果您想了解它是如何工作的,您可以阅读更多相关内容。
丑陋、平铺、手画得不好、脚画得不好、脸画得不好、出框、多余的肢体、毁容、变形、身体出框、解剖结构不良、水印、签名、切断、对比度低、曝光不足、曝光过度、不好艺术、初学者、业余、扭曲的脸、模糊、草稿、颗粒状



具有通用的否定提示。
负面提示帮助图像更加突出,使它们不那么平坦。
建立良好提示的过程
迭代提示构建
您应该将提示构建视为一个迭代过程。正如您从上一节中看到的,只需在主题中添加几个关键字,图像就可以非常好。
我总是从一个简单的提示开始,只包含主题、媒介和风格。一次至少生成 4 张图像,看看您会得到什么。大多数提示并不是 100% 有效。您想了解他们在统计上可以做什么。
一次最多添加两个关键字。同样,生成至少 4 张图像来评估其效果。
使用否定提示
如果您刚开始,可以使用通用否定提示。
将关键字添加到否定提示可以是迭代过程的一部分。关键字可以是你想要避免的物体或身体部位(由于 v1 模型不太擅长渲染手,所以在否定提示中使用“hand”来隐藏它们也是一个不错的主意。)
提示技巧
您可以通过在某个采样步骤切换到不同的关键字来修改关键字的重要性。
以下语法适用于 AUTOMATIC1111 GUI。您可以使用快速入门指南中的 Colab 笔记本一键运行此 GUI 。您还可以在Windows和Mac上安装它。
关键词权重
(此语法适用于 AUTOMATIC1111 GUI。)
您可以通过语法调整关键字的权重(keyword: factor)
。factor
是一个值,小于 1 表示不太重要,大于 1 表示更重要。
比如我们可以调整dog
下面提示中关键词的权重
狗,巴黎的秋天,华丽,美丽,大气,氛围,薄雾,烟雾,火,烟囱,雨,湿,原始,水坑,融化,滴水,雪,小溪,郁郁葱葱,冰,桥,森林,玫瑰,鲜花,作者:stanley artgerm lau、greg rutkowski、thomas kindkade、alphonse mucha、loish、norman rockwell。

(狗:0.5)

狗

(狗:1.5)
增加体重dog
往往会产生更多的狗。减少它往往会产生更少。并不总是对每张图像都是如此。但从统计意义上来说确实如此。
该技术可以应用于主题关键字和所有类别,例如风格和照明。

() 和 [] 语法
(此语法适用于 AUTOMATIC1111 GUI。)
调整关键字强度的一种等效方法是使用()
和[]
。(keyword)
将关键字的强度增加 1.1 倍,与 相同(keyword:1.1)
。 [keyword]
将强度降低 0.9 倍,与 相同(keyword:0.9)
。
您可以使用其中的多个,就像在代数中一样......效果是乘法的。
(关键字):1.1 ((关键字)):1.21 (((关键字))):1.33
同样,使用多个的效果[]
是
[关键字]:0.9 [[关键字]]:0.81 [[[关键字]]]:0.73
关键词混合
(此语法适用于 AUTOMATIC1111 GUI。)
您可以混合使用两个关键字。正确的术语是“及时调度”。语法是
[关键字1:关键字2:因素]
factor
控制在哪一步将关键字 1 切换到关键字 2。它是 0 到 1 之间的数字。
例如,如果我使用提示
【乔·拜登:唐纳德·特朗普:0.5】的油画肖像
30 个采样步骤。
这意味着步骤 1 到 15 中的提示是
乔·拜登的油画肖像
并且第16步到第30步的提示变为
唐纳德·特朗普的油画肖像
该因素决定了关键字何时更改。30 步 x 0.5 = 15 步后。
改变因素的效果是两位总统不同程度地融合在一起。


你可能已经注意到特朗普穿着一套白色西装,更像是乔装。这是关键字混合的一个非常重要的规则的完美示例:第一个关键字决定全局组成。早期的扩散步骤决定了整体构图。后面的步骤会完善细节。
测验:如果你交换唐纳德·特朗普和乔·拜登,你会得到什么?
混合面孔
一个常见的用例是借鉴演员的经验,创建具有特定外观的新面孔。例如,[Emma Watson:Amber听说:0.85],40步是两者之间的一个外观:

当仔细选择两个名称并调整系数时,我们可以精确地获得我们想要的外观。
穷人的提示提示
使用关键字混合,您可以实现类似于提示到提示的效果,通过编辑生成高度相似的图像对。以下两个图像是使用相同的提示生成的,除了提示时间表替换apple
为fire
。种子和步数保持相同。

拿着[苹果:火:0.9]

拿着[苹果:火:0.2]
该因素需要仔细调整。它是如何工作的?这背后的理论是图像的整体构图是由早期扩散过程决定的。一旦扩散被困在一个小空间内,交换任何关键词都不会对整体图像产生很大的影响。只会改变一小部分。
提示可以持续多长时间?
根据您使用的稳定扩散服务,提示中可以使用的关键字可能有最大数量。在基本的稳定扩散 v1 模型中,该限制是 75 个令牌。
请注意,标记与单词不同。Stable Diffusion 使用的CLIP 模型会自动将提示转换为标记,即它所知道的单词的数字表示形式。如果你输入一个它以前没有见过的单词,它会被分成 2 个或更多子单词,直到它知道它是什么。它所知道的单词称为标记,用数字表示。例如,梦想是一个令牌,海滩是一个令牌。但dreambeach是两个标记,因为模型不知道这个单词,因此模型将单词分解为它知道的单词dream
和beach
which 。
AUTOMATIC1111 中提示限制
AUTOMATIC1111 没有令牌限制。如果提示包含超过 75 个令牌(CLIP 令牌生成器的限制),它将启动另外 75 个令牌的新块,因此新的“限制”变为 150。该过程可以永远继续,或者直到您的计算机内存不足......
每个 75 个令牌块都经过独立处理,所得表示在输入到 Stable Diffusion 的U-Net之前会被连接起来。
在AUTOMATIC1111中,您可以通过查看提示输入框右上角的小框来检查代币的数量。

AUTOMATIC1111 中的令牌计数器
检查关键词
您看到人们使用关键字这一事实并不意味着它有效。就像做作业一样,我们都抄袭对方的提示,有时不假思索。
您只需将关键字用作提示即可检查关键字的有效性。例如,v1.5模型是否认识美国画家Henry Asencio?我们根据提示来检查一下
亨利·阿森西奥

积极的!
Artstation 的轰动怎么样?
沃洛普

嗯,看起来不像。这就是为什么你不应该使用“by wlop”。这只是增加噪音。
约瑟芬·沃尔的回答是肯定的:

您可以使用此技术来检查混合两个或多个艺术家的效果。
亨利·阿森西奥,约瑟芬·沃尔

限制变化
为了擅长构建提示,您需要像稳定扩散一样思考。它的核心是一个图像采样器,生成我们人类可能认为它合法且良好的像素值。你甚至可以在没有提示的情况下使用它,它会生成许多不相关的图像。用技术术语来说,这称为无条件或无引导扩散。
提示是一种将扩散过程引导至与其匹配的采样空间的方法。我刚才说过,提示需要详细、具体。这是因为详细的提示缩小了采样空间。让我们看一个例子。
城堡



城堡,蓝天背景



城堡广角视图,蓝天背景



通过在提示中添加更多描述性关键字,我们缩小了城堡的采样范围。在第一个示例中,我们要求提供任何城堡的图像。然后我们要求只获取那些有蓝天背景的。最后我们要求拍成广角照片。
您在提示中指定的越多,图像的变化就越少。
关联效应
属性关联
有些属性是强相关的。当你指定一个时,你就会得到另一个。稳定扩散生成最有可能产生意外关联效应的图像。
假设我们想要生成蓝眼睛女性的照片。
一位年轻女性,蓝眼睛,头发亮点,坐在餐厅外,穿着白色衣服,侧光



蓝眼睛
如果我们换成棕色眼睛怎么办?
一位年轻女性,棕色眼睛,头发亮点,坐在餐厅外,穿着白色衣服,侧光



棕色的眼睛
我在提示中没有指定种族。但由于蓝眼睛的人主要是欧洲人,因此产生了白人。棕色眼睛在不同种族中更为常见,因此您会看到更加多样化的种族样本。
刻板印象和偏见是人工智能模型中的一个大话题。我将在本文中只讨论技术方面。
名人名字协会
每个关键词都有一些意想不到的关联。对于名人名字来说尤其如此。一些演员喜欢在拍照时摆出特定的姿势或穿着特定的服装,因此在训练数据中也是如此。如果你仔细想想,模型训练只不过是通过关联学习。如果泰勒·斯威夫特(在训练数据中)总是跷二郎腿,模型就会认为跷二郎腿也是泰勒·斯威夫特。



提示:泰勒·斯威夫特在未来高科技反乌托邦城市中的全身数字绘画
当您在提示中使用泰勒·斯威夫特时,您可能意味着使用她的脸。但拍摄对象的姿势和服装也会产生影响。可以通过单独使用她的名字作为提示来研究效果。
姿势和服装是全球性的组合。如果您想要她的脸而不是她的姿势,您可以使用关键字混合在稍后的采样步骤中将她交换。
艺术家姓名协会
也许最突出的关联例子是使用艺术家名字时。
19 世纪的捷克画家 Alphonse Mucha 在肖像提示中很受欢迎,因为这个名字有助于产生有趣的装饰,而且他的风格与数字插图融合得很好。但它也经常在背景中留下标志性的圆形或圆顶形图案。它们在户外环境中可能看起来不自然。



提示:Alphonse Mucha 的 [艾玛·沃森:泰勒·斯威夫特:0.6] 的数字绘画。(30步)
嵌入是关键字
嵌入是文本倒置的结果,只不过是关键字的组合。你可以期望他们做的比他们声称的要多一些。
让我们看看以下 Ironman 不使用嵌入做饭的基本图像。
提示:钢铁侠在厨房做饭。
Style-Empire是我喜欢使用的嵌入,因为它为肖像图像添加了暗色调并创建了有趣的灯光效果。由于它是在夜间街景图像上进行训练的,因此您可以预期它会添加一些黑色,也许还有建筑物和街道。请参阅下面添加了嵌入的图像。
提示:钢铁侠在厨房做饭风格-帝国。
注意一些有趣的效果
第一张图片的背景变成了夜晚的城市建筑。 钢铁侠倾向于露脸。也许训练图像是肖像?
因此,即使嵌入的目的是修改样式,它也只是一堆关键字,可能会产生意想不到的效果。
定制模型的效果
确保使用自定义模型是实现样式的最简单方法。这也是稳定扩散的独特魅力。由于开源社区庞大,数百个自定义模型可以免费使用。
使用模型时,我们需要注意关键字的含义可能会发生变化。对于样式来说尤其如此。
让我们再次以亨利·阿森西奥为例。在 v1.5 中,仅他的名字就会生成:


使用DreamShaper,一个针对肖像插图进行微调的模型,具有相同的提示

这是一种非常体面但又截然不同的风格。该模型具有生成清晰漂亮的面孔的强大基础,这一点已在此处揭示。
因此,请务必在自定义模型中使用样式时进行检查。梵高可能不再是梵高了!
特定区域的提示
您知道可以为图像的不同区域指定不同的提示吗?
例如,您可以将月亮放在左上角:

或者在右上角:

您可以使用区域提示器扩展来做到这一点。这是控制图像构图的好方法!
查看更多从零了解Stable Diffusion内容点击:https://www.haoshuo.com/article/64b899356b6e1b749015ef90