Stable Diffusion提取词指南(3):提取词的其他知识

一个提取词可以有多长?

提取词的长度和您所用的Stable Service有关,您在提取词中可以使用的关键词数量可能会有一个上限。在基本的Stable Diffusion V1模型中,您最多一次可以使用75个tokens。

请注意,tokens并不等同于单词。Stable Diffusion所使用的CLIP模型会自动将提取词转换为tokens,即模型所知道的单词的数字表示。如果您输入一个模型以前没有见过的词,那么这个词会被分解成2个或者更多的子词,直到模型知道这个词是什么。模型认识的词被称为token,用数字来表示。例如,dream是一个token,beach是一个token。但是dreambeach是两个tokens,因为模型并不认识dreambeach,所以模型把这个词分解成它认识的dream和beach。

提取词检查

在真实应用中,我们会发现输入的关键词并不是都起作用,如同家庭作业一样,我们都会直接拷贝现成的提取词,大多数时候并没有思考太多。

您可以通过仅仅使用一个关键词作为提取词来检查这个关键词的有效性。例如,如果我们想确认Realistic Vision V2.0是否知道美国画家Henry Asencio,我们就可以使用下面的提取词。

henry asencio

henry asencio

嗯,看起来这个模型知道Henry Asencio

然后我们可以使用下面的提取词来确认模型是否知道网站wlop。

wlop

wlop

从结果来看,Realistic Vision V2.0模型也是知道wlop网站的。

除了上面两个,我们也可以确认这个模型也是知道Josephine Wall风格的。

Josephine Wall

我们可以使用这个方法来研究两个或者多个艺术家风格融合起来的效果。

Henry asencio, Josephine Wall

Henry asencio, Josephine Wall

限制生成图像的变化

要构建好的提取词,我们就要像Stable Diffusion的算法一样思考。Stable Diffusion算法的核心是一个图像采集器,它会生成像素值,我们人类可能对这些生成的像素值进行评价,产生结果是合法的或者好的判断。我们甚至可以在没有提取词的情况下使用它,然后会得到许多不相关的图像。在技术上,这被称为无条件的或者无指导的扩散。

提取词是引导扩散过程到与之匹配的采样空间的一种方式。如同我们在第一篇中讨论的,提取词需要详细和具体,因为详细的提取词缩小了扩散过程的采样空间。让我们看一个具体的例子。

castle

castle, blue sky background

wide angle view of castle, blue sky background

通过在提取词中添加更多的描述性关键词,我们缩小了城堡的取样范围。在第一个例子中,我们要求得到任何样式城堡的图片。然后我们要求只得到那些有蓝天背景的图片。最后,我们要求它是作为广角照片拍摄的。我们在提取词中的描述越详细,生成的图片就会越接近我们希望得到的效果。

属性关联

有些属性是强关联的,当你指定一个时,你就会得到另一个。Stable Diffusion产生最可能的图像,过程中也可能会产生意想不到的关联效果。

比方说,我们想用下面的提取词生成蓝眼睛的女性的照片。

a young female with blue eyes, highlights in hair, sitting outside restaurant, wearing a white outfit, side light

蓝色眼睛的年轻女孩

如果我们改成棕色的眼睛呢?

a young female with brown eyes, highlights in hair, sitting outside restaurant, wearing a white outfit, side light

棕色眼睛的年轻女孩

可以确定的是,我们并没有在提取词的任何地方指明生成女性的种族,但是因为有蓝色眼睛的主要是欧洲人,所以生成了白种人。而棕色眼睛在不同的民族中都很常见,所以我们会看到一个更多样化的种族样本。陈规和偏见是人工智能模型中的一个很大的话题,我们在这个指南中将只讨论技术方面的问题。

名人姓名的关联

每个关键词都会有一些意想不到的关联。对于名人的名字来说,这一点尤其真实。例如,一些演员在拍照时喜欢摆出某些姿势或穿上某些衣服,因此在训练数据中也是如此。其实这一点也很好理解,模型训练只不过是通过联想学习。如果泰勒-斯威夫特在训练数据中总是以一种特殊的姿势站立,那么生成的模型也会把泰勒-斯威夫特和这种站立的姿势联系起来。

Prompt: full body taylor swift in future high tech dystopian city, digital painting

当您在提取词中使用泰勒-斯威夫特时,您可能是指使用她的面部。但主体的姿势和装束也有一定的效果。这个效果可以通过单独使用她的名字作为提取词来研究。

姿势和装束是全局性的构成。如果您只想要她的面部,但不想要她的姿势,您可以在以后的取样步骤中使用关键词混合来把她换进来。

艺术家名字的关联

也许另一个很明显的关键词关联的例子是在使用艺术家名字时观察到的。

19世纪捷克画家Alphonse Mucha在肖像提取词中是很受欢迎的,因为这个名字有助于产生有趣的装饰,而且他的风格与数字插图融合得非常好。但它也经常在背景中留下标志性的圆形或圆顶形图案,使它们在户外环境中可能看起来不自然。

Prompt: digital painting of [Emma Watson:Taylor Swift: 0.6] by Alphonse Mucha. (30 steps)

#暑期创作大赛##头条文章养成计划##挑战30天在头条写日记##头条家时光#

#stablediffusion#

展开阅读全文

页面更新:2024-03-29

标签:泰勒   都会   这个词   棕色   姿势   模型   图像   关键词   眼睛   效果   指南   知识

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top