Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字

编辑：LRS

【新智元导读】开源、免费的Stable Diffusion就能达到Midjourney水平！

自从Midjourney发布v5之后，在生成图像的人物真实程度、手指细节等方面都有了显著改善，并且在prompt理解的准确性、审美多样性和语言理解方面也都取得了进步。

相比之下，Stable Diffusion虽然免费、开源，但每次都要写一大长串的prompt，想生成高质量的图像全靠多次抽卡。

最近Stability AI的官宣，正在研发的Stable Diffusion XL开始面向公众测试，目前可以在Clipdrop平台免费试用。

试用链接：https://clipdrop.co/stable-diffusion

Stability AI的创始人兼首席执行官Emad Mostaque表示，目前该模型仍然处于训练阶段，等参数稳定后将会开源；SD-XL在「握手」等图像细节方面会表现更好，几乎完全可控。

Stable Diffusion XL也并不是最终发布版的名字，并且也并非是v3，因为SD-XL的架构和SD-v2系列的模型架构非常相似。

Minimalistic home gym with rubber flooring, wall-mounted TV, weight bench, medicine ball, dumbbells, yoga mats, high-tech equipment, high detail, organized and efficient.

简约的家庭健身房，橡胶地板，壁挂式电视，举重凳，药球，哑铃，瑜伽垫，高科技设备，高细节，组织和效率

下面几张SD-XL官方发布的例图，可以看出图像的质量已经非常能打了。

不过有时候less并不代表more，有网友认为SD-XL为了摆脱「糟糕的品味」，设定了太多的规则，定制化空间越来越小，不符合大多数人的喜好。目前v1.5的Stable Diffusion仍然是社区内最流行的基座模型。

网友表示希望新版SD能够和SD 2.1版本的嵌入、hypernetworkds和Lora模型保持兼容，再从零开始重训的话就太难受了。

也有网友认为，SD-XL的表现和civit网站上网友分享的模型差不多，新模型的效果也并不是特别惊艳，也就是平均水平。

SD-XL：开源版Midjourney

关于Stable Diffusion XL模型的具体信息，官方并没有透露太多，目前只知道是一个与v2模型架构相似、但规模和参数量更大的模型。

SD-v2.1包括9亿参数，SD-XL大约有23亿参数，Emad表示正式版可能会额外发布一个更小的蒸馏版本。

SD-XL相比之前版本的改进如下：

使用较短的描述性prompt即可生成高质量图像
可以生成更贴合prompt的图像
图像中的人体结构更合理
与 v2.1和 v1.5版本(程度较轻)相比，SD-XL生成的图片更符合大众审美
负面提示词（negative prompt）是可选项
生成的肖像图更逼真
图像中的文本更清晰

需要注意的是，SD-XL可能与之前版本的插件不兼容。

清晰可读的文字

在v1系列和v2.1版本的Stable Diffusion模型中，并不具备在图片中生成可读文本的能力。

虽然SD-XL生成的文本信息并不总是准确，但确实得到了巨大的提升。

Photo of a woman sitting in a restaurant holding a menu that says “Menu”

一个女人坐在餐馆里拿着写着「Menu」的菜单

Photo of a man holding a sign that says “Stable Diffusion”

一个男人举着写着「Stable Diffusion」的牌子

a young female holding a sign that says “Stable Diffusion”, highlights in hair, sitting outside restaurant, brown eyes, wearing a dress, side light

一个年轻的女性举着一个牌子，上面写着「Stable Diffusion」，头发高亮，坐在餐厅外面，棕色的眼睛，穿着裙子，侧灯

更好的人体结构

Stable Diffusion在生成人体解剖结构方面一直存在诸多问题，多几条腿、少个胳膊实在是太常见不过的问题，通常需要使用inpaint功能进一步对图像细节进行修正；或者是使用ControlNet的Open Pose功能从参考图像中复制人体的姿态。

比如说SD-v1.5生成瑜伽的图像，经常会出现扭曲的人体。

Photo of a woman in yoga outfit, triangle pose, beach in evening, rim lighting

一个女人的照片在瑜伽服装，三角形的姿势，海滩在晚上，边缘照明

SD-XL虽然生成的图像并不完美，不过在人体姿态方面已经有了显著的进步。

更有美感（more aesthetic）

比如同样以屋子为主题，SD-XL可以生成更对称、视觉效果更好的照片。

SD-XL在肖像照片上也有显著改进。

photo shot of a woman

一个女人的照片

更贴合prompt的图像

SD-XL可以更好地理解输入的prompt，并生成更精确的图像。

比如以duotone（双色）为例，SD-v1.5只会生成黑白图像，而SD-XL则可以生成具有多种颜色的双色调图像。

与 v1模型相比，理解提示符的能力有所提高。

duotone portrait of a woman

一个女人的双色调肖像

因为SD-XL同属v2系列模型，所以文本模型尺寸更大，可以比v1模型更好地理解提示词。

比如下面的例子中，v1.5模型始终无法理解图像中的两个主题（机器人和人类），但SD-XL模型可以生成正常的图像（虽然机器人还是不够big）。

big robot friend sitting next to a human, ghost in the shell style, anime wallpaper

大机器人朋友坐在人类旁边攻壳机动队风格的动漫壁纸

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background

一个年轻人，头发染得很亮，棕色眼睛，穿着白衬衫和蓝色牛仔裤，站在海滩上，背景是一座火山

艺术风格

在艺术风格上，SD-XL并没有显著改进，和之前的版本各有千秋。

比如两个模型以不同的角度生成了Edward Hopper风格的图像。

New York city by Edward Hopper

Edward Hopper绘制的纽约

Leonid Afmov 的风格中，SD-v1.5更准确，SD-XL缺少了不同颜色的笔刷（unmistakable colorful board brushstrokes）。

New York city by Leonid Afremov

Leonid Afemov绘制的纽约

William-Adolphe Bouguereau风格中，V1.5和SDXL都可以生成一些类似的内容，其中SD-XL更接近Bouguereau创作的经典学院派绘画，并且面部细节更多。

Portrait of beautiful woman by William-Adolphe Bouguereau

William-Adolphe Bouguereau绘制的美女肖像

风格转变问题

在添加一些无关紧要的关键字后，模型的风格可能会突然转变。

比如先生成一张照片风格的图像。

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background

一个年轻人，头发染得很亮，棕色眼睛，穿着白衬衫和蓝色牛仔裤，站在海滩上，背景是一座火山

再添加一条黄色的围巾后，图像风格就变成了卡通风格。

a young man, highlights in hair, brown eyes, wearing a yellow scarf, in white shirt and blue jean on a beach with a volcano in background

一个年轻人，头发染得很亮，棕色的眼睛，围着黄色的围巾，穿着白衬衫和蓝色牛仔裤，站在一个火山为背景的海滩上

问题的故障可能源于预览问题，在正式发布后该问题不知能否得到解决。

参考资料：

https://clipdrop.co/stable-diffusion

展开阅读全文

页面更新：2024-03-11

标签：头发肖像棕色海滩模型图像细节人体风格版本

1 2 3 4 5

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字

【新智元导读】开源、免费的Stable Diffusion就能达到Midjourney水平！

SD-XL：开源版Midjourney

九恒智电承接富华集团首个电力智能化运维项目正式投运

谷歌发布AI搜索引擎Magi、PICO体感追踪器开发者版开售、微软与将西门子合作用AIGC改进工业设计...... - Meta元宇宙指北播报

日本列岛正移向全球最深的海沟，是否会滑进去？地质学家怎么说？

洞见Web3.0把握Web3黄金起点，运营商已悄悄发力

股价大涨公司披露尚无实际收入

制造业税费负担大幅降低

国家动真格了！两会结束还不到一个月，四大变化令老百姓期待

换帅当日再遭减持，华谊苦等“救命稻草”

德州财金盐业公司获评AAA级信用等级

深圳乐高乐园度假区三大主题酒店建筑主体即将封顶默林娱乐集团首席执行官访深

中国新能源汽车质量排行：蔚来第6，哪吒排第4，比亚迪第3！

贵州赤水：竹产业助力乡村振兴

金山办公发布人工智能应用“WPS AI” 将嵌入全线产品

5%的利率可能不会让股市或美国经济脱轨

解读今年一季度国民经济运行情况四大特点彰显中国经济韧性与活力

电影《误杀》中几个令人细思极恐的细节，看完你才是真正

为什么说标准模型还不够完善，存在尚未发现的新粒子？

AI绘画：这几款精选的创意色彩壁纸，每一款都有其独特的风

Apple Watch或迎史上最大软件更新，苹果WWDC 2023细节再

美议员要求索尼公开第三方独占协议 Bungie收购细节等

手机cad版本转换器分享，这些方法太好用了吧！

女星杜十五晒海滩写真，身穿X型蓝色露腰长裙，身型凹凸有

电影《新上海滩》：拍摄幕后那些你不知道的故事

“人体螺丝钉”：志愿军用双手抵住螺丝扳手，撑起18辆军列

钉钉“抢跑”接入阿里大模型，总裁叶军：最大挑战是商业化