稳定性人工智能最新的大型发布SD3在人工智能社区引起了相当大的轰动。SD3承诺提高即时遵守性、效率、准确性和整体质量,昨天上线,希望在图像生成方面树立一个新的基准。我们很快就开始观察SD3与其前身SDXL以及其他领先机型MidJourney和Ideogram相比有多好。
我们的面对面比较对每个模型都使用了相同的提示,以确保公平竞争,尽管由于模型之间的内在差异,这似乎是非常规的。评估包括各种场景,测试模型处理详细艺术提示和日常场景的能力。SD3和SDXL使用相同的种子,稳定扩散世代使用标准化的负面提示,比赛场地变得平坦。
以下是我们对各种图像类型的结果。所有图像按相同顺序显示:SD3(左上)、SDXL(右上)、MidJourney(左下)和Ideogram(右下)。我们将分享我们对每一个的看法,但你也可以自己判断。
插图
提示:一只巨型蜘蛛在丛林中追逐一名女子的手绘插图,极度恐怖、痛苦、黑暗和令人毛骨悚然的景色、恐怖、模拟摄影影响的暗示、素描。
SD3和SDXL都采用了让人想起旧漫画的黑白风格。然而,SD3的输出要详细得多,捕捉到了蜘蛛的腿和女人痛苦的表情等复杂的元素。MidJourney采用了一种更巧妙的方法,制作了一幅充满活力的插图,虽然在视觉上很有吸引力,但偏离了提示的“手绘”和“草图”指示。Ideogram的解释反映了SD3的风格方法,但添加了提示中没有指定的蓝色色调,也不是草图。
就准确性而言,SD3和Ideogram正确地描绘了逃离蜘蛛的女人,与提示的叙述紧密一致。相反,SDXL和MidJourney错误地显示了该女子接近蜘蛛的画面,这与提示相矛盾。考虑到提示的草图规格,SD3的黑白、高度详细的插图比Ideogram的彩色构图更准确,后者缺乏面部细节。
获胜者:SD3。
非标准代
提示:一只穿着西装的蜥蜴。
SD3对一只穿着西装的蜥蜴进行了精确的描绘,并严格遵循提示。这只蜥蜴保留了其自然的外表,有鳞片和爬行动物的特征,无缝地融入了一套剪裁得体的西装中。相比之下,SDXL、MidJourney和Ideogram将蜥蜴拟人化,转而创造了人形蜥蜴。
SDXL和MidJourney的版本非常详细和逼真,类似于照片。MidJourney的输出具有逼真的纹理和深度,几乎类似于模拟摄影,但并没有生成套装。Ideogram的肖像经过了大量编辑,类似于政客们拍摄的官方照片,看起来精致而正式。尽管这些输出质量很高,但SD3在真实性、即时性和准确性方面表现出色,使其结果最可信。
获胜者:SD3。
房间里的大象:“L”字
提示:一个美丽的女人躺在草地上。
SD3显然出了问题。
这一提示之所以被删除,是因为人工智能艺术界首先注意到的一件事是SD3无法生成躺在草地上的人的照片。事实上,这很快就变成了一个迷因。
SDXL展示了这名女子的腰部以上照片,重点是她的上半身和脸部。MidJourney和Ideogram选择了特写图像。MidJourney的结果是最逼真的,展示了女性特征和周围草地的精细细节。然而,它过分强调了散焦效果,不仅模糊了背景,还模糊了女性身体的某些部分。Ideogram避免了过度的bokeh问题,保持了女性身体和草地的清晰。
至于SD3,这是一个莫名其妙的失败。事实上,SD3似乎很难生成人类“躺”在草地上,甚至任何东西上的图像。我们尝试了照片、插图和渲染。我们试着培养男人、女人、老人、孩子,以及任何与人相似的人。这种“撒谎”的姿势把它们都变成了巨大的怪物。
获胜者:SD3被淘汰,这场比赛是MidJourney和Ideogram的平局。
艺术风格
提示:一男一女在未来派餐厅用餐,插图,后印象派,impasto。
这项测试评估了模特再现特定艺术动作的能力。SD3表现出色,产生了impasto笔触,捕捉到了后印象派的精髓。SD3输出中油漆的纹理和层次感显而易见,显示出对风格的深刻理解。
SDXL紧随其后,成功地模仿了后印象派风格,但缺乏明显的impasto技术。MidJourney和Ideogram没有表现出对艺术风格的清晰理解,制作的通用插图与提示的规范不一致。
获胜者:SD3。
特定艺术家及其风格
提示:一男一女在一家未来主义餐厅用餐,插图为文森特·梵高风格。
SD3展示了复制梵高风格的强大能力,将他独特的笔触和调色板融入其中,尤其是对这对夫妇的描绘。这幅作品还准确地描绘了一家未来派餐厅。SDXL紧随其后,将现实主义漫画风格的人物与梵高风格的环境融合在一起。
MidJourney的作品不太连贯,没有描绘餐厅,也缺乏所要求的艺术风格。这对夫妇似乎在水中用餐,这与提示不符。Ideogram制作了一张餐厅里一男一女的直白照片,没有试图模仿梵高的风格。
获胜者:SD3。
写实主义
提示:专业照片,特写人像照片,一个白人男子,穿着黑色毛衣,严肃的脸,戏剧性的灯光,自然,阴郁,多云的天气,bokeh。
SD3以戏剧性的灯光和浅景深有效地捕捉到了严肃、阴郁的表情和黑色毛衣服装,营造出一种忧郁、专业的外观。构图包括一个灰暗的自然环境,与提示很好地吻合。
SDXL的输出遵循了传统的人工智能生成的肖像风格,模糊的背景中有阴天和树叶。然而,这张脸似乎经过了大量编辑,缺乏逼真的瑕疵。MidJourney的版本采用了暖色调和城市背景,偏离了提示的自然方面。
Ideogram的构图符合所有标准,提供了特写框架、黑色毛衣、严肃的表情、昏暗的户外灯光和背景中的一丝散焦。这也是模特中最逼真的照片。
获奖者:Ideogram。
文本生成
提示:在一个未来派城市,一名女子在墙前摆姿势,并举着一块写着“解密崛起”的牌子
事实证明,文本生成对所有模型都具有挑战性。没有一个模型成功地准确地呈现了文本“通过解密出现”。SDXL提供了最具未来感的城市景观,但未能包含提示中指定的所有元素。SD3成功地生成了墙、标志和城市——尽管文本不准确。
MidJourney是最准确的一个,产生了标志、城市和城墙的未来氛围。Ideogram生成了墙和城市,但省略了标志。尽管存在这些问题,但SD3能够融入作品的所有关键元
热点:AI SD VS 币界