看到一段 AI 生图提示词,今儿正好得空,也有个 Adobe Creative Cloud 的账号在手上,它支持 ChatGPT Image 2、Google Gemini 3.1、Flux.2、Runway Gen-4 Image 以及 Adobe 自家的 Firefly Image 5。
我便来试试这些个大模型的水平,给生成一个电子女友,看看效果怎么样。BTW,你更喜欢哪个风格呢?
超写实抓拍智能手机照片,3:4 竖构图。原始不可识别的年轻女性,仅参考大致比例/氛围。重庆夜晚人行道,旁边是白色瓷砖墙。行走中,半侧面,惊讶地回头,手伸向镜头,羞涩内敛的微笑,继续向前走,构图不完美,几乎要走出画面。运动中触发闪光灯。强烈的手持抖动,明显的定向模糊,面部细节涂抹,手部和头发模糊,重影,瓷砖墙拉丝,周围深邃黑暗。强烈的闪光灯高光,曝光过度,硬阴影。原始的偶然快照,侵入感,俏皮,转瞬即逝的记忆。极高噪点,重度模糊,真实的手机摄像头质感。negative_prompt: 身份匹配,面部复制,真人复刻,动漫,插画,绘画,风格化,影棚灯光,美颜灯光,清晰对焦,干净脸庞,平滑皮肤,摆拍肖像,时尚大片,电影感,电影剧照,三脚架,专业摄影
下面这些图片我都是用上述同一段提示词生成的,其中部分图片没有按我要求生成 3:4 的图,是因为模型不支持...
1. Nano Banana 3.1:细节与氛围兼顾

首先登场的是 Nano Banana 3.1。这张图的人物细节非常扎实,五官、皮肤、发丝等表现都很自然,人物形象也十分饱满。更让我惊喜的是,它生成的街景背景确实有几分重庆老街的味道,整体构图也比较考究,第一眼就很有电影截图的感觉。
虽然它对提示词的理解并不是所有模型里最准确的,但综合画面质量、人物表现和氛围营造来看,几乎没有明显短板。单论最终成片效果,我愿意给它一个“顶级”的评价。
2. ChatGPT Image 2:最懂提示词的模型

接下来是 ChatGPT Image 2。它生成的人物颜值虽然没有 Nano Banana 3.1 那么惊艳,但它最大的优势在于对提示词的理解能力非常强,几乎是这一轮测试中执行最准确的模型。
我的提示词里明确写了“面部细节涂抹、手部和头发模糊、重影”等内容,而 Image 2 基本都准确表现了出来,说明它对中文提示词的理解确实很到位。因此综合来看,我给它的评价反而更高,可以直接评为“夯”。
3. Nano Banana 2(Pro):稳定且贴近提示词

Nano Banana 2(Pro)的整体表现同样不错,没有出现明显翻车的情况,人物结构和画面质量都比较稳定,属于发挥比较均衡的一张作品。
相比 Nano Banana 3.1,它在画面精致程度上略逊一点,但对提示词的贴合程度依然不错,整体生成效果也比较符合我的预期。所以这一张我同样愿意给它一个“夯”的评价。
4. Adobe Firefly Image 5:文生图还有很长的路

这一张是 Adobe Firefly Image 5 给出的答卷。说实话,结果让我有些失望,它在完整文生图方面的能力和前面几位相比还有比较大的差距。它仍然只适合在 Photoshop 里面干点儿创成式填充或者是生成式扩展...
人物重影十分明显,看起来甚至有点像恐怖片里的效果,整体画面也缺乏真实感。Firefly 用来做生成式填充、局部修改确实很好用,但如果让它从零开始生成完整图片,目前的表现只能说“拉完了”。
5. ChatGPT Image 1.5:氛围不错,但比例受限

ChatGPT Image 1.5 的整体氛围感还是比较舒服的,人物表现自然,对提示词的理解也算不错,最终生成出来的画面观感比较在线。
不过它目前只能输出固定比例,不能自由指定 3:4,所以最终得到的是一张 3:2 的图片,在灵活性上吃了一点亏。即便如此,整体完成度依然不错,我认为可以达到“人上人”的水平。
6. Flux.2:美女很美,但理解差一点

Flux.2 对中文提示词的理解一直都有不错的口碑,这次生成的人物颜值也确实很高,美女明眸皓齿,皮肤和五官都十分真实,第一眼确实很吸引人。不过仔细看就会发现,它对提示词和构图的理解还是出现了一些偏差。比如人物站位明显有点问题,看起来像是准备直接往墙上撞一样,整体逻辑没有完全符合预期。因此我最终给它的评价是“人上人”。
7. FLUX.1 Kontext:塑料感比较明显

相比 Flux.2,FLUX.1 Kontext 的表现就逊色不少。人物整体塑料感比较重,真实感明显下降,看起来更像是一张普通的 AI 图片。画面细节和质感都没有达到我的预期,与 Flux.2 的差距还是比较明显。因此这一轮测试中,NPC 吧。
8. Runway:这次真的翻车了

最后一位选手是 Runway。这张图最大的槽点就是人物结构已经明显崩坏,肩膀上的肢体完全不知道是什么情况,像是手错乱了,又像是发生了某种生化变异。
除此之外,背景瓷砖也是大小不一,透视关系混乱,整体画面漏洞非常多,几乎很难称得上是一张完整的作品。所以这一轮测试里,它毫无悬念地获得了“拉完了”的评价。
看完这一轮测试,不知道哪一位更符合你的想象?如果单纯比较画面颜值,我认为 Nano Banana 3.1 确实非常能打;但如果把提示词理解能力和生成稳定性一起考虑,我个人还是更倾向于 ChatGPT Image 2。
它未必是最好看的那个,却是最懂我想表达什么的那个。对于日常创作来说,一个能够真正理解提示词、稳定输出结果的大模型,往往比单纯追求颜值更加重要。
发表评论