- 1. AI 生图不只是写提示词,而是一套生产流程
- 2. 写提示词之前,先理解模型档位和画布尺寸
- 3. 从零生成:如何让模型建立一个完整世界
- 3.1 信息图表:像给设计师下 Brief 一样写提示词
- 3.2 图像翻译:只改文字,不动版式
- 3.3 真实照片:用摄影语言替代“超逼真”
- 3.4 世界知识:给出精确时间地点,让模型调用背景知识
- 3.5 Logo 生成:品牌约束越清楚,输出越可用
- 3.6 广告生成:写创意简报,而不是只写技术规格
- 3.7 漫画生成:把故事拆成动作节奏
- 3.8 UI 模型图:像描述已经上线的产品截图
- 3.9 科学和教育视觉:先定义受众和课程目标
- 3.10 幻灯片图表:像写工具说明一样规范
- 4. 基于原图编辑:关键不是生成,而是画边界
- 4.1 风格迁移:保留视觉语言,替换主体或场景
- 4.2 虚拟换衣:先锁死身份,再开放服装变量
- 4.3 草图渲染:保留布局、比例和透视
- 4.4 产品提取:边缘质量和标签完整性最重要
- 4.5 图中文字营销:文案必须逐字引用
- 4.6 光照和天气变化:每次只改变一个变量
- 4.7 移除物品:说明移除什么,并强调其他都不变
- 4.8 人物插入场景:用摄影语言说清真实,用反向约束避免电影感
- 4.9 多图融合:明确取什么、放哪里、保持什么
- 5. 高价值生产案例:把提示词变成商业工作流
- 5.1 室内对象替换:只替换单个元素,保留空间真实性
- 5.2 立体贺卡:让纸张、折叠和光影更像真实拍摄
- 5.3 动作人偶和包装:材质、包装和印刷清晰度都要写
- 5.4 儿童书角色锚定:先定义角色,再生成故事
- 5.5 角色一致性延续:不要重新设计角色
- 6. 把 Prompt 写成可复用的生产模板
- 7. 为什么 GPT Image 2 更适合进入生产流程
- 8. 最终原则:产物先行、约束清楚、小步迭代
ChatGPT Image 2 生图模型确实非常强大,近期像素工坊很多封面文章都用它做的,而我的用法也非常简单粗暴,通常是:结合上下文,给本文生成一幅 16:9 的文章封面,文字不要太多。大多数时候生成的封面都非常不错,但也有不少时候因为我提示词不够充分,生成的图不太符合我的想象。
现在 Adobe Creative Cloud Pro 计划里也已经包含了更多生成式 AI 能力,Adobe Firefly 也开始接入包括 OpenAI 在内的合作伙伴模型。也就是说,我们不一定只能在 ChatGPT 里使用这类图像模型,在 Adobe Firefly 这样的创作环境中,也可以把 GPT Image 2 这类模型纳入到更完整的图像生产流程里。
所以,问题其实不是“AI 会不会画图”,而是我们到底会不会把需求讲清楚。很多时候,我们觉得 AI 生图像开盲盒,并不是模型完全不可控,而是我们的提示词还停留在一句愿望、一句形容词,缺少交付物、画布、文字、层级、约束和迭代流程。本文就根据一个关于 GPT Image 2 生图提示词的视频字幕,系统整理出一套更适合实际生产的提示词写法。
1. AI 生图不只是写提示词,而是一套生产流程
你有没有这样一种感觉:现在的 AI 生图工具已经非常强了,但你用它做出来的东西,总是差那么一口气。图片看起来可能很精美,但细节里全是问题;也可能整体方向不错,却和你脑子里的画面完全不是一回事。更让人头疼的是,有时候只是改一句提示词,结果就像重新开了一次盲盒,同一句话扔进去三次,出来的效果都不一样。
这类问题并不罕见。它说明 AI 生图已经从“能不能生成”进入到“能不能稳定生成”的阶段。早期我们更关心模型能不能画出漂亮图片,现在更关心它能不能按照明确需求完成交付,能不能保留人物身份,能不能让文字可读,能不能保持产品标签不乱,能不能在修改一处内容时不顺手改掉整张图。
这次整理的核心,不是把提示词写得更玄学,也不是堆更多形容词,而是把 OpenAI 官方图像指导中关于 GPT Image 2 的思路,理解成一套 AI 图片生产流程。它不是只告诉你“怎么写一句 prompt”,而是让你明白什么时候应该从零生成,什么时候应该基于原图编辑,什么时候应该小步迭代,什么时候应该锁定变量和不变量。
视频中提到的案例被分成三个递进层次。第一个层次是生成,也就是从零开始建立一个完整画面,适用于信息图、Logo、广告、漫画、UI、教育图、幻灯片图表等场景。第二个层次是编辑,也就是在已有图片上动刀,重点是画清边界,分离可以改变的内容和必须保持不变的内容。第三个层次是更高价值的生产流程,适用于室内替换、立体贺卡、动作人偶、角色锚定和角色一致性延续等商业化场景。
理解这三个层次之后,我们就能明白:GPT Image 2 的正确用法,不是把所有愿望一次性塞进一句提示词里,而是先建立世界,再在世界里改东西,最后把这些操作沉淀成可复用的生产模板。
2. 写提示词之前,先理解模型档位和画布尺寸
2.1 质量档位不是审美选择,而是速度与精细度的取舍
在真正写提示词之前,首先要理解 GPT Image 2 的质量档位。它可以按低、中、高三个档位来理解。这里要强调的是,这三个档位不是审美选择,不是说低档就丑、高档就好看,而是在生成速度、吞吐效率和细节质量之间做取舍。
- 低档位最大的优势是快,适合批量生成、草图探索和方向初筛。如果你只是想快速看几个构图方向,或者对细节没有很高要求,就没有必要一上来就使用最高档。低档位更适合帮助你快速判断方向是否成立。
- 中档位则是质量和速度的平衡点,适合作为多数工作流的默认起点。当你还不确定最终图是否值得投入更高成本时,可以先用中档跑一轮,看看构图、风格、主体和画面逻辑是否接近预期。
- 高档位更适合最终图、细节密集图和对身份保持要求较高的任务。比如小字很多的信息图、近景人像、需要保留人物相貌的编辑、高分辨率输出、产品标签清晰度要求很高的广告图,都应该优先考虑高档位。简单来说,低档是快,中档是平衡,高档是更精细。不要一上来就盲目使用高档,而应该先从低到高做比较,再决定最终生成档位。
在 Firefly Web 中,也可以发现,用 Image 2 模型生成一张低质量的图片消耗的积分为 5 分,中档质量为 10 分,而最高质量消耗的积分则来到了夸张的 60 分!所以咱们在使用的时候要根据实际和需要来选择,且务必写好提示词。
2.2 尺寸本身就是交付物的一部分
很多人习惯先写提示词,再临时决定尺寸,这其实是一个常见错误。尺寸不是附属参数,它本身就是图片交付的一部分。你要做的是文章封面、竖版海报、移动端截图、PPT 图表,还是电商产品图,尺寸和比例会直接影响模型对构图、文字排布、主体大小和视觉层级的判断。
视频中提到,GPT Image 2 的尺寸存在一些硬性边界。例如最长边需要小于 3840 像素,两条边都应当是 16 的倍数,长短边比例也不能过于极端,一般不应超过 3:1。常见规格中,1024×1536 更适合竖版海报、信息图、漫画分镜和移动端 UI 截图;1536×1024 更适合横版图表、产品首页、广告横图和文章配图;2560×1440 则更接近 2K 宽屏,适合更精细的横版视觉输出。
对像素工坊这类网站来说,如果是文章封面,16:9 横版依然是非常实用的默认选择。但如果你要做教程图、软件界面说明图、信息图或者社交媒体海报,就应该先决定交付比例,再写提示词。否则模型可能会把本该清晰展示的文字挤在一起,也可能把主体放到不适合裁切的位置。
2.3 生成和编辑是两种完全不同的提示词逻辑
GPT Image 2 可以用于两类任务:一种是生成,一种是编辑。生成模式是从零开始文生图,你需要提供完整信息,让模型建立一个世界。编辑模式是基于已有图片进行修改,你不是重新生成一张图,而是在原图上动刀,因此最重要的是说清楚改什么,以及不改什么。
从零生成时,你要写清楚产物类型、受众、主体、构图、材质、文字、尺寸和质量档位。比如信息图要写清楚标签和流程,照片要用摄影语言锚定真实质感,Logo 和 UI 要强调简洁、可缩放、真实界面层级。
编辑图片时,提示词反而不一定越长越好。你需要先写清楚修改动作,再写清楚必须保持不变的内容。比如翻译信息图时,要说明“只翻译文字,版式不变”;虚拟试穿时,要说明“脸型、身材、姿态、发型、表情和身份不变,只替换服装”;人物合成时,要说明“将第二张图片中的主体放入第一张图片的场景中,并匹配光照、透视和构图”。
一句话概括,生成是建世界,编辑是画边界。理解这一点之后,很多提示词问题都会变得清晰。
3. 从零生成:如何让模型建立一个完整世界
3.1 信息图表:像给设计师下 Brief 一样写提示词
信息图的核心价值,是把结构化信息用视觉方式传达给特定受众。它不是一张单纯好看的图,而是一个可阅读、可理解、可交付的视觉说明。因此,写信息图提示词时,要像给设计师下 Brief 一样,说明内容是什么,结构是什么,标签有哪些,给谁看,最终希望读者理解什么。
以自动咖啡机信息图为例,提示词中要明确说明这是一张展示“功能和流程”的信息图。功能和流程这两个词非常关键,因为它们会引导模型把画面组织成结构化说明,而不是只画一台好看的咖啡机。你还需要列出斗仓、研磨器、电子秤、水箱、冲煮头等关键部件,并要求使用中文标签和箭头展示完整流程。
信息图最怕的就是文字糊成一团,所以只要画面里有密集文字、标签、箭头、流程线,就应该优先使用高档位生成。高档位不是为了让图更“艺术”,而是为了让小字、标签和结构更清晰。对教程类网站来说,这一点尤其重要,因为读者不是只看氛围,而是要读懂信息。
3.2 图像翻译:只改文字,不动版式
图像翻译属于编辑任务。假设你已经有一张中文信息图,现在希望把所有中文翻译成英文,关键不是重新设计整张图,而是保留原来的风格、位置、间距、层级、图表和图片,只替换文字内容。
这类提示词越清晰越好,不需要写很多复杂描述。你可以直接告诉模型:“将信息图中的所有文字翻译成英语,不改变图片的其他任何地方。”这句话看起来很简单,但它已经包含了编辑任务最重要的逻辑:做什么,以及不做什么。
很多人做图像翻译时效果不好,是因为提示词里只说了“翻译成英文”,没有说明版式、构图和视觉元素不变。模型就可能顺手重新设计图表,调整图标位置,甚至改变背景和元素风格。编辑任务中,简洁而明确的边界,往往比长篇形容词更有效。
3.3 真实照片:用摄影语言替代“超逼真”
想要生成可信的真实照片,不要只写“超逼真”“电影感”“高质量”这类空泛词。更好的方法,是像摄影师描述一张照片那样写提示词,用镜头、光线、构图、焦距、景深、材质和瑕疵去锚定真实质感。
比如生成一张水手照片,可以描述为 35mm 胶片照片、中景、视线高度、50mm 镜头、柔和冷光、浅景深、轻微胶片颗粒、自然白平衡。同时还要明确要求不要美化、不要重度修图、不要广告棚拍质感。

这些词不是为了堆砌,而是为了把视觉方向从“精修广告”拉回到“真实抓拍”。真实感往往来自细节的不完美,比如皮肤毛孔、衣服褶皱、器物磨损、环境瑕疵和自然光线。如果你的提示词只写“真实照片”,模型可能会生成一张过度干净、像棚拍广告一样的图;但如果你写清楚摄影语言,它更容易生成可信的现场感。
3.4 世界知识:给出精确时间地点,让模型调用背景知识
GPT Image 2 的一个有意思能力,是它可以利用世界知识推断画面背景。比如你要求生成 1969 年 8 月 16 日重庆解放碑的照片,模型可能会根据时间和地点推断出当时的时代背景、音乐节氛围、服装风格、舞台布景和人群状态。
//以上提示词生成的图片不能放在这里,不然我的网站可能噶啦,懂得都懂哦...
这意味着你不一定要在提示词里写一大段历史解析。很多时候,只要给出足够精确的时间、地点、产物类型和真实质感要求,模型就能补全大量背景信息。提示词可以很短,比如要求创建一张真实的户外人群照片,地点和时间明确,服装、舞台和环境都要符合时代背景。
当然,世界知识不是让你完全不写细节,而是让你把关键锚点写准。时间、地点、时代、场景类型这些信息,比“复古一点”“有年代感”这类模糊表达更有效。模型知道的东西比我们想象中多,但前提是你要给它正确的坐标。
3.5 Logo 生成:品牌约束越清楚,输出越可用
Logo 生成的核心原则是品牌约束。你不能只说“做一个好看的面包店 Logo”,而要告诉模型品牌名称、行业、性格、视觉形式和使用场景。比如一家面包店的品牌个性是温暖、简单、永恒,那么提示词就应该围绕这些关键词展开。
更具体地说,可以要求它生成干净的矢量风格 Logo,强轮廓,平衡负空间,跨尺寸可缩放,扁平设计,最少笔画,纯色背景,居中展示,无水印。每一个约束都对应一个可能出错的地方。你不说扁平设计,模型可能给你做渐变;你不说纯色背景,它可能把 Logo 放在复杂场景里;你不强调可缩放,小尺寸下可能就不可读。
Logo 这类任务还适合一次生成多个变体。比如设置生成四个版本,方便横向比较。因为 Logo 本身就需要筛选,模型不一定第一次就命中最佳方案,多变体可以提高选择效率。

优先保证结构简洁与识别度,避免复杂细节,使其在网站 Logo、小图标与深浅背景下均清晰可辨。扁平化设计,控制颜色数量(建议 2-3 种主色),避免复杂渐变或纹理。纯色背景,居中展示单个标志,保留充足留白空间,无水印。
3.6 广告生成:写创意简报,而不是只写技术规格
广告图是最能体现“创意 Brief”写法的场景之一。比如你要给一个年轻潮流的街头品牌做广告,提示词不应该只是“生成一张街头广告图”,而应该描述品牌名、受众、文化气质、画面人物、情绪状态、构图方向和必须出现的文案。
如果广告里有文字,必须把文案用引号明确标出,并要求模型精确引用一次、清晰易读、融入广告版面。同时还要说明不要额外文字、不要水印、不要无关 Logo。文字越重要,越不能让模型自由发挥。
广告生成的关键,是让模型在品牌边界内做品位驱动的创意决策。你负责给受众、文化概念、构图和确切文案,模型负责在这些约束中发挥创意。这样生成出来的广告,才不会只是漂亮,而是更接近一个真实品牌可以使用的视觉方向。
3.7 漫画生成:把故事拆成动作节奏
漫画生成的核心,是把叙事事件拆成清晰的视觉节奏。以四宫格宠物漫画为例,不能只写“宠物搞破坏”,而应该把每一格的动作和状态变化写清楚。第一格主人出门,第二格宠物独自占据沙发,第三格主人回来,第四格宠物假装什么都没发生。
每一格都应该围绕一个动作展开,而不是只写抽象情绪。比如“宠物像房子的主人一样瘫在沙发上,旁边有零食碎屑,阳光像聚光灯一样照进房间”,就比“宠物很调皮”更容易生成可读性强的画面。
漫画最怕节奏混乱、动作不清、角色关系不明。提示词越具体,越以动作和画面变化为中心,模型越容易生成节奏正确、故事清晰的漫画。对四宫格这类短叙事来说,提示词本质上就是分镜脚本。
3.8 UI 模型图:像描述已经上线的产品截图
UI 生成不能停留在“一个关于农场的 App 概念图”这种抽象表达。更好的写法,是像在描述一个已经上线、设计良好的真实产品截图。你要写清楚页面标题、功能区块、列表内容、分类标签、特价信息、地点、营业时间、字体层级和视觉风格。
比如生成一个农贸市场 App,可以要求页面标题为“今天集市”,包含摊主列表、分类标签、今日特价、地点和营业时间,使用自然低调的强调色、清晰字体、少量装饰,整体看起来像一个真实、漂亮、设计良好的本地市场 App,并放在 iPhone 边框里展示。
这种写法能避免模型生成过于概念化的 UI。真实产品截图一定有信息层级,有导航,有内容模块,有可读文字,有留白和交互暗示。你描述得越像一个真实产品,模型越容易生成接近上线界面的结果。
3.9 科学和教育视觉:先定义受众和课程目标
科学教育类图像不能只追求好看,它首先要准确、清晰、适合教学。写这类提示词时,要先定义受众和课程目标。比如你要生成一张面向高中生的细胞呼吸图解,就应该说明这是给高中生课堂使用的讲义或幻灯片,展示哪些过程,标注哪些关键结构,信息密度控制在什么范围内。
提示词中还应该要求干净的课堂讲义风格,标签清晰,避免小字过多、装饰过多或生成难以理解的复杂画面。教育图最重要的是可读性和科学约束,而不是视觉冲击力。
当图表复杂、标签多、需要放进课程材料时,也应该优先使用高档位。低档或中档可能在整体构图上看起来不错,但小字、箭头、标签和结构更容易崩坏。教育视觉一旦文字错误或结构错误,就会直接影响内容可信度。
3.10 幻灯片图表:像写工具说明一样规范
幻灯片图表和普通图片不一样,它更接近生产力视觉。你不是在说“帮我做一个市场机会的幻灯片”,而是要像写工具说明一样,把标题、数据、图表结构、图例、角标、Logo 占位、字体、背景和层级都写清楚。
比如一个融资演示页,可以明确写出标题是什么,同心圆里展示哪些数字,2021 年到 2026 年的柱状图如何呈现,角标里出现哪些术语,左下角是否有 Logo 占位,整体采用白色背景、低饱和色系、清晰字体和精细间距。还要要求它像真正融资成功的 PPT 页面一样,文字高度可读,数据分层清楚,避免贴纸感、图库摄影感、渐变阴影和过度装饰。
这类提示词最关键的是交付物、画布层级、真实文本、真实数据和视觉语言。你要把它当成一页可以被汇报的幻灯片,而不是一张“像 PPT 的图”。这样生成结果才会更接近生产可用的视觉稿。
4. 基于原图编辑:关键不是生成,而是画边界
4.1 风格迁移:保留视觉语言,替换主体或场景
风格迁移的目标,是保留参考图的视觉语言,同时改变主体或场景。它不需要你详细解释参考图的风格具体是什么,因为模型可以从输入图里推断出线条、色彩、材质、构图和整体氛围。
比如你可以输入一张参考图,然后提示:“使用输入图的相同风格,生成一个骑摩托的男人,背景为白色。”这个提示词很短,但非常有效,因为它只做了两件事:保持相同风格,替换成新的主体。
风格迁移不需要长篇解释“什么叫相同风格”。只要参考图足够明确,模型就能理解。你真正需要说清楚的是新内容是什么,以及是否要保留背景、构图或其他元素。
4.2 虚拟换衣:先锁死身份,再开放服装变量
虚拟试穿最容易出问题的地方,是人物身份被改掉。很多人上传真人图和服装图后,生成结果脸变了、身材变了、姿态变了、衣服质感也变了,本质原因通常是没有先锁定不变量。
这类提示词应该先明确:“不要以任何形式改变人物的脸、面部特征、身体形状、姿势、发型、表情和身份,保留准确的相貌、比例和姿态。”然后再开放唯一变量:“只替换服装,让衣服自然贴合当前姿态和身体几何,并具有真实布料行为。”
如果服装本身有垂坠感、皮革质感、针织纹理或靴子材质,也要在提示词里说明保持真实材质表现。同时还要要求匹配原始照片的光影、阴影和色温。虚拟换衣的逻辑是,先锁死全部内容,再开放一个变量。锁得越清楚,模型执行得越准。
4.3 草图渲染:保留布局、比例和透视
草图渲染的目标,是把草图变成更真实的照片级画面,但不能让模型重新设计草图。提示词中必须强调保留原有布局、比例和透视,然后通过材料、光照和环境增加真实度。
比如可以要求模型将草图转换成照片级真实图片,保留准确的部位、比例和透视,选择与草图一致的真实材料和光照,不添加额外新元素或文字。
这里最重要的是禁止模型自作主张。模型有时会重新理解草图,并添加它认为更好看的元素,比如多画一个装饰、改一个结构、加一些文字或道具。因此,“不要添加额外新元素或文字”不是多余的话,而是非常关键的边界约束。
4.4 产品提取:边缘质量和标签完整性最重要
产品抠图或产品提取是非常实用的商业场景。比如一瓶洗发水、一件包装商品、一台设备,你希望把它从原图中提取出来,放到干净背景上,用于电商、广告或详情页。
这类任务的关键有两个:边缘质量和标签完整性。提示词应该要求提取产品,并放在纯白、不透明背景上,轮廓清晰,没有光晕或边缘毛刺,准确保留几何形状和标签可读性,只做轻度润色,并添加细微真实的接触阴影,不重新设计产品风格。
这里有一个实用建议:生成阶段可以优先使用不透明纯白背景,而不是直接要求透明背景。如果后续确实需要透明 PNG,可以再用专业工具或图像软件移除背景。因为在生图阶段直接追求透明,有时反而会影响边缘稳定性和产品真实感。
4.5 图中文字营销:文案必须逐字引用
在广告图或产品图里加入营销文案时,核心是文案引用。你希望出现的文字,必须用引号明确标出来,并要求逐字呈现,不增加额外字符,不重复出现,清晰可读。
比如你想把产品放在广告牌上,就应该说明广告文字必须和指定内容完全一致,逐字呈现,不出现额外内容。排版可以要求粗体无衬线、高对比度、居中、字体干净,并保证文字只出现一次且完全清晰可读。
GPT Image 2 在图中文字可控性上有明显进步,但它仍然需要明确约束。如果文字不准确,就应该进一步收紧布局和文案要求,减少模型自由发挥的空间。文字越明确,模型越不容易自行改写。
4.6 光照和天气变化:每次只改变一个变量
改变光照和天气时,不需要重新生成整张图。你可以只要求改变光照方向、阴影氛围、降水状态、地面湿度和环境色温,同时保留主体身份、几何结构、相机角度和物品摆放位置。
比如在已经生成好的广告牌图上,可以继续要求:“让它看起来像一个有降水的冬季傍晚。”如果前一步已经锁定了广告牌主体、产品位置和整体构图,那么这一步只需要改变天气氛围即可。
这体现了分步编辑的优势。不要试图一口气生成最终广告牌、产品、文案、场景、天气和光照。更稳妥的方式是先生成基础画面,再逐步编辑,每一步只改变一个变量。变量越少,结果越稳定。
4.7 移除物品:说明移除什么,并强调其他都不变
局部移除是编辑模式中非常适合使用极简提示词的场景。比如你想移除男主手中的花,提示词可以直接写:“移除男人手中的花,不改变任何其他元素。”
这类任务之所以可以简短,是因为图片本身已经提供了大量上下文。模型知道人物是谁,知道手在哪里,知道背景是什么。你不需要重新描述整张图,只需要告诉它移除什么,以及不要改变什么。
“不要改变任何其他元素”这句话非常重要。没有这句话,模型可能顺手调整人物表情、衣服、背景光线或手部姿态。局部编辑的核心不是描述全图,而是精准指出动作和边界。
4.8 人物插入场景:用摄影语言说清真实,用反向约束避免电影感
人物插入场景是比较复杂的编辑任务,适合故事板、营销活动和视觉创意。比如把一个人物放进正在逃离大型棕熊袭击营地的场景中,就需要同时处理人物身份、动作状态、场景细节、光照匹配和真实感。
这类提示词可以从四个方向写。第一,用真实摄影语言锚定质感,比如“像某人真实拍下的照片”,而不是过度电影化海报。第二,锁住主体身份和关键细节,比如脸上有泥、衣服破损、表情恐惧但专注于逃离。第三,说明场景细节,比如国家公园、黄昏、自然光影、真实色彩。第四,加入反向约束,比如避免电影光、戏剧化构图和过度风格化。
人物场景合成的秘诀是,用摄影语言说清真实,用反向约束说清不要电影感,用身份锚定说清这是同一个人。这样模型才不会把故事画成海报,也不会把人物画成另一个人。
4.9 多图融合:明确取什么、放哪里、保持什么
多图融合的本质,是把多个输入图中的元素组合成一张可信图片。比如将第二张照片中的小狗放到第一张照片的场景中,紧挨着女生,位于她的右侧,并使用相同的光照、风格、构图和背景,不改变其他内容。
这类提示词必须回答三个问题。第一,移植什么,比如第二张图中的小狗。第二,放在哪里,比如放在女生右侧或左侧。第三,保持什么,比如保持第一张图的光照、构图、背景和人物不变。
多图融合失败,常常是因为模型自主调整了光照、透视或场景内容。你以为只是加一只狗,结果背景变了、人物变了、构图也变了。所以“不要改变任何其他东西”看似简单,实际上是非常重要的图片约束。
5. 高价值生产案例:把提示词变成商业工作流
5.1 室内对象替换:只替换单个元素,保留空间真实性
室内设计替换是非常高价值的应用场景。比如在真实厨房照片中,把白色椅子替换成木质椅子,用来预览家居搭配变化。这个任务的目标不是重新设计厨房,而是精准、真实地替换单个对象。
提示词中应该明确“只把白色椅子替换成木质椅子”,同时保持相机角度不变、室内光线不变、地板阴影不变、周围物体不变、照片真实感不变、空间纹理不变。
室内替换最怕模型顺手改墙面颜色、地板材质、灯光方向或家具布局。因此,“只替换什么”和“保留什么”必须反复写清楚。对这类任务来说,关键词不是“更好看”,而是“只”和“保持”。只有这样,生成图才更接近真实的设计预览,而不是重新装修了一遍。

5.2 立体贺卡:让纸张、折叠和光影更像真实拍摄
立体贺卡适合节日营销、印刷预览和品牌物料设计。它的重点不是简单生成一张卡片,而是让成品看起来像一个真实可拍摄的纸质物件。提示词要强调纸张层次、纤维质感、折叠结构、柔和光影和实体拍摄感。
比如可以先写完整场景,再写情绪,比如温暖、怀旧、轻柔、有节日感;然后写风格,比如高级假日卡片、精致纸艺、真实摄影;最后写约束,比如原创、无商标、无水印、无 Logo,并明确卡片上必须出现的文字。
这类提示词非常适合采用结构化写法。先说场景,再说情绪,再说风格,再说约束,每一部分都清楚展开。这样生成出来的卡片不只是“好看”,而是更像一个可以用于营销展示或印刷预览的实体设计。
5.3 动作人偶和包装:材质、包装和印刷清晰度都要写
动作人偶、玩具包装和产品陈列图,重点在于材质、包装结构、印刷清晰度和商业展示质感。比如生成一个复古风的玩具螺旋桨人物,可以要求塑料包装、高级玩具质感、工作室灯光、清晰印刷标签和高端零售陈列效果。
同时,约束也非常重要。提示词中应该写明原创设计、无商标、无水印、无 Logo,不模仿现有品牌或受版权保护的角色。包装上只包含指定文字,并要求文字清晰、准确、可读。
这类提示词适合做成格式化模板,包括概念、风格、约束和只包含的文字。它非常适合快速生成角色或包装变体。只要改一个配色、一个角色特征或一个产品名称,就能得到一组方向一致但细节不同的包装视觉。
5.4 儿童书角色锚定:先定义角色,再生成故事
儿童书、多页插画和连续角色故事,最重要的是角色一致性。角色一旦生成出来,后续页面不能每一页都变一个人。第一步要做的是锁定角色外观、比例、服饰和气质。
比如你可以定义一个年轻的故事书英雄,说明他的服装、靴子、腰包、表情、性格、善良气质、色彩风格和插画风格。这个提示词越详细,越像给模型建立一个角色设定参数。
角色锚定的作用,是让后续所有场景都能回到同一个锚点。你可以把角色、主题、风格和约束固定下来,再在不同页面中改变场景和动作。这样模型生成的内容才更容易保持连续性,而不是每一页都重新设计角色。
5.5 角色一致性延续:不要重新设计角色
当你已经有了一个角色,并希望它出现在新的场景中,就要明确告诉模型保持角色一致性。提示词可以写:相同的绿色连帽外衣,相同的面部特征和比例,相同的色彩调色板,相同的温柔型英雄人格。
最关键的一句话是:“不要重新设计角色。”这句话比很多描述都有效,因为它直接告诉模型角色已经定好了,现在只是把他放进新的故事场景中,而不是重新创造一个相似角色。
如果可以,把前面生成的角色图作为参考图,再加上角色描述词,效果会更稳定。角色一致性不是靠一句“保持一致”就能完成的,而是要同时使用图片参考、文字锚定和反向约束。
6. 把 Prompt 写成可复用的生产模板
6.1 从愿望描述升级为交付物描述
很多提示词失败,是因为它们只是愿望描述,比如“帮我生成一张高级感图片”“做一张好看的封面”“画一个科技风海报”。这类表达太模糊,模型只能自由发挥。
更好的方式是从交付物开始写。你要先告诉模型,你要的是融资详情页、手机界面、教学图、信息图、广告图、Logo、漫画分镜,还是电商产品图。不同交付物会触发不同的布局逻辑、文字逻辑和视觉组织方式。
对像素工坊的封面图来说,交付物可以写成“16:9 横版技术博客文章封面”。如果是教程图,可以写成“适合 WordPress 教程文章使用的步骤说明信息图”。交付物越明确,模型越知道应该如何安排主体和空间。

6.2 一个可复用提示词模板包含八个要素
一个成熟的生图提示词模板,可以浓缩成八个要素。第一是交付物,也就是你到底要生成什么。第二是受众,也就是谁会看这张图,是学生、客户、投资人,还是街头品牌的年轻消费者。第三是画布,也就是横版、竖版、手机框、海报尺寸或文章封面比例。
第四是文字,所有必须出现的文字都应该用引号逐一引用,尽量避免模型多字、漏字或改写。第五是层级,也就是画面中是否有标题、图表、三列说明、角标、留白和视觉主次。第六是视觉语言,比如白底、低饱和蓝灰、无装饰噪声、真实摄影、矢量扁平或课堂讲义风格。
第七是真实数据和真实内容。如果你要生成图表、PPT 或信息图,数据不要让模型猜,而应该直接写入提示词。第八是质量档位,当画面中有小字、图例、轴线、角标、密集标签时,一定要优先使用高档位,不要用低档模型去赌。
6.3 编辑任务的核心是变量、不变量和关键句
回到编辑任务,所有官方案例其实都在做同一件事:把可变项和不可变项分离,并在每一轮迭代中重新说明。
变量就是你允许模型改变的内容,比如翻译文字、替换衣服、移除花、改变天气、把小狗放到场景里。你要明确告诉模型,这一轮只允许它改什么。
不变量就是必须保持不变的内容,比如人脸、身形、姿态、Logo、产品标签、相机角度、背景几何、光影逻辑和产品材质。你不写不变量,模型就可能把它们当成可以自由调整的内容。
最后是关键句:“只改某某,不要改变任何其他元素。”这句话简单,但非常重要,尤其适合局部编辑、物品移除、产品替换和多图合成。很多时候,编辑成功与否就取决于你有没有把这句话写清楚。
7. 为什么 GPT Image 2 更适合进入生产流程
7.1 文字可控性,让广告、图表和 UI 更接近可交付
GPT Image 2 之所以更适合生产,不只是因为它更会画,而是因为它在文字可控性上更接近实际交付需求。广告牌、图表、UI 文案、信息图标签,都可以用引号形式要求模型精确呈现。
当然,这并不意味着文字永远完美。如果文字不准确,就要收紧布局和文案约束,减少无关文字,并在必要时提高质量档位。对于文章封面来说,如果文字不是必要元素,反而可以明确要求“不要出现大量文字”,让画面更干净。
7.2 身份可守性,让人像、试穿和人物入场更稳定
第二个关键能力是身份可守性。近景人像、虚拟试穿、人物插入场景,都可以通过输入图和提示词约束来保持人物身份。只要你明确写清楚面部特征、身形、姿态、发型、表情和比例不变,模型就不容易随便换脸。
这对商业图像尤其重要。服装试穿不能换人,团队照片不能变脸,故事角色不能每一页都换样子。身份稳定,才意味着这类功能有可能进入真实工作流。
7.3 结构可读性,让复杂视觉不再只靠运气
第三个能力是结构可读性。信息图、科学图、生产力图片和幻灯片图表,都可以写成有交付规格、有层级、有文字、有数据、有视觉语言的结构化指令。
模型真正理解的不是一句愿望,而是结构化输入。你越能说清楚先写什么、后写什么,标题在哪里,数据怎么放,光照如何处理,人物如何保持,模型输出就越接近你的规则。
真正的生产价值,不是让 AI “更会画”,而是让首轮结果更接近需求,减少人工审核、重跑和局部返工。更少的重试,才是真正的效率提升。
8. 最终原则:产物先行、约束清楚、小步迭代
8.1 产物先行:先说要生成什么,再说它长什么样
第一条原则是产物先行。你要先告诉模型要生成什么交付物,再描述它长什么样。广告图、信息图、教学图、Logo、UI 截图、幻灯片图表,各自都有不同的布局逻辑和精修逻辑。
比如“生成一张科技感图片”是模糊愿望,而“生成一张 16:9 横版技术博客封面,用于介绍 GPT Image 2 生图提示词工作流”就是交付物描述。后者会让模型更容易判断画面比例、视觉重点和内容氛围。
8.2 约束清楚:写清楚不要什么,尤其是在编辑任务中
第二条原则是约束清楚。很多人只写自己想要什么,却不写不要什么。生成任务中,不写不要什么,模型可能会加水印、加多余文字、加复杂背景;编辑任务中,不写不要什么,模型可能会把不该改的部分也改掉。
所以,尤其是在编辑任务中,“改什么”很重要,“不改什么”更重要。只替换椅子,不改变墙面、地板和光照;只换衣服,不改变脸、身材和姿态;只移除花,不改变人物和背景。约束越明确,输出质量越稳定。
8.3 小步迭代:不要让模型一次承担所有判断
第三条原则是小步迭代。不要让模型一次性完成所有判断。更稳妥的方式是先生成,再编辑,每一步只改变一个变量,每一轮都重申不变量。
比如要做一张产品广告图,可以先提取产品,再生成广告牌,再加入指定文案,再改变天气和光照。每一步都只做一件事,模型更容易执行准确,也更容易排查问题。
回头看整套方法,核心其实可以归纳为结构化输入、明确约束、小步迭代和每轮重申不变量。这不是一个单纯的提示词技巧,而是一整套从提示词到生产系统的工作方法。真正适合 GPT Image 2 的用法,不是把 AI 当成随机画图工具,而是把它纳入到可控、可复用、可迭代的图像生产流程里。

发表评论