GPT Image 2 生图提示词完整指南：从开盲盒到可复用的 AI 图片生产流程

ChatGPT Image 2 生图模型确实非常强大，近期像素工坊很多封面文章都用它做的，而我的用法也非常简单粗暴，通常是：结合上下文，给本文生成一幅 16:9 的文章封面，文字不要太多。大多数时候生成的封面都非常不错，但也有不少时候因为我提示词不够充分，生成的图不太符合我的想象。

现在 Adobe Creative Cloud Pro 计划里也已经包含了更多生成式 AI 能力，Adobe Firefly 也开始接入包括 OpenAI 在内的合作伙伴模型。也就是说，我们不一定只能在 ChatGPT 里使用这类图像模型，在 Adobe Firefly 这样的创作环境中，也可以把 GPT Image 2 这类模型纳入到更完整的图像生产流程里。

所以，问题其实不是“AI 会不会画图”，而是我们到底会不会把需求讲清楚。很多时候，我们觉得 AI 生图像开盲盒，并不是模型完全不可控，而是我们的提示词还停留在一句愿望、一句形容词，缺少交付物、画布、文字、层级、约束和迭代流程。本文就根据一个关于 GPT Image 2 生图提示词的视频字幕，系统整理出一套更适合实际生产的提示词写法。

1. AI 生图不只是写提示词，而是一套生产流程

你有没有这样一种感觉：现在的 AI 生图工具已经非常强了，但你用它做出来的东西，总是差那么一口气。图片看起来可能很精美，但细节里全是问题；也可能整体方向不错，却和你脑子里的画面完全不是一回事。更让人头疼的是，有时候只是改一句提示词，结果就像重新开了一次盲盒，同一句话扔进去三次，出来的效果都不一样。

这类问题并不罕见。它说明 AI 生图已经从“能不能生成”进入到“能不能稳定生成”的阶段。早期我们更关心模型能不能画出漂亮图片，现在更关心它能不能按照明确需求完成交付，能不能保留人物身份，能不能让文字可读，能不能保持产品标签不乱，能不能在修改一处内容时不顺手改掉整张图。

这次整理的核心，不是把提示词写得更玄学，也不是堆更多形容词，而是把 OpenAI 官方图像指导中关于 GPT Image 2 的思路，理解成一套 AI 图片生产流程。它不是只告诉你“怎么写一句 prompt”，而是让你明白什么时候应该从零生成，什么时候应该基于原图编辑，什么时候应该小步迭代，什么时候应该锁定变量和不变量。

视频中提到的案例被分成三个递进层次。第一个层次是生成，也就是从零开始建立一个完整画面，适用于信息图、Logo、广告、漫画、UI、教育图、幻灯片图表等场景。第二个层次是编辑，也就是在已有图片上动刀，重点是画清边界，分离可以改变的内容和必须保持不变的内容。第三个层次是更高价值的生产流程，适用于室内替换、立体贺卡、动作人偶、角色锚定和角色一致性延续等商业化场景。

理解这三个层次之后，我们就能明白：GPT Image 2 的正确用法，不是把所有愿望一次性塞进一句提示词里，而是先建立世界，再在世界里改东西，最后把这些操作沉淀成可复用的生产模板。

2. 写提示词之前，先理解模型档位和画布尺寸

2.1 质量档位不是审美选择，而是速度与精细度的取舍

在真正写提示词之前，首先要理解 GPT Image 2 的质量档位。它可以按低、中、高三个档位来理解。这里要强调的是，这三个档位不是审美选择，不是说低档就丑、高档就好看，而是在生成速度、吞吐效率和细节质量之间做取舍。

低档位最大的优势是快，适合批量生成、草图探索和方向初筛。如果你只是想快速看几个构图方向，或者对细节没有很高要求，就没有必要一上来就使用最高档。低档位更适合帮助你快速判断方向是否成立。
中档位则是质量和速度的平衡点，适合作为多数工作流的默认起点。当你还不确定最终图是否值得投入更高成本时，可以先用中档跑一轮，看看构图、风格、主体和画面逻辑是否接近预期。
高档位更适合最终图、细节密集图和对身份保持要求较高的任务。比如小字很多的信息图、近景人像、需要保留人物相貌的编辑、高分辨率输出、产品标签清晰度要求很高的广告图，都应该优先考虑高档位。简单来说，低档是快，中档是平衡，高档是更精细。不要一上来就盲目使用高档，而应该先从低到高做比较，再决定最终生成档位。

在 Firefly Web 中，也可以发现，用 Image 2 模型生成一张低质量的图片消耗的积分为 5 分，中档质量为 10 分，而最高质量消耗的积分则来到了夸张的 60 分！所以咱们在使用的时候要根据实际和需要来选择，且务必写好提示词。

2.2 尺寸本身就是交付物的一部分

很多人习惯先写提示词，再临时决定尺寸，这其实是一个常见错误。尺寸不是附属参数，它本身就是图片交付的一部分。你要做的是文章封面、竖版海报、移动端截图、PPT 图表，还是电商产品图，尺寸和比例会直接影响模型对构图、文字排布、主体大小和视觉层级的判断。

视频中提到，GPT Image 2 的尺寸存在一些硬性边界。例如最长边需要小于 3840 像素，两条边都应当是 16 的倍数，长短边比例也不能过于极端，一般不应超过 3:1。常见规格中，1024×1536 更适合竖版海报、信息图、漫画分镜和移动端 UI 截图；1536×1024 更适合横版图表、产品首页、广告横图和文章配图；2560×1440 则更接近 2K 宽屏，适合更精细的横版视觉输出。

对像素工坊这类网站来说，如果是文章封面，16:9 横版依然是非常实用的默认选择。但如果你要做教程图、软件界面说明图、信息图或者社交媒体海报，就应该先决定交付比例，再写提示词。否则模型可能会把本该清晰展示的文字挤在一起，也可能把主体放到不适合裁切的位置。

2.3 生成和编辑是两种完全不同的提示词逻辑

GPT Image 2 可以用于两类任务：一种是生成，一种是编辑。生成模式是从零开始文生图，你需要提供完整信息，让模型建立一个世界。编辑模式是基于已有图片进行修改，你不是重新生成一张图，而是在原图上动刀，因此最重要的是说清楚改什么，以及不改什么。

从零生成时，你要写清楚产物类型、受众、主体、构图、材质、文字、尺寸和质量档位。比如信息图要写清楚标签和流程，照片要用摄影语言锚定真实质感，Logo 和 UI 要强调简洁、可缩放、真实界面层级。

编辑图片时，提示词反而不一定越长越好。你需要先写清楚修改动作，再写清楚必须保持不变的内容。比如翻译信息图时，要说明“只翻译文字，版式不变”；虚拟试穿时，要说明“脸型、身材、姿态、发型、表情和身份不变，只替换服装”；人物合成时，要说明“将第二张图片中的主体放入第一张图片的场景中，并匹配光照、透视和构图”。

一句话概括，生成是建世界，编辑是画边界。理解这一点之后，很多提示词问题都会变得清晰。

3. 从零生成：如何让模型建立一个完整世界

3.1 信息图表：像给设计师下 Brief 一样写提示词

信息图的核心价值，是把结构化信息用视觉方式传达给特定受众。它不是一张单纯好看的图，而是一个可阅读、可理解、可交付的视觉说明。因此，写信息图提示词时，要像给设计师下 Brief 一样，说明内容是什么，结构是什么，标签有哪些，给谁看，最终希望读者理解什么。

以自动咖啡机信息图为例，提示词中要明确说明这是一张展示“功能和流程”的信息图。功能和流程这两个词非常关键，因为它们会引导模型把画面组织成结构化说明，而不是只画一台好看的咖啡机。你还需要列出斗仓、研磨器、电子秤、水箱、冲煮头等关键部件，并要求使用中文标签和箭头展示完整流程。

信息图最怕的就是文字糊成一团，所以只要画面里有密集文字、标签、箭头、流程线，就应该优先使用高档位生成。高档位不是为了让图更“艺术”，而是为了让小字、标签和结构更清晰。对教程类网站来说，这一点尤其重要，因为读者不是只看氛围，而是要读懂信息。

3.2 图像翻译：只改文字，不动版式

图像翻译属于编辑任务。假设你已经有一张中文信息图，现在希望把所有中文翻译成英文，关键不是重新设计整张图，而是保留原来的风格、位置、间距、层级、图表和图片，只替换文字内容。

这类提示词越清晰越好，不需要写很多复杂描述。你可以直接告诉模型：“将信息图中的所有文字翻译成英语，不改变图片的其他任何地方。”这句话看起来很简单，但它已经包含了编辑任务最重要的逻辑：做什么，以及不做什么。

很多人做图像翻译时效果不好，是因为提示词里只说了“翻译成英文”，没有说明版式、构图和视觉元素不变。模型就可能顺手重新设计图表，调整图标位置，甚至改变背景和元素风格。编辑任务中，简洁而明确的边界，往往比长篇形容词更有效。

3.3 真实照片：用摄影语言替代“超逼真”

想要生成可信的真实照片，不要只写“超逼真”“电影感”“高质量”这类空泛词。更好的方法，是像摄影师描述一张照片那样写提示词，用镜头、光线、构图、焦距、景深、材质和瑕疵去锚定真实质感。

比如生成一张水手照片，可以描述为 35mm 胶片照片、中景、视线高度、50mm 镜头、柔和冷光、浅景深、轻微胶片颗粒、自然白平衡。同时还要明确要求不要美化、不要重度修图、不要广告棚拍质感。

这些词不是为了堆砌，而是为了把视觉方向从“精修广告”拉回到“真实抓拍”。真实感往往来自细节的不完美，比如皮肤毛孔、衣服褶皱、器物磨损、环境瑕疵和自然光线。如果你的提示词只写“真实照片”，模型可能会生成一张过度干净、像棚拍广告一样的图；但如果你写清楚摄影语言，它更容易生成可信的现场感。

3.4 世界知识：给出精确时间地点，让模型调用背景知识

GPT Image 2 的一个有意思能力，是它可以利用世界知识推断画面背景。比如你要求生成 1969 年 8 月 16 日重庆解放碑的照片，模型可能会根据时间和地点推断出当时的时代背景、音乐节氛围、服装风格、舞台布景和人群状态。

//以上提示词生成的图片不能放在这里，不然我的网站可能噶啦，懂得都懂哦...

这意味着你不一定要在提示词里写一大段历史解析。很多时候，只要给出足够精确的时间、地点、产物类型和真实质感要求，模型就能补全大量背景信息。提示词可以很短，比如要求创建一张真实的户外人群照片，地点和时间明确，服装、舞台和环境都要符合时代背景。

当然，世界知识不是让你完全不写细节，而是让你把关键锚点写准。时间、地点、时代、场景类型这些信息，比“复古一点”“有年代感”这类模糊表达更有效。模型知道的东西比我们想象中多，但前提是你要给它正确的坐标。

3.5 Logo 生成：品牌约束越清楚，输出越可用

Logo 生成的核心原则是品牌约束。你不能只说“做一个好看的面包店 Logo”，而要告诉模型品牌名称、行业、性格、视觉形式和使用场景。比如一家面包店的品牌个性是温暖、简单、永恒，那么提示词就应该围绕这些关键词展开。

更具体地说，可以要求它生成干净的矢量风格 Logo，强轮廓，平衡负空间，跨尺寸可缩放，扁平设计，最少笔画，纯色背景，居中展示，无水印。每一个约束都对应一个可能出错的地方。你不说扁平设计，模型可能给你做渐变；你不说纯色背景，它可能把 Logo 放在复杂场景里；你不强调可缩放，小尺寸下可能就不可读。

Logo 这类任务还适合一次生成多个变体。比如设置生成四个版本，方便横向比较。因为 Logo 本身就需要筛选，模型不一定第一次就命中最佳方案，多变体可以提高选择效率。

为一个名为像素工坊（shephe.com）的摄影与图像后期学习平台创建一个原创、不侵权的标志。标志应体现数字影像、创意编辑与技术感，风格现代、克制且具有专业属性。使用干净的几何形状、清晰的轮廓和合理的负空间构建视觉识别，可适当融入像素、快门、画框或图层等元素进行抽象表达。优先保证结构简洁与识别度，避免复杂细节，使其在网站Logo、小图标与深浅背景下均清晰可辨。扁平化设计，控制颜色数量（建议2-3种主色），避免复杂渐变或纹理。纯色背景，居中展示单个标志，保留充足留白空间，无水印。 — 为一个名为像素工坊（shephe.com）的摄影与图像后期学习平台创建一个原创、不侵权的标志。标志应体现数字影像、创意编辑与技术感，风格现代、克制且具有专业属性。使用干净的几何形状、清晰的轮廓和合理的负空间构建视觉识别，可适当融入像素、快门、画框或图层等元素进行抽象表达。
优先保证结构简洁与识别度，避免复杂细节，使其在网站 Logo、小图标与深浅背景下均清晰可辨。扁平化设计，控制颜色数量（建议 2-3 种主色），避免复杂渐变或纹理。纯色背景，居中展示单个标志，保留充足留白空间，无水印。

3.6 广告生成：写创意简报，而不是只写技术规格

广告图是最能体现“创意 Brief”写法的场景之一。比如你要给一个年轻潮流的街头品牌做广告，提示词不应该只是“生成一张街头广告图”，而应该描述品牌名、受众、文化气质、画面人物、情绪状态、构图方向和必须出现的文案。

如果广告里有文字，必须把文案用引号明确标出，并要求模型精确引用一次、清晰易读、融入广告版面。同时还要说明不要额外文字、不要水印、不要无关 Logo。文字越重要，越不能让模型自由发挥。

广告生成的关键，是让模型在品牌边界内做品位驱动的创意决策。你负责给受众、文化概念、构图和确切文案，模型负责在这些约束中发挥创意。这样生成出来的广告，才不会只是漂亮，而是更接近一个真实品牌可以使用的视觉方向。

3.7 漫画生成：把故事拆成动作节奏

漫画生成的核心，是把叙事事件拆成清晰的视觉节奏。以四宫格宠物漫画为例，不能只写“宠物搞破坏”，而应该把每一格的动作和状态变化写清楚。第一格主人出门，第二格宠物独自占据沙发，第三格主人回来，第四格宠物假装什么都没发生。

每一格都应该围绕一个动作展开，而不是只写抽象情绪。比如“宠物像房子的主人一样瘫在沙发上，旁边有零食碎屑，阳光像聚光灯一样照进房间”，就比“宠物很调皮”更容易生成可读性强的画面。

漫画最怕节奏混乱、动作不清、角色关系不明。提示词越具体，越以动作和画面变化为中心，模型越容易生成节奏正确、故事清晰的漫画。对四宫格这类短叙事来说，提示词本质上就是分镜脚本。

3.8 UI 模型图：像描述已经上线的产品截图

UI 生成不能停留在“一个关于农场的 App 概念图”这种抽象表达。更好的写法，是像在描述一个已经上线、设计良好的真实产品截图。你要写清楚页面标题、功能区块、列表内容、分类标签、特价信息、地点、营业时间、字体层级和视觉风格。

比如生成一个农贸市场 App，可以要求页面标题为“今天集市”，包含摊主列表、分类标签、今日特价、地点和营业时间，使用自然低调的强调色、清晰字体、少量装饰，整体看起来像一个真实、漂亮、设计良好的本地市场 App，并放在 iPhone 边框里展示。

这种写法能避免模型生成过于概念化的 UI。真实产品截图一定有信息层级，有导航，有内容模块，有可读文字，有留白和交互暗示。你描述得越像一个真实产品，模型越容易生成接近上线界面的结果。

3.9 科学和教育视觉：先定义受众和课程目标

科学教育类图像不能只追求好看，它首先要准确、清晰、适合教学。写这类提示词时，要先定义受众和课程目标。比如你要生成一张面向高中生的细胞呼吸图解，就应该说明这是给高中生课堂使用的讲义或幻灯片，展示哪些过程，标注哪些关键结构，信息密度控制在什么范围内。

提示词中还应该要求干净的课堂讲义风格，标签清晰，避免小字过多、装饰过多或生成难以理解的复杂画面。教育图最重要的是可读性和科学约束，而不是视觉冲击力。

当图表复杂、标签多、需要放进课程材料时，也应该优先使用高档位。低档或中档可能在整体构图上看起来不错，但小字、箭头、标签和结构更容易崩坏。教育视觉一旦文字错误或结构错误，就会直接影响内容可信度。

3.10 幻灯片图表：像写工具说明一样规范

幻灯片图表和普通图片不一样，它更接近生产力视觉。你不是在说“帮我做一个市场机会的幻灯片”，而是要像写工具说明一样，把标题、数据、图表结构、图例、角标、Logo 占位、字体、背景和层级都写清楚。

比如一个融资演示页，可以明确写出标题是什么，同心圆里展示哪些数字，2021 年到 2026 年的柱状图如何呈现，角标里出现哪些术语，左下角是否有 Logo 占位，整体采用白色背景、低饱和色系、清晰字体和精细间距。还要要求它像真正融资成功的 PPT 页面一样，文字高度可读，数据分层清楚，避免贴纸感、图库摄影感、渐变阴影和过度装饰。

这类提示词最关键的是交付物、画布层级、真实文本、真实数据和视觉语言。你要把它当成一页可以被汇报的幻灯片，而不是一张“像 PPT 的图”。这样生成结果才会更接近生产可用的视觉稿。

4. 基于原图编辑：关键不是生成，而是画边界

4.1 风格迁移：保留视觉语言，替换主体或场景

风格迁移的目标，是保留参考图的视觉语言，同时改变主体或场景。它不需要你详细解释参考图的风格具体是什么，因为模型可以从输入图里推断出线条、色彩、材质、构图和整体氛围。

比如你可以输入一张参考图，然后提示：“使用输入图的相同风格，生成一个骑摩托的男人，背景为白色。”这个提示词很短，但非常有效，因为它只做了两件事：保持相同风格，替换成新的主体。

风格迁移不需要长篇解释“什么叫相同风格”。只要参考图足够明确，模型就能理解。你真正需要说清楚的是新内容是什么，以及是否要保留背景、构图或其他元素。

4.2 虚拟换衣：先锁死身份，再开放服装变量

虚拟试穿最容易出问题的地方，是人物身份被改掉。很多人上传真人图和服装图后，生成结果脸变了、身材变了、姿态变了、衣服质感也变了，本质原因通常是没有先锁定不变量。

这类提示词应该先明确：“不要以任何形式改变人物的脸、面部特征、身体形状、姿势、发型、表情和身份，保留准确的相貌、比例和姿态。”然后再开放唯一变量：“只替换服装，让衣服自然贴合当前姿态和身体几何，并具有真实布料行为。”

如果服装本身有垂坠感、皮革质感、针织纹理或靴子材质，也要在提示词里说明保持真实材质表现。同时还要要求匹配原始照片的光影、阴影和色温。虚拟换衣的逻辑是，先锁死全部内容，再开放一个变量。锁得越清楚，模型执行得越准。

4.3 草图渲染：保留布局、比例和透视

草图渲染的目标，是把草图变成更真实的照片级画面，但不能让模型重新设计草图。提示词中必须强调保留原有布局、比例和透视，然后通过材料、光照和环境增加真实度。

比如可以要求模型将草图转换成照片级真实图片，保留准确的部位、比例和透视，选择与草图一致的真实材料和光照，不添加额外新元素或文字。

这里最重要的是禁止模型自作主张。模型有时会重新理解草图，并添加它认为更好看的元素，比如多画一个装饰、改一个结构、加一些文字或道具。因此，“不要添加额外新元素或文字”不是多余的话，而是非常关键的边界约束。

4.4 产品提取：边缘质量和标签完整性最重要

产品抠图或产品提取是非常实用的商业场景。比如一瓶洗发水、一件包装商品、一台设备，你希望把它从原图中提取出来，放到干净背景上，用于电商、广告或详情页。

这类任务的关键有两个：边缘质量和标签完整性。提示词应该要求提取产品，并放在纯白、不透明背景上，轮廓清晰，没有光晕或边缘毛刺，准确保留几何形状和标签可读性，只做轻度润色，并添加细微真实的接触阴影，不重新设计产品风格。

这里有一个实用建议：生成阶段可以优先使用不透明纯白背景，而不是直接要求透明背景。如果后续确实需要透明 PNG，可以再用专业工具或图像软件移除背景。因为在生图阶段直接追求透明，有时反而会影响边缘稳定性和产品真实感。

4.5 图中文字营销：文案必须逐字引用

在广告图或产品图里加入营销文案时，核心是文案引用。你希望出现的文字，必须用引号明确标出来，并要求逐字呈现，不增加额外字符，不重复出现，清晰可读。

比如你想把产品放在广告牌上，就应该说明广告文字必须和指定内容完全一致，逐字呈现，不出现额外内容。排版可以要求粗体无衬线、高对比度、居中、字体干净，并保证文字只出现一次且完全清晰可读。

GPT Image 2 在图中文字可控性上有明显进步，但它仍然需要明确约束。如果文字不准确，就应该进一步收紧布局和文案要求，减少模型自由发挥的空间。文字越明确，模型越不容易自行改写。

4.6 光照和天气变化：每次只改变一个变量

改变光照和天气时，不需要重新生成整张图。你可以只要求改变光照方向、阴影氛围、降水状态、地面湿度和环境色温，同时保留主体身份、几何结构、相机角度和物品摆放位置。

比如在已经生成好的广告牌图上，可以继续要求：“让它看起来像一个有降水的冬季傍晚。”如果前一步已经锁定了广告牌主体、产品位置和整体构图，那么这一步只需要改变天气氛围即可。

这体现了分步编辑的优势。不要试图一口气生成最终广告牌、产品、文案、场景、天气和光照。更稳妥的方式是先生成基础画面，再逐步编辑，每一步只改变一个变量。变量越少，结果越稳定。

4.7 移除物品：说明移除什么，并强调其他都不变

局部移除是编辑模式中非常适合使用极简提示词的场景。比如你想移除男主手中的花，提示词可以直接写：“移除男人手中的花，不改变任何其他元素。”

这类任务之所以可以简短，是因为图片本身已经提供了大量上下文。模型知道人物是谁，知道手在哪里，知道背景是什么。你不需要重新描述整张图，只需要告诉它移除什么，以及不要改变什么。

“不要改变任何其他元素”这句话非常重要。没有这句话，模型可能顺手调整人物表情、衣服、背景光线或手部姿态。局部编辑的核心不是描述全图，而是精准指出动作和边界。

4.8 人物插入场景：用摄影语言说清真实，用反向约束避免电影感

人物插入场景是比较复杂的编辑任务，适合故事板、营销活动和视觉创意。比如把一个人物放进正在逃离大型棕熊袭击营地的场景中，就需要同时处理人物身份、动作状态、场景细节、光照匹配和真实感。

这类提示词可以从四个方向写。第一，用真实摄影语言锚定质感，比如“像某人真实拍下的照片”，而不是过度电影化海报。第二，锁住主体身份和关键细节，比如脸上有泥、衣服破损、表情恐惧但专注于逃离。第三，说明场景细节，比如国家公园、黄昏、自然光影、真实色彩。第四，加入反向约束，比如避免电影光、戏剧化构图和过度风格化。

人物场景合成的秘诀是，用摄影语言说清真实，用反向约束说清不要电影感，用身份锚定说清这是同一个人。这样模型才不会把故事画成海报，也不会把人物画成另一个人。

4.9 多图融合：明确取什么、放哪里、保持什么

多图融合的本质，是把多个输入图中的元素组合成一张可信图片。比如将第二张照片中的小狗放到第一张照片的场景中，紧挨着女生，位于她的右侧，并使用相同的光照、风格、构图和背景，不改变其他内容。

这类提示词必须回答三个问题。第一，移植什么，比如第二张图中的小狗。第二，放在哪里，比如放在女生右侧或左侧。第三，保持什么，比如保持第一张图的光照、构图、背景和人物不变。

多图融合失败，常常是因为模型自主调整了光照、透视或场景内容。你以为只是加一只狗，结果背景变了、人物变了、构图也变了。所以“不要改变任何其他东西”看似简单，实际上是非常重要的图片约束。

5. 高价值生产案例：把提示词变成商业工作流

5.1 室内对象替换：只替换单个元素，保留空间真实性

室内设计替换是非常高价值的应用场景。比如在真实厨房照片中，把白色椅子替换成木质椅子，用来预览家居搭配变化。这个任务的目标不是重新设计厨房，而是精准、真实地替换单个对象。

提示词中应该明确“只把白色椅子替换成木质椅子”，同时保持相机角度不变、室内光线不变、地板阴影不变、周围物体不变、照片真实感不变、空间纹理不变。

室内替换最怕模型顺手改墙面颜色、地板材质、灯光方向或家具布局。因此，“只替换什么”和“保留什么”必须反复写清楚。对这类任务来说，关键词不是“更好看”，而是“只”和“保持”。只有这样，生成图才更接近真实的设计预览，而不是重新装修了一遍。

5.2 立体贺卡：让纸张、折叠和光影更像真实拍摄

立体贺卡适合节日营销、印刷预览和品牌物料设计。它的重点不是简单生成一张卡片，而是让成品看起来像一个真实可拍摄的纸质物件。提示词要强调纸张层次、纤维质感、折叠结构、柔和光影和实体拍摄感。

比如可以先写完整场景，再写情绪，比如温暖、怀旧、轻柔、有节日感；然后写风格，比如高级假日卡片、精致纸艺、真实摄影；最后写约束，比如原创、无商标、无水印、无 Logo，并明确卡片上必须出现的文字。

这类提示词非常适合采用结构化写法。先说场景，再说情绪，再说风格，再说约束，每一部分都清楚展开。这样生成出来的卡片不只是“好看”，而是更像一个可以用于营销展示或印刷预览的实体设计。

5.3 动作人偶和包装：材质、包装和印刷清晰度都要写

动作人偶、玩具包装和产品陈列图，重点在于材质、包装结构、印刷清晰度和商业展示质感。比如生成一个复古风的玩具螺旋桨人物，可以要求塑料包装、高级玩具质感、工作室灯光、清晰印刷标签和高端零售陈列效果。

同时，约束也非常重要。提示词中应该写明原创设计、无商标、无水印、无 Logo，不模仿现有品牌或受版权保护的角色。包装上只包含指定文字，并要求文字清晰、准确、可读。

这类提示词适合做成格式化模板，包括概念、风格、约束和只包含的文字。它非常适合快速生成角色或包装变体。只要改一个配色、一个角色特征或一个产品名称，就能得到一组方向一致但细节不同的包装视觉。

5.4 儿童书角色锚定：先定义角色，再生成故事

儿童书、多页插画和连续角色故事，最重要的是角色一致性。角色一旦生成出来，后续页面不能每一页都变一个人。第一步要做的是锁定角色外观、比例、服饰和气质。

比如你可以定义一个年轻的故事书英雄，说明他的服装、靴子、腰包、表情、性格、善良气质、色彩风格和插画风格。这个提示词越详细，越像给模型建立一个角色设定参数。

角色锚定的作用，是让后续所有场景都能回到同一个锚点。你可以把角色、主题、风格和约束固定下来，再在不同页面中改变场景和动作。这样模型生成的内容才更容易保持连续性，而不是每一页都重新设计角色。

5.5 角色一致性延续：不要重新设计角色

当你已经有了一个角色，并希望它出现在新的场景中，就要明确告诉模型保持角色一致性。提示词可以写：相同的绿色连帽外衣，相同的面部特征和比例，相同的色彩调色板，相同的温柔型英雄人格。

最关键的一句话是：“不要重新设计角色。”这句话比很多描述都有效，因为它直接告诉模型角色已经定好了，现在只是把他放进新的故事场景中，而不是重新创造一个相似角色。

如果可以，把前面生成的角色图作为参考图，再加上角色描述词，效果会更稳定。角色一致性不是靠一句“保持一致”就能完成的，而是要同时使用图片参考、文字锚定和反向约束。

6. 把 Prompt 写成可复用的生产模板

6.1 从愿望描述升级为交付物描述

很多提示词失败，是因为它们只是愿望描述，比如“帮我生成一张高级感图片”“做一张好看的封面”“画一个科技风海报”。这类表达太模糊，模型只能自由发挥。

更好的方式是从交付物开始写。你要先告诉模型，你要的是融资详情页、手机界面、教学图、信息图、广告图、Logo、漫画分镜，还是电商产品图。不同交付物会触发不同的布局逻辑、文字逻辑和视觉组织方式。

对像素工坊的封面图来说，交付物可以写成“16:9 横版技术博客文章封面”。如果是教程图，可以写成“适合 WordPress 教程文章使用的步骤说明信息图”。交付物越明确，模型越知道应该如何安排主体和空间。

6.2 一个可复用提示词模板包含八个要素

一个成熟的生图提示词模板，可以浓缩成八个要素。第一是交付物，也就是你到底要生成什么。第二是受众，也就是谁会看这张图，是学生、客户、投资人，还是街头品牌的年轻消费者。第三是画布，也就是横版、竖版、手机框、海报尺寸或文章封面比例。

第四是文字，所有必须出现的文字都应该用引号逐一引用，尽量避免模型多字、漏字或改写。第五是层级，也就是画面中是否有标题、图表、三列说明、角标、留白和视觉主次。第六是视觉语言，比如白底、低饱和蓝灰、无装饰噪声、真实摄影、矢量扁平或课堂讲义风格。

第七是真实数据和真实内容。如果你要生成图表、PPT 或信息图，数据不要让模型猜，而应该直接写入提示词。第八是质量档位，当画面中有小字、图例、轴线、角标、密集标签时，一定要优先使用高档位，不要用低档模型去赌。

6.3 编辑任务的核心是变量、不变量和关键句

回到编辑任务，所有官方案例其实都在做同一件事：把可变项和不可变项分离，并在每一轮迭代中重新说明。

变量就是你允许模型改变的内容，比如翻译文字、替换衣服、移除花、改变天气、把小狗放到场景里。你要明确告诉模型，这一轮只允许它改什么。

不变量就是必须保持不变的内容，比如人脸、身形、姿态、Logo、产品标签、相机角度、背景几何、光影逻辑和产品材质。你不写不变量，模型就可能把它们当成可以自由调整的内容。

最后是关键句：“只改某某，不要改变任何其他元素。”这句话简单，但非常重要，尤其适合局部编辑、物品移除、产品替换和多图合成。很多时候，编辑成功与否就取决于你有没有把这句话写清楚。

7. 为什么 GPT Image 2 更适合进入生产流程

7.1 文字可控性，让广告、图表和 UI 更接近可交付

GPT Image 2 之所以更适合生产，不只是因为它更会画，而是因为它在文字可控性上更接近实际交付需求。广告牌、图表、UI 文案、信息图标签，都可以用引号形式要求模型精确呈现。

当然，这并不意味着文字永远完美。如果文字不准确，就要收紧布局和文案约束，减少无关文字，并在必要时提高质量档位。对于文章封面来说，如果文字不是必要元素，反而可以明确要求“不要出现大量文字”，让画面更干净。

7.2 身份可守性，让人像、试穿和人物入场更稳定

第二个关键能力是身份可守性。近景人像、虚拟试穿、人物插入场景，都可以通过输入图和提示词约束来保持人物身份。只要你明确写清楚面部特征、身形、姿态、发型、表情和比例不变，模型就不容易随便换脸。

这对商业图像尤其重要。服装试穿不能换人，团队照片不能变脸，故事角色不能每一页都换样子。身份稳定，才意味着这类功能有可能进入真实工作流。

7.3 结构可读性，让复杂视觉不再只靠运气

第三个能力是结构可读性。信息图、科学图、生产力图片和幻灯片图表，都可以写成有交付规格、有层级、有文字、有数据、有视觉语言的结构化指令。

模型真正理解的不是一句愿望，而是结构化输入。你越能说清楚先写什么、后写什么，标题在哪里，数据怎么放，光照如何处理，人物如何保持，模型输出就越接近你的规则。

真正的生产价值，不是让 AI “更会画”，而是让首轮结果更接近需求，减少人工审核、重跑和局部返工。更少的重试，才是真正的效率提升。

8. 最终原则：产物先行、约束清楚、小步迭代

8.1 产物先行：先说要生成什么，再说它长什么样

第一条原则是产物先行。你要先告诉模型要生成什么交付物，再描述它长什么样。广告图、信息图、教学图、Logo、UI 截图、幻灯片图表，各自都有不同的布局逻辑和精修逻辑。

比如“生成一张科技感图片”是模糊愿望，而“生成一张 16:9 横版技术博客封面，用于介绍 GPT Image 2 生图提示词工作流”就是交付物描述。后者会让模型更容易判断画面比例、视觉重点和内容氛围。

8.2 约束清楚：写清楚不要什么，尤其是在编辑任务中

第二条原则是约束清楚。很多人只写自己想要什么，却不写不要什么。生成任务中，不写不要什么，模型可能会加水印、加多余文字、加复杂背景；编辑任务中，不写不要什么，模型可能会把不该改的部分也改掉。

所以，尤其是在编辑任务中，“改什么”很重要，“不改什么”更重要。只替换椅子，不改变墙面、地板和光照；只换衣服，不改变脸、身材和姿态；只移除花，不改变人物和背景。约束越明确，输出质量越稳定。

8.3 小步迭代：不要让模型一次承担所有判断

第三条原则是小步迭代。不要让模型一次性完成所有判断。更稳妥的方式是先生成，再编辑，每一步只改变一个变量，每一轮都重申不变量。

比如要做一张产品广告图，可以先提取产品，再生成广告牌，再加入指定文案，再改变天气和光照。每一步都只做一件事，模型更容易执行准确，也更容易排查问题。

回头看整套方法，核心其实可以归纳为结构化输入、明确约束、小步迭代和每轮重申不变量。这不是一个单纯的提示词技巧，而是一整套从提示词到生产系统的工作方法。真正适合 GPT Image 2 的用法，不是把 AI 当成随机画图工具，而是把它纳入到可控、可复用、可迭代的图像生产流程里。

https://www.shephe.com/wp-content/uploads/2026/06/生图流.webp 1536 1024 像素工坊像素工坊 https://www.shephe.com/wp-content/uploads/2026/06/生图流.webp 06/07/2026 06/26/2026

GPT Image 2 生图提示词完整指南：从开盲盒到可复用的 AI 图片生产流程