2026-04-24 21:15:13 ·

GPT Image 2 的 5 张参考图怎么用才不乱：6 种组合方式 + 3 个常见翻车模式

GPT Image 2 最被低估的能力其实不是单图质量，而是一次性吃 5 张参考图。但很多人传完 5 张发现出来的图”像被几张图互相拉扯的混合体”，问题不在模型，在参考图怎么组合。我们在图叮AI 上跑了几百轮参考图实验（截至 2026-04），把 5 张参考图的用法整理成 6 种稳定组合 + 3 种常见翻车模式，看完应该能直接对号入座，少走 2-3 轮试错。

设计师桌面俯拍，5 张印刷出来的商品样图呈扇形展开，周围散落设计笔和咖啡杯 图注：5 张参考图不是堆量，是让每一张承担一个明确的视觉责任

先讲清楚”5 张参考图”的底层逻辑

截至 2026-04，GPT Image 2 在图叮AI 上单次请求最多支持 5 张参考图。模型对每张参考图的处理不是”平均融合”，而是从里面抽取视觉特征：风格（光比、色调、胶片感）、元素（具体物件、模特、材质）、构图（主体位置、留白）、色彩（主色+辅色）。你传的图越是目的明确，模型就越容易做出对应加权；相反，如果 5 张图各说各的，模型只能做”平均主义”，结果就是每一张都像又都不像。

这件事换个说法：5 张参考图不是堆量，是让每一张承担一个明确的视觉责任。下面 6 种组合方式，每一种都围绕一个主意图设计，副图为主图服务。

选参考图和写 prompt 是互相咬合的——参考图锁视觉，prompt 锁逻辑。两者任何一个偷懒都会翻车。如果对 GPT Image 2 的基础能力边界还不熟，先读 GPT Image 2 能做什么做不到什么再回来看组合方式。

组合 1：风格保持型（1 张风格基准 + 4 张同风格细节参考）

适用场景

你手上有一组已经出得很稳定的老图（自己之前的作品、买的摄影师成片），想让新商品也走这套风格。最典型的就是电商店铺要求的”视觉统一”——新 SKU 上架要和老 SKU 看起来是一家店。

参考图组成

图 1（风格基准）：一张完全表达目标风格的完整作品，光线、色调、背景、构图都定了调
图 2-5（风格细节）：4 张同风格下的不同画面，补充模型对”这个风格在多种场景里是什么样”的理解

这里的 4 张细节图不要选和图 1 差别太大的。比如图 1 是深色调冷光产品图，图 2-5 别混进暖色客厅氛围图——那是另一种风格了。

prompt 配合建议

新商品主体描述（材质、形状、颜色）+ 要求"严格遵循参考图 1 的光线方向、背景色调、胶片颗粒感；参考图 2-5 补充风格细节"+ 明确比例和构图。

一个常见细节是在 prompt 末尾加一句”风格一致性优先，禁止创新风格”——这类明确的负向约束能显著降低模型”自作主张”的概率。

常见注意点

图 1 尽量选同类目的作品（都是美妆 / 都是 3C），跨类目参考风格经常漂
4 张细节图里如果有一张特别”跳”（比一组的其他图亮度高 20%），模型会被带偏
色调 LUT 一致（都是冷调 / 都是暖调），别冷暖混放

组合 2：元素拼接型（1 张商品底图 + 1-2 张场景参考 + 1-2 张模特参考）

适用场景

你有一张商品原图（白底或实拍），想把它”放到”某个场景里，可能还要加人物（模特手持、模特上身）。传统 PS 合成这种活要抠图+调色+打光好几小时，用参考图组合可以让模型一次性生成融合稿，图叮AI 站内的 GPT Image 2 + PS 精修 3 种工作流把这种流程后续怎么接 PS 讲得更细。

参考图组成

图 1（商品底图）：商品本体，要求角度、材质、标签都清晰
图 2-3（场景参考）：目标场景的 1-2 张图，交代背景、光线、氛围
图 4-5（模特参考，可选）：模特的脸部、身材、穿搭参考，1 张主图 + 1 张补图即可

4-5 张填不满就别硬填。拼接型场景里 3 张（商品+场景+模特）常常够用，多塞反而稀释了每张图的权重。

prompt 配合建议

把参考图 1 的商品放到参考图 2 的场景中；光线方向参照参考图 2 的侧光；场景中站立一位参考图 4 的模特，手持商品；保持参考图 1 商品的外形、标签、材质不变，只重建光线和背景；比例 3:2。

关键词是”保持…不变，只重建…”——明确告诉模型哪些属性是锁死的，哪些是可以重新计算的。省掉这一步模型可能把你的商品重绘一遍。

常见注意点

商品底图的光线方向和场景参考冲突（商品图是顶光、场景图是侧光），出图时商品阴影方向对不上
模特肤色和场景色调差距太大（如模特是强暖光肤色、场景是冷色调工业风），合成感明显
商品和模特尺寸比例要提前对齐（拿个 500ml 保温杯的底图，别配半身近景模特——手会画得怪）

组合 3：多角度一致性型（2-3 张不同角度的同商品参考）

3 瓶相同的美妆精华瓶从正面、45 度、侧面 3 个角度摆在白色亚克力板上 图注：多角度参考让模型理解”这是同一件物品”，而不是 3 件外观相似的东西

适用场景

详情页需要同一件商品的多张不同角度图（正面 / 45 度 / 侧面 / 背面 / 顶视），或者”这个商品摆在不同场景”的系列图。难点是无论角度怎么变，商品本身（形状、比例、标签、材质）要保持一致——一旦模型把标签位置挪了或者瓶盖改了形状，整组图就废。

参考图组成

图 1-3（同商品不同角度）：正面、45 度、侧面 3 张已有照片
图 4-5（可选，场景或构图补充）：如果要在新场景出图再加 1-2 张场景参考

2-3 张同商品角度图是刚性组合，模型靠这几张三角定位商品的立体结构。少于 2 张角度信息不足，多于 3 张则噪声累积。

prompt 配合建议

参考图 1-3 是同一件商品的 3 个不同角度。生成这件商品的新角度图：俯视 45 度（主视图 + 10 度倾斜）；保持商品形状、比例、标签位置、材质均与参考图完全一致；纯白背景，顶光柔光箱；比例 1:1。

可以直接让它出新角度（俯视、仰视），或者要求它把商品放到新场景里保持一致性。后者更难，需要 prompt 额外强化”商品外观不变”的约束。

常见注意点

3 张角度图最好是同一组棚拍作品，别混拼（网图 + 自拍 + 设计稿 3 种画质，模型识别不稳）
标签特别复杂的商品（比如多行文字的酒瓶），模型几乎必然把文字画糊或错位——涉及 logo / 文字的合成建议先出图再用 PS 贴原标签
透明 / 半透明材质（玻璃、亚克力）从不同角度看折射完全不同，3 张参考还是容易出诡异折射，关键帧建议走 PS 精修

组合 4：构图锁定型（1 张构图骨架参考 + 3-4 张风格补充）

适用场景

你已经有一个明确的构图想法（主体在画面左下、右上留白给文字、地平线在画面下 1/3 处），想让模型严格按这个构图出图，但风格另外指定。常见于 banner、海报、品牌画册，这些场景里构图是硬约束、风格是软约束。

参考图组成

图 1（构图骨架）：一张已有的图，构图是你要的，风格无所谓（可以是别人家的、可以是手绘线稿）
图 2-5（风格补充）：4 张目标风格的参考图，交代色调、光比、材质质感

图 1 作为构图主图要权重拉满，prompt 里要明确”构图与参考图 1 一致”。

prompt 配合建议

构图严格按参考图 1（主体位于画面左下 1/3，地平线在画面下 1/4，右上大面积留白）；风格、光线、色调参考图 2-5（冷色调低饱和、左侧 30 度窄光柱、胶片颗粒感）；新主体：一瓶磨砂黑色香水瓶；比例 3:2。

构图描述越具体越好。别只说”参考图 1 的构图”，把”主体在哪 / 地平线在哪 / 留白在哪”这几个关键参数用数值写出来，模型才能稳定复现。

常见注意点

图 1 如果本身构图一般（主体居中、满格构图），锁定也没意义——挑构图真正有讲究的图
风格补充图里如果有一张构图也很抢，可能反过来干扰图 1 的构图锁定
海报类场景要记得写”留白处不生成任何文字或元素”，不然模型会往留白区域塞东西

组合 5：SKU 家族一致性型（4-5 张同系列商品参考）

适用场景

你在做一个 SKU 家族的视觉集——同一品牌下的 5-8 款相似产品（同一系列的香水 5 瓶、同一套餐具 6 件、同色系的 4 双鞋）。目标是让这组图看起来像”一家人”——同一个摄影师、同一个棚、同一个光线。

参考图组成

图 1-4 或 1-5（同系列已出图）：这个系列里已经出稳定的 4-5 张图，作为”家族基因”提供给模型
无单独场景参考：场景在这些已出图里已经交代了

这是几乎唯一一种值得把 5 张槽位填满的组合方式，因为同系列的一致性需要大样本——其他组合里 3 张够用就别硬凑。如果你还没决定要用 GPT Image 2 还是 Nano Banana Pro 做 SKU 家族，可以先看这两个模型的选型判断。

prompt 配合建议

参考图 1-5 是同一 SKU 家族的已有作品。生成这个家族的新成员图：新商品是 [具体描述]；严格遵循参考图的背景（纯白）、光线（顶光+左侧 30 度补光）、构图（商品居中偏左 1/3）、色调；比例 1:1。

这种场景下 prompt 可以写得偏简短，因为大部分视觉参数靠参考图传递。重点放在”新商品本身”的描述上——新商品的形状、材质、颜色、标签，这些模型从参考图里看不到。

常见注意点

4-5 张同系列图尽量都是稳定出过的（或真实拍摄的），别混进”看起来有点像但其实差很多”的图
如果家族里已经出了 10 张图，挑 5 张时优先选”中位数”——太极端的一张会把家族基因带偏
品牌标识（logo、标签、特有瓶型）建议在 prompt 里再强调一次，参考图只能传递视觉，文字信息还是靠 prompt

组合 6：色彩锁定型（1 张色彩基准 + 4 张内容补充）

适用场景

你对这张图的色彩有明确要求（品牌主色是特定的蓝、季度色彩计划规定了莫兰迪色系、节日活动要求暖红+金），但内容、构图、风格可以灵活。色彩锁定型在品牌方做视觉时特别常见。

参考图组成

图 1（色彩基准）：一张色彩完全符合要求的图，可以是品牌调色板样图、一张色卡、一张色调符合的作品
图 2-5（内容补充）：4 张内容参考（商品、场景、构图、风格），色彩暂时不用管

一个特殊用法：图 1 可以是纯色块或色卡图——模型确实会把色卡的颜色提取出来作为主色调。但前提是 prompt 要讲清楚这张图是”色彩参考不是内容参考”。

prompt 配合建议

严格采用参考图 1 的色调（主色：深蓝，辅色：暖橙，调性偏低饱和胶片感）；构图、商品、场景参考图 2-5；主体：一瓶香水放在木质桌面上，侧光；比例 3:2。

“严格采用参考图 1 的色调”这句要写得明确。如果图 1 是实物参考图（不是色卡），还可以加一句”只取参考图 1 的色调，不取其中的物体/构图”。

常见注意点

色彩基准图最好是”纯色彩参考”而不是”又色彩又构图”——后者很容易模型把构图也带过来
品牌主色如果是非常特殊的色号（比如 Tiffany 蓝 RGB 0x81D8D0），光靠参考图通常还原不到位，最后一步色彩校准建议在 PS 里做
低饱和色调容易被模型”还原饱和”——在 prompt 明确”保持低饱和，禁止提高色彩饱和度”

翻车模式 1：参考图风格互相冲突

左中右三联图，同一瓶威士忌从白底商品图到老式书房场景再到融合成品 图注：参考图之间的视觉语言要自洽，风格错配的图传给模型等于同时要求写实和卡通

现象

传了 5 张参考图，出来的图看起来既不像 A 风格也不像 B 风格。常见在”一股脑把自己觉得好看的图都扔进去”的用法里。

典型案例

图 1 是冷色调深色商业摄影，图 2 是暖色调小清新生活照——模型不知道该往冷还是暖
图 1 是胶片颗粒感复古风，图 2 是高清数码感现代风——颗粒质感互相打架
图 1 是极简负空间构图，图 2-3 是满格丰富元素构图——构图密度两个极端

为什么会这样

模型默认假设你的参考图共享同一个视觉目标。当图与图之间信号矛盾时，模型会”求平均”——折中出的图经常两边都不像。这和写 prompt 里风格关键词冲突是一回事，只是发生在参考图层面。

修正方法

传图之前先自己问一遍：这 5 张图加在一起是”一种风格”还是”5 种风格”。如果是后者，挑一种作为主风格，其他删掉。宁可只用 2-3 张对齐的图，也不要用 5 张打架的图。

翻车模式 2：主体参考图尺寸反差过大

现象

你想要的效果是”把商品 A 放到场景 B 里”，但出来的图要么商品被缩得像玩具，要么商品占了大半画面把场景吃掉。更严重时模型把你的商品画成了”两种相似的东西”——比如参考了两张尺寸反差过大的同类商品图，输出的图里商品变成了缝合体。

典型案例

商品参考图 1 是特写（商品占 80% 画幅），场景参考图 2 是广角（场景占 95%）——模型不知道最终商品该占画面多少比例
给了两张同一类商品的参考（比如两瓶香水，一瓶 30ml 一瓶 100ml），模型把两个尺寸特征平均了，出来的瓶子比例怪异
商品在参考图 1 里是斜放，在参考图 2 里是直立——模型出图时姿态纠结

为什么会这样

模型从参考图抽取的不只是”商品长什么样”，还包括”商品在画面里有多大 / 什么姿态”。尺寸反差过大的参考图会让模型在”商品尺寸”这个维度上无所适从。

修正方法

主体参考图尽量选”和你想要的最终画面主体占比接近”的图。想要商品占画面 1/3，别传一张占 95% 画幅的微距图
同一件商品的多张参考（组合 3），尽量保持商品在各图里的占比一致（都是 1/3 或都是 1/2）
姿态不一致的参考图只挑其中一张，或者在 prompt 里明确指定”以参考图 1 的姿态为准”

翻车模式 3：用截图作参考图（低分辨率影响细节表达）

现象

出图时商品的细节模糊、纹理涂抹感强、文字糊成一团。自查之后发现参考图里有几张是手机截屏、网页截图、小程序缩略图，分辨率可能只有 500×500 甚至更低。

典型案例

参考图里有截图：商品参考用的是淘宝详情页手机截屏（500px 宽），模型抽取的商品细节是糊的
参考图是远距离拍摄的远景图：商品在图里只占 50×50px，模型根本看不清商品长什么样
参考图是压缩严重的网图：表面看清晰，但原图已经被多次 JPEG 压缩，细节都是 artifact

为什么会这样

GPT Image 2 对参考图的处理有一道前置降采样/特征抽取的管线。高分辨率图传过去被压缩一次，低分辨率图本身信息量就少，被进一步处理后几乎等于噪声。模型从低分辨率参考图抽出的”特征”其实是一堆模糊的颜色块+轮廓，生成时就会按”模糊轮廓”补全，结果就是细节糊掉。

修正方法

参考图最低建议 1024×1024 以上，商品参考图越清晰越好（原图 3000px 以上最稳）
如果只能拿到低清图，宁可不放，也别硬塞 5 张——少一张好过一张噪声参考
截图、缩略图、压缩过的网图、带水印的图，能不用就不用
手机拍摄的参考图传之前先检查一下：放大到像素级看边缘，有没有涂抹感或 JPEG 色块

最后：先 1-2 张试水，再加到 5 张

这 6 种组合方式和 3 种翻车模式看起来像”参考图的玩法手册”，但实际用的时候建议从轻开始：

第一轮先 1-2 张参考图试水——光用风格基准图 + prompt，看出图接近不接近目标
第二轮加到 3 张——补齐主体 / 场景 / 模特里最关键的一环
第三轮到 4-5 张——只有确定前面几张都在”帮助”而不是”干扰”生成时，再补到满

截至 2026-04 我们在图叮AI 上的实测经验是：3 张对齐的参考图出图稳定性高于 5 张互相干扰的参考图。把”传满 5 张”当成目标是典型的反模式，把”让每一张参考图都承担明确视觉责任”当成目标才对。

如果传完 5 张还是出不来目标效果，先回到这篇文章的 3 个翻车模式检查一遍，大概率是里面至少有一条。排除翻车模式之后还不对，回去看 GPT Image 2 能做什么做不到什么——有些效果不是参考图的问题，是模型本身的能力边界。

6 种组合方式和 3 种翻车模式后面会随 GPT Image 2 的更新持续校准，最新实测进度会同步到 GPT Image 2 上线公告。先挑你手边这次任务最像的 1 种组合方式套着用，跑 1-2 轮后会有自己的肌肉记忆。

读完，顺手做掉

图叮AI 的 Photoshop 插件需要免费安装，并在 PS 内使用；注册送 50 张试用，用完走会员套餐。

PS 插件 AI 修图 →

Image-2 生图和 Nano Banana 改图都在网页里使用；两边积分包不通用，各自按张扣积分，注册不送试用张数。

网页版 Image-2 生图 →

2026-06-18 17:54:55

GPT Image 2 的 5 张参考图怎么用才不乱：6 种组合方式 + 3 个常见翻车模式

先讲清楚”5 张参考图”的底层逻辑

组合 1：风格保持型（1 张风格基准 + 4 张同风格细节参考）

组合 2：元素拼接型（1 张商品底图 + 1-2 张场景参考 + 1-2 张模特参考）

组合 3：多角度一致性型（2-3 张不同角度的同商品参考）

组合 4：构图锁定型（1 张构图骨架参考 + 3-4 张风格补充）

组合 5：SKU 家族一致性型（4-5 张同系列商品参考）

组合 6：色彩锁定型（1 张色彩基准 + 4 张内容补充）

翻车模式 1：参考图风格互相冲突

翻车模式 2：主体参考图尺寸反差过大

翻车模式 3：用截图作参考图（低分辨率影响细节表达）

最后：先 1-2 张试水，再加到 5 张

读完，顺手做掉

相关文章

宠物店海报的可爱风怎么做：圆润字体的设计原则与AI文生图实操

老照片去褶皱怎么修？折痕与水波纹的扫描、修复与避坑指南

净水器过滤器怎么修图：白机身还原干净、滤芯参数一个不抹

GPT Image 2 做美妆电商产品图：口红、眼影、护肤 3 类瓶身与色号实操

推荐阅读

不想装PS怎么修图？网页版AI修图能做哪些活

救生衣浮力衣产品图怎么修：材质高清修复加一键抠图做电商主图

逗猫棒和猫玩具怎么修：羽毛细毛、绒毛质感和铃铛反光逐条讲

摄影后期去杂物：AI 继续修还是退回重选原片

租房图片批量提亮与去阴暗实操指南：告别暗黄废片，提升房源点击率

床垫商品图 AI 修图返检：围边绗线、卷包标签和厚度别修错

西装正装电商图怎么修：从深色面料纹理到上身版型的完整步骤

百叶帘卷帘怎么修：叶片反光压匀、卷帘布面理平、间距对齐、换白底逐条答

电商美工教程：PS立体字怎么做？一键生成钻石珠宝璀璨立体字

一张原产地水果图为什么被主播退回：果面、等级标和溯源码谁先看

PS AI 修图入门工作流：从打开图到交付

宠物沐浴露香波怎么修产品图？瓶身反光和膏体质感的实拍处理步骤