GPT Image 2 的 5 张参考图怎么用才不乱:6 种组合方式 + 3 个常见翻车模式
GPT Image 2 最被低估的能力其实不是单图质量,而是一次性吃 5 张参考图。但很多人传完 5 张发现出来的图”像被几张图互相拉扯的混合体”,问题不在模型,在参考图怎么组合。我们在图叮AI 上跑了几百轮参考图实验(截至 2026-04),把 5 张参考图的用法整理成 6 种稳定组合 + 3 种常见翻车模式,看完应该能直接对号入座,少走 2-3 轮试错。
图注:5 张参考图不是堆量,是让每一张承担一个明确的视觉责任
先讲清楚”5 张参考图”的底层逻辑
截至 2026-04,GPT Image 2 在图叮AI 上单次请求最多支持 5 张参考图。模型对每张参考图的处理不是”平均融合”,而是从里面抽取视觉特征:风格(光比、色调、胶片感)、元素(具体物件、模特、材质)、构图(主体位置、留白)、色彩(主色+辅色)。你传的图越是目的明确,模型就越容易做出对应加权;相反,如果 5 张图各说各的,模型只能做”平均主义”,结果就是每一张都像又都不像。
这件事换个说法:5 张参考图不是堆量,是让每一张承担一个明确的视觉责任。下面 6 种组合方式,每一种都围绕一个主意图设计,副图为主图服务。
选参考图和写 prompt 是互相咬合的——参考图锁视觉,prompt 锁逻辑。两者任何一个偷懒都会翻车。如果对 GPT Image 2 的基础能力边界还不熟,先读 GPT Image 2 能做什么做不到什么 再回来看组合方式。
组合 1:风格保持型(1 张风格基准 + 4 张同风格细节参考)
适用场景
你手上有一组已经出得很稳定的老图(自己之前的作品、买的摄影师成片),想让新商品也走这套风格。最典型的就是电商店铺要求的”视觉统一”——新 SKU 上架要和老 SKU 看起来是一家店。
参考图组成
- 图 1(风格基准):一张完全表达目标风格的完整作品,光线、色调、背景、构图都定了调
- 图 2-5(风格细节):4 张同风格下的不同画面,补充模型对”这个风格在多种场景里是什么样”的理解
这里的 4 张细节图不要选和图 1 差别太大的。比如图 1 是深色调冷光产品图,图 2-5 别混进暖色客厅氛围图——那是另一种风格了。
prompt 配合建议
新商品主体描述(材质、形状、颜色)+ 要求"严格遵循参考图 1 的光线方向、背景色调、胶片颗粒感;参考图 2-5 补充风格细节"+ 明确比例和构图。
一个常见细节是在 prompt 末尾加一句”风格一致性优先,禁止创新风格”——这类明确的负向约束能显著降低模型”自作主张”的概率。
常见注意点
- 图 1 尽量选同类目的作品(都是美妆 / 都是 3C),跨类目参考风格经常漂
- 4 张细节图里如果有一张特别”跳”(比一组的其他图亮度高 20%),模型会被带偏
- 色调 LUT 一致(都是冷调 / 都是暖调),别冷暖混放
组合 2:元素拼接型(1 张商品底图 + 1-2 张场景参考 + 1-2 张模特参考)
适用场景
你有一张商品原图(白底或实拍),想把它”放到”某个场景里,可能还要加人物(模特手持、模特上身)。传统 PS 合成这种活要抠图+调色+打光好几小时,用参考图组合可以让模型一次性生成融合稿,图叮AI 站内的 GPT Image 2 + PS 精修 3 种工作流 把这种流程后续怎么接 PS 讲得更细。
参考图组成
- 图 1(商品底图):商品本体,要求角度、材质、标签都清晰
- 图 2-3(场景参考):目标场景的 1-2 张图,交代背景、光线、氛围
- 图 4-5(模特参考,可选):模特的脸部、身材、穿搭参考,1 张主图 + 1 张补图即可
4-5 张填不满就别硬填。拼接型场景里 3 张(商品+场景+模特)常常够用,多塞反而稀释了每张图的权重。
prompt 配合建议
把参考图 1 的商品放到参考图 2 的场景中;光线方向参照参考图 2 的侧光;场景中站立一位参考图 4 的模特,手持商品;保持参考图 1 商品的外形、标签、材质不变,只重建光线和背景;比例 3:2。
关键词是”保持…不变,只重建…”——明确告诉模型哪些属性是锁死的,哪些是可以重新计算的。省掉这一步模型可能把你的商品重绘一遍。
常见注意点
- 商品底图的光线方向和场景参考冲突(商品图是顶光、场景图是侧光),出图时商品阴影方向对不上
- 模特肤色和场景色调差距太大(如模特是强暖光肤色、场景是冷色调工业风),合成感明显
- 商品和模特尺寸比例要提前对齐(拿个 500ml 保温杯的底图,别配半身近景模特——手会画得怪)
组合 3:多角度一致性型(2-3 张不同角度的同商品参考)
图注:多角度参考让模型理解”这是同一件物品”,而不是 3 件外观相似的东西
适用场景
详情页需要同一件商品的多张不同角度图(正面 / 45 度 / 侧面 / 背面 / 顶视),或者”这个商品摆在不同场景”的系列图。难点是无论角度怎么变,商品本身(形状、比例、标签、材质)要保持一致——一旦模型把标签位置挪了或者瓶盖改了形状,整组图就废。
参考图组成
- 图 1-3(同商品不同角度):正面、45 度、侧面 3 张已有照片
- 图 4-5(可选,场景或构图补充):如果要在新场景出图再加 1-2 张场景参考
2-3 张同商品角度图是刚性组合,模型靠这几张三角定位商品的立体结构。少于 2 张角度信息不足,多于 3 张则噪声累积。
prompt 配合建议
参考图 1-3 是同一件商品的 3 个不同角度。生成这件商品的新角度图:俯视 45 度(主视图 + 10 度倾斜);保持商品形状、比例、标签位置、材质均与参考图完全一致;纯白背景,顶光柔光箱;比例 1:1。
可以直接让它出新角度(俯视、仰视),或者要求它把商品放到新场景里保持一致性。后者更难,需要 prompt 额外强化”商品外观不变”的约束。
常见注意点
- 3 张角度图最好是同一组棚拍作品,别混拼(网图 + 自拍 + 设计稿 3 种画质,模型识别不稳)
- 标签特别复杂的商品(比如多行文字的酒瓶),模型几乎必然把文字画糊或错位——涉及 logo / 文字的合成建议先出图再用 PS 贴原标签
- 透明 / 半透明材质(玻璃、亚克力)从不同角度看折射完全不同,3 张参考还是容易出诡异折射,关键帧建议走 PS 精修
组合 4:构图锁定型(1 张构图骨架参考 + 3-4 张风格补充)
适用场景
你已经有一个明确的构图想法(主体在画面左下、右上留白给文字、地平线在画面下 1/3 处),想让模型严格按这个构图出图,但风格另外指定。常见于 banner、海报、品牌画册,这些场景里构图是硬约束、风格是软约束。
参考图组成
- 图 1(构图骨架):一张已有的图,构图是你要的,风格无所谓(可以是别人家的、可以是手绘线稿)
- 图 2-5(风格补充):4 张目标风格的参考图,交代色调、光比、材质质感
图 1 作为构图主图要权重拉满,prompt 里要明确”构图与参考图 1 一致”。
prompt 配合建议
构图严格按参考图 1(主体位于画面左下 1/3,地平线在画面下 1/4,右上大面积留白);风格、光线、色调参考图 2-5(冷色调低饱和、左侧 30 度窄光柱、胶片颗粒感);新主体:一瓶磨砂黑色香水瓶;比例 3:2。
构图描述越具体越好。别只说”参考图 1 的构图”,把”主体在哪 / 地平线在哪 / 留白在哪”这几个关键参数用数值写出来,模型才能稳定复现。
常见注意点
- 图 1 如果本身构图一般(主体居中、满格构图),锁定也没意义——挑构图真正有讲究的图
- 风格补充图里如果有一张构图也很抢,可能反过来干扰图 1 的构图锁定
- 海报类场景要记得写”留白处不生成任何文字或元素”,不然模型会往留白区域塞东西
组合 5:SKU 家族一致性型(4-5 张同系列商品参考)
适用场景
你在做一个 SKU 家族的视觉集——同一品牌下的 5-8 款相似产品(同一系列的香水 5 瓶、同一套餐具 6 件、同色系的 4 双鞋)。目标是让这组图看起来像”一家人”——同一个摄影师、同一个棚、同一个光线。
参考图组成
- 图 1-4 或 1-5(同系列已出图):这个系列里已经出稳定的 4-5 张图,作为”家族基因”提供给模型
- 无单独场景参考:场景在这些已出图里已经交代了
这是几乎唯一一种值得把 5 张槽位填满的组合方式,因为同系列的一致性需要大样本——其他组合里 3 张够用就别硬凑。如果你还没决定要用 GPT Image 2 还是 Nano Banana Pro 做 SKU 家族,可以先看 这两个模型的选型判断。
prompt 配合建议
参考图 1-5 是同一 SKU 家族的已有作品。生成这个家族的新成员图:新商品是 [具体描述];严格遵循参考图的背景(纯白)、光线(顶光+左侧 30 度补光)、构图(商品居中偏左 1/3)、色调;比例 1:1。
这种场景下 prompt 可以写得偏简短,因为大部分视觉参数靠参考图传递。重点放在”新商品本身”的描述上——新商品的形状、材质、颜色、标签,这些模型从参考图里看不到。
常见注意点
- 4-5 张同系列图尽量都是稳定出过的(或真实拍摄的),别混进”看起来有点像但其实差很多”的图
- 如果家族里已经出了 10 张图,挑 5 张时优先选”中位数”——太极端的一张会把家族基因带偏
- 品牌标识(logo、标签、特有瓶型)建议在 prompt 里再强调一次,参考图只能传递视觉,文字信息还是靠 prompt
组合 6:色彩锁定型(1 张色彩基准 + 4 张内容补充)
适用场景
你对这张图的色彩有明确要求(品牌主色是特定的蓝、季度色彩计划规定了莫兰迪色系、节日活动要求暖红+金),但内容、构图、风格可以灵活。色彩锁定型在品牌方做视觉时特别常见。
参考图组成
- 图 1(色彩基准):一张色彩完全符合要求的图,可以是品牌调色板样图、一张色卡、一张色调符合的作品
- 图 2-5(内容补充):4 张内容参考(商品、场景、构图、风格),色彩暂时不用管
一个特殊用法:图 1 可以是纯色块或色卡图——模型确实会把色卡的颜色提取出来作为主色调。但前提是 prompt 要讲清楚这张图是”色彩参考不是内容参考”。
prompt 配合建议
严格采用参考图 1 的色调(主色:深蓝,辅色:暖橙,调性偏低饱和胶片感);构图、商品、场景参考图 2-5;主体:一瓶香水放在木质桌面上,侧光;比例 3:2。
“严格采用参考图 1 的色调”这句要写得明确。如果图 1 是实物参考图(不是色卡),还可以加一句”只取参考图 1 的色调,不取其中的物体/构图”。
常见注意点
- 色彩基准图最好是”纯色彩参考”而不是”又色彩又构图”——后者很容易模型把构图也带过来
- 品牌主色如果是非常特殊的色号(比如 Tiffany 蓝 RGB 0x81D8D0),光靠参考图通常还原不到位,最后一步色彩校准建议在 PS 里做
- 低饱和色调容易被模型”还原饱和”——在 prompt 明确”保持低饱和,禁止提高色彩饱和度”
翻车模式 1:参考图风格互相冲突
图注:参考图之间的视觉语言要自洽,风格错配的图传给模型等于同时要求写实和卡通
现象
传了 5 张参考图,出来的图看起来既不像 A 风格也不像 B 风格。常见在”一股脑把自己觉得好看的图都扔进去”的用法里。
典型案例
- 图 1 是冷色调深色商业摄影,图 2 是暖色调小清新生活照——模型不知道该往冷还是暖
- 图 1 是胶片颗粒感复古风,图 2 是高清数码感现代风——颗粒质感互相打架
- 图 1 是极简负空间构图,图 2-3 是满格丰富元素构图——构图密度两个极端
为什么会这样
模型默认假设你的参考图共享同一个视觉目标。当图与图之间信号矛盾时,模型会”求平均”——折中出的图经常两边都不像。这和写 prompt 里风格关键词冲突 是一回事,只是发生在参考图层面。
修正方法
传图之前先自己问一遍:这 5 张图加在一起是”一种风格”还是”5 种风格”。如果是后者,挑一种作为主风格,其他删掉。宁可只用 2-3 张对齐的图,也不要用 5 张打架的图。
翻车模式 2:主体参考图尺寸反差过大
现象
你想要的效果是”把商品 A 放到场景 B 里”,但出来的图要么商品被缩得像玩具,要么商品占了大半画面把场景吃掉。更严重时模型把你的商品画成了”两种相似的东西”——比如参考了两张尺寸反差过大的同类商品图,输出的图里商品变成了缝合体。
典型案例
- 商品参考图 1 是特写(商品占 80% 画幅),场景参考图 2 是广角(场景占 95%)——模型不知道最终商品该占画面多少比例
- 给了两张同一类商品的参考(比如两瓶香水,一瓶 30ml 一瓶 100ml),模型把两个尺寸特征平均了,出来的瓶子比例怪异
- 商品在参考图 1 里是斜放,在参考图 2 里是直立——模型出图时姿态纠结
为什么会这样
模型从参考图抽取的不只是”商品长什么样”,还包括”商品在画面里有多大 / 什么姿态”。尺寸反差过大的参考图会让模型在”商品尺寸”这个维度上无所适从。
修正方法
- 主体参考图尽量选”和你想要的最终画面主体占比接近”的图。想要商品占画面 1/3,别传一张占 95% 画幅的微距图
- 同一件商品的多张参考(组合 3),尽量保持商品在各图里的占比一致(都是 1/3 或都是 1/2)
- 姿态不一致的参考图只挑其中一张,或者在 prompt 里明确指定”以参考图 1 的姿态为准”
翻车模式 3:用截图作参考图(低分辨率影响细节表达)
现象
出图时商品的细节模糊、纹理涂抹感强、文字糊成一团。自查之后发现参考图里有几张是手机截屏、网页截图、小程序缩略图,分辨率可能只有 500×500 甚至更低。
典型案例
- 参考图里有截图:商品参考用的是淘宝详情页手机截屏(500px 宽),模型抽取的商品细节是糊的
- 参考图是远距离拍摄的远景图:商品在图里只占 50×50px,模型根本看不清商品长什么样
- 参考图是压缩严重的网图:表面看清晰,但原图已经被多次 JPEG 压缩,细节都是 artifact
为什么会这样
GPT Image 2 对参考图的处理有一道前置降采样/特征抽取的管线。高分辨率图传过去被压缩一次,低分辨率图本身信息量就少,被进一步处理后几乎等于噪声。模型从低分辨率参考图抽出的”特征”其实是一堆模糊的颜色块+轮廓,生成时就会按”模糊轮廓”补全,结果就是细节糊掉。
修正方法
- 参考图最低建议 1024×1024 以上,商品参考图越清晰越好(原图 3000px 以上最稳)
- 如果只能拿到低清图,宁可不放,也别硬塞 5 张——少一张好过一张噪声参考
- 截图、缩略图、压缩过的网图、带水印的图,能不用就不用
- 手机拍摄的参考图传之前先检查一下:放大到像素级看边缘,有没有涂抹感或 JPEG 色块
最后:先 1-2 张试水,再加到 5 张
这 6 种组合方式和 3 种翻车模式看起来像”参考图的玩法手册”,但实际用的时候建议从轻开始:
- 第一轮先 1-2 张参考图试水——光用风格基准图 + prompt,看出图接近不接近目标
- 第二轮加到 3 张——补齐主体 / 场景 / 模特里最关键的一环
- 第三轮到 4-5 张——只有确定前面几张都在”帮助”而不是”干扰”生成时,再补到满
截至 2026-04 我们在图叮AI 上的实测经验是:3 张对齐的参考图出图稳定性高于 5 张互相干扰的参考图。把”传满 5 张”当成目标是典型的反模式,把”让每一张参考图都承担明确视觉责任”当成目标才对。
如果传完 5 张还是出不来目标效果,先回到这篇文章的 3 个翻车模式检查一遍,大概率是里面至少有一条。排除翻车模式之后还不对,回去看 GPT Image 2 能做什么做不到什么——有些效果不是参考图的问题,是模型本身的能力边界。
6 种组合方式和 3 种翻车模式后面会随 GPT Image 2 的更新持续校准,最新实测进度会同步到 GPT Image 2 上线公告。先挑你手边这次任务最像的 1 种组合方式套着用,跑 1-2 轮后会有自己的肌肉记忆。
相关文章
AI 模型版本切换迁移 SOP:旧 prompt 适配新模型的 6 步检查
新模型一上线,老 prompt 第二天就失灵。本文按能力对照、prompt 兼容测试、参数翻译、风格关键词映射、批量回归、客户告知 6 步,给图叮AI 工作室一份 1-2 天可跑完的迁移清单。
GPT Image 2 的 2K / 4K 高清图到底用在哪:4 类场景的真实需求拆解
GPT Image 2 上线 2K / 4K 之后,最常见的疑问不是能不能出,而是我这种活到底要不要出 4K。把电商详情页、印刷海报、4K 展示屏、桌面壁纸 4 类真实需求摊开,给出尺寸、档位、参考图组合、prompt 要点和成本,决策一目了然。
GPT Image 2 高清出图 5 大常见翻车与修复:细节失真 / 噪点 / 色彩断层 / 文字识别 / 边缘伪影
升档到 2K / 4K 之后,原本 1254 看着没事的小毛病会被放大成翻车——手部走形、暗部噪点、渐变出现色带、图内文字乱码、商品边缘光环。这篇按 5 类高清专属翻车展开,给诊断方法、重生成 prompt 修复点,以及该接 PS 精修时的取舍判断。
从 1254 升到 2K / 4K,GPT Image 2 的 prompt 要改的 5 件事
1254 档凑合够用的 prompt,搬到 2K / 4K 后常常露馅:瓶身像塑料、背景空、风格词互打架。本文按细节密度、构图精度、材质纹理、背景层次、风格词数量 5 个调整点,给 1254 与 4K 对照示例和电商场景使用建议。
推荐阅读
AI转身功能:让模特照片一键变换身体朝向和姿态
用图叮AI的转身功能调整模特照片中的身体朝向,适用于电商服装展示需要多角度模特图的场景,一张照片生成多个姿态。
服装上身效果:模特换衣不用调图层模式直接生成
用图叮AI服装上身功能将夹克衫白底图替换到模特身上,用选框工具框出上衣部分即可生成,替换效果自然模拟了衣服上身的褶皱和光影。
美妆电商图片全流程:从产品拍摄到多平台上架的标准化 SOP
适用于美妆品牌电商团队的图片处理全流程SOP,覆盖拍摄规范、抠图预处理、瓶身光影、色号批量、多平台导出五个阶段,适合2-5人视觉小组按序执行。
4 个人的小团队,为什么比 6 个修图师更赚钱:1 个排期位的账
AI 修图工作室人效不靠人数靠配比。2025 双 11 前,上海一家工作室把 6 名修图师重组成 2 修图 + 1 排期 + 1 质检,月毛利提高 19%。拆解排期位价值和 0 到 30 万月流水的团队人员配比建议。