ChatGPT与MidJourney双引擎驱动:AI辅助艺术创作全流程实战
2026/5/10 2:04:43 网站建设 项目流程

1. 项目概述:当艺术创作遇上AI

作为一名在创意行业摸爬滚打了十几年的老鸟,我见过太多同行在深夜对着空白画布或闪烁的光标发呆。创作瓶颈,这个看似文艺的词汇,背后是无数个灵感枯竭、自我怀疑的夜晚。直到去年,我开始系统性地将ChatGPT和MidJourney这两款AI工具引入我的工作流,局面才发生了根本性的改变。这并非要取代艺术家,而是像找到了一位永不疲倦的创意副驾驶和一位想象力爆棚的视觉搭档。

这个项目的核心,就是探索如何将这两款特性迥异的AI工具,无缝嵌入从“灵感到草图,再到深化与突破”的完整艺术创作链条中。ChatGPT,以其强大的语言理解和逻辑生成能力,负责解决“想什么”和“怎么想”的问题,帮助我们打破思维定势,构建扎实的叙事与概念内核。而MidJourney,则以其惊人的图像生成与风格化能力,负责解决“长什么样”和“感觉如何”的问题,将抽象的文字概念瞬间转化为可供参考、迭代甚至直接使用的视觉素材。两者的结合,不是为了炫技,而是为了实实在在地将艺术家从重复性、探索性的试错中解放出来,让我们能更专注于最核心的审美判断、情感表达与最终合成。

2. 核心思路:构建“概念-视觉”双引擎驱动的工作流

传统的创作流程往往是线性的:灵感闪现 -> 粗略构思 -> 寻找参考 -> 草图 -> 成稿。这个流程中,“构思”到“视觉参考”之间存在着巨大的鸿沟,我们常常需要花费大量时间在Pinterest、美术馆网站或自己的素材库中大海捞针,效率低下且容易陷入同质化。

引入AI后,我将其重构为一个非线性的、可循环迭代的“双引擎”模型:

引擎一:ChatGPT作为“概念催化与叙事建筑师”它的首要任务不是直接给答案,而是通过高质量的提问和对话,帮助我挖掘深层的创作意图。比如,我不再问“画一个科幻城市”,而是会与ChatGPT进行多轮对话:“假设一个城市,其建筑是由某种具有感知能力的晶体生长而成,居民通过光影进行交流。请描述这个城市在雨季黄昏时的景象,重点刻画晶体建筑反射霓虹与水光的质感,以及街道上‘光语’交织的氛围。” 通过这种具象化的、充满约束条件的描述,ChatGPT能帮我拓展出意想不到的细节和逻辑,让概念从单薄的关键词变得丰满、可信。

引擎二:MidJourney作为“视觉探索与风格实验场”获得丰富的文本描述后,将其输入MidJourney。这里的关键在于“提示词工程”与“参数调控”。我不会把ChatGPT生成的大段描述直接丢进去,而是会将其提炼成包含主体、细节、环境、风格、构图、灯光、材质、参数八个维度的结构化提示词。例如,上述概念可能被提炼为:“macro shot of bioluminescent crystal skyscrapers, reflecting neon rain puddles on wet streets, cinematic lighting, dusk, hyper-detailed, sci-fi, by Simon Stalenhag and Moebius, --ar 16:9 --style raw --chaos 20”。通过调整--style--chaos--stylize等参数,可以在同一概念下快速生成写实、插画、抽象等不同风格的方向图,效率是传统找参考的数十倍。

这两个引擎并非孤立运作。MidJourney生成的图像可能会激发出新的故事灵感,再反馈给ChatGPT进行深化;ChatGPT根据新图像描述的细节,又能生成更精准的提示词,引导MidJourney进行下一轮生成。如此循环,形成一个强大的创意增强回路。

2.1 为何是ChatGPT+MidJourney,而非其他组合?

市面上AI工具繁多,我选择这个组合基于几个核心考量:

  1. 能力互补性极强:一个强于语言逻辑与叙事,一个强于视觉生成与美学。这覆盖了创作中最核心的“内容”与“形式”两方面。
  2. 工作流衔接顺畅:从文字到图像是创作中最自然的转换路径之一。ChatGPT产出的结构化描述,几乎是MidJourney提示词的完美草稿。
  3. 可控性与随机性的平衡:ChatGPT通过对话可以提供高度可控、符合逻辑的概念方向;MidJourney则在给定方向下,提供充满惊喜的视觉随机性。艺术家在中间扮演“导演”和“策展人”的角色,平衡控制与意外。
  4. 学习成本与收益比:两者都有相对友好的交互界面(聊天框和对话式指令),艺术家无需学习编程即可上手,但深入后又都有极大的探索空间,天花板很高。

3. 实操流程:从零到一的完整案例拆解

下面,我以一个具体的创作主题“失落图书馆的守护灵”为例,完整展示这套工作流。

3.1 第一阶段:用ChatGPT进行深度概念孵化

第一步:打破初始模糊想法我的初始想法很模糊:“一个关于古老图书馆的奇幻场景”。直接把这个丢给MidJourney,结果大概率是千篇一律的哥特式图书馆内景。所以,我先找到ChatGPT。

:我想创作一个名为“失落图书馆的守护灵”的数字绘画。请先不要描述场景,而是帮我构建这个“守护灵”的设定。它是什么?为何守护?如何与图书馆互动?

ChatGPT:好的,让我们摒弃常见的幽灵或老头形象。设想守护灵是“图书馆意识”本身的具象化——它并非生物,而是由无数飞舞的、发光的活体书页“纸灵”聚合而成的临时形态。它的存在是为了防止馆内某本“原初之书”(记载了世界真实历史,但内容会不断自我改写)被错误解读或带离。它通过改变书架的结构、让书本自动翻页展示特定段落、或操纵墨迹在空气中流动来与闯入者互动。它的“情绪”由纸页的翻动速度和光芒颜色体现。

第二步:深化场景与叙事这个设定立刻让概念有趣起来。我继续追问,让场景具体化。

:太棒了。现在,请描述一个具体的时刻:一位年轻的修复师无意中触发了“原初之书”,整个图书馆开始“活”过来。描述修复师所见,重点刻画“纸灵”聚合形成守护灵雏形的瞬间,以及环境(光线、声音、质感)的变化。要求充满动感和诗意,避免平铺直叙。

ChatGPT:尘埃在突然静止的空气中凝成金粉。青年修复师指尖离开书脊的刹那,一声类似无数叹息合鸣的嗡响从书架深处荡开。他眼前,成千上万本书籍同时自动翻开,不是被风,而是像有看不见的手在急切地检索。泛黄的书页脱离装订,如受惊的蝶群升腾,每一页边缘都泛起柔和的、水母般的生物荧光。它们在空中涡旋,彼此粘合、折叠、重组,光线透过半透明的纸页,投射出不断变幻的古老文字阴影。远处,墨水从打开的书本里渗出,逆流而上,在空气中汇聚成黑色的溪流,向着纸页漩涡的中心汇集,试图勾勒出一个巨大、朦胧、不断变化着轮廓的形体。光线从彩色玻璃窗斜射而入,却被这些飞舞的介质打碎,整个空间充满了跳动的、静谧的光斑和纸页摩擦的沙沙声。

第三步:提炼视觉关键词得到这段充满画面感的描述后,我将其提炼为MidJourney可用的核心关键词:

  • 主体:无数发光飞舞的活体书页(bioluminescent living paper sheets),半透明(translucent),聚合形态(aggregating form)。
  • 细节:墨水逆流(ink flowing upwards),自动翻开的书籍(books auto-flipping),尘埃光斑(dust motes in lightbeam)。
  • 环境:宏大的古老图书馆(grand ancient library),哥特式拱顶(gothic vault),彩色玻璃窗(stained glass windows)。
  • 风格/氛围:动态的(dynamic),诗意的(poetic),神秘的(mysterious),奇幻(fantasy),电影感光线(cinematic lighting)。
  • 艺术家参考:可借鉴某些插画师对光线和神秘氛围的处理,如in the style of Android Jones的迷幻光影,或Greg Rutkowski的宏大奇幻质感。

3.2 第二阶段:用MidJourney进行视觉探索与迭代

第一步:生成初始方向图我将提炼的关键词组合成初步提示词:/imagine prompt: epic wide shot inside a vast gothic library, thousands of bioluminescent, translucent living paper sheets flying and aggregating into a giant guardian spirit form, ink flowing upwards from open books, bookshelves auto-flipping pages, dramatic cinematic lighting from stained glass windows, dust motes, dynamic and poetic, fantasy, mysterious atmosphere, style of Greg Rutkowski and Android Jones --ar 3:2 --chaos 30 --style raw

这里使用了--chaos 30来增加构图和元素组合的随机性,以期获得意想不到的效果;--style raw能稍微降低MidJourney默认的过度艺术化处理,让细节更可控。

第一次生成结果:得到了四张图。一张构图过于混乱,两张守护灵形态太像传统幽灵,但有一张非常出彩:画面中心,书页汇聚成一个隐约的、类似天使或树木的轮廓,墨水如黑色根系般从下方书本升起与之连接,光线处理极富戏剧性。我选择了这张,点击Vary (Strong)进行变体深化。

第二步:迭代与精细化在得到几张不错的变体后,我使用“局部重绘”功能。我觉得守护灵的面部可以更抽象、更具神性,而不是模糊的人脸。我用框选工具选中面部区域,在提示词框中输入:abstract face formed by glowing runes and shifting paper layers, divine and mysterious。MidJourney重新生成了该区域,结果变成了由发光符文和流动纸层构成的面容,完美符合预期。

接着,我觉得前景有些空。我再次局部重绘地板区域,提示:intricate mosaic floor partially covered by fallen, glowing pages。增加了细节丰富的马赛克地板和散落的发光书页,增强了场景的层次感和叙事性。

第三步:风格化与最终调整此时,画面基本元素已定,但色彩和质感偏向常见的奇幻插画。我想尝试更独特的视觉风格。我使用Vary (Region)功能,选中整个画面,然后输入风格化指令:color palette of deep blues, emerald greens and gold, with a touch of Art Nouveau decorative borders emerging from the edges, ultra detailed, 8k。这一次,整体色调转向了我想要的深邃蓝绿与金色搭配,甚至边缘还生长出一些新艺术风格的装饰纹样,整体质感大幅提升。

最后,我使用--uplight参数进行高清放大,得到了一张分辨率足够用于进一步细化或直接作为概念图使用的作品。

3.3 第三阶段:AI输出与艺术家创作的结合

至此,AI部分的工作基本完成。我得到的不是一张“成品”,而是一张细节丰富、氛围到位、极具启发性的高精度草图。接下来才是我作为艺术家的主场:

  1. 构图与动态修正:AI生成的构图有时会有些许不自然。我会在Photoshop中调整整体构图,强化视觉引导线,确保视觉焦点落在守护灵与修复师的互动上。
  2. 叙事性细节添加:在画面中手动添加一些AI未能生成的、带有叙事性的细节。例如,在修复师的工具袋旁画一本他刚刚带来的、与“原初之书”截然不同的现代笔记本,暗示冲突;在远处的书架阴影里,添加几个若隐若现、好奇张望的“小纸灵”,增加生动性。
  3. 色彩与光影统合:AI生成的光影和色彩虽然好看,但有时缺乏统一的光源逻辑和情感指向。我会重新规划光源,强化从彩色玻璃窗射入的主光,让所有光影关系为其服务,并调整色彩基调,使其更贴合“神秘觉醒”中带有一丝“温暖”的情绪,而非单纯的冷峻奇幻。
  4. 笔触与质感融合:使用自定义画笔,在AI生成的光滑质感上叠加手绘的笔触、纹理和瑕疵,如纸张的纤维感、墨水的润渍、灰尘的颗粒,让画面拥有“人手创作”的温度和呼吸感。

这个过程,AI解决了“从0到0.8”甚至“到0.9”的问题,提供了海量的可能性、扎实的基础和惊人的细节。而我,则负责完成“从0.9到1”乃至“到1.2”的飞跃,注入独特的审美、精准的叙事控制和不可替代的情感表达。

4. 核心技巧与深度参数解析

要让ChatGPT和MidJourney这对组合发挥最大威力,远不止简单的对话和输入关键词。下面分享一些我踩过无数坑才总结出的核心技巧。

4.1 ChatGPT提示工程:从“提问者”到“导演”

与ChatGPT合作创作,角色定位至关重要。不要把它当搜索引擎,而是当成一个想象力丰富但需要精准引导的编剧或概念设计师。

  • 技巧一:提供“种子”,而非索取“大树”。不要问“给我一个科幻创意”,这太宽泛。应该说:“请基于‘量子植物学’和‘情绪气象学’这两个虚构学科,构思一个未来城市的公共艺术装置概念,并描述它在居民悲伤时会如何变化。” 给出具体的、非常规的约束条件,能激发更独特的产出。
  • 技巧二:进行“多轮迭代与聚焦”。第一轮回答通常是泛泛而谈。要像剥洋葱一样深入。例如,ChatGPT描述了一个“机械森林”,你可以追问:“森林中的‘树木’是如何获取能量的?请用一种违背常理但符合科幻设定的方式描述。”“居住其中的非人形生物,它们的社会结构如何体现‘机械’与‘森林’的双重特性?” 通过连续追问,构建坚实的世界观。
  • 技巧三:要求“感官化”与“镜头化”描述。直接要求输出适合视觉化的语言。例如:“请用电影摄影师的语言描述这个场景,关注清晨光线穿过悬浮水晶时的折射效果、空气中的微粒,以及主角阴影的变化。”“描述这个角色服装的质感时,请混合触觉(如冰冷光滑的金属鳞片)和听觉(如行动时轻微的沙沙声)。”
  • 技巧四:赋予它“角色”。在对话开始时设定它的身份。“现在你是一位精通神话符号学和现代建筑的概念艺术家,请帮我分析如何将北欧神话中的‘世界树’意象,转化为一个赛博朋克都市的垂直交通枢纽设计。” 这能显著提升回应的专业性和风格一致性。

4.2 MidJourney提示词结构与高级参数心法

MidJourney的提示词是一门微妙的语言艺术。我的通用结构是:[主体描述] + [细节强化] + [环境/场景] + [光影/质感] + [构图/视角] + [风格/艺术家参考] + [技术参数]

  • 主体描述:必须具体、独特。避免“一个男人”,而是“一个身穿修补过宇航服、面罩有裂痕的沧桑男人”。
  • 细节强化:这是让图像脱颖而出的关键。添加如“intricate embroidery”(繁复刺绣)、“weathered texture”(风化纹理)、“subsurface scattering”(次表面散射,用于表现皮肤、玉石等半透明材质)等词。
  • 风格/艺术家参考:这是快速锁定美学风格的法宝。但不要只写“fantasy art”。使用如“in the style of Hayao Miyazaki studio Ghibli”(吉卜力风格)、“artstation trending, dark fantasy”(ArtStation热门暗黑奇幻)、“photorealistic, National Geographic photo”(国家地理摄影风格)。混合不同艺术家有时有奇效,如“style of Moebius and Beksinski”。
  • 技术参数详解
    • --ar:宽高比。--ar 16:9适合电影画面,--ar 2:3适合人像,--ar 1:1适合社交媒体。构图前就要想好。
    • --chaos:混乱值(0-100)。值越高,初始四宫格图的差异性和随机性越大。我通常在探索阶段设为20-40,以获得更多意外惊喜;在细化阶段降至0-10,让输出更稳定可控。
    • --stylize:风格化值(默认100,范围0-1000)。值越高,MidJourney的“艺术加工”越强,画面更华丽但可能偏离提示词细节;值越低(尤其--style raw配合低--s),则更忠实于提示词,画面更“原生”和可控。对于需要精准控制的设计稿,我常用--style raw --s 50
    • --weird:怪异值(0-3000)。实验性参数,能产生非常超现实、打破常规的图像。谨慎使用,适合需要强烈视觉冲击的抽象创作。
    • --no:负面提示词。极其重要!用于排除不想要的元素。例如,如果你想要一个干净的未来城市,一定要加上--no people, cars, graffiti, wires,否则AI很可能会“贴心”地加上这些它认为城市该有的东西。

4.3 混合与循环工作流中的关键节点

  • 图像→文字(图生文):MidJourney生成的某张图局部很精彩,但整体不满意?使用/describe命令上传该图,让MidJourney反推提示词。分析这些提示词,你可能会发现一些自己没想到但AI认为重要的关键词,将这些词反馈给ChatGPT,让它围绕这些词展开新的叙事。
  • 风格迁移:用某张图的风格去生成新内容。使用--seed参数结合风格描述。先通过/describe获取一张优秀风格图的提示词,提取其中的风格关键词(如“watercolor and ink wash, soft blends”),在新内容的提示词后加上这些风格词和原图的--seed值(需在生成原图时获取),能在一定程度上继承风格。
  • 建立个人视觉词库:将每次探索中发现的、能稳定产出好效果的关键词组合(如某种光线、材质、构图描述)记录下来,形成自己的“咒语库”。例如,我记录了一组“破败奢华”的词条:faded grandeur, peeling gold leaf, dusty velvet curtains, broken chandelier, sunbeam through broken roof

5. 常见问题、伦理思考与未来方向

5.1 实操中的高频问题与解决方案

  1. 问题:MidJourney总是忽略我提示词中的某些关键元素。

    • 原因与解决:提示词权重问题。将最重要的元素放在提示词最前面。使用::双冒号加权重,如a giant crystal tree::2 in a fantasy forest::1,表示“水晶树”的权重是“森林”的两倍。对于要排除的,用--no
  2. 问题:生成的人物形象僵硬、手部畸形、逻辑错误(如三只手)。

    • 原因与解决:这是当前文生图AI的通病。解决方案:a) 避免生成全身、多人的复杂构图,优先采用半身、特写或富有创意的遮挡构图。b) 使用“局部重绘”功能,只重画手部区域,提示词可写perfect hands, elegant fingers。c) 坦然接受,将其作为后期手绘修正的重点。有时,一些非现实的扭曲感反而能成为风格特色。
  3. 问题:ChatGPT生成的概念描述很美,但转成MidJourney提示词后效果平平。

    • 原因与解决:描述过于文学化,缺乏可视觉化的具体名词和形容词。解决方案:在要求ChatGPT输出时,就加上限制:“请用包含大量具体名词(如‘青金石镶嵌的拱门’、‘磷光真菌’)和视觉形容词(如‘锯齿状的’、‘虹彩的’)的段落来描述。” 或者,自己充当“翻译”,将“悲伤的氛围”转化为“冷色调、低饱和度、缓慢坠落的雨滴、孤独的剪影”。
  4. 问题:陷入同质化,生成的东西看起来都像“标准的MidJourney作品”。

    • 原因与解决:过度依赖常见的风格词和艺术家名。解决方案:a) 寻找小众的、非主流的艺术家或摄影风格作为参考。b) 混合不相关的概念,如“cyberpunk samurai in a van Gogh sunflower field”。c) 大量使用--no排除那些AI过度训练的流行元素。d) 回归--style raw并降低--stylize,从更基础的视觉元素开始构建。

5.2 无法回避的伦理与版权思考

使用AI辅助创作,几个伦理问题必须想清楚:

  • 原创性边界:最终作品的核心创意、审美决策、叙事灵魂来自你,AI是工具。但如果99%的画面由AI生成,仅微调,这算你的作品吗?我的观点是,关键在于“创造性转换”的程度。你通过提示词注入的独特构思、通过后期合成与绘画进行的深度改造,才是版权的基石。公开分享时,应注明“AI辅助生成”。
  • 风格模仿与抄袭:使用“in the style of [某在世艺术家]”是否构成侵权?这是一个灰色地带。法律上尚无定论,但道德上,直接模仿并用于商业用途风险很高。更稳妥的做法是:将其作为学习参考,理解其用色、笔触、构图逻辑,然后融合多种风格并加入个人元素,形成自己的表达。或者,只参考已过世大师的风格。
  • 数据偏见与审美单一:AI训练数据源于现有人类作品,可能隐含偏见并强化主流审美。艺术家有责任主动探索、提示那些被边缘化的文化元素和美学风格,利用AI的多样性,而非重复主流。

5.3 进阶方向:超越单次生成

当熟悉基础工作流后,可以尝试更进阶的玩法,这些玩法能极大拓展创作边界:

  • 连环画与分镜:用ChatGPT生成一段短故事脚本,然后为每个关键场景生成MidJourney图像,保持角色和风格的一致性(通过固定种子、角色描述和风格关键词),可以快速做出高质量的概念分镜。
  • 3D模型贴图与概念:用MidJourney生成各种材质、纹理的图片(如“seamless texture of ancient dragon scale, top down view”),作为3D模型的贴图。或者生成多角度的概念图(正视图、侧视图、45度角视图),辅助3D建模。
  • 动态创意:将MidJourney生成的一系列图像,结合ChatGPT编写的旁白或对话,用视频剪辑软件配上音乐和简单动画,制作成动态概念短片或情绪板视频,提案时说服力极强。

工具始终在进化,但核心从未改变:艺术家的眼、脑、心。ChatGPT和MidJourney像是给我装上了一对动力强劲的翅膀,让我能飞得更快,探索以前难以抵达的创意空域。但飞向何方,在哪片云彩上停留,为何处的景色感动,依然由我自己决定。这场实践探索告诉我,创作瓶颈从来不是创意的终点,它只是提醒我们,是时候换一种方式,重新看看这个世界了。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询