name_en: Grimm in Wonderland: Prompt Engineering with Midjourney to Illustrate Fairytales
name_ch: 用Midjourney生成格林童话插图
paper_addr: http://arxiv.org/abs/2302.08961
date_publish: 2023-02-17
author: Martin Ruskov,米兰大学
针对生成图的提示工程,利用工具 Midjourney v4,进行了一系列实验。得出一个生成提示的4阶段过程:初始提示,成分调整,风格细化,加入变化。另外还讨论了生成图像效果不佳的三个原因: 计数困难,难以生成假定的场景,无法描述过于奇异的情况。作者认为这不仅用于生成图片,且对未来的生成模型具有普适性。
之前的提示工程研究包含:主语,动词,环境,风格;之后又有人提出:主题词,风格修饰语,图像提示,质量助推器,重复,和魔术术语的方法。
Midjourney是实践中最受欢迎的工具之一,尽管它是商业的,对建筑也知之甚少。目前的Midjourney V4更为复杂,它支持更多知识,能生成更多细节,可接受更复杂的提示,能处理多实体的场景。
当前的图像生成器不仅能通过文本作为输入并产生图像,还支持输入修饰语对图像进行修正。目前已知VQGAN + CLIP和Stable Diffusion具有截然不同的架构,对Dall - E和Midjourney的架构知之甚少。因此,文中未讨论Midjourney专用的魔术术语和质量设置参数,而主要关注一些通用的方法,如主题风格等。
第一步,从原始文本中推导出主题提示,并对其进行简化和调整(如用特定的名词替换代词),以改善结果。
这里的风格指代了前人文中的媒体和风格,由于生成童话插画,希望生成器不要引入过多细节(Midjourney默认的艺术画风格细节比较丰富),所以尝试了书籍插图或极简主义插图等风格修饰语来限制风格。
实验并没有上传参考图片,利用了Midjourney提供的图像微调功能。在不使用基于图像的微调的情况下,图像之间的一致性是一个挑战,比如对同一个童话生成不同场景时,同一人物可能生成的完全不同,本文不讨论此问题。
图-1展示了原始文本,调整后的提示文本,以及最终生成的比较满意的图片。
https://www.midjourney.com/
主界面点Join the Beta,此时就进入了绘画的聊天室,可以看到别人的画作