像 Midjourney 这样的 AI 图像和文本生成工具,正是 Arthur C. Clarke 所说的“任何足够先进的技术都与魔法没有区别”。
https://openai.com/blog/dall-e/
我们都知道人工智能正在取代我们的工作,我们只是认为创造力是人类独有的东西。在我们到达奇点之前,不是最后一件事,看起来白领设计和写作工作将是第一批。你可能认为这是一个小众兴趣,但一些人工智能艺术社区的规模已经接近流行的视频游戏社区的规模(1年接近2020万,一年后接近13万+)。这比任何人意识到的都要大。
http://midjourney.com/
通过几分钟的工作编写简单的文本提示,您可以获得的输出非常好。早期采用者在社交媒体上分享他们的创作时,经常会大吃一惊。围绕“提示工程”,已经出现了一个新生的社区:分享让人工智能做你想做的事的技巧和窍门。将文字转化为艺术。
首先,定义。“提示”是我们在与 AI 模型通信时提供给它们的输入。“提示工程”是发现可靠地产生有用或所需结果的提示的过程。你从生成式 AI 模型中获得的输出是非确定性的,这是一种奇特的说法,有时它随机会产生废话。为了解决这个问题,你必须适当地优化你的提示,对它们进行 a/b 测试,看看哪些是大规模的。
这是一个我非常熟悉的话题,并在 Udemy 上创建了一个名为“提示工程原理:ChatGPT 和 DALL-E”的在线课程,您可以在其中学习一套面向未来的 AI 原则。或者你可以继续阅读,以确定我是否知道我在说什么。:-)
https://twitter.com/karpathy/status/1273788774422441984?s=20
在这篇文章中,我将首先分享价值:一个提示工程模板,您可以立即使用它来开始。我将向您介绍模板的工作原理,以便您可以立即开始试验。如果您想了解更多关于这些创新工具将如何改变我们进行创造性工作的方式,请继续阅读。最后,我将根据我自己使用 AI 艺术来说明我的书的经验进行案例研究。
提示的五大支柱
人工智能的进步速度快得令人眼花缭乱。感觉就像每周都会有新的和创新的东西掉落。根据对大多数人工智能论文托管的arXiv数据库的分析,每个月发表的人工智能论文数量每24个月翻一番:呈指数级增长。
https://www.reddit.com/r/singularity/comments/xwdzr5/the_number_of_ai_papers_on_arxiv_per_month_grows/所有这些创新都是由开发人员的采用推动的,大批研究人员、黑客、业余爱好者、企业家和修补匠都聚集在这个行业,因为他们认识的所有最聪明的人都发现了这个错误。正如克里斯·迪克森(Chris Dixon)所说,“最聪明的人在周末做的事情,就是十年后其他人在一周内所做的事情。像 Stable Diffusion 这样的开源 AI 项目是 GitHub 上增长最快的存储库之一(如果一开始你没有看到它,它是看起来像 Y 轴的淡蓝色线,因为它是如此垂直)。
https://twitter.com/a16z/status/1592922394275872768/photo/1
技术人员对人工智能的日益普及已经渗透到主流公众中,特别是自 OpenAI 于 2022 年 1 月发布 ChatGPT 以来。使用量完全爆炸式增长,推动了比任何人预期的更多的需求,包括 OpenAI,从那时起,OpenAI 就一直抱怨 GPU 受到限制。ChatGPT 一直是有史以来增长最快的消费者应用程序,在 5 天内达到 100 万用户,在 2 个月内达到 <> 万用户。
https://twitter.com/kylelf_/status/1623679176246185985?t=g9wnm52DZEfe42CJAjooRA&s=03
这是不可能的,这意味着今天有效的技巧和窍门不太可能长期有效。OpenAI首席执行官山姆·奥特曼(Sam Altman)表示:“我认为我们在五年内不会继续进行快速工程设计。弄清楚如何通过在末尾添加一个改变其他一切的魔术词来破解提示”。好消息是,他接着说:“永远重要的是想法的质量和对你想要什么的理解。Sam 的意思是,无论人工智能发生什么,能够提出好的想法并有效地沟通它们将继续很重要。
注意:我受委托与O'Reilly合作编写一本基于这些原则的书,该书将于2024年出版,但未经编辑的版本目前可在线预发布。
https://learning.oreilly.com/library/view/prompt-engineering-for/9781098153427/
与其学习技巧,不如专注于与人工智能合作的永恒方式:它们在过去是有用的,并且很可能在未来很长一段时间内仍然有用。我称它们为提示的五项原则。
1. 给出方向:详细描述所需的风格,或参考相关角色。
2. 指定格式:定义要遵循的规则,以及响应所需的结构。
3. 提供示例:插入一组正确完成任务的各种测试用例。
4. 评估质量:识别错误并评估响应,测试推动性能的因素。
5. 分工:将任务分成多个步骤,为复杂的目标链接在一起。
首先,让我们看一下 GPT-4 的典型初学者提示。
我可以为一双适合任何鞋码的鞋子提供产品名称列表吗?
我们怎样才能改善我们的沟通?人工智能不得不做大量的猜测,这并不总是能给我们带来我们想要的结果。它也在抱怨这项任务,并以一种相对非结构化的格式交付了它。如何设计此提示以可靠地产生有用的结果?
产品描述:家用奶昔机种子词:快速、健康、紧凑
产品名称:HomeShaker、Fit Shaker、QuickShake、Shake Maker产品描述:一双适合任何脚型
的鞋子 种子词:适应性强、合身、全能合
身 产品名称:
上面的例子应用了提示的 5 条原则。它提供了如何回答您的提示(家用奶昔机)的示例,就我们想要什么样的答案(种子关键字)提供指导,它调整模型参数以更改我们得到的答案(温度),明确我们期望的格式(产品名称),并使用链接将多个 AI 响应串在一起。
这些原则可以跨模型转移,并且与生成文本时一样适用于文本到图像。让我们看一个需要设计的图像提示示例:
一张以星夜为灵感的襟翼连衣裙的女人的照片 --V 5
我们没有得到我们想要的结果——一个女人穿着受梵高《星夜》启发的连衣裙的形象——但只要稍加及时的工程工作,我们就可以到达那里。这些模型几乎可以做任何事情,你只需要知道如何问!
https://s.mj.run/2s5NHHniK9E :: 0.1 一张照片,拍板,拍打连衣裙,灵感来自星夜,浅黄色和深蓝色漩涡漩涡,笔触 --V 5
我根据 3 年使用 GPT-2020 测试版和 2022 年使用 Midjourney 测试版时对我有用的方法开发了这些原则。他们今天仍然可以使用 GPT-4 和 Midjourney v6,因此他们将继续使用 GPT-5 和 Midjourney v7,或者我们未来使用的任何模型。
让我们更详细地了解一下:
1. 给出方向:详细描述所需的风格,或参考相关角色。
产品描述:家用奶昔机种子词:快速、健康、紧凑
产品名称:HomeShaker、Fit Shaker、QuickShake、Shake Maker产品描述:一双适合任何脚型
的鞋子 种子词:可调节、大脚、通用
产品名称:
你要开始的第一件事就是给出风格指导。在这个提示中,我们使用种子关键字来做到这一点,告诉 AI 在潜在空间的哪个部分搜索一个想法。在原始提示中,我们用“adaptable”、“fit”或“omni-fit”进行播种,在这种情况下,我们将其更改为“adjustable”、“bigfoot”和“universal”,因此我们得到了非常不同的结果。提供方向确实会使 AI 结果产生偏差,就像任何好的智能(人工或其他)一样,它希望为您提供您想要的东西,并且可能过于从字面上理解。对你的反馈要模棱两可,就像你对人类文案或设计师所做的那样:如果你告诉他们如何完成他们的工作,你就不会给他们机会让你惊喜。
借助 AI 图像生成,给出方向是最重要的原则,因为像 Midjourney 这样的工具了解每个主要的艺术家和艺术风格,并且可以精确地复制它。这就是上艺术学校或接受文化教育可以成为巨大优势的地方,因为您知道使用所有正确的词语以及如何以美观的方式混合风格。如果你像我一样没有文化,你可以通过将你喜欢的图像上传到 Midjourney Describe 功能来对其进行逆向工程,该功能会为您提供四个提示,可以生成类似的图像。我不会想到在我的提示中使用“漩涡”这个词来描述梵高使用的漩涡,而且我知道包括这个词,我得到了更好的结果。

2. 指定格式:定义要遵循的规则,以及响应所需的结构。
产品描述:家用奶昔机种子词:快速、健康、紧凑
产品名称:
1. HomeShaker
2.适合摇床
3.快速摇晃
4.Shake Maker产品描述:一双适合任何脚型
的鞋子 种子词:适应性强、合身、全能合
身 产品名称:
当我们只是在玩人工智能时,尤其是像 ChatGPT 这样的东西,响应的结构并不重要。然而,很快你就会开始想要将人工智能插入到生产工具中,这时结构就变得很重要了。如果 AI 不能每次都给你一致的格式化结果,那么任何严肃的工作都不可能依赖结果。你提示 AI 的方式真的很重要:从给出的示例到你如何完成提示,都为 AI 提供了如何响应的指导。GPT-4 是一个数据格式专家和通用翻译器。它不仅限于将法语转换为英语或提供逗号分隔或编号的响应,它甚至可以返回 JSON、YAML 或其他结构化数据。
同样,图像模型能够输出您喜欢的任何格式。无论您是想要库存照片、油画还是冰雕,Midjourney 都可以用任何给定的概念为您复制这种格式。有时,格式会与您赋予它的样式发生一些冲突,因此请尝试一系列格式和样式以获得最佳效果。如果你正在为想法而苦苦挣扎,我构建了一个简单的免费工具,称为可视化提示生成器,您可以使用它来列出所有最常见的格式和样式。
https://tools.saxifrage.xyz/prompt
3. 提供示例:插入一组正确完成任务的各种测试用例。
产品描述:一款可以在太空中准确显示时间的手表 种子词:宇航员、太空硬化、椭圆轨道 产品名称:iNaut、iSpace、iTime产品描述:家用奶昔机
种子词:快速、健康、紧凑
产品名称:iShake、iSmoothie、iShake Mini产品描述:一双适合任何脚型
的鞋子 种子词:适应性强、合身、全能合
身 产品名称:
GPT-4 之所以如此出色,原因之一是它能够进行零样本推理,这意味着在没有任何示例的情况下给你一个答案。然而,这并不意味着举例不能从根本上提高回应的质量。举例是我们在向人类介绍情况时经常做的事情,因此,即使人工智能成为超人,这仍然会有所帮助。但要小心:人工智能倾向于从示例中学到太多东西,而提供太多类似的例子会使人工智能的答案不那么有创意,正如我们在上面的史蒂夫·乔布斯(Steve Jobs)iFit、iAdapt示例中看到的那样。您可以将提供示例视为对 AI 的“微调”,以便它产生一致的结果。提示长度是有限的,因此如果您无法容纳足够的上下文,将 LlamaIndex 与 Pinecone DB 一起使用可以帮助将上下文注入到每个 API 调用中。如果你想定期获得一致的结果,那么通过在大量示例上训练模型来实际微调模型可能是有意义的,这以更高的成本获得。
对于图像示例,我包含了电影《了不起的盖茨比》中的剧照(这是提示前面的 URL - 您可以通过将图像上传到 Discord 然后单击“复制链接”来获得它)。通常,包括一个你想要的东西的例子比描述你的愿景更容易,但如果你将输出用于商业用途,要小心侵犯版权。我把这部分提示的权重降低了 90%,把它放在它后面。:: 0.1
https://people.com/tv/the-great-gatsby-tv-series-in-the-works-from-tudors-creator-michael-hirst/
4. 评估质量:识别错误并评估响应,测试推动性能的因素。
产品描述:家用奶昔机种子词:快速、健康、紧凑
产品名称:HomeShaker、Fit Shaker、QuickShake、Shake Maker产品描述:一款可以在太空
中准确报时的手表 种子词:宇航员、太空硬化、椭圆轨道 产品名称:AstroTime、SpaceGuard、Orbit-Accurate、EliptoTime
产品描述:一双适合任何脚型
的鞋子 种子词:适应性强、合身、 全能贴合
产品名称:产品描述:一双适合任何脚型
的鞋子 种子词:可调节、大脚、通用
产品名称:
LLM 的工作原理是选择下一个可能出现在句子中的单词,但它不会统一选择它们:有时它会选择仍然适合但相对罕见的单词——有随机性元素,你不能总是控制你会得到什么。有些提示比其他提示“更安全”,并且对错误、错误、幻觉和其他不良结果更可靠。其他提示的平均表现要好得多,并且可能产生比您预期的更大的差异。您甚至可能想针对其他 LLM 测试您的提示,而不仅仅是 OpenAI 提供的提示。无论你做什么,多次运行多个提示都会加快你的学习曲线,让你获得更好的结果。专业提示:使用LangChain并启用跟踪,并将结果泵入LangSmith,以便于之后的分析和调试。
在图像生成中,这个原则通常是在提示中尝试很多不同的单词,然后手动检查结果。或者,如果您想快速分析您的提示,请使用 Midjourney 中的“缩短”功能,该功能会查看提示中的标记,并为您提供提示中最重要的部分的情报。

5. 分工:将任务分成多个步骤,为复杂的目标链接在一起。
请根据“一双适合任何脚型的鞋子”的产品名称进行评分,因为它们的朗朗上口、独特性和简单性。以 1-5 的等级对它们进行评分,其中 5 分是最高分。仅使用包含结果的表进行响应。
一旦你开始使用人工智能来完成实际工作,你会发现你经常需要多次调用才能完成一项任务。由于某些模型的提示限制在大约 4k 个标记(大约 1k 个单词)左右,因此将任务分解为多个提示效果很好。这里给出的例子是,我们要求模型根据一组标准评估它给出的选择。由于 LLM 的工作方式,总是预测下一个标记,因此它们在事后将自己的工作作为单独的提示进行评分实际上更加连贯,而不是在生成标记的过程中使工作连贯一致。Langchain 等工具可以将多个操作串联在一起,并保持提示井井有条,为生产做好准备。
并非每个模型都擅长所有方面,随着我们从 OpenAI 中多样化,我们看到许多快速工程工作流程包含多个 AI 模型来处理不同的专业任务。例如,DALL-E 3 往往适合图像和构图上的文本,而 Midjourney 具有美丽的美感,可以更好地制作奇幻风格。对于某些任务,该模型甚至不必是生成式 AI,例如,background.bg AI 模型非常适合从图像中删除背景,仅此而已。
https://background.bg/
如果你想学习提示工程,你可以查看我在 Vexpower 上的提示工程课程,或者查看我关于生成式 AI 的提示工程的书,该书由 O'Reilly Media 于 2024 年初出版。
图像提示工程模板
学习 DALL-E、Midjourney 或 Stable Diffusion 等 AI 模型的最佳方法是反复试验。您将立即看到 AI 生成工具的强大功能,并立即被吸引。
即使您确实有访问权限,它也可以严重帮助改进您的提示,以便从其他人的发现中学习。我在学习时将本指南放在一起,并与您分享,这样您就不必以艰苦的方式学习。
> 提示工程模板
这是一份活生生的文件——所以请给我(@hammer_mt)发推文,提出任何建议、技巧和窍门,随着最佳实践的不断涌现,我会继续补充。
模板的核心是在 DALL-E、Stable Diffusion 或 Midjourney 中构建提示的工作流程。有了提示,你应该从主题词开始,无论你试图创建什么(即“太空鲸鱼”)。然后,使用可选的附加修饰符来更改图像的样式、格式或透视,从而增加提示的复杂性。已经发现某些神奇的单词或短语有助于提高图像的质量(即“在艺术站上流行”)或营造一种有趣的氛围(即“控制灵魂”),这些在公开分享的例子中占有重要地位。

模板的大部分使用将来自数百个单词的列表,当您在提示中使用它们时,这些单词会得到有趣的结果。您可能不知道所有不同的艺术风格或艺术家,了解不同的修饰符可以改善提示结果会很有帮助。我从我自己的经验和研究中收集了这些,看看其他人都在寻找什么作品。继续尝试它们,看看什么能引起你的共鸣。为您处理的每个项目保留自己的提示库。

最后,在我学习提示工程的旅程中,我跟踪了各种有用的文章、链接和工具。正如我从自己的经验和其他人的经验中学到的那样,我添加了提示和技巧以及我遇到的各种术语,所以你不必以艰难的方式学习。我最好的建议是点击其中一些链接,让自己沉浸在其他人在这个领域所做的事情中,并阅读本文的其余部分,以更深入地了解提示工程。

更新:感谢@mostlynotworkin,他拿走了我的提示模板,并在您每次刷新页面时随机生成提示!
> 随机提示工程模板
---
从那以后,我发布了一个名为“Visual Prompt Builder”的免费工具,它通过向您展示所有样式的外观来帮助提示工程。
> 视觉提示生成器
https://tools.saxifrage.xyz/prompt
技巧和窍门
当然,在短期内,有一些技巧、窍门和技巧是有效的,可以帮助你掩盖当今人工智能工作方式的裂缝。如果你有任何提示的工程黑客,请向我发推文(@hammer_mt),我会把它们放在这里。
简单重复
为了确保 Dalle-2、Midjourney 或其他 AI 艺术工具在生成图像时真正确定重要角色,简单的重复效果出奇地好。提示:“荷马·辛普森,来自辛普森一家,吃甜甜圈,荷马·辛普森,荷马·辛普森,荷马·辛普森”
好吧,不完全是我想要的
发明虚构作者/艺术家
GPT-3 和 DALL-E 等工具的一个道德问题是,我们正在复制著名作家和艺术家的风格,而没有注明出处。由于模型的工作方式,我们无法判断我们复制了多少样式,以及限制应该在哪里。一个令人惊讶但又优雅的技巧是发明虚构的作者和艺术家。人工智能将想象这个人会有什么风格,并产生一致的结果。
https://twitter.com/fabianstelzer/status/1554229352556109825/photo/1
Dreambooth 和文本反转
这个领域的创新速度很难跟上,时间会证明什么才是重要的。然而,一个显而易见的巨大飞跃是文本反转和梦幻室。这是目前仅适用于 Stable Diffusion(DALL-E 的开源竞争对手)的一项新功能,允许您根据特定概念训练 AI 模型,仅为其提供少量 (3-5) 个示例图像,然后从概念库下载该概念以稍后在提示中使用,或者在 Dreambooth 的情况下作为包使用.这意味着您现在可以引入自己的对象、角色或样式,并获得匹配的一致结果。例如,如果你在皮卡丘的概念上训练了 Stable Diffusion,你可以稍后在提示中再次将其引用为 <Pikachu>。
https://twitter.com/TomLikesRobots/status/1568916040599363586?t=Bmyz1UrXmna_Ds15E1GfCg&s=03
它处理图像并找到该表示将存在的相应潜在空间,并基本上以标记的形式在那里放置一个标记。Dreambooth 的资源密集度更高,但它实际上训练了模型,而不是在潜在空间中找到一个点,因此它可以更准确、更可靠。这为这些 AI 模型开辟了一个创造性用途的世界,因为现在它们可以从有趣的玩具转变为一致、可靠的工具。例如,您可以想象一家品牌代理机构致力于就其客户品牌的概念对 Stable Diffusion 进行培训,当包括在内时,该品牌将始终制作遵循品牌风格指南的艺术作品。
https://textual-inversion.github.io/
视频游戏设计师或电影制作人可以在角色上训练 Stable Diffusion,然后在各种场景中使用该角色。产品设计师可以训练 Stable Diffusion 识别他们的产品,然后轻松地以不同的风格、场景和视角展示该产品。这很大。
https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/sd_textual_inversion_training.ipynb
为了测试它,我用一个Reddit用户的一些概念图训练了Stable Diffusion,他喜欢把《星球大战》中的东西变成老画。我很欣赏这种艺术风格,但我在一百万年内永远不会有创造类似东西的天赋。所以只是为了好玩,我试着看看我是否可以让 AI 为我生成一幅罗马参议院的 Jar Jar Binks 画!正如你在下面看到的,人工智能事先肯定不知道这种风格,但它从4个小时的训练(在Google Colab GPU上)中学会了6个样本图像。我当然可以继续训练 Stable Diffusion 来理解 Jar Jar Binks 的概念,但我不希望迪士尼追随我!

如果你想尝试文本反转,最简单的方法可能是查看 huggingface 概念库,要么为它做出贡献,要么按照说明创建你自己的私有概念。它们提供了指向 Google Colab 笔记本的链接,这些笔记本可让您免费运行完整的代码,这要归功于 Google 免费提供的慷慨 GPU 访问权限,以及 Stable Diffusion 完全开源的事实。许多 AI 工具(例如 AvatarAI)在引擎盖下使用此功能,以便将自己的脸实际放置在图片中。
https://twitter.com/hammer_mt/status/1580198284186222592
递归提示以捕获错误
LLM 的一个常见问题是它们会犯错误。有时他们会产生幻觉,弄错上下文,或者以错误的格式输出一些东西。你可能会认为答案是把问题踢给人类,但你错了:给人工智能一个纠正错误的机会!通常,只要你的提示是好的,通过正确的递归反馈循环,它就可以得到正确的答案。您可以通过提示来跟进每个响应以检查常见错误,您甚至可以将错误反馈到 GPT-3 并要求它修复错误。
https://www.patterns.app/blog/2023/01/18/crunchbot-sql-analyst-gpt/
创意工作的未来
当这项突破性技术的全部影响得以实现时,所有艺术家和作者将如何为工作做些什么?他们都会失业吗?
答案是否定的,当然不是。尽管 Midjourney 和 GPT 很了不起,但它们并不是魔法。它们和其他工具一样。在经历了引入新技术的动荡变化之后,人们接受了再培训或换工作,我们继续提高生产力。
Disney no longer illustrates cartoons by hand, but they own Pixar where higher quality renderings can be done via computer. Many illustrators learned computers, a lot will have retired, some progressed to management, and others still do things manually.
Over a long enough time period, even technologies that obliterate whole categories of industry eventually become commonplace, and those people find other things to do.
1908 年,在汽车主导交通之前,仅纽约就有 120,000 匹马,必须喂养、梳理和照顾。他们每天在城市的街道上产生 2 万磅的粪便。你知道今天有没有失业的马屎铲子吗?
事实是,创意专业人士花费的大部分时间都花在了铲马废话上。生成式人工智能工具有可能为他们处理这个问题。
为了利用这个机会,创意人员只需要重新构建他们提供的价值。让 Midjourney 成为艺术家;你可以成为策展人。让 ChatGPT 成为作者;你可以成为编辑。
以下是人工智能如何承诺使创造性工作变得更好的一些具体例子:
将工程提示作为一项工作
提示工程的大部分工作都是持久性的:这些工具仍处于测试阶段,使用 AI 需要大量的试验和错误,以及一些技术知识。也许这就是为什么一些公司每年为提示工程师支付 250 美元至 335 美元的原因!
https://jobs.lever.co/Anthropic/e3cde481-d446-460f-b576-93cab67bd1ed
一个伟大的提示工程师是什么是他们能够清晰地沟通。当你可以创造任何你想要的东西时,瓶颈就变成了你准确表达它的能力。
https://twitter.com/DynamicWebPaige/status/1512851930837843970
您可以采用一些行业提示和技巧来立即改善您的结果。例如,告诉 GPT-3 “有帮助”会增加其答案的真实性。添加“artstation 上的趋势”往往会提高 DALL-E 2 的图像质量。
然而,提示工程的绝大多数工作只是作为历史和文学的学生。自从接触到DALL-E 2后,我在某种程度上变成了一个业余的艺术史学家。我一直在学习不同艺术运动的名称,尝试灯光和摄影术语,并熟悉我以前从未听说过的艺术家的作品。
现在,只需知道样式的名称,您就可以立即复制它。每种风格都有自己的“模因”——文化信息的单位——它们共同构成了一种类别或风格与另一种风格之间的区别。GPT-3 和 DALL-E 已经看过足够多的梵高图像和描述,知道提示“星夜风格”的意思是这样的:
“这幅画由厚厚的颜料笔触组成,这些笔触以漩涡状的图案涂覆。颜色多为蓝色和绿色,也有一些黄色和红色。夜空中的星星用白点渲染。这幅画有一种梦幻般的品质,整体效果是一种强烈的情感。
画。粗笔触。漩涡状图案。蓝色和绿色。白点星。梦幻。激情。这些是与梵高相关的模因,它们共同构成了他的风格。如果你让任何艺术家给你画一些“星夜风格”的东西,他们的大脑会从记忆中联想到这些完全相同的联想。这正是 DALL-E 2 正在做的事情,只是它的大脑是人造的,它的记忆是互联网的整个语料库。这使它能够想象几乎任何东西,例如,如果你缩小到风景的其余部分,蒙娜丽莎会是什么样子。
https://mixed-news.com/en/what-would-mona-lisa-look-like-with-a-body-dall-e-2-has-an-answer/
因此,作为提示工程师工作的培训与作为艺术家或撰稿人的培训非常相似。你需要阅读伟大的小说,了解著名的艺术运动,了解人性,以及什么能与你的目标受众产生共鸣。绘制出所有不同类别的模因。将它们混合在一起,实现独特的效果。这一切都没有改变:它能够以令人眼花缭乱的速度将你的想象力转化为电脑屏幕。
Prompt Engineering 案例研究
关于它是如何工作的,请以我正在写的关于营销模因学的书的插图为例。这本书的主题之一是我们的大脑在过去200万年中没有进化:我们本质上是穴居人,试图理解现代世界及其所有奇妙的技术。于是我萌生了一个想法,把古代历史人物,把他们扔进一个未来主义的城市里。
在 AI 艺术生成器出现之前,这将如何工作:
我把我的书写成一个充满激情的项目。我没有出版商的支持,我打算把它放在 Gumroad 和亚马逊上。我不知道是否有人会买它。所以实际上我不会做上述任何事情:我必须在网上下载一些免费的矢量艺术,并继续做白日梦,幻想我脑海中的定制油画。
一个考虑因素是,DALL-E 的创建者 OpenAI 目前保留您在其平台上制作的所有图像的版权,并且不允许您生成用于商业用途的图像。请注意,只有图像本身受版权保护,而不是提示或样式,因此您应该可以使用DALL-E来构思,然后根据结果委托最终版本(我不是律师,这不是法律建议)。我之所以使用Midjourney(DALL-E的竞争对手),部分原因是只要你有企业计划,它们就允许将内容用于商业用途。
以下是它与 Midjourney 的实际工作方式:
我从尼尔·斯蒂芬森(Neal Stephenson)的《雪崩》(Snow Crash)开始,这是一部关于心灵病毒的小说,是我自己写书的灵感来源。

回想起来,我对《Midjourney》的第一个提示是“一个拿着武士刀的人站在古巴比伦的大门前,凝视着未来主义的城市景观”,这给了我以下结果:

我实际上觉得这有点令人沮丧,所以我玩了一会儿,看看其他人在Midjourney中做了什么。因为它都是通过 Discord 服务器(类似于 Slack)运行的,所以你可以看到其他人都在使用什么提示,以及他们得到的结果。

因此,经过一些实验和学习了快速工程的秘密,我开始得到更好的结果。提示“现代曼哈顿古代武士的超现实照片”让我走上了正确的道路。

The top left image was actually pretty compelling, but it wasn’t quite right. I decided I wanted an oil painting, in part to hide the imperfections of the image. So I started researching different artistic styles and found something I was immediately drawn to “The Fall of Rome” by Tomas Cole, part of the “Course of Empire” series.
https://en.wikipedia.org/wiki/The_Course_of_Empire_(paintings)#/media/File:Cole_Thomas_The_Course_of_Empire_Destruction_1836.jpg
多亏了维基百科,我才知道这种艺术风格被称为“哈德逊河画派”,托马斯·科尔被认为是该画派的创始人。我不知道!我以为这是一位意大利老艺术家画的,而不是 1800 年代北美的某个人。现在我有了我的审美,结果得到了显着改善。我的提示变成了“哈德逊河画派风格的画布上褪色的油画,描绘了一位古代武士士兵抵达未来派乌托邦式的上海城市。从后面。广角。
关于它是如何工作的,请以我正在写的关于营销模因学的书的插图为例。这本书的主题之一是我们的大脑在过去200万年中没有进化:我们本质上是穴居人,试图理解现代世界及其所有奇妙的技术。于是我萌生了一个想法,把古代历史人物,把他们扔进一个未来主义的城市里。
在 AI 艺术生成器出现之前,这将如何工作:
我把我的书写成一个充满激情的项目。我没有出版商的支持,我打算把它放在 Gumroad 和亚马逊上。我不知道是否有人会买它。所以实际上我不会做上述任何事情:我必须在网上下载一些免费的矢量艺术,并继续做白日梦,幻想我脑海中的定制油画。
一个考虑因素是,DALL-E 的创建者 OpenAI 目前保留您在其平台上制作的所有图像的版权,并且不允许您生成用于商业用途的图像。请注意,只有图像本身受版权保护,而不是提示或样式,因此您应该可以使用DALL-E来构思,然后根据结果委托最终版本(我不是律师,这不是法律建议)。我之所以使用Midjourney(DALL-E的竞争对手),部分原因是只要你有企业计划,它们就允许将内容用于商业用途。
以下是它与 Midjourney 的实际工作方式:
我从尼尔·斯蒂芬森(Neal Stephenson)的《雪崩》(Snow Crash)开始,这是一部关于心灵病毒的小说,是我自己写书的灵感来源。

回想起来,我对《Midjourney》的第一个提示是“一个拿着武士刀的人站在古巴比伦的大门前,凝视着未来主义的城市景观”,这给了我以下结果:

我实际上觉得这有点令人沮丧,所以我玩了一会儿,看看其他人在Midjourney中做了什么。因为它都是通过 Discord 服务器(类似于 Slack)运行的,所以你可以看到其他人都在使用什么提示,以及他们得到的结果。

因此,经过一些实验和学习了快速工程的秘密,我开始得到更好的结果。提示“现代曼哈顿古代武士的超现实照片”让我走上了正确的道路。

左上角的图片实际上非常引人注目,但并不完全正确。我决定要一幅油画,部分是为了隐藏图像的不完美。因此,我开始研究不同的艺术风格,并发现我立即被托马斯·科尔(Tomas Cole)的《罗马的陷落》(The Fall of Rome)所吸引,这是“帝国历程”系列的一部分。
https://en.wikipedia.org/wiki/The_Course_of_Empire_(paintings)#/media/File:Cole_Thomas_The_Course_of_Empire_Destruction_1836.jpg
多亏了维基百科,我才知道这种艺术风格被称为“哈德逊河画派”,托马斯·科尔被认为是该画派的创始人。我不知道!我以为这是一位意大利老艺术家画的,而不是 1800 年代北美的某个人。现在我有了我的审美,结果得到了显着改善。我的提示变成了“哈德逊河画派风格的画布上褪色的油画,描绘了一位古代武士士兵抵达未来派乌托邦式的上海城市。从后面。广角。

现在我有了正确的外观,这只是一个通过生成我喜欢的变体的更多变体来反复迭代的情况。在短短几代人的时间里,我以这种方式发展了图像,我得到了以下画作,当我在今年年底(2022 年 <> 月 - 注册更新)自行出版时,它将成为最后一本书。

后来,当我离开候补名单时,我在 DALL-E 中复制了它,只是为了看看它如何比较。即使 DALL-E 看起来更干净,我实际上更喜欢 Midjourney 的风格。只是为了好玩,我决定尝试DALL-E中的“outpainting”,这是人们已经发现的一个独特的未记录功能。它的工作原理是获取您的原始图像,然后在 Photoshop、Photopea 或 Figma 中对其进行编辑,使其周围有空白。然后,您上传到 DALL-E 并使用他们的编辑功能来擦除和填充多余的空间。其效果是,您可以从图像中“缩小”,由AI填补空白。结果是装饰了这篇博文标题的图片(我用白色边框突出显示了原始图像,以便您可以看到它适合的位置)。

我们已经走了多远,我们能做些什么,这已经很了不起了。我真的对设计、创造力或艺术一无所知。我职业生涯的大部分时间都在 Excel 电子表格和 Python 脚本上度过。然而,在这里,我正在为我自己的书绘制插图,在一天的时间里,价格为30美元。
仅此一项就具有极大的破坏性,但真正改变游戏规则的是我接下来能够做的事情。现在我有了一种视觉风格,我可以把我的提示当作我的书的“品牌指南”,并生成任意数量的新图像!我所要做的就是将提示从“......一个古代武士士兵的到来......“到我喜欢的其他古代人。罗马书。希腊。巴比伦人。埃及。蒙古。我还可以改变城市,看看哪种搭配看起来最好。伦敦。纽约。洛杉矶。迈阿密。德里。最后,在接下来的一周里,我在业余时间创作了 30 多种组合,所有组合都具有相同的概念和一致的美学,因此我可以每章选择一个,如果我愿意,甚至可以在每篇博文中生成一个,成本完全可以忽略不计。
不只是我。我知道广告公司正在尝试使用 Midjourney(比 OpenAI 更好的许可)为他们的客户制作广告。人们正在通过结合 GPT-3 和 DALL-E 来创作儿童读物。《Vogue》杂志用 DALL-E 2 创作了他们最新的封面之一。我的一个朋友甚至用《Midjourney》来说明他的短篇科幻小说,以激励更多人关注气候变化。创意工作的未来即将到来,最好走在前面。获得一些快速工程方面的经验。◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。