编者按:基于 AI 的各种产品越来越多,这些 AI 大都依托提示词来生成内容,那么这些产品和服务当中的提示词要如何安置,如何设计?资深设计师基于微软出品的 Microsoft Designer 产品的设计,梳理出了 6 个设计原则,下面是正文:
Microsoft Paint 我一直在接触,当我听到 Microsoft Designer 发布的时候,我就开始为此感到兴奋了。微软这种体量的公司开始认真地使用 AI 技术的时候,它真的会让 AI 惠及用户。不仅仅是 Microsoft Designer,他们还将各种 AI 相关的技术应用到其他产品线当中。
比如微软的 Bing 搜索引擎也加入了 Image Creator 的功能。微软正在通过引导用户编写文本提示信息,让用户借此获得视觉内容,开始适应新的计算机运作方式。
「编写文本提示词是一门艺术,借此可以从 ChatGPT、Dall-E2 和 Midjourney 获得你想要的视觉内容。」
如果你曾经尝试过这类文本转图片的人工智能服务,那么你应该知道这类服务的不可预测性。生成需要正确风格的图像,可能需要很长时间的尝试,而为了让 AI 按照需求运作所进行的反复试验则被称为「提示词设计」和「提示词工程」。
AI 产品的提示词设计原则
AI 生成服务的不可预测性并非无法优化,有时候对提示词进行调整就能获得不一样的结果。我观察到 Microsoft Designer 会指引用户调整提示词,以获得更加可靠的内容输出,降低时间和算力上的浪费。
微软、Dall-E2 和用户
首先,了解所涉及到的技术和受众很有必要。Microsoft Designer 在 AI 技术上并不是微软自身的新技术,而是基于 OpenAI 出品的 Dall-E2 的产品:
Microsoft Designer 本身是一种面向营销和运营人员用来创建社交媒体内容的工具,它更像是拥有人工智能加持的 Canva,和 Figma 或者其他的 UI 设计类工具有着巨大的差别。
除了 Microsoft Designer 之外,微软顺道推出的 Bing Image Creator 也采用了类似的技术,它类似 Bing 的图像搜索,但是实际上获得的图片是基于描述使用 AI 生成的。
以下是微软引导新用户使用提示词生成 AI 图像的一些设计原则。
1、熟悉原则:提供熟悉的上下文环境
人们经常将新事物存在的风险和不确定性联系起来,而人工智能图片生成服务就很符合这种特征。
「人类天生就喜欢熟悉的事物,无论是文字、产品还是体验。」
为了让大家更加熟悉,Microsoft Designer 将 AI 图片生成器生成图片作为一个选项提供出来,和其他的图片上传选项摆放在一起:
用户可以选择:
- 从设备直接上传
- 从手机上传
- 打开媒体库
- 用 AI 生成图片
AI 和熟悉的上传内容摆放在一起,自然融入到大家熟悉的流程当中,让人感觉 AI 和我们日常操作没有太多区别。
「与其一头扎入算法当中,不如想象如今的用户是如何完成日常的操作的。」
而在 Bing Image Creator 当中,AI 的运用方式则有所不同,它更接近用户日常使用 Bing 搜索引擎一样,较早的区别在于,原本搜索栏所需要的填写的是AI 提示词,而 AI 生成图片的呈现方式则类似于 Bing 搜索图片的界面,整个体验无缝地和 Bing 搜索引擎的内容呈现保持一致。
2、透明原则:AI 并非魔法
有许多工具在用户实际使用过程中,压根没有提到他们生成内容的时候用到了 AI 技术,有时候用户需要通过其他的渠道或者深入挖掘调研才能知道相关的信息。
Microsoft Designer 在你创建内容的醒目位置,运用工具提示的方式来告知用户他们所使用的技术细节:
尽管对于用户而言,DALL-E2 是一个陌生的专业术语,但是后面紧跟着详细的解释,而不是将 AI 本身模糊化让它听起来像「魔法」一样。这段描述还可以传达出微软对于 AI 技术在道德层面上的理解和关注,并且会尽量清晰地展示背后的内容。
「如今,太多人将人工智能(AI)视作为另外一种神奇的技术,对于它的工作原理知之甚少。」
最后,将这些信息置于工具提示控件当中,也是尽量让技术术语不妨碍用户的正常使用,但是由于呈现样式会很清晰地同普通控件以及界面其他内容区分开,因此不会对用户造成可访问性上的障碍。
3、道德原则:强调 AI 的道德性
作为新生事物,AI 的不确定性让它很容易被不道德地使用。怎么使用才是道德的,这当中有很多模糊的地方,因为当下每天都会有新的用例出现,很多艺术创作者仍然会因为风格被盗用而感到愤怒,但是 AI 的艺术图片生成的速度从未放缓。
「为了防止 DALL-E2 在 Designer 和 Image Creator 中生成的结果不合理,我们正在和开发 DALL-E2 的 OpenAI 一起采取措施优化,并根据需求改进我们生成图片的方法。」
而在用户这一端,Microsoft Designer 的程序会在工具提示当中多次提示用户,如果生成的结果不合理、不符合预期的时候,让用户尽量提供反馈来帮助系统优化结果,以期后续给用户更好的结果:
Bing Image Creator 当中,也采用了类似的策略,每个 AI 生成的图片附近都会有说明性的工具提示,其中会包含相关的道德规范,以及常见问题的相关回答:
4、解释原则:告知用户结果的来源
解决了道德问题之后,根据 AI 用户体验设计原则,AI 程序应该能够让用户追溯到它原始的数据点,或者让用户以某种方式了解图片内容生成的方法,以提高内容的可信度。
「如果你是从多个来源聚合数据,那么请将它们分解开来让用户可以重现这个结果。这些信息应该作为用户流程中的一部分,并且通过一致的 UI 界面呈现出来。——《UX of AI》」
绝大多数的 AI 汪中,从 OpenAI 的 DALL-E2 到 Prompt Hero 这样的 AI 灵感素材网站,都会在图片内容上公开展示每个图片的原始来源。Microsoft Designer 以相同的方式来解释来源,当你悬停在任何一个 AI 生成的图片上的时候,它会以工具提示的方式展示来源:
这些 AI 生成图的原始来源,会呈现在界面的右侧,同时会使用文本「我们使用您的描述内容和 AI 为您设计出这些图片」,借此来陈述设计的来源。
不过,Microsoft Designer 并没有展示具体的创建图片的数据点,也没有详细解释 AI 的工作方式,这可能和 DALL-E2 的工作方式有关系,它无法实现。另外,作为一个商业产品,太过细致的内容可能超出了范畴。
5、引导原则:为用户提供建议
AI 提示词对于很多用户而言可能会比较陌生,因为提示词文本需要符合 AI 处理信息的逻辑。OpenAI 甚至提供了「优秀实践快速指南」,而GPT-3 的经验则是:
- 对所需要的背景、结果、长度、格式、风格尽可能进行具体详细的描述
- 详细阐明所需要输出的格式
- 从 zero-shot 开始,然后尝试 few-shot,如果两者都无效,再进行微调
用户靠前次撰写 AI 提示词文本的时候,可能会感觉非常陌生,而 Microsoft Designer 选择了最直接的策略,就是使用自动建议来辅助用户:
和前面提到的熟悉原则类似,结合我们的搜索习惯,搜索建议文本也是我们所熟悉的东西。
另外,这也意味着,后台必然是有着大量的用例来支撑这些自动建议文本。
6、掌控原则:让用户掌握主动权
尽管引导用户有帮助,但是依然要让用户拥有掌控权,按照他们的方式来进行创建。所以,产品本身不要完全依靠人工智能,允许用户选择跳过一些步骤,让用户选择符合他们需求的流程,让 AI 和用户协作,而不是让 AI 来接管一切。
比如,当 AI 不符合用户需求的时候,用户依然可以选择自己事先准备的图像来继续设计。在 Microsoft Designer 当中,AI 生成的图片组当中始终有取消的选项,同时「从空白画布开始创建」的选项始终存在:
这意味着用户即使完全不使用 AI 功能,依然可以借助自己准备的素材完整地创建出整套的营销内容和图片。
结语
尽管我确实想将上述的设计策略视作为一组设计法则,但是实际上它们更像是一套可供遵循的概念和范例,但是它们确实可以帮助你设计 AI 产品,这些案例和方法让你可以无需重新造轮子。
人工智能技术确实在快速发展,但是此时的应用类型和场合依然有限,随着各种工具逐步发展,这些设计方法和用例会进一步完善。关于 AI 的 UX 设计,Lennart Ziburski 撰写了精彩的入门技巧,而本文也从中汲取了不少营养。
作者:陈子木