本文作者 /ML 谷歌开发者专家王玉成
介绍
在快速发展的生成式 AI 领域,结合不同模型的优势可以带来显著的成果。通过利用谷歌的 Gemini 模型来制作详细且富有创意的提示,然后使用 Imagen 3 模型根据这些提示生成高质量的图像,您可以获得卓越的视觉效果。这个过程并不止于此;一旦图像生成,Imagen 2 可以进一步优化以满足特定需求,从而创建一个强大的工作流程,用于制作顶级视觉内容。
使用 Gemini 进行提示生成
Gemini 是谷歌开发的强大语言模型,擅长生成连贯且上下文准确的文本。在这个工作流程中,Gemini 用于创建详细且富有想象力的提示,这些提示将作为图像生成的基础。提示的质量至关重要,因为它直接影响 Imagen 2 模型的输出。通过仔细制作或完善 Gemini 的 Prompt,您可以确保生成的图像与您的创意愿景相一致。
使用 Imagen 3 生成图像
一旦从 Gemini 获得了精心制作的 Prompt,下一步就是使用谷歌的 Imagen 3 模型生成图像。Imagen 3 是一个尖端的生成式 AI 模型,专门根据文本描述生成高分辨率、细节丰富的图像。该模型以其能够以惊人的准确性渲染复杂场景、纹理和光照而脱颖而出。通过将 Gemini 生成的提示输入到 Imagen 3 中,你可以创建不仅视觉上令人惊叹,而且精确符合初始概念的图像。
使用 Imagen 2 精调生成的图像
该工作流程的最后一步是优化由 Imagen 2 生成的图像。根据需求,这可能涉及调整颜色、增强细节,甚至合并多张图像。目标是对来自 Imagen 3 的高质量输出进行微调,以确保最终图像完全符合所需的美学和功能标准。
关于 Imagen 模型的有用资源
在 Vertex AI 上查找主题 Imagen | AI 图像生成器以获取更多信息。此页面指导如何请求访问 Vertex AI 上的 Imagen。
工作流程
准备 Prompt
Vertex AI 提供多个模块供使用。首先打开 Gemini 以生成满足我们需求的理想 Prompt。要全面了解 Prompt 创建的关键方面,您可以阅读 Prompt 和图像属性指南 (需要有限访问权限)。
我们选择 gemini-1.5-flash 作为当前的语言模块,它为高容量、高质量、具有成本效益的应用提供了速度和效率。有关更多信息,请阅读 Gemini 模块。
点击 Edit 输入系统指令,然后点击保存。
System instructions:
You are an experienced article illustrator, skilled in creating illustrations for articles with a deep cultural background, capable of understanding the deeper meaning behind the text.
Prompt:
I'm currently reading the novel `One Hundred Years of Solitude` and plan to write an article expressing my sympathy for the tragic fate of the family. To enrich the content, I intend to include some illustrations in the article. After the title, I need an image that visually represents the time period and setting of the novel. We will generate and modify this image to achieve the desired effect.
I want to generate a prompt to help me generate an image, and the prompt contains the basic rules:
1. Short keyword-based prompts separated by commas.
2. Prompt includes: "A painting of...", "A sketch of..."for example
3. General Modifiers:high-quality, beautiful, stylized for example
4. Photos: like 4K, HDR, Studio Photo for example
5. Art, Illustration:by a professional, detailed for example
输入 Prompt 并点击红色标记的部分以生成结果。
结果:
原始结果:
A painting of, a bustling town square in a South American village, early 20th century, with a sense of magic realism, high-quality, by a professional artist.
Here are some variations for your prompt based on specific aspects of "One Hundred Years of Solitude":
Focus on the Buendía family: "A sketch of, the Buendía family gathered at a table, in a traditional Colombian home, with a feeling of isolation, high-quality, detailed"
Highlight the cyclical nature of history: "A photorealistic image of, a crumbling, overgrown mansion in a jungle setting, with the remnants of a forgotten era, HDR, stylized"
Emphasize the magical elements: "A painting of, a vibrant, surreal landscape, with fantastical creatures and strange weather patterns, in a dreamlike style, high-quality, beautiful"
By combining different elements of these prompts, you can create a visually striking image that perfectly captures the essence of "One Hundred Years of Solitude." Remember to experiment with different keywords and art styles to find the ideal representation for your article.
修改结果:
A painting of, a bustling town square in a South American village, early 20th century, with a sense of magic realism, by a professional artist, Focus on the Buendía family, the Buendía family gathered at a table, in a traditional Colombian home, with a feeling of isolation, high-quality, detailed.
打开 Imagen 3,检查高级选项,如下所示:
确保选项 Person/face generation is Allow (Adults Only)
此选择用于避免产生如下问题 "图像生成失败,出现以下错误:项目或用户未被允许关闭儿童检测过滤器":
输入 Prompt:
A painting of, a bustling town square in a South American village, early 20th century, with a sense of magic realism, by a professional artist, Focus on the Buendía family, the Buendía family gathered at a table, in a traditional Colombian home, with a feeling of isolation, high-quality, detailed.
点击 GENERATE,结果应该是这样的:
我喜欢第二个。我们可以点击第二张图片:
对话框显示如下:
我们使用 UPSCALE/EXPORT 按钮下载此图像,选择 Upscle images (如果需要):
点击 EXPORT 按钮以下载 PNG 格式的图像。
我们想编辑这张图片,所以我们再次检查了第二张图片。
点击 EDIT IMAGE 按钮。
顶部有很多工具可以帮助我们编辑图像。Imagen 3 现在不支持 Edit image,确保模型已更改为 imagen 2 (预计 Imagen 3 将在未来支持 Edit image)。
我想把所有远离桌子的人都移走,只留下在桌子旁边的人。所以我添加了一个 Musk box (遮罩盒) 并生成了一张图像。我们不需要任何提示来进行此操作。
点击 GENERATE 按钮后的结果:
为什么?二楼的阁楼消失了,与一楼合并,并创建了 4 幅图片。
原来,我在原始图片上添加了三个 Musk box,两个 Musk box 给人打了 Musk,一个 Musk box 给二楼打了 Musk。Imagan 3 的编辑操作有多智能?我们可以持续编辑图像。
结果是:
这是我想要的最终图片。如果您有权限,请阅读有关图像编辑的更多信息。
结论
通过将谷歌的 Gemini 模型的创造力与 Imagen 3 的先进图像生成能力以及 Imagen 2 的编辑能力相结合,您可以开发出一个强大的工作流程,以生成高质量、精致的图像。这个过程允许从文本到视觉内容的无缝过渡,提供对最终输出的灵活性和控制。无论是用于广告、内容创作还是艺术创作,这种方法都提供了一个强大的工具集,以实现卓越的视觉效果。
-
谷歌
+关注
关注
27文章
6171浏览量
105494 -
Gemini
+关注
关注
0文章
54浏览量
7604 -
AI
+关注
关注
87文章
31000浏览量
269333
原文标题:【GDE 分享】利用谷歌的 Gemini 和 Imagen 模型进行高质量图像生成和优化
文章出处:【微信号:Google_Developers,微信公众号:谷歌开发者】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论