借助谷歌Gemini和Imagen模型生成高质量图像-电子发烧友网

本文作者 /ML 谷歌开发者专家王玉成

介绍

在快速发展的生成式 AI 领域，结合不同模型的优势可以带来显著的成果。通过利用谷歌的 Gemini 模型来制作详细且富有创意的提示，然后使用 Imagen 3 模型根据这些提示生成高质量的图像，您可以获得卓越的视觉效果。这个过程并不止于此；一旦图像生成，Imagen 2 可以进一步优化以满足特定需求，从而创建一个强大的工作流程，用于制作顶级视觉内容。

使用 Gemini 进行提示生成

Gemini 是谷歌开发的强大语言模型，擅长生成连贯且上下文准确的文本。在这个工作流程中，Gemini 用于创建详细且富有想象力的提示，这些提示将作为图像生成的基础。提示的质量至关重要，因为它直接影响 Imagen 2 模型的输出。通过仔细制作或完善 Gemini 的 Prompt，您可以确保生成的图像与您的创意愿景相一致。

使用 Imagen 3 生成图像

一旦从 Gemini 获得了精心制作的 Prompt，下一步就是使用谷歌的 Imagen 3 模型生成图像。Imagen 3 是一个尖端的生成式 AI 模型，专门根据文本描述生成高分辨率、细节丰富的图像。该模型以其能够以惊人的准确性渲染复杂场景、纹理和光照而脱颖而出。通过将 Gemini 生成的提示输入到 Imagen 3 中，你可以创建不仅视觉上令人惊叹，而且精确符合初始概念的图像。

使用 Imagen 2 精调生成的图像

该工作流程的最后一步是优化由 Imagen 2 生成的图像。根据需求，这可能涉及调整颜色、增强细节，甚至合并多张图像。目标是对来自 Imagen 3 的高质量输出进行微调，以确保最终图像完全符合所需的美学和功能标准。

关于 Imagen 模型的有用资源

在 Vertex AI 上查找主题 Imagen | AI 图像生成器以获取更多信息。此页面指导如何请求访问 Vertex AI 上的 Imagen。

工作流程

准备 Prompt

Vertex AI 提供多个模块供使用。首先打开 Gemini 以生成满足我们需求的理想 Prompt。要全面了解 Prompt 创建的关键方面，您可以阅读 Prompt 和图像属性指南 (需要有限访问权限)。

我们选择 gemini-1.5-flash 作为当前的语言模块，它为高容量、高质量、具有成本效益的应用提供了速度和效率。有关更多信息，请阅读 Gemini 模块。

点击 Edit 输入系统指令，然后点击保存。

System instructions:

You are an experienced article illustrator, skilled in creating illustrations for articles with a deep cultural background, capable of understanding the deeper meaning behind the text.

Prompt:

I'm currently reading the novel `One Hundred Years of Solitude` and plan to write an article expressing my sympathy for the tragic fate of the family. To enrich the content, I intend to include some illustrations in the article. After the title, I need an image that visually represents the time period and setting of the novel. We will generate and modify this image to achieve the desired effect.

I want to generate a prompt to help me generate an image, and the prompt contains the basic rules:

1. Short keyword-based prompts separated by commas.

2. Prompt includes: "A painting of...", "A sketch of..."for example

3. General Modifiers:high-quality, beautiful, stylized for example

4. Photos: like 4K, HDR, Studio Photo for example

5. Art, Illustration:by a professional, detailed for example

输入 Prompt 并点击红色标记的部分以生成结果。

结果:

原始结果:

A painting of, a bustling town square in a South American village, early 20th century, with a sense of magic realism, high-quality, by a professional artist.

Here are some variations for your prompt based on specific aspects of "One Hundred Years of Solitude":

Focus on the Buendía family: "A sketch of, the Buendía family gathered at a table, in a traditional Colombian home, with a feeling of isolation, high-quality, detailed"

Highlight the cyclical nature of history: "A photorealistic image of, a crumbling, overgrown mansion in a jungle setting, with the remnants of a forgotten era, HDR, stylized"

Emphasize the magical elements: "A painting of, a vibrant, surreal landscape, with fantastical creatures and strange weather patterns, in a dreamlike style, high-quality, beautiful"

By combining different elements of these prompts, you can create a visually striking image that perfectly captures the essence of "One Hundred Years of Solitude." Remember to experiment with different keywords and art styles to find the ideal representation for your article.

修改结果:

A painting of, a bustling town square in a South American village, early 20th century, with a sense of magic realism, by a professional artist, Focus on the Buendía family, the Buendía family gathered at a table, in a traditional Colombian home, with a feeling of isolation, high-quality, detailed.

打开 Imagen 3，检查高级选项，如下所示:

确保选项 Person/face generation is Allow (Adults Only)

此选择用于避免产生如下问题 "图像生成失败，出现以下错误:项目或用户未被允许关闭儿童检测过滤器":

输入 Prompt:

点击 GENERATE，结果应该是这样的:

我喜欢第二个。我们可以点击第二张图片:

对话框显示如下:

我们使用 UPSCALE/EXPORT 按钮下载此图像，选择 Upscle images (如果需要):

点击 EXPORT 按钮以下载 PNG 格式的图像。

我们想编辑这张图片，所以我们再次检查了第二张图片。

点击 EDIT IMAGE 按钮。

顶部有很多工具可以帮助我们编辑图像。Imagen 3 现在不支持 Edit image，确保模型已更改为 imagen 2 (预计 Imagen 3 将在未来支持 Edit image)。

我想把所有远离桌子的人都移走，只留下在桌子旁边的人。所以我添加了一个 Musk box (遮罩盒) 并生成了一张图像。我们不需要任何提示来进行此操作。

点击 GENERATE 按钮后的结果:

为什么？二楼的阁楼消失了，与一楼合并，并创建了 4 幅图片。

原来，我在原始图片上添加了三个 Musk box，两个 Musk box 给人打了 Musk，一个 Musk box 给二楼打了 Musk。Imagan 3 的编辑操作有多智能？我们可以持续编辑图像。

结果是:

这是我想要的最终图片。如果您有权限，请阅读有关图像编辑的更多信息。

结论

通过将谷歌的 Gemini 模型的创造力与 Imagen 3 的先进图像生成能力以及 Imagen 2 的编辑能力相结合，您可以开发出一个强大的工作流程，以生成高质量、精致的图像。这个过程允许从文本到视觉内容的无缝过渡，提供对最终输出的灵活性和控制。无论是用于广告、内容创作还是艺术创作，这种方法都提供了一个强大的工具集，以实现卓越的视觉效果。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6171

浏览量
105494
Gemini

Gemini

+关注

关注
0

文章
54

浏览量
7604
AI

AI

+关注

关注
87

文章
31000

浏览量
269333

原文标题：【GDE 分享】利用谷歌的 Gemini 和 Imagen 模型进行高质量图像生成和优化

文章出处：【微信号：Google_Developers，微信公众号：谷歌开发者】欢迎添加关注！文章转载请注明出处。

基于扩散模型的图像生成过程

近年来，扩散模型在文本到图像生成方面取得了巨大的成功，实现了更高图像生成质量，提高了推理性能，也

发表于 07-17 11:00 •2756次阅读

基于扩散<b class='flag-5'>模型</b>的<b class='flag-5'>图像</b><b class='flag-5'>生成</b>过程

protel输出高质量gerber

图文并茂一步一步手把手教你输出高质量的gerber傻瓜式教学。。。。[hide] [/hide]

发表于 12-12 15:43

高质量C语言编程

高质量c语言，精，精，精，精华

发表于 07-22 13:48

编写高质量C语言代码

编写高质量C语言代码编写高质量C语言代码编写高质量C语言代码

发表于 07-31 17:47

高质量编程

干货，《495个C语言问题》、《华为内部程序设计编码规范》、《C语言：陷阱和缺陷》、《高质量C编程[林锐]》

发表于 02-27 19:39

三星电子开发出高质量CMOS图像传感器芯片资料推荐

三星电子近日宣布成功开发出高质量的CMOS图像传感器（CIS）芯片和照相机模组。该照相机模组有1/3英寸SXGA（130万像素）、1/5.8英寸VGA（33万像素）两种规格，都包含了CIS和ISP

发表于 04-22 07:35

基于FPGA的高速高质量图像旋转

基于FPGA的高速高质量图像旋转，下来看看

发表于 08-30 15:10 •9次下载

兽医超声：高质量和高强度图像系统

　　超声波机器的主要用途之一是检测动物的怀孕情况。准确诊断农场动物的怀孕需要高质量的图像。这些机器还需要高强度（更高的电压和更高的电流脉冲），以便更强的脉冲可以穿透大型动物。对于带入兽医诊所的小动物，需要具有高分辨率黑白或彩色图像

发表于 04-24 09:37 •2045次阅读

清华朱军团队提出ProlificDreamer：直接文本生成高质量3D内容

将 Imagen 生成的照片（下图静态图）和 ProlificDreamer（基于 Stable-Diffusion）生成的 3D（下图动态图）进行对比。有网友感慨：短短一年时间，高质量

发表于 05-29 10:02 •930次阅读

生成高质量 3D 网格，从重建到生成式 AI

有很多优点，包括支持现有的软件包、高级硬件加速，以及支持物理模拟。然而，并非所有网格都是相同的，只有高质量的网格才能实现这些优点。 NVIDIA Research 提出了一种名为“FlexiCubes”的新方法，它可以在 3D 工作流中生成

发表于 08-17 19:15 •732次阅读

谷歌Gemini AI模型因人物图像生成问题暂停运行

据报道，部分用户发现Gemini生成的图片存在明显错误，如特斯拉创始人和其他名人变成了黑人模样。谷歌已决定暂停该模型的人物图像

发表于 02-25 09:59 •596次阅读

谷歌计划重新推出改进后的Gemini AI模型人像生成功能

谷歌DeepMind的首席执行官德米斯·哈萨比斯在2月26日透露，公司计划在接下来的几周内重新发布其备受关注的Gemini AI模型人像生成功能。此前，由于在某些历史

发表于 02-28 10:17 •608次阅读

KOALA人工智能图像生成模型问世

近日，韩国科学团队宣布研发出名为 KOALA 的新型人工智能图像生成模型，该模型在速度和质量上均实现了显著突破。KOALA 能够在短短 2

发表于 03-05 10:46 •798次阅读

谷歌发布Imagen 3，提升图像文本生成技术

已为谷歌人工智能研究所DeepMind掌门人的德米斯·哈萨比斯指出，相比于前款Imagen 2，Image 3能够更加精准地解码文字提示信息，并据此创建出更有创造力、细节丰富且出错率较低的图像。

发表于 05-15 11:24 •694次阅读

谷歌发布AI文生图大模型Imagen

近日，谷歌在人工智能领域取得新突破，正式推出了Imagen文生图模型。这款模型以其卓越的细节调整功能、逼真的光线效果以及从草图快速生成高分辨

发表于 05-16 09:30 •537次阅读

搜索历史

借助谷歌Gemini和Imagen模型生成高质量图像

评论

基于扩散模型的图像生成过程

protel输出高质量gerber

高质量C语言编程

编写高质量C语言代码

高质量编程

三星电子开发出高质量CMOS图像传感器芯片资料推荐

基于FPGA的高速高质量图像旋转

兽医超声：高质量和高强度图像系统

清华朱军团队提出ProlificDreamer：直接文本生成高质量3D内容

生成高质量 3D 网格，从重建到生成式 AI

谷歌Gemini AI模型因人物图像生成问题暂停运行

谷歌计划重新推出改进后的Gemini AI模型人像生成功能

KOALA人工智能图像生成模型问世

谷歌发布Imagen 3，提升图像文本生成技术

谷歌发布AI文生图大模型Imagen