不知道菜谱怎么看，让AI来帮你做示范吧-电子发烧友网

食物是我们每天必不可少的能量补给，也是很多吃货小伙伴的快乐源泉。计算机视觉的发展，对于食物的分析和推荐为我们的餐桌提供了新的可能。拍一张照片就可以从这一餐的食物中分析出食材的营养成分和卡路里的多少，帮助我们监控每日能量和营养的摄入，并对膳食进行管理。

除了分析和记录，计算机辅助食物分析还能对食材的属性进行分析并对烹饪后的食物色、香、味进行预测，不同烹饪方法下食材在最终菜品下呈现的样式。但食物的烹调方式多种多样、在不同菜品中呈现的样子也各不相同，更别说各种无法直接看到的调味料了。如此复杂的视觉任务需要大量的数据来对算法进行训练，但数据的缺乏阻碍了这一领域的发展。

为了更好地推动这一领域的进步以解决计算机食物分析的挑战，来自罗格斯大学和三星 AI 中心的研究人员们提出了一种新的食物合成方法，从食材原料的名字直接合成菜品的图像，为食物分析和预测提出了新的可能。对于食物图像的生成，研究人员们进行了诸多有益的探索。虽然基于CycleGAN的方法实现了对食物的风格迁移，但是目前还没有能够从不同的食材配料中直接生成食物图像的方法。

食物图像合成不仅引入了包括食材属性、加工方法、烹调方式的复杂性，同时多样性的菜品还极度依赖烹调的过程，生成模型必须能捕捉信息中隐含的关键点才能重建出有效的菜品。

在这篇文章中，研究人员结合基于注意力的菜谱相关模型和StackGAN来从食材中生成对应的菜品图像，随后利用了循环连续约束来进一步提高了生成图像的质量、并有效改进了改变原料后生成的菜品效果。

寻找食材与食物图像共同的隐空间

为了寻找到更为合适的编码来表示食材与食物图像间的关系，研究人员使用了基于注意力的联合模型来训练得到隐空间的编码方法。这一模型一共包含了三部分，分别是食材编码器、联合食物隐空间和美食图像编码器。

整个网络的目的是将食材信息从文字中抽取出来并送入对应的编码隐空间中去，而对应的食物图像也进行编码映射到隐空间中，并最大化食材信息编码和对应图像编码的余弦相似性。

基于注意力交叉联合模型与隐空间，包含了从食材/图像分别到FoodSpace联合隐空间的编码与映射。

食材原料编码器的目的在于将菜谱中的食材转化为共享隐含空间中的特征。这一部分的目标是寻找出食材间隐含的关系，甚至将佐料这样不明显的配料信息也挖掘出来。

研究人员通过独特编码的食材嵌入到低维向量空间中，并作为序列输入到双边的LSTM中进行训练，每一层的隐空间输出都作为对应食材的特征，并在最后利用注意力机制将这些特征融合起来，基于加权方法融合所有的隐含状态，最终映射共享食物隐含空间中的高维食材特征p(1024维)。图像编码器的目的是将食物图像转换为食物空间中的特征，利用Resent50作为主干网络，并利用UPMC-Food-101对模型进行精调最后利用平均池化后的激活(2048维)，映射到食物空间中去得到隐变量q(1024维)。

通过对两种模态数据在共享隐空间中的训练后，得到了有效的食材特征表示p，我们就可以基于这一有效的特征利用GAN来合成逼真、有效稳定的食物图像了。

生成菜品

为了将输入的食材单转换为对应菜品的图像，研究人员基于StackGAN-v2来生成菜品图像。这一模型包含了三个分支，每一分支都负责生成某种分辨率下的图像，也对应着自己独立的判别器(对应高、中、低分辨率的生成图像)。

菜谱中的食材数据首先被编码成共享隐空间中的向量p+，随后利用条件增强网络Fca来估计外观因子相关的分布p(c|p+)。将c与噪声z同时输入到第一个分支中进行低分辨率图像生成。通过F0生成隐含特征，并通过T0生成对应的图像。此时前一个分支的隐含特征将作为下一个分支的输入来生成更高分辨率的图像。

生成模型包含了三个生成器和判别器，用于生成高中低三种不同分辨率的图像。

模型中的判别器需要同时完成三个功能，首先需要正确识别出对应菜品真实图像，同时也需要能够区分出真实/错误对应的菜品图像，还需要识别出模型生成的伪造图像。这样就能训练网络生成出与训练数据中食材对应菜品图像更为接近的结果。

惊艳的菜品生成结果

为了检验基于注意力的联合模型对于特征的抽取能力，研究人员首先进行了基于菜谱食材的对应图像检索实验。在实验中研究人员基于Recipe1M数据集进行训练，并抽取了其中1989种常见食材，并使用拥有多张菜品图和多种食材的菜谱。

在实验中主要利用了中位检索排序(median retrieval rank, MedR, 越小越好)和top k召回率(recall at top K, R@K，召回越大越好)来对结果进行度量。从下表中可以看到研究人员提出的方法将MedR下降了很多，同时提升了R@K。

下图展示了菜谱中的食材检索出的top5对应图像。可以看到检索出的图像都属于同一类，证明了模型对于原材料的理解和特征抽取具有泛化性。

随后研究人员针对沙拉、饼干和松饼等三类西方常见的食物进行训练和合成，并利用感知分数和Frechet感知距离来作为评测指标。下图可以看到本文提出的方法合成出的食物特别逼真，同时也真实反映了食材的构成。

对于同样的食材输出，模型生成的菜品图像表现也很稳定：

与左上角的真实图像相比，我们可以看到菜品的种类保持稳定，同时图像的质量也十分优秀。

最后研究人员还分析了隐含特征空间中的线性插值情况，在两个不同的菜谱间进行差值可以看到一盘菜渐渐变成了另一盘了！

有了这样的模型，下次买菜回来不知如何下手的时候，要不要先问问AI这些食材将会变成什么样的美食呢？说不定它合成出的食物图像将会启发你在厨房的想象力呢！enjoy～～～

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像

图像

+关注

关注
2

文章
1091

浏览量
40669
AI

AI

+关注

关注
87

文章
32329

浏览量
271429
计算机视觉

计算机视觉

+关注

关注
8

文章
1702

浏览量
46224

原文标题：从食材到菜品，AI帮你想象出丰盛晚餐该有的模样

文章出处：【微信号：thejiangmen，微信公众号：将门创投】欢迎添加关注！文章转载请注明出处。

多机通讯的仿真过程中，我不知道仿真成功没有

多机通讯的仿真过程中，我不知道仿真成功没有，诺诺的问一句我需要怎么看呢？

发表于 05-10 14:38

想学习ARM9，买块开发板，但是不知道选择哪家的开发板？

想学习ARM9，买块开发板，但是不知道选择哪家的开发板，是飞凌的？天嵌的还是天祥的？据说天祥的资料很多各位大神怎么看

发表于 02-22 09:30

【AI学习】AI概论：（Part-B）AI头脑+机器人行为

特征。• 在本任务(No.9)里，将向前迈进一大步：人们做示范，传授更多智慧，让AI自己来学习萃取特征、并且进行分类。这通称为：

发表于 10-30 14:17

不知道电动车电池的型号怎么办?

不知道电动车电池的型号怎么办? 近一年来给很多人换过电动车电池了,我发现大多数人都不知道自己的电动车电池是什么型号的,

发表于 11-11 08:56 •3483次阅读

怎么看笔记本接口齐全

怎么看笔记本接口齐全最近看到索泰的笔记本，不知道好不好，请给点意见索泰笔记本据说在日本本土是

发表于 01-23 11:15 •1575次阅读

Miniplayer小技巧保证有你不知道的

Miniplayer小技巧保证有你不知道的 1，用电源充电完成后先别拔充电器，先按住开关别放再拔开线就不用更新歌曲库了。

发表于 02-01 16:38 •715次阅读

看电机选幕布-告诉你不知道的产品细节

看电机选幕布-告诉你不知道的产品细节家用投影幕布以固定画框幕和电动式投影幕为主，其中电动幕由于安装容易，对装修影响较小

发表于 02-10 10:28 •7374次阅读

多数人眼中不知道的电子狗原理

多数人眼中不知道的电子狗原理，感兴趣的小伙伴们可以看看。

发表于 07-28 09:32 •41次下载

低功耗蓝牙不知道怎么选型？看这里！

低功耗蓝牙不知道怎么选型？看这里！

发表于 07-27 16:46 •12次下载

你到底知不知道硬件设计是什么?

想学习硬件电路方面的设计，但不知道怎么入手？懵懵懂的进入硬件领域，对自己的发展和方向很迷茫？做了一段时间硬件设计，事业发展和薪资遭遇瓶颈？有时候必须承认，你还不够优秀！你甚至不知道硬件

发表于 05-18 11:27 •9846次阅读

行业内有95%的人还不知道的成单秘诀

行业内95%的人还不知道的成单秘诀

发表于 02-28 14:18 •2003次阅读

行业内有95%的人还<b class='flag-5'>不知道</b>的成单秘诀

关于你可能不知道的printf

你可能不知道的printf

发表于 02-05 12:28 •2731次阅读

你愿意让AI帮你理财投资吗？

理财投资这种事情，你愿意让AI帮你做吗？无论你是否愿意，银行都可能在未来将一部分理财的工作交给AI来

发表于 11-27 15:08 •2394次阅读

7种MOSFET栅极电路的常见作用，不看不知道！

7种MOSFET栅极电路的常见作用，不看不知道！

发表于 12-15 09:46 •2285次阅读

揭秘pcb是什么物质：你不知道的“化学战士”

揭秘pcb是什么物质：你不知道的“化学战士”

发表于 12-14 10:27 •1236次阅读

搜索历史

不知道菜谱怎么看，让AI来帮你做示范吧

评论