0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌 | 大规模深度推荐模型的特征嵌入问题有解了!

WpOh_rgznai100 来源:YXQ 2019-07-16 13:51 次阅读

导读:本文主要介绍下Google在大规模深度推荐模型上关于特征嵌入的最新论文。

一、背景

大部分的深度学习模型主要包含如下的两大模块:输入模块以及表示学习模块。自从NAS[1]的出现以来,神经网络架构的设计上正在往数据驱动的自动机器学习方向演进。不过之前更多的研究都是聚焦在如何自动设计表示学习模块而不是输入模块,主要原因是在计算机视觉等成熟领域原始输入(图像像素)已经是浮点数了。

输入模块:负责将原始输入转换为浮点数;表示学习模块:根据输入模块的浮点值,计算得到模型的最终输出;

而在推荐、搜索以及广告工业界的大规模深度模型上,情况却完全不同。因为包含大量高维稀疏的离散特征(譬如商品id,视频id或者文章id)需要将这些类别特征通过embedding嵌入技术将离散的id转换为连续的向量。而这些向量的维度大小往往被当做一个超参手动进行设定。

一个简单的数据分析就能告诉我们嵌入向量维度设定的合理与否非常影响模型的效果。以YoutubeDNN[2]为例,其中使用到的VideoId的特征词典大小是100万,每一个特征值嵌入向量大小是256。仅仅一个VideoId的特征就包含了2.56亿的超参,考虑到其他更多的离散类特征输入模块的需要学习的超参数量可想而知。相应地,表示学习模块主要包含三层全连接层。也就是说大部分的超参其实聚集在了输入模块,那自然就会对模型的效果有着举足轻重的影响。

二、主要工作

Google的研究者们在最新的一篇论文[3]中提出了NIS技术(Neural Input Search),可以自动学习大规模深度推荐模型中每个类别特征最优化的词典大小以及嵌入向量维度大小。目的就是为了在节省性能的同时尽可能地最大化深度模型的效果。

并且,他们发现传统的Single-size Embedding方式(所有特征值共享同样的嵌入向量维度)其实并不能够让模型充分学习训练数据。因此与之对应地,提出了Multi-size Embedding方式让不同的特征值可以拥有不同的嵌入向量维度。

在实际训练中,他们使用强化学习来寻找每个特征值最优化的词典大小和嵌入向量维度。通过在两大大规模推荐问题(检索、排序)上的实验验证,NIS技术能够自动学习到更优化的特征词典大小和嵌入维度并且带来在Recall@1以及AUC等指标上的显著提升。

三、Neural Input Search问题

NIS-SE问题:SE(Single-size Embedding)方式是目前常用的特征嵌入方式,所有特征值共享同样的特征嵌入维度。NIS-SE问题就是在给定资源条件下,对于每个离散特征找到最优化的词典大小v和嵌入向量维度d。

这里面其实包含了两部分的trade-off:一方面是各特征之间,更有用的特征应该给予更多的资源;另一方面是每个特征内部,词典大小和嵌入向量维度之间。对于一个特征来说,更大的词典可以有更大的覆盖度,包含更多长尾的item;更多的嵌入向量维度则可以提升head item的嵌入质量,因为head item拥有充分的训练数据。而SE在资源限制下无法同时做到高覆盖度和高质量的特征嵌入。所以需要引入ME(Multi-size Embedding)。

NIS-ME问题:ME允许每个特征词典内不同的特征值可以有不同的嵌入向量维度。其实就是为了实现越频繁的特征值拥有更大的嵌入特征维度,因为有更多的训练数据;而长尾的特征值则用更小的嵌入特征维度。引入ME为每一个类别离散特征找到最优化的词典大小和嵌入向量维度,就可以实现在长尾特征值上的高覆盖度以及在频繁特征值上的高质量嵌入向量。下图给出了embedding使用的场景例子中,SE和ME使用上的区别。

四、NIS解决方案

要想为每个类别离散特征手动找到最优化的词典大小和嵌入向量维度是很难的,因为推荐广告工业界的大规模深度模型的训练时很昂贵的。为了达到在一次训练中就能自动找到最优化的词典大小和嵌入向量维度,他们改造了经典的ENAS[4]:

首先针对深度模型的输入模块提出了一个新颖的搜索空间;

然后有一个单独的Controller针对每一个离散特征选择SE或者ME;

其次可以根据Controller决策后考虑模型准确度和资源消耗计算得到reward;

最后可以根据reward使用强化学习A3C[5]训练Controller进行迭代。

搜索空间

Embedding Block的概念实际上就是原始Embedding矩阵的分块。如下图所示,假设原始Embedding矩阵大小是(10M,256),图a将其分成了20个Embedding Block。Controller为每个特征有两种选择:图b所示的SE以及图c的所示的ME。

Reward函数

主模型是随着Controller的选择进行训练的,因此Controller的参数实际上是根据在验证集上前向计算的reward通过RL追求收益最大化而来。考虑到在限定资源下的深度模型训练,这里的reward函数设计为同时考虑业务目标与资源消耗。对于推荐领域的两大主要任务:信息检索和排序,信息检索的目标可以使用Sampled Recall@1;而排序的目标则可以使用AUC。

五、实验结果

他们在两大大规模推荐模型问题:检索和排序上进行了实验。在同等资源消耗的情况下,NIS可以获得显著提升,详细数据如下图所示。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6207

    浏览量

    106172

原文标题:Google最新论文:大规模深度推荐模型的特征嵌入问题有解了!

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    使用EMBark进行大规模推荐系统训练Embedding加速

    推荐系统是互联网行业的核心系统,如何高效训练推荐系统是各公司关注的核心问题。目前,推荐系统基本上都是基于深度学习的大规模 ID 类模型模型包含数十亿甚至数百亿级别的 ID
    的头像 发表于 10-31 14:46 294次阅读
    使用EMBark进行<b class='flag-5'>大规模</b>推荐系统训练Embedding加速

    谷歌正在考虑在越南建设超大规模数据中心

    据可靠消息透露,Alphabet集团旗下的谷歌公司正积极筹划在越南南部的经济枢纽胡志明市周边建设一座“超大规模”数据中心。此举标志着美国科技巨头首次在东南亚国家进行此类重大投资,尽管具体的投资金额尚待揭晓。
    的头像 发表于 08-30 14:55 711次阅读

    深度学习的典型模型和训练过程

    深度学习作为人工智能领域的一个重要分支,近年来在图像识别、语音识别、自然语言处理等多个领域取得了显著进展。其核心在于通过构建复杂的神经网络模型,从大规模数据中自动学习并提取特征,进而实
    的头像 发表于 07-03 16:06 1749次阅读

    大规模语言模型:从理论到实践】- 阅读体验

    再次感谢电子发烧友提供的书籍试读机会。今天来分享下我在学习大模型训练中 注意力机制 的心得体会。 虽然注意力机制可以显著提高模型处理长序列数据的能力,但这也带来了计算成本的增加。在大型模型中,自
    发表于 06-07 14:44

    谷歌云部门进行大规模裁员

    谷歌云部门近日进行了大规模裁员,多个Cloud团队的员工收到了工作取消的通知。据一名知情员工透露,尽管受影响员工的总人数尚未明确,但亚太地区“Go To Market”团队约有100名员工被裁。
    的头像 发表于 06-05 09:48 702次阅读

    大规模语言模型:从理论到实践】- 每日进步一点点

    非常推荐大家去读 【大规模语言模型:从理论到实践】这本书,系统的讲解了模型的前世今生,对各个环节知识进行了普及。 今天跟我一起学习归一化的部分。 大
    发表于 05-31 19:54

    谷歌提出大规模ICL方法

    谷歌DeepMind团队近日取得了一项突破性的研究成果。他们提出了强化和无监督两种新型的ICL(In-Context Learning)学习方法,这一创新技术能够在多个领域显著提升模型的性能。
    的头像 发表于 05-14 14:17 416次阅读

    【大语言模型:原理与工程实践】大语言模型的基础技术

    处理各种自然语言任务时都表现出了惊人的能力。这促使一个新的研究方向诞生——基于Transformer 的预训练语言模型。这类模型的核心思想是先利用大规模的文本数据进行预训练,捕捉语言的通用特征
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    了随着模型规模扩大,其性能和能力提升速度的变化规律。这一定律在深度学习中表现为模型规模与性能改进之间的关系,通常表明扩大
    发表于 05-04 23:55

    名单公布!【书籍评测活动NO.30】大规模语言模型:从理论到实践

    ,在大模型实践和理论研究的过程中,历时8个月完成 《大规模语言模型:从理论到实践》 一书的撰写。希望这本书能够帮助读者快速入门大模型的研究和应用,并解决相关技术问题。 本书一经上市,
    发表于 03-11 15:16

    谷歌计划将先进大模型Gemini明年嵌入安卓手机

    谷歌对其人工智能大模型在智能手机上的应用前景持乐观态度,并预计其更先进的大模型Gemini将于明年嵌入安卓手机。这一消息由谷歌Pixel部门
    的头像 发表于 03-06 11:37 827次阅读

    谷歌模型怎么用PS打开文件和图片

    谷歌模型本身并不是用Adobe Photoshop(简称PS)打开的文件和图片格式。谷歌模型通常是用于机器学习和深度学习的
    的头像 发表于 02-29 18:25 1582次阅读

    谷歌模型合成软件有哪些

    谷歌模型合成软件通常指的是谷歌提供的用于创建、修改和共享3D模型的软件。目前,谷歌推出的模型合成
    的头像 发表于 02-29 18:20 1491次阅读

    谷歌模型怎么用手机打开文件

    要用手机打开谷歌模型文件,首先需要确定该文件的具体类型和格式。谷歌模型文件可能是以各种格式存在的,比如.pb(Protocol Buffers)、.h5(Keras/TensorFlo
    的头像 发表于 02-29 18:17 1536次阅读

    谷歌交互世界模型重磅发布

    谷歌模型
    北京中科同志科技股份有限公司
    发布于 :2024年02月28日 09:13:06