0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TensorFlow Recommenders开源软件包可简化构建、评估和应用推荐模型

Tensorflowers 来源:TensorFlow 作者:Maciej Kula 和 James 2020-10-21 10:54 次阅读

文 /Maciej Kula 和 James Chen,Google Brain

推荐系统是机器学习的一大主要应用,能够根据用户偏好推送相关内容,比如推荐电影、餐厅、搭配时装首饰或筛选媒体信息流等。

Google 过去几年一直在探索新的深度学习技术,力求通过结合多任务学习、强化学习、提取更好的用户表征和构建公平性指标提供更好的推荐。这些努力和其他方面的进展大幅改善了我们的推荐效果。

今天,我们荣幸地推出 TensorFlow Recommenders (TFRS),这款开源 TensorFlow 软件包可简化构建、评估和应用复杂的推荐模型。

TensorFlow Recommenders (TFRS)
https://tensorflow.google.cn/recommenders

TFRS 使用 TensorFlow 2.x 构建,有助于:

构建和评估灵活的Candidate Nomination Model;

将条目、用户和上下文信息自由整合到推荐模型;

训练可联合优化多个推荐目标的多任务模型;

用 TensorFlow Serving 高效利用生成的模型。

TFRS 基于 TensorFlow 2.x 和 Keras,十分易于上手,在采用模块化设计的同时(您可以自定义每个层和评价指标),仍然组成了一个强有力的整体(各个组件可以良好协作)。在 TFRS 的设计过程中,我们一直强调灵活性和易用性:合理的默认设置、直观易行的常见任务以及更复杂或自定义的推荐任务。

TensorFlow Recommenders 现已在 GitHub 上开源。我们的目标是让其不断发展,能够灵活地进行学术研究,并以高度可扩展的方式构建全网推荐系统。我们还计划在多任务学习、特征交叉建模、自监督学习和最前沿 (SOTA)近似最邻近计算方面扩展其功能。

GitHub
https://github.com/tensorflow/recommenders

示例:构建电影推荐工具

让我们先用一个简单示例展现 TensorFlow Recommenders 的使用方法。首先,使用 pip 安装 TFRS:

!pip install tensorflow_recommenders

然后,我们可以使用 MovieLens 数据集训练一个简单的电影推荐模型。数据集所含信息包括用户观看了哪些电影以及用户对该电影的评分。

我们将使用这一数据集构建模型,预测用户已观看和未观看的电影。此类任务通常选择双塔模型:一个具有两个子模型的神经网络,分别学习 query 和 candidate 的表征。给定的query-candidate 对的得分 (score) 只是这两个塔的输出的点积。

这个模型架构相当灵活。query 塔的输入可以是:用户 ID、搜索关键词或时间戳;对于 candidate 侧则有:电影片名、描述、梗概、主演名单。

在此示例中,我们在 query 塔仅使用用户 ID,在 candidate 塔仅使用电影片名。

我们先来准备数据。数据可从 TensorFlow Datasets 获取。

import tensorflow as tf import tensorflow_datasets as tfds import tensorflow_recommenders as tfrs

# Ratings data. ratings = tfds.load("movie_lens/100k-ratings", split="train") # Features of all the available movies. movies = tfds.load("movie_lens/100k-movies", split="train")

在数据集的所有可用特征中,最实用的是用户 ID 和电影片名。虽然 TFRS 有多种可选特征,但为简单起见,我们只使用这两项。

ratings = ratings.map(lambda x: { "movie_title": x["movie_title"], "user_id": x["user_id"], }) movies = movies.map(lambda x: x["movie_title"])

只使用用户 ID 和电影片名时,我们简单的双塔模型与典型的矩阵分解模型非常相似。我们需要使用以下内容进行构建:

一个用户塔,将用户 ID 转换为用户 embedding 向量(高维向量表示)。

一个电影塔,将电影片名转换为电影 embedding 向量。

一个损失函数,对于观看行为,最大化预测用户与电影的匹配度,而未观看的行为进行最小化。

TFRS 和 Keras 为实现这一目标提供了大量基本模块。我们可以从创建模型类开始。在__init__方法中,我们设置一些超参数以及模型的主要组件。

class TwoTowerMovielensModel(tfrs.Model): """MovieLens prediction model.""" def __init__(self): # The `__init__` method sets up the model architecture. super().__init__() # How large the representation vectors are for inputs: larger vectors make # for a more expressive model but may cause over-fitting. embedding_dim = 32 num_unique_users = 1000 num_unique_movies = 1700 eval_batch_size = 128

第一个主要组件是用户模型:一组描述如何将原始用户特征转换为数字化用户表征的层。我们在这里使用 Keras 预处理层将用户 ID 转换为整数索引,然后将其映射到学习的 embedding 向量:

# Set up user and movie representations. self.user_model = tf.keras.Sequential([ # We first turn the raw user ids into contiguous integers by looking them # up in a vocabulary. tf.keras.layers.experimental.preprocessing.StringLookup( max_tokens=num_unique_users), # We then map the result into embedding vectors. tf.keras.layers.Embedding(num_unique_users, embedding_dim) ])

电影模型看起来很相似,能够将电影片名转换为 embedding 向量:

self.movie_model = tf.keras.Sequential([ tf.keras.layers.experimental.preprocessing.StringLookup( max_tokens=num_unique_movies), tf.keras.layers.Embedding(num_unique_movies, embedding_dim) ])

得到用户和电影模型后,就需要定义我们的目标和它的评估指标了。在 TFRS 中,可以通过 Retrieval任务完成这一点(使用 in-batch softmax loss):

# The `Task` objects has two purposes: (1) it computes the loss and (2) # keeps track of metrics. self.task = tfrs.tasks.Retrieval( # In this case, our metrics are top-k metrics: given a user and a known # watched movie, how highly would the model rank the true movie out of # all possible movies? metrics=tfrs.metrics.FactorizedTopK( candidates=movies.batch(eval_batch_size).map(self.movie_model) ) )

我们使用 compute_loss方法查看模型的训练过程:

def compute_loss(self, features, training=False): # The `compute_loss` method determines how loss is computed. # Compute user and item embeddings. user_embeddings = self.user_model(features["user_id"]) movie_embeddings = self.movie_model(features["movie_title"]) # Pass them into the task to get the resulting loss. The lower the loss is, the # better the model is at telling apart true watches from watches that did # not happen in the training data. return self.task(user_embeddings, movie_embeddings)

我们可以调用 Keras 的 fit 拟合此模型:

model = MovielensModel() model.compile(optimizer=tf.keras.optimizers.Adagrad(0.1)) model.fit(ratings.batch(4096), verbose=False)

要对模型的推荐进行 Sanity-Check(合理性检验),我们可以使用 TFRS BruteForce 层。BruteForce 层以预先计算好的 candidate 的表征进行排序,允许我们对所有可能的 candidate 计算其所在 query-candidate 对的得分,并返回排名最靠前的电影 (query):

index = tfrs.layers.ann.BruteForce(model.user_model) index.index(movies.batch(100).map(model.movie_model), movies) # Get recommendations. _, titles = index(tf.constant(["42"])) print(f"Recommendations for user 42: {titles[0, :3]}")

当然,BruteForce 层只适用于非常小的数据集。有关将 TFRS 与近似最邻近库 Annoy 结合使用的示例,请参阅我们的完整教程。

完整教程
https://tensorflow.google.cn/recommenders/examples/basic_retrieval#building_a_candidate_ann_index

我们希望这能让您对 TensorFlow Recommenders 的功能有所了解。要了解更多信息,请查看我们的教程或 API 参考。如果您想参与,一同推动 TensorFlow 推荐系统发展,请考虑贡献您的一份力量!我们还将在近期宣布成立 TensorFlow Recommendations 特殊兴趣小组 (SIG),欢迎大家就嵌入向量学习和分布式训练与应用等主题开展合作和做出贡献。敬请期待!

教程
https://tensorflow.google.cn/recommenders/examples/quickstart

API 参考
https://tensorflow.google.cn/recommenders/api_docs/python/tfrs/all_symbols

贡献您的一份力量
https://github.com/tensorflow/recommenders/

致谢

TensorFlow Recommenders 是 Google 以及其他组织的人员共同努力的成果。我们要感谢 Tiansheng Yao、Xinyang Yi、Ji Yang 对库的核心贡献,感谢 Lichan Hong 和 Ed Chi 的领导与指导。我们也要感谢 Zhe Zhao、Derek Cheng、Sagar Jain、Alexandre Passos、Francois Chollet、Sandeep Gupta、Eric Ni 等人对项目的建议和支持。

责任编辑:xj

原文标题:TensorFlow Recommenders 现已开源,让推荐系统更上一层楼!

文章出处:【微信公众号:TensorFlow】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8422

    浏览量

    132739
  • 推荐系统
    +关注

    关注

    1

    文章

    43

    浏览量

    10082
  • tensorflow
    +关注

    关注

    13

    文章

    329

    浏览量

    60537

原文标题:TensorFlow Recommenders 现已开源,让推荐系统更上一层楼!

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何使用Python构建LSTM神经网络模型

    : NumPy:用于数学运算。 TensorFlow:一个开源机器学习库,Keras是其高级API。 Keras:用于构建和训练深度学习模型。 你可以使用pip来安装这些库: pip
    的头像 发表于 11-13 10:10 415次阅读

    苹果推出全新开源Swift软件包

    七月三十一日,苹果企业总部对外正式发表公告,宣布昨日(即七月二十九日)成功推出全新的开源 Swift 软件包—— (唤名为 swift-homomorphic-encryption)。此举旨在为 Swift 编程语言带来应用便利的同态加密功能。
    的头像 发表于 07-31 15:17 396次阅读

    TensorFlow是什么?TensorFlow怎么用?

    TensorFlow是由Google开发的一个开源深度学习框架,它允许开发者方便地构建、训练和部署各种复杂的机器学习模型TensorFlow
    的头像 发表于 07-12 16:38 728次阅读

    使用TensorFlow进行神经网络模型更新

    使用TensorFlow进行神经网络模型的更新是一个涉及多个步骤的过程,包括模型定义、训练、评估以及根据新数据或需求进行模型微调(Fine-
    的头像 发表于 07-12 11:51 438次阅读

    tensorflow简单的模型训练

    在本文中,我们将详细介绍如何使用TensorFlow进行简单的模型训练。TensorFlow是一个开源的机器学习库,广泛用于各种机器学习任务,包括图像识别、自然语言处理等。我们将从安装
    的头像 发表于 07-05 09:38 705次阅读

    keras模型tensorflow session

    和训练深度学习模型。Keras是基于TensorFlow、Theano或CNTK等底层计算框架构建的。TensorFlow是一个开源的机器学
    的头像 发表于 07-05 09:36 555次阅读

    如何使用Tensorflow保存或加载模型

    TensorFlow是一个广泛使用的开源机器学习库,它提供了丰富的API来构建和训练各种深度学习模型。在模型训练完成后,保存
    的头像 发表于 07-04 13:07 1579次阅读

    如何在TensorFlow构建并训练CNN模型

    TensorFlow构建并训练一个卷积神经网络(CNN)模型是一个涉及多个步骤的过程,包括数据预处理、模型设计、编译、训练以及评估。下面
    的头像 发表于 07-04 11:47 971次阅读

    TensorFlow的定义和使用方法

    数据流图,从而简化机器学习模型构建、训练和部署。自2015年11月开源以来,TensorFlow迅速成为数据科学家、
    的头像 发表于 07-02 14:14 800次阅读

    艾体宝方案 | 管理开源软件包更新,提升开源安全性

    文章介绍了Mend.io如何通过其Smart Merge Control功能增强开源软件的安全性。现代应用程序高度依赖开源软件,但这也增加了潜在的安全漏洞。Mend SCA的增强功能允
    的头像 发表于 05-31 17:03 328次阅读

    谷歌模型框架是什么软件?谷歌模型框架怎么用?

    谷歌模型框架通常指的是谷歌开发的用于机器学习和人工智能的软件框架,其中最著名的是TensorFlowTensorFlow是一个开源的机器学
    的头像 发表于 03-01 16:25 900次阅读

    RT-Thread Studio添加软件包报错怎么解决?

    RT-Thread Studio添加软件包报错ImportError: No module named psutil
    发表于 03-01 08:41

    RZ/G柔性软件包v2.0.1发布说明

    电子发烧友网站提供《RZ/G柔性软件包v2.0.1发布说明.pdf》资料免费下载
    发表于 02-21 10:48 0次下载
    RZ/G柔性<b class='flag-5'>软件包</b>v2.0.1发布说明

    RL78系列 Data Flash Library Type04软件包3.0版发布说明

    电子发烧友网站提供《RL78系列 Data Flash Library Type04软件包3.0版发布说明.pdf》资料免费下载
    发表于 02-19 10:06 0次下载
    RL78系列 Data Flash Library Type04<b class='flag-5'>软件包</b>3.0版发布说明

    如何使用TensorFlow构建机器学习模型

    在这篇文章中,我将逐步讲解如何使用 TensorFlow 创建一个简单的机器学习模型
    的头像 发表于 01-08 09:25 1005次阅读
    如何使用<b class='flag-5'>TensorFlow</b><b class='flag-5'>构建</b>机器学习<b class='flag-5'>模型</b>