0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于无监督学习和图学习的大数据挖掘

1ujk_Tencent_TE 来源:腾讯技术工程官方号 2019-12-08 10:57 次阅读

在IJCAI-2019期间举办的腾讯TAIC晚宴和Booth Talk中,来自TEG数据平台的张长旺向大家介绍了自己所在用户画像组的前沿科研结果:

1. 非监督短文本层级分类;

2. 大规模复杂网络挖掘和图表示学习。

其所在团队积极与学术界科研合作,并希望有梦想、爱学习的实力派加入,共同研究和应用半监督/弱监督/无监督学习、小样本学习、大规模复杂网络挖掘和图表示学习等做大数据挖掘。

科研结果1:非监督短文本层级分类

首先以下用户和AI算法的对话,显示了现实业务中使用现有监督文本分类算法的遇到的一些困境和问题:

算法需要海量训练数据

算法模型用户不可控

算法不能很好的适应类目的变化

我们分析现有监督算法的主要问题在于没有真正的知识, 没有对于文本和类目的真正的理解。现有算法只是在学习大量人工标注训练样本里面的模式。为了解决这个问题,我们启动了一个叫做: 基于关键词知识与类目知识的非监督短文本层级分类的探索项目。

项目的主要思想是引入关键词和类目两种知识来帮助算法理解关键词和类目的含义。然后基于知识进行文本的分类和标注。关键词知识主要来自3个方面包括:关键词的网络搜索上下文、关键词的百科上下文、关键词到类目词的后验关联概率。我们提出类目语义表达式来支持用户表达丰富的类目本身和类目之间的关系的语义。这两样知识的引入帮助算法摆脱了对于大量人工标注训练样本的依赖,同时算法分类的过程做到了人工可理解,人工可控制。

pIYBAF3sZiCAD0NcAAGXC_cWyhc920.jpg

基于关键词和类目知识的无监督文本层级分类算法流程如下:

对文本提取关键词

根据关键词知识计算关键词到类目词的相关度词向量

根据关键词的相关度词向量计算文本的相关度词向量

根据文本的相关度词向量和类目语义表达式计算文本与每个类目的匹配度

每个文本被分为与之匹配度最高的类目

pIYBAF3sZiCAc4I1AAFF-PRpshM196.jpg

通过在两个文本分类数据集合上面的实验,我们发现,我们自研的算法能够在没有训练样本的情况下提供质量可用的结果,其一级类目准确率能够达到80%,并且明显高于现有其他非监督算法。

pIYBAF3sZiCAPnfmAAGamuFnOPU555.jpg

科研结果2:大规模复杂网络挖掘和图表示学习

Network Representation Learning 或者说 Graph Embedding 是复杂网络最新的研究课题,意在通过神经网络模型,把图结构向量化,为节点分类、链路预测、社团发现等挖掘任务提供方便有效的特征,以克服图结构难以应用到机器学习算法中的难题。

本次我们在IJCAI发表的学术论文“Identifying Illicit Accounts in Large Scale E-payment Networks - A Graph Representation Learning Approach”创新性提出结合边属性的图卷积神经网络模型,弥补了现有算法无法利用边属性为节点分类提供更多信息的不足。

pIYBAF3sZiCAf4jWAADyry40GSc801.jpg

现有的图学习算法,绝大部分都忽视了边上信息的价值。在这里我们提出了一种可以把边的信息传输到节点表示结果的改进的GCN算法。算法主要思路是在做GCN里面周边邻居节点向量的聚合计算之前,把每个节点连接边的Embedding向量拼接在对应邻居节点的Embedding向量后面。实验显示,我们的算法对于金融分类问题具有更优的结果。我们团队正在进一步优化模型,正在研发利用时序的GCN模型,以可以利用边的时序交互信息,从而更好的表示动态网络。

pIYBAF3sZiGAcZ4XAAGfvV5Mbk0987.jpg

pIYBAF3sZiGAVDl_AAEtrHfo7Kk905.jpg

同时,数平数据中心研发的Angel参数服务器平台,针对关系型数据结构,在计算性能上对图算法做了优化,极大加速了PageRank等算法的计算速度,比如计算用户中心度的Closeness算法,性能比基于Spark GraphX的算法提升了6.7倍。下图显示对于大型图的计算,我们Angle框架的速度具有明显的优势。

pIYBAF3sZiGANHYUAAEl0_C2wBk224.jpg

pIYBAF3sZiGAXUHmAAEim4GgRxY047.jpg

我们所在团队积极与学术界科研合作,并希望有梦想、爱学习的实力派加入,共同研究和应用半监督/弱监督/无监督学习、小样本学习、复杂网络挖掘和图表示学习做大数据挖掘。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4599

    浏览量

    92619
  • 大数据
    +关注

    关注

    64

    文章

    8863

    浏览量

    137281

原文标题:IJCAI2019报告:基于无监督学习和图学习的大数据挖掘

文章出处:【微信号:Tencent_TEG,微信公众号:腾讯技术工程官方号】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    时空引导下的时间序列自监督学习框架

    【导读】最近,香港科技大学、上海AI Lab等多个组织联合发布了一篇时间序列监督预训练的文章,相比原来的TS2Vec等时间序列表示学习工作,核心在于提出了将空间信息融入到预训练阶段,即在预训练阶段
    的头像 发表于 11-15 11:41 114次阅读
    时空引导下的时间序列自<b class='flag-5'>监督学习</b>框架

    基于大数据与深度学习的穿戴式运动心率算法

    性能的关键手段。然而,在复杂多变的运动环境中,准确测量心率数据对于传统算法而言具有较大的技术瓶顶。本文将探讨如何运用大数据和深度学习技术来开发创新的穿戴式运动心率算
    的头像 发表于 09-10 08:03 215次阅读
    基于<b class='flag-5'>大数据</b>与深度<b class='flag-5'>学习</b>的穿戴式运动心率算法

    【《大语言模型应用指南》阅读体验】+ 基础知识学习

    收集海量的文本数据作为训练材料。这些数据集不仅包括语法结构的学习,还包括对语言的深层次理解,如文化背景、语境含义和情感色彩等。 自监督学习:模型采用自
    发表于 08-02 11:03

    【《大语言模型应用指南》阅读体验】+ 基础篇

    章节最后总结了机器学习的分类:有监督学习监督学习、半监督学习、自监督学习和强化
    发表于 07-25 14:33

    神经网络如何用监督算法训练

    神经网络作为深度学习的重要组成部分,其训练方式多样,其中监督学习是一种重要的训练策略。监督学习旨在从未标记的
    的头像 发表于 07-09 18:06 696次阅读

    深度学习中的监督学习方法综述

    应用中往往难以实现。因此,监督学习在深度学习中扮演着越来越重要的角色。本文旨在综述深度学习中的监督学
    的头像 发表于 07-09 10:50 486次阅读

    机器学习数据分析中的应用

    随着大数据时代的到来,数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具,通过训练模型从数据
    的头像 发表于 07-02 11:22 543次阅读

    基于FPGA的类脑计算平台 —PYNQ 集群的监督图像识别类脑计算系统

    STDP 监督学习算法,可运用于图像的 监督分类。 从平台设计角度: (1)本设计搭建的基于 PYNQ 集群的通用低功耗的大规模类脑计算平台,搭载 PYNN,NEST 等
    发表于 06-25 18:35

    监督深度学习实现单次非相干全息3D成像

    论文信息 背景引入 数字全息术因其能够从单一视点对3D场景进行成像而备受关注。与直接成像相比,数字全息是一种间接的多步骤成像过程,包括光学记录全息和数值计算重建,为包括深度学习在内的计算成像方法
    的头像 发表于 05-13 17:38 378次阅读
    <b class='flag-5'>无</b><b class='flag-5'>监督</b>深度<b class='flag-5'>学习</b>实现单次非相干全息3D成像

    机器学习基础知识全攻略

    监督学习通常是利用带有专家标注的标签的训练数据学习一个从输入变量X到输入变量Y的函数映射。Y = f (X),训练数据通常是(n×x,y)的形式,其中n代表训练样本的大小,x和y分
    发表于 02-25 13:53 209次阅读
    机器<b class='flag-5'>学习</b>基础知识全攻略

    数据挖掘的应用领域,并举例说明

    数据挖掘(Data Mining)是一种从大量数据中提取出有意义的信息和模式的技术。它结合了数据库、统计学、机器学习和人工智能等领域的理论和
    的头像 发表于 02-03 14:19 2900次阅读

    2024年AI领域将会有哪些新突破呢?

    传统的机器学习需要大量的标记数据进行训练,但自监督学习可以通过监督的方式从大规模未标记的数据
    的头像 发表于 01-24 09:58 1947次阅读

    使用自监督学习重建动态驾驶场景

    无论是单调的高速行车,还是平日的短途出行,驾驶过程往往平淡无奇。因此,在现实世界中采集的用于开发自动驾驶汽车(AV)的大部分训练数据都明显偏向于简单场景。 这给部署鲁棒的感知模型带来了挑战。自动驾驶
    的头像 发表于 12-16 16:05 627次阅读
    使用自<b class='flag-5'>监督学习</b>重建动态驾驶场景

    基于transformer和自监督学习的路面异常检测方法分享

    铺设异常检测可以帮助减少数据存储、传输、标记和处理的压力。本论文描述了一种基于Transformer和自监督学习的新方法,有助于定位异常区域。
    的头像 发表于 12-06 14:57 1451次阅读
    基于transformer和自<b class='flag-5'>监督学习</b>的路面异常检测方法分享

    监督域自适应场景:基于检索增强的情境学习实现知识迁移

    本文对比了多种基线方法,包括监督域自适应的传统方法(如Pseudo-labeling和对抗训练)、基于检索的LM方法(如REALM和RAG)和情境学习方法(如In-context learning)。
    发表于 12-05 14:14 560次阅读
    <b class='flag-5'>无</b><b class='flag-5'>监督</b>域自适应场景:基于检索增强的情境<b class='flag-5'>学习</b>实现知识迁移