基于无监督学习和图学习的大数据挖掘-电子发烧友网

在IJCAI-2019期间举办的腾讯TAIC晚宴和Booth Talk中，来自TEG数据平台的张长旺向大家介绍了自己所在用户画像组的前沿科研结果：

1. 非监督短文本层级分类；

2. 大规模复杂网络挖掘和图表示学习。

其所在团队积极与学术界科研合作，并希望有梦想、爱学习的实力派加入，共同研究和应用半监督/弱监督/无监督学习、小样本学习、大规模复杂网络挖掘和图表示学习等做大数据挖掘。

科研结果1：非监督短文本层级分类

首先以下用户和AI算法的对话，显示了现实业务中使用现有监督文本分类算法的遇到的一些困境和问题：

算法需要海量训练数据

算法模型用户不可控

算法不能很好的适应类目的变化

我们分析现有监督算法的主要问题在于没有真正的知识, 没有对于文本和类目的真正的理解。现有算法只是在学习大量人工标注训练样本里面的模式。为了解决这个问题，我们启动了一个叫做: 基于关键词知识与类目知识的非监督短文本层级分类的探索项目。

项目的主要思想是引入关键词和类目两种知识来帮助算法理解关键词和类目的含义。然后基于知识进行文本的分类和标注。关键词知识主要来自3个方面包括：关键词的网络搜索上下文、关键词的百科上下文、关键词到类目词的后验关联概率。我们提出类目语义表达式来支持用户表达丰富的类目本身和类目之间的关系的语义。这两样知识的引入帮助算法摆脱了对于大量人工标注训练样本的依赖，同时算法分类的过程做到了人工可理解，人工可控制。

基于关键词和类目知识的无监督文本层级分类算法流程如下:

对文本提取关键词

根据关键词知识计算关键词到类目词的相关度词向量

根据关键词的相关度词向量计算文本的相关度词向量

根据文本的相关度词向量和类目语义表达式计算文本与每个类目的匹配度

每个文本被分为与之匹配度最高的类目

通过在两个文本分类数据集合上面的实验，我们发现，我们自研的算法能够在没有训练样本的情况下提供质量可用的结果，其一级类目准确率能够达到80%，并且明显高于现有其他非监督算法。

科研结果2：大规模复杂网络挖掘和图表示学习

Network Representation Learning 或者说 Graph Embedding 是复杂网络最新的研究课题，意在通过神经网络模型，把图结构向量化，为节点分类、链路预测、社团发现等挖掘任务提供方便有效的特征，以克服图结构难以应用到机器学习算法中的难题。

本次我们在IJCAI发表的学术论文“Identifying Illicit Accounts in Large Scale E-payment Networks - A Graph Representation Learning Approach”创新性提出结合边属性的图卷积神经网络模型，弥补了现有算法无法利用边属性为节点分类提供更多信息的不足。

现有的图学习算法，绝大部分都忽视了边上信息的价值。在这里我们提出了一种可以把边的信息传输到节点表示结果的改进的GCN算法。算法主要思路是在做GCN里面周边邻居节点向量的聚合计算之前，把每个节点连接边的Embedding向量拼接在对应邻居节点的Embedding向量后面。实验显示，我们的算法对于金融分类问题具有更优的结果。我们团队正在进一步优化模型，正在研发利用时序的GCN模型，以可以利用边的时序交互信息，从而更好的表示动态网络。

同时，数平数据中心研发的Angel参数服务器平台，针对关系型数据结构，在计算性能上对图算法做了优化，极大加速了PageRank等算法的计算速度，比如计算用户中心度的Closeness算法，性能比基于Spark GraphX的算法提升了6.7倍。下图显示对于大型图的计算，我们Angle框架的速度具有明显的优势。

我们所在团队积极与学术界科研合作，并希望有梦想、爱学习的实力派加入，共同研究和应用半监督/弱监督/无监督学习、小样本学习、复杂网络挖掘和图表示学习做大数据挖掘。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

算法

算法

+关注

关注
23

文章
4612

浏览量
92874
大数据

大数据

+关注

关注
64

文章
8886

浏览量
137434

原文标题：IJCAI2019报告：基于无监督学习和图学习的大数据挖掘

文章出处：【微信号：Tencent_TEG，微信公众号：腾讯技术工程官方号】欢迎添加关注！文章转载请注明出处。

时空引导下的时间序列自监督学习框架

【导读】最近，香港科技大学、上海AI Lab等多个组织联合发布了一篇时间序列无监督预训练的文章，相比原来的TS2Vec等时间序列表示学习工作，核心在于提出了将空间信息融入到预训练阶段，即在预训练阶段

发表于 11-15 11:41 •254次阅读

基于大数据与深度学习的穿戴式运动心率算法

性能的关键手段。然而，在复杂多变的运动环境中，准确测量心率数据对于传统算法而言具有较大的技术瓶顶。本文将探讨如何运用大数据和深度学习技术来开发创新的穿戴式运动心率算

发表于 09-10 08:03 •267次阅读

基于<b class='flag-5'>大数据</b>与深度<b class='flag-5'>学习</b>的穿戴式运动心率算法

【《大语言模型应用指南》阅读体验】+ 基础知识学习

收集海量的文本数据作为训练材料。这些数据集不仅包括语法结构的学习，还包括对语言的深层次理解，如文化背景、语境含义和情感色彩等。自监督学习：模型采用自

发表于 08-02 11:03

【《大语言模型应用指南》阅读体验】+ 基础篇

章节最后总结了机器学习的分类：有监督学习、无监督学习、半监督学习、自监督学习和强化

发表于 07-25 14:33

神经网络如何用无监督算法训练

神经网络作为深度学习的重要组成部分，其训练方式多样，其中无监督学习是一种重要的训练策略。无监督学习旨在从未标记的

发表于 07-09 18:06 •796次阅读

深度学习中的无监督学习方法综述

应用中往往难以实现。因此，无监督学习在深度学习中扮演着越来越重要的角色。本文旨在综述深度学习中的无监督学

发表于 07-09 10:50 •723次阅读

机器学习在数据分析中的应用

随着大数据时代的到来，数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具，通过训练模型从数据中

发表于 07-02 11:22 •624次阅读

基于FPGA的类脑计算平台 —PYNQ 集群的无监督图像识别类脑计算系统

STDP 无监督学习算法，可运用于图像的无监督分类。从平台设计角度： (1)本设计搭建的基于 PYNQ 集群的通用低功耗的大规模类脑计算平台，搭载 PYNN，NEST 等

发表于 06-25 18:35

图机器学习入门：基本概念介绍

图机器学习（GraphMachineLearning，简称GraphML）是机器学习的一个分支，专注于利用图形结构的数据。在图形结构中，数据

发表于 05-16 08:27 •503次阅读

无监督深度学习实现单次非相干全息3D成像

论文信息背景引入数字全息术因其能够从单一视点对3D场景进行成像而备受关注。与直接成像相比，数字全息是一种间接的多步骤成像过程，包括光学记录全息图和数值计算重建，为包括深度学习在内的计算成像方法

发表于 05-13 17:38 •445次阅读

机器学习基础知识全攻略

有监督学习通常是利用带有专家标注的标签的训练数据，学习一个从输入变量X到输入变量Y的函数映射。Y = f (X)，训练数据通常是(n×x,y)的形式，其中n代表训练样本的大小，x和y分

发表于 02-25 13:53 •244次阅读

Meta发布新型无监督视频预测模型“V-JEPA”

Meta，这家社交媒体和科技巨头，近日宣布推出一种新型的无监督视频预测模型，名为“V-JEPA”。这一模型在视频处理领域引起了广泛关注，因为它通过抽象性预测生成视频中缺失或模糊的部分来进行学习，提供了一种全新的视频处理方法。

发表于 02-19 11:19 •1016次阅读

数据挖掘的应用领域,并举例说明

数据挖掘（Data Mining）是一种从大量数据中提取出有意义的信息和模式的技术。它结合了数据库、统计学、机器学习和人工智能等领域的理论和

发表于 02-03 14:19 •3103次阅读

描绘未知：数据缺乏场景的缺陷检测方案

Neuro-T 视觉平台克服了数据缺乏状况的困难，通过零代码设置 GAN模型和无监督学习模型，轻松实现缺陷图像的标注、绘制和导出。工业应用中存在较多的缺陷检测需求。针对缺陷检测需求，常见的解决方案有两种：基于目标正

发表于 01-25 10:46 •571次阅读

2024年AI领域将会有哪些新突破呢？

传统的机器学习需要大量的标记数据进行训练，但自监督学习可以通过无监督的方式从大规模未标记的数据中

发表于 01-24 09:58 •2012次阅读