0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种有效的无监督深度表示器(Mix2Vec)

深兰科技 来源:DeepBlue深兰科技 作者:DeepBlue深兰科技 2022-03-24 17:22 次阅读

摘要

本文由深兰科学院撰写,文章将为大家细致讲解一种有效的无监督深度表示器(Mix2Vec),该方法可将异构数据映射到统一的低维向量空间,避免混合异构数据相似度度量偏差问题。同时,该方法基于深度异构信息网络,采用随机混洗预测学习机制,并融合先验分布匹配和结构信息最大化学习目标,学习混合异构的基于向量空间的通用表示,可以用于无监督和有监督的学习任务。

随着机器学习的发展和广泛应用,(无监督或有监督)表示学习被应用于处理复杂(高维、异构等)特征数据。通过将复杂特征数据映射到统一空间,可以有效避免复杂数据中的差异性,并提供方便有效的数据统一处理(例如:距离度量)。

01问题

混合异构数据中的挑战

现实生活中的大量数据都混合了数值型和类别型属性,这些数据往往表现出以下一些典型特征:(1)数据中一些属性是静态的,而另一些是动态的;(2)某些属性经常存在缺失值,且不同数据的缺失值的稀疏程度不同;(3)数据中可能是异构的,不同的属性可能具有不同的分布和结构;(4)实际数据往往没有足够的可用标记信息并且标记此类数据成本太高,或者标签信息(例如:路径和规划)很难用以模型训练。这些数据特征在企业、制造、商业和医疗保健等典型应用的数据中很常见。图1源自于构造的数据,举例展示了混合异构数据中的上述特征。

一种有效的无监督深度表示器(Mix2Vec)

图1 现实生活中混合数据的特征:动态性、稀疏性、异质性

混合数据表示学习主要的挑战是来自多个方面。首先,很难在一个表示模型中处理上述所有特征和学习目标。因为上述每一种数据特征、每一个学习目标在实际中都非常具有挑战性,并且将他们组合在一起会使学习系统非常复杂。因此,现有方法要么将混合数据类型转换为一种类型,要么对于每种数据类型分别学习其向量表示,然后所学的各种类型数据的表示合并作为混合数据的表示。

此外,混合数据可能是静态的,也可能是动态的,并且在结构和分布上呈现出明显的异质性,表示学习在保留原始信息的同时捕获这样的异质性是非常具有挑战性。现有方法通常侧重于单独的解决某一个方面,而不是在一个模型中同时解决上述这些问题。然后,在没有监督信息的情况下,确定哪些信息应考虑到表示中以及验证生成的表示是否有效则都具有一定挑战性。

最后,数据本身的质量(缺失值)以及其他包括稀疏性、属性冗余和互补性在内的其他问题进一步增加了完成上述表示学习任务的难度,而现有的研究往往只是处理上述问题中的单个问题。

02动机

混合异构数据表示学习的空缺

通过调研现阶段表示学习的文献资料,可知目前没有一种表示学习方法可以同时解决上述的无监督混合数据表示中挑战。现有方法可以根据其学习目标分为基于下游任务的方法,自我监督的方法和基于重构的方法:

1基于下游任务的方法是学习一种数据表示,以最大化在特定学习任务的学习目标(例如,软聚类)。此类方法学习的表示是为提升特定模型的学习性能而定制的,但往往很难迁移到其他模型和任务上。

2自我监督方法需要在数据中指定特定的关系(例如,相同上下文中的对象相似)以学习数据表示,并且用于表示学习的监督信息是针对单个数据类型、特定域(例如,自然语言处理)和假设(例如,时间一致性),使得这些方法很难应用于混合数据表示学习中。

3基于重构的方法最大化了原始输入及其对应表示之间的相互信息性,以保留与原始输入中足够多的信息。然而,信息保存并不一定能够保证表示质量,而且现有的基于重建的方法集中于研究数值型数据(例如,图像和视频),数值型数据中两个值之间的距离有特定的语义含义(例如,图像中的值的大小的表示更暗或更亮)来体现。对于基于重构的方法来说,很难重建混合数据,因为混合数据中可能存在各种语义含义,甚至有些没有特定的语义含义。

03方法

混合异构数据表示学习的目标和机制

以下将介绍一种新的混合数据表示学习器Mix2Vec:尝试解决上文中所提到的数据特点和学习挑战,旨在通过构建功能强大的混合数据表示器来学习多方面无监督混合数据表示。该表示器具有多种机制来应对上述数据特征和表示学习中的挑战。

Mix2Vec采用以下三种机制来实现上述多方面目标:

1采用随机混洗预测对输入数据进行随机的变换,并最大化原始数据的表示和经过混洗后数据的表示之间的互信息性。

2采用估计分布匹配的方法来将原始输入分布中的先验知识嵌入到学习的表示中。

3采用结构信息增强的方法来使表示中的结构信息量最大化。

这些机制将同时在深层神经表示器Mix2Vec实现,如此一来,Mix2Vec可以有效地将具有上述各种特征的混合数据转换为基于向量空间的表示形式。这种学习的表示形式是通用的,并且对于不同的学习任务是透明且可复用的。

一种有效的无监督深度表示器(Mix2Vec)

图2 Mix2Vec学习机制

给定混合数据的输入,无监督表示学习将学习一种映射函数,在无监督的情况下以将混合输入转换为连续表示。假定X和Y分别为混合数据原始输入空间和连续表示空间,无监督学习的任务是学习一系列可微分参数方程。对于Mixe2Vec而言,给定来自原始输入空间的n个样本,即,需要学习一个编码器来实现以下三个目标:

01互信息最大化(Mutual Information Maximization)

最大化输入及其表示之间的互信息,在Mix2Vec中通过随机混洗预测(Random Shuffling Prediction,RSP)目标机制来实现;

02先验分布匹配(Prior Distribution Matching,PDM)

强制数据表示的分布匹配某一先验分布,使得学习的数据表示具有所需的特征;

03结构信息量最大化(Structural Informativeness Maximization,SIM)

最大化表示中的结构信息量,这是对上述目标的补充,有利于从原始输入中保留结构信息。

图2显示了Mix2Vec表示学习的工作流程,其中展示了上述待实现的三个目标以及为不同目标实现的机制。对于目标1,本工作中将原始输入随机混洗变成为新输入,并且将原始输入和对应混洗后的输入都编码为其对应的数据表示,而后通过解码器从原始输入和对应的混洗后输入的数据表示中预测混洗位置(属性);对于目标2,基于从输入中获得的先验知识,将从原始输入编码的数据表示的分布与先验分布相匹配;最后,对于目标3,最大化学习到数据表示的结构信息。将上述三个目标组合起来构成Mix2Vec整体的学习目标和机制,共同指导混合异构数据的表示学习。

04验证

Mix2Vec学习效果

通过可视化包括Mix2Vec及其变体(不同的超参数)在内的所有表示器所学到的数据表示,以显示学习到的数据表示的可分离性。为了将数据集所学到的表示可视化为二维空间,实验中引入了t分布的随机邻居嵌入可视化法方法,将高维表示向量转换为二维表示向量。

实验中,为每个数据集随机抽取600个这些二维向量,并在图3中展示它们的位置,图3展示在Churn上的可视化效果。

从图中结果可知,Mix2Vec可以生成包含更多信息的高度结构化表示,从单个目标的可视化效果来看,RSP擅长捕获单个信息,PDM提供先验匹配,SIM突出结构表示,符合Mix2Vec在设置之初融合三个目标的原因。

一种有效的无监督深度表示器(Mix2Vec)

一种有效的无监督深度表示器(Mix2Vec)

一种有效的无监督深度表示器(Mix2Vec)

图3 Mix2Vec在Churn上数据表示的结果可视化

05结论

在现实世界中,以无监督的方式进行混合异构数据表示是非常苛刻的挑战。该工作中针对具有稀疏性、动态性和异构性等复杂特征的混合数据,引入了一种有效的无监督表示方法Mix2Vec。Mix2Vec通过预测输入的随机混洗操作,将数据表示的分布与输入分布匹配,并增强数据表示中的结构信息。Mix2Vec可以生成复杂的混合数据的通用且可重复使用的数据表示,以满足多个方面的目标,包括解决上述混合数据的特征、支持信息表示质量以及实现不同学习任务的更好学习性能。

下一期将介绍Mix2Vec每个机制具体实现方法,以及Mix2Vec在不同下游任务上的性能。

请继续关注此频道以获取最新的研究成果!

原文标题:技术冲击波| 异构数据的无监督表示学习(一)

文章出处:【微信公众号:DeepBlue深兰科技】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6876

    浏览量

    88805
  • 模型
    +关注

    关注

    1

    文章

    3160

    浏览量

    48703
  • 机器学习
    +关注

    关注

    66

    文章

    8375

    浏览量

    132397
  • 深兰科技
    +关注

    关注

    1

    文章

    55

    浏览量

    5951

原文标题:技术冲击波| 异构数据的无监督表示学习(一)

文章出处:【微信号:kmdian,微信公众号:深兰科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    时空引导下的时间序列自监督学习框架

    【导读】最近,香港科技大学、上海AI Lab等多个组织联合发布了篇时间序列监督预训练的文章,相比原来的TS2Vec等时间序列表示学习工作
    的头像 发表于 11-15 11:41 114次阅读
    时空引导下的时间序列自<b class='flag-5'>监督</b>学习框架

    一种基于深度学习的二维拉曼光谱算法

    近日,天津大学精密仪器与光电子工程学院的光子芯片实验室提出了一种基于深度学习的二维拉曼光谱算法,成果以“Rapid and accurate bacteria identification
    的头像 发表于 11-07 09:08 125次阅读
    <b class='flag-5'>一种</b>基于<b class='flag-5'>深度</b>学习的二维拉曼光谱算法

    mix2015a中的ep引脚是什么

    请问mix2015a中的ep引脚是什么? 手册里没有,但是实际有,嘉立创里也有
    发表于 10-18 19:19

    一种透镜成像的新方法

    使用OAM-HHG EUV光束对高度周期性结构进行成像的EUV聚光显微镜 为了研究微电子或光子元件中的纳米级图案,一种基于透镜成像的新方法可以实现近乎完美的高分辨率显微镜。 层析成像是一种强大的
    的头像 发表于 07-19 06:20 314次阅读
    <b class='flag-5'>一种</b><b class='flag-5'>无</b>透镜成像的新方法

    为什么深度睡眠期间RTC定时会丢失呢?

    RTC定时深度睡眠期间丢失是否是一种设计功能?我观察到以下内容(使用 SDK 1.3): The chip is awakened from deep sleep after a timer
    发表于 07-11 07:17

    神经网络如何用监督算法训练

    神经网络作为深度学习的重要组成部分,其训练方式多样,其中监督学习是一种重要的训练策略。监督
    的头像 发表于 07-09 18:06 696次阅读

    深度学习中的监督学习方法综述

    应用中往往难以实现。因此,监督学习在深度学习中扮演着越来越重要的角色。本文旨在综述深度学习中的监督
    的头像 发表于 07-09 10:50 487次阅读

    基于FPGA的类脑计算平台 —PYNQ 集群的监督图像识别类脑计算系统

    用基于脉冲前馈卷积网络,运用 STDP 监督学习算法,相较于 CNN 等传统神经网络,更具有生物真实性,事件触发型的权重更新模式使计算需求降低,能耗减少。 (2)利用 SNN 仿真
    发表于 06-25 18:35

    监督深度学习实现单次非相干全息3D成像

    论文信息 背景引入 数字全息术因其能够从单视点对3D场景进行成像而备受关注。与直接成像相比,数字全息是一种间接的多步骤成像过程,包括光学记录全息图和数值计算重建,为包括深度学习在内的计算成像方法
    的头像 发表于 05-13 17:38 378次阅读
    <b class='flag-5'>无</b><b class='flag-5'>监督</b><b class='flag-5'>深度</b>学习实现单次非相干全息3D成像

    一种利用光电容积描记(PPG)信号和深度学习模型对高血压分类的新方法

    深度神经网络在计算机视觉任务中的有效性,并为开发更强大、更复杂的神经网络架构铺平了道路。 ResNet-50是一种深度神经网络架构,由研究人员Kaiming He、XiangyuZh
    发表于 05-11 20:01

    Meta发布新型监督视频预测模型“V-JEPA”

    Meta,这家社交媒体和科技巨头,近日宣布推出一种新型的监督视频预测模型,名为“V-JEPA”。这模型在视频处理领域引起了广泛关注,因为它通过抽象性预测生成视频中缺失或模糊的部分来
    的头像 发表于 02-19 11:19 935次阅读

    如何使用UART将TRAVEOTM T 2G设备从深度睡眠中唤醒

    睡眠模式下可用,但是 UART 模式不支持从深度睡眠唤醒。 在这种情况下,要通过 UART 实现从深度睡眠中唤醒,一种选择是使用 UART_RX 引脚的 GPIO 中断作为唤醒源。 在此应用程序中,在
    发表于 01-31 06:08

    论文遭首届ICLR拒稿、代码被过度优化,word2vec作者Tomas Mikolov分享背后的故事

    尽管 word2vec 是我被引用最多的论文,但我从未认为它是我最有影响力的项目。实际上,word2vec 代码最初只是我之前项目 RNNLM 的个子集,我感觉 RNNLM 很快就被人们遗忘了。但在我看来,它应该和 AlexN
    的头像 发表于 12-18 16:51 717次阅读
    论文遭首届ICLR拒稿、代码被过度优化,word<b class='flag-5'>2vec</b>作者Tomas Mikolov分享背后的故事

    一种基于叠层成像和波前分离的新型透镜成像方法

    该文提出了一种基于叠层成像和波前分离的新型透镜成像方法,其特点是快速收敛和高质量成像。在该方法中,在光源和样品之间插入个调幅进行光波调制。通过将这个未知的调制
    的头像 发表于 12-11 11:21 793次阅读
    <b class='flag-5'>一种</b>基于叠层成像和波前分离的新型<b class='flag-5'>无</b>透镜成像方法

    动态场景下的自监督单目深度估计方案

    监督单目深度估计的训练可以在大量标签视频序列来进行,训练集获取很方便。但问题是,实际采集的视频序列往往会有很多动态物体,而自监督训练本身就是基于静态环境假设,动态环境下会失效。
    发表于 11-28 09:21 674次阅读
    动态场景下的自<b class='flag-5'>监督</b>单目<b class='flag-5'>深度</b>估计方案