0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何让tSNE在大型、高维数据库上实时进行可视化的详细资料概述

zhKF_jqr_AI 来源:未知 作者:易水寒 2018-06-10 10:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

tSNE是目前最为流行的一种高维数据降维的算法。在大数据时代,数据不仅越来越多,而且变得越来越复杂,数据维度的转化也在惊人地增加。对于计算机而言,处理高位数据是没问题的,但是人类能感知到的只有三个维度,因此很有必要将高维数据进行可视化,tSNE就是讲数据集从任意维度降到二维或三维的算法。谷歌的一名实习员工最近提出了一种方法,可以让tSNE在大型、高维数据库上实时进行可视化,而且还开源了。以下是论智为大家带来的编译。

最近几年,t分布随机邻近嵌入(tSNE)算法已经成为最常用的高维数据分析工具,它经常能提供有深度的见解。在TensorFlow嵌入项目和TensorBoard中用tSNE解释深度神经网络的输出时,其中一个强大的特征是,tSNE在使用时只需要稍微调整参数,就能在不同规模下展现高维数据点的聚类。尽管有这个优点,tSNE算法计算时候的复杂程度也限制了它在很多小数据集上的应用。虽然已经有一些针对这个问题的解决方法(主要关注点在数据点之间相似度计算的可扩展性上),但目前为止当可视化大数据及使用tSNE嵌入时,它们还不能提供真正的互动体验。

Linear tSNE Optimization for the Web一文中,我们提出了一种解决tSNE高度依赖现代图形硬件问题的方法。我们的方法比其他类似技术能更快地生成嵌入,甚至可以利用GPU在客户端的网页浏览器上执行。二者的结合让大型、高维的数据库实时可视化成为了可能。另外,我们还在TensorFlow.js中开源了这项成果,希望能带来更多贡献。

用我们的方法为全部MNIST数据集进行实时tSNE嵌入演化。该数据集包含60000张手写数字的图片

tSNE的目标是聚合相似数据点之间的小“邻居”,同时降低整体数据的维度使之更加便于可视化。换句话说,tSNE目标函数计算的是在二维或三维空间中这些相似数据的“邻居”是如何分布的,然后根据此将它们映射到聚类之中。

在之前的研究中,tSNE的目标最小化是作为N-body模拟问题进行的,其中点在嵌入空间中随机分布,每个点都受到两种不同类型的力的作用。吸引力会将点与其在高维空间中最相似的点之间的距离越拉越近,同时排斥力使得它们与嵌入中的其他邻近点越来越远。

吸引力只作用于一小部分点(也就是有相同近邻的点),而排斥力在所有成对的点上都有作用。由于这个原因,tSNE需要强大的计算力和多次的目标函数迭代,这就限制了数据库的尺寸。为了改善这一问题,Barnes-Hut算法就用来近似估算排斥力和目标函数的梯度。这就可以将计算扩展到成千上万个数据点,但是仍然需要15分钟以上计算MNIST嵌入。

在我们的论文中,我们提出了解决上述问题的方法,通过利用在WebGL上生成的纹理计算目标函数的梯度近似值。我们的技术利用一个三通道的图案在每次最小化迭代时都绘制一个“排斥域(repulsive field)”,其中的三个组成元素作为RGB通道中的颜色和形状。每个点都会得到一个排斥域,用来表示点上水平和竖直方向的排斥力,第三个元素用作归一化。归一化要保证转换过程中的量值对应高维空间的相似度测量方法。除此之外,图案的分辨率也会根据不同情况调整,以保证像素的数量是不变的。

如何让tSNE在大型、高维数据库上实时进行可视化的详细资料概述

渲染三个用来计算单个点产生的排斥力。上图显示了蓝色区域中的点被推到了左侧和底部,而红色区域中的点被推倒右侧和顶部,而白色区域中的点不会移动

之后每个点的作用都被添加到GPU中,生成与排斥域相似的图形(如下面的动图所示)。这种方法比计算点和点之间的作用的方法对GPU更友好。这是因为多个点的排斥力可以在GPU中快速地同时计算。另外,我们在GPU中也计算了点之间的吸引力。

如何让tSNE在大型、高维数据库上实时进行可视化的详细资料概述

tSNE嵌入的演变动画(左上);用来计算梯度的标量场(右上);水平变换(左下);竖直变换(右下)

我们还将嵌入更新从点对点实现修改为在TensorFlow.js中计算的一系列标准张量操作,这是一个JavaScript库,用于在Web浏览器中执行张量计算。我们已经开源的方法能完全在GPU上实现tSNE嵌入的变换,同时计算复杂性也得以改善。

有了这种只需15分钟就能在MNIST数据集上完成计算的方法,我们现在可以实时在网页中进行可视化。另外,这种可视化还能在更大的数据集上实现。但是我们这项成果的主要缺陷就是目前只能在二维嵌入上工作。然而二维可视化却经常比三维可视化更受欢迎,应为三维可视化需要更多交互才能理解聚类的结果。

未来的工作

我们相信,更快、更易交互的tSNE将大大提高数据分析系统的发展。我们很期待将这项成果用于深度神经网络。除此之外,我们的实验表明,在使用GPU计算时的横向思维(即用RGB图像计算梯度)可以加速计算。在未来我们将开发更多这类的梯度计算,不仅将其应用于降维算法上,还可以用到其他浏览器的N-body模拟中。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5317

    浏览量

    136178
  • 算法
    +关注

    关注

    23

    文章

    4816

    浏览量

    98756
  • 数据库
    +关注

    关注

    7

    文章

    4092

    浏览量

    68656
  • 数据集
    +关注

    关注

    4

    文章

    1242

    浏览量

    26286

原文标题:谷歌实习生提出tSNE在大型高维数据集上实时可视化的方法(附代码)

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    VirtualLab:光学系统的三可视化

    **摘要 ** 为了对光学系统的性质有一个基本的了解,对其组件的可视化和光传播的提示是非常有帮助的。为此,VirtualLab Fusion提供了一个工具来显示光学系统的三视图。这些工具可以进一步
    发表于 04-13 09:04

    基于 HT 技术栈的智慧车站系统——WebGIS 与 BIM 三可视化

    数据,实现车站物理空间与数字空间的精准映射、设备状态实时监控、环境客流全域感知,为轨道交通运营管理提供轻量化、可用、易扩展的三可视化技术
    的头像 发表于 03-26 14:03 226次阅读
    基于 HT 技术栈的智慧车站系统——WebGIS 与 BIM 三<b class='flag-5'>维</b><b class='flag-5'>可视化</b>

    KubePi:开源Kubernetes可视化管理面板,集群管理如此简单

    人员 :能够一个统一的界面上监控和管理所有集群资源,大幅提升效率。 企业IT :实现对跨地域、跨云的Kubernetes集群进行统一管理,提升运效率。 二、核心功能特点:不止于
    发表于 02-11 12:53

    昊衡科技-三场重构软件,结构的温度与应变可视化

    温度/应变场可视化,为多场景监测提供了全新解决方案。圆柱体加载与降温试验以圆柱体为测试对象,模拟了“上部加载+中部降温”的典型工况:软件演示中的圆柱体,能实时
    的头像 发表于 01-22 17:32 1425次阅读
    昊衡科技-三<b class='flag-5'>维</b>场重构软件,<b class='flag-5'>让</b>结构的温度与应变<b class='flag-5'>可视化</b>

    瓦纸生产数据可视化平台解决方案

    生产企业存在设备数据分散、生产过程不透明、故障响应不及时等问题,导致生产管理效率低下。为解决这些问题,提出以工业组态平台为核心,构建瓦纸生产数据可视化平台,实现生产
    的头像 发表于 12-12 15:42 328次阅读

    工业物联网可视化平台是什么?有什么功能?

    工业物联网可视化平台是基于物联网、大数据、人工智能等技术,将工业生产中的设备、系统、流程等数据以图形方式呈现,实现实时监控、智能分析与交互
    的头像 发表于 11-17 17:49 1537次阅读

    光伏电站可视化的实现

    ,将光伏电站的物理环境、设备状态、发电数据等信息以图形、动态化形式呈现,构建电站虚拟镜像,从而实现对光伏电站运行状态的实时监控、故障预测及运优化。 如何实现光伏电站的
    的头像 发表于 10-21 17:29 1425次阅读
    光伏电站<b class='flag-5'>可视化</b>的实现

    【产品介绍】Altair HyperView用于仿真和CAE分析的后处理和数据可视化

    详细的交互式3D数据可视化以及FEA和多体系统仿真结果的探索。轻松管理大型结果文件,并将数据转换为综合动画。HyperView的多学科查看器
    的头像 发表于 09-19 17:02 1168次阅读
    【产品介绍】Altair HyperView用于仿真和CAE分析的后处理和<b class='flag-5'>数据</b><b class='flag-5'>可视化</b>

    数字孪生可视化系统构建行业数字智能管理生态!

    数字孪生可视化系统具备丰富的模型组件,包括二平面组件及3D模型组件,可根据用户需求进行定制。数字孪生可视化系统在行业数字升级、数字
    的头像 发表于 09-19 11:45 942次阅读
    数字孪生<b class='flag-5'>可视化</b>系统构建行业数字<b class='flag-5'>化</b>智能管理生态!

    宏集方案 | 如何进行产线高阶能耗数据的计算和可视化?

    前言在当前经济下行时期,越来越来多企业开始对产线进行数字化转型,提高企业竞争力。产线数字转型过程中,产线高阶能耗数据的计算和可视化是比较
    的头像 发表于 08-08 18:28 671次阅读
    宏集方案 | 如何<b class='flag-5'>进行</b>产线高阶能耗<b class='flag-5'>数据</b>的计算和<b class='flag-5'>可视化</b>?

    如何使用协议分析仪进行数据分析与可视化

    使用协议分析仪进行数据分析与可视化,需结合数据捕获、协议解码、统计分析及可视化工具,将原始数据转化为可解读的图表和报告。以下是
    发表于 07-16 14:16

    数据库数据恢复—MongoDB数据库文件丢失的数据恢复案例

    将MongoDB数据库文件拷贝到其他分区,数据复制完成后将MongoDB数据库原先所在的分区进行了格式操作。 结果发现拷贝过去的
    的头像 发表于 07-01 11:13 865次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—MongoDB<b class='flag-5'>数据库</b>文件丢失的<b class='flag-5'>数据</b>恢复案例

    VirtualLab:光学系统的三可视化

    摘要 为了对光学系统的性质有一个基本的了解,对其组件的可视化和光传播的提示是非常有帮助的。为此,VirtualLab Fusion提供了一个工具来显示光学系统的三视图。这些工具可以进一步用于检查
    发表于 05-30 08:45

    如何实现光伏数字孪生可视化

    光伏数字孪生可视化是通过数字手段构建光伏电站的虚拟镜像,实现物理实体与数字模型的实时映射与交互,目的是促进光伏电站运管理的智能、高效
    的头像 发表于 05-29 15:27 942次阅读
    如何实现光伏数字孪生<b class='flag-5'>可视化</b>?

    工业设备可视化管理系统是什么

    工业设备可视化管理系统是一种基于物联网(IoT)、大数据、云计算、数字孪生等技术,对工业设备的运行状态、性能参数、维护信息等进行实时监测、数据
    的头像 发表于 05-27 14:56 1390次阅读
    工业设备<b class='flag-5'>可视化</b>管理系统是什么