0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何让tSNE在大型、高维数据库上实时进行可视化的详细资料概述

zhKF_jqr_AI 来源:未知 作者:易水寒 2018-06-10 10:06 次阅读

tSNE是目前最为流行的一种高维数据降维的算法。在大数据时代,数据不仅越来越多,而且变得越来越复杂,数据维度的转化也在惊人地增加。对于计算机而言,处理高位数据是没问题的,但是人类能感知到的只有三个维度,因此很有必要将高维数据进行可视化,tSNE就是讲数据集从任意维度降到二维或三维的算法。谷歌的一名实习员工最近提出了一种方法,可以让tSNE在大型、高维数据库上实时进行可视化,而且还开源了。以下是论智为大家带来的编译。

最近几年,t分布随机邻近嵌入(tSNE)算法已经成为最常用的高维数据分析工具,它经常能提供有深度的见解。在TensorFlow嵌入项目和TensorBoard中用tSNE解释深度神经网络的输出时,其中一个强大的特征是,tSNE在使用时只需要稍微调整参数,就能在不同规模下展现高维数据点的聚类。尽管有这个优点,tSNE算法计算时候的复杂程度也限制了它在很多小数据集上的应用。虽然已经有一些针对这个问题的解决方法(主要关注点在数据点之间相似度计算的可扩展性上),但目前为止当可视化大数据及使用tSNE嵌入时,它们还不能提供真正的互动体验。

Linear tSNE Optimization for the Web一文中,我们提出了一种解决tSNE高度依赖现代图形硬件问题的方法。我们的方法比其他类似技术能更快地生成嵌入,甚至可以利用GPU在客户端的网页浏览器上执行。二者的结合让大型、高维的数据库实时可视化成为了可能。另外,我们还在TensorFlow.js中开源了这项成果,希望能带来更多贡献。

用我们的方法为全部MNIST数据集进行实时tSNE嵌入演化。该数据集包含60000张手写数字的图片

tSNE的目标是聚合相似数据点之间的小“邻居”,同时降低整体数据的维度使之更加便于可视化。换句话说,tSNE目标函数计算的是在二维或三维空间中这些相似数据的“邻居”是如何分布的,然后根据此将它们映射到聚类之中。

在之前的研究中,tSNE的目标最小化是作为N-body模拟问题进行的,其中点在嵌入空间中随机分布,每个点都受到两种不同类型的力的作用。吸引力会将点与其在高维空间中最相似的点之间的距离越拉越近,同时排斥力使得它们与嵌入中的其他邻近点越来越远。

吸引力只作用于一小部分点(也就是有相同近邻的点),而排斥力在所有成对的点上都有作用。由于这个原因,tSNE需要强大的计算力和多次的目标函数迭代,这就限制了数据库的尺寸。为了改善这一问题,Barnes-Hut算法就用来近似估算排斥力和目标函数的梯度。这就可以将计算扩展到成千上万个数据点,但是仍然需要15分钟以上计算MNIST嵌入。

在我们的论文中,我们提出了解决上述问题的方法,通过利用在WebGL上生成的纹理计算目标函数的梯度近似值。我们的技术利用一个三通道的图案在每次最小化迭代时都绘制一个“排斥域(repulsive field)”,其中的三个组成元素作为RGB通道中的颜色和形状。每个点都会得到一个排斥域,用来表示点上水平和竖直方向的排斥力,第三个元素用作归一化。归一化要保证转换过程中的量值对应高维空间的相似度测量方法。除此之外,图案的分辨率也会根据不同情况调整,以保证像素的数量是不变的。

如何让tSNE在大型、高维数据库上实时进行可视化的详细资料概述

渲染三个用来计算单个点产生的排斥力。上图显示了蓝色区域中的点被推到了左侧和底部,而红色区域中的点被推倒右侧和顶部,而白色区域中的点不会移动

之后每个点的作用都被添加到GPU中,生成与排斥域相似的图形(如下面的动图所示)。这种方法比计算点和点之间的作用的方法对GPU更友好。这是因为多个点的排斥力可以在GPU中快速地同时计算。另外,我们在GPU中也计算了点之间的吸引力。

如何让tSNE在大型、高维数据库上实时进行可视化的详细资料概述

tSNE嵌入的演变动画(左上);用来计算梯度的标量场(右上);水平变换(左下);竖直变换(右下)

我们还将嵌入更新从点对点实现修改为在TensorFlow.js中计算的一系列标准张量操作,这是一个JavaScript库,用于在Web浏览器中执行张量计算。我们已经开源的方法能完全在GPU上实现tSNE嵌入的变换,同时计算复杂性也得以改善。

有了这种只需15分钟就能在MNIST数据集上完成计算的方法,我们现在可以实时在网页中进行可视化。另外,这种可视化还能在更大的数据集上实现。但是我们这项成果的主要缺陷就是目前只能在二维嵌入上工作。然而二维可视化却经常比三维可视化更受欢迎,应为三维可视化需要更多交互才能理解聚类的结果。

未来的工作

我们相信,更快、更易交互的tSNE将大大提高数据分析系统的发展。我们很期待将这项成果用于深度神经网络。除此之外,我们的实验表明,在使用GPU计算时的横向思维(即用RGB图像计算梯度)可以加速计算。在未来我们将开发更多这类的梯度计算,不仅将其应用于降维算法上,还可以用到其他浏览器的N-body模拟中。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4700

    浏览量

    128692
  • 算法
    +关注

    关注

    23

    文章

    4599

    浏览量

    92636
  • 数据库
    +关注

    关注

    7

    文章

    3763

    浏览量

    64274
  • 数据集
    +关注

    关注

    4

    文章

    1205

    浏览量

    24640

原文标题:谷歌实习生提出tSNE在大型高维数据集上实时可视化的方法(附代码)

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    智慧楼宇可视化的优点

    智慧楼宇可视化是指通过数据可视化技术来展示和分析楼宇的各种数据,为楼宇管理者和用户提供直观、清晰的信息展示和决策支持。以下是智慧楼宇可视化
    的头像 发表于 11-19 14:25 109次阅读

    大型商场能耗监测可视化管理系统方案

    与管理水平,减少能源浪费与能耗成本。 一、系统概述 大型商场能耗监测可视化管理系统旨在通过实时监测商场内各类能耗数据,如电、水、暖气等,并
    的头像 发表于 11-14 17:17 147次阅读
    <b class='flag-5'>大型</b>商场能耗监测<b class='flag-5'>可视化</b>管理系统方案

    可视化数据大屏的制作流程

    制作可视化数据大屏是一项涵盖数据分析、设计和技术实现的复杂任务。从数据处理到展示呈现,每个步骤都至关重要。下面将详细介绍
    的头像 发表于 07-24 13:57 255次阅读

    可视化运用的主要技术

    介绍三可视化运用的主要技术,涵盖渲染技术、建模技术、交互技术以及数据处理技术等方面。 首先,渲染技术是三可视化中至关重要的一环。渲染是指
    的头像 发表于 07-19 13:56 240次阅读

    可视化的魅力与应用

    可视化是一种强大的工具,它融合了艺术、科学和技术,通过在三空间中呈现数据、概念和想法,为人们提供了一种直观而生动的方式来理解和探索信息。这项技术在当今世界中的应用非常广泛,涵盖了
    的头像 发表于 07-17 14:19 221次阅读

    如何实现园区大屏可视化

    孪生可视化 构建平台利用Web三可视化技术对现实场景进行仿真,实现园区级业务场景 的可视化呈现,助力企业快速完成项目的实施。实现园区场景立
    的头像 发表于 06-19 15:39 379次阅读
    如何实现园区大屏<b class='flag-5'>可视化</b>?

    可视化系统平台介绍及优势

    、医学影像、地理信息系统、虚拟现实等领域。下面将详细介绍三可视化系统平台的优势以及其不同领域的应用。 三
    的头像 发表于 06-12 16:02 582次阅读
    三<b class='flag-5'>维</b><b class='flag-5'>可视化</b>系统平台介绍及优势

    可视化数据大屏的设计原理和技巧

    可视化数据大屏设计面向交通、园区、城市、建筑、应急等领域的客户,以孪生可视能力赋能,提供行业解决方案。双渲染引擎,1:1还原真实世界,
    的头像 发表于 05-30 17:09 464次阅读

    大屏数据可视化是什么?运用了什么技术

    、发现规律和趋势,从而支持决策制定和问题解决。 大屏数据可视化中,常用的技术包括: 数据采集与处理: 数据从各种来源(
    的头像 发表于 05-24 15:35 805次阅读

    智慧园区三可视化的重要性!

    智慧园区三可视化是系统的一个重要组成部分,它将数据及园区场景1:1还原,管理者更加清楚的知道园区的具体情况。可视化构建平台利用Web三
    的头像 发表于 05-15 16:38 385次阅读

    智慧交通三可视化数据场景融合

    的出行环境。而在智慧交通中三可视化是很重要的一个版块,今天古河云科技小编就带领大家来了解一下智慧交通三可视化的具体内容。 通过信息技术的应用,实现了交通系统的智能
    的头像 发表于 05-14 16:14 509次阅读
    智慧交通三<b class='flag-5'>维</b><b class='flag-5'>可视化</b>,<b class='flag-5'>让</b><b class='flag-5'>数据</b>场景融合

    智能可视化综合平台智慧城市建设中的关键作用

    智能可视化综合平台智慧城市建设中扮演着关键的角色,主要体现在以下几个方面: 数据整合与可视化展示:智慧城市的建设涉及到大量
    的头像 发表于 05-11 16:32 355次阅读

    可视化是怎么做的?特点有哪些?

    可视化深入我们的生活当中,它能直观并且精准的展示企业的场景情况,但是很多小伙伴并不清楚三可视化是怎么做的?特点有哪些?今天,古河云科技小编就来给大家聊一聊这一问题。 三
    的头像 发表于 04-28 15:12 461次阅读
    三<b class='flag-5'>维</b><b class='flag-5'>可视化</b>是怎么做的?特点有哪些?

    oracle是大型数据库

    提供了一套全面的数据库解决方案,包括数据存储、管理、处理和查询等功能。它的功能强大、可扩展性,因此被许多大型企业和组织所采用。 Oracle数据库
    的头像 发表于 12-06 10:47 763次阅读

    基于LVGL驱动的OLED屏的FFT声音实时可视化

    本项目旨在利用LVGL驱动的 Xiao-expansion-board的OLED显示屏实现FFT声音数据实时可视化。关键内容包括利用LVGL
    的头像 发表于 11-25 14:20 3335次阅读
    基于LVGL驱动的OLED屏的FFT声音<b class='flag-5'>实时</b><b class='flag-5'>可视化</b>