MIT开发数据分析师的“无界画布”-电子发烧友网

还记得《复仇者联盟2》里面钢铁侠和班纳博士创造奥创的时候，使用全息投影将三维数据投射到空气中，然后直接用双手操控这些数据的画面吗？

遗憾的是，这样的系统目前尚未成为现实。

是什么限制了我们像钢铁侠一样操作数据呢？如果暂时还想不到答案，不如我们先来看一下要实现这个需要哪些技术吧。

首先肯定是全息投影，很多人可能认为，限制这个技术的肯定是没有这么好的全息投影，诚然，全息投影目前还尚未成熟，但是以目前的发展来看，并不是说现有的技术不能将数据表实时投影到三维空间中，还记得五月中旬被Magic Leap收购的Mimesys公司么？我们来看看这家公司已经将全息投影做到什么地步了。

建筑模型和人都进行了全息投影，而且人还可以对模型进行交互操作，是不是有点赛博朋克？

也就是说，尽管在边界的处理还存在一些瑕疵，但是将数据表投影到空气中并进行操作，并不是遥不可及的。

那是究竟什么封印了Stark的出现？

答案是智能。因为就算我们将各种数据表投影到了空气中，并且各种诸如手环、指环的传感器也能够将我们的动作反映给计算机形成指令，但是如果没有智能，我们实现的仅仅就是用了更加炫酷的姿势来操作Excel而已。你将一个表格拖过来，也就实现了ctrl+c&ctrl+v。

两家高校的研究员正在尝试突破这个瓶颈。

不久之前，麻省理工学院和布朗大学的研究人员开发了一个在触摸屏上运行的交互式智能数据分析系统，名为Northstar，该系统在云中运行，而且其界面支持任何触摸屏设备，包括智能手机和大型交互式显示屏。

更关键的是，它可以根据用户操作实时生成机器学习模型，从而在其数据集上运行预测任务。

而这，得益于一项新的AutoML组件：VDS

迄今为止最快的交互式AutoML工具——VDS

VDS首先出现在ACM SIGMOD会议上发表的一篇论文中，利用的是现在比较火的人工智能技术——自动机器学习(AutoML)，它可以让没有数据科学知识的人根据他们的数据集训练AI模型进行预测。

例如，医生可以使用该系统来帮助预测哪些患者更容易患某些疾病，而企业主也可以通过该系统预测销售情况。用户也可以通过使用交互式显示屏进行实时协作。这个系统的目的是使用户更容易进行复杂的数据分析，同时保证分析的速度和准确度，在此基础上实现数据科学的大众化。

“即使是不了解数据科学的咖啡店老板也应该能够预测未来几周内他们的销售情况，以确定要进多少货”，论文的共同作者和长期担任Northstar项目的负责人Tim Kraska说。他是麻省理工学院计算机科学和人工智能实验室(CSAIL)的电气工程和计算机科学副教授，也是新数据系统和人工智能实验室(DSAIL)的创始人之一。

目前，自动机器学习技术的优化基于DARPA D3M自动机器学习竞赛，该竞赛每六个月决出一次性能最佳的AutoML工具。

数据分析师的“无界画布”

这一新成果建立在麻省理工学院和布朗研究员在Northstar的多年合作基础之上。四年多来，研究人员发表了大量论文，详细介绍Northstar组件，包括交互式界面，多平台操作，加速运行结果以及用户行为研究。

Northstar系统以空白白色界面开始。用户将数据集上载到系统之后，该数据集会显示在左侧的“数据集”框中。任何数据标签都会自动填充进界面下方的“属性”框。界面上还有一个“运算符”框，其中包含各种算法，以及新的AutoML工具。所有数据都在云中存储和分析。

下面让我们用一个例子详细论述：

设想一群医学研究人员，他们想要探究某年龄组中特定疾病并发可能性。

他们将模式检查算法拖放到界面中间，该算法最初显示为空白框。

作为输入，他们将标记好的疾病特征如“血液”、“传染性”和“代谢”移动到算法框中。

随后，算法框中就会显示这些疾病的百分比。如果他们将“年龄”特征拖到界面中，该界面就会出现另外一个框，框内会显示患者年龄分布的条形图。

最后，在两个框之间画一条线将它们连接在一起，算法就会立即自动计算围绕不同年龄范围的三种疾病的关联和并发现象。

“这就像一个大而无界的画布，你可以在这里展示你想要的一切”，Northstar互动界面的主要开发者的Zgraggen说，“你还可以将所有内容链接在一起，以处理更复杂的问题”。

通过VDS，用户现在还可以通过个性化模型，使其适合自己的分析任务，并在自己的数据集上进行预测分析，例如数据预测，图像分类或分析复杂图形结构。

以上述的医学探究为例，医学研究人员希望根据数据集中的特征预测哪些患者可能患有血液疾病。他们从算法列表中将“AutoML”拖入数据集中。系统首先会产生一个带有“目标”标签的空白框。研究人员将“血液”这一标签拖到空白框。系统将自动找到性能最佳的机器学习算法，以不断更新的精度百分比的选项卡显示。用户可以随时停止该过程，优化搜索，并检查每个模型的错误率，结构，计算和其他事项。

请看视频演示：

实时智能交互，才是真正的交互

据研究人员的介绍，VDS是迄今为止最快的交互式AutoML工具，这部分归功于他们定制的“估算引擎”。引擎位于界面和云存储之间。引擎自动创建数据集的几个代表性样本进行逐步处理，从而在几秒钟内生成高质量的结果。

“我们花了两年时间设计VDS，使之契合数据科学家的思维方式，”论文的另一位作者Shang说。VDS可以根据各种编译规则，立即确定哪些模型和预处理步骤是不是应该为用户提前实现。

在机器学习模型的选择上，它可以从那些大量的机器学习算法列表中选择并在样本集上运行模拟，同时记录结果并优化选择。在提供快速近似结果后，系统还会在后端细化结果。

“至于预测，用户不希望等待四个小时才能获得第一个结果。用户希望看到实时发生的事情，这样如果发现了错误，用户可以立即纠正它。但这在任何其他系统中通常是不可能的”，Kraska说。

研究人员在300个真实数据集上对工具进行评估。与其他最先进的AutoML系统相比，VDS预测的准确度大致相同，但VDS的预测结果可以在几秒钟内生成，这比其他工具快得多，后者往往需要在几分钟到几小时内才能运行出结果。

有了Northstar的VDS组件，我们得到了一个二维空间的交互式智能数据分析系统，也许离钢铁侠的实验室还有点距离，但是如果有一天Northstar将全息投影加到下一代分析系统中，那么——也许我就可以坐在沙发上小手一挥：“Javis，把我这个表做好发给老板。”

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

MIT

MIT

+关注

关注
3

文章
253

浏览量
23438
数据分析

数据分析

+关注

关注
2

文章
1459

浏览量
34108

原文标题：MIT开发数据分析师的“无界画布”：实时交互预测，可拖拽的AutoML系统

文章出处：【微信号：BigDataDigest，微信公众号：大数据文摘】欢迎添加关注！文章转载请注明出处。

Mathematica 在数据分析中的应用

数据分析是现代科学研究和商业决策中不可或缺的一部分。随着数据量的爆炸性增长，对数据分析工具的需求也在不断增加。Mathematica，作为一种强大的计算软件，以其独特的符号计算能力和广泛的内置函数库

发表于 12-26 15:41 •166次阅读

数据可视化与数据分析的关系

在当今这个信息爆炸的时代，数据无处不在。无论是企业运营、科学研究还是个人决策，我们都需要从海量的数据中提取有价值的信息。数据分析和数据可视化作为两个关键的工具，它们帮助我们理解、解释和

发表于 12-06 17:09 •399次阅读

NVIDIA助力百度提升数据分析效能

、数据分析师、运营团队以及销售人员等。过去他们不得不编写繁杂的查询语句，由此耗费掉大量的时间与精力。百度广告业务的重要性和复杂性，致使相关的业务数据每月会有超过 200 个迭代更新，用户唯有掌握丰富的业务领域知识方可成功实施数据分析

发表于 11-20 10:06 •236次阅读

LLM在数据分析中的作用

随着大数据时代的到来，数据分析已经成为企业和组织决策的关键工具。数据科学家和分析师需要从海量数据中提取有价值的信息，以支持业务决策。在这个过

发表于 11-19 15:35 •388次阅读

eda与传统数据分析的区别

EDA（Exploratory Data Analysis，探索性数据分析）与传统数据分析之间存在显著的差异。以下是两者的主要区别：一、分析目的和方法论 EDA 目的：EDA的主要目的是对

发表于 11-13 10:52 •389次阅读

raid 在大数据分析中的应用

RAID（Redundant Array of Independent Disks，独立磁盘冗余阵列）在大数据分析中的应用主要体现在提高存储系统的性能、可靠性和容量上。以下是RAID在大数据分析中

发表于 11-12 09:44 •278次阅读

云计算在大数据分析中的应用

云计算在大数据分析中的应用广泛且深入，它为用户提供了存储、计算、分析和预测的强大能力。以下是对云计算在大数据分析中应用的介绍：一、存储和处理海量数据云计算提供了强大的存储和计算能力

发表于 10-24 09:18 •554次阅读

IP 地址大数据分析如何进行网络优化?

一、大数据分析在网络优化中的作用 1.流量分析大数据分析可以对网络中的流量进行实时监测和分析，了解网络的使用情况和流量趋势。通过对流量数据

发表于 10-09 15:32 •272次阅读

网络爬虫,Python和数据分析

电子发烧友网站提供《网络爬虫,Python和数据分析.pdf》资料免费下载

发表于 07-13 09:27 •2次下载

数据分析除了spss还有什么

数据分析是当今世界中一个非常重要的领域，它涉及到从大量数据中提取有用信息、发现模式和趋势，并为决策提供支持。SPSS（Statistical Package for the Social

发表于 07-05 15:01 •700次阅读

数据分析的工具有哪些

开发的一款电子表格软件，广泛应用于数据分析领域。它具有以下特点：数据整理：Excel提供了丰富的数据整理功能，如排序、筛选、查找和替换等。数据

发表于 07-05 14:54 •985次阅读

数据分析有哪些分析方法

数据分析是一种重要的技能，它可以帮助我们从大量的数据中提取有价值的信息，从而做出更明智的决策。在这篇文章中，我们将介绍数据分析的各种方法，包括描述性分析、诊断性

发表于 07-05 14:51 •709次阅读

机器学习在数据分析中的应用

随着大数据时代的到来，数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具，通过训练模型从数据中学习规律，为企业和组织提供了更高效、更准确的

发表于 07-02 11:22 •748次阅读

求助，关于AD采集到的数据分析问题

问题描述：使用AD采集一个10Hz到2MHz的脉冲，脉冲底部可能大于零，由采集到的数据分析出该脉冲的上升时间，幅值和占空比。备注：在分析的时候已经知道脉冲的频率，精度为2X10^-5. 在分析

发表于 05-09 07:40

态势数据分析系统软件

智慧华盛恒辉态势分析软件系统的功能描述、部署环境、界面使用、技术支持及一些常见问题及其解决办法等。为数据态势分析软件系统的管理人员和使用人员提供说明。智慧华盛恒辉态势数据分析系统软件

发表于 04-22 11:36 •474次阅读

搜索历史

MIT开发数据分析师的“无界画布”

评论

Mathematica 在数据分析中的应用

数据可视化与数据分析的关系

NVIDIA助力百度提升数据分析效能

LLM在数据分析中的作用

eda与传统数据分析的区别

raid 在大数据分析中的应用

云计算在大数据分析中的应用

IP 地址大数据分析如何进行网络优化?

网络爬虫,Python和数据分析

数据分析除了spss还有什么

数据分析的工具有哪些

数据分析有哪些分析方法

机器学习在数据分析中的应用

求助，关于AD采集到的数据分析问题

态势数据分析系统软件