实现海量数据分析及可视化的简便方法-电子发烧友网

【新智元导读】近期，Kaggle发布了新的数据分析及可视化工具——Kaggle Kerneler bot，用户只需上传数据集，便可用Python为用户自动获取相关的深度数据分析结果。本文将带领读者体验一下这款便捷而又高效的工具。

Kaggle Kerneler bot是一个自动生成的kernel，其中包含了演示如何读取数据以及分析工作的starter代码。用户可以进入任意一个已经发布的项目，点击顶部的“Fork Notebook”来编辑自己的副本。接下来，小编将以最热门的两个项目作为例子，带领读者了解该如何使用这款便捷的工具。

好的开始是成功的一半！

要开始这个探索性分析（exploratory analysis），首先需要导入一些库并定义使用matplotlib绘制数据的函数。但要注意的是，并不是所有的数据分析结果图像都能够呈现出来，这很大程度上取决于数据本身（Kaggle Kerneler bot只是一个工具，不可能做到Jeff Dean或者Kaggle比赛选手们那么完美的结果）。

In [1]：

frommpl_toolkits.mplot3dimportAxes3Dfromsklearn.decompositionimportPCAfromsklearn.preprocessingimportStandardScalerimportmatplotlib.pyplotasplt#plottingimportnumpyasnp#linearalgebraimportos#accessingdirectorystructureimportpandasaspd#dataprocessing,CSVfileI/O(e.g.pd.read_csv)

在本例中，一共输入了12个数据集。

In [2]：

print(os.listdir('../input'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/007_nagato_yuki'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/046_alice_margatroid'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/065_sanzenin_nagi'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/080_koizumi_itsuki'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/096_golden_darkness'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/116_pastel_ink'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/140_seto_san'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/144_kotegawa_yui'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/164_shindou_chihiro'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/165_rollo_lamperouge'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/199_kusugawa_sasara'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/997_ana_coppola'))

接下里，用户在编辑界面中会看到四个已经编好的代码块，它们定义了绘制数据的函数。而在发布后的页面，这些代码块会被隐藏，如下图所示，只需单击已发布界面中的“code”按钮就可以显示隐藏的代码。

准备就绪！读取数据！

首先，让我们先看一下输入中的第一个数据集：

In ［7］：

nRowsRead = 100 # specify ‘None’ if want to read whole file# color.csv may have more rows in reality， but we are only loading/previewing the first 100 rowsdf1 = pd.read_csv（‘。。/input/moeimouto-faces/moeimouto-faces/080_koizumi_itsuki/color.csv’， delimiter=‘，’， nrows = nRowsRead）df1.dataframeName = ‘color.csv’nRow， nCol = df1.shapeprint（f‘There are {nRow} rows and {nCol} columns’）

那么数据长什么样子呢？

In ［8］：

df1.head（5）

Out ［8］：

实现海量数据分析及可视化的简便方法

数据可视化：仅需简单几行！

样本的柱状图：

In ［9］：

plotHistogram（df1， 10， 5）

二维和三维的PCA图：

In ［10］：

plotPCA（df1， 2） # 2D PCAplotPCA（df1， 3） # 3D PCA

同理，更换数据集文件的路径，也可以得到其它数据对应的结果。

当然，除了上述几种可视化的结果外，根据输入数据以及需求的不同，也可以得到其它数据分析可视化结果，例如：

七款经久不衰的数据可视化工具！

Sense 是一种自助式分析工具，旨在通过内存计算和可视化手段使数据分析变得简单直观。它适合各种规模的企业，但相比于Tableau和Power BI，其学习曲线稍显陡峭。 3. 开源数

发表于 01-19 15:24

为更快读懂报表，我们将数据可视化了

常用图表的基础上，开发数十种高级数据可视化图表，同时还赋予这些图表联动钻取功能，让浏览者一眼看懂数据的同时还能根据自身分析需求进行自助式数据分析

发表于 06-05 17:21

只有报表直观了，不能算真正的数据可视化

——数据中心（数据中台）。OurwayBI数据可视化软件的数据中台能支持亿级数据的匹配抽取，即使

发表于 07-01 17:20

能做数据治理的数据可视化工具，又快又灵活

也就无从谈起。对这样的企业用户而言，数据治理是迈向BI数据智能可视化分析的首要关卡，必须先做数据治理，统一数据分析口径，厘清

发表于 07-13 15:34

现在做企业级数据分析，离不开秒分析的数据可视化工具

找到分析快、深入的数据可视化工具还不够，做企业级数据分析少不了针对企业用户实际状况和需求搭建数据分析模型，但这可是份相当耗时、复杂的工作，稍

发表于 07-21 15:06

请问怎么把BI数据可视化报表发给领导看？

进行解答。怎么把做好的数据可视化报表发给领导？方法：启用分享功能，生成链接或二维码发送给领导。步骤：1、返回SpeedBI数据分析云首页，点击报表右上角“…”，选择“分享”。在弹出来的

发表于 09-01 17:26

一般图表做不了的分析，BI数据可视化图表可以

随着业务变化，分析场景细分，出现了越来越多的一般图表做不了的分析，比如分析顾客满意度，又比如分析展示运动轨迹、多项目进程等。面对这些分析需求

发表于 01-15 10:22

什么样的数据分析软件能让全员自助可视化分析更丝滑？

的大数据时代，数据可视化分析的效率、灵活自助性都将极大地影响企业的经营决策。在动则千万级、过亿级的大数据量下，企业更需要一个能够智能且高效、灵活且自助的BI

发表于 09-22 10:04

奥威BI数据可视化软件|让业务独立自主分析

增加。怎么才能提高分析效率？BI数据可视化软件的零编程构建分析模型，让业务独立自助分析的做法也就应运而生了。零编程构建

发表于 04-11 10:29

SpeedBI数据可视化工具：浏览器上做分析

SpeedBI数据分析云是一种在浏览器上进行数据可视化分析的工具，它能够将数据以可视化的形式呈现出来，并支持多种

发表于 08-22 10:55

财务数据分析？奥威BI数据可视化工具很擅长

的智能财务指标计算功能，还拥有一套标准化、系统化的财务数据分析方案，无需测试，下载即可用！奥威BI工具+智能财务方案：轻松完成智能财务数据可视化分

发表于 08-29 09:44

千人千面的数据分析有没可能？奥威BI数据可视化工具告诉你

，实现数字化运营管理。 ③按需筛选。用户可根据具体情况按照组织、时间段、产品品类等条件展开数据筛选分析。奥威BI数据

发表于 08-29 14:45

可视化策略的数据分析

研究者采用可视化策略（即平行坐标）的数据分析方法，更好地展示了多维材料数据，可以更好地识别不同属性之间的有用关系。

发表于 04-27 09:22 •4503次阅读

用标准数据分析方案做数据可视化更省成本

标准数据分析方案是以丰富经验为基础，针对数据分析共性需求进行设置的数据分析方案。在数据可视化工具上直接使用标准

发表于 10-13 14:26 •470次阅读

数据可视化与数据分析的关系

在当今这个信息爆炸的时代，数据无处不在。无论是企业运营、科学研究还是个人决策，我们都需要从海量的数据中提取有价值的信息。数据分析和数据

发表于 12-06 17:09 •453次阅读

搜索历史

实现海量数据分析及可视化的简便方法

评论

七款经久不衰的数据可视化工具！

为更快读懂报表，我们将数据可视化了

只有报表直观了，不能算真正的数据可视化

能做数据治理的数据可视化工具，又快又灵活

现在做企业级数据分析，离不开秒分析的数据可视化工具

请问怎么把BI数据可视化报表发给领导看？

一般图表做不了的分析，BI数据可视化图表可以

什么样的数据分析软件能让全员自助可视化分析更丝滑？

奥威BI数据可视化软件|让业务独立自主分析

SpeedBI数据可视化工具：浏览器上做分析

财务数据分析？奥威BI数据可视化工具很擅长

千人千面的数据分析有没可能？奥威BI数据可视化工具告诉你

可视化策略的数据分析

用标准数据分析方案做数据可视化更省成本

数据可视化与数据分析的关系