0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

理解这些数据类型有助于对数据集进行恰当的探索性数据分析

zhKF_jqr_AI 来源:未知 作者:李倩 2018-07-08 09:35 次阅读

编者按:数据类型是统计学的重要概念。机器学习和数据科学开发者Niklas Donges简要介绍了不同的数据类型,理解这些数据类型有助于对数据集进行恰当的探索性数据分析(EDA)——机器学习项目最被低估的部分之一。

介绍

理解不同的数据类型,是探索性数据分析(Exploratory Data Analysis,EDA)所需的关键预备知识,同时也有助于你选择正确的可视化方法。你可以将数据类型看成归类不同类型变量的方式。我们将讨论主要的变量类型,以及相应的示例。有时我们会称其为测量尺度(measurement scale)。

类别数据

类别数据(categrorical data)表示特性,例如一个人的性别,所说的语言,等等。类别数据同样可以使用数值(例如:1表示雌性,0表示雄性)。

名目数据

名目值(nominal value)指用于标记变量的定性离散单元。你可以直接把它们想象成“标签”。注意名目数据是无序的。因此,如果你改变名目值的顺序,其语义并不会改变。下面是一些名目特征的例子:

性别:雌性、雄性。

语言:英语、法语、德语、西班牙语。

上面的性别特征也被称为“二分(dichotomous)”值,因为它只包含两个类别。

次序数据

次序值(ordinal value)指离散、有序的定性单元。除了有序之外,它几乎和名目数据一样。例如,教育背景可以用次序值来表示:

初中

高中

大学

研究生

注意,其实初中、高中之间的差别,和高中、大学之间的差别,是不一样的。这是次序数据的主要限制,次序值之间的差别是未知的。因此,次序值通常用于衡量非数值特征,例如愉悦程度、客户满意度。

数值数据

离散数据

离散数据(discrete data)的值是不同而分散的,换句话说,只能接受一些特定值。这类数据无法测量但可以计数。它基本上用来表示可以分类的信息。例如,抛100次硬币正面向上的次数。

你可以通过以下两个问题检查你处理的是否是离散数据:你可以对其计数吗?它可以被切分成越来越小的部分吗?

相反,如果数据可以测量但无法计数,那就是连续数据。

连续数据

连续数据(continuous data)表示测量。例如身高。

连续数据可以分为等距数据(interval data)和等比数据(ratio data)。

等距值指间隔相等的有序单元,也就是说,等距变量包含有序数值,并且我们知道这些数值之间的间隔。例如,用等距数据表示温度:

-10

-5

0

+5

+10

+15

等距值的问题在于,它们没有“真正的零”。拿上面的例子来说,0度不是绝对零度。另外,我们可以加减等距值,而不能乘除等距值或计算比率。由于没有“真正的零”,无法应用许多描述统计学或推论统计学的方法。

等比值具有等距值的所有特性,同时也有绝对的零。因此,不仅可以加减,还可以乘除。高度、重量、长度、绝对温度等都属于等比值。

数据类型为什么重要?

数据类型是一个非常重要的概念,因为统计学方法只能应用于特定的数据类型。你需要使用不同的方式分析连续数据和类别数据。因此,理解你处理的数据的类型,让你能够选择正确的分析方法。

下面我们将重新查看上面提到的每种数据类型,了解它们可以应用什么样的统计学方法。为了理解我们将讨论的一些性质,你需要对描述性统计学有所了解。如果你对此不熟悉,可以先看下我写的描述性统计学介绍。

统计学方法

名目数据

处理名目数据时,你通过下述方式收集信息:

频数在一段时间内或整个数据集中出现的次数。

比例频数除以所有事件的频数之和,即可得到比例。

百分比我想这无需解释了吧。

众数出现次数最多,也就是频数最高的数据。

可视化方法你可以使用饼图或直方图可视化名目数据。

左:饼图;右:直方图

次序数据

当你处理次序数据时,你可以使用以上用于名目数据的方法,不过,除此之外,你还可以使用一些额外的工具。也就是说,你可以使用频数、比例、百分比、众数概括次序数据,也可以使用饼图、直方图可视化次序数据。除此之外,你还可以使用:

百分位数计算由小到大排列的次序数据的累计百分位,某一百分位对应的数据值就称为这一百分位的百分位数。百分位数可以用来描述数据的离散趋势。

中位数即第50百分位数,它将数据分为相等的上下两部分。中位数可以用来描述数据的中间趋势。例如,如果我们用次序数据表示星巴克咖啡的容量:中杯、大杯、特大杯。那么,其中位数为大杯(也就是说,真正的中杯是大杯)。

四分位距第75百分位数与第25百分位数之差即为四分位距。四分位距可以简要概述数据的离散趋势。

连续数据

大多数统计学方法都可以用于连续数据。你可以使用百分位数、中位数、四分位距、均值、众数、标准差、区间。

你可以使用矩形图或箱形图可视化连续数据。从矩形图上可以看到分布的中间趋势、离散程度、形态和峰态。注意,矩形图不体现离散值,因此我们有时使用箱形图。

左:箱形图;右:矩形图

总结

本文讨论了统计学中常用的不同数据类型。你了解了离散数据和连续数据的区别,以及什么是名目数据、次序数据、等距数据、等比数据。此外,你现在知道了每种数据类型可以应用的统计学方法和可视化方法。如果你在给定数据集上进行探索性分析,你会发现这些非常有用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8424

    浏览量

    132761
  • 数据分析
    +关注

    关注

    2

    文章

    1452

    浏览量

    34076
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24730

原文标题:统计学常用数据类型

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    什么是探索性测试ET

    探索性测试ET(exploratory)是和ST(script based test)相比较而言的.笼统地说,ST就是有确定的步骤和预期目标的测试.探索性测试可以说是一种测试思维。它没有很多实际
    发表于 07-05 06:38

    数据探索数据预处理

    目录1数据探索数据预处理21.1 赛题回顾21.2 数据探索性分析与异常值处理21.3 相关性
    发表于 07-12 08:37

    探索性数据分析(EDA)及其应用

    所谓探索性数据分析(EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行
    发表于 01-24 10:02 1513次阅读
    <b class='flag-5'>探索性</b><b class='flag-5'>数据分析</b>(EDA)及其应用

    探索性数据分析系统对基因组医学研究的帮助

    线路进行传输都变得困难。而通常情况下,这些数据必须能被快速存储、分析、共享和归档,以适应基因研究的需要。于是他们不得不诉诸于磁盘驱动器及运输公司,来转移原始
    发表于 10-11 09:46 0次下载
    <b class='flag-5'>探索性</b>大<b class='flag-5'>数据分析</b>系统对基因组医学研究的帮助

    介绍几种用于机器学习探索性数据分析数据类型

    离散数据是指其取值是不连续的分离值,数据只能在一些特定点取值。这样的数据不能定量测量但可以进行统计计量,并可将其蕴含的信息通过分类的方式进行
    的头像 发表于 04-20 16:47 4975次阅读

    VR可应用于最新的项目Lume以进行数据分析

    Lume的算法有助于可视化信息,可实时渲染来自多维数据的数百万个数据点,从而令复杂且密集的数据
    发表于 11-15 10:58 703次阅读

    如何看懂R中的探索性数据分析(附R代码)

    本文将通过介绍一个代码模板的四个基本步骤,来帮助您完成数据分析的初期探索
    的头像 发表于 11-25 10:52 3592次阅读
    如何看懂R中的<b class='flag-5'>探索性</b><b class='flag-5'>数据分析</b>(附R代码)

    C语言的数据储存与数据类型类型转换的详细资料说明

    程序说到底就是对数据的处理,所以首先要弄清楚需要处理哪些数据,计算机如何存储这些数据。C语言根据需要,抽象出了一些基本数据类型和衍生
    的头像 发表于 02-24 15:39 3981次阅读
    C语言的<b class='flag-5'>数据</b>储存与<b class='flag-5'>数据类型</b>及<b class='flag-5'>类型</b>转换的详细资料说明

    细分模型探索性数据分析和预处理

    交流学习!文章较长,建议收藏~ 客户细分模型是将整体会员划分为不同的细分群体或类别,然后基于细分群体做管理、营销和关怀。客户细分模型常用于整体会员的宏观性分析以及探索性分析,通过细分建立初步认知,为下一步的
    的头像 发表于 11-08 16:05 1604次阅读
    细分模型<b class='flag-5'>探索性</b><b class='flag-5'>数据分析</b>和预处理

    Sweetviz让你三行代码实现探索性数据分析

    ,还能对每个栏目做众数、最大值、最小值等横向对比。 所有输入的数值、文本信息都会被自动检测,并进行数据分析、可视化和对比,最后自动帮你进行总结,是一个探索性数据分析的好帮手。 1.准备
    的头像 发表于 10-17 10:59 465次阅读
    Sweetviz让你三行代码实现<b class='flag-5'>探索性</b><b class='flag-5'>数据分析</b>

    Sweetviz: 让你三行代码实现探索性数据分析

    栏目做众数、最大值、最小值等横向对比。 所有输入的数值、文本信息都会被自动检测,并进行数据分析、可视化和对比,最后自动帮你进行总结,是一个探索性数据分析的好帮手。 1.准备 开始之前,
    的头像 发表于 10-31 10:28 947次阅读
    Sweetviz: 让你三行代码实现<b class='flag-5'>探索性</b><b class='flag-5'>数据分析</b>

    plc数据类型怎么理解和应用

    PLC(可编程逻辑控制器)是一种工业自动化设备,用于控制机械和工业过程。在PLC编程中,数据类型是非常重要的概念,因为它决定了程序中数据的存储和处理方式。正确理解和应用PLC数据类型
    的头像 发表于 12-19 11:39 4343次阅读

    为什么选择eda进行数据分析

    数据科学领域,数据分析是一个复杂且多步骤的过程,它涉及到数据的收集、清洗、探索、建模和解释。在这些步骤中,
    的头像 发表于 11-13 10:41 260次阅读

    eda与传统数据分析的区别

    EDA(Exploratory Data Analysis,探索性数据分析)与传统数据分析之间存在显著的差异。以下是两者的主要区别: 一、分析目的和方法论 EDA 目的 :EDA的主要
    的头像 发表于 11-13 10:52 352次阅读

    eda分析中的数据清洗步骤

    数据分析的早期阶段,探索性数据分析(EDA)是一种重要的方法,它帮助我们理解数据的特征和结构。然而,原始
    的头像 发表于 11-13 11:00 328次阅读