0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

你使用过哪些数据分析的方法

电子工程师 来源:fqj 2019-05-08 08:46 次阅读

有同学问:陈老师,每次被面试都被问“你使用过哪些数据分析的方法”。结果都感觉答不上来。我回答做了相关分析、回归分析、聚类分析、因子分析又经常被人怼。所以到底数据分析有什么方法?为啥我在做数据分析,却感觉没什么方法?

答:首先,相关分析、回归分析、聚类分析、因子分析的名字叫XX分析,但它们是统计学方法,只是数据分析的工具,不是解决问题的全部办法。很多同学一看到名字叫分析,就想当然的以为我只要按这些XX分析的代码跑一遍就算分析了,这种行为经常会被真正懂行人怼。

就举个最简单的例子,所谓相关分析,很多同学就是算了个相关系数。可统计上的相关系数与业务中的相关关系是两码事。我家门前的大树年年都在长,中国GDP也年年在涨,两列数据算个相关系数哇塞0.99,P值小于0.05,所以我家门前的树是我中华龙脉,我要发财啦!——不要笑,脱离了业务意义去做统计模型,做出来的笑果(我没打错)就是这样的。

所以回答这个问题,要回到数据分析到底解决哪些业务问题上去。我们之前分享过,数据分析可以解决的是:

是多少(数据描述状况)

是什么(树立数据标准)

为什么(探索问题原因)

会怎样(预测业务走势)

又如何(综合判断状况)

其中问题1是用数据描述问题,把问题量化。问题2345都需要探索-假设-检验-总结的循环性的过程。真正服务于业务的时候,只要熟练掌握了量化-探索-假设-检验-总结的循环,就能完成一个分析。无论是企业里的经营问题,还是个人感情、生活各种疑难杂症莫不如此。

然而,这么说面试官肯定不满意。他们还是期待着你说出一些具体名词的。因此人们总会发明一些新词,比如什么AARRR法,矩阵法,切割法,杜邦分析法等等,甚至还有懒省事的干脆叫业务法(是啊,肯定是业务法啊,不结合业务分析啥)。经常把人都听得头晕了。这里我们结合数据分析能解决的问题,梳理下这些方法。

属于“是多少”的方法

“是多少”指数据描述状况。如果只用1个指标就能描述清楚状况,比如身高、年龄这种,是没有什么分析方法的。但是如果指标很多,就会涉及到选择哪些重点指标,以什么方式展示这些指标。于是,就有了很多描述性方法。比如一些常见的:

AARRR:互联网行业增长黑客理论的五个大指标。需要注意的是,实际用的时候,还有很多二级三级小指标,绝不是五个指标就完事了,切记。而且AARRR都是围绕用户来说的,实际上也只适用于用户运营,不是所有业务都能硬插这五个指标的。

漏斗法:只要一个流程环节数》2,都能摆一个漏斗出来,用来衡量流程转化率的指标。最典型的比如互联网广告(站外页-落地页-促进页-转化页),比如B2B销售的售前流程也很长(销售线索-初次接触-沟通需求-展示demo-议价-竞标-签署合同),也能撸出来一个漏斗。

杜邦分析法:原本是财务分析中用来衡量企业经营效益与财务指标的方法,现在也被推广开,用来拆解经营指标。比如销售金额=用户数*付费率*客单价。然后再层层拆解用户数,客单价构成。有意思的是,杜邦分析法拆出来的逻辑图会很复杂,所以很多人为了提高逼格直接把它叫“分析模型”……

量收利进销存:零售行业,无论线上线下都是这六个关键指标。和AARRR一样,有一堆二级三级小指标。

要注意:以上都是描述问题的方法,并没有解答问题,比如看到用户流失率75%所以呢?所以75%是好还是坏呢?描述+标准才能对问题做判断。所以才有了下边“是什么”的方法。

属于“是什么”的方法

“是多少”指树立数据标准的方法。寻找标准可以基于业务经验,但业务经验也需要数据进行验证才知道是对的错的。因此,产生了“是什么”的两大类方法:探索标准的方法,验证标准的方法。

探索标准的方法,和到底要对几个指标进行探索有关。比如只用1个指标的方法有:二八法、十分位法、切割法。名字听着玄妙,实际上就是切割线摆在哪。当我们没有信心的时候,可以根据二八定律,把切割线摆在20%,也可以先拆10组或者若干组出来,探索下摆在哪里合适。比如用2个指标,就是所谓矩阵法,其实就是把两个指标交叉,分出四个象限,看看四类有没有明显特点。

如果超过3个指标,一般不建议直接交叉。即使只有3个指标,每个指标分3类,也会产生3*3*3=27类出来,在业务上太复杂了。这时候会用一些统计学的方法。在无标注的情况下可以用Kmean聚类进行分类探索,在有标注情况下可以用决策树。是滴,大家看到了,统计学/机器学习的方法只是解决分析问题的工具,就是这个意思。

找出来标准以后要进行验证。好的标准要能清晰区分不同群体。比如女生说要相亲的男生身高180。那意味着179的人她真的不要,181她不会立即拒绝。如果176的她照样接受,就说明画出来标准没有区分度,要么是标准划分出了问题,要么就是做标准的指标压根就找错了。

需要注意的是:有没有用数据找标准,有没有验证过业务部门的标准,是从取数到分析的分水岭。很多同学觉得自己没有做分析,不知道分析的是什么,核心原因就是手上只有数据没有标准。比如跑出来一个:本月底销售额3000万,可3000万又怎样呢?不知道。然而渠道部一看到月底销售额3000万,就大喊一声:肯定是华东大区藏了业绩,下个月头他们至少还要吐500万出来!这就是有没有评价标准的差距。所以平时工作中就得养成强烈的标准意识,这样才能进行真正的分析。

属于“为什么”的方法

“为什么”指探索问题原因。一提探索原因,大家脑子自然蹦出来的就是相关分析……往往会以为计算个相关系数,丫就真的相关了。于是产生了开篇的“龙脉梗”。实际上,想仅通过数据分析找原因,是相当困难的。往往要内部数据+外部调研+业务判断+测试,共同努力锁定原因。这一点切记切记,面试的时候经常有同学在这里吹牛吹大了,被怼得体无完肤。

正因为很难仅通过数据锁定原因,所以通过数据分析找原因往往是一个系统的过程。需要做齐量化-探索-假设-检验-总结全套流程。严格来说,这里不是靠某个分析方法得出的结论。但是考虑到面试官还是很想听几个方法的名字的,我们可以这么说:

找原因的方法可以分作经验推断与算法推断两种。经验推断就是经典的归纳法与演绎法,具体到数据操作上,就是分组对比(归纳原因)和趋势推演(演绎判断)。比如问为什么销售额下降,用归纳法就是将每一次销售下降的时候,相关症状指标列出来,然后做分组对比,看哪个因素影响下跌的厉害。用演绎法,就是假设销售下降就是因为人员流失/引流产品不给力/季节因素导致的,那么我做了相应调整:人员调动/上新品/等季节过去,以后应该销售能回升。实际中,当然是两种方法结合,不断逼近真相。

算法推断,不是靠人工智能阿尔法大狗子汪汪一叫就把原因叼回来,而是通过指标的计算发现潜在问题点,然后回归到业务里去验证。你可以简单理解为把上边经验推断的过程,量化为一堆指标的计算。比如相关分析虽然不能证明因果,但是能提供分析假设,拿到假设以后我们就能进一步验证,到底这种关系是真相关还是伪相关。因此,做分类的模型与计算相关系数的统计方法,理论上都能用来做这种探索。

属于“会怎样”的方法

“会怎样”指预测业务走势。一提到预测,大家脑子里会自然蹦出来很多很多统计学/机器学习的算法。具体的操作展开写内容太多,这里仅帮大家梳理下逻辑。细节可以后边慢慢更,或者大家自己去看相关统计学/机器学习文章。

首先大类上,预测分定性预测和定量预测两种。定性方法是基于业务经验和业务假设,来推测未来走势。有两种推测法,一种是找一个类似的业务场景进行推测。比如马上上一款新产品,根据过往的经验,一般上市后T+N周销售走势应该是XX,所以类似的也该是这样。是所谓经验推断法。

另一种是基于业务假设,比如新产品上市,假设推广部门传播力度为X,假设销售部门配备人员为Y,假设供应链的产品到货率是Z,之后套入杜邦分析法的模型进行计算,综合预测销量。定性预测并不全是拍脑袋,因为定性假设选取的场景和参数可以通过分析来获得,并不是完全没有依据。同时,对业务部门而言,定性预测时责权划分非常清晰,每个部门要做到多少业绩一清二楚,反而容易推动执行。

定量的方法又分为基于时间的时间序列法,与基于因果关系的算法两类。比如预测店铺销量,如果用时间序列法,则根据过往1-3年销量数据来预测未来的销售数据。如果基于因果关系,则要引入与销售结果相关的变量,比如店铺位置、店铺产品线、产品价格、顾客评价、顾客人数等等。定量预测看起来很复杂,很多同学会直观的认为复杂就是牛逼的。可实际操做过几次就会发现,时间序列法对于环境变化不敏感,容易被突发事件冲击。因果关系法可能采集不到足够的数据,导致模型预测精度很难上去。

所以在工作中真正操作的时候,要因地制宜选方法。在面试的时候,要客观陈述建模效果。又有很多同学本能的认为,模型在测试集上跑出来的准确率越高越牛逼。连过拟合这种问题都忘了。结果在面试的时候被面试官怼穿,这都是很常见的哈。说话谨慎不是问题,被怼穿了才是。

属于“又如何”的方法

又如何指综合判断状况,下分析结论。如果判断标准很清晰,判断的指标很少,那下结论是很快速的,不需要复杂的分析。比如女生说我就是不喜欢秃头的男生,那就看照片一票否决,来的非常爽快。这里不需要分析。但当牵扯指标很多,指标形态很复杂的时候,就很难决定了。比如小姐姐说我想要一个男的对我好(行为指标)有上进心(心理指标)有发展潜力(预测值)真心爱我(恋爱原因),这要求一出,就是个非常复杂的判断。所以,“又如何”是分析最后一步,因为往往做判断,需要做一大堆前期工作。需要搞掂了数据、搞掂了标准、了解清楚原因,做了预测以后,才知道怎么下结论。

在复杂判断中,有主观法和客观法两种。主观法就是基于人工判断(专家判断),只不过打分方式有很多种,直接打分再赋权重的往往叫专家法,打一个矩阵评分再计算的叫层次分析法(AHP)客观法可以通过因子分析(用方差解释率做权重)神经网络(算法训练权重),这样不依赖专家打工。

实际工作中,做评估的最大敌人是没标准,或者标准没节操。看到销量下降就试图甩给没有数据的外部因素,或者甩给目标定得太高,这样的话分析就没法做了。做评估第二大敌是所谓“业务常识”,经常有业务部门跳出来“你做过业务吗?老夫从业10年都没见过这样的”。做评估的第三大敌是领导意见,领导就是不想下这个结论,你咋办?只能回来改ppt啊。所以你看,做评估的算法有很多,真正用起来少,还真不能怪我们没本事。

以上就是对常用方法的简单总结。恭喜坚持到这里的同学,上述总结的思维导图如下,大家可以收藏了。不过这里只归纳了文章中提及的一些内容,可能有遗漏,这里也没有结合具体业务场景,大家可以根据自己的实践再加以补充。

你使用过哪些数据分析的方法

全文只是一个概览,如果大家有兴趣的话,让我看到你们点击“在看”的小手,后边陈老师有动力慢慢分享。需注意的是,如果是面试时讲自己用的数据分析方法,一定要和自己简历里的工作内容对的上,不然人家指着简历随口一句:你在哪个工作项目中用的这些方法?具体怎么用的?数据如何?估计就问崩了。面试千万条,真实第一条,瞎编易穿帮,失业两行泪。

如果是在实际工作中,则要因地制宜选择方法。遇到事先问三问:

数据足不足够

时间允不允许

业务买不买单

在企业中,不是方法越难越有价值,而是越能帮助到业务才越有价值。同样效果前提下,方法越简单越好。因此真正做工作的时候,往往是在时间、数据、业务需求限制下,选择最短平快的方法。至于复杂的方法,可以在工作有余力的时候自己尝试。想探索数学的奥秘,可以去读个博士做科研。在企业做数据分析是为了助力业务,并不是自己嗨,一定要牢记这点。

更不用说,很多企业的数据化管理程度之低,还停留在“我就要个数,一个数而已”或者“让你的人工智能阿尔法大狗子帮我解决下和这个问题”两个极端上。数据真正发挥价值,靠的是体系化运作,不是某个大数据神人掐指一算,切记切记。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 互联网
    +关注

    关注

    54

    文章

    11166

    浏览量

    103447
  • 人工智能
    +关注

    关注

    1792

    文章

    47397

    浏览量

    238902
  • 数据分析
    +关注

    关注

    2

    文章

    1452

    浏览量

    34076

原文标题:你使用过哪些数据分析的方法?

文章出处:【微信号:TheBigData1024,微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    ADC12D1800RF使用DESCLKIQ模式采样数据分析时二次谐波大,有什么方法可以改善?

    请问利用ADC12D1800RF参考电路设计,对比于数据手册,使用DESCLKIQ模式采样数据分析时二次谐波大,有什么方法可以改善?
    发表于 01-02 07:14

    绝缘电阻测试仪数据分析与处理

    绝缘电阻测试仪主要用于检查电气设备或电气线路对地及相间的绝缘电阻。将所测得的结果与有关数据比较,这是对实验结果进行分析判断的重要方法。以下是对绝缘电阻测试仪的数据分析与处理
    的头像 发表于 12-10 15:00 305次阅读

    数据可视化与数据分析的关系

    的含义。 数据分析的定义与作用 数据分析是一种使用统计和逻辑方法分析数据集的过程,目的是发现模式、趋势和关联性。它包括
    的头像 发表于 12-06 17:09 358次阅读

    如何使用SQL进行数据分析

    使用SQL进行数据分析是一个强大且灵活的过程,它涉及从数据库中提取、清洗、转换和聚合数据,以便进行进一步的分析和洞察。 1. 数据提取(Da
    的头像 发表于 11-19 10:26 320次阅读

    eda与传统数据分析的区别

    EDA(Exploratory Data Analysis,探索性数据分析)与传统数据分析之间存在显著的差异。以下是两者的主要区别: 一、分析目的和方法论 EDA 目的 :EDA的主要
    的头像 发表于 11-13 10:52 352次阅读

    raid 在大数据分析中的应用

    RAID(Redundant Array of Independent Disks,独立磁盘冗余阵列)在大数据分析中的应用主要体现在提高存储系统的性能、可靠性和容量上。以下是RAID在大数据分析
    的头像 发表于 11-12 09:44 265次阅读

    物联网的数据分析方法

    方法进行处理,以便转化为可操作的洞察。 1. 数据收集 物联网数据分析的第一步是数据收集。物联网设备通过各种传感器收集数据,这些传感器可以监
    的头像 发表于 10-29 11:27 543次阅读

    数据分析在数字化中的作用

    与重要性 数据分析是指使用统计和逻辑方法数据进行处理和解释的过程。它涉及到数据的收集、清洗、转换、建模和解释,目的是发现数据中的模式、趋势
    的头像 发表于 10-27 17:35 605次阅读

    云计算在大数据分析中的应用

    云计算在大数据分析中的应用广泛且深入,它为用户提供了存储、计算、分析和预测的强大能力。以下是对云计算在大数据分析中应用的介绍: 一、存储和处理海量数据 云计算提供了强大的存储和计算能力
    的头像 发表于 10-24 09:18 501次阅读

    IP 地址大数据分析如何进行网络优化?

    一、大数据分析在网络优化中的作用 1.流量分析数据分析可以对网络中的流量进行实时监测和分析,了解网络的使用情况和流量趋势。通过对流量数据
    的头像 发表于 10-09 15:32 254次阅读
    IP 地址大<b class='flag-5'>数据分析</b>如何进行网络优化?

    数据分析除了spss还有什么

    Sciences)是一款非常流行的统计分析软件,但除了SPSS之外,还有许多其他数据分析工具和方法。 引言 数据分析是一个跨学科的领域,涉及到统计学、计算机科学、
    的头像 发表于 07-05 15:01 647次阅读

    数据分析的工具有哪些

    数据分析是一个涉及收集、处理、分析和解释数据以得出有意义见解的过程。在这个过程中,使用正确的工具至关重要。以下是一些主要的数据分析工具,以及它们的功能和用途的介绍。 Excel Exc
    的头像 发表于 07-05 14:54 887次阅读

    数据分析有哪些分析方法

    数据分析是一种重要的技能,它可以帮助我们从大量的数据中提取有价值的信息,从而做出更明智的决策。在这篇文章中,我们将介绍数据分析的各种方法,包括描述性
    的头像 发表于 07-05 14:51 620次阅读

    机器学习在数据分析中的应用

    随着大数据时代的到来,数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具,通过训练模型从数据中学习规律,为企业和组织提供了更高效、更准确的
    的头像 发表于 07-02 11:22 652次阅读

    求助,关于AD采集到的数据分析问题

    MATLAB中画图后能看到几个周期的图像 数据特征:在matlab中能看到图像是由两部分构成,一部分是基波及其n次谐波,即存在上升沿,过冲,另一部分是随机噪声 求各位大神科普数据分析方法(稍后传MATLAB图像)
    发表于 05-09 07:40