数据分析过程中几个可能常见的陷阱-电子发烧友网

前言很多的数据分析人员往往太过于去关注数据或者分析方法论等，尤其是对于刚入门的，在解读数据过程中，受到数据来源、采集方法、统计口径、分析方法、业务经验、思考方式等因素影响，就会出现一些容易忽视的“陷阱”，以致于得出的结果很可能出现偏差。所以，重视数据分析是好的，但也千万不能掉进数据分析的“陷阱”里。

那么，本文我们将从业务层面的视角，来探讨和梳理在数据分析过程中几个可能常见“陷阱”，目的是主要给刚入门的、产品、运营等提供一些有益经验分享，帮助大家在实际工作场景中遇到这些情况的时候，可以尽量规避一些不太注意的“陷阱”。

不了解数据来源，不确保数据的正确性

在数据分析中更注重的是分析，而并不是数据本身，这就造成了数据分析最大的陷阱：不了解数据来源，不确保数据的正确性，就开始分析了。因此，数据分析的第一步就是了解数据来源，确保数据准确性。比如，一个考勤软件的App在做渠道投放，上线了新版的落地页。

上线了一段时间数据稳定后，业务人员从数据发现，此某个渠道的落地页点击率、转化率等数据相比其他渠道的投放的效果高出很多，从数据中，可以看到说明这个渠道来的用户效果很好，以后就要加大这个渠道的投放。然而，突然接到技术人员的反馈，在数据埋点的时候不小心埋错了，导致统计数据出现问题，这个渠道的数据是其他两个渠道总和！因为错误的数据，得出了错误的分析结果，并且还做了后续错误决策。由此可见，有效数据分析的前提，是对正确的数据做分析。尤其是在小公司的人员，没有强大的数据团队，可能就会借用各种各种第三方的统计软件来做数据埋点，此时首要确认数据的正确性，去梳理数据来源。

需求不匹配，分析目的不明确

梳理了数据来源，确保数据的准确性，是前提。那么接下来就是需要明确分析目的，分析目的明确了，后面的各种统计数据和分析方法以及分析结果才有意义。当明确目的后，才有后续的分析思路。比如，一个考勤软件的App的业务人员提出转化率较低，是否有优化的空间的需求。

然而我们并没有进一步的确认是哪个环节转化率低，就开始直接拉取数据进行分析，其实业务人员说的是新用户会员成单的转化率，是不是来源不精准，能否优化渠道或者停止投放，而我们得到的需求不明确，沟通的时候也未能进一步的明确分析目的，就是直接拉取各个环节的转化率，导致拉取的数据与原始问题不匹配。

因此，根据业务方的需求，首先要明确为什么要做数据分析，要解决什么问题，也就是分析的目的。然后针对分析目的，搭建分析框架，选择分析方法和具体分析指标，以及明确抽取哪些数据，用到哪些图表等分析思路，只有对分析目的有清晰的认识，才会避开为分析而分析的误区，分析的结果和过程就越有价值。

未清理数据，数据采集出现偏差

在了解数据来源、确保了准确性、明确分析需求后，下一步就是数据采集和数据清洗了，这也是最容易出问题的环节，有些问题甚至非常隐蔽难以发现。因此，数据本身没有观点，分析时不能预设观点，只倾向于那些能够支持自己的观点的数据，并在数据清洗中，合理的识别数据容量大小、剔除脏数据。

注意选择性偏见或者幸存者偏见。总体样本中，任意一个群体样本的平均值，都会围绕在这个群体的整体平均值周围。基于这个原理，我们便可以采用随机抽样的方式来对整体样本中的一个小群体进行分析，得出的结论是会比较接近真实情况的。但是你采集数据的过程是否是真的随机。

比如，在一个考勤软件APP应用升级期间，通过衡量用户的日活、留存率、活跃企业数等指标，来判断用户对新版本的喜欢是否优于老版本。但这里实际就隐藏了选择性偏见，因为新版本发布时，第一批升级上来的用户往往就是最活跃的用户。

这批用户在这些指标上，本来表现就是优于一般用户的，因此指标数据更高并不能说明更好。注意数据样本容量不够。我们在分析某特定的用户行为数据时，可能用户使用很少的情况。或者是在提取数据的过程中，增加了很多的限制条件或者多种用户行为或属性进行交叉后，得到很少的用户样本。

此时，得出的分析结果未必可信。因为大数定律，只有当数据量达到一定程度后，才能反映出特定的规律。但是样本容量多少才算合理，通常只能是具体问题具体分析。比如，在一个考勤软件APP应用新上了学习打卡的新功能，但由于前期无预算做推广，导致新功能只有在小部分老用户群体中曝光，因此，从数据中来判断此功能并不受欢迎。

但这里实际就存在数据样本容量不够，并不能说明问题。因此，遇到这种情况，建议可以把时间线拉长，这样可能会获得足量的样本。还有一种做法是，将不重要的限定条件去掉，也可以增大样本数。注意存在脏数据。脏数据是指严重不合理或对于实际业务毫无意义的数据，通常是由程序bug、第三方攻击、人为等原因造成的。这种数据对指标的准确度影响较大。

比如，我们要分析在一个考勤软件APP中各个企业类型打卡规则的分布情况，而用于分析用户打卡视角中，有较多是个人打卡并不是我们要分析的目标群体或者有人的工种的特殊性，就会造成打卡规则的分布不规则的情况，容易造成对用户喜好的误判。因此，对脏数据的清洗和处理，也是数据分析人员日常工作中非常重要的一部分。在分析具体业务时，也要针对特定业务，过滤掉异常数据，来确保拥有比较好的数据质量。

指标不合理，数据具备时效性

清洗完数据后，下一步就需要明确分析的数据指标，进行数据分析，其数据分析的结果通常是各种各样的指标，每个指标都有自己的统计逻辑，反映的事物的某些方面的本质。比如，很多时候我们会使用平均值来描述一组数据的集中趋势。

我们在制定业务阈值时，也经常会参考平均值。但是，有些业务场景不适合使用平均值。就像变化比较大，存在极端值的数据，或者是对最终结果影响不一致的数据。这种时候，你就要考虑其他指标，如加权平均值、百分位数、小数值合并后再求平均值。因此，在进行数据分析时，如果不能选择正确的指标，也可能会走入误区，从而得出错误的结论。数据是具备一定的时效性，不同情况下的数据，一些曾经的数据可能不再适用，需要找到新的数据指标。

套用方法论，分析结论不严谨

明确好数据分析指标，接下来就是通过各种数据分析方法来分析数据，得出结论，支持业务决策。数据分析方法论是对一个数据分析项目的整体工作起到指导作用的思路模型。然而，在数据分析学习时或许习惯了各种解题套路，但实操时其实并不存在通用的分析套路。

不同的行业、不同的业务，不同的阶段，哪怕用的是同一种分析方法结论都应有所区别。比如，在实际工作场景中，数据分析需要对数据表现作出快速判断，进而指导运营决策，并不像学术研究那样严谨，不需要在每次分析前都去验证样本群体是否符合某种统计分布等，实际工作中，考验得更多的是对业务的理解的把握能力。

所以，在开展数据分析工作过程中，不能完全依赖过往的类似案例以及分析方法，而应重视业务的理解。因此，每一次分析，应该结合业务场景中思考，更不能被各种套路方法论给束缚住，也不能简单依赖过往的类似案例。

轻视业务，与实际场景脱节

数据不等同与实际场景，实际场景往往比数据更加复杂，分析时需要了解具象化的场景，而不是抽象的数据，数据分析初学者极易犯的错误，只懂工具不懂业务不能真正理解业务需求。好的分析人员需要既懂工具又懂业务，也要多去一线了解业务运作，帮助解决业务运营中遇到的各种问题。

比如，结构化思维模型、KANO分析模型、RFM模型、四象限模型。。。。。。这些经典且广泛应用的模型。来积累丰富的数据分析模型库以应对各种业务场景。因此，数据分析人员结合实际业务场景，需要具体问题具体分析，服务于业务的应用。及时与企业各部门沟通，共享数据分析的成果，这样才能体现数据分析的真正价值。所以作为数据分析人员，要结合业务需求，保持独立思考的心态，大胆假设，小心求证，警惕和避免走进数据分析的陷阱。

总结

实际工作生活中，还有很多需要我们注意的关于数据分析的事项，这里就不一一开展，本文只是从业务层面的视角梳理了关于数据分析各个环节中可能存在的引发误导的一些陷阱。

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

APP

APP

+关注

关注
33

文章
1580

浏览量
72871
数据分析

数据分析

+关注

关注
2

文章
1462

浏览量
34203
Kano模型分析法

Kano模型分析法

+关注

关注
0

文章
2

浏览量
1386

原文标题：警惕！数据分析的陷阱？

文章出处：【微信号：DBDevs，微信公众号：数据分析与开发】欢迎添加关注！文章转载请注明出处。

智能焊接数据分析设备提升工业效率与精度

如何通过数据采集、分析与应用，实现对焊接过程的精确控制，从而提升工业生产的整体水平。首先，智能焊接数据分析设备的核心在于其强大的数据

发表于 01-15 14:11 •134次阅读

智能焊接数据分析设备提升制造精度与效率

随着工业4.0的推进，智能制造成为制造业转型升级的重要方向。在这一过程中，焊接技术作为机械制造中的关键环节，其精度和效率直接影响到产品的质量与生产成本。传统的焊接方式依赖于人工操作，存在焊接质量

发表于 01-14 09:36 •121次阅读

Mathematica 在数据分析中的应用

数据分析是现代科学研究和商业决策中不可或缺的一部分。随着数据量的爆炸性增长，对数据分析工具的需求也在不断增加。Mathematica，作为一种强大的计算软件，以其独特的符号计算能力和广

发表于 12-26 15:41 •232次阅读

数据可视化与数据分析的关系

的含义。 数据分析的定义与作用 数据分析是一种使用统计和逻辑方法来分析数据集的过程，目的是发现模式、趋势和关联性。它包括

发表于 12-06 17:09 •445次阅读

LLM在数据分析中的作用

随着大数据时代的到来，数据分析已经成为企业和组织决策的关键工具。数据科学家和分析师需要从海量数据中提取有价值的信息，以支持业务决策。在这个

发表于 11-19 15:35 •483次阅读

raid 在大数据分析中的应用

RAID（Redundant Array of Independent Disks，独立磁盘冗余阵列）在大数据分析中的应用主要体现在提高存储系统的性能、可靠性和容量上。以下是RAID在大数据分析

发表于 11-12 09:44 •332次阅读

SUMIF函数在数据分析中的应用

在商业和科学研究中，数据分析是一项基本且关键的技能。Excel作为最常用的数据分析工具之一，提供了多种函数来帮助用户处理和分析数据。SUMI

发表于 11-11 09:14 •444次阅读

智能制造中的数据分析应用

随着工业4.0的推进，智能制造已经成为制造业转型升级的关键。数据分析作为智能制造的核心驱动力，正逐步改变传统的生产方式，为企业带来更高的效率和更大的竞争力。一、数据分析在智能制造中的重要性提高

发表于 11-07 09:56 •412次阅读

数据分析在数字化中的作用

与重要性 数据分析是指使用统计和逻辑方法对数据进行处理和解释的过程。它涉及到数据的收集、清洗、转换、建模和解释，目的是发现数据

发表于 10-27 17:35 •735次阅读

云计算在大数据分析中的应用

云计算在大数据分析中的应用广泛且深入，它为用户提供了存储、计算、分析和预测的强大能力。以下是对云计算在大数据分析中应用的介绍：一、存储和处

发表于 10-24 09:18 •632次阅读

数据分析的工具有哪些

数据分析是一个涉及收集、处理、分析和解释数据以得出有意义见解的过程。在这个过程中，使用正确的工具至关重要。以下是一些主要的

发表于 07-05 14:54 •1128次阅读

数据分析有哪些分析方法

数据分析是一种重要的技能，它可以帮助我们从大量的数据中提取有价值的信息，从而做出更明智的决策。在这篇文章中，我们将介绍数据分析的各种方法，包括描述性

发表于 07-05 14:51 •774次阅读

机器学习在数据分析中的应用

随着大数据时代的到来，数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具，通过训练模型从数据中学习规律，为企业和组织提供了更高效、更准确的

发表于 07-02 11:22 •866次阅读

求助，关于AD采集到的数据分析问题

MATLAB中画图后能看到几个周期的图像数据特征：在matlab中能看到图像是由两部分构成，一部分是基波及其n次谐波，即存在上升沿，过冲，另一部分是随机噪声求各位大神科普

发表于 05-09 07:40

广告投放公司运用大数据分析，实现精准投放

。广告投放公司将探讨广告投放公司如何运用大数据分析实现精准投放，以及这一过程中的关键要素和挑战。一、大数据在广告投放中的作用大数据在广告

发表于 04-11 11:23 •1089次阅读

搜索历史

数据分析过程中几个可能常见的陷阱

评论