机器学习中的数据准备，为什么它如此重要-电子发烧友网

（文章来源：百家号）

从自动驾驶汽车等基于AI的大规模技术革命到构建非常简单的算法，您都需要正确格式的数据。实际上，特斯拉和福特一直在通过行车记录仪，传感器和倒车摄像头收集数据，并对其进行分析以制造出无人驾驶和全自动汽车，以确保安全的道路。

收集数据之后的下一步是准备数据的过程，这将成为本文的重点，并将在后续部分中详细讨论。在深入研究数据准备过程的概念之前，让我们首先了解其含义。作为基于AI创新的大脑的数据科学家，您需要了解数据准备的重要性，以实现模型所需的认知能力。

什么是数据准备？数据是每个组织的宝贵资源。但是，如果我们不进一步分析该声明，它可能会否定自己。企业将数据用于各种目的。从广义上讲，它用于制定明智的业务决策，执行成功的销售和营销活动等。但是，这些不能仅用原始数据来实现。

数据只有经过清洗，贴标签，注释和准备后，才能成为宝贵的资源。数据经过适应性测试的各个阶段后，便最终具备进行进一步处理的资格。处理可以采用多种方法-将数据提取到BI工具，CRM数据库，开发用于分析模型的算法，数据管理工具等。

现在，重要的是您从此信息的分析中收集的见解是准确且值得信赖的。实现此输出的基础在于数据的健康状况。此外，无论您是构建自己的模型还是从第三方那里获得模型，都必须确保标记，扩充，干净，结构化的整个过程背后的数据都经过标记，概括，即数据准备。

正如Wikipedia所定义的，数据准备是将原始数据（可能来自不同的数据源）操纵（或预处理）为可以方便，准确地进行分析的形式的行为，例如出于商业目的。数据准备是数据分析项目的第一步，可以包括许多离散任务，例如加载数据或数据摄取，数据融合，数据清理，数据扩充和数据交付。

根据Cognilytica的最新研究，其中记录并分析了组织，机构和最终用户企业的响应，以识别在标记，注释，清理，扩充和丰富机器学习模型的数据上花费了大量时间。数据科学家80％以上的时间都花在准备数据上。尽管这是一个好兆头，但考虑到随着良好的数据进入建立分析模型，准确的人会得到输出。但是，理想情况下，数据科学家应该将更多的时间花在与数据交互，高级分析，培训和评估模型以及部署到生产上。

只有20％的时间进入流程的主要部分。为了克服时间限制，组织需要利用用于数据工程，标记和准备的专家解决方案来减少在清理，扩充，标记和丰富数据上花费的时间（取决于项目的复杂性）。这将我们带入了“垃圾中的垃圾”概念，即输出的质量取决于输入的质量。数据提取数据工作流程的第一阶段是提取过程，通常是从非结构化源（如网页，PDF文档，假脱机文件，电子邮件等）中检索数据。部署从网络中提取信息的过程称为网络刮。

数据概要分析是检查现有数据以提高质量并通过格式带来结构的过程。这有助于评估质量和对特定标准的一致性。当数据集不平衡且配置不当时，大多数机器学习模型将无法正常工作。数据清理可确保数据干净，全面，无错误，并提供准确的信息，因为它不仅可以检测文本和数字的异常值，还可以检测图像中无关的像素。您可以消除偏见和过时的信息，以确保您的数据是干净的。

数据转换是对数据进行转换以使其均匀。地址，名称和其他字段类型之类的数据以不同的格式表示，数据转换有助于对此进行标准化和规范化。数据匿名化是从数据集中删除或加密个人信息以保护隐私的过程。数据扩充用于使可用于训练模型的数据多样化。在不提取新信息的情况下引入其他信息包括裁剪和填充以训练神经网络。

数据采样识别大型数据集中的代表性子集，以分析和处理数据。特征工程是将机器学习模型分类为好模型还是坏模型的主要决定因素。为了提高模型的准确性，您可以将数据集合并以将其合并为一个。

（责任编辑：fqj）

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
6914

浏览量
88853
机器学习

机器学习

+关注

关注
66

文章
8382

浏览量
132457

什么是机器学习？通过机器学习方法能解决哪些问题？

计算机系统自身的性能”。事实上，由于“经验”在计算机系统中主要以数据的形式存在，因此机器学习需要设法对数据进行分析

发表于 11-16 01:07 •271次阅读

什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>？通过<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法能解决哪些问题？

eda在机器学习中的应用

在机器学习项目中，数据预处理和理解是成功构建模型的关键。探索性数据分析（EDA）是这一过程中不可或缺的一部分。 1.

发表于 11-13 10:42 •194次阅读

鲁棒性在机器学习中的重要性

金融风险评估。这些应用场景对模型的鲁棒性提出了极高的要求。鲁棒性的定义鲁棒性通常被定义为系统在面对不确定性和变化时仍能保持其功能的能力。在机器学习中，这意味着即使输入数据包含错误、

发表于 11-11 10:19 •229次阅读

具身智能与机器学习的关系

（如机器人、虚拟代理等）通过与物理世界或虚拟环境的交互来获得、发展和应用智能的能力。这种智能不仅包括认知和推理能力，还包括感知、运动控制和环境适应能力。具身智能强调智能体的身体和环境在智能发展中的重要性。 2.

发表于 10-27 10:33 •295次阅读

【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

本人有些机器学习的基础，理解起来一点也不轻松，加油。作者首先说明了时间序列的信息提取是时间序列分析的一个重要环节，目标是从给定的时间序列数据中提取出有用的信息和特征，以支持后续的分析

发表于 08-14 18:00

机器学习中的数据分割方法

在机器学习中，数据分割是一项至关重要的任务，它直接影响到模型的训练效果、泛化能力以及最终的性能评

发表于 07-10 16:10 •1387次阅读

机器学习中的交叉验证方法

在机器学习中，交叉验证（Cross-Validation）是一种重要的评估方法，它通过将数据集分

发表于 07-10 16:08 •947次阅读

如何理解机器学习中的训练集、验证集和测试集

理解机器学习中的训练集、验证集和测试集，是掌握机器学习核心概念和流程的重要一步。这三者不仅构成了

发表于 07-10 15:45 •3346次阅读

机器学习中的数据预处理与特征工程

在机器学习的整个流程中，数据预处理与特征工程是两个至关重要的步骤。它们直接决定了模型的输入质量，进而影响模型的训练效果和泛化能力。本文将从

发表于 07-09 15:57 •313次阅读

深度学习中的无监督学习方法综述

深度学习作为机器学习领域的一个重要分支，近年来在多个领域取得了显著的成果，特别是在图像识别、语音识别、自然语言处理等领域。然而，深度学习模型

发表于 07-09 10:50 •557次阅读

机器人视觉技术中图像分割方法有哪些

机器人视觉技术是人工智能领域的一个重要分支，它涉及到图像处理、模式识别、机器学习等多个学科。图像分割是机

发表于 07-04 11:34 •797次阅读

机器学习算法原理详解

机器学习作为人工智能的一个重要分支，其目标是通过让计算机自动从数据中学习并改进其性能，而无需进行明确的编程。本文将深入解读几种常见的

发表于 07-02 11:25 •814次阅读

机器学习在数据分析中的应用

随着大数据时代的到来，数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具，通过训练模型从

发表于 07-02 11:22 •556次阅读

什么是边缘计算？它为何如此重要？

，什么是边缘计算？它为何如此重要？本文将对其进行详细的解析。边缘计算，简而言之，是指在靠近物或数据源头的一侧，采用网络、计算、存储、应用核心能力为一体的开放平台，就近提供最近端服务。它

发表于 04-22 15:25 •406次阅读

什么是机器学习？它的重要性体现在哪

机器学习是一种人工智能（AI）的子领域，旨在使计算机系统通过经验自动学习和改进，而无需明确地进行编程。它侧重于开发算法和模型，使计算机能够从数据

发表于 01-05 08:27 •1464次阅读

搜索历史

机器学习中的数据准备，为什么它如此重要

评论