机器学习实践中的十条注意点-电子发烧友网

对于开发人员而言，基于云的机器学习工具带来了使用机器学习创造和提供新的功能的可能性。然而，开发者想要在它们的应用程序中融入机器学习，通常会犯一些错误，本文列了十条注意点以飨读者。

在提供发现埋藏数据深层的模式的能力上，机器学习有着潜在的能力使得应用程序更加的强大并且更能响应用户的需求。精心调校好的算法能够从巨大的并且互不相同的数据源中提取价值，同时没有人类思考和分析的限制。对于开发者而言，机器学习为应用业务的关键分析提供了希望，从而实现从改善客户体验到提供产品推荐上升至超个性化内容服务的任何应用程序。

像Amazon和Micorosoft这样的云供应商提供云功能的机器学习解决方案，承诺为开发者提供一个简单的方法，使得机器学习的能力能够融入到他们的应用程序当中，这也算是最近的头条新闻了。承诺似乎很好，但开发者还需谨慎。

对于开发人员而言，基于云的机器学习工具带来了使用机器学习创造和提供新的功能的可能性。然而，当我们使用不当时，这些工具会输出不好的结果，用户可能会因此而感到不安。测试过微软年龄检测机器学习工具( http://how-old.net/ )的人都会发现，伴随即插即用的易用性而来的是主要的精度问题——对于关键应用程序或者是重大决策，它应该不值得信赖。

想要在应用程序中成功地融入机器学习的开发者，需要注意以下的一些关键要点：

1.算法使用的数据越多，它的精度会更加准确，所以如果可能要尽量避免抽样

机器学习理论在预测误差上有着非常直观的描述。简而言之，在机器学习模型和最优预测（在理论上达到最佳可能的误差）之间的预测误差的差距可以被分解为三个部分：

由于没有找到正确函数形式的模型的误差

由于没有找到最佳参数的模型的误差

由于没用使用足够数据的模型的误差

如果训练集有限，它可能无法支撑解决这个问题所需的模型复杂性。统计学的基本规律告诉我们，如果我们可以的话，应该利用所有的数据而不是抽样。

2. 对给定的问题选择效果最好的机器学习算法是决定成败的关键

例如，梯度提升树（GBT）是一个非常受欢迎的监督学习算法，由于其精度而被业内开发人员广泛使用。然而，尽管其高度受欢迎，我们也不能盲目的把这种算法应用于任何问题上。相反，我们使用的算法应该是能够最佳地拟合数据特征同时能够保证精度的算法。

为了证明这个观点，尝试做这样一个实验，在数据集 the popular text categorization dataset rcv1上测试GBT算法和线性支持向量机（SVM）算法，并比较两者的精度。我们观察到在这个问题上，就错误率而言，线性SVM要优于GBT算法。这是因为在文本领域当中，数据通常是高维的。一个线性分类器能够在N-1维当中完美的分离出N个样本，所以，一个样本模型在这种数据上通常表现的更好。此外，模型越简单，通过利用有限的训练样本来避免过拟合的方式学习参数，并且提供一个精确的模型，产生的问题也会随之越少。

另一方面，GBT是高度非线性的并且更加强大，但是在这种环境中却更难学习并且更容易发生过拟合，往往结果精度也较低。

3. 为了得到一个更好的模型，必须选择最佳的的算法和相关的参数

这对于非数据科学家而言可能不容易。现代的机器学习算法有许多的参数可以调整。例如，对于流行的GBT算法单独的就有十二个参数可以设置，其中包括如何控制树的大小，学习率，行或列的采样方法，损失函数，正则化选项等等。一个特有的项目需要在给定的数据集上为每一个参数找到其最优值并且达到最精准的精度，这确实不是一件容易的事。但是为了得到最佳的结果，数据科学家需要训练大量的模型，而直觉和经验会帮助他们根据交叉验证的得分，然后决定使用什么参数再次尝试。

4. 机器学习模型会随着好的数据而变得更好，错误的数据收集和数据处理会降低你建立预测和归纳的机器学习模型的能力

根据经验，建议仔细审查与主题相关的数据，从而深入了解数据和幕后数据的生成过程。通常这个过程可以识别与记录、特征、值或采样相关的数据质量问题。

5. 理解数据特征并改进它们（通过创造新的特征或者去掉某个特征）对预测能力有着高度的影响

机器学习的一个基本任务就是找到能够被机器学习算法充分利用的丰富特征空间来替代原始数据。例如，特征转换是一种流行的方法，可以通过在原始数据的基础上使用数学上的转换提取新的特征来实现。最后的特征空间（也就是最后用来描述数据的特征）要能更好的捕获数据的多复杂性（如非线性和多种特征之间的相互作用），这对于成功的学习过程至关重要。

6. 在应用中，选择合适的灵感来自商业价值的目标函数/损失函数对于最后的成功至关重要

几乎所有的机器学习算法最后都被当成是一种优化问题。根据业务的性质，合理设置或调整优化的目标函数，是机器学习成功的关键。

以支持向量机为例，通过假设所有错误类型的权重相等，对一个二分类问题的泛化误差进行了优化。这对损失敏感的问题并不合适，如故障检测，其中某些类型的错误比重可能比其它类型的要高。在这种情况下，建议通过在特定的错误类型上，增加更多的惩罚来解释它们的权重，从而调整SVM的损失函数。

7. 确保正确地处理训练数据和测试数据

如此当在生产中部署该模型时，测试数据能够模拟输入数据。例如，我们可以看到，这对于时间依赖性数据是多么的重要。在这种情况下，使用标准的交叉验证方法进行训练，调整，那么测试模型的结果可能会有偏差，甚至会不准确。这是因为在实施平台上它不能准确的模拟输入数据的性质。为了纠正这一点，在部署时我们必须仿照模型来部署使用。我们应该使用一个基于时间的交叉验证，用时间较新的数据来验证训练模型。

8. 部署前理解模型的泛化误差

泛化误差衡量模型在未知数据上的性能好坏。因为一个模型在训练数据上的性能好并不意味着它在未知的数据上的表现也好。一个精心设计的模拟实际部署使用的模型评估过程，是估计模型泛化误差所需要的。

一不留心就很容易违反交叉验证的规则，并且也没有一种显而易见的方法来表现交叉验证的非正确性，通常在你试图寻找快捷方式计算时发生。在任何模型部署之前，有必要仔细注意交叉验证的正确性，以获得部署性能的科学评估。

9. 知道如何处理非结构化和半结构化数据

如文本、时间序列、空间、图形或者图像数据。大多数机器学习算法在处理特征空间中的数据时，一个特征集代表一个对象，特征集的每一个元素都描述对象的一个特点。在实际当中，数据引进时并不是这种格式化的形式，往往来自于最原始的格式，并且最后都必须被改造成机器学习算法能够识别的理想格式。比如，我们必须知道如何使用各种计算机视觉技术从图像中提取特征或者如何将自然语言处理技术应用于影片文本。

10. 学会将商业问题转换成机器学习算法

一些重要的商业问题，比如欺诈检测、产品推荐、广告精准投放，都有“标准”的机器学习表达形式并且在实践当中取得了合理的成就。即使对于这些众所周知的问题，也还有鲜为人知但功能更强大的表达形式，从而带来更高的预测精度。对于一般在博客和论坛中讨论的小实例的商业问题，适当的机器学习方法则不太明显。

如果你是一个开发者，学习这十个通往成功的诀窍可能似乎是一个艰难的任务，但是不要气馁。事实上，开发者不是数据科学家。认为开发人员可以充分利用所有的机学习工具是不公平的。但是这并不意味着开发人员没有机会去学习一些有水准的数据科学从而改进他们的应用。随着适当的企业解决方案和自动化程度的提高，开发人员可以做模型构建到实施部署的一切事情，使用机器学习最佳实践来保持高精度。

自动化是在应用程序中扩展机器学习的关键。即使你能够供得起一批小的数据科学家团队和开发者携手合作，也没有足够的人才。像Skytree的AutoModel（自动化模型）能够帮助开发者自动地确定最佳的参数并且使得算法得到最大的模型精度。一个易于使用的接口可以引导开发人员通过训练加工，调整并且测试模型来防止统计上的错误。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

算法

算法

+关注

关注
23

文章
4612

浏览量
92887
模型

模型

+关注

关注
1

文章
3243

浏览量
48836
机器学习

机器学习

+关注

关注
66

文章
8418

浏览量
132628

原文标题：机器学习实践中的10个小秘诀！

文章出处：【微信号：vision263com，微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

zeta在机器学习中的应用 zeta的优缺点分析

在探讨ZETA在机器学习中的应用以及ZETA的优缺点时，需要明确的是，ZETA一词在不同领域可能有不同的含义和应用。以下是根据不同领域的ZETA进行的分析：一、ZETA在机器

发表于 12-20 09:11 •237次阅读

继电器测试的培训和学习资源有哪些推荐？

地理解和应用继电器测试技术。实践操作：除了理论学习，实践操作也是掌握继电器测试技能的重要途径。可以通过参加实际的工程项目或者实验室实践来积累经验。在

发表于 12-04 16:35

eda在机器学习中的应用

在机器学习项目中，数据预处理和理解是成功构建模型的关键。探索性数据分析（EDA）是这一过程中不可或缺的一部分。 1. 数据清洗数据清洗是机器学习

发表于 11-13 10:42 •301次阅读

嵌入式学习建议

原理的嵌入式操作系统进行学习。不要一开始就学习几种操作系统，理解了基本原理，实践中确有实际需要再学习也不迟。人总是要不断学习的。 ⑨关于汇

发表于 10-22 11:41

RTOS开发最佳实践

基于RTOS编写应用程序时，有一些要注意事项。在本节中，您将学习RTOS开发最佳实践，例如POSIX合规性、安全性和功能安全认证。

发表于 08-20 11:24 •456次阅读

【「时间序列与机器学习」阅读体验】+ 鸟瞰这本书

清晰，从时间序列分析的基础理论出发，逐步深入到机器学习算法在时间序列预测中的应用，内容全面，循序渐进。每一章都经过精心设计，对理论知识进行了详细的阐述，对实际案例进行了生动的展示，使读者在理论与

发表于 08-12 11:28

【「时间序列与机器学习」阅读体验】+ 简单建议

简单评价这本书。是这样，在阅读与实践过程中，我也发现了一些可以进一步提升用户体验的细节之处。例如，书中大量的代码示例对于学习者来说无疑是宝贵的资源，但在快速复制粘贴的过程中，偶尔会

发表于 08-12 11:21

Autobots应用探索：实践中的思考与发现

背景背景1：作为一名测试，日常工作中必不可少的几个环节是查看需求文档、编写测试用例、处理线上问题、能力提升等，基于集团的https://xxx.jd.com/工具能一次性帮我们把这些事情都做

发表于 07-16 15:00 •268次阅读

机器学习中的数据分割方法

在机器学习中，数据分割是一项至关重要的任务，它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨机器学习

发表于 07-10 16:10 •1788次阅读

如何理解机器学习中的训练集、验证集和测试集

理解机器学习中的训练集、验证集和测试集，是掌握机器学习核心概念和流程的重要一步。这三者不仅构成了模型学习

发表于 07-10 15:45 •3960次阅读

机器学习在数据分析中的应用

随着大数据时代的到来，数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具，通过训练模型从数据中学习规律，为企业和组织提供了更高效、更准确的数据分析能力。本文将深入探讨机器

发表于 07-02 11:22 •628次阅读

深度学习与传统机器学习的对比

在人工智能的浪潮中，机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步，为众多领域带来了革命性的变化。然而，尽管它们都属于

发表于 07-01 11:40 •1372次阅读

机器学习的经典算法与应用

关于数据机器学习就是喂入算法和数据，让算法从数据中寻找一种相应的关系。Iris鸢尾花数据集是一个经典数据集，在统计学习和机器

发表于 06-27 08:27 •1657次阅读

**十条PCB元器件摆放小建议**

十条PCB元器件摆放小建议 PCB设计中有非常多关于布线线宽、布线叠层、原理图等相关的技术规范。事实上，关于元器件摆放限制很少，但这并不意味着你可以为所欲为。分享十条PCB元器件摆放小建议给

发表于 03-14 10:39

经典电路-电动机点动控制线路介绍

在生产实践中，机械设备有时需要长时间运行，有时需要间断工作，因而控制电路要有连续工作和点动工作两种状态。

发表于 01-13 09:57 •2293次阅读

搜索历史

机器学习实践中的十条注意点

评论

zeta在机器学习中的应用 zeta的优缺点分析

继电器测试的培训和学习资源有哪些推荐？

eda在机器学习中的应用

嵌入式学习建议

RTOS开发最佳实践

【「时间序列与机器学习」阅读体验】+ 鸟瞰这本书

【「时间序列与机器学习」阅读体验】+ 简单建议

Autobots应用探索：实践中的思考与发现

机器学习中的数据分割方法

如何理解机器学习中的训练集、验证集和测试集

机器学习在数据分析中的应用

深度学习与传统机器学习的对比

机器学习的经典算法与应用

十条PCB元器件摆放小建议

经典电路-电动机点动控制线路介绍