为什么说机器学习竞争是一场数据上的竞争-电子发烧友网

人工智能的三大发展要素已经是老生常谈了。算法、算力和数据对机器学习的重要性和声望不亚于“谦哥”的喝酒、烫头和抽烟。

那些热衷竞争实施机器学习的公司现在惊讶地发现，其实，实施一些算法使机器变得对某一数据或问题更加智能并不困难。毕竟，这年头“即插即用”又很稳健的算法编程解决方案简直“烂大街了”。例如，从开源机器学习框架谷歌TensorFlow，到微软Azure Machine Learning以及亚马逊SageMaker，应有尽有。

所以，数据已逐渐成为了机器学习竞争中最关键的区分点。一个原因是高质量数据并不常见；另一原因是数据尚未商品化，公司企业之间存在着信息不对称。

希望借助AI一臂之力的企业需要寻求外部数据源，甚至这样的数据甚至可能需要他们自己创建。

有用的数据：有价值、又很稀少

数据逐渐变成竞争中的区分点是因为许多公司根本没有他们需要的数据。尽管几十年来，公司都在使用通用的会计准则这样的系统化方法来评估自己，但是这种评估方法一直关注于实体资产与金融资产，也就是实物和钱。2013年甚至给资产定价理论颁了一个诺贝尔奖，强化了已有的对实体或金融资产重要性的认知。

但是，今天最有价值的那些公司贸易对象是软件或网络，而不仅仅是实体或金融资产。在过去的40年内，资产类型的重心有了很大的变化：1975年，83%的有形资产占整个市场绝大部分份额；而2015年时市场中84%的资产是无形资产。今天的公司巨头们不再生产咖啡壶也不再售卖洗衣机，他们转而提供应用程序，软件等等。这样的转变造成了会计记账的对象和实际产生价值的对象极其不匹配。

结果就是有用数据的缺少已经成为了一个问题。市面价值与账面价值的差别越来越大。公司们正在试图利用机器学习辅助重要的商业决策来改善这一差别。有时，机器学习甚至会取代一些昂贵的咨询顾问们，而最后他们经常会意识到算法所需的数据压根不存在。所以实际上，那些闪瞎人眼的先进AI系统最后依旧只是在同样老旧的数据上试图实施新技术。

和人类一样，除非有人教，机器学习系统并不会精通任何领域。不过比起人类，机器会需要更多的信息来进行学习，并且它们确实比人类读取数据的速度更快。因此，表面上公司间会互相竞争谁拥有更好的机器学习程序员以及谁先启动AI项目，在幕后其实是对于数据新颖度和广泛度的竞争。

比如说在金融领域，可供选择的数据来源远远超过了传统证券交易报告以及投资者展示等。数据还可以来源于社交网络情感分析或者获批专利数量等。

这些数据源的重要性主要基于两点原因。首先，传统数据局限于传统资产，在当今无形资产当道的时代，覆盖面上远远不够。第二，并没有任何必要在市场上所有人都在分析的数据上使用机器学习方法。所有对此感兴趣的人都早已经尝试过分析产业趋势、利润率、增长率、息税前利润、资产周转率以及资产回报率和其它上千个常见的变量与股东回报率之间的相关性。

在所有人都在分析的数据上试图发现相关性并不会帮助公司取胜。相反，希望使用AI取胜的公司需要寻找新数据集之间的联系，因此他们可能必须自己创建那些新数据集来评估无形资产。

谨慎思考：你想知道什么？

创建数据比仅仅把销售点与顾客信息两个表聚合到一起然后丢进数据库复杂得多。大多数企业错误地相信通过这样一种权宜的方法能够预测或区分出他们关心的信息：把所有能找到的数据都大费周章地聚合到一起然后指望能够找到一丝希望之光。

尽管机器学习有时会突然发现某些从未有人意识到的事物从而使所有人都大吃一惊，但它并不能够持续稳定提供这样的洞察。这并不意味着这项工具很垃圾，这意味着我们需要更明智地使用它。但说起来容易做起来难：比如，在我们研究外部数据市场时，我们发现大多数新数据提供者依旧在关注实体与金融资产。

许多企业遗漏的一步是提出一项真正重要的假设。机器学习真正体现优越性之处在于，它们能够通过采用人类已经拥有的见解，这可以来自于经验法则、广泛认知或者几乎完全不被理解的相关性，来建设一种速度更快、更易于理解、更易于扩展且更低错误率的方法。

为了这样使用机器学习方法，不应向系统塞进任何你能找到的数据。你仅仅输入被谨慎思考过的一组信息，希望它能够学习并拓展，得到比人类掌握的更多的信息。

有意义的机器学习来自于不同的数据

以下是为希望搭建有影响力、有价值的机器学习应用的公司提出的三点建议：

1.成功的AI在于与众不同的数据。在你的竞争对手都已经掌握的数据上你是得不出什么新颖信息的。审视企业内部，找出只有你们知道并理解的信息并以此创建一个独特的数据集。机器学习算法确实需要大量的数据支持，但这并不意味着模型需要考虑大量变量。你应当把关注点放在企业已经具有独特之处的数据上。

2.有意义的数据比全面的数据好。你可能就某问题上拥有大量详尽数据，但它们可能压根没什么用。如果你的公司根本不会在决策过程中随时使用这些信息，那这样的数据八成对机器学习也没有什么价值。专业的机器学习工程师会询问许多困难的问题来找出什么才是真正重要的领域，以及那些领域将如何对该应用程序输出结果产生影响。如果这些问题对你太难了，那么你并没有为得到实际价值而仔细思考。

3.应当从你已知的信息出发。最善于利用机器学习的公司会从一个独特的视角出发，来找到与他们重要决策最为相关的因素。这将会指导他们去收集何种数据以及使用何种技术。就基于你们团队已经拥有的一部分知识之上进行拓展这个问题来着手是比较简单的，这也将为你企业创造更多价值。

很明显这个时代已经是“软件吃掉了整个世界”了（这个形容来源于软件工程师Marc Andreessen）。但它们依然很饥饿！软件们需要一份包含崭新数据与科技的食谱来持续创造价值。

没有人希望落后于这样的洞察、机器与外部数据的转变。那么，请从内部审视企业开始，去发掘你独特的见解以及你可以而且应该得到的有价值的外部数据来源。通过这些步骤，你才能够发现保持企业竞争力的相关洞见。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1800

文章
48089

浏览量
242209
机器学习

机器学习

+关注

关注
66

文章
8460

浏览量
133420

原文标题：业界 | 机器学习竞争其实是一场数据上的竞争

文章出处：【微信号：szwlw26059696，微信公众号：物联网之声】欢迎添加关注！文章转载请注明出处。

RK3568驱动指南｜第三篇-并发与竞争-第19章并发与竞争实验

发表于 02-24 16:26 •231次阅读

RK3568驱动指南｜第三篇-并发与<b class='flag-5'>竞争</b>-第19章并发与<b class='flag-5'>竞争</b>实验

2025年半导体行业竞争白热化：2nm制程工艺成焦点

据外媒最新报道，半导体行业即将在2025年迎来一场激烈的竞争。随着技术的不断进步，各大晶圆代工厂将纷纷开始批量生产采用2nm制程工艺的芯片，并努力降低3nm制程工艺芯片的生产成本，以抢占市场

发表于 12-26 14:24 •1320次阅读

PDM产品数据管理系统的必要性分析 PDM如何助力企业提升竞争力

在当今竞争激烈的制造业环境中，企业对高效、准确的产品数据管理需求日益增长。PDM（Product Data Management，产品数据管理系统）正是应对这一需求的利器。本文将深入探

发表于 11-27 11:56 •420次阅读

从机器人到高速线，线缆行业如何提升竞争力

机器人行业发展有何新趋势？AI高速线的竞争格局如何？线缆行业如何避免“内卷式竞争”？对话业内人士，解析行业最新发展趋势。当前，机器人作为热门市场，成为智能制造整体战略方向中的重要板块

发表于 11-20 10:22 •403次阅读

从<b class='flag-5'>机器</b>人到高速线，线缆行业如何提升<b class='flag-5'>竞争</b>力

什么是机器学习？通过机器学习方法能解决哪些问题？

计算机系统自身的性能”。事实上，由于“经验”在计算机系统中主要以数据的形式存在，因此机器学习需要设法对数据进行分析

发表于 11-16 01:07 •621次阅读

什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>？通过<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法能解决哪些问题？

学习SOLIDWORKS提高学生的就业竞争力

以及广泛的行业应用，成为了众多高校和企业培养专业人才的首要选择工具。对于在校学生而言，学习SOLIDWORKS不仅能够显著提升其专业技能，还能在激烈的就业市场中脱颖而出，增强个人的就业竞争力。

发表于 07-22 17:19 •465次阅读

<b class='flag-5'>学习</b>SOLIDWORKS提高学生的就业<b class='flag-5'>竞争</b>力

机器学习中的数据分割方法

在机器学习中，数据分割是一项至关重要的任务，它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨机器

发表于 07-10 16:10 •2400次阅读

谷歌Tensor G5芯片代工转向台积电，强化AI智能手机竞争力

在半导体代工领域，一场重大的战略调整正在悄然发生。谷歌，这家全球知名的科技巨头，近期决定将下一代Tensor G5芯片的代工合作伙伴从三星电子转向台积电，这一决定不仅预示着谷歌在芯片制造策略上

发表于 07-09 09:51 •654次阅读

机器学习在数据分析中的应用

随着大数据时代的到来，数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具，

发表于 07-02 11:22 •934次阅读

德国机器人面临中国竞争与国内经济下滑的双重压力

在6月18日的一则消息中，德国机械工程行业协会（VDMA）揭示了其国内机器人产业正面临的双重挑战：来自中国的激烈竞争和国内经济形势的疲软。

发表于 06-18 15:59 •525次阅读

中国竞争压力加剧,德国机器人产业面临挑战

近日，全球机械制造业的焦点转向了德国。据路透社6月18日的报道，德国机械工程行业协会（VDMA）发出警告，称来自中国的竞争正在给德国机器人产业带来前所未有的压力。这一行业在面临国内经济疲软的同时

发表于 06-18 15:25 •567次阅读

东芝大幅裁员聚焦功率半导体，中国市场成竞争新焦点

在日益激烈的全球半导体市场竞争中，东芝公司近日宣布了一项重大战略调整，将进行一场规模达5000人的裁员行动，并将重点聚焦在功率半导体等核心业务上，以应对行业变革和市场挑战。

发表于 06-05 11:33 •361次阅读

中国科技少年的英雄梦想，从一场ICT大赛启程

一场华为ICT大赛，科技少年之梦的起点与归途

发表于 04-08 14:22 •684次阅读

数据中台：如何构建企业核心竞争力

在当今信息化快速发展的商业环境下，“数据中台”已经成为构建企业核心竞争力的关键步骤。数据中台不仅是数据集成与管理的平台，更是企业智能化转型的加速器。本文将深入探讨

发表于 03-22 16:28 •506次阅读

线路板阻焊掉油：一场对性能与寿命的挑战

线路板阻焊掉油：一场对性能与寿命的挑战

发表于 03-14 15:23 •1228次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

为什么说机器学习竞争是一场数据上的竞争

评论

RK3568驱动指南｜第三篇-并发与竞争-第19章并发与竞争实验

2025年半导体行业竞争白热化：2nm制程工艺成焦点

PDM产品数据管理系统的必要性分析 PDM如何助力企业提升竞争力

从机器人到高速线，线缆行业如何提升竞争力

什么是机器学习？通过机器学习方法能解决哪些问题？

学习SOLIDWORKS提高学生的就业竞争力

机器学习中的数据分割方法

谷歌Tensor G5芯片代工转向台积电，强化AI智能手机竞争力

机器学习在数据分析中的应用

德国机器人面临中国竞争与国内经济下滑的双重压力

中国竞争压力加剧,德国机器人产业面临挑战

东芝大幅裁员聚焦功率半导体，中国市场成竞争新焦点

中国科技少年的英雄梦想，从一场ICT大赛启程

数据中台：如何构建企业核心竞争力

线路板阻焊掉油：一场对性能与寿命的挑战