0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习竞争幕后其实是对于数据新颖度和广泛度的竞争

MqC7_CAAI_1981 来源:cc 2019-01-10 15:50 次阅读

人工智能的三大发展要素已经是老生常谈了。算法、算力和数据对机器学习的重要性和声望不亚于“谦哥”的喝酒、烫头和抽烟。

那些热衷竞争实施机器学习的公司现在惊讶地发现,其实,实施一些算法使机器变得对某一数据或问题更加智能并不困难。毕竟,这年头“即插即用”又很稳健的算法编程解决方案简直“烂大街了”。例如,从开源机器学习框架谷歌TensorFlow,到微软Azure Machine Learning以及亚马逊SageMaker,应有尽有。

所以,数据已逐渐成为了机器学习竞争中最关键的区分点。一个原因是高质量数据并不常见;另一原因是数据尚未商品化,公司企业之间存在着信息不对称。

希望借助AI一臂之力的企业需要寻求外部数据源,甚至这样的数据甚至可能需要他们自己创建。

有用的数据:有价值、又很稀少

数据逐渐变成竞争中的区分点是因为许多公司根本没有他们需要的数据。尽管几十年来,公司都在使用通用的会计准则这样的系统化方法来评估自己,但是这种评估方法一直关注于实体资产与金融资产,也就是实物和钱。2013年甚至给资产定价理论颁了一个诺贝尔奖,强化了已有的对实体或金融资产重要性的认知。

但是,今天最有价值的那些公司贸易对象是软件或网络,而不仅仅是实体或金融资产。在过去的40年内,资产类型的重心有了很大的变化:1975年,83%的有形资产占整个市场绝大部分份额;而2015年时市场中84%的资产是无形资产。今天的公司巨头们不再生产咖啡壶也不再售卖洗衣机,他们转而提供应用程序,软件等等。这样的转变造成了会计记账的对象和实际产生价值的对象极其不匹配。

结果就是有用数据的缺少已经成为了一个问题。市面价值与账面价值的差别越来越大。公司们正在试图利用机器学习辅助重要的商业决策来改善这一差别。有时,机器学习甚至会取代一些昂贵的咨询顾问们,而最后他们经常会意识到算法所需的数据压根不存在。所以实际上,那些闪瞎人眼的先进AI系统最后依旧只是在同样老旧的数据上试图实施新技术。

和人类一样,除非有人教,机器学习系统并不会精通任何领域。不过比起人类,机器会需要更多的信息来进行学习,并且它们确实比人类读取数据的速度更快。因此,表面上公司间会互相竞争谁拥有更好的机器学习程序员以及谁先启动AI项目,在幕后其实是对于数据新颖度和广泛度的竞争。

比如说在金融领域,可供选择的数据来源远远超过了传统证券交易报告以及投资者展示等。数据还可以来源于社交网络情感分析或者获批专利数量等。

这些数据源的重要性主要基于两点原因。首先,传统数据局限于传统资产,在当今无形资产当道的时代,覆盖面上远远不够。第二,并没有任何必要在市场上所有人都在分析的数据上使用机器学习方法。所有对此感兴趣的人都早已经尝试过分析产业趋势、利润率、增长率、息税前利润、资产周转率以及资产回报率和其它上千个常见的变量与股东回报率之间的相关性。

在所有人都在分析的数据上试图发现相关性并不会帮助公司取胜。相反,希望使用AI取胜的公司需要寻找新数据集之间的联系,因此他们可能必须自己创建那些新数据集来评估无形资产。

谨慎思考:你想知道什么?

创建数据比仅仅把销售点与顾客信息两个表聚合到一起然后丢进数据库复杂得多。大多数企业错误地相信通过这样一种权宜的方法能够预测或区分出他们关心的信息:把所有能找到的数据都大费周章地聚合到一起然后指望能够找到一丝希望之光。

尽管机器学习有时会突然发现某些从未有人意识到的事物从而使所有人都大吃一惊,但它并不能够持续稳定提供这样的洞察。这并不意味着这项工具很垃圾,这意味着我们需要更明智地使用它。但说起来容易做起来难:比如,在我们研究外部数据市场时,我们发现大多数新数据提供者依旧在关注实体与金融资产。

许多企业遗漏的一步是提出一项真正重要的假设。机器学习真正体现优越性之处在于,它们能够通过采用人类已经拥有的见解,这可以来自于经验法则、广泛认知或者几乎完全不被理解的相关性,来建设一种速度更快、更易于理解、更易于扩展且更低错误率的方法。

为了这样使用机器学习方法,不应向系统塞进任何你能找到的数据。你仅仅输入被谨慎思考过的一组信息,希望它能够学习并拓展,得到比人类掌握的更多的信息。

有意义的机器学习来自于不同的数据

以下是为希望搭建有影响力、有价值的机器学习应用的公司提出的三点建议:

1.成功的AI在于与众不同的数据。在你的竞争对手都已经掌握的数据上你是得不出什么新颖信息的。审视企业内部,找出只有你们知道并理解的信息并以此创建一个独特的数据集。机器学习算法确实需要大量的数据支持,但这并不意味着模型需要考虑大量变量。你应当把关注点放在企业已经具有独特之处的数据上。

2.有意义的数据比全面的数据好。你可能就某问题上拥有大量详尽数据,但它们可能压根没什么用。如果你的公司根本不会在决策过程中随时使用这些信息,那这样的数据八成对机器学习也没有什么价值。专业的机器学习工程师会询问许多困难的问题来找出什么才是真正重要的领域,以及那些领域将如何对该应用程序输出结果产生影响。如果这些问题对你太难了,那么你并没有为得到实际价值而仔细思考。

3.应当从你已知的信息出发。最善于利用机器学习的公司会从一个独特的视角出发,来找到与他们重要决策最为相关的因素。这将会指导他们去收集何种数据以及使用何种技术。就基于你们团队已经拥有的一部分知识之上进行拓展这个问题来着手是比较简单的,这也将为你企业创造更多价值。

很明显这个时代已经是“软件吃掉了整个世界”了(这个形容来源于软件工程师Marc Andreessen)。但它们依然很饥饿!软件们需要一份包含崭新数据与科技的食谱来持续创造价值。

没有人希望落后于这样的洞察、机器与外部数据的转变。那么,请从内部审视企业开始,去发掘你独特的见解以及你可以而且应该得到的有价值的外部数据来源。通过这些步骤,你才能够发现保持企业竞争力的相关洞见。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    46838

    浏览量

    237502
  • 机器学习
    +关注

    关注

    66

    文章

    8375

    浏览量

    132397

原文标题:业界 | 机器学习竞争其实是一场数据上的竞争

文章出处:【微信号:CAAI-1981,微信公众号:中国人工智能学会】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NPU与机器学习算法的关系

    在人工智能领域,机器学习算法是实现智能系统的核心。随着数据量的激增和算法复杂的提升,对计算资源的需求也在不断增长。NPU作为一种专门为深度学习
    的头像 发表于 11-15 09:19 279次阅读

    中建材信息荣获“2024年软件和信息技术服务竞争力百强企业”

    和信息技术服务竞争力百强企业”。据悉,此次“2024年软件和信息技术服务竞争力百强企业”评选所依据的竞争力指数,是以2023年行业统计数据
    的头像 发表于 10-30 16:10 180次阅读
    中建材信息荣获“2024年<b class='flag-5'>度</b>软件和信息技术服务<b class='flag-5'>竞争</b>力百强企业”

    在树脂塞孔的设计上,工程师总觉得这样操作是节约成本,其实是浪费

    关于过孔做树脂塞孔电镀填平的设计,客户一直认为盘中孔做POFV,其它的地方做绿油塞孔,你认为这个要求合理 吗,工程师总觉得这样操作是节约成本,其实是浪费,打开今天的案例,了解案例背后的秘密。
    的头像 发表于 08-13 09:20 312次阅读
    在树脂塞孔的设计上,工程师总觉得这样操作是节约成本,<b class='flag-5'>其实是</b>浪费

    学习SOLIDWORKS提高学生的就业竞争

    以及广泛的行业应用,成为了众多高校和企业培养专业人才的首要选择工具。对于在校学生而言,学习SOLIDWORKS不仅能够显著提升其专业技能,还能在激烈的就业市场中脱颖而出,增强个人的就业竞争
    的头像 发表于 07-22 17:19 309次阅读
    <b class='flag-5'>学习</b>SOLIDWORKS提高学生的就业<b class='flag-5'>竞争</b>力

    德国机器人面临中国竞争与国内经济下滑的双重压力

    在6月18日的一则消息中,德国机械工程行业协会(VDMA)揭示了其国内机器人产业正面临的双重挑战:来自中国的激烈竞争和国内经济形势的疲软。
    的头像 发表于 06-18 15:59 408次阅读

    基于FPGA EtherCAT的六自由机器人视觉伺服控制设计

    ,在 PS层运行 苏姆的裸机程序, 并将六自由串联机器人逆解算法移植到主站代码里,进行机器人末端位置对于视觉反馈的实时跟随控制。 (4)通过实验验证了本设计的对物块识别的准确性和实
    发表于 05-29 16:17

    发布首款百文心大模型学习

    近日,小科技推出了一款基于文心大模型的学习机——小学习机Z30。这款学习机针对学习计划、诊断
    的头像 发表于 05-29 09:10 729次阅读

    STVD如何设置才能生成HEX文件呢?

    请教大家,如何设置才能生成HEX文件呢?我百一下,按网上的方法,其实是不行。所以在次求助,谢谢了
    发表于 04-28 07:50

    海信系电视全球竞争力飙升,连续两年位列全球第二

    在海外市场上,海信电视实施了“自主品牌出海”和“高端出海”的策略,通过优化全球产业布局和体育赛事营销,有效提升了品牌知名、渠道覆盖和产品竞争力。
    的头像 发表于 02-25 14:55 1047次阅读

    FPGA中竞争与冒险的前世今生

    竞争则是从一种 稳态到另一种稳态的过程。因此竞争是动态过程,它发生在输入变量变化时。此时,修改卡诺图,增加多余项,在卡诺图的两圆相切处增加一个圆,可以消除逻辑冒险。但该法对于计数器型产生的毛刺是无法
    发表于 02-21 16:26

    竞争与冒险产生的原因,判断方法和避免竞争与冒险的方法

    在实际的电路设计过程中,存在传播延时和信号变换延时。由延时引起的竞争与冒险现象会影响输出的正确与否。下面将就 竞争与冒险产生的原因 , 判断方法 和 避免竞争与冒险的方法 进行讨论,希望对诸位有所
    的头像 发表于 02-18 14:34 6684次阅读
    <b class='flag-5'>竞争</b>与冒险产生的原因,判断方法和避免<b class='flag-5'>竞争</b>与冒险的方法

    起诉“文心一言”公司涉嫌商标侵权,不正当竞争纠纷即将开庭

    近日,北京百网讯科技有限公司与一家名为“文心一言(天津)智能科技有限公司”的公司之间的一则不正当竞争纠纷案件引发了业界的广泛关注。据悉,该案将于3月26日在天津市和平区人民法院开庭审理。百
    发表于 02-06 11:44 1553次阅读

    芯联集成发布2023年业绩预告

    芯联集成近日发布了2023年的业绩预告,尽管在全球经济震荡、半导体行业复苏缓慢以及市场竞争加剧的不利环境下,该公司依然实现了业务的逆势增长。
    的头像 发表于 01-31 10:26 661次阅读

    计的常见问题~

    上海嫦娥光学仪器科技有限公司
    发布于 :2024年01月08日 11:07:02

    孔径不确定对于整体噪声的影响

    电子发烧友网站提供《孔径不确定对于整体噪声的影响.pdf》资料免费下载
    发表于 11-27 10:49 0次下载
    孔径不确定<b class='flag-5'>度</b><b class='flag-5'>对于</b>整体噪声的影响