0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据和机器学习的数据如何演变

姚小熊27 来源: 新浪科技 作者: 新浪科技 2020-11-25 11:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大数据会影响质量,因为大数据的定义特征是数量,种类和速度使验证变得困难难以捉摸的“第四”,即准确性组件(关于数据可靠性),由于可能会聚集大量的数据源而面临挑战,每个数据源可能会遇到不同的质量问题,大数据还释放了可能引入新类型数据错误的新的和更复杂的查询的可能性,同时由于非结构化数据比结构化数据具有更大的不确定性,因此非结构化数据会产生问题,并且机器学习算法倾向于充当“黑匣子”,其中数据中包含的偏差可能永远不会消失。

您的数据质量工具箱尽管已经开发了许多工具来解决数据质量问题,但是如果不小心应用自动条目更正本身可能会降低数据质量,所有影响数据清晰度的因素(例如准确性,一致性,及时性,重复性,易失性,完整性和相关性)都可能导致进一步的问题,因为企业会更正数据并将其调整为适合处理的形式,每个转换都可能会丢失可能与给定查询相关的信息,当前的数据质量工具由主要的分析公司,利基公司和开源提供,它们提供诸如数据清理,数据概要分析,数据匹配,数据标准化,数据丰富和数据监视之类的功能,诸如金融服务之类的利基工具专注于特殊类型的问题,并且正在开发新的工具,这些工具采用机器学习技术进行数据分类和数据清理。在将大数据与机器学习相结合的地方,还会出现其他质量问题为规范化数据而进行的更改可能导致机器学习算法在解释上出现偏差,大型数据存储中错误发生的频率相对较低,可以说使得对数据质量检查的需求变得不那么重要了,但现实情况是,质量问题只是转移到了其他领域,自动校正和一般假设可能会在整个数据集中引入隐藏的偏差。

保持真实必须根据业务需求了解数据质量,在某些情况下,需要采用涉及无数变量的严格方法,但是对于许多查询而言,更宽容的方法是可以接受的,在及时性和准确性,查询值和数据清理以及准确性和可接受的错误之间始终需要权衡取舍,在复杂的数据和分析环境中,没有一个适合所有大小的空间,查询需要不同级别的准确性和及时性。

以一种方式构造的数据可能适用于某些用途,但会导致其他用途的结果不准确或有偏差。数据质量的最终测试是它是否产生所需的结果这要求进行严格的测试,并考虑引入错误的潜在原因,尽管用于数据清理,规范化和整理的工具越来越受欢迎,但可能的因素的多样性意味着这些过程不会在短期内完全实现自动化,随着自动化的普及,您必须确保自动化解决方案不会由于转换规则而在数据流中引入新问题。确定性的不确定性由于数据集和结构化数据有限,因此数据质量问题相对明确,创建数据的过程通常是透明的,并且会遇到已知错误:数据输入错误,表格填写不正确,地址问题,重复等,可能的范围相当有限,并且要严格定义处理的数据格式,随着机器学习和大数据的出现,数据清理的机制必须改变,除了更多,更快的数据外,非结构化数据的不确定性也大大增加,数据清理必须解释数据并将其放入适合处理的格式,而不会引入新的偏差,此外质量过程将根据特定用途而有所不同。数据质量比绝对质量更重要。

根据研究目标和业务目标,需要使查询与数据集更好地匹配,数据清理工具可以减少数据流中的一些常见错误,但始终存在潜在的意外偏见,同时查询需要及时且负担得起,从未迫切需要一种谨慎的数据质量方法,机器学习和高级软件工具无疑提供了解决方案的一部分,从而有可能为质量问题带来新的方法,但是没有万能药,更高级别的复杂性意味着需要更仔细地检查数据。
责任编辑:YYX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7361

    浏览量

    95136
  • 机器学习
    +关注

    关注

    67

    文章

    8570

    浏览量

    137390
  • 大数据
    +关注

    关注

    64

    文章

    9111

    浏览量

    144158
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    ROS2 如何打通仿真与数据匿名化?#人工智能 #机器人 #大数据 #产品方案

    大数据
    康谋keymotek
    发布于 :2026年05月07日 16:55:44

    机器学习中的数据质量双保障:从“验证”到“标记”

    机器学习的世界里,有句老话尤为贴切:“garbagein,garbageout”(输入垃圾,输出垃圾)。无论模型架构多先进、算法多精妙,数据的质量始终是决定模型性能的核心。本文聚焦数据
    的头像 发表于 04-24 15:48 162次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>中的<b class='flag-5'>数据</b>质量双保障:从“验证”到“标记”

    黑M-狂野大数据5期|网盘无密Mp4+大数据直播课-狂野大数据

    科技重构数据生产力:狂野大数据直播实战全解析 随着数字化时代的快速发展,大数据已经渗透到我们生活的方方面面。无论是商业、教育,还是医疗、政府服务,大数据的应用都在不断创造新的价值。而在
    的头像 发表于 04-06 11:13 264次阅读

    轻松入门大数据 一站式完成核心能力构建 | 更新完结

    一站式掌握:大数据查询优化实战技巧 在大数据时代,数据量从GB级跃升至TB级甚至PB级,查询性能成为数据平台的核心竞争力。一个原本秒级响应的查询,随着
    的头像 发表于 03-23 14:05 519次阅读

    狂野大数据(六期)课程- 资源分享

      狂野大数据6期   如果用一个词来形容当下大数据领域的变革,我会选择“权力的转移”。过去,数据世界的权力掌握在少数“炼金术士”手中——那些精通算法、能调参、会写复杂脚本的数据科学家
    的头像 发表于 03-11 13:31 428次阅读

    一文了解数据存储演变之路

    开工大吉,启新赋能!数据存储格局正持续快速迭代发展,这背后离不开企业与个人不断增长的数据量驱动。其演变核心在于,从传统存储模式逐步迭代升级,转向更先进、灵活且可扩展的存储解决方案,精准适配现代数字企业及职场多元场景的核心需求。
    的头像 发表于 02-27 13:51 671次阅读
    一文了解<b class='flag-5'>数据</b>存储<b class='flag-5'>演变</b>之路

    机器学习和深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习和深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注数据
    的头像 发表于 01-07 15:37 393次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    大数据解决方案如何实施

    大数据解决方案实施的难点在于以下几点:  1.很少有优质可用的数据  在数聚股份看来,这几年数据交易机构如雨后春笋,“数据变现”成为很多拥有数据
    的头像 发表于 12-25 18:22 1203次阅读

    最受欢迎的大数据可视化工具

     在数聚股份看来,大数据可视化是进行各种大数据分析的最重要组成部分之一。 一旦原始数据流被以图像形式表示时,以此做决策就变得容易多了。 为了满足并超越客户的期望,大数据可视化工具应该具
    的头像 发表于 12-24 17:05 429次阅读
    最受欢迎的<b class='flag-5'>大数据</b>可视化工具

    大数据平台运营的基础是什么

    在数聚股份看来,越来越多的企业开始搭建自己的大数据平台体系,并倾注大量资源用于平台的迭代和运营。那么大数据平台作为越来越被关注的企业新兴价值点,它应该以何种方式看待,并且以什么样的方式去建设和运营
    的头像 发表于 12-23 16:07 411次阅读

    湖北大数据集团到访维智科技参观交流

    近日,湖北大数据集团有限公司党委书记、董事长汪小波率队到访维智科技。双方围绕时空数据融合、公共数据授权运营及行业应用场景开发等议题展开深入探讨。
    的头像 发表于 11-03 10:02 834次阅读

    组态大数据平台是什么?有什么功能?

    组态大数据平台是融合 组态技术 与 大数据处理能力 的综合性平台,通过图形化、可配置的方式实现数据采集、存储、分析、可视化及远程控制,适用于工业自动化、能源管理、楼宇监控等领域。其核心价值在于降低
    的头像 发表于 10-30 11:29 372次阅读
    组态<b class='flag-5'>大数据</b>平台是什么?有什么功能?

    XKCON祥控输煤皮带智能机器人巡检系统对监测数据进行挖掘分析

    XKCON祥控输煤皮带智能机器人巡检系统通过智能机器人在皮带运行过程中对皮带的运行状态和环境状况进行实时检测,在应用过程中,不但提升了巡视周期频次,还通过大数据分析和深度学习算法,对监
    的头像 发表于 09-15 11:22 833次阅读
    XKCON祥控输煤皮带智能<b class='flag-5'>机器</b>人巡检系统对监测<b class='flag-5'>数据</b>进行挖掘分析

    量子机器学习入门:三种数据编码方法对比与应用

    在传统机器学习数据编码确实相对直观:独热编码处理类别变量,标准化调整数值范围,然后直接输入模型训练。整个过程更像是数据清洗,而非核心算法组件。量子
    的头像 发表于 09-15 10:27 1050次阅读
    量子<b class='flag-5'>机器</b><b class='flag-5'>学习</b>入门:三种<b class='flag-5'>数据</b>编码方法对比与应用

    御控工业物联网大数据解决方案:排水设备远程监控与大数据统计系统

    御控工业物联网推出排水设备远程监控与大数据统计系统,通过物联网、大数据、云计算等技术构建“感知-传输-分析-决策”闭环管理体系,助力排水行业数字化转型。
    的头像 发表于 09-12 10:04 862次阅读