0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MarkLogic数据架构师Kurt Cagle分享了他的洞见

zhKF_jqr_AI 来源:未知 作者:李倩 2018-06-30 08:20 次阅读

编者按:MarkLogic数据架构师Kurt Cagle分享了他的洞见,缺乏良好的数据收集、整理、储存过程,数据分析的结果只能是垃圾。

大约四年前,兴起了数据科学家这一不可或缺的行当。搞技术的纷纷扔掉读大学时老旧的统计学课本,花了很多时间重新学习Python Pandas和R,还有最新机器学习理论,添置了新款的白大褂。我知道我就是这么做的。

如果你曾经是个Hadoop开发者,那数据科学也是一个好去处。毕竟所有人都以为不会map/reduce的数据科学家不是一个好数据科学家。这甚至可能延缓即将到来的Hadoop企业的崩溃到几年之后,伴随着印度程序员作坊大量炮制数以千计的新Hadoop程序员和数据科学“专家”,以赶上下一个大趋势。

公司以最高的价格为此买单。Nasdaq上的每家公司都给数据科学家开出高薪,以免因为后知后觉而受到竞争对手的冲击。同时销售经理和C开头的那些执行官也可以指望早上启动iPad后可以实时看到公司运转得有多好。控制面板曾经变成一大社会地位象征——资深的执行官享有超级奢侈的执行面板,基于3D可视化技术和实时动画散点图,而相对初级的同事得到的是2D平面版本,只有最少的总结。

然而,到目前为止,并没有什么真正的改变。数据科学家(大多数是高学历人士,在制药分析和高级材料工程这样的领域具有多年经验)将逐渐意识到,他们需要处理的数据的质量……好吧,不带任何贬低地说,糟透了。人们被引导了,相信因为他们有遍布各处的成千个数据库,因此他们的组织有海量的数据,并且大部分——如果不是全部的话——数据是有价值的。

那些数据科学家将发现,情况与此相反,大部分数据都是过时的,格式不对,数据模型适用于创建数据的程序员当时需要的应用。大量数据是在电子表格中,在缺乏任何流程、控制和远见的情况下,被反复修改。这些记录离真相很远,有太多数据是缺乏文档的一次性数据,列名会是MFGRTL3QREVPRJ之类的,键也绝对是不一致的。

换句话说,他们拥有的数据基本上对任何分析而言都毫无用处,离那些擅长制药试验日常测试结果分析的人心目中的分析更是差了十万八千里。

现在你拿着15万美元的年薪为业务代表提供控制面板,这些业务代表对统计学一无所知,但对需要百万美元和授权才能玩转的事情无能为力。你的数据杂乱不堪,还有相当多的数据完全无用,但是说服业务代表重建数据库会吓哭他们的,因为这需要几百万美元,而且看起来并不必要。你当然可以直接向他们撒谎,草草装配一个随机数生成器,说不定提供给他们的数据还比他们知道得要准确一点。但和数据打交道的人可不习惯撒谎,因为这和他们的基本目标——尽可能地精确背道而驰。那么你会怎么做?

现在我得戴上我语义布道师的帽子,告诉你应该开发一个语义数据仓库。你真的应该这么干,它并不没有那么难,却能提供一些实实在在的收益。不过我也会说它不是一个魔法般的解决方案。它让你更容易以易于处理的格式获取数据(或者有助于查明哪些数据是垃圾,可以直接删除)。然而,现实是,这并不是一个数据科学问题——这是一个数据品质和本体工程问题。

所以,让我说得更清楚一点,让那些穿着执行官的衣服的人也可以理解。你有数据问题。你的数据科学家具备各种有用的工具可以呈上数据分析的结果,然而没有优质的数据,他们产出的东西完全是无意义的。这不是他们的错。这是你的错,你期望酷炫的控制面板能为你赢得一千万美元的合同的每一天,都是在浪费时间,都是看着钱从你那里流走的一天。

你的工作可不简单。你需要做的是首先确定你实际需要追踪的信息,接着花时间和你的数据科学家以及数据本体学家(data ontologist)讨论下需要哪些数据。别指望指着一个数据库,然后数据会魔法般地出现在那里。

数据库总的来说是让程序员用来编写应用的,而不是提供公司内部的深层测度的。坐下来查看下你现在具备的资源,你需要理解那些依赖这些数据库完成他们的工作的人会非常不情愿给你访问权限,特别是这些权限可能导致他们担责的时候。此外,你还需理解大多数数据库的文档都很糟糕(这已经算好的了,其实大多数数据库根本没有文档),因此需要基于隐晦的参考进行侦破。这称为病理计算,大多数程序员都讨厌干这个,因为这意味着猜测其他程序员的大脑,这些程序员很可能已经离职了,水平不明,忘记了十年写的东西是什么意思。

关系数据湖(relational data lake)并没有解决这个问题。数据湖解决的问题是让同一个主机可以访问所有数据。对于病理计算而言,这是必要的部分,但它既不是最难的部分,也不是最昂贵的部分。最昂贵的部分是搞明白数据到底意味着什么,甚至仅仅是识别出分散的数据集谈论的同一件事。这一问题没有现成的解决方案,如果任何人告诉你有,那他们在忽悠你。

我要再一次植入语义方案的广告——graph triple store、RDF、ontology management等等。这些不是开箱即用的解决方案,却是使病理分析得以实行的工具,并能将管理这些过程的手段交到程序员手中。

然而,你需要理解,这一切经常需要你重新思考数据流的整个流程,理解在一开始如何捕获信息并及早传入合适的管道。它需要你的程序员和数据库管理员放弃部分自治,基于一个中央化的联合存储工作。它也意味着你作为执行官需要更熟悉数据管理和数据来源。

对大多数商业人员而言,这都是一个相当激进的转变,比让部分商业人员做一些IT工作要激进得多。然而,今天的商业正在转变(大部分已经转变)为碰巧销售货物或服务的数据管理公司。比起管理销售,今天的CEO的角色需要更多地关注所在组织的数据输入和输出,确保数据的品质尽可能好。这并不仅仅是为了应对合规性要求,而是因为数据的完整性对这些公司在市场上的成功至关重要。

这意味着你需要和你的执行数据团队确定你需要知道和想要知道的信息的范围,以及哪些信息是无关的,然后确立必要的流程收集和商业需求相关的数据。直接指向数据库的一个接口,提取它的内容,除了增加磁盘存储开销外毫无影响,雇佣数据科学家分析垃圾数据只会产生垃圾分析。如果你在意的话,它可能很美观,充斥着梯度和3D特效,但毫无作用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据收集
    +关注

    关注

    0

    文章

    72

    浏览量

    11189
  • 机器学习
    +关注

    关注

    66

    文章

    8421

    浏览量

    132702

原文标题:为什么你不需要数据科学家

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    kintex产品架构设计文档(成为架构师也是电子人不错的选...

    kintex产品架构设计文档(成为架构师也是电子人不错的选择) ROCE(儒仕),用心为每一位电子人!Xilinx7系列普及讲座,架构师设计方案模板,交流学习 内容请下载附件pdf,更多内容请登录ww..rocetech..co
    发表于 04-30 16:41

    后台架构师-JAVA

    高薪聘北京的后台架构师-JAVA工作职责;1.提升系统架构的稳定性,可靠性 2.用docker容器技术改造现有架构任职资格;1. 3-5年以上互联网公司开发工作经验,代码编写规范,编程基础扎实
    发表于 06-20 17:24

    关于架构师的详细介绍

    沟通能力被排在架构师能力的第一位,它既是架构师入门能力,也是最难用量化标准来的能力。本文将为大家介绍架构师——能说会道的程序员。
    发表于 07-11 07:20

    架构师的能力锻炼

    架构师每天都需要做选择题。什么选择?怎么做选择?架构师需要进行怎样的学习、培训和锻炼来进行正确的选择?读了本篇文章,你会对架构师为什么会需要权衡取舍以及妥协的能力有一个更加深刻的印象,并对于如何锻炼这个能力有一个初步的认识。
    发表于 07-11 08:29

    架构师最重要的是什么

    软件架构师的定义乃至所需要的特质历来众说纷纭。下面从一些另类的角度来做点分析。
    发表于 07-15 08:12

    好的架构师为什么是出色的程序员

    一个优秀的软件架构师,首先一定是一个出色的程序员,这是本篇文章的议题。从本文我们可以了解到一个架构师的工作是什么,容易遇到的问题是什么,因此为什么必须是一个出色的程序员。
    发表于 07-17 07:03

    女性会更适合做架构师

    人们往往发现优秀的数学家、物理学家以及软件架构师有着很多相似的素质,甚至往往能够一人精通这好几个领域,其中很重要的原因就是这个抽象思维的能力。架构师们潜意识中会觉得女性更适合做架构师?让我们看看这是为什么。
    发表于 07-17 06:15

    怎样成为软件架构师

    Leader也并无二致,也就是一个软件团队的核心设计者和决策人。作为一个软件团队的领头人,架构师应该具备哪些能力、素质和经验呢?
    的头像 发表于 10-19 09:55 2839次阅读

    怎样成为一名资深Java架构师

    要想往架构师的方向发展首先要知道架构师是什么?
    的头像 发表于 10-17 09:03 3146次阅读

    数据架构师的职责有哪些

    架构师按照专注领域不同,可分为企业架构师、基础结构架构师、特定技术架构和解决方案架构师等,专职架构师
    的头像 发表于 04-04 16:24 3842次阅读

    开发工程架构师的区别

    架构师是程序员的职业生涯发展的一个方向,很多架构师都是从开发人员逐步过渡来的,程序员想要成为架构师,平时就应该身负“架构师”职责,用架构师
    的头像 发表于 04-04 16:35 1.3w次阅读

    什么是 SoC 设计中的系统架构师

    您知道系统架构师在片上系统 (SoC) 设计中的具体工作吗?如果您已经认识或经验丰富的系统架构师,那么可能无需进一步阅读。但是,如果您是我们众多正在探索该行业机会的年轻读者之一,请继续阅读,看看这是
    的头像 发表于 07-18 16:26 1997次阅读
    什么是 SoC 设计中的系统<b class='flag-5'>架构师</b>?

    阿里专家:架构师是一个什么样的角色

    架构其实是每个业务线都有,有些技术同学本身也是架构师的角色。阿里很早以前是专门有架构师岗位,专门的去做架构,但是做着做着架构师就做没了。
    的头像 发表于 03-14 09:25 817次阅读

    初级自动驾驶架构师应该学习哪些知识

    随着自动驾驶技术的成熟,对系统架构师的需求逐渐增加。自动驾驶系统架构师负责设计整个系统的结构、组件、接口和数据流;需要协调不同领域的专业知识,确保系统的可靠性、安全性和性能。总之,自动驾驶系统
    的头像 发表于 06-20 21:45 315次阅读

    中级自动驾驶架构师应该学习哪些知识

    随着自动驾驶技术的成熟,对系统架构师的需求逐渐增加。自动驾驶系统架构师负责设计整个系统的结构、组件、接口和数据流;需要协调不同领域的专业知识,确保系统的可靠性、安全性和性能。总之,自动驾驶系统
    的头像 发表于 06-20 21:47 296次阅读