摘要
大数据认识论的主体高度分化并社会化,认识的对象是世界2作用于(包括认识与实践活动)世界1,以及世界2自身相互作用(同样包含认识与实践活动),这两项相互作用——所产生的数据——在世界3的映射。技术手段会极大影响主体与对象的关系。大数据认识论一步达到传统认识论第一条道路的终点,引发“知其然而不知其所以然”之争。认识结果具有多样性和多重评价,并反作用于世界2。大数据认识论既是认识论,又是产业和实践论。大数据认识论的特点具有认识史和知识论依据。中国语境下的大数据实践论具有特别重要的意义。
“大数据”与“认识论”,前者在眼下炙手可热,后者则是古老的研究领域。将二者联系起来,前者因深入到认识论而不只是流于口头和报端的“浮云”,也不仅是“云”;后者因接触到前者而焕发了新的生命。以下试图以传统的认识论来梳理目前关于大数据的种种论述,以及由此反过来扩展传统的认识论。
文中的论述过程往往把大数据与认识论二者合到一起,既因为大数据认识论实际上正在隐然成形,也因为行文的方便而省略了“与”。因而,文中在述及“大数据认识论”时,并非意味二者完全融合。读者可以由前后文判断此处说的是“大数据认识论”,还是大数据“与”认识论。
一般认为,大数据来自自然界,来自生命,以及来自人类社会。前两项涉及自然科学,涉及后者的学科或学科群已经在某种意义上于被称为“计算社会科学”。本文没有涉及大数据认识论在自然科学中的作用,集中讨论人类社会中的大数据与认识论的关系。
以下按五个部分的次序上载,敬请期待。
第一
主体与对象
第二
认识过程
第三
认识结果
第四
大数据认识论的认识史和知识论依据
第五
中国语境下的“大数据认识-实践论”
(为简明起见,文中没有加引文;如有必要,请查阅发表在《中国软科学》2014年第9期上的原文,此处稍有增减和调整。)
一、主体与对象
主体
传统认识论的认识主体是个人,或者基本上属于同一个“共同体”,是具有相同或相似的“范式”的团队。近年来,越来越多的情况是,一方以种种方式委托另一方来认识某个对象,如咨询、课题,以及知识流程外包等,认识的意向方与实施方分离为甲方和乙方。知识外包是在拥有相当不同范式的各异的共同体之间。为完成甲方的特殊需求,乙方需编写特殊的程序和软件。相对而言,乙方和应用互联网大脑的人员具备专业的技术能力,委托方可以是有特殊需求的科学家,更会有大量来自政府、企业界和社会的甲方,乙方需要相当熟悉甲方的需求才有可能完成后者外包的事项,以及向甲方提供可视化的分析。因而主体在分化为甲乙方的同时又紧密相关。
随着认识主体的分化,认识的动机目的也发生相应的变化。“小科学”时代,认识为了求真;“大科学”时代,认识的动机承担越来越多来自社会的需求,较之以往更有可能发生知识的“社会建构”。大数据时代,“面对海量信息,任何人都只需要对自己有益和有用的信息”。一方面甲方的意图带有明显目的性,另一方面,乙方因与甲方分离而较少利益相关,有可能相对客观冷静地从事求真的研究。新的问题是:乙方如何判断甲方所委托事项的合理性。只管求真的乙方是否可以因认识主体的分离而免责,可以不顾其中的伦理道德,有求必应。在高度分化的认识主体之间还需要有关系到责权利等事项细致妥贴的制度安排。简言之,在大数据认识论中,认识主体高度分化并社会化。眼下如雨后春笋般萌发的智库显然可以归入此处。
从另一个角度看,大数据认识论的认识主体可以清晰地分为三个层次:政府、公司,以及个人,分别对应于国家、市场和社会。政府由大数据把握全局;公司由大数据了解政府与个人的需求,理解相关政策,洞悉竞争对手,以及掌控资源。一个健全的社会拥有与政府和公司处于均衡状态的个人。目前还看不到个人在大数据认识论中作为主体的地位和作用。可以确定的是,即使个人作为大数据认识论的主体,其影响也与政府和公司不可同日而语。在这样的层次中,马尔库塞曾经批判的“单面人”隐约可见。
对象
相对而言,在大数据认识论中,认识对象的变化更具有根本性。传统的认识论所涉及的认识对象是客观存在,是“世界1”(包括被看作世界1的生物学意义上的人类),而大数据认识论中的认识对象既非世界1,亦非世界2对世界1的认识结果亦即“世界3”,而是世界2的宏观表征。
大数据之所以得以成为研究对象,首先在于提供大数据的人和人际关系发生变化。近代以降,人是机器、单子,社会是由零件组装而成可拆卸的机器。随后,人是化工厂、细胞的王国,着眼点基本上都是单独的个人,因而心理学的对象是独立的个人。20世纪初,人“成长为”社会动物,个人的心理绕不过社会影响;反之,社会现象也需要下沉到个人心理予以说明;个人与社会难分难舍,其结果是,个人心理变幻莫测,社会现象杂乱无章。直到互联网时代和功能各异的社交网站出现。
社会软件建立了一种新型的远程社会关系,从面对面地交往到数字操纵的交往,深刻地修改了已有的社会模式。“人类行为较之于相对独立的个体决策行为发生了显著变化,”构建了某种“心有灵犀一点通”且又变动不居的人际间的相关性,使得数据不再杂乱无章,而是成为某种程度上有规可循的大数据,成为有价值的研究对象。“由于能够测得更准、计算得更加精确,社会科学也正在脱下‘准科学’的外衣,在21世纪全面迈进科学的殿堂”。
在现象层面,作为对象的大数据有以下特征:首先是所谓“4V”,即数据量大(Volume),类型繁多(Variety),价值密度低(Value),以及速度快时效高(Velocity);在深层是人类在大的时空尺度,也就是在个体不可比拟的量级所显示出的前所未见的属性。“揭示冗余度支持的有统计意义的情报及其关联,从大众层面而不是个体层面来理解人类行为”。在某种程度上,大数据认识论不是由个体层面,而是从类似于“超级群”的层面理解人类行为,正如实验心理学不是由单个脑细胞理解人的感知一样。
正因为此,作为世界3的大数据在某种意义上具有与世界1一个同样的特征:客观性。“传统民调需要设计问卷,可能有意无意引入主观因素,不能完全排除模糊歧义乃至误导。大数据是自底而上的自动数据分析,用的是归纳整合的方法,因此更加具有客观性。为了达成调查,调查者有时不得不施行物质刺激,这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露(水军和恶意操纵另论),基数大,也有利于降噪,这就保障了情报的客观性。”
由此可以看出客观性的三点依据,其一即数据之大。这一点类似于所谓“主体间性”。显然,两三个人之间的主体间性与数以万计个体的主体间性不可同日而语。昔日社会学的一大困惑在于数据不够大,因而难以进行客观的研究。
其二,数据之全,不仅是“二八定律”中的“二”,而且是“八”,也就是“长尾”,这就极大提升了普罗大众在社会生活中的权重。不过,随着“少数服从多数”成为现实,如何避免多数人的“暴政”,成为大数据时代有待解决的问题之一。
其三,所谓“自然流露”,也就是无意识。一方面,这种自然流露就是个体的主观意识,另一方面,个体并不知晓其作为大数据认识论的认识对象。大数据的客观,所需要的正是这样不受干扰的“主观”。千万个这样相对纯粹的主观最终汇成客观。就此而言,作为世界2宏观表征的大数据可以归入波普尔的“客观知识”,也就是世界3。
作为认识对象的大数据所呈现出整体上的特定关系,可以借用“漩涡与人性”的隐喻来说明这一点。网友评论说,如果把水分子用纳米碳管来输运,一样会出现“整体的拥堵”;反之,如果楼梯足够宽,人类下楼,怎么也不会出现这个拥堵。宏观流体定律基于最小颗粒尺度与所考虑的尺度相比可以忽略。在大数据里,个人相当于漩涡中的水分子,其“毛糙”(李德毅)的边缘和瞬间的变化可以忽略。由此再次可见,数据之“大”的关键地位。
大数据不仅具有“4V”的特征,而且处于不断增长之中。人类存在一天,大数据就与日俱增,永不枯竭。人们对于“物质无限丰富”尚有争论,至少还需要做一番解释,对于大数据,似乎甫一问世,即已是无限,乃至需要培育“删除”和“忘却”的“美德”。无限的大数据或将有助于解决资源的短缺,让有限的资源用到刀口上。
主体与对象的特殊关系也是大数据认识论与传统认识论的一个值得注意的不同点。其一,由于在大数据的背后是处于群体中的毫不知情的人,是众多社会关系的“总和”,于是认识主体譬如说某家公司,面对握有的大数据便有如同上帝俯视芸芸众生之感,认识主体与对象之间成为牧羊人与羊的关系,“羊”的隐私在“牧羊人”那里透明。此外,相应于认识主体的三个层次,自然也就有作为对象的不同数据。无疑,政府所面对的数据最“大”,公司次之。不过,跨国公司认识对象之大完全可能超过不少国家。个人所能够认识的数据在大小、内容和性质上均不可与政府与公司手上的数据同相提并论。个人以其数量之大,以及彼此间无意识的主体间性来平衡政府和公司。
其二,上帝会满足于“俯视”,有人则把对数据的占有和控制看作是在陆权、海权、空权之外的另一种国家核心资产。这一点在斯诺登所曝光的“棱镜”中得到充分显示。IBM执行总裁罗睿兰认为,“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。”大数据既可能“成为人类至关重要的自然资源”,也可能成为“另一种国家核心资产”。
谁对大数据拥有产权,甚至主权?传统认识论以世界1为对象,世界1对任何人一视同仁,因而在认识论上并没有所有权之争,所有权主要是在实践层面,在应用领域。在大数据认识论中,所有权进入到认识层面。在这一点上,大数据不同于世界3。个人、公司、国家可以独自开发、独占其中的一部分。大数据不仅具有认识价值,而且拥有因人而异的使用价值。所谓的“计算社会科学”可能会变成私人公司和政府机构的专属领域,或许会出现占有私有数据的特权学术研究群体,无助于公众利益。美国伦理审查委员会委员(U.S. Institutional Review Boards)认为,必须增强技术知识来了解产生侵权和个人伤害的可能性,因为新的危害的产生条件不同于现存的模式。
其三,由此可以还引出一点,那就是技术手段在大数据认识论中的极端重要性。棱镜表明,技术手段可以用于发现、开发大数据,挖掘大数据中的金矿,以及在于控制和支配。由此可见,“大数据时代,技术的有效性要比科学的完整性更重要!”
主体与对象的特殊关系
大数据,受到技术手段和权力的制约和影响。
技术在于开发,关系到作为对象的大数据之大、之深,以及之利。
权力在于选择、控制与支配,控制大数据的种类、以及透明和共享的程度,并由此支配放牧的羊。
虽然主体与对象在一定程度上可以互易,此时此地的主体在另一个场合可能就成为他人的对象,不过,拥有更先进技术手段和更大权力者无疑更会是牧羊人。
评论
查看更多