大数据与认识论

admin 2天前 7 0

大数据认识论的主体高度分化并社会化,对象是世界2在世界3的映射,技术手段会极大影响主体与对象的关系。大数据认识论一步达到传统认识论第一条道路的终点,引发“知其然而不知其所以然”之争。认识结果具有多样性和多重评价,并反作用于世界2。大数据认识论既是认识论,又是产业和实践论。大数据认识论的特点具有认识史和知识论依据。中国语境下的大数据实践论具有特别重要的意义。

“大数据”与“认识论”,前者在眼下炙手可热,后者则是古老的研究领域。将二者联系起来,前者因深入到认识论而不只是流于口头和报端的“浮云”,也不仅是“云”;后者因接触到前者而焕发了新的生命。以下试图以传统的认识论来梳理目前关于大数据的种种论述,以及由此反过来扩展传统的认识论。

文中的论述过程往往把大数据与认识论二者合到一起,既因为大数据认识论实际上正在隐然成形,也因为行文的方便而省略了“与”。因而,文中在述及“大数据认识论”时,并非意味二者完全融合。读者可以由前后文判断此处说的是“大数据认识论”,还是大数据“与”认识论。

一般认为,大数据来自自然界,来自生命,以及来自人类社会。前两项涉及自然科学,涉及后者的学科或学科群已经在2009年被称为“计算社会科学”。本文没有涉及大数据认识论在自然科学中的作用,集中讨论人类社会中的大数据与认识论的关系。

大数据与认识论 一、主体与对象

传统认识论的认识主体是个人,或者基本上属于同一个“共同体”,具有相同或相似的“范式”的团队。近年来,越来越多的情况是,一方以种种方式委托另一方来认识某个对象,如咨询、课题,以及知识流程外包等,认识的意向方与实施方分离,分为甲方和乙方。知识外包是在拥有相当不同范式的各异的共同体之间。为完成甲方的特殊需求,乙方需编写特殊的程序和软件。相对而言,乙方和应用互联网大脑的人员具备专业的技术能力,委托方可以有特殊需求的科学家,更会有大量来自政府、企业界和社会的甲方,乙方需要相当熟悉甲方的需求才有可能完成后者外包的事项,以及向甲方提供可视化的分析。因而主体在分化的同时紧密相关。

随着认识主体的分化,认识的动机目的也发生相应的变化。“小科学”时代,认识为了求真;“大科学”时代,认识的动机承担越来越多来自社会的需求,较之以往更有可能发生知识的“社会建构”。大数据时代,“面对海量信息,任何人都只需要对自己有益和有用的信息”。一方面甲方的意图带有明显目的性,另一方面,乙方因与甲方分离而较少利益相关,有可能相对客观冷静地从事求真的研究。新的问题是:乙方如何判断甲方所委托事项的合理性。只管求真的乙方是否可以因认识主体的分离而免责,可以不顾其中的伦理道德,有求必应。在高度分化的认识主体之间还需要有关系到责权利等事项细致妥贴的制度安排。简言之,在大数据认识论中,认识主体高度分化并社会化。

从另一个角度看,大数据认识论的认识主体可以清晰地分为三个层次:政府、公司,以及个人,对应于国家、市场和社会。政府由大数据把握全局;公司由大数据了解政府与个人的需求,理解相关政策,洞悉竞争对手,以及掌控资源。一个健全的社会拥有与政府和公司处于均衡状态的个人。目前还看不到个人在大数据认识论中作为主体的地位和作用。可以确定的是,即使个人作为大数据认识论的主体,其影响也与政府和公司不可同日而语。在这样的层次中,马尔库塞曾经批判的“单面人”隐约可见。

相对而言,在大数据认识论中,认识对象的变化更具有根本性。传统的认识论所涉及的认识对象是客观存在,是“世界1”(包括被看作世界1的生物学意义上的人类),而大数据认识论中的认识对象既非世界1,亦非世界2对世界1的认识结果亦即“世界3”,而是世界2的宏观表征。

大数据之所以得以成为研究对象,首先在于提供大数据的人和人际关系发生变化。近代以降,人是机器、单子,社会是由零件组装而成可拆卸的机器。随后,人是化工厂、细胞的王国,着眼点基本上都是单独的个人,因而心理学的对象是独立的个人。20世纪初,人“成长为”社会动物,个人的心理绕不过社会影响;反之,社会现象也需要下沉到个人心理予以说明;个人与社会难分难舍,其结果是,个人心理变幻莫测,社会现象杂乱无章。直到互联网时代和功能各异的社交网站出现。社会软件建立了一种新型的远程社会关系,从面对面地交往到数字操纵的交往,深刻地修改了已有的社会模式。“人类行为较之于相对独立的个体决策行为发生了显着变化,”构建了某种“心有灵犀一点通”而又变动不居的人际间的相关性,使得数据不再杂乱无章,而是成为有规可循的大数据,成为有价值的研究对象。“由于能够测得更准、计算得更加精确,社会科学也正在脱下‘准科学’的外衣,在21世纪全面迈进科学的殿堂”。

在现象层面,作为对象的大数据有以下特征:首先是所谓“4V”,即数据量大(Volume),类型繁多(Variety),价值密度低(Value),以及速度快时效高(Velocity);在深层是人类在大的时空尺度,也就是在个体不可比拟的量级所显示出的前所未见的属性。“揭示冗余度支持的有统计意义的情报及其关联,从大众层面而不是个体层面来理解人类行为”。在某种程度上,大数据认识论不是由个体层面理解人类行为,正如实验心理学不是由单个脑细胞理解人的感知一样。

正因为此,作为世界3的大数据在某种意义上具有与世界1一个同样的特征:客观性。“传统民调需要设计问卷,可能有意无意引入主观因素,不能完全排除模糊歧义乃至误导。大数据是自底而上的自动数据分析,用的是归纳整合的方法,因此更加具有客观性。为了达成调查,调查者有时不得不施行物质刺激,这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露(水军和恶意操纵另论),基数大,也有利于降噪,这就保障了情报的客观性。”由此可以看出客观性的三点依据,其一即数据之大。这一点类似于所谓“主体间性”。显然,两三个人之间的主体间性与数以万计个体的主体间性不可同日而语。昔日社会学的一大困惑在于数据不够大,因而难以进行客观的研究。其二,数据之全,不仅是“二八定律”中的“二”,而且是“八”,也就是“长尾”,这就极大提升了普罗大众在社会生活中的权重。不过,随着“少数服从多数”成为现实,如何避免多数人的“暴政”,成为大数据时代有待解决的问题之一。其三,所谓“自然流露”,也就是无意识。一方面,这种自然流露就是个体的主观意识,另一方面,个体并不知晓其作为大数据认识论的认识对象。大数据的客观,所需要的正是这样的“主观”。千万个这样相对纯粹的主观最终汇成客观。就此而言,作为世界2宏观表征的大数据可以归入波普尔的“客观知识”,也就是世界3。

作为认识对象的大数据所呈现出整体上的特定关系,可以借用“漩涡与人性”的隐喻来说明这一点。网友评论说,如果把水分子用纳米碳管来输运,一样会出现“整体的拥堵”;反之,如果楼梯足够宽,人类下楼,怎么也不会出现这个拥堵。宏观流体定律基于最小颗粒尺度与所考虑的尺度相比可以忽略。在大数据里,个人相当于旋涡中的水分子,其“毛糙”(李德毅)的边缘和瞬间的变化可以忽略。由此再次可见,数据之“大”的关键地位。

大数据不仅具有“4V”的特征,而且处于不断增长之中。人类存在一天,大数据就与日俱增,永不枯竭。人们对于“物质无限丰富”尚有争论,至少还需要做一番解释,对于大数据,似乎甫一问世,即已是无限,乃至需要培育“删除”和“忘却”的“美德”。无限的大数据或将有助于解决资源的短缺,让有限的资源用到刀口上。

主体与对象的特殊关系也是大数据认识论与传统认识论的一个值得注意的不同点。其一,由于在大数据的背后是处于群体中的毫不知情的人,是众多社会关系的“总和”,于是认识主体譬如说某家公司,面对握有的大数据便有如同上帝俯视芸芸众生之感,认识主体与对象之间成为牧羊人与羊的关系,“羊”的隐私在“牧羊人”那里透明。此外,相应于认识主体的三个层次,自然也就有作为对象的不同数据。无疑,政府所面对的数据最“大”,公司次之。不过,跨国公司认识对象之大完全可能超过不少国家。个人所能够认识的数据在大小、内容和性质上均不可与政府与公司手上的数据同相提并论。个人以其数量之大,以及彼此间无意识的主体间性来平衡政府和公司。

其二,上帝会满足于“俯视”,有人则把对数据的占有和控制看作是在陆权、海权、空权之外的另一种国家核心资产。这一点在斯诺登所曝光的“棱镜”中得到充分显示。IBM执行总裁罗睿兰则认为,“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。”大数据既可能“成为人类至关重要的自然资源”,也可能成为“另一种国家核心资产”。谁对大数据拥有产权,甚至主权?传统认识论以世界1为对象,世界1对任何人一视同仁,因而在认识论上并没有所有权之争,所有权主要是在实践层面,在应用领域。在大数据认识论中,所有权进入到认识层面。在这一点上,大数据不同于世界3。个人、公司、国家可以独自开发、独占其中的一部分。大数据不仅具有认识价值,而且拥有因人而异的使用价值。所谓的“计算社会科学”可能会变成私人公司和政府机构的专属领域,或许会出现占有私有数据的特权学术研究群体,无助于公众利益。美国伦理审查委员会委员(U.S. Institutional Review Boards)认为,必须增强技术知识来了解产生侵权和个人伤害的可能性,因为新的危害的产生条件不同于现存的模式。

其三,由此可以还引出一点,那就是技术手段在大数据认识论中的极端重要性。棱镜表明,技术手段可以用于发现、开发大数据,挖掘大数据中的金矿,以及在于控制和支配。由此可见,在大数据认识论中,技术比以往任何时候发挥更大的作用。对此有必要引起高度重视。“大数据时代,技术的有效性要比科学的完整性更重要!”

大数据,受到技术手段和权力的制约和影响。技术在于开发,关系到作为对象的大数据之大、之深,以及之利;权力在于选择、控制与支配,控制大数据的种类、以及透明和共享的程度,并由此支配放牧的羊。虽然主体与对象在一定程度上可以互易,此时此地的主体在另一个场合可能就成为他人的对象,不过,拥有更先进技术手段和更大权力者无疑更会是牧羊人。

大数据与认识论 二、认识过程

传统认识论的认识过程相对复杂,涉及各种思维方式,如逻辑思维、形象思维和直觉思维,以及多种方法,如分析、综合、归纳、演绎、比较、分类、类比、假说、模型,还有现在的复杂性科学方法等等,不一而足。在科研中纯熟应用这些方法并非易事,其要义是,先对现象进行抽象和分析,把复杂的对象和过程分解为要素、部分和片段,再加以比较、分类和归纳,找出共同点,经由假说揭示背后的原因,然后再回过头来解释原有和更多的现象,进而提出预言。

上述认识过程可以归结为马克思所论述的“两条道路”。“在第一条道路上,完整的表象蒸发为抽象的规定;在第二条道路上,抽象的规定在思维行程中导致具体的再现”。

相对而言,大数据认识论的认识过程就简单了,就是把非结构化的大数据(复杂世界的存在方式,就是非结构化中包含着结构化,混沌中包含着有序),按不同主体的不同目的转变为特定的结构化数据,使之对于特定的认识主体显得简约有序,由传统的认知科学到认知计算。简言之,就是在大数据中直接“提取”出有用的知识。在传统认识论的各种方法中,比较方法在大数据认识论中继续赋予重任。在对大数据的认识过程中“需要竞争对手或行业的背景。多话题的调查和对比是这类产品设计的题中应有之义。世界3对所有搜索的话题一视同仁,独立于话题。数据及其挖掘的不完善(查准率和查全率)放在比较的框架中就不是严重问题。”区别在于,传统认识论中的比较方法旨在使资料有序和做出发现,大数据认识论中的比较旨在使结论客观和突显。

正是这种由大数据直接获得的“简约有序”或“特定的结构化数据”,提供了人类群体在宏观上的某种行为,政府和公司的领导据此比以往任何时候更轻松和直截了当做出更为有效的决策。“‘大数据’可能是许多行为科学理论,乃至于是科学理论的终结者。”《连线》杂志的前主编克里斯·安德森在2008年说:“数量庞大的数据会使人们不再需要理论,甚至不再需要科学的方法。”大数据用事实向人类宣告:“知其然不知其所以然”,既是电脑望尘人脑的劣势,也是电脑超越人脑的优势!然而,也正是这一点引发了诸多争议。

支持者以卡尔·波普尔推崇的科学研究方法力挺舍恩伯格:大胆预测,不断犯错,不断尝试。在大数据认识论中,就是“统计+分类-推理分析=决策”,认为这是一种更加进取的思维方式,进而是一种崭新的生活理念。关键在于,知其然,不必知其所以然,知道该怎么做就行;“不再强调意义的真实来源,而是强调意义如何被生产”。“真正‘懂得’大数据的公司,比如谷歌,并没有将大量时间花在构建模型上,”《信号与噪音》作者希尔写道。“这些公司每年从事数十万次实验,在真实的顾客身上测试自己的想法。”

反对者认为,舍恩伯格放弃因果关系而只考察相关性的思路,与其说是一种进步,倒不如说是一种思维紊乱。不利于下一步预测,也无法采取行动。真的可以止于“知其然”,而不求“知其所以然”吗?认知计算是否可以取代认知科学?人类的祖先经过长期观察发现蛙鸣与下雨往往同时发生。这样的长期观察大概也称得上是“大数据”。于是试图通过学蛙鸣来求雨。在多次失灵之后走向巫术、献祭和宗教。走向错误道路的根本原因就在于在“知其然不知其所以然”。在正反双方之间还可以提出这样的问题:怎样看待由星相和血型看性格?

当然,“真正‘懂得’大数据的公司”与先民不可同日而语,在“真实顾客身上的数十万次实验”也迥异于巫术。回想上世纪中叶,鲍林等人面对复杂的DNA结构由传统的先分析后综合的方法一筹莫展时,富兰克林由x-衍射,不经传统道路而直接获得DNA整体的照片,华生与克里克由此破译了DNA的双螺旋结构。大数据与此有异曲同工之妙,开辟了人文社会科学领域居高临下在整体上把握对象的认识道路,为看待人类和社会提供了一种全新的方法,“可以跳过个体认识直接到共性认识阶段。”由“高处视角”(Top sight),以前所未有的丰富细节与深度,观察和跟踪真实世界,基于数据分析做出决策,而不是像过去更多凭借经验和直觉。然而,依然可以追问的是,双螺旋结构最终得到科学解释,大数据认识论是否也需要在知其然之后再走一步?“放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落。如果未来某一天机器和计算完全接管了这个世界,那么这种放弃就是末日之始”。

此外,在大数据如火如荼之时,小数据依然有其价值,譬如解决前述多数人暴政;况且还存在“大数据浮夸(Big Data Hubris)和算法”的缺陷,因而应该将大数据与小数据(即传统的控制数据集)结合起来,创建对人类行为更深入、更准确的表达。以“全数据革命”(all data revolution)和用全新的技术和方法对各种问题进行更多更好的分析。

然而争论的根源并不止于此,问题在于大数据认识过程本身的特殊性:从作为认识对象的大数据只要跨出一步,就不仅是认识过程,而且是产业链,不仅是认识,而且是实践。争论者混淆了认识与产业,以及认识与实践。舍恩贝格及其支持者把大数据认识论中的产业特征和实践特征等同于传统的认识过程,这就“遮蔽”了由“知其然”通往“知其所以然”的道路;反对者则以传统认识论否定大数据认识论中为传统认识论所不具备的新的实践特征,这就堵住了传统认识论拓展前行的道路。

大数据认识论使用了计算机乃至互联网大脑等现代技术手段,简化了马克思两条道路中的第一条道路,越过了对整体的分析和对个体的归纳,一步到达了所谓“共性认识”,但在本质上依然是归纳,而归纳总是不完全的,尤其是没有给出之所以如此背后的原因。有必要揭示在某种语境中某个人群之所以具有这样或那样行为的依据。认知科学不仅是研究脑的“自然属性”,而且要研究人类认知的社会属性(包括用户搜索、用户关系挖掘、话题发现、情感分析等)。大数据为人文社会科学提供了前所未知的“知其然”,开辟了通往人的心灵深处之途,仅仅是人工智能进入人类生活的一个序幕。大数据认识论不能止步于此,更不能半途而废,社会学、心理学、传播学等学科对此赋予重任。在由知其然到知其所以然的道路上,大数据认识论与传统认识论一脉相承。

大数据认识论更是对传统认识论的超越,其一是知行合一。长期以来,知行分离,以及伴随着知行之争。在大数据认识论中,知与行开始结合起来。其二是求真求效。传统认识论的核心在于求真,在20世纪的“大科学”中,为科学而科学的求真,在相当程度上被纳入特定社会的动机之下。在大数据认识论中,功利目标进一步彰显,并且贯穿于认识(行动)的各个环节。大数据认识论的实践特征在下文关于社会的知识建构的内容中将得到进一步说明。其三,大数据认识论不止是认识,而且是产业和实践。专家认为,眼下需要切实解决网络化数据社会与现实社会缺乏有机融合、互动以及协调机制的难题,形成大数据感知、管理、分析与应用服务的新一代信息技术架构和良性增益的闭环生态系统,达到大幅度提高数据消费指数、数据安全指数,降低数据能耗指数等目标。

大数据与认识论 三、认识结果

在认识的结果上,传统认识论所关注的是,知识是否以及在多大程度上与对象相一致,是否以及在多大程度上独立于认识主体,简单说,就是认识结果的客观性。这是默顿“公有性”规范的依据。认识结果所得到的是属于全人类的“非嵌入”的编码知识,例如欧几里得几何、牛顿定律,以及爱因斯坦的相对论等,发现者并不对他的发现拥有产权,其权益仅在于冠名。

大数据认识论同样强调结果的客观性,否则对主体毫无价值,甚至把主体导向歧途。与传统认识论所不同的是,所得到的结果归特定的主体所有,主体可以选择公开,也可以保密,以及为特定的主体所用,也可以束之高阁。其他的主体或者得不到这样的结果,或者得到了也毫无用处。而且,计算社会科学使用私有数据发表的论文无法被批驳和复现,不符合科学的“证伪”和可重复要求。因而,大数据认识论的认识结果具有某种主体相关性,认识结果以特殊的方式嵌入于主体之中。在大数据认识论中,知识的公有性被知识的私有稀释,乃至取代。

如果把类型繁多(Variety)集中到单一的个体,就有可能前所未有地从各个角度全方位透析一个特定的个体。可以从横向的,如生活习惯,医院治疗、药物使用等数据聚焦到一个个体(不止是个人),得到更直接、更有效的结论。这样的维度可能是无限的。虽然每个维度因其单项而显得模糊,然而由“无限的模糊”所带来的聚焦成像会比“有限的精确”更准确。“人是社会关系的总和”(马克思)。大数据比以往任何时候都趋于揭示这样的“总和”。于是,大数据从整体(群体)和个体两个层面前所未有地接近人性,这就是经由世界3研究世界2。一方面是大数据,另一方面是个性化;大数据认识论就这样建立起大到可以忽略个人之群体和小到无视群体之个人之间的联系。阿里巴巴做小微企业信贷,不见面,只看数据,只看信用。用互联网和大数据推动整个征信体系的完善,不良率非常低。亚马逊对交易数据的掌握能力和处理的深度,不仅充分掌握上游供应链的信用违约概率,甚至非常接近给其核心消费者建立动态CDS(信用违约掉期)的程度。这意味着亚马逊可以有效率地放大消费者的消费能力,对商品和商品组合实施真正意义上的个性化定价,以及大幅提高信贷的配对能力,这也是大幅降低互联网金融准备金的理由。美国东北大学教授艾伯特·巴拉巴西认为,如果你知道一个人过去的所有社会数据,预测其未来行为的准确性将达到93%。这不禁让人们想起拉普拉斯的决定论。“计算”,真的只给人的自由意志留下7%的空间?或者回过头来感到惊喜,在被历史锁定的路径上,竟然还有7%改变的余地,其中包括创新……

由此可以发现大数据认识结果的另一个特征:对象的隐私。个体对于自己的言行,在社会上的一举一动是否拥有产权,如同舞台上的演员拥有对于自己演出的产权,他人没有买票即无权观看,即使买了票也无权录像,等等。而今,在大数据认识论中,牧羊人可以放牧一群羊,也可以特别的关注其中的一只羊。只要他有意,并不顾及这只或那只羊是否在意。或许,身为大数据时代的羊,就要习惯自身的透明,甚至主动“晒”自己的隐私。大数据认识论认识结果的对象相关性有必要受到关注。

虽然当政府和公司这样的牧羊人用显微镜观察某一只羊时,这只羊或许也正在经由大数据审视周围的一切;前文述及大数据认识主体的三个层次。个人能否,以及在什么意义上成为认识主体鼎立三足之一?在聚光灯下剖析一个个体,毕竟不同于个体泛泛扫视周围的世界。

大数据认识论还有一个特有的现象:认识结果对认识对象的反作用。一旦大数据公诸于众,个人就会自动站位,多数情况站到有较多人选择的一方,多者越多,少者越少,这就是基于从众心理的正反馈。似乎应了《圣经》上的一句话:“凡有的,还要加给他叫他多余。没有的,连他所有的也要夺过来。”虽然也可能会有基于逆反心理的其他表现,但因其处于少数且方向不一,所以在实际上会以很大乃至极大的概率淹没于大数据的正反馈之中。如果确是如此,这就给出了大数据时代社会的知识建构的某种方向,不仅路径锁定,而且沿着前述“多数人”的方向自我强化。大数据时代是否具有相应的纠错或均衡的机制?

在大数据认识论中,对结果的评价也是重要的组成部分。传统认识论所关注的主要是“真”,而在大数据认识论中,甲方所关注的不仅是“真”,而且是“善”,当然也可能是“恶”,不仅是客观,而且要有用,也就是所谓求真求效。“求效”,对谁有效?何谓“有效”?特别的爱给特别的你。与此同时,由于大数据认识主体的分化和多样化,认识动机各异和变迁,“唯一真理”于是被多项选择所替代。大数据的价值主要在于其中所蕴含的“关系”。所谓“多项选择”,不仅是对于同一组关系可能有多种认识,而且是“关系”本身的多样性,随着视角的不同可以揭示出几乎无限多的关系。再加上每一种数据来源都有一定的局限性和片面性,事物的本质和规律隐藏在各种原始数据几近无限的相互关联之中。只有融合、集成各方面的原始数据,才能反映事物的全貌。

传统认识论涉及的主要是科学,相对而言科学本身不是双刃剑,大数据认识论从一开始就沾染了浓厚的功利色彩,有了善恶之分,因而其本身就是双刃剑。还可以从产业链的角度来理解。上游旨在数据挖掘,在这一环节,知识在很大程度上公有。随着产业链向终端用户移动,知识产权的分量越来越重,最终“嵌入于”个别的机构或个人。由此可见,所谓大数据认识论已经不止于“认识”而进入产业的领域。在技术领域熟知的一句话是,能做的是否要做,所指的是在实践领域;在大数据认识论中,问题已经转化为“能够认识的是否都要去认识?”

本文按传统认识论的框架写作,行文至此,感到或可换一个思路:大数据认识论,大数据产业,以及大数据实践论;大数据产业可以归入大数据实践论。

在大数据产业中,大数据是作为原料的生产力要素,产业链的各环节对原料进行挖掘、提炼、加工(知其然),以供特定用户消费,从而在整体上提升原有产业。与一般意义上的产业具有明确目标有所不同的是,大数据产业在一开始并不知道会“挖掘”出什么,更不知道会有什么用,这一点又与面向未知世界的传统认识论有相似之处。在大数据实践论中,大数据不仅是“数据”,而且是知识社会基础的资源。更重要的是,对大数据的认识过程和加工过程就是社会本身的运行和变化,知识的社会建构,就是社会的知识建构。云和互联网把世界2投射到世界3,在未来的社会中,每一个人自落世之时,除了其物理本体之外,可能还会有一个与之一一对应的“数字”映像,分别存在于现实社会和“虚拟”社会之中,相互动态对应。大数据认识论由世界3认识世界2,大数据产业和实践论籍此作用于世界2。世界2在与世界3的博弈和互动中前行。大数据产业属于大数据实践论,前者的主体是公司,在谋利的同时参与了实践;大数据实践论的主体不仅是公司,而且是政府和非营利机构,在实践的同时创造了社会效益和经济效益。计算社会科学在对所涉及的复杂问题进行建模时,不再完全以逼近某一实际复杂系统的程度(也就是认识论之“求真”——引者)为唯一的标准,而是把模型也认为是一种“现实”,是实际复杂系统的一种可能的代替形式和另一种可能的实现方式,而实际系统也只是可能出现的现实中的一种,其行为与模型的行为“不同”但却“等价”,这是利用人工系统研究社会计算问题的思想基础。通过对二者之间的行为的对比和分析,“借鉴”和“预估”各自未来的状况,相应调节各自的管理与控制方式,落实复杂社会问题有效解决方案或者学习和培训目标的实施问题等[1]。

大数据认识论和大数据实践论(含大数据产业),二者合一,而又各有侧重。大数据认识论旨在求真,是大数据实践论的基础;大数据实践论旨在求效和应用,并以其实证材料为大数据认识论提供素材,以其对生产力和经济基础的促进和对人的观念的影响推动社会发展,更以其价值观引导大数据认识论,以其实践过程推动大数据认识论。大数据时代的本质可用现代管理科学奠基人德鲁克的名言概括,即“预测未来最好的方法,就是去创造未来”。的确,德鲁克的这一名言用到此处,清楚不过地表明了大数据时代的实践本质。

大数据,无论是认识论,还是实践论,都存在自身固有的局限。大数据,只是世界1和世界2的“镜像”。其一,不可能把世界1和世界2的全部“镜像化”,总有遗漏或不可能镜像化的部分,正如不可能把意会知识彻底编码一样。其二,一旦成为镜像,“就像一个小镇倒映在平静的湖面上,”虽然“对不同的观者,它夹杂了每个人不同的生命体验,倒影中包含了你在真实生活中的社会、机构和家庭结构”(戴维·杰勒恩特),但对于政府、公司、牧羊人来说,所见所闻只不过是平面的镜像而已[3],真实的小镇与平静的湖面不可相提并论,这一点类似于柏拉图的“洞穴”。作为产业,必须与传统的产业相结合,服务于传统产业。作为实践论,其一必须坚持以人为本的价值观引导,不要让大数据压倒真实的世界;其二,意识到大数据所涉及到的实践只是人类实践活动之一。

大数据与认识论四、大数据认识论的认识史和知识论依据

大数据认识论对传统认识论的超越具有深刻的认识论和知识论依据,前者在于认识史,后者是知识阶梯。

自从笛卡尔开启哲学的“认识论转向”之后,人类的认识史在整体上就是沿着马克思的“两条道路”推进。近代科学沿现象层面逐一深入,物理学由天体运行和钟摆得出牛顿定律和万有引力,提炼出质点、刚体、弹性碰撞等概念,由热的各种现象得出热力学定律、卡诺循环和理想气体方程,由电磁的种种现象得出麦克斯韦方程;地质学、化学、生物学由量子阶梯的高层下沉到分子、原子,以及核与电子,生命是细胞的王国,乃至化工厂;最终,万物皆机械。经济学归结到“经纪人假设”,管理学还原到泰罗制,如此等等。总体而言,直至19世纪末20世纪初,认识过程沿“两条道路”的“第一条道路”一往直前,由整体到部分,过程到环节,系统到要素,旨在揭示现象背后的基础或本质。

20世纪物理学革命启动了“第二条道路”。认识“回过头来”,量子力学探究核与电子如何形成原子,量子化学讨论后者如何形成分子,生物学革命进而推进到DNA和蛋白质等生物大分子,随之出现了一系列“否定性”的概念,不确定、电子云、非对称、模糊、突变、非有序、非线性……上世纪中叶兴起的复杂性科学关注的是关系和涌现。林林总总的后现代思潮从不同方面批判、围剿近现代的认识过程和所得到的结论。现实世界不存在质点,不存在纯粹的“经济人”,存在的是形形色色的个体,这些各具特色的个体又处于瞬息万变的“此情此景”之中,以及与同样处于此情此景下的认识主体有着千丝万缕的联系,在认识过程中必然相互影响,牵一发动全身。这就否定了基础主义和本质主义。如此复杂的对象,难以如近现代那样去理性认识,更遑论背后的原因;只能在实践过程中以全身心去体认,由隐喻去感受,重要的是定性、直觉和悟性。“learning by doing”,这就是所谓后现代认识论的实践论转向,不是不要认识,而是走向知行合一。显然,21世纪出现的大数据认识论与后现代认识论的特征具有某种一致性。

在知识阶梯(参见知识之树-知识论之五;世界1的量子阶梯和世界2的需求层次-知识论之四)上,位于低层的知识具有较为清晰的边界,包括与其他知识的边界,知与行的边界,以及求真与功利的边界。例如,经典物理学具有严格的概念体系,生命科学就较为模糊,生态学尤甚,不仅与数理化天地生全都有牵连,而且涉及人文社会科学。物理学的实验主要在于认识和发现未知,而不是某个在先的目标,医学既是科学也是技术,不仅认识人体和疾病,更是治病救人。在大数据的背后是人的心理和社会,在知识阶梯上位于高层,自然边界模糊,以及具有更多实践特征。正因为此,大数据认识论显示出与传统认识论众多不同之处。李德毅院士认为,在这一领域,技术将成为科学的先导。

由此可见,人们对于大数据的理解和应用同时具有认识和实践的意义,相当于一枚硬币的两面。大数据认识论,从时代特征及其目前主要的内涵,也就是人的心理和社会来看,应该称为大数据实践论,而从整个历史和大数据所包含的“自然、生命和社交”三个方面而言,“大数据认识-实践论”或许更为恰当。

大数据与认识论五、中国语境下的“大数据认识-实践论”

旨在认识世界1的传统认识论在各国各民族尚有差异,以隶属世界3的大数据为对象的大数据认识论在各国各民族之间的差异就更大了。

在当前及今后的一段时期,只要中国社会依然处于快速的转型之中,只要政府依然在经济社会发展处于主导地位,政府就是主要的认识主体。公司作为认识主体的地位正在上升(参见大数据与认识论一、主体与对象 )。目前的情况是,政府主要把对大数据的认识解读委托给政府内部的统计和信息中心等部门,大公司也有自己的信息CIO,这无疑是必要的;不过,由于甲乙方没有分化,基本上是某种“合伙人”,利益捆绑在一起,难以独立运行,认识过程受到干扰,认识结果的客观性难以得到保证。民间和国外的一些机构和媒体之所以质疑所公布数据的真实性,这也是原因之一。一些互联网公司也与政府有着千丝万缕的联系。中国的“乙方”有待独立和成长壮大,走市场化的道路,更重要的是甲乙方之间完善的契约和制度安排。

就对象而言,中国拥有最大的“大数据”。世界第一的人口,每天都在产生大量信息(包括垃圾之类),再加上国情差异之大,与时俱进变化之快,所有这些不对称都是信息的来源。遗憾的是,中国在这一领域技术手段相对落后。

作为认识对象的大数据,“大”的含义还在于空间上的完整和时间上的连续,而非零碎的片段,以及可以随时跟踪。主体由此方可得到关于对象真实与完整的认识。

“美国政府提出大数据计划的根源,在于有十几年以上数据公开的基础。”北京理工大学教授丁刚毅说,“里面很多敏感数据,就是敢公布,认为只有公布这样的数据,才能有更好的国际合作去应对危机。欧盟、英国,包括巴西这样的发展中国家,都已经加入了DATA.GOV”。丁刚毅曾跟国内一些着名的互联网公司接触过,申请共享其数据,公司表示“给你一段可以,几百个TB也好,几个PB也可以,但连续的数据绝对不可以”。他认为,对于研究者,长期不断、随时随地都可以接触的数据,才是大数据。“政府和行业共享数据应该是大数据的基础,离开共享政策,根本就没有大数据。”丁刚毅说。不公开,不透明,部门分割,把自己分管的数据当成属于自己的“资源”,这是中国在大数据认识论的认识对象方面的主要问题。

数据,自然良莠不齐,世界各国,概莫能外。不过,中国的水军、恶意操纵、假冒伪劣,以及形形色色的山寨之类,特别是近年来每况愈下的全社会诚信缺失,可能会对大数据的真实性及基于大数据的认识、产业和实践产生负面甚至灾难性影响。一个没有信用的社会不可能应用信息技术所带来的所有便利,反之,信息技术将放大社会弊病。大数据,无论是认识论、产业,还是实践论,都呼唤一个诚信的社会。

对大数据的认识过程也有中国特色。有人提出,面对复杂的中国问题,是应该强调规范与价值解决优先呢,还是可以将它们化解为科学方法问题,并依赖于越来越技术化的分析方法?是在“知其然”之后就采取直截了当的行动以化解问题,还是沿着马克思的“两条道路”追寻“最贴近的规定”,以求“知其所以然”,也就是解决问题的根源?在实际上,社会上所发生的大部分问题都可以在“知其然”的基础上直接以及当下予以化解,只有少数带有根本性的问题需要追根溯源。有必要指出,所谓“规范与价值解决”,实际上与中国传统文化的实用主义一脉相承。在中国传统文化看来,重要的是最终解决问题,至于背后是否有理论依据及其正确与否则处于次要地位。再者,中国东西部和城乡差距巨大,白领、蓝领和农民工的消费习惯迥异,还有不小的贫富差距;再加上改革深入,70、80、90后纷纷登台亮相,各领风骚,还有老龄化,不同的群体,各自嵌入于特定的语境,难觅一致的理论和规律;凡此种种表明,面对当代中国的现实,无论是对政府还是公司来说,大数据认识论主要在于知其然,在于实用。

中国社会的这种“碎片”和“流变”赋予大数据认识论或实践论,尤其是其中的比较方法以格外重要的意义。在社会发展较为均衡的发达国家,大数据的比较需要深入到人性中更为细小的习性和喜怒哀乐,而在中国,各种群体之间存在着甚至相当巨大的差别,不仅是消费水平和习惯,而且涉及到几乎对所有事项的看法和应对方式。这些显见的差别为在大数据认识-实践论中比较方法的应用提供了广泛的用武之地,由此得到的结论会成为决策的基础。而社会的迅速转型导致的“流变”,则要求不仅做“同时”的比较,而且进行“历时”的比较。所有这些比较都需要考虑到个性和语境,考虑到初始条件和边界条件。鉴于当代中国所面临问题的艰巨性、复杂性和紧迫性,大数据实践论会占据主导地位。

有必要充分认识到大数据在中国语境下的特殊重要性。大数据倒逼改革开放,大数据推进改革开放,不仅是认识和在产业领域的实践,而且关系到中国社会转型。

作者:吕乃基

最新回复 (0)
回复
登录发表 or 还没有账号?去注册