当前位置:  农事资讯热点话题其它热点

大数据“大而不精”?

2016-04-13来源:“政眼”微信公众号
分享到: 更多
   切换手机版

传说 OR 胡说

社会科学对大数据的疑虑集中在四个方面:即不够真、不够全、不够整齐、缺乏代表性。概言之,就是“大而不精”。

所谓“大数据=全样本”,只是一个传说。社会科学对大数据的疑虑,并不是胡说。

本文节选自冯仕政:《大数据时代的社会治理与社会研究:现状、问题与前景》,《大数据》2016年第2期。其他部分陆续刊发。微信刊发时重新分段,并加小标题,以利阅读。如有引用,请以《大数据》所刊原文为准。

(续前篇 · 之一:《大数据研究中的应用取向与科学取向》)

要发展科学取向的大数据研究,就必须重视社会科学的理论和方法。“社会科学”(social sciences)指用现代科学的思维和方法去探究社会运作规律的所有学科,是复数而非单数,通常包含社会学、经济学、政治学,等等。也就是说,社会科学不等于社会学。不过,社会学有一个突出的特点,对于考察大数据与社会研究之间的关系是极有意义的,即,它除了高度重视在研究中使用数据之外,还通过问卷调查、个案调查、参与观察、社会实验等方法亲自采集数据。在这个意义上,社会学可能是社会科学中对数据的环节涉猎最完整、体验最丰富的学科。因此,下面在讨论大数据与社会研究之间的关系时,会较多地援引社会学的观点、方法和事例。

社会学素来重视数据的采集和使用,但面对如火如荼的大数据热潮,却似乎有点无动于衷。截至目前,无论国内还是国外,应用大数据的社会学研究屈指可数。其中固然有大数据兴起时间不长,进入社会学研究尚有一个过程等客观原因,也与社会学家对大数据的科学价值心存疑虑有关。这些疑虑集中在4个方面,即大数据不够真、不够全、不够整齐、缺乏代表性。

■ 不够真:许多数值并不是真实社会过程的表示

不够真,是指大数据中的许多数值并不是真实社会过程的表示,比如微博数据中存在的大量假账号、假粉丝、“灌水帖”和虚假的个人注册信息,等等。造成数据失真的情况很多,大体可以分为两种:一种是由于技术失误或不成熟而产生的错误数据,另一种则是出于某种目的,故意操纵而产生的虚假数据。相对而言,前一种数据失真还好处理,后一种数据失真则比较麻烦,因为在技术较量中并不能保证优势在研究者这一边。

任何数据的形成都存在失真的风险。但长期以来,社会学对数据采集中的失真风险已经形成一套较为成熟的控制体系,而大数据目前尚无与之相埒的办法。这是社会学家对大数据缺乏信心的原因之一。

■ 不够全:数据虽然大,展现的社会信息实际上十分有限

不够全,是指大数据虽然大,实际上展现的社会信息十分有限,以致难以以之为基础进行复杂的、严密的逻辑演算。社会学本质上是“群学”,在研究方法上特别注重分群比较。表现在统计上,就是倾向于根据个体的社会特征,比如性别、年龄、政治面貌、宗教信仰、教育程度、收入水平、职业、职级、所在行业等,将研究对象分成若干组,然后比较组内差异和组间差异,并通过分析这些差异的原因和后果来揭示社会规律。这样,研究对象所具有的社会特征就成为社会学推理中不可或缺的变量。

然而,大数据常常只有总和层次(aggregate level)的变量,并且不是很多,个体层次(individual level)的变量更是严重缺乏,致使社会学的大量理论构想难以通过大数据进行检验和修正。这是社会学家对大数据不感兴趣的原因之二。

■ 不够齐:变量取值杂乱、发散而不够收敛,甚至大量缺失

不够齐,指大数据中变量的取值往往非常杂乱、发散而不够收敛,甚至存在大量缺失。因此造成的一个后果是,当进行社会学所需要的分组比较时,大量组别内的个案数太少,以致统计结果不稳定,甚至无法进行比较。也就是说,大数据虽然体量巨大,从社会统计的角度来说却有些中看不中用。

传统的社会学数据则不存在这个问题,因为这些数据中变量的赋值都是按照事先确定的统一标准进行的,即使是开放式调查,也可以通过后编码的方式实现取值的标准化。

尽管从理论上说,大数据中各变量的取值也可以通过后编码的方式实现标准化,但正如后文将要指出的,由于技术、组织等多方面原因,事实上实现起来非常困难。这是社会学家对大数据态度冷淡的原因之三。

■ 缺乏代表性:大数据=全样本,只是一个传说

最后,是质疑大数据缺乏代表性。不少人认为,大数据就是全样本,样本代表性的思维已经过时。《大数据时代》一书就持这种观点。这是一种错误的看法。

从科学的角度来说,研究网络社会最终还是为了探索整个社会生活。特别是社会学,揭示社会整体而非局部的运行规律是其作为一门学科的核心关切。而社会治理,更是要面向全社会,不能只面向网络社会。

很显然,无论信息技术如何发达,来自网络社会的大数据永远不可能覆盖整个社会;技术,再加上法律、伦理等诸多限制,使得电子数据永远只能展现社会生活的局部。换言之,从社会研究和治理的角度来看,大数据再大,也只是社会总体的一个样本,不可能是“全样本”。更何况,被大数据遗漏的那些部分往往并不是随机偏差,而是系统性偏差。

如果大数据的代表性问题得不到解决,探寻社会整体运行规律,从而推动全面善治的追求注定将遭到挫折。这无论对社会研究者,还是对社会治理者,都是不能接受的。大数据虽然以大著称,但它与社会总体之间的关系仍有许多依靠大数据本身无法得到澄清的问题。这是社会学家对大数据保持疑虑的原因之四。

比如,互联网上的各种意见,集合起来堪称海量,是当之无愧的大数据。但是,这些声音与全体国民的意见之间是什么关系?从社会学的角度来说,这个问题非常重要。因为一个社会中,有大量民众是不想上网、不能上网或上不起网的,而这批人的意见恰恰是最容易被剥夺、被忽视的;如果简单地以网民意见代替国民意见,造成的偏差及其后果将是十分严重的。要避免这样的偏差,就必须追问网民意见在多大程度上、在什么意义上代表着国民意见。不澄清数据的代表性,理论分析就难免陷入就事论事或过度推论的困境。

上述四个方面其实都是关于数据质量的担忧。一言以蔽之,就是大数据大而不精,难以满足社会学推理对于变量的丰富程度、变量值的精确和标准化程度以及样本代表性的要求。

转载自“政眼”微信公众号


图文来源网络 如有侵权 请联系删除

扫描二维码关注智农361公众号,了解更多农事资讯

手机长按二维码识别

[责任编辑:tuwei] 标签: 大数据 大而不精
您可能喜欢的

友情链接

微信分享