在社会科学中如何使用数据？-电子发烧友网

随着计算机、智能手机和其他电子技术的发展，网络数据急剧增加，进而促使社会科学家发现新问题，或利用新方法解决老问题。经济学家、政治学家、社会学家可以使用谷歌、推特、脸书、网络博客等在线数据研究舆情、信息流动、疾病传播等问题。网络大数据的使用在社会研究中有三个基本优点（Johnson and Smith， 2017）。首先，与传统问卷数据相比，收集网络数据花费的时间和经费更少。传统问卷需要时间和经费培训调查员并对样本人群进行提问，但大数据方法避免了上述时间和经费的开销。第二，大数据具有即时性。时刻更新的大数据提供了第一时间研究突发事件的可能。第三，大数据具有完整性。问卷研究者总是面临低回馈率、项目无反应（item non-response）等问题，但每个人对网络大数据的贡献却逐年增加。虽然网络大数据有很多优点，社会科学家在使用网络大数据时需要考虑到其存在的局限性。本文将讨论在社会科学中使用网络数据的挑战：缺乏代表性、测量误差、更易出现第一型错误。此外，本文还将列举出缺乏代表性问题的几种解决办法，包括通过真实统计数据校准网络数据、通过双重差分模型推测数据变化的趋势、对网络数据加权、以及将网络数据视作面板数据。

1. 缺乏代表性

很多学者都指出，网络数据存在选择偏差，且研究者不能控制数据的代表性。由于老龄及贫困人口更少接触互联网，网络数据倾向于排除这些人群。例如，Scarborough （2018）抓取了2017年父亲节、母亲节期间包含女性主义关键词的推特数据。通过对这些推文进行朴素贝叶斯情感分析（Naïve Bayes sentimental analysis），作者得出了不同地区推文对女性主义的态度。为了研究推特数据的代表性程度，作者测试了推特情感指数与综合社会调查（General Social Survey）中性别态度指数的相关性。此外，作者还研究了不同种族、性别、受教育程度的个人的推特情感指数是否可以通过他们的性别态度进行预测。结果表明，针对女性主义的推特情感指数与综合社会调查中的性别态度指数高度相关。但推特情感指数与性别态度指数的相关性在不同种族和受教育程度的人群中存在差异：非白人人口和受教育程度低的人口使用推特较少，推特情感指数与性别态度指数的相关性也较低。上述结果表示，虽然推特是了解舆论的重要途径，它对总体人口并不具有代表性。

2. 测量误差

除代表性问题外，研究者还发现网络数据存在测量误差问题。一个经典案例就是谷歌流感趋势的失效。Lazer等人（2014）发现，谷歌搜索中的流感频率与现实中的流感爆发并不具有相关性。这就表示谷歌搜索热度也许并不是一种可靠的测量方法。除谷歌搜索外，测量误差还出现在社交媒体中。例如，通过脸书的“外籍墨西哥人（Expats Mexico）”分类，研究者可以研究住在美国年满18周岁的墨西哥移民情况（Zagheni et al. 2017）。脸书的“外籍人士”并无明确定义，一般基于两个因素：个人在资料栏填写的“居住城市”和“故乡”，及好友的社交网络结构。作者指出这样的定义存在潜在的测量误差：这种定义下的“外籍人士”并不一定出生在国外，且用户填写的个人资料未必是真实信息。这样的测量误差很难解决。基于此类数据的模型要经常重新校准（re-calibrate）。

3. 更易出现第一型错误

当两个变量间出现的显著关系是出于偶然，而非真实存在的关系时，第一型错误就发生了（Barocas and Selbst 2016）。这类问题在研究者把大量变量加入模型时更容易发生：加入的变量越多，越有可能发现出于偶然的显著关系。鉴于大数据包括大量的数据和变量，相比于传统的理论主导（theoretically driven）的研究方法，研究者在数据主导（data driven）的研究方法中更容易出现第一型错误（Boyd and Crawford 2012）。

解决办法

1. 通过真实统计数据校准

当面对网络数据缺乏代表性的问题时，研究者可以通过用真实统计数据校准的方法估计研究对象的数值。此方法需要对研究对象数值与他们在网上呈现的数据间的关系，及互联网渗透（internet penetration）与社会人口学变量间的关系做出函数假设。例如，Zagheni和Weber （2012）通过观察电子邮件的IP地址，研究不同年龄的人口迁出率。他们根据年龄和不同国家的互联网渗透率建立函数，估计迁出人口的误差值，再根据欧洲国家的人口统计数据对模型进行校准，通过对误差的估计，修正最初观察电子邮件得到的数据，得出真实的迁出人口数量。

但这种方法仅适用于统计数据完善的国家和地区。Zagheni和Weber （2012）发现，一些非洲国家网民数量少、互联网渗透率低，且缺乏完善的人口统计数据，此方法并不适用。

2. 双重差分模型

当缺乏完善的统计数据时，研究者还可以通过双重差分模型估计变化趋势（Zagheni and Weber 2012）。如果社交媒体的用户呈现出某种相似的变化趋势，那么研究者就可以比较某个特定群体或地区这段时间的变化与总体用户变化的区别，从而得到这个群体的相对变化趋势。

3. 对网络数据加权

另一个降低缺乏代表性造成的误差的方法是对网络数据进行加权。类似社交媒体用户组成的样本或总体样本都可以用来计算网络数据的权重（Diaz et al. 2015）。对数据加权便于比较不同用户群体。例如，女性发送推特的数量总体少于男性，但更热衷于针对政治问题发送推文。如果我们对女性用户的数据进行加权，就可以得出更具有代表性的结果。上文提到，非白人和受教育程度低的人群在推特上缺乏代表性。对这些群体加权可以增加他们在推特上的比重，一定程度上提高代表性。

4. 将网络数据视作面板数据

最后，面对缺乏代表性问题，与其将网络数据看作总体样本的代表，我们还可以将其视作面板数据，从而观察个人或群体在一定时间内的变化。例如，Diaz等（2015）观察了大选期间推特用户最近一次讨论选举的推文和当天任何一条推文之间的时间差，多数人的时间差在一周左右。但竞选辩论当天，研究者发现该时间差有显著增加，这意味着很多之前并不热衷于讨论竞选的用户在关键日期加入了讨论。此外，这些面板数据还可以用来研究某些事件发生前后的行为和态度变化，尤其适用于研究对某些群体有特定影响的事件。研究者可以选择来自不同群体的社交媒体用户，观察他们在事件前后的变化，并发现群体间的差异。

结论

本文列举了在社会科学中使用网络数据的几种挑战：缺乏代表性、测量误差、更易出现第一型错误。本文随后列举了缺乏代表性问题的几种解决办法，包括通过真实统计数据校准网络数据、通过双重差分模型推测数据变化的趋势、对网络数据加权、以及将网络数据视作面板数据。虽然网络数据为社会科学提供了更多研究资源，研究者在使用网络数据时要考虑到网络的特殊性，发现数据的不足，并尽可能缩小网络数据与现实数据的差异。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据采集

数据采集

+关注

关注
38

文章
5903

浏览量
113514
大数据

大数据

+关注

关注
64

文章
8863

浏览量
137293

CSSCI核心期刊《甘肃社会科学》（增刊）2010年征稿

CSSCI核心期刊《甘肃社会科学》（增刊）2010年征稿本站常期代理CSSCI核心《江汉论坛》《社会科学研究》《社会科学研究》增刊征稿，现《甘肃社会科学》增刊开始征稿，另

发表于 03-12 16:07

[原创]《河北学刊》CSSCI核心编辑部最新征稿消息

《河北学刊》CSSCI核心编辑部最新征稿消息刊名：河北学刊?? Hebei Academic Journal??本刊是河北省社会科学院主办的一家大型综合性社会科学学术理论期刊。创刊20多年来,以

发表于 09-28 16:17

▲▲▲《环球市场信息导报》杂志社学术论文征稿启事hqzw#.com

：010-86109586010-86852716主管单位：中国社会科学院主办单位：中国社会科学院文献信息中心国内统一刊号：CN11-3459/F国际标准刊号：ISSN1005-4901社址：100732北京市建国门内大街5号官方网

发表于 08-27 15:36

《环球市场信息导报》杂志学术论文征稿

《环球市场信息导报》杂志社学术论文征稿启示主管单位：中国社会科学院主办单位：中国社会科学院文献信息中心国内统一刊号：CN11-3459/F国际标准刊号：ISSN1005-4901社址：100732

发表于 02-24 16:55

西电星火杯

到2005年的第十七届“星火杯”竞赛时，有4300余名大学生提交了1400余件优秀作品参加决赛，作品内容包括科技发明制作、计算机软件开发设计、自然科学类论文、哲学社会科学类社会调查报告和论文等4大类，涉及电子、通信、机械、环保、

发表于 07-19 14:03

自然辩证法（研究生）期末考试题库相关资料分享

仅供参考，后果概不负责第一讲（）实际上就是科学与马克思主义哲学的纽带和桥梁。这就如同历史唯物主义是马克思主义哲学和各门社会科学的中间环节一样。A:社会学B:哲学C:科技与社会D:自然辩

发表于 07-12 09:29

社会进步的基础是企业

社会进步的基础是企业于光远院士会见艾雷斯总裁纪行2005年3月26日，我国著名经济学家、社会科学家、社会活动家、教育家、中科院院

发表于 06-12 10:37 •563次阅读

人工智能如何发展？撷取部分专家精彩片段，以飨读者

北京自然科学界和社会科学界联席会议高峰论坛在北京举行。此次论坛以“人工智能：技术理性与社会发展”为主题，汇聚了自然科学和

发表于 03-13 09:00 •683次阅读

人工智能将如何重塑人类社会秩序?

耶鲁大学社会科学与自然科学教授尼古拉斯·克里斯塔基斯（Nicholas Christakis）在即将于4月出版的《大西洋月刊》上撰文称，人工智能技术不仅会给我们带来便利，还有可能在悄无声息间影响人类社会的基本秩序。

发表于 03-12 14:29 •3695次阅读

人工智能浪潮中的计算社会科学

计算社会科学的发展。后工业化时代的复杂社会问题催生了计算社会科学的诞生。正是其所在的大数据时代使“我们的社会开启了一场可与印刷和互联网带来的

发表于 01-15 14:32 •4605次阅读

大数据：社会科学研究的全数据模式时代到来了吗？

首先，海量的在线新闻和谷歌搜索数据虽然是大数据，但对于该项分析研究而言，它不是关于研究对象的“总体数据”。该研究的对象是可能参加投票的英国公民，但这一群体并不都是网民，非网民群体在研究

发表于 04-21 17:27 •3748次阅读

介绍正态分布在电气工程中的位置

这称为正态分布或高斯分布。它遵循熟悉的钟形曲线形状，但是使用名称“正态”或“高斯”而不是“钟形曲线”非常重要，因为其他类型的分布具有相似的形状。在进行统计分析时，在工程，物理科学和社会科学

发表于 10-12 15:55 •4135次阅读

同茂线性马达谈2021年中国社科基金立项名单

2021年9月3日-9日，根据《中国社会科学基金管理办法》的有关规定。

发表于 10-29 08:12 •322次阅读

社会计算结合大数据与人工智能算法解决社会问题

社会计算（social computing）的方法论以社会科学理论为导引，并结合大数据与人工智能算法解决社会问题。本文从大量文献中提炼出融合大数据

发表于 11-25 11:39 •1566次阅读

soc在人工智能中的创新应用

社会计算（Social Computing, SOC）是一个跨学科领域，它结合了社会科学、计算机科学和人工智能，以理解和设计社会互动中的技术

发表于 11-10 09:30 •286次阅读

搜索历史

在社会科学中如何使用数据？