【大数据案例】Google和它的Flu Trends预测(一)

2009年2月19日,Nature上刊登了一篇关于Google预测flu trends的文章。 Ginsberg J, Mohebbi M H, Patel R S, et al. Detecting influenza epidemics using search engine query data[J]. Nature, 2009, 457(7232): 1012-1014. 准确的说,编辑部在2008年8月14日收到文章,在11月13日确定录用,11月19日首次在网上公开,最终出版是在2009年2月9日。(这解释了为什么文章中的预测时间截至2008年5月中,可参考下图。)

从下图可以看出,在Google这篇论文发表时(之前),Google Flu Trends(GFT)的预测很准。

 

文献来源: Ginsberg J, Mohebbi M H, Patel R S, et al. Detecting influenza epidemics using search engine query data[J]. Nature, 2009, 457(7232): 1012-1014.

无需多说(或在以后单独撰文细说),关于大数据或其他类型铺天盖地的UGC(User-generated content)的研究在学术界风生水起,相关研究人员前赴后继(不知道有没有先后死在沙滩上[捂嘴笑])。大数据过分热门,其中自然不乏反思(调侃)的声音,比如以下:

Big Data is like teenage sex. Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone else claims they are doing it too.

(来源于网络,此仅为其中一个版本,其出现时间笔者最早可追溯到2013年1月23日。)

也许就这样,GFT和CDC在一起幸福的生活着。直到2013年2月,Nature上出现文章,表示GFT预测的全国范围的流感样疾病(占全国人口的比例)近乎是实际值的2倍,如下图。(原文:Its estimate for the Christmas national peak of flu is almost double the CDC’s.)

文献来源: Butler D. When Google got flu wrong[J]. Nature, 2013, 494(7436): 155.

注:图中出现的Flu Near You是一个号召注册用户上传自己及家里人的流感样疾病情况的组织,他们根据这样得到数据来预测Flu Trends。创建于2012年初,所以只有2012年以后有数据。

从图上看,GFT真的错得有点离谱(有木有同学留意到即便是其他非大数据方法的预测结果也没有准确的反映出当时的实际情况)。GFT现在怎么样了呢?请看下图:

数据来源: Google 流感趋势 (http://www.google.org/flutrends)

从图上可以看出,历史上的那段时间确实是不准的(还是全无古人后无来者的不准呢),但此后又恢复到可以接受的水平。(笔者需坦白:导致上图结果的原因还未探究,比如,Google是否修改了算法,若没有,当时的数据特殊在哪里,导致模型的输出有这么大的误差?)

2014年3月14日公开发行的Science上,有文章提出了2个导致GFT困境的原因,并(通过实证研究的辅助)给出如何继续推进大数据研究的建议。( Lazer D, Kennedy R, King G, et al. The Parable of Google Flu: Traps in Big Data Analysis[J]. Science, 2014, 343(6176): 1203-1205.

那么,关于这个任何人都可以并且(赶时髦地愿意)挂在嘴边的“Teenage Sex”,这群牛逼的作者们究竟说了哪些(值得发表在Science上)?

1. 傲娇的大数据(Big Data Hubris

意思是说,大家都把大数据作为传统数据收集和分析的“终结者”,而非锦上添花的角色。(原文:Big data are a substitute for, rather than a supplement to, traditional data collection and analysis.)

2. “唯一不变的就是不停在变的”算法(Algorithm Dynamics

这种变化包括两个方面:Google工程师的优化,用户使用习惯的进化。(原文:Algorithm dynamics are the changes make by engineers to improve the commercial service and by consumers in using that service.)

(进一步粗略了解以上两点可参考果壳网报道 http://www.guokr.com/article/438117/ ,笔者将在近日结合论文原文附带的补充资料作详细阐述。)

这篇叼炸天的文章共3页,陈述和论证前面2个观点分别用去一页。剩下的一页是作者们的吐槽专版,作者们亲切的称它(们)为critical lessons。原谅笔者实在是不知道如何在众多critical的中文义项中挑出一个来准确表达论文作者们复杂的感情。

1. 【特别地献给Google 】关于数据公开的事儿事儿(Transparency and Replicability

经过(靠谱)科研训练(实在是不敢恭维一些科研单位的教学质量)的同学都应该有印象,科学研究的特点之一是可复制,也就是原文的Replicability。

首先,作者们知道Google不可能完全将数据攻来,伦理上也不能被接受(隐私问题)。这件事的亮点在于,即便是有人能够接触到Google的数据,想要重复做一遍Google原来那篇论文的研究也不可能。(原文:Even if one had access to all of Google’s data, it would be impossible to replicate the analyses of the original paper from the information provided regarding the analysis.)

有个东西叫Google Correlate,表面上看(原文:ostensibly,请体会作者们写作时的心情)能够模拟GFT,而实际上是不能的[捂嘴笑]。作者们悻悻地猜测,Google的人大概没觉得有必要遮掩。原文:Clicking the link titled “match the pattern of actual flu activity (this is how we built Google Flu Trends!)” will not, ironically, produce a replication of the GFT search terms. Oddly, the few search terms offered in the papers do not seem to be strongly related with either GFT or the CDC data – we surmise that the authors felt an unarticulated need to cloak the actual search terms identified.

(涉及到另一篇文章: Cook S, Conrad C, Fowlkes A L, et al. Assessing Google flu trends performance in the United States during the 2009 influenza virus A (H1N1) pandemic[J]. PloS one, 2011, 6(8): e23610.

2. 大数据有继续揭露未知的潜力(Use Big Data to Understand the Unknown

3. 科研人员要关注生产大数据的算法(及变化)(Study the Algorithms

4. 不全是“大小” 的事儿(It’s Not Just About Size … of the Data.

作为相关领域从业人员,最初看Science上的这篇论文(以及相关报道;好吧,尤其是相关报道,把笔者看得心惊肉跳)给我最大的震撼是:Google都错了?!世界观要塌了……以后还怎么相信爱……

然而读完论文原文,发现实际情况“没那么糟糕”。GFT的经历是任何数据分析过程中都有可能遇到的。这些老问题发生在了新的、炙手可热的客体——大数据上。并且人们还从未认真思考过这个新组合。

更多精彩爆料,敬请期待:

【大数据案例】Google和它的Flu Trends预测(系列二)[捂嘴笑]

【大数据案例】Google和它的Flu Trends预测(系列三)[捂嘴笑]

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章