奥巴马胜选的原因不在于经济、外交政策或是妇女问题,而是赢在大数据。
在本届激烈而漫长的总统竞选活动落下帷幕后,对于竞选的最终结果,关于谁应当被信任或是受到指责出现了大量争论。此外,我认为人们还将会继续关注飓风、攻击式竞选方式、改换党派的州长、秘密视频记录、愤怒的西班牙裔、怒火中烧的女权主义者和需要闭上嘴巴的候选人。
如果你是推特上的Ted Nugent(注:著名摇滚明星),你可能会把这些归咎于“皮条客、娼妓、福利骗子、没有灵魂的傻子和禽兽一般的恶棍” 。
但是还是让我们忘掉这些吧。无论你支持哪个阵营,奥巴马的胜出和罗姆尼的落选都可以归结为大数据的利用。是的,我知道,与“云计算”和“可能给你打电话”一样,“大数据”也已经成为了一个让人们感到厌倦了的词汇,但是总统竞选确实是一个非常适用于大数据的地方。
Time.com网站已经非常出色的报道了奥巴马竞争活动为什么会成功的原因。这一切始于2008年,当时奥巴马的支持者继承了民主党多年以来所创建的糟糕的孤岛式数据库。在赢得了大选后,奥巴马的团队抛弃了这些孤岛式数据库并重新建立了新式数据库。新式数据库增加了大量来自Web追踪和社交媒体网站的新数据。
在经过了18个月的数据处理,奥巴马的团队搞清楚了如何在先前海量的非结构化数据中找到不同的利用模式。它们知道应当以哪些区域为目标以及应当忽视哪些人,知道哪些信息能够吸引女性和少数民族选民,知道在哪里花钱效果更好。它们还知道依靠哪些人才有可能得到增强竞争力的捐款,以及如何发出呼吁。以下是Per Time的Michael Scherer的观点:
新的海量数据不仅仅告诉竞争团队如何找到选民并吸引他们的注意力,而且还允许数据分析团体预测通过哪种特定方式发出呼吁可劝说哪类选民。
一名负责利用数据创建预测方案的高级顾问称:“我们能够预测哪些选民将在线捐赠,能够对那些通过邮局进行捐赠的选民进行建模,也能够对志愿者进行建模。”
事实证明,如果你在竞争广告中使用乔治·克鲁尼,那么女性选民将会为你慷慨解囊。
其他的家伙手中也有许多数据,但是在形势明朗之前他们不知道如何利用或梳理它们以洞察发展趋势。Karl Rove在选情形势明朗之前还坚称共和党不会丢掉俄亥俄州。这一点也不奇怪,因为他们没有看清楚大趋势。
以下是另一个关于为什么说大数据是政治未来的例子:FiveThirtyEight博客的博主Nate Silver。如今Silver已经成为了统计工作的代言人。Silver十分有把握地预测称奥巴马有80%以上的机率战胜其他的竞争对手。因为奥巴马的竞选对手无法看到他所能够看到的东西。他们所看到的全部只是一场貌似不分胜负的竞选活动。
Silver通过对多个数据点和大量的计算机建模进行深度统计分析后得出了这一预测结果。事实证明他的预测结果几乎完全正确。他没有遗漏掉任何因素。
那么共和党的预测结果呢?虽然保守派博主Dean Chambers建立了Unskewed Polls网站,但是由于Chambers决定通过忽略党派中基本的数字差别,这导致其对这场竞选的“最终决定性预测”为:罗姆尼胜率为51%并将赢得275张选举人票。
我真心希望Chambers永远都不要去赌城拉斯维加斯,他的名字可能已经上了通缉名单(你知道赌场开出的庄家的赔率是多少吗?——他们全都受到了误导)。
在我看来,奥巴马能够战胜罗姆尼的另一个原因是奥巴马比罗姆尼更了解互联网文化。这是为什么奥巴马会在今年八月份在Reddit 网站举行Ask Me Anything(任何事都可以问我)活动的原因,同时也是为什么在辩论后奥巴马竞选团队能够率先拿“大鸟”和“罗姆尼失忆症”大做文章的原因。奥巴马的团队清楚,即便有些事情不会长时间被传统媒体炒作,也会在网上持续发酵。
当“大数据”遇到“小数据”,大数据每次都会赢。大数据加上大量的资金呢?这将是无敌的。这是共和党在总统大选失败中应当吸取的一个教训。可以预料,总统竞选活动从今往后将会以这种方式进行下去。