大数据:奥巴马胜选的大功臣
作者:暂无
来源:《计算机世界》 2013年第10期
    Andrew Lampitt
    奥巴马赢得2012 年美国总统大选是大数据的诸多案例中最为知名的一个,奥巴马究竟建立了一个什么样的大数据分析环境帮他赢得大选,这是本文要揭示的主要内容。
    你可能听说过在2012 年的美国大选中,奥巴马的竟选团队如何利用各种统计分析工具预测每个州的选举投票情况,这些工具对原始的民意调查数据进行分析,然后做出比传统的选情预测专家还要准确、可靠的预测。不过,关于奥巴马的竞选团队建立起了一支100 多人的分析队伍,利用分析语言R、Stata 统计分析软件、HP Vertica 的MPP(大规模并行处理)分析数据库和预测模型对数十个TB 的数据进行分析和处理,最终获得了大选的胜利,听说过的人并不多。
    实际上,这也是奥巴马成功胜选的关键因素之一。
    “对于所有的一切,我们都是数据说话。我们要衡量一切??我们让数据分析介入我们所有的工作,以确
保所有的事情都在我们的掌握之中。”谈到数据,奥巴马竞选团队主管吉姆·梅斯纳如此表示。
    吉姆·梅斯纳(Jim Messina) 是一个非常重视数据分析的人,从2012 美国总统大选大幕一拉开,吉姆·梅斯纳就力图为奥巴马打造一个以数据驱动、完全不同于以前的竞选活动,此后,他带领奥巴马的竞选团队一头扎入大数据的分析中。“如果哪天你没有输入数据,你那天就没有做工作”一度成为奥巴马竞选团队的口头禅。
    明确关键环节
    奥巴马竞选团队设有100 多位专职分析师,其中 50 人在一个专门的数据分析部门工作,而这50 名分析师中有20 位分析师工作在奥巴马的各地竞选总部中,另有30 人在现场对数据进行分析和解读。
    美国民主党全国委员会数据架构总经理Chris Wegrzyn 描述了他们竞选时面临的挑战、机遇以及如何建立由数据分析驱动的竞选运动。wegrzyn 指出, 数据分析最为关键的环节还是数据本身、数据的建模和测试。通过分析核心数据可以发现选民的倾向,以针对性调整竞选策略,而建模被用来了解各个不同层次的选民,评估分析结果有助于了解某个具体行动如何影响选民。
    竞选活动的关键绩效指标是准备投票给奥巴马的选民数除以准备投票的总人数得到的比值。奥巴马的竞选团队知道,其中有三个关键环节,做得好可以最大限度地提高这个数值:登记、说服和投票。归纳
起来就是,奥巴马的竞选团队必须鼓励他们的目标人进行选民登记,说服犹豫不决的选民投票给奥巴马,然后尽最大的努力让奥巴马的选民在选举日投票。
    对分析师进行分组
    应对挑战,奥巴马竞选团被分成了几个不同的小组。现场工作组是竞选团队的门面,他们负责组织志愿者、办理登记、鼓励选民投票等;数字组负责在线宣传、邮件广告、网上募捐以及社交媒体等;通信和媒体组负责发布奥巴马的个人信息、安排采访、进行广告投放等;财务组则负责整体的竞选筹款。
    在过去,所有这些部门都会采用先进的数据分析技术,但是各个组都是各自进行自己的数据分析。2012 年,奥巴马的竞选团队改变了这一做法,采用统一建设和集中管理。
    这一过程中合适的人、合理的授权对于建立统一的数据分析环境非常关键,因为没有这种统一的管理,任何雄心勃勃的计划都可能会成为泡影。奥巴马竞选团队负责人吉姆·梅斯纳要求,每个分析任务的执行者都需要从吉姆·梅斯纳得到授权。此外,核心团队拥有非常丰富的分析经验,他们都是有过竞选经历的专业人士,确保了分析结果可靠。
    正如Wegrzyn 描述的那样,奥巴马的竞选团队建立了“一个分析师主导的组织,它为聪明的人自由地实现自己的想法创造了一个非常好的环境。”比如,这个基于SQL的环境能让分析师非常容易地进行分析,
而不要求分析师必须具备Java 或统计分析知识。 此外,该分析平台还有足够好的分析性能,让分析能跟得上分析师思维的速度。
    不过,这些都比不上为数据分析明确一个清晰的目标重要,这个目标就是在不同的数据集之间的障碍最少、不同分析师之间的障碍最少,这样每个人都可以高效地一起工作。简单地说,整个竞选团队要建设的是一个无摩擦的、能自由地实现分析师想法的大数据分析环境。
    建立分析引擎
    基于上述目标,竞选团队评估了一系列技术。比如,他们意识到,虽然Hadoop 是一种重要的辅助分析技术,但是它需要很高的技术技能,不适合在需要实时查询、分析的场合使用。他们也了解到,过去使用的专用数据分析一体设备,无法进行高效的扩展。
    最终,竞选团队选中了高性能的数据仓库系统Vertica。这是一个基于SQL、价格合适、具有高可扩展性以及强大的性能的数据分析平台。而在统计分析方面,团队则使用了开源的R 语言和Stata 统计分析软件。
    这个数据分析环境的基本特性是其高可扩展性。分析环境中是一个闭环的系统,计算能力会随着处理需求的增加而增加。虽然最初的原始数据量在大数据领域里算是中低水平,约10TB 的,然而,分析师通过聚集和各种试验又产生出了几十TB 兆字节的数据。因此,高性能非常关键。
    分析在行动
    在竞选过程中有两个重要的项目可以说明这个数据分析环境的高效率:AirWolf 和媒体优化。
    AirWolf 项目主要用于协调现场组和数字组的工作。在以往的竞选活动中常出现的问题是现场组的行动(如记录某个投票人关于投票时的特殊兴趣)不能马上被数字组的人知道,这样,负责推送的人不能马上进行相应的行动(如推送其感兴趣的资料、解答问题等)。而有了AirWolf,当现场组在挨家挨户的走访中与选民进行了沟通,获得了选民的信息,这些信息可以马上被记录到数据分析平台中。数字组可以马上跟踪到这个最新的信息,并根据具体情况给这些选民发送,这些会根据每个选民感兴趣的问题进行定制。这极大地提高了竞选团队的快速响应能力,帮助竞选团队说服那些左右摇摆的选民。
    媒体优化项目的目的是为了使广告投放更有针对性。在推出媒体优化项目前,电视广告的投放主要是基于广泛的人口统计,实践证明这很昂贵同时也很低效。媒体优化项目的投入使得竞选团队可以使用统计分析的方法在电视台的收视数据库中出目标选民,然后结合其他一些资料,包括根据电视收视率得到人口统计数据以及广告定价等,统一集中到数据分析平台中进行分析。
    通过分析,奥巴马竞选团队了解到可能投票给奥巴马的选民的爱好以及其他相关情况,比如,他们习惯看的节目和这个节目的广告价格,从而使得竞选团队可以更容易地以最有效的方式来投放广告。最终
的结果是,奥巴马的竞选团队在有线电视上投入的竞选广告次数是其竞争对手罗姆尼的两倍,不过其中很多是投放给很小众的电视节目,这样做的目的是可以更经济、也更精准地把信息传达给目标选民。
    帮助筹款
    除此之外,奥巴马竞选团队还通过分析海量数据帮助奥巴马筹集到10 亿美元的竞选资金。而之前奥巴马团队里的几乎每个人都认为达不到10 亿美金的筹集目标,有一位高层官员甚至认为连9 亿美元的目标都无法完成。
    奥巴马成功地募集竞选资金很大一个原因在于有效利用了邮件和社交媒体,其通过网络筹集到的资金中,很大一部分是通过营销而来。当然这种邮件营销不是乱发垃圾邮件,奥巴马竞选团队之前做了大量的数据收集与数据分析工作,这些数据除了选民年龄、性别、种族、居民区和历史投票数据外,甚至有关选民的消费数据也在其中。
    而这些数据的来源则多种多样,有的来自民调者、筹款者、基层工作人员调查的一手资料,也有来自社交媒体、移动电话清单等。发送给支持者募集资金的邮件中采用了不同的主题、发送人与内容,这种调整也是数据分析的结果。其中有的是以奥巴马之名发的,有的是以奥巴马的妻子米歇尔·奥巴马之名发的,还有的是以副总统拜登之名发的。邮件发送者还会因季节不同而有所调整,比如春天就多以米歇尔·奥巴马之名发出。
    利用名人也是竞选团队成功募集资金的一个举措。2012 年初, 奥巴马竞选阵营的数据分析团队注意到, 影星GeorgeClooney 对美国西海岸40 岁~49 岁的女性具有很大的吸引力,她们最有可能为了在好莱坞与George Clooney 和奥巴马共进晚餐而不惜自掏腰包。结果,George Clooney在自家豪宅举办的筹款宴会上为奥巴马筹集到数百万美元的竞选资金。之后,这一成功经验又被复制到美国东海岸,奥巴马团队在东海岸选定了莎拉· 杰西卡· 帕克(SarahJessica Parker,美国知名影星)。不少人为了争夺在杰西卡·帕克的纽约West Village豪宅与奥巴马共进晚餐的机会而一掷千金。这些人不知道,这个结果完全在奥巴马数据分析大师们的预计之中,之前他们通过对帕克粉丝的行为进行研究后发现:这些粉丝喜欢竞赛、小型宴会,爱追踪名人。
    预测结果
    这种数据分析技术随后又被用于预测大选的投票结果。奥巴马竞选团队的数据分析师们收集了大量数据以了解关键州选民的详细情况。仅在俄亥俄州,奥巴马数据分析团队一个月内就获得了约3 万人的投票倾向数据。这是一个包含1% 选民的巨大样本,使他们可以准确了解每一类人和每一个地区选民在任何时刻的态度。
    这带来了巨大的优势。在去年美国总统大选选情最为胶着的时候,这一技术选择确保了奥巴马选情的稳定。比如,奥巴马竞选团队通过数据分析发现,俄亥俄州大部分摇摆不定的选民原本不支持奥巴马,
而是罗姆尼的支持者。在罗姆尼出现失误之后,这些选民的态度出现动摇。每天晚间,投票倾向和选民数据被数据分析师反复处理,以考虑不同情况在这些州胜出的可能性,从而针对性地分配资源。
    数据分析师还建立了精准的分析模型,来预测哪些选民可通过网络进行说服,哪些人通过邮件进行说服,这可以使说服更有效率。
    另外, 奥巴马竞选团队还首次利用Facebook 进行大规模的投票动员,在竞选活动的最后几周,下载某一款应用的用户收到了多条消息,其中包含他们在“摇摆州”好友的照片。他们被告知,可以通过点击按钮,呼吁这些目标选民采取行动,例如进行投票注册、更早地投票, 以及参与到投票中。结果是大约1/5 收到Facebook 请求的选民做出了响应,这在很大程度上是因为请求来自他们熟悉的人。( 乐天译自美国Infoworld)
什么人适合做数据分析师
    成功经验
    所有有效的数据分析解决方案都有一些共同的特点:他们是分析师和工程师共同努力的结果;方案在数周而不是数月内实施完成,而且随着时间不断调整;方案围绕一个可自由扩展、集中的数据仓库环境构成,如Vertica。
    由分析师主导的这个团队帮助奥巴马的竞选机构实现了一些关键目标。首先,来自不同的部门所有的
数据都集成到了Vertica中,并支持对这些数据实现360 度全方面探查;其次,所有问题分析师都可以快速、方便地回答,而无论这个问题所涉及的原始数据来自何处;最后,该平台利用其内置的闭环机制不断进行优化和调整。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。