⼤数据案例分析
⼀、⼤数据分析在商业上的应⽤
1、体育赛事预测
世界杯期间,⾕歌、百度、微软和⾼盛等公司都推出了⽐赛结果预测平台。百度预测结果最为亮眼,预测全程64场⽐赛,准确率为67%,进⼊淘汰赛后准确率为94%。现在互联⽹公司取代章鱼保罗试⽔赛事预测也意味着未来的体育赛事会被⼤数据预测所掌控。
“在百度对世界杯的预测中,我们⼀共考虑了团队实⼒、主场优势、最近表现、世界杯整体表现和公司的赔率等五个因素,这些数据的来源基本都是互联⽹,随后我们再利⽤⼀个由搜索专家设计的机器学习模型来对这些数据进⾏汇总和分析,进⽽做出预测结果。”---百度北京⼤数据实验室的负责⼈张桐
2、股票市场预测
去年英国华威商学院和美国波⼠顿⼤学物理系的研究发现,⽤户通过⾕歌搜索的⾦融关键词或许可以⾦融市场的⾛向,相应的投资战略收益⾼达326%。此前则有专家尝试通过Twitter博⽂情绪来预测股市波动。
理论上来讲股市预测更加适合美国。中国股票市场⽆法做到双向盈利,只有股票涨才能盈利,这会吸引⼀些游资利⽤信息不对称等情况⼈为改变股票市场规律,因此中国股市没有相对稳定的规律则很难被预测,且⼀些对结果产⽣决定性影响的变量数据根本⽆法被监控。
⽬前,美国已经有许多对冲基⾦采⽤⼤数据技术进⾏投资,并且收获甚丰。中国的中证⼴发百度百发100指数基⾦(下称百发100),上线四个多⽉以来已上涨68%。
和传统量化投资类似,⼤数据投资也是依靠模型,但模型⾥的数据变量⼏何倍地增加了,在原有的⾦融结构化数据基础上,增加了社交⾔论、地理信息、卫星监测等⾮结构化数据,并且将这些⾮结构化数据进⾏量化,从⽽让模型可以吸收。
由于⼤数据模型对成本要求极⾼,业内⼈⼠认为,⼤数据将成为共享平台化的服务,数据和技术相当于⾷材和锅,基⾦经理和分析师可以通过平台制作⾃⼰的策略。
3、市场物价预测
CPI表征已经发⽣的物价浮动情况,但统计局数据并不权威。但⼤数据则可能帮助⼈们了解未来物价⾛向,提前预知通货膨胀或经济危机。最典型的案例莫过于马云通过阿⾥
B2B⼤数据提前知晓亚洲⾦融危机,当然这是阿⾥数据团队的功劳。
4、⽤户⾏为预测
基于⽤户搜索⾏为、浏览⾏为、评论历史和个⼈资料等数据,互联⽹业务可以洞察消费者的整体需求,进⽽进⾏针对性的产品⽣产、改进和营销。《纸牌屋》选择演员和剧情、百度基于⽤户喜好进⾏精准⼴告营销、阿⾥根据天猫⽤户特征包下⽣产线定制产品、亚马逊预测⽤户点击⾏为提前发货均是受益于互联⽹⽤户⾏为预测。
购买前的⾏为信息,可以深度地反映出潜在客户的购买⼼理和购买意向:例如,客户 A 连续浏览了 5 款电视机,其中 4 款来⾃国内品牌 S,1 款来⾃国外品牌 T;4 款为 LED 技术,1 款为 LCD 技术;5 款的价格分别为 4599 元、5199 元、5499 元、5999 元、7999 元;这些⾏为某种程度上反映了客户 A 对品牌认可度及倾向性,如偏向国产品牌、中等价位的 LED 电视。⽽客户 B 连续浏览了 6 款电视机,其中 2 款是国外品牌 T,2 款是另⼀国外品牌 V,2 款是国产品牌 S;4 款为 LED 技术,2 款为 L
CD 技术;6 款的价格分别为 5999 元、7999 元、8300 元、9200 元、9999 元、11050 元;类似地,这些⾏为某种程度上反映了客户 B 对品牌认可度及倾向性,如偏向进⼝品牌、⾼价位的 LED 电视等。
5、⼈体健康预测
中医可以通过望闻问切⼿段发现⼀些⼈体内隐藏的慢性病,甚⾄看体质便可知晓⼀个⼈将来可能会出现什么症状。⼈体体征变化有⼀定规律,⽽慢性病发⽣前⼈体已经会有⼀些持续性异常。理论上来说,如果⼤数据掌握了这样的异常情况,便可以进⾏慢性病预测。
6、疾病疫情预测
基于⼈们的搜索情况、购物⾏为预测⼤⾯积疫情爆发的可能性,最经典的“流感预测”便属于此类。如果来⾃某个区域的“流感”、“板蓝根”搜索需求越来越多,⾃然可以推测该处有流感趋势。
Google成功预测冬季流感:
2009年,Google通过分析5000万条美国⼈最频繁检索的词汇,将之和美国疾病中⼼在2003年到2008年间季节性流感传播时期的数据进⾏⽐较,并建⽴⼀个特定的数学模型。最终google成功预测了2009冬季流感的传播甚⾄可以具体到特定的地区和州。
7、灾害灾难预测
⽓象预测是最典型的灾难灾害预测。地震、洪涝、⾼温、暴⾬这些⾃然灾害如果可以利⽤⼤数据能⼒进⾏更加提前的预测和告知便有助于减灾防灾救灾赈灾。与过往不同的是,过去的数据收集⽅式存在着死⾓、成本⾼等问题,物联⽹时代可以借助廉价的传感器摄像头和⽆线通信⽹络,进⾏实时的数据监控收集,再利⽤⼤数据预测分析,做到更精准的⾃然灾害预测。
大数据etl工具有哪些8、环境变迁预测
除了进⾏短时间微观的天⽓、灾害预测之外,还可以进⾏更加长期和宏观的环境和⽣态变迁预测。森林和农⽥⾯积缩⼩、野⽣动物植物濒危、海岸线上升,温室效应这些问题是地球⾯临的“慢性问题“。如果⼈类知道越多地球⽣态系统以及天⽓形态变化数据,就越容易模型化未来环境的变迁,进⽽阻⽌不好的转变发⽣。⽽⼤数据帮助⼈类收集、储存和挖掘更多的地球数据,同时还提供了预测的⼯具。
9、交通⾏为预测
基于⽤户和车辆的LBS定位数据,分析⼈车出⾏的个体和体特征,进⾏交通⾏为的预测。交通部门可预测不同时点不同道路的车流量进⾏智能的车辆调度,或应⽤潮汐车道;⽤户则可以根据预测结果选择拥堵⼏率更低的道路。
百度基于地图应⽤的LBS预测涵盖范围更⼴。春运期间预测⼈们的迁徙趋势指导⽕车线路和航线的设置,节假⽇预测景点的⼈流量指导⼈们的景区选择,平时还有百度热⼒图来告诉⽤户城市商圈、动物园等地点的⼈流情况,指导⽤户出⾏选择和商家的选点选址。
多尔⼽夫的团队利⽤机器学习算法来创造路上⾏⼈的模型。⽆⼈驾驶汽车⾏驶的每⼀英⾥路程的情况都会被记录下来,汽车电脑就会保持这些数据,并分析各种不同的对象在不同的环境中如何表现。有些司机的⾏为可能会被设置为固定变量(如“绿灯亮,汽车⾏”),但是汽车电脑不会死搬硬套这种逻辑,⽽是从实际的司机⾏为中进⾏学习。
这样⼀来,跟在⼀辆垃圾运输卡车后⾯⾏驶的汽车,如果卡车停⽌⾏进,那么汽车可能会选择变道绕过去,⽽不是也跟着停下来。⾕歌已建⽴了70万英⾥的⾏驶数据,这有助于⾕歌汽车根据⾃⼰的学习经验来调整⾃⼰的⾏为。
10、能源消耗预测
加州电⽹系统运营中⼼管理着加州超过80%的电⽹,向3500万⽤户每年输送2.89亿兆⽡电⼒,电⼒线长度超过25000英⾥。该中⼼采⽤了 Space-Time Insight的软件进⾏智能管理,综合分析来⾃包括天⽓、传感器、计量设备等各种数据源的海量数据,预测各地的能源需求变化,进⾏智能电能调度,平衡全⽹的电⼒供应和需求,并对潜在危机做出快速响应。中国智能电⽹业已在尝试类似⼤数据预测应⽤。
⼆、⼤数据分析种类
按照数据分析的实时性,分为实时数据分析和离线数据分析两种。
实时数据分析⼀般⽤于⾦融、移动和互联⽹B2C等产品,往往要求在数秒内返回上亿⾏数据的分析,从⽽达到不影响⽤户体验的⽬的。要满⾜这样的需求,可以采⽤精⼼设计的传统关系型数据库组成并⾏处理集,或者采⽤⼀些内存计算平台,或者采⽤HDD的架构,这些⽆疑都需要⽐较⾼的软硬件成本。⽬前⽐较新的海量数据实时分析⼯具有EMC 的Greenplum、SAP的HANA等。
对于⼤多数反馈时间要求不是那么严苛的应⽤,⽐如离线统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等,应采⽤离线分析的⽅式,通过数据采集⼯具将⽇志数据导⼊专⽤的分析平台。但⾯对海量数据,传统的ETL⼯具往往彻底失效,主要原因是数据格式转换的开销太⼤,在性能上⽆法满⾜海量数据的采集需求。互联⽹企业的海量数据采集⼯具,有Facebook开源的Scribe、Linke
dIn开源的Kafka、淘宝开源的 Timetunnel、Hadoop的Chukwa等,均可以满⾜每秒数百MB的⽇志数据采集和传输需求,并将这些数据上载到Hadoop中央系统上。
按照⼤数据的数据量,分为内存级别、BI级别、海量级别三种。
这⾥的内存级别指的是数据量不超过集的内存最⼤值。不要⼩看今天内存的容量,Facebook缓存在内存的Memcached中的数据⾼达 320TB,⽽⽬前的PC服务器,内存也可以超过百GB。因此可以采⽤⼀些内存数据库,将热点数据常驻内存之中,从⽽取得⾮常快速的分析能⼒,⾮常适合实时分析业务。图1是⼀种实际可⾏的MongoDB分析架构。
图1 ⽤于实时分析的MongoDB架构
MongoDB⼤集⽬前存在⼀些稳定性问题,会发⽣周期性的写堵塞和主从同步失效,但仍不失为⼀种潜⼒⼗⾜的可以⽤于⾼速数据分析的NoSQL。
此外,⽬前⼤多数服务⼚商都已经推出了带4GB以上SSD的解决⽅案,利⽤内存+SSD,也可以轻易达到内存分析的性能。随着SSD的发展,内存数据分析必然能得到更加⼴泛的
BI级别指的是那些对于内存来说太⼤的数据量,但⼀般可以将其放⼊传统的BI产品和专门设计的BI数据库之中进⾏分析。⽬前主流的BI产品都有⽀持TB级以上的数据分析⽅案。种类繁多。
海量级别指的是对于数据库和BI产品已经完全失效或者成本过⾼的数据量。海量数据级别的优秀企业级产品也有很多,但基于软硬件的成本原因,⽬前⼤多数互联⽹企业采⽤Hadoop的HDFS分布式⽂件系统来存储数据,并使⽤MapReduce进⾏分析。本⽂稍后将主要介绍Hadoop上基于 MapReduce的⼀个多维数据分析平台。
三、⼤数据分析⼀般过程
3.1 采集
⼤数据的采集是指利⽤多个数据库来接收发⾃客户端(Web、App或者传感器形式等)的数据,并且⽤户可以通过这些数据库来进⾏简单的查询和处理⼯作。⽐如,电商会使⽤传统的关系型数据库MySQL和Oracle等来存储每⼀笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常⽤于数据的采集。
在⼤数据的采集过程中,其主要特点和挑战是并发数⾼,因为同时有可能会有成千上万的⽤户来进⾏访问和操作,⽐如⽕车票售票⽹站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署⼤量数据库才能⽀撑。并且如何在这些数据库之间进⾏负载均衡和分⽚的确是需要深⼊的思考和设计。
3.2 导⼊/预处理
虽然采集端本⾝会有很多数据库,但是如果要对这些海量数据进⾏有效的分析,还是应该将这些来⾃前端的数据导⼊到⼀个集中的⼤型分布式数据库,或者分布式存储集,并且可以在导⼊基础上做⼀些简单的清洗和预处理⼯作。也有⼀些⽤户会在导⼊时使⽤来⾃Twitter的Storm来对数据进⾏流式计算,来满⾜部分业务的实时计算需求。
导⼊与预处理过程的特点和挑战主要是导⼊的数据量⼤,每秒钟的导⼊量经常会达到百兆,甚⾄千兆级别。
3.3 统计/分析
统计与分析主要利⽤分布式数据库,或者分布式计算集来对存储于其内的海量数据进⾏普通的分析和分类汇总等,以满⾜⼤多数常见的分析需求,在这⽅⾯,⼀些实时性需求会⽤到EMC的GreenPlum
、Oracle的Exadata,以及基于 MySQL的列式存储Infobright等,⽽⼀些批处理,或者基于半结构化数据的需求可以使⽤Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量⼤,其对系统资源,特别是I/O会有极⼤的占⽤。
3.4 挖掘
与前⾯统计和分析过程不同的是,数据挖掘⼀般没有什么预先设定好的主题,主要是在现有数据上⾯进⾏基于各种算法的计算,从⽽起到预测(Predict)的效果,从⽽实现⼀些⾼级别数据分析的需求。⽐较典型算法有⽤于聚类的Kmeans、⽤于统计学习的SVM和⽤于分类的NaiveBayes,主要使⽤的⼯具有Hadoop的Mahout等。该过程的特点和挑战主要是⽤于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很⼤,常⽤数据挖掘算法都以单线程为主。
四、⼤数据分析⼯具
4.1 Hadoop
Hadoop 是⼀个能够对⼤量数据进⾏分布式处理的软件框架。但是 Hadoop 是以⼀种可靠、⾼效、可伸缩的⽅式进⾏处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个⼯作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是⾼效的,因为它以并⾏的⽅式⼯作,通过并⾏处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本⽐较低,任何⼈都可以使⽤。
Hadoop是⼀个能够让⽤户轻松架构和使⽤的分布式计算平台。⽤户可以轻松地在Hadoop上开发和运⾏处理海量数据的应⽤程序。它主要有以下⼏个优点:
⒈⾼可靠性。Hadoop按位存储和处理数据的能⼒值得⼈们信赖。
⒉⾼扩展性。Hadoop是在可⽤的计算机集簇间分配数据并完成计算任务的,这些集簇可以⽅便地扩展到数以千计的节点中。
⒊⾼效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度⾮常快。
⒋⾼容错性。Hadoop能够⾃动保存数据的多个副本,并且能够⾃动将失败的任务重新分配。
Hadoop带有⽤ Java 语⾔编写的框架,因此运⾏在 Linux ⽣产平台上是⾮常理想的。Hadoop 上的应⽤程序也可以使⽤其他语⾔编写,⽐如 C++。
4.2 HPCC
HPCC,High Performance Computing and Communications(⾼性能计算与通信)的缩写。1993年,由美国科学、⼯程、技术联邦协调理事会向国会提交了“重⼤挑战项⽬:⾼性能计算与通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项⽬,其⽬的是通过加强研究与开发解决⼀批重要的科学与技术挑战问题。HPCC是美国实施信息⾼速公路⽽上实施的计划,该计划的实施将耗资百亿美元,其主要⽬标要达到:开发可扩展的计算系统及相关软件,以⽀持太位级⽹络传输性能,开发千兆⽐特⽹络技术,扩展研究和教育机构及⽹络连接能⼒。
该项⽬主要由五部分组成:
1、⾼性能计算机系统(HPCS),内容包括今后⼏代计算机系统的研究、系统设计⼯具、先进的典型系统及原有系统的评价等;
2、先进软件技术与算法(ASTA),内容有巨⼤挑战问题的软件⽀撑、新算法设计、软件分⽀与⼯具、计算计算及⾼性能计算研究中⼼等;
3、国家科研与教育⽹格(NREN),内容有中接站及10亿位级传输的研究与开发;
4、基本研究与⼈类资源(BRHR),内容有基础研究、培训、教育及课程教材,被设计通过奖励调查者-开始的,长期的调查在可升级的⾼性能计算中来增加创新意识流,通过提⾼教育和⾼性能的计算训练和通信来加⼤熟练的和训练有素的⼈员的联营,和来提供必需的基础架构来⽀持这些调查和研究活动;
5、信息基础结构技术和应⽤(IITA ),⽬的在于保证美国在先进信息技术开发⽅⾯的领先地位。
4.3 Storm
Storm是⾃由的开源软件,⼀个分布式的、容错的实时计算系统。Storm可以⾮常可靠的处理庞⼤的数据流,⽤于处理Hadoop的批量数据。 Storm很简单,⽀持许多种编程语⾔,使⽤起来⾮常有趣。Storm由Twitter开源⽽来,其它知名的应⽤企业包括Groupon、淘宝、⽀付宝、阿⾥巴巴、乐元素、Admaster等等。
Storm有许多应⽤领域:实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调⽤协议,⼀种通过⽹络从远程计算机程序上请求服务)、 ETL(Extraction-Transformation-Loading的缩写,即数据抽取、转换和加载)等等。Storm的处理速度惊⼈:经测试,每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错,很容易设置和操作。
4.4 Apache Drill
为了帮助企业⽤户寻更为有效、加快Hadoop数据查询的⽅法,近⽇发起了⼀项名为“Drill”的开源项⽬。Apache Drill 实现了 Google’s Dremel.
据Hadoop⼚商Technologies公司产品经理Tomer Shiran介绍,“Drill”已经作为Apache孵化器项⽬来运作,将⾯向全球软件⼯程师持续推⼴。
该项⽬将会创建出开源版本的⾕歌Dremel Hadoop⼯具(⾕歌使⽤该⼯具来为Hadoop数据分析⼯具的互联⽹应⽤提速)。⽽“Drill”将有助于Hadoop⽤户实现更快查询海量数据
“Drill”项⽬其实也是从⾕歌的Dremel项⽬中获得灵感:该项⽬帮助⾕歌实现海量数据集的分析处理,包括分析抓取Web⽂档、跟踪安装在Android Market上的应⽤程序数据、分析垃圾邮件、分析⾕歌分布式构建系统上的测试结果等等。
通过开发“Drill”Apache开源项⽬,组织机构将有望建⽴Drill所属的API接⼝和灵活强⼤的体系架构,从⽽帮助⽀持⼴泛的数据源、数据格式和查询语⾔。
4.5 RapidMiner
RapidMiner是世界领先的数据挖掘解决⽅案,在⼀个⾮常⼤的程度上有着先进技术。它数据挖掘任务涉及范围⼴泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。
功能和特点
免费提供数据挖掘技术和库
100%⽤Java代码(可运⾏在操作系统)
数据挖掘过程简单,强⼤和直观
内部XML保证了标准化的格式来表⽰交换数据挖掘过程
可以⽤简单脚本语⾔⾃动进⾏⼤规模进程
多层次的数据视图,确保有效和透明的数据
图形⽤户界⾯的互动原型
命令⾏(批处理模式)⾃动⼤规模应⽤
Java API(应⽤编程接⼝)
简单的插件和推⼴机制
强⼤的可视化引擎,许多尖端的⾼维数据的可视化建模
400多个数据挖掘运营商⽀持
耶鲁⼤学已成功地应⽤在许多不同的应⽤领域,包括⽂本挖掘,多媒体挖掘,功能设计,数据流挖掘,集成开发的⽅法和分布式数据挖掘。
4.6 Pentaho BI
Pentaho BI 平台不同于传统的BI 产品,它是⼀个以流程为中⼼的,⾯向解决⽅案(Solution)的框架。其⽬的在于将⼀系列企业级BI产品、开源软件、API等等组件集成起来,⽅便商务智能应⽤的开发。它的出现,使得⼀系列的⾯向商务智能的独⽴产品如Jfree、Quartz等等,能够集成在⼀起,构成⼀项项复杂的、完整的商务智能解决⽅案。
Pentaho BI 平台,Pentaho Open BI 套件的核⼼架构和基础,是以流程为中⼼的,因为其中枢控制器是⼀个⼯作流引擎。⼯作流引擎使⽤流程定义来定义在BI 平台上执⾏的商业智能流程。流程可以很容易的被定制,也可以添加新的流程。BI 平台包含组件和报表,⽤以分析这些流程的性能。⽬前,Pentaho的主要组成元素包括报表⽣成、分析、数据挖掘和⼯作流管理等等。这些组件通过 J2EE、W
ebService、SOAP、HTTP、Java、JavaScript、Portals等技术集成到Pentaho平台中来。 Pentaho的发⾏,主要以Pentaho SDK 的形式进⾏。
Pentaho SDK共包含五个部分:Pentaho平台、Pentaho⽰例数据库、可独⽴运⾏的Pentaho平台、Pentaho解决⽅案⽰例和⼀个预先配制好的 Pentaho⽹络服务器。其中Pentaho平台是Pentaho平台最主要的部分,囊括了Pentaho平台源代码的主体;Pentaho数据库为 Pentaho平台的正常运⾏提供的数据服务,包括配置信息、Solution相关的信息等等,对于Pentaho平台来说它不是必须的,通过配置是可以⽤其它数据库服务取代的;可独⽴运⾏的Pentaho平台是Pentaho平台的独⽴运⾏模式的⽰例,它演⽰了如何使Pentaho平台在没有应⽤服务器⽀持的情况下独⽴运⾏;
Pentaho解决⽅案⽰例是⼀个Eclipse⼯程,⽤来演⽰如何为Pentaho平台开发相关的商业智能解决⽅案。
Pentaho BI 平台构建于服务器,引擎和组件的基础之上。这些提供了系统的J2EE 服务器,安全,portal,⼯作流,规则引擎,图表,协作,内容管理,数据集成,分析和建模功能。这些组件的⼤部分是基于标准的,可使⽤其他产品替换之。
4.7 SAS Enterprise Miner
§ ⽀持整个数据挖掘过程的完备⼯具集
§ 易⽤的图形界⾯,适合不同类型的⽤户快速建模
§ 强⼤的模型管理和评估功能
§ 快速便捷的模型发布机制, 促进业务闭环形成
五、数据分析算法
⼤数据分析主要依靠机器学习和⼤规模计算。机器学习包括监督学习、⾮监督学习、强化学习等,⽽监督学习⼜包括分类学习、回归学习、排序学习、匹配学习等(见图1)。分类是最常见的机器学习应⽤问题,⽐如垃圾邮件过滤、⼈脸检测、⽤户画像、⽂本情感分析、⽹页归类等,本质上都是分类问题。分类学习也是机器学习领域,研究最彻底、使⽤最⼴泛的⼀个分⽀。
最近、Fernández-Delgado等⼈在JMLR(Journal of Machine Learning Research,机器学习顶级期刊)杂志发表了⼀篇有趣的论⽂。他们让179种不同的分类学习⽅法(分类学习算法)在UCI 121个数据集上进⾏了“⼤⽐武”(UCI是机器学习公⽤数据集,每个数据集的规模都不⼤)。结果发现Random Forest(随机森林)和SVM(⽀持向量机)名列第⼀、第⼆名,但两者差异不⼤。在84.3%的数据上、Random Forest压倒了其它90%的⽅法。也就是说,在⼤多数情况下,只⽤Random Forest 或 SVM事情就搞定了。
KNN
K最近邻算法。给定⼀些已经训练好的数据,输⼊⼀个新的测试数据点,计算包含于此测试数据点的最
近的点的分类情况,哪个分类的类型占多数,则此测试点的分类与此相同,所以在这⾥,有的时候可以复制不同的分类点不同的权重。近的点的权重⼤点,远的点⾃然就⼩点。
Naive Bayes
朴素贝叶斯算法。朴素贝叶斯算法是贝叶斯算法⾥⾯⼀种⽐较简单的分类算法,⽤到了⼀个⽐较重要的贝叶斯定理,⽤⼀句简单的话概括就是条件概率的相互转换推导。
朴素贝叶斯分类是⼀种⼗分简单的分类算法,叫它朴素贝叶斯分类是因为这种⽅法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最⼤,就认为此待分类项属于哪个类别。通俗来说,就好⽐这么个道理,你在街上看到⼀个⿊⼈,我问你你猜这哥们哪⾥来的,你⼗有⼋九猜⾮洲。为什么呢?因为⿊⼈中⾮洲⼈的⽐率最⾼,当然⼈家也可能是美洲⼈或亚洲⼈,但在没有其它可⽤信息下,我们会选择条件概率最⼤的类别,这就是朴素贝叶斯的思想基础。
SVM
⽀持向量机算法。⽀持向量机算法是⼀种对线性和⾮线性数据进⾏分类的⽅法,⾮线性数据进⾏分类的时候可以通过核函数转为线性的情况再处理。其中的⼀个关键的步骤是搜索最⼤边缘超平⾯。
Apriori
Apriori算法是关联规则挖掘算法,通过连接和剪枝运算挖掘出频繁项集,然后根据频繁项集得到关联规则,关联规则的导出需要满⾜最⼩置信度的要求。
PageRank
⽹页重要性/排名算法。PageRank算法最早产⽣于Google,核⼼思想是通过⽹页的⼊链数作为⼀个⽹页好快的判定标准,如果1个⽹页内部包含了多个指向外部的链接,则PR值将会被均分,PageRank算法也会遭到LinkSpan攻击。
RandomForest
随机森林算法。算法思想是决策树+boosting.决策树采⽤的是CART分类回归数,通过组合各个决策树的弱分类器,构成⼀个最终的强分类器,在构造决策树的时候采取随机数量的样本数和随机的部分属性进⾏⼦决策树的构建,避免了过分拟合的现象发⽣。
Artificial Neural Network
“神经⽹络”这个词实际是来⾃于⽣物学,⽽我们所指的神经⽹络正确的名称应该是“⼈⼯神经⽹络(ANNs)”。
⼈⼯神经⽹络也具有初步的⾃适应与⾃组织能⼒。在学习或训练过程中改变突触权重值,以适应周围环境的要求。同⼀⽹络因学习⽅式及内容不同可具有不同的功能。⼈⼯神经⽹络是⼀个具有学习能⼒的系统,可以发展知识,以致超过设计者原有的知识⽔平。通常,它的学习训练⽅式可分为两种,⼀种是有监督或称有导师的学习,这时利⽤给定的样本标准进⾏分类或模仿;另⼀种是⽆监督学习或称⽆为导师学习,这时,只规定学习⽅式或某些规则,则具体的学习内容随系统所处环境(即输⼊信号情况)⽽异,系统可以⾃动发现环境特征和规律性,具有更近似⼈脑的功能。
六、案例
6.1 啤酒与尿布
“啤酒与尿布”的故事产⽣于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理⼈员分析销售数据时发现了⼀个令⼈难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫⽆关系的商品会经常出现在同⼀个购物篮中,这种独特的销售现象引起了管理⼈员的注意,经过后续调查发现,这种现象出现在年轻的⽗亲⾝上。
在美国有婴⼉的家庭中,⼀般是母亲在家中照看婴⼉,年轻的⽗亲前去超市购买尿布。⽗亲在购买尿布的同时,往往会顺便为⾃⼰购买啤酒,这样就会出现啤酒与尿布这两件看上去不相⼲的商品经常会出现在同⼀个购物篮的现象。如果这个年轻的⽗亲在卖场只能买到两件商品之⼀,则他很有可能会放弃购物⽽到另⼀家商店,直到可以⼀次同时买到啤酒与尿布为⽌。沃尔玛发现了这⼀独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的⽗亲可以同时到这两件商品,并很快地完成购物;⽽沃尔玛超市也可以让这些客户⼀次购买两件商品、⽽不是⼀件,从⽽获得了很好的商品销售收⼊,这就是“啤酒与尿布” 故事的由来。
当然“啤酒与尿布”的故事必须具有技术⽅⾯的⽀持。1993年美国学者Agrawal提出通过分析购物篮中的商品集合,从⽽出商品之间关联关系的关联算法,并根据商品之间的关系,出客户的购买⾏为。艾格拉沃从数学及计算机算法⾓度提出了商品关联关系的计算⽅法——Aprior算法。沃尔玛从上个世纪 90 年代尝试将引⼊到 POS机数据分析中,并获得了成功,于是产⽣了“啤酒与尿布”的故事。
6.2 数据分析帮助⾟⾟那提动物园提⾼客户满意度
⾟⾟那提动植物园成⽴于1873年,是世界上著名的动植物园之⼀,以其物种保护和保存以及⾼成活率繁殖饲养计划享有极⾼声誉。它占地⾯积71英亩,园内有500种动物和3000多种植物,是国内游客⼈数最多的动植物园之⼀,曾荣获Zagat⼗佳动物园,并被《⽗母》(Parent)杂志评为最受⼉童喜欢的动物园,每年接待游客130多万⼈。
⾟⾟那提动植物园是⼀个⾮营利性组织,是俄亥州同时也是美国国内享受公共补贴最低的动植物园,除去政府补贴,2600万美元年度预算中,⾃筹资⾦部分达到三分之⼆以上。为此,需要不断地寻求增加收⼊。⽽要做到这⼀点,最好办法是为⼯作⼈员和游客提供更好的服务,提⾼游览率。从⽽实现动植物园与客户和纳税⼈的双赢。
借助于该⽅案强⼤的收集和处理能⼒、互联能⼒、分析能⼒以及随之带来的洞察⼒,在部署后,企业实现了以下各⽅⾯的受益:
- 帮助动植物园了解每个客户浏览、使⽤和消费模式,根据时间和地理分布情况采取相应的措施改善游客体验,同时实现营业最⼤化。
- 根据消费和游览⾏为对动植物园游客进⾏细分,针对每⼀类细分游客开展营销和促销活动,显著提⾼忠诚度和客户保有量。.
- 识别消费⽀出低的游客,针对他们发送具有战略性的直寄⼴告,同时通过具有创意性的营销和激励计划奖励忠诚客户。
- 360度全⽅位了解客户⾏为,优化营销决策,实施解决⽅案后头⼀年节省40,000多美元营销成本,同时强化了可测量的结果。
- 采⽤地理分析显⽰⼤量未实现预期结果的促销和折扣计划,重新部署资源⽀持产出率更⾼的业务活动,动植物园每年节省100,000多美元。
- 通过强化提⾼整体游览率,2011年⾄少新增50,000⼈次“游览”。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论