⼤数据的技术和应⽤场景有哪些?
开发/⼤数据/技术
⼀、什么是⼤数据
说起⼤数据,估计⼤家都觉得只听过概念,但是具体是什么东西,怎么定义,没有⼀个标准的东西,因为在我们的印象中好像很多公司都叫⼤数据公司,业务形态则有⼏百种,感觉不是很好理解,所以我建议还是从字⾯上来理解⼤数据,在维克托迈尔-舍恩伯格及肯尼斯库克耶编写的《⼤数据时代》提到了⼤数据的4个特征:
1.⼀个是数量⼤
2.⼀个是价值⼤
3.⼀个是速度快
4.⼀个是多样性
第⼀个是数量⽐较⼤,只有数据体量达到了PB级别以上,才能被称为⼤数据。1PB等于1024TB,1TB等于1024G,那么1PB等于1024*1024个G的数据。
第⼆个是价值⼤,你如果有1PB以上的全国所有20-35年轻⼈的上⽹数据的时候,那么它⾃然就有了商业价值,⽐如通过分析这些数据,我们就知道这些⼈的爱好,进⽽指导产品的发展⽅向等等。如果有了全国⼏百万病⼈的数据,根据这些数据进⾏分析就能预测疾病的发⽣,这些都是⼤数据的价值。
第三个就是多样性,如果只有单⼀的数据,那么这些数据就没有了价值,⽐如只有单⼀的个⼈数据,或者单⼀的⽤户提交数据,这些数据还不能称为⼤数据,所以说⼤数据还需要是多样性的,⽐如当前的上⽹⽤户中,年龄,学历,爱好,性格等等每个⼈的特征都不⼀样,这个也就是⼤数据的多样性,当然了如果扩展到全国,那么数据的多样性会更强,每个地区,每个时间段,都会存在各种各样的数据多样性。
第四个是速度快,就是通过算法对数据的逻辑处理速度⾮常快,1秒定律,可从各种类型的数据中快速获得⾼价值的信息,这⼀点也是和传统的数据挖掘技术有着本质的不同。
⼆、⼤数据的⾏业应⽤
⼤数据⽆处不在,⼤数据应⽤于各个⾏业,包括⾦融、汽车、餐饮、电信、能源、体能和娱乐等在内的社会各⾏各业都已经融⼊了⼤数据的印迹。
制造业,利⽤⼯业⼤数据提升制造业⽔平,包括产品故障诊断与预测、分析⼯艺流程、改进⽣产⼯艺,优化⽣产过程能耗、⼯业供应链分析与优化、⽣产计划与排程。
⾦融⾏业,⼤数据在⾼频交易、社交情绪分析和信贷风险分析三⼤⾦融创新领域发挥重⼤作⽤。
汽车⾏业,利⽤⼤数据和物联⽹技术的⽆⼈驾驶汽车,在不远的未来将⾛⼊我们的⽇常⽣活。
互联⽹⾏业,借助于⼤数据技术,可以分析客户⾏为,进⾏商品推荐和针对性⼴告投放。
电信⾏业,利⽤⼤数据技术实现客户离⽹分析,及时掌握客户离⽹倾向,出台客户挽留措施。
能源⾏业,随着智能电⽹的发展,电⼒公司可以掌握海量的⽤户⽤电信息,利⽤⼤数据技术分析⽤户⽤电模式,可以改进电⽹运⾏,合理设计电⼒需求响应系统,确保电⽹运⾏安全。
物流⾏业,利⽤⼤数据优化物流⽹络,提⾼物流效率,降低物流成本。
城市管理,可以利⽤⼤数据实现智能交通、环保监测、城市规划和智能安防。
⽣物医学,⼤数据可以帮助我们实现流⾏病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的⽣
⽣物医学,⼤数据可以帮助我们实现流⾏病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的⽣命奥秘。
体育娱乐,⼤数据可以帮助我们训练球队,决定投拍哪种题财的影视作品,以及预测⽐赛结果。
安全领域,政府可以利⽤⼤数据技术构建起强⼤的国家安全保障体系,企业可以利⽤⼤数据抵御⽹络攻击,警察可以借助⼤数据来预防犯罪。
mongodb和mysql结合个⼈⽣活,⼤数据还可以应⽤于个⼈⽣活,利⽤与每个⼈相关联的“个⼈⼤数据”,分析个⼈⽣活⾏为习惯,为其提供更加周到的个性化服务。
⼤数据的价值,远远不⽌于此,⼤数据对各⾏各业的渗透,⼤⼤推动了社会⽣产和⽣活,未来必将产⽣重⼤⽽深远的影响。
三、⼤数据使⽤的技术
说起⼤数据,⼤数据有三个层数据采集、存储、计算三层。
第⼀个是数据采集层,以App、saas为代表的服务。
⼤数据基础阶段需掌握的技术有:Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis以及hadoopmapreduce hdfs yarn等。
第⼆个数据存储层,⽐如云存储,需掌握的技术有:hbase、hive、sqoop等。
⽐如:Hadoop作为⼀个开源的框架,专为离线和⼤规模数据分析⽽设计,HDFS作为其核⼼的存储引擎,已被⼴泛⽤于数据存储。HBase,是⼀个分布式的、⾯向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。
HBase是⼀种Key/Value系统,部署在hdfs上,克服了hdfs在随机读写这个⽅⾯的缺点,与hadoop⼀样,Hbase⽬标主要依靠横向扩展,通过不断增加廉价的商⽤服务器,来增加计算和存储能⼒。
第三个是数据计算应⽤层,以数据为基础,为将来的移动社交、交通、教育,⾦融进⾏服务,涉及到⼤数据架构设计阶段需掌握的技术有:Flume分布式、Zookeeper、Kafka等,以及⼤数据实时计算阶段需掌握的技术有:Mahout、Spark、storm。
四、⼤数据的岗位
1、数据分析师(Data analyst)
指熟悉相关业务,熟练搭建数据分析框架,掌握和使⽤相关的分析常⽤⼯具和基本的分析⽅法,进⾏数据搜集、整理、分析,针对数据分析结论给管理销售运营提供指导意义的分析意见。
2、数据架构师(Data architect)
对Hadoop解决⽅案的整个⽣命周期进⾏引导,包括需求分析,平台选择,技术架构设计,应⽤设计和开发,测试和部署。深⼊掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算,并能够使⽤Hadoop提供的通⽤算法,熟练掌握Hadoop整个⽣态系统的组件如: Yarn,HBase、Hive、Pig等重要组件,能够实现对平台监控、辅助运维系统的开发。
3、⼤数据⼯程师(Big Data Engineer)
收集和处理⼤规模的原始数据(包括脚本编写,⽹页获取,调⽤APIs,编写SQL查询等);将⾮结构化数据处理成适合分析的⼀种形式,然后进⾏分析;根据所需要的和专案分析商业决策。
4、数据仓库管理员(Data warehouse manager)
指定并实施信息管理策略;协调和管理的信息管理解决⽅案;多个项⽬的范围,计划和优先顺序安排;管理仓库的各个⽅⾯,⽐如数据外包,移动,质量,设计和实施。
5、数据库管理员(Database manager)
提⾼数据库⼯具和服务的有效性;确保所有的数据符合法律规定;确保信息得到保护和备份;做定期报告;监控数据库性能;改善使⽤的技术;建⽴新的数据库;检测数据录⼊程序;故障排除。
6、商业智能分析员(Business intelligence analyst)
就⼯具,报告或者元数据增强来进⾏传播信息;进⾏或协调测试,以确保情报的定义与需求相⼀致;使⽤商业智能⼯具来识别或监测现有和潜在的客户;综合⽬前的商业只能和趋势数据,来⽀持采取⾏动的建议;维护或更新的商业智能⼯具,数据库,仪表板,系统或⽅法;及时的管理⽤户流量的商业情报。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论