⼤数据平台应⽤17个知识点汇总
⼀、中的数据仓库和Mpp数据库如何选型?
在Hadoop平台中,⼀般⼤家都把hive当做数据仓库的⼀种选择,⽽Mpp数据库的典型代表就是impala,presto。Mpp架构的数据库主要⽤于即席查询场景,暨对数据查询效率有较⾼要求的场景,⽽对数据仓库的查询效率要求⽆法做⼤MPP那样,所以更多地适⽤与离线分析场景。
Hadoop已经是平台的实时标准,其中Hadoop⽣态中有数据仓库Hive,可以作为⼤数据平台的标准数据仓库,
对于⾯向应⽤的MPP数据库,可以选择MYCAT(mySql的分布式架构)或是impala(基于Hive和Hbase),包括对称式和⾮对称式两种分布式模式
⼆、中的实时推荐是如何实现的?
实时推荐需要使⽤实时处理框架结合推荐算法,从⽽做到对数据的实时处理和推荐。实时处理框架有Storm、Flink、SparkStreaming,组件可以对接Kafka,获取实时流数据,在实时框架内部实现对数据的处理过程。
1、实时推荐需要借助实时计算框架例如Spark或是Strom技术,
2、数据采集采⽤Flume+Kafka作为数据缓存和分发作⽤
3、同时还需要有⾮常适合的实时推荐算法,例如基于⽤户画像的实时推荐,或是基于⽤户⾏为的实施推荐、或是对商品相识度的实施推荐等不同的算法
三、数据治理有何⾼效的处理⽅法或⼯具?
数据治理没有具体的⼯具和⽅法,这是⼀项浩⼤的⼯程,可能牵扯到每个部门,既有技术⼈员参与,⼜要有业务⼈员参与,关键时刻还要有领导进⾏决策。每个公司的数据情况不同,处理⽅法也不尽相同,基本的⽅法是有的,暨通过对数据的梳理(元数据、主数据),发现数据质量问题,再通过质量标准或组织协调的⽅式,对数据进⾏标准化处理的。
数据治理是⼀项⼈⼒和⾟苦活,没有捷径和什么有效的⼯具,⽽且在⼀个⼤数据项⽬中,数据治理是⾮常重要的⼀个环节,因为只有数据质量满⾜前端应⽤需求,才有可能挖掘和分析出准确的结果。
具体数据处理⽅法还需要看实际业务情况,例如数据库、数据类型、数据规模等
数据治理的过程是⼀个对业务系统数据梳理的过程,过程中发现的问题会反馈给业务部门,同时还要制定统⼀的质量和稽核标准,就好⽐给每个业务系统数据⽣成线上增加⼀个质量监管员。
对⼤数据以及概念都是模糊不清的,该按照什么线路去学习,学完往哪⽅⾯发展,想深⼊了解,想学习的同学欢迎加⼊⼤数据学习qq:458345782,有⼤量⼲货(零基础以及进阶的经典实战)分享给⼤家,并且有清华⼤学毕业的资深⼤数据讲师给⼤家免费授课,给⼤家分享⽬前国内最完整的⼤数据⾼端实战实⽤学习流程体系 。
四、⼤中针对⽇志分析的框架如何选型?
elk 常⽤组件, 上层业务封装还需要求其他组件完成
⽇志分析 elk + redis + mysql 热点数据 , 热点分析
等等, 看你的业务是什么模式和 开发⼈员偏好
现在免费且主流的均已采⽤Elastic公司的ELK框架,均为轻量级组件,且简单易⽤,从采集到界⾯展⽰⼏乎⽤不了多少时间即可搭建完毕,Kibana界⾯效果优异,包含地图、报表、检索、报警、监控等众多功能。
五、请问在⼤数据平台搭建过后,⼤数据平台的运维监控主要关注哪些?
⼤数据平台的运维监控主要包括硬件和软件层⾯,具体如下:
1、主机、⽹络、硬盘、内存、CPU等资源。
在拥有⼏⼗台以上的集环境中,⼤量的数据计算对硬件尤其是硬盘的损耗是较⼤的,在⼤量计算中,⽹络也往往会成为⼀个瓶颈,这些都需要时刻关注。
2、平台层⾯
主要监控平台各个组件的状态、负载情况,有异常及时报警。
3、⽤户层⾯
⼤数据平台建设是为了服务公司内部⼴⼤⽤户的,所以资源既是共享的,⼜需要是隔离的,所以需要对⽤户对平台资源的使⽤情况做好监控,及时发现异常使⽤情况,防⽌对其他⽤户产⽣不良影响,影响正常业务开展。
⼤数据平台搭建后,运维监控的主要内容包括
1、分布式架构的底层虚拟机的运⾏情况(CPU、内存、⽹络、硬盘等)
2、各个组件(HDFS 、MR、 SPark 、Hive 、Hbase、 IMpla、FLume、 Spooq等)的运⾏状态和告警信息
六、数据量⼤,数据类型繁杂的情况下,如何做性能保障?
如何保障⼤数据平台的处理性能,关键还是看应⽤场景和业务需求,不是每种业务都需要⾼性能。
1、在类OLTP场景下,⼤数据平台有像HBase⼀样的组件,保证数据读写具有极⾼的性能和吞吐量。
2、在OLAP场景下,⼤数据平台有像Impala、Kudu、Kylin、Druid这样引擎,通过内存或预计算的⽅式保证查询性能。
3、在离线分析场景,有像Hive、Spark、Mapreduce这样的引擎,分布式处理海量数据,在这种场景下,性能和响应时间已⽆法做到保证。
1、⼤数据的底层全部都是分布式架构,分布式架构具有很强的横向扩展能⼒,⽽且是使⽤廉价的PC服务器即可组件分布式架构,只有增加服务器数据,性能也可以横向扩展,
2、另外⼤数据平台在数据处理⽅⾯也均是采⽤分布式处理技术(例如 MR、 Hive、 Hbase 、 HDFS)
3、另外还有⼀些是基于内存的数据计算和处理架构Spark技术,⼤数据平台下对性能的要求没有和传统的交互式的响应不太⼀样,⼤数据分为实时和离线计算,实时计算要求响应时间,离线计算对于响应时间没有太⾼的要求。
七、数据预处理问题?
钢铁⾏业的数据⽐较复杂,对于对⽣产⼯艺不是特别了解的IT⼈员如何进⾏数据处理,或是应该由谁来进⾏数据处理?
数据预处理的过程包括数据的清洗、集成、整合、标准化等过程。
1、数据预处理的过程是由承建⼤数据项⽬的供应商来处理,或是专门做数据治理的公司来负责这项⼯作。
2、⼤数据项⽬中,数据的预处理会花费⼤量的时间,⽽且是⼿⼯⼯作量较多,如果对业务部太数据,势必会有很多问题,最好是由对业务相对了解的⼈员来参与数据的预处理的⼯作。
只有⾼质量的数据才会有分析的价值,所以预处理过程显得尤为重要。数据是业务的数字化形式,对于⽐较复杂的⾏业数据,技术⼈员是不会知道怎么处理才能满⾜业务分析的需求的,必须要业务分析⼈员提出具体的数据处理需求,技术⼈员才能设计满⾜相应需求。
⼋、从传统数仓向⼤数据平台迁移的规划?
传统数仓很多⽤oracle做的,现在想转⼊⼤数据平台,有什么好的迁移规划⽅案,以及迁移可能遇到的问题,谢谢!
1、数据仓库⽆论是⽤oracle,还是其他数据库,此类型的数据转⼊⼤数据平台都有个ETL的过程,将数据统⼀存放在HDFS分布式⽂件系统中,上层则借助于Hive构建数据仓库,⽤于离线数据跑批计算,Hbase,⽤于⽀持数据⾼并发在线查询和⾮结构化数据的对象存储来满⾜前段的应⽤分析需求
2、可以利⽤数据仓库中原有的数据共享交换平台,实时将数据推送到共享平台,例如Sqoop数据导⼊结构化数据,利⽤Flume和Kafka对⾮结构化类数据进⾏采集并将之转为结构化数据落地HDFS进⾏存储
九、传统数仓转向⼤数据平台的必要性?
如题,或者什么场景的的传统数仓适合转向⼤数据平台。转向⼤数据平台后都解决了什么样的问题,暴露出什么样的问题?
⼤数据平台采⽤分布式架构,⽤于解决海量数据的存储和分析问题,传统数仓⽆法解决上百TB及PB级的分析问题。⼤数据平台由于架构新,使⽤模式也不尽相同,有的使⽤,有的使⽤spark编程,有的使⽤mapreduce编程,所以存在⼀定的学习成本;⼤数据平台还在逐步完善中,尤其是⽤户管理、安全、元数据管理等⽅⾯还存在⼀定问题,使⽤时需要注意。
⼗、⼤数据底层保持数据强⼀致性是如何实现的?
⼤数据底层的数据强⼀致性是通过HDFS的分布式架构中的冗余副本策略和⼼跳检测机制实现的。
1、冗余副本策略:HDFS处理节点失效的⼀个⽅法就是数据冗余,即对数据做多个备份,在HDFS中可以通过配置⽂件设置备份的数量,默认是3副本,只有数据在3个副本上均完成写成功,才返回。
2、⼼跳机制:检测节点失效使⽤“⼼跳机制”。每个 Datanode 节点周期性地向 Namenode 发送⼼跳信号。 Namenode 通过⼼跳信号的缺失来检测这⼀情况,并将这些近期不再发送⼼跳信号 Datanode 标记为宕机,不会再将新的 IO 请求发给它们。
N: 3 (数据备份的数⽬)
W: 1 (数据写⼊⼏个节点返回成功),默认是1
R: 1 (读取数据的时候需要读取的节点数)
W + R < N
Hadoop没有办法保证所有数据的强⼀致性,但是通过副本机制保证⼀定程度的⼀致性,如果某⼀个datanode宕机,将会在其他datanode 上重建⼀个副本,从⽽达到副本⼀致性的⽬的,且在写⼊的时候可以采⽤⼀次写⼊多个副本的⽅式保证即使某个副本对应机器挂掉,也不影响整个数据。
⼗⼀、⼤数据平台加⼊到灾备怎么做?有成熟的思路或者⽅案吗?
1、灾备解决的是业务连续性的问题,⼤数据平台本⾝提供多副本机制是保障业务的稳定和可靠运⾏的
2、⽬前⼤数据平台基本是都是部署在虚拟机或是容器之上,很少有直接部署在物理服务器+存储架构之上
3、这样虚拟化和容器本⾝就带来很强的业务连续性的功能,例如虚拟机的热迁移、HA、DRS等功能大数据etl工具有哪些
⼗⼆、⼤数据底层平台对硬件的要求有哪些?
1、在企业内部,最好保证集中所有机器的配置保持⼀直,否则容易出现⼀台机器运⾏较慢,从⽽拖慢整体任务运⾏速度的情况。
2、⼤数据平台对⽹络要求较⾼,在⼏⼗台机器的集下,如果采⽤千兆⽹络,极其容易出现某⼀个⼤任务把带宽占满的情况。
3、平台对CPU、硬盘的需求相对⽹络要低点,但也不能太低,否则IO上不来,任务也会被拖慢。
4、平台对内存的要求⾼,尤其在⼀个平台内搭建Impala、Spark、MR、Hive、HBase等组件共享资源的情况下,更应该配备⾼内存。
⽀持楼上,X86分布式部署即可。尤其注意系统IO性能,可配置SSD。
⼤吞吐量、⼤容量,⾼带宽。
1、Hadoop现在已经是⼤数据的事实标准,⽽ Hadoop的出现就是运⾏在廉价商⽤服务器上,以集之⼒,分⽽治之地解决先前传统数据库、传统存储、传统计算模型束⼿⽆策的问题,让⼤规模数据的处理成为了可能。
2、对于硬件没有太⾼的要求,普通的PC服务器即可,但是为了⾼更的性能,服务器内可以增加SSD固态硬盘或是内容等资源。
⼗三、⼤数据⼈才培养?
向⼤数据平台转型成功的关键,⼈才占了很⼤的⽐例,如何有效平滑的推动⼈才队伍的建设?
⼤数据涉及数据采集、数据的清洗集成、治理、⼤数据平台的安装调试和运维、⼤数据的开发、⼤数据的算法⼯程师、⼤数据的挖掘⼯程师等。
⼤数据⼈才需求是⼀种⾦字塔架构,最底层需求量最⼤的是数据采集、清洗和治理的⼈员(基本上以⼈⼯为主),在上层就是数据平台的安装调试(必须有linux基础),往上就是⼤数据的开放、算法和挖掘⼯程师了。
如果是⽤户单位,需要提前培养⼤数据的意识,要认识到⼤数据的重要性和可⾏性,培养可以为项⽬后期提供运维的⼈员为主。
⼗四、⽤户画像⽤到了哪些⼤数据技术和⼯具,做的时候应该注意什么?
所谓⽤户画像就是⽤多维度的数据来描述⼀个⽤户的整体特征,涉及到特征⼯程的提取,打标签的过程。
例如⽤户的属性、偏好、⽣活习惯、⾏为、运动、作息等信息,抽象出来的标签化⽤户模型。通俗来讲就是给⽤户打标签,⽽标签是通过对⽤户信息分析⽽来的⾼度精炼的特征标识。
涉及到数据采集、数据建模、挖掘分析等,需要注意⼀下⼏点:
1、在画像创建之前需要知道⽤户关⼼的的特征维度和⽤户的⾏为等因素,从⽽从总体上掌握对⽤户需求需求。
2、创建⽤户画像不是抽离出典型进⾏单独标签化的过程,⽽是要融合边缘环境的相关信息来进⾏讨论。
3、⽤户画像有时候需要变化、分为短期内的画像、或是长期的画像等。
⼗五、⼀般⼀个⼤数据项⽬实施过程中应该注意什么?
这个过程与⼀般的项⽬没有本质区别,基本的需求、分析、设计、开发、测试都是要有的。不同的地⽅是⼤数据项⽬采⽤的技术不像传统的基于数据库的SQL开发那么简单,对编程能⼒的要求较⾼,同时对遇到问题的排查能⼒要求也较⾼,因为是分布式运⾏,导致问题排查变得⾮常复杂。
1、⼤数据项⽬实施过程中涉及到和客户的众多业务系统进⾏对接的,也就是数据的采集,到数据的清洗、集成、标准、数据治理、数据的建模、挖掘分析和最后的可视化等过程。
2、在和业务系统对接的过程中需要注意的必须拿到业务系统的数据字典(如果没有,拿到数据对数据的识别和分析⾮常困难)。
3、数据业务分析维度,需要项⽬经理进场需要客户明确的需求后确定系统的范围和边界(否则需求和范围不停的变,开发周期遥遥⽆期)。
4、准备好⼤数据平台要求的底层环境和资源(CPU、内存、硬盘、⽹络等),⼤数据项⽬对于这些资源的要求还是相对⽐较⾼的,例如硬盘容量,例如要分析⽇志类的数据或是流⽔数据。
⼗六、企业级⼤数据平台如何选型?
现在,⼤数据平台基本特指Hadoop平台了,选型主要还是指Haoop管理平台。现在主流的⼚商有cloudera和Hortonworks,国内有华为的fusion insight和星环科技的产品。相对来说,cloudera具有较⼤优势,市场占有率也较⾼,管理平台⾮常实⽤,对与平台管理⼈员来说是不可多得的好帮⼿
Hadoop现在已经是⼤数据的事实标准了,企业级⼤数据平台建议选择基于Hadoop开源的⽣态,⽬前对于Hadoop开源商业推⼴最⼤的两个场景及cloudera(CDH版本,适合于linux系统上运⾏)和Hortonworks(HDP版本,⽀持运⾏在windows系统上运⾏),⽬前是⼀家公司了,可以选择其中⼀家产品即可
⼗七、⼤数据中的实时计算SPark和Storm优缺点是什么?分别适合于哪些场景?
SparkStreaming和Strom都属于实时计算框架,有点都是可以做到对数据的实时处理。SparkStreaming是基于Spark Core实现的,所以对数据的处理要形成RDD,暨要形成数据窗⼝,所以其处理过程可以称之为微批处理,⽽storm是可以做到实时处理每⼀条数据的,所以相对来说,实时性⽐sparkstreaming更⾼。所以storm更适合处理实时性要求极⾼的场景。
SPark体系中的 Spark Streaming严格意义上属于批处理计算框架,准实时,基于内存的计算框架,性能可以达到秒级,⼤数据除了实时计算之外,还包括了离线批处理、交互式查询等业务功能,⽽且实时计算中,可能还会牵扯到⾼延迟批处理、交互式查询等功能,就应该⾸选Spark⽣态,⽤Spark Core
开发离线批处理,⽤Spark SQL开发交互式查询,⽤Spark Streaming开发实时计算,三者可以⽆缝整合,给系统提供⾮常⾼的可扩展性。
Storm是纯实时计算框架,来⼀条数据,处理⼀条数据,可以达到毫秒级,适合于要求可靠的事务机制和可靠性机制,即数据的处理完全精准,⼀条也不能多,⼀条也不能少,也可以考虑使⽤Storm。
形象点⽐喻,SPark就好⽐商城的直梯,Storm就好⽐商场的扶梯。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。