什么是⼤数据开发?看完我终于懂了......
⼀、⼤数据开发⼯作内容
从⼤数据开发的⼯作内容来看⼤数据开发主要负责⼤数据的⼤数据挖掘,数据清洗的发展,数据建模⼯作。
主要负责处理和⼤数据应⽤,结合⼤数据可视化分析⼯程师,挖掘出价值的数据,为企业提供业务发展⽀持。⼤数据开发⼯程师偏重建设和优化系统。
第⼀类是编写⼀些Hadoop、Spark的应⽤程序,第⼆类是对⼤数据处理系统本⾝进⾏开发。第⼆类⼯作的话通常⼤公司⾥才有,⼀般他们都会搞⾃⼰的系统或者再对开源的做些⼆次开发。
这种⼯作的话对理论和实践要求的都更深⼀些,也更有技术含量。随⼿截了⼀些招聘信息的图,关于⼤数据开发岗位具体的⼯作内容,现如今企业的要求基本如下:
⼤数据开发学习有⼀定难度,零基础⼊门⾸先要学习Java语⾔打基础,⼀般⽽⾔,Java学习SE、EE,需要⼀段时间;然后进⼊⼤数据技术体系的学习,主要学习Hadoop、Spark、Storm等。
除此之外,学习⼤数据开发需要学习的内容包括三⼤部分,分别是:
⼤数据基础知识、⼤数据平台知识、⼤数据场景应⽤。
⼤数据基础知识有三个主要部分:数学、统计学和计算机;
⼤数据平台知识:是⼤数据开发的基础,往往以搭建Hadoop、Spark平台为主;
⽬前,⼀个⼤数据⼯程师的⽉薪轻松过万,⼀个有⼏年⼯作经验的⼯程师薪酬在40万~160万元之间不等,⽽更顶尖的⼤数据技术⼈才则是年薪轻松超百万。
⼆、⼤数据⽅⾯技术
⼀是⼤数据平台本⾝,⼀般是基于某些Hadoop产品如CDH的产品部署后提供服务。部署的产品⾥⾯有很多的组件,如HIVE、HBASE、SPARK、ZOOKEEPER等。
⼆是ETL,即数据抽取过程,⼤数据平台中的原始数据⼀般是来源于公司内的其它业务系统,如银⾏⾥⾯的信贷、核⼼等,这些业务系统的数据每天会从业务系统抽取到⼤数据平台中,然后进⾏⼀系列的标准化、清理等操作,再然后经过⼀些建模⽣成⼀些模型给下游系统使⽤。
三是数据分析,在数据收集完成后基于这些数据要做⼀些什么样的处理,典型的如报表应⽤,那每天可能就是写SQL开发报表了;还有⼀些如风险监测等平台,都要基于⼤数据平台收集的数据来进⾏处理。
三、从事⼤数据,需掌握哪些技术
1、Java编程
Java语⾔是基础,可以编写Web应⽤、桌⾯应⽤、分布式系统、嵌⼊式系统应⽤等。Java语⾔有很多优点,它的跨平台能⼒赢得了很多⼯程师的喜爱。
2、Linux基础操作命令
⼤数据开发⼀般在Linux环境下进⾏。⼤数据⼯程师使⽤的命令主要在三⽅⾯:查看进程,包括CPU、内存;排查故障,定位问题;排除系统慢的原因等。
3、Hadoop
Hadoop中使⽤最多的是HDFS集和MapReduce框架。HDFS存储数据,并优化存取过程。
大数据etl工具有哪些MapReduce⽅便了⼯程师编写应⽤程序。
4、HBase
HBase可以随机、实时读写⼤数据,更适合于⾮结构化数据存储,核⼼是分布式的、⾯向列的Apache
HBase数据库。HBase作为Hadoop的数据看,它的应⽤、架构和⾼级⽤法对⼤数据开发来说⾮常重要。
5、Hive
Hive作为Hadoop的⼀个数据仓库⼯具,⽅便了数据汇总和统计分析。
6、ZooKeeper
ZooKeeper是Hadoop和Hbase的重要组件,可以协调为分布式应⽤程序。ZooKeeper的功能主要有:配置维护、域名服务、分布式同步、组件服务。
7、Phoenix
Phoenix是⼀种开源的sql引擎,是⽤Java语⾔编写的。
8、Avro与Protobuf
Avro、Protobuf是适合做数据存储的数据序列化系统,有较丰富的数据结构类型,可以在多种不同的语⾔间进⾏通信。
9、Cassandra
Apache Cassandra是运⾏在服务器或者云基础设施上的可以为数据提供完美平台的数据库,具有⾼性能、可扩展性、⾼线性。
Cassandra⽀持数据中⼼间互相复制,低延迟、不受断电影响。它的数据模型有列索引、⾼性能视图和内置缓存。10、Kafka
Kafka可以通过集来提供实时的消息的分布式发布订阅消息系统,具有很⾼的吞吐量,主要是利⽤Hadoop的并⾏加载来统⼀线上、离线的消息处理。
11、Spark
Spark是专为⼤规模数据处理⽽设计的快速通⽤的计算引擎,其提供了⼀个全⾯、统⼀的框架⽤于管理各种不同性质的数据集和数据源的⼤数据处理的需求,⼤数据开发需掌握Spark基础、SparkJob、Spark RDD、spark job部署与资源分配、Spark shuffle、Spark内存管理、Spark⼴播变量、Spark SQL、Spark Streaming以及Spark ML等相关知识。12、Flume
Flume是海量⽇志处理系统,具有⾼可⽤、⾼可靠、分布式的特点,可以对⽇志进⾏采集、聚合和传输。Flume可以定制数据发送⽅来收集数据,也可以对数据简单处理后写到数据接收⽅。
除了在这⾥讲到的所需要具备的⼤数据⾏业的技能,如果往后想要更加长远更加顺利的发展则还需要不断的去修炼⾃⾝的技术。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。