首页 IT编程正文内容

大数据开发工程师求职简历模板_002

IT编程

2025-03-06 23:27:25

数据进行日志系统电商分析公司实现

大数据开发工程师-赵毅

个人资料

性别：X

手机：XXXXX

工作年限：3年

姓名:XX

学位:本科

邮箱:XXXXXX

求职意向

工作性质:全职目标地点:北京

期望职位:大数据开发工程帅

专业技能

1.熟练使用MapReduce处理复杂业务，熟悉HDFS的读写流程、MapRcduce的运行流程以及Shuffle机制、

Yarn的工作机制、Hadoop的优化手段以及Hadoop框架搭建过程。

2.熟悉Zookeeper的选举机制和监听机制。

3.熟悉HiVe的架构和调优策略，熟练使用Hive的开窗等函数处理业务问题。

4.熟练使用FIUnIC完成数据的采集、过滤、分流等功能，熟悉双层FlUme的使用。

5.熟悉Kafka的工作流程、能够搭建Kafka集，使用Kafka和Spark进行数据的流式处理。

6.熟悉HBasc框架，会使用HBaSe的基本操作以及HBase调优。

7.熟练掌握SPark任务调度和资源调度过程，会使用SPark常用的RDD算子处理数据，能够独立完成SPark 集的搭建，熟悉SPark的优化策略。

8.熟练使用DataSet和DataFrame算子和UDAF函数处理数据，熟练使用DStream算子完成流式实时数据的批

次处理。

9.了解 EIaStiCSearCho

10.会使用Azkaban和Oozie批量工作流任务调度器。

11.会使用SqOoP工具，实现关系型数据库和非关系型数据库表数据的交互。

12.熟练使用Java和Scala编程，了解Python编程。

13.了解MongoDB、RCdiS等非关系型数据库。

14.熟练掌握常用的LinUX命令，使用ShelI常用工具编写LinUX脚本。

工作经历

公司名称：工作时间：职位名称：项目经验	XXXXX教育科技有限公司 2015.07-至今大数据开发工程师

项目名称：开发环境：技术框架：项目描述：	东奥电商业务分析系统(2017.01—2019-02) IDEA + jdkl.8 + MySQL+ Maven + SVN SpringBoot-. Nginx、Flume- Hadoop∙. Hive、Spark、Sqoop∙, Azkaban 通过对PC端和手机APP端用户产生的各类型日志经过一系列处理，形成各种报表，并且将网站的品牌前十、每月畅销图书、每季热门名师、地区点击量排名等统计出来，提供给公司的各大领导以及运营部门，提供参考，以便调整公司的发展方向。
责任描述：	1.参与前期项目分析、设计系统整体架构。 2.编写shell脚本定期将flume-hdfs中的日志进行清洗并导入到hdfs中。

	3.通过数据分层ODS、DWD. DWS. ADS,对东奥商城中活跃用户主题(日活、周活、月活)进行编码以及每月畅销图书、课程、热门名师，商品复购率等，以及特定需求的分析报表。 4. hive数据仓库设计和维护，数据主题的抽取，数据维度分析。 5.参与SPark的一些优化，如常规性能调优、ShUffIe调优、数据倾斜。 6.编写系统的需求分析、设计、开发和部署文档。
技术要点：	1.整体架构使用了双层FIUme的拓扑结构，以实现容灾及负载均衡，保证数据的安全性。 2.将行式存储转为列式存储，因为列式存储查询效率高，并采用ParqUet为存储方式，为了减少磁盘10、节约带宽；采用压缩格式为SnaPPy。 3.分析表的同步策略类型：例如用户表、商品表等实体表采用全量；订单明细、支付方式等采用增量；订单表采用新增及变化，并使用SqOoP导入数据到HDFS中。 4.把每个用户单bl的操作聚合起来组成一张多列宽表，以便之后关联用户维度信息后进行不同角度的统计分析。 5.制作订单表拉链表，将新增变动与拉链表，先进行合并变动信息，再追加新增信息插入到临时表中，然后覆盖拉链表，整理为每日脚本，查看任意一天的订单记录。 6.使用SPark企业网站模板中文共享变量机制，实现自定义累加器，并通过广播变量机制提升SPark任务的运行性能。 7.使用SParkSQL、自定义二次排序、UDF函数、UDAF函数实现对课程、书籍以及教师ToPN 的统计。 8.本项目中SPark集采用了 SortShUffie,通过产生一个RedUCerid排序可索引文件，大大提高了文件内指定reduce数据的读速度。 9.项目中的SPark集采取了统一内存管理机制，一定程度上提高了堆内和堆外内存资源的利用率。 10.为了避免在Spark的shuffle过程中出现数据倾斜问题，我们提高了 shuffle操作中的 reduce并行度。 11.项目中HiVe中，在map执行前合并小文件，并合理设置MaP数和RedUCe数，以防止导致数据倾斜。 12.在查询的时候对于“ SELEcT * FROM** ”这种情况下,可以不用使用MaPRedUCe计算，所以我们使用Fetch抓取来直接读取存储目录下的文件。
项目名称：开发环境：技术框架：项目描述：	东奥电商实时分析系统(2018.08—2019-01) IDEA + JDK +Tomcat+Maven+Git Nginx、 SpingBoot> Kafka、 Redis、 Spark、 ElasticSearch, Canal、 EChart 公司某一段时间会规划一个招生方案，为了了解每次每个招生方案的带来的价值，通过采集日志分析当日活跃用户及分时趋势图以及通过Canal实时监控MySQL数据库获取当日交易额、当日订单数及分时趋势图等。通过这些数据图来分析改进招生方案。
责任描述：	1.使用JavaEE技术完成数据可视化。 2.参与项目分析以及数据埋点工作。 3.负责部分需求的开发。 4.负贲数据处理性能调优，时数据库整体架构提出建议。
技术要点：	L在日志服务器进行分流，将不同的的日志类型发送到不同的Kafka的topicβ 2.消费Kafka的数据转化为DStream,利用RediS进行记录、过灌、去重，把当日的活跃用户明细存入 Elasticsearcho 3.因为一些情况无法从日志中获取信息，而又无法利用Sqoop等ETL工具对数据实时的监控，所以我们使用canal对mysql中的数据实时监控。 4. SparkStreaming 消费 Kafka 数据并保存到 Elasticsearch 中。 5.从Elasticsearch中查询数据，并通过接口发布出来。 6.使用Elasticsearch的第三方中文分析器和自定义词库。

7.利用Kafka的低级APl从Kafka集中读取数据，并且在Spark Streaming系统里面维护偏移量offset相关的信息，并通过Direct方式实现零数据丢失。

8.在SPark过程中，设置了检查点(checkpoint)与数据持久化级别(MEMORY AND DISK),并

将各个EXeCUtor中常用数据设为广播变量，从而提高了 SPark集数据处理速度。

项目名称：东奥聘离线日志分析系统(2017.12—2018.07)

开发环境:

技术框架:

项目描述:

责任描述:

技术要点:

IDEA + jdk + mysql + Maven+Git

SpringBoot⅛ Nginx、Flume> Hadoop、Hive、SparkSqoop、Azkaban

东奥聘主要是为了提供会计机会的招聘网站。东奥聘利息日志分析系统是通过网站的各种用户的行为(访问行为、投递行为、注册登录行为等)进行统计分析，从而根据结果持续改进产品的设计，以及调整公司的战略和业务。最终达到用大数据来帮助提升公司的业绩、营业额以及市场占有率的目标。

1.负责项目的数据的埋点。

2.参与了数仓的建模。

3.根据公司数据量，确定数据同步策略。

4.对相关的部分需求的逻辑代码进行编写。

1.使用Git进行代码版本管理，使用markdown编写文档。

2.本项目中通过Nginx将日志数据负载均衡到多个Tomcat, Tomcat服务器通过log4j将日志数据写入日志文件中进行落盘，从而实现了业务系统与数据系统的解耦。

3.在ODS层选择ER实体模型为建模方式，进行粗粒度的数据存储；在DWD层进行数据的

清洗、脱敏、统一化等操作：在DWS层选择选择维度建模为建模方式，进行数据的轻度汇总。

4.本项目中FhIme (版本1.6)采用TaildirSOUrCe实现断点续传，监控一个目录下多个文件，但是文件重命名后被当做新文件重新采集，本项目通过对Taildir Source源码进行修改从而解决该问题。

5.用SCaIa编写ETL程序对数据进行清洗、将脏数据过灌、清洗完导入到HiVe分区表中。

6.在进行维度建模时，根据公司的业务情况和数据量的具体情况将数仓设计成星型模型，因为数据不符合第三范式，有一定的亢余，减少了 JOin操作，提高了数据的查询效率。

7.使用FLUIne自定义，将日志写入到相应的event、hander实现日志的分类处理。

8.本项目使用了 Sink组，根据内部负载算法选择Sink,实现了 Sink负载均衡和容灾。

9.使用Azkaban定时对任务进行有顺序的调度。

项目名称：东奥会计在线(2015.07—2016.12)

开发环境:

技术框架:

项目描述:

责任描述

技术要点:

IDEA+Tomcat+MYSQL+SVN+Maven

SPringMVC、Spring、MyBatis, Redis、Memcache% Dubbo> MongoDBEcharts、EasyUI

L 东奥电子商城分为前台后台两大系统，其中后台系统分为基库和电商后台,两个系统分别管理着电商的基本信息和主要业务信息，后续主要维护电商后台。

10前台电商主要面向用户购物，换课、服务保障开课、开发票等，前台首页中的商品列表分类，广告，推荐等都是用ajax动态获取，数据全部经过Hiemcached缓存，分解高并发带来的R 力。

11后台主要包括电商基础、商城管理、促销管理、卡卷管理、电商统计、分班管理、客服管理、积分系统、电商数据、物流中转、买送卡卷促销、个人中心等。

1.订单管理相关开发和维护，并基于原有的退换货进行改造增加退款资金原理返回的功能。

2.电商前台中订单详情和物流详情、图书赠卡激活的相关开发和维护。

3.完成核心/重要模块的关文档的编写。

L使用Easyui进行管理后台的编写。

4.分析查询慢、数据量大的表适当添加索引优化查询效率。

版权声明：本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198，我们将在24小时内删除。

公交站台公益广告宣传项目竞争性磋商文件【模板】

« 上一篇

施工企业安全教育培训计划及制度模版

下一篇 »

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

最新文章

标签列表