CDA LEVELⅢ数据科学家考试大纲CERTIFIED DATA ANALYST LEVELⅢEXAMINATION OUTLINE 一、总则
「CDA数据分析师人才行业标准」是面向全行业数据分析及大数据相关岗位的一套科学化、专业化、正规化、系统化的人才技能准则。经管之家CDA数据分析师认证考试是评判「标准化人才」的唯一考核路径。CDA考试大纲规定并明确了数据分析师认证考试的具体范围、内容和知识点,考生可按照大纲要求进行相关知识的学习,获取技能,成为专业人才。
二、考试形式与试卷结构
包括两个阶段,通过第一个阶段,才有资格参加第二个阶段考试。
第一阶段:150分钟,客观题+主观题,闭卷,上机答题。
第二阶段:提供项目案例,1个月内完成,开卷。截止日前,提交项目过程和结果,60分钟,线上答辩面试。
考试成绩:分为A、B、C、D四个层次,A、B、C为通过考试,D为不通过。
三、知识要求
针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。
1.领会:考生能够领会了解规定的知识点,并能够了解规定知识点的内涵与外延,了解其内容要点和它们之间的区别与联系,并能做出正确的阐述、解释和说明。
2.熟知:考生须掌握知识的要点,并能够正确理解和记忆相关理论方法,能够根据不同要求,做出逻辑严密的解释、说明和阐述。此部分为考试的重点部分。
3.应用:考生须学会将知识点落地实践,并能够结合相关工具进行商业应用,能够根据具体要求,给出问题的具体实施流程和策略。
四、考试范围
◆PART1计算机科学技术(占比15%)
a.大数据的高级处理技术(占比5%)
b.高性能编程计算(占比6%)
c.常用机器学习框架(占比4%)
◆PART2大数据处理与架构设计(占比15%)
a.大数据架构设计的方法论概述(占比3%)
b.互联网场景的大数据解决方案设计(占比5%)
c.大数据存储与计算的方案选型(占比2%)
d.大数据指标系统与数据安全(占比2%)
e.集资源管理、调优(占比3%)
◆PART3机器学习(占比25%)
a.特征选择与稀疏学习(占比4%)
b.类别不平衡问题(占比4%)
c.决策规则(占比2%)
d.半监督学习(占比1%)
e.强化学习(占比2%)
f.文本挖掘(占比4%)
g.社会网络分析(占比4%)
h.区块链分析(占比4%)
◆PART4深度学习(占比20%)
a.感知机与神经网络(占比2%)
b.深度学习基础概念(占比3%)
c.深度学习模型训练与优化(占比3%)
d.深度学习神经网络-DNN/CNN/RNN/LSTM神经网络(占比6%)
e.生成式对抗网络(占比2%)
f.深度学习在物体检测与定位上的应用(占比1%)
g.深度学习在人脸识别上的应用(占比1%)
h.深度学习在语音识别上的应用(占比1%)
i.深度学习的未来发展趋势(占比1%)
◆PART5数据治理(占比15%)
a.大数据治理概述、大数据建模(占比3%)
b.元数据管理、数据体系建设(占比3%)
c.大数据隐私、安全、立法(占比3%)
d.大数据质量、热度(占比3%)
e.大数据生命周期模型(占比3%)
◆PART6项目管理(占比10%)
a.软件项目管理基础(占比2%)在常用的正则化计算方法中 属于
b.敏捷开发(占比2%)
c.代码管理(占比2%)
d.构建大数据团队(占比2%)
e.项目管理相关知识及常用工具(占比2%)
五、考试内容
PART1计算机科学技术
◆大数据的高级处理技术
1.领会:Python、Java、Scala等编程语言的特点和应用场景。
2.熟知:Python、Java、Scala对大数据的多线程编程,并行计算,及第三方常用类库等高级处理技术。
◆高性能编程计算
1.领会:影响性能(运行时间及内存消耗)的因素,衡量性能的方法。
2.熟知:加速运行的常用方法,使用编译代码加快运行速度,将数据处理交给数据库系统,并行计算(模型并行、数据并行、混合并行)提升运行速度,使用GPU加快运行速
度,减少内存使用的常用方法,使用有限的内存处理大型数据集。
3.应用:搭建高性能计算环境及大数据处理的实作。
◆常用机器学习框架
1.领会:Tensorflow原理和系统架构、计算图、张量(Tensor)、会话、流(Flow)等基本元素,TensorBoard实现方式,理解Keras的易用性、灵活性等特点。
2.熟知:Tensorflow前端系统和后端系统,构建和运行计算图,Keras定义常见网络的方法及参数含义,Scikit-Learn、TFLearn等算法库使用方法。
3.应用:基于Tensorflow实现线性回归算法,并用TensorBoard记录图结构和各项运行指标;使用Keras实现LeNet网络的结构设计和训练,使用Scikit-Learn实现DBSCAN聚类,使用TFLearn实现CNN和RNN做分类并做预测。
PART2大数据处理及架构技术
◆大数据架构设计的方法论概述
1.领会:大数据分层架构设计的思想,技术架构视图的概念及涉及范围,大数据处理框架选择,服务总线思想,基于大数据的机器学习架构,大数据架构发展趋势。
2.熟知:分层架构设计的过程和内容、总体架构设计的工具和方法,通用大数据处理流程及主要环节(如采集、预处理、存储、处理、监控等)。
3.应用:能运用架构设计的方法体系进行企业信息化架构设计的实现。
◆互联网场景的大数据解决方案设计
1.领会:针对用户行为分析的架构设计。
2.熟知:了解收集用户的准备埋点规范、实施步骤,了解数据流采集、计算和可视化,了解。
3.应用:了解OLAP分析在企业级别应用的演进方式和工程效率提升。
◆大数据存储与计算的方案选型
1.领会:海量存储、离线计算、在线计算、流式计算四种常见的大数据分析场景的区别与联系。
2.知晓:HDFS、Hbase等常用海量存储工具,MapReduce、Hive、Dremel、Drill、Impala 等离线计算工具,Kylin、Redis、MongoDB等在线计算工具,Flink、Storm、Spark等流式
计算工具,Zookeeper、Spark、Kafka等常用大数据工具。
3.应用:实时流和离线数据整合的架构设计。
◆大数据指标系统与数据安全
1.领会:大数据资源管理通用架构,资源监控平台架构,集安全管理,标准化异常处理流程,数据的安全体系介绍。指标如何在元数据进行定义、规范化和准入的平台化设计。
2.熟知:数据脱敏动态和离线存储的安全设计方式。
3.应用:数据的使用审计、追溯,用户的授权功能最少、时间最短的实践方式。指标应用的热度,指标动态SQL指导。
◆大数据处理性能调优、集优化、实时计算
1.领会:存储性能优化,实时计算优化,Lambda架构思想,大数据组件化选型。
2.熟知:YARN和Impala、Spark的优化,缓存应用机制、资源硬件分配方案、资源动态调度等配置。
3.应用:可基于Hbase实现数据的存储和查询方案设计。
PART3机器学习
◆特征选择与稀疏学习
1.领会:特征工程的目标,特征的构造及压缩、特征的选择、及特征提取的基本原理和思想。
2.熟知:不同特征构建、压缩及选择的方法,Pearson相关系数、信息价值法(Information Value),基尼指数(Gini Index)、信息增益法(Information Gain),增益比例法(Gain Ratio),压缩感知方法及应用,主成分分析(PCA)降维算法,SVD降维算法。
3.运用:能利用工具针对不同类型样本进行特征的构建、压缩及选择。
◆类别不平衡问题
1.领会:不平衡数据定义,不平衡数据场景,传统学习方法在不平衡数据中的局限性,类别不平衡所造成的问题。
2.熟知:类别不平衡问题的检测方法,过采样技术(Over-sampling),欠采样技术(Under-sampling),模型惩罚技术。熟知EasyEnsemble算法,BalanceCascade算法,SMOTE 算法,Borderline-SMOTE算法,ADASYN算法,Ensemble算法,并对各种算法进行评价。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论