数据分析整体知识点架构(转载)
1快速⼊门:认知数据分析
数据分析概念
·数据分析是什么:数据分析概念及应⽤场景
·数据分析分析什么:分析⽅法、应⽤领域
数据分析价值
通过数据分析发现商机:发现数据之间的关联,预测趋势
通过数据分析做精准营销:精准营销⽅案设计
通过数据分析做⽤户画像:⽤户画像、⽤户⾏为分析
通过数据分析⽣成数据分析报告、提供决策和业务优化⽀持:决策⽀持和业务优化
数据分析前景
·
数据分析的成功案例:数据加载、数据清洗、数据展⽰、数据分析师必备技能
·数据分析的⾏业发展:数据分析⾏业⼈才需求、专门数据分析岗位需求、专门的数据分析机构
·数据分析师的职业发展:传统⾏业和互联⽹⾏业业务流程、专业技能
2材料准备:数据采集与处理
认识数据
·认识数据表的字段和记录:字段、记录、表
·使⽤Excel制作数据表、指定常⽤数据类型:数值型、字符型、⼀维表、⼆维表
获取数据
·使⽤Excel导⼊⽹站数据及⽂本数据:⽹站数据、定时刷新、⾃动刷新、⽂本导⼊
处理数据
·使⽤Excel进⾏数据清洗和筛选:数据导⼊、数据清理、数据筛选、条件格式、数据透视法
·
使⽤Excel进⾏数据抽样和计算:数据抽样、AVERAGE函数、SUM函数、MAX函数、MIN函数、IF函数
·使⽤SQL实现数据操作:基础语法、表连接、普通函数、窗⼝函数、SQL优化
3⼯具准备:数据可视化⼯具
Tableau概述及常⽤操作
·使⽤Tableau进⾏数据加载及操作:Tableau导航、Tableau设计流程、Tableau⽂件类型、Tableau数据源、Tableau计算、Tableau ⼯作表、Tableau图表
Power BI概述及常⽤操作
·使⽤Power BI加载数据源及塑造数据:数据加载、塑造数据
·使⽤Power BI建模数据及可视化:建模数据、可视化、图标
4案例分析:电⼦商务数据分析
选择数据分析核⼼数据
·如何选择核⼼数据:会员数据、营销数据、⾏业数据、交易与服务数据
掌握核⼼指标
·如何掌握核⼼指标:转化指标、会员指标、流量指标、运营指标、成交转化率指标
掌握核⼼⽅法
·常⽤核⼼⽅法:⼆⼋法则、排⾏榜分析⽅法
全栈数据分析师养成记
1基于python实现⾃动化数据分析基础
Python语法⼊门
·使⽤anaconda搭建Python开发环境:python、anaconda、mac、windows
·使⽤jupyter notebook 编写Python程序:变量、数据类型、运算符、数据处理和输⼊、分⽀和循环、函数
Python数据结构
·使⽤列表、字典和集合操作数据:列表、字典、集合
Python⽂件操作
·使⽤open、write实现⽂件操作:⽂件、open 、close、write
Python⾯向对象
·⽤Python实现⾯向对象编程:类、对象、⽅法、封装、继承、多态
2基于python爬⾍实现数据获取和加载
⽹络爬⾍简介
·爬⾍原理及基本使⽤:爬⾍协议、HTTP、HTTPS、Requests、Session、Cookie
⽹页基本组成与结构
·HTML页⾯组成及结构:HTML、HTML5、CSS、CSS3、JavaScript
常⽤爬⾍库的使⽤
·使⽤Requests爬取数据:get、post、响应内容、请求头、响应状态码、重定向与请求历史、Cookie
·
使⽤urllib爬取数据:urlopen、urlretrieve、urlcleanup、quote、urlencode
·使⽤正则表达式爬取数据:正则表达式
常⽤解析库的使⽤及数据存储
·使⽤XPath解析数据:元素和属性、XML、/、//
·使⽤BeautifulSoup解析数据:BeautifulSoup的安装、解析库的设置、BS的基本⽤法、对象的种类、遍历⽂档树和节点、各种选择器的使⽤
·使⽤pyquery解析数据:DOM、attrs、css
·实现txt、JSON、CSV等格式⽂件存储:json格式、数据类型、json解析、CSV⽂件
Ajax数据爬取及API解析
·AJax解析数据⽅法及结果提取:Ajax、Ajax解析⽅法、API
Scrapy框架的使⽤
·
使⽤Scrapy爬取数据:Selector、Spider、Downloader Middleware、Item Pipeline⽤法、Scrapy对接Selenium、Scrapy对接Splash 3基于Python科学计算包实现数据预处理和分析
NumPy创建多维数组对象
·使⽤NumPy⽣成ndarray:创建ndarray、ndarray的数据类型、数据结构多维数组对象ndarray
数组的算术运算
·使⽤NumPy实现数组算术运算:NumPy数组的运算
数组的索引与切⽚
·使⽤NumPy对数组进⾏索引与切⽚:索引和切⽚、布尔索引、神奇索引
数组转置和换轴
·使⽤NumPy对数组进⾏转置和换轴:T、swapaxes、ufunc通⽤函数、利⽤数组进⾏数据处理、数学和统计⽅法概览、数组排序、唯⼀化
数组的⽂件输⼊和输出
·使⽤数组进⾏⾯向数组编程:⽂件的保存与读取、线性代数知识回顾、多维数组对象的内部机理、数组重塑、数组的合并和拆分、元素的重复操作、花式索引等价函数、⼴播机制、ufunc⾼级⽅法、数组⾼级排序⽅法
Pandas数据结构介绍
·使⽤Pandas创建Series对象:创建Series
·使⽤Pandas创建DataFrame对象:创建DataFrame
Pandas索引对象
·使⽤Pandas创建索引对象:⾏索引和列索引、重建索引
Pandas基本操作
·使⽤Pandas对数据进⾏索引、选择和过滤:删除数据项、索引选取过滤、Ioc和iloc进⾏选取、整数索引算术和数据对齐
·使⽤Pandas对数据进⾏算术和数据对齐:算术运算和数据对齐、DataFrame和Series的运算、函数应⽤和映射排序和排名
·使⽤Pandas对数据进⾏排序和排:排序和排名、汇总和描述性统计、相关系数和协⽅差、分类数据、⽤分类进⾏数据、分类⽅法、创建虚拟变量、 GroupBy⾼级应⽤、分组的时间重采样、链式编程、管道⽅法
数据加载及存储
·使⽤Pandas进⾏多种格式数据的读写:⽤Pandas读取⽂本格式的数据。read_rsv、read_table、read_excel、read_json、
read_pickle、to_pickle、逐块读取⽂本数据、将数据输出到⽂本数据、处理分隔符
与数据库进⾏数据加载
python json字符串转数组·使⽤Pandas与数据库交互:数据库交互(MySQL、NoSQL)、数据库、数据表
处理缺失值及数据转换
·使⽤Pandas过滤缺失值    :处理缺失数据、过滤缺失数据
·使⽤Pandas补全缺失值:填充缺失数据
·
使⽤Pandas删除重复值:去除重复数据
·使⽤函数或映射进⾏数据转换:函数转换数据、重命名索引、排列和随机采样
·使⽤正则表达式对数据进⾏操作:字符串操作、⽮量化字符串函数
分层索引
·使⽤Pandas进⾏分层索引的实现  :层次化索引
·使⽤Pandas进⾏重排序和层级排序:重排与分级排序、根据级别汇总统计
·使⽤DataFrame的列进⾏索引:使⽤列作为索引
联合和合并数据集
·使⽤Pandas进⾏联合和合并数据集:合并数据集。索引合并、轴向连接、合并重叠数据
数据重塑与透视
·使⽤多层索引进⾏重塑:重塑和轴向旋转、长格式宽格式转换
4基于绘图库(Matplotlib)实现数据可视化
matplotlib API使⽤⼊门
·使⽤matplotlib绘图、设置颜⾊、标记和线类型  :Matplotlib API、Figure、Subplot、nrows、ncols、sharex、sharey 常⽤绘图展⽰
·使⽤matplotlib对图标进⾏刻度、标签、图例设置:注释、⼦图、图例
常⽤可视化⼯具介绍
·使⽤Pandas和seaborn绘图:折线图、柱状图、直⽅图、密度图、散点图
5基于聚合分组技术发现数据间的关系及价值
GroupBy机制
·使⽤字典和Series分组    :GroupBy机制、遍历各分组、函数分组
·使⽤函数分组:len、sum、min、max
·根据索引层级分组:asix、multiIndex
数据聚合
·使⽤Pandas实现数据透视表与交叉表:数据聚合、透视表、交叉表
6基于时间序列操作细化数据的时间展⽰
⽇期和时间数据类型及⼯具
·使⽤datetime实现字符串与时间类型的转换  :时间戳、时间间隔、时区、字符串与datetime互相转换
·时间序列基础
时间序列运算
·时间序列:索引、选择、⼦集
时区处理
·使⽤Pandas⽣成⽇期范围、频率和移位:频率和⽇期偏置、时区本地化和转换
时间区间和区间算术
·
使⽤Pandas进⾏时区处理:时区区间和区间算术、区间频率转换、季度区间频率
7案例分析
电影评分数据分析
·涉及娱乐、⾦融、农业、互联⽹等⾏业真实数据,从业务流程⾓度进⾏数据分析,增强业务与技术实战能⼒:数据清洗、时间序列、聚合与分组、柱状图、折线图、热⼒图
美国农业部⾷品数据分析
⾦融数据分析
招聘⽹站岗位及薪资趋势分析报告
⼤数据分析师晋升记
1数据仓库
HiveQL操作数据
·
基础语法、表连接、普通函数: TINYINT 、SMALLINT、 INT 、BIGINT、 FLOAT、 DOUBLE、 BOOLEAN 、STRING、
STRUCT、 MAP、 ARRAY、数据表、排序和聚集
·窗⼝函数、SQL优化:创建表、创建分区、重命名、增加列、删除列、导⼊导出数据、数据查询、内连接、左外连接、右外连接、全连接、⼦查询、视图、内置函数、⾃定义函数、窗⼝函数、SQL优化
2数据分析⽅法
描述统计分析⽅法
·频数分析、集中趋势、离散程度、数据分布:频数、平均数、中位数、众数、极差、⽅差、标准差、变异系数、峰值、偏度
回归分析⽅法
·线性回归、逻辑回归、多项式回归、多元回归:因变量、⾃变量、回归线、回归系数
多元统计分析⽅法
·
聚类分析、判别分析、主成分分析、因⼦分析:聚类分析的思想、相似性度量、类和类的特征、距离判别、贝叶斯判别、逐步判别、主成分、总体成分、因⼦载荷
时间序列分析⽅法
·⾃回归模型、季节模型:时间序列、时间序列分析、GNAR模型
3数据可视化
可视化⼯具使⽤(Excel)
·使⽤Excel实现数据可视化:条形图&柱状图、饼图&环形图、单折线&双折线图、散点图&⽓泡图、箱线图、雷达图、组合图
可视化⼯具使⽤(Tableau)
·使⽤Tableau实现可视化
4⾼级数据可视化
瀑布图、桑基图、漏⽃图、矩形树图、旭⽇图
·使⽤Excel、Tableau实现:绘制图表
Excel动态图表
·使⽤Excel实现:组合框控件、数据源
地图可视化
·使⽤Tableau实现:地图绘制、地图配⾊
echarts实现
·使⽤echarts实现常⽤图表:构建echarts、数据加载5⾼级数据分析师实战
经营分析⽅法论
·交易分析:如何做好交易⽇报分析
·流量分析:渠道分析、流量漏⽃分析
·⽤户分析:⽤户画像、⾏为分析、留存分析
⾏业分析⽅法论
·竞对分析:分析⽅法、分析内容
·⾏业动态:⾏业分布、⾏业趋势
业务分析⽅法论
·产品分析:功能迭代分析、转化率分析
·运营分析:活动运营分析、⽤户运营分析
·销售分析:业绩达成分析、⼈效分析

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。