数据分析技能点梳理
在这个⾼速发展的互联⽹时代,我们每天因为社交、购物、⼯作、交通等等⾏为会产⽣巨量的数据,数据正在变得越来越常见,但其实这些看似毫⽆作⽤的数据,其实有着不可估量的价值,那如何从海量数据中获得别⼈看不见的知识,如何利⽤数据来武装营销⼯作、优化产品、⽤户调研、⽀撑决策,数据分析可以将数据的价值最⼤化呢?今天带⼤家来看看,数据分析将怎么样影响着改变着我们的⽣活。
⾕歌的数据分析可以预测⼀个地区即将爆发的流感,从⽽进⾏针对性的预防;淘宝可以根据你浏览和消费的数据进⾏分析,为你精准推荐商品;⼝碑极好的⽹易云⾳乐,通过其相似性算法,为不同的⼈量⾝定制每⽇歌单……
数据分析⼈才热度也是⾼居不下,⼀⽅⾯企业的数据量在⼤规模的增长,对于数据分析的需求与⽇俱增;另⼀⽅⾯,相⽐起其他的技术职位,数据分析师的候选者要少得多。
▲数据源于麦肯锡
那么,⼩⽩如何快速获得数据分析的能⼒呢?知乎上有很多书单,你可能也听过很多学习⽅法,但尝试过就知道这些跟⾼效没什么关系。数据分析师应该具备哪些技能:
要明确学习的路径,最有效的⽅式就是看具体的职业、⼯作岗位对于技能的具体需求。
我们从拉勾上了⼀些最具有代表性的数据分析师职位信息,来看看薪资不菲的数据分析师,到底需要哪些技能。
其实企业对数据分析师的基础技能需求差别不⼤,可总结如下:
SQL数据库的基本操作,会基本的数据管理
会⽤Excel/SQL做基本的数据分析和展⽰
会⽤脚本语⾔进⾏数据分析,Python or R
有获取外部数据的能⼒,如爬⾍
会基本的数据可视化技能,能撰写数据报告
熟悉常⽤的数据挖掘算法:以回归分析为主
其次是数据分析的流程,⼀般可以按“数据获取-数据存储与提取-数据预处理-数据建模与分析-数据可视化”这样的步骤来实施⼀个数据分析项⽬。按照这个流程,每个部分需要掌握的细分知识点如下:
⾼效的学习路径是什么?就是数据分析的这个流程。按这样的顺序循序渐进,你会知道每个部分需要
完成的⽬标是什么,需要学习哪些知识点,哪些知识是暂时不必要的。
接下来我们分别从每⼀个部分讲讲具体应该学什么、怎么学。
01 数据获取:公开数据、Python爬⾍
每天学点sql经典句子外部数据的获取⽅式主要有以下两种。
第⼀种是获取外部的公开数据集,⼀些科研机构、企业、政府会开放⼀些数据,你需要到特定的⽹站去下载这些数据。这些数据集通常⽐较完善、质量相对较⾼。给⼤家推荐⼀些常⽤的可以获取数据集的⽹站:
UCI:加州⼤学欧⽂分校开放的经典数据集,被很多数据挖掘实验室采⽤。
国家数据:数据来源于中国国家统计局,包含了我国经济民⽣等多个⽅⾯的数据。
CEIC:超过128个国家的经济数据,能精确查GDP、进出⼝零售,销售等深度数据。
中国统计信息⽹:国家统计局官⽅⽹站,汇集了国民经济和社会发展统计信息。
优易数据:由国家信息中⼼发起,国内领先的数据交易平台,很多免费数据。
另⼀种获取外部数据的⽅式就是爬⾍。
⽐如你可以通过爬⾍获取招聘⽹站某⼀职位的招聘信息,爬取租房⽹站上某城市的租房信息,爬取⾖瓣评分评分最⾼的电影列表,获取知乎点赞排⾏、⽹易云⾳乐评论排⾏列表。基于互联⽹爬取的数据,你可以对某个⾏业、某种⼈进⾏分析。
在爬⾍之前你需要先了解⼀些 Python 的基础知识:元素(列表、字典、元组等)、变量、循环、函数………
以及,如何⽤ Python 库(urllib、BeautifulSoup、requests、scrapy)实现⽹页爬⾍。如果是初学,建议从 urllib+BeautifulSoup 开始。
常⽤的的电商⽹站、问答⽹站、⼆⼿交易⽹站、婚恋⽹站、招聘⽹站等,都可以爬到⾮常有价值的数据。
02 数据存取:SQL语⾔
在应对万以内的数据的时候,Excel对于⼀般的分析没有问题,⼀旦数据量⼤,就会⼒不从⼼,数据库就能够很好地解决这个问题。⽽且⼤多数的企业,都会以SQL的形式来存储数据,如果你是⼀个分析师,也⾄少要懂得SQL的操作,能够查询、提取公司的数据。
SQL作为最经典的数据库⼯具,为海量数据的存储与管理提供可能,并且使数据的提取的效率⼤⼤提升。你需要掌握以下技能:
提取特定情况下的数据:企业数据库⾥的数据⼀定是⼤⽽繁复的,你需要提取你需要的那⼀部分。⽐如你可以根据你的需要提取2017年所有的销售数据、提取今年销量最⼤的50件商品的数据、提取上海、⼴东地区⽤户的消费数据……,SQL可以通过简单的命令帮你完成这些⼯作。
数据库的增、删、查、改:这些是数据库最基本的操作,但只要⽤简单的命令就能够实现,所以你只需要记住命令就好。
数据的分组聚合、如何建⽴多个表之间的联系:这个部分是SQL的进阶操作,多个表之间的关联,在你处理多维度、多个数据集的时候⾮常有⽤,这也让你可以去处理更复杂的数据。
SQL这部分⽐较简单,主要是掌握⼀些基本的语句。当然,还是建议你⼏个数据集来实际操作⼀下,哪怕是最基础的查询、提取等。
03 数据预处理:Python(pandas)
很多时候我们拿到的数据是不⼲净的,数据的重复、缺失、异常值等等,这时候就需要进⾏数据的清洗,把这些影响分析的数据处理好,才能获得更加精确地分析结果。
⽐如销售数据,有⼀些渠道的销售是没有及时录⼊的,有⼀些数据是记录重复的。⽐如⽤户⾏为数据,有很多⽆效的操作对分析没有意义,就需要进⾏删除。
那么我们需要⽤相应的⽅法去处理,⽐如残缺数据,我们是直接去掉这条数据,还是⽤临近的值去补全,这些都是需要考虑的问题。
对于数据预处理,学会 pandas (Python包)的⽤法,应对⼀般的数据清洗就完全没问题了。需要掌握的知识点如下:
选择:数据访问(标签、特定值、布尔索引等)
缺失值处理:对缺失数据⾏进⾏删除或填充
重复值处理:重复值的判断与删除
异常值处理:清除不必要的空格和极端、异常数据
相关操作:描述性统计、Apply、直⽅图等
合并:符合各种逻辑关系的合并操作
分组:数据划分、分别执⾏函数、数据重组
Reshaping:快速⽣成数据透视表
04 概率论及统计学知识
数据整体分布是怎样的?什么是总体和样本?中位数、众数、均值、⽅差等基本的统计量如何应⽤?如何在不同的场景中做假设检验?数据分析⽅法⼤多源于统计学的概念,所以统计学的知识也是必不可少的。需要掌握的知识点如下:
基本统计量:均值、中位数、众数、百分位数、极值等
其他描述性统计量:偏度、⽅差、标准差、显著性等
其他统计知识:总体和样本、参数和统计量、ErrorBar
概率分布与假设检验:各种分布、假设检验流程
其他概率论知识:条件概率、贝叶斯等
有了统计学的基本知识,你就可以⽤这些统计量做基本的分析了。通过可视化的⽅式来描述数据的指
标,其实可以得出很多结论了:⽐如排名前100的是哪些,平均⽔平是怎样的,近⼏年的变化趋势如何……
你可以使⽤ Seaborn、matplotlib 等(python包)做⼀些可视化的分析,通过各种可视化统计图,并得出具有指导意义的结果。
05 Python 数据分析
如果你有⼀些了解的话,就知道⽬前市⾯上其实有很多 Python 数据分析的书籍,但每⼀本都很厚,学习阻⼒⾮常⼤。但其实真正最有⽤的那部分信息,只是这些书⾥很少的⼀部分。
⽐如掌握回归分析的⽅法,通过线性回归和逻辑回归,其实你就可以对⼤多数的数据进⾏回归分析,并得出相对精确地结论。这部分需要掌握的知识点如下:
回归分析:线性回归、逻辑回归
基本的分类算法:决策树、随机森林……
基本的聚类算法:k-means……
特征⼯程基础:如何⽤特征选择优化模型
调参⽅法:如何调节参数优化模型
Python 数据分析包:scipy、numpy、scikit-learn等
在数据分析的这个阶段,重点了解回归分析的⽅法,⼤多数的问题可以得以解决,利⽤描述性的统计分析和回归分析,你完全可以得到⼀个不错的分析结论。
然后你会知道⾯对不同类型的问题的时候更适合⽤哪种算法模型,对于模型的优化,你需要去学习如何通过特征提取、参数调节来提升预测的精度。这就有点数据挖掘和机器学习的味道了,其实⼀个好的数据分析师,应该算是⼀个初级的数据挖掘⼯程师了。
你可以通过 Python 中的 scikit-learn 库来实现数据分析、数据挖掘建模和分析的全过程。
06 系统实战与数据思维
到这个时候,你就已经具备了数据分析的基本能⼒了。但是还要根据不同的案例、不同的业务场景进⾏实战,练习解决实际问题的能⼒。
上⾯提到的公开数据集,可以⼀些⾃⼰感兴趣的⽅向的数据,尝试从不同的⾓度来分析,看看能够得到哪些有价值的结论。
你也可以从⽣活、⼯作中去发现⼀些可⽤于分析的问题,⽐如上⾯说到的电商、招聘、社交等平台等数据中都有着很多可以挖掘的问题。
开始的时候,你可能考虑的问题不是很周全,但随着你经验的积累,慢慢就会到分析的⽅向,有哪些⼀般分析的维度,⽐如Top榜单、平均⽔平、区域分布、同⽐环⽐、相关性分析、未来趋势预测等等。随着经验的增加,你会有⼀些⾃⼰对于数据的感觉,这就是我们通常说的数据思维了。
零基础学习数据分析,坑确实⽐较多,总结如下:
1.环境配置,⼯具安装、环境变量,对⼩⽩太不友好;
2.缺少合理的学习路径,上来 Python、HTML 各种学,极其容易放弃;
3.Python有很多包、框架可以选择,不知道哪个更友好;
4.遇到问题不到解决办法,学习停滞不前;
5.⽹上的资料⾮常零散,⽽且对⼩⽩不友好,很多看起来云⾥雾⾥;
6.懂得技巧,但⾯对具体问题⽆法系统思考和分析;
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论