Python数据分析之思维导图汇总
navicat导入excel关于Python数据分析,其实⽹上能够到的学习资源很多,主要分为两类:⼀类是提供各种资源的推荐,⽐如书单、教程、以及学习的先后顺序;另⼀类是提供具体的学习内容,知识点或实际案例。
但很多繁琐⽽⼜杂乱的内容,除了给初学者增加理解和认识的噪⾳外,真正能够起到明确的⽅向指引导的,确实不多。以⾄于很多⼈⼀开始没有明确的⽅向就⼀头扎进去,学了很久却不知道⾃⼰到底在学什么,或者⾃⼰学了很久不知道能够做什么。
学习⼀门技术之前,你应该知道,你想要达成的⽬标是什么样的。也就是说,你想通过这门技术来解决哪些问题。你就可以知道要达成这样的⽬标,它的知识体系是怎么样的。更重要⼀点的是,每个部分是⽤来解决哪些问题,只有明确的⽬标导向,学习最有⽤的那部分知识,才能避免⽆效信息降低学习效率。
ecuador通过这些常见的数据分析场景,你就可以获得数据分析项⽬的基本流程。⼀般⼤致可以按“数据获取-数据存储与提取-数据预处理-数据建模与分析-数据报告”这样的步骤来实施⼀个数据分析项⽬。
按照这个流程,每个部分需要掌握的细分知识点如下:
接下来我们分别从每⼀个部分展开,讲讲具体应该学什么、怎么学,以及各个部分主要的知识点进⾏结构化地展⽰,并有针对性地推荐学习资源。
如何获取数据
我们分析的数据⼀般有内部数据和外部数据两种。
内部数据是在我们的业务运转中产⽣,⽐如常见的⽤户数据、产品数据、销售数据、内容数据等等。内部的数据相对来说更加完善、规整,我们经常要做的⼯作汇报、产品优化等分析数据⼀般来源于此。可以公司的技术⼈员索要,或者⾃⼰去数据库提取。
当然,很多时候,我们需要利⽤外部的数据。⽐如进⾏市场调研,竞品分析,或者输出报告的时候,外部数据的分析是必不可少的,这也可以帮助我们得出更多的结论。
1. 公开数据源
UCI:加州⼤学欧⽂分校开放的经典数据集,真的很经典,被很多机器学习实验室采⽤。
国家数据:数据来源于中国国家统计局,包含了我国经济民⽣等多个⽅⾯的数据。
CEIC:超过128个国家的经济数据,能够精确查GDP、CPI、进出⼝以及国际利率等深度数据。
中国统计信息⽹:国家统计局的官⽅⽹站,汇集了海量的全国各级政府各年度的国民经济和社会发展统计信息。
政务数据⽹站:现在各个省都在很⼤程度上地开放政务数据,⽐如北京、上海、⼴东、贵州等等,都有专门的数据开放⽹站,搜索⽐如“北京政务数据开放”。
2. ⽹络爬⾍
基于互联⽹爬取的数据,你可以对某个⾏业、某种⼈进⾏分析。⽐如:
职位数据:拉勾、猎聘、51job、智联
⾦融数据:IT桔⼦、雪球⽹
codehub app房产数据:链家、安居客、58同城
零售数据:淘宝、京东、亚马逊
社交数据、微博、知乎、Twitter
影视数据:⾖瓣、时光⽹、猫眼
……
在爬⾍之前你需要先了解⼀些 Python 的基础知识:元素(列表、字典、元组等)、变量、循环、函数(菜鸟教程就很好)……
以及如何⽤成熟的 Python 库(urllib、BeautifulSoup、requests、scrapy)实现⽹页爬⾍。
掌握基础的爬⾍之后,你还需要⼀些⾼级技巧。⽐如正则表达式、模拟⽤户登录、使⽤代理、设置爬取频率、使⽤cookie等等,来应对不同⽹站的反爬⾍限制。爬⾍可以说是最为灵活、有效的数据获取⽅式,但学习成本相对来说也要⾼⼀些。开始建议先利⽤公开数据进⾏分析,后续有更多的数据需求,再上⼿爬⾍。那个时候你已经掌握了Python基础,爬⾍上⼿也会更轻松。
3. 其他数据获取⽅式
如果你暂时不会爬⾍,但⼜有采集数据的需求,可以尝试各种采集软件,不需要编程知识也可以轻松爬取信息,⽐如⽕车头、⼋⽖鱼等。很多数据竞赛⽹站也会公开不错的数据集,⽐如国外的Kaggle,国内的DataCastle、天池。这些数据都是真实的业务数据,且规模通常不⼩,可以经常去搜集和整理。
推荐数据汇总资源:
常⽤的数据获取⽅式如下:
数据存储与提取
数据库这个技能放在这⾥,是因为这是数据分析师的必备技能。⼤多数的企业,都会要求你有操作、管理数据库的基本技能,进⾏数据的提取和基本分析。SQL作为最经典的关系型数据库语⾔,为海量数据的存储与管理提供可能。MongoDB则是新崛起的⾮关系型数据库,掌握⼀种即可。
初学建议SQL。你需要掌握以下技能:
1.查询/提取特定情况下的数据:企业数据库⾥的数据⼀定是巨量⽽繁复的,你需要提取你想要的那⼀部分。
⽐如你可以根据你的需要提取2017年所有的销售数据、提取今年销量最⼤的50件商品的数据、提取上海、⼴东地区⽤户的消费数据……
2.数据库的增、删、改:这些是数据库最基本的操作,但只要⽤简单的命令就能够实现。
3.数据的分组聚合、建⽴多个表之间的联系:这个部分是数据库的进阶操作,多个表之间的关联。
在你处理多维度、多个数据集的时候⾮常有⽤,这也让你可以去处理更复杂的数据。maven下载
inadequacy
数据库听起来很可怕,但其实满⾜数据分析的那部分技能不要太简单。当然,还是建议你⼀个数据集来实际操作⼀下,哪怕是最基础的查询、提取等操作。
推荐数据库教程:
mySQL知识框架如下:
MongoDB知识框架如下:
数据清洗及预分析
很多时候我们拿到的数据是不⼲净的,数据的重复、缺失、异常值等等。这时候就需要进⾏数据的清洗,把这些影响分析的数据处理好,才能获得更加精确地分析结果。⽐如空⽓质量的数据,其中有很多天的数据由于设备的原因是没有监测到的,有⼀些数据是记录重复的,还有⼀些数据是设备故障时监测⽆效的。⽐如⽤户⾏为数据,有很多⽆效的操作对分析没有意义,就需要进⾏删除。
mysql菜鸟教程增删改查·选择:数据访问(标签、特定值、布尔索引等)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论