python讲统计学书籍_数据分析最需要的12本中⽂书(从⼊门
到⾼阶)
原标题:数据分析最需要的12本中⽂书(从⼊门到⾼阶)
作为⼀名⼯作两年的产品新⼈,想学⼀些数据分析的知识,推荐的书多⼜杂,并且没有⼀个阅读顺序,实在不知道该怎么办才好。 整理了各⼤⽹站关于学习数据分析的⽂章,希望把这篇⽂章分享给处于和我⼀样想学数据分析不知该从何⼊门的⼩伙伴们⼀起学习。也希望可以收到别⼈对我这种⼩公司产品新⼈的建议或处于相同阶段的⼩伙伴们的交流。
因⼯作原因要学习⼀些数据的知识,从⼈⼈都是产品经理⽹站上并没有到⼀篇从⼊门到进阶成体系的⽂章,且查的分享都是数据体系中⼀个分⽀的分⽀,整体看起来烟雾缭绕,经⼀位前辈点播还是先从书籍中建⽴整体的认知再看这些碎⽚化的知识,才能更有体会(⼿动@前辈谭⼩超,私聊的感受就是超级平易近⼈,受我⼀拜orz),故有了这篇内容。
计算机网络网络编程实验报告⽂章内容整理⾄知乎,感谢两位⼤佬的分享,其中@知乎⽤户 张溪梦 Simon、DataCastle(其中⼤部分内容源⾃Simon,部分属于DataCastle已标注)
⼊门
适合数据分析的⼊门者,对数据分析没有整体概念的⼈,如应届毕业⽣,经验尚浅的转⾏者。
《深⼊浅出数据分析》
HeadFirst类的书籍,⼀向浅显易懂形象⽣动,可以对分析概念有个全⾯的认知。——Simon
把这本书放在第⼀顺序,是因为它真的很简单,但是能够让你对数据分析的⼀些基本概念有⼤致的了解。即便是你毫⽆数据分析经验,⼀两天也⾜够读完整本书了。这本书的实操性并不强,所以也不建议你去跟着实践,了解作者传达出来的数据分析基本思想和原则就OK了,这对你建⽴宏观的视野,和接下来的学习很有帮助。
另外,书中提到的⼀些案例,⽐如提升化妆品销量、分析星巴克销量、⽣产线最优解、⽹站ABtest、竞品分析、薪资预测等等,看起来很简单,但其实都是⼯作最常见的⼀些分析场景。这对数据思维的养成,⾮常有帮助。
个⼈觉得书中最有⽤的⼀些点如下。
统计学概念在数据分析中的作⽤:⽐如⽅差、标准差、相关系数、均⽅根误差等。
集中数据分析的基本⽅法:假设检验、回归分析、误差分析等。
统计图形分析:散点图、直⽅图等来探索数据中隐藏的规律。
数据库以及数据整理。
这本书很难让你掌握数据分析技术,过⼀遍即可。
《谁说菜鸟不会数据分析》
不仅讲解了⼀些常见的分析技巧,并附带excel的⼀些知识及数据分析在公司中所处的位置,对职场了解亦有⼀定帮助。
《⾚裸裸的统计学》
作者年轻时是个追求学习意义的学霸,后来⾃⼰从统计学中发掘了很多可以应⽤到⽣活的地⽅。这也是本书的主旨,结合⽣活讲解统计知识,⽣动有趣。可以避免统计学⼀上来就⼤讲贝叶斯概率和随机分析的枯燥。
《统计数字会撒谎》
知名度⾼,但是还没看过…
js设置margintop进阶
具有⼀定的⾏业针对性,要求具备⼀定的分析常识,适合⽹站分析师,商业分析师以及数据产品经理。
《深⼊浅出统计学》
HeadFirst类书籍,可以帮助你快速了解统计⽅⾯的知识。——Simon
⾮常⾮常基础的统计书,适合任何⼀个没有基础的⼩⽩,⽂科⽣也能看懂。有⼈说这本书简直太简单了,但是对于数据分析来说,需要⽤到的恰好是这些最简单的东西。⽐如基本的统计量,基本上每个分析项⽬中都会⽤到。⽐如基本的概率分布,总体与样本的概念、置信区间、假设检验、回归分析,我去,都是为数据分析定制的统计学知识。
所以强烈推荐这本,其他的⽐较深度的书,并不建议在⼊门的阶段去啃,⼀⽅⾯是很多难以理解,⼆是即便你花⼤⼒⽓学习了,⼊门的阶段你也不怎么能在实践中使⽤。当然多学⼀些是没有坏处的,但你需要知道在什么时候学习哪些东西性价⽐最⾼。或者你⾃我感觉良好,誓要学最难的,从⼊门到放弃,得不偿失。
总结起来,需要重点了解的统计学知识如下。
基本的统计量:均值、中位数、众数、⽅差、标准差、百分位数等。
概率分布:⼏何分布、⼆项分布、泊松分布、正态分布等。
总体和样本:了解基本概念、抽样的概念。
这本书⾮常的简单,但是基本的数据分析的⼀些⽅法都有了,你需要做的,是利⽤之前学过的Python 的⼀些库(pandas、Numpy、matplotlib)来实现这些数据分析的⽅法、实现基本的可视化来进⾏图形化的分析。——DataCastle
《MySQL必知必会》
这本也是我当年学习SQL的⼊门书,薄册⼦⼀本,看起来很快。SQL是个性价⽐很⾼的技能,简单⽽强⼤。任何想进⼀步提⾼⾃⼰数据分析技能的产品/运营/分析师同学,都建议点亮这个技能点。——Simon
这本书把SQL写得⾮常简单,没办法,SQL确实也很简单。其实pandas 就已可以实现很多数据管理的⼯作,⽽了解SQL 的意义在于融⼊到实际的数据使⽤的场景。⽐如企业的数据,多是以数据库的形式存储起来的,那么如果你要去调⽤你想要的那部分数据,SQL就是必须的技能。如果你在最开始就想⽤公司的数据来练习,那么你可以把这本书的阅读放到最前⾯。(当然,如果你不会遇到数据提取的问
题,SQL 这部分也可以暂时不管,对具体的数据分析没有影响,等到你真正需要⽤到SQL的时候再学习。)
MySQL本⾝⽐较简单,对于数据分析师来说,只需要掌握基本的语句和技巧,能够进⾏基本的数据提取和处理就能够应对⼀般的数据分析需求了。
书中重点掌握以下⼏个点。
SELECT语句:让你能够去提取你需要的那部分数据。osi七层模型各层主要功能
DELETE和UPDATE:知道怎么实现数据的增、删、改。
核酸检测报告0数据过滤:where、and、or、通配符等过滤⽅式。
数据的汇总和分组、数据库连接:应对更加复杂的数据和相关联的数据。
⼦查询:查询中的查询。
当然还是希望你去公司的数据库⼀些数据进⾏练习,如果不⽅便的话,也可以直接⽤上述UCI数据集中的数据进⾏实践。
如果遇到问题,可以去菜鸟教程查询相关操作。
好了,恭喜,你已经基本⼊门了。到此,你就完全可以去进⾏⼀个完整的数据分析项⽬了,如果你没有头绪,可以去⼀些⾏业的分析报告来看看,⼀分析的思路。能够独⽴完成⼀些项⽬,通过数据分析能够得出⼀些深刻的结论,能够给⼈以可视化的形式将结果描述出来,能够基于历史数据对未来的⼀些情况进⾏预测,那么⼀般的数据分析岗位,完全可以胜任了。
《互联⽹增长的第⼀本数据分析⼿册》
GrowingIO出的⼀本数据分析的增长⼿册,为⼤家提供常见的分析⼿段讲解,如漏⽃分析,同期分析等。可在GrowingIO技术论坛中免费下载。
《利⽤Python进⾏数据分析》
这应该是最经典的数据分析书之⼀了,作者是pandas 库的作者WesMcKinney 。所以这本书对于pandas 的理解,应该是⾮常深刻的,⽽经过梳理介绍的pandas、numpy、matplotlib 等库,应对⼀般的数据分析,完全⾜够了。
书中应该重点掌握的⼀些点。
IPython Notebook 的使⽤:最适合⼩⽩的代码编写环境,⾮常容易上⼿。
科学计算库 Numpy:数组和⽮量计算、学会利⽤数组进⾏数据处理。
数据处理及分析⼯具 pandas:数据查询,缺失值、重复值、异常值的处理,数据的合并与规整化,基本的描述性分析及可视化。
可视化⼯具 matplotlib:⽤这个库,基本的数据可视化问题皆可以解决了。
看上去是不是很简单,这本书就是教会你如何开始使⽤Python 进⾏数据分析,当然⾸推的就是pandas ,不仅可以做数据的预处理,还能够做基本的数据分析和可视化。这个库⼀定是你开始⼊门的时候需要重点学习的,其次⽤Numpy 进⾏数组的计算、利⽤matplotlib 进⾏可视化的描述性分析,也是同步需要掌握的东西。
但是,这个部分光看书是远远不够的,你可以尽量去⼀些可以练⼿的数据集,来实际操作和调⽤这些库的功能,确保熟练数据分析中最常⽤的函数和模块。如果纠结去哪练⼿的数据,推荐UCI经典数据集。
关于pandas、Numpy、matplotlib ⽹上应该可以搜索到很多有⽤的资料、教程,可以看⼀看别⼈的使⽤技巧、应⽤场景,并通过练习转化成⾃⼰的经验。
因为Python 库的更新迭代⾮常快,这本书⾥的⼀些内容其实已经“过时”了,这⾥也⾮常建议你去查看
⼀些官⽅的⽂档,基本上你需要的都能查到。
另外,在进⾏⼀些数据处理、数据分析的时候,你可能需要去了解⼀些更细节化的Python ⽤法,这⾥就不推荐书了,因为你没必要去系统地学,按照这个菜鸟教程看看或者查询相关的⽤法就OK了。
⾼阶
更⾼阶的数据相对来说专业性较强了,如涉及到企业内部数据治理,数据结合的业务分析,数据可视化等。当然,还有数据挖掘算法之类的更深⼊的东西,这块没有研究就不瞎推荐了。
《精益数据分析》
此书优势在于将企业分成了⼏个⼤的⾏业类别,并分门别类地讲解了每个⾏业的商业模式特点及分析技巧,对使⽤者的分析能⼒要求较⾼,且必须具备相应的业务知识。——Simon
书中主要讲到各种产品中⽤到的指标和模型,这是⼀本写给产品经理的书,其中并没有具体的数据分析技术,涉及的更多是数据驱动型产品的⼀些思路。
⽐如怎么将数据驱动的产品落地,怎么为产品设计数据指标,哪些指标对于产品迭代优化更有效,如何依靠数据分析来驱动⽤户增长等。——DataCastle
《数据之美》
本书通过世界上最好的数据⼯作者的⽰例,向读者展⽰处理数据的⽅法。本书使得读者可以站在优秀的数据设计师、管理者和处理者的肩上,去仔细审视涉及数据的⼀些最有趣的项⽬。
《决战⼤数据》
阿⾥巴巴前数据副总裁车品觉⽼师所著,讲解了阿⾥巴巴在企业内部治理数据过程中的⼼得,所讲“存-通-⽤”数据管理三板斧和“从数据化运营到运营数据”,字字珠玑,可堪借鉴。
《The Wall Street Journal Guide to Information Graphics》
华尔街⽇报负责商业分析的⼈做的可视化指南,精华且实⽤。
《数据科学实战》
这本书应该是数据分析和数据挖掘(机器学习)之间的桥梁。从探索性的数据分析开始,通过数据分析的思维,引出了机器学习的基本算法:回归分析、k近邻、k均值。接着通过不同的应⽤场景分别介绍了最常见的机器学习算法,以及在真实场景的应⽤。
对于做了⼀段时间数据分析⼯作的⼈,这⽆疑是进阶更⾼维度的好书,很难有⼀本书,能够让你从简单的数据分析平滑过渡到机器学习和数据挖掘,这本书我认为是这⽅⾯做得最好的⼀本。
所以如果你在做⼀些探索性的分析遇到瓶颈之后,⾃然⽽然会进⼊数据挖掘和机器学习算法的坑,因为只有更⾼级的算法和模型,才能够⽀撑⼤规模的数据的预测。
下⾯列出⼀些书中有意思也⽐较有⽤的点:了解探索性数据分析,为更⾼级的需求打好基础; 了解机器学习的基本算法、k近邻、k均值等; ⽤朴素贝叶斯⽅法做垃圾邮件的过滤; 线性回归和逻辑回归的分析⽅法; 如何从数据中获取结论,从数据挖掘竞赛开始; 构建⾃⼰的推荐系统; 数据泄漏与模型评价,如何筛选模型。
推荐关注
在知乎上有不少数据分析及Growth的⼤⽜,在这⾥推荐⼏位我熟悉的,经常会写⼀些相关的⽂章:
覃超,前Facebook 早期⼯程师,关于增长⿊客写了许多优秀的⽂章。
邹昕,Facebook ⽤户增长数据分析,在数据分析⽅⾯很有见解。
范冰,《增长⿊客》⼀书作者,⼈⾮常有趣,同事也⾮常推荐《增长⿊客》这本书。
mysql入门基础教程曾加,蚂蚁⾦服 BI-数据分析,数学⽅⾯的⽜⼈。
何明科,专注于数据和互联⽹产品,许多回答很值得细看。
vue小程序开发教程对于推荐的书籍来讲,有⼀位前辈能对这本书有所评价并告诉后辈的,⽆异于考试时书上画了重点,所以,关于数据分析的书,有这么⼀篇介绍就够了。
但是关于产品的书,从⽹上到的书单涉及的太多,因为产品经理需要对各个⽅⾯都有所了解,要对各个领域都列出个书单的话,也没时间看,毕竟⼈的精⼒是有限的,还是要有所选择。
这⾥想讲⼀个选书的⽅法,将每⼀位⼤⽜列出的书单视作他们的⼀个产品,将产品领域各位⼤⽜的书单做个竞品分析,列出每个书单的相同点,也就是出每份书单都会出现的书,对于新⼈来说,从这些书中开始读,准没错。
产品岗位近⼏年才逐渐有了系统化的培训,在之前鱼龙混杂的时代有⼈出了⼀本书,各个产品⼈⼀定都有所涉猎,⽽那个时候产品可选择的书籍并不多,这些⼈中⼜渐渐出了⼤神,值得被多位⼤神站台的书籍,内容⼀般都有保障。
⼀个真⼼喜欢⼯作的2年产品新⼈,⽬前学习的⽅法是通过书籍掌握基础脉络再通过碎⽚化的⽂章往不同的⽅向延伸,期望只通过能⼒⽽不通过公司的背景和光环被⼈认可。
作者:三郎
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论