⼤数据分析实⽤教程——基于Python实现(微课版)
随着物联⽹和云计算技术的兴起,⼤数据已成为为当今炙⼿可热的明星词汇。我国政府在“⼗三五”规划建议中提出:“实施国家⼤数据战略,推进数据资源开放共享”。著名咨询公司麦肯锡称:“数据已经渗透到当今每⼀个⾏业和业务职能领域,成为重要的⽣产因素。⼈们对于海量数据的挖掘和运⽤,预⽰着新⼀波⽣产率增长和消费者盈余浪潮的到来。”
⼤数据分析是实现⼤数据价值的关键环节,需要将⼤数据处理技术与数据分析、数据挖掘技术相结合。⽬前市⾯上有很多⼤数据分析或⼤数据挖掘的教材,这些教材⼤致可分为两类:第⼀类以讲解⼤数据分析的理论为主,⽽对⼤数据分析的编程实现讲述得少。由于⼤数据分析的模型复杂,如果不讲述编程实现,学⽣往往觉得将理论应⽤于实际问题时⽆从下⼿。另⼀类以讲解⼤数据分析的编程为主,由于对理论讲解过少,学⽣对程序往往很难理解,导致⽆法独⽴编写程序解决实际问题。
为了解决以上问题,并使⼤数据分析更加通俗易懂,本书将⼤数据分析的原理与编程实现融合在⼀起讲述。本书的特⾊是对每种数据分析算法都介绍使⽤Sklearn编写程序来实现,Sklearn库是⼀种⾼度封装好的机器学习算法库,所有的分类算法通常使⽤3-5⾏代码就能实现,具有简单易学的特点,通过学习Sklearn能够很好地加深对数据分析和机器学习概念和模型的理解,并且掌握Sklearn库是学⽣进⼀步学习TensorFlow深度学习算法库的基础,因此学习Sklearn库的编程能帮助学习机器学习的基本原理。
本书其他特⾊如下:
1)与传统数据分析主要⽅法是统计学理论不同,⼤数据分析主要依靠机器学习,因此本书对机器学习的原理和步骤进⾏了通俗的阐述,⼒图使学⽣理解机器学习的基本思想。
2)为了提⾼学⽣的学习兴趣,本书对所有Sklearn程序 均使⽤MatPlotLib库实现数据的可视化,这是具有实⽤价值的。
3)本书在叙述有关基本理论时,安排了⼤量的例题和程序,主要⽬的是通过例题让学⽣能够快速理解理论。通过程序加深对有关理论的理解,达到融会贯通的⽬的。
4)由于⼤数据分析离不开⼤数据处理的平台,本书在第⼀章对Hadoop⽣态系统进⾏了较为系统的介绍,特别是对Mapreduce并⾏编程框架做了实例讲解。sum函数matlab
mysql算集成数据库么5)本书是微课版,对于教材中⼀些⽐较复杂的软件操作、和需要⽤动画才能描述清楚的算法步骤,本书提供了微课视频,扫相关内容旁边的⼆维码即可观看视频。
作者:唐四薪
出版社:机械⼯业出版社
出版时间:2021年6⽉
ISBN:9787111682509
定价:69
⽬ 录
第1章 ⼤数据分析概述 (1)
1.1 ⼤数据概述 (1)
1.1.1 ⼤数据的定义和特征 (1)
1.1.2 ⼤数据处理的过程 (2)
1.1.3⼤数据的职业岗位 (3)
1.2云计算——⼤数据的处理架构 (3)
1.2.1 云计算的定义和特点 (4)
1.2.2 云计算的体系结构 (5)
1.2.3 云计算的分类 (6)
1.2.4 虚拟化技术 (8)
1.3 Hadoop⼤数据处理平台 (10)
1.3.1 Hadoop的发展历史及版本 (11)
1.3.2 HDFS⽂件系统的组成 (12)
1.3.3 HDFS读取和写⼊⽂件 (14)
1.3.4 MapReduce并⾏编程框架 (15)
1.3.5 Yarn资源管理器 (19)
1.3.6 Hadoop⽣态系统及其安装 (21)
1.5 ⼤数据分析概述 (23)
1.5.1⼤数据分析的⽅法 (23)
1.5.2 ⼤数据分析的种类 (24)
1.5.3 ⼤数据分析的层次 (25)
1.5.4 ⼤数据分析的⼯具 (26)
1.5.5 ⼤数据分析⾯临的挑战 (27)
1.5.6⼤数据分析的数据类型 (28)
1.6 Nosql数据库 (29)
习题 (31)
实验 (33)
第2章Python数据分析与可视化基础 (34)
2.1 Python程序⼊门 (34)
2.1.1 ⼀些简单的Python程序 (34)
2.1.2 序列数据结构 (36)
2.1.3 序列处理函数 (38)
2.1.4 函数和类 (39)
2.2 Python数据分析⼯具 (42)
2.2.1 Anaconda的使⽤ (42)
2.2.2 Spyder集成开发环境 (42)
2.2.3 Numpy库 (43)
2.3 数据可视化——基于MatPlotLib库 (47)
2.3.1绘制曲线图 (47)
2.3.2绘制散点图等其他图形 (52)
2.4 SciPy库 (56)
2.5 Sklearn库 (59)
2.5.1 机器学习的概念和⽅法 (59)
2.5.2 样本及样本的划分 (61)
2.5.3 导⼊或创建数据集 (64)
2.5.4 数据预处理 (67)
mysql的password忘了2.5.5 数据的降维 (70)
2.5.6 调⽤机器学习模型 (72)
习题 (73)
实验 (74)
python入门教程视屏第3章 关联规则与推荐算法 (75)
3.1 关联规则挖掘 (75)
3.1.1 基本概念 (75)
3.1.2 Apriori算法 (77)
3.1.3 Apriori算法的程序实现 (81)
3.1.4 Fp-Growth算法 (82)
3.2 推荐系统及算法 (85)
3.2.1 协同过滤推荐算法 (86)
3.2.2协同过滤推荐算法应⽤实例 (89)
3.2.3推荐算法的MapReduce实现 (92)
3.2.4协同过滤算法的Sklearn实现 (94)
习题 (97)
实验 (98)
第4章 聚类算法及其应⽤ (99)
4.1 聚类的原理与实现 (99)
4.1.1 聚类的概念和类型 (99)
4.1.2 如何度量距离 (99)
4.1.3 聚类的基本步骤 (103)
4.2 层次聚类算法 (106)
4.2.1 层次聚类法举例 (106)
4.2.2 层次聚类法Sklearn实现 (108)
4.3 K-means聚类算法 (112)
4.3.1 K-means聚类算法原理和实例 (112)
4.3.2 K-means聚类算法的Sklearn实现 (117)
4.4 K-medoids聚类算法 (119)
4.4.1 K-medoids聚类算法原理和实例 (119)
4.4.2 K-medoids聚类算法的Sklearn实现 (123)
4.5 DBSCAN聚类算法 (124)
4.5.1 DBSCAN聚类算法原理和实例 (124)
4.5.2 DBSCAN聚类算法的Sklearn实现 (129)
习题 (130)
实验 (131)
enterprise怎么读maya建模素材免费网站第5章 分类算法及其应⽤ (131)
5.1 分类的基本原理 (131)
5.1.1 分类与聚类的区别 (131)
5.1.2 分类的步骤 (132)
5.1.3 分类模型预测结果的评估 (134)
5.1.4 Sklearn库的常⽤分类算法 (135)
5.2 K-近邻分类算法 (135)
5.2.1 K-近邻算法原理和实例 (136)
5.2.2 Sklearn中分类模型的编程步骤 (139)
5.2.3 K-近邻分类的Sklearn实现 (141)
5.2.4 绘制分类边界图 (143)
5.2.5 确定最优的k值 (145)
5.3 朴素贝叶斯分类算法 (146)
5.3.1 朴素贝叶斯原理与实例 (146)
5.3.2 朴素贝叶斯分类的常见问题 (150)
5.3.3 朴素贝叶斯算法的Sklearn实现 (152)
5.4 决策树分类算法 (154)
5.4.1 信息论基础 (155)
5.4.2 ID3算法 (159)
5.4.3 C4.5算法 (163)
5.4.4 CART算法 (166)
5.4.5决策树分类算法的Sklearn程序实现 (168)
5.5 随机森林分类算法 (170)
5.5.1 集成学习理论 (170)
5.5.2 随机森林分类的理论与实例 (172)
5.5.3 随机森林分类算法的Sklearn实现 (178)
习题 (180)
实验 (181)
第6章 回归与逻辑回归 (182)
6.1 线性回归 (182)
6.1.1 相关与回归 (182)
6.1.2线性回归分析 (183)
6.1.3线性回归⽅程参数的求法 (184)
6.1.4线性回归模型的Sklearn实现 (189)
6.2 逻辑回归 (193)
6.2.1线性分类模型的原理 (193)
6.2.2 逻辑回归模型及实例 (195)
6.2.3 逻辑回归模型的Sklearn实现 (198)
习题 (203)
实验 (203)
第7章 ⼈⼯神经⽹络 (204)
7.1 神经元与感知机 (204)
7.1.1 ⼈⼯神经元与逻辑回归模型 (205)
7.1.2 感知机模型 (205)
7.1.3 感知机模型的Python实现 (207)
7.1.4 多层感知机模型 (209)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论