python⼤数据hadoop_Python+Spark2.0+Hadoop机器学习与
⼤数。。。
编辑推荐
1.Hadoop集安装与分散式运算和存储介绍通过实机操作,学会如何安装Virtual Box、Ubuntu Linux、Hadoop单机与多台机器集安装,并学会使⽤HDFS分散式存储与MapReduce分散式运算。
2.Python Spark 2.0安装通过实机操作,学会安装Spark 2.0,并在本机与多台机器集执⾏Python Spark应⽤程序。同时介绍如何在iPython Notebook互动界⾯执⾏Python Spark指令。安装eclipse整合开发界⾯,开发Python Spark应⽤程序,⼤幅提升程序开发⽣产⼒。
3.Python Spark SQL、DataFrame数据统计与数据可视化Spark SQL 即使⾮程序设计⼈员,只需要懂得SQL语法,就可以使⽤。DataFrame API 可使⽤类SQL的⽅法,如select()、groupby()、count(),很容易进⾏统计,⼤幅降低⼤数据分析的学习门槛。Spark DataFrame可转换为Pandas DataFrame,运⽤Python丰富的数据可视化组件(例如matplotlib)进⾏数据可视化。
4.Python Spark MLlib机器学习以⼤数据分析实际案例MoiveLens、StumbleUpon、CovType、BikeSharing介绍如何使⽤Python Spark运⽤机器学习演算法进⾏数据处理、训练、建⽴模型、训练验证
出*模型、预测结果。
5.Python Spark ML Pipeline机器学习流程以⼤数据实际案例⽰范使⽤Python Spark ML Pipeline机器学习流程进⾏⼆元分类、多元分类、回归分析,将机器学习的每⼀个步骤建⽴成Pipeline流程:数据处理 →运算法训练数据→建⽴模型→出*模型→预测结果。Spark ML Pipeline 通过内建数据处理模块与机器学习运算法,减轻数据分析师在程序设计上的负担。
内容简介
本书从浅显易懂的“⼤数据和机器学习”原理说明⼊⼿,讲述⼤数据和机器学习的基本概念,如分类、分析、训练、建模、预测、机器学习(推荐引擎)、机器学习(⼆元分类)、机器学习(多元分类)、机器学习(回归分析)和数据可视化应⽤等。书中不仅加⼊了新近的⼤数据技术,还丰富了“机器学习”内容。 为降低读者学习⼤数据技术的门槛,书中提供了丰富的上机实践操作和范例程序详解,展⽰了如何在单机Windows系统上通过Virtual Box虚拟机安装多机Linux虚拟机,如何建⽴Hadoop集,再建⽴Spark开发环境。书中介绍搭建的上机实践平台并不限制于单台实体计算机。对于有条件的公司和学校,参照书中介绍的搭建过程,同样可以实现将⾃⼰的平台搭建在多台实体计算机上,以便更加接近于⼤数据和机器学习真实的运⾏环境。 本书⾮常适合于学习⼤数据基础知识的初学者阅读,更适合正在学习⼤数据理论和技术的⼈员作为上机实践⽤的教材。
作者简介
林⼤贵,从事IT⾏业多年,在系统设计、⽹站开发、数字营销、商业智慧、⼤数据、机器学习等领域具有丰富的实战经验。
⽬ 录
⽬ 录
第1章 Python Spark机器学习与Hadoop⼤数据 1
1.1 机器学习的介绍 2
1.2 Spark的介绍 5
1.3 Spark数据处理 RDD、DataFrame、Spark SQL 7
1.4 使⽤Python开发 Spark机器学习与⼤数据应⽤ 8
1.5 Python Spark 机器学习 9
1.6 Spark ML Pipeline机器学习流程介绍 10
1.7 Spark
2.0的介绍 12
1.8 ⼤数据定义 13
1.9 Hadoop 简介 14
1.10 Hadoop HDFS分布式⽂件系统 14
1.11 Hadoop MapReduce的介绍 17
1.12 结论 18
第2章 VirtualBox虚拟机软件的安装 19
2.1 VirtualBox的下载和安装 20
2.2 设置VirtualBox存储⽂件夹 23
2.3 在VirtualBox创建虚拟机 25
2.4 结论 29
第3章 Ubuntu Linux 操作系统的安装 30
3.1 Ubuntu Linux 操作系统的安装 31
视图分为哪几种设计次序3.2 在Virtual设置Ubuntu虚拟光盘⽂件 33
3.3 开始安装Ubuntu 35
3.4 启动Ubuntu 40
3.5 安装增强功能 41
3.6 设置默认输⼊法 45
3.7 设置“终端”程序 48
3.8 设置“终端”程序为⽩底⿊字 49
3.9 设置共享剪贴板 50
3.10 设置最佳下载服务器 52
3.11 结论 56
第4章 Hadoop Single Node Cluster的安装 57
4.1 安装JDK 58
4.2 设置SSH⽆密码登录 61
4.3 下载安装Hadoop 64
4.4 设置Hadoop环境变量 67
4.5 修改Hadoop配置设置⽂件 69
4.6 创建并格式化HDFS⽬录 73
4.7 启动Hadoop 74
4.8 打开HadoopResource-Manager Web界⾯ 76 4.9 NameNode HDFS Web界⾯ 78
4.10 结论 79
第5章 Hadoop Multi Node Cluster的安装 80
5.1 把Single NodeCluster复制到data1 83
5.2 设置VirtualBox⽹卡 84
5.3 设置data1服务器 87
5.4 复制data1服务器到data2、data3、master 94 5.5 设置data2服务器 97
5.6 设置data3服务器 100
5.7 设置master服务器 102
5.8 master连接到data1、data2、data3 创建HDFS⽬录 107 5.9 创建并格式化NameNodeHDFS⽬录 110
5.10 启动Hadoop Multi Node Cluster 112
5.11 打开Hadoop ResourceManager Web界⾯ 114
5.12 打开NameNode Web界⾯ 115
5.13 停⽌Hadoop Multi Node Cluster 116
5.14 结论 116
第 6 章 Hadoop HDFS命令 117
6.1 启动HadoopMulti-Node Cluster 118
6.2 创建与查看HDFS⽬录 120
6.3 从本地计算机复制⽂件到HDFS 122
6.4 将HDFS上的⽂件复制到本地计算机 127
6.5 复制与删除HDFS⽂件 129
python教材下载6.6 在Hadoop HDFSWeb⽤户界⾯浏览HDFS 131
6.7 结论 134
第7章 Hadoop MapReduce 135
7.1 简单介绍WordCount.java 136
7.2 编辑WordCount.java 137
7.3 编译WordCount.java 141
7.4 创建测试⽂本⽂件 143
7.5 运⾏WordCount.java 145
7.6 查看运⾏结果 146
7.7 结论 147
第8章 Python Spark的介绍与安装 148
8.1 Scala的介绍与安装 150
8.2 安装Spark 153
8.3 启动pyspark交互式界⾯ 156
8.4 设置pyspark显⽰信息 157
8.5 创建测试⽤的⽂本⽂件 159
8.6 本地运⾏pyspark程序 161
8.7 在Hadoop YARN运⾏pyspark 163
8.8 构建SparkStandalone Cluster运⾏环境 165
8.9 在SparkStandalone运⾏pyspark 171
8.10 Spark Web UI界⾯ 173
8.11 结论 175
第9章 在 IPythonNotebook 运⾏ Python Spark 程序 176
9.1 安装Anaconda 177
9.2 在IPythonNotebook使⽤Spark 180
核酸检测结果异常9.3 打开IPythonNotebook笔记本 184
jqgrid使用教程9.4 插⼊程序单元格 185
9.5 加⼊注释与设置程序代码说明标题 186
9.6 关闭IPythonNotebook 188
9.7 使⽤IPythonNotebook在Hadoop YARN-client模式运⾏ 189 9.8 使⽤IPythonNotebook在Spark Stand Alone模式运⾏ 192 9.9 整理在不同的模式运⾏IPythonNotebook的命令 194
9.9.1 在 Local 启动 IPython Notebook 195
9.9.2 在Hadoop YARN-client 模式启动 IPython Notebook 195 9.9.3 在Spark Stand Alone 模式启动 IPython Notebook 195 9.10 结论 196
第10章 Python Spark RDD 197
10.1 RDD的特性 198
10.2 开启IPython Notebook 199
10.3 基本RDD“转换”运算 201
10.4 多个RDD“转换”运算 206
10.5 基本“动作”运算 208
10.6 RDD Key-Value 基本“转换”运算 209
10.7 多个RDD Key-Value“转换”运算 212
10.8 Key-Value“动作”运算 215
10.9 Broadcast ⼴播变量 217
10.10 accumulator累加器 220
10.11 RDD Persistence持久化 221
10.12 使⽤Spark创建WordCount 223
10.13 Spark WordCount详细解说 226
10.14 结论 228
django rest framework中文文档第11章 Python Spark的集成开发环境 229
11.1 下载与安装eclipse Scala IDE 232
11.2 安装PyDev 235
11.3 设置字符串替代变量 240
11.4 PyDev 设置 Python 链接库 243
11.5 PyDev设置anaconda2链接库路径 245
11.6 PyDev设置Spark Python链接库 247
11.7 PyDev设置环境变量 248
11.8 新建PyDev项⽬ 251
11.9 加⼊WordCount.py程序 253
11.10 输⼊WordCount.py程序 254
11.11 创建测试⽂件并上传⾄HDFS⽬录 257
11.12 使⽤spark-submit执⾏WordCount程序 259
11.13 在Hadoop YARN-client上运⾏WordCount程序 261
11.14 在Spark Standalone Cluster上运⾏WordCount程序 264 11.15 在eclipse外部⼯具运⾏Python Spark程序 267
11.16 在eclipse运⾏spark-submit YARN-client 273
11.17 在eclipse运⾏spark-submit Standalone 277
11.18 结论 280
第12章 Python Spark创建推荐引擎 281
12.1 推荐算法介绍 282
12.2 “推荐引擎”⼤数据分析使⽤场景 282
12.3 ALS推荐算法的介绍 283
12.4 如何搜索数据 285
12.5 启动IPython Notebook 289
12.6 如何准备数据 290
11012.7 如何训练模型 294
12.8 如何使⽤模型进⾏推荐 295
12.9 显⽰推荐的电影名称 297
12.10 创建Recommend项⽬ 299
12.11 运⾏RecommendTrain.py 推荐程序代码 302
12.12 创建Recommend.py推荐程序代码 304
12.13 在eclipse运⾏Recommend.py 307
12.14 结论 310
第13章 Python Spark MLlib决策树⼆元分类 311
13.1 决策树介绍 312
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论