python大数据hadoop_Python+Spark2.0+Hadoop机器学习与大数。。。--688IT编程网

python⼤数据hadoop_Python+Spark2.0+Hadoop机器学习与

⼤数。。。

编辑推荐

1.Hadoop集安装与分散式运算和存储介绍通过实机操作，学会如何安装Virtual Box、Ubuntu Linux、Hadoop单机与多台机器集安装，并学会使⽤HDFS分散式存储与MapReduce分散式运算。

2.Python Spark 2.0安装通过实机操作，学会安装Spark 2.0，并在本机与多台机器集执⾏Python Spark应⽤程序。同时介绍如何在iPython Notebook互动界⾯执⾏Python Spark指令。安装eclipse整合开发界⾯，开发Python Spark应⽤程序，⼤幅提升程序开发⽣产⼒。

3.Python Spark SQL、DataFrame数据统计与数据可视化Spark SQL 即使⾮程序设计⼈员，只需要懂得SQL语法，就可以使⽤。DataFrame API 可使⽤类SQL的⽅法，如select()、groupby()、count()，很容易进⾏统计，⼤幅降低⼤数据分析的学习门槛。Spark DataFrame可转换为Pandas DataFrame，运⽤Python丰富的数据可视化组件(例如matplotlib)进⾏数据可视化。

4.Python Spark MLlib机器学习以⼤数据分析实际案例MoiveLens、StumbleUpon、CovType、BikeSharing介绍如何使⽤Python Spark运⽤机器学习演算法进⾏数据处理、训练、建⽴模型、训练验证

出*模型、预测结果。

5.Python Spark ML Pipeline机器学习流程以⼤数据实际案例⽰范使⽤Python Spark ML Pipeline机器学习流程进⾏⼆元分类、多元分类、回归分析，将机器学习的每⼀个步骤建⽴成Pipeline流程：数据处理 →运算法训练数据→建⽴模型→出*模型→预测结果。Spark ML Pipeline 通过内建数据处理模块与机器学习运算法，减轻数据分析师在程序设计上的负担。

内容简介

本书从浅显易懂的“⼤数据和机器学习”原理说明⼊⼿，讲述⼤数据和机器学习的基本概念，如分类、分析、训练、建模、预测、机器学习(推荐引擎)、机器学习(⼆元分类)、机器学习(多元分类)、机器学习(回归分析)和数据可视化应⽤等。书中不仅加⼊了新近的⼤数据技术，还丰富了“机器学习”内容。为降低读者学习⼤数据技术的门槛，书中提供了丰富的上机实践操作和范例程序详解，展⽰了如何在单机Windows系统上通过Virtual Box虚拟机安装多机Linux虚拟机，如何建⽴Hadoop集，再建⽴Spark开发环境。书中介绍搭建的上机实践平台并不限制于单台实体计算机。对于有条件的公司和学校，参照书中介绍的搭建过程，同样可以实现将⾃⼰的平台搭建在多台实体计算机上，以便更加接近于⼤数据和机器学习真实的运⾏环境。本书⾮常适合于学习⼤数据基础知识的初学者阅读，更适合正在学习⼤数据理论和技术的⼈员作为上机实践⽤的教材。

作者简介

林⼤贵，从事IT⾏业多年，在系统设计、⽹站开发、数字营销、商业智慧、⼤数据、机器学习等领域具有丰富的实战经验。

⽬录

第1章 Python Spark机器学习与Hadoop⼤数据 1

1.1 机器学习的介绍 2

1.2 Spark的介绍 5

1.3 Spark数据处理 RDD、DataFrame、Spark SQL 7

1.4 使⽤Python开发 Spark机器学习与⼤数据应⽤ 8

1.5 Python Spark 机器学习 9

1.6 Spark ML Pipeline机器学习流程介绍 10

1.7 Spark

2.0的介绍 12

1.8 ⼤数据定义 13

1.9 Hadoop 简介 14

1.10 Hadoop HDFS分布式⽂件系统 14

1.11 Hadoop MapReduce的介绍 17

1.12 结论 18

第2章 VirtualBox虚拟机软件的安装 19

2.1 VirtualBox的下载和安装 20

2.2 设置VirtualBox存储⽂件夹 23

2.3 在VirtualBox创建虚拟机 25

2.4 结论 29

第3章 Ubuntu Linux 操作系统的安装 30

3.1 Ubuntu Linux 操作系统的安装 31

视图分为哪几种设计次序

3.2 在Virtual设置Ubuntu虚拟光盘⽂件 33

3.3 开始安装Ubuntu 35

3.4 启动Ubuntu 40

3.5 安装增强功能 41

3.6 设置默认输⼊法 45

3.7 设置“终端”程序 48

3.8 设置“终端”程序为⽩底⿊字 49

3.9 设置共享剪贴板 50

3.10 设置最佳下载服务器 52

3.11 结论 56

第4章 Hadoop Single Node Cluster的安装 57

4.1 安装JDK 58

4.2 设置SSH⽆密码登录 61

4.3 下载安装Hadoop 64

4.4 设置Hadoop环境变量 67

4.5 修改Hadoop配置设置⽂件 69

4.6 创建并格式化HDFS⽬录 73

4.7 启动Hadoop 74

4.8 打开HadoopResource-Manager Web界⾯ 76 4.9 NameNode HDFS Web界⾯ 78

4.10 结论 79

第5章 Hadoop Multi Node Cluster的安装 80

5.1 把Single NodeCluster复制到data1 83

5.2 设置VirtualBox⽹卡 84

5.3 设置data1服务器 87

5.4 复制data1服务器到data2、data3、master 94 5.5 设置data2服务器 97

5.6 设置data3服务器 100

5.7 设置master服务器 102

5.8 master连接到data1、data2、data3 创建HDFS⽬录 107 5.9 创建并格式化NameNodeHDFS⽬录 110

5.10 启动Hadoop Multi Node Cluster 112

5.11 打开Hadoop ResourceManager Web界⾯ 114

5.12 打开NameNode Web界⾯ 115

5.13 停⽌Hadoop Multi Node Cluster 116

5.14 结论 116

第 6 章 Hadoop HDFS命令 117

6.1 启动HadoopMulti-Node Cluster 118

6.2 创建与查看HDFS⽬录 120

6.3 从本地计算机复制⽂件到HDFS 122

6.4 将HDFS上的⽂件复制到本地计算机 127

6.5 复制与删除HDFS⽂件 129

python教材下载6.6 在Hadoop HDFSWeb⽤户界⾯浏览HDFS 131

6.7 结论 134

第7章 Hadoop MapReduce 135

7.1 简单介绍WordCount.java 136

7.2 编辑WordCount.java 137

7.3 编译WordCount.java 141

7.4 创建测试⽂本⽂件 143

7.5 运⾏WordCount.java 145

7.6 查看运⾏结果 146

7.7 结论 147

第8章 Python Spark的介绍与安装 148

8.1 Scala的介绍与安装 150

8.2 安装Spark 153

8.3 启动pyspark交互式界⾯ 156

8.4 设置pyspark显⽰信息 157

8.5 创建测试⽤的⽂本⽂件 159

8.6 本地运⾏pyspark程序 161

8.7 在Hadoop YARN运⾏pyspark 163

8.8 构建SparkStandalone Cluster运⾏环境 165

8.9 在SparkStandalone运⾏pyspark 171

8.10 Spark Web UI界⾯ 173

8.11 结论 175

第9章在 IPythonNotebook 运⾏ Python Spark 程序 176

9.1 安装Anaconda 177

9.2 在IPythonNotebook使⽤Spark 180

核酸检测结果异常9.3 打开IPythonNotebook笔记本 184

jqgrid使用教程9.4 插⼊程序单元格 185

9.5 加⼊注释与设置程序代码说明标题 186

9.6 关闭IPythonNotebook 188

9.7 使⽤IPythonNotebook在Hadoop YARN-client模式运⾏ 189 9.8 使⽤IPythonNotebook在Spark Stand Alone模式运⾏ 192 9.9 整理在不同的模式运⾏IPythonNotebook的命令 194

9.9.1 在 Local 启动 IPython Notebook 195

9.9.2 在Hadoop YARN-client 模式启动 IPython Notebook 195 9.9.3 在Spark Stand Alone 模式启动 IPython Notebook 195 9.10 结论 196

第10章 Python Spark RDD 197

10.1 RDD的特性 198

10.2 开启IPython Notebook 199

10.3 基本RDD“转换”运算 201

10.4 多个RDD“转换”运算 206

10.5 基本“动作”运算 208

10.6 RDD Key-Value 基本“转换”运算 209

10.7 多个RDD Key-Value“转换”运算 212

10.8 Key-Value“动作”运算 215

10.9 Broadcast ⼴播变量 217

10.10 accumulator累加器 220

10.11 RDD Persistence持久化 221

10.12 使⽤Spark创建WordCount 223

10.13 Spark WordCount详细解说 226

10.14 结论 228

django rest framework中文文档

第11章 Python Spark的集成开发环境 229

11.1 下载与安装eclipse Scala IDE 232

11.2 安装PyDev 235

11.3 设置字符串替代变量 240

11.4 PyDev 设置 Python 链接库 243

11.5 PyDev设置anaconda2链接库路径 245

11.6 PyDev设置Spark Python链接库 247

11.7 PyDev设置环境变量 248

11.8 新建PyDev项⽬ 251

11.9 加⼊WordCount.py程序 253

11.10 输⼊WordCount.py程序 254

11.11 创建测试⽂件并上传⾄HDFS⽬录 257

11.12 使⽤spark-submit执⾏WordCount程序 259

11.13 在Hadoop YARN-client上运⾏WordCount程序 261

11.14 在Spark Standalone Cluster上运⾏WordCount程序 264 11.15 在eclipse外部⼯具运⾏Python Spark程序 267

11.16 在eclipse运⾏spark-submit YARN-client 273

11.17 在eclipse运⾏spark-submit Standalone 277

11.18 结论 280

第12章 Python Spark创建推荐引擎 281

12.1 推荐算法介绍 282

12.2 “推荐引擎”⼤数据分析使⽤场景 282

12.3 ALS推荐算法的介绍 283

12.4 如何搜索数据 285

12.5 启动IPython Notebook 289

12.6 如何准备数据 290

110

12.7 如何训练模型 294

12.8 如何使⽤模型进⾏推荐 295

12.9 显⽰推荐的电影名称 297

12.10 创建Recommend项⽬ 299

12.11 运⾏RecommendTrain.py 推荐程序代码 302

12.12 创建Recommend.py推荐程序代码 304

12.13 在eclipse运⾏Recommend.py 307

12.14 结论 310

第13章 Python Spark MLlib决策树⼆元分类 311

13.1 决策树介绍 312

688IT编程网

python大数据hadoop_Python+Spark2.0+Hadoop机器学习与大数。。。

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表