spark学习:1.textFile函数--688IT编程网

spark学习：1.textFile函数

使⽤前先修改打印等级，不然结果不好看，输出⼀堆INFO信息

text函数什么意思修改path /conf/log4j.properties配置⽂件

1.使⽤ pyspark

本地读取两种⽅式：

dd = sc.textFile("file:///workdir/bak_conf/l")

dd = sc.textFile("/workdir/bak_conf/l")

均出现错误

17/09/0516:03:31 WARN TaskSetManager: Lost task 0.0in stage 1.0 (TID 5, 192.168.120.141, executor 1): java.io.FileNotFoundException: File file:/workd at org.apache.hadoop.fs.RawLocalFileSystem.deprecatedGetFileStatus(RawLocalFileSystem.java:611)

at org.apache.hadoop.FileLinkStatusInternal(RawLocalFileSystem.java:824)

at org.apache.hadoop.FileStatus(RawLocalFileSystem.java:601)

at org.apache.hadoop.FileStatus(FilterFileSystem.java:421)

at org.apache.hadoop.fs.ChecksumFileSystem$ChecksumFSInputChecker.<init>(ChecksumFileSystem.java:142)

at org.apache.hadoop.fs.ChecksumFileSystem.open(ChecksumFileSystem.java:346)

at org.apache.hadoop.fs.FileSystem.open(FileSystem.java:769)

.......(略)

结论：

pyspark下默认为集模式(spark-shell等均相同)，

如果你是在集的环境下运⾏，必须确保所有的节点上的同个⽂件夹都有该⽂件，即你这台物理即上

和其他集物理机上在相同的路径下有

相同的⽂件(试过路径加file://和不加都⼀样)，或者你可以使⽤HDFS

(例sc.textFile(“hdfs://master:9000/workdir/testfile”))就不会出现此问题

2.使⽤spark-submit

local模式：

conf = SparkConf().setMaster("local").setAppName("My test")

使⽤hdfs 和本地都可以

集模式：

conf=SparkConf().setMaster("spark://master:7077").setAppName("My test")

结果与使⽤pyspark相同

发表评论

688IT编程网

spark学习:1.textFile函数

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

spark学习:1.textFile函数

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式