pyspark读取⽂件路径和⽂件代码:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @author  : 何⼩义
import sys
reload(sys)
import nerspark
sys.setdefaultencoding('utf8')
import os
import json
# 本地spark (ps:要改成读者的spark路径)
sys.path.append("/usr/spark-2.0.1/python")
sys.path.append("/usr/spark-2.0.1/python/bin")
try:
from pyspark import SparkContext
from pyspark import SparkConf
from pyspark.sql import SparkSession
from pyspark.sql import SQLContext
from pyspark.sql import DataFrame
from pyspark.sql import Row
session如何设置和读取
print("Successfully imported Spark Modules")
except ImportError as e:
print("Can not import Spark Modules", e)
from pyspark.sql import SparkSession
# === spark读取⽂件 ====================================================
# 配置spark(服务器)
# spark = SparkSession.builder.master(服务器_URL).appName("hzy_test_script").getOrCreate()
# 配置spark(本机)
spark = SparkSession.builder.master('local').appName("hzy_test_script").getOrCreate()
sc = spark.sparkContext
# rdd_data = sc.textFile("xxx.t*xt")  # ⽂件内容
rdd_data = sc.wholetextFile("xxx.t*xt") # ⽂件path + 内容
result = rdd_data.take(10)
print(result)
print('完成...')
注:
1. data_rdd = sc.textFiles('')  # 读⼊⽂件内容,返回的东西是rdd
2. path_data_rdd = sc.wholeTextFile((''))  # 不仅读⼊⽂件内容,还会读⼊⽂件的路径path

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。