用IDEAjava编写的spark读取csv文件代码--688IT编程网

⽤IDEAjava编写的spark读取csv⽂件代码使⽤IDEA2019.3.3版本，jdk1.8 创建maven项⽬

直接上⼲粮：

1. 配置 l

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="/POM/4.0.0"

xmlns:xsi="/2001/XMLSchema-instance"

xsi:schemaLocation="/POM/4.0.0 /xsd/maven-4.0.0.xsd">

<groupId&le</groupId>

<artifactId>JavaDemo</artifactId>

<version>1.0-SNAPSHOT</version>

<spark.version>2.3.1</spark.version>

<scala.version>2.11</scala.version>

<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>

<mavenpiler.source>1.8</mavenpiler.source>

<mavenpiler.target>1.8</mavenpiler.target>

</properties>

<groupId>org.apache.spark</groupId>

<artifactId>spark-core_${scala.version}</artifactId>

<version>${spark.version}</version>

</dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-sql_${scala.version}</artifactId>

<version>${spark.version}</version>

</dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-hive_${scala.version}</artifactId>

<version>${spark.version}</version>

</dependency>

<groupId>mysql</groupId>

<artifactId>mysql-connector-java</artifactId>

</dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-streaming_${scala.version}</artifactId>

<version>${spark.version}</version>

</dependency>

<groupId>com.databricks</groupId>

<artifactId>spark-csv_2.10</artifactId>

</dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-mllib-local_${scala.version}</artifactId>

<version>${spark.version}</version>

</dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-streaming-kafka-0-10_2.11</artifactId> <version>2.3.1</version>

</dependency>

<groupId>org.apache.kafka</groupId>

<artifactId>kafka-clients</artifactId>

</dependency>

<groupId>redis.clients</groupId>

<artifactId>jedis</artifactId>

</dependency>

</dependency>

<groupId&le.collections</groupId>

<artifactId>google-collections</artifactId>

</dependency>

<groupId>junit</groupId>

<artifactId>junit</artifactId>

</dependency>

<groupId>org.specs</groupId>

<artifactId>specs</artifactId>

</dependency>

</dependencies>

</project>

------------------------------------------------------------------------java 代码：

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaSparkContext;

java怎么编写

import org.apache.spark.sql.Dataset;

import org.apache.spark.sql.SQLContext;

import java.util.HashMap;

public class SparkCsvDemo {

public static void main(String[] args) {

String hdfsInAddress = "D:\\AWS\\";//"hdfs://192.168.209.129:9000/";

String inputAddress = "";//

String csvFileName="emr-demo-data.csv";

SparkConf conf = new SparkConf().setMaster("local").setAppName("TestSpark");

System.out.println("==================");

JavaSparkContext sc = new JavaSparkContext(conf);

SQLContext sqlContext = new SQLContext(sc);

HashMap<String,String> options = new HashMap<String,String> ();

options.put("header", "true");

//options.put("path", hdfsInAddress + inputAddress + filePath);

options.put("path", hdfsInAddress + inputAddress + csvFileName);

System.out.println("打印上传⽂件在hdfs的路径："+hdfsInAddress + inputAddress + csvFileName);

Dataset dataFrame = sqlContext.load("com.databricks.spark.csv", options);

// DataFrame cars = (new CsvParser()).withUseHeader(true).csvFile(sqlContext, "cars.csv");//通过CsvParser⾥⾯的函数来读取CSV⽂件 isterTempTable("prodinst");

//DistributorTier 是csv⽂件中的列头名，列中值含有'T1'

//csv 必需是UTF8编码格式的，具体怎么转编码格式请百度

Dataset resultFrame=sqlContext.sql("select * from prodinst where DistributorTier= 'T1' ");

System.out.println("***************⽤Dataset打印*peopleScore********"+resultFrame.limit(10).showString(20,0,false));

sc.stop();

}

------------------------------------------------------------------------运⾏可打印出csv结果-----------------------

688IT编程网

用IDEAjava编写的spark读取csv文件代码

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

用IDEAjava编写的spark读取csv文件代码

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式