【Spark】Spark常见错误问题汇总(~持续更新)
⼀、SparkSQL相关
1.在执⾏insert 语句时报错,堆栈信息为:FileSystem closed。常常出现在ThriftServer⾥⾯。
原因:由于 获得的FileSystem会从缓存加载,如果多线程⼀个线程closedFileSystem会导致该BUG 解决:hdfs存在不从缓存加载的解决⽅式,在l 配置 fs.hdfs.impl.disable.cache=true即可
2.在执⾏Spark过程中抛出:Failed to bigdata010108:33381,caused by:java.nio.channels.unresolvedAdderssException
原因:该原因是由于hosts未配置,导致不识别
解决⽅法:修改相应的机器的host即可
3.在执⾏Sparksql操作orc类型的表时抛出:java.lang.IndexOutOfBoundsException 或 java.lang.NullPointerException
原因:分区或者表下存在空的orc⽂件。该BUG在Spark2.3.0之后才修复
解决⽅法:规避解决。修改ORC的默认分割策略为:split.strategy=BI进⾏解决。Orc的分split有3种策略(ETL、BI、HYBIRD),默认是HYBIRD(混合模式,根据⽂件⼤⼩和⽂件个数⾃动选择ETL还是BI模式),BI模式是按照⽂件个数来分split
4.Spark-sql和ThriftServer使⽤时报错:Java.socketTimeOutException:read time out
原因:是由于hivemetastore过于繁忙或者gc导致连接超时
解决⽅法:
spark-sql解决:astore.client.socket.timeout将该参数调⼤。
ThriftServer解决办法:在获得⼀个Connection之前加上:DriverManager.setLoginTimeout(100)
5.操作snappy压缩的表时抛出:java.lang.RuntimeException: native snappy library not available: this version of libhadoop was built without snappy support.
原因:是由于没有在java.library.path上加上snappy库
解决⽅法:修改f配置⽂件加上:
或者
6.Spark-sql在执⾏时将⼀个很⼩的⽂件拆分成了20个task进⾏运⾏,导致运⾏速度太慢。
原因:是由于HaddopRDD⽣成过程中partitions是会拿参数mapreduce.job.maps或mapred.map.tasks(20)和spark默认分区数
(2)做最⼤值⽐较,所以导致默认为20
解决⽅法:修改该参数就可以将task降下来。
7.ThriftServer登录异常:javax.security.sasl.AuthenticationException: Error validating LDAP user
原因:是由于密码错误或者LDAP服务异常
解决⽅法:解决密码和验证问题
8.使⽤jdbc的⽅式连接到ThriftServer,可以执⾏类似与show tabls的等操作,但是不能执⾏select相关的操作:java.io.IOException: Failed to create local dir in /tmp/blockmgr-adb70127-0a28-4256-a205-c575acc74f9d/06.
原因:⽤户很久没使⽤ThriftServer导致系统清理了该上级⽬录或者⽤户根本就对该⽬录没有写权限
解决⽅法:重启ThriftServer和设置⽬录权限:spark.local.dir
9.在Spark SQL中运⾏的SQL语句过于复杂的话,会出现 java.lang.StackOverflowError 异常
原因:这是因为程序运⾏的时候 Stack ⼤⼩⼤于 JVM 的设置⼤⼩
解决⽅法:通过在启动 Spark-sql 的时候加上 --driver-java-options “-Xss10m” 选项解决这个问题
10.INSERT INTO重复执⾏出现:
Unable to move source hdfs://bigdata05/tmp/hive-hduser1101_hive_2017-09-11_14-50-
56_038_2358196375683362770-82/-ext-10000/part-00000 to destination hdfs://bigdata05/user/hive
原因:该问题是2.1.0的Bug,在Spark2.1.1中已经解决2.1.0。
解决⽅法:2.1.0规避办法INSERT OVERWRITE不带分区重复执⾏不会出现问题
11.执⾏⼤数据量的join等操作时出现:
1.Missing an output location for shuffle;
2.Failed to connect to bigdata030015/100.10
3.131.13:38742;
3.FileNotFoundException……(not such file or directory)。
4.Container killed on request. Exit code is 143
原因:shuffle分为shuffle write和shuffle read两部分。
shuffle write的分区数由上⼀阶段的RDD分区数控制,shuffle read的分区数则是由Spark提供的⼀些参数控制。shuffle write可以简单理解为类似于saveAsLocalDiskFile的操作,将计算的中间结果按某种规则临时放到各个executor所在的本地磁盘上。
shuffle read的时候数据的分区数则是由spark提供的⼀些参数控制。可以想到的是,如果这个参数值设
置的很⼩,同时shuffle read的量很⼤,那么将会导致⼀个task需要处理的数据⾮常⼤。结果导致JVM crash(OOM),从⽽导致取shuffle数据失败,同时executor也丢失了,看到Failed to connect to host的错误,也就是executor lost的意思。有时候即使不会导致JVM crash也会造成长时间的gc
解决⽅法:
1. 调优sql。
2.SparkSQL和DataFrame的join,group by等操作通过spark.sql.shuffle.partitions控制分区数,默认为200,根据shuffle的量以
及计算的复杂度提⾼这个值。
3.Rdd的join,groupBy,reduceByKey等操作,通过spark.default.parallelism控制shuffle read与reduce处理的分区数,设置⼤⼀
点。
4.通过提⾼executor的内存设置适当提⾼executor的memory值。
5.判断join过程中是否存在数据倾斜的问题:可以参考链接:
12. Sparksql使⽤过程中Executor端抛出:java.lang.OutOfMemoryError: GC overhead limit exceeded
原因:这是由于⼤部分事件都在GC,导致OOM。
解决⽅法:加⼤执⾏器内存,修改GC策略aJavaOptions -XX:+UseG1GC
13.hiveserver2和SparkThriftServer使⽤操作orc表的时候报错A⽤户⽆法访问B⽤户的⽬录。
原因:这是由于orc 在进⾏Split过冲中会进⾏⽤户缓存。ORC在hive1.2.1时的BUG,在hive2.X和Spark2.3.X版本后进⾏了解决解决⽅法:暂时规避⽅法⽐较暴⼒,
1、先使⽤超级⽤户进⾏第⼀次查询,导致缓存的⽤户为超级⽤户。
2、设置hive.version=none不进⾏缓存
14.spark-sql在使⽤过程中⼩数据量查询很慢,查看sparkUI显⽰每个Task处理都很快,但是都隔了3秒进⾏调度导致整体很慢。
原因:这是由于数据本地性导致的,默认spark.locality.wait为3秒
解决⽅法:设置该参数为0即可加快速度,只有在数据量较⼩的情况下才建议这样设置。
⼆.Spark core相关
1.spark on yarn启动spark-sql 和spark-submit时出现:
thrift
java.lang.NoClassDefFoundError: com/sun/jersey/api/client/config/ClientConfig
原因:和yarn相关Jersey包冲突
解决⽅法:配置上–conf spark.hadoop.abled=false
2.在使⽤Spark过程中出现:java.io.IOException: No space left on device
原因:⼀般是由于Spark的tmp⽬录满了导致
解决⽅法:可以将该⽬录空间设置⼤点,⽀持按逗号分割多个⽬录:spark.local.dir
3.超出最⼤结果集:is bigger than spark.driver.maxResultSize (2.0GB)
原因:spark.driver.maxResultSize默认配置为1G
解决⽅法:调⼤该参数即可
4.常见OOM:java.lang.OutOfMemoryError: Java heap space
原因:
1、数据量太⼤,申请的Executor资源不⾜以⽀撑。
2.单分区的数据量过⼤,和分区数过多导致执⾏task和job存储的信息过多导致Driver OutOfMemoryError
解决⽅法:
1、尽量不要使⽤collect操作。
2、查看数据是否有倾斜,增加shuffle的并⾏度,加⼤Executor内存
5.由Executor的FullGC引起Executor lost,task失败,各种超时:Futures timed out after【120S】
原因:⼀般是由于Executor处理数据量过⼤如倾斜导致,从⽽使Executor full gc导致时间超时,Executor 和 task 的lost 解决⽅法:
1、如果通过查看Executor的⽇志是full GC导致,适当调优SQL,加⼤Executor内存。
2、如果没有fullGC考虑提⾼:sparkwork.timeout
6.jar包版本冲突时:java.lang.ClassNotFoundException: XXX
原因:⼀般可能是⽤户jar和Spark jar冲突
解决⽅法:1、最好和Spark相关的jar进⾏适配。2、如果不⾏可以使⽤参数:spark.driver.userClassPathFirst和
7.进⾏shuffle抛出:Shuffle Fetch Failed: OOM
原因:Shuffle fetch阶段开启的fetch数据量过⼤导致
解决⽅法:1、加⼤Executor内存。2、将参数duce.maxSizeInFlight调⼩,默认48M
8.shuffle报org.apache.spark.shuffle.FetchFailedException: Direct buffer memory
原因:堆外内存不够导致,直接内存
解决⽅法:增⼤JVM 参数-XX:MaxDirectMemorySize(如:aJavaOptions = -
XX:MaxDirectMemorySize=xxxm)
9.集节点异常导致Spark job失败,如磁盘只读。
原因:Spark 是⼀个⾼性能、容错的分布式计算框架,⼀旦它知道某个计算所在的机器出现问题会依据之前⽣成的 lineage 重新在这台机器上调度这个 Task,如果超过失败次数就会导致job失败。
解决⽅法:Spark有⿊名单机制,在超出⼀定次数的失败后不会往该节点或者Executor调度Task。设置相应Black参数:
abled=true
三.Pyspark相关
1.driver python和Executor Python版本不⼀致问题
原因:pyspark要求所有的Executor运⾏的python版本⼀致
解决⽅法:
指定python的运⾏路径:spark.pyspark.python /data/Install/Anaconda2Install/Anaconda3-5.1.0/bin/p
ython
或者
env配置上:export PYSPARK_PYTHON=/data/Install/Anaconda2Install/Anaconda3-5.1.0/bin/python;export
PYSPARK_DRIVER_PYTHON=/data/Install/Anaconda2Install/Anaconda3-5.1.0/bin/python
2.Pyspark使⽤过程中出现:RDD时出现序列化pickle.load(obj)报错,EOFError。有时可以,在local也可以。
原因:在on yarn时,机器上也有安装相关的Spark。导致包冲突
解决⽅法:删除nodeManager上的Spark安装路径就可以解决
3.运⾏RDD操作时报Randomness of hash of string should be disabled via PYTHONHASHSEED mean in pyspark
原因:这是由于各个Executor的Hash随机值不⼀样导致。
解决⽅法:只需要指定各Executor的PYTHONHASHSEED环境变量即可如:–conf
四.Streaming相关
1.消费kafka时,第⼀个job读取了现有所有的消息,导致第⼀个Job处理过久甚⾄失败
原因:set设置为了earliest 从最早的offset开始进⾏消费,也没有设置
spark.streaming.kafka.maxRatePerPartition参数
解决⽅法:指定从之前开始消费的数据开始:设置offsetRange。并将参数设置为:set=latest 设置Spark每个分区的速率。
2.尽量使⽤⾼性能算⼦
使⽤reduceByKey/aggregateByKey替代groupByKey
使⽤mapPartitions替代普通map
使⽤foreachPartitions替代foreach
使⽤filter之后进⾏coalesce操作
使⽤repartitionAndSortWithinPartitions替代repartition与sort类操作
3.Streaming如果存在多个Batch延迟时,消费不过来。有时会报出:Hbase相关的异常如:RegionTooBusyException
原因:Streaming在进⾏处理时如果单个Batch读取的数据多,会导致计算延迟甚⾄导致存储组件性能压⼒
解决⽅法:
1、如果是计算延迟试着调整读取速率如:spark.streaming.kafka.maxRatePerPartition参数
2、调优存储组件的性能
3、开启Spark的反压机制:spark.abled,该参数会⾃动调优读取速率。但是如果设置了
iver.maxRate 或 spark.streaming.kafka.maxRatePerPartition,那么最后到底接收多少数据取决于三者的最⼩值
4.消费kafka时,读取消息报错:OffsetOutOfRangeException
原因:读取的offsetRange超出了Kafka的消息范围,如果是⼩于也就是kafka保存的消息已经被处理掉了(ion.hours)。
或者超出Kafka现有的offset
解决⽅法:在读取offset时先进⾏校正,拿到offset的earliestOffset 和lastestOffset
5.Kafka抖动导致No leader found
kafka变更或者其他原因导致
解决⽅法:设置 spark.streaming.kafka.maxRetries ⼤于1

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。