Sqoop的导入及可能遇到的问题--688IT编程网

Sqoop的导⼊及可能遇到的问题

导⼊数据

导⼊到 hdfs例⼦

sqoop import \

#--connect jdbc:mysql://hadoop102:3306/$db_name \

--connect "jdbc:oracle:thin:@ip:1521：服务名" \

--username "xxx" \

--password "xxx" \

--target-dir "$db_dir" \

--delete-target-dir \

--num-mappers 1 \

-fields-terminated-by "\\t" \

--query "$sql"

参数说明

--append数据追加到hdfs已经存在的数据组中。使⽤该参数，sqoop将把数据先导⼊到⼀个临时⽬录中，避免⽂件重名。--as-avrodatafile将数据导⼊到Avro数据⽂件中

--as-sequencefile将数据导⼊到sequence⽂件中

--as-textfile将数据导⼊到普通⽂本⽂件中。最终可以在hive中通过sql语句查询出结果。

--enclosed-by '\"'字段值前后加上指定字符，⽐如双引号

columns<col,col>

指定导⼊的字段，格式如：--columns id,username

-m,--num-

mappers

启动N个map来并⾏导⼊数据，默认是4个，最好不要将数字设置为⾼于集的节点数

--query，-e <sql>sql语句查询结果集。该参数使⽤时必须指定–target-dir、–hive-table，必须在where条件中需要包含\$CONDITIONS。

--boundary-query <statement>边界查询。在导⼊前先通过SQL查询得到⼀个结果集，然后导⼊的数据就是该结果集内的数据。

格式如：--boundary-query 'select id,no from t where id = 3'，表⽰导⼊的数据为id=3的记录，或者select min(<split-by>), max(<split-by>) from <table name>，注意查询的字段中不能有数据类型为字符串的字段，否则会报错

--table <table-

name>

关系数据库表名，数据从该表中获取

--delete-target-dir如果⽬标⽬录存在，先删除⽬录

--target-dir <dir>指定hdfs路径

--fields-

terminated-by

"\t"

每个字段是以什么符号作为结束的，默认是逗号--null-string '\\N' \

--null-non-string

'\\N' \

为了避免空值时，没有数据

--where查询条件，⽰例：--where "id = 2"

-z,--compress 压缩参数，默认情况下数据是没被压缩的，通过该参数可以使⽤gzip压缩算法对数据进⾏压缩，适⽤于SequenceFile, text ⽂本⽂件, 和Avro⽂件

--compression-

codec

Hadoop压缩编码，默认是gzip

--direct 直接导⼊模式，使⽤的是关系数据库⾃带的导⼊导出⼯具。这样导⼊会更快⽀持的数据库类型与版本：

* myslq 5.0 以上

* oracle 10.2.0 以上

--direct-split-size 在使⽤上⾯direct直接导⼊的基础上，对导⼊的流按字节数分块，特别是使⽤直连模式从PostgreSQL导⼊数据的时候，可以将⼀个到达设定⼤⼩的⽂件分为⼏个独⽴的⽂件。

--split-by

表的列名，⽤来切分⼯作单元，⼀般后⾯跟主键ID --inline-lob-limit设定⼤对象数据类型的最⼤值

导⼊Hive

sqoop import \

--connect "jdbc:oracle:thin:@ip:1521：服务名" \

--username "xx" \

--password "xx" \

--query "$sql" \

--hive-table test.view_trjn \

--hive-drop-import-delims \

--target-dir "$db_dir" \

--fields-terminated-by "\\t" \

vim怎么插入真正的表符--hive-overwrite \

--null-string '\\N' \

-null-non-string '\\N' \--hive-import

参数说明

--hive-overwrite覆盖掉在hive表中已经存在的数据--hive-table后⾯接要创建的hive表

–hive-partition-value

“2018-08-08”指定分区表的值

–hive-partition-key “dt”指定分区表的字段

--hive-delims-replacement“ ”导⼊到Hive时，⽤⽤户定义的字符串替换字符串字段中的\n、\r和

\01

--hive-drop-import-delims从字符串字段中删除\n、\r和\01

--hive-import 指定是导⼊ Hive

sqoop数据导出

参数说明

--direct 快速导⼊

--export-dir HDFS 导出数据的⽬录

-m,--num-mappers 都少个 map 线程

--table 导出哪个表

--call 存储过程

--update-key 通过哪个字段来判断更新

--update-mode 插⼊模式，默认是只更新，可以设置为 allowinsert.

--input-null-string 字符类型 null 处理

--input-null-non-string ⾮字符类型 null 处理

--staging-table 临时表

-clear-staging-table 清空临时表

--batch 批量模式

HDFS —> MySQL

sqoop export \

--connect jdbc:mysql://hadoop01:3306/test \

--username hadoop \

--password root \

--table book \

--export-dir /sqoopdata \

--fields-terminated-by ','

hive----> MySQL

sqoop export \

--connect jdbc:mysql://hadoop01:3306/test \

--username hadoop \

--password root \

--table book \

--export-dir /user/hive/warehouse/uv/dt=2011-08-03 \

--input-fileds-terminated-by '\t

hbase---->MySQL

默认的没有命令直接将hbase中的数据导⼊到MySQL，因为在hbase中的表数据量通常⽐较⼤，如果⼀次性导⼊到MySQL，可能导致MySQL直接崩溃。

但是可以⽤别的办法进⾏导⼊：

将 Hbase 数据，扁平化成 HDFS ⽂件，然后再由 sqoop 导⼊将 Hbase 数据导⼊ Hive 表中，然后再导⼊ mysql 直接使⽤ Hbase 的 Java API 读取表数据，直接向 mysql 导⼊，不需要使⽤ sqoop

FAQ

在使⽤sqoop从oracle导数到hive，报错：sqoop could not load db driver

class:oracle.jdbc.OracleDriver

在安装sqoop server的节点上放oracle的驱动包

/opt/cloudera/parcels/CDH/lib/sqoop/lib/ojdbc6.jar

并且修改权限为777

Sqoop将Oracle中的数据导⼊到Hive异常如下

20/05/2511:30:55 INFO mapreduce.Job: map 0% reduce 0%

20/05/2511:31:35 INFO mapreduce.Job: Task Id : attempt_1578988458435_7984_m_000000_0, Status : FAILED

Error: java.lang.RuntimeException: java.lang.RuntimeException: java.sql.SQLRecoverableException: IO Error: The Network Adapter could not establish the connection at org.apache.sqoop.mapreduce.db.DBInputFormat.setConf(DBInputFormat.java:167)

at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:76)

at org.apache.hadoop.wInstance(ReflectionUtils.java:136)

at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:751)

at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)

at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:170)

at java.security.AccessController.doPrivileged(Native Method)

at javax.security.auth.Subject.doAs(Subject.java:422)

at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1869)

at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:164)

Caused by: java.lang.RuntimeException: java.sql.SQLRecoverableException: IO Error: The Network Adapter could not establish the connection

at org.apache.sqoop.mapreduce.Connection(DBInputFormat.java:220)

at org.apache.sqoop.mapreduce.db.DBInputFormat.setConf(DBInputFormat.java:165)

... 9more

Caused by: java.sql.SQLRecoverableException: IO Error: The Network Adapter could not establish the connection

at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:458)

at oracle.jdbc.driver.PhysicalConnection.<init>(PhysicalConnection.java:546)

at oracle.jdbc.driver.T4CConnection.<init>(T4CConnection.java:236)

at oracle.jdbc.Connection(T4CDriverExtension.java:32)

at oracle.jdbc.t(OracleDriver.java:521)

at java.Connection(DriverManager.java:664)

at java.Connection(DriverManager.java:247)

at org.apache.sqoop.mapreduce.Connection(DBConfiguration.java:302)

at org.apache.sqoop.mapreduce.Connection(DBInputFormat.java:213)

... 10more

Caused by: oracle.ns.NetException: The Network Adapter could not establish the connection

ute(ConnStrategy.java:392)

solveAndExecute(AddrResolution.java:434)

at oracle.ns.NSProtocol.establishConnection(NSProtocol.java:687)

at oracle.t(NSProtocol.java:247)

at oracle.jdbc.t(T4CConnection.java:1102)

at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:320)

... 18more

Caused by: java.NoRouteToHostException: No route to host (Host unreachable)

at java.PlainSocketImpl.socketConnect(Native Method)

at java.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)

也可能是下⾯的错误

ERROR manager.SqlManager: Error executing statement: java.sql.SQLRecoverableException: IO 错误: Connection reset

java.sql.SQLRecoverableException: IO 错误: Connection reset

at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:467)

at oracle.jdbc.driver.PhysicalConnection.<init>(PhysicalConnection.java:546)

at oracle.jdbc.driver.T4CConnection.<init>(T4CConnection.java:236)

at org.apache.sqoop.Sqoop.main(Sqoop.java:252)

Caused by: java.SocketException: Connection reset

at java.SocketOutputStream.socketWrite(SocketOutputStream.java:113)

at java.SocketOutputStream.write(SocketOutputStream.java:153)

... 25 more

18/09/28 09:46:20 ERROR tool.ImportTool: Import failed: java.io.IOException: No columns to generate for ClassWriter

at org.ate(ClassWriter.java:1664)

进⼊ $JAVA_HOME/jre/lib/security⽬录下的java.security⽂件

cd $JAVA_HOME/jre/lib/security

vim java.security

修改securerandom.source=file:/dev/../dev/urandom，如果这个参数不管⽤改为securerandom.source=file:///dev/urandom 或⼿动添加参数-D mapred.child.java.opts="-d=file:/dev/../dev/urandom"

如果依旧有问题进⾏以下操作

export HADOOP_OPTS=-d=file:/dev/../dev/urandom

sqoop import -D mapred.child.java.opts="-d=file:/dev/../dev/urandom"

先在命令⾏或脚本设置HADOOP_OPTS，然后再执⾏sqoop import就可以了，最好加上mapred.child.java.opts参数，并且在第⼆次导⼊的时候⼀定要加上--hive-overwrite参数。

注：有时候-m需要设置成1才可以。刚开始我将-m设置成2报错，我设置成1就可以了。

在脚本中export…和sqoop import -D mapred.child.java.opts都是不能少的。

This problem occurs primarily due to the lack of a fast random number generation device on the host where the map tasks execute.

688IT编程网

Sqoop的导入及可能遇到的问题

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Sqoop的导入及可能遇到的问题

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式