Sqoop的导⼊及可能遇到的问题
导⼊数据
导⼊到 hdfs例⼦
sqoop import \
#--connect jdbc:mysql://hadoop102:3306/$db_name \
--connect "jdbc:oracle:thin:@ip:1521:服务名" \
--username "xxx" \
--password "xxx" \
--target-dir "$db_dir" \
--delete-target-dir \
--num-mappers 1 \
-
-fields-terminated-by "\\t" \
--query "$sql"
参数说明
--append数据追加到hdfs已经存在的数据组中。使⽤该参数,sqoop将把数据先导⼊到⼀个临时⽬录中,避免⽂件重名。--as-avrodatafile将数据导⼊到Avro数据⽂件中
--as-sequencefile将数据导⼊到sequence⽂件中
--as-textfile将数据导⼊到普通⽂本⽂件中。最终可以在hive中通过sql语句查询出结果。
--enclosed-by '\"'字段值前后加上指定字符,⽐如双引号
--
columns<col,col>
指定导⼊的字段,格式如:--columns id,username
-m,--num-
mappers
启动N个map来并⾏导⼊数据,默认是4个,最好不要将数字设置为⾼于集的节点数
--query,-e <sql>sql语句查询结果集。该参数使⽤时必须指定–target-dir、–hive-table,必须在where条件中需要包含\$CONDITIONS。
--boundary-query <statement>边界查询。在导⼊前先通过SQL查询得到⼀个结果集,然后导⼊的数据就是该结果集内的数据。
格式如:--boundary-query 'select id,no from t where id = 3',表⽰导⼊的数据为id=3的记录,或者select min(<split-by>), max(<split-by>) from <table name>,注意查询的字段中不能有数据类型为字符串的字段,否则会报错
--table <table-
name>
关系数据库表名,数据从该表中获取
--delete-target-dir如果⽬标⽬录存在,先删除⽬录
--target-dir <dir>指定hdfs路径
--fields-
terminated-by
"\t"
每个字段是以什么符号作为结束的,默认是逗号--null-string '\\N' \
--null-non-string
'\\N' \
为了避免空值时,没有数据
--where查询条件,⽰例:--where "id = 2"
-z,--compress 压缩参数,默认情况下数据是没被压缩的,通过该参数可以使⽤gzip压缩算法对数据进⾏压缩,适⽤于SequenceFile, text ⽂本⽂件, 和Avro⽂件
--compression-
codec
Hadoop压缩编码,默认是gzip
--direct 直接导⼊模式,使⽤的是关系数据库⾃带的导⼊导出⼯具。这样导⼊会更快⽀持的数据库类型与版本:
* myslq 5.0 以上
* oracle 10.2.0 以上
--direct-split-size 在使⽤上⾯direct直接导⼊的基础上,对导⼊的流按字节数分块,特别是使⽤直连模式从PostgreSQL导⼊数据的时候,可以将⼀个到达设定⼤⼩的⽂件分为⼏个独⽴的⽂件。
--split-by
<column>
表的列名,⽤来切分⼯作单元,⼀般后⾯跟主键ID --inline-lob-limit设定⼤对象数据类型的最⼤值
导⼊Hive
sqoop import \
--connect "jdbc:oracle:thin:@ip:1521:服务名" \
--username "xx" \
--password "xx" \
--query "$sql" \
--hive-table test.view_trjn \
--hive-drop-import-delims \
--target-dir "$db_dir" \
--fields-terminated-by "\\t" \
vim怎么插入真正的表符--hive-overwrite \
--null-string '\\N' \
-
-null-non-string '\\N' \--hive-import
参数说明
--hive-overwrite覆盖掉在hive表中已经存在的数据--hive-table后⾯接要创建的hive表
–hive-partition-value
“2018-08-08”指定分区表的值
–hive-partition-key “dt”指定分区表的字段
--hive-delims-replacement“ ”导⼊到Hive时,⽤⽤户定义的字符串替换字符串字段中的\n、\r和
\01
--hive-drop-import-delims从字符串字段中删除\n、\r和\01
--hive-import 指定是导⼊ Hive
sqoop数据导出
参数说明
--direct 快速导⼊
--export-dir HDFS 导出数据的⽬录
-m,--num-mappers 都少个 map 线程
--table 导出哪个表
--call 存储过程
--update-key 通过哪个字段来判断更新
--update-mode 插⼊模式,默认是只更新,可以设置为 allowinsert.
--input-null-string 字符类型 null 处理
--input-null-non-string ⾮字符类型 null 处理
--staging-table 临时表
-
-clear-staging-table 清空临时表
--batch 批量模式
HDFS —> MySQL
sqoop export \
--connect jdbc:mysql://hadoop01:3306/test \
--username hadoop \
--password root \
--table book \
--export-dir /sqoopdata \
--fields-terminated-by ','
hive----> MySQL
sqoop export \
--connect jdbc:mysql://hadoop01:3306/test \
--username hadoop \
--password root \
--table book \
--export-dir /user/hive/warehouse/uv/dt=2011-08-03 \
--input-fileds-terminated-by '\t
hbase---->MySQL
默认的没有命令直接将hbase中的数据导⼊到MySQL,因为在hbase中的表数据量通常⽐较⼤,如果⼀次性导⼊到MySQL,可能导致MySQL直接崩溃。
但是可以⽤别的办法进⾏导⼊:
将 Hbase 数据,扁平化成 HDFS ⽂件,然后再由 sqoop 导⼊将 Hbase 数据导⼊ Hive 表中,然后再导⼊ mysql 直接使⽤ Hbase 的 Java API 读取表数据,直接向 mysql 导⼊,不需要使⽤ sqoop
FAQ
在使⽤sqoop从oracle导数到hive,报错:sqoop could not load db driver
class:oracle.jdbc.OracleDriver
在安装sqoop server的节点上放oracle的驱动包
/opt/cloudera/parcels/CDH/lib/sqoop/lib/ojdbc6.jar
并且修改权限为777
Sqoop将Oracle中的数据导⼊到Hive异常如下
20/05/2511:30:55 INFO mapreduce.Job: map 0% reduce 0%
20/05/2511:31:35 INFO mapreduce.Job: Task Id : attempt_1578988458435_7984_m_000000_0, Status : FAILED
Error: java.lang.RuntimeException: java.lang.RuntimeException: java.sql.SQLRecoverableException: IO Error: The Network Adapter could not establish the connection at org.apache.sqoop.mapreduce.db.DBInputFormat.setConf(DBInputFormat.java:167)
at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:76)
at org.apache.hadoop.wInstance(ReflectionUtils.java:136)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:751)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)
at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:170)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:422)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1869)
at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:164)
Caused by: java.lang.RuntimeException: java.sql.SQLRecoverableException: IO Error: The Network Adapter could not establish the connection
at org.apache.sqoop.mapreduce.Connection(DBInputFormat.java:220)
at org.apache.sqoop.mapreduce.db.DBInputFormat.setConf(DBInputFormat.java:165)
... 9more
Caused by: java.sql.SQLRecoverableException: IO Error: The Network Adapter could not establish the connection
at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:458)
at oracle.jdbc.driver.PhysicalConnection.<init>(PhysicalConnection.java:546)
at oracle.jdbc.driver.T4CConnection.<init>(T4CConnection.java:236)
at oracle.jdbc.Connection(T4CDriverExtension.java:32)
at oracle.jdbc.t(OracleDriver.java:521)
at java.Connection(DriverManager.java:664)
at java.Connection(DriverManager.java:247)
at org.apache.sqoop.mapreduce.Connection(DBConfiguration.java:302)
at org.apache.sqoop.mapreduce.Connection(DBInputFormat.java:213)
... 10more
Caused by: oracle.ns.NetException: The Network Adapter could not establish the connection
ute(ConnStrategy.java:392)
solveAndExecute(AddrResolution.java:434)
at oracle.ns.NSProtocol.establishConnection(NSProtocol.java:687)
at oracle.t(NSProtocol.java:247)
at oracle.jdbc.t(T4CConnection.java:1102)
at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:320)
... 18more
Caused by: java.NoRouteToHostException: No route to host (Host unreachable)
at java.PlainSocketImpl.socketConnect(Native Method)
at java.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)
也可能是下⾯的错误
ERROR manager.SqlManager: Error executing statement: java.sql.SQLRecoverableException: IO 错误: Connection reset
java.sql.SQLRecoverableException: IO 错误: Connection reset
at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:467)
at oracle.jdbc.driver.PhysicalConnection.<init>(PhysicalConnection.java:546)
at oracle.jdbc.driver.T4CConnection.<init>(T4CConnection.java:236)
at org.apache.sqoop.Sqoop.main(Sqoop.java:252)
Caused by: java.SocketException: Connection reset
at java.SocketOutputStream.socketWrite(SocketOutputStream.java:113)
at java.SocketOutputStream.write(SocketOutputStream.java:153)
... 25 more
18/09/28 09:46:20 ERROR tool.ImportTool: Import failed: java.io.IOException: No columns to generate for ClassWriter
at org.ate(ClassWriter.java:1664)
进⼊ $JAVA_HOME/jre/lib/security⽬录下的java.security⽂件
cd $JAVA_HOME/jre/lib/security
vim java.security
修改securerandom.source=file:/dev/../dev/urandom,如果这个参数不管⽤改为securerandom.source=file:///dev/urandom 或⼿动添加参数-D mapred.child.java.opts="-d=file:/dev/../dev/urandom"
如果依旧有问题进⾏以下操作
export HADOOP_OPTS=-d=file:/dev/../dev/urandom
export HADOOP_OPTS=-d=file:/dev/../dev/urandom
sqoop import -D mapred.child.java.opts="-d=file:/dev/../dev/urandom"
先在命令⾏或脚本设置HADOOP_OPTS,然后再执⾏sqoop import就可以了,最好加上mapred.child.java.opts参数,并且在第⼆次导⼊的时候⼀定要加上--hive-overwrite参数。
注:有时候-m需要设置成1才可以。刚开始我将-m设置成2报错,我设置成1就可以了。
在脚本中export…和sqoop import -D mapred.child.java.opts都是不能少的。
This problem occurs primarily due to the lack of a fast random number generation device on the host where the map tasks execute.
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论