如何利用java解析压缩文件中xml文件--688IT编程网

如何利⽤java解析压缩⽂件中xml⽂件

应⽤场景

在⼤数据的⼯作中，每天必不可少的就是和数据打交道，我们需要从我们的业务⽅将数据采集过来，然后根据我们的业务逻辑将数据解析并转换成我们所需要的格式！⼤数据分析往往数据量都是⾮常⼤的，⼀天⼏⼗T都是很正常，如果按正常的来采集的话，估计就是采集都要花费不少时间，最常⽤的⽅式就是将数据进⾏压缩之后再进⾏传输，这样的效率是⽐较⾼的，也节省了带宽资源！举⼀个简单的例⼦，我们的逻辑是xml原始⽂件先压缩成⼀个gz⽂件，再将上百个gz⽂件再⼆次压缩成⼀个⽂件！⼀个压缩⽂件的⼤⼩⼤概是200M，但是解压出来就差不多20G此篇⽂章就记录⼀下实现功能需求的过程！

依赖

<groupId>org.apachemons</groupId>

<artifactId>commons-compress</artifactId>

</dependency>

实现代码

slf4j.Slf4j;

import org.apachemonspress.archivers.tar.TarArchiveEntry;

import org.apachemonspress.archivers.tar.TarArchiveInputStream;

import org.apachemonspress.utils.IOUtils;

import org.slf4j.Logger;

import org.slf4j.LoggerFactory;

import java.io.*;

import java.util.zip.GZIPInputStream;

@Slf4j

public class FileUtils {

private static final Logger LOGGER = Logger(FileUtils.class);

public static void main(String[] args) {

deCompressGZipFile("path1", "dir1");

}

/**

* Tar⽂件解压⽅法

* @param tarGzFile 要解压的压缩⽂件名称（绝对路径名称）

* @param destDir 解压后⽂件放置的路径名（绝对路径名称）当路径不存在，会⾃动创建

* @return 解压出的⽂件列表

public static void deCompressGZipFile(String tarGzFile, String destDir) {

// 建⽴输出流，⽤于将从压缩⽂件中读出的⽂件流写⼊到磁盘

TarArchiveEntry entry = null;

TarArchiveEntry[] subEntries = null;

File subEntryFile = null;

try (FileInputStream fis = new FileInputStream(tarGzFile);

GZIPInputStream gis = new GZIPInputStream(fis);

TarArchiveInputStream taris = new TarArchiveInputStream(gis);) {

while ((entry = NextTarEntry()) != null) {

StringBuilder entryFileName = new StringBuilder();

entryFileName.append(destDir).append(File.separator).Name());

File entryFile = new String());

if (entry.isDirectory()) {

if (!ists()) {

entryFile.mkdir();

}

subEntries = DirectoryEntries();

for (int i = 0; i < subEntries.length; i++) {

try (OutputStream out = new FileOutputStream(subEntryFile)) {

subEntryFile = new File(entryFileName + File.separator + subEntries[i].getName());

} catch (Exception e) {

<("deCompressing file failed:" + subEntries[i].getName() + "in" + tarGzFile);

}

} else {

checkFileExists(entryFile);

OutputStream out = new FileOutputStream(entryFile);

out.close();

//如果是gz⽂件进⾏递归解压

if (Name().endsWith(".gz")) {

String namepath = AbsolutePath();

compressGZ(namepath);

}

//如果需要刪除之前解压的gz⽂件，在这⾥进⾏

File dir = new File("dir1");

File[] files = dir.listFiles();

if (f.getName().split("\\.").length==3){

f.delete();

}

} catch (Exception e) {

LOGGER.warn("decompress failed", e);

}

/**

* 解压GZ⽂件

* @param pwd

public static void compressGZ(String pwd){

if (!getExtension(pwd).equalsIgnoreCase("gz")) {

}

GZIPInputStream in = null;

try {

in = new GZIPInputStream(new FileInputStream(pwd));

} catch(FileNotFoundException e) {

} catch (IOException e) {

e.printStackTrace();

}

String outFileName = getFileName(pwd);

FileOutputStream out = null;

try {

out = new FileOutputStream(outFileName);

} catch (FileNotFoundException e) {

}

try {

byte[] buf = new byte[1024];

int len;

while((len = in.read(buf)) > 0) {

out.write(buf, 0, len);

}

in.close();

out.close();

} catch (IOException e) {

e.printStackTrace();

}

/**

* Used to extract and return the extension of a given file.

* @param f Incoming file to get the extension of

* @return <code>String</code> representing the extension of the incoming * file.

public static String getExtension(String f) {

String ext = "";

int i = f.lastIndexOf('.');

if (i > 0 && i < f.length() - 1) {

ext = f.substring(i+1);

}

return ext;

}

/**

* Used to extract the filename without its extension.

* @param f Incoming file to get the filename

* @return <code>String</code> representing the filename without its

* extension.

public static String getFileName(String f) {

String fname = "";

int i = f.lastIndexOf('.');

if (i > 0 && i < f.length() - 1) {

fname = f.substring(0,i);

}

return fname;

}

public static void checkFileExists(File file) {

//判断是否是⽬录

if (!ists()) {

file.mkdir();

}

} else {

//判断⽗⽬录是否存在，如果不存在，则创建

if (ParentFile() != null && !ParentFile().exists()) {

}

try {

} catch (IOException e) {

e.printStackTrace();

}

这样就实现了将⽂件中的xml原始⽂件全部解压出来！之后就可以将xml⽂件中的数据拿出来做解析和分析了！java解析xml⽂件的⽅式有多种，这⾥使⽤dom4j！！依赖

</dependency>

实现代码

import org.dom4j.Document;

import org.dom4j.DocumentException;

import org.dom4j.Element;

import org.dom4j.io.SAXReader;

import java.io.File;

import java.io.FileInputStream;

import java.io.IOException;

import java.util.List;

/**

* java DOM4j xml解析

public class JavaXMLTest {

public static void main(String[] args) throws IOException, DocumentException {

SAXReader reader = new SAXReader();

Document xmlDocument = ad(new FileInputStream(new File("2.xml")));

/System.out.println(doc==null?"未读取到xml⽂件":"已读取到xml⽂件");

//获取根节点

Element rootElement = RootElement();

//获取根节点下的直接⼦节点的个数和名字

List<Element> list = rootElement.elements("fileHeader");

//System.out.println("根节点下有"+list.size()+"直接⼦节点");

//获取根节点下 fileHeader节点得value值

for (Element elemet:list) {

String reportTime = elemet.attributeValue("reportTime");

String startTime = elemet.attributeValue("startTime");

String endTime = elemet.attributeValue("endTime");

}

//获取根节点下所有得⼦节点

List<Element> list1 = rootElement.elements("header");

//System.out.println("根节点下header有"+list1.size()+"直接⼦节点");

//由于只有⼀个节点所以取get（0）

Element header = (0);

//获取header节点得value值

String id = header.attributeValue("id");

//System.out.println("id是"+id);

//获取header节点下所有 measure 节点

Element measure = header.elements("measure").get(0);

/获取measurement节点下 smr节点

Element sm = measure.elements("sm").get(0);

//获取smr节点的value值

String stringValue = sm.getStringValue();

//按照空格进⾏拆分

String[] objj = stringValue.split(" ");

dom4j读取xml

//System.out.println("stringvalue===="+stringValue);

//List<Element> smlist = smr.elements("obj");

//获取measure节点下所有的 obj 节点

List<Element> objlist = measurement.elements("obj");

//Map<String,String> map = new HashMap();

/遍历所有 obj节点

for (Element ob:objectlist) {

//System.out.println(objj.length);

//获取所有 obj节点下的 v 节点

List<Element> vlist = ob.elements("v");

//遍历 v 节点

for (Element v:vlist) {

//System.out.println("v得value值是"+v.getStringValue());

//获取v节点的value值

String[] vv = v.getStringValue().split(" ");

//System.out.println(vv.length);

StringBuilder sb = new StringBuilder();

for (int i=0;i<objj.length;i++){

sb.append(objj[i]+"="+vv[i]);

}

System.out.String());

sb=null;

}

⾄此，利⽤java就完成了对⽂件的解压，并对xml原始⽂件进⾏数据解析这个⽅法对于⼩数据量

是可以实现的！但是⼤数据都是基于分布式⽂件系统Hadoop构建的！我们的数据都是存储在hdfs上的，⽽且数据也⾮常⼤，这样解压⽂件写到本地⽂件系统中，再解析其中的数据上传⾄hdfs！同时也是要消耗带宽的！最终在测试的时候是不⾏的！这个⽅案就被否定了！

688IT编程网

如何利用java解析压缩文件中xml文件

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

如何利用java解析压缩文件中xml文件

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式