JAVA通过epublib解析EPUB格式的电子书--688IT编程网

JAVA通过epublib解析EPUB格式的电⼦书

什么是 epub 格式

就像视频⽂件有 MP4,AVI,RMVB 等等⼀样！电⼦书也有很多种格式：

可以将 epub 格式的电⼦书更换后缀名，然后解压打开查看⾥⾯的⽂件信息。

Java 解析 Epub 格式电⼦书

刚接到这个需求的时候，在⽹上了很久，没到很好的解析⽅法，最后到了 epublib 这个解析库，但是下载对应的 jar 很⿇烦，最终在maven 仓库搜索到了。

epublib 解析库

epublib：a Java library for reading and writing epub files （⼀个⽤于读写 epub ⽂件的 Java 库）

第⼀步：引⼊对应的 pom ⽂件

<groupId>com.positiondev.epublib</groupId>

<artifactId>epublib-core</artifactId>

</dependency>

<groupId>org.jsoup</groupId>

<artifactId>jsoup</artifactId>

</dependency>

第⼆步：常⽤关键类

1.Book 表⽰电⼦书。通过 book 对象可以获取 resource，Metadata 等具体内容

2.Resource 表⽰电⼦书内容资源，⼀个 Resource 就是电⼦书的⼀部分内容，这资源信息可以是 html,css,js，图⽚等；

3.Resources 表⽰电⼦书全部的 Resource 对象。可以⽤过 id,herf,MediaType 来获取对应的 Resource 对象

4.MetaData 表⽰电⼦书的开篇信息。⽐如，作者，出版社，语⾔等；

5.Spine 电⼦书的 resource 顺序，有⼈说是⽬录信息，其实不是，是 resource 的阅读顺序，是线性结构的

6.TableOfContent 电⼦书的⽬录信息，是树形结构的。可以获取到⽬录对应的resource。

7.MediaType Resource 的类型描述。⽤于说明此 Resource 是何种类型（CSS/JS/图⽚/HTML/ VEDIO 等）。

第三步：解析⼀个epub⽂件

public static void main(String[] args) {

File file = new File("E:\\Download\\红楼梦.epub");

InputStream in = null;

try {

//从输⼊流当中读取epub格式⽂件

EpubReader reader = new EpubReader();

in = new FileInputStream(file);

Book book = adEpub(in);

//获取到书本的头部信息

Metadata metadata = Metadata();

System.out.println("FirstTitle为："+FirstTitle());

//获取到书本的全部资源

Resources resources = Resources();

System.out.println("所有资源数量为："+resources.size());

//获取所有的资源数据

Collection<String> allHrefs = AllHrefs();

for (String href : allHrefs) {

Resource resource = ByHref(href);

//data就是资源的内容数据，可能是css,html，图⽚等等

byte[] data = Data();

// 获取到内容的类型 css,html，还是图⽚

MediaType mediaType = MediaType();

}

//获取到书本的内容资源

List<Resource> contents = Contents();

System.out.println("内容资源数量为："+contents.size());

//获取到书本的spine资源线性排序

Spine spine = Spine();

System.out.println("spine资源数量为："+spine.size());

//通过spine获取所有的数据

List<SpineReference> spineReferences = SpineReferences();

for (SpineReference spineReference : spineReferences) {

Resource resource = Resource();

//data就是资源的内容数据，可能是css,html，图⽚等等

byte[] data = Data();

/ 获取到内容的类型 css,html，还是图⽚

MediaType mediaType = MediaType();

}

//获取到书本的⽬录资源

TableOfContents tableOfContents = TableOfContents();

System.out.println("⽬录资源数量为："+tableOfContents.size());

//获取到⽬录对应的资源数据

List<TOCReference> tocReferences = TocReferences();

for (TOCReference tocReference : tocReferences) {

Resource resource = Resource();

//data就是资源的内容数据，可能是css,html，图⽚等等

byte[] data = Data();

// 获取到内容的类型 css,html，还是图⽚

MediaType mediaType = MediaType();

Children().size()>0){

//获取⼦⽬录的内容

}

} catch (Exception e) {

reference group

e.printStackTrace();

} finally {

//⼀定要关闭资源

try {

if (in != null) {

in.close();

}

} catch (IOException e) {

e.printStackTrace();

}

注意事项

1 解析后得到的data内容数据是html格式的富⽂本内容，如果需要纯⽂本，可以通过jsoup获取P标签的⽂本内容就可以了，但是获取后的纯⽂本排版就会乱。

2 资源当中可能会存在图⽚和css等等，不在⽬录或者spine当中的内容，可以通过ByHref等⽅法获取。

688IT编程网

JAVA通过epublib解析EPUB格式的电子书

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

JAVA通过epublib解析EPUB格式的电子书

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式