使用pdfbox解析中英文pdf文件--688IT编程网

使⽤pdfbox解析中英⽂pdf⽂件package ad;

import java.io.Writer;

import java.MalformedURLException;

import java.URL;

import org.pdfbox.pdmodel.PDDocument;

import org.pdfbox.util.PDFTextStripper;

public class PdfboxText {

public static final String DEFAULT_ENCODING = "UTF-8";

// "ISO-8859-1";

// "ISO-8859-6";

// "US-ASCII";

/ "UTF-8";

// "UTF-16";

// "UTF-16BE";

// "UTF-16LE";

public String geText(String file) throws Exception {

// 是否排序

boolean sort = false;

//ArrayList<String> list = new ArrayList<String>();

// pdf⽂件名

String pdfFile = file;

// 输⼊⽂本⽂件名称

/ 编码⽅式

// 开始提取页

int startPage = 1;

// 结束提取页数

int endPage = Integer.MAX_VALUE;

// ⽂件输⼊流，⽣成⽂本⽂件

Writer output = null;

// 内存中存储的PDF Document

PDDocument document = null;

使用dom4j解析xml文件try {

try {

/ ⾸先当作⼀个URL来装载⽂件，如果得到异常再从本地⽂件系统//去装载⽂件

URL url = new URL(pdfFile);

document = PDDocument.load(url);

// 获取PDF的⽂件名

} catch (MalformedURLException e) {

// 如果作为URL装载得到异常则从⽂件系统装载

document = PDDocument.load(pdfFile);

}

// ⽂件输⼊流，写⼊⽂件倒textFile

// PDFTextStripper来提取⽂本

PDFTextStripper stripper = null;

stripper = new PDFTextStripper();

// 设置是否排序

stripper.setSortByPosition(sort);

// 设置起始页

stripper.setStartPage(startPage);

// 设置结束页

stripper.setEndPage(endPage);

// list.Text(document));

String text = Text(document);

// 调⽤PDFTextStripper的writeText提取并输出⽂本

return text;

} finally {

if (output != null) {

// 关闭输出流

output.close();

}

if (document != null) {

// 关闭PDF Document

document.close();

}

public static void main(String[] args) {

PdfboxText test = new PdfboxText();

try {

//ArrayList<String> list = new ArrayList<String>();

System.out.Text("E:\\java\\PdfText\\Dom4j解析XML.pdf")); } catch (Exception e) {

e.printStackTrace();

}

刚开始⽤的版本低不能解析中⽂⽂件，新版本⽀持中⽂，减少了不少功夫。

688IT编程网

使用pdfbox解析中英文pdf文件

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

688IT编程网

使用pdfbox解析中英文pdf文件

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式 最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

nginx map用法正则

shell 正则表达式最后一行