java调office_Java解析OFFICE(word,excel,powerpoin。。。--688IT编程网

java调office_Java解析OFFICE（word,excel,powerpoin。。。Java解析OFFICE(word,excel,powerpoint)以及PDF的实现⽅案及开发中的点滴分享

在此，先分享下写此⽂前的经历与感受，我所有的感觉浓缩到⼀个字，那就是:"坑"，如果是两个字那就是"巨坑"=>因为这个需求⼀开始并不是这样⼦的，且听我漫漫道来：

⼀开始客户与我们商量的是将office和PDF上传，将此类⽂件解析成html格式，在APP端调⽤内置server直接以html"播放"

经历⼀个⽉~，两个⽉~，三个⽉~~~

到需求开发阶段，发现这是个坑。。。：按照需规的意思这个整体是当做⼀个功能来做的，技术难度也就算了，⽽且按照估算的⼯时也很难做成需规所需要的样⼦(缺陷太多！)

然后⼀周~，⼀周~，⼜⼀周~~~

各种⽅案下来将需求做成能⽤的样⼦，然后需求确认时客户说：“我们没有要求你们能解析这些⽂档，我们只要求你们当做⼀个源⽂件上传，在APP端点击直接能选择调⽤第三⽅应⽤打开就⾏了，⽽且⼀开始我们的需求就是这样的。”

**听完，顿时泪流满⾯( _ )，如果业务⼀开始就确认这样做，何⾄于浪费如此多的时间，花费如此多的精⼒绕⽼⼤⼀圈。。。*/

需求绕了⼀圈⼜绕回来了，作为经历过的⼈，现在总结下这需求⾥⾯⽆尽的坑：

A>开源社区有很多Demo，这些Demo有很多缺陷，⽐如office⾥⾯的艺术字、图⽚、公式、颜⾊样式、视频和⾳频不能解析

B>能解析的对象，解析出来的效果不是很好，⽐如word和ppt⾃⾝的排版乱了,excel单元格⾥⾯的⾃定义格式全变成数字了~等等

C>开源社区的资料并不是很全，导致的结果是不同的⽂档类型需要⽤不同的解析⽅式去解析，⽐如word⽤docx4j解析、excel⽤poi解析带来的代码量巨⼤

D>由于代码⾃⾝的解析效果不是很好，更改后的⽅案需要在上传之前将源⽂件处理成其他的形式，如pdf需要切成图⽚，ppt需要转换成视频或是图⽚，这样⼀来需求实现的⽅式就变成半⾃动了╥﹏╥...

E>word⽤docx4j解析⼀个很⼤的问题是解析的效率太低了，5MB以上的⽂件或者内容⽐较复杂的word⽂档解析⼗分耗时，解析效率太低，再⼀就是poi解析数据量⽐较⼤的Exel(⽐如>1000⾏)容易造成内存溢出，不好控制

F>⼯时太短，只有15天。。。，加班加点(⊙︿⊙) ，包⼯头，加⼯资ε=怒ε=怒ε=怒ε=怒ε=( o｀ω′)ノ

java修改html文件

以上吐槽完了，该展⽰下最终成果了~

上4图从左⾄右依次是pdf、ppt、word、excel的解析html的效果，由于涉及开发协议上图1和图2部分

地⽅有涂抹，且以上只是浏览器模拟⼿机显⽰，遂显⽰效果较为粗糙，在此⼗分抱歉~

下⾯介绍⼀下我的最终实现思路：

A>Word⽂档分两种格式(03版)doc和(07版)docx，由于doc属于即将淘汰的格式同时为⽅便使⽤docx4j⼀步到位的实现⽅式，故不考虑doc格式⽂档

B>同Word⼀样，excel也不考虑旧版格式的转换，⽅案是选⽤第三⽅Demo实现，涉及到具体的技术就是 poi.hssf

C>PowerPoint(ppt)由于内置对象⽐较多，为保证客户的使⽤体验，我的⽅案是将ppt直接导出成mp4或图⽚(需打zip包)上传，再⽤代码包装成html

D>对于pdf，同样没有很好的Demo实现成html，遂同ppt⼀样通过软件转换成图⽚的形式打包上传，再⽤代码包装成html

先展⽰下word解析的相关代码:

(代码⽚段⼀)

1 public static void Word2Html() throwsFileNotFoundException, Docx4JException{

2 //需在log4j内配置docx4j的级别

3 WordprocessingMLPackage wmp = WordprocessingMLPackage.load(new

File("C:\\Users\\funnyZpC\\Desktop\\Test\\word.docx"));HTML(wmp,

"C:\\Users\\funnyZpC\\Desktop\\result\\wordIMG", "wordIMG", new FileOutputStream(new

File("C:\\Users\\funnyZpC\\Desktop\\result\\word.html")));5 }

(代码⽚段⼆)

1 public ProcessFileInfo processDOCX(File file,String uploadPath)throwsException{

2 String

Name().substring(Name().lastIndexOf("."));//获取⽂件名称

3 WordprocessingMLPackage wmp = WordprocessingMLPackage.load(file);//加载源⽂件

4 String basePath=String.format("%s%s%s", uploadPath,File.separator,fileName);//基址

5 FileUtils.forceMkdir(new File(basePath));//创建⽂件夹

6 String zipFilePath=String.format("%s%s%s.%s", uploadPath,File.separator,fileName,"ZIP");//最终⽣成⽂件的路径

HTML(wmp, String.format("%s%s%s", basePath,File.separator,fileName),fileName,new FileOutputStream(new File(String.format("%s%s%s", basePath,File.separator,"index.html"))));//解析

8 scormService.zip(basePath, zipFilePath);//压缩包

9 FileUtils.forceDelete(new File(basePath));//删除临时⽂件夹

10 file.delete();//解析完成，删除原docx⽂件

11 return new ProcessFileInfo(true,new File(zipFilePath).getName(),zipFilePath);//返回⽬标⽂件相关信息

12 }

解析word(docx)⽂档所需要的代码简单到只需要两⾏代码(代码⽚段⼀3、4两⾏)，以上(代码⽚段⼆)是

实际开发的代码，建议对⽐⽚段⼀看，同时由于项⽬可能会部署在linux系统下，建议使⽤File.separator来代替"/"或者"\"路径分隔符；同时，需要解释的是toHtml⽅法的四个参数==>

下图是输出的结果的⽬录：

由于docx4j内部的log较多，默认Demo测试的时候输出⽂件会有如下提⽰：

这句话的⼤意是：如需隐藏此消息，请设置docx4j的debug的级别。解决的⽅式是在实际项⽬的log4j.p

roperties中添加docx4j的消息级别为ERROR，如：

如果使⽤maven管理项⽬，直接在l⾥⾯添加docx4j的dependency，如果需⼿动配置docx4j及其依赖包，⼀定要注意依赖包与当前docx4j的版本对应性(推荐3.3.5的docx4j，解析效果会好⼀些！)否则各种⽑病啊~，下图是maven仓库的⼀些说明，如需⼿动配置依赖⼀定要

下⾯的代码是Excel解析word的部分代码⽚段(代码不全，如有需要请邮件私我)：

(代码⽚段⼀)

1 /**

2 *

3 *@paramfile 源⽂件:c://xx//xx.xlsx

4 *@paramuploadPath 基⽬录地址

5 *@return

6 *@throwsException

7 */

8 public ProcessFileInfo processXLSX(File file,String uploadPath)throwsException {9 List

Path());10 FileUtils.forceMkdir(new File(uploadPath));//创建⽂件夹

11 String Name().substring(Name().lastIndexOf("."));//⽂件名称

12 String basePath=String.format("%s%s%s", uploadPath,File.separator,code);13 FileUtils.forceMkdir(newFile(basePath));14

File htmlFile = new File(String.format("%s%s%s", basePath,File.separator,"index.html"));15 Writer fw=null;16 PrintWriter

bw=null;17 //构建html⽂件

18 try{19 fw= new BufferedWriter( new OutputStreamWriter(new Path()),"UTF-8"));20

bw=newPrintWriter(fw);21 //添加表头及可缩放样式

22 String head="

";23 StringBuilder body=newStringBuilder();24 for(String e : sheets) {25 body.append(e);26 }27 String foot="";28

bw.write(String.format("%s%s%s", String(),foot));29 }catch(Exception e){30 throw new Exception("");//错误扔出

31 }finally{32 if (bw != null) {33 bw.close();34 }35 if(fw!=null){36 fw.close();37 }38 }39 String

htmlZipFile=String.format("%s%s%s.%s",uploadPath,File.Name().substring(Name().lastIndexOf(".")),"ZIP");4 //压缩⽂件

41 scormService.zip(basePath, htmlZipFile);42 file.delete();//删除上传的xlsx⽂件

43 FileUtils.forceDelete(newFile(basePath));44 return new

ProcessFileInfo(true,newFile(htmlZipFile).getName(),htmlZipFile);45 }

View Code

688IT编程网

java调office_Java解析OFFICE(word,excel,powerpoin。。。

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表