Python读取word⽂本操作详解
本⽂研究的主要问题时Python读取word⽂本操作,分享了相关概念和实现代码,具体如下。
⼀,docx模块
Python可以利⽤python-docx模块处理word⽂档,处理⽅式是⾯向对象的。也就是说python-docx模块会把word⽂档,⽂档中的段落、⽂本、字体等都看做对象,对对象进⾏处理就是对word⽂档的内容处理。
⼆,相关概念
如果需要读取word⽂档中的⽂字(⼀般来说,程序也只需要认识word⽂档中的⽂字信息),需要先了解python-docx模块的⼏个概念。
1,Document对象,表⽰⼀个word⽂档。
2,Paragraph对象,表⽰word⽂档中的⼀个段落
3,Paragraph对象的text属性,表⽰段落中的⽂本内容。
三,模块的安装和导⼊
需要注意,python-docx模块安装需要在cmd命令⾏中输⼊pip install python-docx,如下图表⽰安装成功(最后那句英⽂Successfully installed,成功地安装完成,⼗分考验英⽂⽔平。)
注意在导⼊模块时,⽤的是import docx。
也真是奇了怪了,怎么安装和导⼊模块时,很多都不⽤⼀个名字,看来是很有必要出⼀个python版本的模块管理程序python-maven了,本段纯属PS。
四,读取word⽂本
在了解了上⾯的信息之后,就很简单了,下⾯先创建⼀个D:\temp\word.docx⽂件,并在其中输⼊如下内容。
然后写⼀段程序,代码及输出结果如下:
#读取docx中的⽂本代码⽰例import docx#获取⽂档对象
file=docx.Document('D:\\temp\\word.docx')print('段落数:'+str(len(file.paragraphs)))#段落数为13,每个回车隔离⼀段#输出每⼀段的内容for para in file.paragraphs: )#输出段落编号及段落内容for i in range(len(file.paragraphs)): print('第'+str(i)+'段的内容
是:'+file.paragraphs[i].text)
运⾏结果:
================ RESTART: F:/360data/重要数据/桌⾯/学习笔记/readWord.py
================段落数:13啊我看见⼀座⼭雄伟的⼤⼭真⾼啊啊这座⼭是!真的很⾼!第0段的内容是:啊第1段的内容是:第2段的内容是:我看见⼀座⼭第3段的内容是:第4段的内容是:雄伟的⼤⼭第5段的内容是:第6段的内容是:真⾼啊第7段的内容是:第8段的内容是:啊第9段的内容是:第10段的内容是:这座⼭是!第11段的内容是:第12段的内容是:真的很⾼!>>>
总结
以上就是本⽂关于Python读取word⽂本操作详解的全部内容,希望对⼤家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不⾜之处,欢迎留⾔指出。感谢朋友们对本站的⽀持!
您可能感兴趣的⽂章:
Python读取指定⽬录下指定后缀⽂件并保存为docx
python解析html提取数据,并⽣成word⽂档实例解析
python怎么读取桌面上的文件
Python复制Word内容并使⽤格式设字体与⼤⼩实例代码
利⽤python批量修改word⽂件名的⽅法⽰例
⽤python结合jieba和wordcloud实现词云效果
Python+Wordpress制作⼩说站

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。