python读取docx⽂件_Python读写docx⽂件的⽅法
读写word⽂档有现成的库可以处理。我这⾥采⽤ python-docx。可以⽤pip install python-docx安装⼀下。
这⾥说⼀句,ppt和也有类似的库哦,⽽且是直接读取⽂件⾥⾯的xml数据。所以doc格式得另其他库处理,doc格式不是基于xml的。
帮助⽂档::///en/latest/
1、新建或打开⽂件。这个⽐较简单⽤docx的Document类,若指定路径则是打开⽂档;若没有指定路径则是新建⽂档
#coding:utf-8
import docx
#新建⽂档
doc_new = docx.Document()
python怎么读取文件中的数据
#读取⽂档
= docx.Document(ur'C:\1.docx')
2、保存⽂件。有打开,就有保存。⽤Document类的save⽅法,其中参数是保存的⽂件路径,或者要保存的⽂件流。⼀般指定路径即可。doc.save(path_or_stream)
3、对象集合。python-docx包含了word⽂档的相关对象集合。
doc.paragraphs #段落集合
doc.tables #表格集合
doc.sections #节 集合
doc.styles #样式集合
doc.inline_shapes #内置图形 等等...
4、插⼊段落。段落是word最基本的对象之⼀。
doc.add_paragraph(u'第⼀段',style=None) #插⼊⼀个段落,⽂本为“第⼀段”
#默认是不应⽤样式,这⾥也可以不写style参数,或者指定⼀个段落样式
doc.add_paragraph(u'第⼆段',style='Heading 2')
#这些样式都是word默认带有的样式,可以直接罗列出来有哪些段落样式
print [s.name for s in doc.styles pe==1]
5、新增样式。这个帮助⽂档⾥⾯说得不仔细,⽽且还是英⽂的。我⼿头上的项⽬⽤到这个,就⾃⼰琢磨出怎么使⽤,如下。
#coding:utf-8
from docx import Document
from docx.shared import RGBColor #这个是docx的颜⾊类
#新建⽂档
doc = Document()
#新增样式(第⼀个参数是样式名称,第⼆个参数是样式类型:1代表段落;2代表字符;3代表表格)
style = doc.styles.add_style('style name 1', 2)
#设置具体样式(修改样式字体为蓝⾊,当然还可以修改其他的,⼤家⾃⼰尝试)
b = RGBColor(0x0, 0x0, 0xff)
6、应⽤字符样式。字符⾃然是在段落⾥⾯的,可以采⽤下⾯⽅法给段落追加⽂字和设置字符样式。
#插⼊⼀个空⽩段落
p = doc.add_paragraph('')
p.add_run('123', )
p.add_run('456')
p.add_run('789', )
#这样⼀个段落就应⽤了两个字符样式,中间“456”就没应⽤样式
#输出结果是u'123456789' 也还是连续的
7、设置字体。当然可以不⽤通过设置样式对某些字进⾏设置,也可以直接设置。
p = doc.add_paragraph('')
r = p.add_run('123')
r.font.bold = True #加粗
r.font.italic = True #倾斜 等等...
8、表格操作。表格也是经常⽤到的⼀种对象类型。
#新建⼀个2x3的表格,style可以不写
table=doc.add_table(rows=2,cols=3,style=None)
#可以⽤table 的rows和columns得到这个表格的⾏数和列数
print ws)
print lumns)
#遍历表格
for row ws:
#lls[0].text
#新增⾏或列
table.add_row()
table.add_column()
Word常见操作差不多就是这些。⼤家可以查看帮助⽂档,也可以⽤dir和help查看对象的⽅法属性和帮助。
以上这篇Python读写docx⽂件的⽅法就是⼩编分享给⼤家的全部内容了,希望能给⼤家⼀个参考,也希望⼤家多多⽀持我们。本⽂标题: Python读写docx⽂件的⽅法
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论