python⽂本提取正则表达式匹配简历信息_python⽤正则表达
式筛选⽂本信息的实例...
本⽂主要介绍如何对多个⽂本进⾏读取,并采⽤正则表达式对其中的信息进⾏筛选,将筛选出来的信息存写到⼀个新⽂本。
⽂本基础操作
打开⽂件:open(‘⽂件名',‘打开⽅式')>>>file=open(r'C:\Users\yuanlei\','w+').为避免报错,在⽂件名的引号前加个r.
⽂件打开⽅式:只读——r或rt,rb为⼆进制⽂件;打开⽂件前清空⽂件内容——w或wt;在⽂末写⼊——a+;
清空内容然后在⽂末写⼊——w+;写到⽂件任意位置——r+;
关闭⽂件:⽂件打开运⾏好后必须要关闭——⽂件名.close()>>>mytxt.close()
读取⽂件中的内容:将每⾏内容,包括换⾏符,作为⼀个元素存⼊数组——lines=adlines(),但是这样会把换⾏符也赋进去
去除换⾏符——new_lines=lines.splitlines()
os包:import os 获取⽂件地址——os.listdir(⽗⽂件地址)
下⾯附上实现摘要中说的功能的完整代码:
# coding: utf-8
#读取⽂本中的中英⽂数据并使⽤正则表达式将所需数据筛选⼊到⼀个新⽂本中
import re
import os
#zhengze函数对读取到的数据进⾏筛选,并将筛选好的数据存⼊数组new_lines
new_lines=[] #申明new_lines数组
def zhengze(f):
regex_str=".*?(l.*?e).*"
for x in f:
new_x = x.splitlines() #注意:splitlines是将传⼊的字符串去除'\n'之后以数组的形式传出,⽽不是字符串形式
match_obj=re.match(regex_str,new_x[0])
if match_obj:
new_lines.append(up(1))
else:
new_lines.append('no')
return new_lines
#获取指定⽂件夹下的所有⽂本的绝对地址,并存⼊数组file_path
path=r'C:\Users\yuanlei\Desktop\new_file_txt'
file_path=[]
for filename in os.listdir(path): #获取path下所有⽂件的路径
file_path.append((os.path.join(path,filename)))
print file_path
#对每个⽂本调⽤正则函数进⾏筛选,筛选过后的数据存⼊数组final
for adress in file_path:
file_object=open(adress)
lines = adlines( ) #将⽂本中的内容以数组的形式(每⾏为⼀个元素)赋给lines
file_object.close()
final=zhengze(lines)
print final
#将筛选出来的数据写⼊新⽂本
file_2=open(r'C:\Users\yuanlei\Desktop\','w+')
for x in final:
file_2.write(x)
file_2.write('\n')python正则表达式不包含
file_2.close()
以上这篇python ⽤正则表达式筛选⽂本信息的实例就是⼩编分享给⼤家的全部内容了,希望能给⼤家⼀个参考,也希望⼤家多多⽀持我们。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论