python获取⽂件夹下⽂件_python读取某个⽬录下所有的⽂件在处理数据的时候,因为没有及时的去重,所以需要重新对⽣成txt进⾏去重。
可是⼀个⽂件夹下有很多txt,总不可能⼀个⼀个去操作,这样效率太低了。这⾥我们需要⽤到 os 这个包
关键的代码
# coding=utf-8
#出现了中⽂乱码的问题,于是我⽆脑utf-8 。希望后期的学习可以能理解
import os
import os.path
import re
import sys
import codecs
reload(sys)
sys.setdefaultencoding('utf-8')
#这⾥放着你要操作的⽂件夹名称
path = 'E:\\get_key\\'
#把e:\get_key\⽬录下的⽂件名全部获取保存在files中
files = os.listdir(path.decode('utf-8'))
#⽤set可以很好的去重,在数据处理的时候经常会被使⽤到。这⾥做初始化
datas = set()
for file in files :
#准确获取⼀个txt的位置,利⽤字符串的拼接
txt_path = 'E:\\get_key\\'+file.decode('utf-8')
#把结果保存了在contents中
contents = codecs.open(txt_path.decode('utf-8'),'r',encoding='utf-8')
#datas的数据清空
python怎么读文件夹下的文件夹datas.clear()
#把数据add到datas中,可以去重
for content in contents:
print(content.decode('utf-8'))
datas.add(content.decode('utf-8'))
#去重后新的⽂件保存的路径
new_txt_path = 'E:\\get_key3\\' + file.decode('utf-8')
unique_keywords = codecs.open(new_txt_path.decode('utf-8'), 'w', encoding='utf-8')
#把datas⾥的数据输出到新⽣成的txt中
for data in datas:
unique_keywords.write(data+"\n") #释放资源
unique_keywords.close()
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论