python读取txt文件以空行作为数据的切分处理--688IT编程网

python读取txt⽂件以空⾏作为数据的切分处理

先举个例⼦，如下⽂件数据，需要提取每条数据的title和content, 单独保存到⽂件中:

spiderTime:{'num':'12223'}

title：中国保险1xxx

summary: 请在xxx

content: 当事⼈11sfdffghfhgfjjd

tag:1

spiderTime:{'num':'12224'}

title：中国保险2xxx

summary: 请在xxx

content: 当事⼈22sfdfffdffghfjd

tag:2

spiderTime:{'num':'12225'}

title：中国保险3xxx

summary: 请在xxx

content: 当事⼈33sfdffggghfjd

tag:3

⾸先发现，数据是以空⾏作为分割点，所以，可以以空⾏拆分数据，做处理，具体代码如下:

with open('','r',encoding='utf8') as f:

cont = True

li = []

while cont:

cont = f.readline()

li.append(cont)

if cont =='\n':

print(li)

title = re.findall(r"\'title:(.*?)\\n\'\,", str(li))[0]

content = re.findall(r"\'content:(.*?)\\n\'\,", str(li))[0]

print('title: {}'.format(title))python怎么读取文件中的数据

print('content: {}'.format(content))

print('==' * 20)

li = []

上述代码中通过正则进⾏匹配title和content内容，如果它们在每条数据中的⾏号固定的话，简单些可以直接通过列表索引取值. 代码运⾏输出结果如下:

["spiderTime:{'num':'12223'}\n", 'title：中国保险1xxx\n', 'summary: 请在xxx\n', 'content: 当事⼈11sfdffghfhgfjjd\n', 'tag:1\n', '\n']

title: 中国保险1xxx

content: 当事⼈11sfdffghfhgfjjd

========================================

["spiderTime:{'num':'12224'}\n", 'title：中国保险2xxx\n', 'summary: 请在xxx\n', 'content: 当事⼈22sfdfffdffghfjd\n', 'tag:2\n', '\n']

title: 中国保险2xxx

content: 当事⼈22sfdfffdffghfjd

========================================

["spiderTime:{'num':'12225'}\n", 'title：中国保险3xxx\n', 'summary: 请在xxx\n', 'content: 当事⼈33sfdffggghfjd\n', 'tag:3\n', '\n']

title: 中国保险3xxx

content: 当事⼈33sfdffggghfjd

========================================

思路总结: 按⾏循环读取数据, 当读取到换⾏符时(注意，换⾏符'\n'不等于空，切记), 作为⼀个切分点标记，可以把之前读取到的利⽤列表或字符串拼接构成⼀个整体，再使⽤正则进⾏数据提取, 当读取的书记为null是,⾃动结束循环; 上述代码要注意的⼀点就是txt⽂件最后有内容的⼀⾏后⾯需要再有两⾏换⾏，否则最后⼀条数据会读取丢失.

688IT编程网

python读取txt文件以空行作为数据的切分处理

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

python读取txt文件以空行作为数据的切分处理

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式