Python解析超⼤的json数据(GB级别)
Python解析超⼤的json数据(GB级别)
使⽤Python解析各种格式的数据都很⽅便,⽐如json、txt、xml、csv等。⽤于处理简单的数据完全⾜够⽤了,⽽且代码简单易懂。
前段时间我遇到⼀个问题,如何解析超⼤的json⽂件呢?刚开始天真的我在使⽤json.load直接加载json⽂件,然⽽内存报错却给了我当头⼀棒,json.load它是直接将数据加载到内存中然后解析出来的,这说明什么呢?当你的json⽂件过于庞⼤的时候,你的电脑内存装不下你的json⽂件,这时候就相当尴尬了,加载不了,解析不了!!
怎么办呢?我赶紧上⽹查阅资料,⽹上⼤部份资料都是基于分块的思路解决超⼤数据⽂件的解析的,⽐如read函数可以⼀块⼀块加载,像这样read(1024)每次读取1024字节,总能将数据读取完的。或者是readline函数,每次读取⼀⾏,这个函数的读取⽅式特别适合txt、csv⽂件。然⽽这样的函数对于json格式的数据就完全不适⽤了,因为json格式的⽂件是有严格的结构的。你不可能⼀块⼀块的或者⼀⾏⼀⾏的读取,噢不对,你可以这样读取,但是你这样读取出来的数据是完全没有意义的,因为⽆法解析,你⽆法获得你想要的数据。
块读取的⽅式不⾏,那该怎么办呢,流式读取呗,这时候我想起了万能的GitHub,上去Github搜索python json parser。看看我发现了什么
啊,太棒了,光看简介基于python的迭代的json解析器,我感觉我的问题可能要被解决掉了。
果不其然,ijson完美的解决了我的问题,它抽取了json⽂件的特征形成了⼀个⽣成器的东西,下⾯举⼀个实例。
{
"earth": {
"europe": [
{
"name": "Paris",
"type": "city",
"info": "aaa"
},
{
"name": "Thames",
"type": "river",
"info": "sss"
},
{
"name": "yyy",
"type": "city",
"info": "aaa"
},
{
"name": "eee",
"type": "river",
"info": "sss"
}
],
"america": [
{
"name": "Texas",
"type": "state",
"info": "jjj"
}
]
}
}
这是⼀个简单的json⽂件,⽤它来演⽰json的效果。
import ijson
with open('test.json', 'r', encoding='utf-8') as f:
objects = ijson.items(f, 'earth.europe.item')
#这个objects在这⾥就是相当于⼀个⽣成器,可以调⽤next函数取它的下⼀个值
while True:
try:
print(objects.__next__())
except StopIteration as e:
print("数据读取完成")
break
很好,接下来看⼀下效果如何。
{'name': 'Paris', 'type': 'city', 'info': 'aaa'}
{'name': 'Thames', 'type': 'river', 'info': 'sss'}
{'name': 'yyy', 'type': 'city', 'info': 'aaa'}
{'name': 'eee', 'type': 'river', 'info': 'sss'}
数据读取完成
是不是很棒呢?
这样不会出现内存撑爆了的错误,因为它类似于⽣成器的⽅式流式读取json数据,熟悉⽣成器的朋友应该就很清楚了。如果想要加速读取解析json⽂件,可以加上threading多线程模块。这⾥就不做演⽰了。
另外附上ijson模块的⽂档地址:⽂档本⼈就看了⼀部分。更多的内容没有深⼊了解,有兴趣的⼤佬可以深⼊研究下。
>python怎么读取json文件
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论