Python解析超大的json数据(GB级别)--688IT编程网

Python解析超⼤的json数据（GB级别）

使⽤Python解析各种格式的数据都很⽅便，⽐如json、txt、xml、csv等。⽤于处理简单的数据完全⾜够⽤了，⽽且代码简单易懂。

前段时间我遇到⼀个问题，如何解析超⼤的json⽂件呢？刚开始天真的我在使⽤json.load直接加载json⽂件，然⽽内存报错却给了我当头⼀棒，json.load它是直接将数据加载到内存中然后解析出来的，这说明什么呢？当你的json⽂件过于庞⼤的时候，你的电脑内存装不下你的json⽂件，这时候就相当尴尬了，加载不了，解析不了！！

怎么办呢？我赶紧上⽹查阅资料，⽹上⼤部份资料都是基于分块的思路解决超⼤数据⽂件的解析的，⽐如read函数可以⼀块⼀块加载，像这样read(1024)每次读取1024字节，总能将数据读取完的。或者是readline函数，每次读取⼀⾏，这个函数的读取⽅式特别适合txt、csv⽂件。然⽽这样的函数对于json格式的数据就完全不适⽤了，因为json格式的⽂件是有严格的结构的。你不可能⼀块⼀块的或者⼀⾏⼀⾏的读取，噢不对，你可以这样读取，但是你这样读取出来的数据是完全没有意义的，因为⽆法解析，你⽆法获得你想要的数据。

块读取的⽅式不⾏，那该怎么办呢，流式读取呗，这时候我想起了万能的GitHub，上去Github搜索python json parser。看看我发现了什么

啊，太棒了，光看简介基于python的迭代的json解析器，我感觉我的问题可能要被解决掉了。

果不其然，ijson完美的解决了我的问题，它抽取了json⽂件的特征形成了⼀个⽣成器的东西，下⾯举⼀个实例。

{

"earth": {

"europe": [

{

"name": "Paris",

"type": "city",

"info": "aaa"

{

"name": "Thames",

"type": "river",

"info": "sss"

{

"name": "yyy",

"type": "city",

"info": "aaa"

{

"name": "eee",

"type": "river",

"info": "sss"

}

"america": [

{

"name": "Texas",

"type": "state",

"info": "jjj"

}

]

}

这是⼀个简单的json⽂件，⽤它来演⽰json的效果。

import ijson

with open('test.json', 'r', encoding='utf-8') as f:

objects = ijson.items(f, 'earth.europe.item')

#这个objects在这⾥就是相当于⼀个⽣成器，可以调⽤next函数取它的下⼀个值

while True:

try:

print(objects.__next__())

except StopIteration as e:

print("数据读取完成")

break

很好，接下来看⼀下效果如何。

{'name': 'Paris', 'type': 'city', 'info': 'aaa'}

{'name': 'Thames', 'type': 'river', 'info': 'sss'}

{'name': 'yyy', 'type': 'city', 'info': 'aaa'}

{'name': 'eee', 'type': 'river', 'info': 'sss'}

数据读取完成

是不是很棒呢？

这样不会出现内存撑爆了的错误，因为它类似于⽣成器的⽅式流式读取json数据，熟悉⽣成器的朋友应该就很清楚了。如果想要加速读取解析json⽂件，可以加上threading多线程模块。这⾥就不做演⽰了。

另外附上ijson模块的⽂档地址：⽂档本⼈就看了⼀部分。更多的内容没有深⼊了解，有兴趣的⼤佬可以深⼊研究下。

>python怎么读取json文件

688IT编程网

Python解析超大的json数据(GB级别)

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

Python解析超大的json数据(GB级别)

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则