pythonread_csvchunk_Pythonchunk读取超大文件--688IT编程网

pythonread_csvchunk_Pythonchunk读取超⼤⽂件16GB⼩⽔存已经不能适应动辄4GB、8GB的数据⽂件了。

查询到pandas的read_csv()提供了chunk分块读取能⼒。

官⽅⽰例

这是⼀张原始的table

In [185]: table = pd.read_csv('tmp.sv', sep='|')

In [186]: table

Out[186]:

Unnamed: 0 0 1 2 3

0 0 0.469112 -0.282863 -1.509059 -1.135632

1 1 1.21211

2 -0.173215 0.119209 -1.044236

2 2 -0.861849 -2.104569 -0.494929 1.071804

3 3 0.721555 -0.706771 -1.039575 0.271860

4 4 -0.424972 0.567020 0.276232 -1.087401

5 5 -0.673690 0.113648 -1.478427 0.524988

6 6 0.404705 0.577046 -1.715002 -1.039268

7 7 -0.370647 -1.157892 -1.344312 0.844885

8 8 1.075770 -0.109050 1.643563 -1.469388

9 9 0.357021 -0.674600 -1.776904 -0.968914

指定chunksize=4，表明每4⾏为1个chunk。

In [187]: reader = pd.read_csv('tmp.sv', sep='|', chunksize=4)

In [188]: reader

Out[188]: In [189]: for chunk in reader:

.....: print(chunk)

.....:

Unnamed: 0 0 1 2 3

0 0 0.469112 -0.282863 -1.509059 -1.135632

python怎么读csv数据1 1 1.21211

2 -0.173215 0.119209 -1.044236

2 2 -0.861849 -2.104569 -0.494929 1.071804

3 3 0.721555 -0.706771 -1.039575 0.271860

Unnamed: 0 0 1 2 3

4 4 -0.424972 0.567020 0.276232 -1.087401

5 5 -0.673690 0.113648 -1.478427 0.524988

6 6 0.404705 0.577046 -1.715002 -1.039268

7 7 -0.370647 -1.157892 -1.344312 0.844885

Unnamed: 0 0 1 2 3

8 8 1.075770 -0.10905 1.643563 -1.469388

9 9 0.357021 -0.67460 -1.776904 -0.968914

返回的reader是TextFileReader类型，它指向若⼲个chunk位置，只在访问数据的时候才真正把数据读⼊到内存。这是⼀个可迭代的类型，采⽤for in的形式，即可逐个访问chunk。

每个chunk都是dataframe类型的。

还有⼀个⽤法。

如果想跟数组⼀样，访问第i个chunk要怎么做？

使⽤ get_chunk(i)这个函数就可以了。

但是根据测试，get_chunk(i)，在我这台机⼦上是固定10⾏为1个chunk，不受chunksize参数调整。

挺邪乎。

In [190]: reader = pd.read_csv('tmp.sv', sep='|', iterator=True)

In [191]: _chunk(5)

Out[191]:

Unnamed: 0 0 1 2 3

0 0 0.469112 -0.282863 -1.509059 -1.135632

1 1 1.21211

2 -0.173215 0.119209 -1.044236

2 2 -0.861849 -2.104569 -0.494929 1.071804

3 3 0.721555 -0.706771 -1.039575 0.271860

4 4 -0.424972 0.567020 0.276232 -1.087401

//官⽅地址：/pandas-docs/stable/user_guide/io.html#io-chunking

实践⼿册

1.获取⾏数

count = 0

fp = open('totalExposureLog.out','r', encoding='utf-8')

while 1:

buffer = fp.read(8*1024*1024)

if not buffer:

break

count += unt('\n')

print(count)

fp.close()

//blog.csdn/u012762054/article/details/78384294

这样你⼼⾥就有x数了，知道这个⽂件有多少⾏。

估算⾃⼰的内存⼤概撑得住多少⾏的数据，把原始数据划分为多少块⽐较合适。

例如我这个⽂件有102386695⾏，四舍五⼊1个亿。

⼤概划分成500万⾏，20个chunk就可以了。

2.使⽤chunk来read_csv

#1亿⾏，每500w为1个chunk

reader = pd.read_csv('totalExposureLog.out', sep='\t',chunksize=5000000) for i,ck in enumerate(reader):

print(i,' ',len(ck))

<_csv('../data/bb_'+str(i)+'.csv', index=False)

迭代访问即可。

3.合并表

使⽤at

当axis = 0时，concat的效果是列对齐。

#我的数据分了21个chunk，标号是0~20

loader = [pd.read_csv('../data/bb_'+str(i)+'.csv') for i in range(21)]

⼀般来说⼩⽔存是不可能把21个chunk都concat到⼀起的。

根据实际情况调整吧。

688IT编程网

pythonread_csvchunk_Pythonchunk读取超大文件

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

pythonread_csvchunk_Pythonchunk读取超大文件

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式