Python学习笔记:ad_csv分块读取大文件(chunksize、i...--688IT编程网

Python学习笔记：ad_csv分块读取⼤⽂件

python怎么读csv数据（chunksize、i。。。

⼀、背景

⽇常数据分析⼯作中，难免碰到数据量特别⼤的情况，动不动就2、3千万⾏，如果直接读进 Python 内存中，且不说内存够不够，读取的时间和后续的处理操作都很费劲。

Pandas 的 read_csv 函数提供2个参数：chunksize、iterator ，可实现按⾏多次读取⽂件，避免内存不⾜情况。

使⽤语法为：

* iterator : boolean, default False

返回⼀个TextFileReader 对象，以便逐块处理⽂件。

* chunksize : int, default None

⽂件块的⼤⼩， See IO Tools docs for more informationon iterator and chunksize.

测试数据⽂件构建：

import pandas as pd

import numpy as np

import os

os.chdir(r'C:\Users\111\Desktop')

np.random.seed = 2021

df_size = 1000 # 10000000

df = pd.DataFrame({

'a': np.random.rand(df_size),

'b': np.random.rand(df_size),

'c': np.random.rand(df_size),

'd': np.random.rand(df_size),

'e': np.random.rand(df_size)

})

df.head()

<_csv('data.csv')

⼆、指定 chunksize 分块读取⽂件

import pandas as pd

reader = pd.read_csv('data.csv', sep=',', chunksize=10)

# <pandas.io.parsers.TextFileReader at 0x1fc81f905e0>

for chunk in reader:

# df = chunk

# 对 chunk 进⾏数据处理

print(type(chunk), chunk.shape)

'''

<class 'frame.DataFrame'> (10, 6)

'''

for chunk in reader:

# df = chunk

# 对 chunk 进⾏数据处理

lumns)

三、指定 iterator=True

指定 iterator=True 也可以返回⼀个可迭代对象 TextFileReader 。

iterator=True 和 chunksize 可以同时指定使⽤。

reader = pd.read_csv('data.csv', sep=',', iterator=True)

data = _chunk(5) # 返回N⾏数据块

data

'''

Unnamed: 0 a b c d e

0 0 0.289972 0.717806 0.886283 0.522148 0.976798

1 1 0.25495

2 0.04807

3 0.464765 0.138978 0.983041

2 2 0.634708 0.533182 0.855981 0.456156 0.620018

3 3 0.812648 0.024870 0.536520 0.894937 0.102704

4 4 0.699629 0.03830

5 0.379534 0.876242 0.906875

'''

get_chunk(size) -- 返回⼀个N⾏的数据块

每次执⾏获取N⾏数据，再次执⾏，获取下⼀个数据块

filePath = r'data_csv.csv'

f = open(filePath, encoding='utf-8')

reader = pd.read_csv(f, sep=',', iterator=True)

data1 = _chunk(5)

data2 = _chunk(6)

f.close()

读取未知数据⽂件（超⼤⽂件，⼏GB）前⼏⾏，进⾏数据类型观察、列标签观察等。

四、其他技巧

1.获取⽂件⾏数

count = 0

file = open('data_csv.csv', 'r', encoding='utf-8')

while 1:

buffer = ad(8*1024*1024) # 可⼤概设置

if not buffer:

break

count += unt('\n')

print(count)

file.close()

再根据⾏数估算内存可读进多少数据，将原始数据进⾏划分为多少块？

2.分块拆分⽂件

import pandas as pd

reader = pd.read_csv('data_csv.csv', sep=',', chunksize=2000000)

for i, chunk in enumerate(reader):

print(i, ' ', len(chunk))

<_csv('./data/data_' + str(i) + '.csv', index=False)

Python 路径加⼀点是当前路径，加两点是上⼀级路径。

3.合并数据

import pandas as pd

df = [pd.read_csv('./data/data_' + str(i) + '.csv') for i in range(5)] # 列表推导式

data = pd.concat(df, axis=0).reset_index(drop=True) # 合并

data.head()

data.tail()

当 axis = 0 时，pd.concat 实现列对齐合并。

4.分块读取⽂件

import feather

import pandas as pd

filePath = r'data_csv.csv'

def read_csv_feature(filePath):

# 读取⽂件

f = open(filePath, encoding='utf-8')

reader = pd.read_csv(f, sep=',', iterator=True)

loop = True

chunkSize = 1000000

chunks = []

while loop:

try:

chunk = _chunk(chunkSize)

chunks.append(chunk)

except StopIteration:

loop = False

print('Iteration is END')

df = pd.concat(chunks, axis=0, ignore_index=True) f.close()

return df

data = read_csv_feature(filePath)

参考链接：

688IT编程网

Python学习笔记:ad_csv分块读取大文件(chunksize、i...

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

688IT编程网

Python学习笔记:ad_csv分块读取大文件(chunksize、i...

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林 重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

随机森林重要性