Python使⽤pandas处理CSV⽂件
Python中有许多⽅便的库可以⽤来进⾏数据处理,尤其是Numpy和Pandas,再搭配matplot画图专⽤模块,功能⼗分强⼤。
CSV(Comma-Separated Values)格式的⽂件是指以纯⽂本形式存储的表格数据,这意味着不能简单的使⽤Excel表格⼯具进⾏处理,
⽽且Excel表格处理的数据量⼗分有限,⽽使⽤Pandas来处理数据量巨⼤的CSV⽂件就容易的多了。
我⽤到的是⾃⼰⽤其他硬件⼯具抓取得数据,硬件环境是在Linux平台上搭建的,当时数据是在运⾏脚本后直接输出在terminal⾥的,数据python怎么读csv数据
量⼗分庞⼤,为了保存获得的数据,在Linux下使⽤了数据流重定向,把数据全部保存到了⽂本⽂件中,形成了⼀个本地csv⽂件。
Pandas读取本地CSV⽂件并设置Dataframe(数据格式)
import pandas as pd
import numpy as np
ad_csv('filename',header=None,sep=' ') #filename可以直接从盘符开始,标明每⼀级的⽂件夹直到csv⽂件,header=None表⽰头部为空,sep=' '表⽰print df.head()
print df.tail()
#作为⽰例,输出CSV⽂件的前5⾏和最后5⾏,这是pandas默认的输出5⾏,可以根据需要⾃⼰设定输出⼏⾏的值
图⽚中显⽰了我本地数据的前5⾏与最后5⾏,最前⾯⼀列没有标号的是⾏号,数据⼀共有13列,标号从0到12,⼀⾏显⽰不完全,在第9
列以后换了⾏,并且⽤反斜杠“\”标注了出来。
2017年4⽉28⽇更新
使⽤pandas直接读取本地的csv⽂件后,csv⽂件的列索引默认为从0开始的数字,重定义列索引的语句如下:
import pandas as pd
import numpy as np
ad_csv('filename',header=None,sep=' ',names=["week",'month','date','time','year','name1','freq1','name2','freq2','name3','data1','name4','data2' print df
此时打印出的⽂件信息如下,列索引已经被重命名:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论