数据处理⼯具--Pandas模块
强⼤的数据处理模块Pandas,可以解决数据的预处理⼯作,如数据类型的转换、缺失值的处理、描述性统计分析和数据的汇总等⼀、序列与数据框的构造
Pandas模块的核⼼操作对象为序列和数据框。序列指数据集中的⼀个字段,数据框为⾄少含有两个字段(或序列)的数据集。
1.构造序列
通过列表、元祖、Numpy中的⼀维数组构造序列均如序列1,第⼀列为序列的⾏索引(⾏号),⾃动从0开始;第⼆列为序列的实际值通过字典构造不同,第⼀列为具体的⾏名称,对应字典中的键,第⼆列为序列的实际值,对应字典中的值。
还可以通过数据框中的某⼀列构建
mysql连接工具2.序列元素的获取
对⼀维数组的索引⽅法和数学以及统计函数都可以⽤到序列上,但序列有特有的处理⽅法。
对通过字典类型构建的,可⽤⾏号,也可⽤⾏名称索引
如果需要对序列做数学函数计算,⾸选numpy模块
如果需要对序列做统计函数计算,⾸选序列的⽅法
3.构造数据框
数据框实际是⼀个数据集,⾏代表每⼀条观测,列代表各个变量。在⼀个数据库中可以存放不同数据类型的序列,⽽数组和序列只能存放同质数据。
⼿⼯构造数据框的话,⾸选字典⽅法,因为其他⽅法构造没有具体的变量名
还可以通过外部数据的读取构造
⼆、外部数据的读取
1.⽂本⽂件的读取
使⽤Pandas中的read_table函数或者read_csv函数
filepath_or_buffer:指定txt⽂件或csv⽂件所在的具体路径;
sep:指定原数据集中各字段之间的分隔符,默认为Tab制表符;
header:是否需要将原数据集中的第⼀⾏作为表头,默认将第⼀⾏⽤作字段名称;
names:如果原数据集中没有字段,可以通过该参数在数据读取时给数据框添加具体的表头;
index_col:指定原数据集中的某些列作为数据框的⾏索引(标签);
usecols:指定需要读取原数据集中的哪些变量名;
dtype:读取数据时,可以为原数据集的每个字段设置不同的数据类型;
converters:通过字典格式,为数据集中的某些字段设置转换函数
skiprows:数据读取时,指定需要跳过原数据集开头的⾏数;
skipfooter:数据读取时,指定需要跳过原数据集末尾的⾏数;
nrows:指定读取数据的⾏数;
na_values:指定原数据集中哪些特征的值作为缺失值;
skip_blank_lines:读取数据时是否需要跳过原数据集中的空⽩⾏,默认为True;
parse_dates:如果参数值为True,则尝试解析数据框的⾏索引;如果参数为列表,则尝试解析对应的
⽇期列;如果参数为嵌套列表,则将某些列合并为⽇期列;如果参数为字典,则解析对应的列(即字典中的值),并⽣成新的字段名(即字典中的键);
thousands:指定原始数据集中的千分位符;
comment:指定注释符,在读取数据时,如果碰到⾏⾸指定的注释符,则跳过改⾏;
encoding:如果⽂件中含有中⽂,有时需要指定字符编码;

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。