数据处理工具--Pandas模块--688IT编程网

数据处理⼯具--Pandas模块

强⼤的数据处理模块Pandas，可以解决数据的预处理⼯作，如数据类型的转换、缺失值的处理、描述性统计分析和数据的汇总等⼀、序列与数据框的构造

Pandas模块的核⼼操作对象为序列和数据框。序列指数据集中的⼀个字段，数据框为⾄少含有两个字段（或序列）的数据集。

1.构造序列

通过列表、元祖、Numpy中的⼀维数组构造序列均如序列1，第⼀列为序列的⾏索引（⾏号），⾃动从0开始；第⼆列为序列的实际值通过字典构造不同，第⼀列为具体的⾏名称，对应字典中的键，第⼆列为序列的实际值，对应字典中的值。

还可以通过数据框中的某⼀列构建

mysql连接工具2.序列元素的获取

对⼀维数组的索引⽅法和数学以及统计函数都可以⽤到序列上，但序列有特有的处理⽅法。

对通过字典类型构建的，可⽤⾏号，也可⽤⾏名称索引

如果需要对序列做数学函数计算，⾸选numpy模块

如果需要对序列做统计函数计算，⾸选序列的⽅法

3.构造数据框

数据框实际是⼀个数据集，⾏代表每⼀条观测，列代表各个变量。在⼀个数据库中可以存放不同数据类型的序列，⽽数组和序列只能存放同质数据。

⼿⼯构造数据框的话，⾸选字典⽅法，因为其他⽅法构造没有具体的变量名

还可以通过外部数据的读取构造

⼆、外部数据的读取

1.⽂本⽂件的读取

使⽤Pandas中的read_table函数或者read_csv函数

filepath_or_buffer：指定txt⽂件或csv⽂件所在的具体路径；

sep：指定原数据集中各字段之间的分隔符，默认为Tab制表符；

header：是否需要将原数据集中的第⼀⾏作为表头，默认将第⼀⾏⽤作字段名称；

names：如果原数据集中没有字段，可以通过该参数在数据读取时给数据框添加具体的表头；

index_col：指定原数据集中的某些列作为数据框的⾏索引（标签）；

usecols：指定需要读取原数据集中的哪些变量名；

dtype：读取数据时，可以为原数据集的每个字段设置不同的数据类型；

converters：通过字典格式，为数据集中的某些字段设置转换函数

skiprows：数据读取时，指定需要跳过原数据集开头的⾏数；

skipfooter：数据读取时，指定需要跳过原数据集末尾的⾏数；

nrows：指定读取数据的⾏数；

na_values：指定原数据集中哪些特征的值作为缺失值；

skip_blank_lines：读取数据时是否需要跳过原数据集中的空⽩⾏，默认为True；

parse_dates：如果参数值为True，则尝试解析数据框的⾏索引；如果参数为列表，则尝试解析对应的

⽇期列；如果参数为嵌套列表，则将某些列合并为⽇期列；如果参数为字典，则解析对应的列（即字典中的值），并⽣成新的字段名（即字典中的键）；

thousands：指定原始数据集中的千分位符；

comment：指定注释符，在读取数据时，如果碰到⾏⾸指定的注释符，则跳过改⾏；

encoding：如果⽂件中含有中⽂，有时需要指定字符编码；

688IT编程网

数据处理工具--Pandas模块

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

数据处理工具--Pandas模块

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式