normalize函数_Pandas数据处理(⼀)——⼏个简单函数掌
握!
对于 Pandas, 接触过 Python 数据处理的⼩伙伴们都应该挺熟悉的,做数据处理不可或缺的⼀个程序包,最⼤的特点⾼效,本篇⽂章将通过案例介绍⼀下 Pandas 的⼀些基础使⽤!
1,读⼊数据
⼤部分数据都可以⽤ read_csv() 函数读⼊,函数中有个 sep 参数,表⽰数据的分隔符,默认为 “,” (因为⼤部分 csv ⽂件数据之间就是以 ,隔开的)
users = pd.read_csv("raw.githubusercontent/justmarkham/DAT8/master/data/u.user",
sep = '|')# Read data;
users
原始数据:
读取之后的数据:
除了 read_csv 之外,还有⼀个常⽤的 read_table函数也可进⾏读取操作,⽤法与 read_csv 相似
2,改变索引值,只展⽰前⼏⾏数据
set_index() 函数⽤来改变索引值,注意需要加⼀个参数 replace = True 表⽰替代; 利⽤ head(n) 函数表⽰只展⽰前 n ⾏数据
users.set_index('user_id',inplace = True)
users.head(25)
tail(n) 只展⽰后⼏⾏数据;
3,查看数据的⾏和列的基本信息
1,shape 返回 数据的⾏数和列数,以 tuple 形式返回;
users.shape
# (943, 4)
2,columns 返回数据列名;
# Index(['age', 'gender', 'occupation', 'zip_code'], dtype='object')
3,index 返回⾏名;
users.index
Int64Index([  1,  2,  3,  4,  5,  6,  7,  8,  9,  10,
...
934, 935, 936, 937, 938, 939, 940, 941, 942, 943],
dtype='int64', name='user_id', length=943)
4,dtypes 返回各列的数据类型;
users.dtypes
# age            int64
gender        object
occupation    object
zip_code      object
dtype: object
4,只选取某列或多列数据
Pandas 提供多种⽅式可供选择,注:users 表⽰ Pandas 可处理的DataFrame 格式; 1,users.列名;
2,users[['列名']];
users[['occupation']]
3,users.loc[:,['列名']];
users.loc[:,['occupation']]
同时选取多列数据时
1,users[['列名1','列名2']];
users[['occupation','age']]
2,users.loc[:,['列名1','列名2']];
users.loc[:,['occupation','age']]
5,对列中数据做去重统计
1,列名.nunique() 查看某⼀列数据有多少个不重复样本;
# 21
也可以通过这种⽅式实现
列名.value_counts().count()
# 21
如果想在1 的基础之上,查看每⼀个不重复样本在数据列表冲出现了⼏次,可⽤下⾯语句users.列名.value_counts()
# student          196
other            105
educator          95
administrator    79
engineer          67
Name: occupation, dtype: int64
6,对数据列表中的数字列做个简单统计
groupby是什么函数
users.describe() 即可实现,默认统计的是 numeric columns(列中数据都是以数值进⾏展⽰的) users.describe()
当然也可以统计全部列,加⼀个参数 include = 'all';
users.describe(include = 'all')
users.列名.describe() 也可以对指定列进⾏统计:
#count        943
unique        21
top      student
freq          196
Name: occupation, dtype: object
7,对数据做组聚类
groupby 是以聚类后的列为参照,查看其他列groupby 函数对某⼀列做聚类操作,返回的是 GroupBy 对象;与 5 中⽅法相似,区别是 groupby
的数据统计情况
c =upby("occupation")
c
# &ic.DataFrameGroupBy object at 0x0000017673002788>
GroupBy.head(n) 查看前 n ⾏数据
c.head(5)
GroupBy.size() 统计列中每个样本出现次数
c.size()
还有其它许可操作的函数,

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。