pythondataframe取⼀列中的前3个字符_Python⼊门数据分析
Python适合做哪种数据分析?①数据指的是 结构化数据,即:“⼀维数组或⼆维数组”,也可以这样理解:“⼆维数组是1个表格,⼀维
数组是它的某1列”;②分析指的是对微观数据进⾏ 数学统计,获得宏观的结果;python使⽤pandas库做数据分析。 pandas给数据分析
提供了哪些⽀持?①针对数据,提供了2种 数据类型: Series和 DataFrame,分别描述列和表格;②针对分析,提供了 sql统计查询、以
及 链式调⽤函数,它们基于Series和DataFrame做运算 pandas⽀持读写哪些类型的存储介质?在数据分析之前,我们要 读取数据,并转
换成pandas提供的数据类型:Series或DataFrame;在数据分析之后,我们要 存储结果,将Series或DataFrame数据写⼊存储介质。基
础库中提供的数据 读写⽅法⽐较繁琐,pandas提供了更简洁的⽅式,本⽂关注下⾯3种常⽤的存储介质:①内存中的list和dic② excel⽂件
③ sqlite3数据库
相关python库
①基础库是 pandas
②读写excel需要 openpyxl
pip install pandas openpyxl 安装数据分析⽤到的库
1.pandas数据读写
①在内存中,⼆维数据有2种组织⽅式:按⾏组织的字典列表、按列组织的列表字典,它们都可以与DataFrame相互转换。
import pandas as pd# 1)按⾏组织data1 = [{ 'name': 'test1', 'age': 30, 'sex': 1}, { 'name': 'test2', 'age': 25, 'sex': 0}, { 'name': 'test3', 'age': 40, 'sex':
②在excel⽂件中,有多个标签页sheet;每个sheet对应⼀个DataFrame;通常,sheet中的第⼀⾏是 标题⾏,它表明了列结构。
import pandas as pd# 读excel⽂件# 1个excel由多个sheet组成# 每个sheet中有1个标题⾏,它说明了数据的列结构sheet = pd.read_excel(r'C:\Users\Administrator\D
③在sqlite3种,我们放弃写sql的⽅式,直接⽤函数读写DataFrame,相当⽅便。
import pandas as pdimport sqlite3db = 'pandasDemo.db't(db) as conn: records = [("张三", 25, 1), ("李四", 26, 0), ("王五", 35, 1), ("刘七", 40, 1 2.sql统计查询
pandas⽤函数实现了sql统计查询:
import pandas as pddata = [{ 'name': 'test1', 'age': 30, 'sex': 1, 'power': 90}, { 'name': 'test2', 'age': 25, 'sex': 0, 'power': 60}, { 'name': 'test3', 'ag 3.链式调⽤函数
jQuery有链式操作、java有流式编程、linux有管道命令,殊途同归:都是将数据放到“⽣产线”上,分多个步骤依次处理。它使得代码更
简洁、可读性更好,python⾃然也要赶上潮流。
pandas针对不同的计算粒度,给DataFrame提供了3个链式函数:
①applymap(元素函数, 参数):对每个元素 进⾏函数计算
②apply(数组函数, 参数):对每⼀列 进⾏函数计算
③pipe(矩阵函数, 参数):对整个矩阵 进⾏函数计算
我们在拿到数据后,只需选择合适的数学函数(numpy和scipy库⾥有很多),按次序加到“⽣产线”(applymap/apply/pipe)上就⾏。
下⾯的例⼦,演⽰了链式函数的⽤法:
import pandas as pdimport numpy as npdata = [{ 'name': 'test1', 'age': 30, 'sex': 1, 'power': 90}, { 'name': 'test2', 'age': 25, 'sex': 0, 'power': 60}, { 4.⽰例:软考合格⼈员分析
数据来源:宁夏⼈事考试中⼼公布的《2019年下半年软考合格⼈员名单》
《2019年下半年软考合格⼈员名单》
⽬标:哪些单位在本次软考中收获较⼤思路:①⽤pandas直接读取下载到的名单②取“⼯作单位”、“报考级别”这两列③ 量化每个⼈的
成绩:⾼级3分、中级2分、初级1分 ④按“⼯作单位”分组,计算每个单位的总分 ⑤按总分给“⼯作单位”排序 ⑥将排序结果写⼊新的
excel⽂件 代码如下:
import pandas as pdimport numpy as npexcelPath = r'E:\迅雷下载\W020200417550914075528.xls'resultPath = r'E:\迅雷下载\软考参与单位排名.xlsx'def eveluateS VSCode运⾏结果:
python怎么读取excel某一列
输出的excel内容:
总结:
①数据库能做的统计查询,pandas都能⼲,⽽且更快 ②链式操作是pandas的特⾊,就像对⼀盘蔬菜进⾏多个环节的深加⼯;每次加⼯调
⽤⼀个数学函数,⽽python能调⽤的数学函数远远超过任何数据库
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论