python把excel的某⼀列复制到另⼀个excel的指定列_⽤Excel
进⾏数据分析—。。。
这篇⽂章将介绍⽤Excel对数据集进⾏分析的⼀般步骤。
数据分析的5⼤步骤:
明确问题
理解数据
数据清洗
构建模型
数据可视化
下⾯⽤招聘⽹站数据分析师职位数据为实例,进⾏逐⼀详细介绍。(原始数据已经保存为Excel格式,如何⽤python从⽹站爬取数据以后再有机会分享)
第⼀步明确问题
⾸先要明确研究的问题是什么,使的数据分析有⽬标和⽅向。⽐如:在哪些城市到数据分析师⼯作的机会⽐较⼤?数据分析师的薪⽔如何?根据⼯作经验不同薪酬是如何变化的?
第⼆步理解数据
这⼀步的具体操作⼜可以分为两步。第⼀,根据研究问题采集相关数据(如爬取招聘⽹站信息);第
⼆,查看数据集信息(包括数据所描述的信息,从整体上理解数据,了解字段含义)
《招聘⽹站数据-原始数据(备份)》s himo.im
截取表格的部分
被遮挡的列名怎么显⽰全?
解决办法:①全选表格;②开始对话框——⾃动换⾏;③在列名A上⿏标右键弹出对话框,列宽设置为15
字段分析
列名(字段):城市;公司全名;公司ID;公司简称;公司⼤⼩;公司所在商区;职位所属;教育要求;公司所属领域;职位ID;职位福利;职位名称;薪⽔;⼯作年限要求
第三步数据清洗
数据清洗步骤:选择⼦集——列名重命名——删除重复值——缺失值处理——⼀致化处理——数据排
序——异常值处理
1. 选择⼦集
隐藏不重要的列。如公司全名、公司ID、公司简称3列中保留公司简称⼀列即可。
选择我们感兴趣的列,隐藏
如何取消隐藏? 全选表格——开始——格式——隐藏和取消隐藏
如何取消隐藏?
2. 列名重命名
对英⽂列名可以翻译成容易理解的中⽂名
3. 删除重复值
职位ID为应聘职位的唯⼀标识
如何删除重复值?
解决办法:全选表格——数据选项卡——删除重复值——取消全选——勾选“公司ID”——确定——点击Excel保存按钮⽣效
4. 缺失值处理
如何统计缺失了多少数据?如何定位到所有缺失值?如何⽤⼈⼯⼀次性补全所有缺失值?
分别选中”公司ID“和”城市“列——查看右下⾓,计数5032,5030——”城市“列的缺失数量=“职位ID”列总数-“城市”列总数——选中“城市”列,打开定位条件(Ctrl+G)——⼿⼯输⼊补全缺失值,Ctrl+Enter
对于缺失值如何处理?
法① ⼈⼯⼿动补全(适合缺失数据量⽐较少的情况)
法② 删除数据
法③ ⽤平均值代替缺失值
法④ ⽤统计模型计算出来的值代替缺失值
5. ⼀致化处理
对“公司所属领域”列
对“公司所属领域”列使⽤分列功能:复制该列⾄最后⼀列——数据选项卡——分列
对“薪⽔”列,拆分成“最低薪⽔”和“最⾼薪⽔”,然后计算“平均薪⽔”。
对“薪⽔”列
例如:"7k-9k"(注意这⾥是⽂本格式)
法①:分列——替换字符串"k"
法②:函数(find,left,right,mid)
查函数
find函数:查⼀个字符串在另⼀个字符串中出现的起始位置。find(要查的字符串,字符串所在单元格位置)
find函数
截取字符串
left函数
left函数:left(字符串所在单元格位置,从左开始到XX位置进⾏截取)
right函数:right(字符串所在单元格位置,从右开始到XX位置进⾏截取)
right函数
mid函数:mid(字符串所在单元格位置,开始位置,截取长度)
mid函数
例如:A2="7k-9k"
FIND("k",A2) 得:2
LEFT(A2,2) 得:7k
LEFT(A2,FIND("k",A2)-1) 得:7——最低薪⽔
MID(A2,FIND("-",A2)+1,LEN(A2)-FIND("k",A2)-1) 得:9——最⾼薪⽔
如何⾃动填充函数?
解决办法:1. ⿏标放到单元格右下⾓,⾃动变成⼗字架形状 2. 双击⼗字架,将函数应⽤到这⼀整列数据上
筛选(即按条件查数据)
筛选
数据选项卡——筛选——最低薪⽔/最⾼薪⽔——#VALUE!——筛选错误值
对错误值进⾏处理,错误原因:薪⽔列显⽰如“7k以上”“7K-9K”
如何将“字符串”类型的数字转换成“数值”类型的数字?
分列转换成数字类型
插⼊新的⼀列——选择原来列,复制——选择性粘贴
选择性粘贴,选择数值、运算⽆——分列
注:分列的功能真的很强⼤啊
之后⽤AVERAGE函数就可以计算“平均薪⽔”。
6. 数据排序
对平均薪⽔进⾏排序:选中“平均薪⽔”列——降序——排序提醒:扩展选定区域
7. 异常值处理
数据透视表原理:①数据分组(split)②应⽤函数(apply)③组合结果(combine)
即先按某种属性对数据进⾏分类(如:报考专业、性别),然后对分组后的数据每组进⾏分析计算,最后对计算结果进⾏汇总。
插⼊选项卡——数据透视表——新⼯作表——勾选“职位名称”——将“职位名称”拖到“⾏”和“
值”(即完成数据分组和应⽤函数)
两张表格查重复数据⾏标签下拉框——其他排序选项——降序排序(Z到A)计数项:职位名称,摘要:依据“计数项:职位名称”按降序对“职位名称”排序——确定
截取图⽚
到这⾥我们可以看到“不同职位名称”下“职位数量”的⼀个降序排序,其中有⼀些并不是数据分析师的岗位,如“⼤数据开发⼯程师”,“⼤数据架构师”等等。
如何去除异常值?如何把不属于数据分析师的职位去除?
解决办法:思路——把属于数据分析师的职位设置为“是”,不属于数据分析师的职位设置为“否”。利⽤函数+筛选功能
在”职位名称“列后⾯加⼊⼀列
①find({"数据运营","数据分析","分析师"},L2) PS:注意参数是⼀个数组
②count(find({"数据运营","数据分析","分析师"},L2))
③if(count(find({"数据运营","数据分析","分析师"},L2)),"是","否")
筛选”是“的单元格——新建⼀个excel⽂件,招聘⽹站数据-数据清洗结果——把数据复制到这个新建的excel⾥
第四步数据分析或者构建模型
解决某⼀类问题的办法都可以叫模型
利⽤数据透视表
问题1:在哪些城市到数据分析师⼯作的机会⽐较⼤?应该去哪个城市⼯作?
解决办法:插⼊选项卡——数据透视表——勾选”城市“;列:⼯作年限要求;⾏:城市;
值:计数项:城市——点击“计数项:城市”⾏标签——其他排序选项——降序排序 计数项:城市(即按降序对”城市“排序)
城市⼯作机会
如何按百分⽐显⽰数据?
解决办法:选中任意数据单元格——⿏标右键——值显⽰⽅式——列汇总的百分⽐
结论
可以看到数据分析师职位需求排在前三的分别是:北京、上海、深圳。因此去这些城市⼯作机会⽐较多。
问题2:该⾏业的平均薪酬如何?
分析⼯具库——数据选项卡——数据分析——描述统计——
解决办法:⽂件——选项——加载项——Excel加载项 转到——分析⼯具库
具体操作步骤
输⼊区域:”平均薪⽔“这⼀列的数据(注意:不能包括列名)
勾选”标志位于第⼀⾏“:表⽰第⼀⾏是列名不包括在计算⾥⾯
得到的描述统计信息
描述统计分析:平均,标准误差,中位数,众数,标准差
标准差——衡量⼀组数⾃⾝的离散程度
标准误差——衡量观测值与真值之间的偏差
结论
数据分析师⾏业薪酬的平均值为
,中位数为
,众数为
,标准差为
。可以看出⾏业整体薪酬⽔平较⾼,但波动幅度较⼤。问题3:不同城市的平均薪⽔⽐较
解决办法:数据透视表——⾏:“城市”;
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论