三经普数据处理中常用EXCEL函数简析
——普查过程中的数据处理方法——资料开发应用的基本方法
第三次全国经济普查作为一项重大的国情国力调查,涉及到的普查对象数量异常庞大,大到国家有5千万个企业单位和个体户,小到县区有上万个企业单位和个体户,如果算上从税务、工商、民政等部门索取来的资料,各级统计机构在普查前期和过程中需要处理、分析的单位数量纷繁复杂而又数量巨大,对于普通的基层工作者而言,如何利用常用的EXCEL表进行大批量数据的处理和分析?以下介绍几招简单又实用的常用函数,让您的工作立马高效起来。
一、分裂一个单元格-取数函数
在处理部门数据或者经普平台导出的数据时,有时会碰到将一个单元格内一个字符串分裂成若干单元格,如三普611表中中最常用的单位代码,是“普查区代码+组织机构代码”形式的组合,部门资料如地税名录资料中行业代码以“字母+数字”形式表示,为方便数据处理,可能仅需提取部分字段,只需根据实际情况选取LEFT、RIGHT和MID三个函数之一就可以实现了。以三普611表中单位代码为例说明。
由上图可以清楚看出这三个函数的用法,LEFT函数:从一个字符串左首第一个字符开始,向右截取指定数目的字符。MID函数:从一个字符串中指定位置开始,截取指定数目的字符RIGHT函数:从一个字符串右首第一个字符开始,向左截取指定数目的字符。并且MID函数由于参数更多,可以实现操作更为灵活。
此外,在三经普期间还经常遇到单元格分裂的反操作,即合并单元格,如上报数据情况时要求提供单位代码,这时就需要将已有的普查区代码和组织机构代码进行合并,只需使用“&”。“&”除了能够快速进行单元格合并外,也可以合并中加入其他字段,只需将所需字段用“&”顺序连接起来即可。具体如下图所示。
二、处理合库查重或者逻辑判断-查重函数
在处理部门名录资料的时候,需要将不同的部门名录资料合库进行排重后分析,如果单凭眼力一个一个的将重复项删除或者提取出来,显然是不够高效的。有没有什么办法可以快速实现呢?目前有两种常用的方法,一种是直接使用“删除重复项”功能,根据对话框提示操作即可,由于该功能仅限于2003版本以上的EXCEL使用,并且无法保留已删除的重复单位至新的工作表,在实际操作中还会出现不能完全剔重等异常情况,影响了最后结果的准确性。因此,使用第二种函数法,是相对比较稳妥的方式。函数有两种可供选择,即OR函数和COUNTIF函数。
1.OR函数:逻辑判断函数,在其参数组中,任何一个参数逻辑值为 TRUE,即返回 TRUE;所有参数的逻辑值为 FALSE,才返回 FALSE。运用OR函数的这一点进行数据排重。不过首先要对排重区域进行排序,才可使用OR函数。应用如下,实质是运到重复数据自身的规律,只要存在重复,那么函数中必将有一个公式为TRUE,OR函数仅计算单元格前面两列,运算时间短但无法统计重复次数。
2.COUNTIF函数:统计某个单元格区域中符合指定条件的单元格数目。以上面单位为例,应用如下。使用此函数不仅能够查出单元格是否重复,不用事先进行排序处理,并且可以精确计算重复个数。但是使用COUNTIF函数时需注意,如果数据量比较大,请尽量采用公式中第一行的绝对引用,不然直接选中所有单元格,不然会导致数量处理时间过长。
除查重操作外,COUNTIF函数还可进行多种逻辑判断。如可以快速统计出营业收入是否符合规上标淮的情况,以工业标淮2000万为例,假设营业收入所在区域为B2到B7734区间且计量单位为611表中所用千元,在相应单元格输入公式==COUNTIF(B2:B7734,">=20000"),即可快速判断出在这7733家工业企业中符合规上工业标淮的个数。除数值判断外,COUNTIF也可以进行字符串的判断,并可灵活使用通配符问号(?)和星号(*),其中问号代表多个字符,星号代表单个字符。
三、比对数据库查相应数值-查函数
普查的数据质量控制阶段,为保证单位不漏,统全统准,需要对大量的部门数据进行比对,如比对民政部门提供的社团信息是否全部登记入库,在比对单位名称一致的基础上提取相关指标进行比对分析,此处重点讲解VLOOKUP函数的使用。
VLOOKUP函数:在数据表的首列查指定的数值,并由此返回数据表当前行中指定列处的数值。整个函数涉及四个参数,整体结构较为复杂,具体为
=VLOOKUP(lookup_value,table_array,col_index_num,range_lookup),其中Lookup_valu
e代表需要查的数值;Table_array代表需要在其中查数据的单元格区域;Col_index_num为在table_array区域中待返回的匹配值的列序号Range_lookup为一逻辑值,如果为TRUE或省略,则返回近似匹配值,也就是说,如果不到精确匹配值,则返回小于lookup_value的最大数值;如果为FALSE,则返回精确匹配值,如果不到,则返回错误值#N/A。其中最难以理解应用的是第三个参数行数,接下来举两个例子来进行说明。为了方便显示把指标放在一张表上,实际使用中经常是多表之间的引用,数据指标更多。首先是简单查,如我们想查B单位名称是否同样存在于A单位名称中,就可以使用此函数,此处由于列表区域仅有一列,所以行数只能选择1。
接下来是列表区域和行数同时变化,接上例我们在A单位名称后增加一列从业人员情况,在B单位名称中用VLOOKUP函数查是否存在并返回其对应的从业人员,公式如下,这里的列表区域相应变化,同样的行数也变成第2列。
与VLOOKUP函数用法类似的HLOOKUP函数,实现功能相同,区别在于前面单词分别是纵向和横向,即公式所比对的方向不同,可结合实际灵活使用。且在函数录入界面注意是否出现无效字段或公式无效的情况,提前进行相应排查,提高公式正确使用效率。
四、其他常用函数
除以上三类常用函数外,在三经普中的数据汇总和分析中还经常用借助其他常用小函数,这些小函数可以快速实现某些功能,并且语法结构相对简单,能够有效提高工作效率。
1. RANK函数:对一组数值进行排序。在实际工作中,我们经常会对某项指标的重要性进行排序,如国家三经普公告中对工业分行业的从业人员进行了排序,并出前三位就业人数最多的行业。此次排序虽然可以用EXCEL自带的数据排序即可,但是如果想知道具体的位数,并且不改变本身的数据结构,还是要使用RANK函数。如下图所示。
使用RANK函数时,如果数值列表中出现相同的数值,函数会把它们当作同一级,但会影响到后面的数。上例中39是相同的,所以出现并列4,然后直接到6。此处由于是默认的降序排列,省略掉了函数第三个参数0降序,实际使用中还可以选择参数进行顺序操作。
2. Len函数:返回文本串的字符数。可以快速实现数数功能,如对某一地数据质量进行查看时,比如电话号码的位数,可以借此来判断,固话少于8位手机少于11位一定是不符合要求的。同样对字符如有要求,如要求主营业务活动尽量规范四字以上,也可使用Len函数进行判断,同样还有LENB函数。具体如下图所示。
此处增加了LENB函数将文本看成字节,一个汉字等于两个字节,所以计算出来的结果与Len函数不同,除了某些计算语言有特别要求外,一般常用Len函数。
3。IF函数:根据对指定条件的逻辑判断的真假结果,返回相对应的内容。IF函数应用广泛,可以实现多种形式的分类筛选,并且还可以和其他函数嵌套使用,提高数据处理的效率。简单的IF函数仅有一个判断条件,如我们想查看从业人员中女性从业人员占比超过一半的单位有哪些,进而来研究女性就业问题。具体如下图所示:
通过IF函数可以快速进行分类判断,区分女性从业人员占比情况,进而为详细分析做好准备。除了单个IF判断外,还可以进行多重IF判断,只需按照函数要求进行正确录入即可实现。如对营业收入按不同数量级进行分类,查看企业分布情况。
总之,EXCEL中提供了大量方便可用的函数,在实际工作中可结合需要进行选取。在使用函数时可查看相应的使用说明,以加深对函数的理解,提高正确率。首先可采用“Shift+F3”快速插入函数,其次注意函数使用过程中相关引用的绝对引用和相对引用情况,以免在公式拖动过程中产生不必要的错误,最后整个函数的使用还要多练多用,在使用中不断提升技巧。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论