混合数据的分离与分类统计
字符串长度统计胡正红;张朝霞
【摘 要】高考志愿填报是每一个高中生迈入理想大学关键的一步.如何以历年来各高校招生和录取的情况选择一个合适而理想的大学是每一个考生家长面临的难题.实际中,我们普通家长所能获取的各高校招生和录取的原始数据组成极为复杂,由文本、数字、其他字符组成混合数据,且每条数据长度不等,难以进行统计分析,另外,原始数据中只有最低分和最高分,不能满足统计需要.因此,文章首先概括了高考录取公示信息的数据特点,并进一步通过VFP程序设计对混杂的原始数据进行分离,提取出规范有效的数据,设置属性,根据统计要求补充属性等,形成新的数据样本,最后通过编程统计出各院校平均分、最高分,为下年高考志愿填报提供帮助.
【期刊名称】《太原师范学院学报(自然科学版)》
【年(卷),期】2015(014)004
【总页数】5页(P26-30)
【关键词】数据结构;VFP;数据分离
【作 者】胡正红;张朝霞
【作者单位】太原师范学院计算机系,山西晋中030619;太原师范学院计算机系,山西晋中030619
【正文语种】中 文
【中图分类】TP311.1
每年高考结束后,评阅完毕,考生查询成绩后就可志愿填报,虽然学生成绩已经知晓,但是各院校录取分数未知,需要考生查询往年历史数据进行对比参考,招生部门提供的数据只有各院校录取的最低分和最高分,没有平均分,事实上反映院校录取的整体水平的正是各院校录取的平均分,且每个考生在填报志愿时不仅要选择学校,更多的还要选择专业,选择专业时需要平均分数据,来帮助决策志愿的填报.
为此,我们从专业考试网络获取了2015年院校录取公示名单,希望统计出不同批次院校录取最高分、最低分、平均分.实际中,我们获取了20个数据文件,每个数据文件包括近1 000条若干院校的录取信息,同一个院校中有文科专业录取信息、理科录取信息以及文体特招信息,
每一条录取信息数据单元由文本、数字、其他字符组成混合数据,每条数据长度不等,如图1所示.
面对如此纷杂的原始数据,我们难以看出各高校在山西省的招生和录取情况,为了达到上面这个目的,我们有必要对原始数据进行重新分离、补充和整理,形成易于统计的数据结构.
基于原始数据的复杂繁多,我们选用VFP程序设计软件对数据进行重新的整理统计,形成我们填报志愿需要参考的新格式的数据结构.具体步骤如下:
第一,去除乱码.要想对这些数据样本按院校、科类进行统计分析,首先要对数据标准化,设置属性,将数据结构化.
通过分析可以看出,每条数据由14位准考证号、2~3个姓名符串、长度不等的院校名称字符串、3位整数12位小数的考试成绩数值型数据组成,中间夹杂有长度不等的“??”符号串.VFP数据库没有专门的分离函数分离数据,我们把导入的数据定义字段为“名单数据”,对其进行字符串替换处理,放入“新数据”字段, 语句为“replace all with chrtranc(名单数据,"?","")”,把原数据中的乱码转换为空格,如图2所示.
第二,设置数据结构.计算各院校的不同科类录取平均分,数据统计需要的决策属性有学校、成绩、科类,我们对数据可以按此要求设置属性.修改定义数据结构如图3所示.
第三,提取数据.数据标准化后,对数据的分离提取,我们可以使用取子串、替换字符串、去除空格函数处理,写入相应的字段,具体流程如下:
1)科类字段提取:从左取14位子串——获取准考证号——准考证号获取子串——科类编码—判断科类—写入科类字段;2)姓名字段提取;去除左边14位子串——从左获取考生姓名子串——写入姓名字段;3)学校字段提取:去除姓名子串——从左获取院校名称子串—写入学校字段; 4)成绩字段提取:去除院校子串——获取成绩——写入成绩字段.
主要实现代码如下:
sele 1
use 2015公示名单(a list of data)4.dbf
repl all 新数据(new data)with chrtranc(名单数据,"?","")(list data)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论