混合数据的分离与分类统计--688IT编程网

混合数据的分离与分类统计

字符串长度统计

胡正红;张朝霞

【摘要】高考志愿填报是每一个高中生迈入理想大学关键的一步.如何以历年来各高校招生和录取的情况选择一个合适而理想的大学是每一个考生家长面临的难题.实际中,我们普通家长所能获取的各高校招生和录取的原始数据组成极为复杂,由文本、数字、其他字符组成混合数据,且每条数据长度不等,难以进行统计分析,另外,原始数据中只有最低分和最高分,不能满足统计需要.因此,文章首先概括了高考录取公示信息的数据特点,并进一步通过VFP程序设计对混杂的原始数据进行分离,提取出规范有效的数据,设置属性,根据统计要求补充属性等,形成新的数据样本,最后通过编程统计出各院校平均分、最高分,为下年高考志愿填报提供帮助.

【期刊名称】《太原师范学院学报（自然科学版）》

【年(卷),期】2015(014)004

【总页数】5页(P26-30)

【关键词】数据结构;VFP;数据分离

【作者】胡正红;张朝霞

【作者单位】太原师范学院计算机系,山西晋中030619;太原师范学院计算机系,山西晋中030619

【正文语种】中文

【中图分类】TP311.1

每年高考结束后，评阅完毕，考生查询成绩后就可志愿填报,虽然学生成绩已经知晓，但是各院校录取分数未知，需要考生查询往年历史数据进行对比参考，招生部门提供的数据只有各院校录取的最低分和最高分，没有平均分，事实上反映院校录取的整体水平的正是各院校录取的平均分，且每个考生在填报志愿时不仅要选择学校，更多的还要选择专业，选择专业时需要平均分数据，来帮助决策志愿的填报.

为此，我们从专业考试网络获取了2015年院校录取公示名单，希望统计出不同批次院校录取最高分、最低分、平均分.实际中，我们获取了20个数据文件，每个数据文件包括近1 000条若干院校的录取信息，同一个院校中有文科专业录取信息、理科录取信息以及文体特招信息，

每一条录取信息数据单元由文本、数字、其他字符组成混合数据，每条数据长度不等，如图1所示.

面对如此纷杂的原始数据，我们难以看出各高校在山西省的招生和录取情况，为了达到上面这个目的，我们有必要对原始数据进行重新分离、补充和整理，形成易于统计的数据结构.

基于原始数据的复杂繁多，我们选用VFP程序设计软件对数据进行重新的整理统计，形成我们填报志愿需要参考的新格式的数据结构.具体步骤如下：

第一，去除乱码.要想对这些数据样本按院校、科类进行统计分析，首先要对数据标准化，设置属性，将数据结构化.

通过分析可以看出，每条数据由14位准考证号、2～3个姓名符串、长度不等的院校名称字符串、3位整数12位小数的考试成绩数值型数据组成，中间夹杂有长度不等的“？？”符号串.VFP数据库没有专门的分离函数分离数据，我们把导入的数据定义字段为“名单数据”，对其进行字符串替换处理，放入“新数据”字段，语句为“replace all with chrtranc(名单数据,"?","")”，把原数据中的乱码转换为空格，如图2所示.

第二，设置数据结构.计算各院校的不同科类录取平均分，数据统计需要的决策属性有学校、成绩、科类，我们对数据可以按此要求设置属性.修改定义数据结构如图3所示.

第三，提取数据.数据标准化后，对数据的分离提取，我们可以使用取子串、替换字符串、去除空格函数处理，写入相应的字段，具体流程如下：

1)科类字段提取：从左取14位子串——获取准考证号——准考证号获取子串——科类编码—判断科类—写入科类字段；2)姓名字段提取；去除左边14位子串——从左获取考生姓名子串——写入姓名字段；3)学校字段提取：去除姓名子串——从左获取院校名称子串—写入学校字段； 4)成绩字段提取：去除院校子串——获取成绩——写入成绩字段.

主要实现代码如下：

sele 1

use 2015公示名单(a list of data)4.dbf

repl all 新数据(new data)with chrtranc(名单数据,"?","")(list data)

688IT编程网

混合数据的分离与分类统计

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

混合数据的分离与分类统计

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式