www�ele169�com  |  51
python大数据就业前景软件开发
0 引言
创业担保贷款是由国家人社部、财政部、人民银行出台
的一项普惠性的贷款政策,主要面向城镇失业人员、高校毕业生、返乡创业的农牧民等在金融信贷方面的弱势体,为其提供5到20万的信贷支持,并给予一定数额的贴息补助。2019年全国创业担保贷款约发放1000亿元,为创业者补贴利息约67.5亿元。
随着大数据技术的蓬勃发展,挖掘庞大数据体量背后的
潜在价值成为大数据领域研究的热点。通过数据挖掘技术,可以实现预测研究主体的趋势和行为、变量关联分析、目标聚类分析、偏差检测等功能。本文以包头市为例,将数据挖掘技术应用到创业担保贷款这项惠民政策中,通过构建创业者创业能力评估模型,可以根据创业者的实际情况,合理测算出创业者的实际用款需求,实现国家财政资金合理分配的目的。
1 设计过程
本文基于Python 语言实现,通过matplotlib 实现对
数据的可视化,pandas 实现对样本数据的分析和处理,sklearn 机器学习库实现数据从预处理到模型训练的各个步
骤。具体的设计流程图如图1所示。 ■1.1 数据采集
数据采集是进行数据分析的第一步,采集的数据主要分
为历史数据与实时数据。基础的历史样本数据集主要来自于业务系统,包括创业担保贷款本身的信息管理系统、社会保险信息管理系统以及工商部门的企业信用公示系统。创业担保贷款本身的信息管理系统提供了创业者申请创业担保贷款的历史数据,包含申贷次数,申贷金额、经营情况等信息。
社会保险信息管理系统获取了创业者的社会保险信息,包含就业失业状态,就业困难人员认定以及零就业家庭认定等信息。工商部门的企业信用公示系统主要获取创业者的企业信息,包含企业的营业执照、经营项目等信息。因创业担保贷款的用款周期为两年,创业者在按时还款后,仍然可以继续申请,为避免这些再次申请的数据对模型构建产生影响,选
取的样本数据为近两年的贷款数据。实时样本数据由各个部门的工作人员实时向业务系统导入。 ■1.2 数据存储
数据存储的目的在于将采集到的样本数据持久化,以便
后续的分析与处理。因样本数据取自不同的业务系统,所以
通过Python 的requests 库分别向各个业务系统发送http 请
求获取需要的数据,并对获取到的数据进行整合,最后存储到
Mysql 数据库中。 ■1.3 数据预处理
数据预处理是指对样本数据
进一步加工,得到一组仍包含原始信息且适合进行建模的数据集。包含数据清洗、数据规范化与特征降维等步骤。数据清洗是
对采集而来并存储到数据库中的数据进行校验与纠正的过程,包
基于Python 的数据挖掘技术在创业担保贷款中的应用
高键1, 季禹伶2
(1.内蒙古科技大学信息工程学院,内蒙古包头,014010;2.河南大学经济学院,河南开封,475000)
摘要:信息时代,随着数据体量的爆发式增长以及大数据技术的蓬勃发展,如何挖掘数据中潜在的价值,成为政企部门关注的焦点。Python语言因具有语法精炼、科学计算库成熟等特点,成为数据分析领域的主流的语言。通过Python语言对创业担保贷款的业务数据进行分析与挖掘,可发现政策短板,突破政务服务的“中心化”瓶颈,并构建创业者创业能力评估模型,比较出不同创业者的创业价值,从而提供精确的贷款额度支持。
关键词:
Python;数据挖掘;金融分析;创业担保贷款
图1    基于Python 的数据挖掘技术在创业担保贷款中的应用设计流程图
将会对其他数据的建模造成较大扰动,所以该类缺失值采取删除记录的处理方式。在对创业者创业潜力分析时,企业聘用的员工数量是分析创业潜力的重要指标,由人为因素导致的某些企业该项数据特征的缺失,采用插值法对缺失的数据进行填充。在具体的操作中,对贷款次数记录小于2的记录进行删除,贷款次数记录不小于2的记录可通过查询聘用员工数量的历史数据然后利用拉格朗日插值公式计算本次申请贷款时缺失的聘用员工数量近似值。
■1.4 构建模型
得到了可以建模的数据后,可以根据挖掘目标与数据形式建立分类与预测、关联规则、聚类分析等模型。基于Python语言的sklearn机器学习工具包,涵盖了所有机器学习算法,并且提供了简单高效的数据挖掘和数据分析工具。本文利用sklearn对建模过程中的参数进行了调试和优化,最后建立了创业者创业能力的聚类模型。
2 系统设计与应用
■2.1 挖掘潜在的申请体
创业担保贷款申请的前提条件一般要求创业者持有图2  包头市各旗县区工商户数量与已申请创业担保贷款人员占比情况
从图2中可以看到,距离市中心较远的“外五区”申请创业担保贷款的人员占当地工商户数量的比重明显比繁华的“市五区”较高,一般是因为“外五区”地大人稀,人口密度低但聚集较为集中,所以宣传效果较好,而“市五区”人口密度高,人口聚集地较多且不集中,因此导致政策覆盖面不够广泛。所以主管部门可以进一步加大在“市五区”内的宣传力度,扩大政策覆盖的广度与深度。
■2.2 创业者创业能力分析
在创业担保贷款的实际工作中,创业者的实际用款额度由审批单位根据创业者的经营状态认定,这种认定往往是带有经验性的主观认定,存在一定的弊端。通过对创业者经营情况的一些具体数据进行量化,构建创业者创业能力的聚类模型,可以将创业者按创业能力分类,进而为其匹配相应的贷款额度。
从Mysql数据库中获取到关于创业者的基本信息,导入pandas进行分析,取前5行数据,创业者数据的一些特征及数据如表2所示。
不同特征的数据之间差距较大且单位不一致,需要对数据进行规范化处理,消除量纲间的差距。通过
对一些主要特征的数据绘制正态分布函数图,可以发现这些特征近似符合正态分布,因此采用z-score标准化对数据进行去量纲化操作。之后对数据进行特征降维,去除例如姓名、学历等一些
52  |  电子制作    2021年04月
www�ele169�com  |  53
软件开发
无关的特征,通过方差分析法,发现贷款次数的方差较小,不足以区分每个样本在该特征上的不同,因此去除该特征。最后确定年龄、员工人数、创业年限、年利润、企业占地面积5个特征的数据进行模型训练。
采用K-Means算法对创业者的特征数据进行聚类分析,
通过对不同簇数k 下的聚类结果进行对比,当k 取5时,聚类效果较好。因此设定n_clusters 的值为5对数据进行
聚类。通过绘制雷达图对聚类结果进行分析,如图3所示。  图3    基于聚类结果的创业者创业能力雷达图
从图3中可以看到,不同体在各个特征之间的表现
存在较大的差异,例如L5体在年利润特征上表现突出,通过结合业务情景,该类创业者往往能创造较高的经济价
值,可以认定为具有极强创业能力的创业者,可以继续给予
较高额度的创业担保贷款支持。L1体虽然在年利润特征上表现不足,但在员工人数特征上表现突出,表明该类创业者当前给社会带来较多的就业岗位,在原有贷款额度的基础上,可以给予重点扶持。
3 结束语
目前大多数的政府机构基于业务流程的控制开发了数
据信息管理系统,但挖掘数据背后的潜藏价值,使其更好的应用于管理与服务中,仍是需要解决的问题。本文在已有业务数据的基础上,利用数据挖掘技术,对创业担保贷款的业务数据进行了分析与挖掘,构建了创业者创业能力分析模
型,实现了对创业者创业能力的准确评估,为政策决策提供了有效的数据支撑。
参考文献
* [1]卞玉露,蒋慧敏. 基于Python 的气温数据分析设计与实现[J]. 信息通信, 2019, (9): 27-28.
* 陈镭,张凡龙. Python 数据挖掘在高校人才引进中的应用[J].
中国教育信息化·高教职教, 2019, (8): 52-54.* [3]郑涵之,叶燊,王晓凯. 基于Python 的铁路旅财数据挖掘与分析[J]. 数字技术与应用, 2020,38(5): 33-34,36.* [4]张良钧,王路等. Python 数据分析与挖掘实战[M]. 机械工业出版社, 2016.
* [5]刘顺祥. Python 数据分析与挖掘[M]. 清华大学出版社, 2018.用前景广阔。
参考文献
* [1] ADI 公司高速模数转换器团队的应用工程师.噪声频谱密度一项新的ADC 指标[J],电子产品世界, 2015,2-3合刊: 36-39.
* [2] ADI 公司. ADI 模数转换器应用笔记[M], 北京航空航天大学出版社, 2011.7.
* [3]陈丽.中频数据采集前端电路的设计[J], 国外电子测量技术, 2009, 7:45-48.
* [4] 詹永卫.中频采样系统中Dither 电路的设计[J],科技信息2008,18:110-113.强,应用实效简单,可推广使用,助力安全生产。
参考文献
* [1]李洋博,赵泽林,李圆,等.基于32单片机控制的智能语音刷卡系统[J].电脑编程技巧与维护,2019(03):125-127.
* [2]李国山,梁国涛.粮食企业IC 卡管理系统应用[J].粮食流通技术,2003(04):29-31.
* [3]项进解,钱远.粮食仓储工程IC 卡计算机管理系统应用工程方案研究[J].粮食与饲料工业,2002(06):14-16.(上接第14页)
(上接第17页)

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。