- 1 -
高 新 技 术
1 数据预测评估系统的设计背景
目前,企业数据工程师的工作量较大,且由于数据分析的特性,会增加数据工程师对数据进行挖掘分析的时间成本,对工作任务的完成效率和企业的盈利有不利影响,甚至可能阻碍新算法的开发进程。因此,无论是对企业和工作者,还是对现在和未来的发展来说,优化提升现有的基础是十分重要的。
基于神经网络算法的数据预测与评估系统是一款可以快速、高效地完成数据预测与评估系统管理操作的软件,而且该系统还具备数据导入、数据训练和数据预测等功能,可以根据设置的配置参数完成基于神经网络算法的数据预测与评估系统等相关操作。该软件可以系统地对基于神经网络算法的数据预测与评估系统所产生的数据进行分析、归类和计算,再对数据进行智能化的统筹管理和保存备份。全新的登录账号系统让用户可以随时随地访问基于神经网络算法的数据预测与评估系统管理平台,让用户可以更便捷地管理该系统,也让用户更加安心。
2 研究现状
目前针对数据预测的系统有很多,许多学者从随机森林、灰预测、神经网络、时间序列、组合处理、小波分解以及ANFIS 模型等多个方面对数据预测系统展开了研究和开发工作,研究成果颇丰[1]。其中,灰预测方法、神经网络和时间序列3个角度是学界研究的热点,学者对相关研究的兴趣一直维持在一个较高的水平。
在对使用时间序列方法进行数据预测的研究中,南国芳、周帅印、李敏强和寇纪淞在2013年通过对无线传感器网络的数据进行分析,引入多属性模糊时间序列预测模型,并提出了适合传感器网络的修正预测模型[2]。2010年,于重重、于蕾、谭励和段振刚基于时序算法对太阳能热水监测系统的使用率做出准确的评价[3]。2020年,潘点飞等人为了实现在轨道中采用生控系统进行故障预测的目的,对系统遥测数据的时间序列信息展开了研究。通过AIC 与BIC 相结合的方法确定了预测模型,并运用该模型对实际工程中的遥测数据进行预测验证[4]。
在以神经网络为基础的数据预测模型中,学者大多使用的是BP 神经网络、LSTM 神经网络和GRU 神经网络;2020年,姬鹏飞、孟伟娜、杨北方和王丹丹提出了基于自适应粒子算法(APSO)优化的误差方向传播(BP)神经网络预测
方法,利用APSO 算法优越的全局搜索能力更新 BP 神经网络的权值和阈值,通过有效结合2种算法的优势,提高了某省农业机械数据预测的精度[5]。对于LSTM 神经网络,王永志、刘博和李钰在Tensor Fl
ow 框架下使用Python 语言设计了1种基于长短期记忆(LSTM)神经网络的电力负荷预测模型,该模型可以准确地预测电力负荷数据的日变化、周变化规律[6]。2020年,孙宇航、刘洋从GRU 神经网络出发,通过训练神经网络逼近横波的速度与储层参数之间的关系,利用纵波速度、密度和自然伽马等储层参数直接预测横波的速度[7]。
虽然目前对数据预测评估的研究量较大,以神经网络作为切入点的研究也不在少数;但是这些研究忽略了用户应用的问题,实用性不强。该文将以神经网络为着力点,以Java 和Python 语言为工具,为用户设计出简单易操作的数据预测软件,让更多的人感受到计算机技术为生活所带来的便利。
3 数据预测评估系统的研究方向3.1 学术思路
该文考虑目前数据处理工作存在不够高效和不够完善的问题,以简化数据处理过程、方便人们生活为目标,依据Java、Python 等理论与方法,以神经网络为主要思想,开发一款可以高效分析处理数据的软件。
3.2 技术特点
该软件使用最新的智能化管理分析算法,快速地在后台进行计算运行,以高效的方式对数据进行智能分析和管理,将数据预测、数值评估以及相应的管理操作呈现在用户面前,节省了大量人工计算数据的时
间。而且完备的大数据信息都是经过多层加密处理的,保证了数据的安全性和可靠性,不用担心被窃取数据。
3.3 技术路线
在技术路线上,主要采用Java、Python2种方法分别完成界面设计和数据分析评估工作。采用Java 完成对系统功能的设计,包括登录界面、首页、数据导入、数据训练、数据预测、数据评估和日志列表。采用Python 完成数据分析工作。
3.3.1 Java 程序开发
框架设计中的 SSM 框架是 Spring MVC、Spring 和MyBatis 框架的整合,是标准的 MVC 模式。该框架将整个系统划分为表
基于神经网络算法的数据预测与评估系统
孙熙泽  唐 琦  王泽宇  张婉婷  罗裕梅(云南大学,云南  昆明  650000)
摘  要:为了提高数据处理工作的效率、降低企业的运营成本,该文从神经网络算法的角度出发,运用Java 和Python 的相关知识,开发了一款能够高效地进行数据预测与评估的软件。该软件可以高效、便
捷地完成数据预测与评估管理,且具备了数据导入、数据训练、数据预测以及数据评估等功能,可以根据设置的配置参数高效地完成相关操作。该系统可以系统地对数据进行分析、归类和计算,还可以智能化地对数据进行统筹管理、保存备份。全新的登录账号系统让用户可以随时随地访问智能化管理平台。该软件让用户可以省时、省心地完成对数据的保存和监测,各种完备的设置管理也让用户对系统的管理变得更加便捷。关键词:神经网络算法;数据预测;数据评估中图分类号:TP 30          文献标志码:A
- 2 -
高 新 技 术
现层、controller 层、service 层和DAO 层,使用Spring MVC 负责请求的转发和视图管理;Spring 实现业务对象管理,MyBatis 作为数据对象的持久化引擎。
整体设计思路如下:1) 先搭建整合的环境。2) 完成对 Spring 的配置的搭建工作。3) 使用 Spring 整合 Spring MVC 框架。4) 使用 Spring 整合 MyBatis 框架。5) 用Spring 整合 MyBatis 框架的配置事务(Spring 的声明式事务管理) 。3.3.2 Python 数据分析
3.3.2.1 算法的实现(包括但不限于下列2项) 3.3.2.1.1 KNN 算法
有多种度量方式可以计算空间中点的距离,例如常见的曼哈顿距离和欧式距离等。不过通常 KNN 算法中使用的是欧式距离,以二维平面为例,
用欧式距离计算二维空间2个点的距离,如公式(1)所示。
(1)
拓展到多维空间,其公式如公式(2)所示。
(2)
式中:ρ为2个点间的距离;(x 1, y 1)为第一个坐标点的坐标;
(x 2, y 2)为第二个坐标点的坐标; d (x ,y )为各点之间的距离之
和;
i 为当前取到的第i 个样本; n 为样本数量。3.3.2.1.2 Logistic 算法
与指数分布、高斯分布等分布一样,Logistic 是一种变量的分布,它也有自己的概率分布函数和概率密度函数,其中概率分布函数如公式(3)所示。
(3)e
对概率分布函数求导,就得到对应的概率密度函数,如
公式(4)所示。
(4)
e
e 式中:
F (x )为概率分布;f (x )为概率密度;x 为样本;μ为分布对应的均值;
γ为对应的形状参数;P 为概率;X 为实际的中点距离。3.3.2.2 评估方法
3.3.2.2.1 集成算法(Bagging)
集成算法的原理是基于自助采样法(Bootstrap Sampling)
随机得到一些样本集训练,分别训练不同的基学习器,再对不同基学习器得到的结果进行投票,从而得出最终的分类结果。在自助采样法得到的样本中,大概有63%的数据样本会被使
用,剩下的可以用来做验证集。
3.3.2.2.2 提升算法(Boosting)
它通过反复学习得到一系列弱分类器,然后组合这些弱分类器得到
1个强分类器,把弱分类器提升为强分类器的过程主要分为加法模型和向前分步。加法模型就是把一系列的弱
分类器相加,串联为强分类器,如公式(5)所示。 (5)式中:
F m 为当前分类器的表示函数;P 为最优参数的综合;h (x ; a m )为一系列的弱学习器;
a m 为该学习器训练得到的最优参数;βm
为对应的弱学习器在强学习器中所占比例的系数; m
为当前取到的样本;
n 为样本数量。向前分步是指本轮的学习器是通过在上一轮学习器的基础上迭代训练而得到的,如公式(6)所示。
(6)3.3.2.3 评估指标
3.3.2.3.1 准确度(accuracy)、召回率(recall)和预测(precision)评估
图1为1个二分类的混淆矩阵(多分类同理,只需要把不
属于当前类的其他类都考虑为负例),表格中的4个参数说明
如下:1) True Positive(TP )。预测为正例,实际为正例。2) False Positive (FP )。预测为正例,实际为负例。3) True Negative (TN )。预测为负例,实际为负例。4) False Negative (FN )。预测为负例,实际为正例。
图1  二分类混淆矩阵
判定
正例正例负例
负例
TP FP
FN TN
相关计算公式,如公式(7)、公式(8)、公式(9)、公式
(10)、公式(11)和公式(12)所示。
准确度(accuracy) =
(7)预测(prediction) =  (8)召回率
(recall) =  (9)F 得分 =
(10)
特异性 =(11)灵敏度 =
= 召回率
(12)式中:
F 得分为综合考虑预测与召回率得到的某个数值。根据F 的值来进行评估,F 得分越大,那么表示当前的算
法越准确。
3.3.2.3.2 均方误差(MSE )
该统计参数是预测数据和原始数据对应点误差的平方和的均值,也就是SSE /n ,和SSE 没有太大的区别,其中SSE 为和方差,MSE 的计算公式如公式(13)所示。
- 3 -
高 新 技 术
(13)
式中:
n 为样本的个数;i 为取到的当前样本;wi 为权重参数;
yi 为当前样本的真实值
;为当前样本的预测值。3.3.2.3.3 统计参数(RMSE)
该统计参数(RMSE)也叫回归系统的拟合标准差,是 MSE  的平方根,计算公式如公式(14)所示。
(14)式中:
ssm框架实现登录功能n 为样本的个数;i 为当前取到的样本;wi 为权重参数;
yi 表为当前样本的真实值;为当前样本的预测值。4 数据预测评估系统的特点与创新点4.1 技术特点
该软件使用了最新的智能化管理分析算法,可以快速地在后台进行计算,并将数据预测、数值评估的结果以及相应的管理操作呈现在用户面前,节省了大量人工计算数据的时间。而且经过多层加密的完备的大数据信息的安全是有保障的。
4.2 技术创新点
4.2.1 基于神经网络算法建成
神经网络算法是1种通过模仿动物神经网络行为特征对信息进行分布式并行处理的算法数学模型。该网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。与传统算法不同,使用神经网络算法的人工智能将拥有自学能力,能够实现自我学习和自我改进[8]。
4.2.2 高效率、低错误率
与人工处理数据相比,通过该软件进行数据处理,其数据处理的精确度更高。直接节约了项目完成所需要的时间,间接地降低了企业的雇佣成本、时间成本和机会成本,使技术人员有更多的时间和精力投入创新算法的工作中。
4.2.3 技术先进
系统层次详细由多层架构组织而成,良好的分层决定了良好的系统基础。采用最新的智能化管理分析算法,能够快速地在后台进行计算。同时使用加密技术,不用担心被数据会被窃取。 5 数据预测评估系统的可行性分析
5.1 市场可行性 
该软件可以为广大用户提供快速方便的数据预测与评估
管理方法,而且具备了数据导入、数据训练和数据预测等功
能。另外,该系统还有数据评估功能,可以根据设置的配置参
数完成相关操作。该软件可以对数据进行系统的分析、归类和
计算,然后对数据进行智能化的统筹管理和保存备份,全新的
登录账号系统让用户可以随时随地访问智能化管理平台。该
软件让用户完成数据保存、监测等操作的过程变得更加简单,各种完备的设置管理也让用户对系统的管
理变得更加便捷。
5.2 技术可行性
该软件主要具备数据导入、评估数据、数据预测、日志
管理及普通管理系统的其他基本功能。
5.3 经济可行性
该项目在技术领域有较大的利用空间,能够在经济上减
少雇佣人员编写程序的开支,并且在软件推广期间不收取费用,一段时间后再采用合理的收费制度。
5.4 社会可行性 
5.4.1 法律可行性 
该产品没有侵权或者抄袭等违法情况,也没有被申请过专利。
5.4.2 政策可行性 
没有国家政策限制,也没有地方政府(或其他机构)的限制。
5.4.3 运行可行性 
使用该软件的用户可能会涉及各种类型的人,部分人可能会对操作比较生疏,但是该软件简洁明了的 UI 和快捷的操作特性,不会对用户有很高的要求,因此用户能够在短时间内借助简易的说明快速学会相关操作。并且为了提高系统的实用性,该软件也具备较强的可靠性和较大的吞吐量。
6 结语
创新是引领发展的第一动力,数据预测评估系统结合了多种科学技术,其中神经网络算法、最新管理分析算法等创新点最为突出,经过大量实验考证,笔者充分地确定了项目的可行性。团队将对该项目进行深层次研究,相信该产品很快就会打开相关市场,让更多的人体验到数据预测评估系统所带来的便利。
参考文献
[1]谭冠军,卜英勇.灰 GM(1,1)模型在可靠性工程中的应用研究[J].中南工业大学学报,1998(3):69-71.
[2]南国芳,周帅印,李敏强,等.基于模糊时间序列的传感器网络感知数据预测模型[J].运筹与管理,2013,22(2):
143-149.
[3]于重重,于蕾,谭励,等.基于时序算法的太阳能热水监测系统数据预测分析[J].太阳能学报,2010,31(11):1413-1418.
[4]潘点飞,胡伟,周文兴,等.1种基于时间序列的环控生保系统遥测数据预测方法[J].信息技术与网络安全,2020,39(12):67-72.[5]姬鹏飞,孟伟娜,杨北方,等.基于改进BP 神经网络的农业机械数据预测研究[J].中国农机化学报,2020,41(2):200-205.[6]王永志,刘博,李钰.1种基于LSTM 神经网络的电力负荷预测方法[J].实验室研究与探索,2020,39(5):41-45.[7]孙宇航,刘洋.利用GRU 神经网络预测横波速度[J].石油地球物理勘探,2020,55(3)
:484-492,503,467.[8]Simon Haykin.神经网络与机器学习[M].北京:机械工业出版社,2011:24-200.

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。