信息记录材料 2020年12月 第21卷第12期
sql语句优化方式
152
1  引言
SQL Server 数据库是一个长期存储在计算机内的有组织存储、可共享,可以统一管理的大数据集合,管理人员可以对数据进行任意的删除、增加等操作。数据库的功能是通过一些命令快速地检索出有意义的数据。随着数据大幅度冗余,为了保证数据库的性能,本文将从数据库性能的框架和优化方法出发,对SQL Server 数据库进行性能优化策略的研究[1]。
2  SQL Server数据库性能优化框架设计
2.1 SQL Server 数据库性能优化目的
为了更好地完成SQL Server 数据库性能优化策略的研究,首先本文要明确数据库优化的目的是通过改善数据库的核心设备,提高性能和数据库的使用效果。SQL Server 数据库的使用性能主要表现在系统的吞吐量、数据库检索响应时间、数据库系统承载的用户量三方面。
SQL Server 数据库的吞吐量表示在一定时间内数据库处理检索的数据条数,用事务量衡量数据库的吞吐量。数据库检索的响应时间是数据库后台处理一条数据的时间,通常以秒和毫秒为单位表示。数据库承载的用户量是一个数据库性能的重要体现,性能高的数据库会同时支持多个用户进行检索工作,可以在资源拥挤时提供畅通的资源检索。
2.2 SQL Server 数据库性能优化工具
为了达到SQL Server 数据库性能优化的最优化,本文选择SQL Server 数据库性能优化工具为性能监视器、事件探查器、对象计数器。
事件侦察器的主要功能是对数据库进行检索,排查具有无格式化的数据库内部组件。因为事件侦察器要扫描数据库内部的信息所以设备具有信息加密功能,防止数据的泄露。事件侦查器会根据管理员的指令进行事件查询,或者在事件侦察器中输入关键语句进行侦查,减少侦查器的工作量。
性能监视器是Windows 2003内部的一个工具,它的使用权限要得到数据库和windows 两个管理权限才可以执行,性能监视器可以扫描数据库的每一个组成文件,并定期进行测试,如果测试结果不符合标准,在数据库进行优化过程中,如果出现优化障碍或者优化时自带病毒,性能监视器就会向数据库管理员反馈信息,管理员进行及时维护修改[2]。
对象计数器的工作内容是对数据库内部处理数据量进
行计数,防止数据库出现数据冗余的情况,对象计数器主要分为内存对象计数器和物理磁盘对象计数器。内存对象计数器的工作区域为系统内存,对象计数器用来计算数据页面文件数,计数单位为秒。内存对象计数器的显示为0.1,为了降低误差,所以计算单位时间内平均计数,如果平均计数超过0.1,则数据库该页面文件存在问题。物理磁盘对象计数器的工作是监测数据库的数据输入输出性能,通过计数数据库磁盘内部在一定时间周期中数据输入输出量,判定数据库的性能等级,如果数据的输出输入频率达不到20/s,则代表数据库的性能需要提高。3  SQL Server数据库性能优化方面
根据以上对SQL Server 数据库性能表示量进行分析,本文将对数据库的语句库、浏览器/服务器优化、建立临时数据库、内存器四方面进行优化[3]。
SQL Server 数据库的SQL 语言库的优化是指拓宽数据语言库的知识面,增加检索语句的检索功能,并在一定程度上重视检索格式。因为高效率的数据库查询语句会减少数据库资源冗余并且缩短资源检索的响应时间,提高数据库检索工作性能。优化后的数据库SQL 语言库也是数据库的核心,如果检索语句较长,语句输入错误的可能性会提高,则简练并且高效的数据语句是数据库性能优化的重要组件。
数据库中浏览器/服务器模式是指优化数据库内部浏览器和服务器的性能,提高数据利用率,高效地表现出数据库的性能。数据库的服务器是web 服务器,web 服务器是保证数据库稳定运行的重要设备,并且防止内部资源冲突。
为了时刻保证数据库的稳定使用和性能表现最大化,本文建立一个临时的数据库,这个临时数据库在数据库正常工作时会处于关闭状态,一旦数据库发生闪退时,临时添加数据库存储未被保存的数据资源,等待数据库重新启动时完成资源处理。
对数据库内存器的优化表现在扩大内存器的存储空间,避免出现运行资源大于磁盘内存大小,出现系统卡顿的情况,扩大数据库内存器的内存后,增加运行空间比,提高运行速度,将数据库性能最大化。4  结语
首先本文确定SQL Server 数据库优化的目的,然后根据优化目的和目前存在的问题,提出数据库优化的各个方面[4]。根据数据库将要优化的各个方面,本文确定SQL Server 数据库优化工具,最后设计了数据库性能优化的流程,完成本文对数据库性能优化策略的研究,达成研究目的。
SQLServer 数据库性能优化策略研究
徐奥辉
(湖北第二师范学院  湖北  武汉  430205)
【摘要】随着我国科技的发展,数据成为各行各业发展生存的关键,每分钟都会产生数十条数据,在数据量成倍增加的情况下,为了保证数据操作的高效性,我国数据研究人员引入了SQL Server 数据库。
为了解决数据库读写压力的问题,本文对SQL Server 数据库的性能进行分析优化,形成一个数据库性能优化策略,提高数据库的工作效率。【关键词】数据库;性能分析;性能优化;优化策略。
【中图分类号】TP311.1            【文献标识码】A          【文章编号】1009-5624(2020)12-0152-02
153
【参考文献】
[1]刘雯.基于SQL Server 数据库性能优化策略研究[J]. 信息与电脑(理论版),2014(3):149-149.
[2]楚天骄,林中.基于NVRAM 的内存数据库性能优化策略研究与设计[J].计算机工程与设计,2010,31(12):2897-2900.[3]徐小亚,李君芳.数据库设计对SQLServer 数据库性能优化
分析[J].信息与电脑(理论版),2017,372(2):177-179.[4]杜志源,刘刚,王永智.高校教务管理系统数据库性能优化的研究[J].计算机工程与设计,2007(20):5066-5068.作者简介:徐奥辉(2000- ),男,湖北天门,本科,JAVA 开发工程师,研究方向:机器学习方向。
1  引言
研究思路:(1)业务问题:该片中是否有值得推荐的好片(评分至少7.5);(2)原始数据探索:对数据的分布特征、基本属性等进行探索;(3)数据预处理:根据数据所呈现的特征处理缺失值、重复值、数据降维等;(4)数据挖掘:采用决策树(ID3)方法对数据进行训练;(5)模型评估:采用5折交叉验证及正确率的方式评估。2  数据探索及预处理
2.1 数据探索
该电影数据(2014 and 2015 CSM dataset)引用自UCI,而其中共有231条记录以及14个属性,其中处了电影名为字符类型以外,其他13列都为数值型,其中含有空值的为:Budget(1个)、Screens(10个)、Aggregate Followers(35个)。
经过探索发现,数据只有少部分没有异常值,大部分包含异常值,其中Gross 的数据跨度最大,标准差数最大,说明其各个值之间跨度大[1]。
查看其相关系数,由于业务目标问题是评分等级Rating 这一属性,因此,我们可以从中看出这13个特征中大部分绝对值都小于0.05趋近于0,则说明没有明显相关性,而少量绝对值处在0.1~0.5,属于有存在一定的相关性,若有负号则为负相关,否则为正相关。
数据大部分是等级在5~8之间且其总收入在1e8(1亿)之内,而种类上则是1、3、8的类型居多,评
分大部分在5.5~8之间的喜欢人数在5万以内,而不喜欢的则在2000以内,将Ratings 数据取整计数,可以看出6分等级的片子居多。
2.2 数据预处理
首先对缺失值进行填充,在Budget 列用均值来填充缺失值,而在Screens 与Aggregate Followers 则采用缺失值的上一个值来进行填充。其次对数据中没有太大用处的数
据删除,例如年份等。同时将Ratings 列的数据将7.5分作为分类依据,小于7.5分的为不值得推荐的电影,而大于等于7.5分的属于还不错的值得推荐的电影。然后利用标准差对数据进行标准化,处理后其均值为0,方差为1。从处理后的结果可以看出,数据从14个维度降到了12个维度,同时原始数据中的缺失值也处理完毕。
最后对喜欢与电影是否值得推荐将连续属性值根据等宽的方法划分为3个部分,其中每个部分大概有70多人。
从处理后的数据中可以看出,值得推荐的电影有近30多条,占15.2%,而不推荐的有将近200条,占比84.8%,说明2014—2015年间7.5分之上的电影比较少[2]。3  模型建立及评价
同时将KNN(K=3)、贝叶斯、ID3、逻辑回归做比较,多训练几次后由于决策树(ID3)算法的训练
集(1.0)与测试集(0.958)的分数是最高的,因此就选择决策树作为最优模型对数据进行训练。
对该样本数据进行划分,且测试集与训练集的比例为0.1:0.9,可以看到该样本数据下为0的有一个预测错误,为1的也有一个预测错误,其在将数据划分为15分的情况下交叉验证的正确率为0.83,其模型结果属于比较好的一类。
采用5折交叉验证方法进行模型的调整,其中的图,上方为真实值,下方为预测值,其中最高的预测正确的比例最少有0.58,最高可以达到0.86。
图1所示为该数据下的决策树,每个节点都选择信息增益最大的特征,特征值大于给定值就走左子树,否则走右子树,其中第一个为更节点,其余的为分支节点,其中的每个箭头为分支也就是分叉。例如数据第一次分的时候其信息增益最大的为Budget(信息增益为0.584),其归一化的结果若大于1.491则走左边的子树,否则走右边的子树,并以此循环计算步骤,直到程序遍历完所有可能的
基于决策树算法的电影数据分析研究
冯婧益,陈祺琦,陈伯亨(通讯作者)
(四川大学锦城学院  四川  成都  610000)
【摘要】随着大数据迅速发展,数据更新对数据研究变得越来越复杂。如今,大数据分析能够深入运用在各个领域和各类行业,并产生了强大的能量和价值。本文采用决策树方法对2014—2015年CSM 电影数据进行分类分析处理,并通过Python 进行实现;其正确率为83.6%;同时采用5折交叉迭代验证方法进行模型的调整,其最终模型的正确率在86.9%左右。
【关键词】特征选择;决策树算法;交叉验证
【中图分类号】TP311.1            【文献标识码】A          【文章编号】1009-5624(2020)12-0153-02

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。