现阶段在计算机的实际应用过程中,若程序员想要对相关数据进行细致的挖掘,常常通过编写网络爬虫的方式进行,由于Python的哲学设计定位是明确、简单和优雅,程序员在利用Python编写的过程中可以令代码更为精简,并且在出现错误时更方便修改,因此, Python被越来越多的应用当成主要的开发平台。
1Python语言的优势
现阶段,较为常用的计算机编程语言包括C、C++、PHP、Java、Python等,每种语言都具备不同的优势。但相较于其他语言,Python具备易于阅读、易于维护、易于学习等优势,现阶段Python作为一种最易于被人们所掌握的语言,在编程界具备极高的人气,随着物联网技术的不断普及与发展,Python已经成为推动大数据发展的必要工具,其应用范围如表1所示。在数据挖掘的过程中,利用Python语言编写网络爬虫,不但可以保障程序的简洁清晰,还可以用少量的代码表达出较多的操作,是目前较为常见的爬虫程序编写方式。2数据爬取的操作方式
2.1工具配置
python正则表达式爬虫在进行工具配置的过程中,程序员应当打开浏览插件SwitchyOmega第三章中的设置代理,令127.0.0.1:8888这一端口成为用户使用计算机的的代理,然后,在这一端口下进行软件操作,确保操作可以被Fiddler所拦截。
2.2爬取IT桔子网的流程
在利用Python爬虫抓取IT桔子网信息的过程中,程序员首先应当打开Options对话框,然后在对话框内出并勾选HTITPS;其次,点击右侧的Actions,并选择信任证书,点击Connections;最后将Fiddller进行重启。若使用代理后,在利用浏览器打开IT桔子网的过程中,出现错误,并且错误的标识为302,那么,程序员应当进一步了解右侧HTTP协议的内容,从而出发生错误的原因,并将其解决。
3基于Python的计算机软件应用技术
网络爬虫指的是借用软件工具获取网页数据的程序,其设计的一般思路是:首先,明确需要爬取的网页URL地址;其次,通过HTTP协议,获取相应的信息页面;最后,提取信息页面内的有效数据,再利用lxml 将数据进行筛选后,将其保存到计算机磁盘中。Python 语言作为谷歌公司的语言之一,是一种面向对象的动态语言,最初是面向自动化脚本编写的设计,现阶段,随着其版本的不断更新,Python的类库不断强大,这种语言不但可以被单独使用,还可以作为Django框架的一部分。但需要注意的是,Python与其他语言的区别在于,这种语言并不需要利用大括号对类、函数以及其其作者简介:朱燕腾(1991-),女,助理讲师,本科,研究方向:计算机技术。
Python的计算机软件应用技术分析
朱燕腾
(平度市技师学院,山东青岛266700)
摘要:计算机软件应用技术指的是在各类计算机软件基础上,帮助人们解决各类问题的技术。介绍了Python语言的优势、数据爬取的操作方式以及基于Python的计算机然间应用技术,以期促进当代计算机软件应用技术能够得到更好的发展,希望能够给读者带来启发。
关键词:Python语言;计算机软件;应用技术
Python语言的功能Python语言的作用
系统编程提供大量的系统接口API,便于系统的维护管理
图形处理PIL、Tkinter等图形库支持系统进行图形处理
数学处理NumPy扩展提供了大量的标准数学接口
网络编程提供支持sockets编程模块,能方便的开发分布式应用程序
多媒体应用Python的PyOpenGL模块中封装了“OpenGL应用程序接口”,可以对二维和三维的图像进行处理,PyGame模块可以应用于游戏软件的编写
数据库编程Python自带一个Gadfly模块,提供了一个完整的SQL环境,
程序员可以通过遵循Python DB—API规范的模块与Mi⁃crosoft SQL Server,Mysql,Oracle,DB2,Sybase等数据通
信库进行通信
文本处理Python提供的re模块能够支持正则表达式,同时可以提供SGML,XML分析模块,便于Python对XML程序进行开发
表1Python语言的应用范围
10
2020.09
2020.09
它逻辑进行控制,并且Python 主要是利用缩进的方式进行模块的书写。此外,由于Python 语法的限制性比较强,若程序员在编译过程中出现类似if 语句下一行不向右缩进这一类的问题时,程序将不能被正常编译,因此,在进行网络爬虫程序的编译过程中,程序员应当严格依据相关编写流程进行操作,进而保障编译的成果满足其预期的要求。3.1建立文件
为明确网络爬虫程序的爬取规则,并将爬虫所抓取
的信息存储到制定的位置,在进行信息爬取之前,程序员应当依据scrapy—redis 建立3个文件夹,同时,Python 在执行前,会先将储存在·py 文件中的源代码编译成Python 的字节码,然后再由Python 虚拟机执行编译好的字节码。因此,程序员可以将文件夹分别将其命名为pachong ·py、pipelines ·py 和settings ·py,其中,pachong·py 中明确了爬虫程序将要爬取的内容;pipelines ·py 指出了将爬取的信息收集到数据库的方法;而setting ·py 中明确了爬虫程序的爬取规则[1]。3.2信息爬取的过程
一般情况下,URL 指的是通过HTTP 协议获取资源的Internet 路径,一个URL 对应一个数据资源,其格式为:host [:port][path],利用HTTP 协议对资源进行操作的方式如表2所示。
3.2.1信息能够被抓取的原因
在新软件创建完成后,这个新软件可以主动的向搜
索引擎发送自身的网址,比方说,某新软件通过百度这一搜索引擎进行网址提交,则其他用户在利用百度搜索信息时,可以方便地发现新软件的网址。同时,在软件的最下端,往往会存在一些友情链接,以学校为例,在主页的最下端,存在转到其他兄弟院校,以及知网、维普网等网站的友情链接。因此,某些新网站在创
建完成后,会通过与其他网站协商的方式,将自身的网址以链接的形式添如其他网站上,从而达到双赢的目的。此外,由于大部分的搜索引擎会与DNSPod 这一类的软件服务商进行合作,这就使得新软件的域名可以被网络爬虫所获取,但爬虫软件在爬取过程中,被程序员赋予了某些限制规则,因此,在爬取信息的过程中,爬虫软件会遵循一些文件中的规则条款,这就避免了爬虫出现随意抓取页面信息的情况。3.2.2爬虫软件获取信息的方法
在使用网络爬虫软件获取网页信息时,程序员最先
应当获取软件。具体来说,程序员首先可以利用网络爬虫对URL 数据进行搜索,然后将搜索出的数据与目标数据之间进行对比,从而获取有效的URL;其次,将有效的URL 放置在资源库中,使其进行排队等待;再将URL 取出,并通过其地址,查询与之相对应的网站网址,然后将相关的数据存放到本地磁盘中;最后将已经使用过的URL 放置到已使用资源库中,以便后续的查应用[2]。
3.2.3存储信息的方式
由于利用网络爬虫抓取的URL 对应的网站信息相
对较多,因此,在实际信息抓取过程中,受计算机存储空间的限制,程序员应当对网页的信息进行统计分析,尽可能地将雷同信息进行合并,在删除无效信息的基础上,将信息存储到计算机中。具体来说,
为节约计算机磁盘的空间,程序员应当对所获取的信息进行筛选,尽量保证抓取信息的有效性,若发现部分页面存在抄袭现象,则可以对其进行跳过处理,避免无用信息的大量下载,对用户的空间造成浪费。3.2.4预处理
为避免页面广告、图片、版权说明等内容对数据抓
取造成影响,程序员可以采用预处理的方式将网页中的信息进行简单的处理,比方说,程序员可以利用与处理将网页中的文字预先提取出来,提升网络爬虫所抓取信息资源的有效性。3.2.5分页检索
在信息的爬取过程中,若用户提出了request 请求,
Python 可以利用其分页检索的能力,对爬虫抓取的信息进行分析、排序、去重等相关操作,进而提升用户使用程序的舒适度[3]。方法说明
GET
请求获取URL 位置的资源
HEAD 请求获取URL
位置资源的响应报告信息,即获取该资源的头部信息POST 请求向URL 位置的资源后添加新的数据PUT
请求向URL 位置发送新的资源,并对原有资源进行覆盖
PATCH 请求对URL 位置的资源进行局部更新,即改变原有资源的部分内容DELETE 请求删除URL 位置存储的资源
表2HTTP 协议对资源的操作
(下转第16页)
11
2020.09
4结语
在网络技术飞速发展的当今社会中,各类计算机编
程语言层出不穷,其中Python 因具备简洁、易读、易维护等优点,使其在计算机软件编程中具备独特的优势,并成为一门受到人们欢迎的计算机程序设计语言,被广泛应用于Web 开发、视频游戏开发、图形用户界面等方面。
参考文献
[1]胡正雨,刘文锐.Python 的计算机软件应用技术研
究[J].计算机产品与流通,2020,(07):39.[2]颜涛.计算机软件技术在大数据时代的应用研究[J].计算机产品与流通,2020,(06):25.[3]王学庆.基于Python 的计算机软件应用技术研究[J].
信息系统工程,2019,(04):149.
4结语
使用卷积神经网络对软件项目进行缺陷预测,并取
得了较好的预测效果。这是由于卷积神经网络能够利用卷积层对隐藏在软件缺陷数据的特征进行深度挖掘和提
取,并将原始的缺陷特征转化为高级的抽象深度语义特征,这样的深度语义特征对软件缺陷具有更强的判别能力,而这种强大的判别能力则是传统的机器学习方法所不具备的。这也是深度学习技术在软件工程领域的成功应用。目前,人类社会已经进入人工智能时代,坚信像深度学习这样典型的人工智能技术将会更快更强地推动人类社会的发展。
参考文献
[1]李勇,黄志球,王勇,等.数据驱动的软件缺陷预测
研究综述[J].电子学报,2017,45(4):982-988.[2]王青,伍书剑,李明树.软件缺陷预测技术[J].
软件学报,2008,19(7):1565-1580.
[3]Lessmann S,Baesens B,Mues C,et al.Benchmarking
classification models for software defect prediction:A proposed framework and novel findings [J].IEEE Transactions on Software Engineering,2008,34(4):
485-496.
[4]Yang X,Lo D,Xia X,et al.TLEL:A two-layer ensem⁃
ble learning approach for just-in-time defect predicti on [J].Information and Software Technology,2017,87(7):206-220.
[5]Zhong J,Yang B,Li Y,et al.Image Fusion and Super-Resolution with Convolutional Neural Network [C].Singapore:Chinese Conference on Pattern Recognition,
2016,78-88.
图2卷积神经网络在10个项目上的AUC 值和ROC
(receiver operating characteristic curve)曲线0.00.2
0.40.60.8
1.0
Receiver operating characteristic example
AUC=0.91
False Positive Rate 1.00.80.60.40.20.0
(a)ant-1.5
(b)ant-1.6
False Positive Rate 0.0
0.2
0.40.60.8
1.0
1.00.80.60.40.2
0.0
AUC=0.93
Receiver operating characteristic example
0.00.2
0.40.60.8
1.0
Receiver operating characteristic example
False Positive Rate 1.00.80.60.40.20.0
(c)camel-1.2
(d)camel-1.4
False Positive Rate AUC=0.76
AUC=0.95
1.00.80.60.40.2
0.0
Receiver operating characteristic example
0.0
0.2
0.40.60.8 1.0
Receiver operating characteristic example
Receiver operating characteristic example
0.00.2
0.40.60.8
1.0
False Positive Rate 1.00.80.60.40.20.0
AUC=0.93
(e)poi-2.0
(f)prop-6
0.0
0.2
0.40.60.8
1.0
False Positive Rate AUC=0.97
1.00.80.60.40.2
0.0
Receiver operating characteristic example
Receiver operating characteristic example
1.00.80.60.40.20.0
0.00.2
0.40.60.8
1.0
False Positive Rate AUC=0.96
(g)xalan-2.4
(h)xalan-2.5
1.00.80.60.40.2
0.0
0.0
0.2
0.40.60.8
1.0
False Positive Rate AUC=0.83
Receiver operating characteristic example
Receiver operating characteristic example
1.00.80.60.40.20.0
AUC=0.95
0.00.2
0.40.60.8
1.0
False Positive Rate (i)ivy-2.0
(j)jedit-4.1
0.00.2
0.40.60.8
1.0
False Positive Rate AUC=0.93
1.00.80.60.40.2
0.0
(上接第11页)
16
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论