Java网页爬虫步骤
覃璨
一、技术选型
1.HttpClient(或Jsoup)作为爬虫程序处理网络请求的框架。
2.Jsoup作为解析或网页的dom解析器。mysql的jar包下载
3.数据库用MariaDB(MySQL的分支,也是作为替代MySQL的数据库,因为Qracle收购MySQL之后最新版会收费,MariaDB是MySQL带领开发的替代MySQL的开源数据库)
二、开发环境
1.下载安装jdk和jre并设置环境变量。
2.下载安装Eclipse(Eclipse mars)。
3.下载Jsoup的jar包。
4.下载安装MariaDB(安装时端口设置为默认的3306)。
三、前期准备
1.创建工程:打开Eclipse,新建工程,工程名称随意,新建类,类名称为所抓取网页域名大写,如:天府创业网/,则类名称为”CDIBI.java”,若抓取网页为学校,则类命名为学校拼音(省去大学、学院)如:成都师范学院,则类名称为”ChengDuShiFan.java”,注意首字母为大写。
2.配置jar包:将下载下来的jsoup的jar包放到工程目录下的lib文件夹里(如不存在此文件夹则新建),如图:
右键工程,选择Build Path->Configure Build Path
点击Add JARs…选择本工程lib文件夹下的jar包,点击ok即可。
3.右键工程,选择最后一项properties,将编码集设置为UTF-8
前期准备完毕。
四、爬虫实例
此处以成都师范学院招生就业处为例(www.cdnu.edu/zjc/channels/12299.html)。
1.首先新建类,类名为ChengDuShiFan.java,
2.添加提示信息,注明你抓取的网页和作者的名称格式如下:
新建searchAndSaveInfo()方法和main()方法:
在searchAndSaveInfo()方法中书写逻辑代码
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论