爬虫说明文档--688IT编程网

Java网页爬虫步骤

覃璨

一、技术选型

1.HttpClient（或Jsoup）作为爬虫程序处理网络请求的框架。

2.Jsoup作为解析或网页的dom解析器。mysql的jar包下载

3.数据库用MariaDB（MySQL的分支，也是作为替代MySQL的数据库，因为Qracle收购MySQL之后最新版会收费，MariaDB是MySQL带领开发的替代MySQL的开源数据库）

二、开发环境

1.下载安装jdk和jre并设置环境变量。

2.下载安装Eclipse（Eclipse mars）。

3.下载Jsoup的jar包。

4.下载安装MariaDB（安装时端口设置为默认的3306）。

三、前期准备

1.创建工程：打开Eclipse，新建工程，工程名称随意，新建类，类名称为所抓取网页域名大写，如：天府创业网/，则类名称为”CDIBI.java”，若抓取网页为学校，则类命名为学校拼音（省去大学、学院）如：成都师范学院，则类名称为”ChengDuShiFan.java”，注意首字母为大写。

2.配置jar包：将下载下来的jsoup的jar包放到工程目录下的lib文件夹里（如不存在此文件夹则新建），如图：

右键工程，选择Build Path->Configure Build Path

点击Add JARs…选择本工程lib文件夹下的jar包，点击ok即可。

3.右键工程，选择最后一项properties，将编码集设置为UTF-8

前期准备完毕。

四、爬虫实例

此处以成都师范学院招生就业处为例（www.cdnu.edu/zjc/channels/12299.html）。

1.首先新建类，类名为ChengDuShiFan.java,

2.添加提示信息，注明你抓取的网页和作者的名称格式如下：

新建searchAndSaveInfo()方法和main()方法：

在searchAndSaveInfo()方法中书写逻辑代码

发表评论

688IT编程网

爬虫说明文档

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

爬虫说明文档

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式