杰奇1.7--关关采集器使用教程--688IT编程网

杰奇1.7--关关采集器使⽤教程

关关采集器主要注意的是两个⽂件夹

rules⽂件夹、log⽂件夹：

Rules是我们放关关采集规则的地⽅；

log是记⽇志的东西，就是关关采集器出错的时候会记录错误的信息，我们看到这个就知道采集出错在哪⾥了；

现在我们点开关关采集器，直接打开，就可以启动关关采集器了。（注：打开的过程会有点慢，所以点击⼀次就等⼀下。千万不要再点打开，否则在⼀段时间后会打开多个关关采集器！）

有些关关会出现提⽰框，我们不管它直接关掉。

了解关关采集器的⼀些常⽤的东西

打开之后，我们应该⽴刻修改“设置（S）”→系统设置。：

1.修改本地⽹站⽬录，⽐如，我的在D:\xiaoshuo

datasource是什么意思2.再修改数据库连接字符串

DataSource=127.0.0.1;

Database=数据库名称;

UserID=数据库管理⽤户名;

Password=数据库管理密码;

port=3306;

charset=gbk

这上⾯是设置关关采集器的东西，就是第⼀次⽤的时候要设置，设置好了就不需要再设置了。

关于“关关采集器1.7”分类设置

第⼀：分类设置⼀般⽤⼤类对应，这些对应你⽹站的类别。譬如

1|⽞幻奇幻=,⽞幻，奇幻，魔法，魔幻,⽞幻魔法，奇幻⽞幻,⽞幻⼩说,⽞幻·魔幻,⽞幻异界,⽞幻奇幻,

1是你⽹站第⼀个蓝⽶⽞幻奇幻，等号后⾯的是采集⽬标⽹站可能遇到的分类，越详细越好，⼀些模板⽹站对应你的⽞幻奇幻没有的，你就添加进去。

第⼆：是设置⾥⾯的⽣成

默认不需要修改，第⼀个⽣成⽬录页html是你⽹站⼩说⽬录页的html，如果你⽹站⽤的是伪静态那就不需要⽣成，第⼆个⽣成内容页html这个是⼩说内容的点击去看⼩说的⽂字章节，这个和上⾯第⼀个⼀样，如果你⽹站⽤的是伪静态那就不需要⽣成。

如果在建静态⼩说⽹站的话就需要⽣成了，这个很耗费硬盘的。⼀般1000本⼩说都要⼏G的空间了。

第三：⽣成全⽂阅读。不⽤管他⼀般⽤不到。

第四：⽣成OPF。这个是⼀定要⽣成的要不⽹站打不开，你的⼩说⽹站也是如果不⽣成是打开错误的。这⾥打勾就⾏了。其他的设置不要管，没有特殊要求是⽤不到的。

（注意：【设置–的电⼦书设置】这个不需要管，默认即可，所以的勾勾都不要选，设置⾥⾯的图⽚设置也是默认即可，所以的勾勾都不要选。）

第五：⽂字⼴告。如果你想在你的⼩说内容⾥⾯添加⼴告可以在这打上内容，看需要选择第⼀个⼊库

章节添加⽂字⼴告真实⼊库也就是会把你的⼴告添加⼊你采集下来的⼩说，files/article/txt/0/1这些路径的txt⽂档⾥⾯

这个，你的⼩说是⼿机版所以需要选择第⼀个，在你添加⼴告的时候，章节阅读会看到不过还是不要⽤这些功能。

第六：其他【过滤替换】、【⽂字转图⽚】。不需要管

第七：⽇志选择。全部打勾就可以，这个是采集遇到的记录错误的⽇志，可以根据这个排除错误。

如何看关关规则⾏不⾏

点击规则，进⼊规则管理器，我们选择做不的那个三⾓型符号下拉选择你要测试的规则点击右边的载⼊，然后点击"测试规则"，就会弹出⼀个界⾯，如果出现这些这个是获取ID和⼩说名字

这个是获得⼩说信息内容包含⼩说名字分类简介和封⾯。

有些⽹站这些信息没有采集全，我们采集回来的话也会出现不全的这个没什么影响，主要⼩说章节内容可以看就⾏了。然后这些是获取采集的章节，这个是获取⼩说的内容。

这样就是⼀个好的采集规则我们可以⽤这个采集规则去采集⼩说更新了。

如何采集

⼀般，我们使⽤的是标准采集模式。

我们点“采集–标准采集模式”有时候会出现错误提⽰，不管我们在采集框架随便点⼀个规则，他就会出现正的位置了还有⼀些出现什么提⽰我们也是忽略他直接点击【继续】就可以了。

进⼊标准采集后正确的姿势后，⼀般⽤的是第⼀个按⽬标站页⾯获取编号，这个我们规则写的时候都是按⽬标站最近更新的⼩说设置的，采集的时候会⾃动采集对⽅更新的⼩说我们更新的时候也会跟着别⼈的⼩说⽹站更新。

1.设置好ID的范围，按⽬标站ID采集很少⽤到⼀般需要特殊采集对⽅的某⼀本书采集的时候才采集。

2.按⽬标站ID采集很少⽤到⼀般需要特殊采集对⽅的某⼀本书采集的时候才采集。

3.按⾃⼰⽹站的⼩说ID采集的，也是要更新⾃⼰⽹站的某⼀本⼩说才点击，但是模板站不⼀定有这本书，所以采集起来很慢。很少⽤、基本没⽤。

4.到最下⾯的⽇志记录这个⼀定个要选上会记录采集⼩说的到时候⽆缘⽆故出现采集不了的信息。循环采集这个也⼀定要选上，这个是⾃动采集的时候保证采集器⾃动循环采集对⽅的⽹站，循环时间设置看你⾃⼰的需求，我⼀般设置是⼗分钟。如果你想不停采集那设置为零。

如何设置采集动作？

【添加新书】：这个要加书的时候添加的；

【慎⽤】：后⾯带的这两个字的这个是对⽐模板站的章节名称如果对就继续采集不对就清空再采集，这个不要⽤，会出⼤问题的。有时候不⼩⼼把⾃⼰百度收录过的页⾯清空那就悲剧了。其他的⼀些功能那就没什么了看⽂字就知道了；

【设置2】：这个是对⽐章节的选择哪个都差不多，反正我怎么感觉不出来有什么不同你默认就可以；

【空章节处理⽅式】：就是模板站有些⼩说内容是空的，看你⾃⼰需要，不过注意的就是不要选择第⼆个跳过本章，因为跳过这个章节就会空出⼀个章节名字，下次采集的时候少⼀个章节名字就和模板站对⽐章节名字就⽆法更新这本书了；

【章节排列⽅式】：这个是看⽬标站的情节的，⽐较复杂。我给你的采集规则都是按⽬标站顺序的。不要选择什么，⼀般⽤到的是【⽬标站顺序】这个和【按章节ID顺序】，其他的不要⽤。⽤这两个都不会出问题，我给你的设置默认即可；

【过滤设置】：看你⾃⼰需要设置看字⾯意思很明⽩了；

【去除⽔印】：这个基本不需要；

【代理】、【进度】：⼀般设置上⾯的三个数字都是000；

这样就采集快了，代理IP那个是⽬标站封你的采集然后你在⽹上⼀些代理来，开启代理功能然后采集的。

到这⾥关关的⼀些功能都讲完了，其他的是⼀些辅助的功能可以以后⾃⼰慢慢了解。

下⾯就设置好点击开始采集可以了，选好规则选好按什么采集采集动作进的等可以点击开始了；

如提⽰“成功开始采集的模式”，这样就好了可以去看你的⽹站更新了没有。

688IT编程网

杰奇1.7--关关采集器使用教程

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

杰奇1.7--关关采集器使用教程

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则