杰奇1.7--关关采集器使⽤教程
关关采集器主要注意的是两个⽂件夹
rules⽂件夹、log⽂件夹:
Rules是我们放关关采集规则的地⽅;
log是记⽇志的东西,就是关关采集器出错的时候会记录错误的信息,我们看到这个就知道采集出错在哪⾥了;
现在我们点开关关采集器,直接打开,就可以启动关关采集器了。(注:打开的过程会有点慢,所以点击⼀次就等⼀下。千万不要再点打开,否则在⼀段时间后会打开多个关关采集器!)
有些关关会出现提⽰框,我们不管它直接关掉。
了解关关采集器的⼀些常⽤的东西
打开之后,我们应该⽴刻修改“设置(S)”→系统设置。:
1.修改本地⽹站⽬录,⽐如,我的在D:\xiaoshuo
datasource是什么意思2.再修改数据库连接字符串
DataSource=127.0.0.1;
Database=数据库名称;
UserID=数据库管理⽤户名;
Password=数据库管理密码;
port=3306;
charset=gbk
这上⾯是设置关关采集器的东西,就是第⼀次⽤的时候要设置,设置好了就不需要再设置了。
关于“关关采集器1.7”分类设置
第⼀:分类设置⼀般⽤⼤类对应,这些对应你⽹站的类别。譬如
1|⽞幻奇幻=,⽞幻,奇幻,魔法,魔幻,⽞幻魔法,奇幻⽞幻,⽞幻⼩说,⽞幻·魔幻,⽞幻异界,⽞幻奇幻,
1是你⽹站第⼀个蓝⽶⽞幻奇幻,等号后⾯的是采集⽬标⽹站可能遇到的分类,越详细越好,⼀些模板⽹站对应你的⽞幻奇幻没有的,你就添加进去。
第⼆:是设置⾥⾯的⽣成
默认不需要修改,第⼀个⽣成⽬录页html是你⽹站⼩说⽬录页的html,如果你⽹站⽤的是伪静态那就不需要⽣成,第⼆个⽣成内容页html这个是⼩说内容的点击去看⼩说的⽂字章节,这个和上⾯第⼀个⼀样,如果你⽹站⽤的是伪静态那就不需要⽣成。
如果在建静态⼩说⽹站的话就需要⽣成了,这个很耗费硬盘的。⼀般1000本⼩说都要⼏G的空间了。
第三:⽣成全⽂阅读。不⽤管他⼀般⽤不到。
第四:⽣成OPF。这个是⼀定要⽣成的要不⽹站打不开,你的⼩说⽹站也是如果不⽣成是打开错误的。这⾥打勾就⾏了。其他的设置不要管,没有特殊要求是⽤不到的。
(注意:【设置–的电⼦书设置】这个不需要管,默认即可,所以的勾勾都不要选,设置⾥⾯的图⽚设置也是默认即可,所以的勾勾都不要选。)
第五:⽂字⼴告。如果你想在你的⼩说内容⾥⾯添加⼴告可以在这打上内容,看需要选择第⼀个⼊库
章节添加⽂字⼴告真实⼊库也就是会把你的⼴告添加⼊你采集下来的⼩说,files/article/txt/0/1这些路径的txt⽂档⾥⾯
这个,你的⼩说是⼿机版所以需要选择第⼀个,在你添加⼴告的时候,章节阅读会看到不过还是不要⽤这些功能。
第六:其他【过滤替换】、【⽂字转图⽚】。不需要管
第七:⽇志选择。全部打勾就可以,这个是采集遇到的记录错误的⽇志,可以根据这个排除错误。
如何看关关规则⾏不⾏
点击规则,进⼊规则管理器,我们选择做不的那个三⾓型符号下拉选择你要测试的规则点击右边的载⼊,然后点击"测试规则",就会弹出⼀个界⾯,如果出现这些这个是获取ID和⼩说名字
这个是获得⼩说信息内容包含⼩说名字分类简介和封⾯。
有些⽹站这些信息没有采集全,我们采集回来的话也会出现不全的这个没什么影响,主要⼩说章节内容可以看就⾏了。然后这些是获取采集的章节,这个是获取⼩说的内容。
这样就是⼀个好的采集规则我们可以⽤这个采集规则去采集⼩说更新了。
如何采集
⼀般,我们使⽤的是标准采集模式。
我们点“采集–标准采集模式”有时候会出现错误提⽰,不管我们在采集框架随便点⼀个规则,他就会出现正的位置了还有⼀些出现什么提⽰我们也是忽略他直接点击【继续】就可以了。
进⼊标准采集后正确的姿势后,⼀般⽤的是第⼀个按⽬标站页⾯获取编号,这个我们规则写的时候都是按⽬标站最近更新的⼩说设置的,采集的时候会⾃动采集对⽅更新的⼩说我们更新的时候也会跟着别⼈的⼩说⽹站更新。
1.设置好ID的范围,按⽬标站ID采集很少⽤到⼀般需要特殊采集对⽅的某⼀本书采集的时候才采集。
2.按⽬标站ID采集很少⽤到⼀般需要特殊采集对⽅的某⼀本书采集的时候才采集。
3.按⾃⼰⽹站的⼩说ID采集的,也是要更新⾃⼰⽹站的某⼀本⼩说才点击,但是模板站不⼀定有这本书,所以采集起来很慢。很少⽤、基本没⽤。
4.到最下⾯的⽇志记录这个⼀定个要选上会记录采集⼩说的到时候⽆缘⽆故出现采集不了的信息。循环采集这个也⼀定要选上,这个是⾃动采集的时候保证采集器⾃动循环采集对⽅的⽹站,循环时间设置看你⾃⼰的需求,我⼀般设置是⼗分钟。如果你想不停采集那设置为零。
如何设置采集动作?
【添加新书】:这个要加书的时候添加的;
【慎⽤】:后⾯带的这两个字的这个是对⽐模板站的章节名称如果对就继续采集不对就清空再采集,这个不要⽤,会出⼤问题的。有时候不⼩⼼把⾃⼰百度收录过的页⾯清空那就悲剧了。其他的⼀些功能那就没什么了看⽂字就知道了;
【设置2】:这个是对⽐章节的选择哪个都差不多,反正我怎么感觉不出来有什么不同你默认就可以;
【空章节处理⽅式】:就是模板站有些⼩说内容是空的,看你⾃⼰需要,不过注意的就是不要选择第⼆个跳过本章,因为跳过这个章节就会空出⼀个章节名字,下次采集的时候少⼀个章节名字就和模板站对⽐章节名字就⽆法更新这本书了;
【章节排列⽅式】:这个是看⽬标站的情节的,⽐较复杂。我给你的采集规则都是按⽬标站顺序的。不要选择什么,⼀般⽤到的是【⽬标站顺序】这个和【按章节ID顺序】,其他的不要⽤。⽤这两个都不会出问题,我给你的设置默认即可;
【过滤设置】:看你⾃⼰需要设置看字⾯意思很明⽩了;
【去除⽔印】:这个基本不需要;
【代理】、【进度】:⼀般设置上⾯的三个数字都是000;
这样就采集快了,代理IP那个是⽬标站封你的采集然后你在⽹上⼀些代理来,开启代理功能然后采集的。
到这⾥关关的⼀些功能都讲完了,其他的是⼀些辅助的功能可以以后⾃⼰慢慢了解。
下⾯就设置好点击开始采集可以了,选好规则选好按什么采集采集动作进的等可以点击开始了;
如提⽰“成功开始采集的模式”,这样就好了可以去看你的⽹站更新了没有。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。