杰奇小说采集规则编写教程
1, 进入后台“模块管理”“小说连载”页面右下有一个“添加新的采集规则”点开。
2, “规则说明”要仔细看看写规则的时候会用到。系统默认变量<{articleid}>-文章序号<{chapterid}> 章节序号,<{subarticleid}> 文章子序号,<{subchapterid}> 章节子序号。系统标签“*”表示可以代替任意字符串,系统标签“!”表示可以替代除了<>以外的任意字符串。系统标签 ~ 表示可以替代除了<>'"以外的任意字符串。系统标签 ^”表示可以替代除了数字和<>之外字符串。系统标签“ $”表示可以替代数字字符串。采集规则中,需要获取的内容部分用四个以上系统标签代替,如 !!!!
3, 下面开始填写基本设置(这里我就用www.wenxuepu网站为例)
网站标识:就是采集规则的文件名字,这里可以随意写但是最好与你要采集的网站名称为名,便于区分,这里我们就填wenxuepu
网站名称:文学铺,这里写你要采集网站的名字
网站地址:这里就写网站的主域名就行了www.wenxuepu
文章序列号运算方式:floor(<{articleid}>/1000)
对方网站编码:检测自动
文章信息页面:先打开www.wenxuepu在点开一半小说,页面跳转到了小说简介(这个页面就是文章信息页面),我打开的是神王印座这篇小说,可以看到地址栏的地址是www.wenxuepu/modules/article/articleinfo.php?id=126。现在把地址改成www.wenxuepu/modules/article/articleinfo.php?id=<{articleid}>。为什么这么写?因为我们的www.wenxuepu/modules/article/articleinfo.php?id=是不变的,变化的仅仅是后面的数字而已所以我们把那个数字换成<{articleid}>
文章标题采集规则:在文章信息页面右击选择查看源代码,在源代码里面到文章的标题代码<h1><a href="www.wenxuepu/modules/article/articleinfo.php?id=126">神印王座</a></h1改成<h1><a href="www.wenxuepu/modules/article/articleinfo.php?id=<{articleid}>">!!!!</a></h1>
作者采集规则:方法和文章标题采集规则一样
文章类型采集规则:方法和文章标题采集规则一样
文章类型对照关系:对方有哪些文章的类型然后本站有哪些类型,我们就替换一下例如玄幻魔法=>1||武侠修真=>2||都市言情=>3||历史军事=>4||网游动漫=>6||科幻小说=>7||恐怖灵异=>8
内容简介采集规则:这里要注意,还是同样的方法打开源代码到简介<li id="description1"><strong>书籍简介</strong>    魔族强势,在人类即将被灭绝之时,六大圣殿崛起,带领着人类守住最后的领土。一名少年,为救母加入骑士圣殿,奇迹、诡计,不断在他身上上演。在这人类六大圣殿与魔族七十二柱魔神相互倾轧的世界,他能否登上象征着骑士最高荣耀的神印王座?<br />
    -------------------------------------------<br />
改成<li id="description1"><strong>书籍简介</strong>****<br />
    ---------------------------------------
----<br />这内容采集这里大家一定要非常注意代码稍微不对就采集不到你需要的东西了。
封面图片采集规则:源代码到图片代码<img src="www.wenxuepu/files/article/image/0/126/126s.jpg" width="120" height="150" alt=我们把代码改成<img src=" ~~~~ " width="120" height="150" altphp文章管理模块实例代码。 ~~~~代表我们的图片地址。采集的时候一定要注意图片的地址是否正确,不要采集到不相干的图片。
过滤的图片规则:没有封面的图片的书籍,就是一般的那种暂无封面的书籍看看它的图片地址这里图片是nocover.jpg这个我们把这个文件名填好就好了
文章目录页地址:点击阅读进去可以看到上面的地址www.wenxuepu/files/article/html/0/126/index.html这里我们需要把数字替换掉www.wenxuepu/files/article/html/ <{subarticleid}>/<{articleid}> /index.html
分卷名称采集规则:分卷就是www.wenxuepu/files/article/html/0/126/index.html
这个网站看章节上面有个“正文”“第一集 光明之子”等着类就叫分卷。怎么写呢?这个就通上面采集文章标题是一样的到源代码里面,这里就不一一解释了。
章节名称采集规则:右击-查看源代码我这里就与第一张神王印座之预热为例,到这章的源代码<li style="width:24%;"><div class="novel_num"></div><a href="44125.html" title="神印王座之预热">改成<li style="width:24%;"><div class="novel_num"></div><a href="$.html" title="!!!!">
章节序号: <li style="width:24%;"><div class="novel_num"></div><a href="44125.html" title="神印王座之预热">这里我们采集的章节序号就是前面的那个数字改成<li style="width:24%;"><div class="novel_num"></div><a href="$$$$.html" title="!">
章节内容页面地址:就是打开章节开始看小说的那个页面了。打开源代码到正文的那段源代码<div class="novel_content">
    神印王座<br />
<br />
    天珠即将完结,新《神印王座》将于本周日天珠结束同时正式开始传,麻烦大家先行收藏。这本,一定会给大家不一样的感觉、不一样的精彩。<br />
<br />
    八年的执着,铸就了十一部作品,从未断更。这是老三的第十二部,我一定努力超越以往,用更好的内容,来酬谢们的支持。<br />
<br />
    求收藏!!!神印王座
</div>
直接改成<div class="novel_content">
****
</div>
到这里就完成了可以保存了
注意此教程只能作为一个参考作用,网站的不同所写规则方法也不一样

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。