WordPress⾃动采集发布插件WP-AutoPost使⽤教程
WP-AutoPost是⽬前最好⽤的,最⼤的特点是可以采集来⾃于任何⽹站的内容并⾃动发布到你的WordPress站点。不像其他⼤部分WordPress采集插件,只能根据Feed进⾏采集,使⽤Feed采集有很⼤的弊端,⾸先必须到全⽂Feed,⽽现在⽹上全⽂Feed很少,⼤部分只能采集到⽂章摘要,就算使⽤Feed采集到⽂章摘要也需要点击链接才能查看原⽂,相当于给别的⽹站做外链。做英⽂垃圾站⽤的⽐较多的WP-Robot也只有20⼏个采集来源,⽂章来源⽐较单⼀有限。⽽WP-AutoPost就没有上⾯这些劣势,真正做到可以采集任何⽹站的内容并⾃动发布,采集过程完全⾃动进⾏⽆需⼈⼯⼲预,并提供内容过滤、HTML标签过滤、关键词替换、⾃动链接、⾃动标签、⾃动下载远程图⽚到本地服务器、⾃动添加⽂章前缀后缀、并且可以使⽤微软翻译引擎将采集的⽂章⾃动翻译为各种语⾔进⾏发布。
⼀、安装WP-AutoPost
和安装其他WordPress插件⼀样,直接上传到插件⽬录,激活即可使⽤,⽆需再进⾏额外设置或修改代码。
⼆、创建采集任务
点击“新建任务”后,输⼊任务名称,即可创建新任务,创建好新任务之后可以在任务列表中查看到该任务,就可对该任务进⾏更多设置。
三、基本设置功能
在基本设置选项卡下,可以进⾏如下设置:
任务名称:可以修改任务名称
分类⽬录:该任务采集⽂章发布到的分类⽬录
作者:该任务采集⽂章的发布作者,必须是WordPress⾥的注册⽤户
更新时间间隔:间隔多长时间检测⼀次该采集任务下是否有新⽂章可以更新
字符集:采集⽬标⽹站的字符集编码,默认为UTF8,如果⽬标⽹页字符集编码不是UTF8,抓取的⽹页会出现乱码,设置正确的字符集即可解决该问题()
下载远程图⽚:如果该任务下采集的⽂章⾥包含图⽚,可以选择是否下载远程图⽚到本地服务器,选择下载远程图⽚,可进⼀步选择是否将下载的图⽚信息保存到WordPress媒体库中
⾃动标签:选择是否使⽤⾃动标签
标签列表:使⽤⾃动标签后如果⽂章包含列表⾥的关键词,将⾃动添加标签
匹配完整的单词:该设置对英⽂⽂章有效,中⽂⽂章请勿启⽤该设置
四、⽂章来源设置
在该选项卡下我们需要设置⽂章来源的⽂章列表⽹址及具体⽂章的匹配规则
之后需要设置该⽂章列表⽹址下具体⽂章⽹址的匹配规则
五、⽂章⽹址匹配规则
⽂章⽹址匹配规则的设置⾮常简单,⽆需复杂设置,提供两种匹配模式,可以使⽤URL通配符匹配,也可以使⽤CSS选择器进⾏匹配,通常使⽤URL通配符匹配较为简单。
1. 使⽤URL通配符匹配
2. 使⽤CSS选择器进⾏匹配
可以看到,⽂章的超链接a标签在class为“contList”的标签内部,因此⽂章⽹址的CSS选择器只需要设置为 .contList a  即可,如下所⽰:
设置完成之后,不知道设置是否正确,可以点击上图中的测试按钮,如果设置正确,将列出该列表⽹址下所有⽂章名称和对应的⽹页地址,如下所⽰:
六、⽂章抓取设置
在该选项卡下,我们需要设置⽂章标题和⽂章内容的匹配规则,提供两种⽅式进⾏设置,推荐使⽤CSS选择器⽅式,使⽤该⽅式更为简单,精确。(不知道CSS选择器为何物,)
我们只需要设置⽂章标题CSS选择器和⽂章内容CSS选择器,即可准确抓取⽂章标题和⽂章内容。
可以看到,⽂章标题在id为“artibodyTitle”的标签内部,因此⽂章标题CSS选择器只需要设置为#artibodyTitle 即可;
同样的,到⽂章内容的相关代码:
可以看到,⽂章内容在id为“artibody”的标签内部,因此⽂章内容CSS选择器只需要设置为 #artibody 即可;如下所⽰:
设置完成之后,不知道设置是否正确,可点击测试按钮,输⼊测试地址,如果设置正确,将显⽰出⽂章标题和⽂章内容,⽅便检查设置
七、抓取⽂章分页内容
如果⽂章内容过长,有多个分页同样可以抓取全部内容,这时需要设置⽂章分页链接CSS选择器,通过查看具体⽂章⽹址源代码,到分页链接的地⽅,例如某篇⽂章分页链接代码如下:
可以看到,分页链接A标签在class为 “page-link” 的标签内部
因此,⽂章分页链接CSS选择器设置为 .page-link a 即可,如下所⽰:
如果勾选当发表时也分页时,发表⽂章也将同样被分页,如果你的WordPress主题不⽀持 <!- - nextpage - -> 标签,请勿勾选。
⼋、⽂章内容过滤功能
⽂章内容过滤功能,可过滤掉正⽂中不希望发布的内容(如⼴告代码,版权信息等),可设置两个关键词,删除掉两个关键词之间的内容,关键词2可以为空,表⽰删除掉关键词1之后的所有内容。
如下所⽰,我们通过测试抓取⽂章后发现⽂章⾥有不希望发布的内容,切换到HTML显⽰,到该内容的HTML代码,分别设置两个关键词即可过滤掉该内容。
如上所⽰,如果我们希望过滤掉上⾯<div class=”ep-source cDGray”>和</div>之间的内容,添加如下设置即可
如果需要过滤掉多处内容,可以添加多组设置。
九、HTML标签过滤功能
分页查询插件
HTML标签过滤功能,可过滤掉采集⽂章中的超链接(a标签),<script>和<style>等标签下不必要的代码。下⾯是⼏个例⼦:
如果需要过滤掉⽂章中的超链接,只需输⼊ a 即可,是否删除标签内容选择否;
如果要过滤掉⽂章中包含的<script>或<style>不必要的代码,只需输⼊对应标签名称,是否删除标签内容选择是;
⼗、关键词替换、⾃动添加⾃定义超链接
可以将正⽂或标题中的关键词进⾏替换,同时也⽀持正⽂⾃定义超链接;
如下所⽰:
⼗⼀、解决乱码问题
为什么产⽣乱码
WP-AutoPost 采集⽹页时默认字符集为UTF-8,如果⽬标⽹页的字符集不是UTF-8,采集的内容可能会出现乱码。解决乱码问题
解决⽅法⾮常简单,只需查看⽬标⽹页的字符集,设置正确的字符集即可。
打开⽬标⽹页源代码,⼀般在最前⾯的位置,到有charset的代码部分:
如上所⽰,该⽹页的⽬标编码为gb2312,设置相同的字符集即可:

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。