织梦DedeCms采集规则教程
篇一:dedecms完整采集教程(共三篇)
Dedecms完整收藏教程(列表设置)-marco608原创
以的html教程中的数据库为例,地址是
/网页艺术/htmlbase/html/index。html
一,打开dedecms,进入【采集节点管理】,新建一个节点,模型我们就选择
二、填写节点的基本信息:
名称就自己定义吧。
编码更重要。您可以右键单击页面以查看页面的编码。
来源就自己定义吧。
防盗链取决于目标站点是否有刷新限制。如果是,请设置超时。
三,设置采集列表:
我们想收集的清单如下:
而我们要设置的列表是这样的:
让我们解释一下如何填充这个设置。
来源网址很重要的。列表的获取就是从这里得到的。
自己打开:/webart/htmlbase/HTML/list_33_2。HTML查看分页规则。这不是很难看吗?
然后我们在设置列表分页时,就转换为变量值的形式:
/网页艺术/htmlbase/html/list_u33_var:paging]html
而变量起始值是1,结束值是3,就代表1至3的列表页了。
URL的常规配置取决于是否有更具体的文章URL字符。例如,page1 HTML之类的。
下面的html范围就比较重要。
让我们看一下原始Dede的列表。我们在浏览器中查看源文件。
查以下代码:
看这里,你一定知道常用的HTML代码。
这里要复制代码起始就是那个文章列表的表格的开始部分吧。
以下是物品清单表格末尾的代码:
篇二:dedecms5.7详细采集教程
Dedecms梦想编织系列教程,超级详细
超级详尽的织梦采集教程
许多网民对DEDECM的收藏教程感到头疼。事实上,官方教程太笼统了,什么也没说。你不能在其他网站上做任何事情。本教程是最详细的一个。让我们打开dedecms的后台,
单击Collection-Collection node management-添加新节点
这里我们以采集普通文章为例,我们选择普通文章,然后确定
我们进入集合设置页面并填写节点名称,即为新节点命名。你可以在这里填任何名字。
一、设置文章列表页面
然后打开你想收集的文章列表页面。这里我们以智盟的为例
/web-manage/jianzhanxinde/打开这个页面,右键――查看源文件
查目标页面代码,就在字符集之后
页面基本信息其他的一般就不用管了,填完了如图
现在,让我们填写列表URL获取规则,并查看文章列表第一页上的地址
/web-manage/jianzhanxinde/list_49_1.html
比较第二页49_2上的地址/Web manage/jianzhanxinde/list。html我们到了它们,除了49之外。以下数字不同,其他数字相同,所以我们可以这样写/Web
manage/jianzhanxinde/list。Html将1替换为(*),因为这里只有2个页面,所以我们将从1填充到2,每增加一个页面。当然,它是1,2-1,它等于1吗
这里我们就填写完了
--------------------------------------------------------------------------
-----------------------------------
没有规则的路径,需要手动设定
可能您收集的一些列表没有规则,所以您必须手动指定列表URL,如图所示
每行写一个页面地址
--------------------------------------------------------------------------
------------------------------------
列表规则写完了,我们就开始写文章网址匹配规则了,回到文章列表页右键查看源文
件到区域开始的html,就是文章列表开始的标志。
我们可以很容易地在图中到“新闻列表”。从这里,我们可以在文章列表的文章列
表末尾到HTML
就是这个了,一个很容易到的标志
如果链接包含图片:
不处理采集为缩略图这里根据自己的需要选择
再次过滤区域网址:(使用正则表达式)
必须包含:(优先级高于后者)
不能包含:
打开源文件,我们可以很清楚的看到,文章链接都是以.html结束的
因此,我们必须在包含HTML后填写,如果有些列表很麻烦,您也可以填写以下列表,这些列表不能包含在内
实例如图
二、设置文章内容集合
我们点击保存设置进入下一步,可以看到我们获得的文章网址
看到这些是对的。我们保存信息并进入下一步设置内容字段获取规则
我们看看文章有没有分页,随便进入一篇文章看看。。我们看到这里的文章没有分页
所以这里的我们就默认了
现在让我们到文章的标题等等。只需输入一篇文章并右键单击即可查看源文件即可
查看这些内容
依照源码填写
让我们填写这篇文章的开头和结尾。和上面一样。到开始和结束的标志
篇三:dedecms采集规则
dede仿站教程Dedecms收集规则Dedecms收集规则,过滤并替换文章中的某些内容
1.采集去除链接
[copytoclipboard]代码:
{dede:trim}]*)>([^<]*){/dede:trim}
--------------------------------
让field:title标题突破30这个长度,修改代码的方法
查它/include/inc_uuu零件uuu视图。php
行291:
如果($titlelen==”)$titlelen=30;
修改为
如果($titlelen==”)$titlelen=60;
就可以了,然后,你可以这样调用了
{dede:channelartlisttypeid='0'列=1tablewidth='100%'}
{dede:arclistrow="10"}
[field:titlefunction=“cn_substr('@me',38)”/]
{/dede:arclist}
{/dede:channelartlist}
把这个延伸一下:关于inc_arcpart_view.php
functiongetarclist($typeid=0,$row=10,$col=1,$titlelen=30,$infolen=160,
$imgwidth=120,$imgheight=90,$listtype="all",$orderby="default",$keyword="",$in nertext="",$tablewidth="100",$arcid=0,$idlist="")
这里的参数可以更改实际需要的模板元素的大小
2.采集过虑中去掉链接保留文字的方法!
白老板的方法是{Dede:trim}<a([^>]*)>([^<]*)</a>{/Dede:trim}
这样做会去掉&>与</a>之间的字符!这样整个文章就少了部分字符,不完整了!
后来,我进行了多次测试,最终到了正确的使用方法!详情如下:
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
做成两条采集规则就可以了!
在实际使用中,([^<]*)([^>]*)似乎只能一起使用!
3.过滤div
{dede:trim}]*)>{/dede:trim}
{dede:trim}
{/dede:trim}
过滤js
{dede:trim}]*)>([^<]*){/dede:trim}
过滤未知变量字符
固定的(.*)固定的
4.dede万能过滤代码
以下是常见的正则表达式标记
{dede:trim}<tbody(.*)>{/dede:trim}
{dede:trim}</tbody>{/dede:trim}
{dede:trim}<table(.*)>{/dede:trim}
{/dede}
{dede:trim}<tr(.*)>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<td(.*)>{/dede:trim}
{dede:trim}</td>{/dede:trim}

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。