dedecms 采集教程大全

时间:2008-11-20

来源网址很重要的。列表的获取就是从这里获取的。
自己打开：http://www.dedecms.com/web-art/htmlbase/HTML/
点击分页看下几个分页之间的URL有什么规则
由此不难看出其中的规则可以看下面的url例子：
http://www.dedecms.com/web-art/htmlbase/HTML/list_33 _【除此外其他都一样】.html
由此我们提取出来的规则就是换为变量值的形式
[url=http://www.dedecms.com/web-art/htmlbase/HTML/list_33_[var]http://www.dedecms.com/web-art/htmlbase/HTML/list_33_[var[/url]:分页].html
而变量起始值是1，结束值是3，就代表1至3的列表页了。

用正则匹配置网址就看本身是否有比较特定的文章网址字符。
下面的html范围就比较重要，采集的实际文章地址就是从这里获取的。
我们看原dede的列表。我们在浏览器里查看源文件。
查找以下代码：
图4

图4

上图中选中部分就是文章列表内容的开始处，而且在整个页面中是唯一的，因此我们就提取到了开始的HTML了
结束的HTML一般可以在列表下面的分页处找到，也是提取在正个页面源码中唯一标识的代码，看下图选中部分：
图5

图5

下面的【手工指定网址】就是你想特别采集什么网址，就直接填上即可。

【DEDECMS采集基础教程】采集规则篇（二）

在上一篇“【DEDECMS采集基础教程】列表设置篇（一）” 中介绍了列表设置的方法，接下来我们进入采集规则的设置，上篇的作用是获取到我们要采集的文章的地址，本篇是介绍如何从文章内容页面采集到文章的内容，也是整个采集模型中最为核心的部分。
一，设置采集内容：
本篇将以《HTML语言剖析（六）清单标记》为例子，其链接地址是：
http://www.dedecms.com/web-art/htmlbase/HTML/20060703/30201.html
由于该测试文章没有分页，所以我们的配置选择的是“不分页”，因此，分页链接区域html也可以不用填写任何内容，如下图1所示：

上一页 1 23 4 5 6 7 8 9 10 下一页

上一篇：天涯社区虚拟之罪感慨论坛管理革新之难
下一篇：阿里巴巴回购429万港元股票

dedecms 采集教程大全

推荐内容