dedecms 采集教程大全

时间:2008-11-20

图1
图1

有分页文章的设置方法将会在以后进行介绍。

二，内容字段的设置：
进入这一步，就开始对页面源码进行着重的分析了，采集无非是分析html页面的结构从而获取我们所需的内容。
所以这里就要求我们对HTML代码有一定的认识，最起码你也该看懂html代码的结构。
通过查看页面源文件，我们可以查看到页面的html代码。
1、文章标题：
最简单的方法是直接搜索这个标题在html代码中出现的位置，例如本篇例文的标题是：HTML语言剖析（六）清单标记，因此直接搜索出来在html代码总总共出现有两处，第一处的代码是
<title>HTML语言剖析（六）清单标记 - 织梦内容管理系统</title>
第二处出现的代码是：

<div class="title">
<h1>HTML语言剖析（六）清单标记</h1>
</div>

由上面两处不难得出，第二处对于我们来捕获该文的标题比较方便，因为不用再去写规则过滤掉一些我们不需要的信息。经过再次搜索全文HTML得出,<h1>和</h1>在文中具有唯一性，因此可以作为获取标题的起止html代码，设置如下图2：
图2
图2

2、文章作者：
如果你不想用该文章上所显示的作者，也可以留空，dede会自动把文章的作者名给你添加上“佚名”
要采集这个文章作者也不难，经过分析后，可以看出文章作者在HTML代码中出现的位置，先看看下图3中选中部分代码
图3
图3

这样文章作者的采集范围我们就可以定下来，其设置如下图4所示：
图4
图4

*若文章作者中有包含超链接，其代码表现形式为“<a href="" ……>文章作者</a>”，我们也可以采取过滤规则将其过滤掉，其规则如下：
{dede:trim}<a([^>]*)>{/dede:trim}

上一页 1 2 34 5 6 7 8 9 10 下一页

上一篇：天涯社区虚拟之罪感慨论坛管理革新之难
下一篇：阿里巴巴回购429万港元股票

dedecms 采集教程大全

推荐内容