dedecms 采集教程大全
时间:2008-11-20
图1
图1
有分页文章的设置方法将会在以后进行介绍。
二,内容字段的设置:
进入这一步,就开始对页面源码进行着重的分析了,采集无非是分析html页面的结构从而获取我们所需的内容。
所以这里就要求我们对HTML代码有一定的认识,最起码你也该看懂html代码的结构。
通过查看页面源文件,我们可以查看到页面的html代码。
1、文章标题:
最简单的方法是直接搜索这个标题在html代码中出现的位置,例如本篇例文的标题是:HTML语言剖析(六)清单标记,因此直接搜索出来在html代码总总共出现有两处,第一处的代码是
<title>HTML语言剖析(六)清单标记 - 织梦内容管理系统</title>
第二处出现的代码是:
<!--资讯标题-->
<div class="title">
<h1>HTML语言剖析(六)清单标记</h1>
</div>
<!--相关信息-->
由上面两处不难得出,第二处对于我们来捕获该文的标题比较方便,因为不用再去写规则过滤掉一些我们不需要的信息。经过再次搜索全文HTML得出,<h1>和</h1>在文中具有唯一性,因此可以作为获取标题的起止html代码,设置如下图2:
图2
图2
2、文章作者:
如果你不想用该文章上所显示的作者,也可以留空,dede会自动把文章的作者名给你添加上“佚名”
要采集这个文章作者也不难,经过分析后,可以看出文章作者在HTML代码中出现的位置,先看看下图3中选中部分代码
图3
图3
这样文章作者的采集范围我们就可以定下来,其设置如下图4所示:
图4
图4
*若文章作者中有包含超链接,其代码表现形式为“<a href="" ……>文章作者</a>”,我们也可以采取过滤规则将其过滤掉,其规则如下:
{dede:trim}<a([^>]*)>{/dede:trim}
- 上一篇:天涯社区虚拟之罪 感慨论坛管理革新之难
- 下一篇:阿里巴巴回购429万港元股票
- 京东不带https的页面被qutaobi劫持
现在京东网站大多数页面都是自动打开https,安全链接,比较好。但有的时候也会打开不...
- 微信使用知识介绍 微信段子分享
一起过帮大家整理了有关微信的相关知识,一起了解下吧!...
- 天猫积分有效期及用处介绍
经常网购的朋友们应该很清楚啦,天猫积分的获得一般是你在天猫商城里面购物的时候,等...
- 微信公众号怎么申请 流程方法介绍
虽说微信公众号已成为企业、商家必不可少的一项营销手段,但很多人对于如何创建公众号...
- 限时玩玩烧脑游戏有益大脑提高脑力
限时玩玩烧脑游戏有益大脑提高脑力 电子游戏的本质之一是“主动学习”,它...
- 做微商有没有技巧?朋友圈营销心得
做微商首先要学会玩朋友圈,熟识你的人多了,才能慢慢推广业务。一般搞笑类说说浏览量...