dedecms 采集教程大全
时间:2008-11-20
来源网址很重要的。列表的获取就是从这里获取的。
自己打开:http://www.dedecms.com/web-art/htmlbase/HTML/
点击分页看下几个分页之间的URL有什么规则
由此不难看出其中的规则可以看下面的url例子:
http://www.dedecms.com/web-art/htmlbase/HTML/list_33 _【除此外其他都一样】.html
由此我们提取出来的规则就是换为变量值的形式
[url=http://www.dedecms.com/web-art/htmlbase/HTML/list_33_[var]http://www.dedecms.com/web-art/htmlbase/HTML/list_33_[var[/url]:分页].html
而变量起始值是1,结束值是3,就代表1至3的列表页了。
用正则匹配置网址就看本身是否有比较特定的文章网址字符。
下面的html范围就比较重要,采集的实际文章地址就是从这里获取的。
我们看原dede的列表。我们在浏览器里查看源文件。
查找以下代码:
图4
图4
上图中选中部分就是文章列表内容的开始处,而且在整个页面中是唯一的,因此我们就提取到了开始的HTML了
结束的HTML一般可以在列表下面的分页处找到,也是提取在正个页面源码中唯一标识的代码,看下图选中部分:
图5
图5
下面的【手工指定网址】就是你想特别采集什么网址,就直接填上即可。
【DEDECMS采集基础教程】采集规则篇(二)
在上一篇“【DEDECMS采集基础教程】列表设置篇(一)” 中介绍了列表设置的方法,接下来我们进入采集规则的设置,上篇的作用是获取到我们要采集的文章的地址,本篇是介绍如何从文章内容页面采集到文章的内容,也是整个采集模型中最为核心的部分。
一,设置采集内容:
本篇将以《HTML语言剖析(六)清单标记》为例子,其链接地址是:
http://www.dedecms.com/web-art/htmlbase/HTML/20060703/30201.html
由于该测试文章没有分页,所以我们的配置选择的是“不分页”,因此,分页链接区域html也可以不用填写任何内容,如下图1所示:
一,设置采集内容:
本篇将以《HTML语言剖析(六)清单标记》为例子,其链接地址是:
http://www.dedecms.com/web-art/htmlbase/HTML/20060703/30201.html
由于该测试文章没有分页,所以我们的配置选择的是“不分页”,因此,分页链接区域html也可以不用填写任何内容,如下图1所示:
- 上一篇:天涯社区虚拟之罪 感慨论坛管理革新之难
- 下一篇:阿里巴巴回购429万港元股票
- 京东不带https的页面被qutaobi劫持
现在京东网站大多数页面都是自动打开https,安全链接,比较好。但有的时候也会打开不...
- 微信使用知识介绍 微信段子分享
一起过帮大家整理了有关微信的相关知识,一起了解下吧!...
- 天猫积分有效期及用处介绍
经常网购的朋友们应该很清楚啦,天猫积分的获得一般是你在天猫商城里面购物的时候,等...
- 微信公众号怎么申请 流程方法介绍
虽说微信公众号已成为企业、商家必不可少的一项营销手段,但很多人对于如何创建公众号...
- 限时玩玩烧脑游戏有益大脑提高脑力
限时玩玩烧脑游戏有益大脑提高脑力 电子游戏的本质之一是“主动学习”,它...
- 做微商有没有技巧?朋友圈营销心得
做微商首先要学会玩朋友圈,熟识你的人多了,才能慢慢推广业务。一般搞笑类说说浏览量...