dedecms 采集教程大全
				时间:2008-11-20 
			来源网址很重要的。列表的获取就是从这里获取的。
自己打开:http://www.dedecms.com/web-art/htmlbase/HTML/
点击分页看下几个分页之间的URL有什么规则
由此不难看出其中的规则可以看下面的url例子:
http://www.dedecms.com/web-art/htmlbase/HTML/list_33 _【除此外其他都一样】.html
由此我们提取出来的规则就是换为变量值的形式
[url=http://www.dedecms.com/web-art/htmlbase/HTML/list_33_[var]http://www.dedecms.com/web-art/htmlbase/HTML/list_33_[var[/url]:分页].html
而变量起始值是1,结束值是3,就代表1至3的列表页了。
用正则匹配置网址就看本身是否有比较特定的文章网址字符。
下面的html范围就比较重要,采集的实际文章地址就是从这里获取的。
我们看原dede的列表。我们在浏览器里查看源文件。
查找以下代码:
图4
图4


上图中选中部分就是文章列表内容的开始处,而且在整个页面中是唯一的,因此我们就提取到了开始的HTML了
结束的HTML一般可以在列表下面的分页处找到,也是提取在正个页面源码中唯一标识的代码,看下图选中部分:
图5
图5
 
  下面的【手工指定网址】就是你想特别采集什么网址,就直接填上即可。
 【DEDECMS采集基础教程】采集规则篇(二) 
在上一篇“【DEDECMS采集基础教程】列表设置篇(一)” 中介绍了列表设置的方法,接下来我们进入采集规则的设置,上篇的作用是获取到我们要采集的文章的地址,本篇是介绍如何从文章内容页面采集到文章的内容,也是整个采集模型中最为核心的部分。 
一,设置采集内容:
本篇将以《HTML语言剖析(六)清单标记》为例子,其链接地址是:
http://www.dedecms.com/web-art/htmlbase/HTML/20060703/30201.html
由于该测试文章没有分页,所以我们的配置选择的是“不分页”,因此,分页链接区域html也可以不用填写任何内容,如下图1所示:
	
					
		
      	一,设置采集内容:
本篇将以《HTML语言剖析(六)清单标记》为例子,其链接地址是:
http://www.dedecms.com/web-art/htmlbase/HTML/20060703/30201.html
由于该测试文章没有分页,所以我们的配置选择的是“不分页”,因此,分页链接区域html也可以不用填写任何内容,如下图1所示:
- 上一篇:天涯社区虚拟之罪 感慨论坛管理革新之难
- 下一篇:阿里巴巴回购429万港元股票
- 京东不带https的页面被qutaobi劫持
            	现在京东网站大多数页面都是自动打开https,安全链接,比较好。但有的时候也会打开不... 
- 微信使用知识介绍 微信段子分享
            	一起过帮大家整理了有关微信的相关知识,一起了解下吧!... 
- 天猫积分有效期及用处介绍
            	经常网购的朋友们应该很清楚啦,天猫积分的获得一般是你在天猫商城里面购物的时候,等... 
- 微信公众号怎么申请 流程方法介绍
            	虽说微信公众号已成为企业、商家必不可少的一项营销手段,但很多人对于如何创建公众号... 
- 限时玩玩烧脑游戏有益大脑提高脑力
            	限时玩玩烧脑游戏有益大脑提高脑力 电子游戏的本质之一是“主动学习”,它... 
- 做微商有没有技巧?朋友圈营销心得
            	做微商首先要学会玩朋友圈,熟识你的人多了,才能慢慢推广业务。一般搞笑类说说浏览量...