- 上一篇:天涯社区虚拟之罪 感慨论坛管理革新之难
- 下一篇:阿里巴巴回购429万港元股票
- 京东不带https的页面被qutaobi劫持
现在京东网站大多数页面都是自动打开https,安全链接,比较好。但有的时候也会打开不...
- 微信使用知识介绍 微信段子分享
一起过帮大家整理了有关微信的相关知识,一起了解下吧!...
- 天猫积分有效期及用处介绍
经常网购的朋友们应该很清楚啦,天猫积分的获得一般是你在天猫商城里面购物的时候,等...
- 微信公众号怎么申请 流程方法介绍
虽说微信公众号已成为企业、商家必不可少的一项营销手段,但很多人对于如何创建公众号...
- 限时玩玩烧脑游戏有益大脑提高脑力
限时玩玩烧脑游戏有益大脑提高脑力 电子游戏的本质之一是“主动学习”,它...
- 做微商有没有技巧?朋友圈营销心得
做微商首先要学会玩朋友圈,熟识你的人多了,才能慢慢推广业务。一般搞笑类说说浏览量...
dedecms 采集教程大全
时间:2008-11-20
{dede:trim}</a>{/dede:trim}
设置方法可以见上图4中的过滤规则。
3、文章正文:
要找到文章正文在HTML代码中出现的位置,一个便捷的技巧就是先复制网页中正文的头几个字,然后在html代码中查找,就可以很快定位出来,这也可以方便我们分析代码。
只要找出文章正文前的唯一性代码和文章结束时的唯一性代码,就可以抓出文章的正文。如下图5所示:
图5
图5
因为本文例文是没有分页内容,所以这里的“分页内容字段”不用选,若你想将文章正文中包含的多媒体资源(如图片、视频等)下载到本地服务器,你可以勾上“下载字段里的多媒体资源”
过滤规则是比较重要的部分,通过正则规则可以将文章中的广告代码或LJ代码、干扰代码过滤掉,不采集下来,若人家文章中有挂了广告,我想你也不想免费给人家挂广告吧。
至于过滤规则部分将再以后讲解。
剩下的文章来源,发布时间和录入时间等,都和以上的设置大同小异的,采集与否都无所谓,就看你的需要了。
三,至此,节点和规则的设置都完成了,接下来就是采集,下载和导出(入库)了。
最后再强调一点的就是必须懂HTML代码,最起码得能看懂目标页面的html代码的大概组成,知道文章的内容是存放在哪些代码之间。
下篇预告:进行采集篇,以图文的方式介绍如何进行采集,导出所采集到的数据入库
【DEDECMS采集基础教程】进行采集篇(三)
经过【DEDECMS采集基础教程】列表设置篇(一)和【DEDECMS采集基础教程】采集规则篇(二)的介绍,我们基本掌握了采集规则
的写发。这一篇我们将介绍如何进行采集以及采集后的入库。
一,选择节点,进入采集
先在我们刚建立好的采集节点前面打勾,然后点“采集”按钮,如图1
图1
图1
的写发。这一篇我们将介绍如何进行采集以及采集后的入库。
一,选择节点,进入采集
先在我们刚建立好的采集节点前面打勾,然后点“采集”按钮,如图1
图1
图1