一起过>电脑网络>网站网络>

    dedecms 采集教程大全

    时间:2008-11-20

    {dede:trim}</a>{/dede:trim} 
    设置方法可以见上图4中的过滤规则。 
    3、文章正文: 
    要找到文章正文在HTML代码中出现的位置,一个便捷的技巧就是先复制网页中正文的头几个字,然后在html代码中查找,就可以很快定位出来,这也可以方便我们分析代码。 
    只要找出文章正文前的唯一性代码和文章结束时的唯一性代码,就可以抓出文章的正文。如下图5所示: 
    图5 
    图5  
     

    因为本文例文是没有分页内容,所以这里的“分页内容字段”不用选,若你想将文章正文中包含的多媒体资源(如图片、视频等)下载到本地服务器,你可以勾上“下载字段里的多媒体资源” 
    过滤规则是比较重要的部分,通过正则规则可以将文章中的广告代码或LJ代码、干扰代码过滤掉,不采集下来,若人家文章中有挂了广告,我想你也不想免费给人家挂广告吧。 
    至于过滤规则部分将再以后讲解。 

    剩下的文章来源,发布时间和录入时间等,都和以上的设置大同小异的,采集与否都无所谓,就看你的需要了。 

    三,至此,节点和规则的设置都完成了,接下来就是采集,下载和导出(入库)了。 
    最后再强调一点的就是必须懂HTML代码,最起码得能看懂目标页面的html代码的大概组成,知道文章的内容是存放在哪些代码之间。 
    下篇预告:进行采集篇,以图文的方式介绍如何进行采集,导出所采集到的数据入库

     【DEDECMS采集基础教程】进行采集篇(三)
    经过【DEDECMS采集基础教程】列表设置篇(一)和【DEDECMS采集基础教程】采集规则篇(二)的介绍,我们基本掌握了采集规则 
    的写发。这一篇我们将介绍如何进行采集以及采集后的入库。 
    一,选择节点,进入采集 
    先在我们刚建立好的采集节点前面打勾,然后点“采集”按钮,如图1 
    图1 
    图1  
    上一页 1 2 3 45 6 7 8 9 10 下一页
  • 上一篇:天涯社区虚拟之罪 感慨论坛管理革新之难
  • 下一篇:阿里巴巴回购429万港元股票

    推荐内容

  • 京东不带https的页面被qutaobi劫持

    现在京东网站大多数页面都是自动打开https,安全链接,比较好。但有的时候也会打开不...

  • 微信使用知识介绍 微信段子分享

    一起过帮大家整理了有关微信的相关知识,一起了解下吧!...

  • 天猫积分有效期及用处介绍

    经常网购的朋友们应该很清楚啦,天猫积分的获得一般是你在天猫商城里面购物的时候,等...

  • 微信公众号怎么申请 流程方法介绍

    虽说微信公众号已成为企业、商家必不可少的一项营销手段,但很多人对于如何创建公众号...

  • 限时玩玩烧脑游戏有益大脑提高脑力

    限时玩玩烧脑游戏有益大脑提高脑力 电子游戏的本质之一是“主动学习”,它...

  • 做微商有没有技巧?朋友圈营销心得

    做微商首先要学会玩朋友圈,熟识你的人多了,才能慢慢推广业务。一般搞笑类说说浏览量...

首页常识美食医生旅游

笑话IT老人男女育儿
返回首页 | 电脑端