一起过>电脑网络>网站网络>

    dedecms 采集教程大全

    时间:2008-11-20

    图1 
    图1  
     

    有分页文章的设置方法将会在以后进行介绍。 

    二,内容字段的设置: 
    进入这一步,就开始对页面源码进行着重的分析了,采集无非是分析html页面的结构从而获取我们所需的内容。 
    所以这里就要求我们对HTML代码有一定的认识,最起码你也该看懂html代码的结构。 
    通过查看页面源文件,我们可以查看到页面的html代码。 
    1、文章标题: 
    最简单的方法是直接搜索这个标题在html代码中出现的位置,例如本篇例文的标题是:HTML语言剖析(六)清单标记,因此直接搜索出来在html代码总总共出现有两处,第一处的代码是 
    <title>HTML语言剖析(六)清单标记 - 织梦内容管理系统</title> 
    第二处出现的代码是: 
    <!--资讯标题--> 
    <div class="title"> 
    <h1>HTML语言剖析(六)清单标记</h1> 
    </div> 
    <!--相关信息--> 
    由上面两处不难得出,第二处对于我们来捕获该文的标题比较方便,因为不用再去写规则过滤掉一些我们不需要的信息。经过再次搜索全文HTML得出,<h1>和</h1>在文中具有唯一性,因此可以作为获取标题的起止html代码,设置如下图2: 
    图2 
    图2  
     

    2、文章作者: 
    如果你不想用该文章上所显示的作者,也可以留空,dede会自动把文章的作者名给你添加上“佚名” 
    要采集这个文章作者也不难,经过分析后,可以看出文章作者在HTML代码中出现的位置,先看看下图3中选中部分代码 
    图3 
    图3  
     

    这样文章作者的采集范围我们就可以定下来,其设置如下图4所示: 
    图4 
    图4  
     

    *若文章作者中有包含超链接,其代码表现形式为“<a href="" ……>文章作者</a>”,我们也可以采取过滤规则将其过滤掉,其规则如下: 
    {dede:trim}<a([^>]*)&gt;{/dede:trim} 
    上一页 1 2 34 5 6 7 8 9 10 下一页
  • 上一篇:天涯社区虚拟之罪 感慨论坛管理革新之难
  • 下一篇:阿里巴巴回购429万港元股票

    推荐内容

  • 京东不带https的页面被qutaobi劫持

    现在京东网站大多数页面都是自动打开https,安全链接,比较好。但有的时候也会打开不...

  • 微信使用知识介绍 微信段子分享

    一起过帮大家整理了有关微信的相关知识,一起了解下吧!...

  • 天猫积分有效期及用处介绍

    经常网购的朋友们应该很清楚啦,天猫积分的获得一般是你在天猫商城里面购物的时候,等...

  • 微信公众号怎么申请 流程方法介绍

    虽说微信公众号已成为企业、商家必不可少的一项营销手段,但很多人对于如何创建公众号...

  • 限时玩玩烧脑游戏有益大脑提高脑力

    限时玩玩烧脑游戏有益大脑提高脑力 电子游戏的本质之一是“主动学习”,它...

  • 做微商有没有技巧?朋友圈营销心得

    做微商首先要学会玩朋友圈,熟识你的人多了,才能慢慢推广业务。一般搞笑类说说浏览量...

首页常识美食医生旅游

笑话IT老人男女育儿
返回首页 | 电脑端