一起过>电脑网络>网站网络>

    网站优化注意:网页正文提取算法细节问题

    时间:2008-12-23
     网页的正文提取有好多种算法,有基于视觉的,基于标记窗的,基于双层决策等算法,这里讨论一些基于标记窗的算法(相对简单且效果还好)的相关细节问题,如下问题:如何提取一个网页的标题思路:提取网页的title,提取网页的meta里的keyword,提取网页里的所有h标签,先用title和keyword比,把title里的 keyword去掉,因为某些网站做SEO,在keyword和title里都有关键词堆叠,所以去掉重复的项,一般就是网页内容的标题了。

      一般一个网站的所有网页的keyword都相同,但碰上每个网页的meta keyword和本页内容相关这个算法就不灵了。然后再计算裁剪后的title和h标签(有限h1,h2次之)里提取的文本的文本相似度或者编辑距离,如果少于某个阈值,这个h标签的文本就是网页的标题。另外还要考虑title和正文标题一点关系都没有的情况。提取标题的算法有好多不可靠性,实在不行就直接去title了。
     
      问题:如下文字,两个横杠之间的文字,================================================== <div>没有花香,没有树高</div><td>((:&nbsp;那就等 着沦陷吧,如果爱情真伟大</td> <div>我早已为你种下<b>九百九十九</b>多 玫瑰</div> <div>妹妹你坐船头,<td>哥哥我岸上走sdf</td></div> ==================================================用正则分成以下几组字符串,引号引住的部分1、"没有花香,\r\n没有树高" 2、" 那就等着沦陷吧,如果爱情真伟大" 3、"我早已为你种下九百九十九多玫瑰" 4、"妹妹你坐船头,哥哥我岸上走sdf" 5、"哥哥我岸上走sdf"思路:其实就是取出html容器标签(td,div,span,p等)里的汉字部分,并且如果是嵌套容器的话,最里层的匹配一个分组,一直向外,每层算一个分组,最后把每个分组弄成一个字符串的列表问题:如何用正则把一段html文本块取出其带格式的文本思路:首先要去掉修饰性标签,<b>,<font>还有<img>等,其次要把<br>替换成\r\ n,&nbsp;替换成空格,再把<srcipt><style>等标签及其中间的字符都去了,想<a title="嘿嘿">这个标签里的"嘿嘿"不能算是正文,正文中的链接不能去掉,要改成“百度(http://www.baidu.com)”这样的格式,否则提取文本后链接信息就没了。

    上一页12 下一页
  • 上一篇:免费拥有25GB网络硬盘
  • 下一篇:实战网站优化之 站内优化

    推荐内容

  • 京东不带https的页面被qutaobi劫持

    现在京东网站大多数页面都是自动打开https,安全链接,比较好。但有的时候也会打开不...

  • 微信使用知识介绍 微信段子分享

    一起过帮大家整理了有关微信的相关知识,一起了解下吧!...

  • 天猫积分有效期及用处介绍

    经常网购的朋友们应该很清楚啦,天猫积分的获得一般是你在天猫商城里面购物的时候,等...

  • 微信公众号怎么申请 流程方法介绍

    虽说微信公众号已成为企业、商家必不可少的一项营销手段,但很多人对于如何创建公众号...

  • 限时玩玩烧脑游戏有益大脑提高脑力

    限时玩玩烧脑游戏有益大脑提高脑力 电子游戏的本质之一是“主动学习”,它...

  • 做微商有没有技巧?朋友圈营销心得

    做微商首先要学会玩朋友圈,熟识你的人多了,才能慢慢推广业务。一般搞笑类说说浏览量...

首页常识美食医生旅游

笑话IT老人男女育儿
返回首页 | 电脑端