dedecms 采集教程大全
时间:2008-11-20
二,采集详细设置
图2
图2
这里可以设置每页采集的数据条数,一般来说不要设置太大,否则有可能导致系统处理不过来而部分采集不到,建议别超过15;线
程数是指每次有多少个线程同时进行采集,线程数的增加可以加快采集速度,但相应的会增加服务器资源的占用,所以请慎用;假
若目标站点有防刷新限制,此处就可以根据目标站点的防刷新限制时间进行设置,假如没有就默认0秒可以了。
附加选项这三个设置从字面上应该可以很容易理解,这就根据你的实际需要进行选择了。
三,采集后的处理
采集完成后,点击“查看种子网址”进入查看采集的结果。
这里罗列出了采集回来的内容。可以点击进去查看采集到的内容有无问题的。具体看图3
图3
图3
温馨提醒:
1、在这个列表中有些数据的是否下载有可能显示的是“未下载”,引起的原因可能是网络的原因引起也有可能是你设置的采集条数
过大导致的。出现这样的情况我们仅需要在上面采集的“附加选项中”选择“仅下载未下载内容”,然后再进行一次采集即可。
2、在“节点的种子网址”列表中点击“[源网址]”可进入查看该条采集到的数据所在的原来页面
3、在“节点的种子网址”列表中点击“内容标题”这一栏的超链接可进入查看采集到的数据是否正确,同时也可以修改里面的内容
,最后记得保存即可,见图4
图4
图4
这里需要注意的是:“dede_archives.sortrank”和“dede_archives.pubdate”这两个字段的内容一般不要修改
4、假如要删除部分不满意的数据,可以在列表中在你要删除的数据前面打勾,然后按“删除所选网址”即可,这里支持批量操作
四,将采集的数据入库
这里有多个入口:
1、在节点管理列表中选择刚才采集的那个节点,然后点击下面的“导出数据按钮”进入入库操作
2、直接点击我们刚才采集的那个节点进入采集内容管理页面,点击右上方的“导出采集内容”按钮即可进入入库操作
- 上一篇:天涯社区虚拟之罪 感慨论坛管理革新之难
- 下一篇:阿里巴巴回购429万港元股票
- 京东不带https的页面被qutaobi劫持
现在京东网站大多数页面都是自动打开https,安全链接,比较好。但有的时候也会打开不...
- 微信使用知识介绍 微信段子分享
一起过帮大家整理了有关微信的相关知识,一起了解下吧!...
- 天猫积分有效期及用处介绍
经常网购的朋友们应该很清楚啦,天猫积分的获得一般是你在天猫商城里面购物的时候,等...
- 微信公众号怎么申请 流程方法介绍
虽说微信公众号已成为企业、商家必不可少的一项营销手段,但很多人对于如何创建公众号...
- 限时玩玩烧脑游戏有益大脑提高脑力
限时玩玩烧脑游戏有益大脑提高脑力 电子游戏的本质之一是“主动学习”,它...
- 做微商有没有技巧?朋友圈营销心得
做微商首先要学会玩朋友圈,熟识你的人多了,才能慢慢推广业务。一般搞笑类说说浏览量...