采集dxy的时候发现有重复主题

时间: 2011-02-01 / 分类: 网站制作技术 / 浏览次数: 3,791 views / 0个评论 发表评论

仔细看了一下,原来他的主题网址非常奇怪,竟然带有页面的信息

比如,今天发个主题,在第一页就是PAGE=1,过几天这个主题掉到第二页,网址上面就变成了PAGE=2,这样让采集器以为是新的文章,再采集一遍就和原来重复了

我想起ET有这个功能,直接把采集来的网址再修改过,像上面的情况,可以把页面的信息给过滤掉

想想火车头也开发了那么久了,应该也有这个功能吧,结果我刚开始走了弯路

在网址添加哪里直接找到个正则采集功能,发现一次只能采集一页,我一般都是要采集10几页的,总不能老手工去输入页码吧

后来上网找了教程,有点看不懂,不过貌似有这个功能

然后仔细观察了一下,竟然发现有个“手动填写链接地址规则”功能可以选择

点进去一看,果然可以自己正则采集网址,剩下的事情就好办了

不过以前采集的只能全去掉了

发表评论

您的昵称 *

您的邮箱 *

您的网站