采集dxy的时候发现有重复主题
仔细看了一下,原来他的主题网址非常奇怪,竟然带有页面的信息
比如,今天发个主题,在第一页就是PAGE=1,过几天这个主题掉到第二页,网址上面就变成了PAGE=2,这样让采集器以为是新的文章,再采集一遍就和原来重复了
我想起ET有这个功能,直接把采集来的网址再修改过,像上面的情况,可以把页面的信息给过滤掉
想想火车头也开发了那么久了,应该也有这个功能吧,结果我刚开始走了弯路
在网址添加哪里直接找到个正则采集功能,发现一次只能采集一页,我一般都是要采集10几页的,总不能老手工去输入页码吧
后来上网找了教程,有点看不懂,不过貌似有这个功能
然后仔细观察了一下,竟然发现有个“手动填写链接地址规则”功能可以选择
点进去一看,果然可以自己正则采集网址,剩下的事情就好办了
不过以前采集的只能全去掉了
上一篇: 骑马与砍杀火枪修改办法