如何让采集器自动过滤重复数据

在正常情况下,在采集数据时,采集器会自动过滤重复数据,过滤条件是所有字段的数据都一样的话,就会被过滤。

重复数据有两种情况:

1. 数据重复

针对数据重复的情况,可以添加一个字段,设置自定义值,选择当前时间

2. 深入采集URL重复

如果在采集的时候,日志提示”深入采集的URL重复被过滤”,可以通过对URL字段加上额外参数,使其不重复。 点击URL字段的数据处理添加前后缀,设置后缀字符

当然,我们需要根据URL的具体情况,设置不同的参数,分为2种情况

  1. URL中不包含 ?,添加后缀字符 ?t={时间戳13}
  2. URL中包含?,添加后缀字符 &t={时间戳13}
 收藏 (0) 打赏

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

未经允许不得转载:众鑫企业名录搜索软件_谷歌图数据采集大师_高德地图采集_百度地图采集_360地图采集_美团点评商家采集 » 如何让采集器自动过滤重复数据

热门文章

  • 相关推荐

    • 暂无文章

    评论 抢沙发

    • QQ号
    • 昵称 (必填)
    • 邮箱 (必填)
    • 网址

    众鑫企业名录搜索软件

    众鑫网页数据采集器众鑫采集器