在正常情况下,在采集数据时,采集器会自动过滤重复数据,过滤条件是所有字段的数据都一样的话,就会被过滤。
重复数据有两种情况:
1. 数据重复
针对数据重复的情况,可以添加一个字段,设置自定义值
,选择当前时间
2. 深入采集URL重复
如果在采集的时候,日志提示”深入采集的URL重复被过滤”,可以通过对URL字段加上额外参数,使其不重复。 点击URL字段的数据处理
,添加前后缀
,设置后缀字符
当然,我们需要根据URL的具体情况,设置不同的参数,分为2种情况
- URL中不包含
?
,添加后缀字符?t={时间戳13}
- URL中包含
?
,添加后缀字符&t={时间戳13}