如何使用HTTP模式采集列表页及详情页数据
众鑫采集器数据采集模式有三种,一是浏览器引擎模式,采集过程能够看到浏览器页面信息;二是HTTP引擎模式,采集过程中不会加载图片等信息;三是json引擎模式,需要抓包有点难度;
今天我们讲http模式采集视频教程
优点:直接从源码中取数据不需要加载图片JS等无用数据 速度快
实站网站:博客园知识库
实站网址:https://kb.cnblogs.com/1/
新建任务
1,输入网址;
2,点击第二步,软件会自动打开这个网址,实现列表页数据【自动获取】或【手动获取】,我分别会讲解一下
3,深入打开内容页连接,并添加字段获取数据;
4,分页设置;
5,字段的添加,选择,修改,删除;
6,数据处理:删除重复和跳过空值;
7,保存任务采集数据;
8,导出数据;
众鑫采集器官网:http://www.crawlers.cn/