功能14、分页设置功能
分页设置 当列表有分页时,启用分页后就可以采集到所有的分页列表数据。 网页分页有两种 普通分页:存在分页条,并显示有“下一页”按钮,点击后可以进入下一页,如之前的新浪新闻列表里的分页 瀑布流分页:网页滚动条拉到底部时会自动加载下一页内容 如...
分页设置 当列表有分页时,启用分页后就可以采集到所有的分页列表数据。 网页分页有两种 普通分页:存在分页条,并显示有“下一页”按钮,点击后可以进入下一页,如之前的新浪新闻列表里的分页 瀑布流分页:网页滚动条拉到底部时会自动加载下一页内容 如...
验证码检测 在采集数据时,在一些网站上采集太多、太快的话,会弹出验证码窗口,通过设置验证码检测,我们可以解决这个问题 如何设置? 点击地址栏左边的工具图形按钮,点击设置验证码识别 即可,进入到验证码设置界面。 勾选启动验证码检测 ...
除了通过采集网页中的数据,程序还提供了自定义数据 目前有3种类型的自定义数据: 固定文本,直接在文本框中输入固定字符即可。 当前URL,返回当前网页的地址。 当前时间,返回当前时间,格式为 2011-01-01 00:00:00。...
介绍 POST 请求是使用HTTP协议的POST方法进行请求的方式,区别于GET请求,POST请求一般是将参数数据放在POST Body(POST 数据体)中。而GET请求的参数都是放在URL中。 前提 要使用POST方式进行采集,首先需要...
JSON数据请求的分页设置在之前的采集器版本中,当我们设置一个JSON请求的分页时,是通过批量生成网址功能,对分页参数进行批量生成。 这种处理方式在有多个生成参数的情况,会出现问题,比如一个请求中包含 查询关键词 、分页2个参数,每个关键词...
众鑫采集器2023版内置了3种引擎,浏览器引擎、HTTP 引擎、JSON 引擎。 浏览器引擎,同一般浏览器一样,它会加载、执行JavaScript,在采集一些动态类型、使用Ajax加载数据的网站,必须要使用浏览器引擎。 HTTP 引擎,它直...
采集前执行脚本 这个功能主要针对一些单页应用(需要填写表单、点击等操作,URL不变),比如百度地图(ditu.baidu.com),需要先输入查询关键词,在点击查询,才会出现结果数据。 还有其他一些需要输入筛选条件,比如时间、分类等条件的查...
如何下载图片? 点击添加字段。 鼠标点击网页中的图片,程序自动获取图片地址。(已有字段,选择重新选择元素,然后点击图片) 选择要下载的字段,点击菜单按钮,选择文件下载菜单。 设置文件名和图片的保存路径。。 完成 关于自定义文件名...
一般情况下,我们采集到的网页数据需要进行二次处理,比如替换关键词、移除空白字符、进一步提取、格式转换、HTML标签处理等等。 如何设置?点击字段的菜单按钮,选择数据处理。 然后点击新建 处理步骤。 众鑫采集器提供一下几种处理步骤:...
取值属性 首先,字段通过 XPath 定位查找到 Html 元素,然后我们就需要通过取值属性 来确定 Html 元素的哪个部分来作为字段值。 一般情况下,采集器默认使用 InnerText ...