众鑫采集器图文教程

众鑫采集器是一款万能爬虫软件，它可以实现自定义规则，批量爬取互联网任意网站上面可视数据，比如文字，图片，视频等信息

功能14、分页设置功能

2023-11-19admin阅读(282)评论(0)

分页设置当列表有分页时，启用分页后就可以采集到所有的分页列表数据。网页分页有两种普通分页：存在分页条，并显示有“下一页”按钮，点击后可以进入下一页，如之前的新浪新闻列表里的分页瀑布流分页：网页滚动条拉到底部时会自动加载下一页内容如...

功能13、验证识别

2023-11-19admin阅读(286)评论(0)

验证码检测在采集数据时，在一些网站上采集太多、太快的话，会弹出验证码窗口，通过设置验证码检测，我们可以解决这个问题如何设置？点击地址栏左边的工具图形按钮，点击设置验证码识别即可，进入到验证码设置界面。勾选启动验证码检测 ...

功能12，自定义数据使用方法

2023-11-19admin阅读(279)评论(0)

除了通过采集网页中的数据，程序还提供了自定义数据目前有3种类型的自定义数据：固定文本，直接在文本框中输入固定字符即可。当前URL，返回当前网页的地址。当前时间，返回当前时间，格式为 2011-01-01 00:00:00。...

功能11、使用POST请求采集数据

2023-11-19admin阅读(169)评论(0)

介绍 POST 请求是使用HTTP协议的POST方法进行请求的方式，区别于GET请求，POST请求一般是将参数数据放在POST Body(POST 数据体)中。而GET请求的参数都是放在URL中。前提要使用POST方式进行采集，首先需要...

功能10、JSON数据请求的分页设置

2023-11-19admin阅读(179)评论(0)

JSON数据请求的分页设置在之前的采集器版本中，当我们设置一个JSON请求的分页时，是通过批量生成网址功能，对分页参数进行批量生成。这种处理方式在有多个生成参数的情况，会出现问题，比如一个请求中包含查询关键词、分页2个参数，每个关键词...

功能9：选择数据加载采集引擎

2023-11-19admin阅读(180)评论(0)

众鑫采集器2023版内置了3种引擎，浏览器引擎、HTTP 引擎、JSON 引擎。浏览器引擎，同一般浏览器一样，它会加载、执行JavaScript，在采集一些动态类型、使用Ajax加载数据的网站，必须要使用浏览器引擎。 HTTP 引擎，它直...

功能8、脚本命令

2023-11-19admin阅读(197)评论(0)

采集前执行脚本这个功能主要针对一些单页应用（需要填写表单、点击等操作，URL不变），比如百度地图（ditu.baidu.com）,需要先输入查询关键词，在点击查询，才会出现结果数据。还有其他一些需要输入筛选条件，比如时间、分类等条件的查...

功能七、使用众鑫采集器下载图片文件

2023-11-19admin阅读(203)评论(0)

如何下载图片？点击添加字段。鼠标点击网页中的图片，程序自动获取图片地址。（已有字段，选择重新选择元素，然后点击图片）选择要下载的字段，点击菜单按钮，选择文件下载菜单。设置文件名和图片的保存路径。。完成关于自定义文件名...

功能6、数据处理

2023-11-19admin阅读(159)评论(0)

一般情况下，我们采集到的网页数据需要进行二次处理，比如替换关键词、移除空白字符、进一步提取、格式转换、HTML标签处理等等。如何设置？点击字段的菜单按钮，选择数据处理。然后点击新建处理步骤。众鑫采集器提供一下几种处理步骤：...

功能五、取值属性

2023-11-19admin阅读(183)评论(0)

取值属性首先，字段通过 XPath 定位查找到 Html 元素，然后我们就需要通过取值属性来确定 Html 元素的哪个部分来作为字段值。一般情况下，采集器默认使用 InnerText ...

1
2
下一页
共 2 页