功能6、数据处理-众鑫企业名录搜索软件_谷歌图数据采集大师_高德地图采集_百度地图采集_360地图采集

一般情况下，我们采集到的网页数据需要进行二次处理，比如替换关键词、移除空白字符、进一步提取、格式转换、HTML标签处理等等。

如何设置？点击字段的菜单按钮，选择数据处理。然后点击新建 处理步骤。

众鑫采集器提供一下几种处理步骤：

文本替换

对字段内容进行查找并替换为指定的字符，支持正则表达式。勾选正则表达式后，右侧.*按钮有常见的正则表达式语法菜单。在替换内容中支持$1 $2这样的分组替换功能。

正则匹配

使用正则表达式对内容进行提取。比如提取一段内容中的数字、日期等数据。默认是从content分组或者第一个分组结果中提取内容，例如，提取数字的表达式就是(\d+)

多条模式：勾选多条模式后，如果匹配到多条结果，程序会将结果使用指定的连接符拼接后返回。
前后缀匹配：通过这个快捷链接，我们可以快速生成一个正则表达式，然后我们可以把前缀、后缀文本替换为指定字符。

清除HTML标签

通过该功能，可以移除掉指定的HTML标签。比如去掉A标签、IMG标签、DIV标签等等。

添加前后缀

对字段内容添加前后缀，组合出一段新的内容。通常用在拼接网址上，比如，当前字段内容为baidu，我们设置前缀为http://www.，后缀为.com，那么返回结果为：http://www.baidu.com

可引用改字段之前的字段值，引用方式{字段名称}（注意：被引用字段的顺序必须在当前字段之前）。

字符转码

包含了常见的HTMLEncode,HTMLDecode,UrlEncode,UrlDecode,JSEncode,JSDecode, Base64等转码形式。

ToDate 为新增类型，可以转换时间戳为指定时间格式，可以从内容中提取去日期，并且格式化。
HTMLToUBB 将HTML格式转换为UBB代码（一种论坛格式代码）
HTMLToPlainText 将HTML代码转换为文本格式，并且保留格式（p、br、li等块标签替换为换行）

执行JavaScript

运行一段JavaScript代码，可以做一些复杂的数据处理，比如运算、字符串操作。可以引用其他字段值。

执行C#代码

通过 C# 代码对当前字段内容进行处理。函数参考： string Run(string content) ，其中content参数为当前字段的内容，返回值为处理后的结果，字符串类型。

比如 return content.Length.ToString() ，结果是当前字符串的长度。

正文提取

通过正文提取算法，将页面中的正文和标题自动识别并提取，适用于一般的新闻、文章页面。可以选择提取标题或者正文，以及是否提取A标签、图片标签

字符映射

对字段内容进行批量替换。应用场景，将目标网站的分类、栏目映射为自己网站的分类。比如把a,b,c 映射为1,2,3。输入格式一行一条，查找和替换值之间用英文逗号分隔。

格式参考：

a,1
b,2
c,3

HTTP请求

可以构造一个HTTP请求（支持POST，可以引用其他字段值)，并将请求的响应作为处理结果。

功能6、数据处理

文本替换

正则匹配

清除HTML标签

添加前后缀

字符转码

执行JavaScript

执行C#代码

正文提取

字符映射

HTTP请求

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

admin

热门文章

相关推荐

评论抢沙发

众鑫企业名录搜索软件

回顶部

QQ咨询

0377-60360178

关注微信

回顶部

订单信息（价格单位：积分）

收货信息商店（虚拟商品除邮箱外可不填）

文本替换

正则匹配

清除HTML标签

添加前后缀

字符转码

执行JavaScript

执行C#代码

正文提取

字符映射

HTTP请求

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

admin

热门文章

相关推荐

评论 抢沙发

众鑫企业名录搜索软件

回顶部

QQ咨询

0377-60360178

关注微信

回顶部

订单信息（价格单位：积分）

收货信息商店（虚拟商品除邮箱外可不填）

评论抢沙发