横幅广告出租

资源采集[Gather]创建编辑规则教程

小辰 2023-02-13 06:00 其他技术 227

小辰网本次为大家分享的是资源采集[Gather]创建编辑规则教程

登录后台资源采集，会员中心内点击“新增规则”(会员功能)

新增规则页面

“一键获取”可以获取网站信息的设置（失败需要手动填写）

采集设置

输入采集规则名称和规则版本号
补全网址：将网页中的相对地址（不包含域名的网址）转为绝对网址（包含域名）
倒序采集：以相反的顺序采集内容页网址
网址排重：默认会将采集过的内容页不排重处理，排重适用于更新频繁的动态页面
请求头信息：以适应需要登录的、手机浏览的等界面，可分别设置抓取页面和下载图片的请求头信息

采集设置

采集网址

添加需要采集的目标列表页作为抓取入口

点击“添加网址”号可批量添加网址，

采集网址

内容列表

编写提取内容页网址的规则。
选定区域：在内容页的指定区域内提取内容
规则类型正则：支持：(*)（通配符）、正则表达式，使用[内容]（通用匹配），在“拼成网址”中引用[内容N]标签组成结果
规则类型xpath：xpath代码，匹配innerHtml节点
规则类型json：目标是json数组，规则处直接输入键名，子元素用：a.b.c，通配符*可获取同级别节点的所有数据
规则类型自动获取：匹配html a 内的所有链接
必须包含：链接内含有 (*)（通配符）多个用|分割
不能包含：链接内不含 (*)（通配符）多个用|分割

获取内容

添加字段便于发布数据点击“+”自行编写字段规则。
字段名称常用：标题、分类、内容、标签、封面等···
数据来源：默认内容页
获取方式：前后截取、规则匹配、xpath匹配、json提取、自动获取等等··· 还可以从已有字段中提取数据或将多个已有字段组合成新字段。
数据处理：将字段采集到的值进行加工，每个字段都可单独进行数据处理或者使用通用处理。（可移动顺序）
处理功能有：html标签过滤、内容截取、插入内容、正则替换、批量替换、内容过滤、编码解码、工具箱等。

免责声明

本站提供的一切软件、教程和内容信息仅为个人学习测试使用，请在下载后的24个小时之内，从您的电脑或手机中彻底删除上述内容，不得用于任何商业用途，否则后果自负，请支持购买正版软件！如侵犯到您的权益，请及时与我们联系处理。敬请谅解！

请自觉遵守互联网相关的政策法规，严禁发布广告、色情、暴力、反动的言论。发现永久封IP禁止访问！

个人资料

小辰

这个人很懒,什么都没留下.

联系作者百度一下

搜索

分类列表

为您推荐

进网络站长QQ群：428057684（邀请活跃的人进群找我领红包）
2024-04-18

热门标签

最新文章