小辰网本次为大家分享的是资源采集[Gather]创建编辑规则教程
登录后台资源采集,会员中心内点击“新增规则”(会员功能)
新增规则页面
- “一键获取”可以获取网站信息的设置(失败需要手动填写)
采集设置
- 输入采集规则名称和规则版本号
- 补全网址:将网页中的相对地址(不包含域名的网址)转为绝对网址(包含域名)
- 倒序采集:以相反的顺序采集内容页网址
- 网址排重:默认会将采集过的内容页不排重处理,排重适用于更新频繁的动态页面
- 请求头信息:以适应需要登录的、手机浏览的等界面,可分别设置抓取页面和下载图片的请求头信息
采集网址
添加需要采集的目标列表页作为抓取入口
点击“添加网址”号可批量添加网址,
内容列表
- 编写提取内容页网址的规则。
- 选定区域:在内容页的指定区域内提取内容
- 规则类型正则:支持:(*)(通配符)、正则表达式,使用[内容](通用匹配),在“拼成网址”中引用[内容N]标签组成结果
- 规则类型xpath:xpath代码,匹配innerHtml节点
- 规则类型json:目标是json数组,规则处直接输入键名,子元素用:a.b.c,通配符*可获取同级别节点的所有数据
- 规则类型自动获取:匹配html a 内的所有链接
- 必须包含:链接内含有 (*)(通配符) 多个用|分割
- 不能包含:链接内不含 (*)(通配符) 多个用|分割
获取内容
- 添加字段便于发布数据 点击“+”自行编写字段规则。
- 字段名称常用:标题、分类、内容、标签、封面等···
- 数据来源:默认内容页
- 获取方式:前后截取、规则匹配、xpath匹配、json提取、自动获取等等··· 还可以从已有字段中提取数据或将多个已有字段组合成新字段。
- 数据处理:将字段采集到的值进行加工,每个字段都可单独进行数据处理或者使用通用处理。(可移动顺序)
- 处理功能有:html标签过滤、内容截取、插入内容、正则替换、批量替换、内容过滤、编码解码、工具箱等。