小辰网:致力于活动 / 软件 / 教程及各种源码分享资源站最稳定的资源站
横幅广告出租
当前位置:首页 > 技巧分享 > 其他技术

资源采集[Gather]创建编辑规则教程

小辰 其他技术 227

小辰网本次为大家分享的是资源采集[Gather]创建编辑规则教程


登录后台资源采集,会员中心内点击“新增规则”(会员功能)

新增规则页面

  • “一键获取”可以获取网站信息的设置(失败需要手动填写)

采集设置

  • 输入采集规则名称和规则版本号
  • 补全网址:将网页中的相对地址(不包含域名的网址)转为绝对网址(包含域名)
  • 倒序采集:以相反的顺序采集内容页网址
  • 网址排重:默认会将采集过的内容页不排重处理,排重适用于更新频繁的动态页面
  • 请求头信息:以适应需要登录的、手机浏览的等界面,可分别设置抓取页面和下载图片的请求头信息

采集设置

采集网址

添加需要采集的目标列表页作为抓取入口

点击“添加网址”号可批量添加网址,

采集网址

内容列表

  • 编写提取内容页网址的规则。
  • 选定区域:在内容页的指定区域内提取内容
  • 规则类型正则:支持:(*)(通配符)、正则表达式,使用[内容](通用匹配),在“拼成网址”中引用[内容N]标签组成结果
  • 规则类型xpath:xpath代码,匹配innerHtml节点
  • 规则类型json:目标是json数组,规则处直接输入键名,子元素用:a.b.c,通配符*可获取同级别节点的所有数据
  • 规则类型自动获取:匹配html a 内的所有链接
  • 必须包含:链接内含有 (*)(通配符) 多个用|分割
  • 不能包含:链接内不含 (*)(通配符) 多个用|分割
    内容列表

获取内容

  • 添加字段便于发布数据 点击“+”自行编写字段规则。
  • 字段名称常用:标题、分类、内容、标签、封面等···
  • 数据来源:默认内容页
  • 获取方式:前后截取、规则匹配、xpath匹配、json提取、自动获取等等··· 还可以从已有字段中提取数据或将多个已有字段组合成新字段。
  • 数据处理:将字段采集到的值进行加工,每个字段都可单独进行数据处理或者使用通用处理。(可移动顺序)
  • 处理功能有:html标签过滤、内容截取、插入内容、正则替换、批量替换、内容过滤、编码解码、工具箱等。
    获取内容
    协助本站SEO优化一下,谢谢!
    关键词不能为空

免责声明

本站提供的一切软件、教程和内容信息仅为个人学习测试使用,请在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容,不得用于任何商业用途,否则后果自负,请支持购买正版软件!如侵犯到您的权益,请及时与我们联系处理。敬请谅解!

请自觉遵守互联网相关的政策法规,严禁发布广告、色情、暴力、反动的言论。发现永久封IP禁止访问!