点击<左侧主菜单区>的[文章采集]→[管理规则],进入<管理规则界面>,如图:
图 368 管理规则
在此可对规则进行添加、修改、删除等常规操作,下面对添加规则做详细介绍,修改规则和添加规则相似。
添加规则
点击上图【添加】按钮,或者点击<左侧主菜单区>的[文章采集]→[添加规则],进入<添加规则界面>。
基本设置
图 369 基本设置示例
所属网站:规则应对应于某个网站,方便管理(点击右侧 [添加] 链接可快速添加网站)。
规则名:为规则起一个便于标识的名称。
规则匹配:要采集的网址规则,支持通配符(*),如:http://news.163.com/(*)。
列表所在页测试网址:指定一个真实网址用来测试规则,如:http://news.163.com/guonei/,这个网址需要匹配上面的规则,可点击右侧【测试以上规则】按钮来测试是否填写正确。
页面编码:要采集页面的编码,系统可对采集的内容自动转码。
备注:规则备注信息。
温馨提示:在添加规则时,可同时将测试用的采集网址添加到采集任务中,这适用于首次添加规则时,可一并建立对应的采集任务,如图:
图 370 添加测试网址到采集任务
任务名称:将显示在任务列表中,来标识任务。
栏目:采集的内容默认发布在哪个栏目下。
频率:采集任务更新频率。
列表设置
列表设置是对采集任务如何获得内容链接列表所做的设置,通常内容列表都是放在某个div或ul里面,并且相同区域的内容链接结构大致一致。
图 371 列表设置示例
范围:限定采集任务获取列表的html代码范围,这能有效提高采集精度和效率。不填则会在整个页面范围内的链接中匹配。
内容网址规则:采集任务用来确认需要获取的内容网址。这些网址必须具有一定的规则性,如:http://news.163.com/10/0628/02/6A7ULS5G00014AED.html,这就可以抽象为:http://news.163.com/(*)/(*)/(*)/(*).html。
条数限制:默认采集多少条内容。
下一页链接:下一页链接范围,通过下一页链接抓取更多分页列表。填写的内容分别是链接url的前一部分、后一部分。
内容测试规则:内容真实URL,如:
http://tech.163.com/10/0628/09/6A8MQ2EQ000915BF.html,方便下面的内容设置。
填写完成后,可点击【获取列表测试】来验证正确与否,如图:
图 372 获取列表测试
正确无误后,进行下一步设置。
内容设置
这部分设置确定采集任务如何从网页中获取需要的内容字段,如文章标题、内容、作者、来源等。
图 373 内容设置示例
范围:限定所有内容字段获取的代码范围,不限定则从整个页面范围中获取(建议限制)。
标题:标题所在代码位置。
正文:正文部分所在代码位置。
分页:如果内容页分页,则需指定分页部分代码位置。
作者、来源、发布时间:其他内容所需字段所在代码位置。
标签保留:除了这里指定的html标签,其余html标签一律被去除。多个标签请使用半角逗号(英文逗号)分隔。
内容替换:需要替换掉的内容代码,点击右侧[添加]链接可添加多处替换。
填写完成后,可点击下方【获取内容测试】按钮测试是否填写正确,如图:
图 374 获取内容测试
确认无误后,点击【保存】按钮,完成规则添加。