管理规则

点击<左侧主菜单区>[文章采集][管理规则],进入<管理规则界面>,如图:

368 管理规则

在此可对规则进行添加、修改、删除等常规操作,下面对添加规则做详细介绍,修改规则和添加规则相似。

添加规则

点击上图【添加】按钮,或者点击<左侧主菜单区>[文章采集][添加规则],进入<添加规则界面>

基本设置

369 基本设置示例

所属网站:规则应对应于某个网站,方便管理(点击右侧 [添加] 链接可快速添加网站)。

规则名:为规则起一个便于标识的名称。

规则匹配:要采集的网址规则,支持通配符(*),如:http://news.163.com/(*)

列表所在页测试网址:指定一个真实网址用来测试规则,如:http://news.163.com/guonei/,这个网址需要匹配上面的规则,可点击右侧【测试以上规则】按钮来测试是否填写正确。

页面编码:要采集页面的编码,系统可对采集的内容自动转码。

备注:规则备注信息。

温馨提示:在添加规则时,可同时将测试用的采集网址添加到采集任务中,这适用于首次添加规则时,可一并建立对应的采集任务,如图:

370 添加测试网址到采集任务

任务名称:将显示在任务列表中,来标识任务。

栏目:采集的内容默认发布在哪个栏目下。

频率:采集任务更新频率。

列表设置

列表设置是对采集任务如何获得内容链接列表所做的设置,通常内容列表都是放在某个divul里面,并且相同区域的内容链接结构大致一致。

371 列表设置示例

范围:限定采集任务获取列表的html代码范围,这能有效提高采集精度和效率。不填则会在整个页面范围内的链接中匹配。

内容网址规则:采集任务用来确认需要获取的内容网址。这些网址必须具有一定的规则性,如:http://news.163.com/10/0628/02/6A7ULS5G00014AED.html,这就可以抽象为:http://news.163.com/(*)/(*)/(*)/(*).html

条数限制:默认采集多少条内容。

下一页链接:下一页链接范围,通过下一页链接抓取更多分页列表。填写的内容分别是链接url的前一部分、后一部分。

内容测试规则:内容真实URL,如:

http://tech.163.com/10/0628/09/6A8MQ2EQ000915BF.html,方便下面的内容设置。

填写完成后,可点击【获取列表测试】来验证正确与否,如图:

372 获取列表测试

正确无误后,进行下一步设置。

内容设置

这部分设置确定采集任务如何从网页中获取需要的内容字段,如文章标题、内容、作者、来源等。

373 内容设置示例

范围:限定所有内容字段获取的代码范围,不限定则从整个页面范围中获取(建议限制)。

标题:标题所在代码位置。

正文:正文部分所在代码位置。

分页:如果内容页分页,则需指定分页部分代码位置。

作者、来源、发布时间:其他内容所需字段所在代码位置。

标签保留:除了这里指定的html标签,其余html标签一律被去除。多个标签请使用半角逗号(英文逗号)分隔。

内容替换:需要替换掉的内容代码,点击右侧[添加]链接可添加多处替换。

填写完成后,可点击下方【获取内容测试】按钮测试是否填写正确,如图:

374 获取内容测试

确认无误后,点击【保存】按钮,完成规则添加。



Copyright ©2009 - 2013CmsTop.Com.All rights reserved.
思拓合众