添加规则

点击【添加】按钮,打开<基本设置界面>,如下图:

393 基本设置

报纸名称:将要采集的报纸名称,可自定义。

页面编码:与将要采集的报纸内容页的编码格式一致。

抓取方式:选择自动,则系统计划任务会自动执行抓取数字报内容,选择手动,则需要手动抓取数字报内容。

状态:开启或关闭数字报。

输入完表单内容后,点击【下一步】按钮,打开<抓取规则界面>,如下图:

基本设置

填写将要抓取的数字报基本信息,包括期首页网址规则、发布周期及最新一期的发布日期。如下图:

394 基本设置

期首页网址规则:数字报每一期的首页页面网址规则。数字报每一期的首页页面网址规则,使用(Y)(y)(M)(m)(D)(d)来自动生成时间日期信息。若年份是4位,如2012,则用Y代替,若年份是2位,如12,则用y代替。

发布周期:填写报纸发布的周期,以日或月为单位。例如周报为7,日报为1。默认单位为1,如果填写错误,系统将自动过滤无效的日期。

最近一期电子报日期:填写任意一期报纸的发布时间,以便于系统计算起始时间点。

版面列表

设置电子报版面列表范围及版面文章列表网址规则。

395 版面列表

范围:获取版面列表所在的区域。版面列表类似下图所示:

396 版面列表

版面文章列表网址规则:系统将抓取规范区域内指向到此地址的链接作为版面地址,支持通配符。

版面文章列表

设置版面对应的文章列表范围及文章内容页网址规则。

397 版面文章列表

范围:获取版面文章列表所在的区域,版面文章列表类似下图:

398 版面文章列表

文章内容页网址规则:系统将抓取范围区域内指向到此地址的链接作为文章页面地址,支持通配符。

内容设置

设置数字报中文章内容范围。

399 内容设置

范围:缩小内容页面采集范围,下面的标题、正文、作者等信息需在本区域中。留空将从整个页面采集。

标题:获取文章标题。

正文:获取文章正文。

作者:获取文章作者。

标签保留:系统将只采集此处填写的标签内容。

规则配置完成后,进入<默认选项设置界面>,在此界面设置将要抓取数字报默认版面与CmsTop系统栏目对应关系,设置默认导入的状态,可选择草稿、待审核已发。

默认版面与栏目对应关系

400 版面与栏目对应

当勾选上图复选框时,系统自动抓取对应版面下的内容至对应栏目。计划任务只自动抓取勾选了复选框后的版面内容至对应栏目。



Copyright ©2009 - 2013CmsTop.Com.All rights reserved.
思拓合众