点击【添加】按钮,打开<基本设置界面>,如下图:
图 393 基本设置
报纸名称:将要采集的报纸名称,可自定义。
页面编码:与将要采集的报纸内容页的编码格式一致。
抓取方式:选择自动,则系统计划任务会自动执行抓取数字报内容,选择手动,则需要手动抓取数字报内容。
状态:开启或关闭数字报。
输入完表单内容后,点击【下一步】按钮,打开<抓取规则界面>,如下图:
基本设置
填写将要抓取的数字报基本信息,包括期首页网址规则、发布周期及最新一期的发布日期。如下图:
图 394 基本设置
期首页网址规则:数字报每一期的首页页面网址规则。数字报每一期的首页页面网址规则,使用(Y)(y)(M)(m)(D)(d)来自动生成时间日期信息。若年份是4位,如2012,则用Y代替,若年份是2位,如12,则用y代替。
发布周期:填写报纸发布的周期,以日或月为单位。例如周报为7,日报为1。默认单位为1,如果填写错误,系统将自动过滤无效的日期。
最近一期电子报日期:填写任意一期报纸的发布时间,以便于系统计算起始时间点。
版面列表
设置电子报版面列表范围及版面文章列表网址规则。
图 395 版面列表
范围:获取版面列表所在的区域。版面列表类似下图所示:
图 396 版面列表
版面文章列表网址规则:系统将抓取规范区域内指向到此地址的链接作为版面地址,支持通配符。
版面文章列表
设置版面对应的文章列表范围及文章内容页网址规则。
图 397 版面文章列表
范围:获取版面文章列表所在的区域,版面文章列表类似下图:
图 398 版面文章列表
文章内容页网址规则:系统将抓取范围区域内指向到此地址的链接作为文章页面地址,支持通配符。
内容设置
设置数字报中文章内容范围。
图 399 内容设置
范围:缩小内容页面采集范围,下面的标题、正文、作者等信息需在本区域中。留空将从整个页面采集。
标题:获取文章标题。
正文:获取文章正文。
作者:获取文章作者。
标签保留:系统将只采集此处填写的标签内容。
规则配置完成后,进入<默认选项设置界面>,在此界面设置将要抓取数字报默认版面与CmsTop系统栏目对应关系,设置默认导入的状态,可选择草稿、待审核已发。
默认版面与栏目对应关系
图 400 版面与栏目对应
当勾选上图复选框时,系统自动抓取对应版面下的内容至对应栏目。计划任务只自动抓取勾选了复选框后的版面内容至对应栏目。