在信息化进程加速发展的今天,速度已经成为新媒体的代名词。如何快速的进行数据采集和抓取也成为新媒体十分重视的问题。CmsTop除了提供批量采集和单篇采集(一键转载)功能外,还内置了数字报抓取功能,帮助媒体报社从互联网的数字报迅速高效的抓取内容。
图 5.37‑1 数字报导入
1. 支持常见数字报系统内容同步抓取和发布
2. 支持手动/自动抓取两种方式
当设置自动抓取后,数字报内容的抓取就会按照计划任务自动执行。当设置手动抓取后可进入数字报采集管理界面手动采集。当然如果设置自动抓取仍然可以进入数字报采集管理界面手动采集。
3. 抓取界面三个功能区展示在同一个页面,体现人性化设计
三个功能区分别为版面列表、内容列表和已选择列表。可以使采集人员一目了然的看到目前采集状态。在内容列表分为最新、已查看和已抓取三个选项卡,自动记录已抓取内容。
图 5.37‑2 抓取界面
4. 提供日历查询,可同时采集不同期的报纸内容
采集人员可根据日历抓取当天及之前任何一期的报纸内容。同时添加不同期的内容至采集列表一键采集。支持多标签页同时工作,当采集的过程中,还可以在CmsTop做其他的工作。
5. 支持一键导入本期全部文章
除了计划任务自动抓取数字报内容外,还提供一键导入本期全部文章。任意时刻手动执行本期文章的一次性导入。
图 5.37‑3 一键导入本期全部内容
6. 支持采集状态任意切换。
支持内容一键采集到草稿、待审和已发,可以先将所需内容采集到系统草稿或者待审。
7. 支持默认导入栏目和默认导入状态设置
不论是手动抓取还是计划任务自动抓取都可设置默认导入栏目,不仅可以设置全局,还可以针对每一个版面单独设置对应栏目。
图 5.37‑4 默认版面与栏目对应关系
针对每份数字报设置默认采集状态。
图 5.37‑5 默认导入状态
8. 支持导入/导出xml文件
可以将已配置数字报规则随时导出备份,也可以将已写好的xml规则文件导入,一劳永逸。
图 5.37‑6 导入/导出数字报