文章的采集功能是通过程序来远程获取目标网页内容,经过本地规则解析处理后存储到服务器的数据库内。CmsTop文章采集系统颠覆传统采集模式和流程,采集规则与采集界面分离,规则设置更简单,只需有基础网页设计知识的人员设置好相关规则。编辑人员无需了解太过细节的技术规则,只需选中自己想要采集的文章列表,就可以像发布文章一样,轻松地完成采集操作,提升工作效率,降低人力成本。
1. 高效地采集管理界面
自定义配置的所有采集规则都会在采集管理界面呈现出来,并且能够根据采集更新的频率查找出最新文章,系统通过最新、已查看、已采集标示出文章所处的状态。采集过的文章会在采集列表自动消失,进入已采集列表,不会重复采集。同时还可以根据已设置好的采集规则,通过快速输入网址的方式针对性的采集某篇文章内容。
图 5.24‑1采集界面
管理人员可以通过采集管理界面预览将要采集的内容,然后选择性地对需要的文章进行采集,任务添加方便,允许自定义目标栏目。
图 5.24‑2文章采集预览
图 5.24‑3编辑监控任务
图 5.24‑4自定义目标栏目
2. 方便而简洁的采集规则配置
对于需要采集功能的网站来说,简洁而方便的规则配置是易用性的体现。技术人员只需要基本的网页知识就可以随心地去写采集规则。在写规则的同时,可以实时地显示出采集的内容是否正确。通过此功能可以方便地测试出内容的可用性。另外对一些细节的采集设置也提供了良好的支持,如可以采集分页内容、设置是否远程图片本地化等。
图 5.24‑5采集规则设置
3. 采集规则导入导出
对于已经写好的采集规则,系统会自动添加到规则列表中,以备以后使用。每一规则都可以重复利用,并且可根据需求做出修改。同时,您还可以将自己设置的采集规则导出为XML文件,共享给其他人使用或者导入别人共享的规则。
图 5.24‑6规则导入
4. 支持文章定时采集
系统内置采集功能,可手动按条选择采集,也可设置定时采集。提供定时采集任务开关,通过设置采集间隔、采集条数以及下次采集时间可实现系统自采,无需手工干预,节省人力资源。面对系统自动完成的操作,管理员查看系统工作日志是不可缺少的一环,系统添加定时采集日志功能菜单,可以看到特定时间段内采集成功条数、失败条数。还可以一键清理采集日志。
5. 支持过滤重复标题
采集过程中标题重复是让采集人员头疼的一个问题,不论是人工采集,还是自动采集,都无法避免该问题。提供过滤重复标题开关,采集人员可随时开启和关闭过滤功能。通过过滤重复标题功能可以重复的标题直接过滤到不再显示在采集列表中,从而杜绝重复内容的采集。