本软件采集功能采用创想软件独家研发的全新一代采集引擎,支持队列采集、按顺序自动采集。支持多线程同步采集,采集和处理速度快。本教程将介绍有关本软件采集的一些注意事项和功能说明
通过上节已经介绍了如何提交网址进行采集,现在我们将介绍如何查看采集状态和进行管理。
状态管理和查看
本软件实时显示采集状态,你也可以随时管理采集队列运行、支持停止任务、暂停任务的功能。
停止所有任务:停止后所有任务都会关闭并不采集。
暂停所有任务:可以一键暂停所有正在采集中的任务,使所有任务都被挂起,挂起后可随时恢复采集。注意:暂停一个任务会卡住当前的队列,导致后续任务也无法继续采集一直被暂停。
引擎关闭开关:引擎关闭后,会导致所有采集任务都被停止(关闭引擎也会导致正在采集中的任务被停止,后续页面不会被采集)
浏览采集窗口介绍
浏览采集窗口单独进行介绍。此窗口采集过程中请不要进行任何操作,此窗口中内置了CHROME内核浏览器,大部分数据采集都通过此浏览器进行提交请求并获取采集数据。
因此您需要注意的是:淘宝、速卖通等站点采集时会要求登录账户后才能采集,因此我们建议您先预登陆,防止采集过程中出差错。
如下图操作即可预登陆
输入要登录或设置状态的网址
在网站中登录即可。
下次采集这个登录状态会一直存在,无需设置。除非网站退出了您的登录状态。
采集问题解决
有时候采集时会遇到屏蔽问题、登录问题等,遇到此问题软件会自动弹出实时采集窗口,提示用户解决采集过程中的问题。待用户解决了采集问题即可继续采集。过程如下图
例如采集淘宝平台时,采集部分页面需要登录账户,采集过程中,若软件检测到需要登录的情况,则会暂停采集,并弹出实时采集窗口,如下图
按网页提示登录淘宝账号成功之后,点击左上角的“继续进行采集”按钮进行采集,如果不点击此按钮将无法继续进行采集,通过此方式即可保证采集稳定可靠。点击此按钮之后,软件会自动重试进行采集,防止数据丢失。
包括屏蔽时需要验证码的情况,软件也会弹窗提示。您只需要按网页上的提示解决屏蔽等采集阻碍后,点击继续进行采集按钮即可继续。
采集过程中出现问题,您也可以查看此窗口获取信息。
(也有一些站点采集本软件没有使用浏览器采集,上述方法可能无效,这些站点本软件会推出特定的工具进行解决,请查看其他教程)
查看采集日志
采集过程中软件会实时输出采集日志和状态说明,出现采集问题您可以查看采集日志了解采集中遇到的问题。
后续还会推出更多采集功能,本教程将会进行补充