【进阶】有关采集器采集速度提升办法和采集速度解释

热度 36,468 | 2017-05-01 03:32:31

By | 2017年5月1日

我想快点解决问题

😆如果看不懂或没时间看,没关系!您可以点击这里,使用诊断器或根据列出的说明排逐一排查,也可以自己排查,点这里

🙄不过还是建议您花几分钟了解教程,了解原理解决问题更顺手~

为什么会采集很慢?

采集软件原理和浏览器差不多,采集过程为: 访问要采集的网址 》 下载网页 》 引擎解析 》 呈现数据 》 导出数据 。

采集过程中最容易影响速度的环节是 “下载网页数据”,因为亚马逊除中国站服务器均在海外,但是从中国访问海外服务器尤其是美国、欧洲等站点速度有时候非常慢,因为距离太远、并且这些站点本就不是主要面向中国地区访问的,没有对中国线路进行优化,采集速度时快时慢。这就好比玩外服游戏,需要使用游戏加速器一个道理,因此采集要想提高下载速度,只能使用代理工具进行加速、使用美国VPS采集美国站亚马逊、使用欧洲VPS采集欧洲站等方法来提高采集速度。

若您电脑配置低、开多线程会占用大量CPU性能时,就会造成解析过慢,解析慢一般是电脑配置问题,您可能需要升级电脑配置来解决。正常本软件配置要求不高,大部分电脑都能正常采集。若您使用多线程采集或多开采集,建议您根据电脑实际情况来采集,避免占用过多性能,导致电脑卡死。

您可以通过下文【调试采集速度】介绍来获取速度慢的原因。解决采集慢的问题。

默认出厂是没有设置采集限速的,所有数据直连亚马逊服务器获取,采集时不会连接我们的服务器获取数据,因此采集速度受限于您电脑网络访问亚马逊的速度!采集慢按教程解决,为了节约您的时间,请勿再重复咨询客服相同的问题。

 

找出采集慢的原因

如下图,您可以查看软件底部的状态,左下角会显示网络请求状态,右边会显示当前正在采集什么项目。您可以通过这里了解到软件正在采集的数据,采集卡在哪一步骤,便于您调试解决速度问题。

网络请求状态提示:

网速慢:如果您一般卡在正在下载、或正在向亚马逊请求数据的状态,则代表连接到亚马逊服务器速度过慢,即为下载速度过慢。

解析慢:如果您一般卡在下载完成,等待数据显示时,即为程序处理过慢。

采集状态提示:

显示当前采集状态,通过此信息可以了解到哪些项目采集时耗时比较长,知道了原因后,可以根据您的实际情况来解决。

比如,采集状态提示正在下载 某个ASIN的变体详细信息,每次都需要5-10秒才采集完变体详情,那么如果您正好不需要变体价格等信息,则关掉采集变体详细信息就会提高采集速度。

 

 

使用诊断器寻找原因

20240001及以上版本新增了 采集问题诊断工具,可以一键检查采集速度、采集问题、给出采集速度优化建议等,让您省去排查设置的烦恼。

如下图可进入采集诊断器:

点击【开始诊断】即可,绿色图标为健康,如果是黄色叹号则为警告,蓝色叹号为提示(建议项),诊断完成后,点击项目就可以查看建议说明信息,您只需根据提示信息来检查问题即可~

 

 

排查解决采集慢的问题

 

1.解决网络过慢

我们采集时所说的网速慢指的是您访问亚马逊的速度,不是您100M宽带还是1000M的问题,因为亚马逊服务器在国外,访问速度并不稳定,访问亚马逊的速度受制于很多情况,不是您宽带够大就访问够快!

采集亚马逊日本站很慢

如果您是采集日本亚马逊:由于日本亚马逊站的特殊性,政策原因大陆地区无法访问,所以采集日本亚马逊站必须要梯子代理(VPN),因此采集速度受限于您的代理(VPN)的连接速度,本软件采集时,会先访问您的代理,您的代理再访问日本亚马逊站,然后代理再把访问到的网页数据返回给采集软件,这中间代理如果速度慢了就会影响到采集速度,因此如果速度慢,请检查您的代理连接速度是否够快。了解更多

提高下载速度参考

排序越靠前代表效果越好,以下说明很全了,请您仔细查阅检查。

    1. 【优化设置】使用多线程采集、异步采集,可大幅提高采集速度
      如果您是旗舰版授权,可以在【系统设置】中【采集速度】中打开“异步采集”,设置采集详情线程数2-10,可大幅提高采集速度。具体多线程使用效果和介绍请点击这里
    2. 【优化设置】采集时下载图片导致影响采集速度
      由于下载图片会占用较多网络资源和采集速度,有两种方法下载快速图片:
      采集时下载图片:建议使用图片下载多线程。在【系统设置】下【采集速度】中设置【采集时下载图片线程数】,建议3-6个线程之间。设置后采集时图片将同步下载多张图,提高下载速度。具体点击这里了解

      采集完再下载图片:我们也建议您采集完再统一使用图片下载器来下载图片,可大大提高图片下载速度,采集完数据后,在【应用大全】中打开【图片批量下载工具】后,点击【开始下载】即可下载图片。具体点击这里了解
    3. 【优化设置】采集详细信息时卡住了
      如果您采集详细信息时,状态栏显示“正在向亚马逊请求数据…”状态时,代表程序正在连接Amazon获取数据,有时候网络中断、网络异常、访问Amazon不稳定时会卡住,遇到此情况,您可以点击【停止】按钮,先停止任务,再点击【手动采集列表详细信息】按钮尝试继续采集,可解决一直卡住无法采集的问题。建议在【系统设置】里设置超时时间为25-60,避免长时间停住
    4. 【优化设置】关掉一些非必要的采集项目,降低网络IO
      大部分用户初次使用软件时,无论需不需要,把很多采集项目都勾上采集,这是非常错误的。
      您应该根据您的需要来开启采集功能。除上一条介绍的采集变体详情外,采集reviews评论项、offer跟卖卖家项、offer跟卖最低价、问答项、关联商品、卖家信息、采集时下载图片等,这些项目都需要访问网络,就会产生网络IO开销,因此尽可能的关闭掉这些需要访问网络的采集项,可以提高采集速度。
      您可以在软件主界面点击【系统设置】【个性化】【管理采集字段】里关掉不需要采集的字段列。您不需要的字段列尽量不要开启,否则极易导致采集速度过慢。过多的字段还容易导致采集软件内存不足,崩溃等情况!
    5. 【使用代理】使用VPN或HTTP代理代理采集提高速度
      利用代理,可解决采集下载速度慢的根本问题。本软件支持HTTP代理(大部分VPN其实也是HTTP代理,VPN软件里可以找到HTTP代理的连接IP信息)和VPN全局代理。但使用代理时,务必保证您的代理访问Amazon速度够快,否则依然无法起到加速的目的,甚至有些代理不稳定,总是掉线,导致采集软件一直卡顿采集不稳定,这一点请注意一下!
      使用VPN代理软件:请开启全局代理模式,如果没有全局代理模式,请在软件的【系统设置】打开【自动连接系统代理】功能再采集,如果还连不上请将VPN的代理IP手动复制到软件里。
      使用HTTP代理:将您的代理的IP和端口号等信息填写到软件【HTTP代理池】中并开启总开关,即可采集时使用您配置的代理IP来采集。具体HTTP代理设置点击这里
    6. 【置于海外】采集日本站,导致一直采集卡住不动
      日本站比较特殊,必须要代理,代理的网络速度直接影响采集速度,具体请点击这里了解
    7. 【优化设置】开启采集缓存 已采集过的网页不再重复采集
      我们提供了采集缓存功能,比如可以设置过期时间为3小时,在3小时内采集到同一个网页(根据网址来判断是否相同)时,只有第一次会访问亚马逊,其余访问都从电脑读取,避免了重复商品多次采集的问题,使用采集缓存适用于采集数据中有重复项、或者需要相同商品短时间多次采集的情况。设置方法点击这里查看
    8. 【优化设置】采集变体详情导致采集过慢
      采集变体详情会请求每个变体的价格等信息,开启后,如果某个商品变体过多时,大幅降低采集速度。如果您是【旗舰版】授权用户,您可以使用多线程模式采集变体详情:在【系统设置】下【采集速度】中勾选 【采集变体详情启动多线程采集】,并设置线程数5-10之间,即可大幅提高采集速度。详细请点击这里
    9. 【优化设置】检查您配置的HTTP代理是否有效
      若您配置了HTTP代理,但是代理软件没有打开或设置的代理IP连不上了,软件会一直尝试重复连接代理,消耗时间,导致软件一直卡住,因此没使用代理时或代理软件无法连接时(例如蓝灯这种代理,经常灰色图标连不上),请您在【HTTP代理池】中关闭HTTP代理。并关闭【系统设置】里【自动连接系统代理】功能,防止连接到系统的代理上。
    10. 【优化设置】检查您的VPN软件是否可用,是否可以连接,HTTP代理是否配置正确。
      如果您开了VPN代理软件或连接了VPN通道,请检查您的代理能否连接,能否访问Amazon。例如强制关闭VPN软件后,导致系统网络出现异常。由于VPN代理出现异常,采集软件采集时会一直尝试连接,导致获取不到数据或采集一直卡住,采集很慢,因此请检查您的VPN代理是否出问题。
      如果不想让本软件连接系统代理,请在【系统设置】关闭【自动连接系统代理】选项,避免采集软件连接到系统错误的代理上。(如果您的VPN代理是全局代理,关了此功能不一定有效,请检查您的VPN是否可用,只要保证VPN能访问Amazon即可)
    11. 【优化设置】检查您的采集网络模式
      在【系统设置】,【网络设置】中,修改网络模式。
      WinHttp模式:此为本软件默认的网络接口,从软件发布至今一直作为默认值,如果采集访问网络时没有经常卡住,建议使用此模式采集即可。
      CxHttp模式:使用CURLAPI接口进行网络访问,为创想软件整合开发而成,此项采集时不容易卡住、网络稳定性好,有自动纠错的能力。采集总是卡住建议您切换成此模式进行采集。(由于此模式稳定性还需要测试,因此没有作为出厂默认值)
      WinInet模式:采集没问题时,不建议使用此模式,超时功能不稳定,容易卡住,经常采集卡顿出问题都是使用此模式导致。
      补充:采集时,软件左下角,状态文本上有“*”,则代表使用wininet模式。如果是“X”,则代表使用cxhttp模式。
      默认出厂时,【系统设置】的【采集失败时,自动切换网络模式】是打开的,因此如果采集失败,软件会自动换网络模式采集,由于上述WinInet模式稳定性一般,经常卡在此模式上,导致采集总是出问题,您可以考虑关闭此项,并选择一个稳定的网络模式进行采集尝试解决。
      有关此模式其他问题,您可以联系技术客服咨询。
    12. 【优化设置】系统设置中,设置网络超时,不要设置0,建议设置为15-30之间。
      如果您没有调节超时时间,则无需设置,软件默认情况下已设置到理想值。如果设置0,会因为网络卡住一直等待导致采集很慢。
    13. 【置于海外】将软件部署到海外的VPS主机上
      此种方法等于直接用国外的电脑采集数据,速度上比较稳定。
    14. 【置于海外】购买多个采集器部署到多个电脑或VPS上进行采集
      将采集业务分开到多个VPS或电脑上,可提高采集速度。(本软件不适合分布式、大规模的爬虫,本软件适合日常数据整理、铺货等轻量化数据需求)
    15. 【彻底解决】谷歌Chrome浏览器访问亚马逊速度很快
      本软件已经内置了Chrome浏览器插件采集模式,如果你Chrome浏览器访问亚马逊速度很稳定,您可以在【系统设置】打开【使用谷歌Chrome浏览器采集】选项,稍等片刻,软件连上Chrome浏览器后,您再采集数据。只要保证您的Chrome浏览器能正常访问亚马逊,软件就能正常采集。此方法可以作为终极解决手段,因为如果您谷歌Chrome浏览器也无法正常访问亚马逊时,代表您的系统网络有异常!请尝试换IP解决。具体操作请查看此处
    16. 【优化设置】一台电脑开多个采集器同时进行采集,但此方法容易被采集屏蔽
      注意:多开请复制多份软件分别打开,并保证数据目录分别进行设置避免数据冲突
    17. 【优化设置】频繁屏蔽导致验证码弹窗、自动暂停影响了采集速度
      尝试使用其他方法解除屏蔽,具体请看解除屏蔽的相关教程
    18. 【优化设置】纯粹您的网速慢问题,例如被宽带速率过低、路由器或其他上网设备过热、网络设备问题、被其他防火墙等软件限速等情况也会导致下载速度过慢
      此问题请联系您的网络管理员或联系电信运营商解决

 

总结:针对网络问题,请先按上述方法排查解决设置问题,如果还是不行,目前您只能通过使用代理来解决(前提是代理必须稳定)。如需其他帮助请联系客服,受限于我们的能力,仅能帮你解决软件层面的问题,如果是网络问题您需要自己配置代理。

 

2.解决解析过慢

一般处理速度过慢,表现为数据下载完成,刷新到表格中过慢,加载过慢或处理过慢。此种问题一般是开启了容易拖慢采集处理速度的功能所致,当然也有可能是本身电脑配置较低造成。

对于处理过慢,我们将现版本20177791的会造成下载过慢的功能进行解析,便于您查找影响采集器处理数据速度的问题。

采集器处理速度一般和CPU速度内存速度有关,建议配置为:双核2GHZ或以上,4GB可用内存,推荐配置为双核2.5GHZ或以上,8GB可用内存.本软件对windows server系列系统兼容性不佳容易闪退

提高软件处理速度参考

越靠前代表影响处理速度越明显

    1. 确保使用新版
      使用最新版本是采集速度的保证,我们一直在优化算法、采集模型,因此请确保使用最新版软件。
    2. 【常见】开启了很多不需要采集的字段(列)数据
      在【系统设置】->【个性化】->【管理采集字段】中可以关闭掉一些不需要的字段。比如你不需要采集“重量”,那请关掉重量字段。本软件中有些字段采集比较复杂,算法也比较复杂,因此尽可能关闭不需要的字段能大幅提高软件处理速度。
    3. 设置大量的过滤词(过万条),配置了复杂的过滤条件。
      削减您的过滤词,过多也容易造成软件崩溃。您也可以采集完,统一使用条件删除器进行过滤。本软件不支持大量的过滤词进行过滤。
    4. 设置记录已采集过的ASIN到黑名单的功能,随着时间的推移,若未及时清空这些黑名单ASIN,导致黑名单ASIN过多而影响过滤处理速度。
      若没有明显店铺会导致采集重复的情况,可关闭采集时过滤黑名单ASIN(采集设置中设置)
    5. 变体商品过多,刷新到列表过慢
      可在【系统设置】中,打开【采集过程UI界面不刷新】功能,即可解决加载数据过多处理慢的问题
    6. 其他程序占用过多系统资源或电脑配置低、电脑中病毒影响系统性能
      关闭占用系统资源的程序。清理系统垃圾,升级电脑配置。打开任务管理器,检查是否是其他软件占用CPU等资源过高,导致采集很慢。
    7. 使用多线程进行商品详细信息采集
      作为最后备选方案,我们建议您将采集软件复制几份,并在系统设置里设置不同的数据目录,多开几个进行采集。若使用多线程采集,请在采集设置里设置线程数即可(多线程不支持开启变体采集、过滤器等会增加表项的功能,否则按单线程采集)。我们不建议使用多线程,而建议您多开软件采集,更加稳定!

总结:请按上述方法检查影响软件处理速度的情况,如果还有其他问题,请联系我们,远程为您检查是否有问题。

 

 

 

 

为什么之前采集很快,现在突然很慢?

本文已经说的很清楚了,请看本文介绍。

请您按上述方法解决,先确定是网速慢还是解析慢,然后再针对性解决。例如有些用户不需要采集变体详细信息,但是仍然开启了采集变体详细信息,那您关掉后,采集速度就会大大提高。有些客户可能不需要采集商品变体,则关掉采集变体也可以大幅提高速度,因此您要根据自己的需求来配置,默认情况下软件是按最通用的方式设置的,您如果遇到问题,请按上述说明解决。

 

 

多线程为什么很卡?

请您根据您的电脑配置来采集,若占用CPU资源过大,请您调小采集线程数量,避免影响电脑性能。

 

为什么我的宽带有100M+,采集速度还是很慢?

本教程开头部分已经介绍了,请您查看教程说明。由于亚马逊服务器在海外,就像管道里的水,亚马逊返回数据就像水流,您的宽带就像管道,您用多大的管道,亚马逊也只给你固定的流量,因为海外网站访问本身速度就不稳定,不管您用多大的管道,流给您的水就这么多。因此您宽带再大也没用,速度取决于您和亚马逊网页的浏览速度,访问亚马逊速度越快,则采集速度越快。还是上述例子,如果您使用多线程采集时,通过并发采集,确实能够提高采集速度和流量,这时您的宽带大小才会影响到采集速度,但是一般情况下,由于多线程采集存在边际效应,线程数开多了CPU占用率又上来了,限制了我们的采集速度,因此目前我们建议您根据您的实际速度、网络、电脑调整一个适合采集模式。

 

我电脑访问亚马逊网站很快,采集为什么很慢?

请您按上述教程解决,可能您浏览器的环境和采集器的环境不一样,例如开了VPN代理,但是代理只加速了浏览器,采集器没有进行加速。原因很多。如果您无法解决。

请您联系我们的QQ技术支持,为您远程查看采集速度慢的问题。若由于网络等客观因素造成速度慢,我们也无能为力,请您自己购买VPN代理或VPS云服务器采集。

 

我不想买代理,如何提高采集速度?

如果您按上述方法,检查了设置,并且每次采集时,都卡在数据请求状态,网速很慢,则大部分情况是由于访问亚马逊速度太慢导致。很遗憾的告诉您,您必须配置代理来解决采集速度慢的问题。没有其他方法。

 

有推荐的代理服务商吗,一般选择哪个通道采集会快一点?

我们不推荐VPN软件和代理服务商,您需要自己购买代理(HTTP代理或VPN)。选择通道请尽量选择访问Amazon网页速度快的通道,例如采集日本站,则使用日本的通道显然速度会快一点。不过也有例外,因此请先调试好选择访问亚马逊网页比较快的通道后再开启采集。

总之中国内地访问外网速度一直都很慢,选择香港、韩国这些距离我们近的发达地区的通道,也是不错的选择。

发表回复