【第五课】亚马逊采集屏蔽介绍

By | 2017年5月1日

什么是采集屏蔽?   

由于数据采集需要频繁访问亚马逊获取页面数据,因此亚马逊禁止机器人采集数据,亚马逊判断相同IP在短时间内访问了大量网页,就会判定为采集(测试短时间访问500个左右亚马逊详情页会被提示屏蔽),因而会要求输入验证码以验证是否为机器人在采集,这是一种采集遇到的常见问题,本教程从我们多年经验出发,整理了各种解决办法.注意。

我们建议您不要过量请求亚马逊网页数据,合理控制采集流量。

 

再次申明

验证码并非我们杜撰的,这是亚马逊限制采集的手段,采集时如果弹出验证码,请您输入验证码后尝试解决,输入多次无效请看本教程解决!

问题介绍
1.采集过程中软件提示需要输入验证码
2.采集过程中被跳转到400或500错误页面,遇到此情况一般是采集过量,亚马逊直接不显示验证码



解决简要说明

解决:

  1. 目前95%的情况,采集时如果弹出验证码输入框,输入验证码就能继续采集!
  2. 输入后多次无效,请您更换IP(可尝试开代理、VPN、重启光猫)进行采集

 

 

解决采集验证码(推荐1-3方法)

若您是采集被屏蔽需要输入验证码,推荐使用第一种方法(在下面),不行可以换其他再试

 

第一种【输入验证码解除屏蔽】:

我们仍然建议直接输入验证码即可,这是最有效的方法,也符合亚马逊的规则,输入一次基本保障几百条到一千多条的详情页采集,我们测试输入验证码采集基本稳定,缺点是需要人工输入比较麻烦(一般暂停采集30分钟也会自动解除屏蔽)。由于一些原因暂时无法提供自动打码

在采集器的 系统设置 中勾选开启采集被屏蔽自动暂停输入验证码解除屏蔽 功能(一般默认打开了)
开启后,一旦采集过程中被亚马逊采集屏蔽,您只需要输入验证码即可解除屏蔽 如下图在黄色区域输入验证码并回车。多次输入无效请看下方


为什么多次输入验证码无效?请按如下方法解决即可!

  1. 弹出验证码输入框中,点击使用“使用IE浏览器输入”按钮,会打开网页,提示输入验证码,输入后,点继续采集即可。
  2. 如果您使用了蓝灯或者其他VPN,请检查采集器设置的浏览器是否已挂上代理,您可以用浏览器打开一下Google并查看一下IP地址是否为您VPN的IP地址.如果输入验证码的浏览器的的IP地址和采集器的IP地址不一致,会导致输入验证码多次输入无效的问题.(如果是蓝灯代理,直接重启蓝灯后,再输入验证码再试)
  3. 如果使用IE浏览器输入两次也无效,有时候IE浏览器会出现问题导致验证码提交不成功而一直弹窗,建议开启使用内置浏览器采集,如果是最新版软件,可点击这里查看如何配置内置浏览器http://blog.cxsup.com/archives/1822    。内置浏览器开启后,如果输入无效,可以在采集器“查看页面”中,输入验证码哦!!! 
  4. 您也可以手动用IE浏览器访问https://www.amazon.com/errors/validateCaptcha并输入验证码后继续采集,若非美国站改为其他站点开头域名即可
  5. 有些屏蔽问题是提交亚马逊的COOKIE无效或错误,因此清空COOKIE也可以解决此类问题,若您不理解什么是COOKIE也没事,按这里的操作尝试解决:在采集器的“系统设置”点击“清空COOKIE缓存”即可。(补充:软件部分情况下cookie无法清空干净,可用360安全卫士或通过控制面板->Internet选项->删除->勾选清空COOKIE并清空后再尝试继续采集并输入一次验证码)。
  6. 请检查IE浏览器是否能够正常访问amazon,如果您使用的XP系统,浏览器版本过低会导致采集器提交验证码失败,请点击这里下载IE8升级包,安装后即可恢复正常
  7.  若开启了V P N加速器,请检查使用的V P N等代理软件是否使用的是全局代理(PPTP或L2TP连接模式),若没有使用全局代理模式,请设置为全局代理(PPTP或L2TP连接模式)或关闭V P N代理工具在试。
  8. 如果您使用HTTP代理,请检查HTTP代理是否可用哦

 

 

 

 


种【利用HTTP代理切换IP解除屏蔽】

推荐直接输入验证码进行采集,使用HTTP代理可作为后备方案或者提高采集速度之用途。

HTTP代理解除屏蔽方法比较简单方便,而且稳定(前提你的HTTP代理IP也要速度稳定)
您可以使用HTTP代理采集功能,HTTP代理可改变访问亚马逊的IP地址,从而解除屏蔽,并且本软件HTTP代理功能支持本机和HTTP代理间的智能切换,屏蔽了切换到HTTP代理IP采集,一旦再被屏蔽就可以切换回本机的IP进行采集,从而实现循环HTTP代理和本机IP之间切换采集,经过测试单线程稳定采集50W不屏蔽不提示输入验证码!
注意:我们提供代理IP销售,也不提供此类工具。具体参看我们教程中的附录部分,有推荐一些代理工具(http://blog.cxsup.com/archives/158)

 


操作方法:

软件中按下F12键打开代理配置窗口(该功能仅限企业版以上用户使用),勾选“被采集屏蔽则自动切换代理服务器” 功能,开启该功能后,软件采集过程中若被采集屏蔽,将按照被采集屏蔽代理切换方式的设置进行切换。默认是按顺序进行切换。记得也要开启总开关哦。
注意:设置的所有HTTP代理务必保证可靠有效,否则采集时屏蔽切换代理,切换到无效的代理会导致接下去采集均失败,请注意这点。

我们要设置被屏蔽切换到HTTP代理127.0.0.1:50156,一旦127.0.0.1:50156被屏蔽又想让他自动切换会本地IP直接采集,那么可以添加一个新的代理,ip地址填写一个带“*”符号的代理即可,如果设置代理很多,要进行多次切换回本地IP,可使用*带一个数字即可,例如*、*1、*2均可,可混插在代理列表中,如下图:

设置代理前请保证代理服务器IP可用,若使用不可用的代理会导致软件频繁更换采集模式反而降低采集速度。

上图的设置代表,有两个代理,一个是使用“127.0.0.1:50156”、一个代理是不使用代理本机IP直接访问。
如此设置后,一旦采集被屏蔽,软件将切换回本机IP直接采集,不使用代理,若再被屏蔽又切换到代理IP采集,即可实现代理交叉轮流切换IP进行采集,单线程采集很稳定屏蔽少!

有关更多HTTP资源和采集器配置详细方法请看 : http://blog.cxsup.com/archives/158

 

 

 

 

 

种【利用自动重拨功能换IP自动采集】

推荐直接输入验证码进行采集,使用拨号换IP可作为后备方案或者提高采集速度之用途。

 

采集器支持被屏蔽时自动宽带断线重播功能,通过宽带自动断线重拨可以达到更换IP的目的,从而实现解除屏蔽的目的。

首先需要在系统设置里,开启“被采集屏蔽自动暂停输入验证码或自动拨号解除屏蔽”功能

然后点击“设置暂停自动拨号”按钮,勾选“被屏蔽自动拨号更换IP地址”选项,并输入您的宽带账号密码,保存设置,保存前可以点击“测试重拨”测试是否可以正常拨号。如下图

设置完屏蔽自动拨号后,若采集过程中被屏蔽,将启动自动拨号,断开宽带并重新连接宽带更换IP地址,即可绕过亚马逊屏蔽检查。

由于不同系统配置不同,拨号环境也不同,本软件可能部分电脑会出现拨号不上或拨号卡顿失败的问题,您也可以网上找其他的定时拨号小工具,同样也可以定时拨号,简单方便

小贴士:现在网上有很多ADSL拨号软件,和V-P-N差不多,购买ADSL拨号账号采集器也可以使用,也可以自动拨号换IP,具体可以百度了解

小贴士:淘宝还有出售拨号VPS,这类VPS提供了可拨号功能,每次拨号均可以修改VPS的IP,因此只需要将采集器放置到VPS中,然后使用商家提供的账号即可拨号换IP,非常方便,采集全自动无需手动换IP。

注意:本功能必须是外网环境,本机必须支持拨号上网,若您电脑使用路由器等不是拨号上网的情况将无法使用本功能,具体请咨询电信公司。

 

 

 

 

第四种【利用V-P-N解除屏蔽】

目前实测使用V-P-N代理或HTTP代理能够有效解决屏蔽以及采集慢的问题。推荐香港线路、台湾、日本线路的V-P-N线路。注意:使用V-P-N代理工具,代理务必设置L2TP或PPTP的连接模式,不要使用高速模式之类的连接方式,会导致采集器无法连接到该类代理。(部分代理软件仅支持加速浏览器,而其他软件无法加速,因此请咨询您的代理软件方面是否支持全局代理哦)

大家也可以参考HTTP代理采集的方法,点击这里了解,也可以解除屏蔽

注意:我们不提供任何网络代理服务以及相关业务。具体参看我们教程中的附录部分,有推荐一些代理工具(http://blog.cxsup.com/archives/158)

 

 

 

 

第五种【等待相应时长解除屏蔽】

推荐此方法,在亚马逊采集限制规则内采集
亚马逊采集屏蔽一般过一会就会取消,这个时间没有固定值,一般15-30分钟甚至更长,可在系统设置中,找到被采集屏蔽暂停时长即可设置暂停时间,例如设置15分钟后,采集过程中如果被采集屏蔽,会弹出验证码输入框,如果用户没有输入验证码等待15分钟后,软件会自动继续进行采集,假如15分钟后亚马逊解除采集屏蔽,那么就可以自动继续采集下面的数据了。

 

 

 

 

第六种【分开云服务器进行采集】


分几个电脑采集或几个云服务器(VPS)采集,将数据分开不同的电脑采集。此方法可保证所有采集器均独立运行,配置好后采集效率会比一台电脑采集稳定。

VPS运行可能会出现不稳定的情况,建议您VPS使用WIN10或WIN7系统

注意:我们服务和软件套餐均不包含VPS远程主机,请您自行购买哦。

 

 

 

 

第七种【异常错误导致的屏蔽 更换模式采集】
开启 兼容采集模式采集试试。 1.在系统设置 中选中使用其他采集模式采集

 

 

 

第八种【下次没屏蔽了在进行采集】
放到下次再采集,先将没采集完成的数据导出,然后下次需要继续采集变体等,可以点击导入按钮,导入上次未完成采集变体的EXCEL,然后点击“采集列表详细信息”按钮,即可继续采集没有采集到变体或采集失败的项目。

 

 

 

第九种【自行开发插件】:

有能力的客户,可以自己开发屏蔽解除插件,原理是:当采集器发现采集被屏蔽了,会运行程序数据目录下\Plugs\Shield.exe文件,您只需要开发一个exe即可,这个exe可以是断线重拨号、调用IE浏览器输入验证码等均可,采集器打开该\Plugs\Shield.exe文件时,会传递一个命令行,即当前屏蔽的网址。并且采集器会暂停采集,直到该exe程序退出为止。

您也可以自行开发验证码识别插件DLL文件,详细说明请看:http://blog.cxsup.com/archives/703

 

 

 

第九种【利用自动打码软件】:

打码功能仅提供有开发能力的用户自己开发接口,本软件暂未提供打码功能。

若您有开发能力,可自行开发验证码处理插件DLL文件,详细说明请看:http://blog.cxsup.com/archives/703

 

免责声明

本软件提供了商品数据采集和reviews采集等功能,所有采集的数据均来源于Amazon网页公开数据,采集过程为单线程,为您提供商品数据自动整理、数据编辑、跟卖采集、简单数据分析统计等提高运营效率的功能。

但是如下行为我们不建议您使用:

  1. 大数据大并发请求亚马逊网页采集,超过每秒500次请求即为大数据大并发请求
  2. 利用采集功能恶意点击广告等行为
  3. 利用采集功能扰乱亚马逊正常运营
  4. 收集数据用于其他非正常途径以及违反法律的行为

将本软件用于以上用途风险自行承担(虽然采集亚马逊公开的数据法律风险几乎为零,但是也请您注意)。

 

 

 

 

 

发表评论