【基础】亚马逊采集屏蔽解决和500错误解决

| 2017-05-01 03:23:19

By | 2017年5月1日

问题

    1. 采集过程中需要输入验证码才能继续采集
    2. 采集数据一直跳转到500错误
    3. 商品正常但是采集商品一直跳转404提示(变狗)

如果没有遇到这些问题,可忽略本教程,下次出问题再看

 

目录

为什么会产生采集屏蔽(采集需要输入验证码)?

采集多少数据会遇到屏蔽问题?

解决屏蔽方法汇总

1.输入验证码解除屏蔽(推荐)

为什么输入后又要频繁输入,输入多次无效?

2.使用浏览器模拟采集

3.使用HTTP代理换IP采集

4.使用ADSL宽带拨号换IP采集

5.使用VPN换IP采集

6.等待一会采集

7.开发验证码识别

为什么提示500错误,如何解决

其他屏蔽相关问题

 

什么是采集屏蔽?

😣亚马逊是禁止频繁访问网页的,如果一个IP在短时间内访问了大量亚马逊网页,就会判定为爬虫采集,亚马逊此时要求输入验证码才能继续访问。

即使您没有采集数据,正常访问亚马逊网页也会遇到验证码,比如使用卖家精灵、JS等浏览器插件,这些插件每访问一个页面会把去访问每个商品的详情页,导致访问亚马逊屏蔽采集激增进而屏蔽问题愈发严重。

采集多少数据会被屏蔽?

屏蔽和您IP、电脑环境有很大关系,亚马逊根据IP纯净度来评定是否爬虫,我们已经针对亚马逊平台进行了很多优化,目前屏蔽出现情况很少,一般家用宽带的IP就足够轻量化的铺货数据采集了,遇到采集屏蔽软件会自动弹窗输入验证码,输入后即可继续采集。建议在本机电脑采集数据。

根据您的IP纯净度、采集环境等原因,没有具体数值。这里提供我们测试以供参考:2024年测试最高记录是使用阿里云VPS服务器采集30000+条商品详情没有弹出一次验证码,但有时候有些机器采集几百个会遇到一次,输入验证码后则可继续采集几千条详情,每台电脑和IP情况不同,您可以自己测试。

本软件仅适合日常运营轻量化数据采集用于铺货、选品和数据收集,不适合大并发、集群式的爬虫。

 

采集屏蔽解决

输入验证码

输入验证码继续采集,是我们推荐的方法,符合亚马逊的规则,我们测试后输入验证码也是最稳定的方式,对于铺货采集量不大(每日几千到一万条ASIN)的情况很适合,您只需输入验证码即可(一直频繁输入验证码还会造成500异常报错)。


如下图,采集途中如果被亚马逊识别到,会弹出验证码窗口,没输入的话,软件也会自动超时跳过。


为什么我输入多次验证码,依然无效,频繁弹出?

    1. 使用最新版采集软件
      请先确保使用的是最新版的采集软件,软件中按下F1或点击帮助,点击检查更新检查软件版本,也可以到官网手动下载最新版软件。尤其20240004版本起遇到验证码问题通过向导方式指导您解决,您无需再按本教程逐一排查,解决更加得心应手。
    2. 进入浏览器输入验证码
      由于IE浏览器已经被微软停用了,建议绑定edge浏览器或谷歌浏览器再采集。中途如果验证码输入多次无效,请进入绑定的浏览器里输入验证码。
      如上图,绑定的是IE浏览器,则点击【使用IE浏览器输入】按钮,进入网页输入验证码后,不用在输入验证码,点【继续采集】即可
    3. 多开软件或开启了多线程采集
      建议:如果您同时打开多个采集软件采集、或者使用了其他采集软件、卖家精灵插件等都会造成采集屏蔽加剧,建议您只用一个采集,如果一定要多个,请看下面其他防屏蔽的教程。
      如果多开或用多线程采集时,遇到屏蔽时,可能会弹出多个验证码窗口,或者输入完验证码又短时间频繁弹出,遇到此情况,您只需要输入一次验证码,然后其他窗口点击【继续采集】尝试跳过即可。只要一次输入正确即可。
    4. 清空缓存后再尝试继续采集
      有时候邮编等缓存会导致验证码一直输入无效。可以点击【系统设置】,点击【清空COOKIE缓存】,清空后,请点击【继续采集】,然后输入一次验证码再试。
    5. 清空缓存后记得浏览器访问一次亚马逊
      如果频繁弹出验证码,请您用浏览器打开一次亚马逊网页,刷新一下,比如,采集美国就用绑定的浏览器打开一次美国亚马逊网页。
    6. 检查VPN或HTTP代理
      如果您使用了蓝灯或者其他VPN,请检查浏览器的代理和本软件一致。如果本软件的采集IP和浏览器的IP不一样,会导致输入验证码多次输入无效的问题。(如果用蓝灯代理,请重启蓝灯再输入验证码)
    7. 改成浏览器模拟采集
      如果一直被采集屏蔽无法解决,如果您的浏览器可以正常打开亚马逊网页,建议开启浏览器模拟采集功能,【系统设置】里勾上【使用chrome浏览器模拟采集】功能,点击这里了解开启
    8. 以上方法都不行,说明您的电脑无法正常访问亚马逊了(因为第6条,您的浏览器也打不开亚马逊),此时您只能按下面方法操作了

 

其他解决屏蔽方法

 

推荐直接输入验证码的方式来解除屏蔽继续采集

如果出现下面的情况,建议换IP采集:

    • 短时间频繁弹出验证码,一直输入无效
    • 采集被一直报错500错误,或者404错误,当时网页上可以正常打开。(下面列出的方法也适用于解决500错误)
    • 我不想输入验证码

 

1.浏览器能正常访问亚马逊

如果您的chrome谷歌浏览器或edge等浏览器可以正常打开要采集的网页,可以考虑直接使用浏览器模拟采集来解决问题。

在【系统设置】里,勾选【优先使用chromium浏览器模拟采集】功能,开启后后续获取采集数据都从您的浏览器直接获取,只要保证浏览器正常访问亚马逊即可。(包括邮编和语言配置、验证码输入都在这个浏览器设置好再采集)

具体设置步骤点击这里查看

2.使用HTTP代理换IP继续采集

如果你有HTTP代理IP或代理VPN,可以使用代理和本地IP轮流采集,降低屏蔽问题。

进入【HTTP代理池】功能(按下F12),勾选【被采集屏蔽则自动切换代理服务器】 功能。

采集过程中会自动从代理IP里挑选一个代理进行采集。请务必提供有效的代理IP,如果代理IP没法连接会导致采集失败、网络访问失败等问题。

本地IP和代理IP轮流切换采集方法:

比如想让软件被屏蔽后自动切换到代理IP,再被屏蔽又换回本地IP,一直自动轮流切换,比如代理IP为127.0.0.1:50156,则把代理添加进去,然后再添加一个代理,IP地址写“*”,也就是不使用代理IP(用本机的IP)。如下图,如果要插入多个本地IP,可以输入“*1”、“*2”,以此类推。

如下图:有两个代理,一个是使用“127.0.0.1:50156”、一个代理IP为“*”,代表不使用代理从本机IP直接访问。

提供的代理务必保证有效,必须能正常访问的IP,否则会导致采集出现其他网络异常

HTTP代理配置详细介绍 : https://blog.cxsup.com/archives/158

 

2.自动宽带拨号换IP继续采集

家用宽带重新拨号连接一般会重新分配IP

通过宽带ADSL重新拨号、重启光猫等方式都可以更换IP地址,从而解决屏蔽。

进入【系统设置】,点【采集屏蔽设置】,点击【设置屏蔽自动宽带拨号】按钮,勾选【被屏蔽自动拨号更换IP地址】选项,然后输入你的宽带账号密码并保存即可。建议测试一下,保证可以正常拨号。如下图

拨号功能使用注意:您电脑必须是直连外网环境(没使用路由器,电脑通过拨号上网)才能拨号,具体咨询您的电信运营商

拨号相关补充:

      • 现在网上有很多ADSL拨号软件,和VPN差不多,购买ADSL拨号软件也可以自动拨号换IP
      • 淘宝还有出售拨号VPS,这类VPS提供了可拨号功能,每次拨号均可以修改VPS的IP,因此只需要将采集器放置到VPS中,然后使用商家提供的账号即可拨号换IP,非常方便,采集全自动无需手动换IP。
      • 由于不同系统配置不同,拨号环境也不同,本软件可能部分电脑会出现拨号不上或拨号卡顿失败的问题,您也可以网上找其他的定时拨号小工具,同样也可以定时拨号,简单方便

(本软件提供的拨号功能每次只能拨号1次,整台电脑IP将被更换,不建议频繁拨号,因为亚马逊采集很少出问题,您正常采集即可,大部分情况无需配置拨号采集)

3.使用VPN代理换IP

第2种方法,HTTP代理类似差不多,但是单个IP采集多了仍然会被屏蔽,此时还是需要输入验证码或换IP才能继续采集

推荐香港线路、台湾、日本线路的V P N线路。

注意:使用VPN记得在【采集设置】打开【自动连接系统代理】功能,才能连上您的VPN,如果开启了,还连不上,请把你的VPN调节到全局代理(整台电脑都代理)。可以在【采集日志】里检查IP,查看IP是否为外网的IP地址,可以检查是否成功脸上了代理。

4.等待一会再采集

推荐此方法,在亚马逊采集限制规则内采集
亚马逊采集屏蔽一般过一会就会取消,这个时间没有固定值,一般15-30分钟甚至更长,可在系统设置中,找到被采集屏蔽暂停时长即可设置暂停时间,例如设置15分钟后,采集过程中如果被采集屏蔽,会弹出验证码输入框,如果用户没有输入验证码等待15分钟后,软件会自动继续进行采集,假如15分钟后亚马逊解除采集屏蔽,那么就可以自动继续采集下面的数据了。

5.自行开发验证码输入插件

有开发能力的客户,可以自行开发插件DLL文件,详细说明请看:https://blog.cxsup.com/archives/703

 

 

 

为什么采集失败提示500错误?

如果您采集没有遇到验证码,但是采集日志采集出错提示500错误。

原因:

  • 连续采集某页商品过量,例如采集了大量的店铺商品,一直在顺序翻页采集,被亚马逊判定为机器人则屏蔽禁止访问或某个页面报500错误。
  • 使用多线程或多开软件,大量采集亚马逊网页,短时间过量的请求很容易让亚马逊禁止访问。

解决办法:

  • 尝试在【系统设置】点【清空COOKIE】,清空浏览器指纹缓存后,再尝试继续采集。不行就多清空几次。
  • 如果您Chrome浏览器或edge浏览器能正常访问Amazon,则可以在【系统设置】打开【开启谷歌Chrome浏览器采集】,用Chrome浏览器采集可解决大部分采集异常的问题。查看具体配置方法
  • 设置出现500错误时,自动限速,在【系统设置】【规避屏蔽】【遇500错误暂停时长】设置5-60秒左右,根据您的情况自行配置延时。
  • 【系统设置】【浏览器打开Amazon】,进入亚马逊网页刷新一下再采集,有时候没访问过亚马逊就没有缓存容易采集出错。
  • 上述方法都不行,您Chrome浏览器也打不开亚马逊网页也提示500错误,则必须换IP解决。请按照上面的“其他屏蔽解决”来操作

 

 

采集屏蔽会影响我的店铺吗?

采集屏蔽只是亚马逊防止机器人操作亚马逊的,并不会影响到店铺或买家号。但是我们仍然建议您不要在登录店铺的电脑上进行过量采集。合理规避任何风险总是有好处的。

 

 

采集多少数据会被屏蔽验证码?

亚马逊平台对于访问频率低的访问比较友好,没有过多限制,目前大部分情况下亚马逊不会触发采集验证码,本软件最大化模拟真实用户访问,使得采集屏蔽概率和人工访问概率基本一致,我们实测采集任务列表页时,验证码屏蔽基本为0(测试采集50万数据时也没有验证码弹窗),即使弹窗,输入一次验证码即可,如果是采集ASIN详细信息,多线程下几千条也遇不到一次验证码弹窗,只要IP干净,没用爬虫IP或各种云服务器的IP很少遇到验证码屏蔽,因此您大可不必担心,无需刻意规避亚马逊采集屏蔽,正常使用即可。(若本软件采集量无法满足您的需求,请选择其他软件,本软件本身定位就不是大数据大流量的采集工具)

 

 

为什么输入验证码一直无效?

请按上述验证码部分说明解决。

 

 

我该如何彻底解决规避亚马逊防爬虫?

本软件的开发定位是:用于亚马逊卖家日常轻量化的运营数据收集、铺货、批量跟卖、选品分析等用途,适合简单快速整理店铺、类目、搜索结果的商品数据以及ASIN的商品信息。

我们软件暂未提供绕过屏蔽的直接解决办法,因此不推荐用于将本软件用于大并发的爬虫采集、大数据采集等。如果您需要进行多线程、分布式、大并发等手段来快速大量的获取亚马逊商品数据,请选择其他软件产品。

 

免责声明

本软件提供了商品数据采集和reviews采集等功能,所有采集的数据均来源于Amazon网页公开数据,采集过程为单线程(图片下载为多线程支持、采集详情页支持多线程),为您提供商品数据自动整理、数据编辑、跟卖采集、简单数据分析统计等提高运营效率的功能。

但是如下行为我们不建议您使用:

    1. 大数据大并发请求亚马逊网页采集,超过亚马逊平台正常流量访问承载量
    2. 利用采集功能恶意点击广告等行为(本身本软件就不支持此功能)
    3. 利用采集功能扰乱亚马逊正常运营
    4. 收集数据用于其他非正常途径以及违反法律的行为

将本软件用于以上用途风险自行承担(虽然采集亚马逊公开的数据法律风险几乎为零,但是也请您注意)。

 

 

 

 

发表回复