【进阶】使用多线程采集亚马逊 提高采集详细信息速度

2022-04-14 12:59:20

By | 2022年4月14日

什么是多线程

多线程采集详情/变体详情

设置多个线程采集详情时或变体详情时,比如设置5,则同时采集5个ASIN的商品信息,而不是一个一个采集。能够大幅提高采集速度。

多线程下载图片

如果您设置了采集时下载图片。默认1个线程时,是一张一张下载,等一个商品所有图片都下载完才会下载下一个商品的图片,并且要等到图片都下载完才会采集下一个商品,设置多线程后,会同时下载多条商品的图片,并且会提高采集速度。

 

使用条件

所有多线程仅限旗舰版可用,其他授权最多1个线程采集,如需升级点击这里

 

功能1:异步采集

异步采集通过 “边下载边处理” 的并行机制,避免任务阻塞,大幅提升大规模数据采集的效率和速度。下载完立即处理数据,并立即下载下一页的数据,没有开启时,下载完数据需要等待处理完才会下载下一个。

如下图,勾上 开启异步采集 即可。

异步缓存大小说明

采集时会一直下载数据,如果下载的页面超过此值,就不会再下载了,防止下载过多页面还未处理完,占用内存,一般处理速度比下载快的多,很少会出现缓存满了的情况,所以设置太大也没用,一般5-10个就够了。

搭配多线程下载

异步采集开启后,搭配多线程采集详情,可以解决以前版本使用多线程无法采集变体、过滤器的情况。不懂的话,按照最佳实践配置即可提高采集速度。

 

功能2:采集详情启用多线程

操作方法

如下图,在【系统设置】下【采集速度】中设置2-10个线程即可。推荐您设置2-5个。遇到问题,请查看下面注意说明

注意事项

  • 本软件不限制线程数,推荐5-10个线程采集就行了,设置太多存在边际效应,设会严重占用CPU、网络以及会加大亚马逊屏蔽可能性。
  • 开启后采集时,每个线程可能都会弹出一次验证码输入,因此如果遇到采集验证码屏蔽弹窗,您仅需要输入一次验证码,如果短时间内多次弹出验证码输入框,您可以直接点击【继续采集】即可。
  • 若设置多线程后遇到卡住、崩溃等问题请减少线程数量。

 

采集效果

如下图,设置了10个线程采集,将有同时10个ASIN被采集,大幅提高了采集速度。

不懂什么是采集详情,请看这里

提示:如果开启了变体采集、评论内容等、使用过滤器、各种子项时,多线程会有冲突,因此还会强制1个线程,可开启【异步采集】才可以解决此问题,点击这里了解

 

 

采集详情最佳实践

如果你是新手,请直接按照本节配置即可提高采集速度

先停止采集,在【系统设置】【采集速度】中,勾上【开启异步采集】,设置【异步缓存大小】为3-10之间即可

设置 【 采集详细信息线程数 】为 2-5,这里设置5个线程,即会有5个线程同时下载商品数据。

建议根据您的电脑配置设置此值,不是越高越高,根据实际使用情况来设置,比如设置过高遇到采集问题就降低,设置过高会加大屏蔽等问题。

设置完成,开始采集

 

 

为啥软件不自动设置好,还要用户自己开启?

因为多线程采集会加大采集屏蔽、占用网络资源和CPU资源、过多的线程也会影响软件稳定性,产生崩溃等情况。并且我们软件适合轻量化的铺货数据采集,因此我们没有默认开启。您可酌情开启。

 

功能3:多线程采集变体详情

了解采集变体详情使用多线程,请点击这里

 

功能4:多线程下载图片

了解图片下载使用多线程,请点击这里

 

注意事项

  • 采集多线程时,不支持采集变体、过滤器等功能,这些会增加项目和删除项目,因此不支持多线程,采集时将仍然按1个线程采集。(20240009版本起支持多线程采集变体和用过滤器,请查看最佳实践)
  • 多线程稳定性有待测试,若您采集不稳定,请按单个线程采集
  • 采集多线程会占用大量系统资源,请根据电脑实际情况来设置线程数。
  • 采集多线程会提高屏蔽的概率
  • 本软件提供的多线程采集数据的功能不建议设置过高,由于本软件定位为轻量化的数据采集需求,例如简单的铺货数据采集、选品等,因此对于多线程我们没有做太多优化,请勿过度依赖多线程采集,多线程采集还会加大亚马逊采集屏蔽的概率,导致数据采集失败。多线程下载图片比较稳定,建议设置5个线程左右,能提高图片的下载速度。