创想亚马逊数据采集器支持采集每个商品的变体、高清图等等详细商品信息,目前支持从amazon前台网页抓取数据和通过amazon product API获取数据两种。各有优缺点,此文我们将对这两种进行介绍。
注意:目前仅支持从amazon前台网页抓取数据的模式,amazon API方式还在内测开发中
从amazon前台网页抓取数据功能介绍:
此模式为最经典的采集方法,直接下载每个商品页面网页数据,并将网页上的信息提取分析进行采集,写入到采集器数据表格中。
优点:
- 采集简单方便,支持抓取变体、变体详情、高清细节图
- 支持用户自定义设置采集字段
- 由于从网页采集,采集的数据通过查看商品页面都能找到对照
缺点:
- 过度采集易被亚马逊采集屏蔽
- 由于需要采集网页数据,因此还会下载大量无用的HTML等数据,导致采集过慢
从amazon API抓取商品数据介绍:
此功能尚不成熟 还在研究
此模式是新增的特殊采集模式,依托amazon product API进行快速采集,稳定高速,不屏蔽
优点:
- 不易被采集屏蔽,导致采集不到数据
- 采集速度快,没有网页HTML等无效数据
缺点:
- 每个AWS账号限制1小时2000条商品,限制大 采集不便
- 暂不支持采集变体等数据
- 不支持采集细节图以及高分辨率超清图
- 其他不支持的采集项