【基础】采集器 采集详细信息 来源介绍

| 2017-08-14 08:55:33

By | 2017年8月14日

创想亚马逊数据采集器支持采集每个商品的变体、高清图等等详细商品信息,目前支持从amazon前台网页抓取数据和通过amazon product API获取数据两种。各有优缺点,此文我们将对这两种进行介绍。

注意:目前仅支持从amazon前台网页抓取数据的模式,amazon API方式还在内测开发中

从amazon前台网页抓取数据功能介绍:

此模式为最经典的采集方法,直接下载每个商品页面网页数据,并将网页上的信息提取分析进行采集,写入到采集器数据表格中。

优点:

  • 采集简单方便,支持抓取变体、变体详情、高清细节图
  • 支持用户自定义设置采集字段
  • 由于从网页采集,采集的数据通过查看商品页面都能找到对照

缺点:

  • 过度采集易被亚马逊采集屏蔽
  • 由于需要采集网页数据,因此还会下载大量无用的HTML等数据,导致采集过慢

从amazon API抓取商品数据介绍:

此功能尚不成熟 还在研究

此模式是新增的特殊采集模式,依托amazon product API进行快速采集,稳定高速,不屏蔽

优点:

  • 不易被采集屏蔽,导致采集不到数据
  • 采集速度快,没有网页HTML等无效数据

缺点:

  • 每个AWS账号限制1小时2000条商品,限制大 采集不便
  • 暂不支持采集变体等数据
  • 不支持采集细节图以及高分辨率超清图
  • 其他不支持的采集项

发表回复