【进阶】了解过滤重复ASIN 、 一键删除重复数据

热度 933 | 2022-04-20 12:32:44

By | 2022年4月20日

为什么会重复

  • 采集类目时会有20%-50%的重复率,因为商品会归类到好几个类目中,因此采集时会出现重复
  • 采集到广告商品,有些广告商品每页都有,因此导致采集重复ASIN
  • 其他重复ASIN采集的情况

功能

有如下方法可以去重复

  1. 采集任务时过滤重复
  2. 使用过滤器中的重复ASIN过滤【适合旗舰版】
  3. 使用黑名单自动记录功能过滤【适合企业版】
  4. 手动删除重复
  5. 广告商品导致的重复问题

 

 

1.添加任务时设置过滤重复ASIN

请确保使用最新版(20230033级以上版本),限旗舰版授权可用。该方法最简单方便。此功能只会保证此任务不会重复ASIN,如果想要永久过滤重复,请使用重复过滤黑名单过滤功能

如下图,在【添加任务】时,点【添加任务】,勾上【过滤重复商品】即可,采集时将保证此任务不会出现重复ASIN(变体ASIN不会过滤,此功能只能生效于主商品)

如果通过【批量添加的任务】添加,打开此处也会生效重复过滤。

此功能仅限当前任务过滤重复ASIN,如需全局过滤重复ASIN,请参考方法2、方法3

 

 

 

2.使用过滤器去重复

此功能仅在20220006及以上版本包含,仅旗舰版用户使用。用于保证不采集到重复的ASIN商品。设置简单

功能特点

    • 支持永久有效或单次采集有效
    • 本功能每个过滤器是独立的记录数据库,不同的过滤配置重复ASIN数据库是独立的,互不影响,切换配置就会切换ASIN重复过滤。
    • 配置简单,开启即可保证不采集到重复ASIN。(不同亚马逊站点的相同ASIN不会算重复)
    • 本功能适用于类目采集、未在售商品采集,可以过滤掉重复ASIN

开启过滤重复方法

如下图,在【过滤器】中打开【采集时使用条件过滤器过滤商品】,然后配置过滤器。

如下图,点【其他设置】,勾上【开启ASIN重复过滤】后,保存过滤配置就可以了

两种过滤重复方案说明:

持久:长久有效,每次采集时,只要遇到采集过的ASIN商品就会跳过不采集。保证永久采集不会出现重复ASIN,关闭软件再打开也一样过滤重复,除非您重置。

单次:单次采集有效,停止采集后,再开新采集就会重置重新计算重复,保证每次采集时不出现重复ASIN

 

 

 

配置好,采集即可。

注意:

    1. 不同过滤器配置的重复过滤数据库是独立的,因此您切换了过滤器配置后,将使用此过滤配置的ASIN重复记录来过滤重复。
    2. 本功能不支持多开采集软件使用,如果多开会导致数据冲突,导致过滤失败。如需多开软件,请复制多份采集软件分别打开,并确保【系统设置】【文件系统】【数据目录】分别设置不同目录,避免相互冲突。

 

 

多台电脑共享重复过滤

如果您购买了多个采集器分开在不同电脑上采集,又需要这些电脑采集共用一个重复过滤,防止多台软件出现重复的情况,可使用MYSQL数据库。

首先,自己在云服务器搭建好MYSQL服务器,公开端口,并创建好数据库用户,必须有创建表、字段的权限。如何搭建MYSQL数据库请自行网上查询方法(下载宝塔面板或PHPstudy均可配置)。

如下图,进入设置数据库

如下图,改成MYSQL数据库

输入您的数据库IP或域名、端口号、用户名、密码点【保存设置】即可,使用前可测试连接,确保数据库可用。建议用前测试采集,看数据库是否成功创建。

设置后,每采集一个ASIN就会传到服务器上,所有连接这个数据库的采集软件,只要发现ASIN服务器已存在,就会跳过不采集,防止多台软件出现重复的情况。如果您只在一台电脑使用,则无需使用此功能,用本地数据库即可。

 

 

 

 

已采集完的数据过滤重复

也可以对已经采集完或导入的数据,来手动删除重复。

如下图,打开【应用大全】,点【条件删除器】选择好过滤器即可删除重复。

选择过滤器后,点击【开始进行条件删除】就会按过滤器过滤商品了

只要过滤配置里开了过滤ASIN重复功能,就会过滤掉重复商品。

 

 

 

 

3.使用黑名单去重复

本功能限企业版及以上授权使用,如果您是旗舰版,建议使用第一种方法,比黑名单过滤更高效简单。

功能说明

    • 使用采集时自动记录黑名单ASIN和采集时过滤黑名单ASIN,即可实现去重复功能
    • 本功能是全局的,每次采集的ASIN都会被永久记录,以后再遇到此ASIN就会过滤,除非您手动清空已经记录的黑名单ASIN。也就是每采集一条ASIN就加入黑名单,下次遇到了就过滤。

在【采集设置】【过滤器】中可以开启本功能

如需采集列表页(店铺商品页等)时过滤,则按如下图设置。

如需采集ASIN详细信息过滤重复ASIN,则按下图设置

设置后,您就可以开始采集了。采集时将自动记录ASIN码,下次遇到已经记录的ASIN码就自动过滤或删除商品。实现去重复的目的。

如果您需要删除所有黑名单ASIN,点击下图按钮即可。

 

 

4.手动删除重复

手动删除重复很简单,在【编辑数据】菜单栏,打开去重复工具。

如上图点击按钮即可去重复检查。

 

 

5.过滤掉广告商品

如下图设置即可采集时过滤掉广告商品,避免重复ASIN