【进阶】了解过滤重复ASIN 、 一键删除重复数据

| 2022-04-20 12:32:44

By | 2022年4月20日

为什么会重复

  • 采集类目时会有20%-50%的重复率,因为商品会归类到好几个类目中,因此采集时会出现重复
  • 采集到广告商品,有些广告商品每页都有,因此导致采集重复ASIN
  • 其他重复ASIN采集的情况

功能

有如下方法可以去重复

  1. 采集任务时过滤重复
  2. 使用过滤器中的重复ASIN过滤【适合旗舰版】
  3. 使用黑名单自动记录功能过滤【适合企业版】
  4. 手动删除重复
  5. 广告商品导致的重复问题

 

 

1.添加任务时设置过滤重复ASIN

请确保使用最新版(20230033级以上版本),限旗舰版授权可用。该方法最简单方便。此功能只会保证此任务不会重复ASIN,如果想要永久过滤重复,请使用重复过滤黑名单过滤功能

如下图,在【添加任务】时,点【添加任务】,勾上【过滤重复商品】即可,采集时将保证此任务不会出现重复ASIN(变体ASIN不会过滤,此功能只能生效于主商品)

如果通过【批量添加的任务】添加,打开此处也会生效重复过滤。

此功能仅限当前任务过滤重复ASIN,如需全局过滤重复ASIN,请参考方法2、方法3

 

 

 

2.使用过滤器去重复

此功能仅在20220006及以上版本包含,仅旗舰版用户使用。用于保证不采集到重复的ASIN商品。设置简单

功能特点

    • 支持永久有效或单次采集有效
    • 本功能每个过滤器是独立的记录数据库,不同的过滤配置重复ASIN数据库是独立的,互不影响,切换配置就会切换ASIN重复过滤。
    • 配置简单,开启即可保证不采集到重复ASIN。(不同亚马逊站点的相同ASIN不会算重复)
    • 本功能适用于类目采集、未在售商品采集,可以过滤掉重复ASIN

 

开启过滤重复方法

如下图,在【过滤器】中打开【采集时使用条件过滤器过滤商品】,然后配置过滤器。

如下图,点【其他设置】,勾上【开启ASIN重复过滤】后,保存过滤配置就可以了

按照下图设置,采集时会自动记录和过滤已采集过的ASIN,使用【单次】可确保每次采集都不会出现重复的ASIN,【按采集模式过滤重复ASIN】可以避免采集完任务又采集详情时,ASIN被过滤的情况。

配置好,采集即可。

选项说明:

持久:长久有效,采集时,只要遇到以前采集过的ASIN就会过滤,此项适合要求较高的客户,否则不要轻易开启,开启后可保证永久采集不会出现重复ASIN,即使您关闭软件再打开也一样过滤以前采集过的ASIN,除非您重置或删除了软件数据。

单次:单次采集有效,用于确保每次采集时不出现重复ASIN,多次启动采集不算(比如停止任务又开始新的采集,就不会再过滤之前的ASIN了)!

 

按采集模式过滤重复ASIN:由于采集完商品列表任务(比如店铺、类目等)后会自动启动详情采集,第一次已经保存了所有ASIN,等到启动详情采集时,再次采集这些ASIN详情时会被判定为已采集过,导致采集详情时商品都被重复过滤删除,这是正常现象。如果要解决此问题,请开启此功能,确保两次采集分开过滤重复。
如果您还是不懂不理解,则无脑开启此功能即可,开启后确保不会有重复ASIN也不会出现问题。由于我们考虑到旧版本升级后可能造成问题,所以开放此设置,后续此设置会默认开启并隐藏

开启卖家ID重复过滤:开启后,如果采集商品时,遇到已经采集过的卖家,就不会再采集并删掉对应的商品。(其他设置 单次、持久则和过滤ASIN一样的,请根据需求设置)

注意:

    1. 不同过滤器配置的重复过滤数据库是独立的,因此您切换了过滤器配置后,将使用此过滤配置的ASIN重复记录来过滤重复。
    2. 本功能不支持多开采集软件使用,如果多开会导致数据冲突,导致过滤失败。如需多开软件,请复制多份采集软件分别打开,并确保【系统设置】【文件系统】【数据目录】分别设置不同目录,避免相互冲突。

 

 

 

多台电脑共享重复过滤

如果您购买了多个采集器分开在不同电脑上采集,又需要这些电脑采集共用一个重复过滤,防止多台软件出现重复的情况,可使用MYSQL数据库。

首先,自己在云服务器搭建好MYSQL服务器,公开端口,并创建好数据库用户,必须有创建表、字段的权限。如何搭建MYSQL数据库请自行网上查询方法(下载宝塔面板或PHPstudy均可配置)。

如下图,进入设置数据库

如下图,改成MYSQL数据库

输入您的数据库IP或域名、端口号、用户名、密码点【保存设置】即可,使用前可测试连接,确保数据库可用。建议用前测试采集,看数据库是否成功创建。

设置后,每采集一个ASIN就会传到服务器上,所有连接这个数据库的采集软件,只要发现ASIN服务器已存在,就会跳过不采集,防止多台软件出现重复的情况。如果您只在一台电脑使用,则无需使用此功能,用本地数据库即可。

 

 

 

 

已采集完的数据过滤重复

也可以对已经采集完或导入的数据,来手动删除重复。

如下图,打开【应用大全】,点【条件删除器】选择好过滤器即可删除重复。

选择过滤器后,点击【开始进行条件删除】就会按过滤器过滤商品了

只要过滤配置里开了过滤ASIN重复功能,就会过滤掉重复商品。

 

 

 

 

3.使用黑名单去重复

本功能限企业版及以上授权使用,如果您是旗舰版,建议使用第一种方法,比黑名单过滤更高效简单。

功能说明

    • 使用采集时自动记录黑名单ASIN和采集时过滤黑名单ASIN,即可实现去重复功能
    • 本功能是全局的,每次采集的ASIN都会被永久记录,以后再遇到此ASIN就会过滤,除非您手动清空已经记录的黑名单ASIN。也就是每采集一条ASIN就加入黑名单,下次遇到了就过滤。

在【采集设置】【过滤器】中可以开启本功能

如需采集列表页(店铺商品页等)时过滤,则按如下图设置。

如需采集ASIN详细信息过滤重复ASIN,则按下图设置

设置后,您就可以开始采集了。采集时将自动记录ASIN码,下次遇到已经记录的ASIN码就自动过滤或删除商品。实现去重复的目的。

如果您需要删除所有黑名单ASIN,点击下图按钮即可。

 

 

4.手动删除重复

手动删除重复很简单,在【编辑数据】菜单栏,打开去重复工具。

如上图点击按钮即可去重复检查。

 

 

5.过滤掉广告商品

如下图设置即可采集时过滤掉广告商品,避免重复ASIN