【第六课】自定义字段采集使用简介说明 采集自己想要的数据、字段

By | 2017年5月1日

本节介绍如何使用软件的自定义字段功能,实现全面的自定义信息采集。
当然也可以使用预设好或者其他人写好的.defined自定义字段配置文件,直接复制到指定目录即可使用,目前支持正则表达式提取、JS脚本自定义提取、简易左右文本提取方式提取网页中的数据。

自定义字段功能仅限企业版旗舰版以上用户使用,其他版本暂时无法使用该功能

注:我们售后不包含代写自定义规则的服务,若需要我们代写需要按情况收取费用,简单的字段我们可提供免费代写,请提供要采集的信息截图等给我们(若工作繁忙期间不提供代写自定义规则)

我们提供了一些预设的字段,您可以到这里下载http://blog.cxsup.com/archives/1531

 

简单了解什么是自定义字段

什么是自定义字段呢?
自定义字段就是创想亚马逊ASIN采集器没有自带的采集项目,通过自定义字段,可实现采集自己需要的数据,大大提高采集面,方便您的使用。

最新版自定义字段也可以操作已采集的数据进行二次加工等。

您也可以将您编写的配置文件共享给其他用户或电脑上的采集器使用哦

自定义字段界面介绍:

 

如上图,左边栏中列出了当前安装或配置的自定义字段,勾选则表示开启,未勾选则表示未开启。
开启后的字段,将在采集时自动列出,并将数据按条件提取出来写在表格中。

 

 

如何自己建立一个自定义字段配置?
1.点击“新建”按钮,新建一个自定义字段配置,输入自定义字段名称,该名称将是采集时表头的名称。

2.然后设置正则表达式或简单标记符或JS脚本,关于正则表达式、JS脚本的使用,可以到百度或谷歌自行搜索学习相关内容。(也可以直接使用左右文本标记提取,无需正则表达式)也可以自己编写JS脚本代码,通过JS脚本处理文本。

3.输入完提取的正则表达式后,可再次对正则表达式提取的内容进行二次处理,例如去除文本功能、左右标记取中间功能。同时可以限制正则返回的数量、应用的采集页面(商品列表页、商品详细页、变体详细页),同时支持调试,可将要调试的网页源码复制粘贴到调试栏目中,点运行匹配,即可查看匹配后的结果。

4.配置完自定义字段,点击“添加/保存配置”按钮即可保存该自定义字段,然后勾选即可生效。

 

使用他人共享的自定义字段配置:

1.得到创想亚马逊ASIN采集器自定义字段配置文件(.defined文件)
2.进入软件,点击“自定义字段”按钮
3.点击定位目录,将.defined自定义字段文件粘贴到这里
4.重新打开自定义字段窗口,勾选需要开启的字段重新采集即可看到所需数据。
(注意有些字段需要采集详细信息时才可用)

 

注意:设置完成自定义字段后需要开始采集数据时即可看到自定义字段列哦。

自定义字段应用范围设置介绍:

若字段设置开启了“应用于商品列表页面”,则批量采集时才会建立该列

若字段设置开启了“应用于商品详细页面”,则采集详细信息时才会建立该列

若字段设置开启了“应用于变体详细页面”,则采集变体详细信息时才会建立该列

以上字段生效范围可同时开启。

 

自定义字段还支持匹配过滤,对匹配到信息的商品进行删除筛选:

若字段设置开启了“若匹配到内容删除所在行”,则此自定义配置抓取到数据,就会删除所在行商品

若字段设置开启了“若匹配不到内容删除所在行”,则此自定义配置抓取不到数据,就会删除所在行商品

通过自定义匹配,可实现更多复杂便捷的过滤筛选需求。

 

本节来介绍如何使用自定义来进行提取指定数据

 

共有三种方法提取指定文本,不同方法提取能力不同,适用场景不同:

第一种:左右文本标记简单提取(此方法适合简单的文本提取,配置简单)

第二种:正则提取(适合懂正则表达式的用户配置,能匹配提取大部分文本数据)

第三种:JS脚本代码提取(适合理解JS脚本的用户配置,99%的页面上的信息数据都能通过JS脚本准确提取)

下面,我们来分别简单介绍一下三种方法。

例子:

首先我们先阐述一下需求场景

适合简单的提取,例如提取产品尺寸信息,这个信息采集器原本并未默认支持采集,因此我们需要用自定义字段进行采集。

 

第一步:右键,查看该页面的源码。

第二步:按下CTRL+F,搜索2.6 x 0.3 x 5.4 inches字符串,定位到该字符串的位置

第三步:

定位到该字符串的位置,如下图:


下面我们利用前面提到的三种方法来进行采集。

第一种:左右文本标记简单提取

左右文本标记比较简单,仅需要左边文本和右边文本,即可定位中间的文本,即要提取的数据。

按如下图所示填写:

将2.6 x 0.3 x 5.4 inches字符串左右的代码文本复制到 左标记文本和 右标记文本中,即可提取到体积。我们可以复制所有源码调试。如下图:

可以看到调试成功,下面我们保存,并勾选开启这个字段,进行采集。如下图:


第二种:利用正则表达式提取

有关正则表达式可查看网络上相关教程,这里不再叙述

按下图设置

可以看到成功采集到了数据:

 


第三种:利用JS脚本提取

首先我们插入JS模板函数,点击插入JS模板按钮。即可插入,如下图:

只需要在__Cx_html__函数中,编写处理提取文本的代码或其他需要的代码,即可实现更复杂的数据提取。

function __Cx_html__(html){

//此处写相关处理代码并return返回处理完的数据

}

我们利用JS的正则处理函数,进行提取,编写JS代码如下:

 

function __Cx_html__(html){

var m=html.match(/[0-9 \.xX]+inches/); //正则匹配
return m[0]; //取出返回结果
}

如下图:

JS脚本代码运行错误以及错误提示,可在调试中进行调试查看。

通过JS代码来提取指定信息并输出。如下图:

 

小技巧:JS脚本不仅可以用于文本提取,还可以按不同数据对应不同场景返回数据到表格,例如可用时间函数,返回此数据采集的时间、返回随机数等等。功能大大扩展。

 

JS提取功能还在测试中,如有问题请联系我们反馈

 

附录:

常用正则表达式匹配:

美国站匹配重量正则表达式:([0-9\.]+ ounces)|([0-9\.]+ pounds)

美国站匹配尺寸正则表达式:[0-9\. xX]+ inches

 

附赠已经写好的自定义规则文件:

使用方法:如下文件下载后,请在自定义规则配置工具中,点“定位目录”,将文件粘贴到此目录中,然后重新打开自定义规则配置刷新即可显示,然后选中即可生效哦

请查看这里,下载我们预设的配置文件 : http://blog.cxsup.com/archives/1531

 

发表评论