【进阶知识】采集器文件编码介绍

| 2017-09-10 05:49:17

By | 2017年9月10日

本教程为20220006以下版本提供乱码解决的教程,如果您是新版本(20220006以上版本)的,请无视本教程,新版基本不存在乱码的问题,并且支持Unicode字符集。务必在【系统设置】关闭【使用ANSI编码】即可畅享Unicode字符集采集,特殊符号不会变问号。

 

三种常见乱码问题:

第一种是HTML实体文本

例如标题采集下来是:iPhone 6s 6 エッジ DOLPHIN47 EDGE

常见于中国、日本、英国站

第二种德国法国意大利西班牙等非英语站点的HTML实体字符

例如标题采集下来是:Apple iPhone SE Smartphone débloqué 4G (Ecran : 4 pouces – 16 Go – Simple Nano SIM – iOS) Argent

这种非英文字母也是乱码。

以上这些类似 “é”、“ン”代码名为  HTML实体,您不了解也没关系,按教程解决即可。

 

第三种特殊字符(Unicode符号)显示为问号

例如Verschiedene 10ner Sets Fruit of the Loom T Shirts. Diverse Farbsets auswählbar. Viele Sets bis 5XL auswählbar 中的ä 等字符,包括emoji表情在内,在采集器旧版20220006以下版本中中采集下来会变成问号,这是由于程序编码不支持导致的。解决办法请看下面

 

解决乱码

第一种中日站点问题解决:

此问题您只要升级到最新版本20220006及以上版本就不存在了(除了一些很特殊的字符无法编码外),升级后即可解决。

 

第二种 HTML实体乱码:

此问题您只要升级到最新版本20220006及以上版本就不存在了。升级即可直接解决。

如果您一定要用旧版本,请按如下方法解决:

此问题目前在最新版本20177801以上版本可通过导出数据时进行编码转换解决。

首先正常采集即可。可以看到采集的数据中存在“HTML实体”乱码,如下图:

接下去,点击保存数据,保存。并打开“自动对保存文件进行HTML实体编码”功能,如下图:

 

 

第三种 特殊字符(Unicode字符)变成问号的问题解决:

最新版已无需再配置繁琐操作,直接即可解决,建议升级到20220006及以上版本,并且在【系统设置】关闭【使用ANSI编码】即可畅享Unicode字符集采集,特殊符号不会变问号。

本软件20220006(更新日期2022-4-3以前)之前的版本都不支持Unicode字符集,软件以ANSI编码(GB2312)编码开发,因此不兼容小语种特殊字符、emoji表情,这些文字采集会变成问号,为了解决这个痛点,我们对采集器200多个模块300多个接口进行重新开发,现已支持Unicode字符。

关闭ANSI编码后,采集数据时使用UTF8编码采集,导出Excel表格数据编码为UTF16。CSV为UTF8编码。所有特殊符号软件中均可正常显示。

 

若您不想升级,一定要用旧版本,请按如下方法解决:

请您自行配置HTML实体替换功能,将特殊字符替换成代码,然后导出Excel时软件会将特殊字符还原,从而解决Unicode变问号的问题。

我们在20180148及以上版本增加了特殊字符变相的解决方案,您仅需按我们操作即可。

本功能仅能够编码常见的特殊字符,还有一些特殊字符尚未收录,您可以自己配置编码文件,在导出数据窗口中,点击【文件编码设置】,点击【管理自定义附加HTML实体编码列表】,一行一条按说明配置要转码的字符,然后另存为,编码格式必须选择UTF8保存即可。然后点击【设置完点我刷新】按钮,即可采集数据,采集时特殊符号会转为您设置的HTML实体编码,导出时会自动还原。具体看如下方法操作

首先在系统设置中,打开 特殊字符自动转换功能:

打开该项后,所有特殊字符会被编码成类似 ä 的字符,例如特殊字符 ä 的编码为ä,那么在采集器中文本 auswählbar会被显示为为auswählbar,只有保存成excel文件后,才能看到特殊字符。

然后我们保存文件,并在“文件编码设置”中打开“对保存的文件进行HTML实体编码”如下图:

开启本项目后,保存文件后,软件会自动将文件中所有特殊字符还原。特殊字符仅限在excel软件中查看,如下图

通过这种方式,虽然软件中依然是乱码,但是导出后不会乱吗,算是一种妥协的解决办法。

开启后,保存数据即可导出被转码的数据文件。

转码必看说明:

以下说明适用于20220006以下版本。

  1. 转码后的文件将无法直接导入采集器中,若您需要将转码后的文件导入采集器,利用记事本打开文件,点击菜单栏的文件,选择另存为,编码选择“ANIS”编码,然后保存,保存转码后的文件即可正常导入采集器中。
  2. 若数据量比较大,转码过程会比较慢,请耐心等待
  3. 如果默认的HTML实体编码无法满足需求,可自定义添加,添加方式按“文件编码设置”处提示操作。
  4. 此功能尚处于实验测试期,若您使用中有BUG或疑问,可以联系我们反馈。

 

20220006及以上版本编码说明:

以下说明适用于20220006及以上版本

  1. 系统设置里务必关闭使用ANSI编码,才能使用Unicode字符集采集
  2. 由于支持Unicode字符采集费了很大的劲,重新开发了很多模块代码,因此稳定性有待测试,若您采集不稳定,可以反馈给我们,以便改进,改进期间您可以开启使用ANSI编码,按老版本的方式采集。
  3. 部分窗口目前尚未支持Unicode字符输入,仍然会变成问号,但是我们基本80%的应用都已经转为Unicode字符集,因此您正常使用一般无需关心。
  4. 等待Unicode字符采集稳定后,我们将删除所有旧版遗留的转码等功能。

发表回复