本教程为20220006以下版本提供乱码解决的教程,如果您是新版本(20220006以上版本)的,请无视本教程,新版基本不存在乱码的问题,并且支持Unicode字符集。务必在【系统设置】关闭【使用ANSI编码】即可畅享Unicode字符集采集,特殊符号不会变问号。
三种常见乱码问题:
第一种是HTML实体文本
例如标题采集下来是:iPhone 6s 6 エッジ DOLPHIN47 EDGE
常见于中国、日本、英国站
第二种德国法国意大利西班牙等非英语站点的HTML实体字符
例如标题采集下来是:Apple iPhone SE Smartphone débloqué 4G (Ecran : 4 pouces – 16 Go – Simple Nano SIM – iOS) Argent
这种非英文字母也是乱码。
以上这些类似 “é”、“ン”代码名为 HTML实体,您不了解也没关系,按教程解决即可。
第三种特殊字符(Unicode符号)显示为问号
例如Verschiedene 10ner Sets Fruit of the Loom T Shirts. Diverse Farbsets auswählbar. Viele Sets bis 5XL auswählbar 中的ä 等字符,包括emoji表情在内,在采集器旧版20220006以下版本中中采集下来会变成问号,这是由于程序编码不支持导致的。解决办法请看下面
解决乱码
第一种中日站点问题解决:
此问题您只要升级到最新版本20220006及以上版本就不存在了(除了一些很特殊的字符无法编码外),升级后即可解决。
第二种 HTML实体乱码:
此问题您只要升级到最新版本20220006及以上版本就不存在了。升级即可直接解决。
如果您一定要用旧版本,请按如下方法解决:
此问题目前在最新版本20177801以上版本可通过导出数据时进行编码转换解决。
首先正常采集即可。可以看到采集的数据中存在“HTML实体”乱码,如下图:
接下去,点击保存数据,保存。并打开“自动对保存文件进行HTML实体编码”功能,如下图:
第三种 特殊字符(Unicode字符)变成问号的问题解决:
最新版已无需再配置繁琐操作,直接即可解决,建议升级到20220006及以上版本,并且在【系统设置】关闭【使用ANSI编码】即可畅享Unicode字符集采集,特殊符号不会变问号。
本软件20220006(更新日期2022-4-3以前)之前的版本都不支持Unicode字符集,软件以ANSI编码(GB2312)编码开发,因此不兼容小语种特殊字符、emoji表情,这些文字采集会变成问号,为了解决这个痛点,我们对采集器200多个模块300多个接口进行重新开发,现已支持Unicode字符。
关闭ANSI编码后,采集数据时使用UTF8编码采集,导出Excel表格数据编码为UTF16。CSV为UTF8编码。所有特殊符号软件中均可正常显示。
若您不想升级,一定要用旧版本,请按如下方法解决:
请您自行配置HTML实体替换功能,将特殊字符替换成代码,然后导出Excel时软件会将特殊字符还原,从而解决Unicode变问号的问题。
我们在20180148及以上版本增加了特殊字符变相的解决方案,您仅需按我们操作即可。
本功能仅能够编码常见的特殊字符,还有一些特殊字符尚未收录,您可以自己配置编码文件,在导出数据窗口中,点击【文件编码设置】,点击【管理自定义附加HTML实体编码列表】,一行一条按说明配置要转码的字符,然后另存为,编码格式必须选择UTF8保存即可。然后点击【设置完点我刷新】按钮,即可采集数据,采集时特殊符号会转为您设置的HTML实体编码,导出时会自动还原。具体看如下方法操作
首先在系统设置中,打开 特殊字符自动转换功能:
打开该项后,所有特殊字符会被编码成类似 ä 的字符,例如特殊字符 ä 的编码为ä,那么在采集器中文本 auswählbar会被显示为为auswählbar,只有保存成excel文件后,才能看到特殊字符。
然后我们保存文件,并在“文件编码设置”中打开“对保存的文件进行HTML实体编码”如下图:
开启本项目后,保存文件后,软件会自动将文件中所有特殊字符还原。特殊字符仅限在excel软件中查看,如下图
通过这种方式,虽然软件中依然是乱码,但是导出后不会乱吗,算是一种妥协的解决办法。
开启后,保存数据即可导出被转码的数据文件。
转码必看说明:
以下说明适用于20220006以下版本。
- 转码后的文件将无法直接导入采集器中,若您需要将转码后的文件导入采集器,利用记事本打开文件,点击菜单栏的文件,选择另存为,编码选择“ANIS”编码,然后保存,保存转码后的文件即可正常导入采集器中。
- 若数据量比较大,转码过程会比较慢,请耐心等待
- 如果默认的HTML实体编码无法满足需求,可自定义添加,添加方式按“文件编码设置”处提示操作。
- 此功能尚处于实验测试期,若您使用中有BUG或疑问,可以联系我们反馈。
20220006及以上版本编码说明:
以下说明适用于20220006及以上版本
- 系统设置里务必关闭使用ANSI编码,才能使用Unicode字符集采集
- 由于支持Unicode字符采集费了很大的劲,重新开发了很多模块代码,因此稳定性有待测试,若您采集不稳定,可以反馈给我们,以便改进,改进期间您可以开启使用ANSI编码,按老版本的方式采集。
- 部分窗口目前尚未支持Unicode字符输入,仍然会变成问号,但是我们基本80%的应用都已经转为Unicode字符集,因此您正常使用一般无需关心。
- 等待Unicode字符采集稳定后,我们将删除所有旧版遗留的转码等功能。