WO2015043072A1

WO2015043072A1 - 一种选择读取目标文档的编码格式的方法及其系统

Info

Publication number: WO2015043072A1
Application number: PCT/CN2013/088745
Authority: WO
Inventors: 叶茂; 万巍; 金立峰; 王元龙
Original assignee: 北大方正集团有限公司; 北京方正阿帕比技术有限公司; 北京大学
Priority date: 2013-09-29
Filing date: 2013-12-06
Publication date: 2015-04-02
Also published as: JP6280211B2; CN104516862B; EP3051428A1; JP2016540269A; EP3051428B1; EP3051428A4; US20160239467A1; CN104516862A; US10366143B2

Abstract

本发明提供一种选择读取目标文档的编码格式的方法及其系统，首先通过参考编码格式读取参考文档获得乱码模式，然后在对目标文档读取时，对于每种编码格式，将该编码格式读取目标文档时产生的数据与确定的乱码模式进行比较，确定利用该编码格式读取目标文档时产生的乱码；再统计利用每种编码格式读取目标文档时产生的乱码，并进行比较，然后确定读取目标文档的编码格式。上述技术方案有效避免了现有技术中只是读出目标文档的前几个字节，判定这些字节的值，从而得知其编码的格式，但是，有时候，目标文档的前几个字节并没有保留该文档的编码格式信息，无法获得该文档的编码格式的问题。

Description

一种选择读取目标女档的编码格式的方法及其系统

技术领域本发明涉及一种选择读取目标文档的编码格式的方法及其系统，属于电数字数据处理技术领域。背景技术编码格式是指用预先规定的方法将文字、数字或其他对象编成数码。编码格式在电子计算机、电视等相关领域广泛使用。文件编码格式也称为字符编码格式，用于指定在处理文本时如何表示字符。读取中文文件时，未正确匹配文件编码格式的情况可能会导致发生异常或产生不正确的结果。常见的汉字编码格式包括 GB2312、 BIG5、 GBK、 UTF-8等，对于简体汉字的编码格式，目前又以 GB2312和 UTF-8最为常用。在 windows系统中，文本文档被广泛使用，开发人员在编写程序读取文档时经常遇到中文编码格式问题。例如，当读取一个文档进行后续处理时，发现程序产出的结果与预期不一致，通过调试 «，发现根本原因是读件时，由于程序中用于读取文件的编码格式与文件本身的编码格式不一致，导致程序读取得到的是乱码，从而带来了后续的错误。这种情况普遍存在于开发过程中。此外，当需要读取的文档数量很多，并且这些文件的编码格式可能不一致时，就更需要能够有一种选择读取目标文档的编码格式的方法来提高开发效率。现有技术中公开的文本文档的编码格式读取方法，是读出文本文档的前几个字节，判定这些字节的值，从而得知其编码的格式。但是，有时候，文本文档的前几个字节并没有保留该文本文档的编码格式信息，通过这种方法就无法得到该文本文档的编码格式。如果能够有一种机制，通过选择正确的编码格式来读取文档，将可以大大降低由于文件编码格式引起的问题，提高开发效率。发明内容本发明所要解决的技术问题是现有技术只是读出所述目标文档的前几个字节，判定这些字节的值，从而得知其编码的格式，但是，有时候，目标文档的前几个字节并没有保留该文档的编码格式信息，无法获得该文档的编码格式的问题。为解决上述技术问题，本发明是通过以下技术方案实现的：

一种选择读取目标文档的编码格式的方法，包括：通过至少一个参考编码格式读取参考文档，确定利用所述参考编码格式读取参考文档时得到的全部或部分乱码模式；每次利用一种编码格式读取目标文档；对于每种编码格式，将该编码格式读取所述目标文档时产生的数据与确定的乱码模式进行比较，确定利用该编码格式读取所述目标文档时产生的乱码；统计利用每种编码格式读取所述目标文档时产生的乱码，并进行比较，然后确定读取所述目标文档的编码格式。可选地，所述参考编码格式属于包含了全部或部分编码格式的编码格式集，

格式。可选地，通过所有的参考编码格式读取参考文档，确定利用所述参考编码格式读取参考文档时得到的全部或部分乱码模式。

可选地，所述确定利用所述参考编码格式读取参考文档时得到的全部或部码模式的过程如下：对于使用参考编码格式读取参考文档时获得的乱码字符串，删码字符串中的非有效判断字符，获^ 效判断字符；统计有效判断字符中乱码字符的出现次数，获取乱码模式。可选地，所述非有效判断字符指英文字母、数字和空白字符；所述有效判断字符指除所述非有效判断字符以外的所有字符。

可选地，统计有效判断字符中乱码字符的出现次数，获取乱码模式时，预先设定次数的阈值，对于出现次数大于所述阈值的所有乱码字符，保存为乱码模式。

可选地，统计有效判断字符中乱码字符的出现次数，获取乱码模式时，按乱码字符出现次数倒序排列乱码字符；取得排列在前的部分乱码字符，并将所取的乱码字符^ 为乱码模式。可选地，取得排列在前 k%的乱码字符，并将所取的乱码字符保存为乱码模式，其中 k为正数， 50≤k≤100。可选地，所述每次利用一种编码格式读取目标文档时读取部分内容，直到获得预先设置的有效判断字符数为止；若读取所述文档的所有内容后仍未获得预先设置的有效判断字符数，则按实际获取的有效判断字符数为准。有效判断字符数为 50-1000。可选地，将该编码格式读取所述目标文档时产生的数据与确定的乱码模式进行比较，确定利用该编码格式读取所述目标文档时产生的乱码的过程为：将通过每个编码格式读取所述目标文档时产生的数据逐个与所述乱码模式中的乱码字符逐个比较，如果乱码字符包含此数据，则判定此数据为乱码，否则，则不认为该数据为^ ^码。可选地，统计利用每种编码格式读取所述目标文档时产生的乱码，并进行比较，然后确定读取所述目标文档的编码格式的过程为：统计利用每种编码格式读取所述目标文档时产生的乱码比例，选择乱码比例最低的编码格式作为读取所述目标文档的编码格式；或统计利用每种编码格式读取所述目标文档时产生的乱码比例，选择乱码比例低于预设阈值的编码格式作为读取所述目标文档的编码格式。可选地，所述乱码比例为所述乱码字符占有效判断字符的比例。可选地，在每次利用一种编码格式读取目标文档时，所述编码格式属于所述编码格式集。一种选 ^取目标文档的编码格式的系统，包括：乱码模式生成模块，用于通过至少一个参考编码格式读取参考文档，确定利用所述参考编码格式读取参考文档时得到的全部或部分乱码模式；目标文档读取模块，用于每次利用一种编码格式读取目标文档；读取乱码模块，用于对于每种编码格式，将该编码格式读取所述目标文档时产生的数据与确定的乱码模式进行比较，确定利用该编码格式读取所述目标文档时产生的乱码；读取编码格式选择模块，用于统计利用每种编码格式读取所述目标文档时产生的乱码，并进行比较，然后确定读取所述目标文档的编码格式。可选地，所述参考编码格式属于包含了全部或部分编码格式的编码格式集，

可选地，所述确定利用所述参考编码格式读取参考文档时得到的全部或部码模式的过程如下：对于使用参考编码格式读取参考文档时获得的乱码字符串，删 I^L码字符串中的非有效判断字符，获^ 效判断字符；统计有效判断字符中乱码字符的出现次数，获取乱码模式。可选地，所述非有效判断字符指英文字母、数字和空白字符；所述有效判断字符指除所述非有效判断字符以外的所有字符。可选地，统计有效判断字符中乱码字符的出现次数，获取乱码模式时，预先设定次数的阈值，对于出现次数大于所述阈值的所有乱码字符，保存为乱码模式。

可选地，统计有效判断字符中乱码字符的出现次数，获取乱码模式时，按乱码字符出现次数倒序排列乱码字符；取得排列在前的部分乱码字符，并将所取的乱码字符^ 为乱码模式。可选地，取得排列在前 k%的乱码字符，并将所取的乱码字符保存为乱码模式，其中 k为正数， 50≤k≤100。可选地，所述每次利用一种编码格式读取目标文档时读取部分内容，直到获得预先设置的有效判断字符数为止；若读取所述文档的所有内容后仍未获得预先设置的有效判断字符数，则按实际获取的有效判断字符数为准。有效判断字符数为 50-1000。

可选地，将该编码格式读取所述目标文档时产生的数据与确定的乱码模式进行比较，确定利用该编码格式读取所述目标文档时产生的乱码的过程为：将通过每个编码格式读取所述目标文档时产生的数据逐个与所述乱码模式中的乱码字符逐个比较，如果乱码字符包含此数据，则判定此数据为乱码，否则，则不认为该数据为^ ^码。可选地，统计利用每种编码格式读取所述目标文档时产生的乱码，并进行比较，然后确定读取所述目标文档的编码格式的过程为：统计利用每种编码格式读取所述目标文档时产生的乱码比例，选择乱码比例最低的编码格式作为读取所述目标文档的编码格式；或，统计利用每种编码格式读取所述目标文档时产生的乱码比例，选择乱码比例低于预设阈值的编码格式作为读取所述目标文档的编码格式。可选地，所述乱码比例为所述乱码字符占有效判断字符的比例。可选地，在每次利用一种编码格式读取目标文档时，所述编码格式属于所述编码格式集。

一种或多种具有计算机可执行指令的计算机可读介廣，所述指令在由计算机执行时，执行选择读取目标文档的编码格式的方法，该方法包括：通过至少一个参考编码格式读取参考文档，确定利用所述参考编码格式读取参考文档时得到的全部或部分乱码模式；每次利用一种编码格式读取目标文档；对于每种编码格式，将该编码格式读取所述目标文档时产生的数据与确定的乱码模式进行比较，确定利用该编码格式读取所述目标文档时产生的乱码；统计利用每种编码格式读取所述目标文档时产生的乱码，并进行比较，然后确定读取所述目标文档的编码格式。开的上述技术方案相比现有技术具有以下一个或者多个优点：

( 1 ) 开所述的选 ^取目标文档的编码格式的方法及其系统，首先通过参考编码格式读取参考文档获得乱码模式，然后在对目标文档读取时，对于每种编码格式，将该编码格式读取所述目标文档时产生的数据与确定的乱码模式进行比较，确定利用该编码格式读取所述目标文档时产生的乱码；再统计利用每种编码格式读取所述目标文档时产生的乱码，将乱码比例最小的或乱码比现有技术中只是读出所述目标文档的前几个字节，判定这些字节的值，从而得知其编码的格式，但是，有时候，目标文档的前几个字节并没有保留该文档的编码格式信息，无法获得该文档的编码格式的问题。

( 2 )本公开所述的选择读取目标文档的编码格式的方法，所述获取乱码模式的过程中，对于使用参考编码格式读取参考文档时获得的乱码字符串，删除了乱码字符串中的非有效判断字符，使处理的字符数更少，进一步提高了处理速度，同也提高了获取乱码的准确率。

( 3 )本公开所述的选择读取目标文档的编码格式的方法，按一定的比例取乱码字符出现次数较高的乱码字符作为乱码模式，过滤了一些非常见的乱码字符，提高了后续选择读取目标文档的编码格式的效率。

( 4 )本公开所述的选择读取目标文档的编码格式的方法，是依据乱码比例最小的方法选择读取目标文档的编码格式，构思巧妙，方法简单，易于实现。

( 5 )本公开所述的选择读取目标文档的编码格式的方法，根据乱码比例小于预设阈值时就将该编码格式作为读取文档的编码格式，避免了利用所有的编码格式进行读取目标文档后才选择时需要较长的处理时间，进一步提高了选择读取目标文档的编码的效率。

( 6 )本公开所述的选择读取目标文档的编码格式的方法，每次利用一种编码格式读取目标文档时读取部分内容，获得预先设置的有效判断字符数为止，使选取的所述有效判断字符既不失代表性又进一步提高了选择读取目标文档的编码的效率。

( 7 ) 开所述的选 ^取目标文档的编码格式的系统，利用开的选 ^取目标文档的编码格式的方法，有效避免了现有技术中只是读出所述目标文档的前几个字节，判定这些字节的值，从而得知其编码的格式，但是，有时候，目标文档的前几个字节并没有保留该文档的编码格式信息，无法获得该文档的编码格式的问题。附图说明为了使本发明的内容更容易被清楚的理解，下面结合附图，对本发明作进一步详细的说明，其中，图 1是本发明选择读取目标文档的编码格式的方法一个实施例的流程图；图 2是本发明选择读取目标文档的编码格式的系统一个实施例的结构图。具体实施方式实施例一本实施例提供一种选 ^取目标文档的编码格式的方法，其¾½图如图 1 所示，步骤包括：

Sl、通过至少一个参考编码格式读取参考文档，确定利用参考编码格式读取参考文档时得到的全部或部分乱码模式。本实施例中文档为文本文档。参考编码格式属于包含了全部编码格式的编码格式集。一个实施例中，确定利用参考编码格式读取参考文档时得到的全部或部分乱码模式的过程如下：对于使用参考编码格式读取参考文档时获得的乱码字符串，删除乱码字符串中的非有效判断字符，获^ 效判断字符；统计有效判断字符中乱码字符的出现次数，获取乱码模式。其中，非有效判断字符指英文字母、数字和空白字符；有效判断字符指除非有效判断字符以外的所有字符。本实施例获取乱码模式的过程中，对于使用参考编码格式读取参考文档时获得的乱码字符串，删除了乱码字符串中的非有效判断字符，使处理的字符数更少，进一步提高了处理速 JL，同也提高了获取乱码的准确率。优选地，统计有效判断字符中乱码字符的出现次数，获取乱码模式时，预先设定次数的阈值，对于出现次数大于阈值的所有乱码字符，为乱码模式。本实施例按一定的比例取乱码字符出现次数较高的乱码字符作为乱码模式，过滤了一些非常见的乱码字符，提高了后续选择读取目标文档的编码格式的效率。

优选地，统计有效判断字符中乱码字符的出现次数，获取乱码模式时，按乱码字符出现次数倒序排列乱码字符；取得排列在前的部分乱码字符，并将所取的乱码字符保存为乱码模式。取得排列在前 k%的乱码字符，并将所取的乱码字符保存为乱码模式，其中 k为正数， 50≤k≤100。在本实施例中，在本实施例中，取得前 80%的乱码字符，这些乱码字符就是需要获取的乱码模式。作为可替换的实施例，取得前 k%的乱码字符，并将所取的乱码字符保存为乱码模式。其中 k为正数， k的取值范围为 60≤k≤90。 k可以选择 60、 70、 75、 90等不同的值，根据用户的需求选择不同的值。

S2、每次利用一种编码格式读取目标文档时读取部分内容，直到获得预先设置的有效判断字符数为止。编码格式属于编码格式集，也就是说属于之前的

这样参考编码格式和选择读取目标文档的编码格式属于相同的集合，对于已经建立过^^码模式的编码格式，再次进行选择读取时，乱码模式对产生的乱码的识别率高。若读取该目标文档的所有内容后仍未获得预先设置的有效判断字符数，则按实际获取的有效判断字符数为准。有效判断字符数为 50-1000。优选地，有效判断字符数取 100。在其他实施例中有效判断字符数可以取 70、 150、 200、 300、 500、 700、 1000等不同的值，根据用户的需求来选择不同的值。本实施例的选择读取目标文档的编码格式的方法，在读取目标文档时只读取目标文档的部分内容，获得预先设置的有效判断字符数为止，使选取的有效判断字符既不失代表性又进一步提高了选择读取目标文档的编码的效率。

S3、对于每种编码格式，将该编码格式读取目标文档时产生的数据与确定的乱码模式进行比较，确定利用该编码格式读取目标文档时产生的乱码。一个实施例中，具体过程为：将通过每个编码格式读取目标文档时产生的数据逐个与乱码模式中的乱码字符比较，如果乱码字符包含此数据，则判定此数据为乱码，否则，则不认为该数据为^ ^码。

S4、统计利用每种编码格式读取目标文档时产生的乱码，并进行比较，然后确定读取目标文档的编码格式。

一个实施例中，具体过程为：统计利用每种编码格式读取目标文档时产生的乱码比例，选择乱码比例最低的编码格式作为读取目标文档的编码格式。其中，乱码比例为乱码字符占所读取的有效判断字符的比例。本实施例的选择读取目标文档的编码格式的方法，是依据乱码比例最小的方法选择读取目标文档的编码格式，构思巧妙，方法简单，易于实现。优选地，统计利用每种编码格式读取目标文档时产生的乱码比例，选择乱码比例低于预设阈值的编码格式作为读取目标文档的编码格式。本实施例的选择读取目标文档的编码格式的方法，根据乱码比例小于预设阈值时就将该编码格式作为读取文档的编码格式，避免了利用所有的编码格式进 ^取目标文档后才选择时需要较长的处理时间，进一步提高了选 ^取目标文档的编码的效率。本实施例的选择读取目标文档的编码格式的方法及其系统，首先通过参考编码格式读取文档获得乱码模式，然后在对目标文档读取时，对于每种编码格式，将该编码格式读取目标文档时产生的数据与确定的乱码模式进行比较，确定利用该编码格式读取目标文档时产生的乱码；再统计利用每种编码格式读取目标文档时产生的乱码，将乱码比例最小的或乱码比例低于预设阈值的编码格式确定为读取目标文档的编码格式。有效避免了现有技术中只是读出目标文档的前几个字节，判定这些字节的值，从而得知其编码的格式，但是，有时候，目标文档的前几个字节并没有保留该文档的编码格式信息，无法获得该文档的编码格式的问题。实施例二第一、收集 500个参考文档。通过至少一个参考编码格式读取参考文档，确定利用参考编码格式读取参考文档时得到的全部或部分乱码模式。取上述参考文档中的一个文档使用 UTF-8编码格式读取该文档，例如原文本"中秋节，我们公司给我发了一千五百元过节费，大家都很 happy! ，，， J^ 文档的编码格式为 UTF-8,使用 GB2312编码读取，得到"锘夸腑绉令令锛令令

令"，删除非有效判断字符 "yhappy"，剩余的字符都为有效判定字符， "锘夸腑绉锛令，，，再判断是否是乱码，进行计算。取上述参考文档中的一个文档使用 GB2312编码格式读取该文档，例如原 L ^"我的体重很重， 75千克，我老婆的体重很轻，才 38千克。 "，文本文档的编码格式为 GB2312 ，使用 UTF-8 编码读取，得到 "令 η令令令令 ^令令 i令 ₇₅ 令 X令令令令令令令令令令 ^令令 E1令令 38 令¹ 令

，，，删除非有效判断字符 "7538"，剩余的字符都为有效判定字符， "令 η令令令令 ^令令 i令令令令令令令令令令令 ^令令 IE令令令| 令，，，再判断是否是乱码， ¾ 十算。对 500个参考文档逐个分别使用 UTF-8和 GB2312编码格式读取，统计有效判断字符中乱码字符的出现次数，取得前 80%的乱码字符为 "锛涓銪紝鐄瑰杆浜鏈"，将这些乱码字符^ 为乱码模式。第二、取编码格式 UTF-8,使用编码格式 UTF-8读取目标文档的部分内容，当读取到第 112个字符时，共获取 100个有效判断字符。然后再使用编码格式 GB2312读取目标文档，获取 100个有效判断字符。第三、分别对于编码格式 UTF-8和编码格式 GB2312, 将该编码格式读取目标文档时产生的数据与确定的乱码模式中的乱码字符进行比较，确定利用该编码格式读取目标文档时产生的乱码字符。第四、使用编码格式 UTF-8读取目标文档获取的数据，根据乱码模式统计 100个有效判定字符中乱码字符的个数为 86，计算得到乱码字符的比例 86%。使用编码格式 GB2312读取目标文档获取的数据，计算得到乱码字符的比例 0%。则将乱码比例最小的编码格式 GB2312作为读取目标文档的编码格式。实施例三本实施例提供一种选择中文文本文档读取编码格式方法，包含两个阶段，第一个阶段是通过统计得到乱码模式的过程，第二个阶段是选择目标文档的读取编码格式的½。本实施例中，非有效判断字符指英文字母（包含大小写）、数字和空白字符 (包括空格、制表符、换行符等)；有效判断字符指非英文字母（包含大小写 )、数字和空白字符（包括空格、制表符、换行符等)。本实施例从编码格式集中选择一种文件编码格式作为参考编码格式，编码格式集 C = {_Cl ,c₂ , 其中 _C,是一种中文文本文档的编码格式，作为参考编码格式去读取参考文档。第一个阶段，通过统计得到乱码模式的过程。第一步，收集中文训练语料，将中文训练语料库 ^{= {}«，"，作为参考文档集，其中是一个中文文本文档，即本实施例中的一个参考文档。文件的编码格式表示为 ^/( )，读取文件时会产出乱码的编码格式作为参考编码格式，参考编码格式的集合表示为 ^C:，可知、, 即当使用中的编码格式读取文件时会产生^ ^码。第二步，取得一个参考文档，分别使用 C;中的不同参考编码格式读取文件，得到多 NL码字符串。第三步，删^ L码字符串中的非有效判断字符。第四步，统计乱码字符串中各乱码字符出现的次数。第五步，对于每一个参考文档重复第二到第四步，统计各乱码字符出现次数。第六步，按乱码字符出现次数倒序排列乱码字符。第七步，取得前 m%的乱码字符，这些乱码字符就是需要获取的乱码模式，该乱码模式包含了编码格式集 C = {_Cl , c₂ ,… , _C }下的常见 ^^码特征。 m的取值大于等于 50且小于 100， m取值在 60和 90之间。第二个阶段，选择目标文档的读取编码格式的过程。此处的目标文档也为中文文本文档。本阶段有两种实现方式。实现方式一如下：第一步，从编码格式集 C中取得一种编码格式 c,，使用编码格式 c,读取目标文档的部分内容，获得前 n个有效判断字符。若完成整个文件的读取时，获取的有效判断字符数仍小于 n，则以实际获取的字符数为准。假设该阶段最终获得了 m个有效判断字符。 n的取值大于等于 10，取值区间 [50,1000】。第二步，根据乱码模式统计 m个有效判定字符中乱码字符的个数 m，，计算得到乱码比例 m，/m。将编码格式 c,及乱码比例 m，/m加入列表统计乱码字符的一种方法为： m，置零，依次读取 m个字符中的每一个字符，如果该字符属于乱码模式，则 m，加一；当遍历 m个字符后， m，中的值就是乱码字符数。第三步，对于编码格式集 C中的其他编码格式，重复第一步到第二步。第四步，返回列表 L中选码比例最小的编码格式作为读取目标文档的编码格式。作为可以替换的另外一种实施方式，第二个阶段也可如下进行：第一步，从编码格式集 C中取得一种编码格式 c,，使用编码格式 c,读取目标文档的部分内容，获取前 n个有效判断字符。若完成整个文件的读取时，获取的有效判断字符数仍小于 n，则以实际获取的字符数为准。假设该阶段最终获得了 m个有效判断字符。 n的取值大于等于 10，取值区间为 [50,1000】。第二步，根据乱码模式统计 m个有效判定字符中乱码字符的个数 m，，计算得到乱码字符的比例 m，/m。统计乱码字符的一种方法为： m，置零，依次读取 m 个字符中的每一个字符，如果该字符属于乱码模式，则 m，加一；当遍历 m个字符后， m，中的值就是乱码字符数。第三步，如果乱码比例 m，/m大于等于阈值，则重复第一步和第二步。如果乱码比例小于阈值，则返回编码格式 c,。阈值取值大于等于 1%，阈值取值在 5%到 50%之间，本实施例中取 15%。本实施例是通过统计得到乱码模式，根据乱码模式自动选择目标文档（为中文文本文档）的读取编码格式。实施例四本实施例提供一种选择读取目标文档的编码格式的方法，包括第一阶段和第二阶段，具体如下：第一个阶段，通过统计得到乱码模式。关注的编码集合是 { UTF-8，GB2312}。第一步，收集 1000个中文文本文档作为参考文档，将其作为中文训练语料，其中 500个文件是 UTF-8编码，另 500个文件是 GB2312编码。本实施例中文本文档指后缀为. txt的格式的文本文档。第二步，从中取得一个 UTF-8编码的文件，使用 GB2312编码读取文档，得到乱码字符串。第三步，删^ L码字符串中的非有效判断字符。第四步，统计乱码字符串中各乱码字符出现的次数。第五步，对于每一个参考文档，重复第二到第四步，统计各乱码字符出现次数。第六步，按乱码字符出现次数倒序排列乱码字符。第七步，取得前 80%的乱码字符，这些乱码字符就是需要获取的乱码模式，该乱码模式包含了关注的编码集合 {UTF-8, GB2312}下的常见乱码特征。得到的乱码模式为 [令锛涓銪紝鐄瑰浜鏈鎿】。第二个阶段，选择目标文档的读取编码。第一步，从关注的编码集合 {UTF-8，GB2312}中取得一种编码 UTF-8,使用编码 UTF-8读取目标文档的前 100个有效判断字符。第二步，根据乱码模式统计 100个有效判定字符中乱码字符的个数为 86, 计^ 到乱码字符的比例 86%。在列表 L中加入条目（UTF-8, 86%). 第三步，对于编码 GB2312, 重复第一步和第二步。在列表 L中加入条目 (GB2312,0%) 第四步，返回列表 L中选择乱码比例最小的编码，即 GB2312作为读取目标文档的编码格式。可以看出，通过编码 GB2312来读取目标文档最可能正确地读取该文档的内容。作为可替换的实施方式，第二个阶段还可以通过以下方式来实现，具体包括：第一步，从关注的编码集合 {UTF-8，GB2312}中取得一种编码 UTF-8,使用编码 UTF-8读取目标文档的前 100个有效判断字符。第二步，根据乱码模式统计 100个有效判定字符中乱码字符的个数为 86, 计算得到乱码字符的比例 86%。第三步，阈值设置为 15%，因为乱码比例 86%大于阈值所以使用编码 GB2312重复第一步和第二步。得到乱码字符的比例 0%，小于阈值则返回编码 GB2312, 将 GB2312作为读取目标文档的编码格式。实施例五图 2是本发明选择读取目标文档的编码格式的系统一个实施例的结构图，本实施例提供一种选 ^取目标文档的编码格式的系统, 包括： L码模式生成模块 21，用于通过至少一个参考编码格式读取参考文档，确定利用参考编码格式读取参考文档时得到的全部或部分乱码模式。参考编码格式属于包含了全部或部分编码格式的编码格式集，且参考编码格式是该编码格式集中读取参考文档时会产生乱码的编码格式。确定利用参考编码格式读取参考文档时得到的全部或部分乱码模式的过程如下：对于使用参考编码格式读取参考文档时获得的乱码字符串，删 I^L码字符串中的非有效判断字符，获取有效判断字符；统计有效判断字符中乱码字符的出现次数，获取乱码模式。其中，非有效判断字符指英文字母、数字和空白字符；有效判断字符指除非有效判断字符以外的所有字符。本实施例获取乱码模式的过程中，对于使用参考编码格式读取参考文档时获得的乱码字符串，删除了乱码字符串中的非有效判断字符，使处理的字符数更少，进一步提高了处理速 JL，同也提高了获取乱码的准确率。优选地，统计有效判断字符中乱码字符的出现次数，获取乱码模式时，预先设定次数的阈值，对于出现次数大于阈值的所有乱码字符，为乱码模式。本实施例按一定的比例取乱码字符出现次数较高的乱码字符作为乱码模式，过滤了一些非常见的乱码字符，为后续选择读取目标文档的编码格式的准确性提供了很好的依据。优选地，统计有效判断字符中乱码字符的出现次数，获取乱码模式时，按乱码字符出现次数倒序排列乱码字符；取得排列在前的部分乱码字符，并将所取的乱码字符保存为乱码模式。取得排列在前 k%的乱码字符，并将所取的乱码字符保存为乱码模式，其中 k为正数， 50≤k≤100。在本实施例中，在本实施例中，取得前 80%的乱码字符，这些乱码字符就是需要获取的乱码模式。在其他实施例中，取得前 k%的乱码字符，并将所取的乱码字符保存为乱码模式。其中 k为正数， k的取值范围为 60≤k≤90。 k可以选择 60、 70、 75、 90等不同的值，根据用户的需求选择不同的值。目标文档读取模块 22，用于每次利用一种编码格式读取目标文档。该模块以获得预先设置的有效判断字符数为止，编码格式属于参考编码格式所属的编码格式集。若读取所有文档的所有内容后仍未获得预先设置的有效判断字符数，则按实际获取的有效判断字符数为准。有效判断字符数为 50-1000。优选地，有效判断字符数取 100。在其他实施例中有效判断字符数可以取 70、 150、 200、 300、 500、 700、 1000等不同的值，根据用户的需求来选择不同的值。读取 L码模块 23，用于对于每种编码格式，将该编码格式读取目标文档时产生的数据与确定的乱码模式进行比较，确定利用该编码格式读取目标文档时产生的乱码。具体过程为：将通过每个编码格式读取目标文档时产生的数据逐个与乱码模式中的乱码字符比较，如果乱码字符包含此数据，则判定此数据为乱码，否则，则不认为该数据为^ ^码。优选地，对于使用编码格式读取目标文档时获得的乱码字符串，删 I^L码字符串中的非有效判断字符，获^ T效判断字符；统计有效判断字符中乱码字符的出现次数，获取乱码模式。

24，用于统计利用每种编码格式读取目标文档时产生的乱码，并进行比较，然后确定读取目标文档的编码格式。具体过程为：统计利用每种编码格式读取目标文档时产生的乱码比例，选码比例最低的编码格式作为读取目标文档的编码格式。优选地，统计利用每种编码格式读取目标文档时产生的乱码比例，选择乱码比例低于预设阈值的编码格式作为读取目标文档的编码格式。其中乱码比例为乱码字符占所读取的有效判断字符的比例。本实施例的选 ^取目标文档的编码格式的系统，利用本发明的选 ^取目标文档的编码格式的方法，有效避免了现有技术中只是读出目标文档的前几个字节，判定这些字节的值，从而得知其编码的格式，但是，有时候，目标文档的前几个字节并没有保留该文档的编码格式信息，无法获得该文档的编码格式的问题。显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介廣 (包括但不限于磁盘存储器、

CD-ROM, 光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、 i殳备（系统）、和计算机程序产品的流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和 / 或方框图中的每一流程和 /或方框、以及流程图和 /或方框图中的流程和 /或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的装置。

这些计算^^序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在¾½图一个¾½ 或多个流程和 /或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例，但 ^域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落发明范围的所有变更和修改。

Claims

权利要求

1. 一种选择读取目标文档的编码格式的方法，其特征在于，包括：通过至少一个参考编码格式读取参考文档，确定利用所述参考编码格式读取参考文档时得到的或部^ L码模式；每次利用一种编码格式读取目标文档；对于每种编码格式，将该编码格式读取所述目标文档时产生的数据与确定的乱码模式进行比较，确定利用该编码格式读取所述目标文档时产生的乱码；统计利用每种编码格式读取所述目标文档时产生的乱码，并进行比较，然后确定读取所述目标文档的编码格式。

2. 根据权利要求 1所述的选择读取目标文档的编码格式的方法，其特征在于，所述参考编码格式属于包含了全部或部分编码格式的编码格式集，且所述参考编码格式是该编码格式集中读取所述参考文档时会产生乱码的编码格式。

3. 根据权利要求 1或 2所述的选择读取目标文档的编码格式的方法，其特征在于，通过所有的参考编码格式读取参考文档，确定利用所述参考编码格式读取参考文档时得到的全部或部分乱码模式。

4.根据权利要求 1-3中任一所述的选 ^取目标文档的编码格式的方法，其特征在于，所述确定利用所述参考编码格式读取参考文档时得到的全部或部码模式的½如下：对于使用参考编码格式读取参考文档时获得的乱码字符串，删 I^L码字符串中的非有效判断字符，获^ T效判断字符；统计有效判断字符中乱码字符的出现次数，获取乱码模式。

5.根据权利要求 4所述的选 ^取目标文档的编码格式的方法，其特 ^ 于，所述非有效判断字符指英文字母、数字和空白字符；所述有效判断字符指除所述非有效判断字符以外的所有字符。

6.根据权利要求 4所述的选 ^取目标文档的编码格式的方法，其特 ^ 于，统计有效判断字符中乱码字符的出现次数，获取乱码模式时，预先设定次数的阈值，对于出现次数大于所述阈值的所有乱码字符，保存为乱码模式。

7.根据权利要求 4所述的选择读取目标文档的编码格式的方法，其特征在于，统计有效判断字符中乱码字符的出现次数，获取乱码模式时，按乱码字符出现次数倒序排列乱码字符；取得排列在前的部分乱码字符，并将所取的乱码字符^ 为^码模式。

8.根据权利要求 7所述的选择读取目标文档的编码格式的方法，其特征在于，取得排列在前 k%的乱码字符，并将所取的乱码字符保存为乱码模式，其中 k为正数， 50≤k≤100。

9.根据权利要求 1-8中任一所述的选 ^取目标文档的编码格式的方法，其特征在于，所述每次利用一种编码格式读取目标文档时读取部分内容，直到获得预先设置的有效判断字符数为止；若读取所述文档的所有内容后仍未获得预先设置的有效判断字符数，则按实际获取的有效判断字符数为准。

10.根据权利要求 9所述的选 ^取目标文档的编码格式的方法，其特于，有效判断字符数为 50-1000。

11.根据权利要求 1-10中任一所述的选 ^取目标文档的编码格式的方法，其特征在于，将该编码格式读取所述目标文档时产生的数据与确定的乱码模式进行比较，确定利用该编码格式读取所述目标文档时产生的乱码的过程为：将通过每个编码格式读取所述目标文档时产生的数据逐个与所述 L码模式中的乱码字符比较，如果乱码字符包含此数据，则判定此数据为乱码，否则，则不认为该数据为乱码。

12.根据权利要求 1-11中任一所述的选 ^取目标文档的编码格式的方法，其特征在于，统计利用每种编码格式读取所述目标文档时产生的乱码，并进行比较，然后确定读取所述目标文档的编码格式的过程为：统计利用每种编码格式读取所述目标文档时产生的乱码比例，选择乱码比例最低的编码格式作为读取所述目标文档的编码格式。

13.根据权利要求 1-11中任一所述的选 ^取目标文档的编码格式的方法，其特征在于，统计利用每种编码格式读取所述目标文档时产生的乱码，并进行比较，然后确定读取所述目标文档的编码格式的过程为：统计利用每种编码格式读取所述目标文档时产生的乱码比例，选择乱码比例低于预设阈值的编码格式作为读取所述目标文档的编码格式。

14.根据权利要求 12-13 中任一所述的选 ^取目标文档的编码格式的方法，其特征在于：所述乱码比例为所述乱码字符占有效判断字符的比例。

15.根据权利要求 1-14中任一所述的选 ^取目标文档的编码格式的方法，其特征在于：在每次利用一种编码格式读取目标文档时，所述编码格式属于所述编码格式集。

16. 一种选 ^取目标文档的编码格式的系统，其特征在于，包括： L码模式生成模块，用于通过至少一个参考编码格式读取参考文档，确定利用所述参考编码格式读取参考文档时得到的全部或部分乱码模式；目标文档读取模块，用于每次利用一种编码格式读取目标文档；读取乱码模块，用于对于每种编码格式，将该编码格式读取所述目标文档时产生的数据与确定的乱码模式进行比较，确定利用该编码格式读取所述目标文档时产生的乱码；读取编码格式选择模块，用于统计利用每种编码格式读取所述目标文档时产生的乱码，并进行比较，然后确定读取所述目标文档的编码格式。

17. 根据权利要求 16所述的选 ^取目标文档的编码格式的系统，其特征在于，所述参考编码格式属于包含了全部或部分编码格式的编码格式集，且所

18. 根据权利要求 16或 17所述的选 ^取目标文档的编码格式的系统，其特征在于，通过所有的参考编码格式读取参考文档，确定利用所述参考编码格式读取参考文档时得到的全部或部^ L码模式。

19.根据权利要求 16-18 中任一所述的选 ^取目标文档的编码格式的系统，其特征在于，所述确定利用所述参考编码格式读取参考文档时得到的全部或部^ L码模式的½如下：对于使用参考编码格式读取参考文档时获得的乱码字符串，删 I^L码字符串中的非有效判断字符，获^ 效判断字符；统计有效判断字符中乱码字符的出现次数，获取乱码模式。

20.根据权利要求 19所述的选 ^取目标文档的编码格式的系统，其特征在于，所述非有效判断字符指英文字母、数字和空白字符；所述有效判断字符指除所述非有效判断字符以外的所有字符。

21.根据权利要求 19所述的选 ^取目标文档的编码格式的系统，其特征在于，统计有效判断字符中乱码字符的出现次数，获取乱码模式时，预先设定次数的阈值，对于出现次数大于所述阈值的所有乱码字符，保存为乱码模式。

22.根据权利要求 19所述的选 ^取目标文档的编码格式的系统，其特征在于，统计有效判断字符中乱码字符的出现次数，获取乱码模式时，按乱码字符出现次数倒序排列乱码字符；取得排列在前的部分乱码字符，并将所取的乱码字符保存为乱码模式。

23.根据权利要求 22所述的选 ^取目标文档的编码格式的系统，其特征在于，取得排列在前 k%的乱码字符，并将所取的乱码字符保存为乱码模式，其中 k为正数， 50≤k≤100。

24.根据权利要求 16-23 中任一所述的选 ^取目标文档的编码格式的系统，其特征在于，所述每次利用一种编码格式读取目标文档时读取部分内容，直到获得预先设置的有效判断字符数为止；若读取所述文档的所有内容后仍未获得预先设置的有效判断字符数，则按实际获取的有效判断字符数为准。

25.根据权利要求 24所述的选 ^取目标文档的编码格式的系统，其特征在于，有效判断字符数为 50-1000。

26.根据权利要求 16-25 中任一所述的选 ^取目标文档的编码格式的系统，其特征在于，将该编码格式读取所述目标文档时产生的数据与确定的乱码模式进行比较，确定利用该编码格式读取所述目标文档时产生的乱码的过程为：将通过每个编码格式读取所述目标文档时产生的数据逐个与所述 L码模式中的乱码字符比较，如果乱码字符包含此数据，则判定此数据为乱码，否则，则不认为该数据为乱码。

27.根据权利要求 16-26中任一所述的选 ^取目标文档的编码格式的系统，其特征在于，统计利用每种编码格式读取所述目标文档时产生的乱码，并进行比较，然后确定读取所述目标文档的编码格式的过程为：统计利用每种编码格式读取所述目标文档时产生的乱码比例，选择乱码比例最低的编码格式作为读取所述目标文档的编码格式。

28.根据权利要求 16-26中任一所述的选 ^取目标文档的编码格式的系统，其特征在于，统计利用每种编码格式读取所述目标文档时产生的乱码，并进行比较，然后确定读取所述目标文档的编码格式的过程为：统计利用每种编码格式读取所述目标文档时产生的乱码比例，选择乱码比例低于预设阈值的编码格式作为读取所述目标文档的编码格式。

29.根据权利要求 27-28 中任一所述的选 ^取目标文档的编码格式的系统，其特征在于，所述乱码比例为所述乱码字符占有效判断字符的比例。

30.根据权利要求 16-29 中任一所述的选 ^取目标文档的编码格式的系统，其特征在于，在每次利用一种编码格式读取目标文档时，所述编码格式属于所述编码格式集。

31. 一种或多种具有计算机可执行指令的计算机可读介廣，所述指令在由计算机执行时，执行选择读取目标文档的编码格式的方法，该方法包括：通过至少一个参考编码格式读取参考文档，确定利用所述参考编码格式读取参考文档时得到的或部^ L码模式；每次利用一种编码格式读取目标文档；对于每种编码格式，将该编码格式读取所述目标文档时产生的数据与确定的乱码模式进行比较，确定利用该编码格式读取所述目标文档时产生的乱码；统计利用每种编码格式读取所述目标文档时产生的乱码，并进行比较，然后确定读取所述目标文档的编码格式。