WO2015010386A1

WO2015010386A1 - 文档格式转换装置和文档格式转换方法

Info

Publication number: WO2015010386A1
Application number: PCT/CN2013/086494
Authority: WO
Inventors: 邢国峰; 王长胜
Original assignee: 北大方正集团有限公司; 北京方正阿帕比技术有限公司; 方正信息产业控股有限公司
Priority date: 2013-07-22
Filing date: 2013-11-04
Publication date: 2015-01-29
Also published as: EP3026571A1; JP2016532190A; US9529781B2; US20150339271A1; CN104331391B; EP3026571A4; CN104331391A

Abstract

本发明提供了一种文档格式转换装置，包括：文档解析单元，用于对版式文档进行解析以获取构成所述版式文档的路径图元；路径分組单元，用于对所述路径图元进行分組以生成路径組；字体文件生成单元，获取用于描述字符的路径組，并生成与用于描述字符的路径組对应的字体文件，其中，若存在两个以上描述相同字符的路径組，则仅生成一个字体文件，并将该字体文件关联至所述两个以上描述相同字符的路径組；文档生成单元，利用生成的所有字体文件，生成转换后文档。本发明还提出了一种文档格式转换方法。通过本发明的技术方案，可以解决版式文档中的数据冗余问题，使转换得到的文档具有更小的体积，还可以解决流式重排显示错误的问题，便于在各种终端上实现较好的显示效果。

Description

女档格式转换装置和女档格式转换方法技术领域

本发明涉及电子文档格式转换技术领域，具体而言，涉及一种文档格式转换装置和一种文档格式转换方法。背景技术

在版式文档中，存在大量使用路径（路径包括点和线）来描述的字符，每个字符对应一組数据。这样就存在一个问题，即大量相同的字需要大量路径来描述，造成很大程度的数据冗余。在流式重排时这些字符也无法正常显示。

因此，需要一种新的文档格式转换技术，可以解决版式文档中的数据冗余问题，使转换得到的文档具有更小的体积，还可以解决流式重排显示错误的问题，便于在各种终端上实现较好的显示效果。发明内容

本发明正于上述问题，提出了一种新的文档格式转换技术，可以解决版式文档中的数据冗余问题，使转换得到的文档具有更小的体积，还可以解决流式重排显示错误的问题，便于在各种终端上实现较好的显示效果。

有鉴于此，本发明提出了一种文档格式转换装置，包括：文档解析单元，用于对版式文档进行解析以获取构成所述版式文档的路径图元；路径分組单元，用于对所述路径图元进行分組以生成路径組；字体文件生成单元，获取用于描述字符的路径組，并生成与用于描述字符的路径組对应的字体文件，其中，若存在两个以上描述相同字符的路径組，则仅生成一个字体文件，并将该字体文件关联至所述两个以上描述相同字符的路径組；文档生成单元，利用生成的所有字体文件，生成转换后文档。在该技术方案中，通过对版式文档中的路径图元进行分組，得到对应于每个字符的路径組（当然，也存在不用于描述字符的路径組）；同时，由于通过生成字体文件的形式，并且对用于描述相同字符的路径組，仅生成一个字体文件，从而对于包含有很多相同字符的文档，可以极大地减小文档本身的体积，对于使用移动设备的情况下，有利于用户存储更多数量的文档。

本发明还提出了一种文档格式转换方法，包括：对版式文档进行解析以获取构成所述版式文档的路径图元；对所述路径图元进行分組以生成路径組；获取用于描述字符的路径組，并生成与用于描述字符的路径組对应的字体文件，其中，若存在两个以上描述相同字符的路径組，则仅生成一个字体文件，并将该字体文件关联至所述两个以上描述相同字符的路径組；利用生成的所有字体文件，生成转换后文档。在该技术方案中，通过对版式文档中的路径图元进行分組，得到对应于每个字符的路径組（当然，也存在不用于描述字符的路径組）；同时，由于通过生成字体文件的形式，并且对用于描述相同字符的路径組，仅生成一个字体文件，从而对于包含有很多相同字符的文档，可以极大地减小文档本身的体积，对于使用移动设备的情况下，有利于用户存储更多数量的文档。

通过以上技术方案，可以解决版式文档中的数据冗余问题，使转换得到的文档具有更小的体积，还可以解决流式重排显示错误的问题，便于在各种终端上实现较好的显示效果。附图说明

图 1A示出了根据本发明的一个实施例的文档格式转换装置的框图；图 1B 示出了根据本发明的另一个实施例的文档格式转换装置的框图；

图 1C示出了图 1B所示的文档格式转换装置中各个单元之间的连接关系的示意图；

图 2示出了根据本发明的实施例的文档格式转换方法的流程图；图 3 示出了根据本发明的实施例的对版式文档进行转换的具体流程图；

图 4示出了根据本发明的实施例的对路径图元进行分組的流程图；图 5示出了根据本发明的实施例的判断路径組是否用于描述字符的流程图；

图 6示出了根据本发明的实施例的判断路径組是否用于描述相同字符及相应的处理方法的流程图；

图 7示出了根据本发明的实施例的生成字体文件的流程图。具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互組合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开的具体实施例的限制。

图 1A示出了根据本发明的一个实施例的文档格式转换装置的框图。如图 1A所示，该文档格式转换装置，包括：文档解析单元 102，用于对版式文档进行解析以获取构成版式文档的路径图元；路径分組单元 104，用于对所述路径图元进行分組以生成路径組；字体文件生成单元 106，获取用于描述字符的路径組，并生成与所述用于描述字符的路径組对应的字体文件，其中，若存在两个以上描目同字符的路径組，则仅生成一个字体文件，并将该字体文件关联至所述两个以上描述相同字符的路径組；文档生成单元 108，利用生成的所有字体文件，生成转换后文档。

图 1B示出了根据本发明的实施例的文档格式转换装置的框图。

如图 1B 所示，根据本发明的实施例的文档格式转换装置 100，包括：文档解析单元 102，用于对版式文档进行解析，以获取构成所述版式文档的路径图元；路径分組单元 104，用于对所述路径图元进行分組，以生成对应的路径組（包括字体文件生成单元 106获取的用于描述字符的路径組，也包括其他不用于描述字符的路径組）；字体文件生成单元 106，获取用于描述字符的路径組，并生成对应的字体文件，其中，若存在两个以上描述相同字符的路径組，则仅生成一个字体文件，并将该字体文件关联至所述两个以上描述相同字符的路径組；文档生成单元 108，利用生成的所有字体文件，生成转换后文档。在该技术方案中，通过对版式文档中的路径图元进行分組，得到对应于每个字符的路径組（当然，也存在不用于描述字符的路径組）；同时，由于通过生成字体文件的形式，并且对用于描目同字符的路径組，仅生成一个字体文件，从而对于包含有很多相同字符的文档，可以极大地减小文档本身的体积，对于使用移动设备的情况下，有利于用户存储更多数量的文档。

具体地，比如对于版式文档中，每个字符都需要使用单独的路径进行描述，即便是重复出现的相同字符，必须分别使用路径进行描述，使得大量的路径造成很大的冗余，文档体积也很大；而通过生成字体文件，使得相同的字符只需要采用同一个字体文件即可实现描述，从而极大地降低了原本的路径冗余，从而有助于降低文档的体积，解决文档数据冗余的问题。

在上述技术方案中，优选地，所述路径分組单元 104包括：外接矩形获取子单元 1042，用于获取每个所述路径图元的最小外接矩形；分組处理子单元 1044，用于对所有路径图元的最小外接矩形之间的位置关系进行检测；在两个路径图元的最小外接矩形相交，或两个路径图元的最小外接矩形之间的距离小于预设的字符间距的情况下，将所述两个路径图元分至同一路径組。或者说，在一路径图元对应的最小外接矩形与另一路径图元对应的最小外接矩形相交，或两者之间的距离小于预设的字符间距的情况下，将所述一路径图元与所述另一路径图元分至同一路径組。在该技术方案中，将路径图元的最小外接矩形作为其对应的区域，并且通过计算每个矩形区域是否相交、间隔距离，从而判断是否应该分至同一路径組。而实际上，每个字符对应于一个路径組（当然，存在不用于描述字符的路径組），通过上述分組过程，可以实现对版式文档中的每个字符的分割。

在上述技术方案中，优选地，还包括：描述判断单元 110，用于通过光学字符识别技术对每个路径組进行识别，若能够识别出与路径組对应的字符，则判定相应的路径組用于描述字符，以供所述字体文件生成单元进行处理。在该技术方案中，若用于描述字符，则可以通过光学字符识别技术 ( OCR, Optical Character Recognition )进行识别，因此通过上述方式，对路径組是否用于描述字符进行判断。

在上述技术方案中，优选地，还包括：统一码识别单元 112，用于识别与所述用于描述字符的路径組对应的统一码（Unicode ) ；字符描述单元 114，利用识别得到的所述统一码和对应的字体文件来表示被描述的字符。在该技术方案中，字体文件中包含了用于描述该字符的路径数据，便于在不同设备上对文档内容进行妥善地流式重排，并且能够获得较好的显示效果。而通过设置统一码，从而用户在选择了该文档中的字符时，可以由系统选定对应的统一码，以实现对字符的拷贝等操作。

在上述技术方案中，优选地，所述字体文件生成单元 106利用所述统一码识别单元 112识别到的统一码和对应的路径組生成所述字体文件。在该技术方案中，由统一码和路径組生成字体文件，从而确保对相应的字符进行准确的描述。

在上述技术方案中，优选地，所述字体文件生成单元 106包括：第一表格生成子单元 1062，用于利用所述统一码生成第一表格，所述第一表格中存储有所述统一码到字形索引的映射；第二表格生成子单元 1064，用于利用所述路径組中包含的路径图元生成第二表格，所述第二表格中存储字形索引以及与该字形索引对应的字形数据；表格处理子单元 1066，用于利用所述第一表格和所述第二表格生成所述字体文件。在该技术方案中，第一表格如利用统一码生成的 cmap表，第二表格如利用路径組生成的 giyf表。

在上述技术方案中，优选地，还包括：记录状态判断单元 116，用于判断所述统一码识别单元 112识别得到的统一码是否已经被记录；数据获取单元 118，用于在所述统一码已经被记录的情况下，判定存在其他用于描述相同字符的路径組，并获取已记录的统一码和对应的已生成的字体文件，以由所述字符描述单元 114用于表示被描述的字符；以及所述字体文件生成单元 106在所述统一码未被记录的情况下，生成所述字体文件，以由所述字符描述单元 114用于表示被描述的字符。在该技术方案中，通过对识别得到的统一码进行比较，从而判断当前进行处理的字符是否已经被处理过，即是否已经存在相同字符，若存在，则直接使用之前生成的字体文件等信息，避免数据冗余，若不存在，则重新生成。通过上述比较过程，从而确保每种字符仅对应生成一份字体文件，避免数据冗余，实现减小文档体积。

在上述技术方案中，优选地，还包括：文件保存单元 120，用于统一保存所述字体文件，以由所述字符描述单元 114利用所述字体文件的名称及该字体文件对应的统一码来表示相应的字符；以及坐标判断单元 122，用于在获取的指定路径組的统一码已经被记录的情况下，进一步获取所述指定路径組的坐标，并判断所述指定路径組的坐标与已记录的路径組的坐标是否相同，其中，若相同，则判定为相同路径組，不做处理；若不相同，则生成新名称，以由所述字符描述单元 114利用已记录的统一码和所述新名称表示对应的字符，并由所述字体文件生成单元 106生成使用所述新名称进行命名的字体文件。在该技术方案中，通过对坐标进行判断，从而确定对于当前处理的路径組描述的字符，是否已经存在其他的路径組进行描述，以确保对于相同字符仅生成一份字体文件等信息，尽可能地减小文档提及，避免数据冗余。

图 1C示出了图 1B所示的文档格式转换装置中各个单元之间的连接关系的示意图。

如图 1C所示，文档格式转换装置 100中各个单元之间的连接关系包括：

文档解析单元 102与路径分組单元 104相连接。具体地，路径分組单元 104根据文档解析单元 102解析得到的路径图元，对该路径图元进行分組，从而生成对应的路径組。

具体地，路径分組单元 104包括：外接矩形获取子单元 1042和分組处理子单元 1044。其中，外接矩形获取子单元 1042连接至文档解析单元 102，基于文档解析单元 102 解析出的路径图元来获取每个路径图元的最小外接矩形；分組处理子单元 1044连接至外接矩形获取子单元 1042，对所有路径图元的最小外接矩形之间的位置关系进行检测；根据路径图元的最小外接矩形之间的关系，对路径图元进行分組。

字体文件生成单元 106分别与路径分組单元 104和文档生成单元 108 相连接。具体地，字体文件生成单元 106基于路径分組单元 104生成的分組中的用于描述字符的路径組，从而生成对应的字体文件，然后由文档生成单元 108根据该字体文件，生成转换后文档。

描述判断单元 110连接至字体文件生成单元 106，通过对路径組的识别，确定是否用于描述字符，从而由字体文件生成单元 106利用其中用于描述字符的路径組生成字体文件。

统一码识别单元 112连接至描述判断单元 110，对描述判断单元 110 判断出的用于描述字符的路径，识别出其对应的统一码。

统一码识别单元 112还连接至字体文件生成单元 106，使得字体文件生成单元 106能够进一步地利用统一码识别单元 112识别到的统一码和路径分組单元 104生成的对应的路径組生成所述字体文件。

具体地，字体文件生成单元 106 包括：第一表格生成子单元 1062、第二表格生成子单元 1064和表格处理子单元 1066。其中，第一表格生成子单元 1062连接至统一码识别单元 112，利用统一码识别单元 112识别出的统一码生成第一表格；第二表格生成子单元 1064连接至路径分組单元 104，利用路径組中包含的路径图元生成第二表格；表格处理子单元 1066分别连接至第一表格生成子单元 1062和第二表格生成子单元 1064，利用第一表格和第二表格生成字体文件。

字符描述单元 114分别连接至统一码识别单元 112和字体文件生成单元 106，利用统一码识别单元 112识别得到的统一码和字体文件生成单元 106生成的对应的字体文件来表示被描述的字符。

记录状态判断单元 116分别连接至统一码识别单元 112和数据获取单元 118。具体的，记录状态判断单元 116判断统一码识别单元 112识别得到的统一码是否已经被记录，若已被记录，则数据获取单元 118判定存在其他用于描述相同字符的路径組，并获取已记录的统一码和对应的已生成的字体文件，以由字符描述单元 114用于表示被描述的字符（数据获取单元 118还与字符描述单元 114相连接 )。

文件保存单元 120分别连接至字体文件生成单元 106和字符描述单元 114。具体地，文件保存单元 120统一保存字体文件生成单元 106生成的字体文件，以由字符描述单元 114利用字体文件的名称及该字体文件对应的统一码来表示相应的字符。

坐标判断单元 122分别连接至记录状态判断单元 116和字符描述单元 114。具体地，坐标判断单元 122在记录状态判断单元 116判定获取的指定路径組的统一码已经被记录的情况下，进一步获取指定路径組的坐标，并判断指定路径組的坐标与已记录的路径組的坐标是否相同，若不相同，则生成新名称，以由所述字符描述单元 114利用已记录的统一码和所述新名称表示对应的字符，并由字体文件生成单元 106生成使用新名称进行命名的字体文件。

图 2示出了根据本发明的实施例的文档格式转换方法的流程图。

如图 2所示，根据本发明的实施例的文档格式转换方法，包括：步骤 202，对版式文档进行解析，以获取构成所述版式文档的路径图元；步骤 204，对所述路径图元进行分組，以生成各个路径組（包括步骤 206 中获取的用于描述字符的路径組，也包括其他不用于描述字符的路径組）；步骤 206，获取用于描述字符的路径組，并生成对应的字体文件，其中，若存在两个以上描述相同字符的路径組，则仅生成一个字体文件，并将该字体文件关联至所述两个以上描述相同字符的路径組；步骤 208，利用生成的所有字体文件，生成转换后文档。在该技术方案中，通过对版式文档中的路径图元进行分組，得到对应于每个字符的路径組（当然，也存在不用于描述字符的路径組）；同时，由于通过生成字体文件的形式，并且对用于描目同字符的路径組，仅生成一个字体文件，从而对于包含有很多相同字符的文档，可以极大地减小文档本身的体积，对于使用移动设备的情况下，有利于用户存储更多数量的文档。

具体地，比如对于版式文档中，每个字符都需要使用单独的路径进行描述，即便是重复出现的相同字符，必须分别使用路径进行描述，使得大量的路径造成很大的冗余，文档体积也很大；而通过生成字体文件，使得相同的字符只需要采用同一个字体文件即可实现描述，从而极大地降低了原本的路径冗余，从而有助于降低文档的体积，解决文档数据冗余的问题。在上述技术方案中，优选地，所述步骤 204包括：获取每个所述路径图元的最小外接矩形；对所有路径图元的最小外接矩形之间的关系进行检测，其中，若两个路径图元的最小外接矩形相交，或两个路径图元的最小外接矩形之间的距离小于预设的字符间距，则将所述两个路径图元分至同一路径組，或者说，若一路径图元对应的最小外接矩形与另一路径图元对应的最小外接矩形相交，或两者之间的距离小于预设的字符间距，则将这两个路径图元分至同一路径組。在该技术方案中，将路径图元的最小外接矩形作为其对应的区域，并且通过计算每个矩形区域是否相交、间隔距离，从而判断是否应该分至同一路径組。而实际上，每个字符对应于一个路径組（当然，存在不用于描述字符的路径組），通过上述分組过程，可以实现对版式文档中的每个字符的分割。

在上述技术方案中，优选地，在所述步骤 206中，所述获取用于描述字符的路径組的步骤包括：利用光学字符识别技术对每个路径組进行识别，若能够识别出与该路径組对应的字符，则判定相应的路径組用于描述字符。在该技术方案中，若用于描述字符，则可以通过光学字符识别技术

( OCR, Optical Character Recognition ) 进行识别，因此通过上述方式，对路径組是否用于描述字符进行判断。

在上述技术方案中，优选地，在步骤 206之后，还包括：识别所述用于描述字符的路径組的统一码，并用该统一码和对应的字体文件来表示被描述的字符。在该技术方案中，字体文件中包含了用于描述该字符的路径数据，便于在不同设备上对文档内容进行妥善地流式重排，并且能够获得较好的显示效果。而通过设置统一码，从而用户在选择了该文档中的字符时，可以由系统选定对应的统一码，以实现对字符的拷贝等操作。

在上述技术方案中，优选地，生成所述字体文件的步骤包括：利用识别到的统一码和对应的路径組生成所述字体文件。在该技术方案中，由统一码和路径組生成字体文件，从而确保对相应的字符进行准确的描述。

在上述技术方案中，优选地，利用所述统一码和对应的路径組生成所述字体文件的步骤包括：利用所述统一码生成第一表格，所述第一表格中存储有所述统一码到字形索引的映射；利用所述路径組中包含的路径图元生成第二表格，所述第二表格中存储有字形索引以及与字形索引对应的字形数据（或者路径数据）；利用所述第一表格和所述第二表格生成所述字体文件。在该技术方案中，第一表格如利用统一码生成的 cmap表，第二表格如利用路径組生成的 glyf表。

在上述技术方案中，优选地，还判断识别得到的统一码是否已经被记录，其中，若该统一码已经被记录，则判定存在其他用于描述相同字符的路径組，并获取已记录的统一码和对应的已生成的字体文件，以用于表示被描述的字符；若所述统一码未被记录，则生成所述字体文件，以用于表示所述被描述的字符。在该技术方案中，通过对识别得到的统一码进行比较，从而判断当前进行处理的字符是否已经被处理过，即是否已经存在相同字符，若存在，则直接使用之前生成的字体文件等信息，避免数据冗余，若不存在，则重新生成。通过上述比较过程，从而确保每种字符仅对应生成一份字体文件，避免数据冗余，实现减小文档体积。

在上述技术方案中，优选地，还包括：统一保存所述字体文件，并利用所述字体文件的名称及该字体文件对应的统一码来表示相应的字符，其中，若获取的指定路径組的统一码已经被记录，则进一步获取所述指定路径組的坐标，并判断所述指定路径組的坐标与已记录的路径組的坐标是否相同，若相同，则判定为相同路径組，不做处理；若不相同，则生成新名称，利用已记录的统一码和所述新名称表示对应的字符，并生成使用所述新名称进行命名的字体文件。在该技术方案中，通过对坐标进行判断，从而确定对于当前处理的路径組描述的字符，是否已经存在其他的路径組进行描述，以确保对于相同字符仅生成一份字体文件等信息，尽可能地减小文档提及，避免数据冗余。

下面结合图 3至图 7，对基于本发明的技术方案中，对于版式文档的格式转换过程进行详细说明。

首先通过图 3进行总体步骤上的介绍，其中，图 3示出了根据本发明的实施例的对版式文档进行转换的具体流程图。

如图 3所示，根据本发明的实施例的对版式文档进行转换的具体流程包括：步骤 302，解析版式文档数据，具体地，可以利用解析引擎对原始版式文档进行解析。

步骤 304，根据解析结果，获取构成该版式文档的图元。

步骤 306，判断图元是否为路径，具体地，通过对版式文档数据的解析，可以得到图元 ID、图元类型、图元数据等，因此，通过解析得到的图元类型，即可判断该图元是否为路径。其中，若是，则进入步骤 308，否则进入步骤 310。

步骤 308，对路径进行分組，以得到路径組，其中，每个路径組用于描述一个完整的元素，比如用于描述一个字符。

步骤 310，依据图元类型进行相应处理。

步骤 312，判断路径描述是否为字符，若是，则进入步骤 314，否则进入步骤 316.

步骤 314，生成字体文件。对于步骤 308，具体地，图 4示出了根据本发明的实施例的对路径图元进行分組的流程图。

如图 4 所示，根据本发明的实施例的对路径图元进行分組的流程包括：

步骤 402，获取路径图元数据，即属于路径类型的图元。

步骤 404，计算路径图元的最小外接矩形，作为对应于该路径图元的区域。

步骤 406，判断当前处理的路径图元是否为开始路径，即是否作为某个路径組的首个路径，若是，则进入步骤 408，否则进入步骤 410。具体地，是在对上一个路径組进行分組结束后，将接下来进行处理的第一个路径图元作为该开始路径。

步骤 408，保存该最小外接矩形的坐标，并返回步骤 402。

步骤 410，计算与开始路径和已计算过的路径的最小外接矩形的距离，以判断两者之间的关系。这里已计算过的路径的最小外接矩形，即步骤 408中保存的坐标数据。步骤 412，根据步骤 410的计算结果，判断两者是否相交，或当不相交时，两者的间距是否小于字符间距。其中，若相交或间距小于字符间距

(或其他的预设距离），则进入步骤 416，否则进入步骤 414。

步骤 414，将该路径图元作为下組路径的开始路径，并进入步骤

408。

步骤 416，将这些路径作为同一个路径組。

对于步骤 312，具体地，图 5示出了根据本发明的实施例的判断路径組是否用于描述字符的流程图。

如图 5所示，根据本发明的实施例的判断路径組是否用于描述字符的流程包括：

步骤 502，获取某个路径組。

步骤 504，计算该路径組的最小外接矩形，作为该路径組对应的区域。

步骤 506，利用 OCR技术对该路径組进行识别获得对应的字符。

步骤 508，根据识别出的字符判断是否能够识别出对应的 Unicode 码，若能，则进入步骤 512，否则进入步骤 510。步骤 512，将该路径組作为字符进行处理。

步骤 312中还包括判断两个以上路径組是否描述了相同的字符，具体地，图 6示出了根据本发明的实施例的判断路径組是否用于描述相同字符及相应的处理方法的流程图。

如图 6所示，根据本发明的实施例的判断路径組是否用于描述相同字符及相应的处理方法的流程包括：

步骤 602，获取字符路径組。

步骤 604，识别出该字符路径組描述的字符的 Unicode码，并在已处理字符链表中进行查找，其中，已处理字符链表中存储了已经处理过的字符路径組描述的字符的 Unicode码。

步骤 606，根据查找结果，判断在已处理字符链表中是否存在当前查找的字符的 Unicode码。若存在，则进入步骤 612，否则进入步骤 608。步骤 608，说明当前路径組描述的字符为该版式文档中第一次出现，将识别出来的 Unicode码加入到已处理字符链表中。

步骤 610，依据 Unicode码和路径，生成对应的字体文件，并返回步骤 602，继续对其他路径組进行处理。

步骤 612，获取当前路径組和查找到的路径組的坐标，并将两組坐标进行坐标变化，具体地，可以将坐标均平移至坐标原点，并将两者的坐标进行比较。

步骤 614，判断两者的坐标是否相同，其中，若相同，则进入步骤 616, 否则进入步骤 610。

步骤 616，说明用于描述相同的字符，用已存储的 Unicode码和字体名（字体文件的内部文件名）代替原来的路径数据，以表示该字符，并返回步骤 602，继续对其他路径組进行处理。

对于步骤 314，具体地，图 7示出了根据本发明的实施例的生成字体文件的流程图。

如图 7所示，根据本发明的实施例的生成字体文件的流程包括：步骤 702，传入 Unicode码和路径描述 (即对应于该 Unicode码的路径組）。

步骤 704，利用 Unicode码生成 cmap表。

步骤 706，将路径描述存入 _glyf 表。当然，还需要生成其它一些 OpenType字体文件必须的描述表。

步骤 708，利用生成的 cmap表、 glyf 表和描述表等，生成对应的 OpenType字体文件，并保存该字体文件。

本公开还提供一种或多种具有计算机可执行指令的计算机可读介廣，所述指令在由计算机执行时，执行数字权利合并方法，所述方法包括：对版式文档进行解析以获取构成所述版式文档的路径图元；对所述路径图元进行分組以生成路径組；获取用于描述字符的路径組，并生成与所述用于描述字符的路径組对应的字体文件，其中，若存在两个以上描述相同字符的路径組，则仅生成一个字体文件，并将该字体文件关联至所述两个以上描述相同字符的路径組；利用生成的所有字体文件，生成转换后文档。。本公开还提供一台包括带有计算机可执行指令的一个或多个计算机可读介质的计算机，所述指令在由计算机执行时执行权利要求 9 所述的方法。

示例性操作环境

诸如此处所描述的计算机或计算设备具有硬件，包括一个或多个处理器或处理单元、系统存储器和某种形式的计算机可读介廣。作为示例而非限制，计算机可读介质包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性与非易失性、可移动与不可移动介质。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介廣。以上的任一种的組合也包括在计算机可读介廣的范围之内。

可以在由一台或多台计算机或其他设备执行的诸如程序模块之类的计算机可执行的指令的一般上下文中来描述本发明的各实施例。计算机可执行指令可作为软件被組织成一个或多个计算机可执行組件或模块。一般而言，程序模块包括，但不限于，执行特定任务或实现特定抽象数据类型的例程、程序、对象、組件，以及数据结构。可以利用任何数量的这样的組件或模块及其組织来实现本发明的各方面。例如，本发明的各方面不仅限于附图中所示出并且在此处所描述的特定计算机可执行指令或特定組件或模块。本发明的其他实施例可以包括具有比此处所示出和描述的功能更多或更少功能的不同的计算机可执行指令或組件。本发明的各方面也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中，程序模块可以位于包括存储器存储设备在内的本地和远程计算机存储介质中。

以上结合附图详细说明了本发明的技术方案，考虑到在版式文档中，往往存在很大的数据冗余，因此，本发明提供了一种文档格式转换装置和一种文档格式转换方法，可以解决版式文档中的数据冗余问题，使转换得到的文档具有更小的体积，还可以解决流式重排显示错误的问题，便于在各种终端上实现较好的显示效果。以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1. 一种文档格式转换装置，其特征在于，包括：

文档解析单元，用于对版式文档进行解析以获取构成所述版式文档的路径图元；

路径分組单元，用于对所述路径图元进行分組以生成路径組；字体文件生成单元，获取用于描述字符的路径組，并生成与所述用于描述字符的路径組对应的字体文件，其中，若存在两个以上描述相同字符的路径組，则仅生成一个字体文件，并将该字体文件关联至所述两个以上描述相同字符的路径組；

文档生成单元，利用生成的所有字体文件，生成转换后文档。

2. 根据权利要求 1 所述的文档格式转换装置，其特征在于，所述路径分組单元包括：

外接矩形获取子单元，用于获取每个所述路径图元的最小外接矩形；分組处理子单元，用于对所有路径图元的最小外接矩形之间的位置关系进行检测；在两个路径图元的最小外接矩形相交，或两个路径图元的最小外接矩形之间的距离小于预设的字符间距的情况下，将所述两个路径图元分至同一路径組。

3. 根据权利要求 1 所述的文档格式转换装置，其特征在于，还包括：

描述判断单元，用于通过光学字符识别技术对每个路径組进行识别，若能够识别出与路径組对应的字符，则判定相应的路径組用于描述字符，以供所述字体文件生成单元进行处理。

4. 根据权利要求 1至 3中任一项所述的文档格式转换装置，其特征在于，还包括：

统一码识别单元，用于识别与所述用于描述字符的路径組对应的统一码；

字符描述单元，利用识别得到的所述统一码和对应的字体文件来表示被描述的字符。

5. 根据权利要求 4所述的文档格式转换装置，其特征在于，所述字体文件生成单元利用所述统一码识别单元识别到的统一码和对应的路径組生成所述字体文件。

6. 根据权利要求 5所述的文档格式转换装置，其特征在于，所述字体文件生成单元包括：

第一表格生成子单元，用于利用所述统一码生成第一表格，所述第一表格中存储有所述统一码到字形索引的映射；

第二表格生成子单元，用于利用所述路径組中包含的路径图元生成第二表格，所述第二表格中存储有所述字形索引以及与所述字形索引对应的字形数据；

表格处理子单元，用于利用所述第一表格和所述第二表格生成所述字体文件。

7. 根据权利要求 5 所述的文档格式转换装置，其特征在于，还包括：

记录状态判断单元，用于判断所述统一码识别单元识别得到的统一码是否已经被记录；

数据获取单元，用于在所述统一码已经被记录的情况下，判定存在其他用于描述相同字符的路径組，并获取已记录的统一码和对应的已生成的字体文件，以由所述字符描述单元用于表示被描述的字符；以及

所述字体文件生成单元在所述统一码未被记录的情况下，生成所述字体文件，以由所述字符描述单元用于表示被描述的字符。

8. 根据权利要求 7 所述的文档格式转换装置，其特征在于，还包括：

文件保存单元，用于统一保存所述字体文件，以由所述字符描述单元利用所述字体文件的名称及该字体文件对应的统一码来表示相应的字符；以及

坐标判断单元，用于在获取的指定路径組的统一码已经被记录的情况下，进一步获取所述指定路径組的坐标，并判断所述指定路径組的坐标与已记录的路径組的坐标是否相同，其中，若相同，则判定为相同路径組，不做处理；

若不相同，则生成新名称，以由所述字符描述单元利用已记录的统一码和所述新名称表示对应的字符，并由所述字体文件生成单元生成使用所述新名称进行命名的字体文件。

9. 一种文档格式转换方法，其特征在于，包括：

对版式文档进行解析以获取构成所述版式文档的路径图元；

对所述路径图元进行分組以生成路径組；

获取用于描述字符的路径組，并生成与所述用于描述字符的路径組对应的字体文件，其中，若存在两个以上描述相同字符的路径組，则仅生成一个字体文件，并将该字体文件关联至所述两个以上描述相同字符的路径組；

利用生成的所有字体文件，生成转换后文档。

10. 根据权利要求 9所述的文档格式转换方法，其特征在于，所述对所述路径图元进行分組以生成路径組的处理包括：

获取每个所述路径图元的最小外接矩形；

对所有路径图元的最小外接矩形之间的位置关系进行检测，其中，若两个路径图元的最小外接矩形相交，或两个路径图元的最小外接矩形之间的距离小于预设的字符间距，则将所述两个路径图元分至同一路径組。

11. 根据权利要求 9所述的文档格式转换方法，其特征在于，所述获取用于描述字符的路径組的处理包括：

利用光学字符识别技术对每个路径組进行识别，若能够识别出与路径組对应的字符，则判定相应的路径組用于描述字符。

12. 根据权利要求 9至 11 中任一项所述的文档格式转换方法，其特征在于，还包括：

识别与所述用于描述字符的路径組对应的统一码，并用所述统一码和对应的字体文件来表示被描述的字符。

13. 根据权利要求 12 所述的文档格式转换方法，其特征在于，生成所述字体文件的步骤包括：

利用识别到的统一码和对应的路径組生成所述字体文件。

14. 根据权利要求 13 所述的文档格式转换方法，其特征在于，利用所述统一码和对应的路径組生成所述字体文件的步骤包括：

利用所述统一码生成第一表格，所述第一表格中存储有所述统一码到字形索引的映射；

利用所述路径組中包含的路径图元生成第二表格，所述第二表格中存储有所述字形索引以及与所述字形索引对应的字形数据；

利用所述第一表格和所述第二表格生成所述字体文件。

15. 根据权利要求 12 所述的文档格式转换方法，其特征在于，还包括：判断识别得到的统一码是否已经被记录，其中，

若该统一码已经被记录，则判定存在其他用于描述相同字符的路径組，并获取已记录的统一码和对应的已生成的字体文件，以用于表示被描述的字符；

若所述统一码未被记录，则生成所述字体文件，以用于表示所述被描述的字符。

16. 根据权利要求 15 所述的文档格式转换方法，其特征在于，还包括：

统一保存所述字体文件，并利用所述字体文件的名称及该字体文件对应的统一码来表示相应的字符，其中，若获取的指定路径組的统一码已经被记录，则进一步获取所述指定路径組的坐标，并判断所述指定路径組的坐标与已记录的路径組的坐标是否相同，

若相同，则判定为相同路径組，不做处理；

若不相同，则生成新名称，利用已记录的统一码和所述新名称表示对应的字符，并生成使用所述新名称进行命名的字体文件。

17. 一种或多种具有计算机可执行指令的计算机可读介廣，所述指令在由计算机执行时，执行文档格式转换方法，该方法包括：

对版式文档进行解析以获取构成所述版式文档的路径图元；

对所述路径图元进行分組以生成路径組；

利用生成的所有字体文件，生成转换后文档。