WO2013079038A1

WO2013079038A1 - 字体确定方法和设备

Info

Publication number: WO2013079038A1
Application number: PCT/CN2012/085773
Authority: WO
Inventors: 仇睿恒
Original assignee: 北大方正集团有限公司; 北京方正阿帕比技术有限公司; 方正信息产业控股有限公司
Priority date: 2011-12-01
Filing date: 2012-12-03
Publication date: 2013-06-06
Also published as: CN103136166A; KR20140031269A; CN103136166B; EP2787448A4; EP2787448A1; JP2014522519A; JP5829330B2

Abstract

公开了一种字体确定方法和设备，该方法确定选取的各字形对应的字体，并根据各字形对应的字体确定内嵌字体对应的原始字体。本方案解决了无法确定文档中使用的内嵌字体所对应的原始字体的问题。

Description

字体确定方法和设备技术领域

本发明涉及文字数据处理领域，尤其涉及一种字体确定方法和设备。背景技术

为了保证在不同平台上文档显示的一致性，字体内嵌是一种被广泛采用的技术手段。具体来说，从原始字体对应的字形集合中抽取部分字形，将抽取的字形整合在一起形成一个新的字形集合，该过程就称为字体内嵌，所得到的新的字体即新的字形集合对应的字体就是内嵌字体。例如，从宋体对应的字形集合中抽取部分字形，将抽取的字形整合在一起形成新的字形集合，从而完成字体内嵌过程，新的字形集合对应的字体为一个内嵌字体，假设为内嵌字体 A, 那么内嵌字体 A对应的原始字体即为宋体。可以认为内嵌字体的字形集合是该内嵌字体对应的原始字体的字形集合的一个子集。

一般来说，内嵌字体的字形集合中只会包含显示文档中字符所需要的那部分字形，以使字形集合的数据量尽可能的小。此外，字形集合中还可能包含文档中各字符的字符编码或者索引号到相应字形的映射关系。在显示文档中的字符时，可以根据该映射关系获取到该字符的字符编码或者索引号对应的字形，然后根据获取到的字形显示该字符。

在实现本发明的过程中，发明人发现现有技术中存在以下技术问题：虽然字体内嵌技术能够保证在不同环境下文档显示的一致性，但是由于无例如，由于内嵌字体的字形集合中仅包含原始字体的字形集合中的部分字形，使得用户不能对文档进行任意的编辑。比如，在用户需要在文档中增加一个文字 "和" 时，如果内嵌字体的字形集合中不包含文字 "和" 的字形，那么，就无法显示文字 "和"，导致编辑失败。又例如，在显示文档时要使用到内嵌字体的字形集合，那么，在客户端需要显示服务器上保存的一个文档时，客户端需要下载该文档的所有配置文件包括该文档使用的内嵌字体的字形集合，由于内嵌字体的字形集合的数据量普遍偏大，使得在网络环境中文档的显示速度较慢。发明内容

本发明提供一种字体确定方法和设备，用于解决无法确定文档中使用的内嵌字体所对应的原始字体的问题。

一种字体确定方法，该方法包括：

确定文档所使用的内嵌字体；

选取所述内嵌字体的字形集合中的至少一个字形；

确定选取的各字形对应的字体；

根据各字形对应的字体，确定所述内嵌字体对应的原始字体。

一种字体确定设备，该设备包括：

内嵌字体确定单元，用于确定文档所使用的内嵌字体；

字形选取单元，用于选取所述内嵌字体的字形集合中的至少一个字形；字形字体确定单元，用于确定选取的各字形对应的字体；

原始字体确定单元，用于根据各字形对应的字体，确定所述内嵌字体对应的原始字体。

本方案中，首先从内嵌字体的字形集合中选取至少一个字形，然后确定选取的各字形对应的字体，并根据各字形对应的字体确定内嵌字体对应的原始字

附图说明

图 1为本发明实施例提供的方法流程示意图；图 2为本发明实施例的流程示意图；

图 3为本发明实施例提供的设备结构示意图。具体实施方式明实施例提供一种字体确定方法，该方法中，首先从内嵌字体的字形集合中选取至少一个字形或从文档中选取至少一个使用内嵌字体的字符对应的字形，然后确定选取的各字形对应的字体，并根据各字形对应的字体确定内嵌字体对应的原始字体。

参见图 1 , 本发明实施例提供的字体确定方法，包括以下步骤：

步骤 10: 确定文档所使用的内嵌字体；

这里，在文档的描述信息中记录有文档中各字符使用的内嵌字体，可以根步骤 11: 选取确定的内嵌字体的字形集合中的至少一个字形；

步骤 12: 确定选取的各字形对应的字体；

步骤 13: 根据各字形对应的字体，确定内嵌字体对应的原始字体。

步骤 11 中，选取内嵌字体的字形集合中的至少一个字形，具体实现可以采用如下两种方式：

第一种，在文档中包含字符编码与字形的映射关系时，根据该映射关系确定预先设定的多个常用字符分别对应的字形，并从内嵌字体的字形集合中选取确定的字形。

第二种，统计文档中使用内嵌字体的各字形出现的次数，选取各字形中出现次数最多的至少一个字形。本中方法可以适用于文档中未包含字符编码与字形的映射关系的情况，当然也可以适用于文档中包含字符编码与字形的映射关系的情况。

步骤 12 中，确定选取的各字形对应的字体，具体实现可以采用如下两种方式：

第一，对于选取的每个字形，确定该字形对应的字符编码，并计算该字形的字形特征值，在预先生成的字形特征表中查找该字符编码与该字形特征值对应的字体，将查找到的字体确定为该字形对应的字体；

第二，对于选取的每个字形，计算该字形的字形特征值，在字形特征表中查找该字形特征值对应的字体，将查找到的字体确定为该字形对应的字体。关系。字形特征表的生成方法如下：选择预先设定的多个常用字符，对于本地保存的多个字体的字形集合，从该字形集合中抽取选择的多个常用字符的字形，计算抽取到的每个字形的字形特征值，并将抽取到的字形的映射关系保存在字形特征表中，每条映射关系中包含该字形对应的字体、该字形对应的字符编码和该字形的字形特征值。

上述确定该字形对应的字符编码，具体实现可以采用如下两种方式：第一，在内嵌字体的字形集合中包含字符编码与字形的映射关系时，根据该映射关系确定该字形对应的字符编码；

第二，利用光学字符识别（OCR )技术识别该字体的字符编码。

步骤 13 中，根据各字形对应的字体，确定内嵌字体对应的原始字体，具体实现可以采用如下两种方式：

第一，若各字形对应的字体为同一字体，则将该同一字体确定为内嵌字体对应的原始字体；

第二，确定步骤 11 中选取的字形中对应同一字体的字形，并确定该字形是否满足设定条件，在满足时将该同一字体确定为内嵌字体对应的原始字体，下面举例说明：

例 1: 若对应同一字体的字形的个数超过预先设定的门限值，则将该同一字体确定为内嵌字体对应的原始字体。该门限值为大于 0的整数。

例 2:若对应同一字体的字形的个数占步骤 11中选取的字形总个数的比率超过设定门限值，则将该同一字体确定为内嵌字体对应的原始字体。该门限值大于 0且小于 1。

例 3: 若对应同一字体的字形的加权值之和超过预先设定的门限值，则将该同一字体确定为内嵌字体对应的原始字体。该门限值为大于 0的数值。比如，对应同一字体的字形的个数为 60, 其中 10个字形的加权值为 2, 50个字形的加权值为 1 , 那么，该 60个字形的加权值之和为 70, 若该门限值为 50, 则该当然，本发明并不局限于上述 3种实现方法，任何能够根据对应同一字体的字形确定内嵌字体对应的原始字体的方法，均在本发明的保护范围内。

较佳的，在确定内嵌字体对应的原始字体之后，在需要进行字符显示时，在本地保存的该原始字体对应的字形集合中查找待显示字符对应的字形，并使用查找到的字形显示该待显示字符。

较佳的，本发明中还可以将字符编辑等应用使用的信息保存在到文档中，该信息包括内嵌字体对应的原始字体的信息、识别出的字符编码等。

需要说明的是，本方法的执行主体可以是客户端、服务器等能够处理文档的设备。在执行主体是服务器时，服务器可以将确定的内嵌字体对应的原始字体的信息携带在文档中发送给客户端，客户端在显示文档时，在本地保存的该原始字体对应的字形集合中查找各待显示字符对应的字形，并使用查找到的字形显示该待显示字符。

下面对本发明进行具体说明：

对于文档使用的每个内嵌字体，按如下步骤进行处理：

步骤 1：检查内嵌字体的字形集合中是否存在字符编码到字形的映射关系，如果存在，到步骤 2, 否则，到步骤 5;

步骤 2: 从内嵌字体的字形集合中选取至少一个常用字符的字形，计算每个选取的字形的字形特征值，并根据字符编码到字形的映射关系确定每个字形对应的字符编码；步骤 3: 对于选取的每个字形，在字形特征表中查找该字形的字符编码和字形特征值对应的字体，将查找到的字体确定为该字形的字体；

步骤 4: 根据选取的每个字形的字体确定内嵌字体对应的原始字体，流程结束；

具体的，如果所选取的每个字形的字体都属于同一字体 A, 那么则可以确定该内嵌字体的原始字体就是 A。

步骤 5: 统计该文档中使用该内嵌字体的各字形出现的次数，并选取至少一个出现次数最多的字形；然后到步骤 6a或步骤 6b;

步骤 6a: 对于选取的每个字形，将该字形绘制出来，使用 OCR技术识别该字形的字符编码，若识别成功，则计算该字形的字形特征值，在字形特征表中查找该字形的字符编码和字形特征值对应的字体，将查找到的字体确定为该字形的字体，到步骤 7; 若识别失败，到步骤 6b;

步骤 6b: 对于选取的每个字形，计算该字形的字形特征值，在字形特征表中查找该字形的字形特征值对应的字体，将查找到的字体确定为该字形的字体；

步骤 7: 根据选取的每个字形的字体确定内嵌字体对应的原始字体，流程结束；

具体的，如果对应同一字体的字形的个数超过预先设定的门限值，则可以判定该内嵌字体所对应的原始字体为该同一字体。例如，选取了 20个常见的字形，若其中最少 18个字形都对应同一字体 A, 则可以判定该内嵌字体所对应的原始字体 A。

字形特征表保存了若干<字符编码，原始字体，字形特征值 >的映射关系。由于本地保存的字体的数量有限（几百种常见字体），而且一般来说所选取的字形的数量也不会很多，所以构造一个常见字符的字形特征表的开销是可以接受的，而且在其中进行匹配、搜索的开销也 ^艮小。

在实际使用中，字形特征表可以存在不止一张。例如，可以针对每种字符类型分别生成一张字形特征表，字符类型包括数字、字母、标点符号、汉字、其他特殊字符等。对于每张字形特征表，选取字形的规则也可不同。如，标点符号种类较少，可以将所有标点符号对应字形的映射关系加入对应的字形特征表；而汉字则可以将最常见的 200个汉字对应字形的映射关系加入对应的字形特征表。在使用时，可以按照字符类型在对应的字形特征表中进行字体查找；也可以在所有表中进行字体查找。

由于 OCR存在误识别率，同时所选取的常见字符也有一定可能不是常见字符，所以可能存在根据字形特征值找不到对应的字体的情况，因此在进行步当然，对于存在字符编码和字形的映射关系的内嵌字体，也可以忽视该映射关系，即步骤 1中在存在字符编码到字形的映射关系时，也可以到步骤 5。但是缺少了字符编码的辅助，在某些情况下效率和准确率可能会受到影响。

通过本实施例可以根据内嵌字体找到对应的原始字体，从而可以进一步进行自由的文字编辑或省略内嵌字体的数据传输，也可适用于其他依赖原始字体的应用。

实施例一：

从新宋体（simsun.ttf )得来的内嵌字体 A, 其字形集合中包含字符编码与字形的映射关系。采用字形数据的 MD5值作为该字形的字形特征值。选择常见的 200个汉字字符（如 "的"， "一"， "是"， "了" 等），从新宋体、黑体、楷体、华文仿宋、幼圓等十个常见的中文字体的字形集合中抽取这 200个字符的字形，并分别计算各字形的字形特征值，从而得到了一个常见汉字的字形特征表，示意如下表 1 :

字符编码字体字形特征值

的新宋体 53dll69058611886e5cf2b2b4dd0627f 新宋体 C8f77ee32399b7bbe05560f9da7aa5a3 疋新宋体 65c8c486368da89dedd430b09127f883

步骤 1 : 从内嵌字体 A的字形集合中选择 "的"、 "一"、 "是"、 "了" 这四个字符对应的字形，因为这四个字符很常见，且包含在内嵌字体 A的字形集合中；也可以选择包含在内嵌字体 A的字形集合中、同时还包含在字体特征表中的常见字符。

步骤 2: 计算选择的每个字形对应的字形特征值，如 "是" 的字形特征值就是 65c8c486368da89dedd430b09127f883。通过查找字形特征表确定字符编码为"是"，特征值为 65c8c486368da89dedd430b09127f883的字体是新宋体。

同样可以确认其他三个字形对应的字体也是新宋体。

步骤 3: 由于选择的每个字形对应的字体是新宋体，因此确定内嵌字体 A 对应的原始字体是新宋体。

上述实施例中的字形特征表并不一定真的存储为表状，也可以存储为树等其他数据结构，只要其能够根据提供的条件进行搜索、定位即可。

实施例二：

从新宋体（simsun.ttf )得来的内嵌字体 A, 其字形集合中不包含字符编码与字形的映射关系。采用字形数据的 MD5值作为该字形的特征值。选择常见的 200个汉字字符（如 "的"， "一"， "是"， "了" 等，不包含 "银，，），从新宋体、黑体、楷体、华文仿宋、幼圓等十个常见的中文字体的字形集合中抽取这 200个字符的字形，并分别计算各字形的字形特征值，从而得到了一个常见汉字的字形特征表，如表 1所示。

步骤 1 : 统计文档中使用内嵌字体 A的常见字形出现的次数，选取前 5个出现次数最多的常见字形，比如是 "的"、 "是"、 "了"、 "银"、 "一"。

步骤 2: 当处理 "的"的字形时，首先利用 OCR技术进行识别，得到 "的" 的字符编码，然后通过根据 "的 " 的字符编码和字形特征值 53dll69058611886e5cf2b2b4dd0627f 查找字形特性表，确定 "的" 的字形对应新宋体。

当处理 "是" 的字形时，利用 OCR技术将其错误识别为 "足"，从而未在字形特征表中找到对应的字体，则直接通过根据 "是" 的字形特征值 65c8c486368da89dedd430b09127f883查找字形特性表，确定 "是" 的字形对应新宋体。

"了" 和 "一" 不再赘述。确认 "了" 和 "一" 的字形都对应新宋体。当处理 "银" 的字形时，利用 OCR技术和字形特征值都不能找到其对应的字体。

步骤 3: 处理完 5个字形后，发现 4个字形都对应新宋体，还有 1个字形不能确定其字体，考虑到文档常见字形的分布规律可能与常见字符分布规律存在一些差异，最终判定该内嵌字体 A的原始字体就是新宋体。

本发明中确定的内嵌字体对应的原始字体的信息可以写回到文档的描述信息中，以供后续应用使用，比如，在需要显示一个字符时，如果内嵌字体的字形集合中不包含该字符的字形，那么，可以从该内嵌字体对应的原始字体的字形集合中查找该字符的字形，进而根据字形进行文字显示。

同样本发明中确定的字符编码也可以写回到文档的配置文件中，以供文字编辑等应用使用。比如，在需要编辑一个字符时，可以根据已保存的该字符的字符编码直接找到对应的字形，进而根据字形进行文字编辑。而不需要临时确定该字符的字符编码，提高了显示速度。

本发明中字形特征值的计算可以采用消息摘要算法（Message Digest Algorithm , MD5 ) , 在实际使用时也可以采用安全散列算法（Secure Hash Algorithm, SHA-1 )等其他摘要计算方法，也可以采用图形处理中轮廓特征提取等技术进行计算。

参见图 3 , 本发明实施例提供一种字体确定设备，该设备包括：

内嵌字体确定单元 30, 用于确定文档所使用的内嵌字体；字形选取单元 31 , 用于选取所述内嵌字体的字形集合中的至少一个字形，或者选取所述文档中至少一个使用所述内嵌字体的字符对应的字形；

字形字体确定单元 32, 用于确定选取的各字形对应的字体；

原始字体确定单元 33 ,用于根据各字形对应的字体，确定所述内嵌字体对应的原始字体。

进一步的，所述字形选取单元 31用于：

在所述文档中包含字符编码与字形的映射关系时，根据该映射关系确定预先设定的多个常用字符分别对应的字形，并从所述内嵌字体的字形集合中选取确定的字形；或者，

统计所述文档中使用所述内嵌字体的各字形出现的次数，选取各字形中出现次数最多的至少一个字形。

进一步的，所述字形字体确定单元 32用于：

对于选取的每个字形，确定该字形对应的字符编码，并计算该字形的字形特征值，在预先生成的字形特征表中查找该字符编码与该字形特征值对应的字体，将查找到的字体确定为该字形对应的字体；或者，

对于选取的每个字形，计算该字形的字形特征值，在所述字形特征表中查找该字形特征值对应的字体，将查找到的字体确定为该字形对应的字体；所述字形特征表中包含字符编码与字体、字形特征值的映射关系。

进一步的，所述字形字体确定单元 32用于：

在所述字形集合中包含字符编码与字形的映射关系时，根据该映射关系确定该字形对应的字符编码；或者，

利用 OCR技术识别该字体的字符编码。

进一步的，所述原始字体确定单元 33用于：

若各字形对应的字体为同一字体，则将该同一字体确定为所述内嵌字体对应的原始字体；或者，

确定对应同一字体的字形，并确定该字形是否满足设定条件，在满足时将该同一字体确定为所述内嵌字体对应的原始字体。

进一步的，该设备还包括：

显示单元 34,用于在确定所述内嵌字体对应的原始字体之后，在需要进行字符显示时，在本地保存的所述原始字体对应的字形集合中查找待显示字符对应的字形，并使用查找到的字形显示该待显示字符。

综上，本发明的有益效果包括：

本发明实施例提供的方案中，首先从内嵌字体的字形集合中选取至少一个字形，然后确定选取的各字形对应的字体，并根据各字形对应的字体确定内嵌字体对应的原始字体。可见，本方案实现了确定文档中使用的内嵌字体所对应字体的问题。

在确定内嵌字体对应的原始字体之后，在需要进行字符显示时，在本地保存的所述原始字体对应的字形集合中查找待显示字符对应的字形，并使用查找到的字形显示该待显示字符，能够解决由于无法确定文档中使用的内嵌字体所对应的原始字体而带来的问题。比如，在用户需要在文档中增加一个字符时，如果文档使用的内嵌字体的字形集合中不包含该需要增加的字符的字形，那么，可以从本地保存的该内嵌字体对应的原始字体的字形集合中查找该需要增加的字符的字形，进而根据字形进行文字显示，从而避免了编辑失败的问题。又比如，在客户端需要显示服务器上保存的一个文档时，客户端可以从本地获取文档使用的内嵌字体对应的原始字体的字形集合，而不需要下载该文档使用的内嵌字体的字形集合，从而提高了在网络环境中文档的显示速度。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和 /或方框、以及流程图和 /或方框图中的流程和 / 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

权利要求书

1、一种字体确定方法，其特征在于，该方法包括：

确定文档所使用的内嵌字体；

选取所述内嵌字体的字形集合中的至少一个字形；

确定选取的各字形对应的字体；

2、如权利要求 1 所述的方法，其特征在于，所述选取所述内嵌字体的字形集合中的至少一个字形，具体包括：

3、如权利要求 1所述的方法，其特征在于，所述确定选取的各字形对应的字体，具体包括：

4、如权利要求 3所述的方法，其特征在于，所述确定该字形对应的字符编码，具体包括：

在所述字形集合中包含字符编码与字形的映射关系时，根据该映射关系确定该字形对应的字符编码；或者，利用光学字符识别 OCR技术识别该字体的字符编码。

5、如权利要求 1-4 中任一所述的方法，其特征在于，所述根据各字形对应的字体，确定所述内嵌字体对应的原始字体，具体包括：

6、如权利要求 1-4 中任一所述的方法，其特征在于，在确定所述内嵌字体对应的原始字体之后，进一步包括：

在需要进行字符显示时，在本地保存的所述原始字体对应的字形集合中查找待显示字符对应的字形，并使用查找到的字形显示该待显示字符。

7、一种字体确定设备，其特征在于，该设备包括：

内嵌字体确定单元，用于确定文档所使用的内嵌字体；

字形选取单元，用于选取所述内嵌字体的字形集合中的至少一个字形，或者选取所述文档中至少一个使用所述内嵌字体的字符对应的字形；

字形字体确定单元，用于确定选取的各字形对应的字体；

8、如权利要求 7所述的设备，其特征在于，所述字形选取单元用于：在所述文档中包含字符编码与字形的映射关系时，根据该映射关系确定预先设定的多个常用字符分别对应的字形，并从所述内嵌字体的字形集合中选取确定的字形；或者，

9、如权利要求 7所述的设备，其特征在于，所述字形字体确定单元用于：对于选取的每个字形，确定该字形对应的字符编码，并计算该字形的字形特征值，在预先生成的字形特征表中查找该字符编码与该字形特征值对应的字体，将查找到的字体确定为该字形对应的字体；或者，

对于选取的每个字形，计算该字形的字形特征值，在所述字形特征表中查找该字形特征值对应的字体，将查找到的字体确定为该字形对应的字体；

所述字形特征表中包含字符编码与字体、字形特征值的映射关系。

10、如权利要求 9所述的设备，其特征在于，所述字形字体确定单元用于：在所述字形集合中包含字符编码与字形的映射关系时，根据该映射关系确定该字形对应的字符编码；或者，

利用 OCR技术识别该字体的字符编码。

11、如权利要求 7-10中任一所述的设备，其特征在于，所述原始字体确定单元用于：

12、如权利要求 7-10中任一所述的设备，其特征在于，该设备还包括：显示单元，用于在确定所述内嵌字体对应的原始字体之后，在需要进行字符显示时，在本地保存的所述原始字体对应的字形集合中查找待显示字符对应的字形，并使用查找到的字形显示该待显示字符。