WO2021072905A1

WO2021072905A1 - 字库生成方法、装置、电子设备及存储介质

Info

Publication number: WO2021072905A1
Application number: PCT/CN2019/119904
Authority: WO
Inventors: 蒋建斌; 连宙辉; 肖建国; 张纯; 宛慧军; 唐英敏
Original assignee: 北京方正手迹数字技术有限公司; 北京大学
Priority date: 2019-10-16
Filing date: 2019-11-21
Publication date: 2021-04-22
Also published as: CN112669407A

Abstract

本申请提供一种字库生成方法、装置、电子设备及存储介质。本申请提供的字库生成方法通过获取文字图像集合，所获取的文字图像集合中包括至少一张文字图像，然后根据所获取的文字图像确定第一参考字库，再根据文字图像集合中的文字图像以及第一参考字库确定目标笔画轨迹数据，所确定的目标笔画轨迹数据可以表征文字图像的形状特征，最后根据目标笔画轨迹数据以及预设处理算法确定目标文字图像，以生成目标字库，从而，能够通过文字图像实现整套字库的自动生成。字库生成过程简洁，提高了字库制作效率，减少了制作成本。并且，所生成字库中的文字能够保持原始文字的书写风格，字库质量较高。

Description

字库生成方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机图形技术领域，尤其涉及一种字库生成方法、装置、电子设备及存储介质。

背景技术

随着通信技术的飞速发展，尤其是目前智能终端的普遍使用，人们的工作和生活中都会接触到各种各样的字库，使得用户对于各种字库的需求量日益增长。

现有技术中，对于字库的制作，通常需要专业的字库设计团队进行。制作流程一般为人工制作几百到几千个基准字，基于基准字逐字进行加工、修改及其制作，获得所需的目标字形，在目标字形的基础上生成完整的字库。

可见，一套字库的制作流程需要耗费巨大的人力和物力，尤其是像中文、日文等字符数量众多的字库，其制作流程更是复杂以及耗费时间。不但需要较多数量的基准字，其制作周期长，制作效率低下。并且，字库的制作过程依赖于人工，尤其对于具有例如连笔风格的基准字，所制备的字库不能精确地保持文字风格，字库质量欠佳。

发明内容

本申请提供一种字库生成方法、装置、电子设备及存储介质，用以解决现有字库制作流程复杂、效率低下、制作成本过高以及字库质量欠佳的技术问题。

第一方面，本申请提供一种字库生成方法，包括：

获取文字图像集合，所述文字图像集合包括至少一张文字图像；

根据所述文字图像集合确定第一参考字库，所述第一参考字库属于预设参考字库集合；

根据所述文字图像集合中的文字图像以及所述第一参考字库确定目标笔画轨迹数据，所述目标笔画轨迹数据用于表征所述文字图像的形状特性；

根据所述目标笔画轨迹数据以及预设处理算法确定目标文字图像，以根据所述目标文字图像生成目标字库。

在一种可能的设计中，所述根据所述文字图像集合确定第一参考字库，包括：

根据所述文字图像集合以及所述预设参考字库集合确定对应的参考文字图像集合；

根据所述参考文字图像集合以及所述预设参考字库集合确定参考笔画骨架数据集合，所述预设参考字库集合包括每个参考文字图像与参考笔画骨架数据之间的映射关系；

根据所述文字图像集合以及所述参考笔画骨架数据集合确定所述第一参考字库。

在一种可能的设计中，所述根据所述文字图像集合中的文字图像以及所述第一参考字库确定目标笔画轨迹数据，包括：

根据所述文字图像以及第一预设图像处理算法确定骨架数据，所述骨架数据包括特征点集；

根据预设提取算法，将所述特征点集与所述参考笔画骨架数据集合进行匹配，以确定笔画轨迹数据；

根据所述笔画轨迹数据以及预设过滤算法确定目标笔画轨迹数据。

在一种可能的设计中，所述根据所述目标笔画轨迹数据以及预设处理算法确定目标文字图像，包括：

根据所述目标笔画轨迹数据以及预设训练模型确定目标笔画风格数据，所述目标笔画风格数据包括目标笔画坐标数据以及目标笔画重心数据；

根据所述目标笔画轨迹数据确定目标笔画细节数据，所述目标笔画细节数据包括目标笔画宽度数据以及目标笔画端部轮廓特征数据；

根据所述目标笔画轨迹数据以及所述第一参考字库确定目标笔画连笔概率数据；

根据所述目标笔画风格数据以及所述第一参考字库确定目标笔画位置数据；

根据所述目标笔画细节数据以及所述目标笔画位置数据确定目标笔画闭合轮廓路径；

根据所述目标笔画闭合轮廓路径以及预设填充算法确定单一笔画图像；

根据所述单一笔画图像以及所述目标笔画连笔概率数据确定目标笔画图像；

根据所述目标笔画图像以及预设叠加方式确定所述目标文字图像。

在一种可能的设计中，所述根据所述目标文字图像生成目标字库，包括：

根据所述目标文字图像以及第二预设图像处理算法确定修正文字图像；

基于预设矢量算法，根据所述修正文字图像以及所述文字图像集合生成目标字库。

第二方面，本申请提供一种字库生成装置，包括：

获取模块，用于获取文字图像集合，所述文字图像集合包括至少一张文字图像；

第一处理模块，用于根据所述文字图像集合确定第一参考字库，所述第一参考字库属于预设参考字库集合；

第二处理模块，用于根据所述文字图像集合中的文字图像以及所述第一参考字库确定目标笔画轨迹数据，所述目标笔画轨迹数据用于表征所述文字图像的形状特性；

第三处理模块，用于根据所述目标笔画轨迹数据以及预设处理算法确定目标文字图像，以根据所述目标文字图像生成目标字库。

在一种可能的设计中，所述第一处理模块，具体用于：

在一种可能的设计中，所述第二处理模块，具体用于：

在一种可能的设计中，所述第三处理模块，具体用于：

第三方面，本申请提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面及可选的方案涉及的字库生成方法。

第四方面，本申请提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面及可选的方案涉及的字库生成方法。

本申请提供的字库生成方法、装置、电子设备及存储介质，首先获取文字图像集合，所获取的文字图像集合中包括至少一张文字图像，然后根据所获取的文字图像确定第一参考字库，其中，第一参考字库属于预设参考字库集合，再根据文字图像集合中的文字图像以及第一参考字库确定目标笔画轨迹数据，所确定的目标笔画轨迹数据可以表征文字图像的形状特征，最后根据目标笔画轨迹数据以及预设处理算法确定目标文字图像，并根据所确定的目标文字图像生成目标字库，从而，能够通过文字图像实现整套字库的自动生成，字库生成过程简洁，提高了字库制作效率，减少了制作成本。并且，所生成字库中的文字能够保持原始文字的书写风格，字库质量较高。

附图说明

图1为本申请实施例提供的字库生成方法的一种应用场景示意图；

图2为本申请实施例提供的一种字库生成方法的流程示意图；

图3为本申请实施例提供的一种确定第一参考字库的流程示意图；

图4为本申请实施例提供的一种确定目标笔画轨迹数据的流程示意图；

图5为本申请实施例提供的一种目标笔画轨迹数据的示意图；

图6为本实施例提供的一种确定目标文字图像的流程示意图；

图7为本申请实施例提供的一种生成目标字库的流程示意图；

图8为本申请实施例提供的一种标准字库与目标字库相同文字图像的示意图；

图9为本申请实施例提供的一种字库生成装置的结构示意图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法和装置的例子。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着通信技术的飞速发展，智能终端的普遍使用，人们的工作和生活中都会接触到各种各样的字库，使得对于各种字库的需求日益增长。然而，现有技术中，一套字库的制作流程需要耗费巨大的人力和物力，尤其是像中文、日文等字符数量众多的字库，其制作流程更是复杂以及耗费时间。不但需要较多数量的基准字，其制作周期长，制作效率低下。此外，字库的制作过程依赖于人工，尤其对于具有例如连笔风格的基准字，所制备的字库不能精确地保持文字风格，字库质量欠佳。

针对现有技术中的上述问题，本申请提供一种字库生成方法、装置、电子设备及存储介质，通过首先获取文字图像集合，所获取的文字图像集合中包括至少一张文字图像，然后根据所获取的文字图像确定第一参考字库，其中，第一参考字库属于预设参考字库集合，再根据文字图像集合中的文字图像以及第一参考字库确定目标笔画轨迹数据，所确定的目标笔画轨迹数据可以表征文字图像的形状特征，最后根据目标笔画轨迹数据以及预设处理算法确定目标文字图像，并根据所确定的目标文字图像生成目标字库，从而，能够通过至少一张文字图像实现整套字库的自动生成，字库生成过程简洁，提高了字库制作效率，减少了制作成本，并且，所生成的字库能够保持原始文字的书写风格，字库质量较高。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本申请实施例提供的字库生成方法的一种应用场景示意图。如图1所示，本申请提供的字库生成方法由电子设备执行，其中，电子设备可以是手机、计算机、平板电脑或笔记本电脑等，图1中以计算机1为例示出。本申请提供的字库生成方法可以通过至少一张文字图像实现整套字库的自动生成，所生成的字库能够保持原文字的书写风格。本申请提供的字库生成方法可以应用于任意文字风格的字库制作。

首先获取文字图像集合，所获取的文字图像集合中包括至少一张文字图像，参照图1所示，例如文字图像中的文字为汉字“密”，所获取的文字图像集合中包括有这张文字图像2，然后根据文字图像集合确定第一参考字库，再根据文字图像集合中的文字图像2以及第一参考字库确定目标笔画轨迹数据，目标笔画轨迹数据可以表征文字图像的形状特性，最后根据目标笔画轨迹数据以及预设处理算法确定目标文字图像，并根据目标文字图像生成目标字库，从而，通过文字图像实现整套字库的自动生成，所生成的字库能够保持原文字图像的文字风格。参照图1，例如目标字库中的一个文字图像3为汉字“岢”，汉字“岢”保持了汉字“密”中的部件“山”的文字风格。值得说明的是，图1中仅示出了通过本申请提供的字库生成方法所生成的字库中的一个文字图像。

图2为本申请实施例提供的一种字库生成方法的流程示意图。如图2所示，本实施例提供的字库生成方法可以由电子设备执行，该方法包括：

S21：获取文字图像集合，文字图像集合包括至少一张文字图像。

获取文字图像集合，所获取的文字图像集合中包括至少一张文字图像，可以理解为，书写至少一个文字，对所书写的文字可以进行拍照或扫描得到对应的文字图像，至少一张文字图像构成文字图像集合。参照图1中的文字图像2，该文字图像2通过对所书写的汉字“密”进行拍照或扫描得到。

S22：根据文字图像集合确定第一参考字库，第一参考字库属于预设参考字库集合。

根据文字图像集合确定第一参考字库，其中，第一参考字库属于预设参考字库集合，可以理解为，在获得文字图像集合之后，从预设参考字库集合中根据文字图像集合确定出最优参考字库，将最优参考字库定义为第一参考字库。值得被理解的是，最优参考字库则为在预设参考字库集合的多个预设参考字库中与文字图像集合中的所有文字图像最为匹配的参考字库。

一种可能的设计中，根据文字图像集合确定第一参考字库的实现方式如图3所示，图3为本申请实施例提供的一种确定第一参考字库的流程示意图，该实现方式包括：

S221：根据文字图像集合以及预设参考字库集合确定对应的参考文字图像集合。

文字图像集合中包括有至少一张文字图像，从预设参考字库集合的每个预设参考字库中识别出文字图像集合中的每张文字图像，所识别出的存在于预设参考字库集合中的文字图像构成参考文字图像集合。

例如，在预设参考字库集合根据统一码(Unicode)中对文字图像集合中的所有文字图像进行识别，将所识别出统一码一致的文字图像构成参考文字图像集合，其中，每个预设参考字库中都包含有文字图像集合中的所有文字图像。

S222：根据参考文字图像集合以及预设参考字库集合确定参考笔画骨架数据集合。

其中，预设参考字库集合包括每个参考文字图像与参考笔画骨架数据之间的映射关系。

预设参考字库可以离线进行构建，多个预设参考字库构成预设参考字库集合，其中，每个预设参考字库均包含有参考文字图像与参考笔画骨架数据之间的映射关系，换言之，预设参考字库集合包括每个参考文字图像与参考笔画骨架数据之间的映射关系，映射关系是指预设参考字库中的每个文字图像与各自字形的笔画骨架数据之间对应的关系。故而，可以理解的是，当参考文字图像被确定之后，根据所确定的参考文字图像与预设参考字库则可以确定参考笔画骨架数据，每个参考文字图像都存在对应的参考笔画骨架数据，那么，参考文字图像集合则存在对应的参考笔画骨架数据集合。值得理解的是，参考笔画骨架数据为参考文字图像中的文字的笔画骨架数据。

S223：根据文字图像集合以及参考笔画骨架数据集合确定第一参考字库。

在确定了参考笔画骨架数据集合之后，根据文字图像集合中的每个文字图像以及对应的参考笔画骨架数据确定第一参考字库，其中，可以采用特征比对运算，例如，采用弹性网格算法，基于参考笔画骨架数据计算每个文字图像中与参考文字图像之间的差异值，综合计算每个预设参考字库中所涉及的所有参考文字图像与对应的文字图像之间的差异值，筛选出最小差异值对应的预设参考字库，所筛选出的预设参考字库则为与文字图像集合中的所有文字图像最为匹配的参考字库，即为最优参考字库，将其定义为第一参考字库。

值得说明的是，本申请实施例提供的最小差异值对应的预设参考字库的数量仅为一个，则最小差异值对应的预设参考字库即为第一参考字库。

本实施例提供的确定最优参考字库，即确定第一参考字库的方式，首先通过文字图像集合以及预设参考字库集合确定与文字图像集合对应的参考文字图像集合，因预设参考字库集合中包括每个参考文字图像与参考笔画骨架数据之间的映射关系，故，根据参考文字图像集合以及预设参考字库集合可以确定参考笔画骨架数据集合，再对文字图像集合以及参考笔画骨架数据集合采用特征比对算法的计算，例如弹性网格算法，从而确定出第一参考字库。本实施例提供的确定第一参考字库的方法，可以从预设参考字库集合中确定出与文字图像集合最为匹配的字库作为参考字库，实现参考字库的精准匹配，有利于提高目标字库的质量。

S23：根据文字图像集合中的文字图像以及第一参考字库确定目标笔画轨迹数据。

其中，目标笔画轨迹数据用于表征文字图像的形状特性。

在确定了第一参考字库之后，根据文字图像集合中的每个文字图像以及第一参考字库确定目标笔画轨迹数据，其中，目标笔画轨迹数据可以表征文字图像集合中每个文字图像的形状特性。

值得被理解的是，笔画是构成文字的基本元素，故，目标笔画轨迹数据可以理解为准确地表征文字图像集合中的每个文字图像的每个笔画的一系列数据，例如，文字图像的每个笔画的起点、终点、拐点以及各个点在整个字形中的位置等数据，从而可以表征文字图像的形状特性。

另外，第一参考字库包括参考文字图像与参考笔画骨架数据之间的映射关系，因而，通过文字图像集合中的文字图像以及第一参考字库可以确定目标笔画轨迹数据，所确定的目标笔画轨迹数据可以表征文字图像的形状特性。

值得说明的是，目标笔画轨迹数据是针对构成文字图像的所有笔画而言。

一种可能的设计中，确定目标笔画轨迹数据的实现方式如图4所示，图4为本申请实施例提供的一种确定目标笔画轨迹数据的流程示意图，该实现方式包括：

S231：根据文字图像以及第一预设图像处理算法确定骨架数据。

其中，骨架数据包括特征点集。

对文字图像集合中的文字图像采用预设图像处理算法进行处理，以确定文字图像中的文字的骨架数据。例如，对文字图像采用图像细化处理算法进行处理，则可以获得文字图像中文字的骨架数据。

可以理解的是，骨架数据包括构成骨架数据的多个数据，若将每个数据称之为特征点，则特征点集构成了骨架数据，换言之，骨架数据包括特征点集。

S232：根据预设提取算法，将特征点集与参考笔画骨架数据集合进行匹配，以确定笔画轨迹数据。

在确定了文字图像的骨架数据，即特征点集之后，采用预设提取算法，将特征点集与参考笔画骨架数据集合进行点集匹配，获得笔画轨迹数据，可以理解的是，所获得的笔画轨迹数据是文字图像集合中的文字图像的笔画轨迹数据。

例如可以采用一致性点集漂移算法(Coherent Point Drift，简称CPD)，对特征点集与参考笔画骨架数据集合进行非刚性点集注册，所获得的点集注册结果则为笔画轨迹数据。

值得说明的是，笔画轨迹数据是针对构成文字图像的所有笔画而言。

S233：根据笔画轨迹数据以及预设过滤算法确定目标笔画轨迹数据。

在上述确定出文字图像的笔画轨迹数据之后，通过预设过滤算法对笔画轨迹数据进行过滤，以滤除步骤S232中所确定的匹配结果较差笔画轨迹数据。可以理解的是，在步骤S232中，采用预设提取算法对特征点集与参考笔画骨架数据集合进行匹配，所确定的文字图像的笔画轨迹数据中可以包含笔画的起点、终点、拐点以及各个点在字形中的位置等数据，因此，需要滤除掉匹配较差的数据。

例如，采用的预设过滤算法的具体过程可以是，首先根据步骤S232中确定的笔画轨迹数据通过图像的膨胀处理，重现文字图像，然后将重现文字图像与文字图像集合中对应的文字图像进行图像比对，计算出两者对比之后的差异值，根据差异值，从笔画轨迹数据中确定出目标笔画轨迹数据。具体地，可以将所计算得到的差异值进行升序的排序，然后指定阈值进行截取，例如，阈值设置为70％，则30％的差异值对应的笔画轨迹数据被认为是所确定的匹配较差的数据，故将其过滤，从而确定出匹配较好的笔画轨迹数据，将其作为目标笔画轨迹数据。

值得说明的是，目标笔画轨迹数据是针对构成文字图像的所有笔画而言，如图5所示，图5为本申请实施例提供的一种目标笔画轨迹数据的示意图，可以理解的是，目标笔画轨迹数据的表现形式可以是矩阵、图形等，其中，图形是一种更加形象化的表现形式，图5中以汉字“啊”为例示出了该字形的目标笔画轨迹数据。

本实施例提供的确定目标笔画轨迹数据的方式，通过文字图像以及第一预设图像处理算法首先确定骨架数据，其中，骨架数据包括特征点集，然后根据预设提取算法，将特征点集与参考笔画骨架数据集合进行匹配，确定笔画轨迹数据，最后通过预设过滤算法从笔画轨迹数据中确定出目标笔画轨迹数据，以提高后续通过预设训练模型进行数据训练时所采用的数据的准确度，有利于目标文字图像保持文字图像集合中文字图像的书写风格。

S24：根据目标笔画轨迹数据以及预设处理算法确定目标文字图像，以根据目标文字图像生成目标字库。

在确定了目标笔画轨迹数据之后，对目标笔画轨迹数据采用预设处理算法进行运算可以确定目标文字图像，再由所确定的目标文字图像生成目标字库。可以理解的是，目标笔画轨迹数据是文字图像集合中文字图像的笔画轨迹数据，因此，对目标笔画轨迹数据采用一定的算法运算则能够确定文字图像对应的目标文字图像，当目标文字图像确定之后，则可以根据目标文字图像生成目标字库。

可以理解的是，目标字库中包括每个独立的目标文字图像。

一种可能的设计中，根据目标笔画轨迹数据以及预设处理算法确定目标文字图像的实现方式如图6所示，图6为本实施例提供的一种确定目标文字图像的流程示意图，该实现方式包括：

S241：根据目标笔画轨迹数据以及预设训练模型确定目标笔画风格数据。

其中，目标笔画风格数据包括目标笔画坐标数据以及目标笔画重心数据。

采用预设训练模型对目标笔画轨迹数据进行训练以确定目标笔画风格数据，目标笔画风格数据包括目标笔画坐标数据以及目标笔画重心数据。

为了在采用预设训练模型训练数据的过程中获得描述文字图像更为准确的数据，预设训练模型可以针对描述目标文字图像的笔画轨迹信息和笔画重心信息分别采用两个模型进行数据训练。可以理解的是，两个模型的实质相同，不同的是训练模型的输入和输出数据。例如，预设训练模型都可以采用人工神经网络，针对描述笔画轨迹信息的输入和输出数据为笔画点坐标数据，针对描述笔画重心信息的输入和输出数据为笔画重心坐标数据。值得被理解的是，笔画点坐标数据为表征笔画上特征点的坐标数据，笔画重心坐标数据为表征笔画重心位置的坐标数据。

值得说明的是，在进行数据训练之前，首先对目标笔画轨迹数据以及参考笔画骨架数据集合中对应的参考笔画骨架数据均进行格式化处理，以得到目标笔画点坐标数据与对应的参考笔画点坐标数据，以及目标笔画重心坐标数据与对应的参考笔画重心坐标数据。

采用预设训练模型进行数据训练具体为：

针对描述笔画轨迹信息的预设训练模型而言，对文字图像以及参考文字图像各自对应的目标笔画点坐标数据以及参考笔画点坐标数据均匀提取相同数量的采样点，并进行数值归一化，计算相对应的目标笔画点坐标数据与参考笔画点坐标数据之间的差值，将该差值作为预设训练模型的输出，其输入为对应的参考笔画点坐标数据经归一化后的数据。

针对描述笔画重心信息的预设训练模型而言，计算相对应的目标笔画重心坐标数据与对应的参考笔画重心坐标数据各自归一化后的差值，将其差值作为预设训练模型的输出，其输入为对应的参考笔画重心坐标数据。

并将步骤S23确定的目标笔画轨迹数据与对应的参考笔画骨架数据作为上述两个预设训练模型的训练数据，则能够分别得到目标笔画坐标数据与目标笔画重心数据，其中目标笔画坐标数据为描述笔画轨迹信息的预设训练模型所得，目标笔画重心数据为描述笔画重心信息的预设训练模型所得。目标笔画坐标数据以及目标笔画重心数据共同确定了目标笔画风格数据，以对文字图像的整体书写风格进行准确描述。

S242：根据目标笔画轨迹数据确定目标笔画细节数据。

其中，目标笔画细节数据包括目标笔画宽度数据以及目标笔画端部轮廓特征数据。

目标笔画细节数据可以理解为是表征笔画的细节信息的数据，例如笔画的宽度信息、笔画端部的轮廓信息，因此，目标笔画细节数据包括目标笔画宽度数据以及目标笔画端部轮廓特征数据。目标笔画轨迹数据可以表征文字图像的形状特性，如图5所示，可见，对笔画骨架数据进行笔画宽度的扩充以及笔画端部轮廓的修饰则能够更进一步准确地表征文字图像的形状特性。

例如，目标笔画宽度数据，即笔画宽度值，可以确定为笔画起点或终点至笔画轮廓上的最大距离的两倍，而笔画起点以及终点的数据均来自于目标笔画轨迹数据，故，根据目标笔画轨迹数据确定了目标笔画宽度数据。再者，从起点或终点至最接近一侧的笔画轮廓均以发射一定数量的射线，便可计算出起点或终点至笔画轮廓的距离，进而能够确定起点或终点区域内的笔画轮廓形状。并且，在离线阶段可以对文字所涉及的所有笔画进行精确分类，例如中文为339类，日文为358类，则可计算出每一类笔画在上述表征笔画轮廓形状的数据中的平均值，所获得的平均值则为目标笔画端部轮廓特征数据。目标笔画宽度数据以及目标笔画端部轮廓特征数据确定了目标笔画细节数据。

S243：根据目标笔画轨迹数据以及第一参考字库确定目标笔画连笔概率数据。

可以理解的是，在离线阶段，可以对第一参考字库中参考文字图像的部件进行精确分类，例如中文为1777类，日文为2075类。一个类别就是表示一个部件，为了描述部件内部相邻笔画的连笔特性，需要对每一个分类也即是每一个部件内部相邻笔画的连笔概率进行计算，例如对于中文1777个类别，每一个类别表示该类别内从第i个笔画终点到第i+1个笔画的起点之间的连笔概率，从而通过统计分析，得出目标笔画所处的部件内，该笔画的起点以及终点分别与相邻的前一个笔画的终点以及相邻的后一个笔画的起点之间的连笔概率，则表征连笔概率的数据为目标笔画连笔概率数据。

S244：根据目标笔画风格数据以及第一参考字库确定目标笔画位置数据。

将步骤S241中确定的目标笔画风格数据与第一参考字库中对应的参考笔画骨架数据进行拟合，拟合结果为目标笔画位置数据，以表征文字图像的每个笔画在整个字形中的位置信息。

可以理解的是，因目标笔画风格数据包括目标笔画坐标数据以及目标笔画重心数据，故，目标笔画坐标数据与参考笔画点坐标数据进行拟合，类似地，目标笔画重心数据与参考笔画重心坐标数据进行拟合。将两者拟合结果确定为目标笔画位置数据。

S245：根据目标笔画细节数据以及目标笔画位置数据确定目标笔画闭合轮廓路径。

目标笔画细节数据包括目标笔画宽度数据以及目标笔画端部轮廓特征数据，对两类数据分别进行运算，能够确定目标笔画闭合轮廓路径。

具体地，首先通过文字-部件-部件内笔画顺序的对应关系，能够确定文字图像的笔画顺序，按照所确定的笔画顺可以恢复笔画轮廓信息。然后，基于目标笔画端部轮廓特征数据，以及目标笔画位置数据所表征的起点和终点的位置作为中心点，在180°的范围内，平均发射一定数量的射线，其中，射线的长度为当前笔画种类的笔画端部宽度，射线的终点为最终轮廓点，将笔画中断均分为一定的段数，以左右90°方向各取一条射线，所取射线的长度为当前笔画中段某个段数的宽度，该射线的终点依然为轮廓点，将所有轮廓点按预设的一定顺序连接，则能够得到完整的笔画闭合轮廓路径。

S246：根据目标笔画闭合轮廓路径以及预设填充算法确定单一笔画图像。

在确定了目标笔画闭合轮廓路径之后，采用预设填充算法对目标笔画闭合轮廓路径进行填充，即可得到每个单一的笔画图像。其中，预设填充算法可以为缠绕填充算法(Winding Fill)。

S247：根据单一笔画图像以及目标笔画连笔概率数据确定目标笔画图像。

在确定每个单一笔画图像之后，则可以将每个单一笔画图像按照一定的规则进行处理，以得到目标笔画图像。

例如，可以按照文字-部件-部件内笔画顺序的对应关系，基于目标笔画连笔概率数据，对部件内部相邻的需要连接的两两笔画之间进行平滑连接，以得到目标笔画图像。

值得说明的是，目标笔画连笔概率数据是基于目标笔画轨迹数据所确定，其考虑了文字图像中文字的书写习惯，减少了无意义的连笔情况，故而，根据单一笔画图像以及目标笔画连笔概率数据所确定的目标笔画图像保持了原始所书写的文字图像中文字的文字风格。

S248：根据目标笔画图像以及预设叠加方式确定目标文字图像。

在确定了目标笔画图像之后，采用预设叠加方式对所确定的目标笔画图像进行一次叠加，则能够得到目标文字的整个字形，即确定目标文字图像。其中，预设叠加方式可以是任意可以进行图片叠加的方式，对此，本申请实施例不作限定。

可以理解的是，在进行目标笔画图像叠加时，针对同一个目标文字图像的所有目标笔画图像进行叠加。

本实施例提供的确定目标文字图像的方式，首先根据目标笔画轨迹数据以及预设训练模型确定目标笔画风格数据，以及根据目标笔画轨迹数据确定目标笔画细节数据，进而确定目标笔画连笔概率数据以及目标笔画位置数据，以及目标笔画闭合轮廓路径，采用预设填充算法对目标笔画闭合轮廓路径进行填充以确定单一笔画图像，再结合目标笔画连笔概率数据确定目标笔画图像，对其通过预设叠加方式进行叠加，最终确定目标文字图像，使得所确定的目标文字图像能够保持原始文字图像的文字风格。

可以理解的是，通过图6所示实施例中确定目标文字图像的实现方式可以确定构成整套目标字库的所有目标文字图像，当确定了所有的目标文字图像之后，根据目标文字图像生成目标字库的一种可能的实现方式是将所有目标文字图像直接存储至一套字库中，该套字库即为目标字库，所得到的目标字库与文字图像集合中相同的部件具有相同的文字风格。

由目标文字图像生成目标字库的另一种可能的实现方式如图7所示，图7为本申请实施例提供的一种生成目标字库的流程示意图，该实现方式包括：

S71：根据目标文字图像以及第二预设图像处理算法确定修正文字图像。

对目标文字图像采用第二预设图像处理算法进行处理，使得目标文字图像的笔画宽度与文字图像集合中的文字图像的笔画宽度更为接近的修正文字图像。其中，第二预设图像处理算法可以是图像腐蚀和/或图像膨胀处理。

例如，可以采用差异值来评价修正文字图像与文字图像集合中文字图像的相同笔画的宽度，本领域技术人员可以根据实现需求确定差异值的阈值，以控制第二预设图像处理算法对目标文字图像的处理程度，从而确定修正文字图像。

S72：基于预设矢量算法，根据修正文字图像以及文字图像集合生成目标字库。

在确定修正文字图像之后，对修正文字图像以及文字图像集合中的文字图像采用预设矢量算法运算，得到构成目标字库的最终的目标文字图像。在确定了所有最终的目标文字图像之后，所有最终的目标文字图像构成目标字库。

例如，可以采用字形轮廓矢量化，对修正文字图像以及文字图像集合中的文字图像一起进行矢量化，并按照矢量字库的标准格式生成最终的目标文字图像，完成所有最终的目标文字图像的矢量化，从而构成目标字库。例如，如图8所示，图8为本申请实施例提供的一种标准字库与目标字库相同文字图像的示意图，标准字库4中的文字图像为根据现有技术所制备，目标字库5中的文字图像为根据本实施例提供的字库生成方法所制备，两者均为矢量字库。

可以理解的是，目标字库中包括每个独立的最终的目标文字图像。

本实施例提供的字库生成方法，通过获取文字图像集合，所获取的文字图像集合中包括至少一张文字图像，然后根据所获取的文字图像集合确定第一参考字库，第一参考字库数据预设参考字库集合中的一个字库，在确定了第一参考字库之后，再根据文字图像集合中的文字图像以及第一参考字库确定目标笔画轨迹数据，目标笔画轨迹数据能够表征文字图像的形状特性，最后根据目标笔画轨迹数据以及预设处理算法确定目标文字图像，并根据目标文字图像生成目标字库。能够通过文字图像实现整体字库的自动生成。与现有技术相比，因生成过程简洁，从而提高了字库制作效率，减少了制作成本。并且，本实施例提供的字库生成方法能够较为精确地保持文字图像集合中的文字图像风格，提高了字库质量。

图9为本申请实施例提供的一种字库生成装置的结构示意图。本实施例提供的字库生成装置，用于执行上述各实施例提供的字库生成方法，如图9所示，本实施例提供的字库生成装置100，包括：

获取模块101，用于获取文字图像集合，文字图像集合包括至少一张文字图像。

第一处理模块102，用于根据文字图像集合确定第一参考字库，第一参考字库属于预设参考字库集合。

第二处理模块103，用于根据文字图像集合中的文字图像以及第一参考字库确定目标笔画轨迹数据，目标笔画轨迹数据用于表征文字图像的形状特性。

第三处理模块104，用于根据目标笔画轨迹数据以及预设处理算法确定目标文字图像，以根据目标文字图像生成目标字库。

本实施例提供的字库生成装置与上述图2的方法实施例的实现原理以及效果类似，在此不作赘述。

一种可能的设计中，第一处理模块102，具体用于：

根据文字图像集合以及预设参考字库集合确定对应的参考文字图像集合；

根据参考文字图像集合以及预设参考字库集合确定参考笔画骨架数据集合，预设参考字库集合包括每个参考文字图像与参考笔画骨架数据之间的映射关系；

根据文字图像集合以及参考笔画骨架数据集合确定第一参考字库。

本实施例与上述图3的方法实施例的实现原理以及效果类似，在此不作赘述。

一种可能的设计中，第二处理模块103，具体用于：

根据文字图像以及第一预设图像处理算法确定骨架数据，骨架数据包括特征点集；

根据预设提取算法，将特征点集与参考笔画骨架数据集合进行匹配，以确定笔画轨迹数据；

根据笔画轨迹数据以及预设过滤算法确定目标笔画轨迹数据。

本实施例与上述图4的方法实施例的实现原理以及效果类似，在此不作赘述。

一种可能的设计中，第三处理模块104，具体用于：

根据目标笔画轨迹数据以及预设训练模型确定目标笔画风格数据，目标笔画风格数据包括目标笔画坐标数据以及目标笔画重心数据；

根据目标笔画轨迹数据确定目标笔画细节数据，目标笔画细节数据包括目标笔画宽度数据以及目标笔画端部轮廓特征数据；

根据目标笔画轨迹数据以及第一参考字库确定目标笔画连笔概率数据；

根据目标笔画风格数据以及第一参考字库确定目标笔画位置数据；

根据目标笔画细节数据以及目标笔画位置数据确定目标笔画闭合轮廓路径；

根据目标笔画闭合轮廓路径以及预设填充算法确定单一笔画图像；

根据单一笔画图像以及目标笔画连笔概率数据确定目标笔画图像；

根据目标笔画图像以及预设叠加方式确定目标文字图像。

本实施例与上述图6的方法实施例的实现原理以及效果类似，在此不作赘述。

一种可能的设计中，第三处理模块104，还具体用于：

根据目标文字图像以及第二预设图像处理算法确定修正文字图像；

基于预设矢量算法，根据修正文字图像以及文字图像集合生成目标字库。

本实施例与上述图7的方法实施例的实现原理以及效果类似，在此不作赘述。

图10为本申请实施例提供的一种电子设备的结构示意图。如图10所示，本实施例提供的电子设备800包括：

至少一个处理器801；以及

与至少一个处理器801通信连接的存储器802；其中，

存储器802存储有可被至少一个处理器801执行的指令，该指令被至少一个处理器801执行，以使至少一个处理器801能够执行上述的字库生成方法的各个步骤，具体可以参考前述方法实施例中的相关描述。

在示例性实施例中，本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行上述各实施例中字库生成方法的各个步骤。例如，可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

一种字库生成方法，其特征在于，包括：

获取文字图像集合，所述文字图像集合包括至少一张文字图像；

根据所述文字图像集合确定第一参考字库，所述第一参考字库属于预设参考字库集合；

根据所述文字图像集合中的文字图像以及所述第一参考字库确定目标笔画轨迹数据，所述目标笔画轨迹数据用于表征所述文字图像的形状特性；

根据所述目标笔画轨迹数据以及预设处理算法确定目标文字图像，以根据所述目标文字图像生成目标字库。
根据权利要求1所述的字库生成方法，其特征在于，所述根据所述文字图像集合确定第一参考字库，包括：

根据所述文字图像集合以及所述预设参考字库集合确定对应的参考文字图像集合；

根据所述参考文字图像集合以及所述预设参考字库集合确定参考笔画骨架数据集合，所述预设参考字库集合包括每个参考文字图像与参考笔画骨架数据之间的映射关系；

根据所述文字图像集合以及所述参考笔画骨架数据集合确定所述第一参考字库。
根据权利要求1或2所述的字库生成方法，其特征在于，所述根据所述文字图像集合中的文字图像以及所述第一参考字库确定目标笔画轨迹数据，包括：

根据所述文字图像以及第一预设图像处理算法确定骨架数据，所述骨架数据包括特征点集；

根据预设提取算法，将所述特征点集与所述参考笔画骨架数据集合进行匹配，以确定笔画轨迹数据；

根据所述笔画轨迹数据以及预设过滤算法确定目标笔画轨迹数据。
根据权利要求1-3任意一项所述的字库生成方法，其特征在于，所述根据所述目标笔画轨迹数据以及预设处理算法确定目标文字图像，包括：

根据所述目标笔画轨迹数据以及预设训练模型确定目标笔画风格数据，所述目标笔画风格数据包括目标笔画坐标数据以及目标笔画重心数据；

根据所述目标笔画轨迹数据确定目标笔画细节数据，所述目标笔画细节数据包括目标笔画宽度数据以及目标笔画端部轮廓特征数据；

根据所述目标笔画轨迹数据以及所述第一参考字库确定目标笔画连笔概率数据；

根据所述目标笔画风格数据以及所述第一参考字库确定目标笔画位置数据；

根据所述目标笔画细节数据以及所述目标笔画位置数据确定目标笔画闭合轮廓路径；

根据所述目标笔画闭合轮廓路径以及预设填充算法确定单一笔画图像；

根据所述单一笔画图像以及所述目标笔画连笔概率数据确定目标笔画图像；

根据所述目标笔画图像以及预设叠加方式确定所述目标文字图像。
根据权利要求4所述的字库生成方法，其特征在于，所述根据所述目标文字图像生成目标字库，包括：

根据所述目标文字图像以及第二预设图像处理算法确定修正文字图像；

基于预设矢量算法，根据所述修正文字图像以及所述文字图像集合生成目标字库。
一种字库生成装置，其特征在于，包括：

获取模块，用于获取文字图像集合，所述文字图像集合包括至少一张文字图像；

第一处理模块，用于根据所述文字图像集合确定第一参考字库，所述第一参考字库属于预设参考字库集合；

第二处理模块，用于根据所述文字图像集合中的文字图像以及所述第一参考字库确定目标笔画轨迹数据，所述目标笔画轨迹数据用于表征所述文字图像的形状特性；

第三处理模块，用于根据所述目标笔画轨迹数据以及预设处理算法确定目标文字图像，以根据所述目标文字图像生成目标字库。
根据权利要求6所述的字库生成装置，其特征在于，所述第一处理模块，具体用于：

根据所述文字图像集合以及所述预设参考字库集合确定对应的参考文字图像集合；

根据所述参考文字图像集合以及所述预设参考字库集合确定参考笔画骨架数据集合，所述预设参考字库集合包括每个参考文字图像与参考笔画骨架数据之间的映射关系；

根据所述文字图像集合以及所述参考笔画骨架数据集合确定所述第一参考字库。
根据权利要求6或7所述的字库生成装置，其特征在于，所述第二处理模块，具体用于：

根据所述文字图像以及第一预设图像处理算法确定骨架数据，所述骨架数据包括特征点集；

根据预设提取算法，将所述特征点集与所述参考笔画骨架数据集合进行匹配，以确定笔画轨迹数据；

根据所述笔画轨迹数据以及预设过滤算法确定目标笔画轨迹数据。
一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的字库生成方法。
一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的字库生成方法。