WO2021238446A1

WO2021238446A1 - 文本识别方法、设备及存储介质

Info

Publication number: WO2021238446A1
Application number: PCT/CN2021/086198
Authority: WO
Inventors: 张欢欢
Original assignee: 京东方科技集团股份有限公司
Priority date: 2020-05-29
Filing date: 2021-04-09
Publication date: 2021-12-02
Also published as: CN111626238A; CN111626238B

Abstract

一种文本识别方法、设备及存储介质，其中，方法包括：获取手写体文本在书写时产生的轨迹点的初始坐标和书写状态值；对手写体文本进行倾斜校正处理，然后依次进行缩放处理和取整数处理，确定每个轨迹点的缩放坐标和取整坐标，并筛选出取整坐标重叠的轨迹点，将重叠的轨迹点的缩放坐标的均值作为新轨迹点的坐标，取整坐标未重叠的轨迹点的缩放坐标直接作为新轨迹点的坐标；根据所有新轨迹点的坐标和书写状态值得到手写轨迹点特征（105）；识别手写轨迹点特征的文本信息，以得到手写体文本的识别结果（106），提高识别效率。

Description

文本识别方法、设备及存储介质

技术领域

本申请涉及文本识别技术领域，尤其涉及一种文本识别方法、电子设备及存储介质。

背景技术

手写体文本识别是指将在具有触控功能的手写设备上通过手指或笔书写文本时产生的有序轨迹点转化为文本的过程。

然而，即使书写同一文本，比如书写同一文字时，不同书写风格、不同的具有触控功能的手写设备产生的轨迹点数量可能不同，一旦轨迹点数量过多，将会增加手写体文本识别的时间。

发明内容

该部分公开的内容用于提供部分本申请的实施例方式，不用于限制本申请的发明内容。详细的实施方式在后面具体实施方式部分描述。

本申请一些实施例提出了一种文本识别方法，包括：

获取手写体文本在书写时产生的轨迹点的初始坐标和书写状态值，其中，书写笔画中的每一笔画的终点对应的轨迹点的书写状态值为第一书写状态值，书写笔画中的每一笔画的除所述终点对应的轨迹点的其余点的书写状态值为第二书写状态值；

对所述手写体文本进行倾斜校正处理，并获取校正后的轨迹点的坐标；

对校正后的所有轨迹点的坐标依次进行缩放处理，确定每个轨迹点的缩放坐标；

对所有轨迹点的缩放坐标依次进行取整数处理，确定每个轨迹点的取整坐标，并筛选出取整坐标重叠的轨迹点，并根据所述重叠的轨迹点的缩放坐标取均值，作为替代所述重叠的轨迹点的新轨迹点的坐标，在所述重叠的轨迹点的书写状态值不同时，将第一书写状态值作为所述新轨迹点的书写状态值，其中，取整坐标未重叠的轨迹点的缩放坐标直接作为新轨迹点的坐标；

根据所有新轨迹点的坐标和书写状态值得到手写轨迹点特征；

识别所述手写轨迹点特征的文本信息，以得到所述手写体文本的识别结果。

本申请实施例的文本识别方法，对倾斜手写体文本进行校正，以提高轨迹点坐标的质量，并将缩放及取整后具有相同坐标的多个轨迹点处理为一个轨迹点，以减少轨迹点的数量，从而可以避免轨迹点数量过多对手写体文本识别时间和效率的影响，缩短文本识别的时间，并提高文本识别的效率。

本申请一些实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，以实现如下文本识别方法，包括：

本申请一些实施例的电子设备，对倾斜手写体文本进行校正，以提高轨迹点坐标的质量，并将缩放及取整后具有相同坐标的多个轨迹点处理为一个轨迹点，以减少轨迹点的数量，从而可以避免轨迹点数量过多对手写体文本识别时间和效率的影响，缩短文本识别的时间，并提高文本识别的效率。

本申请一些实施例提出了一种非易失性计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时，实现如下的文本识别方法，包括：

本申请实施例的非易失性计算机可读存储介质，对倾斜手写体文本进行校正，以提高轨迹点坐标的质量，并将缩放及取整后具有相同坐标的多个轨迹点处理为一个轨迹点，以减少轨迹点的数量，从而可以避免轨迹点数量过多对手写体文本识别时间和效率的影响，缩短文本识别的时间，并提高文本识别的效率。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请一些实施例所提供的一种文本识别方法的流程示意图；

图2为本申请一些实施例所提供的另一种文本识别方法的流程示意图；

图3为本申请一些实施例所提供的一种编码器的网络结构示意图。

具体实施方式

下面详细描述本申请构思的不同实施例，以便更清楚的理解本申请的申请构思。所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的文本识别方法。

图1为本申请实施例所提供的一种文本识别方法的流程示意图。

在进行手写体文本识别时，即使书写同一文本，比如书写同一文字时(如一个单词、一个汉字等)，不同书写风格、不同的具有触控功能的手写设备获取的轨迹点数量可能不同，一旦轨迹点数量过多，将会增加手写体文本的识别时间，降低识别效率。

本申请实施例提供的文本识别方法，书写轨迹点从终端的触控显示区域上获取并提供给处理器，由处理器执行识别方法，该处理器可以设置在本申请实施例提供的终端，或设置在云端的服务器等电子设备中。终端的具体实施方式包括如书写本、手机、会议机、教育机等具有手写识别功能的终端设备。

本申请实施例提供了文本识别方法，可以避免轨迹点数量过多对手写体文本识别时间和效率的影响，缩短文本识别的时间，并提高文本识别的效率，如图1所示，该文本识别方法包括以下步骤：

步骤101，获取手写体文本在书写时产生的轨迹点的初始坐标和书写状态值，其中，

针对书写的每一笔画，该笔画有起笔、运笔和落笔三个阶段，对应用户的书写动作为按笔或抬笔，起笔和运笔对应按笔，运笔对应抬笔。

起笔阶段的第一个轨迹点为起点，落笔阶段的最后一个轨迹点为终点。每一笔画的终点的轨迹点的书写状态值为第一书写状态值，每一笔画的除去终点的其余轨迹点的书写状态值为第二书写状态值。第一书写状态值不等于第二书写状态值。

其中，书写状态值可以通过书写时是按笔书写还是抬笔书写区别，也可以用一笔画中的是否落笔阶段区别。比如，在书写一个笔画时，笔画最后轨迹点的书写状态即为抬笔书写，该笔画的其余轨迹点的书写状态即为按笔书写；抬笔书写的书写状态值可以为第一书写状态值，按笔书写的书写状态值可以为第二书写状态值，例如，第一书写状态值可以为1，第二书写状态值可以为0；当然也可以第一书写状态值可以为0，第二书写状态值可以为1，对此不作具体限定。

比如，在具体应用时，以用户在终端的触控显示区域书写文本为例，文本可以为汉字等文字。其中，本申请实施例可以以终端的触控显示区域上设定一点作为坐标原点，该设定点可以是任一点。以触控显示区域的水平方向为x轴，以竖直方向为y轴建立二维直角坐标系。初始坐标包括横坐标和纵坐标，当用户通过手或笔等触控工具在触控显示区域书写时，终端获取书写对应的轨迹点的初始坐标，本申请实施例可以从终端的触控显示区域上获取手写体文本在书写时产生的轨迹点的初始坐标。

另外，当轨迹点产生时，终端的触控显示区域还自动获取手写体文本在书写时产生的轨迹点的书写状态值，本申请实施例从终端的触控显示区域上获取手写体文本在书写时产生的轨迹点的坐标的同时，也获取该点的书写状态值。

步骤102，对手写体文本进行倾斜校正处理，并获取校正后的轨迹点的坐标。

本申请可以通过多种方式对手写体文本进行倾斜校正处理，在此不做具体限定。在一些实施方式中，可以通过以下方式对手写体文本进行倾斜校正处理，具体包括：

获取所有轨迹点的初始坐标的横坐标集合和纵坐标集合，并通过最小二乘直线拟合计算手写体文本的倾斜角度；比如，可以使用numpy的polyfit函数计算倾斜角度，a,b＝numpy.polyfit(X,Y,1)，ang＝a*180/3.1415926，X为横坐标集合，Y为纵坐标集合；

计算手写体文本的中心点坐标，其中，中心点的横坐标mx＝(x_max-x_min)*0.5，x_max为横坐标最大值，x_min为横坐标最小值；中心点的纵坐标my＝(y_max-y_min)*0.5，y_max为纵坐标最大值，y_min为纵坐标最小值；

根据倾斜角度旋转手写体文本的中心点坐标得到旋转后的中心点坐标，其中，旋转后的中心点的横坐标cx和纵坐标cy相同，cx＝cy＝0.5*sqrt((y_max-y_min)*(y_max-y_min)+(x_max-x_min)*(x_max-x_min))；

根据倾斜角度、手写体文本的中心点坐标和旋转后的中心点坐标对所有轨迹点的初始坐标进行校正，其中，校正后的所有轨迹点的横坐标x＝(j-x_min-mx)*cos(ang)+(i-y_min-my)*sin(ang)+cx，校正后的所有轨迹点的纵坐标y＝-(j-x_min-mx)*cos(ang)+(i-y_min-my)*sin(ang)+cy，i为轨迹点的初始横坐标，j为轨迹点的初始纵坐标，ang为倾斜角度。

步骤103，对校正后的所有轨迹点的坐标依次进行缩放处理，确定每个轨迹点的缩放坐标。

缩放坐标为校正后的轨迹点缩放后的坐标，本申请根据轨迹点在书写时产生的时间顺序对校正后的所有轨迹点的坐标依次进行缩放处理。其中，本申请可以通过多种方式对校正后的所有轨迹点的坐标进行缩放处理，在此不做具体限定。

在一些实施方式中，可以通过以下方式对对校正后的所有轨迹点的坐标进行缩放处理，具体包括：

根据校正后的所有轨迹点的纵坐标得到校正后的所有轨迹点在纵向上的正态分布；其中，校正后的所有轨迹点在纵向上的分布服从正态分布，其纵坐标的样本均值为：

样本方差为

获取手写体文本的图像，确定图像高度为正态分布对应分位点的横轴长度；假设该手写体文本行图像的高度对应着正态分布2.58分位点时的横轴长度，手写体文本行图像高度标记为h _new，h _new＝2.58*2*s＝s/0.19，即

s样本标准差，其中，也可以假设该手写体文本行图像的高度对应着正态分布其他分位点时的横轴长度，可以根据需要缩放的情况进行设定，在此不做具体限定；

根据横轴长度和预设缩放高度得到缩放比；其中，预设缩放高度h _ref可以根据轨迹点实际分布的情况进行设置，不能设置得过小，否则会使手写轨迹点数量减少过多，影响后续文字识别效果；也不可以设置得过大，否则会使轨迹点数量没有任何减少，起不到轨迹点数量压缩的效果。例如，当h _new＝2.58*2*s＝s/0.19，手写体文本行轨迹点坐标的缩放比例为：

根据缩放比依次缩放校正后的所有轨迹点的坐标；其缩放坐标的横坐标xf＝(j-xr_min)*r，缩放坐标的纵坐标yf＝(i-yr_min)*r，i为校正后的所有轨迹点的坐标中的横坐标，j为校正后的所有轨迹点的坐标中的纵坐标，xr_min为校正后的所有轨迹点的坐标中的横坐标最小值，yr_min为校正后的所有轨迹点的坐标中的纵坐标最小值，r为缩放比。

步骤104，对所有轨迹点的缩放坐标依次进行取整数处理，确定每个轨迹点的取整坐标，其中，

取整坐标为对缩放坐标取整后的坐标，所有轨迹点的取整坐标可能存在一个坐标对应多个轨迹点的情况，即存在整坐标重叠的多个轨迹点，本申请筛选出取整坐标重叠的轨迹点，并根据重叠的轨迹点的缩放坐标取均值，作为替代重叠的轨迹点的新轨迹点的坐标，在重叠的轨迹点的书写状态值不同时，将第一书写状态值作为新轨迹点的书写状态值。

对于取整坐标未重叠的轨迹点，直接该轨迹点的缩放坐标作为新轨迹点的坐标，该轨迹点的书写状态值直接作为新轨迹点的书写状态值。

其中，对所有轨迹点的缩放坐标依次进行取整数处理，所述取整坐标中的横坐标为xi＝int(xf+0.5)，所述取整坐标中的纵坐标为yi＝int(yf+0.5)，xf为所述缩放坐标中的横坐标，yf为所述缩放坐标中的纵坐标

步骤105，根据所有新轨迹点的坐标和书写状态值得到手写轨迹点特征。

本申请可以通过多种方式提取手写轨迹点特征，在此不做具体限定。在一些实施方式中，可以通过以下方式提取手写轨迹点特征，具体包括：

根据新轨迹点的书写状态值得到该轨迹点的书写状态表征值和书写起始表征值两个特征。对于一个轨迹点的书写状态表征值，如果该轨迹点位于一个笔画的终点，则其书写状态表征值为0，其余情况其书写状态表征值为1。对于一个轨迹点的书写起始表征值，如果该轨迹点位于一个笔画的起点，则其书写起始表征值为1，其余情况其书写起始表征值为0。一个手写轨迹点特征包括横坐标、纵坐标、书写状态表征值和书写状态起始值4个维度。由此，可以根据所有新轨迹点的坐标和书写状态值得到手写轨迹点特征。

步骤106，识别手写轨迹点特征的文本信息，以得到手写体文本的识别结果。

本申请可以通过多种方式识别手写轨迹点特征的文本信息，在此不做具体限定，在本申请一些实施例中，可以通过手写体识别神经网络识别手写轨迹点特征，从而得到手写体文本的识别结果。其中，通过手写体识别神经网络识别手写轨迹点特征的方式将在下面实施例进行详细说明，在此不做过多描述。

根据本申请实施例的文本识别方法，对倾斜手写体文本进行校正，以提高轨迹点坐标的质量，并将缩放及取整后具有相同坐标的多个轨迹点处理为一个轨迹点，以减少轨迹点的数量，从而可以避免轨迹点数量过多对手写体文本识别时间和效率的影响，缩短文本识别的时间，并提高文本识别的效率。

在一些实施方式中，对手写体文本进行倾斜校正处理之前，还包括：筛选出初始坐标重叠的轨迹点，对重叠的轨迹点进行去重处理，其中，在重叠的轨迹点的书写状态值不同时，将第一书写状态值作为去重后轨迹点的书写状态值。

可以理解的是，对于手写体文本在书写时产生的所有轨迹点的初始坐标可能存在一个坐标对应多个轨迹点的情况，直接进行去重处理，从而在一个坐标处仅保留一个轨迹点。在多个轨迹点中有一个轨迹点为第一书写状态值时，将第一书写状态值作为去重后轨迹点的写状态值。如果多个轨迹点的写状态值相同，比如，均为第二写状态值，则直接将第二写状态值作为重后轨迹点的写状态值。由此，本申请对书写时产生的轨迹点中存在坐标相同的轨迹点直接进行去重处理，以减少轨迹点数量。

基于上一实施例，本实施例提供了另一种文本识别方法用以说明如何识别手写轨迹点特征，本实施例和上一实施例在描述内容上各有侧重，各实施例之间对于未尽述步骤可相互参考。本实施例中，如图2所示，该文本识别方法包括：

步骤201，获取手写体文本在书写时产生的轨迹点的初始坐标和书写状态值，其中，书写笔画中的每一笔画的终点对应的轨迹点的书写状态值为第一书写状态值，书写笔画中的每一笔画的除终点对应的轨迹点的其余点的书写状态值为第二书写状态值。

步骤202，对手写体文本进行倾斜校正处理，并获取校正后的轨迹点的坐标。

步骤203，对校正后的所有轨迹点的坐标依次进行缩放处理，确定每个轨迹点的缩放坐标。

步骤204，对所有轨迹点的缩放坐标依次进行取整数处理，确定每个轨迹点的取整坐标，并筛选出取整坐标重叠的轨迹点，并根据重叠的轨迹点的缩放坐标取均值，作为替代重叠的轨迹点的新轨迹点的坐标，在重叠的轨迹点的书写状态值不同时，将第一书写状态值作为新轨迹点的书写状态值，其中，取整坐标未重叠的轨迹点的缩放坐标直接作为新轨迹点的坐标。

步骤205，根据所有新轨迹点的坐标和书写状态值得到手写轨迹点特征。

其中，步骤201-205可以参见步骤101-105的解释，为避免冗余，在此不做赘述。

步骤206，通过手写体识别神经网络识别手写轨迹点特征，以得到手写体文本的识别结果。

其中，手写体识别神经网络包括编码器和解码器，具体如下：

(1)构建基于LSTM(Long Short-Term Memory，长短期记忆网络)的编码器，网络结构包括输出层、隐藏层和线性变换层。

隐藏层包括长短期记忆网络和随机工作层(Dropout)，长短期记忆网络的输出作为随机工作层的输入。长短期记忆网络和随机工作层作为一组，网络结构的隐藏层可以包括多组长短期记忆网络和随机工作层。

如图3所示，一些实施方式中包括依次设置的第一长短期记忆网络、第一随机工作层、第二长短期记忆网络、第二随机工作层和线性变换层，其中一个LSTM和一个随机工作层的层数是一组，组数是可变的，可根据实际情况进行调节。一些实施方式中包括四组，长短期记忆网络和随机工作层依次间隔设置。

其中LSTM可设置为双向网路，隐藏层可设置为n层，比如，设置为128层。最后连接一个线性变换层(Linea)。编码器需要训练，模型训练所用的损失函数为连接时序分类损失函数。编码器的输入层的输入数据为手写轨迹点特征，假设可识别的字符种类为N，输入的手写轨迹点特征的长度为M，则编码器的输出为M*N的二维矩阵值。对于矩阵的某一行，每个输出值表示在一个时间间隔识别输出为各个字符的概率值。字符的标记值一般为从1到N的整数。

(2)解码器：不需要训练。可采用贪心算法基于最大概率进行解码。其中，贪心算法是指在对问题求解时，总是做出在当前看来是最好的选择；也就是说，不从整体最优上加以考虑，算法得到的是在某种意义上的局部最优解。

解码器的输入为编码器的输出，即M*N的二维矩阵，输出为识别出的字符标记值序列。具体识别过程如下：

根据编码器的输出，计算每个时间间隔识别输出字符概率值最大的字符标记值；按照时间的先后顺序，依次遍历，将每个时间间隔输出的相同字符标记值合并为1个输出字符标记值，并去除字符标记值中的空字符，以得到识别出的字符标记值。

然后，根据识别出的字符标记值与字符对应关系得到文本信息，从而得到手写体文本的识别结果。

为了实现上述实施例，本申请还提出一种电子设备。

该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，以实现如下的文本识别方法，包括：

获取手写体文本在书写时产生的轨迹点的初始坐标和书写状态值，其中，书写笔画中的每一笔画的终点对应的轨迹点的书写状态值为第一书写状态值，书写笔画中的每一笔画的除终点对应的轨迹点的其余点的书写状态值为第二书写状态值；

对手写体文本进行倾斜校正处理，并获取校正后的轨迹点的坐标；

对所有轨迹点的缩放坐标依次进行取整数处理，确定每个轨迹点的取整坐标，并筛选出取整坐标重叠的轨迹点，并根据重叠的轨迹点的缩放坐标取均值，作为替代重叠的轨迹点的新轨迹点的坐标，在重叠的轨迹点的书写状态值不同时，将第一书写状态值作为新轨迹点的书写状态值，其中，取整坐标未重叠的轨迹点的缩放坐标直接作为新轨迹点的坐标；

根据所有新轨迹点的坐标和书写状态值得到手写轨迹点特征；以及

识别手写轨迹点特征的文本信息，以得到手写体文本的识别结果。

在一些实施方式中，对手写体文本进行倾斜校正处理，并获取校正后的轨迹点的坐标，包括：

获取所有轨迹点的初始坐标的横坐标集合和纵坐标集合，并通过最小二乘直线拟合计算手写体文本的倾斜角度；

在一些实施方式中，对校正后的所有轨迹点的坐标依次进行缩放处理，包括

根据校正后的所有轨迹点的纵坐标得到校正后的所有轨迹点在纵向上的正态分布；

获取手写体文本的图像，确定图像高度为正态分布对应分位点的横轴长度；

根据横轴长度和预设缩放高度得到缩放比；

根据缩放比依次缩放校正后的所有轨迹点的坐标。

在一些实施方式中，其中，

缩放坐标的横坐标xf＝(j-xr_min)*r，缩放坐标的纵坐标yf＝(i-yr_min)*r，i为校正后的所有轨迹点的坐标中的横坐标，j为校正后的所有轨迹点的坐标中的纵坐标，xr_min为校正后的所有轨迹点的坐标中的横坐标最小值，yr_min为校正后的所有轨迹点的坐标中的纵坐标最小值，r为缩放比。

在一些实施方式中，其中，

取整坐标中的横坐标xi＝int(xf+0.5)，xf为缩放坐标中的横坐标；取整坐标中的纵坐标yi＝int(yf+0.5)，yf为缩放坐标中的纵坐标。

在一些实施方式中，还包括：

通过手写体识别神经网络识别手写轨迹点特征，以得到手写体文本的识别结果，其中，手写体识别神经网络包括：

编码器，编码器包括第一长短期记忆网络、第一随机工作层、第二长短期记忆网络、第二随机工作层和线性变换层，用于对手写轨迹点特征编码得到二维矩阵值，其中，二维矩阵值每行的各个列值表示在该时间步识别输出为各个字符的概率值。

在一些实施方式中，手写体识别神经网络还包括：

解码器，用于计算每个时间步识别输出字符概率值最大的字符标记值，按照时间步的先后顺序，对于字符标记值相同的时间步的输出合并为1个字符标记值，并去除字符标记值中的空字符，以得到字符标记值序列。

在一些实施方式中，还包括：

根据字符标记值序列与字符对应关系识别得到字符序列。

在一些实施方式中，根据所有新轨迹点的坐标和书写状态值得到手写轨迹点特征，包括：

在一些实施方式中，对手写体文本进行倾斜校正处理之前，还包括：

筛选出初始坐标重叠的轨迹点，对重叠的轨迹点进行去重处理，其中，在重叠的轨迹点的书写状态值不同时，将第一书写状态值作为去重后轨迹点的书写状态值。

需要说明的是，前述对文本识别方法实施例的解释说明也适用于该实施例的电子设备，此处不再赘述。

本申请实施例的电子设备，对倾斜手写体文本进行校正，以提高轨迹点坐标的质量，并将缩放及取整后具有相同坐标的多个轨迹点处理为一个轨迹点，以减少轨迹点的数量，从而可以避免轨迹点数量过多对手写体文本识别时间和效率的影响，缩短文本识别的时间，并提高文本识别的效率。

为了实现上述实施例，本申请还提出一种非易失性计算机可读存储介质。

该非易失性计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时，以实现如下的文本识别方法，包括：

根据横轴长度和预设缩放高度得到缩放比；

根据缩放比依次缩放校正后的所有轨迹点的坐标。

在一些实施方式中，其中，

在一些实施方式中，还包括：

在一些实施方式中，手写体识别神经网络还包括：

在一些实施方式中，还包括：

根据字符标记值序列与字符对应关系识别得到字符序列。

需要说明的是，前述对文本识别方法实施例的解释说明也适用于该实施例的非易失性计算机可读存储介质，此处不再赘述。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种文本识别方法，其特征在于，包括：

获取手写体文本在书写时产生的轨迹点的初始坐标和书写状态值，其中，书写笔画中的每一笔画的终点对应的轨迹点的书写状态值为第一书写状态值，书写笔画中的每一笔画的除所述终点对应的轨迹点的其余点的书写状态值为第二书写状态值；

对所述手写体文本进行倾斜校正处理，并获取校正后的轨迹点的坐标；

对校正后的所有轨迹点的坐标依次进行缩放处理，确定每个轨迹点的缩放坐标；

对所有轨迹点的缩放坐标依次进行取整数处理，确定每个轨迹点的取整坐标，并筛选出取整坐标重叠的轨迹点，并根据所述重叠的轨迹点的缩放坐标取均值，作为替代所述重叠的轨迹点的新轨迹点的坐标，在所述重叠的轨迹点的书写状态值不同时，将第一书写状态值作为所述新轨迹点的书写状态值，其中，取整坐标未重叠的轨迹点的缩放坐标直接作为新轨迹点的坐标；

根据所有新轨迹点的坐标和书写状态值得到手写轨迹点特征；以及

识别所述手写轨迹点特征的文本信息。
根据权利要求1所述的方法，其特征在于，所述对所述手写体文本进行倾斜校正处理，并获取校正后的轨迹点的坐标，包括：

获取所有轨迹点的初始坐标的横坐标集合和纵坐标集合，计算所述手写体文本的倾斜角度；

计算所述手写体文本的中心点坐标，其中，所述中心点的横坐标mx＝(x_max-x_min)*0.5，x_max为横坐标最大值，x_min为横坐标最小值；所述中心点的纵坐标my＝(y_max-y_min)*0.5，y_max为纵坐标最大值，y_min为纵坐标最小值；

根据所述倾斜角度旋转所述手写体文本的中心点坐标得到旋转后的中心点坐标，其中，所述旋转后的中心点的横坐标cx和纵坐标cy相同，cx＝cy＝0.5*sqrt((y_max-y_min)*(y_max-y_min)+(x_max-x_min)*(x_max-x_min))；

根据所述倾斜角度、所述手写体文本的中心点坐标和所述旋转后的中心点坐标对所有轨迹点的初始坐标进行校正，其中，校正后的所有轨迹点的横坐标x＝(j-x_min-mx)*cos(ang)+(i-y_min-my)*sin(ang)+cx，所述校正后的所有轨迹点的纵坐标y＝-(j-x_min-mx)*cos(ang)+(i-y_min-my)*sin(ang)+cy，i为轨迹点的初始横坐标，j为轨迹点的初始纵坐标，ang为所述倾斜角度。
根据权利要求1或2所述的方法，其特征在于，所述对校正后的所有轨迹点的坐标依次进行缩放处理，包括

根据校正后的所有轨迹点的纵坐标得到所述校正后的所有轨迹点在纵向上的正态分布；

获取所述手写体文本的图像，确定所述图像高度为所述正态分布对应分位点的横轴长度；

根据所述横轴长度和预设缩放高度得到缩放比；

根据所述缩放比依次缩放所述校正后的所有轨迹点的坐标。
根据权利要求3所述的方法，其特征在于，其中，

所述缩放坐标的横坐标xf＝(j-xr_min)*r，所述缩放坐标的纵坐标yf＝(i-yr_min)*r，i为所述校正后的所有轨迹点的坐标中的横坐标，j为所述校正后的所有轨迹点的坐标中的纵坐标，xr_min为所述校正后的所有轨迹点的坐标中的横坐标最小值，yr_min为校正后的所有轨迹点的坐标中的纵坐标最小值，r为所述缩放比。
根据权利要求1所述的方法，其特征在于，其中，

对所有轨迹点的缩放坐标依次进行取整数处理，所述取整坐标中的横坐标为xi＝int(xf+0.5)，所述取整坐标中的纵坐标为yi＝int(yf+0.5)，xf为所述缩放坐标中的横坐标，yf为所述缩放坐标中的纵坐标。
根据权利要求1所述的方法，其特征在于，还包括：

通过手写体识别神经网络识别所述手写轨迹点特征，以得到所述手写体文本的识别结果，其中，所述手写体识别神经网络包括：

编码器，所述编码器包括第一长短期记忆网络、第一随机工作层、第二长短期记忆网络、第二随机工作层和线性变换层，用于对所述手写轨迹点特征编码得到二维矩阵值，其中，所述二维矩阵值每行的各个列值表示在该时间步识别输出为各个字符的概率值。
根据权利要求6所述的方法，其特征在于，所述手写体识别神经网络还包括：

解码器，用于计算每个时间步识别输出字符概率值最大的字符标记值，按照时间步的先后顺序，对于所述字符标记值相同的时间步的输出合并为1个字符标记值，并去除字符标记值中的空字符，以得到字符标记值序列。
根据权利要求7所述的方法，其特征在于，还包括：

根据所述字符标记值序列与字符对应关系识别得到字符序列。
一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，以实现如下的文本识别方法，包括：

获取手写体文本在书写时产生的轨迹点的初始坐标和书写状态值，其中，书写笔画中的每一笔画的终点对应的轨迹点的书写状态值为第一书写状态值，书写笔画中的每一笔画的除所述终点对应的轨迹点的其余点的书写状态值为第二书写状态值；

对所述手写体文本进行倾斜校正处理，并获取校正后的轨迹点的坐标；

对校正后的所有轨迹点的坐标依次进行缩放处理，确定每个轨迹点的缩放坐标；

对所有轨迹点的缩放坐标依次进行取整数处理，确定每个轨迹点的取整坐标，并筛选出取整坐标重叠的轨迹点，并根据所述重叠的轨迹点的缩放坐标取均值，作为替代所述重叠的轨迹点的新轨迹点的坐标，在所述重叠的轨迹点的书写状态值不同时，将第一书写状态值作为所述新轨迹点的书写状态值，其中，取整坐标未重叠的轨迹点的缩放坐标直接作为新轨迹点的坐标；

根据所有新轨迹点的坐标和书写状态值得到手写轨迹点特征；以及

识别所述手写轨迹点特征的文本信息，以得到所述手写体文本的识别结果。
根据权利要求9所述的电子设备，其特征在于，所述对所述手写体文本进行倾斜校正处理，并获取校正后的轨迹点的坐标，包括：

获取所有轨迹点的初始坐标的横坐标集合和纵坐标集合，并通过最小二乘直线拟合计算所述手写体文本的倾斜角度；

计算所述手写体文本的中心点坐标，其中，所述中心点的横坐标mx＝(x_max-x_min)*0.5，x_max为横坐标最大值，x_min为横坐标最小值；所述中心点的纵坐标my＝(y_max-y_min)*0.5，y_max为纵坐标最大值，y_min为纵坐标最小值；

根据所述倾斜角度旋转所述手写体文本的中心点坐标得到旋转后的中心点坐标，其中，所述旋转后的中心点的横坐标cx和纵坐标cy相同，cx＝cy＝0.5*sqrt((y_max-y_min)*(y_max-y_min)+(x_max-x_min)*(x_max-x_min))；

根据所述倾斜角度、所述手写体文本的中心点坐标和所述旋转后的中心点坐标对所有轨迹点的初始坐标进行校正，其中，校正后的所有轨迹点的横坐标x＝(j-x_min-mx)*cos(ang)+(i-y_min-my)*sin(ang)+cx，所述校正后的所有轨迹点的纵坐标y＝-(j-x_min-mx)*cos(ang)+(i-y_min-my)*sin(ang)+cy，i为轨迹点的初始横坐标，j为轨迹点的初始纵坐标，ang为所述倾斜角度。
根据权利要求9或10所述的电子设备，其特征在于，所述对校正后的所有轨迹点的坐标依次进行缩放处理，包括

根据校正后的所有轨迹点的纵坐标得到所述校正后的所有轨迹点在纵向上的正态分布；

获取所述手写体文本的图像，确定所述图像高度为所述正态分布对应分位点的横轴长度；

根据所述横轴长度和预设缩放高度得到缩放比；

根据所述缩放比依次缩放所述校正后的所有轨迹点的坐标。
根据权利要求11所述的电子设备，其特征在于，其中，

所述缩放坐标的横坐标xf＝(j-xr_min)*r，所述缩放坐标的纵坐标yf＝(i-yr_min)*r，i为所述校正后的所有轨迹点的坐标中的横坐标，j为所述校正后的所有轨迹点的坐标中的纵坐标，xr_min为所述校正后的所有轨迹点的坐标中的横坐标最小值，yr_min为校正后的所有轨迹点的坐标中的纵坐标最小值，r为所述缩放比。
根据权利要求9所述的电子设备，其特征在于，还包括：

通过手写体识别神经网络识别所述手写轨迹点特征，以得到所述手写体文本的识别结果，其中，所述手写体识别神经网络包括：

编码器，所述编码器包括第一长短期记忆网络、第一随机工作层、第二长短期记忆网络、第二随机工作层和线性变换层，用于对所述手写轨迹点特征编码得到二维矩阵值，其中，所述二维矩阵值每行的各个列值表示在该时间步识别输出为各个字符的概率值。
根据权利要求13所述的电子设备，其特征在于，所述手写体识别神经网络还包括：

解码器，用于计算每个时间步识别输出字符概率值最大的字符标记值，按照时间步的先后顺序，对于所述字符标记值相同的时间步的输出合并为1个字符标记值，并去除字符标记值中的空字符，以得到字符标记值序列。
一种非易失性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时，实现如权利要求1-9任一项所述的文本识别方法。