WO2020248471A1

WO2020248471A1 - 一种基于集聚交叉熵损失函数的序列识别方法

Info

Publication number: WO2020248471A1
Application number: PCT/CN2019/113452
Authority: WO
Inventors: 黄耀雄; 金连文; 谢泽澄; 朱远志; 刘禹良; 谢乐乐
Original assignee: 华南理工大学
Priority date: 2019-06-14
Filing date: 2019-10-25
Publication date: 2020-12-17
Also published as: CN110390326A

Abstract

一种基于集聚交叉损失函数的序列识别方法，包括以下步骤：下载自然场景文本识别数据作为测试集，并使用开源代码合成的自然场景文本的数据作为训练数据；采集自然场景下的图片，并对所述图片进行等比例放缩操作；统计所述图片中的标签出现的字符类别、所述字符类别出现的次数；通过监督网络预测所述自然场景文本数据的字符类别、所述字符类别出现次数，将自然场景文本数据与所述标签的差别的部分进行训练；把步骤A中的自然场景文本识别数据、步骤C中的标签数据输入到预先设计好的网络中进行训练；输入测试数据到已训练完成的网络中，最后得到图片的识别结果；对弯曲排列文本具有很高的鲁棒性和有效性。

Description

一种基于集聚交叉熵损失函数的序列识别方法

技术领域

本发明涉及模式识别与人工智能领域，特别是涉及一种基于集聚交叉熵损失函数的序列识别方法。

背景技术

序列识别，或者说序列标注，是为输入序列数据分配序列标签，标签取自固定的字符集中，比如语音识别、场景文本识别、手写文本行识别等等。随着近期深度学习的发展和各种新兴网络框架的提出，大量针对序列识别问题的系统被应用到实际场景中。

对于序列识别问题来说，传统方法通常要求将训练数据按字符分割成片段，这会导致非常耗时耗力的预处理和后处理工作。近期受到欢迎的时序分类连结损失函数(CTC)和注意力机制(Attention)不需要输入图片和对应的标签序列有一一对应的关系，因此对训练数据的标注需求大大减少，训练过程也更加方便简单。然而，尽管时序分类连结损失函数在一维预测问题中展现了优秀的识别性能，它的方法论和前向后向算法都非常复杂，会带来巨大的计算消耗。而另一方面，注意力机制虽然可以依赖注意力模块来实现预测结果和图片字符之间的一一对应的关系，但却会引入额外存储和计算消耗。基于注意力机制的识别模型从无到有直接训练是相对困难的，因为训练过程中的预测结果和标签存在不对齐的问题，特别是标签序列非常长的情况，会导致注意力机制注意的位置严重偏移，使得最终的系统效果差。

发明内容

本发明的目的是提供一种基于集聚交叉熵损失函数的序列识别方法，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了如下方案：本发明提供一种基于集聚交叉损失函数的序列识别方法，其特征在于：包括以下步骤：

A、数据获取：下载自然场景文本识别数据作为测试集，并使用开源代码合成训练样本作为训练数据；

B、数据处理：采集自然场景下的图片，并对所述图片进行等比例放缩操作；

C、标签制作：统计所述图片中的标签出现的字符类别、所述字符类别出现的次数；

D、建立集聚交叉损失函数：通过监督网络预测所述自然场景文本数据的字符类别、所述字符类别出现次数，将自然场景文本数据与所述标签的不同的部分进行训练；

E、训练网络：将所述训练数据、所述标签数据输入到预先设计好的网络中进行训练。

F、测试网络：输入测试数据到已训练完成的网络中，最后得到图片的识别结果。

优选的，所述训练样本涵盖多种样式、字体以及场景。

优选的，所述步骤B对获取的自然场景文本进行等比例放缩，放缩后的图片大小为96*100，使得每一个字符的大小都在稳定的区间内。

优选的，所述步骤C包括以下步骤：

C1、使用开源数据合成的代码和网络获取的文本语料，用于合成训练样本；

C2、将所述训练样本的标签均记录到文本文件中，并统计所述标签中字符出现的类别以及对应的次数；

C3、将所述合成训练样本的数据作为训练集，并将自然场景文本识别数据集作为测试集。

优选的，所述步骤D包括以下步骤：

D1、使用C1中合成数据构建序列模型，再根据序列模型预测的结果计算每个类别

的数量，通过累计每个类别k在全部时间点T的概率作为该类别的预测数量，也即

其中，y _k即为类别k的预测数量。

D2、为了使预测的字符数量逼近标签中字符的数量，使用两种方法：回归法和构建交叉熵目标函数；首先使用回归法，D1所述的序列模型的损失函数 L(ω)为：

其中，N _k表示序列标签S中字符k出现的次数；另外，一共有T个时间点的预测，但标签中仅有|S|个字符，因此一共有(T-|S|)个预测结果应该是“空”，因此有类别“空”的个数

D3、首先归一化第k个字符预测的累计概率

同理，归一化标签中第k个字符真实的数量为

则归一化累计概率

和归一化字符数量

之间的交叉熵L(I，S)公式如下：

其中，I为输入图片，|C ^∈|为字符总的类别数；

D4、建立集聚交叉熵损失函数：

用于计算第k个类别在全部T个时间点的累计概率；

用于归一化预测累计概率；

用于归一化标签；

用于评估

和

之间的交叉熵。

优选的，所述步骤E包括以下步骤：

E1、构建卷积神经网络：图像(96*100)→64C3→MP22→128C3→MP22→256C3→256C3→MP21→512C3→MP21→512C2→37C1，其中，mCn中，m代表的是卷积的输出通道数，n为卷积核大小，C代表为卷积层；另外MPnm中，n，m分别代表的是最大池化层的宽高步长；

E2、计算第k个类别在特征图上T个时间点上的累积概率y _k：

E3、将预测的累积概率进行归一化：

将标签中字符的出现次数进行归一化：

E4、训练参数的设定：遍历训练集的次数设置为10，每次遍历训练集的迭代次数约为21万，使用自适应梯度下降算法作为优化算法，初始学习率设置为1.0，在训练中，每遍历训练集5次，学习率下降1倍；其中，损失函数L(I，S)定义为：

E5、权值初始化：所有网络中的权值参数在训练初始时使用高斯初始方法初始化；

E6、训练卷积神经网络：将C1中合成训练样本对应的标签中每个字符出现的次数的归一化结果与对应输出的累积概率作交叉熵，使用梯度下降法最小化损失函数。

优选的，所述步骤F包括以下步骤：

F1、将测试集中的图片输入到已经训练好的网络中进行识别，使用连结时序分类损失函数的解码方法进行解码；

F2、测试集中的图片识别完毕后，计算网络的准确率。

本发明公开了以下技术效果：对弯曲排列文本具有很高的鲁棒性和有效性，并且无需将输入图片和对应的标签序列一一对应，除此之外无需占用额外内存空间，识别结果不受文本长度影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法的流程图；

图2为本发明的数据处理流程图；

图3为本发明的集聚交叉熵损失函数的工作原理图；

图4为本发明的标签生成的样例；

图5为本发明识别结果可视化示例。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明一种基于集聚交叉熵损失函数的的序列识别方案，流程框图如附图1所示，包括如下步骤：

A、数据获取：下载自然场景文本识别数据集作为测试集，使用开源代码合成训练样本作为训练数据，所述训练数据涵盖多种样式、字体以及场景，最后总的合成训练数据大概为1400万张；

B、数据处理：采集自然场景下的图片，并对所述图片进行等比例放缩操作，放缩后的图片大小为96*100，使得所述图片的每一个字符的大小都在相对稳定的区间内。具体操作如下：图片的高度先拉伸到96像素，宽度按高宽比进行放缩，宽度不足的地方使用黑边填充，流程图如附图2所示。

C、标签制作，包括如下三个步骤：

C1、使用开源数据合成代码以及网络获取文本语料，用于合成训练样本。

C2、将所述训练样本的标签记录到文本文件中，并统计所述标签中字符出现的类别以及对应的次数，标签生成如附图3所示。

C3、将所述合成训练样本数据作为训练集，并将公开的自然场景文本识别数据集作为测试集；

D、建立集聚交叉损失函数：通过监督网络预测所述自然场景文本数据的字符类别、所述字符类别出现次数，将自然场景文本数据与所述标签的差别的部分进行训练；

其中，y _k即为类别k的预测数量。

D2、为了使预测的字符数量逼近标签中字符的数量，使用两种不同的方法：回归法和构建交叉熵目标函数；首先使用回归法，D1所述的序列模型的损失函数L(ω)为：

D3、首先归一化第k个字符预测的累计概率

同理，归一化标签中第k个字符真实的数量为

则归一化累计概率

和归一化字符数量

之间的交叉熵L(I，S)可以表达如下：

其中，I为输入图片，|C ^∈|为字符总的类别数；

D4、集聚交叉熵损失函数：

用于计算第k个类别在全部T个时间点的累计概率；

用于归一化预测累计概率；

用于归一化标签；

用于评估

和

之间的交叉熵。

E、训练网络，包含以下步骤：

E1、构建卷积神经网络：输入(96*100)→64C3→MP22→128C3→MP22→256C3→256C3→MP21→512C3→MP21→512C2→37C1,其中，mCn中，m代表的是卷积的输出通道数，n为卷积核大小，C代表为卷积层；另外MPnm中，n，m分别代表的是最大池化层的宽高步长。

E2、计算第k个类别在特征图上T个时间点上的累积概率y _k，

为类别k

在时间点t上的预测概率：

E3、将预测的累积概率进行归一化：

E4、将标签中字符的出现次数进行归一化：

其中，N _k表示序列标签S中字符k出现的次数。

E5、训练参数的设定：遍历训练集的次数设置为10，每次遍历训练集的迭代次数约为21万，使用自适应梯度下降算法(Adadelta)作为优化算法，初始学习率设置为1.0，在后面的训练中，每遍历训练集5次，学习率下降1倍。其中，损失函数L(I，S)定义为：

E6、权值初始化：所有网络中的权值参数在训练初始时使用高斯初始化。

E7、训练卷积神经网络：将目标字符串的每个字符出现的次数的归一化结果与对应输出的累积概率作交叉熵，使用梯度下降法最小化损失函数。集聚交叉熵损失函数的工作原理如附图4所示。

F、测试网络，包含以下步骤：

F1、将测试集中的图片输入到已经训练好的网络中进行识别，使用连结时

序分类损失函数的解码方法进行解码；

F2、识别完毕后，计算网络的准确率；

随机显示20张图片的识别结果，每张图片的识别结果显示出来，并且可视化特征图上的预测结果。

在图5所示的实例中，显示了将一张96*100大小的图片识别后的结果，可以观察到我们的预测在空间上分布和原始文本图片的字符有极高的相似性，这同样指出集聚交叉熵损失函数的鲁棒性和有效性。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

一种基于集聚交叉损失函数的序列识别方法，其特征在于：包括以下步骤：

A、数据获取：下载自然场景文本识别数据集作为测试集，并使用开源代码合成训练样本作为训练数据；

B、数据处理：采集自然场景下的图片，并对所述图片进行等比例放缩操作；

C、标签制作：统计所述图片中的标签出现的字符类别、所述字符类别出现的次数；

D、建立集聚交叉损失函数：通过监督网络预测所述自然场景文本数据的字符类别、所述字符类别出现次数，将自然场景文本数据与所述标签的不同的部分进行训练；

E、训练网络：将所述训练数据、所述标签数据输入到预先设计好的网络中进行训练。

F、测试网络：输入测试数据到已训练完成的网络中，最后得到图片的识别结果。
根据权利要求1所述的基于集聚交叉损失函数的序列识别方法，其特征在于，所述训练样本涵盖多种样式、字体以及场景。
根据权利要求1所述的基于集聚交叉损失函数的序列识别方法，其特征在于，所述步骤B对获取的自然场景文本进行等比例放缩，放缩后的图片大小为96*100，使得每一个字符的大小都在稳定的区间内。
根据权利要求1所述的基于集聚交叉损失函数的序列识别方法，其特征在于，所述步骤C包括以下步骤：

C1、使用开源数据合成的代码和网络获取的文本语料，用于合成训练样本；

C2、将所述训练样本的标签均记录到文本文件中，并统计所述标签中字符出现的类别以及对应的次数；

C3、将所述合成训练样本的数据作为训练集，并将自然场景文本识别数据集作为测试集。
根据权利要求1所述的基于集聚交叉损失函数的序列识别方法，其特征在于，所述步骤D包括以下步骤：

D1、使用C1中合成数据构建序列模型，再根据序列模型预测的结果计算每个类别
的数量，通过累计每个类别k在全部时间点T的概率作为该类别的预测数量，也即
其中，y _k即为类别k的预测数量。

D2、为了使预测的字符数量逼近标签中字符的数量，使用两种方法：回归法和构建交叉熵目标函数；首先使用回归法，D1所述的序列模型的损失函数L(ω)为：

其中，N _k表示序列标签S中字符k出现的次数；另外，一共有T个时间点的预测，但标签中仅有|S|个字符，因此一共有(T-|S|)个预测结果应该是“空”，因此有类别“空”的个数

D3、首先归一化第k个字符预测的累计概率
同理，归一化标签中第k个字符真实的数量为

则归一化累计概率
和归一化字符数量
之间的交叉熵L(I，S)公式如下：

其中，I为输入图片，|C ^ε|为字符总的类别数；

D4、建立集聚交叉熵损失函数：
用于计算第k个类别在全部T个时间点的累计概率；
用于归一化预测累计概率；
用于归一化标签；
用于评估
和
之间的交叉熵。
[根据细则26改正15.11.2019]　
根据权利要求1所述的基于集聚交叉损失函数的序列识别方法，其特征在于，所述步骤E包括以下步骤：
E1、构建卷积神经网络：输入图像(96*100)→64C3→MP22→128C3→MP22→256C3→256C3→MP21→512C3→MP21→512C2→37C1，其中，mCn中，m代表的是卷积的输出通道数，n为卷积核大小，C代表为卷积层；另外MPnm中，n，m分别代表的是最大池化层的宽高步长；
E2、计算第k个类别在特征图上T个时间点上的累积概率y _k：

E3、将预测的累积概率进行归一化：

将标签中字符的出现次数进行归一化：

E4、训练参数的设定：遍历训练集的次数设置为10，每次遍历训练集的迭代次数约为21万，使用自适应梯度下降算法作为优化算法，初始学习率设置为1.0，在训练中，每遍历训练集5次，学习率下降1倍；其中，损失函数L(I，S)定义为：

E5、权值初始化：所有网络中的权值参数在训练初始时使用高斯初始方法初始化；
E6、训练卷积神经网络：将C1中合成训练样本对应的标签中的每个字符出现的次数的归一化结果与对应输出的累积概率作交叉熵，使用梯度下降法最小化损失函数。
[根据细则26改正15.11.2019]

根据权利要求1所述的基于新设计的集聚交叉损失函数应用于序列识别的方案，其特征在于，所述步骤F包括以下步骤：

F1、将测试集中的图片输入到已经训练好的网络中进行识别，使用连结时序分类损失函数的解码方法进行解码；

F2、测试集中的图片识别完毕后，计算网络的准确率。