WO2022142611A1

WO2022142611A1 - 文字识别方法及装置、存储介质、计算机设备

Info

Publication number: WO2022142611A1
Application number: PCT/CN2021/125181
Authority: WO
Inventors: 李响
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2020-12-28
Filing date: 2021-10-21
Publication date: 2022-07-07
Also published as: CN112613502A

Abstract

本申请公开了一种文字识别方法及装置、存储介质、计算机设备，涉及文字识别技术领域，主要目的在于能够无需标注数据即可实现文字识别，提高文字的识别效率，同时利用区块链网络节点存储识别结果，提高识别结果的存储安全性。包括：获取文字图像；对所述文字图像进行底层特征提取，将得到的底层颜色特征和底层纹理特征进行融合处理，确定所述文字图像中预设文字区域的特征向量；通过预先训练的文字识别模型对所述特征向量进行识别处理，得到文本数据；输出所述文本数据。本申请适用于文字的识别。

Description

文字识别方法及装置、存储介质、计算机设备

本申请要求与2020年12月28日提交中国专利局、申请号为CN202011576748.8申请名称为“文字识别方法及装置、存储介质、计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及一种文字识别技术领域，特别是涉及一种文字识别方法及装置、存储介质、计算机设备。

背景技术

随着计算机技术的应用越来越广泛，文字识别也逐渐应用于不同的领域。文字识别是光学字符识别(Optical Character Recognition，OCR)中的关键步骤，在金融领域中的应用包括银行卡识别、身份证识别、票据识别等。近年来，随着东南亚国家金融数字化转型，小语种如泰语的文字识别需求愈发旺盛，针对泰语等小语种的文字识别技术也应运而生。

目前，传统的文字识别方法通常是基于深度学习模型，用CTC损失函数衡量预测结果和真实标注的误差。然而，这种方式需要有大量的标注数据，而小语种文字识别面临很大的挑战：现有小语种标注的数据少，且人工标注需要对小语种有较强的理解，标注难度大。

发明内容

有鉴于此，本申请提供一种文字识别方法及装置、存储介质、计算机设备。

依据本申请一个方面，提供了一种文字识别方法，包括：

获取文字图像；

对所述文字图像进行底层特征提取，将得到的底层颜色特征和底层纹理特征进行融合处理，确定所述文字图像中预设文字区域的特征向量；

通过预先训练的文字识别模型对所述特征向量进行识别处理，得到文本数据，其中，所述文字识别模型为利用配置有多种尺寸卷积核的卷积神经网络模型以及预先构造的第一训练数据集和第二训练数据集进行训练得到的；

输出所述文本数据。

依据本申请另一个方面，提供了一种文字识别装置，包括：

获取单元，用于获取文字图像；

提取单元，用于对所述文字图像进行底层特征提取，将得到的底层颜色特征和底层纹理特征进行融合处理，确定所述文字图像中预设文字区域的特征向量；

识别单元，用于通过预先训练的文字识别模型对所述特征向量进行识别处理，得到文本数据，其中，所述文字识别模型为利用配置有多种尺寸卷积核的卷积神经网络模型以及预先构造的第一训练数据集和第二训练数据集进行训练得到的；

输出单元，用于输出所述文本数据。

借由上述技术方案，本申请实施例提供的技术方案至少具有下列优点：

本申请能够无需标注数据即可实现文字识别，提高文字的识别效率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请实施例提供的一种文字识别方法流程图；

图2示出了本申请实施例提供的一种文字识别装置组成框图；

图3示出了本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请实施例提供了一种文字识别方法，如图1所示，该方法包括：

101、获取文字图像。

其中，所述文字图像具体可以为包含不同语种的文字的图像，近年来，随着东南亚国家金融数字化转型，小语种如泰语的文字识别需求愈发旺盛，针对泰语等小语种的文字识别技术也应运而生，网络上也存在海量的小语种文字图像，从而扩大本申请实施例的应用范围，快速获取训练样本和测试样本。

102、对所述文字图像进行底层特征提取，将得到的底层颜色特征和底层纹理特征进行融合处理，确定所述文字图像中预设文字区域的特征向量。

其中，具体过程可以包括：对所述文字图像进行文字区域读取；根据所述文字区域抽取底层颜色特征和底层纹理特征；对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征；抽取所述文字区域的标签层全局特征；将所述文字区域的底层局部特征与所述文字区域的标签层全局特征进行融合得到所述文字区域中所有像素的特征向量。具体地，在所述文字图像中，仅需要将存在小语种文字的区域读取出来，并抽取所述小语种文字区域的底层颜色特征和底层纹理特征，将所述底层颜色特征和底层纹理特征进行叠加，得到融合后的底层局部特征。通过抽取所述小语种文字区域的标签层全局特征，并将所述底层局部特征与所述标签层全局特征进行直接叠加融合，即可得到所述小语种文字区域中所有像素的特征向量。以便于后续能够利用所述特征向量进行文字的识别，提高识别效率和准确性。

103、通过预先训练的文字识别模型对所述特征向量进行识别处理，得到文本数据。

其中，所述文字识别模型为利用配置有多种尺寸卷积核的卷积神经网络模型以及预先构造的第一训练数据集和第二训练数据集进行训练得到的。所述文字识别模型具体可以为预先训练的卷积神经网络模型，预先网络上收集的海量未标注的文字图像作为训练样本数据和测试样本数据，如可以收集10W张未标注的小语种文字图像，将9W张未标注的小语种文字图像确定为训练样本数据，而将1W张未标注的小语种文字图像确定为测试样本数据。对所述训练样本数据和测试样本数据进行特征提取，得到特征向量，通过预先训练的文字识别模型对所述特征向量进行识别处理，从而能够得到文本数据。

104、输出所述文本数据。

具体地，在通过预先训练的文字识别模型对所述特征向量进行识别处理，得到文本数据之后，可以输出所述文本数据，在实际应用场景中，可以将输出的文本数据保存至预先建立的区块链网络节点中，以提高所述文本数据存储的安全性，尤其是对于一些涉及隐私的信息，能够有效防止信息的外泄。

本申请提供一种文字识别方法，能够获取文字图像；对所述文字图像进行底层特征提取，将得到的底层颜色特征和底层纹理特征进行融合处理，确定所述文字图像中预设文字区域的特征向量；通过预先训练的文字识别模型对所述特征向量进行识别处理，得到文本数据，其中，所述文字识别模型为利用配置有多种尺寸卷积核的卷积神经网络模型以及预先构造的第一训练数据集和第二训练数据集进行训练得到的；输出所述文本数据。从而能够解决现有标注的数据少，且人工标注需要对有较强的理解，标注难度大的技术问题，无需标注数据即可实现文字识别，提高文字的识别效率。

进一步的，为了更好的说明上述文字识别方法的过程，作为对上述实施例的细化和扩展，本申请实施例提供了几种可选实施例，但不限于此，具体如下所示：

对于本申请实施例，所述方法还包括：对所述文字图像进行文字区域读取；根据所述文字区域抽取底层颜色特征和底层纹理特征；对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征；抽取所述文字区域的标签层全局特征；将所述文字区域的底层局部特征与所述文字区域的标签层全局特征进行融合得到所述文字区域中所有像素的特征向量。

其中，纹理是描述图像的一个重要底层特征，它是一种全局特征，它是物体表面或者图像中描述区域的一种明显特征。图像的纹理特征反映了图像的灰度变化规律，也反映了图像的结构信息和空间分布信息，在分析图像时，可以将灰度变化规律数字化并提取纹理特征，所述纹理特征具有尺度不变性和旋转不变性。对于本申请实施例，所述底层纹理特征具体可以通过统计分析法、结构分析法或频谱分析法等得到，本申请实施例不做具体规定。颜色是图像另一个重要的底层特征，它描述的是图像或者多对区域的视觉特性，其在彩色图像处理中应用较为广泛，其抽取过程具体可以包括：选择合适的彩色空间描述颜色特征；采用一定的方法量化颜色特征。常用的颜色空间包括RGB、CMY等，本申请实施例不做具体规定。

对于本申请实施例，所述方法还包括：在RGB颜色空间抽取所述文字区域块中每个像素点的底层颜色特征；将所述文字区域转换为灰度图像；在所述灰度图像上抽取Gabor纹理特征，得到每个像素点的底层纹理特征；将所述底层颜色特征和所述底层纹理特征进行融合，得到底层局部特征。

其中，所述在RGB颜色空间抽取所述文字区域块中每个像素点的底层颜色特征的具体过程可以包括：首先将图像分解为R、G、B三个颜色通道，对每个像素点抽取相应的R、G、B颜色分量和8邻域像素R、G、B三个分量的均值。所述在所述灰度图像上抽取Gabor纹理特征，得到每个像素点的底层纹理特征的过程具体可以包括：在文字区域块的灰度图像上用一组同一频率不同方向不同尺度的Gabor滤波器进行滤波，然后将滤波后的图像按照公式进行合并其中i表示尺度，j表示方向，gabori表示尺度i的合并Gabor滤波图像，表示尺度i方向j上的Gabor滤波图像，然后在滤波后的合并图像上抽取相应的纹理特征，抽取每个像素点的3×3邻域Gabor系数的均值和方差作为每个像素点的纹理特征。具体地，可以先将彩色图像转换为灰色图像；在所述灰度图像上用同一频率Gabor滤波器分别在8个方向(0°、30°、45°、60°、90°、120°、135°、150°)和3个尺度上进行滤波；对每个尺度Gabor滤波后的输出图像进行合并处理，获得合并滤波图像；对于每幅图像，在每个尺度上可获得一幅合并Gabor滤波图像。在合并的Gabor滤波图像上对每个像素点的3×3邻域抽取相应的纹理特征；在每个像素点的3×3邻域抽取Gabor系数均值和方差作为每个像素点的纹理特征。在每个尺度上可抽取2维Gabor特征，所以在3各尺度上共抽取6维Gabor特征。

对于本申请实施例，所述方法还包括：利用构造的第一训练数据集对预设的卷积神经网络模型进行训练，得到预训练模型；利用构造的第二训练数据集对所述预训练模型进行训练，得到文字识别模型。

其中，所述第一训练数据集可以为未标注的文字图像。对于未标注的文字图像，通常文字是沿长边横向排列，则可以从图像的长边进行切分，将所述图像等分成若干子块，以便于识别各个子块中的字符，从而能够拼接为完整的一句话，由于分类的结果是单个字符，所以必须对图像进行切分，对于本申请实施例，图像划分为子块的数量可以根据需求进行设置，本申请实施例不做具体规定。按照预设的概率将子块随机打乱或者按照预设的概率从其他图像中用若干个子块替换当前图像的子块，如可以以50％的概率对多个子块进行随机打乱，或以50％的概率从其他图像中用3个子块替换当前图像的子块，从而得到用于预训练模型的第一训练数据集。需要说明的是，由于本步骤属于自监督学习的范畴，不需要人工进行标注处理，所以在实际应用场景中，可以通过代码进行实现，从而提高训练数据构造的效率和准确率。

所述卷积神经网络模型可以为对两个二分类任务求交叉熵损失，具体包括：1.当前图像子块的排列顺序是否正确；2.当前图像子块序列中是否有来自其他图像的子块。总的优化目标是最小化两个二分类任务的交叉熵损失之和，从而能够从大量的无标注图像数据中学习的语义信息。具体地，可以使用交叉熵作为损失函数，所述交叉熵经常用于分类问题中，特别是在神经网络做分类问题时，也经常使用交叉熵作为损失函数，由于交叉熵涉及到计算每个类别的概率，所以交叉熵几乎每次都和sigmoid(或softmax)函数一起出现。具体地，在二分的情况下，模型最后需要预测的结果只有两种情况，对于每个类别我们的预测得到的概率为p和1-p。此时表达式为：

-pi——表示样本i预测为正的概率。

对于本申请实施例，所述方法还包括：利用预先配置的多种尺寸的卷积核，预设卷积神经网络模型；将获取的未标注图像划分为多个子块，按照预设概率对所述多个子块进行随机打乱或替换处理，以构造第一训练数据集；利用所述第一训练数据集对所述卷积神经网络模型进行训练，得到预训练模型；将获取的已标注图像划分为多个子块，按照预设概率对所述多个子块进行随机打乱或替换处理，以构造第二训练数据集；利用所述第二训练数据集对所述预训练模型进行训练，得到文字识别模型。

其中，可以通过预先设计多尺度滑窗卷积神经网络对图像信息进行卷积处理，例如，假设输入图像的尺寸为W×H，则可以使用2×H、3×H、4×H三种尺寸的卷积核，分别学习2个像素，3个像素和4个像素间的上下文信息，每种尺寸卷积核可以以1个像素点为步长在所属图像上滑动，从而分别捕捉不同长度的上下文信息，而对于本申请，预先配置的卷积核数量和尺寸可以根据需求自行设置，本申请不做具体指定。具体地，如输入图像中包括abcd四个字符，每个字符占一个像素，则通过2×H尺寸的卷积核能提取ab的信息，通过3×H尺寸的卷积核能提取abc的信息，通过4×H尺寸的卷积核能提取abcd的信息。在实际场景中，由于获取的图像中句子的长度不同，而且拥有特定含义的词组长度不同，所以需要通过不同尺寸的卷积核才能更好地识别不同句子中的文字含义。

对于本申请实施例，所述方法还包括：根据获取的未标注图像，确定分割区域的最小尺寸；根据所述分割区域的最小尺寸，将所述未标注图像进行超像素分割，得到分割图像；基于所述分割图像确定图像融合阈值；根据所述图像融合阈值，对所述分割图像进行区域融合，得到融合图像；对所述融合图像的局部区域中仅包括一个目标图像的局部区域进行标注，得到已标注图像。

其中，超像素分割是2003年Xiaofeng Ren提出和发展起来的图像分割技术，是指具有相似纹理、颜色、亮度等特征的相邻像素构成的有一定视觉意义的不规则像素块。它利用像素之间特征的相似性将像素分组，用少量的超像素代替大量的像素来表达图片特征，很大程度上降低了图像后处理的复杂度，所以通常作为分割算法的预处理步骤。

具体地，可以通过目标检测模型，确定所述待标注图像中的目标图像的坐标信息；基于所述坐标信息，确定分割区域的最小尺寸。获取当前分割图像中未标注的区域的像素的第二平均色彩值；基于所述第二平均色彩值，确定所述当前阈值。获取所述分割图像中各个分割区域内的像素的第一平均色彩值；根据所述当前阈值和所述第一平均色彩值，采用区域融合的方式，将所述分割图像中两个所述第一平均色彩值的差小于所述当前阈值的所述分割图像中对应的两个所述分割区域进行融合，得到当前融合图像。根据所述目标图像的类别，对所述局部区域中仅包括一个所述目标图像的局部区域进行标注。

对于本申请实施例，为了进一步提高识别结果的存储安全性，防止信息的外泄，所述方法还可以包括：将输出的文本数据保存在预先建立的区块链网络的存储节点中。

进一步的，作为对上述图1所示方法的实现，本申请实施例提供了一种文字识别装置，如图2所示，该装置包括：

获取单元21，可以用于获取文字图像；

提取单元22，可以用于对所述文字图像进行底层特征提取，将得到的底层颜色特征和底层纹理特征进行融合处理，确定所述文字图像中预设文字区域的特征向量；

识别单元23，可以用于通过预先训练的文字识别模型对所述特征向量进行识别处理，得到文本数据，其中，所述文字识别模型为利用配置有多种尺寸卷积核的卷积神经网络模型以及预先构造的第一训练数据集和第二训练数据集进行训练得到的；

输出单元24，可以用于输出所述文本数据。

进一步地，所述提取单元22，包括：

读取模块221，可以用于对所述文字图像进行文字区域读取；

抽取模块222，可以用于根据所述文字区域抽取底层颜色特征和底层纹理特征；

融合模块223，可以用于对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征；

所述抽取模块222具体还可以用于抽取所述文字区域的标签层全局特征；

所述融合模块223具体还可以用于将所述文字区域的底层局部特征与所述文字区域的标签层全局特征进行融合得到所述文字区域中所有像素的特征向量。

进一步地，所述抽取模块222具体可以可以用于在RGB颜色空间抽取所述文字区域块中每个像素点的底层颜色特征；将所述文字区域转换为灰度图像；在所述灰度图像上抽取Gabor纹理特征，得到每个像素点的底层纹理特征；将所述底层颜色特征和所述底层纹理特征进行融合，得到底层局部特征。

进一步地，所述装置还包括：

第一训练单元25，可以用于利用构造的第一训练数据集对预设的卷积神经网络模型进行训练，得到预训练模型；

第二训练单元26，可以用于利用构造的第二训练数据集对所述预训练模型进行训练，得到文字识别模型。

进一步地，所述装置还包括：

配置单元27，可以用于利用预先配置的多种尺寸的卷积核，预设卷积神经网络模型；

第一构造单元28，可以用于将获取的未标注图像划分为多个子块，按照预设概率对所述多个子块进行随机打乱或替换处理，以构造第一训练数据集；

所述第一训练单元25具体可以用于利用所述第一训练数据集对所述卷积神经网络模型进行训练，得到预训练模型；

第二构造单元29，可以用于将获取的已标注图像划分为多个子块，按照预设概率对所述多个子块进行随机打乱或替换处理，以构造第二训练数据集；

所述第二训练单元26具体可以用于利用所述第二训练数据集对所述预训练模型进行训练，得到文字识别模型。

进一步地，所述装置还包括：

确定单元210，可以用于根据获取的未标注图像，确定分割区域的最小尺寸；

分割单元211，可以用于根据所述分割区域的最小尺寸，将所述未标注图像进行超像素分割，得到分割图像；

所述确定单元210具体可以用于基于所述分割图像确定图像融合阈值；

融合单元212，可以用于根据所述图像融合阈值，对所述分割图像进行区域融合，得到融合图像；

标注单元213，可以用于对所述融合图像的局部区域中仅包括一个目标图像的局部区域进行标注，得到已标注图像。

进一步地，所述装置还包括：

保存单元214，可以用于将输出的文本数据保存在预先建立的区块链网络的存储节点中。

根据本申请一个实施例提供了一种存储介质，所述存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的文字识别方法。

图3示出了根据本申请一个实施例提供的一种计算机设备的结构示意图，本申请具体实施例并不对计算机设备的具体实现做限定。

如图3所示，该计算机设备可以包括：处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。

其中：处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。

通信接口304，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器302，用于执行程序310，具体可以执行上述文字识别方法实施例中的相关步骤。

具体地，程序310可以包括程序代码，该程序代码包括计算机操作指令。

处理器302可能是中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器306，用于存放程序310。存储器306可能包含高速RAM存储器，也可能还包括存储器(non-volatile memory)，例如至少一个磁盘存储器。所述存储器可以是非易失性的，也可以是易失性的。

程序310具体可以用于使得处理器302执行以下操作：

获取文字图像；

输出所述文本数据。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

一种文字识别方法，其中，包括：

获取文字图像；

对所述文字图像进行底层特征提取，将得到的底层颜色特征和底层纹理特征进行融合处理，确定所述文字图像中预设文字区域的特征向量；

通过预先训练的文字识别模型对所述特征向量进行识别处理，得到文本数据，其中，所述文字识别模型为利用未标注文字图像构造的第一训练数据集和已标注文字图像构造的第二训练数据集进行训练得到的；

输出所述文本数据。
根据权利要求1所述的方法，其中，所述对所述文字图像进行底层特征提取，将得到的底层颜色特征和底层纹理特征进行融合处理，确定所述文字图像中预设文字区域的特征向量，包括：

对所述文字图像进行文字区域读取；

根据所述文字区域抽取底层颜色特征和底层纹理特征；

对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征；

抽取所述文字区域的标签层全局特征；

将所述文字区域的底层局部特征与所述文字区域的标签层全局特征进行融合得到所述文字区域中所有像素的特征向量。
根据权利要求2所述的方法，其中，所述根据所述文字区域抽取底层颜色特征和底层纹理特征，包括：

在RGB颜色空间抽取所述文字区域块中每个像素点的底层颜色特征；

所述对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征，包括：

将所述文字区域转换为灰度图像；

在所述灰度图像上抽取Gabor纹理特征，得到每个像素点的底层纹理特征；

将所述底层颜色特征和所述底层纹理特征进行融合，得到底层局部特征。
根据权利要求1所述的方法，其中，所述通过预先训练的文字识别模型对所述特征向量进行识别处理，得到文本数据之前，所述方法还包括：

利用构造的第一训练数据集对预设的卷积神经网络模型进行训练，得到预训练模型；

利用构造的第二训练数据集对所述预训练模型进行训练，得到文字识别模型。
根据权利要求4所述的方法，其中，所述利用构造的第一训练数据集对预设的卷积神经网络模型进行训练，得到预训练模型，包括：

利用预先配置的多种尺寸的卷积核，预设卷积神经网络模型；

将获取的未标注图像划分为多个子块，按照预设概率对所述多个子块进行随机打乱或替换处理，以构造第一训练数据集；

利用所述第一训练数据集对所述卷积神经网络模型进行训练，得到预训练模型；

所述利用构造的第二训练数据集对所述预训练模型进行训练，得到文字识别模型，包括：

将获取的已标注图像划分为多个子块，按照预设概率对所述多个子块进行随机打乱或替换处理，以构造第二训练数据集；

利用所述第二训练数据集对所述预训练模型进行训练，得到文字识别模型。
根据权利要求5所述的方法，其中，所述将获取的已标注图像划分为多个子块，按照预设概率对所述多个子块进行随机打乱或替换处理，以构造第二训练数据集之前，所述方法还包括：

根据获取的未标注图像，确定分割区域的最小尺寸；

根据所述分割区域的最小尺寸，将所述未标注图像进行超像素分割，得到分割图像；

基于所述分割图像确定图像融合阈值；

根据所述图像融合阈值，对所述分割图像进行区域融合，得到融合图像；

对所述融合图像的局部区域中仅包括一个目标图像的局部区域进行标注，得到已标注图像。
根据权利要求1所述的方法，其中，所述输出所述文本数据之后，所述方法还包括：

将输出的文本数据保存在预先建立的区块链网络的存储节点中。
一种文字识别装置，其中，包括：

获取单元，用于获取文字图像；

提取单元，用于对所述文字图像进行底层特征提取，将得到的底层颜色特征和底层纹理特征进行融合处理，确定所述文字图像中预设文字区域的特征向量；

识别单元，用于通过预先训练的文字识别模型对所述特征向量进行识别处理，得到文本数据，其中，所述文字识别模型为利用配置有多种尺寸卷积核的卷积神经网络模型以及预先构造的第一训练数据集和第二训练数据集进行训练得到的；

输出单元，用于输出所述文本数据。
一种计算机可读存储介质，其上存储有计算机可读指令，其中，所述计算机可读指令被处理器执行时实现文字识别方法，包括：

获取文字图像；

对所述文字图像进行底层特征提取，将得到的底层颜色特征和底层纹理特征进行融合处理，确定所述文字图像中预设文字区域的特征向量；

通过预先训练的文字识别模型对所述特征向量进行识别处理，得到文本数据，其中，所述文字识别模型为利用未标注文字图像构造的第一训练数据集和已标注文字图像构造的第二训练数据集进行训练得到的；

输出所述文本数据。
根据权利要求9所述的计算机可读存储介质，其中，所述计算机可读指令被处理器执行时实现对所述文字图像进行底层特征提取，将得到的底层颜色特征和底层纹理特征进行融合处理，确定所述文字图像中预设文字区域的特征向量，包括：

对所述文字图像进行文字区域读取；

根据所述文字区域抽取底层颜色特征和底层纹理特征；

对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征；

抽取所述文字区域的标签层全局特征；

将所述文字区域的底层局部特征与所述文字区域的标签层全局特征进行融合得到所述文字区域中所有像素的特征向量。
根据权利要求10所述的计算机可读存储介质，其中，所述计算机可读指令被处理器执行时实现述根据所述文字区域抽取底层颜色特征和底层纹理特征，包括：

在RGB颜色空间抽取所述文字区域块中每个像素点的底层颜色特征；

所述对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征，包括：

将所述文字区域转换为灰度图像；

在所述灰度图像上抽取Gabor纹理特征，得到每个像素点的底层纹理特征；

将所述底层颜色特征和所述底层纹理特征进行融合，得到底层局部特征。
根据权利要求10所述的计算机可读存储介质，其中，所述计算机可读指令被处理器执行时实现通过预先训练的文字识别模型对所述特征向量进行识别处理，得到文本数据之前，所述方法还包括：

利用构造的第一训练数据集对预设的卷积神经网络模型进行训练，得到预训练模型；

利用构造的第二训练数据集对所述预训练模型进行训练，得到文字识别模型。
根据权利要求12所述的计算机可读存储介质，其中，所述计算机可读指令被处理器执行时实现利用构造的第一训练数据集对预设的卷积神经网络模型进行训练，得到预训练模型，包括：

利用预先配置的多种尺寸的卷积核，预设卷积神经网络模型；

将获取的未标注图像划分为多个子块，按照预设概率对所述多个子块进行随机打乱或替换处理，以构造第一训练数据集；

利用所述第一训练数据集对所述卷积神经网络模型进行训练，得到预训练模型；

所述利用构造的第二训练数据集对所述预训练模型进行训练，得到文字识别模型，包括：

将获取的已标注图像划分为多个子块，按照预设概率对所述多个子块进行随机打乱或替换处理，以构造第二训练数据集；

利用所述第二训练数据集对所述预训练模型进行训练，得到文字识别模型。
根据权利要求13所述的计算机可读存储介质，其中，所述计算机可读指令被处理器执行时实现将获取的已标注图像划分为多个子块，按照预设概率对所述多个子块进行随机打乱或替换处理，以构造第二训练数据集之前，所述方法还包括：

根据获取的未标注图像，确定分割区域的最小尺寸；

根据所述分割区域的最小尺寸，将所述未标注图像进行超像素分割，得到分割图像；

基于所述分割图像确定图像融合阈值；

根据所述图像融合阈值，对所述分割图像进行区域融合，得到融合图像；

对所述融合图像的局部区域中仅包括一个目标图像的局部区域进行标注，得到已标注图像。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，其中，所述计算机可读指令被处理器执行时实现文字识别方法，包括：

获取文字图像；

对所述文字图像进行底层特征提取，将得到的底层颜色特征和底层纹理特征进行融合处理，确定所述文字图像中预设文字区域的特征向量；

通过预先训练的文字识别模型对所述特征向量进行识别处理，得到文本数据，其中，所述文字识别模型为利用未标注文字图像构造的第一训练数据集和已标注文字图像构造的第二训练数据集进行训练得到的；

输出所述文本数据。
根据权利要求15所述的计算机设备，其中，所述计算机可读指令被处理器执行时实现对所述文字图像进行底层特征提取，将得到的底层颜色特征和底层纹理特征进行融合处理，确定所述文字图像中预设文字区域的特征向量，包括：

对所述文字图像进行文字区域读取；

根据所述文字区域抽取底层颜色特征和底层纹理特征；

对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征；

抽取所述文字区域的标签层全局特征；

将所述文字区域的底层局部特征与所述文字区域的标签层全局特征进行融合得到所述文字区域中所有像素的特征向量。
根据权利要求16所述的计算机设备，其中，所述计算机可读指令被处理器执行时实现根据所述文字区域抽取底层颜色特征和底层纹理特征，包括：

在RGB颜色空间抽取所述文字区域块中每个像素点的底层颜色特征；

所述对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征，包括：

将所述文字区域转换为灰度图像；

在所述灰度图像上抽取Gabor纹理特征，得到每个像素点的底层纹理特征；

将所述底层颜色特征和所述底层纹理特征进行融合，得到底层局部特征。
根据权利要求15所述的计算机设备，其中，所述计算机可读指令被处理器执行时实现通过预先训练的文字识别模型对所述特征向量进行识别处理，得到文本数据之前，所述方法还包括：

利用构造的第一训练数据集对预设的卷积神经网络模型进行训练，得到预训练模型；

利用构造的第二训练数据集对所述预训练模型进行训练，得到文字识别模型。
根据权利要求18所述的计算机设备，其中，所述计算机可读指令被处理器执行时实现利用构造的第一训练数据集对预设的卷积神经网络模型进行训练，得到预训练模型，包括：

利用预先配置的多种尺寸的卷积核，预设卷积神经网络模型；

将获取的未标注图像划分为多个子块，按照预设概率对所述多个子块进行随机打乱或替换处理，以构造第一训练数据集；

利用所述第一训练数据集对所述卷积神经网络模型进行训练，得到预训练模型；

所述利用构造的第二训练数据集对所述预训练模型进行训练，得到文字识别模型，包括：

将获取的已标注图像划分为多个子块，按照预设概率对所述多个子块进行随机打乱或替换处理，以构造第二训练数据集；

利用所述第二训练数据集对所述预训练模型进行训练，得到文字识别模型。
根据权利要求19所述的计算机设备，其中，所述计算机可读指令被处理器执行时实现将获取的已标注图像划分为多个子块，按照预设概率对所述多个子块进行随机打乱或替换处理，以构造第二训练数据集之前，所述方法还包括：

根据获取的未标注图像，确定分割区域的最小尺寸；

根据所述分割区域的最小尺寸，将所述未标注图像进行超像素分割，得到分割图像；

基于所述分割图像确定图像融合阈值；

根据所述图像融合阈值，对所述分割图像进行区域融合，得到融合图像；

对所述融合图像的局部区域中仅包括一个目标图像的局部区域进行标注，得到已标注图像。