WO2020224115A1

WO2020224115A1 - 图片处理方法、装置、计算机设备及存储介质

Info

Publication number: WO2020224115A1
Application number: PCT/CN2019/103163
Authority: WO
Inventors: 高梁梁; 王彬
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-05-07
Filing date: 2019-08-29
Publication date: 2020-11-12
Also published as: CN110245557B; CN110245557A

Abstract

一种图片处理方法，应用于智能决策技术领域，其包括对待识别图片进行识别，以获取所述待识别图片对应的文本数据（S110）；根据预设的文本分类模型对所述文本数据进行分类，以得出文本数据对应的分类数据（S120）；判断所述文本数据对应的分类数据是否满足预设文本规则；若所述分类数据满足预设文本规则，储存所述分类数据。

Description

图片处理方法、装置、计算机设备及存储介质

本申请要求于2019年5月07日提交中国专利局、申请号为201910374785.1、申请名称为“图片处理方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机数据处理领域，尤其涉及一种图片处理方法、装置、计算机设备及计算机可读存储介质。

背景技术

随着数据电子化的不断发展，人们逐渐习惯将纸质数据转换为电子数据进行储存，例如将纸质名片录入至电脑、手机等电子设备储存，以便于储存以及快速查找。人们往往需要手动录入这些纸质数据，耗费时间过长。

发明内容

本申请实施例提供了一种图片处理方法、装置、计算机设备及存储介质，旨在解决图片处理速度慢、准确度低等问题。

第一方面，本申请实施例提供了一种图片处理方法，其包括：对待识别图片进行识别，以获取所述待识别图片对应的文本数据；根据预设的文本分类模型对所述文本数据进行分类，以得出文本数据对应的分类数据；获取所述文本数据对应的分类数据对应的数据类型，以及所述数据类型对应的数据内容，所述数据类型对应存在唯一的预设文本规则；根据所述数据类型对应的预设文本规则判断所述数据类型对应的数据内容是否满足所述数据类型对应的预设文本规则；若所述数据类型对应的数据内容满足所述数据类型对应的预设文本规则，确定所述文本数据对应的分类数据满足预设文本规则，并储存所述文本数据对应的分类数据。

第二方面，本申请实施例提供了一种图片处理装置，其包括：识别单元，用于对待识别图片进行识别，以获取所述待识别图片对应的文本数据；分类单元，用于根据预设的文本分类模型对所述文本数据进行分类，以得出文本数据对应的分类数据；第一获取单元，用于获取所述文本数据对应的分类数据对应的数据类型，以及所述数据类型对应的数据内容，所述数据类型对应存在唯一的预设文本规则；第一判断单元，用于根据所述数据类型对应的预设文本规则判断所述数据类型对应的数据内容是否满足所述数据类型对应的预设文本规则；以及存储单元，用于若所述数据类型对应的数据内容满足所述数据类型对应的预设文本规则，确定所述文本数据对应的分类数据满足预设文本规则，并储存所述文本数据对应的分类数据。

第三方面，本申请实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现上述第一方面所述的方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的方法。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的一种图片处理方法的流程示意图；

图2为本申请一实施例提供的一种图片处理方法的应用场景示意图；

图3为本申请一实施例提供的一种图片处理方法的另一流程示意图；

图4为本申请一实施例提供的一种图片处理方法的另一流程示意图；

图5为本申请一实施例提供的一种图片处理方法的另一流程示意图；

图6为本申请一实施例提供的一种图片处理方法的另一流程示意图；

图7为本申请一实施例提供的一种图片处理装置的示意性框图；

图8为本申请一实施例提供的一种图片处理装置的另一示意性框图；

图9为本申请一实施例提供的一种图片处理装置的另一示意性框图；

图10为本申请一实施例提供的一种图片处理装置的另一示意性框图；

图11为本申请一实施例提供的一种图片处理装置的另一示意性框图；

图12为本申请一实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

请参照图1以及图2，其为本申请一实施例提供的一种图片处理方法的流程示意图以及应用场景示意图。本申请实施例所提供的图片处理方法可应用于服务器中，所述服务器20可与客户端10进行数据交互，以对客户端上传的图片进行处理并将处理结果反馈给所述客户端10。其中，所述服务器20可以是独立的服务器，也可以是多个服务器组成的服务器集群。所述客户端10可以是手机、平板电脑、智能手环等电子终端。如图1所示，该图片处理方法包括步骤S110-S150。

S110，获取待识别图片并对所述待识别图片进行识别，以获取所述待识别图片对应的文本数据。

具体地，服务器可通过与客户端通信来获取客户端上传的需进行处理的图片作为待识别图片并采用预设的图片识别技术对该待识别图片进行识别，以提取其中的文本数据。在一实施例中，所述待识别图片可以为预先获取并存储于客户端中的图片数据；在另一实施例中，所述待识别图片也可以为直接通过客户端中的图片采集装置进行采集得到。其中客户端可以为平板电脑、笔记本电脑、台式电脑等电子设备；图片采集装置可以为摄像头、扫描仪等。

在本实施例中，通过调用光学字符识别技术对待识别图片进行识别，可得出所述待识别图片对应的文本数据。其中，光学字符识别技术(Optical Character Recognition，OCR)是采用光学的方式将文字转换成为黑白点阵的图像文件，并通过识别软件将图像文件中的文字转换成文本格式的技术。

具体地，该待识别图片可以为名片图片、书籍封面图片、花名册图片、简历图片等等，本申请实施例并不对待识别图片的种类作出限制。假设该待识别图片为简历图片，通过光学字符识别技术对待识别图片进行识别后，所得到的所述待识别图片对应的文本数据可以为：“我的名字叫张三，今年32岁，毕业于深圳大学，曾担任业务部经理，联系电话为18581858185……”。

S120，根据预设的文本分类模型对所述文本数据进行分类，以得出文本数据对应的分类数据。

在一些实施例中，如图3所示，步骤S120可包括步骤S121-S123。

S121，根据预设算法从所述文本数据中提取文本特征。

具体地，预设算法可以为TF-IDF算法，TF-IDF(Term Frequency–Inverse Document Frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF-IDF算法可用于评估一个词在该词所在文本数据中的重要程度。

其中，TF意思是词频(Term Frequency)，计算词频的公式可以为：

其中，n _i,j表示词i在文档j中的出现频次；∑ _kn _k,j表示文档j中每个词出现次数的总和；tf _i,j表示词i在文档j出现的概率。

IDF意思是逆文本频率指数(Inverse Document Frequency)，计算频率指数的公式可以为：

其中，|D|为训练集的总文本数据数量；|{j:t _i∈d _j}|为包含词t _i的所有文本数据。TF-IDF算法通过将TF和IDF结合起来，若TF*IDF的值越大，表明该词的权重就越大，该词对于该词所在的文本数据中的重要程度越高。

具体实施中，通过TF-IDF算法对所述待识别图片对应的文本数据进行计算，以提取文本特征。例如，所述待识别图片对应的文本数据可以为：“我叫张三，今年32岁，毕业于深圳大学，曾担任业务部经理，联系电话为18581858185……”。通过TF-IDF算法计算后得出的文本特征为“张三、经理、18581858185……”。

S122，根据预设的特征向量工具将所述文本特征转换为特征向量。

具体地，预设的特征向量工具以为word2vec特征向量工具。Word2Vec主要采用Skip-Gram和CBOW两种模型来实现特征向量的转换。

具体实施中，本实施例采用Skip-Gram模型来实现词向量的转换，首先先对文本特征进行编码以得出初始词向量，假设文本特征为“张三、经理、18581858185……”，所得出的初始词向量为“001，010，100……”，即“张三”对应的初始词向量为001，“经理”对应的初始词向量为010，“18581858185”对应的初始词向量100。进而通过Skip-Gram模型对所得出的初始词向量进行转换以及得出特征向量。Skip-Gram模型包括输入层、隐藏层以及输出层，从输入层到隐藏层的映射没有采用激活函数，而隐藏层到输出层采用霍夫曼树进行优化。霍夫曼树是一个二叉树，叶子的节点代表词汇表中的词，叶子节点的权重代表词频，叶子节点的权重越大，距离根节点越近，霍夫曼树的根节点到叶子节点的路径即为词的概率，经过霍夫曼树的优化可以大大减少计算量，加快文本摘要的生成速度。具体地，将“张三”对应的初始词向量(即001)输入至Skip-Gram模型，所得出的特征向量为{0.319，0.681，-0.124}。

S123，将所述特征向量作为预设的文本分类模型的输入参数，以得出文本数据对应的分类数据。

具体地，所述分类数据包括数据类型以及数据内容。预设的文本分类模型通过卷积神经网络(Convolutional Neural Network，CNN)得出。通过将所述特征向量作为所述预设的文本分类模型的输入参数，即可得出文本数据对应的分类数据。例如，将所得出的特征向量{0.319，0.681，-0.124}作为预设的文本分类模型的输入参数，所得出的分类数据具体包括：数据类型“姓名数据”以及数据内容“张三”。

其中，卷积神经网络(Convolutional Neural Network，CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。其中，卷积神经网络(Convolutional Neural Network，CNN) 通常包含以下几种层：

卷积层(Convolutional layer)，卷积神经网络中每层卷积层由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法优化得到的。卷积运算的目的是提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网络能从低级特征中迭代提取更复杂的特征。

线性整流层(Rectified Linear Units layer，ReLU layer)，这一层神经的活性化函数(Activation function)使用线性整流(Rectified Linear Units，ReLU)。

池化层(Pooling layer)，通常在卷积层之后会得到维度很大的特征，将特征切成几个区域，取其最大值或平均值，得到新的、维度较小的特征。

全连接层(Fully-Connected layer)，把所有局部特征结合变成全局特征，用来计算最后每一类的得分。

在一些实施例中，如图4所示，步骤S120之前，还可包括步骤S210-S230。

S210，获取用于训练文本分类训练模型的训练数据，以及获取所述训练数据对应的数据标签。

具体地，通过对文本分类训练模型进行训练，以得出预设的文本分类模型。该文本分类训练模型为通过卷积神经网络(Convolutional Neural Network，CNN)得出。训练数据以及训练数据对应的数据标签由用户通过客户端进行输入。例如训练数据可以为“张三、经理、18581858185”等等，训练数据对应的数据标签具体可以为：“张三”对应的数据标签为“姓名数据”，“经理”对应的数据标签为“职位”，“18581858185”对应的数据标签为“手机号”。

S220，将所述训练数据作为所述文本分类训练模型的输入参数，以得出所述训练数据对应的分类数据，并根据所述训练数据对应的数据标签判断所述训练数据对应的分类数据准确度是否大于预设的准确度阈值。

具体地，通过将所述训练数据作为所述文本分类训练模型的输入参数，可得出所述训练数据对应的分类数据。例如，所得出的所述训练数据对应的分类数据包括数据类型以及数据内容，训练数据对应的分类数据具体可参照表1。

数据类型	姓名	职位	身份证号	……
数据内容	张三	经理	18581858185	……

表1

通过将逐一将训练数据对应的分类数据与所述训练文本对应的数据标签进行比对，以判断训练数据对应的数据分类是否正确。若分类数据对应的数据类型与训练数据对应的数据标签相同，确定该训练数据对应的数据分类正确。若分类数据对应的数据类型与训练数据对应的数据标签不相同，确定该训练数据对应的数据分类错误。然后对数据分类结果进行统计，以计算出所述训练数据对应的分类数据准确度，具体计算方式为，将数据分类正确的数量除以数据分类的总数，所得出的商即为分类数据准确度。

例如，通过对比可知，表1中数据内容“18581858185”所对应的数据类型应该为“手机号”，即该组分类数据对应的数据分类错误。其余组的分类数据对应分类正确。假设表1包含3组分类数据，则表1所示的分类数据准确度为“66.67％”。

其中，预设的准确度阈值可根据需求进行设定，若预设的准确度阈值为90％，则如表1所示的分类数据准确度不大于预设的准确度阈值，进而将该训练结果输出，以告知管理人员对该文本分类训练模型进行调整，以优化分类准确度。

S230，若所述训练数据对应的分类数据准确度大于预设的准确度阈值，将所述文本分类训练模型确定为预设的文本分类模型。

具体地，若所述训练数据对应的分类数据准确度大于预设的准确度阈值，表明该文本分类训练模型的分类准确度较高，进而将所述文本分类训练模型确定为预设的文本分类模型。

S130，获取所述文本数据对应的分类数据对应的数据类型，以及所述数据类型对应的数据内容，所述数据类型对应存在唯一的预设文本规则。

具体地，所述文本数据对应的分类数据包括数据类型以及数据内容，所述数据类型与数据内容一一对应，文本数据对应的分类数据具体可参照表2。

数据类型	姓名	职位	手机号	……
数据内容	张三	经理	18581858185	……

表2

S140，根据所述数据类型对应的预设文本规则判断所述数据类型对应的数据内容是否满足所述数据类型对应的预设文本规则。

具体地，所述数据类型对应存在唯一的预设文本规则。若所述数据类型为已知值，则可确定与该数据类型对应的唯一的预设文本规则。通过根据所述数据类型对应的预设文本规则判断所述数据类型对应的数据内容是否满足所述数据类型对应的预设文本规则，以对错误的文本数据对应的分类数据进行排查，提高文本数据对应的分类数据的准确度。

在一些实施例中，如图5所示，步骤S140包括S141-S142。

S141，判断所述姓名数据对应的数据内容是否全为中文字符或者所述姓名数据对应的数据内容是否全为英文字符。

具体地，不同的数据类型对应不同的预设文本规则，其中预设文本规则可预先进行设定，以实现对数据内容的纠错处理。例如，数据类型为“姓名数据”，该数据类型对应的预设文本规则为第一预设文本规则。其中，第一预设文本规则为“数据内容全为中文字符或者数据内容全为英文字符”。则所述根据所述数据类型对应的预设文本规则判断所述数据类型对应的数据内容是否满足所述数据类型对应的预设文本规则具体为：判断所述姓名数据对应的数据内容是否全为中文字符或者所述姓名数据对应的数据内容是否全为英文字符。

S142，若所述姓名数据对应的数据内容全为中文字符或者所述姓名数据对应的数据内容全为英文字符，确定所述姓名数据对应的数据内容满足所述数据类型对应的预设文本规则。

具体地，假设所述数据类型为“姓名数据”所对应的数据内容为“张1三”，通过判断所述姓名数据对应的数据内容是否全为中文字符或者所述姓名数据对应的数据内容是否全为英文字符，确定所述姓名数据对应的数据内容不满足所述数据类型对应的预设文本规则(即第一预设文本规则)。若数据类型为“姓名数据”所对应的数据内容为“张三”，则满足所述数据类型对应的预设文本规则。

若所述数据类型对应的数据内容不满足所述数据类型对应的预设文本规则，确定所述文本数据对应的分类数据不满足预设文本规则。

S150，若所述数据类型对应的数据内容满足所述数据类型对应的预设文本规则，确定所述文本数据对应的分类数据满足预设文本规则，并储存所述文本数据对应的分类数据。

具体地，若所述数据类型对应的数据内容满足所述数据类型对应的预设文本规则，表明经过所述文本分类模型分类处理后的文本数据符合预设的文本规则，文本分类的准确度较高，进而储存所述分类数据。

其中，储存所述分类数据具体为：根据“数据类型：数据内容”的储存格式储存于本地文件中。例如，所述分类数据包括数据类型以及数据内容，数据类型具体为“姓名数据”，数据内容具体为“张三”。若该分类数据满足预设文本规则，则将该分类分级按照“数据类型：数据内容”的储存格式储存于本地文件中，即将所述分类数据以“姓名：张三”的格式储存于本地文件中。

在一些实施例中，如图6所示，步骤S140之后还可包括S160。

S160，若所述分类数据不满足预设文本规则，生成错误警告信息。

具体地，若所述分类数据不满足预设文本规则，表明该分类数据中的数据类型与数据内容不匹配，可能存在图片识别出错的情况，为保证图片处理的准确度，故生成错误警告信息，该错误警告信息用于警告用户数据处理出错，以便用户及时获取错误数据，以及进行修正。错误警告信息可通过展示于客户端的显示装置，还可以通过邮件、短信等方式发送至用户。

图7是本申请实施例提供的一种图片处理装置100的示意性框图。如图7所示，对应于以上图片处理方法，本申请还提供一种图片处理装置100。该图片处理装置100包括用于执行上述图片处理方法的单元，该装置100可以被配置于服务器中，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。如图7所示，所述装置包括识别单元110、分类单元120、第一获取单元130、第一判断单元140以及存储单元150。

识别单元110，用于对待识别图片进行识别，以获取所述待识别图片对应的文本数据。

分类单元120，用于根据预设的文本分类模型对所述文本数据进行分类，以得出文本数据对应的分类数据。

在一些实施例中，如图8所示，所述分类单元120包括提取单元121、第一生成单元122以及第一处理单元123。

提取单元121，用于根据预设算法从所述文本数据中提取文本特征。

第一生成单元122，用于根据预设的特征向量工具将所述文本特征转换为特征向量。

第一处理单元123，用于将所述特征向量作为预设的文本分类模型的输入参数，以得出文本数据对应的分类数据。

在一些实施例中，如图9所示，所述装置100还包括第二获取单元210、第二判断单元220以及第一确定单元230。

第二获取单元210，用于获取用于训练文本分类训练模型的训练数据，以及获取所述训练数据对应的数据标签。

第二判断单元220，用于将所述训练数据作为所述文本分类训练模型的输入参数，以得出所述训练数据对应的分类数据，并根据所述训练数据对应的数据标签判断所述训练数据对应的分类数据准确度是否大于预设的准确度阈值。

第一确定单元230，用于若所述训练数据对应的分类数据准确度大于预设的准确度阈值，将所述文本分类训练模型确定为预设的文本分类模型。

第一获取单元130，用于获取所述文本数据对应的分类数据对应的数据类型，以及所述数据类型对应的数据内容，所述数据类型对应存在唯一的预设文本规则。

第一判断单元140，用于根据所述数据类型对应的预设文本规则判断所述数据类型对应的数据内容是否满足所述数据类型对应的预设文本规则。

在一些实施例中，如图10所示，所述第一判断单元140包括第三判断单元141以及第二确定单元142。

第三判断单元141，用于判断所述姓名数据对应的数据内容是否全为中文字符或者所述姓名数据对应的数据内容是否全为英文字符。

第二确定单元142，用于若所述姓名数据对应的数据内容全为中文字符或者所述姓名数据对应的数据内容全为英文字符，确定所述姓名数据对应的数据内容满足所述数据类型对应的预设文本规则。

存储单元150，用于若所述数据类型对应的数据内容满足所述数据类型对应的预设文本规则，确定所述文本数据对应的分类数据满足预设文本规则，并储存所述文本数据对应的分类数据。

在一些实施例中，如图11所示，所述装置100还包括警告单元160，所述警告单元160用于若所述数据类型对应的数据内容不满足所述数据类型对应的预设文本规则，生成错误警告信息。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述图片处理装置100和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述装置100可以实现为一种计算机程序的形式，计算机程序可以在如图12所示的计算机设备上运行。

请参阅图12，图12是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器，所述服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

该计算机设备500包括通过系统总线510连接的处理器520、存储器和网络接口550，其中，存储器可以包括非易失性存储介质530和内存储器540。

该非易失性存储介质530可存储操作系统531和计算机程序532。该计算机程序532被执行时，以实现本申请实施例的图片处理方法。

该处理器520用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器540为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器520执行时，可使得处理器520执行一种图片处理方法。

该网络接口550用于与其它设备进行网络通信。本领域技术人员可以理解，该计算机设备的示意性框图仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解，在本申请实施例中，处理器520可以是中央处理单元(Central Processing Unit，CPU)，该处理器520还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域技术人员可以理解，该计算机设备500的示意性框图并不构成对计算机设备500的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

因此，本申请还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，该计算机程序被处理器执行时使处理器执行以上各实施例中所描述的图片处理方法的步骤。

所述存储介质为实体的、非瞬时性的存储介质，例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如一个以上单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种图片处理方法，包括：

对待识别图片进行识别，以获取所述待识别图片对应的文本数据；

根据预设的文本分类模型对所述文本数据进行分类，以得出文本数据对应的分类数据；

获取所述文本数据对应的分类数据对应的数据类型，以及所述数据类型对应的数据内容，所述数据类型对应存在唯一的预设文本规则；

根据所述数据类型对应的预设文本规则判断所述数据类型对应的数据内容是否满足所述数据类型对应的预设文本规则；

若所述数据类型对应的数据内容满足所述数据类型对应的预设文本规则，确定所述文本数据对应的分类数据满足预设文本规则，并储存所述文本数据对应的分类数据。
如权利要求1所述的方法，其中，所述根据预设的文本分类模型对所述文本数据进行分类，以得出文本数据对应的分类数据，包括：

根据预设算法从所述文本数据中提取文本特征；

根据预设的特征向量工具将所述文本特征转换为特征向量；

将所述特征向量作为预设的文本分类模型的输入参数，以得出文本数据对应的分类数据。
如权利要求1所述的方法，其中，所述根据预设的文本分类模型对所述文本数据进行分类，以得出文本数据对应的分类数据之前，还包括：

获取用于训练文本分类训练模型的训练数据，以及获取所述训练数据对应的数据标签；

将所述训练数据作为所述文本分类训练模型的输入参数，以得出所述训练数据对应的分类数据，并根据所述训练数据对应的数据标签判断所述训练数据对应的分类数据准确度是否大于预设的准确度阈值；

若所述训练数据对应的分类数据准确度大于预设的准确度阈值，将所述文本分类训练模型确定为预设的文本分类模型。
如权利要求1所述的方法，其中，所述数据类型包括姓名数据，所述根据所述数据类型对应的预设文本规则判断所述数据类型对应的数据内容是否满足所述数据类型对应的预设文本规则，包括：

判断所述姓名数据对应的数据内容是否全为中文字符或者所述姓名数据对应的数据内容是否全为英文字符；

若所述姓名数据对应的数据内容全为中文字符或者所述姓名数据对应的数据内容全为英文字符，确定所述姓名数据对应的数据内容满足所述数据类型对应的预设文本规则。
如权利要求1所述的方法，其中，所述获取与所述数据类型对应的预设文本规则，判断所述数据类型对应的数据内容是否满足所述数据类型对应的预设文本规则之后，还包括：

若所述数据类型对应的数据内容不满足所述数据类型对应的预设文本规则，生成错误警告信息。
如权利要求2所述的方法，其中，所述预设算法为TF-IDF算法。
如权利要求1所述的方法，其中，所述预设的文本分类模型通过卷积神经网络得到，所述卷积神经网络包括卷积层、线性整流层、池化层以及全连接层。
一种图片处理装置，包括：

识别单元，用于对待识别图片进行识别，以获取所述待识别图片对应的文本数据；

分类单元，用于根据预设的文本分类模型对所述文本数据进行分类，以得出文本数据对应的分类数据；

第一获取单元，用于获取所述文本数据对应的分类数据对应的数据类型，以及所述数据类型对应的数据内容，所述数据类型对应存在唯一的预设文本规则；

第一判断单元，用于根据所述数据类型对应的预设文本规则判断所述数据类型对应的数据内容是否满足所述数据类型对应的预设文本规则；

存储单元，用于若所述数据类型对应的数据内容满足所述数据类型对应的预设文本规则，确定所述文本数据对应的分类数据满足预设文本规则，并储存所述文本数据对应的分类数据。
如权利要求8所述的装置，其中，所述分类单元包括：

提取单元，用于根据预设算法从所述文本数据中提取文本特征；

第一生成单元，用于根据预设的特征向量工具将所述文本特征转换为特征向量；

第一处理单元，用于将所述特征向量作为预设的文本分类模型的输入参数，以得出文本数据对应的分类数据。
如权利要求8所述的装置，其中，所述装置还包括：

第二获取单元，用于获取用于训练文本分类训练模型的训练数据，以及获取所述训练数据对应的数据标签；

第二判断单元，用于将所述训练数据作为所述文本分类训练模型的输入参数，以得出所述训练数据对应的分类数据，并根据所述训练数据对应的数据标签判断所述训练数据对应的分类数据准确度是否大于预设的准确度阈值；

第一确定单元，用于若所述训练数据对应的分类数据准确度大于预设的准确度阈值，将所述文本分类训练模型确定为预设的文本分类模型。
一种计算机设备，包括存储器以及与所述存储器相连的处理器；其中，所述存储器用于存储计算机程序；所述处理器用于运行所述存储器中存储的计算机程序，以执行如下步骤：

对待识别图片进行识别，以获取所述待识别图片对应的文本数据；

根据预设的文本分类模型对所述文本数据进行分类，以得出文本数据对应的分类数据；

获取所述文本数据对应的分类数据对应的数据类型，以及所述数据类型对应的数据内容，所述数据类型对应存在唯一的预设文本规则；

根据所述数据类型对应的预设文本规则判断所述数据类型对应的数据内容是否满足所述数据类型对应的预设文本规则；

若所述数据类型对应的数据内容满足所述数据类型对应的预设文本规则，确定所述文本数据对应的分类数据满足预设文本规则，并储存所述文本数据对应的分类数据。
根据权利要求11所述的计算机设备，其中，所述根据预设的文本分类模型对所述文本数据进行分类，以得出文本数据对应的分类数据的步骤包括：

根据预设算法从所述文本数据中提取文本特征；

根据预设的特征向量工具将所述文本特征转换为特征向量；

将所述特征向量作为预设的文本分类模型的输入参数，以得出文本数据对应的分类数据。
根据权利要求11所述的计算机设备，其中，所述根据预设的文本分类模型对所述文本数据进行分类，以得出文本数据对应的分类数据的步骤之前还包括：

获取用于训练文本分类训练模型的训练数据，以及获取所述训练数据对应的数据标签；

将所述训练数据作为所述文本分类训练模型的输入参数，以得出所述训练数据对应的分类数据，并根据所述训练数据对应的数据标签判断所述训练数据对应的分类数据准确度是否大于预设的准确度阈值；

若所述训练数据对应的分类数据准确度大于预设的准确度阈值，将所述文本分类训练模型确定为预设的文本分类模型。
根据权利要求11所述的计算机设备，其中，所述数据类型包括姓名数据，所述根据所述数据类型对应的预设文本规则判断所述数据类型对应的数据内容是否满足所述数据类型对应的预设文本规则的步骤包括：

判断所述姓名数据对应的数据内容是否全为中文字符或者所述姓名数据对应的数据内容是否全为英文字符；

若所述姓名数据对应的数据内容全为中文字符或者所述姓名数据对应的数据内容全为英文字符，确定所述姓名数据对应的数据内容满足所述数据类型对应的预设文本规则。
根据权利要求11所述的计算机设备，其中，所述获取与所述数据类型对应的预设文本规则，判断所述数据类型对应的数据内容是否满足所述数据类型对应的预设文本规则的步骤之后还包括：

若所述数据类型对应的数据内容不满足所述数据类型对应的预设文本规则，生成错误警告信息。
根据权利要求12所述的计算机设备，其中，所述预设算法为TF-IDF算法。
根据权利要求11所述的计算机设备，其中，所述预设的文本分类模型通过卷积神经网络得到，所述卷积神经网络包括卷积层、线性整流层、池化层以及全连接层。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行以下步骤：

对待识别图片进行识别，以获取所述待识别图片对应的文本数据；

根据预设的文本分类模型对所述文本数据进行分类，以得出文本数据对应的分类数据；

获取所述文本数据对应的分类数据对应的数据类型，以及所述数据类型对应的数据内容，所述数据类型对应存在唯一的预设文本规则；

根据所述数据类型对应的预设文本规则判断所述数据类型对应的数据内容是否满足所述数据类型对应的预设文本规则；

若所述数据类型对应的数据内容满足所述数据类型对应的预设文本规则，确定所述文本数据对应的分类数据满足预设文本规则，并储存所述文本数据对应的分类数据。
根据权利要求18所述的计算机可读存储介质，其中，所述根据预设的文本分类模型对所述文本数据进行分类，以得出文本数据对应的分类数据的步骤包括：

根据预设算法从所述文本数据中提取文本特征；

根据预设的特征向量工具将所述文本特征转换为特征向量；

将所述特征向量作为预设的文本分类模型的输入参数，以得出文本数据对应的分类数据。
根据权利要求18所述的计算机可读存储介质，其中，所述根据预设的文本分类模型对所述文本数据进行分类，以得出文本数据对应的分类数据的步骤之前还包括：

获取用于训练文本分类训练模型的训练数据，以及获取所述训练数据对应的数据标签；

将所述训练数据作为所述文本分类训练模型的输入参数，以得出所述训练数据对应的分类数据，并根据所述训练数据对应的数据标签判断所述训练数据对应的分类数据准确度是否大于预设的准确度阈值；

若所述训练数据对应的分类数据准确度大于预设的准确度阈值，将所述文本分类训练模型确定为预设的文本分类模型。