WO2021000411A1

WO2021000411A1 - 基于神经网络的文档分类方法、装置、设备及存储介质

Info

Publication number: WO2021000411A1
Application number: PCT/CN2019/103450
Authority: WO
Inventors: 王健宗; 回艳菲; 韩茂琨
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-07-04
Filing date: 2019-08-29
Publication date: 2021-01-07
Also published as: CN110532448A; CN110532448B

Abstract

一种基于神经网络的文档分类方法、装置、设备及存储介质，涉及人工智能图像处理技术领域。该方法包括：接收第一页面图像和第二页面图像（201）；调用第一卷积神经网络和第二卷积神经网络，分别提取文本特征和图像特征（202）；拼合文本特征和图像特征生成文档混合特征（203）；调用多层感知器并输入文档混合特征，以获取输出的预测值（204）；并基于预测值判断第一页面图像和第二页面图像是否属于同一文档（205）。该方法采用两个卷积神经网络和一个多层感知器相结合的形式，综合了扫描文本图像中的文本特征和图像特征两个方面，能够对大批量的文档图像进行自动分类，使归类的过程更加合理高效，提升了分类效率，并在准确性与一致性两项性能上都能够有明显提升。

Description

基于神经网络的文档分类方法、装置、设备及存储介质

【交叉引用】

本申请以2019年7月4日提交的申请号为2019105974313，名称为“基于神经网络的文档分类方法、装置、设备及存储介质”的中国发明专利申请为基础，并要求其优先权。

【技术领域】

本申请涉及人工智能图像处理技术领域，特别是一种基于神经网络的文档分类方法、装置、设备及存储介质。

【背景技术】

近年来随着办公自动化技术的发展，在越来越多的场景中人们期望将纸质文档转化为便于处理的电子图像，以利于数据的传输、分发、存档和查看。

现有技术中生成纸质文档的电子图像的最常见方式是对纸质文档进行扫描而生成。但当纸质文档被转化为文档图像后，会缺乏文档的归类信息，如何对各种无特殊标记的文档图像进行自动化分类、归档和分发是一个较为困难的问题。若是单纯依靠用户操作计算机设备为其添加分类凭据标识，整个过程耗时较长，尤其是若短时间内要分类大量的文档图像，依靠人工操作的解决方法需要耗费大量的人力。

【发明内容】

本申请实施例所要解决的技术问题是，提供一种基于神经网络的文档分类方法、装置、设备及存储介质，对大批量的文档图像进行自动分类，并提升分类的效率和准确度。

为了解决上述技术问题，本申请实施例提供一种基于神经网络的文档分类方法，采用了如下所述的技术方案：

一种基于神经网络的文档分类方法，包括：

接收来源于文档的第一页面图像和第二页面图像；

调用预设的第一卷积神经网络和第二卷积神经网络，通过所述第一卷积神经网络提取所述第一页面图像和所述第二页面图像的文本特征，分别生成第一文本特征和第二文本特征，通过所述第二卷积神经网络提取所述第一页面图像和所述第二页面图像的图像特征，分别生成第一图像特征和第二图像特征；

拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征，生成文档混合特征；

调用预设的多层感知器，将所述文档混合特征输入所述多层感知器，以获取由所述多层感知器输出的预测值，对所述第一页面图像和所述第二页面图像是否为同一文档进行预测；

判断所述预测值属于第一分类结果还是第二分类结果；当所述预测值属于第一分类结果时，将所述第一页面图像和所述第二页面图像划分为同一文档；当所述预测值属于第二分类结果时，将所述第一页面图像和所述第二页面图像划分为不同文档。

为了解决上述技术问题，本申请实施例还提供一种基于神经网络的文档分类装置，采用了如下所述的技术方案：

一种基于神经网络的文档分类装置，包括：

接收模块，用于接收来源于文档的第一页面图像和第二页面图像；

特征提取模块，用于调用预设的第一卷积神经网络和第二卷积神经网络，通过所述第一卷积神经网络提取所述第一页面图像和所述第二页面图像的文本特征，分别生成第一文本特征和第二文本特征，通过所述第二卷积神经网络提取所述第一页面图像和所述第二页面图像的图像特征，分别生成第一图像特征和第二图像特征；

特征拼合模块，用于拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征，生成文档混合特征；

预测值获取模块；用于调用预设的多层感知器，将所述文档混合特征输入所述多层感知器，以获取由所述多层感知器输出的预测值，对所述第一页面图像和所述第二页面图像是否为同一文档进行预测；

分类判断模块；用于判断所述预测值属于第一分类结果还是第二分类结果；当所述预测值属于第一分类结果时，将所述第一页面图像和所述第二页面图像划分为同一文档；当所述预测值属于第二分类结果时，将所述第一页面图像和所述第二页面图像划分为不同文档。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器、处理器，以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述基于神经网络的文档分类方法的步骤。

为了解决上述技术问题，本申请实施例还提供一个或多个存储有计算机可读指令的非易失性可读存储介质，采用了如下所述的技术方案：

一个或多个存储有计算机可读指令的非易失性可读存储介质，所述计算机可读指令被处理器执行时实现如上述基于神经网络的文档分类方法的步骤。

本申请的一个或多个实施例的细节在下面的附图和描述中提出，本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。

【附图说明】

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例可以应用于其中的示例性系统架构图；

图2为本申请实施例中所述基于神经网络的文档分类方法的一个实施例的流程图；

图3为本申请实施例中所述基于神经网络的文档分类装置的一个实施例的结构示意图；

图4为本申请实施例中计算机设备的一个实施例的结构示意图。

【具体实施方式】

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“包括”、“包含”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。在本申请的权利要求书、说明书以及说明书附图中的术语，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来，而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请的方案，下面将结合本申请实施例中的相关附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、 MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于神经网络的文档分类方法一般由服务器/终端设备执行，相应地，基于神经网络的文档分类装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了本申请实施例中所述基于神经网络的文档分类方法的一个实施例的流程图。所述基于神经网络的文档分类方法，包括以下步骤：

步骤201：接收来源于文档的第一页面图像和第二页面图像。

本申请中的基于神经网络的文档分类方法，用于对由文档扫描出或其他方式获得的页面图像进行识别区分，该方法的实施过程中，首先通过确认待识别的两张页面的图像是否来源于同一个文档，然后逐步应用此方法对多个文档的所有页面图像进行识别区分，以将其中分别判断为属于同一个文档的页面图像归类在一起，从而最终能实现对多个文档的所有页面图像的区分和分类。

本申请的一些实施例中，所述步骤201具体包括：接收待分类的文档的有序图像流，从所述有序图像流中提取出相邻页面作为所述第一页面图像和所述第二页面图像。

用户平常对将纸质文件进行保存时，会将纸质文件扫描成页面图像后，再以电子文档的形式进行保存。在此过程中，按文件扫描顺序和页面顺序依次扫描的关于多个文件的若干张页面图像作为一个有序的图像流到达文档管理系统。在对有序图像流进行归类时，进行识别的图像应为所述有序图像流中表示相邻页面的两个图像，如此才能实现对有序图像流实现有效归类。

其中，所述第一页面图像和所述第二页面图像即为所述有序图像流中的相邻页面，通过逐次提取有序图像流中的相邻页面作为第一页面图像和第二页面图像，并应用本申请中的所述方法进行识别区分，以逐步实现对整个有序图像流中页面的文档归类，

而从有序图像流中的第一个页面图像到最后一个页面图像进行相邻页面的依次识别，可以更高效有序地完成对文档的所有页面图像的识别。

步骤202：调用预设的第一卷积神经网络和第二卷积神经网络，通过所述第一卷积神经网络提取所述第一页面图像和所述第二页面图像的文本特征，分别生成第一文本特征和第二文本特征，通过所述第二卷积神经网络提取所述第一页面图像和所述第二页面图像的图像特征，分别生成第一图像特征和第二图像特征。

所述第一卷积神经网络和所述第二神经网络之间相互独立，所述第一卷积神经网络为基于文本数据进行分析的卷积神经网络，所述第二卷积神经网络为基于图像数据进行分析的卷积神经网络。

具体地，所述第一卷积神经网络可以利用OCR(Optical Character Recognition，光学字符识别)处理过的文档图像中的语义信息来进行分析，实现对文档图像的文档归类；所述第二卷积神经网络则可以对文档图像中是否包含标题或表头等标识进行判断，若有则判断是进入了一篇新的文档，以此为界限进行文档归类。

但如果两篇相邻文档都是将关于图像处理的内容，其内容的语义信息可能十分相近，仅通过语义信息便难以将两篇文档区分开，而若忽略文章的语义信息内容，仅仅通过图像表现的形式来进行区分，准确率会非常低，因此单独使用第一卷积神经网络或第二卷积神经网络难以满足准确分类的需求。

此步骤202中，我们先通过预设的第一卷积神经网络和第二卷积神经网络分别提取两个页面图像的文本特征和图像特征以供后续步骤进一步处理。

本申请的一些实施例中，在所述步骤202之前，所述基于神经网络的文档分类方法还包括：

构建所述第一卷积神经网络的模型，并对所述第一卷积神经网络的模型进行训练；

构建所述第二卷积神经网络的模型，并对所述第二卷积神经网络的模型进行训练。

通过选取两种卷积神经网络，并分别对两者的模型结构进行配置和优化，使最终构建的两个卷积神经网络能够更好地适用于本申请中所应用的方法。构建好我们所需的第一卷积神经网络和第二卷积神经网络的模型后，通过输入相同的训练数据对两个模型进行训练，使第一卷积神经网络和第二卷积神经网络能适应关于文档图像归类的相关执行步骤。在训练过程中或训练完成后，还可以通过输入测试数据对两个模型进行测试，以判断两个模型是否已较好地适应训练的要求。

所述第一卷积神经网络和所述第二神经网络的模型的输入分别为表示文本特征和图像特征的向量，输出则可看作一个参数向量与输入的向量的数量积，参数向量可视作一组决定每个输入的向量如何影响最终输出的数量积的权重。对模型进行训练的主要目的，便是得到第一卷积神经网络和第二卷积神经网络的模型中参数向量所表示的符合本申请中二分类场景的权重/权重参数。权重参数即是控制模型行为的值。

在本申请实施例的一种优选实施方式中，所述构建所述第一卷积神经网络的模型，并对所述第一卷积神经网络的模型进行训练的步骤包括：

配置初始第一卷积神经网络模型，为其结构依次设置嵌入层、卷积层、全连接层、dropout(随机失活)层和用于二分类的预测层；

将训练数据输入到配置好的所述初始第一卷积神经网络模型进行初始训练；

对初始训练后的所述初始第一卷积神经网络模型进行剪枝，删除其末端的预测层。

其中，所述第一卷积神经网络模型选用的网络结构较为简单。具体地，所述嵌入层为一个300维的嵌入层；所述卷积层为连接有350个单元的一维卷积层，其只使用了一种尺寸大小的卷积内核(大小为3*3)；所述全连接层为一个由256个神经单元组成的全连接层，其激活函数采用ReLU函数；所述dropout 层用于将隐含层的部分权重或输出随机归零，降低节点间的相互依赖性，实现神经网络的正则化，降低结构风险，其概率为0.5；所述预测层为一个用于进行二分类的预测层，其激活函数采用sigmoid函数。所述第一卷积神经网络模型的输入为对扫描图像进行OCR处理的结果。

通过上述步骤构建好第一卷积神经网络的模型且训练好后，再删除位于该模型中最后一层的预测层进行剪枝。通过剪枝后生成的第一卷积神经网络中最后一层全连接层所输出的即是关于文档页面图像的文本特征。

在本申请实施例的一种优选实施方式中，所述构建所述第二卷积神经网络的模型，并对所述第二卷积神经网络的模型进行训练的步骤包括：

采用VGG16卷积神经网络模型作为所述第二卷积神经网络的初始模型进行配置；其中，所述VGG16卷积神经网络模型的末端包括依次设置的一个全连接层和一个预测层；

预训所述VGG16卷积神经网络模型并对其执行初始化；

删除位于所述VGG16卷积神经网络模型最后一层的预测层，并在所述VGG16卷积神经网络模型末端的全连接层之后增加一个新的全连接层和一个用于二分类的预测层以获得中间模型；

将所述训练数据输入到所述中间模型中进行初始训练，并对所述中间模型进行剪枝，删除所述中间模型末端用于二分类的预测层。

在对于神经网络的模型进行训练时，若模型太复杂难以优化，或者任务非常困难，直接训练模型以解决特定任务的难度太大，便可以通过训练一个较简单的模型来求解问题，使模型更复杂有效后，训练该模型解决一个简化的问题，然后转移到最后的问题。这种在直接训练目标模型求解目标问题之前，训练简单模型求解简化问题的方法统称为预训练。

其中，所述VGG16卷积神经网络中的卷积核大小为3*3，且应用了最大池化方法。通过根据fine-tuning方法预训得到的权重参数对VGG16卷积神经网络模型进行初始化，可以使该模型能适应文档图像归类方法中特定的数据类型和分类步骤。该模型的最后两层结构依次为一个全连接层和一个预测层。

通过上述步骤构建好第二卷积神经网络的初始模型且训练好后，再删除该初始模型中位于其最后一层的预测层，固定模型中的所有权重参数，然后在初始模型末端的全连接层后增加一个新的全连接层和一个用于二分类的预测层以获得中间模型，并重新输入训练数据训练中间模型，之后删除中间模型末端的预测层对其进行剪枝，完成剪枝后生成的第二卷积神经网络的模型，位其最后一层的便是新的全连接层，该全连接层所输出的即是关于文档页面图像的图像特征。通过上述步骤增加在初始模型末端的全连接层和预测层，该全连接层为包含256个神经元的全连接层，该预测层为用于进行二分类的预测层。

其中，删除最后一层预测层后，固定初始模型中所有权重参数的作用是保证模型的性能，节省训练的时间；而预训的作用则是加速初始模型的收敛，节省训练时间。

步骤203：拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征，生成文档混合特征。

在本申请的一些实施例中，所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征均表示为特征向量，一般具体为256维的特征向量。通过拼合文本特征和图像特征，将这四个经第一卷积神经网络和第二卷积神经网络后产生的特征向量连接在一起形成一个特征向量，以表示包括文本特征和图像特征的混合特征。

在本申请实施例的具体实施方式中，所述步骤203包括：调用拼合规则，基于所述拼合规则规定的连接顺序拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征。

在一种优选实施方式中，在所述调用拼合规则的步骤之前，所述基于神经网络的文档分类方法还包括：

配置拼合规则，指定所述拼合规则中规定的连接顺序满足：所述第一文本特征和所述第二文本特征之间连接的前后顺序，与所述第一图像特征和所述第二图像特征之间连接的前后顺序一致；所述第一文本特征和所述第二文本特征两个文本特征与所述第一图像特征和所述第二图像特征两个图像特征连接时的前后顺序任意设置。

对第一页面图像和第二页面图像的两个文本特征和两个图像特征一共四个特征拼合时按照预设的连接顺序拼合即可，如两个文本特征在前两个图像特征在后或两个文本特征在后两个图像特征在前均可；同时第一文本特征与第二文本特征连接时的顺序需和第一图像特征与第二图像特征连接时的顺序相同，即需保证在表示混合特征的特征向量中，第一页面图像的两个特征向量分别在第二页面图像的两个特征向量之前或之后。通过以上合理拼合规则，能提高拼合后的混合特征应用在多层感知器中时的预测效果，提升分类的准确度。

如在一个具体实施方式中，四个特征拼合时的连接顺序可以为：依次连接的第一文本特征、第二文本特征、第一图像特征和第二图像特征。

步骤204：调用预设的多层感知器，将所述文档混合特征输入所述多层感知器，以获取由所述多层感知器输出的预测值，对所述第一页面图像和所述第二页面图像是否为同一文档进行预测。

所述多层感知器是一种前向结构的人工神经网络，可以映射一组输入向量到一组输出向量，可以用于对输入的数据实现分类，本申请中主要用于二分类。

在本申请的一些实施例中，通过上述优选实施方式中的步骤获得了已完成剪枝的所述第一卷积神经网络和第二卷积神经网络的模型后，位于所述第一卷积神经网络和所述第二卷机神经网络的模型最后一层的均是一个全连接层，将这两个全连接层连接至所述多层感知器的模型上，由此将第一卷积神经网络、第二卷积神经网络和多层感知器构成了一个新的神经网络，对其重新进行训练，更新多层感知机模型中的权重参数。

剪枝前的第一卷积神经网络模型和第二卷积神经网络模型，以及剪枝后与多层感知器拼合而成的神经网络模型均需要进行训练的原因是：若只在剪枝后进行训练，由于模型的结构比较复杂参数较多，很有可能找不到最优的参数，梯度下降求解参数时很容易陷入局部最优，使所花费的时间会更长。

在本申请实施例中，所述基于神经网络的文档分类方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收用户发出的接收来源于文档的第一页面图像和第二页面图像，和调用第一卷积神经网络、第二卷积神经网络和多层感知器的请求。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi(Wireless-Fidelity)连接、蓝牙连接、WiMAX(Worldwide Interoperability for Microwave Access)连接、Zigbee(低功耗局域网协议，又称紫峰协议)连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

步骤205：判断所述预测值属于第一分类结果还是第二分类结果；当所述预测值属于第一分类结果时，将所述第一页面图像和所述第二页面图像划分为同一文档；当所述预测值属于第二分类结果时，将所述第一页面图像和所述第二页面图像划分为不同文档。

判断预测值属于第一分类结果还是第二分类结果，即判断输出的预测值为预设的判定值中代表所述第一页面图像和所述第二页面图像属于同一文档的值，还是为预设的判定值中代表所述第一页面图像和所述第二页面图像属于不同文档的值。若属于同一文档的值，便将两者划分为同一文档，若不属于同一文档的值，便将两者划分为不同文档。

在本申请实施例中，完成步骤205后，需继续使用本申请中的所述基于神经网络的文档分类方法对有序图像流中的其他文档页面逐次进行检测归类，以完成多个文档的所有页面图像的归类。

本申请实施例所述的基于神经网络的文档分类方法，采用两个卷积神经网络和一个多层感知器相结合的形式，综合了扫描文本图像中的文本特征和图像特征两个方面，能够对大批量的文档图像进行自动分类，使归类的过程更加合理高效，提升了分类效率，并在准确性与一致性两项性能上都能够有明显提升。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一个或多个非易失性可读取存储介质中，该计算机可读指令在被执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，图3示出了为本申请实施例中所述基于神经网络的文档分类装置的一个实施例的结构示意图。作为对上述图2所示方法的实现，本申请提供了一种基于神经网络的文档分类装置的一个实施例，该装置实施例与图2 所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的基于神经网络的文档分类装置包括：

接收模块301；用于接收来源于文档的第一页面图像和第二页面图像。

特征提取模块302；用于调用预设的第一卷积神经网络和第二卷积神经网络，通过所述第一卷积神经网络提取所述第一页面图像和所述第二页面图像的文本特征，分别生成第一文本特征和第二文本特征，通过所述第二卷积神经网络提取所述第一页面图像和所述第二页面图像的图像特征，分别生成第一图像特征和第二图像特征。

特征拼合模块303；用于拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征，生成文档混合特征。

预测值获取模块304；用于调用预设的多层感知器，将所述文档混合特征输入所述多层感知器，以获取由所述多层感知器输出的预测值，对所述第一页面图像和所述第二页面图像是否为同一文档进行预测；

分类判断模块305；用于判断所述预测值属于第一分类结果还是第二分类结果；当所述预测值属于第一分类结果时，将所述第一页面图像和所述第二页面图像划分为同一文档；当所述预测值属于第二分类结果时，将所述第一页面图像和所述第二页面图像划分为不同文档。

在本申请的一些实施例中，所述接收模块301还包括：图像提取子模块；所述图像提取子模块用于接收待分类文档的有序图像流，从所述有序图像流中提取出相邻页面作为所述第一页面图像和所述第二页面图像。

在本申请的一些实施例中，所述基于神经网络的文档分类装置还包括：模型设置模块。所述模型设置模块用于构建所述第一卷积神经网络的模型，并对所述第一卷积神经网络的模型进行训练，以及构建所述第二卷积神经网络的模型，并对所述第二卷积神经网络的模型进行训练。

在本申请的一些实施例的一种具体实施方式中，所述模型设置模块包括：第一模型构建子模块。所述第一模型构建子模块用于：配置初始第一卷积神经网络模型，为其结构依次设置嵌入层、卷积层、全连接层、dropout层和用于二分类的预测层；将训练数据输入到配置好的所述初始第一卷积神经网络模型进行初始训练；对初始训练后的所述初始第一卷积神经网络模型进行剪枝，删除其末端的预测层。

在本申请的一些实施例的一种具体实施方式中，所述模型设置模块还包括：第二模型构建子模块。所述第二模型构建子模块用于：采用VGG16卷积神经网络模型作为所述第二卷积神经网络的初始模型进行配置；其中，所述VGG16卷积神经网络模型的末端包括依次设置的一个全连接层和一个预测层；预训所述VGG16卷积神经网络模型并对其执行初始化；删除位于所述VGG16卷积神经网络模型最后一层的预测层，并在所述VGG16卷积神经网络模型末端的全连接层之后增加一个新的全连接层和一个用于二分类的预测层以获得中间模型；将所述训练数据输入到所述中间模型中进行初始训练，并对所述中间模型进行剪枝，删除所述中间模型末端用于二分类的预测层。

在本申请的一些实施例中，所述特征拼合模块303包括：规则调用拼合子模块。所述规则调用拼合子模块用于调用拼合规则，基于所述拼合规则规定的连接顺序拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征。

在本申请实施例的一种具体实施方式中，所述基于神经网络的文档分类装置还包括：拼合规则配置模块。所述拼合规则配置模块用于在调用拼合规则的步骤之前，配置拼合规则，指定所述拼合规则中规定的连接顺序满足：所述第一文本特征和所述第二文本特征之间连接的前后顺序，与所述第一图像特征和所述第二图像特征之间连接的前后顺序一致；所述第一文本特征和所述第二文本特征两个文本特征与所述第一图像特征和所述第二图像特征两个图像特征连接时的前后顺序任意设置。

本申请实施例所述的基于神经网络的文档分类装置，采用两个卷积神经网络和一个多层感知器相结合的形式，综合了扫描文本图像中的文本特征和图像特征两个方面，能够对大批量的文档图像进行自动分类，使归类的过程更加合理高效，提升了分类效率，并在准确性与一致性两项性能上都能够有明显提升。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是，图中仅示出了具有组件61-63的计算机设备6，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器61至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器61可以是所述计算机设备6的内部存储单元，例如该计算机设备6的硬盘或内存。在另一些实施例中，所述存储器61也可以是所述计算机设备6的外部存储设备，例如该计算机设备6上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中，所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件，例如基于神经网络的文档分类方法的计算机可读指令等。此外，所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器62在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中，所述处理器62用于运行所述存储器61中存储的计算机可读指令或者处理数据，例如运行所述基于神经网络的文档分类方法的计算机可读指令。

所述网络接口63可包括无线网络接口或有线网络接口，该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有基于神经网络的文档分类流程，所述基于神经网络的文档分类流程可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于神经网络的文档分类方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

在本申请所提供的上述实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

所述模块或组件可以是或者也可以不是物理上分开的，作为模块或组件显示的部件可以是或者也可以不是物理模块，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块或组件来实现本实施例方案的目的。

本申请不限于上述实施方式，以上所述是本申请的优选实施方式，该实施例仅用于说明本申请而不用于限制本申请的范围，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，其依然可以对前述各具体实施方式所记载的技术方案进行若干改进和修饰，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理应视为包括在本申请的保护范围之内。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，以及凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

一种基于神经网络的文档分类方法，其特征在于，包括：

接收来源于文档的第一页面图像和第二页面图像；

调用预设的第一卷积神经网络和第二卷积神经网络，通过所述第一卷积神经网络提取所述第一页面图像和所述第二页面图像的文本特征，分别生成第一文本特征和第二文本特征，通过所述第二卷积神经网络提取所述第一页面图像和所述第二页面图像的图像特征，分别生成第一图像特征和第二图像特征；

拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征，生成文档混合特征；

调用预设的多层感知器，将所述文档混合特征输入所述多层感知器，以获取由所述多层感知器输出的预测值，对所述第一页面图像和所述第二页面图像是否为同一文档进行预测；

判断所述预测值属于第一分类结果还是第二分类结果；当所述预测值属于第一分类结果时，将所述第一页面图像和所述第二页面图像划分为同一文档；当所述预测值属于第二分类结果时，将所述第一页面图像和所述第二页面图像划分为不同文档。
根据权利要求1所述的基于神经网络的文档分类方法，其特征在于，所述接收来源于文档的第一页面图像和第二页面图像的步骤包括：

接收待分类文档的有序图像流，从所述有序图像流中提取出相邻页面作为所述第一页面图像和所述第二页面图像。
根据权利要求1所述的基于神经网络的文档分类方法，其特征在于，在所述调用预设的第一卷积神经网络和第二卷积神经网络的步骤之前，所述方法还包括：

构建所述第一卷积神经网络的模型，并对所述第一卷积神经网络的模型进行训练；

构建所述第二卷积神经网络的模型，并对所述第二卷积神经网络的模型进行训练。
根据权利要求3所述的基于神经网络的文档分类方法，其特征在于，所述构建所述第一卷积神经网络的模型，并对所述第一卷积神经网络的模型进行训练的步骤包括：

配置初始第一卷积神经网络模型，为其结构依次设置嵌入层、卷积层、全连接层、dropout层和用于二分类的预测层；

将训练数据输入到配置好的所述初始第一卷积神经网络模型进行初始训练；

对初始训练后的所述初始第一卷积神经网络模型进行剪枝，删除其末端的预测层。
根据权利要求4所述的基于神经网络的文档分类方法，其特征在于，所述构建所述第二卷积神经网络的模型，并对所述第二卷积神经网络的模型进行训练的步骤包括：

采用VGG16卷积神经网络模型作为所述第二卷积神经网络的初始模型进行配置；其中，所述VGG16卷积神经网络模型的末端包括依次设置的一个全连接层和一个预测层；

预训所述VGG16卷积神经网络模型并对其执行初始化；

删除位于所述VGG16卷积神经网络模型最后一层的预测层，并在所述VGG16卷积神经网络模型末端的全连接层之后增加一个新的全连接层和一个用于二分类的预测层以获得中间模型；

将所述训练数据输入到所述中间模型中进行初始训练，并对所述中间模型进行剪枝，删除所述中间模型末端用于二分类的预测层。
根据权利要求1所述的基于神经网络的文档分类方法，其特征在于，所述拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征，生成文档混合特征的步骤包括：

调用拼合规则，基于所述拼合规则规定的连接顺序拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征。
根据权利要求6所述的基于神经网络的文档分类方法，其特征在于，在所述调用拼合规则的步骤之前，所述方法还包括：

配置拼合规则，指定所述拼合规则中规定的连接顺序满足：所述第一文本特征和所述第二文本特征之间连接的前后顺序，与所述第一图像特征和所述第二图像特征之间连接的前后顺序一致；所述第一文本特征和所述第二文本特征两个文本特征与所述第一图像特征和所述第二图像特征两个图像特征连接时的前后顺序任意设置。
一种基于神经网络的文档分类装置，其特征在于，包括：

接收模块，用于接收来源于文档的第一页面图像和第二页面图像；

特征提取模块，用于调用预设的第一卷积神经网络和第二卷积神经网络，通过所述第一卷积神经网络提取所述第一页面图像和所述第二页面图像的文本特征，分别生成第一文本特征和第二文本特征，通过所述第二卷积神经网络提取所述第一页面图像和所述第二页面图像的图像特征，分别生成第一图像特征和第二图像特征；

特征拼合模块，用于拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征，生成文档混合特征；

预测值获取模块；用于调用预设的多层感知器，将所述文档混合特征输入所述多层感知器，以获取由所述多层感知器输出的预测值，对所述第一页面图像和所述第二页面图像是否为同一文档进行预测；

分类判断模块；用于判断所述预测值属于第一分类结果还是第二分类结果；当所述预测值属于第一分类结果时，将所述第一页面图像和所述第二页面图像划分为同一文档；当所述预测值属于第二分类结果时，将所述第一页面图像和所述第二页面图像划分为不同文档。
根据权利要求8所述的基于神经网络的文档分类装置，其特征在于，所述接收模块还包括：

图像提取子模块，用于接收待分类文档的有序图像流，从所述有序图像流中提取出相邻页面作为所述第一页面图像和所述第二页面图像。
根据权利要求8所述的基于神经网络的文档分类装置，其特征在于，所述装置还包括：

模型设置模块，用于构建所述第一卷积神经网络的模型，并对所述第一卷积神经网络的模型进行训练，构建所述第二卷积神经网络的模型，并对所述第二卷积神经网络的模型进行训练.。
一种计算机设备，包括存储器、处理器，以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时，实现如下基于神经网络的文档分类方法的步骤：

接收来源于文档的第一页面图像和第二页面图像；

调用预设的第一卷积神经网络和第二卷积神经网络，通过所述第一卷积神经网络提取所述第一页面图像和所述第二页面图像的文本特征，分别生成第一文本特征和第二文本特征，通过所述第二卷积神经网络提取所述第一页面图像和所述第二页面图像的图像特征，分别生成第一图像特征和第二图像特征；

拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征，生成文档混合特征；

调用预设的多层感知器，将所述文档混合特征输入所述多层感知器，以获取由所述多层感知器输出的预测值，对所述第一页面图像和所述第二页面图像是否为同一文档进行预测；

判断所述预测值属于第一分类结果还是第二分类结果；当所述预测值属于第一分类结果时，将所述第一页面图像和所述第二页面图像划分为同一文档；当所述预测值属于第二分类结果时，将所述第一页面图像和所述第二页面图像划分为不同文档。
根据权利要求11所述的计算机设备，其特征在于，所述接收来源于文档的第一页面图像和第二页面图像的步骤包括：

接收待分类文档的有序图像流，从所述有序图像流中提取出相邻页面作为所述第一页面图像和所述第二页面图像。
根据权利要求11所述的计算机设备，其特征在于，在所述调用预设的第一卷积神经网络和第二卷积神经网络的步骤之前，还包括：

构建所述第一卷积神经网络的模型，并对所述第一卷积神经网络的模型进行训练；

构建所述第二卷积神经网络的模型，并对所述第二卷积神经网络的模型进行训练。
根据权利要求13所述的计算机设备，其特征在于，所述构建所述第一卷积神经网络的模型，并对所述第一卷积神经网络的模型进行训练的步骤包括：

配置初始第一卷积神经网络模型，为其结构依次设置嵌入层、卷积层、全连接层、dropout层和用于二分类的预测层；

将训练数据输入到配置好的所述初始第一卷积神经网络模型进行初始训练；

对初始训练后的所述初始第一卷积神经网络模型进行剪枝，删除其末端的预测层。
根据权利要求14所述的计算机设备，其特征在于，所述构建所述第二卷积神经网络的模型，并对所述第二卷积神经网络的模型进行训练的步骤包括：

采用VGG16卷积神经网络模型作为所述第二卷积神经网络的初始模型进行配置；其中，所述VGG16卷积神经网络模型的末端包括依次设置的一个全连接层和一个预测层；

预训所述VGG16卷积神经网络模型并对其执行初始化；

删除位于所述VGG16卷积神经网络模型最后一层的预测层，并在所述VGG16卷积神经网络模型末端的全连接层之后增加一个新的全连接层和一个用于二分类的预测层以获得中间模型；

将所述训练数据输入到所述中间模型中进行初始训练，并对所述中间模型进行剪枝，删除所述中间模型末端用于二分类的预测层。
一个或多个存储有计算机可读指令的非易失性可读存储介质，其特征在于，所述计算机可读指令被处理器执行时实现如下基于神经网络的文档分类方法的步骤：

接收来源于文档的第一页面图像和第二页面图像；

调用预设的第一卷积神经网络和第二卷积神经网络，通过所述第一卷积神经网络提取所述第一页面图像和所述第二页面图像的文本特征，分别生成第一文本特征和第二文本特征，通过所述第二卷积神经网络提取所述第一页面图像和所述第二页面图像的图像特征，分别生成第一图像特征和第二图像特征；

拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征，生成文档混合特征；

调用预设的多层感知器，将所述文档混合特征输入所述多层感知器，以获取由所述多层感知器输出的预测值，对所述第一页面图像和所述第二页面图像是否为同一文档进行预测；

判断所述预测值属于第一分类结果还是第二分类结果；当所述预测值属于第一分类结果时，将所述第一页面图像和所述第二页面图像划分为同一文档；当所述预测值属于第二分类结果时，将所述第一页面图像和所述第二页面图像划分为不同文档。
根据权利要求16所述的非易失性可读存储介质，其特征在于，所述接收来源于文档的第一页面图像和第二页面图像的步骤包括：

接收待分类文档的有序图像流，从所述有序图像流中提取出相邻页面作为所述第一页面图像和所述第二页面图像。
根据权利要求16所述的非易失性可读存储介质，其特征在于，在所述调用预设的第一卷积神经网络和第二卷积神经网络的步骤之前，还包括：

构建所述第一卷积神经网络的模型，并对所述第一卷积神经网络的模型进行训练；

构建所述第二卷积神经网络的模型，并对所述第二卷积神经网络的模型进行训练。
根据权利要求18所述的非易失性可读存储介质，其特征在于，所述构建所述第一卷积神经网络的模型，并对所述第一卷积神经网络的模型进行训练的步骤包括：

配置初始第一卷积神经网络模型，为其结构依次设置嵌入层、卷积层、全连接层、dropout层和用于二分类的预测层；

将训练数据输入到配置好的所述初始第一卷积神经网络模型进行初始训练；

对初始训练后的所述初始第一卷积神经网络模型进行剪枝，删除其末端的预测层。
根据权利要求19所述的非易失性可读存储介质，其特征在于，所述构建所述第二卷积神经网络的模型，并对所述第二卷积神经网络的模型进行训练的步骤包括：

采用VGG16卷积神经网络模型作为所述第二卷积神经网络的初始模型进行配置；其中，所述VGG16卷积神经网络模型的末端包括依次设置的一个全连接层和一个预测层；

预训所述VGG16卷积神经网络模型并对其执行初始化；

删除位于所述VGG16卷积神经网络模型最后一层的预测层，并在所述VGG16卷积神经网络模型末端的全连接层之后增加一个新的全连接层和一个用于二分类的预测层以获得中间模型；

将所述训练数据输入到所述中间模型中进行初始训练，并对所述中间模型进行剪枝，删除所述中间模型末端用于二分类的预测层。