WO2022105569A1

WO2022105569A1 - 页面方向识别方法、装置、设备及计算机可读存储介质

Info

Publication number: WO2022105569A1
Application number: PCT/CN2021/127179
Authority: WO
Inventors: 高超; 徐国强
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2020-11-17
Filing date: 2021-10-28
Publication date: 2022-05-27
Also published as: CN112101317A; CN112101317B

Abstract

本申请涉及图像处理技术领域，公开了一种页面方向识别方法、装置、设备及计算机可读存储介质，该方法包括：确定待进行图像检测的目标图像，根据预设的裁剪方式对所述目标图像进行划分，以获取多个图像块；基于预设的卷积神经网络模型对各所述图像块进行训练，基于所述训练的训练结果确定各所述图像块中是否具有文字和文字方向的目标图像块；若在各所述图像块中存在多个具有文字和文字方向的目标图像块，则对各所述目标图像块的文字方向进行分类汇总，基于所述分类汇总的分类汇总结果确定目标文字方向，并将所述目标文字方向作为所述目标图像的页面方向。本申请提高了对图像页面方向识别的准确性。

Description

页面方向识别方法、装置、设备及计算机可读存储介质

本申请要求于2020年11月17日在中国专利局提交的、申请号为202011282095.2、申请名称为“页面方向识别方法、装置、设备及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及图像处理技术领域，尤其涉及一种页面方向识别方法、装置、设备及计算机可读存储介质。

背景技术

OCR（Optical Character Recognition,光学字符识别）技术能够将图像中印刷文字转换为计算机可处理的文本格式，被广泛应用在数据录入、校验比对等场景中，成为国民经济各行业信息化和数字化应用的关键环节。OCR主要解决图片中文字的位置检测和内容识别两大问题。而待识别图片由于采集方式的不同（例如拍照、扫描），可能会造成页面方向发生90、180或270度方向的旋转，直接输入到OCR系统中往往不能直接工作，通常需要检测图片页面方向并进行旋转校正。传统的页面方向通常是利用形态学、线检测、投影等方法，估计出文本行的位置和方向，进行页面方向的判断，但是有可能会将图片180度转反，另外易受页面外背景纹理线条的干扰。虽然使用深度学习技术，可以对整图直接分类，预测出该图片的方向，但是模型对训练数据量要求较大，同样易受背景纹理的干扰，鲁棒性不高。

技术问题

本申请的主要目的在于提供一种页面方向识别方法、装置、设备及计算机可读存储介质，旨在解决如何提高对图像页面方向识别的准确性的技术问题。

技术解决方案

为解决上述技术问题，本申请实施例采用的技术方案是：

本申请实施例的第一方面提供了一种页面方向识别方法，其中，包括：

确定待进行图像检测的目标图像，根据预设的裁剪方式对所述目标图像进行划分，以获取多个图像块；

基于预设的卷积神经网络模型对各所述图像块进行训练，基于所述训练的训练结果确定各所述图像块中是否具有文字和文字方向的目标图像块；

若在各所述图像块中存在多个具有文字和文字方向的目标图像块，则对各所述目标图像块的文字方向进行分类汇总，基于所述分类汇总的分类汇总结果确定目标文字方向，并将所述目标文字方向作为所述目标图像的页面方向。

本申请实施例的第二方面提供了一种页面方向识别装置，其中，包括：

划分模块，用于确定待进行图像检测的目标图像，根据预设的裁剪方式对所述目标图像进行划分，以获取多个图像块；

确定模块，用于基于预设的卷积神经网络模型对各所述图像块进行训练，基于所述训练的训练结果确定各所述图像块中是否具有文字和文字方向的目标图像块；

分类汇总模块，用于若在各所述图像块中存在多个具有文字和文字方向的目标图像块，则对各所述目标图像块的文字方向进行分类汇总，基于所述分类汇总的分类汇总结果确定目标文字方向，并将所述目标文字方向作为所述目标图像的页面方向。

本申请实施例的第三方面提供了一种页面方向识别设备；

所述页面方向识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中：

所述计算机程序被所述处理器执行时实现如下步骤：

本申请实施例的第四方面提供了一种计算机可读存储介质；

所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

有益效果

本申请的有益效果在于：

避免了现有技术中估计目标图像的页面方向不准确的现象发生，提高了对图像页面方向识别的准确性。

附图说明

图1是本申请实施例方案涉及的硬件运行环境的页面方向识别设备结构示意图；

图2为本申请页面方向识别方法第一实施例的流程示意图；

图3为本申请页面方向识别装置的功能模块示意图。

本申请目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

本发明的实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1所示，图1是本申请实施例方案涉及的硬件运行环境的页面方向识别设备结构示意图。

如图1所示，该页面方向识别设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1005可以是高速RAM存储器，也可以是稳定的存储器（non-volatile memory），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，页面方向识别设备还可以包括摄像头、RF（Radio Frequency，射频）电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度。当然，页面方向识别设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的页面方向识别设备结构并不构成对页面方向识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及页面方向识别程序。

在图1所示的页面方向识别设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端（用户端），与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的页面方向识别程序，并执行本申请实施例提供的页面方向识别方法。

参照图2，本申请提供一种页面方向识别方法，在页面方向识别方法一实施例中，页面方向识别方法包括以下步骤：

步骤S10，确定待进行图像检测的目标图像，根据预设的裁剪方式对所述目标图像进行划分，以获取多个图像块；

在本实施例中，通过将待进行图像文档页面检测的目标图像切割成若干个patch（小块），即图像块，并通过采用深度学习中的卷积神经网络模型对每个图像块进行预测，确定各个图像块中是否存在文字，若存在，则继续确定文字的方向，以获取各个图像块的预测结果，再对各个预测结果进行汇总融合，从而得到目标图像中整个文档页面的方向，相对于现有技术中采用OCR技术只能识别文字，页面方向需要重新校正，其图像页面方向识别的准确性更高。因此，需要先确定待进行图像检测的目标图像，而确定目标图像的方式可以是获取用户输入的图像，并将其作为目标图像，也可以是获取其它终端发送的图像，并将其作为目标图像，还可以是将进行图像检测的终端自身产生的图像作为目标图像，具体获取目标图像的方式在此不做限制，可以根据用户的需求进行设置。

在获取到目标图像后，需要采用预设的裁剪方式对目标图像进行划分，以获取多个图像块，而且需要说明的是，为了保障各个图像块的连贯性，在对目标图像进行划分时，需要确保各个图像块中相邻图像块中间存在有一部分重叠，即两个相邻图像块之间存在有一部分区域完全相同，而预设的裁剪方式可以是先确定目标图像的原点，如以目标图像的左上角为原点，并基于此原点构建二维坐标系，其二维坐标系中的x轴和y轴可以是基于目标图像的边缘长度和边缘宽度确定。再对目标图像进行划分，如划分出目标图像中所有[i*stride, j*stride, i*stride + size, j*stride + size]的区域（这4个数分别表示patch左上和右下的x、y坐标），其中，其中i、j为正整数，并且保证i*stride + size <= width（宽度）, j*stride + size <= height（高度）。而在本实施例中，优选地，可以设置stride=192，size=256。

步骤S20，基于预设的卷积神经网络模型对各所述图像块进行训练，基于所述训练的训练结果确定各所述图像块中是否具有文字和文字方向的目标图像块；

当获取到多个图像块后，可以采用预设的卷积神经网络模型对各个图像块进行训练，即将各个图像块组合为一个批次，输入至卷积神经网络模型进行训练，以便根据训练结果确定各个图像块中具有文字的目标图像块和各个目标图像块对应的文字方向。也就是通过卷积神经网络模型对各个图像块进行预测，可以根据预测结果确定各个图像块中是否包含文字，若包含文字，则基于预测结果确定文字的方向。而检测各个图像块中是否包含文字的方式可以是通过卷积神经网络确定每个图像块的整体面积，并检测各个图像块中的疑似文字区域所占面积，再检测疑似文字区域所占面积和整体面积的比例，若存在遍历的图像块的比例大于预设阈值（用户提前设置的任意阈值），则确定该遍历的图像块中存在文字，若比例小于或等于预设阈值，则确定该遍历的图像块中不存在文字。并在确定遍历的图像块中存在文字后，可以根据卷积神经网络模型的预测方向来确定遍历的图像块中文字的方向，因此需要先确定卷积神经网络模型可以预测的方向，即根据卷积神经网络模型训练的训练结果确定遍历的图像块中携带的标签结果，如0,1,2,3等，再将获取的标签结果和预设的标签方向对照表进行匹配，该标签方向对照表中设置有各个标签对应的方向，如0对应0度，1对应90度，2对应180度，3对应270度等。再根据匹配结果来确定遍历的图像块中文字的文字方向，如卷积神经网络模型可以预测4个方向，分别用0,1,2,3来表示0度，90度，180度和270度，也就是若卷积神经网络模型输出的标签结果为1，则可以确定该图像块中文字方向为90度。

步骤S30，若在各所述图像块中存在多个具有文字和文字方向的目标图像块，则对各所述目标图像块的文字方向进行分类汇总，基于所述分类汇总的分类汇总结果确定目标文字方向，并将所述目标文字方向作为所述目标图像的页面方向。

当经过判断发现在各个图像块中存在多个具有文字和文字方向的目标图像块，则获取各个目标图像块对应的文字方向，并对这些文字方向进行分类汇总，比如将0度对应的目标图像块进行汇总，将90度对应的目标图像块进行汇总，将180度对应的目标图像块进行汇总，将270度对应的目标图像块进行汇总，并确定哪个文字方向对应的目标图像块最多，则将此文字方向作为目标文字方向，如将90度对应的目标图像块最多，则可以将90度作为目标文字方向，也就是目标图像的页面方向。在本提案中，通过将目标图像划分为多个图像块，再分别对各个图像块进行检测，确定是否包含文字，若包含，则确定该文字的文字方向，并进行分类汇总，以确定目标图像的页面方向。

在本实施例中，通过确定待进行图像检测的目标图像，根据预设的裁剪方式对所述目标图像进行划分，以获取多个图像块；基于预设的卷积神经网络模型对各所述图像块进行训练，基于所述训练的训练结果确定各所述图像块中是否具有文字和文字方向的目标图像块；若在各所述图像块中存在多个具有文字和文字方向的目标图像块，则对各所述目标图像块的文字方向进行分类汇总，基于所述分类汇总的分类汇总结果确定目标文字方向，并将所述目标文字方向作为所述目标图像的页面方向。通过根据预设的裁剪方式对目标图像进行划分，得到多个图像块，并根据卷积神经网络模型对各个图像块进行训练，以确定目标图像块，并对各个目标图像块的文字方向进行分类汇总，根据分类汇总结果确定目标图像的页面方向，从而避免了现有技术中估计目标图像的页面方向不准确的现象发生，提高了对图像页面方向识别的准确性。

进一步地，在本申请第一实施例的基础上，提出了本申请页面方向识别方法的第二实施例，本实施例是本申请第一实施例的步骤S20，基于所述训练的训练结果确定各所述图像块中是否具有文字和文字方向的目标图像块的步骤的细化，包括：

步骤a，基于所述训练的训练结果遍历各所述图像块，获取遍历的图像块的整体面积和所述遍历的图像块中疑似文字区域所占面积；

在本实施例中，当经过卷积神经网络模型对各个图像块进行训练，获取到训练结果后，可以根据训练结果来遍历各个图像块，对遍历的图像块，确定其整体面积和遍历的图像块中疑似文字区域的面积，即疑似文字区域所占面积。

步骤b，计算所述疑似文字区域所占面积和整体面积的比例值，并判断所述比例值是否大于预设阈值；

当获取到遍历的图像块的整体面积和疑似文字区域所占面积后，计算疑似文字区域所占面和整体面积的比例值，并判断比例值是否大于预设阈值，基于不同的判断结果执行不同的操作。其中，预设阈值可以是用户提前设置的任意阈值。

步骤c，若所述比例值大于预设阈值，则确定遍历的图像块中具有文字，根据所述训练结果确定所述遍历的图像块中文字的文字方向，并将所述遍历的图像块作为目标图像块。

当经过判断发现比例值大于预设阈值，则可以确定遍历的图像块中具有文字，若比例值小于或等于预设阈值，则确定遍历的图像块中不具有文字。若遍历的图像块中具有文字，则可以根据训练结果来确定遍历的图像块中文字的文字方向，也就是根据卷积神经网络模型的预测方向来确定遍历的图像块中文字的文字方向，此时也可以将遍历的图像块作为目标图像块。

在本实例例中，通过根据训练结果确定遍历的图像块中疑似文字区域所占面积和整体面积的比例值，并在比例值大于预设阈值时，确定遍历的图像块中具有文字，再根据训练结果确定文字发方向，并将遍历的图像块作为目标图像块，从而保障了获取的目标图像块的准确性。

具体地，根据所述训练结果确定所述遍历的图像块中文字的文字方向的步骤，包括：

步骤d，根据所述训练结果确定所述遍历的图像块对应的标签结果，并将所述标签结果和预设的标签方向对照表进行匹配，根据所述匹配结果确定所述遍历的图像块中文字的文字方向。

在确定遍历的图像块中文字的文字方向时，需要先确定卷积神经网络模型可以预测的方向，即根据卷积神经网络模型训练的训练结果确定遍历的图像块中携带的标签结果，如0,1,2,3等，再将获取的标签结果和预设的标签方向对照表进行匹配，该标签方向对照表中设置有各个标签对应的方向，如0对应0度，1对应90度，2对应180度，3对应270度等。再根据匹配结果来确定遍历的图像块中文字的文字方向，如卷积神经网络模型可以预测4个方向，分别用0,1,2,3来表示0度，90度，180度和270度，也就是若卷积神经网络模型输出的标签结果为1，则可以确定该图像块中文字方向为90度。

在本实施例中，通过根据训练结果确定遍历的图像块对应的标签结果，并在标签结果和标签对照表匹配时，根据匹配结果确定文字方向，从而保障了获取到的文字方向的准确性。

进一步地，基于预设的卷积神经网络模型对各所述图像块进行训练的步骤之前，包括：

步骤e，将预设映射对照表中的多个初始图像块输入至原始的卷积神经网络模型进行训练，以获取各所述初始图像块的文本信息，并将各所述文本信息和所述预设映射对照表中各所述初始图像块对应的标注信息进行比对；

在采用预设的卷积神经网络模型对各个图像块进行训练前，需要先获取常规的卷积神经网络模型，即原始的卷积神经网络模型，并通过提前对原始的卷积神经网络模型进行训练优化，如采用梯度下降法，直至模型收敛，来获取预设的卷积神经网络模型。也就是可以先通过人工标记的方式确定各个初始图像块的标注信息，如是否具有文本内容，以及文本内容的文本方向等，并将各个初始图像块及标注信息进行汇总，得到预设映射对照表。并在获取到预设映射对照表后，可以根据此预设映射对照表对原始的卷积神经网络模型进行模型优化，得到卷积神经网络模型。即可以提取预设映射对照表中的多个初始图像块，并将各个初始图像块作为一个批次输入至原始的卷积神经网络模型中进行训练，并根据训练结果确定各个初始图像块的文本信息，即根据训练结果确定各个初始图像块中是否包含文本内容，若包含，则确定各个初始图像块中文本内容的文本方向。并将各个文本信息和预设映射对照表中各个初始图像块对应的标注信息进行对比，也就是将每个初始图像块的文本信息（包括是否具有文本内容，文本方向）和各个初始图像块在预设映射对照表中的标注信息（包括是否具有文本内容，文本方向）进行比对。

步骤f，若比对失败，则确定各所述文本信息和各所述标注信息的误差，并根据所述误差对所述原始的卷积神经网络模型进行优化，以获取预设的卷积神经网络模型。

若存在不一致（即比对失败），即若存在某个初始图像块的文本信息和标注信息不同，即需要确定文本信息和标注信息的误差，并根据误差对原始的卷积神经网络模型进行模型优化，即对模型参数进行调整。并再次采用相同的方式对原始的卷积神经网络模型进行模型优化，直至模型收敛或误差极小，并将此时的卷积神经网络模型作为预设的卷积神经网络模型。

在本实施例中，通过根据各个初始图像块对原始的卷积神经网络模型进行训练，并在各个初始图像块的文本信息和预设映射对照表中的标注信息比对失败时，确定其误差，根据误差对原始的卷积神经网络模型进行优化，以获取预设的卷积神经网络模型，从而保障了获取到的预设的卷积神经网络模型的有效性。

进一步地，对各所述目标图像块的文字方向进行分类汇总，基于所述分类汇总的分类汇总结果确定目标文字方向的步骤，包括：

步骤g，对各所述目标图像块的文字方向进行分类汇总，以获取多个初始文字方向，并确定各所述初始文字方向对应的目标图像块数量，在各所述初始文字方向中将目标图像块数量最多的初始文字方向作为目标文字方向。

在本实施例中，当获取到各个目标图像块的文字方向后，需要对这些文字方向进行分类汇总，以获取多个初始文字方向，如0度，90度，180度和270度等。比如将0度对应的目标图像块进行汇总，将90度对应的目标图像块进行汇总，将180度对应的目标图像块进行汇总，将270度对应的目标图像块进行汇总，并确定哪个文字方向对应的目标图像块最多，则将此文字方向作为目标文字方向，即确定各个文字方对应的目标图像块和目标图像块的数量（即目标图像块数量），并在各个初始文字方向中将目标图像块数量最多的初始文字方向作为目标文字方向。如将90度对应的目标图像块最多，则可以将90度作为目标文字方向，也就是目标图像的页面方向。

在本实施例中，通过对各个目标图像块的文字方向进行分类汇总，得到多个初始文字方向，并在各个初始文字方向中将目标图像块数量最多的初始文字方向作为目标文字方向，从而保障了获取到的目标文字方向的准确性。

进一步地，根据预设的裁剪方式对所述目标图像进行划分，以获取多个图像块的步骤，包括：

步骤h，确定所述目标图像中的原点，基于所述原点和预设的裁剪方式确定待划分的图像块的长度和宽度，根据所述长度和所述宽度对所述目标图像进行划分，以获取多个图像块。

在本实施例中，在根据预设的裁剪方式对目标图像进行划分时，需要先确定设置在目标图像中的原点，即构建坐标系的坐标原点，其中，原点的位置可以基于用户的需求自行进行设置，在本提案中，优选以目标图像的四个顶点位置中的某一个作为目标图像的原点，如设置目标图像的左上角为原点。并在确定原点后，可以根据目标图像的初始长度和初始宽度创建二维坐标系，以目标图像的边构建x轴和y轴，以完成二维坐标系的构建，并在二维坐标系构建完成后，需要确定待划分的图像块的长度和宽度，以及划分起点坐标，再根据图像块的长度、宽度和起点坐标在二维坐标系中确定图像块的四个图像块顶点坐标，如[i*stride, j*stride, i*stride + size, j*stride + size]。并根据这四个图像块顶点坐标对目标图像块进行划分，以获取划分后的图像块。可以对目标图像进行多次划分，以获取多个图像块，每个图像块的获取方式均可以采用相同的方式进行获取。

在本实施例中，通过根据目标图像中的原点和裁剪方式确定待划分图像块的长度和宽度，基于长度和宽度对目标图像进行划分，以获取多个图像块，从而保障了获取到的图像块的有效性。

具体地，基于所述原点和预设的裁剪方式确定待划分的图像块的长度和宽度的步骤，包括：

步骤k，获取所述目标图像的初始长度和初始宽度，基于所述原点、所述初始长度和所述初始宽度确定待划分的图像块的长度和宽度，其中，所述长度小于或等于所述初始长度，所述宽度小于或等于所述初始宽度。

在确定待划分的图像块的长度和宽度时，需要先获取目标图像的长度即初始长度，目标图像的宽度即初始宽度，并根据原点，初始宽度和初始长度确定可以划分的范围，并根据用户的划分指令对目标图像进行划分，以确定待划分的图像块的的长度和宽度。而且每个图像块都需要满足以下几个条件，即待划分的图像块的长度小于或等于目标图像的初始长度，待划分的图像块的宽度小于或等于目标图像的初始宽度，相邻图像块之间存在重叠部分。

在本实施例中，通过根据目标图像的初始长度，初始宽度和原点确定待划分图像块的长度和宽度，从而保障了获取到的待划分的图像块的有效性。

此外，参照图3，本申请实施例还提出一种页面方向识别装置，所述页面方向识别装置包括：

划分模块A10，用于确定待进行图像检测的目标图像，根据预设的裁剪方式对所述目标图像进行划分，以获取多个图像块；

确定模块A20，用于基于预设的卷积神经网络模型对各所述图像块进行训练，基于所述训练的训练结果确定各所述图像块中是否具有文字和文字方向的目标图像块；

分类汇总模块A30，用于若在各所述图像块中存在多个具有文字和文字方向的目标图像块，则对各所述目标图像块的文字方向进行分类汇总，基于所述分类汇总的分类汇总结果确定目标文字方向，并将所述目标文字方向作为所述目标图像的页面方向。

进一步地，所述确定模块A20，还用于：

基于所述训练的训练结果遍历各所述图像块，获取遍历的图像块的整体面积和所述遍历的图像块中疑似文字区域所占面积；

计算所述疑似文字区域所占面积和整体面积的比例值，并判断所述比例值是否大于预设阈值；

若所述比例值大于预设阈值，则确定遍历的图像块中具有文字，根据所述训练结果确定所述遍历的图像块中文字的文字方向，并将所述遍历的图像块作为目标图像块。

进一步地，所述确定模块A20，还用于：

根据所述训练结果确定所述遍历的图像块对应的标签结果，并将所述标签结果和预设的标签方向对照表进行匹配，根据所述匹配结果确定所述遍历的图像块中文字的文字方向。

进一步地，所述确定模块A20，还用于：

将预设映射对照表中的多个初始图像块输入至原始的卷积神经网络模型进行训练，以获取各所述初始图像块的文本信息，并将各所述文本信息和所述预设映射对照表中各所述初始图像块对应的标注信息进行比对；

若比对失败，则确定各所述文本信息和各所述标注信息的误差，并根据所述误差对所述原始的卷积神经网络模型进行优化，以获取预设的卷积神经网络模型。

进一步地，所述分类汇总模块A30，还用于：

对各所述目标图像块的文字方向进行分类汇总，以获取多个初始文字方向，并确定各所述初始文字方向对应的目标图像块数量，在各所述初始文字方向中将目标图像块数量最多的初始文字方向作为目标文字方向。

进一步地，所述划分模块A10，还用于：

确定所述目标图像中的原点，基于所述原点和预设的裁剪方式确定待划分的图像块的长度和宽度，根据所述长度和所述宽度对所述目标图像进行划分，以获取多个图像块。

进一步地，所述划分模块A10，还用于：

获取所述目标图像的初始长度和初始宽度，基于所述原点、所述初始长度和所述初始宽度确定待划分的图像块的长度和宽度，其中，所述长度小于或等于所述初始长度，所述宽度小于或等于所述初始宽度。

其中，页面方向识别装置的各个功能模块实现的步骤可参照本申请页面方向识别方法的各个实施例，此处不再赘述。

本申请还提供一种页面方向识别设备，所述页面方向识别设备包括：存储器、处理器及存储在所述存储器上的页面方向识别程序；所述处理器用于执行所述页面方向识别程序，以实现以下步骤：

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述页面方向识别方法各实施例的步骤。

本申请计算机可读存储介质具体实施方式与上述页面方向识别方法各实施例基本相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种页面方向识别方法，其特征在于，所述页面方向识别方法包括以下步骤：

确定待进行图像检测的目标图像，根据预设的裁剪方式对所述目标图像进行划分，以获取多个图像块；

基于预设的卷积神经网络模型对各所述图像块进行训练，基于所述训练的训练结果确定各所述图像块中是否具有文字和文字方向的目标图像块；

若在各所述图像块中存在多个具有文字和文字方向的目标图像块，则对各所述目标图像块的文字方向进行分类汇总，基于所述分类汇总的分类汇总结果确定目标文字方向，并将所述目标文字方向作为所述目标图像的页面方向。
如权利要求1所述的页面方向识别方法，其特征在于，所述基于所述训练的训练结果确定各所述图像块中是否具有文字和文字方向的目标图像块的步骤，包括：

基于所述训练的训练结果遍历各所述图像块，获取遍历的图像块的整体面积和所述遍历的图像块中疑似文字区域所占面积；

计算所述疑似文字区域所占面积和整体面积的比例值，并判断所述比例值是否大于预设阈值；

若所述比例值大于预设阈值，则确定遍历的图像块中具有文字，根据所述训练结果确定所述遍历的图像块中文字的文字方向，并将所述遍历的图像块作为目标图像块。
如权利要求2所述的页面方向识别方法，其特征在于，所述根据所述训练结果确定所述遍历的图像块中文字的文字方向的步骤，包括：

根据所述训练结果确定所述遍历的图像块对应的标签结果，并将所述标签结果和预设的标签方向对照表进行匹配，根据所述匹配结果确定所述遍历的图像块中文字的文字方向。
如权利要求1所述的页面方向识别方法，其特征在于，所述基于预设的卷积神经网络模型对各所述图像块进行训练的步骤之前，包括：

将预设映射对照表中的多个初始图像块输入至原始的卷积神经网络模型进行训练，以获取各所述初始图像块的文本信息，并将各所述文本信息和所述预设映射对照表中各所述初始图像块对应的标注信息进行比对；

若比对失败，则确定各所述文本信息和各所述标注信息的误差，并根据所述误差对所述原始的卷积神经网络模型进行优化，以获取预设的卷积神经网络模型。
如权利要求1所述的页面方向识别方法，其特征在于，所述对各所述目标图像块的文字方向进行分类汇总，基于所述分类汇总的分类汇总结果确定目标文字方向的步骤，包括：

对各所述目标图像块的文字方向进行分类汇总，以获取多个初始文字方向，并确定各所述初始文字方向对应的目标图像块数量，在各所述初始文字方向中将目标图像块数量最多的初始文字方向作为目标文字方向。
如权利要求1-5任一项所述的页面方向识别方法，其特征在于，所述根据预设的裁剪方式对所述目标图像进行划分，以获取多个图像块的步骤，包括：

确定所述目标图像中的原点，基于所述原点和预设的裁剪方式确定待划分的图像块的长度和宽度，根据所述长度和所述宽度对所述目标图像进行划分，以获取多个图像块。
如权利要求6所述的页面方向识别方法，其特征在于，所述基于所述原点和预设的裁剪方式确定待划分的图像块的长度和宽度的步骤，包括：

获取所述目标图像的初始长度和初始宽度，基于所述原点、所述初始长度和所述初始宽度确定待划分的图像块的长度和宽度，其中，所述长度小于或等于所述初始长度，所述宽度小于或等于所述初始宽度。
一种页面方向识别装置，其特征在于，所述页面方向识别装置包括：

划分模块，用于确定待进行图像检测的目标图像，根据预设的裁剪方式对所述目标图像进行划分，以获取多个图像块；

确定模块，用于基于预设的卷积神经网络模型对各所述图像块进行训练，基于所述训练的训练结果确定各所述图像块中是否具有文字和文字方向的目标图像块；

分类汇总模块，用于若在各所述图像块中存在多个具有文字和文字方向的目标图像块，则对各所述目标图像块的文字方向进行分类汇总，基于所述分类汇总的分类汇总结果确定目标文字方向，并将所述目标文字方向作为所述目标图像的页面方向。
一种页面方向识别设备，其特征在于，所述页面方向识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的页面方向识别程序，所述页面方向识别程序被所述处理器执行时实现如下步骤：

确定待进行图像检测的目标图像，根据预设的裁剪方式对所述目标图像进行划分，以获取多个图像块；

基于预设的卷积神经网络模型对各所述图像块进行训练，基于所述训练的训练结果确定各所述图像块中是否具有文字和文字方向的目标图像块；

若在各所述图像块中存在多个具有文字和文字方向的目标图像块，则对各所述目标图像块的文字方向进行分类汇总，基于所述分类汇总的分类汇总结果确定目标文字方向，并将所述目标文字方向作为所述目标图像的页面方向。
根据权利要求9所述的页面方向识别设备，其中，所述页面方向识别程序被所述处理器执行时实现的步骤还包括：

基于所述训练的训练结果遍历各所述图像块，获取遍历的图像块的整体面积和所述遍历的图像块中疑似文字区域所占面积；

计算所述疑似文字区域所占面积和整体面积的比例值，并判断所述比例值是否大于预设阈值；

若所述比例值大于预设阈值，则确定遍历的图像块中具有文字，根据所述训练结果确定所述遍历的图像块中文字的文字方向，并将所述遍历的图像块作为目标图像块。
根据权利要求10所述的页面方向识别设备，其中，所述页面方向识别程序被所述处理器执行时实现的步骤还包括：

根据所述训练结果确定所述遍历的图像块对应的标签结果，并将所述标签结果和预设的标签方向对照表进行匹配，根据所述匹配结果确定所述遍历的图像块中文字的文字方向。
根据权利要求9所述的页面方向识别设备，其中，所述页面方向识别程序被所述处理器执行时实现的步骤还包括：

将预设映射对照表中的多个初始图像块输入至原始的卷积神经网络模型进行训练，以获取各所述初始图像块的文本信息，并将各所述文本信息和所述预设映射对照表中各所述初始图像块对应的标注信息进行比对；

若比对失败，则确定各所述文本信息和各所述标注信息的误差，并根据所述误差对所述原始的卷积神经网络模型进行优化，以获取预设的卷积神经网络模型。
根据权利要求9所述的页面方向识别设备，其中，所述页面方向识别程序被所述处理器执行时实现的步骤还包括：

对各所述目标图像块的文字方向进行分类汇总，以获取多个初始文字方向，并确定各所述初始文字方向对应的目标图像块数量，在各所述初始文字方向中将目标图像块数量最多的初始文字方向作为目标文字方向。
根据权利要求9-13任意一项所述的页面方向识别设备，其中，所述页面方向识别程序被所述处理器执行时实现的步骤还包括：

确定所述目标图像中的原点，基于所述原点和预设的裁剪方式确定待划分的图像块的长度和宽度，根据所述长度和所述宽度对所述目标图像进行划分，以获取多个图像块。
根据权利要求14所述的页面方向识别设备，其中，所述页面方向识别程序被所述处理器执行时实现的步骤还包括：

获取所述目标图像的初始长度和初始宽度，基于所述原点、所述初始长度和所述初始宽度确定待划分的图像块的长度和宽度，其中，所述长度小于或等于所述初始长度，所述宽度小于或等于所述初始宽度。
一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有页面方向识别程序，所述页面方向识别程序被处理器执行时实现如下步骤：

确定待进行图像检测的目标图像，根据预设的裁剪方式对所述目标图像进行划分，以获取多个图像块；

基于预设的卷积神经网络模型对各所述图像块进行训练，基于所述训练的训练结果确定各所述图像块中是否具有文字和文字方向的目标图像块；

若在各所述图像块中存在多个具有文字和文字方向的目标图像块，则对各所述目标图像块的文字方向进行分类汇总，基于所述分类汇总的分类汇总结果确定目标文字方向，并将所述目标文字方向作为所述目标图像的页面方向。
根据权利要求16所述的计算机可读存储介质，其中，所述页面方向识别程序被所述处理器执行时实现的步骤还包括：

基于所述训练的训练结果遍历各所述图像块，获取遍历的图像块的整体面积和所述遍历的图像块中疑似文字区域所占面积；

计算所述疑似文字区域所占面积和整体面积的比例值，并判断所述比例值是否大于预设阈值；

若所述比例值大于预设阈值，则确定遍历的图像块中具有文字，根据所述训练结果确定所述遍历的图像块中文字的文字方向，并将所述遍历的图像块作为目标图像块。
根据权利要求17所述的页面方向识别设备，其中，所述页面方向识别程序被所述处理器执行时实现的步骤还包括：

根据所述训练结果确定所述遍历的图像块对应的标签结果，并将所述标签结果和预设的标签方向对照表进行匹配，根据所述匹配结果确定所述遍历的图像块中文字的文字方向。
根据权利要求16所述的页面方向识别设备，其中，所述页面方向识别程序被所述处理器执行时实现的步骤还包括：

将预设映射对照表中的多个初始图像块输入至原始的卷积神经网络模型进行训练，以获取各所述初始图像块的文本信息，并将各所述文本信息和所述预设映射对照表中各所述初始图像块对应的标注信息进行比对；

若比对失败，则确定各所述文本信息和各所述标注信息的误差，并根据所述误差对所述原始的卷积神经网络模型进行优化，以获取预设的卷积神经网络模型。
根据权利要求16所述的页面方向识别设备，其中，所述页面方向识别程序被所述处理器执行时实现的步骤还包括：

对各所述目标图像块的文字方向进行分类汇总，以获取多个初始文字方向，并确定各所述初始文字方向对应的目标图像块数量，在各所述初始文字方向中将目标图像块数量最多的初始文字方向作为目标文字方向。