WO2022147965A1

WO2022147965A1 - 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统

Info

Publication number: WO2022147965A1
Application number: PCT/CN2021/099935
Authority: WO
Inventors: 刘天亮; 梁聪聪; 桂冠; 戴修斌
Original assignee: 江苏拓邮信息智能技术研究院有限公司
Priority date: 2021-01-09
Filing date: 2021-06-15
Publication date: 2022-07-14
Also published as: LU502472B1; CN112528963A

Abstract

一种基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统，该智能批阅系统包括检测模块和识别模块两个模块。鉴于算术题分布密集、字体多变的特点和网络轻量化的需求，检测模块采用多尺度语义和定位特征融合的MixNet-YOLOv3网络来实现算术题的边框信息提取；识别模块将前一模块抽取的算术题图像通过基于联结时序分类CTC解码机制的卷积递归神经网络CRNN网络，得到算术题目的语义信息；最后通过算术逻辑运算来判断每道算术题目的正确与否。

Description

[根据细则26改正01.09.2021]　基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统

技术领域

本发明涉及一种基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统，属于计算机视觉及自然语言处理交叉的文本检测和识别领域。

背景技术

随着科技水平的进步和教育产业的变革，传统阅卷过程中的效率低、质量和公平无法保证的问题日益凸显，一定程度阻碍了整体教学水平的提高。与此同时，数字图像处理以及计算机视觉技术的飞速发展，让人们将目光逐渐投向智能阅卷，智能阅卷能够极大地提高阅卷的效率，降低教师的工作负担，节省家长的时间，优化教育资源的配置。

以中小学生的算术题为例，考虑到算术题一般是由印刷体跟手写体构成，出版商的印刷体样式、学生的手写体风格层出不穷，还存在一定程度的涂改，基于图像处理和机器学习的传统的光学字符识别OCR(Optical Character Recognition)技术无法满足复杂场景的检测任务。

典型的OCR技术路线包括以下三个部分：图像预处理、文本检测和文本识别，其中影响识别准确率的技术瓶颈是文本检测和文本识别，而这两部分也是OCR技术的重中之重。在传统OCR技术中，图像预处理通常是针对图像的成像问题进行修正，常见的预处理过程包括：几何变换、畸变校正、去除模糊、图像增强和光线校正等。文本检测即检测文本的所在位置和范围及其布局，通常也包括版面分析和文字行检测等，文字检测主要解决的问题是哪里有文字，文字的范围有多大。文本识别是在文本检测的基础上，对文本内容进行识别，将图像中的文本信息转化为文本信息，文字识别主要解决的问题是每个文字是什么。

发明内容

发明目的：为了解决上述问题，本发明提出一个端到端的算术题批阅系统，系统主要涵盖检测跟识别两个分支，首先采用YOLOv3算法检测每道题目的边界，通过权重分配使网络更容易学习水平的边界，并在不损失精度的前提下将提取网络替换为更为轻量化的MixNet网络；在识别部分，采用精度跟效率结合的卷积递归神经网络CRNN网络，通过卷积神经网络CNN(Convolutional Neural Networks)和长短期记忆网络LSTM(Long Short-Term Memory)的组合使网络准确的学习到题目的语义信息，最后通过算术逻辑判断对错和返回正确答案。

技术方案：本发明技术方案实现包括如下几个步骤：

(1)对原始检测的输入图片数据集进行预处理，通过数据增强手段扩展样本的泛化性，同时利用K均值聚类算法生成适应该场景的先验框，用于检测网络的训练；

(2)将整张的输入图片输入到轻量级MixNet网络模型中，进行图像定位和语义特征的提取，得到表示图像全局信息的多尺度特征；

(3)利用特征金字塔网络FPN(Feature Pyramid Networks)特征融合技术，融合不同尺度的特征，分别输送到对应的YOLOv3预测模块中，并根据两组先验框分别对产生的特征图进行计算，基于最佳的先验框来预测，并根据预测出的坐标、置信度、类别信息与标签信息进行损失函数的计算，通过迭代训练得到更为精确的检测模型；

(4)根据检测网络输出的算术题边框，将抽取的算术题和标注的文本信息组合起来，构成识别模块的数据集；

(5)将抽取的算术题图像转成灰度图送入卷积递归神经网络CRNN网络，需要先经过卷积神经网络CNN提取特征得到特征图，再转换成序列送入双向长短期记忆网络LSTM获取序列特征，最后经过联结时序分类CTC机制转录得到最终的语义信息；

(6)根据识别模块得到的语义信息，进行算术逻辑的运算，从而判断出每道题目的正确与否，对于做错的题目会给出正确答案。

作为优选，所述的步骤(1)首先通过LabelImg标注软件生成图片的标注框，然后利用平移、旋转、裁剪等数据增强手段扩充原始的数据集，增强数据的泛化性和鲁棒性。针对数据集中的边框信息，通过K均值聚类分析算法得到2个尺度共4个先验框，用于检测网络的训练。

作为优选，所述的步骤(2)采用MixNet网络提取图像多尺度特征。通过不同卷积核的混合深度卷积结构代替深度可分离卷积结构，在极大的减少网络参数量的同时，增强了网络融合多尺度语义和定位特征的能力，从而提取到更为系统全面的特征。MixNet网络由混合深度可分离卷积模块(MDConv)组成，旨在将不同的卷积核尺寸融合到一个单独的卷积操作，使其可以易于获取具有多个分辨率的不同模式。其中MDConv卷积操作具有多个设计选择：

(2.1)组大小g：决定了用于一个单独输入张量的不同类型卷积核的个数。在g＝1的极端情况，MDConv等同于普通深度卷积。对于MobileNets，g＝4时MDConv可以提高模型的准确性和效率。

(2.2)每个组的卷积核尺寸：理论上，每个组可以有任意尺寸的卷积核。但是，如果两个组有同样尺寸的卷积核，那等同于将两个组合并为一个单独的组，因此必须限制每个组必须拥有不同尺寸的卷积核。进一步，因为小尺寸的卷积核通常拥有更少的参数和FLOPS，限制卷积核尺寸通常从3x3开始，每组单调增加2。换言之，i组的卷积核尺寸通常为2i+1。例如，一个4组的MDConv通常使用的卷积核尺寸为{3x3,5x5,7x7,9x9}。在此限制下，每个组的卷积核尺寸相对于其组大小g已经预定义好了，因而简化了设计过程。

(2.3)每个组的通道大小：在此主要考虑两种通道划分方法：(a)等分：每组通道的数目一致；(b)指数划分：第i组通道数占总通道数的2 ^-i。例如，一个4组MDConv共有32个通道，等分将通道划分为(8,8,8,8)，而指数划分将通道划分为(16,8,4,4)。

作为优选，所述的步骤(3)通过特征金字塔网络FPN(Feature Pyramid Networks)融合不同尺度的特征，采用上采样和通道拼接的方式将定位信息和语义信息有机结合，输出8倍和16倍下采样的特征图，送入到YOLOv3的预测模块。预测模块会将边框的相对位置(t _x、t _y、p _w、p _h)通过如下公式转换成绝对位置(b _x、b _y、b _w、b _h)，便于比较预测框和先验框的交并比，基于最佳的先验框来预测。

b _x＝σ(t _x)+c _x

b _y＝σ(t _y)+c _y

预测模块的输入特征图通道数是(Bx(5+C))，其中B代表每个单元可以预测的边界框数量(这里取2)，每个边界框都有5+C个属性，分别描述每个边界框的坐标尺寸、置信度和C类概率。如果对象的中心位于单元格的感受野(感受野是输入图像对于单元格可见的区域)，则由该单元格负责预测对象。预测模块的损失函数主要由坐标损失、置信度损失和分类损失构成，公式如下：

其中，S ²表示每个尺度的网格数，B表示每个尺度预测的边框数(取2)，

表示第i个网格的第j个box是否负责检测这个object。前两项表示坐标损失，采用均方误差函数，λ _center和λ _coord用于控制中心回归和宽高回归的权重，一般设置为1，2；三、四项表示置信度损失，采用交叉熵函数，由于不负责检测的边框比重较高，通过设置λ _noobj＝2来加速置信度的收敛；最后一项表示类别损失，采用交叉熵函数，每一个负责检测的网格计算类别概率。

作为优选，所述的步骤(4)根据检测模块预测的边框坐标提取出每道算术题，标注的文本信息作为标签，用于识别模块的训练。

作为优选，所述的步骤(5)利用CRNN模型对算术题语义信息进行提取。CRNN模型常用于端到端不定长文本序列识别，不用先对单个文字进行分割，而是将文本识别转换成时序依赖的序列学习问题。其工作流程是给定输入的单通道灰度图，先经过卷积神经网络CNN提取特征得到特征图，再转换成序列送入双向长短期记忆网络LSTM获取序列特征，最后经过联结时序分类CTC转录得到最终的标签序列。其中卷积神经网络CNN中的最后两个池化层由2x2改为1x2，考虑到检测模块输出的文本多数是高较小而宽较长，使用1x2的池化窗口可以尽量保证不丢失宽度方向的信息。

将循环神经网络RNN(Recurrent Neural Network)输出的序列翻译成最终结果的过程中会出现很多冗余信息，比如一个字母被连续识别两次，这时需要利用blank空白机制来解决RNN网络输出中存在的冗余信息，通过在重复的字符之间插入一个“-”(代表blank空白)，对于相同字符进行合并(用blank空白字符隔开的除外)，即可解决重复字符的问题。

对于RNN给定输入概率分布矩阵x＝(x ¹,x ²,...,x ^T)，T是序列长度，最后映射为标签文本l的概率为：

其中B ^-1(l)表示从序列到序列的映射函数B变换后是l的所有路径集合，而π则是其中的一条路径，每条路径的概率为各个时间步中对应字符分布概率的乘积。通过训练网络使这个概率值最大化，而损失函数定义为概率的负最大似然函数，而在测试阶段，只需将每个时间步概率最大的字符进行拼接，再根据上述的blank空白机制即可得到最终的预测结果。

作为优选，所述的步骤(6)根据识别模块预测的语义信息，通过算术逻辑运算判别每道算术题的正确与否，对于做错的题目将给出正确答案。

有益效果：本发明所提出的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统，能够在极短的时间内自动识别试卷中每道算术题的含义并做出判断，减轻了传统手工批阅试卷带来的人力和时间成本，提高了教学效率。

附图说明

图1是基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统流程图。

图2是MixNet-YOLOv3的网络结构图。

图3是卷积递归神经网络CRNN的网络结构图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明：

如图1所示，本发明公开了一种基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统，系统主要由检测模块和识别模块两大模块组成。检测模块主要由图像预处理、MixNet特征网络、YOLOv3head预测网络三部分构成，经过预处理的图片会通过多尺度语义特征和定位特征融合的MixNet-YOLOv3网络，得到每道算术题的边框和类别信息，随后经过抽取与标注的算术题将会送入识别模块；识别模块主要由CRNN特征网络、CTC转码编译、算术逻辑判别三部分构成，算术题经过CRNN网络提取文本特征后，利用基于联结时序分类的CTC解码机制，得到题目的真正语义信息，最后通过算术逻辑即可判断每道题目正确与否。下面结合具体实施，进一步阐述本发明，主要包括如下步骤：

步骤A，对原始检测的输入图片数据集进行预处理，首先通过LabelImg标注软件生成图片的标注框，然后利用平移、旋转、裁剪等数据增强手段扩充原始的数据集，增强数据的泛化性和鲁棒性。针对数据集中的边框信息，通过K均值聚类分析算法得到2个尺度共4个先验框，用于检测网络的训练。

步骤B，将整张输入图片输入到MixNet网络模型中，进行图像定位和语义特征的提取，得到表示图像全局信息的多尺度特征。MixNet网络通过不同卷积核的混合深度卷积结构代替深度可分离卷积结构，在极大的减少网络参数量的同时，增强了网络融合多尺度语义和定位特征的能力，从而提取到更为系统全面的特征。

如图2所示，MixNet网络由混合深度可分离卷积模块(MDConv)组成，传统的深度可分离卷积是把输入通道分组，每组使用相同大小的卷积核，而混合深度可分离卷积则是在前者的基础上使用不同大小的卷积核，通过将不同的卷积核尺寸融合到一个单独的卷积操作，使其可以获取具有多个分辨率的不同模式。

步骤C，利用特征金字塔网络FPN特征融合技术，融合不同尺度的特征，分别输送到对应的YOLOv3预测模块中，如图2所示，MixNet特征网络得到的两个尺度特征经过concat融合，送入到YOLOv3检测部分，经过一系列卷积操作得到预测的边框位置及类别信息，随后根据之前聚类的两组先验框分别对输出的特征图进行计算，并基于最佳的先验框来预测，根据预测出的坐标、置信度、类别信息与标签信息进行损失函数的计算，通过迭代训练得到更为精确的检测模型。特征金字塔网络FPN网络融合不同尺度的特征，采用上采样和通道拼接的方式将定位信息和语义信息有机结合，输出8倍和16倍下采样的特征图，送入到YOLOv3的预测模块。预测模块会将边框的相对位置(t _x、t _y、p _w、p _h)通过如下公式转换成绝对位置(b _x、b _y、b _w、b _h)，便于比较预测框和先验框的交并比，基于最佳的先验框来预测。

b _x＝σ(t _x)+c _x

b _y＝σ(t _y)+c _y

表示第i个网格的第j个box是否负责检测这个object目标。前两项表示坐标损失，采用均方误差函数，λ _center和λ _coord用于控制中心回归和宽高回归的权重，一般设置为1，2；三、四项表示置信度损失，采用交叉熵函数，由于不负责检测的边框比重较高，通过设置λ _noobj＝2来加速置信度的收敛；最后一项表示类别损失，采用交叉熵函数，每一个负责检测的网格计算类别概率。

步骤D，根据检测网络输出的算术题边框，将抽取的算术题和标注的文本信息组合起来，构成识别模块的数据集。如图3所示，抽取的算术题图像转成灰度图后会送入卷积递归神经网络CRNN网络，先经过CNN(3x3卷积和池化)提取特征得到特征图，再转换成序列送入双向长短期记忆网络BLSTM获取序列特征，最后经过联结时序分类CTC转录得到最终的语义信息。其中卷积神经网络CNN中的最后两个池化层由2x2改为1x2,考虑到检测模块输出的文本多数是高较小而宽较长，使用1x2的池化窗口可以尽量保证不丢失宽度方向的信息。

将循环神经网络RNN输出的序列翻译成最终结果的过程中会出现很多冗余信息，比如一个字母被连续识别两次，这时需要利用blank机制来解决RNN输出中存在的冗余信息，通过在重复的字符之间插入一个“-”(代表blank)，对于相同字符进行合并(用blank字符隔开的除外)，即可解决重复字符的问题。对于RNN给定输入概率分布矩阵x＝(x ¹,x ²,...,x ^T)，T是序列长度，最后映射为标签文本l的概率为：

其中B ^-1(l)表示从序列到序列的映射函数B变换后是l的所有路径集合，而π则是其中的一条路径，每条路径的概率为各个时间步中对应字符分布概率的乘积。通过训练使这个概率值最大化，而损失函数定义为概率的负最大似然函数，而在测试阶段，只需将每个时间步概率最大的字符进行拼接，再根据上述的blank机制即可得到最终的预测结果。

步骤F，根据识别模块得到的语义信息，进行算术逻辑的运算，从而判断出每道题目的正确与否，对于做错的题目会给出正确答案。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统，其特征在于，

包括如下步骤：

(1)对原始检测的输入图片数据集进行预处理，通过数据增强手段增强样本的泛化性，同时利用K均值聚类算法生成适应该场景的两组先验框，用于检测网络的训练；

(2)将整张的输入图片输入到轻量级的MixNet网络模型中，进行图像定位和语义特征的提取，得到表示图像全局信息的多尺度特征；

(3)利用特征金字塔网络FPN特征融合技术，融合不同尺度的特征，分别输送到对应的YOLOv3预测模块中，并根据两组先验框分别对产生的特征图进行计算，基于最佳的先验框来预测，并根据预测出的坐标、置信度、类别信息与标签信息进行损失函数的计算，通过迭代训练得到更为精确的检测模型；

(4)根据检测网络输出的算术题边框，将抽取的算术题和标注的文本信息组合起来，构成识别模块的数据集；

(5)将抽取的算术题图像转成灰度图送入卷积递归神经网络CRNN网络，首先经过卷积神经网络CNN提取特征得到特征图，再转换成序列送入双向长短期记忆网络LSTM获取序列特征，最后经过联结时序分类CTC算法转录得到最终的语义信息；

(6)根据识别模块得到的即得语义信息，进行算术逻辑的运算操作，从而判断出每道算术题目的正确与否，对于做错的题目会给出正确答案。
[根据细则26改正14.07.2021]

根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统，其特征在于，

所述的步骤(1)首先通过LabelImg标注软件生成图片的标注框，然后利用数据增强手段扩充原始的数据集，增强数据的泛化性和鲁棒性；针对数据集中的边框信息，通过K均值聚类算法得到2个尺度共4个先验框，用于检测网络的训练。
[根据细则26改正14.07.2021]
根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统，其特征在于，

所述的步骤(2)采用轻量级MixNet网络提取图像多尺度特征。
[根据细则26改正14.07.2021]
根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统，其特征在于，

所述的步骤(3)通过特征金字塔FPN网络融合不同尺度的特征，采用上采样和通道拼接的方式将定位信息和语义信息有机结合，输出8倍和16倍下采样的特征图，送入到YOLOv3的预测模块，预测模块将边框的相对位置(t _x、t _y、p _w、p _h)通过如下公式转换成绝对位置(b _x、b _y、b _w、b _h)，便于比较预测框和先验框的交并比，基于最佳的先验框来预测：

b _x＝σ(t _x)+c _x

b _y＝σ(t _y)+c _y

预测模块的输入特征图通道数是(B x(5+C))，其中B代表每个单元可以预测的边界框数量(这里取2)，每个边界框都有5+C个属性，分别描述每个边界框的坐标尺寸、置信度和C类概率，如果对象的中心位于单元格的感受野，则由该单元格负责预测对象，所述感受野是输入图像对于单元格可见的区域，预测模块的损失函数主要由坐标损失、置信度损失和分类损失构成，公式如下：

其中，S ²表示每个尺度的网格数，B表示每个尺度预测的边框数(取2)，
表示第i个网格的第j个box是否负责检测这个对象，前两项表示坐标损失，采用均方误差函数，λ _center和λ _coord用于控制中心回归和宽高回归的权重，一般设置为1，2；三、四项表示置信度损失，采用交叉熵函数，由于不负责检测的边框比重较高，通过设置λ _noobj＝2来加速置信度的收敛；最后一项表示类别损失，采用交叉熵函数，每一个负责检测的网格计算类别概率。
[根据细则26改正14.07.2021]
根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统，其特征在于，

所述的步骤(4)根据检测模块预测的边框坐标提取出每道算术题，标注的文本信息作为标签，用于识别模块的训练。
[根据细则26改正14.07.2021]
根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统，其特征在于，

所述的步骤(5)利用卷积递归神经网络CRNN模型对算术题语义信息进行提取。
[根据细则26改正14.07.2021]
根据权利要求1-6任意一项所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统，其特征在于，

所述的步骤(6)根据识别模块预测的语义信息，通过算术逻辑运算判别每道算术题的正确与否，对于做错的题目将给出正确答案。