WO2024027349A1 - 一种印刷体数学公式识别方法、装置及存储介质 - Google Patents

一种印刷体数学公式识别方法、装置及存储介质 Download PDF

Info

Publication number
WO2024027349A1
WO2024027349A1 PCT/CN2023/100351 CN2023100351W WO2024027349A1 WO 2024027349 A1 WO2024027349 A1 WO 2024027349A1 CN 2023100351 W CN2023100351 W CN 2023100351W WO 2024027349 A1 WO2024027349 A1 WO 2024027349A1
Authority
WO
WIPO (PCT)
Prior art keywords
printed
feature matrix
matrix
formula
mathematical
Prior art date
Application number
PCT/CN2023/100351
Other languages
English (en)
French (fr)
Inventor
龙军
杨柳
齐倩倩
罗跃逸
洪泉
王子冬
Original Assignee
中南大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中南大学 filed Critical 中南大学
Publication of WO2024027349A1 publication Critical patent/WO2024027349A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Definitions

  • the invention relates to the technical field of printed formula recognition, and in particular to a printed mathematical formula recognition method, device and storage medium.
  • Latex format sequences can be mainly classified into two categories.
  • One type is a multi-stage sequential recognition method that divides the recognition process into character segmentation, character recognition, and structure analysis.
  • the other type is the global recognition method based on machine learning.
  • the biggest problem with methods based on multi-stage sequential recognition is that errors generated in upstream tasks may be propagated to and captured by downstream tasks, causing errors to be continuously transmitted or even amplified during the recognition process, resulting in the final recognition effect. Deviation occurs.
  • the global recognition method based on machine learning eliminates multi-stage tasks and avoids the accumulation of errors in the recognition process.
  • the invention provides a printed mathematical formula recognition method, device and storage medium to solve the problem of low accuracy of existing printed mathematical formula recognition methods.
  • a method for identifying printed mathematical formulas including:
  • the third feature matrix is based on the first feature matrix and sequentially performs contextual semantic feature extraction and relative position information encoding.
  • the extracted features can more accurately reflect the characteristics of mathematical formulas and improve the accuracy of the final printed mathematical formula recognition. .
  • the preprocessing process includes:
  • formula core area picture cut out of the printed mathematical formula picture includes:
  • the four vertex coordinates of the formula core area are determined based on the grayscale values of the pixels in the printed formula picture, and the corresponding formula core area picture is cropped based on the four vertex coordinates.
  • a direct coordinate system is established with the upper left corner of the printed formula picture as the origin, the horizontal direction as the horizontal axis, and the vertical direction as the vertical axis;
  • (a1, b1) be the upper left vertex of the core area of the formula to be clipped
  • (a2, b1) be the upper left vertex of the core area to be clipped.
  • Cut the upper right vertex of the core area of the formula take (a1, b2) as the lower left vertex of the core area of the formula to be cut, take (a2, b2) as the lower right vertex of the core area of the formula to be cut, and cut out the corresponding picture of the core area of the formula.
  • printed formula pictures only contain two types of colors: black and white.
  • White is generally the background color
  • black is the formula content area.
  • the gray value of the black area is less than 100, so here a gray value of 100 is used as the formula content area.
  • the encoder is built based on the residual convolutional neural network model and is used to extract the first feature matrix of the printed mathematical formula picture.
  • This method is implemented using the encoder-decoder architecture.
  • the residual convolutional neural network is applied to the encoder, which can construct a feature extraction network with greater network depth.
  • the extracted feature information is also richer, and the recognition effect is therefore better. Big improvement.
  • the encoder is a 37-layer residual convolutional neural network, in which conv_1 uses 64 convolution kernels of 7*7 size, with a step size of 1; the window of the pooling layer is 2*2, and the step size is 2; Among the remaining 36 convolutional layers, all convolution kernels use 3*3 size convolution kernels, and the step size is 1; the activation functions all use the Rule function; the remaining 36 convolutional layers are divided into four different types. There are a total of 18 residual blocks in the type. Each residual block is composed of two convolution layers.
  • Conv_2x includes 2 residual blocks, and the number of convolution kernels in the internal convolution layer is 64; Conv_3x includes There are 6 residual blocks, and the number of convolution kernels in the internal convolution layer is 128; Conv_4x includes 6 residual blocks, and the number of convolution kernels in the internal convolution layer is 256; Conv_5x includes 4 residual blocks, The number of convolution kernels in its internal convolution layer is 512.
  • the first characteristic matrix Divide it into H'*W' vectors Q i with dimension A,
  • Each stage of the bidirectional GRU model outputs a vector h j , in which the preset dimension value of the output vector h j is B; the obtained H'*W' B-dimensional vectors are spliced together.
  • the bidirectional GRU model outputs a vector h k at each stage, in which the dimension of h k is predetermined. Set the value to B; splice the obtained H'*W' B-dimensional vectors together and convert them into a three-dimensional matrix, and finally obtain the three-dimensional matrix
  • the relative position encoding technology is used to perform relative position encoding on the second feature matrix to obtain the third feature matrix, which specifically includes:
  • a and b represent the vertical scaling coefficient and the horizontal scaling coefficient respectively, taking any positive number, that is Can;
  • the decoder adopts the RNN model.
  • a printed mathematical formula recognition device including:
  • the preprocessing module is used to obtain and preprocess images of printed mathematical formulas
  • the encoding module is used to extract the first feature matrix of the printed mathematical formula image based on the encoder
  • the feature processing module is used to extract the contextual semantic information of the first feature matrix to obtain the second feature matrix; use relative position encoding technology to perform relative position encoding on the second feature matrix to obtain the third feature matrix;
  • the decoding module is used to input the third feature matrix into the decoder to obtain a Latex format sequence of mathematical formulas.
  • a computer-readable storage medium which stores a computer program.
  • the computer program is executed by a processor, the above-mentioned printed mathematical formula recognition method is implemented.
  • the present invention proposes a method, device and storage medium for identifying printed mathematical formulas.
  • an encoder is used to extract features of printed mathematical formula pictures to obtain a first feature matrix; considering that mathematical formula pictures generally contain obvious semantic information , so the contextual semantic features of the first feature matrix are extracted by using the bidirectional GRU model to obtain the second feature matrix.
  • the second feature matrix is encoded with relative position through relative position encoding technology to obtain the third feature matrix.
  • the third feature matrix is input into the decoder to complete the printed version.
  • Mathematical formula identification process is Among them, the third feature matrix is based on the first feature matrix and sequentially performs secondary extraction of contextual semantic features and encoding of relative position information between elements. The extracted features can more accurately reflect the characteristics of mathematical formulas and improve the final printing quality. Accuracy of mathematical formula recognition.
  • Figure 1 is a flow chart of a method for identifying printed mathematical formulas provided by an embodiment of the present invention
  • Figure 2 is an example diagram of a formula core area extraction algorithm for a printed mathematical formula picture provided by an embodiment of the present invention
  • Figure 3 is a prototype diagram of the residual convolutional neural network model of the encoder provided by the embodiment of the present invention.
  • Figure 4 is an example diagram of a printed mathematical formula provided by an embodiment of the present invention.
  • Figure 5 is an original diagram of the encoder-decoder model provided by the embodiment of the present invention.
  • the printed mathematical formula recognition technology of the present invention is based on the encoder-decoder framework in machine learning. Its overall idea is as follows: Latex, as a typesetting system based on TEX, can describe two-dimensional mathematical formulas as a text sequence. The goal of the present invention is to recognize printed mathematical formulas in pictures into formulas in Latex format. Essentially think of it as translating the printed mathematical formulas in the picture into a Latex format sequence.
  • the main idea proposed by the present invention is to use the currently very popular machine translation model to identify printed mathematical formulas.
  • the input of the model becomes a picture, and the output is still a sequence of text, so the encoder part of the model can no longer use RNN for extracting text features. network.
  • the present invention is designed to replace the RNN network in the encoder with a residual convolutional neural network to extract feature information of printed mathematical formula images.
  • the printed mathematical formula pictures are different from ordinary pictures, the mathematical formula pictures contain obvious contextual semantic features, and there is also very obvious relative position information between the elements in the mathematical formula pictures.
  • the contextual semantic features and relative positions of the formulas Information plays a vital role in the identification of formulas.
  • this paper proposes a brand-new solution, that is, after the image feature extraction is completed, a bidirectional GRU model is first used to extract the contextual semantic features of the image features, and then the relative position encoding technology is used to obtain the contextual semantic features of the image features.
  • the feature matrix performs relative position encoding.
  • a new new feature matrix containing the following three pieces of information is obtained: (1) feature information of the picture, (2) contextual semantic information of the formula, (3) relative position information between elements in the formula.
  • the new feature matrix obtained is passed to the decoder (decoder) part and translated into a latex format sequence. Since the output here is a Latex sequence string, the decoder part uses the RNN neural network model.
  • the embodiment of the present invention provides a method for identifying printed mathematical formulas, as shown in Figures 1 and 5, including:
  • the formula core area pictures cut out from the printed mathematical formula pictures include:
  • the four vertex coordinates of the formula core area are determined based on the grayscale values of the pixels in the printed formula picture, and the corresponding formula core area picture is cropped based on the four vertex coordinates.
  • this embodiment provides a preprocessing algorithm, including:
  • formula pictures only contain two types of colors: black and white.
  • White is generally the background color
  • black is the formula content area.
  • the gray value of the black area is less than 100, so here a gray value of 100 is used as the formula content area.
  • an encoder is constructed based on the residual convolutional neural network model and is used to extract the first feature matrix of the printed mathematical formula image.
  • the network depth is 37 layers of residual convolution.
  • the recognition effect of the neural network is better than that of the network depth of 20 layers, 30 layers, and 56 layers.
  • the input of the model is a single-channel image with a height of H and a width of W.
  • the input image is convolved using 64 convolution kernels of 7*7 size, and a pooling layer is used to downsample it. This is mainly to increase the number of feature matrices of the image to 64 and increase the richness of features. property, and compress the width and height of the feature matrix of the image to half.
  • feature extraction is performed through 36 convolutional layers. In the following 36 convolutional layers, all convolution kernels use 3*3 size convolution kernels, and the step size is 1.
  • the activation function uniformly adopts the Rule function.
  • the 36 convolutional layers can be divided into 4 different types of residual blocks, with a total of 18 residual blocks.
  • Each residual block is composed of two convolutional layers.
  • the biggest difference between the four different types of residual blocks is the number of convolution kernels in the convolution layer inside each residual block, which increases sequentially from 64, 128, 256, and 512.
  • the specific detailed data of these 4 different types of residual blocks can be found in the table above.
  • the specific prototype diagram of the residual convolutional neural network model design can be seen in Figure 3. It should be noted that the 37-layer residual convolutional neural network is only a preferred embodiment. In other embodiments, 20-layer, 30-layer, and 56-layer residual convolutional neural networks can also be selected.
  • S3 Use the bidirectional GRU model to extract contextual semantic features of the first feature matrix to obtain the second feature matrix.
  • the bidirectional GRU model is used to extract contextual semantic features from the first feature matrix extracted by the encoder. Since the bidirectional GRU model is used, the contextual semantic features of the first feature matrix can be extracted in parallel from front to back and from back to front at the same time, enhancing the richness of the contextual semantic features.
  • the main steps include:
  • the LSTM network model or the bidirectional GRU model can be used.
  • this embodiment uses the bidirectional GRU model to extract contextual semantic information as an example.
  • the implementation process includes:
  • S301 Convert the first feature matrix to Q i divided into H'*W' vectors of dimension A where i ⁇ 1...H'*W'.
  • the bidirectional GRU model is input in the order of 3, 2, and 1 respectively.
  • S304 Will and Each element value at the same position is added to obtain the second characteristic matrix.
  • the second feature matrix contains contextual semantic features of the first feature matrix.
  • This embodiment adds a relative position encoder to represent position information of mathematical symbol elements.
  • the specific process of using relative position encoding technology to perform relative position encoding on the second feature matrix is as follows:
  • a and b respectively represent the vertical scaling coefficient and the horizontal scaling coefficient. They can be any positive number according to actual needs; in this example, a is 1 and b is 1. Of course, in other embodiments, a and b can also be 2. ,3 etc.
  • the main function of the decoder is to decode the optimized third feature matrix and translate it into specific Latex characters. It should be noted that the length of the Latex format sequence output by the decoder is not fixed.
  • the decoder is an RNN model.
  • the RNN model has a total of n stages (n is determined by the length of the latex string predicted by the decoder). Each stage will output a vector y t .
  • the dimension of the vector y t is equal to the dictionary size of Latex mathematical symbols.
  • the Latex mathematical symbol dictionary includes Mapping of commonly used mathematical symbols, for example, fractions in mathematics are represented by ' ⁇ frac' in Latex, integrals are represented by ' ⁇ int', etc.
  • a total of 485 latex mathematical symbols are collected, so the size of the vector y t dimension is set to 485.
  • SoftMax is performed on the vector y t .
  • There are 485 components in y t There are 485 components in y t .
  • the value of each component represents the corresponding prediction probability of 485 Latex mathematical symbols.
  • the subscript of the largest component value represents the prediction of y t .
  • Some embodiments of the present invention also provide a mathematical formula recognition device, including:
  • the preprocessing module is used to obtain and preprocess images of printed mathematical formulas.
  • the encoding module is used to extract the first feature matrix of the printed mathematical formula image based on the encoder.
  • the feature processing module is used to extract the contextual semantic features of the first feature matrix using the bidirectional GRU model to obtain the second feature matrix; use relative position encoding technology to perform relative position encoding on the second feature matrix to obtain the third feature matrix.
  • the decoding module is used to input the third feature matrix into the decoder to obtain a Latex format sequence of mathematical formulas.
  • each unit module in this embodiment can be concentrated in one processing unit, or each unit module can exist physically alone, or two or more unit modules can be integrated into one unit module. implemented in the form of hardware or software.
  • embodiments of the present application may be provided as methods, systems, or computer program products. Accordingly, the present application may take the form of an entirely hardware embodiment, an entirely software embodiment, or an embodiment that combines software and hardware aspects. Furthermore, the present application may take the form of a computer program product embodied on one or more computer-usable storage media (including, but not limited to, disk storage, CD-ROM, optical storage, etc.) having computer-usable program code embodied therein.
  • computer-usable storage media including, but not limited to, disk storage, CD-ROM, optical storage, etc.
  • These computer program instructions may also be stored in a computer-readable memory that causes a computer or other programmable data processing apparatus to operate in a particular manner, such that the instructions stored in the computer-readable memory produce an article of manufacture including the instruction means, the instructions
  • the device implements the functions specified in a process or processes of the flowchart and/or a block or blocks of the block diagram.
  • These computer program instructions may also be loaded onto a computer or other programmable data processing device, causing a series of operating steps to be performed on the computer or other programmable device to produce computer-implemented processing, thereby executing on the computer or other programmable device.
  • Instructions provide steps for implementing the functions specified in a process or processes of a flowchart diagram and/or a block or blocks of a block diagram.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种印刷体数学公式识别方法、装置及存储介质,其中方法包括:获取印刷体数学公式图片并进行预处理;基于编码器提取印刷体数学公式图片的第一特征矩阵;提取第一特征矩阵的上下文语义特征,得到第二特征矩阵;使用相对位置编码技术对第二特征矩阵进行相对位置编码,得到第三特征矩阵;将第三特征矩阵输入解码器中,得到印刷体数学公式的Latex格式序列。第三特征矩阵是第一特征矩阵的基础上依次进行了上下文语义特征和元素间相对位置特征的再次提取,提取的特征更加能准确反映印刷体数学公式的特性,提高了最终印刷体数学公式识别的准确率。

Description

一种印刷体数学公式识别方法、装置及存储介质
本申请要求于2022年08月05日提交中国专利局、申请号为202210935737.7、发明名称为“一种印刷体数学公式识别方法、装置及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及印刷体公式识别技术领域,尤其涉及一种印刷体数学公式识别方法、装置及存储介质。
背景技术
在科研教育领域,很多科研文献中的印刷体数学公式以图片的形式存在,而以图片形式存储的公式一方面不便于计算机的处理和编辑,另一方面存储图片所消耗的空间也会比较大。将印刷体公式图片转换为文本序列的Latex格式进行存储能很好的解决上述两个问题。
当下印刷体数学公式识别为Latex格式序列主要可分类两类。一类是将识别过程划分为字符分割、字符识别、结构分析的多阶段顺序识别方法。另一类则是基于机器学习的全局识别方法。基于多阶段顺序识别的方法,其最大的问题在于,上游任务中产生的错误可能会传播到下游任务并被下游任务捕获,导致错误在识别过程中的不断传递甚至放大,从而导致最后的识别效果出现偏差。而基于机器学习的全局识别方法,则消除了多阶段任务,避免了错误在识别过程中的积累。
现有的基于机器学习的方法主要采用深度学习中的编码器-解码器模型架构实现印刷体公式识别的过程,在该模型架构中编码器一般使用10层以内的卷积神经网络(CNN),解码器则采用循环神经网络(RNN)。但是印刷体数学公式图片包含着复杂的语义特征和结构特征,现有的技术无法准确的提取到公式图片中的语义特征和结构特征,对模型的识别准确率产生了一定的影响。
发明内容
本发明提供了一种印刷体数学公式识别方法、装置及存储介质,以解决现有的印刷体数学公式识别方法准确率不高的问题。
第一方面,提供了一种印刷体数学公式识别方法,包括:
获取印刷体数学公式图片并进行预处理;
基于编码器提取印刷体数学公式图片的第一特征矩阵;
提取第一特征矩阵的上下文语义特征,得到第二特征矩阵;
使用相对位置编码技术对第二特征矩阵进行位置编码,得到第三特征矩阵;
将第三特征矩阵输入解码器中,得到数学公式的Latex格式序列。
其中第三特征矩阵是第一特征矩阵的基础上依次进行了上下文语义特征提取和相对位置信息编码,提取的特征更加能准确反映数学公式的特性,提高了最终的印刷体数学公式识别的准确率。
进一步地,所述预处理过程包括:
裁剪出印刷体数学公式图片的公式核心区域图片。
用户上传的待识别的印刷体数学公式图片,往往包含许多无效的空白部分,而印刷体数学公式图片中真正包含数学公式的部分仅仅只占整个图片很小的一部分。所以通过截取印刷体数学公式图片中的公式核心区域,缩小待识别处理的图片的尺寸,能提高印刷体数学公式的识别效果,减少识别过程的时空开销。
进一步地,所述裁剪出印刷体数学公式图片的公式核心区域图片包括:
基于印刷体公式图片建立直角坐标系;
根据印刷体公式图片中像素点的灰度值确定公式核心区域的四个顶点坐标,基于四个顶点坐标裁剪出对应的公式核心区域图片。
更具体地,以印刷体公式图片的最左上角为原点,以水平方向为横轴,以竖直方向为纵轴,建立直接坐标系;
横向及纵向遍历印刷体数学公式图片中每个像素点的灰度值(印刷体公式图片一般为单通道图片);
获取左方第一个满足灰度值小于100的点,取横坐标a1;
获取上方第一个满足灰度值小于100的点,取纵坐标b1;
获取右方第一个满足灰度值小于100的点,取横坐标a2;
获取下方第一个满足灰度值小于100的点,取纵坐标b2;
以(a1,b1)为待裁剪公式核心区域左上顶点,以(a2,b1)为待裁 剪公式核心区域右上顶点,以(a1,b2)为待裁剪公式核心区域左下顶点,以(a2,b2)为待裁剪公式核心区域右下顶点,裁剪出对应的公式核心区域图片。
一般印刷体公式图片中只包含黑色和白色两种类型颜色,白色一般为背景色,黑色为公式内容区域,一般黑色区域的灰度值小于100,所以此处以灰度值100作为公式内容区域的选取阈值。
进一步地,所述编码器基于残差卷积神经网络模型构建而成,用于提取印刷体数学公式图片的第一特征矩阵
本方法采用encoder-decoder的架构实现,将残差卷积神经网络应用于编码器中,可构建网络深度更大的特征提取网络,提取到的特征信息也更为丰富,识别效果也因此得到较大的提升。
进一步地,所述编码器为37层的残差卷积神经网络,其中conv_1采用64个7*7大小的卷积核,步长为1;池化层的窗口为2*2,步长为2;剩下36层卷积层中,所有卷积核均采用3*3大小卷积核,且步长为1;激活函数均采用Rule函数;剩下36层卷积层分为四种不同类型共计18个残差块,每个残差块内部由两层卷积层构成,组成如下:Conv_2x中包括2个残差块,其内部卷积层的卷积核数目为64;Conv_3x中包括6个残差块,其内部卷积层的卷积核数目为128;Conv_4x中包括6个残差块,其内部卷积层的卷积核数目为256;Conv_5x中包括4个残差块,其内部卷积层的卷积核数目为512。
进一步地,所述提取第一特征矩阵的上下文语义特征,得到第二特征矩阵,主要步骤如下:
提取第一特征矩阵的水平方向上的上下文语义信息,并得到特征矩阵
提取第一特征矩阵的垂直方向上的上下文语义信息,并得到特征矩阵
做矩阵加法得到第二特征矩阵
更具体地,包括:
将第一特征矩阵划分为H'*W'个维度为A的向量Qi
其中i∈1...H'*W';
同时将Qi按照i=1,2,3...H'*W'-1,H'*W'的顺序和i=H'*W',H'*W'-1...3,2,1的顺序分别输入双向GRU模型,每阶段双向GRU模型输出一个向量hj,其中输出向量hj的维度预设值为B;将得到的H'*W'个B维的向量拼接在一起,得到二维特征矩阵V(h)=[h1;h2……hH'*W'-1;hH'*W'],其中‘;’为矩阵拼接运算,并将矩阵V(h)转换为三维矩阵
同时将Qi按照i=1,W'+1,2*W'+1...,(H'-1)*W',H'*W'的顺序和i=H'*W',(H'-1)*W'...2*W'+1,W'+1,1的顺序分别输入双向GRU模型,每阶段双向GRU模型输出一个向量hk,其中hk的维度预设值为B;将得到的H'*W'个B维的向量拼接在一起并转换为三维矩阵,最终得到三维矩阵
最后将每一个相同位置的元素值进行相加,得到第二特征矩阵
进一步地,所述使用相对位置编码技术对第二特征矩阵进行相对位置编码,得到第三特征矩阵,具体包括:
初始化生成一个与第二特征矩阵维度一致的矩阵P;
用P(i,x,y)代表矩阵P每个位置的元素值,同理V(2)(i,x,y)代表第二特征矩阵每个位置的元素值;则矩阵P的计算方法如下:
其中,a和b分别代表垂直缩放系数和水平缩放系数,取任意正数即 可;
将编码后得到的矩阵P和第二特征矩阵做矩阵加法,得到第三特征矩阵
进一步地,所述解码器采用的RNN模型。
第二方面,提供了一种印刷体数学公式识别装置,包括:
预处理模块,用于获取印刷体数学公式图片并进行预处理;
编码模块,用于基于编码器提取印刷体数学公式图片的第一特征矩阵;
特征处理模块,用于提取第一特征矩阵的上下文语义信息得到第二特征矩阵;使用相对位置编码技术对第二特征矩阵进行相对位置编码,得到第三特征矩阵;
解码模块,用于将第三特征矩阵输入解码器中,得到数学公式的Latex格式序列。
第三方面,提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的印刷体数学公式识别方法。
有益效果:
本发明提出了一种印刷体数学公式识别方法、装置及存储介质,首先利用编码器对印刷体数学公式图片进行特征提取,得到第一特征矩阵;考虑到数学公式图片一般包含着明显的语义信息,因此通过使用双向GRU模型提取第一特征矩阵的上下文语义特征,以得到第二特征矩阵。考虑到印刷体数学公式各元素间有着明显的相对位置信息,因此通过相对位置编码技术对第二特征矩阵进行相对位置编码,得到第三特征矩阵,最后将第三特征矩阵输入解码器完成印刷体数学公式识别过程。其中第三特征矩阵是第一特征矩阵的基础上依次进行了上下文语义特征的特征二次提取和元素间相对位置信息的编码,提取的特征更加能准确反映数学公式的特性,提高了最终印刷体数学公式识别的准确率。
说明书附图
图1是本发明实施例提供的一种印刷体数学公式识别方法流程图;
图2是本发明实施例提供的印刷体数学公式图片的公式核心区域提取算法示例图;
图3是本发明实施例提供的编码器的残差卷积神经网络模型原型图;
图4是本发明实施例提供的印刷体数学公式示例图;
图5是本发明实施例提供的编码器-解码器模型原图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
本发明的印刷体数学公式识别技术是基于机器学习中的encoder-decoder框架,其总体思想如下:Latex作为一种基于TEX的排版系统,其可将二维的数学公式描述为一串文本序列,而本发明的目标是将图片中的印刷体数学公式识别成Latex格式的公式。从本质上可以将其视为将图片中的印刷体数学公式翻译成Latex格式序列。
对于从图片类型的信息映射到文字类型的信息,本发明提出的主要思路主要是使用当前非常热门的机器翻译模型对印刷体数学公式进行识别。在印刷体数学公式图片识别的这个应用场景下,模型的输入变成一张图片,输出仍然是一串文字序列,所以该模型的encoder(编码器)部分不能再使用用于提取文字特征的RNN网络。
为了解决这个问题,本发明设计用残差卷积神经网络替代encoder中的RNN网络,用于提取印刷体数学公式图片的特征信息。但是由于印刷体数学公式图片与一般图片又有着不同,数学公式图片包含着明显的上下文语义特征,而且数学公式图片中各元素间还有着非常明显的相对位置信息,公式的上下文语义特征和相对位置信息对于公式的识别有着至关重要的影响。
如图4所示,由数学公式图片内容可发现在其存在着明显的上下文语义信息。比如左边出现的元素x、a2会在右边同样再次出现,因此,当解码器在翻译到某个位置时,可以用前面位置出现过的元素信息来预测当前 位置可能出现的元素,以提高翻译的准确率。如图4,位置标号4和5的x可以用位置1出现的x来增强预测结果,位置标号3的a2可以用位置标号2的a2来增强预测结果。所以使用公式图片中的上下文语义信息来预测某个位置可能出现的符号是可以提高公式识别的准确率。
此外,数学公式中各元素之间还存在着较为丰富的相对位置信息,如图4所示,公式中by和by两部分都是由两个单一符号'b'和'y',但是正是由于'b'和'y'的相对位置不同,导致了公式by和by所表述的含义完全不同。由此可见数学公式中各元素之间的相对位置信息对于公式的内容表达还是非常关键的。
一般的卷积神经网络在提取图片特征时,很难去提取到图片中的上下文语义特征以及对元素间的相对位置信息进行精准的表达。所以为了解决上述两个问题,本文提出了一个全新的解决方法,即在图片特征提取结束后,首先使用一个双向GRU模型提取图片特征的上下文语义特征,然后再使用相对位置编码技术对上一步得到的特征矩阵进行相对位置编码。得到一个全新的包含以下三个信息的新特征矩阵:(1)图片的特征信息,(2)公式的上下文语义信息,(3)公式中各元素间的相对位置信息。
接着将得到的新特征矩阵传入到decoder(解码器)部分,将其翻译成latex格式序列,由于这里输出的是一个Latex序列串,所以decoder部分采用RNN神经网络模型。
为进一步理解本发明的技术方案,下面结合一些具体实施例对本发明做进一步说明。
本发明实施例提供了一种印刷体数学公式识别方法,如图1、图5所示,包括:
S1:获取印刷体数学公式图片并进行预处理。本实施例中,所述预处理过程包括:
裁剪出印刷体数学公式图片的公式核心区域图片。
一般用户上传的待识别的印刷体数学公式图片,往往包含许多无效的空白部分,而印刷体数学公式图片中真正包含数学公式的部分仅只占整个图片很小的一部分。如果不对图片进行任何预处理,就会导致传入神经网络的无效数据较多,增加了计算的开销,也影响神经网络的识别效果。本 实施例通过截取印刷体数学公式图片中的公式核心区域,使得待识别的图片尺寸变小很多,能提高印刷体数学公式的识别效果,减少识别的时空开销。
其中,所述裁剪出印刷体数学公式图片的公式核心区域图片包括:
基于印刷体公式图片建立直角坐标系。
根据印刷体公式图片中像素点的灰度值确定公式核心区域的四个顶点坐标,基于四个顶点坐标裁剪出对应的公式核心区域图片。
更具体地,如图2所示,本实施例提供了一种预处理算法,包括:
以印刷体公式图片的最左上角为原点,以水平方向为横轴,以竖直方向为纵轴,建立直接坐标系。
横向及纵向遍历印刷体数学公式图片中每个像素点的通道值。
由左往右遍历公式图片,获取左方第一个满足灰度值小于100的点,取横坐标a1。
由上往下遍历公式图片,获取上方第一个满足灰度值小于100的点,取纵坐标b1。
由右往左遍历公式图片,获取右方第一个满足灰度值小于100的点,取横坐标a2。
由下往上遍历公式图片,获取下方第一个满足灰度值小于100的点,取纵坐标b2。
注:一般公式图片中只包含黑色和白色两种类型颜色,白色一般为背景色,黑色为公式内容区域,一般黑色区域的灰度值小于100,所以此处以灰度值100作为公式内容区域的选取阈值。
以(a1,b1)为待裁剪公式核心区域左上顶点,以(a2,b1)为待裁剪公式核心区域右上顶点,以(a1,b2)为待裁剪公式核心区域左下顶点,以(a2,b2)为待裁剪公式核心区域右下顶点,裁剪出对应的公式核心区域图片。
S2:基于编码器提取印刷体数学公式图片的第一特征矩阵。
本实施例中,基于残差卷积神经网络模型构建编码器,用于提取印刷体数学公式图片的第一特征矩阵。
本实施例中,经过多次对比实验验证,网络深度为37层的残差卷积 神经网络其识别效果比网络深度为20层、30层、56层的效果均好。
所以从识别效果、实用性、时空开销等角度综合考虑,最后选择总层数为37层的残差卷积神经网络作为编码器组件的主干网络。其结构如表1所示。
表1残差卷积神经网络的结构
本实施例设计的模型中,模型的输入是一张高为H宽为W的单通道图片。接下来对输入的图片采用64个7*7大小的卷积核进行卷积运算,并且使用池化层对其进行下采样,主要是为了将图片的特征矩阵数目提升到64,增加特征的丰富性,并且将图片的特征矩阵的宽高压缩至一半。然后紧接着通过36层卷积层进行特征提取,在后面36层卷积层中,所有卷积核均采用3*3大小卷积核,并且步长为1。激活函数统一采用Rule函数。36层卷积层可以分为4种不同类型的残差块,共计18个残差块,每个残差块内部由两层卷积层构成。4种不同类型的残差块间最大的区别在于每个残差块内部的卷积层的卷积核数目,由64,128,256,512依次递增。这4种不同类型的残差块的具体详细数据可见上表中 Con2_x~Con5_x的第三列。图片特征经过18个残差块共36层卷积层的卷积运算后,便得到了图片特征矩阵,即第一特征矩阵:
其中,
本实施例中,残差卷积神经网络模型设计的具体原型图可参见图3。需说明的是,37层的残差卷积神经网络只是一个优选的实施例,在其他实施例中,也可选择20层、30层、56层的残差卷积神经网络。
S3:使用双向GRU模型提取第一特征矩阵的上下文语义特征,得到第二特征矩阵。
本实施例中,使用双向GRU模型对编码器提取得到的第一特征矩阵进行上下文语义特征的提取。由于使用的是双向GRU模型,所以能同时从前往后和从后往前并行提取第一特征矩阵的上下文语义特征,增强上下文语义特征的丰富性,主要步骤包括:
①提取第一特征矩阵的水平方向上的上下文语义信息,并得到特征矩阵
②提取第一特征矩阵的垂直方向上的上下文语义信息,并得到特征矩阵
③将做矩阵加法得到第二特征矩阵
对第一特征矩阵进行上下文语义信息提取时,可以采用LSTM网络模型或双向GRU模型,为了实现更高的识别精度,本实施例中以利用双向GRU模型提取上下文语义信息为例进行说明。具体地,实现过程包括:
S301:将第一特征矩阵划分为H'*W'个维度为A的向量的Qi其中i∈1...H'*W'。
S302:将Qi按照i=1,2,3...H'*W'-1,H'*W'的顺序和i=H'*W',H'*W'-1...3,2,1的顺序分别输入双向GRU模型,每阶段双向GRU模型输出一个向量hj,其中hj的维度预设值为B;本实施例中B取50, 当然,其他实施例中B也可取60、70等,可根据实际需要调整;将得到的H'*W'个B维的向量拼接在一起,得到二维特征矩阵V(h)=[h1;h2……hH'*W'-1;hH'*W'],其中‘;’为矩阵拼接运算,并将矩阵V(h)转换为三维矩阵此过程为按行依次将Qi输入到双向GRU模型,提取水平方向上的上下文语义信息。
S303:将Qi按照i=1,W'+1,2*W'+1...,(H'-1)*W',H'*W'的顺序和i=H'*W',(H'-1)*W'...2*W'+1,W'+1,1的顺序分别输入双向GRU模型,剩余做法和步骤S302一致,最终得到三维矩阵此过程为按列依次将Qi输入到双向GRU模型,提取垂直方向上的上下文语义信息。
S304:将每一个相同位置的元素值进行相加,得到第二特征矩阵该第二特征矩阵包含了第一特征矩阵的上下文语义特征。
S4:使用相对位置编码技术对第二特征矩阵进行相对位置编码,得到第三特征矩阵。
本实施例在这里增加了一个相对位置编码器用于对数学符号元素进行位置信息的表示。使用相对位置编码技术对第二特征矩阵进行相对位置编码的具体过程如下:
S401:初始化一个与第二特征矩阵维度一致的矩阵P,维度均为B*H'*W'。
S402:用P(i,x,y)代表矩阵P每个位置的元素值,同理V(2)(i,x,y)代表第二特征矩阵每个位置的元素值;则矩阵P的计算方法如下:
其中,a和b分别代表垂直缩放系数和水平缩放系数,根据实际需要,取任意正数即可;此实例中,a取1,b取1,当然其他实施例中,a和b也可取2,3等。
S403:将编码后得到的矩阵P和第二特征矩阵做矩阵加法,得到第三特征矩阵
S5:将第三特征矩阵输入解码器中,得到数学公式的Latex格式序列。
解码器的主要作用是将经过优化后的第三特征矩阵进行解码,将其翻译成特定的Latex字符,需要注意的是,解码器输出的Latex格式序列的长度不是固定的。
本实施例中,所述解码器是一个RNN模型。该RNN模型总共有n个阶段(n由解码器预测出latex串的长度决定),每个阶段会输出一个向量yt,向量yt的维度等于Latex数学符号的字典大小,Latex数学符号字典包括了常用的数学符号映射,例如数学中分数在Latex中用‘\frac’表示,积分用‘\int’表示等。本实例中总共收集了485个latex数学符号,所以向量yt维度的大小设置为485。同时,对向量yt进行了SoftMax,既yt中485个分量,每个分量的值都代表着对应的485个Latex数学符号预测概率,其中最大的分量值的下标就代表着yt预测的Latex符号在Latex数学符号字典中的元素的位置。
本发明的一些实施例还提供了一种数学公式识别装置,包括:
预处理模块,用于获取印刷体数学公式图片并进行预处理。
编码模块,用于基于编码器提取印刷体数学公式图片的第一特征矩阵。
特征处理模块,用于使用双向GRU模型提取第一特征矩阵上下文语义特征,得到第二特征矩阵;使用相对位置编码技术对第二特征矩阵进行相对位置编码,得到第三特征矩阵。
解码模块,用于将第三特征矩阵输入解码器中,得到数学公式的Latex格式序列。
应当理解,本实施例中的功能单元模块可以集中在一个处理单元中,也可以是各个单元模块单独物理存在,也可以是两个或两个以上的单元模块集成在一个单元模块中,可以采用硬件或软件的形式来实现。
本发明的另一些实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的印刷体数学 公式识别方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能 按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

  1. 一种印刷体数学公式识别方法,其特征在于,包括:
    获取印刷体数学公式图片并进行预处理;
    基于编码器提取印刷体数学公式图片的第一特征矩阵;
    提取第一特征矩阵的上下文语义特征,得到第二特征矩阵;
    使用相对位置编码技术对第二特征矩阵进行相对位置编码,得到第三特征矩阵;
    将第三特征矩阵输入解码器中,得到数学公式的Latex格式序列。
  2. 根据权利要求1所述的印刷体数学公式识别方法,其特征在于,所述预处理过程包括:
    裁剪出印刷体数学公式图片的公式核心区域图片。
  3. 根据权利要求2所述的印刷体数学公式识别方法,其特征在于,所述裁剪出印刷体数学公式图片的公式核心区域图片包括:
    基于印刷体公式图片建立直角坐标系;
    根据印刷体公式图片中像素点的灰度值确定公式核心区域的四个顶点坐标,基于四个顶点坐标裁剪出对应的公式核心区域图片。
  4. 根据权利要求1所述的印刷体数学公式识别方法,其特征在于,所述编码器基于残差卷积神经网络模型构建而成,用于提取印刷体数学公式图片的第一特征矩阵
  5. 根据权利要求4所述的印刷体数学公式识别方法,其特征在于,所述编码器为37层的残差卷积神经网络,其中conv_1采用64个7*7大小的卷积核,步长为1;池化层的窗口为2*2,步长为2;剩下36层卷积层中,所有卷积核均采用3*3大小卷积核,且步长为1;激活函数均采用Rule函数;剩下36层卷积层分为四种不同类型共计18个残差块,每个残差块内部由两层卷积层构成,组成如下:Conv_2x中包括2个残差块,其内部卷积层的卷积核数目为64;Conv_3x中包括6个残差块,其内部卷积层的卷积核数目为128;Conv_4x中包括6个残差块,其内部卷积层的卷积核数目为256;Conv_5x中包括4个残差块,其内部卷积层的卷积核数目为512。
  6. 根据权利要求1至5任一项所述的印刷体数学公式识别方法,其特征在于,所述提取第一特征矩阵的上下文语义特征,得到第二特征矩阵, 主要步骤如下:
    提取第一特征矩阵的水平方向上的上下文语义特征,并得到特征矩阵
    提取第一特征矩阵的垂直方向上的上下文语义特征,并得到特征矩阵
    做矩阵加法得到第二特征矩阵
  7. 根据权利要求1至5任一项所述的印刷体数学公式识别方法,其特征在于,所述提取第一特征矩阵的上下文语义特征,得到第二特征矩阵,具体包括:
    将第一特征矩阵划分为H'*W'个维度为A的向量Qi其中i∈1...H'*W';
    同时将Qi按照i=1,2,3...H'*W'-1,H'*W'的顺序和i=H'*W',H'*W'-1...3,2,1的顺序分别输入双向GRU模型,每阶段双向GRU模型输出一个向量hj,其中hj的维度预设值为B;将得到的H'*W'个B维的向量拼接在一起并转换为三维矩阵,最终得到三维矩阵
    同时将Qi按照i=1,W'+1,2*W'+1...,(H'-1)*W',H'*W'的顺序和i=H'*W',(H'-1)*W'...2*W'+1,W'+1,1的顺序分别输入双向GRU模型,每阶段双向GRU模型输出一个向量hk,其中hk的维度预设值为B;将得到的H'*W'个B维的向量拼接在一起并转换为三维矩阵,最终得到三维矩阵
    最后将每一个相同位置的元素值进行相加,得到第二特征矩阵
  8. 根据权利要求1至5任一项所述的印刷体数学公式识别方法,其特征在于,所述使用相对位置编码技术对第二特征矩阵进行相对位置编码,得到第三特征矩阵,具体包括:
    初始化生成一个与第二特征矩阵维度一致的矩阵P;
    用P(i,x,y)代表矩阵P每个位置的元素值,同理V(2)(i,x,y)代表第二特 征矩阵每个位置的元素值;则矩阵P的计算方法如下:
    其中,a和b分别代表垂直缩放系数和水平缩放系数;
    将经过位置编码后得到的矩阵P和第二特征矩阵做矩阵加法,得到第三特征矩阵
  9. 一种印刷体数学公式识别装置,其特征在于,包括:
    预处理模块,用于获取印刷体数学公式图片并进行预处理;
    编码模块,用于基于编码器提取印刷体数学公式图片的第一特征矩阵;
    特征处理模块,用于提取第一特征矩阵的上下文语义特征得到第二特征矩阵;使用相对位置编码技术对第二特征矩阵进行相对位置编码,得到第三特征矩阵;
    解码模块,用于将第三特征矩阵输入解码器中,得到数学公式的Latex格式序列。
  10. 一种计算机可读存储介质,其存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的印刷体数学公式识别方法。
PCT/CN2023/100351 2022-08-05 2023-06-15 一种印刷体数学公式识别方法、装置及存储介质 WO2024027349A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210935737.7A CN115063799B (zh) 2022-08-05 2022-08-05 一种印刷体数学公式识别方法、装置及存储介质
CN202210935737.7 2022-08-05

Publications (1)

Publication Number Publication Date
WO2024027349A1 true WO2024027349A1 (zh) 2024-02-08

Family

ID=83208356

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2023/100351 WO2024027349A1 (zh) 2022-08-05 2023-06-15 一种印刷体数学公式识别方法、装置及存储介质

Country Status (2)

Country Link
CN (1) CN115063799B (zh)
WO (1) WO2024027349A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063799B (zh) * 2022-08-05 2023-04-07 中南大学 一种印刷体数学公式识别方法、装置及存储介质
CN116188822B (zh) * 2023-04-28 2023-08-18 青岛尘元科技信息有限公司 图像相似性判断方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614944A (zh) * 2018-12-17 2019-04-12 科大讯飞股份有限公司 一种数学公式识别方法、装置、设备及可读存储介质
CN111368773A (zh) * 2020-03-12 2020-07-03 广东小天才科技有限公司 数学公式识别方法及装置、终端设备和可读存储介质
US20200344194A1 (en) * 2019-04-29 2020-10-29 Microsoft Technology Licensing, Llc Purpose detection in communications using machine learning
WO2021208666A1 (zh) * 2020-04-16 2021-10-21 深圳市商汤科技有限公司 字符识别方法及装置、电子设备和存储介质
CN114255379A (zh) * 2021-12-22 2022-03-29 南京邮电大学 基于编解码的数学公式识别方法及装置、可读存储介质
CN115063799A (zh) * 2022-08-05 2022-09-16 中南大学 一种印刷体数学公式识别方法、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283336A (zh) * 2021-05-21 2021-08-20 湖南大学 一种文本识别方法与系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614944A (zh) * 2018-12-17 2019-04-12 科大讯飞股份有限公司 一种数学公式识别方法、装置、设备及可读存储介质
US20200344194A1 (en) * 2019-04-29 2020-10-29 Microsoft Technology Licensing, Llc Purpose detection in communications using machine learning
CN111368773A (zh) * 2020-03-12 2020-07-03 广东小天才科技有限公司 数学公式识别方法及装置、终端设备和可读存储介质
WO2021208666A1 (zh) * 2020-04-16 2021-10-21 深圳市商汤科技有限公司 字符识别方法及装置、电子设备和存储介质
CN114255379A (zh) * 2021-12-22 2022-03-29 南京邮电大学 基于编解码的数学公式识别方法及装置、可读存储介质
CN115063799A (zh) * 2022-08-05 2022-09-16 中南大学 一种印刷体数学公式识别方法、装置及存储介质

Also Published As

Publication number Publication date
CN115063799B (zh) 2023-04-07
CN115063799A (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN109933756B (zh) 基于ocr的图像转档方法、装置、设备及可读存储介质
WO2024027349A1 (zh) 一种印刷体数学公式识别方法、装置及存储介质
CN111476067B (zh) 图像的文字识别方法、装置、电子设备及可读存储介质
EP1999688B1 (en) Converting digital images containing text to token-based files for rendering
CN110178139B (zh) 使用具有注意力机制的全卷积神经网络的字符识别的系统和方法
JP7132654B2 (ja) レイアウト解析方法、読取り支援デバイス、回路および媒体
CN112633431B (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
CN112381057A (zh) 手写文字识别方法及装置、存储介质、终端
CN112036406B (zh) 一种图像文档的文本抽取方法、装置及电子设备
CN114596566B (zh) 文本识别方法及相关装置
CN112818951A (zh) 一种票证识别的方法
CN113780276B (zh) 一种结合文本分类的文本识别方法及系统
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
WO2024041032A1 (zh) 基于不可编辑的图文类图像生成可编辑文档的方法及装置
JP2022160662A (ja) 文字認識方法、装置、機器、記憶媒体、スマート辞書ペン及びコンピュータプログラム
CN114973229A (zh) 文本识别模型训练、文本识别方法、装置、设备及介质
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity
CN116597467B (zh) 一种图纸检测方法、系统、设备及存储介质
CN113065561A (zh) 基于精细字符分割的场景文本识别方法
CN115937862A (zh) 一种端到端的集装箱号码识别方法及系统
WO2024103997A1 (zh) 手写体识别方法、手写体识别模型的训练方法及装置
CN117079288B (zh) 一种识别场景中文字语义的关键信息提取方法及模型
WO2023155302A1 (zh) Pdf版面分割方法和装置、电子设备、存储介质
CN115861663B (zh) 一种基于自监督学习模型的文档图像内容比对方法
CN116486420B (zh) 文档图像的实体抽取方法、装置及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23849059

Country of ref document: EP

Kind code of ref document: A1