WO2021115159A1 - 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质 - Google Patents

文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质 Download PDF

Info

Publication number
WO2021115159A1
WO2021115159A1 PCT/CN2020/133116 CN2020133116W WO2021115159A1 WO 2021115159 A1 WO2021115159 A1 WO 2021115159A1 CN 2020133116 W CN2020133116 W CN 2020133116W WO 2021115159 A1 WO2021115159 A1 WO 2021115159A1
Authority
WO
WIPO (PCT)
Prior art keywords
attention
feature
channel
picture
input
Prior art date
Application number
PCT/CN2020/133116
Other languages
English (en)
French (fr)
Inventor
白翔
王勃飞
徐清泉
许永超
刘少丽
Original Assignee
中兴通讯股份有限公司
华中科技大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中兴通讯股份有限公司, 华中科技大学 filed Critical 中兴通讯股份有限公司
Publication of WO2021115159A1 publication Critical patent/WO2021115159A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Definitions

  • the embodiments of the present application relate to the field of computer vision technology, and more specifically, to a text recognition network model training method, text recognition method, device, terminal, and computer storage medium thereof.
  • Handwritten Chinese Character Recognition has always been a very active and challenging research direction in the field of computer vision. It has been studied since the 1960s and has made great progress. Many real-life applications are closely related to it. , Such as mail sorting, bank check reading, transcription of books and handwritten notes, etc. Although many studies have been carried out, the recognition of handwritten Chinese characters is still a very challenging task. On the one hand, due to the large number of Chinese character categories and the existence of a large number of similar characters, it is easy to confuse; on the other hand, due to differences People have huge differences in writing styles, resulting in obvious visual differences even for the same type of characters, which brings great difficulties to handwritten Chinese character recognition.
  • the embodiments of the present application provide a text recognition network model training method, a text recognition method, a device, a terminal and a computer storage medium thereof, which can improve the accuracy of visually confusing text recognition.
  • the embodiment of the present application provides a method for training a text recognition network model, which includes the following steps: standardize each picture in the original data set, and mark each picture with a character category to obtain a character category labeled Standard training data set; input each picture in the standard training data set into a convolutional neural network, extract convolutional features of the picture, and obtain a depth feature map containing the convolutional features; input the depth feature map with multiple
  • the attention mechanism module of each channel is used to obtain the attention weight of each channel, and each channel of the depth feature map is re-scaled using the attention weight to obtain multiple attention feature maps;
  • the force feature maps are respectively input to the fully connected layer to obtain multiple attention feature vectors; the multiple attention feature vectors are feature-fused and input to the character fully connected layer for character category prediction; according to the result of the character category prediction Labeling with the character category, designing a target loss function, using a backpropagation algorithm to iterate, minimizing the target loss function, and optimizing the attention weight.
  • an embodiment of the present application provides a text recognition method, which includes: standardizing a picture to be tested and scaling it to a preset height H and a preset width W; inputting the picture to be tested into a convolutional neural network, and extracting the picture to be tested Convolution features of the picture to obtain a depth feature map containing the convolution features; input the depth feature map to an attention mechanism module with multiple channels to obtain the attention weight of each channel, and use the attention weight Re-scale each channel of the depth feature map to obtain multiple attention feature maps; input each of the attention feature maps into the fully connected layer to obtain multiple attention feature vectors; The force feature vector is used for feature fusion and input to the character class fully connected layer for character class prediction.
  • an embodiment of the present application provides a text recognition network model training device, including: a memory, a processor, and a computer program stored in the memory and capable of running on the processor, and the processor executes the computer program When realizing the text recognition network model training method as described in the embodiment of the second aspect.
  • an embodiment of the present application provides a character recognition device, including: a memory, a processor, and a computer program stored in the memory and capable of running on the processor.
  • the processor executes the computer program as follows The character recognition method described in the embodiment of the third aspect.
  • an embodiment of the present application provides a terminal, which includes the text recognition network model training device as described in the foregoing fourth aspect or includes the text recognition device as described in the fifth aspect.
  • an embodiment of the present application provides a computer storage medium that stores computer-executable instructions, and the computer-executable instructions are used to execute the text recognition network model training method described in the embodiment of the second aspect or to Perform the character recognition method as described in the embodiment of the third aspect.
  • FIG. 1 is a schematic diagram of the process of a text recognition network model training method and a text recognition method provided by an embodiment of the present application;
  • FIG. 2 is a flowchart of a method for training a text recognition network model provided by an embodiment of the present application
  • FIG. 3 is a network structure diagram of a text recognition network model provided by an embodiment of the present application, and "CA” represents a channel attention mechanism (Channel Attention);
  • Fig. 4 is a structural diagram of a convolutional neural network provided by an embodiment of the present application.
  • FIG. 5 is a structural diagram of an attention mechanism module provided by an embodiment of the present application.
  • FIG. 6 is a flowchart of a character recognition method provided by another embodiment of the present application.
  • FIG. 7 is a structural diagram of a text recognition network model training device provided by another embodiment of the present application.
  • FIG. 8 is a structural diagram of a character recognition device provided by another embodiment of the present application.
  • Handwritten Chinese Character Recognition has always been a very active and challenging research direction in the field of computer vision. It has been studied since the 1960s and has made great progress. Many real-life applications are closely related to it. , Such as mail sorting, bank check reading, transcription of books and handwritten notes, etc. Although many studies have been carried out, the recognition of handwritten Chinese characters is still a very challenging task. On the one hand, due to the large number of Chinese character categories and the existence of a large number of similar characters, it is easy to confuse; on the other hand, due to differences People have huge differences in writing styles, resulting in obvious visual differences even for the same type of characters, which brings great difficulties to handwritten Chinese character recognition.
  • a method has proposed a handwritten Chinese character recognition method based on recurrent neural network (RNN) and attention mechanism.
  • RNN recurrent neural network
  • This method uses residual convolutional neural network as the backbone network, and uses RNN to iteratively update the attention distribution to correct character prediction.
  • This method can use the attention mechanism to locate the local area of characters to recognize visually similar Chinese characters.
  • this method has two main shortcomings: First, it is based on the iterative update of the attention distribution method, which is highly dependent on the prediction results of the previous iteration, which may accumulate initial errors, resulting in limited improvement in recognition accuracy; second, the method uses RNN Multiple iterations, longer training time, and more complicated processes, because the internal mechanism of RNN makes it unable to make full use of GPU parallel computing, and problems such as gradient disappearance or gradient explosion are prone to occur in the back propagation process.
  • this application provides a text recognition network model training method, text recognition method, device, terminal, and computer storage medium.
  • the feature extraction of the input image is performed through the convolutional neural network, and then the feature is obtained through the attention mechanism module. Distinguishing attention features, after feature fusion, the character category prediction results are obtained.
  • a loss function is also designed according to the character category annotations of the input pictures and the character category prediction results, and the attention weight is optimized, thereby improving the accuracy of text recognition It is more robust to the identification of difficult samples.
  • FIG. 1 is a schematic flowchart of a text recognition network model training method and a text recognition method provided by an embodiment of the present application, wherein the solid arrow represents the training step, and the dashed arrow represents the recognition step.
  • the text recognition network model includes a deep convolutional neural network, a multi-channel attention mechanism module, a comparative attention feature learning branch and a multi-attention feature fusion module.
  • Deep Convolutional Neural Network A neural network that can be used for classification.
  • the network is mainly composed of a convolutional layer and a pooling layer.
  • the convolutional layer is used to extract image features; the role of the pooling layer is to reduce the dimensionality of the feature vector output by the convolutional layer and reduce overfitting.
  • the parameters in the network can be updated through the back propagation algorithm.
  • the deep convolutional neural network is composed of 14 convolutional layers and 4 pooling layers.
  • Attention mechanism module imitating the way humans observe things. Generally speaking, when people look at a picture, they will not only grasp the image as a whole, but also pay more attention to some local information of the picture, such as the position of the table. , The type of goods, etc. In the field of computer vision, the essence of the attention mechanism is to select the information that needs more attention from the input information, and extract the features from the key parts.
  • the introduction of the attention mechanism on the one hand, can increase the expressive ability of the model without increasing the complexity of the model; on the other hand, the attention mechanism only selects the input information that is important to the model for processing, which can improve the performance of the neural network. effectiveness.
  • Contrast the attention feature learning branch Extracting the global features of the image can classify general objects well, but for the fine-grained classification problem of handwritten Chinese characters, it is necessary to pay attention to the distinguishing local features of the characters.
  • the purpose of the learning of the contrast attention feature is to allow the attention mechanism module of multiple channels to locate multiple local regions on the input sample, and train under the supervision of the contrast loss function and the regional center loss function to obtain the distracted attention area, so that the model It is more likely to locate the distinguishing features of characters, thereby reducing the recognition error rate of visually similar characters.
  • an embodiment of the present application proposes a text recognition network model training method, which includes the following steps:
  • Step S100 Standardize each picture in the original data set, and mark each picture with a character category to obtain a standard training data set with character category labels;
  • Step S200 input each picture in the standard training data set into a convolutional neural network, extract convolutional features of the picture, and obtain a depth feature map containing the convolutional features;
  • Step S300 input the depth feature map to the attention mechanism module with multiple channels to obtain the attention weight of each channel, and use the attention weight to re-scale each channel of the depth feature map to obtain multiple attention feature maps;
  • Step S400 input each attention feature map into the fully connected layer to obtain multiple attention feature vectors
  • Step S500 Perform feature fusion of multiple attention feature vectors, and input them to the character class fully connected layer for character class prediction;
  • Step S600 According to the result of the character category prediction and the character category labeling, design a target loss function, and use the back propagation algorithm to iterate to minimize the target loss function and optimize the attention weight.
  • the convolutional neural network includes 2 convolutional layers (conv1, conv2) and 4 convolution modules
  • the Conv-Block is a "bottleneck" structure.
  • the number of channels in the middle layer of the 3 convolutional layers is less than that of the upper and lower layers; between each conv-block Connect with the largest pooling layer with a step size of 2, halve the resolution of the input feature map, and finally after 4 convolution modules (Conv-Block), the output size is 6*6*448 depth feature map X i , these deep feature maps X i contain high-level semantic information obtained through 14 convolutional layers.
  • step S300 comprises: the size of the last convolution module (Conv-Block) for the output 448 * 6 * 6 characterized in FIG depth X i as input, having a plurality delivered to Attention mechanism module of two channels, calculating attention feature map
  • the value of S is 2; the attention mechanism module draws on the channel attention mechanism introduced by the SENet method.
  • is the Sigmoid function
  • is the ReLU function
  • r is the channel compression ratio
  • step S400 specifically includes: inputting the multiple attention feature maps obtained in step S300 to the comparative attention feature learning branch for extracting the attention features of the local distinguishing regions, that is, each attention Feature map Input respectively to the fully connected layer containing 768 neurons:
  • the operator F flatt ( ⁇ ) flattens the matrix into a 1-dimensional vector.
  • [] represents the cascade operation
  • Y i represents the image I i characters belonging to the class corresponding to 3755 points, the highest score as the prediction result of the character category category
  • step S600 specifically includes: labeling gt with the character category as the expected output of the network model to predict the result To predict the output of the network model, design the target loss function between the expected output of the network model and the predicted output of the network model, and minimize the cross-entropy loss function L cls during the training process to ensure each attention feature map It can locate the area that is important for character classification; for the comparative attention feature learning branch, take the multiple attention features obtained in step S300 as input, and use the metric learning loss function, that is, the ratio loss function and the regional center loss function , To make the attention feature map of the network model focus on different regions with distinguishing features of the input picture; specifically, the contrast loss function is applied to the attention feature to capture the separable attention regions;
  • L cls is the cross-entropy loss function
  • L center is the area center loss function used to reduce the distance between the various attention features of the same type of characters
  • L contra is the multiple attention feature vectors f i s of the picture I i
  • is a hyperparameter used to control the weight of the two loss functions
  • the contrast loss function is defined as:
  • D(I i ) is defined as:
  • m is the preset threshold
  • the contrast loss function is to zoom out the multiple attention feature vectors f i s of the input image I i in the high-dimensional space, so that the distance between the two vectors is greater than the preset threshold m
  • this implementation m is set to 40 to ensure that the local features of the characters located by each attention feature map are different, so that the text recognition network model is more likely to dig out the distinguishing features of the character.
  • the regional center loss function is defined as:
  • the area center loss function is used to reduce the distance between the attention features of the same type of characters, so that the multiple attention features learned by the same type of characters are similar to each other, so that each attention feature map Are activated in the same character part, where Is the center of the sth attention feature of the y i class, d represents the dimension of the feature, and the attention feature center Initialize it with a Gaussian distribution with a mean of 0 and a variance of 1, and then update the feature center according to the regional center loss function algorithm.
  • the back propagation algorithm is used to iterate, and the cross-entropy loss function is minimized during the training process to realize the optimal network model.
  • the original data set is used for iterative training during the training process to obtain the parameters of the network model.
  • an embodiment of the present application proposes a text recognition method, which uses a text recognition network model trained in the foregoing embodiment of the present application to recognize handwritten Chinese character pictures, including the following steps:
  • Step A100 Standardize the picture I i to be tested and scale it to a preset height H and a preset width W;
  • Step A200 test image I i to be input convolutional neural network, wherein the convolution extracted image I i to be tested to obtain the depth of the convolutions characteristic feature of FIG X i;
  • Step A300 wherein the depth module attentional mechanisms FIG input X i having a plurality of channels, each channel to obtain the right to re-focus, re-using the focus depth weights for each feature map X channel i to obtain a plurality of scaled Note Force map
  • Step A400 Convert each attention feature map Input the fully connected layer separately to obtain multiple attention feature vectors f i s ;
  • Step A500 Perform feature fusion of multiple attention feature vectors f i s , and input them to the character class fully connected layer for character class prediction.
  • step A200 specifically includes: the convolutional neural network includes 2 convolutional layers (conv1, conv2) and 4 convolutional modules, and the image to be tested I i is input into the 2 convolutional layers (conv1, conv2)
  • each convolutional layer is followed by a batch normalization layer (Batch Normalization, BN) and a nonlinear activation function ReLU to obtain a feature map with a size of 96*96*64, and then input the feature map to the step size
  • the maximum pooling layer of 2 is sampled to obtain a 48*48*64 feature map, and then the feature map is input into 4 convolution modules (Conv-Block), and each convolution module is composed of 3 convolution kernels.
  • a depth size of the output characteristic of FIG. 6 * 448 6 * X i, X i comprises a depth wherein FIG. 14 through convolution advanced layers obtained Semantic information.
  • is the Sigmoid function
  • is the ReLU function
  • r is the channel compression ratio
  • step A400 specifically includes: inputting the multiple attention feature maps obtained in step A300 to the comparative attention feature learning branch for extracting the attention features of the local distinguishing regions, that is, each attention Feature map Input respectively to the fully connected layer containing 768 neurons:
  • the operator F flatt ( ⁇ ) flattens the matrix into a 1-dimensional vector.
  • [ ⁇ ] represents the cascade operation
  • Y i represents the corresponding score of the 3755 types of Chinese characters in the picture I i to be tested
  • the category with the highest score is the predicted result of the character category
  • an embodiment of the present application provides a text recognition network model training device 100, including: a memory 101, a processor 102, and a computer program stored in the memory and running on the processor, the processor
  • the text recognition network model training method in the foregoing embodiment is implemented, for example, the steps S100 to S600 of the method in FIG. 2 described above are executed.
  • the processor 102 and the memory 101 may be connected by a bus or in other ways. In FIG. 7, the connection by a bus is taken as an example.
  • an embodiment of the present application provides a text recognition device 200, including: a memory 201, a processor 202, and a computer program stored in the memory and running on the processor, and the processor executes the
  • the computer program implements the character recognition method in the above embodiment, for example, executes the steps A100 to A500 of the method in FIG. 6 described above.
  • the processor 202 and the memory 201 may be connected by a bus or in other ways. In FIG. 8, the connection by a bus is taken as an example.
  • An embodiment of the present application also provides a terminal, which includes the text recognition network model training device 100 described in the foregoing embodiment or includes the text recognition device 200 described in the foregoing embodiment.
  • the terminal can be any type of smart terminal, such as a smart phone, a tablet computer, a laptop computer, or a desktop computer.
  • an embodiment of the present application also provides a computer-readable storage medium, the computer-readable storage medium stores computer-executable instructions, and the computer-executable instructions are executed by a processor or a controller, for example, as shown in FIG.
  • Execution by one of the processors 102 in 7 can enable the aforementioned processor 102 to execute the text recognition network model training method in the aforementioned embodiment, for example, to execute the steps S100 to S600 of the method in FIG. 2 described above.
  • execution by a processor 202 in FIG. 8 can cause the processor 202 to execute the character recognition method in the foregoing embodiment, for example, to execute the steps A100 to A500 of the method in FIG. 6 described above.
  • the input picture is feature extracted through the convolutional neural network, and then the distinguishing attention feature is obtained through the attention mechanism module, and the character category prediction result is obtained after feature fusion.
  • a loss function is also designed according to the character category annotation of the input picture and the character category prediction result, and the attention weight is optimized, so as to improve the accuracy of character recognition, and the recognition of difficult samples is more robust.
  • computer storage medium includes volatile and non-volatile data implemented in any method or technology for storing information (such as computer-readable instructions, data structures, program modules, or other data).
  • Information such as computer-readable instructions, data structures, program modules, or other data.
  • Computer storage media include but are not limited to RAM, ROM, EEPROM, flash memory or other memory technologies, CD-ROM, digital versatile disk (DVD) or other optical disk storage, magnetic cassettes, magnetic tapes, magnetic disk storage or other magnetic storage devices, or Any other medium used to store desired information and that can be accessed by a computer.
  • communication media usually contain computer-readable instructions, data structures, program modules, or other data in a modulated data signal such as carrier waves or other transmission mechanisms, and may include any information delivery media. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

一种文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质。文字识别方法包括:将待测试图片进行标准化,缩放到预设高度H和预设宽度W(A100);将所述待测试图片输入卷积神经网络,提取所述待测试图片的卷积特征,得到包含所述卷积特征的深度特征图(A200);将所述深度特征图输入具有多个通道的注意力机制模块,得到每个通道的注意力权重,使用所述注意力权重重新对所述深度特征图的每个通道进行缩放获得多个注意力特征图(A300);将每一个所述注意力特征图分别输入全连接层,得到多个注意力特征向量(A400);将多个所述注意力特征向量进行特征融合,输入到字符类全连接层进行字符类别预测(A500)。

Description

文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质
相关申请的交叉引用
本申请基于申请号为201911253120.1、申请日为2019年12月9日的中国专利申请提出,并要求该中国专利申请的优先权,该中国专利申请的全部内容在此引入本申请作为参考。
技术领域
本申请实施例涉及计算机视觉技术领域,更具体地,涉及一种文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质。
背景技术
手写汉字识别(HCCR)一直是计算机视觉领域的一个非常活跃的、具有挑战性的研究方向,自20世纪60年代开始研究,并取得了很大的进步,很多现实生活中的应用都和它息息相关,如邮件分拣,银行支票阅读,书籍和手写笔记转录等等。尽管已经进行了许多研究,但手写汉字的识别仍然是一个极具挑战性的任务,一方面是由于中文字符类别的数量众多,并且存在大量的形近字,容易混淆;另一方面是由于不同的人有着巨大的书写风格差异,导致即使是同一类字符,视觉上的差异仍然很明显,这些都给手写汉字识别带来了很大困难。
大多数已有的基于深度学习的方法利用卷积神经网络,通过从整个图像中学习全局语义特征来进行手写汉字的分类,但这对于视觉上相似的字符的识别是不够的,因为容易混淆的字符之间往往只存在细微差异。具体而言,这些方法提供的全局注意力可以很好地定位整个字符,但是不同类字符间的注意力区域有较大重叠,缺乏区分性,这样可能导致形近字和类内差异大的字的识别错误率较高。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
第一方面,本申请实施例提供了一种文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质,能够提高视觉上容易混淆的文字识别的准确度。
第二方面,本申请实施例提供了一种文字识别网络模型训练方法,包括以下步骤:将原始数据集中的每张图片进行标准化,并对每张图片进行字符类别标注,得到带字符类别标注的标准训练数据集;将所述标准训练数据集中的每张图片输入卷积神经网络,提取图片的卷积特征,得到包含所述卷积特征的深度特征图;将所述深度特征图输入具有多个通道的注意力机制模块,得到每个通道的注意力权重,使用所述注意力权重重新对所述深度特征图的每个通道进行缩放获得多个注意力特征图;将每一个所述注意力特征图分别输入全连接层,得到多个注意力特征向量;将多个所述注意力特征向量进行特征融合,输入到字符类全连接层进行字符类别预测;根据所述字符类别预测的结果和所述字符类别标注,设计目标损失函数,利用反向传播算法进行迭代,最小化所述目标损失函数,优化所述注意力权重。
第三方面,本申请实施例提供了一种文字识别方法,包括:将待测试图片进行标准化,缩放到 预设高度H和预设宽度W;将待测试图片输入卷积神经网络,提取待测试图片的卷积特征,得到包含所述卷积特征的深度特征图;将所述深度特征图输入具有多个通道的注意力机制模块,得到每个通道的注意力权重,使用所述注意力权重重新对所述深度特征图的每个通道进行缩放获得多个注意力特征图;将每一个所述注意力特征图分别输入全连接层,得到多个注意力特征向量;将多个所述注意力特征向量进行特征融合,输入到字符类全连接层进行字符类别预测。
第四方面,本申请实施例提供了一种文字识别网络模型训练装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第二方面实施例所述的文字识别网络模型训练方法。
第五方面,本申请实施例提供了一种文字识别装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第三方面实施例所述的文字识别方法。
第六方面,本申请实施例提供了一种终端,包括如上述第四方面所述的文字识别网络模型训练装置或者包括如上述第五方面所述的文字识别装置。
第七方面,本申请实施例提供了一种计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如第二方面实施例所述的文字识别网络模型训练方法或用于执行如第三方面实施例所述的文字识别方法。
本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1是本申请实施例提供的文字识别网络模型训练方法和文字识别方法流程示意图;
图2是本申请一个实施例提供的文字识别网络模型训练方法的流程图;
图3是本申请实施例提供的文字识别网络模型的网络结构图,“CA”表示通道注意力机制(Channel Attention);
图4是本申请实施例提供的卷积神经网络结构图;
图5是本申请实施例提供的注意力机制模块结构图;
图6是本申请另一实施例提供的文字识别方法的流程图;
图7是本申请另一实施例提供的文字识别网络模型训练装置的结构图;
图8是本申请另一实施例提供的文字识别装置的结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。
手写汉字识别(HCCR)一直是计算机视觉领域的一个非常活跃的、具有挑战性的研究方向,自20世纪60年代开始研究,并取得了很大的进步,很多现实生活中的应用都和它息息相关,如邮件分拣,银行支票阅读,书籍和手写笔记转录等等。尽管已经进行了许多研究,但手写汉字的识别仍然是一个极具挑战性的任务,一方面是由于中文字符类别的数量众多,并且存在大量的形近字,容易混淆;另一方面是由于不同的人有着巨大的书写风格差异,导致即使是同一类字符,视觉上的差异仍然很明显,这些都给手写汉字识别带来了很大困难。
大多数已有的基于深度学习的方法利用卷积神经网络,通过从整个图像中学习全局语义特征来进行手写汉字的分类,但这对于视觉上相似的字符的识别是不够的,因为容易混淆的字符之间往往只存在细微差异。具体而言,这些方法提供的全局注意力可以很好地定位整个字符,但是不同类字符间的注意力区域有较大重叠,缺乏区分性,这样可能导致形近字和类内差异大的字的识别错误率较高。
根据我们的日常经验,当人们在多个容易混淆的汉字中识别出特定字符时,通常会从观察候选汉字中的细节特征,然后比较它们的相似性和差异,以此来确定特定的汉字类别。例如,“鸟”和“乌”是两个容易产生视觉混淆的汉字字符,但我们可以观察它们的上半部分有无“丶”来将它们区分开来;类似地,对于“漫”和“谩”,我们可以对它们的左半部分的偏旁来判断。
最近,有方法提出基于循环神经网络(RNN)和注意力机制的手写汉字识别方法,该方法使用残差卷积神经网络作为主干网络,利用RNN迭代更新注意力分布从而修正字符预测。该方法能够利用注意力机制定位到字符的局部区域以识别视觉上相似的汉字字符。但是,这种方法有两点主要不足:首先,基于迭代更新注意力分布的方法,高度依赖前一次迭代的预测结果,可能会使初始误差积累,导致识别精度提高有限;其次,该方法使用RNN多次迭代,训练时间更长,流程更为复杂,因为RNN的内部机制导致其无法充分利用GPU并行计算,而且反向传播过程中容易出现梯度消失或梯度爆炸等问题。
在这样的背景下,需要设计一种简单有效的可以挖掘局部有区分性特征的文字识别方法。
基于此,本申请提供了一种文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质,通过卷积神经网络对输入的图片进行特征提取,然后通过注意力机制模块得到具有区分性的注意力特征,进行特征融合后得到字符类别预测结果,训练模型时还根据输入图片的字符类别标注和字符类别预测结果设计损失函数,优化所述注意力权重,从而提高文字识别的准确性,对于困难样本的识别鲁棒性更强。
下面结合附图,对本申请实施例作进一步阐述。
如图1所示,图1是本申请实施例提供的文字识别网络模型训练方法和文字识别方法的流程示意图,其中实线箭头表示训练步骤,虚线箭头表示识别步骤。
文字识别网络模型包括深度卷积神经网络、多通道的注意力机制模块、对比注意力特征学习分支和多注意力特征融合模块。
深度卷积神经网络:一种可用于分类的神经网络,该网络主要由卷积层和池化层组成。卷积层用于提取图片特征;池化层的作用是降低卷积层输出的特征向量的维度,减少过拟合。网络中的参数可以通过反向传播算法,进行更新。本申请实施例中,所述深度卷积神经网络由14层卷积层、4 层池化层组成。
注意力机制模块:模仿人类观察事物的方式,通常来说,人们在看一张图片的时候,除了从整体上把握一幅图像外,也会更加关注图片的某些局部信息,例如桌子的位置,商品的种类等。在计算机视觉领域,注意力机制的本质是对输入信息,选择需要更加关注的信息,从关键的部分进行特征提取。注意力机制的引入,一方面可以几乎不增加模型复杂度的情况下增加了模型的表达能力;另一方面,注意力机制只选择对模型来说重要的输入信息进行处理,可以提高神经网络的效率。
对比注意力特征学习分支:对图像的全局特征进行提取,能够很好地对一般物体分类,但是对于手写汉字这种细粒度分类问题,需要关注字符有区分性的局部特征。对比注意力特征的学习的目的是让多个通道的注意力机制模块对输入样本定位多个局部区域,并且在对比度损失函数和区域中心损失函数监督下训练,得到分散的注意力区域,使得模型能更有可能定位到字符有区分力的特征,从而降低视觉上相似的字符的识别错误率。
参照图2和图3,本申请的一个实施例提出一种文字识别网络模型训练方法,包括以下步骤:
步骤S100:将原始数据集中的每张图片进行标准化,并对每张图片进行字符类别标注,得到带字符类别标注的标准训练数据集;
步骤S200:将标准训练数据集中的每张图片输入卷积神经网络,提取图片的卷积特征,得到包含卷积特征的深度特征图;
步骤S300:将深度特征图输入具有多个通道的注意力机制模块,得到每个通道的注意力权重,使用注意力权重重新对深度特征图的每个通道进行缩放获得多个注意力特征图;
步骤S400:将每一个注意力特征图分别输入全连接层,得到多个注意力特征向量;
步骤S500:将多个注意力特征向量进行特征融合,输入到字符类全连接层进行字符类别预测;
步骤S600:根据字符类别预测的结果和字符类别标注,设计目标损失函数,利用反向传播算法进行迭代,最小化目标损失函数,优化注意力权重。
在一实施例中,步骤S100具体包括:统计原始数据集中每张图片I i(i=1,···,N)的均值和方差,将每张图片的高度和宽度缩放到预设高度H和预设宽度W,一般地,预设高度H和预设宽度W的默认取值均为96,其中N为原始数据集中的图片数量;并对每张图片I i进行字符类别标注,得到带字符类别标注的标准训练数据集。
在一实施例中,参照图4所示,步骤S200具体包括:卷积神经网络包括2个卷积层(conv1、conv2)和4个卷积模块,将标准化的图片I i(i=1,···,N)分别输入2个卷积层(conv1、conv2)中,每个卷积层后均接一个批归一化层(Batch Normalization,BN)和非线性激活函数ReLU,得到大小为96*96*64的特征图,然后将特征图输入到步长为2的最大池化层进行采样,得到48*48*64的特征图,之后再将特征图输入到4个卷积模块(Conv-Block)中,每个卷积模块由3个卷积核大小为3*3的卷积层和3个批归一化层构成,其中3个批归一化层分别跟在3个卷积层之后,卷积模块(Conv-Block)是一种“瓶颈”结构,其3个卷积层的中间层的通道数比上下两层少;每个卷积模块(Conv-Block)之间用步长为2的最大池化层相连接,将输入的特征图的分辨率减半,最后经 过4个卷积模块(Conv-Block)之后,输出大小为6*6*448的深度特征图X i,这些深度特征图X i包含经过14个卷积层得到的高级语义信息。
在一实施例中,参照图5所示,步骤S300具体包括:将最后一个卷积模块(Conv-Block)输出的大小为6*6*448的深度特征图X i作为输入,输送到具有多个通道的注意力机制模块,计算注意力特征图
Figure PCTCN2020133116-appb-000001
本实施例中S取值为2;注意力机制模块借鉴了SENet方法引入的通道注意力机制,注意力机制模块首先使用全局平化池在H×W的空间维度上汇集输入的深度特征图X i,以生成通道描述子z s=[z 1,···,z C],其中z s的第c个元素z c的计算方法是:
Figure PCTCN2020133116-appb-000002
其中s=1,···,S,S为注意力机制模块的数量;
其中c=1,···,C,C为通道数量;
在z s上使用带有Sigmoid激活的门控机制,处理通道描述子,得到每个注意力机制模块的注意力权重:
Figure PCTCN2020133116-appb-000003
其中,σ为Sigmoid函数,δ为ReLU函数,
Figure PCTCN2020133116-appb-000004
r为通道压缩比率;
每个注意力机制模块使用注意力权重重新对深度特征图X i的每个通道进行缩放获得多个注意力特征图
Figure PCTCN2020133116-appb-000005
Figure PCTCN2020133116-appb-000006
其中
Figure PCTCN2020133116-appb-000007
表示标准化的图片I i对应的注意力特征图的第c个通道
Figure PCTCN2020133116-appb-000008
和标量
Figure PCTCN2020133116-appb-000009
之间的乘积。
在一实施例中,步骤S400具体包括:将步骤S300中得到的多个注意力特征图输入到对比注意力特征学习分支,用于提取局部有区分性区域的注意力特征,即将每一个注意力特征图
Figure PCTCN2020133116-appb-000010
分别输入到包含768个神经元的全连接层:
Figure PCTCN2020133116-appb-000011
其中运算符F flatt(·)将矩阵平铺为1维向量。
在一实施例中,步骤S500具体包括:将多个注意力特征向量f i s(s=1,…,S)进行特征融合,再输入到包含3755个神经元的全连接层进行字符类别预测:
Y i=soft max(W·[f i 1,…,f i S])
其中,[·]表示级联操作,Y i表示图片I i属于3755类汉字的对应得分,得分最高的类别为字符类别的预测结果
Figure PCTCN2020133116-appb-000012
在一实施例中,步骤S600具体包括:以字符类别标注gt为网络模型期望输出,以预测结果
Figure PCTCN2020133116-appb-000013
为网络模型预测输出,设计网络模型期望输出和网络模型预测输出之间的目标损失函数,训练过程中最小化交叉熵损失函数L cls,以确保每一个注意力特征图
Figure PCTCN2020133116-appb-000014
能定位到对于字符分类来说重要的区域;对于对比注意力特征学习分支,以步骤S300中得到的多个注意力特征为输入,利用度量学习损失函数,即比度损失函数和区域中心损失函数,使网络模型的注意力特征图关注到输入图片的不同的具有区分性特征的区域;具体来说,对比度损失函数被应用于注意力特征以捕获可分离的注意力区域;
定义目标损失函数为:
L total=L cls+λ(L center+L contra)
其中L cls为交叉熵损失函数,L center为用于减少同一类字符的各个注意力特征之间的距离的区域中心损失函数,L contra为将图片I i的多个注意力特征向量f i s在高维空间的拉远的对比度损失函数,λ为用于控制两种损失函数所占的权重的超参数;
对比度损失函数定义为:
Figure PCTCN2020133116-appb-000015
其中D(I i)定义为:
Figure PCTCN2020133116-appb-000016
其中m为预设阈值;对比度损失函数是将输入图片I i的多个注意力特征向量f i s在高维空间的拉远,使得两两向量之间的距离大于预设阈值m,本实施例中m设置为40,保证各个注意力特征图定位到的字符局部特征不一样,这样文字识别网络模型更有可能挖掘到该字符有区分性的特征。
区域中心损失函数定义为:
Figure PCTCN2020133116-appb-000017
区域中心损失函数用于减少同一类字符的各注意力特征之间的距离,使得同一类字符学到的多个注意力特征之间分别相近,以便每个注意力特征图
Figure PCTCN2020133116-appb-000018
在相同的字符部分中被激活,其中
Figure PCTCN2020133116-appb-000019
是y i类的第s个注意力特征的中心,d表示特征的维数,注意力特征中心
Figure PCTCN2020133116-appb-000020
用均值为0,方差为1的高斯分布初始化,然后根据区域中心损失函数算法更新特征中心。
根据设计的目标损失函数,利用反向传播算法进行迭代,训练过程中最小化交叉熵损失函数,实现最优网络模型。针对离线手写汉字识别任务,在训练过程中使用原始数据集迭代训练,得到网络模型的参数。
参照图6,本申请的一个实施例提出一种文字识别方法,利用本申请上述实施例训练好的文字识别网络模型对手写汉字图片进行识别,包括以下步骤:
步骤A100:将待测试图片I i进行标准化,缩放到预设高度H和预设宽度W;
步骤A200:将待测试图片I i输入卷积神经网络,提取待测试图片I i的卷积特征,得到包含卷积特征的深度特征图X i
步骤A300:将深度特征图X i输入具有多个通道的注意力机制模块,得到每个通道的注意力权重,使用注意力权重重新对深度特征图X i的每个通道进行缩放获得多个注意力特征图
Figure PCTCN2020133116-appb-000021
步骤A400:将每一个注意力特征图
Figure PCTCN2020133116-appb-000022
分别输入全连接层,得到多个注意力特征向量f i s
步骤A500:将多个注意力特征向量f i s进行特征融合,输入到字符类全连接层进行字符类别预测。
在一实施例中,步骤A200具体包括:卷积神经网络包括2个卷积层(conv1、conv2)和4个卷积模块,将待测试图片I i输入2个卷积层(conv1、conv2)中,每个卷积层后均接一个批归一化层(Batch Normalization,BN)和非线性激活函数ReLU,得到大小为96*96*64的特征图,然后将特征图输入到步长为2的最大池化层进行采样,得到48*48*64的特征图,之后再将特征图输入到4个卷积模块(Conv-Block)中,每个卷积模块由3个卷积核大小为3*3的卷积层和3个批归一化层构成,其中3个批归一化层分别跟在3个卷积层之后,卷积模块(Conv-Block)是一种“瓶颈”结构,其3个卷积层的中间层的通道数比上下两层少;每个卷积模块(Conv-Block)之间用步长为2的最大池化层相连接,将输入的特征图的分辨率减半,最后经过4个卷积模块(Conv-Block)之后,输出大小为6*6*448的深度特征图X i,深度特征图X i包含经过14个卷积层得到的高级语义信息。
在一实施例中,步骤A300具体包括:将最后一个卷积模块(Conv-Block)输出的大小为6*6*448的深度特征图X i作为输入,输送到具有多个通道的注意力机制模块,计算注意力特征图
Figure PCTCN2020133116-appb-000023
(s=1,···,S),本实施例中S取值为2;注意力机制模块借鉴了SENet方法引入的通道注意力机制,注意力机制模块首先使用全局平化池在H×W的空间维度上汇集输入的深度特征图X i,以生 成通道描述子z s=[z 1,···,z C],其中z s的第c个元素z c的计算方法是:
Figure PCTCN2020133116-appb-000024
其中s=1,···,S,S为注意力机制模块的数量;
其中c=1,···,C,C为通道数量;
在z s上使用带有Sigmoid激活的门控机制,处理通道描述子,得到每个注意力机制模块的注意力权重:
Figure PCTCN2020133116-appb-000025
其中,σ为Sigmoid函数,δ为ReLU函数,
Figure PCTCN2020133116-appb-000026
r为通道压缩比率;
每个注意力机制模块使用注意力权重重新对深度特征图X i的每个通道进行缩放获得多个注意力特征图
Figure PCTCN2020133116-appb-000027
Figure PCTCN2020133116-appb-000028
其中
Figure PCTCN2020133116-appb-000029
表示标准化的图片I i对应的注意力特征图的第c个通道
Figure PCTCN2020133116-appb-000030
和标量
Figure PCTCN2020133116-appb-000031
之间的乘积。
在一实施例中,步骤A400具体包括:将步骤A300中得到的多个注意力特征图输入到对比注意力特征学习分支,用于提取局部有区分性区域的注意力特征,即将每一个注意力特征图
Figure PCTCN2020133116-appb-000032
分别输入到包含768个神经元的全连接层:
Figure PCTCN2020133116-appb-000033
其中运算符F flatt(·)将矩阵平铺为1维向量。
在一实施例中,步骤A500具体包括:将多个注意力特征向量f i s(s=1,…,S)进行特征融合,再输入到包含3755个神经元的全连接层进行字符类别预测:
Y i=soft max(W·[f i 1,…,f i S])
其中,[·]表示级联操作,Y i表示待测试图片I i属于3755类汉字的对应得分,得分最高的类别为字符类别的预测结果
Figure PCTCN2020133116-appb-000034
通过本申请所构思的以上技术方案,与现存的技术相比,具有以下技术效果:
(1)准确度高:针对手写汉字中形近字和手写体风格差异大的字识别精度低的问题,创新性地利用多重对比注意力机制提取汉字有区分性的特征,更精确地进行手写汉字的识别。
(2)速度快:提出的文字识别网络模型在保证识别精度的同时,训练速度较快。
(3)通用性强:不仅可以较为准确的识别字型相近的汉字,还能实现完全端到端训练,且模型参数量少,简单有效,易于产品落地。
(4)鲁棒性强:可以克服不同个体的书写风格带来的手写汉字形状的变化,在标准手写汉字测试集上达到目前最高的识别精度。
参照图7,本申请的一个实施例提供了一种文字识别网络模型训练装置100,包括:存储器101、处理器102及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的文字识别网络模型训练方法,例如执行以上描述的图2的方法步骤S100至S600。处理器102和存储器101可以通过总线或者其他方式连接,图7中以通过总线连接为例。
参照图8,本申请的一个实施例提供了一种文字识别装置200,包括:存储器201、处理器202及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的文字识别方法,例如执行以上描述的图6的方法步骤A100至A500。处理器202和存储器201可以通过总线或者其他方式连接,图8中以通过总线连接为例。
本申请的一个实施例还一种终端,包括上述实施例所述的文字识别网络模型训练装置100或者包括上述实施例所述的文字识别装置200。该终端可以是任意类型的智能终端,例如智能手机、平板电脑、手提电脑或台式电脑等。
此外,本申请的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器或控制器执行,例如,被图7中的一个处理器102执行,可使得上述处理器102执行上述实施例中的文字识别网络模型训练方法,例如,执行以上描述的图2的方法步骤S100至S600。又如,被图8中的一个处理器202执行,可使得上述处理器202执行上述实施例中的文字识别方法,例如,执行以上描述的图6的方法步骤A100至A500。
根据本申请实施例提供的方案:通过卷积神经网络对输入的图片进行特征提取,然后通过注意力机制模块得到具有区分性的注意力特征,进行特征融合后得到字符类别预测结果,训练模型时还根据输入图片的字符类别标注和字符类别预测结果设计损失函数,优化所述注意力权重,从而提高文字识别的准确性,对于困难样本的识别鲁棒性更强。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送 介质。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (18)

  1. 一种文字识别网络模型训练方法,包括以下步骤:
    将原始数据集中的每张图片进行标准化,并对每张图片进行字符类别标注,得到带字符类别标注的标准训练数据集;
    将所述标准训练数据集中的每张图片输入卷积神经网络,提取图片的卷积特征,得到包含所述卷积特征的深度特征图;
    将所述深度特征图输入具有多个通道的注意力机制模块,得到每个通道的注意力权重,使用所述注意力权重重新对所述深度特征图的每个通道进行缩放获得多个注意力特征图;
    将每一个所述注意力特征图分别输入全连接层,得到多个注意力特征向量;
    将多个所述注意力特征向量进行特征融合,输入到字符类全连接层进行字符类别预测;
    根据所述字符类别预测的结果和所述字符类别标注,设计目标损失函数,利用反向传播算法进行迭代,最小化所述目标损失函数,优化所述注意力权重。
  2. 根据权利要求1所述的一种文字识别网络模型训练方法,其中,所述将原始数据集中的每张图片进行标准化,包括:
    统计所述原始数据集中每张图片I i(i=1,···,N)的均值和方差,将每张图片的高度和宽度缩放到预设高度H和预设宽度W,其中N为所述原始数据集中的图片数量。
  3. 根据权利要求2所述的一种文字识别网络模型训练方法,其中,所述卷积神经网络包括若干卷积层和若干卷积模块;
    所述将所述标准训练数据集中的每张图片输入卷积神经网络,提取图片的卷积特征,得到包含所述卷积特征的深度特征图,包括:
    将标准化的图片I i(i=1,···,N)分别输入若干卷积层中,每个卷积层后均接一个批归一化层和非线性激活函数ReLU,然后输入到最大池化层进行采样,再输入到若干所述卷积模块中,每个卷积模块由若干数量相同的卷积层和批归一化层构成,每个批归一化层均跟在每个卷积层之后,每个卷积模块之间用最大池化层相连接,最后一个所述卷积模块输出包含卷积特征的深度特征图X i
  4. 根据权利要求1或3所述的一种文字识别网络模型训练方法,其中,所述注意力权重通过以下步骤获得:
    所述注意力机制模块使用全局平均池化在空间维度上汇集输入的所述深度特征图以生成通道描述子,使用带有Sigmoid激活的门控机制处理所述通道描述子得到每个通道的注意力权重。
  5. 根据权利要求3所述的一种文字识别网络模型训练方法,其中,所述将所述深度特征图输入具有多个通道的注意力机制模块,得到每个通道的注意力权重,使用所述注意力权重重新对所述深度特征图的每个通道进行缩放获得多个注意力特征图,包括:
    所述注意力机制模块使用全局平化池在H×W的空间维度上汇集输入的所述深度特征图X i, 以生成通道描述子z s=[z 1,···,z C],其中z s的第c个元素z c的计算方法是:
    Figure PCTCN2020133116-appb-100001
    其中s=1,···,S,S为注意力机制模块的数量;
    其中c=1,···,C,C为通道数量;
    在z s上使用带有Sigmoid激活的门控机制,处理所述通道描述子,得到每个所述注意力机制模块的注意力权重:
    Figure PCTCN2020133116-appb-100002
    其中,σ为Sigmoid函数,δ为ReLU函数,
    Figure PCTCN2020133116-appb-100003
    r为通道压缩比率;
    每个所述注意力机制模块使用所述注意力权重重新对所述深度特征图X i的每个通道进行缩放获得多个注意力特征图
    Figure PCTCN2020133116-appb-100004
    Figure PCTCN2020133116-appb-100005
    其中
    Figure PCTCN2020133116-appb-100006
    表示标准化的图片I i对应的所述注意力特征图的第c个通道
    Figure PCTCN2020133116-appb-100007
    和标量
    Figure PCTCN2020133116-appb-100008
    之间的乘积。
  6. 根据权利要求5所述的一种文字识别网络模型训练方法,其中,所述将每一个所述注意力特征图分别输入全连接层,得到多个注意力特征向量,包括:
    将多个所述注意力特征图
    Figure PCTCN2020133116-appb-100009
    分别输入到全连接层:
    Figure PCTCN2020133116-appb-100010
    其中运算符F flatt(·)将矩阵平铺为1维向量。
  7. 根据权利要求6所述的一种文字识别网络模型训练方法,其中,所述将多个所述注意力特征向量进行特征融合,输入到字符类全连接层进行字符类别预测,包括:
    将多个所述注意力特征向量f i s(s=1,···,S)进行特征融合,再输入到字符类全连接层进行字符类别预测:
    Y i=soft max(W·[f i 1,···,f i S])
    其中,[·]表示级联操作,Y i表示图片I i属于字符类别的对应得分,得分最高的类别为字符类别预测的结果。
  8. 根据权利要求7所述的一种文字识别网络模型训练方法,其中,所述根据所述字符类别预 测的结果和所述字符类别标注,设计目标损失函数,利用反向传播算法进行迭代,最小化所述目标损失函数,优化所述注意力权重,包括:
    定义目标损失函数为:
    L total=L cls+λ(L center+L contra)
    其中L cls为交叉熵损失函数,L center为用于减少同一类字符的各个注意力特征之间的距离的区域中心损失函数,L contra为将图片I i的多个所述注意力特征向量f i s在高维空间的拉远的对比度损失函数,λ为用于控制两种损失函数所占的权重的超参数;
    对比度损失函数定义为:
    Figure PCTCN2020133116-appb-100011
    其中D(I i)定义为:
    Figure PCTCN2020133116-appb-100012
    其中m为预设阈值;
    区域中心损失函数定义为:
    Figure PCTCN2020133116-appb-100013
    其中
    Figure PCTCN2020133116-appb-100014
    是y i类的第s个注意力特征的中心,d表示特征的维数,注意力特征中心
    Figure PCTCN2020133116-appb-100015
    用均值为0,方差为1的高斯分布初始化,然后根据区域中心损失函数算法更新特征中心;
    根据所述目标损失函数,利用反向传播算法进行迭代,最小化所述交叉熵损失函数,优化所述注意力权重。
  9. 一种文字识别方法,包括:
    将待测试图片进行标准化,缩放到预设高度H和预设宽度W;
    将所述待测试图片输入卷积神经网络,提取所述待测试图片的卷积特征,得到包含所述卷积特征的深度特征图;
    将所述深度特征图输入具有多个通道的注意力机制模块,得到每个通道的注意力权重,使用所述注意力权重重新对所述深度特征图的每个通道进行缩放获得多个注意力特征图;
    将每一个所述注意力特征图分别输入全连接层,得到多个注意力特征向量;
    将多个所述注意力特征向量进行特征融合,输入到字符类全连接层进行字符类别预测。
  10. 根据权利要求9所述的一种文字识别方法,其中,所述卷积神经网络包括若干卷积层和若干卷积模块;
    所述待测试图片输入卷积神经网络,提取所述待测试图片的卷积特征,得到包含所述卷积特征 的深度特征图,包括:
    将所述待测试图片I i输入所述若干卷积层中,每个卷积层后均接一个批归一化层和非线性激活函数ReLU,然后输入到最大池化层进行采样,再输入到所述若干卷积模块中,每个卷积模块由若干数量相同的卷积层和批归一化层构成,每个批归一化层均跟在每个卷积层之后,每个所述卷积模块之间用最大池化层相连接,最后一个所述卷积模块输出包含卷积特征的深度特征图X i
  11. 根据权利要求9或10所述的一种文字识别方法,其中,所述注意力权重通过以下步骤获得:
    所述注意力机制模块使用全局平均池化在空间维度上汇集输入的所述深度特征图以生成通道描述子,使用带有Sigmoid激活的门控机制处理所述通道描述子得到每个通道的注意力权重。
  12. 根据权利要求10所述的一种文字识别方法,其中,所述将所述深度特征图输入具有多个通道的注意力机制模块,得到每个通道的注意力权重,使用所述注意力权重重新对所述深度特征图的每个通道进行缩放获得多个注意力特征图,包括:
    所述注意力机制模块使用全局平化池在H×W的空间维度上汇集输入的所述深度特征图X i,以生成通道描述子z s=[z 1,···,z C],其中z s的第c个元素z c的计算方法是:
    Figure PCTCN2020133116-appb-100016
    其中s=1,···,S,S为注意力机制模块的数量;
    其中c=1,···,C,C为通道数量;
    在z s上使用带有Sigmoid激活的门控机制,处理所述通道描述子,得到每个注意力机制模块的注意力权重:
    Figure PCTCN2020133116-appb-100017
    其中,σ为Sigmoid函数,δ为ReLU函数,
    Figure PCTCN2020133116-appb-100018
    r为通道压缩比率;
    每个所述注意力机制模块使用所述注意力权重重新对所述深度特征图X i的每个通道进行缩放获得多个注意力特征图
    Figure PCTCN2020133116-appb-100019
    Figure PCTCN2020133116-appb-100020
    其中
    Figure PCTCN2020133116-appb-100021
    表示标准化的图片I i对应的所述注意力特征图的第c个通道
    Figure PCTCN2020133116-appb-100022
    和标量
    Figure PCTCN2020133116-appb-100023
    之间的乘积。
  13. 根据权利要求12所述的一种文字识别方法,其中,所述将每一个所述注意力特征图分别输入全连接层,得到多个注意力特征向量,包括:
    将多个所述注意力特征图
    Figure PCTCN2020133116-appb-100024
    分别输入到全连接层:
    Figure PCTCN2020133116-appb-100025
    其中运算符F flatt(·)将矩阵平铺为1维向量。
  14. 根据权利要求13所述的一种文字识别方法,其中,所述将多个所述注意力特征向量进行特征融合,输入到字符类全连接层进行字符类别预测,包括:
    将多个所述注意力特征向量f i s(s=1,···,S)进行特征融合,再输入到字符类全连接层进行字符类别预测:
    Y i=soft max(W·[f i 1,···,f i S])
    其中,[·]表示级联操作,Y i表示图片I i属于字符类别的对应得分,得分最高的类别为字符类别预测的结果。
  15. 一种文字识别网络模型训练装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1至8中任意一项所述的文字识别网络模型训练方法。
  16. 一种文字识别装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求9至14中任意一项所述的文字识别方法。
  17. 一种终端,包括如权利要求15所述的文字识别网络模型训练装置或者包括如权利要求16所述的文字识别装置。
  18. 一种计算机存储介质,存储有计算机可执行指令,其中,所述计算机可执行指令用于执行权利要求1至8中任意一项所述的文字识别网络模型训练方法或用于执行权利要求9至14中任意一项所述的文字识别方法。
PCT/CN2020/133116 2019-12-09 2020-12-01 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质 WO2021115159A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911253120.1 2019-12-09
CN201911253120.1A CN113033249A (zh) 2019-12-09 2019-12-09 文字识别方法、装置、终端及其计算机存储介质

Publications (1)

Publication Number Publication Date
WO2021115159A1 true WO2021115159A1 (zh) 2021-06-17

Family

ID=76329519

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/133116 WO2021115159A1 (zh) 2019-12-09 2020-12-01 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质

Country Status (2)

Country Link
CN (1) CN113033249A (zh)
WO (1) WO2021115159A1 (zh)

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421318A (zh) * 2021-06-30 2021-09-21 合肥高维数据技术有限公司 一种基于多任务生成对抗网络的字体风格迁移方法和系统
CN113469335A (zh) * 2021-06-29 2021-10-01 杭州中葳数字科技有限公司 一种利用不同卷积层特征间关系为特征分配权重的方法
CN113487013A (zh) * 2021-06-29 2021-10-08 杭州中葳数字科技有限公司 一种基于注意力机制的排序分组卷积方法
CN113569727A (zh) * 2021-07-27 2021-10-29 广东电网有限责任公司 遥感影像中施工场地的识别方法、系统、终端及介质
CN113610045A (zh) * 2021-08-20 2021-11-05 大连理工大学 深度特征集成学习的遥感图像目标识别泛化性方法
CN113627590A (zh) * 2021-07-29 2021-11-09 中汽创智科技有限公司 一种卷积神经网络的注意力模块、注意力机制及卷积神经网络
CN113673451A (zh) * 2021-08-25 2021-11-19 上海鹏冠生物医药科技有限公司 一种用于组织细胞学病理片图像特征抽取的图卷积模块
CN113688830A (zh) * 2021-08-13 2021-11-23 湖北工业大学 基于中心点回归的深度学习目标检测方法
CN113705344A (zh) * 2021-07-21 2021-11-26 西安交通大学 基于全手掌的掌纹识别方法、装置、终端设备及存储介质
CN113762357A (zh) * 2021-08-18 2021-12-07 江苏大学 基于深度学习的智能药房处方检查方法
CN113763965A (zh) * 2021-08-26 2021-12-07 江苏大学 一种多重注意力特征融合的说话人识别方法
CN113763412A (zh) * 2021-09-08 2021-12-07 理光软件研究所(北京)有限公司 图像处理方法、装置及电子设备、计算机可读存储介质
CN113793627A (zh) * 2021-08-11 2021-12-14 华南师范大学 一种基于注意力的多尺度卷积语音情感识别方法及装置
CN113836850A (zh) * 2021-11-26 2021-12-24 成都数之联科技有限公司 模型获得方法及系统及装置及介质及产品缺陷检测方法
CN113850741A (zh) * 2021-10-10 2021-12-28 杭州知存智能科技有限公司 图像降噪方法、装置、电子设备以及存储介质
CN113963352A (zh) * 2021-09-22 2022-01-21 支付宝(杭州)信息技术有限公司 识别图片和训练神经网络的方法和装置
CN113989541A (zh) * 2021-09-23 2022-01-28 神思电子技术股份有限公司 一种基于特征聚合的着装分类方法及系统
CN114037600A (zh) * 2021-10-11 2022-02-11 长沙理工大学 一种基于新注意力机制的新CycleGAN风格迁移网络
CN114049634A (zh) * 2022-01-12 2022-02-15 深圳思谋信息科技有限公司 一种图像识别方法、装置、计算机设备和存储介质
CN114118415A (zh) * 2021-11-29 2022-03-01 暨南大学 一种轻量级瓶颈注意力机制的深度学习方法
CN114119997A (zh) * 2021-11-26 2022-03-01 腾讯科技(深圳)有限公司 图像特征提取模型的训练方法、装置、服务器和存储介质
CN114140873A (zh) * 2021-11-09 2022-03-04 武汉众智数字技术有限公司 一种基于卷积神经网络多层次特征的步态识别方法
CN114140357A (zh) * 2021-12-02 2022-03-04 哈尔滨工程大学 一种基于协同注意力机制的多时相遥感图像云区重建方法
CN114220012A (zh) * 2021-12-16 2022-03-22 池明旻 一种基于深度自注意力网络的纺织品棉麻鉴别方法
CN114429633A (zh) * 2022-01-28 2022-05-03 北京百度网讯科技有限公司 文本识别方法、模型的训练方法、装置、电子设备及介质
CN114566216A (zh) * 2022-02-25 2022-05-31 桂林电子科技大学 一种基于注意力机制的剪接位点预测及解释性方法
CN114612791A (zh) * 2022-05-11 2022-06-10 西南民族大学 一种基于改进注意力机制的目标检测方法及装置
CN114639169A (zh) * 2022-03-28 2022-06-17 合肥工业大学 基于注意力机制特征融合与位置无关的人体动作识别系统
CN114694211A (zh) * 2022-02-24 2022-07-01 合肥工业大学 非接触式多生理参数的同步检测方法和系统
CN114724219A (zh) * 2022-04-11 2022-07-08 辽宁师范大学 一种基于注意力遮挡机制的表情识别方法
CN114881011A (zh) * 2022-07-12 2022-08-09 中国人民解放军国防科技大学 多通道中文文本更正方法、装置、计算机设备和存储介质
CN114973222A (zh) * 2021-12-20 2022-08-30 西北工业大学宁波研究院 基于显式监督注意力机制的场景文本识别方法
CN114998482A (zh) * 2022-06-13 2022-09-02 厦门大学 文字艺术图案智能生成方法
CN115251948A (zh) * 2022-07-14 2022-11-01 深圳未来脑律科技有限公司 一种双模态运动想象的分类识别方法、系统和存储介质
CN115439849A (zh) * 2022-09-30 2022-12-06 杭州电子科技大学 基于动态多策略gan网络的仪表数字识别方法及系统
CN115471851A (zh) * 2022-10-11 2022-12-13 小语智能信息科技(云南)有限公司 融合双重注意力机制的缅甸语图像文本识别方法及装置
CN115568860A (zh) * 2022-09-30 2023-01-06 厦门大学 基于双注意力机制的十二导联心电信号的自动分类方法
CN115993365A (zh) * 2023-03-23 2023-04-21 山东省科学院激光研究所 一种基于深度学习的皮带缺陷检测方法及系统
CN116052154A (zh) * 2023-04-03 2023-05-02 中科南京软件技术研究院 一种基于语义增强与图推理的场景文本识别方法
CN116259067A (zh) * 2023-05-15 2023-06-13 济南大学 一种高精度识别pid图纸符号的方法
CN116405310A (zh) * 2023-04-28 2023-07-07 北京宏博知微科技有限公司 一种网络数据安全监测方法及系统
CN116563615A (zh) * 2023-04-21 2023-08-08 南京讯思雅信息科技有限公司 基于改进多尺度注意力机制的不良图片分类方法
CN116597258A (zh) * 2023-07-18 2023-08-15 华东交通大学 一种基于多尺度特征融合的矿石分选模型训练方法及系统
CN116934733A (zh) * 2023-08-04 2023-10-24 湖南恩智测控技术有限公司 一种芯片的可靠性测试方法及测试系统
WO2023202543A1 (zh) * 2022-04-18 2023-10-26 北京字跳网络技术有限公司 文字处理方法、装置、电子设备及存储介质
CN116993679A (zh) * 2023-06-30 2023-11-03 芜湖合德传动科技有限公司 一种基于目标检测的伸缩机皮带磨损检测方法
CN117036891A (zh) * 2023-08-22 2023-11-10 睿尔曼智能科技(北京)有限公司 一种基于跨模态特征融合的图像识别方法及系统
CN117037173A (zh) * 2023-09-22 2023-11-10 武汉纺织大学 一种二阶段的英文字符检测与识别方法及系统
CN117079295A (zh) * 2023-09-19 2023-11-17 中航西安飞机工业集团股份有限公司 一种航空电缆张力计指针识别与读数方法及系统
CN117173716A (zh) * 2023-09-01 2023-12-05 湖南天桥嘉成智能科技有限公司 一种基于深度学习的高温板坯id字符识别方法和系统
WO2024022060A1 (zh) * 2022-07-28 2024-02-01 杭州堃博生物科技有限公司 一种图像配准方法、装置及存储介质
CN117523685A (zh) * 2023-11-15 2024-02-06 中国矿业大学 基于非对称对比融合的双模态生物特征识别方法及系统
CN117573810A (zh) * 2024-01-15 2024-02-20 腾讯烟台新工科研究院 一种多语言产品包装说明书文字识别查询方法及系统
CN117593610A (zh) * 2024-01-17 2024-02-23 上海秋葵扩视仪器有限公司 图像识别网络训练及部署、识别方法、装置、设备及介质
CN117809314A (zh) * 2023-11-21 2024-04-02 中化现代农业有限公司 文字识别方法、装置、电子设备和存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326833B (zh) * 2021-08-04 2021-11-16 浩鲸云计算科技股份有限公司 一种基于中心损失的文字识别改进训练方法
CN113610164B (zh) * 2021-08-10 2023-12-22 北京邮电大学 一种基于注意力平衡的细粒度图像识别方法及其系统
CN113657534A (zh) * 2021-08-24 2021-11-16 北京经纬恒润科技股份有限公司 一种基于注意力机制的分类方法及装置
CN113741528B (zh) * 2021-09-13 2023-05-23 中国人民解放军国防科技大学 一种面向多无人机碰撞规避的深度强化学习训练加速方法
CN114677661A (zh) * 2022-03-24 2022-06-28 智道网联科技(北京)有限公司 一种路侧标识识别方法、装置和电子设备
CN114743206B (zh) * 2022-05-17 2023-10-27 北京百度网讯科技有限公司 文本检测方法、模型训练方法、装置、电子设备
CN116432521B (zh) * 2023-03-21 2023-11-03 浙江大学 一种基于多模态重建约束的手写汉字识别和检索方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368831A (zh) * 2017-07-19 2017-11-21 中国人民解放军国防科学技术大学 一种自然场景图像中的英文文字和数字识别方法
US20190114770A1 (en) * 2017-10-13 2019-04-18 Shenzhen Keya Medical Technology Corporation Systems and methods for detecting cancer metastasis using a neural network
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
CN110334705A (zh) * 2019-06-25 2019-10-15 华中科技大学 一种结合全局和局部信息的场景文本图像的语种识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368831A (zh) * 2017-07-19 2017-11-21 中国人民解放军国防科学技术大学 一种自然场景图像中的英文文字和数字识别方法
US20190114770A1 (en) * 2017-10-13 2019-04-18 Shenzhen Keya Medical Technology Corporation Systems and methods for detecting cancer metastasis using a neural network
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
CN110334705A (zh) * 2019-06-25 2019-10-15 华中科技大学 一种结合全局和局部信息的场景文本图像的语种识别方法

Cited By (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469335B (zh) * 2021-06-29 2024-05-10 杭州中葳数字科技有限公司 一种利用不同卷积层特征间关系为特征分配权重的方法
CN113469335A (zh) * 2021-06-29 2021-10-01 杭州中葳数字科技有限公司 一种利用不同卷积层特征间关系为特征分配权重的方法
CN113487013A (zh) * 2021-06-29 2021-10-08 杭州中葳数字科技有限公司 一种基于注意力机制的排序分组卷积方法
CN113487013B (zh) * 2021-06-29 2024-05-07 杭州中葳数字科技有限公司 一种基于注意力机制的排序分组卷积方法
CN113421318B (zh) * 2021-06-30 2022-10-28 合肥高维数据技术有限公司 一种基于多任务生成对抗网络的字体风格迁移方法和系统
CN113421318A (zh) * 2021-06-30 2021-09-21 合肥高维数据技术有限公司 一种基于多任务生成对抗网络的字体风格迁移方法和系统
CN113705344A (zh) * 2021-07-21 2021-11-26 西安交通大学 基于全手掌的掌纹识别方法、装置、终端设备及存储介质
CN113569727A (zh) * 2021-07-27 2021-10-29 广东电网有限责任公司 遥感影像中施工场地的识别方法、系统、终端及介质
CN113627590A (zh) * 2021-07-29 2021-11-09 中汽创智科技有限公司 一种卷积神经网络的注意力模块、注意力机制及卷积神经网络
CN113793627A (zh) * 2021-08-11 2021-12-14 华南师范大学 一种基于注意力的多尺度卷积语音情感识别方法及装置
CN113793627B (zh) * 2021-08-11 2023-12-29 华南师范大学 一种基于注意力的多尺度卷积语音情感识别方法及装置
CN113688830A (zh) * 2021-08-13 2021-11-23 湖北工业大学 基于中心点回归的深度学习目标检测方法
CN113688830B (zh) * 2021-08-13 2024-04-26 湖北工业大学 基于中心点回归的深度学习目标检测方法
CN113762357B (zh) * 2021-08-18 2024-05-14 江苏大学 基于深度学习的智能药房处方检查方法
CN113762357A (zh) * 2021-08-18 2021-12-07 江苏大学 基于深度学习的智能药房处方检查方法
CN113610045A (zh) * 2021-08-20 2021-11-05 大连理工大学 深度特征集成学习的遥感图像目标识别泛化性方法
CN113673451A (zh) * 2021-08-25 2021-11-19 上海鹏冠生物医药科技有限公司 一种用于组织细胞学病理片图像特征抽取的图卷积模块
CN113763965A (zh) * 2021-08-26 2021-12-07 江苏大学 一种多重注意力特征融合的说话人识别方法
CN113763965B (zh) * 2021-08-26 2023-12-19 江苏大学 一种多重注意力特征融合的说话人识别方法
CN113763412A (zh) * 2021-09-08 2021-12-07 理光软件研究所(北京)有限公司 图像处理方法、装置及电子设备、计算机可读存储介质
CN113963352A (zh) * 2021-09-22 2022-01-21 支付宝(杭州)信息技术有限公司 识别图片和训练神经网络的方法和装置
CN113989541A (zh) * 2021-09-23 2022-01-28 神思电子技术股份有限公司 一种基于特征聚合的着装分类方法及系统
CN113850741A (zh) * 2021-10-10 2021-12-28 杭州知存智能科技有限公司 图像降噪方法、装置、电子设备以及存储介质
CN114037600A (zh) * 2021-10-11 2022-02-11 长沙理工大学 一种基于新注意力机制的新CycleGAN风格迁移网络
CN114140873A (zh) * 2021-11-09 2022-03-04 武汉众智数字技术有限公司 一种基于卷积神经网络多层次特征的步态识别方法
CN114119997A (zh) * 2021-11-26 2022-03-01 腾讯科技(深圳)有限公司 图像特征提取模型的训练方法、装置、服务器和存储介质
CN113836850A (zh) * 2021-11-26 2021-12-24 成都数之联科技有限公司 模型获得方法及系统及装置及介质及产品缺陷检测方法
CN114118415A (zh) * 2021-11-29 2022-03-01 暨南大学 一种轻量级瓶颈注意力机制的深度学习方法
CN114140357A (zh) * 2021-12-02 2022-03-04 哈尔滨工程大学 一种基于协同注意力机制的多时相遥感图像云区重建方法
CN114140357B (zh) * 2021-12-02 2024-04-19 哈尔滨工程大学 一种基于协同注意力机制的多时相遥感图像云区重建方法
CN114220012A (zh) * 2021-12-16 2022-03-22 池明旻 一种基于深度自注意力网络的纺织品棉麻鉴别方法
CN114220012B (zh) * 2021-12-16 2024-05-31 池明旻 一种基于深度自注意力网络的纺织品棉麻鉴别方法
CN114973222A (zh) * 2021-12-20 2022-08-30 西北工业大学宁波研究院 基于显式监督注意力机制的场景文本识别方法
CN114973222B (zh) * 2021-12-20 2024-05-10 西北工业大学宁波研究院 基于显式监督注意力机制的场景文本识别方法
CN114049634A (zh) * 2022-01-12 2022-02-15 深圳思谋信息科技有限公司 一种图像识别方法、装置、计算机设备和存储介质
CN114429633B (zh) * 2022-01-28 2023-10-27 北京百度网讯科技有限公司 文本识别方法、模型的训练方法、装置、电子设备及介质
CN114429633A (zh) * 2022-01-28 2022-05-03 北京百度网讯科技有限公司 文本识别方法、模型的训练方法、装置、电子设备及介质
CN114694211B (zh) * 2022-02-24 2024-04-19 合肥工业大学 非接触式多生理参数的同步检测方法和系统
CN114694211A (zh) * 2022-02-24 2022-07-01 合肥工业大学 非接触式多生理参数的同步检测方法和系统
CN114566216A (zh) * 2022-02-25 2022-05-31 桂林电子科技大学 一种基于注意力机制的剪接位点预测及解释性方法
CN114566216B (zh) * 2022-02-25 2024-04-02 桂林电子科技大学 一种基于注意力机制的剪接位点预测及解释性方法
CN114639169A (zh) * 2022-03-28 2022-06-17 合肥工业大学 基于注意力机制特征融合与位置无关的人体动作识别系统
CN114639169B (zh) * 2022-03-28 2024-02-20 合肥工业大学 基于注意力机制特征融合与位置无关的人体动作识别系统
CN114724219B (zh) * 2022-04-11 2024-05-31 辽宁师范大学 一种基于注意力遮挡机制的表情识别方法
CN114724219A (zh) * 2022-04-11 2022-07-08 辽宁师范大学 一种基于注意力遮挡机制的表情识别方法
WO2023202543A1 (zh) * 2022-04-18 2023-10-26 北京字跳网络技术有限公司 文字处理方法、装置、电子设备及存储介质
CN114612791A (zh) * 2022-05-11 2022-06-10 西南民族大学 一种基于改进注意力机制的目标检测方法及装置
CN114612791B (zh) * 2022-05-11 2022-07-29 西南民族大学 一种基于改进注意力机制的目标检测方法及装置
CN114998482A (zh) * 2022-06-13 2022-09-02 厦门大学 文字艺术图案智能生成方法
CN114881011B (zh) * 2022-07-12 2022-09-23 中国人民解放军国防科技大学 多通道中文文本更正方法、装置、计算机设备和存储介质
CN114881011A (zh) * 2022-07-12 2022-08-09 中国人民解放军国防科技大学 多通道中文文本更正方法、装置、计算机设备和存储介质
CN115251948A (zh) * 2022-07-14 2022-11-01 深圳未来脑律科技有限公司 一种双模态运动想象的分类识别方法、系统和存储介质
WO2024022060A1 (zh) * 2022-07-28 2024-02-01 杭州堃博生物科技有限公司 一种图像配准方法、装置及存储介质
CN115439849A (zh) * 2022-09-30 2022-12-06 杭州电子科技大学 基于动态多策略gan网络的仪表数字识别方法及系统
CN115439849B (zh) * 2022-09-30 2023-09-08 杭州电子科技大学 基于动态多策略gan网络的仪表数字识别方法及系统
CN115568860A (zh) * 2022-09-30 2023-01-06 厦门大学 基于双注意力机制的十二导联心电信号的自动分类方法
CN115471851A (zh) * 2022-10-11 2022-12-13 小语智能信息科技(云南)有限公司 融合双重注意力机制的缅甸语图像文本识别方法及装置
CN115993365A (zh) * 2023-03-23 2023-04-21 山东省科学院激光研究所 一种基于深度学习的皮带缺陷检测方法及系统
CN115993365B (zh) * 2023-03-23 2023-06-13 山东省科学院激光研究所 一种基于深度学习的皮带缺陷检测方法及系统
CN116052154A (zh) * 2023-04-03 2023-05-02 中科南京软件技术研究院 一种基于语义增强与图推理的场景文本识别方法
CN116563615A (zh) * 2023-04-21 2023-08-08 南京讯思雅信息科技有限公司 基于改进多尺度注意力机制的不良图片分类方法
CN116563615B (zh) * 2023-04-21 2023-11-07 南京讯思雅信息科技有限公司 基于改进多尺度注意力机制的不良图片分类方法
CN116405310A (zh) * 2023-04-28 2023-07-07 北京宏博知微科技有限公司 一种网络数据安全监测方法及系统
CN116405310B (zh) * 2023-04-28 2024-03-15 北京宏博知微科技有限公司 一种网络数据安全监测方法及系统
CN116259067B (zh) * 2023-05-15 2023-09-12 济南大学 一种高精度识别pid图纸符号的方法
CN116259067A (zh) * 2023-05-15 2023-06-13 济南大学 一种高精度识别pid图纸符号的方法
CN116993679A (zh) * 2023-06-30 2023-11-03 芜湖合德传动科技有限公司 一种基于目标检测的伸缩机皮带磨损检测方法
CN116993679B (zh) * 2023-06-30 2024-04-30 芜湖合德传动科技有限公司 一种基于目标检测的伸缩机皮带磨损检测方法
CN116597258B (zh) * 2023-07-18 2023-09-26 华东交通大学 一种基于多尺度特征融合的矿石分选模型训练方法及系统
CN116597258A (zh) * 2023-07-18 2023-08-15 华东交通大学 一种基于多尺度特征融合的矿石分选模型训练方法及系统
CN116934733B (zh) * 2023-08-04 2024-04-09 湖南恩智测控技术有限公司 一种芯片的可靠性测试方法及测试系统
CN116934733A (zh) * 2023-08-04 2023-10-24 湖南恩智测控技术有限公司 一种芯片的可靠性测试方法及测试系统
CN117036891B (zh) * 2023-08-22 2024-03-29 睿尔曼智能科技(北京)有限公司 一种基于跨模态特征融合的图像识别方法及系统
CN117036891A (zh) * 2023-08-22 2023-11-10 睿尔曼智能科技(北京)有限公司 一种基于跨模态特征融合的图像识别方法及系统
CN117173716B (zh) * 2023-09-01 2024-03-26 湖南天桥嘉成智能科技有限公司 一种基于深度学习的高温板坯id字符识别方法和系统
CN117173716A (zh) * 2023-09-01 2023-12-05 湖南天桥嘉成智能科技有限公司 一种基于深度学习的高温板坯id字符识别方法和系统
CN117079295A (zh) * 2023-09-19 2023-11-17 中航西安飞机工业集团股份有限公司 一种航空电缆张力计指针识别与读数方法及系统
CN117079295B (zh) * 2023-09-19 2024-05-03 中航西安飞机工业集团股份有限公司 一种航空电缆张力计指针识别与读数方法及系统
CN117037173B (zh) * 2023-09-22 2024-02-27 武汉纺织大学 一种二阶段的英文字符检测与识别方法及系统
CN117037173A (zh) * 2023-09-22 2023-11-10 武汉纺织大学 一种二阶段的英文字符检测与识别方法及系统
CN117523685A (zh) * 2023-11-15 2024-02-06 中国矿业大学 基于非对称对比融合的双模态生物特征识别方法及系统
CN117809314A (zh) * 2023-11-21 2024-04-02 中化现代农业有限公司 文字识别方法、装置、电子设备和存储介质
CN117573810B (zh) * 2024-01-15 2024-04-09 腾讯烟台新工科研究院 一种多语言产品包装说明书文字识别查询方法及系统
CN117573810A (zh) * 2024-01-15 2024-02-20 腾讯烟台新工科研究院 一种多语言产品包装说明书文字识别查询方法及系统
CN117593610B (zh) * 2024-01-17 2024-04-26 上海秋葵扩视仪器有限公司 图像识别网络训练及部署、识别方法、装置、设备及介质
CN117593610A (zh) * 2024-01-17 2024-02-23 上海秋葵扩视仪器有限公司 图像识别网络训练及部署、识别方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113033249A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
WO2021115159A1 (zh) 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质
Chherawala et al. Feature set evaluation for offline handwriting recognition systems: application to the recurrent neural network model
RU2661750C1 (ru) Распознавание символов с использованием искусственного интеллекта
CN110647912A (zh) 细粒度图像识别方法、装置、计算机设备及存储介质
Tarawneh et al. Invoice classification using deep features and machine learning techniques
EP3166020A1 (en) Method and apparatus for image classification based on dictionary learning
Haghighi et al. Stacking ensemble model of deep learning and its application to Persian/Arabic handwritten digits recognition
CN114444600A (zh) 基于记忆增强原型网络的小样本图像分类方法
Khayyat et al. Towards author recognition of ancient Arabic manuscripts using deep learning: A transfer learning approach
Khudeyer et al. Combination of machine learning algorithms and Resnet50 for Arabic Handwritten Classification
Elaraby et al. A Novel Siamese Network for Few/Zero-Shot Handwritten Character Recognition Tasks.
Aharrane et al. A comparison of supervised classification methods for a statistical set of features: Application: Amazigh OCR
Zou et al. Supervised feature learning via L2-norm regularized logistic regression for 3D object recognition
CN111144469A (zh) 基于多维关联时序分类神经网络的端到端多序列文本识别方法
Salamah et al. Towards the machine reading of arabic calligraphy: a letters dataset and corresponding corpus of text
US20240152749A1 (en) Continual learning neural network system training for classification type tasks
US11816909B2 (en) Document clusterization using neural networks
WO2022062403A9 (zh) 表情识别模型训练方法、装置、终端设备及存储介质
Liu et al. Multi-digit recognition with convolutional neural network and long short-term memory
Liu et al. Combined with the residual and multi-scale method for Chinese thermal power system record text recognition
Palani et al. Detecting and extracting information of medicines from a medical prescription using deep learning and computer vision
Mahapatra et al. Generator based methods for off-line handwritten character recognition
Cheng et al. Maximum entropy regularization and chinese text recognition
Zhao Handwritten digit recognition and classification using machine learning
Chattyopadhyay et al. Classification of MNIST image dataset using improved convolutional neural network

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20900602

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20900602

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 21.02.2023)

122 Ep: pct application non-entry in european phase

Ref document number: 20900602

Country of ref document: EP

Kind code of ref document: A1