WO2023173949A1 - 一种古籍识别方法、装置、存储介质及设备 - Google Patents
一种古籍识别方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- WO2023173949A1 WO2023173949A1 PCT/CN2023/074289 CN2023074289W WO2023173949A1 WO 2023173949 A1 WO2023173949 A1 WO 2023173949A1 CN 2023074289 W CN2023074289 W CN 2023074289W WO 2023173949 A1 WO2023173949 A1 WO 2023173949A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- text
- text line
- single word
- ancient book
- image
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/162—Quantising the image signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
Definitions
- the present application relates to the field of image processing technology, and in particular to an ancient book recognition method, device, storage medium and equipment.
- the main purpose of the embodiments of this application is to provide an ancient book recognition method, device, storage medium and equipment, which can improve the recognition effect by aggregating the position and content of single characters in ancient book images with the position and reading direction of text lines. This will lead to more accurate ancient book identification results.
- the content information of the single word is arranged according to the reading order of the characters in the text line position, and the recognition result of the characters in the target ancient book image is obtained.
- detecting the backbone classification features and determining the positions of single words contained in the target ancient book image includes:
- the single word probability feature map and the background threshold feature map determine the probability that each pixel in the target estimated image belongs to a single word and the probability that it belongs to the background;
- the minimum circumscribed rectangle of each single word is determined as the single word position corresponding to each single word.
- the position of the single word is identified to obtain the content information of the single word, including:
- the prediction of the text line position to obtain the reading order of the text in the text line position includes:
- the method is based on the ratio of the single word position to the text line position. Relationship, arrange the content information of the single words according to the reading order of the words in the text line position, and obtain the recognition results of the words in the target ancient book image, including:
- the content information of the single characters in the single character position is arranged according to the reading order of the characters in the text line position, and the recognition result of the characters in the target ancient book image is obtained.
- the method further includes:
- An embodiment of the present application also provides an ancient book identification device, which includes:
- An acquisition unit is used to acquire the target ancient book image to be identified; and use a backbone network to extract classification features from the target ancient book image to obtain backbone classification features;
- a detection unit used to detect the backbone classification features and determine the positions of single words and text lines contained in the target ancient book image
- a recognition unit is used to identify the position of the single word to obtain the content information of the single word; and to predict the position of the text line to obtain the reading order of the words in the position of the text line;
- An arrangement unit configured to arrange the content information of the single word according to the reading order of the text in the text line position according to the proportional relationship between the single word position and the text line position, so as to obtain the characters in the target ancient book image. identification results.
- the detection unit includes:
- the input subunit is used to input the backbone classification features into the convolution layer to obtain a single word probability feature map and a background threshold feature map;
- the first determination subunit is used to determine the probability that each pixel in the target estimated image belongs to a single word and the probability that it belongs to the background based on the single word probability feature map and the background threshold feature map;
- the first determination subunit is used to determine the minimum circumscribed rectangle of each word by taking a connected domain based on the probability that each pixel belongs to a single word and the probability of belonging to the background, as the single word position corresponding to each single word.
- the identification unit includes:
- the identification subunit is used to use a neural network classifier to identify single words in the single word image area and obtain content information corresponding to the single words.
- the identification unit includes:
- the first prediction subunit is used to predict the position of the text line and obtain the corresponding text area mask image
- the second prediction subunit is used to predict the reading order of the text in the text area at the text line position based on the text area mask image.
- the arrangement unit includes:
- Calculation subunit used to calculate the intersection area of the single word position and the text line position; and calculate the ratio between the intersection area and the single word position;
- the device further includes:
- the receiving unit is configured to receive a correction operation on the content information of the single word, and obtain the corrected content information corresponding to the single word.
- the embodiment of the present application also provides an ancient book recognition device, including: a processor, a memory, and a system bus;
- the processor and the memory are connected through the system bus;
- Embodiments of the present application also provide a computer-readable storage medium. Instructions are stored in the computer-readable storage medium. When the instructions are run on a terminal device, the terminal device causes the terminal device to execute the ancient book identification method mentioned above. Any implementation method.
- the ancient book identification method, device, storage medium and equipment provided by the embodiments of this application first obtained Obtain the target ancient book image to be identified; and use the backbone network to extract the classification features of the target ancient book image to obtain the backbone classification features, and then detect the backbone classification features to determine the single character positions and text line positions contained in the target ancient book image; then, Identify the single word position to obtain the content information of the single word; and predict the text line position to obtain the reading order of the text in the text line position. Then, based on the proportional relationship between the single word position and the text line position, the single word content information can be calculated according to the text. The reading order of the text in the row position is arranged to obtain the recognition result of the text in the target ancient book image.
- the embodiment of the present application improves the recognition effect by aggregating the position and content of the single characters in the ancient book image with the position and reading direction of the text line. Moreover, when performing ancient book image recognition, the relationship between each single character is fully considered. Compared with existing recognition methods, the recognition accuracy and efficiency are greatly improved.
- Figure 1 is a schematic flow chart of an ancient book identification method provided by an embodiment of the present application.
- Figure 3 is an example diagram of the reading order prediction process of characters in text line positions provided by the embodiment of the present application.
- Figure 4 is the second example diagram of the reading order prediction process of characters in text line positions provided by the embodiment of the present application.
- Figure 6 is an overall example diagram of ancient book recognition provided by the embodiment of the present application.
- Figure 7 is a schematic diagram of the composition of an ancient book identification device provided by an embodiment of the present application.
- OCR optical character recognition
- Recognition OCR for short
- the existing OCR recognition technology mainly uses text line detection technology, and text line recognition technology based on CRNN network model and Transformer network model.
- text line recognition technology based on CRNN network model and Transformer network model.
- This technology can achieve relatively accurate recognition of text lines, its recognition targets are usually text images in conventional typesetting.
- the text layout in ancient books is usually more complicated.
- there are often comments sandwiched between each line which makes the existing OCR recognition technology has poor recognition effect on ancient book images, or even fails.
- the recognition solution currently used is usually single word detection and recognition technology.
- this single word detection and recognition technology does not consider the positional relationship between each word when detecting ancient book images.
- the final recognition result is not accurate enough, that is, a more accurate ancient book recognition result cannot be obtained.
- the embodiment of the present application improves the recognition effect by aggregating the position and content of the single characters in the ancient book image with the position and reading direction of the text line. Moreover, when performing image recognition, the relationship between each single character is fully considered. The positional relationship and the reading order of the characters in the text line greatly improve the recognition accuracy and efficiency compared with the existing recognition methods.
- S101 Obtain the target ancient book image to be identified; and use the backbone network to extract classification features from the target ancient book image to obtain the backbone classification features.
- any ancient book image that is used for text recognition in this embodiment is defined as the target ancient book image.
- the target ancient book image can be a color image composed of three primary colors of red (R), green (G), and blue (B), or it can also be a gray image. degree images, etc.
- this embodiment does not limit the acquisition method of the target ancient book image.
- the target ancient book image can be obtained by scanning, photographing, etc. according to actual needs.
- an electronic image of the ancient book scanned by a scanning device can be saved as the target.
- Ancient book images, or ancient book images containing text captured by a camera can be used as target ancient book images, etc.
- backbone such as VGG (Visual Geometry Group Network) network model or deep residual network (Deep residual network, ResNet), etc.
- VGG Visual Geometry Group Network
- ResNet deep residual network
- step S101 after obtaining the backbone classification features corresponding to the target ancient book image through step S101, in order to more accurately aggregate the position and content of the single word with the position and text reading direction of the text line, in order to obtain higher accuracy
- the recognition results of to perform subsequent step S103 after obtaining the backbone classification features corresponding to the target ancient book image through step S101, in order to more accurately aggregate the position and content of the single word with the position and text reading direction of the text line, in order to obtain higher accuracy.
- an optional implementation method is that the implementation process of "detecting the backbone classification features and determining the positions of single characters contained in the target ancient book image" in step S102 may specifically include the following steps A1-A3:
- Step A1 Input the backbone classification features into the convolution layer to obtain the single-word probability feature map and the background threshold feature map.
- the backbone classification features can be input into the convolution layer (the specific number of layers is not limited and can be trained according to the actual situation) for prediction to obtain a single word probability feature map and a background threshold feature map, as shown in the "single word position" above Figure 2
- the single-word probability feature map "Prob_map” and the background threshold feature map "thresh_map” can be predicted, and the N above the feature map indicates one-time processing through the convolution layer
- the number of target ancient book images; 1 indicates that the number of channels (Channel) corresponding to the feature vector to be identified where the single-word probability feature map "Prob_map” and the background threshold feature map "thresh_map” are located is 1-dimensional
- H indicates that the corresponding feature vector to be identified is The height (Height), W represents the width (Width) corresponding to the feature vector to be identified.
- Step A2 Based on the single word probability feature map and the background threshold feature map, determine the probability that each pixel in the target estimated image belongs to a single word and the probability that it belongs to the background.
- step A1 the backbone classification features are input into the convolution layer to obtain the single-word probability feature map and the background threshold feature map. Then, each pixel on the target ancient book image can be traversed by processing the single-word probability feature map and the background threshold feature map. , and respectively determine the probability that each pixel belongs to " ancient book single character" and the probability that it belongs to the image background, to perform subsequent step A3.
- Step A3 Based on the probability that each pixel belongs to a single word and the probability of belonging to the background, by taking the connected domain, determine the minimum circumscribed rectangle of each single word as the single word position corresponding to each single word.
- the connected domain method can be further used to determine the minimum circumscribed rectangle of each " ancient book character" in the target ancient book image, as shown in the upper figure of Figure 2.
- Each "connected domain analysis” is obtained.
- "Small square” is used as the word position corresponding to each word to perform subsequent step S103.
- the backbone classification features can be input into the convolutional layer (the specific number of layers is not limited and can be trained according to the actual situation) for prediction to obtain the text line probability feature map and the background threshold feature map, as shown in the "Text” at the bottom of Figure 2 As shown in "Line Position Detection Process", after inputting the backbone classification features into the convolution layer, the text line probability feature map "Prob_map” and the background threshold feature map "thresh_map" can be predicted.
- the N above the feature map indicates that through the convolution
- the number of target ancient book images processed at one time by the multilayer layer 1 means that the number of channels (Channel) corresponding to the feature vector to be identified where the text line probability feature map "Prob_map” and the background threshold feature map “thresh_map” are located is 1-dimensional
- H means The height (Height) of the corresponding feature vector to be identified
- W represents the width (Width) of the corresponding feature vector to be identified.
- the specific implementation process of determining the single character positions and text line positions contained in the target ancient book image in this step can be implemented using pre-trained single character detection network models and text line position detection network models, and this The two models can be completely consistent in network structure. The only difference is that the network parameters learned by the two are different. The specific model training process will not be repeated here.
- S103 Identify the position of a single word to obtain the content information of the single word; and predict the position of the text line to obtain the reading order of the text in the position of the text line.
- step S102 after determining the position of the single word and the position of the text line contained in the target ancient book image through step S102, in order to more accurately aggregate the position and content of the single word with the position of the text line and the text reading direction to obtain For more accurate recognition results, further, it is necessary to identify the position of the single character in the target ancient book image to determine the content information of the single word; and to predict the position of the text line in the target ancient book image to predict the text.
- the reading order (that is, the reading direction) of the text in the row position is used to perform subsequent step S104.
- an optional implementation method is that the implementation process of "identifying the position of a single character and obtaining the content information of the single character" in step S103 may include: first, crop out the position corresponding to the single character from the target ancient book image. The single-word image area; and then use the neural network classifier to identify the single words in the single-word image area and obtain the content information corresponding to the single word.
- the word image area corresponding to the word position can be cropped from the target ancient book image.
- the word image area corresponding to the word position can be cropped from the target ancient book image.
- Output each "small square" obtained through connected domain analysis as shown in the upper figure of Figure 2.
- a neural network classifier such as a convolutional neural network (CNN) is used to identify the words in each cropped image, and the content information corresponding to each word is obtained, which is used to perform subsequent step S104.
- CNN convolutional neural network
- an optional implementation method is to use the recognition model to identify the content corresponding to the single character.
- you can also receive manual correction operations on the content information of the single word by experts to obtain the corrected content information corresponding to the single word, and then use the corrected single word information to repeatedly train the recognition model.
- a recognition model with an accuracy that meets the preset requirements can be set according to the actual situation, for example, it can be set to a recognition accuracy of more than 90%, etc. can be obtained to identify higher Single word correspondence content information with higher accuracy.
- the implementation process of "predicting the text line position and obtaining the reading order of the text in the text line position" in the above step S103 may specifically include: first, predicting the text line position, and obtaining The corresponding text area mask image; and then based on the text area mask image, the reading order of the text in the text area at the text line position is predicted.
- the text area mask image can be considered to be the foreground image of the text line separated by the smear and restoration engine.
- an optional implementation method is to divide the text line position into squares of preset sizes, and connect the midpoints of each square in turn to obtain the reading order of the text in the text area in the text line position, as shown in the figure.
- the direction indicated by the arrow in the figure represents the reading order of the characters in the text line.
- the offset annotation is generated based on the text line annotation, as shown in Figure 4. Combined with the text direction offset, the reading order of the characters in the text line can be more accurately predicted.
- S104 According to the proportional relationship between the single word position and the text line position, arrange the content information of the single word according to the reading order of the text in the text line position, and obtain the recognition result of the characters in the target ancient book image.
- the results obtained by directly sorting the positions according to the rules for the detection of single characters may not necessarily meet the correct semantics. Therefore, in this embodiment, after the content information of the single word and the reading order of the characters in the text line position are determined in step S103, the content information of the single word, the text line position and the reading order of the characters can be further integrated and recognized. In order to obtain more accurate ancient book identification results.
- step S104 may include the following steps B1-B2:
- Step B1 Calculate the intersection area of the single word position and the text line position; and calculate the ratio between the intersection area and the single word position.
- the position relationship between the two can be further processed to determine whether the single word position is Belongs to the text line position, that is, determines whether the word in the single word position belongs to the text line. Specifically, you can first calculate the intersection area of the single word position and the text line position, and then calculate the intersection area and the area of the single word position. The ratio between them is used to perform subsequent step B2.
- Step B2 When the ratio meets the preset conditions, the content information of the single characters in the single character position is arranged according to the reading order of the characters in the text line position, and the recognition result of the characters in the target ancient book image is obtained.
- the preset condition is that when the ratio between the intersection area of a single word position and a text line position and the single word position is not less than 0.5, it can be determined that the single word position belongs to the text line position, and can be classified as belonging to the text line position.
- the content information of the words in the word position is arranged according to the reading order of the words in the text line position.
- Example 6 shows an overall example diagram of the ancient book recognition process provided by the embodiment of the present application.
- the target ancient book image is input into the backbone network composed of Resnet and Feature Pyramid Network (FPN) structure (used for fusion processing of different scale features) to obtain the backbone classification features.
- FPN Resnet and Feature Pyramid Network
- the backbone classification features are input into the single word detection network and text line position detection network models respectively to perform single word position detection and text line position detection.
- the positions of the detected single words can be identified to obtain the content information of the single words, such as "du”, "gan”, “husband”, “ Egyptiant”, “jin”, “zhou”, and “zhi” in Figure 6 , "change”.
- the detected text line positions are predicted to obtain the reading order of the text in each text line position, as shown by the arrows in Figure 6. This can then identify The obtained word content information such as "Du”, “Gan”, “Husband”, “Ancient”, “Jin”, “Zhou”, “Zhi”, “Chan”, etc. are arranged according to the reading order of the characters in their respective text lines.
- the fusion recognition result is obtained, as shown in the lower rightmost picture of Figure 6.
- this embodiment provides an ancient book recognition method that first obtains the target ancient book image to be recognized; and uses the backbone network to extract classification features from the target ancient book image to obtain the backbone classification features, and then detects the backbone classification features to determine The single word position and text line position contained in the target ancient book image; then, identify the single word position to obtain the content information of the single word; and predict the text line position to obtain the reading order of the text in the text line position, and then according to the single word position In proportion to the text line position, the content information of the single words is arranged according to the reading order of the text in the text line position, and the recognition result of the text in the target ancient book image is obtained.
- the embodiment of the present application improves the recognition effect by aggregating the position and content of the single characters in the ancient book image with the position and reading direction of the text line. Moreover, when performing ancient book image recognition, the relationship between each single character is fully considered. Compared with existing recognition methods, the recognition accuracy and efficiency are greatly improved.
- the device 700 includes:
- the acquisition unit 701 is used to acquire the target ancient book image to be identified; and use the backbone network to extract classification features from the target ancient book image to obtain the backbone classification features;
- the detection unit 702 is used to detect the backbone classification features and determine the single character positions and text line positions contained in the target ancient book image;
- the identification unit 703 is used to identify the position of the single word to obtain the content information of the single word; and to predict the position of the text line to obtain the reading order of the words in the position of the text line;
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本申请公开了一种古籍识别方法、装置、存储介质及设备,该方法包括:首先获取待识别的目标古籍图像;并利用骨干网络对其进行分类特征提取,得到骨干分类特征,然后对骨干分类特征进行检测,确定目标古籍图像包含的单字位置和文本行位置;接着,对单字位置进行识别,得到单字的内容信息;以及对文本行位置进行预测,得到文本行位置中的文字的阅读顺序,进而可以根据单字位置与文本行位置的比例关系,将单字的内容信息按照文本行位置中的文字的阅读顺序进行排列,得到目标古籍图像中文字的识别结果。可见,由于本申请是通过将古籍图像中单字的位置和内容,与文本行的位置和文字阅读方向进行聚合,从而提高了识别准确率和识别效率。
Description
本申请要求于2022年3月16日提交中国国家知识产权局、申请号为202210258636.0、申请名称为“一种古籍识别方法、装置、存储介质及设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本申请涉及图像处理技术领域,尤其涉及一种古籍识别方法、装置、存储介质及设备。
众所周知,我国古代的古籍浩如烟海,而古籍又有着特殊的历史背景,属于不可再生性的文化资源,除了具备重要的史料研究价值之外,其本身也是弥足珍贵的稀有文物和艺术品。为了能够在保护古籍文献的同时又可以实现对其的充分利用和学习,古籍数字化便适时地应运而生。
目前在进行古籍数字化时,首先是将古籍扫描成电子图像,然后采用单字检测识别技术对该图像进行识别,得到古籍的识别结果。但是由于古籍版式复杂,除了不同于如今书籍的先从左到左、再从上到下的常规排版方式外,在每行字中间还常常夹有批注,这就使得现有的图像识别方法对古籍图像的识别效果不佳。并且,由于目前采用的单字检测识别技术在检测时,又并未考虑各个单字之间的位置关系,也导致最终的识别结果不够准确,即,无法得到准确性更高的古籍识别结果。
发明内容
本申请实施例的主要目的在于提供一种古籍识别方法、装置、存储介质及设备,能够通过将古籍图像中单字的位置和内容,与文本行的位置和文字阅读方向进行聚合,提高识别效果,进而得到准确性更高的古籍识别结果。
本申请实施例提供了一种古籍识别方法,包括:
获取待识别的目标古籍图像;并利用骨干网络对所述目标古籍图像进行分
类特征提取,得到骨干分类特征;
对所述骨干分类特征进行检测,确定所述目标古籍图像包含的单字位置和文本行位置;
对所述单字位置进行识别,得到单字的内容信息;以及对所述文本行位置进行预测,得到所述文本行位置中的文字的阅读顺序;
根据所述单字位置与所述文本行位置的比例关系,将所述单字的内容信息按照所述文本行位置中的文字的阅读顺序进行排列,得到所述目标古籍图像中文字的识别结果。
一种可能的实现方式中,所述对所述骨干分类特征进行检测,确定所述目标古籍图像包含的单字位置,包括:
将所述骨干分类特征输入卷积层,得到单字概率特征图和背景阈值特征图;
根据所述单字概率特征图和背景阈值特征图,确定所述目标估计图像中每一像素点属于单字的概率和属于背景的概率;
根据所述每一像素点属于单字的概率和属于背景的概率,通过取连通域的方式,确定每个单字的最小外接矩形,作为每个单字对应的单字位置。
一种可能的实现方式中,所述对所述单字位置进行识别,得到单字的内容信息,包括:
从所述目标古籍图像中,裁剪出所述单字位置对应的单字图像区域;
利用神经网络分类器,对所述单字图像区域中的单字进行识别,得到单字对应的内容信息。
一种可能的实现方式中,所述对所述文本行位置进行预测,得到所述文本行位置中的文字的阅读顺序,包括:
对所述文本行位置进行预测,得到对应的文字区域掩膜图像;
根据所述文字区域掩膜图像,预测出所述文本行位置中文本区域内的文字的阅读顺序。
一种可能的实现方式中,所述对所述文本行位置进行预测,得到所述文本行位置中的文字的阅读顺序,包括:
将所述文本行位置切分成预设尺寸的正方形,并依次连接各个所述正方形的中点,得到所述文本行位置中文本区域内的文字的阅读顺序。
一种可能的实现方式中,所述根据所述单字位置与所述文本行位置的比例
关系,将所述单字的内容信息按照所述文本行位置中的文字的阅读顺序进行排列,得到所述目标古籍图像中文字的识别结果,包括:
计算所述单字位置与所述文本行位置的交集面积;并计算所述交集面积与所述单字位置之间的比值;
当所述比值满足预设条件时,将所述单字位置中单字的内容信息按照所述文本行位置中的文字的阅读顺序进行排列,得到所述目标古籍图像中文字的识别结果。
一种可能的实现方式中,所述方法还包括:
接收对所述单字的内容信息的修正操作,得到单字对应的修正后的内容信息。
本申请实施例还提供了一种古籍识别装置,所述装置包括:
获取单元,用于获取待识别的目标古籍图像;并利用骨干网络对所述目标古籍图像进行分类特征提取,得到骨干分类特征;
检测单元,用于对所述骨干分类特征进行检测,确定所述目标古籍图像包含的单字位置和文本行位置;
识别单元,用于对所述单字位置进行识别,得到单字的内容信息;以及对所述文本行位置进行预测,得到所述文本行位置中的文字的阅读顺序;
排列单元,用于根据所述单字位置与所述文本行位置的比例关系,将所述单字的内容信息按照所述文本行位置中的文字的阅读顺序进行排列,得到所述目标古籍图像中文字的识别结果。
一种可能的实现方式中,所述检测单元包括:
输入子单元,用于将所述骨干分类特征输入卷积层,得到单字概率特征图和背景阈值特征图;
第一确定子单元,用于根据所述单字概率特征图和背景阈值特征图,确定所述目标估计图像中每一像素点属于单字的概率和属于背景的概率;
第一确定子单元,用于根据所述每一像素点属于单字的概率和属于背景的概率,通过取连通域的方式,确定每个单字的最小外接矩形,作为每个单字对应的单字位置。
一种可能的实现方式中,所述识别单元包括:
裁剪子单元,用于从所述目标古籍图像中,裁剪出所述单字位置对应的单
字图像区域;
识别子单元,用于利用神经网络分类器,对所述单字图像区域中的单字进行识别,得到单字对应的内容信息。
一种可能的实现方式中,所述识别单元包括:
第一预测子单元,用于对所述文本行位置进行预测,得到对应的文字区域掩膜图像;
第二预测子单元,用于根据所述文字区域掩膜图像,预测出所述文本行位置中文本区域内的文字的阅读顺序。
一种可能的实现方式中,所述识别单元具体用于:
将所述文本行位置切分成预设尺寸的正方形,并依次连接各个所述正方形的中点,得到所述文本行位置中文本区域内的文字的阅读顺序。
一种可能的实现方式中,所述排列单元包括:
计算子单元,用于计算所述单字位置与所述文本行位置的交集面积;并计算所述交集面积与所述单字位置之间的比值;
排列子单元,用于当所述比值满足预设条件时,将所述单字位置中单字的内容信息按照所述文本行位置中的文字的阅读顺序进行排列,得到所述目标古籍图像中文字的识别结果。
一种可能的实现方式中,所述装置还包括:
接收单元,用于接收对所述单字的内容信息的修正操作,得到单字对应的修正后的内容信息。
本申请实施例还提供了一种古籍识别设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述古籍识别方法中的任意一种实现方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述古籍识别方法中的任意一种实现方式。
本申请实施例提供的一种古籍识别方法、装置、存储介质及设备,首先获
取待识别的目标古籍图像;并利用骨干网络对目标古籍图像进行分类特征提取,得到骨干分类特征,然后对骨干分类特征进行检测,确定目标古籍图像包含的单字位置和文本行位置;接着,对单字位置进行识别,得到单字的内容信息;以及对文本行位置进行预测,得到文本行位置中的文字的阅读顺序,进而可以根据单字位置与文本行位置的比例关系,将单字的内容信息按照文本行位置中的文字的阅读顺序进行排列,得到目标古籍图像中文字的识别结果。可见,由于本申请实施例是通过将古籍图像中单字的位置和内容,与文本行的位置和文字阅读方向进行聚合,从而提高识别效果,并且由于进行古籍图像识别时,充分考虑了各个单字之间的位置关系以及文本行中文字的阅读顺序,相比现有识别方法,大幅度提高了识别准确率和识别效率。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种古籍识别方法的流程示意图;
图2为本申请实施例提供的文本行位置检测过程的示意图;
图3为本申请实施例提供的文本行位置中文字的阅读顺序预测过程的示例图之一;
图4为本申请实施例提供的文本行位置中文字的阅读顺序预测过程的示例图之二;
图5为本申请实施例提供的将单字的内容信息按照文本行位置中的文字的阅读顺序进行排列的示例图;
图6为本申请实施例提供的古籍识别的整体示例图;
图7为本申请实施例提供的一种古籍识别装置的组成示意图。
目前在进行图像识别时,通常会采用光学字符识别(Optical Character
Recognition,简称OCR)识别技术,而现有的OCR识别技术主要是采用文本行的检测技术,以及基于CRNN网络模型和Transformer网络模型的文本行识别技术。虽然该技术能够实现对文本行较为准确的识别,但其针对的识别对象通常是常规排版方式的文字图像。而古籍中的文字版式通常较为复杂,除了不同于如今书籍的先从左到左、再从上到下的常规排版方式外,在每行字中间还常常夹有批注,这就使得现有的OCR识别技术对古籍图像的识别效果不佳,甚至失效。
由此,为了更好的实现古籍的数字化,目前采用的识别方案通常是单字检测识别技术,但该单字检测识别技术在进行古籍图像检测时,又并未考虑各个单字之间的位置关系,也导致最终的识别结果不够准确,即,无法得到准确性更高的古籍识别结果
为解决上述缺陷,本申请提供了一种古籍识别方法,首先获取待识别的目标古籍图像;并利用骨干网络对目标古籍图像进行分类特征提取,得到骨干分类特征,然后对骨干分类特征进行检测,确定目标古籍图像包含的单字位置和文本行位置;接着,对单字位置进行识别,得到单字的内容信息;以及对文本行位置进行预测,得到文本行位置中的文字的阅读顺序,进而可以根据单字位置与文本行位置的比例关系,将单字的内容信息按照文本行位置中的文字的阅读顺序进行排列,得到目标古籍图像中文字的识别结果。可见,由于本申请实施例是通过将古籍图像中单字的位置和内容,与文本行的位置和文字阅读方向进行聚合,从而提高识别效果,并且由于进行图像识别时,充分考虑了各个单字之间的位置关系以及文本行中文字的阅读顺序,相比现有识别方法,大幅度提高了识别准确率和识别效率。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
第一实施例
参见图1,为本实施例提供的一种古籍识别方法的流程示意图,该方法包括以下步骤:
S101:获取待识别的目标古籍图像;并利用骨干网络对目标古籍图像进行分类特征提取,得到骨干分类特征。
在本实施例中,将采用本实施例进行文本识别的任一古籍图像定义为目标古籍图像。并且,需要说明的是,本实施例不限制目标古籍图像的类型,比如,目标古籍图像可以是由红(R)、绿(G)、蓝(B)三原色组成的彩色图像、也可以是灰度图像等。
并且,本实施例对目标古籍图像的获取方式也不做限定,目标古籍图像可以根据实际需要,通过扫描、拍摄等方式获得,例如,可以将利用扫描设备将古籍扫描成的电子图像保存为目标古籍图像,或者可以将利用相机拍摄到的包含文字的古籍图像作为目标古籍图像等。
进一步的,在获取到目标古籍图像后,可以利用现有或未来出现的骨干网络(backbone),比如VGG(Visual Geometry Group Network)网络模型或深度残差网络(Deep residual network,简称ResNet)等,采用基于分割的方法,对目标古籍图像进行单字和文本行检测,以得到骨干分类特征(即利用backbone部分提取出的特征),再通过执行后续步骤S102-S104,实现对该目标古籍图像的精准识别。
S102:对骨干分类特征进行检测,确定目标古籍图像包含的单字位置和文本行位置。
在本实施例中,通过步骤S101获取到目标古籍图像对应的骨干分类特征后,为了能够更准确的将单字的位置和内容与文本行的位置和文字阅读方向进行聚合,以得到准确性更高的识别结果,进一步的,还需要再单字位置和文本行位置检测时,共享骨干分类特征,即,分别通过对骨干分类特征进行检测,确定出目标古籍图像包含的单字位置和文本行位置,用以执行后续步骤S103。
具体来讲,一种可选的实现方式是,本步骤S102中“对骨干分类特征进行检测,确定目标古籍图像包含的单字位置”的实现过程具体可以包括下述步骤A1-A3:
步骤A1:将骨干分类特征输入卷积层,得到单字概率特征图和背景阈值特征图。
在本实现方式是中,为了能够在进行目标古籍图像识别时,考虑到各个单字之间的位置关系,以提高最终识别结果的准确性,在获取到目标古籍图像的
骨干分类特征后,还需要将其输入网络层,实现对目标古籍图像中各个单字的定位和分类,即判定出目标古籍图像中各个像素点是属于单字还是属于图像背景。具体来讲,可以将骨干分类特征输入卷积层(具体层数不限,可根据实际情况训练得到)进行预测,以得到单字概率特征图和背景阈值特征图,如图2上方的“单字位置检测过程”所示,将骨干分类特征输入卷积层后,可以预测出单字概率特征图“Prob_map”和背景阈值特征图“thresh_map”,且其中特征图上方的N表示通过卷积层一次性处理的目标古籍图像的个数;1表示单字概率特征图“Prob_map”和背景阈值特征图“thresh_map”所在的待识别特征向量对应的通道数(Channel)为1维,H表示该对应待识别特征向量的高度(Height),W表示对应待识别特征向量的宽度(Width)。
步骤A2:根据单字概率特征图和背景阈值特征图,确定目标估计图像中每一像素点属于单字的概率和属于背景的概率。
通过步骤A1将骨干分类特征输入卷积层,得到单字概率特征图和背景阈值特征图后,进一步可以通过对单字概率特征图和背景阈值特征图进行处理,遍历目标古籍图像上的每一个像素点,并分别确定出每一像素点属于“古籍单字”的概率和属于图像背景的概率,用以执行后续步骤A3。
步骤A3:根据每一像素点属于单字的概率和属于背景的概率,通过取连通域的方式,确定每个单字的最小外接矩形,作为每个单字对应的单字位置。
通过步骤A2确定出每一像素点属于“古籍单字”的概率和属于图像背景的概率后,进一步可以通过比较二者的大小,判断出每一像素点是属于“古籍单字”还是图像背景,即,当像素点属于“古籍单字”的概率大于属于图像背景的概率时,则判定像素点属于“古籍单字”;反之,当像素点属于图像背景的概率大于属于“古籍单字”的概率时,则判定像素点是属于图像背景的。
在此基础上,进一步可以采用取连通域的方式,确定出目标古籍图像中每个“古籍单字”的最小外接矩形,如图2上方图中所示的在进行连通域分析后得到的各个“小方块”,作为每个单字对应的单字位置,用以执行后续步骤S103。
类似的,为了提高最终识别结果的准确性,在获取到目标古籍图像的骨干分类特征后,还需要将其输入与单字位置检测时类似的网络层,但是区别在于更强调对文本行粒度的学习,所以需要增加一个文本行粒度的输出网络层,实现对目标古籍图像中各个文本行的定位和分类,即判定出目标古籍图像中各个
像素点是属于文本行位置还是属于图像背景。具体来讲,可以将骨干分类特征输入卷积层(具体层数不限,可根据实际情况训练得到)进行预测,以得到文本行概率特征图和背景阈值特征图,如图2下方的“文本行位置检测过程”所示,将骨干分类特征输入卷积层后,可以预测出文本行概率特征图“Prob_map”和背景阈值特征图“thresh_map”,同理,其中特征图上方的N表示通过卷积层一次性处理的目标古籍图像的个数;1表示文本行概率特征图“Prob_map”和背景阈值特征图“thresh_map”所在的待识别特征向量对应的通道数(Channel)为1维,H表示该对应待识别特征向量的高度(Height),W表示对应待识别特征向量的宽度(Width)。具体实现过程也可参照上述步骤A1-A3实现,在此不再赘述。需要说明的是,相比于传统的只采用单字检测识别的技术,本申请整体识别过程增加的耗时较少,仅约为20%左右,但却提供了文本行粒度的位置信息和,从而在通过后续步骤处理后,能够大幅度提高古籍识别结果的准确性。
还需要说明的是,对于本步骤中确定目标古籍图像包含的单字位置和文本行位置的具体实现过程,均可采用预先训练好的单字检测网络模型和文本行位置检测网络模型来实现,且这两个模型在网络结构上可以完全一致,区别仅在于二者学习到的网络参数不同,具体模型训练过程在此不再赘述。
S103:对单字位置进行识别,得到单字的内容信息;以及对文本行位置进行预测,得到文本行位置中的文字的阅读顺序。
在本实施例中,通过步骤S102确定出目标古籍图像包含的单字位置和文本行位置后,为了能够更准确的将单字的位置和内容,与文本行的位置和文字阅读方向进行聚合,以得到准确性更高的识别结果,进一步的,还需要对目标古籍图像中的单字位置进行识别,以确定出单字的内容信息;以及,对目标古籍图像中的文本行位置进行预测,以预测出文本行位置中的文字的阅读顺序(即阅读方向),用以执行后续步骤S104。
具体来讲,一种可选的实现方式是,本步骤S103中“对单字位置进行识别,得到单字的内容信息”的实现过程具体可以包括:首先,从目标古籍图像中,裁剪出单字位置对应的单字图像区域;然后再利用神经网络分类器,对单字图像区域中的单字进行识别,得到单字对应的内容信息。
在本实现方式中,为了提高识别结果的准确性。在获取到单字位置后,进
一步可以利用现有或未来出现的单字检测方法,对获取的单字位置进行检测,具体为从目标古籍图像中裁剪(crop)出单字位置对应的单字图像区域,比如,可以从目标古籍图像中裁剪出如图2上方图中所示的通过连通域分析后得到的各个“小方块”。然后,再利用神经网络分类器,如卷积神经网络(Convolutional Neural Networks,简称CNN)等,对每个裁剪图像中的单字进行识别,得到各个单字对应的内容信息,用以执行后续步骤S104。
另外,由于古籍中可能会存在一些现代人基本不会使用的字,或者是其他不符合常规标准的字,对此,一种可选的实现方式是,在利用识别模型识别出单字对应的内容信息后,为了提高识别结果的准确性,还可以接收专家人工对单字的内容信息的修正操作,得到单字对应的修正后的内容信息,然后再利用修正后的单字信息对识别模型进行重复训练,在经过多轮迭代训练后,可以得到准确率满足预设需求(可根据实际情况进行设定,比如可以设定为识别准确率达到90%以上等)的识别模型,用以识别出更高的单字对应的准确性更高的内容信息。
另一种可选的实现方式是,上述步骤S103中“对文本行位置进行预测,得到文本行位置中的文字的阅读顺序”的实现过程具体可以包括:首先,对文本行位置进行预测,得到对应的文字区域掩膜(mask)图像;然后再根据文字区域掩膜图像,预测出文本行位置中文本区域内的文字的阅读顺序。其中,可以认为文字区域掩膜(mask)图像是利用涂抹和复原引擎分离出来的文本行的前景图像。
在本实现方式中,为了提高识别结果的准确性。在获取到文本行位置后,进一步可以利用现有或未来出现的获取文本行的文字区域掩膜图像的方法,对获取的单字位置进行处理,比如,可以利用涂抹和复原引擎分离出文本行的前景图像作为文本行的文字区域掩膜图像,进而可以根据文字区域掩膜图像的识别结果,预测出对应文本行位置中文本区域内的文字方向,即文字的阅读顺序,用以执行后续步骤S104。
并且,一种可选的实现方式是,还可以将文本行位置切分成预设尺寸的正方形,并依次连接各个正方形的中点,得到文本行位置中文本区域内的文字的阅读顺序,如图3所示,图中的箭头指示方向代表了该文本行中文字的阅读顺序。同时,在实际的预测网络中,还需要预测出文本行中的文字方向偏移量,
且该偏移量的标注是根据文本行标注生成的,如图4所示,结合文字方向偏移量,可以更为准确的预测出该文本行中文字的阅读顺序。
S104:根据单字位置与文本行位置的比例关系,将单字的内容信息按照文本行位置中的文字的阅读顺序进行排列,得到目标古籍图像中文字的识别结果。
需要说明的是,由于古籍中文字并不是完全按照从上至下的排列方式进行排列,所以对于单字的检测直接进行规则上的位置排序得到的不一定是符合正确语义的结果。所以,在本实施例中,在通过步骤S103确定出单字的内容信息和文本行位置中的文字的阅读顺序后,进一步可以将单字的内容信息和文本行位置及文字的阅读顺序进行融合识别,以得到准确性更高的古籍识别结果。
具体来讲,一种可选的实现方式是,步骤S104的具体实现过程可以包括下述步骤B1-B2:
步骤B1:计算单字位置与文本行位置的交集面积;并计算交集面积与单字位置之间的比值。
在本实现方式是中,为了能够提高最终识别结果的准确性,在确定出目标古籍图像的单字位置与文本行位置后,进一步可以通过对二者的位置关系进行处理,以确定出单字位置是否属于该文本行位置,即,确定出单字位置中的单字是否属于该文本行,具体的,可以先计算出单字位置与文本行位置的交集面积,然后再计算出该交集面积与单字位置所在面积之间的比值,用以执行后续步骤B2。
步骤B2:当比值满足预设条件时,将单字位置中单字的内容信息按照文本行位置中的文字的阅读顺序进行排列,得到目标古籍图像中文字的识别结果。
通过步骤B1计算出单字位置与文本行位置的交集面积,与单字位置之间的比值后,进一步可以判断该比值是否满足预设条件,其中,预设条件的具体取值可根据实际情况进行设定,本申请实施例不进行限定,比如可以将预设条件设定为比值不小于0.5等。这样,当判断出该比值满足预设条件时,如该比值大于0.5时,表明该单字位置是属于该文本行位置的,进而可以将单字位置中单字的内容信息按照文本行位置中的文字的阅读顺序进行排列,得到该文本行中的文字识别结果,进而可以得到目标古籍图像中所有文字按照文本行进行排序的识别结果。
举例说明:如图5所示,通过上述步骤S102-S103,可以确定出左侧图中
的“某”、“號”、“官”、“船”、“舷”这5个单字对应的单字位置所在的“小方框”,以及可以确定出文本行位置所在的“长方框”。并且还可以确定出该文本行位置中的文字的阅读顺序如右侧图中的箭头所示方向。进而可以计算出这5个单字各自所在的“小方框”与该文本行位置所在的“长方框”之间的交集面积。接着,再通过判断该交集面积与单字位置之间的比值是否满足预设条件,来确定出该单字位置是否属于该文本行。
例如,假设预设条件为当单字位置与文本行位置的交集面积,与单字位置之间的比值不小于0.5时,可以确定单字位置是属于该文本行位置的,并可以将属于该文本行位置的单字位置中单字的内容信息,按照该文本行位置中的文字的阅读顺序进行排列。此时,若计算出“某”、“號”、“官”、“船”、“舷”这5个单字对应的单字位置所在的“小方框”与该文本行位置所在的“长方框”之间的交集面积,与各个单字位置的比值均大于0.5,即,比值均满足预设条件,则进一步的,可以将这5个单字按照该文本行位置中的文字的阅读顺序(即右侧图中的箭头所示方向)进行排列,即,将“某”、“號”、“官”、“船”、“舷”这5个单字连接成“某號官船舷”,作为图5所示目标古籍图像中文字的最终识别结果。
这样,在利用上述步骤S101-S104进行古籍图像识别时,充分考虑了图像中各个古籍单字之间的位置关系以及文本行中文字的阅读顺序,通过将目标古籍图像中单字的位置和内容,与文本行的位置和文字阅读方向进行聚合,使得属于同一个文本行的单字分到同一个文本行所在位置中,且单字的内容信息是按照文本行位置中的文字的阅读顺序进行排列,从而能够得到准确性更高的识别结果。
举例说明:如图6所示,其示出了本申请实施例提供的古籍识别过程的整体示例图。在具体的识别过程中,首先,将目标古籍图像输入Resnet和特征金字塔网络(FPN)结构(用于不同尺度特征的融合处理)构成的骨干网络中,得到骨干分类特征。然后,将该骨干分类特征分别输入单字检测网络和文本行位置检测网络模型,进行单字位置检测和文本行位置检测。接着,可以对检测出的单字位置进行识别,得到单字的内容信息,如图6中的“獨”、“感”、“夫”、“古”、“今”、“宙”、“之”、“變”。以对检测出的文本行位置进行预测,得到各个文本行位置中的文字的阅读顺序,如图6中的箭头所示。进而可以将识别
得到的“獨”、“感”、“夫”、“古”、“今”、“宙”、“之”、“變”等单字内容信息按照各自所属文本行中文字的阅读顺序进行排列,得到融合识别结果,如图6最右侧下方图所示。具体识别实现过程可参见上述步骤S101-S104的详细介绍,在此不再赘述。
综上,本实施例提供的一种古籍识别方法,首先获取待识别的目标古籍图像;并利用骨干网络对目标古籍图像进行分类特征提取,得到骨干分类特征,然后对骨干分类特征进行检测,确定目标古籍图像包含的单字位置和文本行位置;接着,对单字位置进行识别,得到单字的内容信息;以及对文本行位置进行预测,得到文本行位置中的文字的阅读顺序,进而可以根据单字位置与文本行位置的比例关系,将单字的内容信息按照文本行位置中的文字的阅读顺序进行排列,得到目标古籍图像中文字的识别结果。可见,由于本申请实施例是通过将古籍图像中单字的位置和内容,与文本行的位置和文字阅读方向进行聚合,从而提高识别效果,并且由于进行古籍图像识别时,充分考虑了各个单字之间的位置关系以及文本行中文字的阅读顺序,相比现有识别方法,大幅度提高了识别准确率和识别效率。
第二实施例
本实施例将对一种古籍识别装置进行介绍,相关内容请参见上述方法实施例。
参见图7,为本实施例提供的一种古籍识别装置的组成示意图,该装置700包括:
获取单元701,用于获取待识别的目标古籍图像;并利用骨干网络对所述目标古籍图像进行分类特征提取,得到骨干分类特征;
检测单元702,用于对所述骨干分类特征进行检测,确定所述目标古籍图像包含的单字位置和文本行位置;
识别单元703,用于对所述单字位置进行识别,得到单字的内容信息;以及对所述文本行位置进行预测,得到所述文本行位置中的文字的阅读顺序;
排列单元704,用于根据所述单字位置与所述文本行位置的比例关系,将所述单字的内容信息按照所述文本行位置中的文字的阅读顺序进行排列,得到所述目标古籍图像中文字的识别结果。
在本实施例的一种实现方式中,所述检测单元702包括:
输入子单元,用于将所述骨干分类特征输入卷积层,得到单字概率特征图和背景阈值特征图;
第一确定子单元,用于根据所述单字概率特征图和背景阈值特征图,确定所述目标估计图像中每一像素点属于单字的概率和属于背景的概率;
第一确定子单元,用于根据所述每一像素点属于单字的概率和属于背景的概率,通过取连通域的方式,确定每个单字的最小外接矩形,作为每个单字对应的单字位置。
在本实施例的一种实现方式中,所述识别单元703包括:
裁剪子单元,用于从所述目标古籍图像中,裁剪出所述单字位置对应的单字图像区域;
识别子单元,用于利用神经网络分类器,对所述单字图像区域中的单字进行识别,得到单字对应的内容信息。
在本实施例的一种实现方式中,所述识别单元703包括:
第一预测子单元,用于对所述文本行位置进行预测,得到对应的文字区域掩膜图像;
第二预测子单元,用于根据所述文字区域掩膜图像,预测出所述文本行位置中文本区域内的文字的阅读顺序。
在本实施例的一种实现方式中,所述识别单元703具体用于:
将所述文本行位置切分成预设尺寸的正方形,并依次连接各个所述正方形的中点,得到所述文本行位置中文本区域内的文字的阅读顺序。
在本实施例的一种实现方式中,所述排列单元704包括:
计算子单元,用于计算所述单字位置与所述文本行位置的交集面积;并计算所述交集面积与所述单字位置之间的比值;
排列子单元,用于当所述比值满足预设条件时,将所述单字位置中单字的内容信息按照所述文本行位置中的文字的阅读顺序进行排列,得到所述目标古籍图像中文字的识别结果。
在本实施例的一种实现方式中,所述装置还包括:
接收单元,用于接收对所述单字的内容信息的修正操作,得到单字对应的修正后的内容信息。
进一步地,本申请实施例还提供了一种古籍识别设备,包括:处理器、
存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述古籍识别方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述古籍识别方法的任一种实现方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它
实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (11)
- 一种古籍识别方法,其特征在于,所述方法包括:获取待识别的目标古籍图像;并利用骨干网络对所述目标古籍图像进行分类特征提取,得到骨干分类特征;对所述骨干分类特征进行检测,确定所述目标古籍图像包含的单字位置和文本行位置;对所述单字位置进行识别,得到单字的内容信息;以及对所述文本行位置进行预测,得到所述文本行位置中的文字的阅读顺序;根据所述单字位置与所述文本行位置的比例关系,将所述单字的内容信息按照所述文本行位置中的文字的阅读顺序进行排列,得到所述目标古籍图像中文字的识别结果。
- 根据权利要求1所述的方法,其特征在于,所述对所述骨干分类特征进行检测,确定所述目标古籍图像包含的单字位置,包括:将所述骨干分类特征输入卷积层,得到单字概率特征图和背景阈值特征图;根据所述单字概率特征图和背景阈值特征图,确定所述目标估计图像中每一像素点属于单字的概率和属于背景的概率;根据所述每一像素点属于单字的概率和属于背景的概率,通过取连通域的方式,确定每个单字的最小外接矩形,作为每个单字对应的单字位置。
- 根据权利要求1所述的方法,其特征在于,所述对所述单字位置进行识别,得到单字的内容信息,包括:从所述目标古籍图像中,裁剪出所述单字位置对应的单字图像区域;利用神经网络分类器,对所述单字图像区域中的单字进行识别,得到单字对应的内容信息。
- 根据权利要求1所述的方法,其特征在于,所述对所述文本行位置进行预测,得到所述文本行位置中的文字的阅读顺序,包括:对所述文本行位置进行预测,得到对应的文字区域掩膜图像;根据所述文字区域掩膜图像,预测出所述文本行位置中文本区域内的文字的阅读顺序。
- 根据权利要求1所述的方法,其特征在于,所述对所述文本行位置进 行预测,得到所述文本行位置中的文字的阅读顺序,包括:将所述文本行位置切分成预设尺寸的正方形,并依次连接各个所述正方形的中点,得到所述文本行位置中文本区域内的文字的阅读顺序。
- 根据权利要求1所述的方法,其特征在于,所述根据所述单字位置与所述文本行位置的比例关系,将所述单字的内容信息按照所述文本行位置中的文字的阅读顺序进行排列,得到所述目标古籍图像中文字的识别结果,包括:计算所述单字位置与所述文本行位置的交集面积;并计算所述交集面积与所述单字位置之间的比值;当所述比值满足预设条件时,将所述单字位置中单字的内容信息按照所述文本行位置中的文字的阅读顺序进行排列,得到所述目标古籍图像中文字的识别结果。
- 根据权利要求1-6所述的方法,其特征在于,所述方法还包括:接收对所述单字的内容信息的修正操作,得到单字对应的修正后的内容信息。
- 一种古籍识别装置,其特征在于,所述装置包括:获取单元,用于获取待识别的目标古籍图像;并利用骨干网络对所述目标古籍图像进行分类特征提取,得到骨干分类特征;检测单元,用于对所述骨干分类特征进行检测,确定所述目标古籍图像包含的单字位置和文本行位置;识别单元,用于对所述单字位置进行识别,得到单字的内容信息;以及对所述文本行位置进行预测,得到所述文本行位置中的文字的阅读顺序;排列单元,用于根据所述单字位置与所述文本行位置的比例关系,将所述单字的内容信息按照所述文本行位置中的文字的阅读顺序进行排列,得到所述目标古籍图像中文字的识别结果。
- 一种古籍识别设备,其特征在于,包括:处理器、存储器、系统总线;所述处理器以及所述存储器通过所述系统总线相连;所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-7任一项所述的 方法。
- 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-7任一项所述的方法。
- 一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得计算机执行如权利要求1至7中任一项所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210258636.0 | 2022-03-16 | ||
CN202210258636.0A CN115147852B (zh) | 2022-03-16 | 2022-03-16 | 一种古籍识别方法、装置、存储介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023173949A1 true WO2023173949A1 (zh) | 2023-09-21 |
Family
ID=83405305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2023/074289 WO2023173949A1 (zh) | 2022-03-16 | 2023-02-02 | 一种古籍识别方法、装置、存储介质及设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115147852B (zh) |
WO (1) | WO2023173949A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115147852B (zh) * | 2022-03-16 | 2024-10-11 | 北京有竹居网络技术有限公司 | 一种古籍识别方法、装置、存储介质及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190138860A1 (en) * | 2017-11-08 | 2019-05-09 | Adobe Inc. | Font recognition using adversarial neural network training |
CN111507351A (zh) * | 2020-04-16 | 2020-08-07 | 华南理工大学 | 一种古籍文档数字化的方法 |
CN113158808A (zh) * | 2021-03-24 | 2021-07-23 | 华南理工大学 | 中文古籍字符识别、组段与版面重建方法、介质和设备 |
CN113762257A (zh) * | 2021-09-30 | 2021-12-07 | 时趣互动(北京)科技有限公司 | 一种美妆品牌图像中标志的识别方法及装置 |
CN113780098A (zh) * | 2021-08-17 | 2021-12-10 | 北京百度网讯科技有限公司 | 文字识别方法、装置、电子设备以及存储介质 |
CN115147852A (zh) * | 2022-03-16 | 2022-10-04 | 北京有竹居网络技术有限公司 | 一种古籍识别方法、装置、存储介质及设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108885699B (zh) * | 2018-07-11 | 2020-06-26 | 深圳前海达闼云端智能科技有限公司 | 字符识别方法、装置、存储介质及电子设备 |
CN109934229B (zh) * | 2019-03-28 | 2021-08-03 | 网易有道信息技术(北京)有限公司 | 图像处理方法、装置、介质和计算设备 |
CN110399845A (zh) * | 2019-07-29 | 2019-11-01 | 上海海事大学 | 一种图像中连续成段文本检测与识别方法 |
CN110569830B (zh) * | 2019-08-01 | 2023-08-22 | 平安科技(深圳)有限公司 | 多语言文本识别方法、装置、计算机设备及存储介质 |
CN111126394A (zh) * | 2019-12-25 | 2020-05-08 | 上海肇观电子科技有限公司 | 文字识别方法、阅读辅助设备、电路和介质 |
CN111340023B (zh) * | 2020-02-24 | 2022-09-09 | 创新奇智(上海)科技有限公司 | 文本识别方法及装置、电子设备、存储介质 |
CN111914805A (zh) * | 2020-08-18 | 2020-11-10 | 科大讯飞股份有限公司 | 表格结构化方法、装置、电子设备及存储介质 |
CN113011132B (zh) * | 2021-04-22 | 2023-07-21 | 中国平安人寿保险股份有限公司 | 竖排文字识别方法、装置、计算机设备和存储介质 |
CN113657370B (zh) * | 2021-08-26 | 2024-04-23 | 北京有竹居网络技术有限公司 | 一种文字识别方法及其相关设备 |
CN113989484A (zh) * | 2021-11-02 | 2022-01-28 | 古联(北京)数字传媒科技有限公司 | 古籍的文字识别方法、装置、计算机设备及存储介质 |
-
2022
- 2022-03-16 CN CN202210258636.0A patent/CN115147852B/zh active Active
-
2023
- 2023-02-02 WO PCT/CN2023/074289 patent/WO2023173949A1/zh unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190138860A1 (en) * | 2017-11-08 | 2019-05-09 | Adobe Inc. | Font recognition using adversarial neural network training |
CN111507351A (zh) * | 2020-04-16 | 2020-08-07 | 华南理工大学 | 一种古籍文档数字化的方法 |
CN113158808A (zh) * | 2021-03-24 | 2021-07-23 | 华南理工大学 | 中文古籍字符识别、组段与版面重建方法、介质和设备 |
CN113780098A (zh) * | 2021-08-17 | 2021-12-10 | 北京百度网讯科技有限公司 | 文字识别方法、装置、电子设备以及存储介质 |
CN113762257A (zh) * | 2021-09-30 | 2021-12-07 | 时趣互动(北京)科技有限公司 | 一种美妆品牌图像中标志的识别方法及装置 |
CN115147852A (zh) * | 2022-03-16 | 2022-10-04 | 北京有竹居网络技术有限公司 | 一种古籍识别方法、装置、存储介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115147852B (zh) | 2024-10-11 |
CN115147852A (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109993040B (zh) | 文本识别方法及装置 | |
US20190188528A1 (en) | Text detection method and apparatus, and storage medium | |
CN112381775B (zh) | 一种图像篡改检测方法、终端设备及存储介质 | |
US8693790B2 (en) | Form template definition method and form template definition apparatus | |
US11790499B2 (en) | Certificate image extraction method and terminal device | |
US8064703B2 (en) | Property record document data validation systems and methods | |
WO2021042505A1 (zh) | 基于文字识别技术的笔记生成方法、装置和计算机设备 | |
CN113963147B (zh) | 一种基于语义分割的关键信息提取方法及系统 | |
WO2023045277A1 (zh) | 一种将图像中表格转换为电子表格的方法及装置 | |
WO2023173949A1 (zh) | 一种古籍识别方法、装置、存储介质及设备 | |
CN106683073A (zh) | 一种车牌的检测方法及摄像机和服务器 | |
TW200529093A (en) | Face image detection method, face image detection system, and face image detection program | |
CN111353961A (zh) | 一种文档曲面校正方法及装置 | |
CN111340032A (zh) | 一种基于金融领域应用场景的字符识别方法 | |
CN113537211A (zh) | 一种基于非对称iou的深度学习车牌框定位方法 | |
CN113901924A (zh) | 一种文档表格的检测方法及装置 | |
CN116343237A (zh) | 基于深度学习和知识图谱的票据识别方法 | |
CN113569859A (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN113392455A (zh) | 基于深度学习的户型图比例尺检测方法、装置及电子设备 | |
US20070217691A1 (en) | Property record document title determination systems and methods | |
CN115546813A (zh) | 一种文档分析方法、装置、存储介质及设备 | |
CN114926829A (zh) | 一种证件检测方法、装置、电子设备及存储介质 | |
CN113011423A (zh) | 一种基于ctpn系统文本线构造优化计算方法及其应用 | |
WO2021098861A1 (zh) | 识别文本的方法、装置、识别设备和存储介质 | |
Huang et al. | Machine Learning-Based Online Source Identification for Image Forensics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 23769460 Country of ref document: EP Kind code of ref document: A1 |