KR20240043468A - System and Method for Construction of Large-Capacity Document Database Using Korean Virtual Image Generation Technology - Google Patents
System and Method for Construction of Large-Capacity Document Database Using Korean Virtual Image Generation Technology Download PDFInfo
- Publication number
- KR20240043468A KR20240043468A KR1020220122595A KR20220122595A KR20240043468A KR 20240043468 A KR20240043468 A KR 20240043468A KR 1020220122595 A KR1020220122595 A KR 1020220122595A KR 20220122595 A KR20220122595 A KR 20220122595A KR 20240043468 A KR20240043468 A KR 20240043468A
- Authority
- KR
- South Korea
- Prior art keywords
- text
- image
- learning
- data
- consonant
- Prior art date
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 25
- 238000010276 construction Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 title claims description 51
- 238000007781 pre-processing Methods 0.000 claims abstract description 34
- 238000002372 labelling Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 description 35
- 238000012015 optical character recognition Methods 0.000 description 22
- 230000008901 benefit Effects 0.000 description 11
- 238000012549 training Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/164—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19113—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/22—Cropping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
본 발명의 일 실시예에 따른 한국어 가상이미지 생성기술을 이용한 대용량 문서 데이터 구축 시스템은 외부단말 또는 외부서버로부터 인식 대상 이미지를 수집하고, 수집된 인식 대상 이미지의 노이즈, 워터마크, 배경 색상 및 프레임 중 적어도 하나 이상을 제거하기 위한 전처리를 수행하는 텍스트 이미지 수집 및 전처리부 상기 텍스트 이미지 수집 및 전처리부에서 수집된 인식 대상 문서 이미지 내의 텍스트 구조(초성, 중성, 종성), 형식, 숫자, 도형, 기호를 식별 및/또는 판독하기 위한 크롭(Crop)영역을 설정한 후, 상기 크롭(Crop) 영역 내의 텍스트 구조(초성, 중성, 종성), 숫자, 도형, 기호의 위치를 탐색하고, 탐지된 텍스트 구조(초성, 중성, 종성), 형식, 숫자, 도형, 기호의 둘레를 따라 사각형상을 표시하여 사각형상의 픽셀 위치 정보를 생성 및 판독하는 OCR 모델링부; 검출한 픽셀 위치 좌표를 기초로 텍스트의 문장구조, 형식, 숫자, 도형, 기호 중 적어도 하나 이상이 포함된 크롭(Crop) 이미지에서 특정 클래스만을 탐지하기 위한 라벨링 처리를 수행하는 라벨링부; 데이터베이스에 저장된 복수의 라벨링 이미지를 조합하여 가상의 이미지 템플릿을 생성하는 텍스트 가상이미지 생성부; 및 라벨링(labeling)된 제1 학습 데이터(가상의 이미지 템플릿) 및 제2 학습 데이터(클롭 이미지)를 구축한 적어도 하나 이상의 학습 모델로 학습하고, 학습된 데이터 셋을 데이터베이스화하는 인공지능 데이터 학습부를 포함한다.A large-capacity document data construction system using Korean virtual image generation technology according to an embodiment of the present invention collects recognition target images from an external terminal or external server, and selects the noise, watermark, background color, and frame of the collected recognition target images. A text image collection and pre-processing unit that performs pre-processing to remove at least one text image collection and pre-processing unit to collect the text structure (initial consonant, middle consonant, final consonant), format, number, shape, and symbol in the recognition target document image collected in the text image collection and pre-processing unit. After setting a crop area for identification and/or reading, the positions of text structures (initial consonants, middle consonants, final consonants), numbers, shapes, and symbols within the crop area are searched, and the detected text structure ( An OCR modeling unit that generates and reads pixel position information on a square by displaying a square along the perimeter of the initial, middle, and final consonants, format, number, shape, and symbol; A labeling unit that performs labeling processing to detect only a specific class in a cropped image containing at least one of the sentence structure, format, number, figure, and symbol of the text based on the detected pixel location coordinates; A text virtual image generator that generates a virtual image template by combining a plurality of labeling images stored in a database; And an artificial intelligence data learning unit that learns with at least one learning model constructed from labeled first learning data (virtual image template) and second learning data (clopped image), and converts the learned data set into a database. Includes.
Description
본 발명은 한국어 가상이미지 생성기술을 이용한 대용량 문서 데이터 구축 시스템 및 방법에 관한 것이다.The present invention relates to a system and method for building large-capacity document data using Korean virtual image generation technology.
현재, 일반적으로 OCR(Optical Character Recognition, 광학적 문자 판독) 기술을 응용하여 문서를 인식한다.Currently, OCR (Optical Character Recognition) technology is generally applied to recognize documents.
이 기술을 이용하여 인식할 때, 문서의 카테고리를 정확하게 획득하고, 상응하는 템플릿을 사용해야 하지만, 관련 기술에 의한 분서 분류 결과는 정확하지 않다.When recognizing using this technology, the category of the document must be accurately obtained and the corresponding template must be used, but the document classification results by related technology are not accurate.
따라서, 어떻게 문서를 정확하게 분류하는 가하는 것은 하나의 시급히 해결해야 할 과제이다.Therefore, how to accurately classify documents is an urgent problem that needs to be solved.
본 발명이 해결하고자 하는 과제는 종래의 문제점을 해결하기 위한 한국어 가상이미지 생성기술을 이용한 대용량 문서 데이터 구축 시스템 및 방법을 제공하는 데 그 목적이 있다.The purpose of the present invention is to provide a system and method for building large-capacity document data using Korean virtual image generation technology to solve conventional problems.
상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 한국어 가상이미지 생성기술을 이용한 대용량 문서 데이터 구축 시스템은 외부단말 또는 외부서버로부터 인식 대상 이미지를 수집하고, 수집된 인식 대상 이미지의 노이즈, 워터마크, 배경 색상 및 프레임 중 적어도 하나 이상을 제거하기 위한 전처리를 수행하는 텍스트 이미지 수집 및 전처리부; 상기 텍스트 이미지 수집 및 전처리부에서 수집된 인식 대상 문서 이미지 내의 텍스트 구조(초성, 중성, 종성), 형식, 숫자, 도형, 기호를 식별 및/또는 판독하기 위한 크롭(Crop)영역을 설정한 후, 상기 크롭(Crop) 영역 내의 텍스트 구조(초성, 중성, 종성), 숫자, 도형, 기호의 위치를 탐색하고, 탐지된 텍스트 구조(초성, 중성, 종성), 형식, 숫자, 도형, 기호의 둘레를 따라 사각형상을 표시하여 사각형상의 픽셀 위치 정보를 생성 및 판독하는 OCR 모델링부; 검출한 픽셀 위치 좌표를 기초로 텍스트의 문장구조, 형식, 숫자, 도형, 기호 중 적어도 하나 이상이 포함된 크롭(Crop) 이미지에서 특정 클래스만을 탐지하기 위한 라벨링 처리를 수행하는 라벨링부; 데이터베이스에 저장된 복수의 라벨링 이미지를 조합하여 가상의 이미지 템플릿을 생성하는 텍스트 가상이미지 생성부; 및 라벨링(labeling)된 제1 학습 데이터(가상의 이미지 템플릿) 및 제2 학습 데이터(클롭 이미지)를 구축한 적어도 하나 이상의 학습 모델로 학습하고, 학습된 데이터 셋을 데이터베이스화하는 인공지능 데이터 학습부를 포함한다.To solve the above problem, a large-capacity document data construction system using Korean virtual image generation technology according to an embodiment of the present invention collects recognition target images from an external terminal or external server, and noise and watermarks of the collected recognition target images. , a text image collection and preprocessing unit that performs preprocessing to remove at least one of the background color and frame; After setting a crop area to identify and/or read the text structure (initial consonant, middle consonant, final consonant), format, number, figure, and symbol in the recognition target document image collected by the text image collection and preprocessing unit, Search for the positions of text structures (initial consonants, middle consonants, final consonants), numbers, shapes, and symbols within the crop area, and find the perimeter of the detected text structures (initial consonants, middle consonants, final consonants), formats, numbers, shapes, and symbols. an OCR modeling unit that displays a rectangular shape and generates and reads pixel position information on the rectangular shape; A labeling unit that performs labeling processing to detect only a specific class in a cropped image containing at least one of the sentence structure, format, number, figure, and symbol of the text based on the detected pixel location coordinates; A text virtual image generator that generates a virtual image template by combining a plurality of labeling images stored in a database; And an artificial intelligence data learning unit that learns with at least one learning model constructed from labeled first learning data (virtual image template) and second learning data (clopped image), and converts the learned data set into a database. Includes.
상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 한국어 가상이미지 생성기술을 이용한 대용량 문서 데이터 구축 방법은 외부단말 또는 외부서버로부터 인식 대상 이미지를 수집하고, 수집된 인식 대상 이미지의 노이즈, 워터마크, 배경 색상 및 프레임 중 적어도 하나 이상을 제거하기 위한 전처리를 수행하는 단계; 상기 텍스트 이미지 수집 및 전처리부(110)에서 수집된 인식 대상 문서 이미지 내의 텍스트 구조(초성, 중성, 종성), 형식, 숫자, 도형, 기호를 식별 및/또는 판독하기 위한 크롭(Crop)영역을 설정한 후, 상기 크롭(Crop) 영역 내의 텍스트 구조(초성, 중성, 종성), 숫자, 도형, 기호의 위치를 탐색하고, 탐지된 텍스트 구조(초성, 중성, 종성), 형식, 숫자, 도형, 기호의 둘레를 따라 사각형상을 표시하여 사각형상의 픽셀 위치 정보를 생성 및 판독하는 단계; 검출한 픽셀 위치 좌표를 기초로 텍스트의 문장구조, 형식, 숫자, 도형, 기호 중 적어도 하나 이상이 포함된 크롭(Crop) 이미지에서 특정 클래스만을 탐지하기 위한 라벨링 처리를 수행하는 단계; 데이터베이스에 저장된 복수의 라벨링 이미지를 조합하여 가상의 이미지 템플릿을 생성하는 단계; 및 라벨링(labeling)된 제1 학습 데이터(가상의 이미지 템플릿) 및 제2 학습 데이터(클롭 이미지)를 구축한 적어도 하나 이상의 학습 모델로 학습하고, 학습된 데이터 셋을 데이터베이스화하는 단계를 포함한다.To solve the above problem, a method of constructing large-scale document data using Korean virtual image generation technology according to an embodiment of the present invention collects recognition target images from an external terminal or external server, and noise and watermarks of the collected recognition target images. , performing preprocessing to remove at least one of the background color and the frame; Setting a crop area to identify and/or read the text structure (initial consonant, middle consonant, final consonant), format, number, figure, and symbol in the recognition target document image collected by the text image collection and preprocessing unit 110. Then, search for the positions of text structures (initial consonants, middle consonants, final consonants), numbers, shapes, and symbols within the crop area, and search for the detected text structures (initial consonants, middle consonants, final consonants), formats, numbers, shapes, and symbols. generating and reading pixel position information on the square by displaying a square along the perimeter; Performing labeling processing to detect only a specific class in a cropped image containing at least one of the sentence structure, format, number, figure, and symbol of the text based on the detected pixel location coordinates; Generating a virtual image template by combining a plurality of labeling images stored in a database; and learning with at least one learning model constructed from labeled first learning data (virtual image template) and second learning data (clopped image), and converting the learned data set into a database.
따라서, 본 발명의 일 실시예에 따른 한국어 가상이미지 생성기술을 이용한 대용량 문서 데이터 구축 시스템 및 방법을 이용하면, 이미지 문서 상에 기재된 문자, 숫자, 기호를 포함하는 글자를 인식하고, 인식된 글자에 대한 상대적인 위치 정보에 기반하여 항목들 간의 연결관계를 분석한 소스를 기반으로 대용량의 OCR 모델링에 적용될 테스트 정보를 생성 및 학습함으로써, OCR 모델의 정확도를 향상시킬 수 있다는 이점이 있다.Therefore, by using the system and method for building large-scale document data using Korean virtual image generation technology according to an embodiment of the present invention, characters including letters, numbers, and symbols written on the image document are recognized, and the recognized characters are There is an advantage in that the accuracy of the OCR model can be improved by generating and learning test information to be applied to large-scale OCR modeling based on a source that analyzes the connection relationships between items based on relative location information.
또한, 자동으로 분류된 문서 이미지로부터 추출된 텍스트 데이터에 기반해 문서와 유사한 가상 문서를 생성할 수 있고, 생성된 가상 문서를 파생 및/또는 확장시켜 OCR 모델의 성능검증을 보다 정확하게 실시할 수 있다는 이점이 있다.In addition, a virtual document similar to a document can be created based on text data extracted from automatically classified document images, and the performance of the OCR model can be verified more accurately by deriving and/or expanding the generated virtual document. There is an advantage.
또한, 다양한 형태의 문서 이미지에 포함된 다양한 문자를 인식하기 위해 신경망(Neural Nets), HMM(Hidden Markov Models) 또는 KNN(K-Nerest-Neighbor) 방법을 적용하고, 다양한 글꼴이나 형태를 가진 문서에 대한 인식률을 높이기 위해 다량의 트레이닝 데이터를 이용하여 문자 학습을 통해 문자 인식 모델을 트레이닝함으로써, 문자 인식 모델의 성능을 향상시킬 수 있다는 이점이 있다.In addition, Neural Nets, Hidden Markov Models (HMM), or K-Nerest-Neighbor (KNN) methods are applied to recognize various characters included in various types of document images, and to documents with various fonts or shapes. There is an advantage in that the performance of the character recognition model can be improved by training the character recognition model through character learning using a large amount of training data to increase the recognition rate.
또한, 사람이 직접 문서를 촬영하거나 스캔하여 다량의 트레이닝 데이터를 수집하는 데에는 한계가 있는 문제를 해결할 수 있고, 제한된 트레이닝 데이터 세트(Training data set)로 인한 문자 분류 오류발생확률을 낮출 수 있어, 결과적으로 광학적 문자 인식 엔진의 분류 성능을 향상시킬 수 있다는 이점이 있다.In addition, it can solve the problem that there are limitations in collecting a large amount of training data by directly photographing or scanning documents, and can reduce the probability of character classification errors due to a limited training data set, resulting in better results. This has the advantage of improving the classification performance of the optical character recognition engine.
도 1은 본 발명의 일 실시예에 따른 한국어 가상문서 생성기술을 통한 대용량 문서 데이터 구축 시스템의 장치 구성도이다.
도 2는 본 발명의 일 실시예에 따른 한국어 가상문서 생성기술을 통한 대용량 문서 데이터 구축 방법을 설명한 흐름도이다.Figure 1 is a device configuration diagram of a large-capacity document data construction system through Korean virtual document generation technology according to an embodiment of the present invention.
Figure 2 is a flowchart explaining a method of building large-capacity document data through Korean virtual document generation technology according to an embodiment of the present invention.
본 발명에서 사용되는 기술적 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 발명에서 사용되는 기술적 용어는 본 발명에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 발명에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.It should be noted that the technical terms used in the present invention are only used to describe specific embodiments and are not intended to limit the present invention. In addition, the technical terms used in the present invention, unless specifically defined in a different sense in the present invention, should be interpreted as meanings generally understood by those skilled in the art in the technical field to which the present invention pertains, and are not overly comprehensive. It should not be interpreted in a literal or excessively reduced sense. Additionally, if the technical terms used in the present invention are incorrect technical terms that do not accurately express the idea of the present invention, they should be replaced with technical terms that can be correctly understood by those skilled in the art. In addition, general terms used in the present invention should be interpreted according to the definition in the dictionary or according to the context, and should not be interpreted in an excessively reduced sense.
또한, 본 발명에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다. 본 발명에서 "구성된다" 또는 "포함한다" 등의 용어는 발명에 기재된 여러 구성 요소들 또는 여러 단계를 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.Additionally, as used in the present invention, singular expressions include plural expressions unless the context clearly dictates otherwise. In the present invention, terms such as “consists of” or “comprises” should not be construed as necessarily including all of the various components or steps described in the invention, and some of the components or steps may not be included. It may be possible, or it should be interpreted as being able to further include additional components or steps.
또한, 본 발명에서 사용되는 제 1, 제 2 등과 같이 서수를 포함하는 용어는 구성 요소들을 설명하는데 사용될 수 있지만, 구성 요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성 요소는 제 2 구성 요소로 명명될 수 있고, 유사하게 제 2 구성 요소도 제 1 구성 요소로 명명될 수 있다.Additionally, terms containing ordinal numbers, such as first, second, etc., used in the present invention may be used to describe constituent elements, but the constituent elements should not be limited by the terms. Terms are used only to distinguish one component from another. For example, a first component may be named a second component without departing from the scope of the present invention, and similarly, the second component may also be named a first component.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.Hereinafter, preferred embodiments according to the present invention will be described in detail with reference to the attached drawings. However, identical or similar components will be assigned the same reference numbers regardless of the reference numerals, and duplicate descriptions thereof will be omitted.
또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.Additionally, when describing the present invention, if it is determined that a detailed description of related known technologies may obscure the gist of the present invention, the detailed description will be omitted. In addition, it should be noted that the attached drawings are only intended to facilitate easy understanding of the spirit of the present invention, and should not be construed as limiting the spirit of the present invention by the attached drawings.
이하, 첨부된 도면들에 기초하여 본 발명의 일 실시예에 따른 한국어 가상이미지 생성기술을 통한 대용량 문서 데이터 구축 시스템 및 방법을 보다 상세하게 설명하도록 한다.Hereinafter, based on the attached drawings, a system and method for building large-capacity document data through Korean virtual image generation technology according to an embodiment of the present invention will be described in more detail.
도 1은 본 발명의 일 실시예에 따른 한국어 가상이미지 생성기술을 이용한 대용량 문서 데이터 구축 시스템의 장치 구성도이다.Figure 1 is a device configuration diagram of a large-capacity document data construction system using Korean virtual image generation technology according to an embodiment of the present invention.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 텍스트 가상이미지 생성기술을 이용한 대용량 문서 데이터 구축 시스템(100)은 텍스트 이미지 수집부 및 전처리부(110), OCR 모델링부(120), 라벨링부(130), 텍스트 가상이미지 생성부(140), 데이터 학습부(150), 성능검증부(160)를 포함한다.As shown in FIG. 1, the large-capacity document data construction system 100 using text virtual image generation technology according to an embodiment of the present invention includes a text image collection unit and preprocessing unit 110, an OCR modeling unit 120, It includes a labeling unit 130, a text virtual image generation unit 140, a data learning unit 150, and a performance verification unit 160.
상기 텍스트 수집 및 전처리부(110)는 외부단말 또는 외부서버로부터 인식 대상 이미지를 수집하는 구성으로, 여기서, 인식 대상 이미지는 글자, 도형, 기호를 포함하는 이미지일 수 있다. 또한, 인식 대상 이미지의 확장자는 jpg, png, bmp, tiff 등을 포함할 수 있다. The text collection and pre-processing unit 110 is configured to collect a recognition target image from an external terminal or an external server. Here, the recognition target image may be an image including letters, shapes, or symbols. Additionally, the extension of the image to be recognized may include jpg, png, bmp, tiff, etc.
또한, 텍스트 이미지 수집 및 전처리부(110)는 수집된 인식 대상 이미지에 전처리를 수행하는 구성일 수 있다.Additionally, the text image collection and preprocessing unit 110 may be configured to perform preprocessing on the collected recognition target images.
여기서, 전처리는 예를 들어, 노이즈, 워터마크, 배경 색상 및 프레임 등을 제거하는 과정과 문서의 글자 및 흰 배경만을 남기는 과정을 포함할 수 있다.Here, preprocessing may include, for example, a process of removing noise, watermarks, background colors, and frames, and a process of leaving only the text and white background of the document.
즉, 후술하는 OCR 모델링부 내의 엔진에서 글자와 배경의 명확한 경계가 있어야 인식 정확도가 높아지므로, 텍스트(숫자, 글자, 기호, 도형 등) 영역을 정확히 검출하기 위해서는 해당 문서 이미지에 대해 전처리 과정이 동반되어야 한다. 이러한 전처리 과정을 통해 글자 오인식에 대한 가능성을 줄일 수 있다.In other words, recognition accuracy increases when there is a clear boundary between text and background in the engine within the OCR modeling unit, which will be described later. Therefore, in order to accurately detect text (numbers, letters, symbols, shapes, etc.) areas, a pre-processing process is required for the document image. It has to be. Through this preprocessing process, the possibility of character misrecognition can be reduced.
전처리 과정에 의하면, 문서 이미지에 대해 x축 및 y축에 대해 미분하여 밝기 변화가 나타나는 픽셀들을 검출하고, 밝기 변화가 나타나는 픽셀들을 이용하여 문서 이미지 내 테이블을 구성하는 적어도 하나의 직선을 검출하여 테이블을 구성하는 직선을 삭제하고, 픽셀의 미분 값을 이용하여 가로 세로가 긴 직선들이 검출되어 해당 직선들이 제거되는 과정을 포함할 수 있다.According to the preprocessing process, pixels showing brightness changes are detected by differentiating the document image with respect to the It may include a process of deleting straight lines constituting , detecting long horizontal and vertical straight lines using the differential value of the pixel, and removing the corresponding straight lines.
[수학식 1][Equation 1]
[수학식 2][Equation 2]
이미지의 경계는 이미지의 픽셀 주변으로 밝기 값이 급격히 변하므로, 픽셀 값이 급격히 변하는 픽셀들을 검출하고 상기의 수학식 1을 이용하여 이미지의 X축과 Y축에 대해 미분하여 각각 검출하고 수학식 2를 이용하여 검출된 픽셀의 크기 및 각도를 계산하여 최종적으로 가로, 세로가 가장 긴 직선들만 검출할 수 있다.Since the brightness value of the boundary of the image changes rapidly around the pixels of the image, pixels whose pixel values change rapidly are detected and differentiated for the X-axis and Y-axis of the image using Equation 1 above, respectively, and Equation 2 By calculating the size and angle of the detected pixel, only the longest horizontal and vertical straight lines can be detected.
이렇게 검출된 테이블 영역에 해당하는 직선(검정색 픽셀 값: 0)은 해당하는 부분의 문서 이미지에서 삭제(픽셀 값을 255로 변경)될 수 있다.The straight line (black pixel value: 0) corresponding to the table area detected in this way can be deleted (pixel value changed to 255) from the document image of the corresponding part.
더불어, 전처리 과정은 문서 이미지를 이진화하는 과정을 포함할 수 있다.Additionally, the preprocessing process may include a process of binarizing the document image.
예를 들어, 문서 이미지가 흰색 배경과 검정색 글씨로 나누어지도록 하는 작업을 수행할 수 있다. 한편, 텍스트 이미지 수집 및 전처리부(110)의 경우, 이미지의 경계를 검출하기 위한 Canny Edge Detection 알고리즘이 프로그래밍되어 있을 수 있다.For example, you can split a document image into a white background and black text. Meanwhile, in the case of the text image collection and pre-processing unit 110, a Canny Edge Detection algorithm for detecting the boundary of the image may be programmed.
다음으로, 상기 OCR 모델링부(120)는 상기 텍스트 이미지 수집 및 전처리부(110)에서 수집된 인식 대상 문서 이미지 내의 텍스트 구조(초성, 중성, 종성), 형식, 숫자, 도형, 기호를 식별 및/또는 판독하기 위한 크롭(Crop)영역을 설정한 후, 설정된 크롭(Crop)영역 내의 텍스트 구조, 형식, 도형, 기호를 판독하는 구성일 수 있다.Next, the OCR modeling unit 120 identifies and/ Alternatively, it may be configured to set a crop area for reading and then read the text structure, format, shape, and symbol within the set crop area.
또한, 상기 OCR 모델링부(120)는 상기 크롭(Crop) 영역 내의 텍스트 구조(초성, 중성, 종성), 숫자, 도형, 기호의 위치를 탐색하고, 탐지된 텍스트 구조(초성, 중성, 종성), 형식, 숫자, 도형, 기호의 둘레를 따라 사각형상을 표시하여 사각형상의 픽셀 위치 정보를 생성하는 구성일 수 있다.In addition, the OCR modeling unit 120 searches for the positions of text structures (initial consonants, middle consonants, final consonants), numbers, shapes, and symbols in the crop area, and detects the detected text structures (initial consonants, middle consonants, final consonants), It may be a configuration that generates pixel location information on a square by displaying a square along the perimeter of a form, number, shape, or symbol.
즉, 텍스트 구조(초성, 중성, 종성), 텍스트 형식, 숫자, 도형, 기호 객체에 대한 상대적인 위치 인식을 수행하고, 각 위치에 따른 배열을 확인할 수 있도록 탐지된 글자, 숫자, 도형, 기호 객체의 둘레를 따라 사각형상을 표시하며, 표시된 사각형상의 픽셀 위치 값(좌표 정보)를 생성하는 구성일 수 있다.In other words, it performs relative position recognition for text structure (initial consonants, middle consonants, final consonants), text format, numbers, shapes, and symbol objects, and recognizes the detected letters, numbers, shapes, and symbol objects so that the arrangement according to each position can be confirmed. It may be configured to display a rectangular shape along the perimeter and generate pixel position values (coordinate information) on the displayed rectangle.
여기서, 상기 OCR 모델링부(120)는 PSENet(Progressive Scale Expansion Network) 기반의 딥러닝 모델을 이용하여 인식 대상 문서 이미지를 포함하는 학습 데이터로부터 텍스트 구조(초성, 중성, 종성), 형식, 숫자, 도형, 기호 객체와 그 위치를 탐지하고 탐지율의 향상을 위해 학습을 수행할 수 있다.Here, the OCR modeling unit 120 uses a deep learning model based on PSENet (Progressive Scale Expansion Network) to determine text structure (initial consonant, middle consonant, final consonant), format, number, and shape from learning data including the document image to be recognized. , symbolic objects and their locations can be detected and learning can be performed to improve the detection rate.
다음으로, 라벨링부(130)는 검출한 픽셀 위치 좌표를 기초로 텍스트의 문장구조, 형식, 숫자, 도형, 기호 중 적어도 하나 이상이 포함된 크롭(Crop) 이미지에서 특정 클래스만을 탐지하기 위한 라벨링 처리를 수행하는 구성일 수 있다. 라벨링된 이미지는 PASCAL VOC 데이터 형태로 구성된다.Next, the labeling unit 130 performs labeling processing to detect only a specific class in a cropped image containing at least one of the sentence structure, format, number, figure, and symbol of the text based on the detected pixel location coordinates. It may be a configuration that performs. Labeled images are formatted as PASCAL VOC data.
다음으로, 가상문서 생성부(140)는 데이터베이스에 저장된 복수의 라벨링 이미지를 조합하여 가상의 이미지 템플릿을 생성하는 구성일 수 있다.Next, the virtual document generator 140 may be configured to generate a virtual image template by combining a plurality of labeling images stored in a database.
여기서, 가상의 이미지 템플릿은 실제 사용되는 문서와 유사한 형태를 정의할 수 있다. 또한, 실제 사용되는 문서의 특성과 유사한 특성, 예컨대, 텍스트의 색상, 크기, 글씨체나 문서에 포함된 표, 배경, 색상, 워터마크 등 광학 문자 인식에 영향을 미치는 특징이 유사한 것을 의미한다.Here, the virtual image template can define a form similar to the document actually used. In addition, it means that characteristics that affect optical character recognition are similar to those of documents actually used, such as color, size, font of text, tables included in the document, background, color, watermark, etc.
다음으로, 데이터베이스(150)는 라베링 처리된 가상의 이미지 템플릿 및 크롭 이미지를 저장하는 구성일 수 있다.Next, the database 150 may be configured to store labeling-processed virtual image templates and cropped images.
또한, 상기 데이터베이스(150)는 크롭 이미지 내의 객체(숫자, 음절(초성, 중성, 종성) 기호 등) 이미지를 개별로 저장할 수 있고, 객체 간의 수평거리 또는 수직거리를 서로 대응시켜 저장하는 구성일 수 있다.In addition, the database 150 can individually store images of objects (numbers, syllables (initial consonants, middle consonants, final consonants) symbols, etc.) in the cropped image, and may be configured to store horizontal or vertical distances between objects in correspondence with each other. there is.
상기 데이터베이스(150)는 빅데이터를 구축하기 위하여, 저장된 로우 데이터 내에 포함된 비정형(Unstructed) 데이터, 정형(Structured) 데이터 및 반정형 데이터(Semi-structured)를 정제하고, 메타 데이터로 분류를 포함한 전처리를 실시할 수 있고, 전처리된 데이터를 데이터 마이닝(Data Mining)을 포함하는 분석을 실시할 수 있다. In order to build big data, the database 150 refines unstructured data, structured data, and semi-structured data contained in stored raw data, and preprocesses them, including classification into metadata. can be performed, and analysis including data mining can be performed on the preprocessed data.
이때, 데이터 마이닝은, 전처리된 데이터 간의 내재된 관계를 탐색하여 클래스가 알려진 훈련 데이터 셋을 학습시켜 새로운 데이터의 클래스를 예측하는 분류(Classification) 또는 클래스 정보 없이 유사성을 기준으로 데이터를 그룹짓는 군집화(Clustering)를 수행할 수 있다. At this time, data mining involves classification, which explores the inherent relationships between preprocessed data and learns a training data set with a known class to predict the class of new data, or clustering, which groups data based on similarity without class information. Clustering) can be performed.
물론, 이외에도 다양한 마이닝 방법이 존재할 수 있으며, 수집 및 저장되는 빅데이터의 종류나 이후에 요청될 질의(Query)의 종류에 따라 다르게 마이닝될 수도 있다. 이렇게 구축된 빅데이터는, 인공신경망 딥러닝이나 기계학습 등으로 검증과정을 거칠 수도 있다.Of course, various other mining methods may exist, and mining may be done differently depending on the type of big data collected and stored or the type of query to be requested later. Big data constructed in this way can also go through a verification process using artificial neural network deep learning or machine learning.
이때, 인공 신경망은 CNN(Convolutional neural network) 구조가 이용될 수 있는데, CNN은 컨볼루션 층을 이용한 네트워크 구조로 이미지 처리에 적합하며, 이미지 데이터를 입력으로 하여 이미지 내의 특징을 기반으로 이미지를 분류할 수 있기 때문이다.At this time, the artificial neural network may use a CNN (Convolutional neural network) structure. CNN is a network structure using convolutional layers and is suitable for image processing, and can classify images based on features within the image by using image data as input. Because you can.
또한, 텍스트 마이닝(Text Mining)은 비/반정형 텍스트 데이터에서 자연어처리 기술에 기반하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술이다. 텍스트 마이닝 기술을 통해 방대한 텍스트 뭉치에서 의미 있는 정보를 추출해 내고, 다른 정보와의 연계성을 파악하며, 텍스트가 가진 카테고리를 찾아내거나 단순한 정보 검색 그 이상의 결과를 얻어낼 수 있다. 이를 이용하여, 본 발명의 일 실시예에 서는, 질의로 입력되는 식별자나 자연어를 분석하고, 그 안에 숨겨진 정보를 발굴해 내기 위해 대용량 언어자원과 통계적, 규칙적 알고리즘이 사용될 수 있다Additionally, text mining is a technology aimed at extracting and processing useful information from unstructured/semi-structured text data based on natural language processing technology. Through text mining technology, you can extract meaningful information from a large amount of text, identify connections with other information, find categories of text, and obtain results that go beyond simple information retrieval. Using this, in one embodiment of the present invention, large-capacity language resources and statistical and regular algorithms can be used to analyze identifiers or natural language input as a query and discover information hidden therein.
다음으로, 인공지능 데이터 학습부(160)는 라벨링(labeling)된 제1 학습 데이터(가상의 이미지 템플릿) 및 제2 학습 데이터(클롭 이미지)를 구축한 적어도 하나 이상의 학습 모델로 학습하고, 학습된 데이터 셋을 데이터베이스화하는 구성일 수 있다.Next, the artificial intelligence data learning unit 160 learns with at least one learning model constructed from labeled first learning data (virtual image template) and second learning data (clopped image), and the learned It may be a configuration that converts the data set into a database.
여기에서, 인식 모델은 딥러닝(Deep Learning) 또는 심층신경망(Deep Neural Network)을 포함하는 기계학습 알고리즘을 통해 구축되는 학습 모델에 해당할 수 있다. 또한, 제2 학습 데이터는 사전에 수집된 데이터들의 집합이고, 제1 학습 데이터는 제2 학습 데이터의 조합으로 파생된 학습 데이터이며, 각 학습 데이터는 라벨정보가 부여된 데이터일 수 있다. Here, the recognition model may correspond to a learning model built through a machine learning algorithm including deep learning or deep neural network. Additionally, the second learning data is a set of data collected in advance, the first learning data is learning data derived from a combination of the second learning data, and each learning data may be data to which label information is assigned.
적어도 하나 이상의 인식 모델인 학습 모델 각각은 서로 다른 학습 과정으로 서로 다른 학습 데이터를 적용할 수 있다.Each learning model, which is at least one recognition model, can apply different learning data through different learning processes.
한편, 제1 인식 모듈 구축은 1 학습 데이터의 일부를 학습을 통해 수행되고, 제2 인식 모델 구축은 제1 학습 데이터의 나머지를 학습을 통해 수행될 수 있다. 또는 제1 학습 데이터에서 랜덤하게 선택되는 데이터들을 순차적으로 학습하여 제1 및 제2 인식 모델을 각각 구축할 수도 있다.Meanwhile, construction of the first recognition module may be performed by learning part of the first learning data, and construction of the second recognition model may be performed by learning the remainder of the first learning data. Alternatively, the first and second recognition models may be constructed by sequentially learning data randomly selected from the first learning data.
상기 인공지능 데이터 학습부(150)는 제1 학습 데이터를 소정의 비율로 학습 데이터와 테스트 데이터로 구분할 수 있으며, 학습 데이터로 인식 모델을 구축하는 과정에서 테스트 데이터로 측정된 정확도(Accuracy)가 소정의 기준을 충족할 때까지 학습 과정을 반복적으로 수행할 수 있다. 이후, 학습 완료된 인식 모델들은 데이터베이스에 저장되어 관리될 수 있다.The artificial intelligence data learning unit 150 can divide the first learning data into learning data and test data at a predetermined ratio, and in the process of building a recognition model with the learning data, the accuracy measured with the test data is determined by a predetermined amount. The learning process can be performed repeatedly until the criteria are met. Afterwards, the trained recognition models can be stored and managed in a database.
한편, 본 발명에서는 인공지능 데이터 학습부(150)의 네트워크 성능 비교를 위해 faster-RCNN-Inception, ResNet, MobileNet를 각 100,000번 학습을 수행 하였다.Meanwhile, in the present invention, faster-RCNN-Inception, ResNet, and MobileNet were each trained 100,000 times to compare the network performance of the artificial intelligence data learning unit 150.
faster-RCNN-Inception은 인셉션 모듈(Inception module)을 사용한 모 델이다. 인셉션 모듈(Inception module)은 Going Deep with Convolutions(Szegedy et al, 2015)에서 소개된 모델로서 같은 합성곱 레 이어 에서 다른 크기(1x1, 3x3, 5x5)의 합성곱 필터를 병렬로 적용하여 다 양한 크기의 특징을 얻는다. 이중 1x1 합성곱을 사용하여 차원을 줄여 층 이 깊어지면서 생겨난 연산 증가 문제를 통제하였다.faster-RCNN-Inception is a model using the Inception module. The Inception module is a model introduced in Going Deep with Convolutions (Szegedy et al, 2015) that applies convolution filters of different sizes (1x1, 3x3, 5x5) in parallel to the same convolution layer to create a variety of filters. Obtain the size feature. By using double 1x1 convolution, the dimensionality was reduced to control the problem of increased computation that occurred as the layer became deeper.
ResNet은 Deep Residual Learning for Image Recognition(Kaiming He et al, 2015)에서 소개되었고 ILSVRC대회 2015년 우승 모델로서 top-5 error가 3.6%인 사람의 분류 수준 5% 내외를 뛰어 넘는 모델이다.ResNet was introduced in Deep Residual Learning for Image Recognition (Kaiming He et al, 2015) and is the winning model of the ILSVRC competition in 2015. It is a model that exceeds the human classification level of about 5% with a top-5 error of 3.6%.
ResNet의 구조는 Residual Block과 Identity Block으로 이루어져있고 이 것은 같은 연산이지만 Identity Block에서는 입력값과 출력값의 크기를 맞 추어 주는 작업만 필요로 한다. 층이 깊어지면 역전파되는 그래디언트(gradient)가 점점 0에 가까워져서 학습이 잘 되지 않는 그래디언트 베니싱(gradient vanishing) (Razvan et al, 2013)이 발생하게 된다. ResNet은 이러한 Residual Block을 사용함으로서 그래디언트가 잘 흐를 수 있는 길(shortcut, skip connection)을 만들어 주었다. 또한 Residual Block은 앙상블(ensemble)모델을 구축한 것과 비슷한 효과를 내어 그 성능이 더 좋은 모델이다. The structure of ResNet consists of Residual Block and Identity Block, which are the same operation, but Identity Block only requires the task of matching the sizes of input and output values. As the layer gets deeper, the backpropagated gradient gets closer and closer to 0, resulting in gradient vanishing (Razvan et al, 2013), which makes learning difficult. ResNet uses this residual block to create a path (shortcut, skip connection) for the gradient to flow well. Additionally, Residual Block is a model with better performance as it has a similar effect as building an ensemble model.
MobileNet은 MobileNets: Efficient Convolutional Neural Networks for Mobile Vision(Andrew G. Howard et al, 2017)에서 소개되어진 네트워크이다. MobileNet is a network introduced in MobileNets: Efficient Convolutional Neural Networks for Mobile Vision (Andrew G. Howard et al, 2017).
MobileNet은 합성곱 층의 연산이 길어진다는 단점을 보안하여 이를 줄이는 것으로 기존의 합성곱을 깊이별(depthwise)의 합성곱과 1x1의 위 치별(pointwise)합성곱으로 분리된 합성곱 방법을사용 하였다. 깊이별 합성곱은 각 입력 채널마다 하나의 필터를 사용하고 위치별 합성곱은 깊이 별 합성곱의 결과를 통합하는 1x1 크기의 합성곱을 사용한다. 기존의 합 성곱은 입력을 필터링(filtering)하고 통합(combining)하는 과정이 한 번에 이루어지는 반면 MobileNet에서는 이를 필터링을 담당하는 층과 통합을 담당하는 층을 분리하여 네트워크를 구성하였다. 이를 통하여 모델의 크 기와 계산을 줄일 수 있다.MobileNet uses a convolution method that separates the existing convolution into depthwise convolution and 1x1 pointwise convolution to reduce the disadvantage of long convolution layer operations. Depth-specific convolution uses one filter for each input channel, and position-specific convolution uses a 1x1 convolution that integrates the results of the depth-specific convolution. While the existing convolution process involves filtering and combining inputs at once, MobileNet constructs a network by separating the layer responsible for filtering and the layer responsible for integration. Through this, the model size and calculations can be reduced.
각 네트워크들은 학습하면서 동일한 파라미터들을 사용하였고 파라메터들은 다음의 표 1과 같다.Each network used the same parameters while learning, and the parameters are shown in Table 1 below.
도 2는 본 발명의 일 실시예에 따른 한국어 가상이미지 생성기술을 이용한 대용량 문서 데이터 구축 방법을 설명한 흐름도이다.Figure 2 is a flowchart explaining a method of constructing large-capacity document data using Korean virtual image generation technology according to an embodiment of the present invention.
도 2를 참조하면, 본 발명의 일 실시예에 따른 한국어 가상이미지 생성기술을 이용한 대용량 문서 데이터 구축 방법(S700)은 텍스트 이미지 수집 및 전처리부(110)에서 외부단말 또는 외부서버로부터 인식 대상 이미지를 수집하고, 수집한 인식 대상 이미지에 전처리 과정(S710)을 수행하는 구성일 수 있다.Referring to FIG. 2, the method (S700) for constructing large-capacity document data using Korean virtual image generation technology according to an embodiment of the present invention involves collecting a recognition target image from an external terminal or an external server in the text image collection and preprocessing unit 110. It may be configured to collect and perform a pre-processing process (S710) on the collected recognition target images.
여기서, 전처리는 예를 들어, 노이즈, 워터마크, 배경 색상 및 프레임 등을 제거하는 과정과 문서의 글자 및 흰 배경만을 남기는 과정을 포함할 수 있다.Here, preprocessing may include, for example, a process of removing noise, watermarks, background colors, and frames, and a process of leaving only the text and white background of the document.
즉, 후술하는 OCR 모델링부(120) 내의 엔진에서 글자와 배경의 명확한 경계가 있어야 인식 정확도가 높아지므로, 텍스트(숫자, 글자, 기호, 도형 등) 영역을 정확히 검출하기 위해서는 해당 문서 이미지에 대해 전처리 과정이 동반되어야 한다. 이러한 전처리 과정을 통해 글자 오인식에 대한 가능성을 줄일 수 있다.In other words, recognition accuracy increases when there is a clear boundary between text and background in the engine within the OCR modeling unit 120, which will be described later. Therefore, in order to accurately detect text (numbers, letters, symbols, shapes, etc.) areas, preprocessing is required for the document image. The process must be accompanied. Through this preprocessing process, the possibility of character misrecognition can be reduced.
전처리 과정에 의하면, 문서 이미지에 대해 x축 및 y축에 대해 미분하여 밝기 변화가 나타나는 픽셀들을 검출하고, 밝기 변화가 나타나는 픽셀들을 이용하여 문서 이미지 내 테이블을 구성하는 적어도 하나의 직선을 검출하여 테이블을 구성하는 직선을 삭제하고, 픽셀의 미분 값을 이용하여 가로 세로가 긴 직선들이 검출되어 해당 직선들이 제거되는 과정을 포함할 수 있다.According to the preprocessing process, pixels showing brightness changes are detected by differentiating the document image with respect to the It may include a process of deleting straight lines constituting , detecting long horizontal and vertical straight lines using the differential value of the pixel, and removing the corresponding straight lines.
[수학식 1][Equation 1]
[수학식 2][Equation 2]
이미지의 경계는 이미지의 픽셀 주변으로 밝기 값이 급격히 변하므로, 픽셀 값이 급격히 변하는 픽셀들을 검출하고 상기의 수학식 1을 이용하여 이미지의 X축과 Y축에 대해 미분하여 각각 검출하고 수학식 2를 이용하여 검출된 픽셀의 크기 및 각도를 계산하여 최종적으로 가로, 세로가 가장 긴 직선들만 검출할 수 있다.Since the brightness value of the boundary of the image changes rapidly around the pixels of the image, pixels whose pixel values change rapidly are detected and differentiated for the X-axis and Y-axis of the image using Equation 1 above, respectively, and Equation 2 By calculating the size and angle of the detected pixel, only the longest horizontal and vertical straight lines can be detected.
이렇게 검출된 테이블 영역에 해당하는 직선(검정색 픽셀 값: 0)은 해당하는 부분의 문서 이미지에서 삭제(픽셀 값을 255로 변경)될 수 있다.The straight line (black pixel value: 0) corresponding to the table area detected in this way can be deleted (pixel value changed to 255) from the document image of the corresponding part.
더불어, 전처리 과정은 문서 이미지를 이진화하는 과정을 포함할 수 있다.Additionally, the preprocessing process may include a process of binarizing the document image.
예를 들어, 문서 이미지가 흰색 배경과 검정색 글씨로 나누어지도록 하는 작업을 수행할 수 있다. 한편, 텍스트 이미지 수집 및 전처리부(110)의 경우, 이미지의 경계를 검출하기 위한 Canny Edge Detection 알고리즘이 프로그래밍되어 있을 수 있다.For example, you can split a document image into a white background and black text. Meanwhile, in the case of the text image collection and pre-processing unit 110, a Canny Edge Detection algorithm for detecting the boundary of the image may be programmed.
다음으로, 상기 S710 과정이 완료되면, 상기 OCR 모델링부(120)에서 상기 수집부(110)에서 수집된 인식 대상 문서 이미지 내의 텍스트 구조(초성, 중성, 종성), 형식, 숫자, 도형, 기호를 식별 및/또는 판독하기 위한 크롭(Crop)영역을 설정한 후, 설정된 크롭(Crop)영역 내의 텍스트 구조, 형식, 도형, 기호를 판독(S720)한다.Next, when the S710 process is completed, the OCR modeling unit 120 calculates the text structure (initial consonant, middle consonant, final consonant), format, number, shape, and symbol in the recognition target document image collected by the collection unit 110. After setting the crop area for identification and/or reading, the text structure, format, shape, and symbol within the set crop area are read (S720).
상기 S720 과정은 상기 판독영역 내의 글자, 숫자, 도형, 기호의 위치를 탐색하고, 탐지된 텍스트 구조(초성, 중성, 종성), 형식, 숫자, 도형, 기호의 둘레를 따라 사각형상을 표시하여 사각형상의 픽셀 위치 정보를 생성하는 과정을 포함할 수 있다.The S720 process searches for the positions of letters, numbers, figures, and symbols within the reading area, and displays a rectangle along the perimeter of the detected text structure (initial consonant, middle consonant, final consonant), format, number, figure, and symbol to form a rectangle. It may include a process of generating image pixel location information.
즉, 텍스트 구조(초성, 중성, 종성), 텍스트 형식, 숫자, 도형, 기호 객체에 대한 상대적인 위치 인식을 수행하고, 각 위치에 따른 배열을 확인할 수 있도록 탐지된 글자, 숫자, 도형, 기호 객체의 둘레를 따라 사각형상을 표시하며, 표시된 사각형상의 픽셀 위치 값(좌표 정보)를 생성하는 과정일 수 있다.In other words, it performs relative position recognition for text structure (initial consonants, middle consonants, final consonants), text format, numbers, shapes, and symbol objects, and recognizes the detected letters, numbers, shapes, and symbol objects so that the arrangement according to each position can be confirmed. This may be a process of displaying a square along the perimeter and generating pixel position values (coordinate information) on the displayed square.
또한, 상기 S720 과정은 PSENet(Progressive Scale Expansion Network) 기반의 딥러닝 모델을 이용하여 인식 대상 문서 이미지를 포함하는 학습 데이터로부터 텍스트 구조(초성, 중성, 종성), 형식, 숫자, 도형, 기호 객체와 그 위치를 탐지하고 탐지율의 향상을 위해 학습을 수행하는 과정을 더 포함할 수 있다.In addition, the S720 process uses a deep learning model based on PSENet (Progressive Scale Expansion Network) to generate text structure (initial consonant, middle consonant, final consonant), format, number, shape, symbol object and It may further include a process of detecting the location and performing learning to improve the detection rate.
다음으로, S720 과정이 완료되면, 라벨링부(130)에서 검출한 픽셀 위치 좌표를 기초로 텍스트의 문장구조, 형식, 숫자, 도형, 기호 중 적어도 하나 이상이 포함된 크롭(Crop) 이미지에서 특정 클래스만을 탐지하기 위한 라벨링 처리를 수행(S730)한다.Next, when the S720 process is completed, a specific class is selected from the crop image containing at least one of the sentence structure, format, number, shape, and symbol of the text based on the pixel position coordinates detected by the labeling unit 130. Labeling processing is performed to detect only (S730).
여기서, 라벨링된 이미지는 PASCAL VOC 데이터 형태로 구성된다.Here, the labeled image is configured in the form of PASCAL VOC data.
이후, 상기 S730 과정이 완료되면, 가상문서 생성부(140)에서 데이터베이스에 저장된 복수의 라벨링 크롭(Crop) 이미지를 조합하여 가상의 이미지 템플릿을 생성(S740)한다.Afterwards, when the process S730 is completed, the virtual document creation unit 140 creates a virtual image template by combining a plurality of labeling crop images stored in the database (S740).
여기서, 가상의 이미지 템플릿은 실제 사용되는 문서와 유사한 형태를 정의할 수 있다. 또한, 실제 사용되는 문서의 특성과 유사한 특성, 예컨대, 텍스트의 색상, 크기, 글씨체나 문서에 포함된 표, 배경, 색상, 워터마크 등 광학 문자 인식에 영향을 미치는 특징이 유사한 것을 의미한다.Here, the virtual image template can define a form similar to the document actually used. In addition, it means that characteristics that affect optical character recognition are similar to those of documents actually used, such as color, size, font of text, tables included in the document, background, color, watermark, etc.
다음으로, 상기 S740 과정이 완료되면, 인공지능 데이터 학습부(150)는 라벨링(labeling)된 제1 학습 데이터(가상의 이미지 템플릿) 및 제2 학습 데이터(클롭 이미지)를 구축한 적어도 하나 이상의 학습 모델로 학습하고, 학습된 데이터 셋을 데이터베이스화(S750)한다.Next, when the S740 process is completed, the artificial intelligence data learning unit 150 learns at least one learning data that constructs labeled first learning data (virtual image template) and second learning data (clopped image). The model is trained, and the learned data set is converted into a database (S750).
여기에서, 인식 모델은 딥러닝(Deep Learning) 또는 심층신경망(Deep Neural Network)을 포함하는 기계학습 알고리즘을 통해 구축되는 학습 모델에 해당할 수 있다. 또한, 제2 학습 데이터는 사전에 수집된 데이터들의 집합이고, 제1 학습 데이터는 제2 학습 데이터의 조합으로 파생된 학습 데이터이며, 각 학습 데이터는 라벨정보가 부여된 데이터일 수 있다. Here, the recognition model may correspond to a learning model built through a machine learning algorithm including deep learning or deep neural network. Additionally, the second learning data is a set of data collected in advance, the first learning data is learning data derived from a combination of the second learning data, and each learning data may be data to which label information is assigned.
적어도 하나 이상의 인식 모델인 학습 모델 각각은 서로 다른 학습 과정으로 서로 다른 학습 데이터를 적용할 수 있다.Each learning model, which is at least one recognition model, can apply different learning data through different learning processes.
한편, 제1 인식 모듈 구축은 1 학습 데이터의 일부를 학습을 통해 수행되고, 제2 인식 모델 구축은 제1 학습 데이터의 나머지를 학습을 통해 수행될 수 있다. 또는 제1 학습 데이터에서 랜덤하게 선택되는 데이터들을 순차적으로 학습하여 제1 및 제2 인식 모델을 각각 구축할 수도 있다.Meanwhile, construction of the first recognition module may be performed by learning part of the first learning data, and construction of the second recognition model may be performed by learning the remainder of the first learning data. Alternatively, the first and second recognition models may be constructed by sequentially learning data randomly selected from the first learning data.
상기 인공지능 데이터 학습부(150)는 제1 학습 데이터를 소정의 비율로 학습 데이터와 테스트 데이터로 구분할 수 있으며, 학습 데이터로 인식 모델을 구축하는 과정에서 테스트 데이터로 측정된 정확도(Accuracy)가 소정의 기준을 충족할 때까지 학습 과정을 반복적으로 수행할 수 있다. 이후, 학습 완료된 인식 모델들은 데이터베이스에 저장되어 관리될 수 있다.The artificial intelligence data learning unit 150 can divide the first learning data into learning data and test data at a predetermined ratio, and in the process of building a recognition model with the learning data, the accuracy measured with the test data is determined by a predetermined amount. The learning process can be performed repeatedly until the criteria are met. Afterwards, the trained recognition models can be stored and managed in a database.
따라서, 본 발명의 일 실시예에 따른 한국어 가상이미지 생성기술을 이용한 대용량 문서 데이터 구축 시스템 및 방법을 이용하면, 이미지 문서 상에 기재된 문자, 숫자, 기호를 포함하는 글자를 인식하고, 인식된 글자에 대한 상대적인 위치 정보에 기반하여 항목들 간의 연결관계를 분석한 소스를 기반으로 대용량의 OCR 모델링에 적용될 테스트 정보를 생성 및 학습함으로써, OCR 모델의 정확도를 향상시킬 수 있다는 이점이 있다.Therefore, by using the system and method for building large-scale document data using Korean virtual image generation technology according to an embodiment of the present invention, characters including letters, numbers, and symbols written on the image document are recognized, and the recognized characters are There is an advantage in that the accuracy of the OCR model can be improved by generating and learning test information to be applied to large-scale OCR modeling based on a source that analyzes the connection relationships between items based on relative location information.
또한, 자동으로 분류된 문서 이미지로부터 추출된 텍스트 데이터에 기반해 문서와 유사한 가상 문서를 생성할 수 있고, 생성된 가상 문서를 파생 및/또는 확장시켜 OCR 모델의 성능검증을 보다 정확하게 실시할 수 있다는 이점이 있다.In addition, a virtual document similar to a document can be created based on text data extracted from automatically classified document images, and the performance of the OCR model can be verified more accurately by deriving and/or expanding the generated virtual document. There is an advantage.
또한, 다양한 형태의 문서 이미지에 포함된 다양한 문자를 인식하기 위해 신경망(Neural Nets), HMM(Hidden Markov Models) 또는 KNN(K-Nerest-Neighbor) 방법을 적용하고, 다양한 글꼴이나 형태를 가진 문서에 대한 인식률을 높이기 위해 다량의 트레이닝 데이터를 이용하여 문자 학습을 통해 문자 인식 모델을 트레이닝함으로써, 문자 인식 모델의 성능을 향상시킬 수 있다는 이점이 있다.In addition, Neural Nets, Hidden Markov Models (HMM), or K-Nerest-Neighbor (KNN) methods are applied to recognize various characters included in various types of document images, and to documents with various fonts or shapes. There is an advantage in that the performance of the character recognition model can be improved by training the character recognition model through character learning using a large amount of training data to increase the recognition rate.
또한, 사람이 직접 문서를 촬영하거나 스캔하여 다량의 트레이닝 데이터를 수집하는 데에는 한계가 있는 문제를 해결할 수 있고, 제한된 트레이닝 데이터 세트(Training data set)로 인한 문자 분류 오류발생확률을 낮출 수 있어, 결과적으로 광학적 문자 인식 엔진의 분류 성능을 향상시킬 수 있다는 이점이 있다.In addition, it can solve the problem that there are limitations in collecting a large amount of training data by directly photographing or scanning documents, and can reduce the probability of character classification errors due to a limited training data set, resulting in better results. This has the advantage of improving the classification performance of the optical character recognition engine.
본 발명은 Deep learning기반의 Faster-RCNN을 사용하고, CNN을 통한 디지털 텍스트 화 작업을 수행함으로써, 훈련 을 시켰을 시에 원하는 class에 대한 탐지가 가능하고 문서 이미지에 흐림, 빛 바램 등이 존재하여도 탐지가 잘 된다는 노이즈에 덜 민감하다는 장점이 있어, 기존 OCR보다 범용성이 높을 것으로 예상 된다. The present invention uses Faster-RCNN based on deep learning and performs digital text conversion work through CNN, so that when trained, it is possible to detect the desired class and even if there is blur or fading in the document image. It has the advantage of good detection and less sensitivity to noise, so it is expected to be more versatile than existing OCR.
상술한 이점을 통해 다양한 형태를 갖고 있는 문서를 사용하여 학습을 시 키고 보다 많은 class들을 추가하여 새로운 형태의 문서가 들어와도 원하는 class들을 탐지할 수 있는 모델을 생성 할 수 있다는 이점이 있다.Through the above-mentioned advantages, there is an advantage of being able to create a model that can detect desired classes even when new types of documents are introduced by learning using documents of various types and adding more classes.
본 발명의 일 실시예에서 사용된 “~부”는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상“~ part” used in one embodiment of the present invention may be implemented as a hardware component, a software component, and/or a combination of hardware components and software components. For example, devices and components described in embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable array (FPA), It may be implemented using one or more general-purpose or special-purpose computers, such as a programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions. The processing unit includes an operating system (OS) and one or more processors running on the operating system.
의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.Can run software applications. Additionally, a processing device may access, store, manipulate, process, and generate data in response to the execution of software. For ease of understanding, a single processing device may be described as being used; however, those skilled in the art will understand that a processing device includes multiple processing elements and/or multiple types of processing elements. It can be seen that it may include. For example, a processing device may include a plurality of processors or one processor and one controller. Additionally, other processing configurations, such as parallel processors, are possible.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다Software may include a computer program, code, instructions, or a combination of one or more of these, which may configure a processing unit to operate as desired, or may be processed independently or collectively. You can command the device. Software and/or data may be used by any type of machine, component, physical device, virtual equipment, computer storage medium or device to be interpreted by or to provide instructions or data to a processing device. , or may be permanently or temporarily embodied in a transmitted signal wave. Software may be distributed over networked computer systems and thus stored or executed in a distributed manner. Software and data may be stored on one or more computer-readable recording media.
본 발명의 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to an embodiment of the present invention may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, etc., singly or in combination. Program instructions recorded on the medium may be specially designed and configured for the embodiment or may be known and available to those skilled in the art of computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. -Includes optical media (magneto-optical media) and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, etc. Examples of program instructions include machine language code, such as that produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter, etc. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.
전술된 내용은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above-described content can be modified and modified by anyone skilled in the art without departing from the essential characteristics of the present invention. Accordingly, the embodiments disclosed in the present invention are not intended to limit the technical idea of the present invention, but are for illustrative purposes, and the scope of the technical idea of the present invention is not limited by these embodiments. The scope of protection of the present invention should be interpreted in accordance with the claims below, and all technical ideas within the equivalent scope should be construed as being included in the scope of rights of the present invention.
100: 한국어 가상이미지 생성기술을 이용한 대용량 문서 데이터 구축 시스템
110: 텍스트 이미지 수집 및 전처리부
120: OCR 모델링부
130: 라벨링부
140: 가상문서 이미지 생성부
150: 데이터베이스
160: 인공지능 데이터 학습부100: Large-capacity document data construction system using Korean virtual image generation technology
110: Text image collection and preprocessing unit
120: OCR modeling department
130: Labeling unit
140: Virtual document image creation unit
150: database
160: Artificial intelligence data learning department
Claims (2)
상기 텍스트 이미지 수집 및 전처리부(110)에서 수집된 인식 대상 문서 이미지 내의 텍스트 구조(초성, 중성, 종성), 형식, 숫자, 도형, 기호를 식별 및/또는 판독하기 위한 크롭(Crop)영역을 설정한 후, 상기 크롭(Crop) 영역 내의 텍스트 구조(초성, 중성, 종성), 숫자, 도형, 기호의 위치를 탐색하고, 탐지된 텍스트 구조(초성, 중성, 종성), 형식, 숫자, 도형, 기호의 둘레를 따라 사각형상을 표시하여 사각형상의 픽셀 위치 정보를 생성 및 판독하는 OCR 모델링부;
검출한 픽셀 위치 좌표를 기초로 텍스트의 문장구조, 형식, 숫자, 도형, 기호 중 적어도 하나 이상이 포함된 크롭(Crop) 이미지에서 특정 클래스만을 탐지하기 위한 라벨링 처리를 수행하는 라벨링부;
데이터베이스에 저장된 복수의 라벨링 이미지를 조합하여 가상의 이미지 템플릿을 생성하는 텍스트 가상이미지 생성부; 및
라벨링(labeling)된 제1 학습 데이터(가상의 이미지 템플릿) 및 제2 학습 데이터(클롭 이미지)를 구축한 적어도 하나 이상의 학습 모델로 학습하고, 학습된 데이터 셋을 데이터베이스화하는 인공지능 데이터 학습부를 포함하는 한국어 가상이미지 생성기술을 이용한 대용량 문서 데이터 구축 시스템.
Text image collection and preprocessing unit that collects recognition target images from an external terminal or external server and performs preprocessing to remove at least one of noise, watermark, background color, and frame of the collected recognition target images.
Setting a crop area to identify and/or read the text structure (initial consonant, middle consonant, final consonant), format, number, figure, and symbol in the recognition target document image collected by the text image collection and preprocessing unit 110. Then, search for the positions of text structures (initial consonants, middle consonants, final consonants), numbers, shapes, and symbols within the crop area, and search for the detected text structures (initial consonants, middle consonants, final consonants), formats, numbers, shapes, and symbols. An OCR modeling unit that displays a rectangular shape along the perimeter and generates and reads pixel position information on the rectangular shape;
A labeling unit that performs labeling processing to detect only a specific class in a cropped image containing at least one of the sentence structure, format, number, figure, and symbol of the text based on the detected pixel location coordinates;
A text virtual image generator that generates a virtual image template by combining a plurality of labeling images stored in a database; and
It includes an artificial intelligence data learning unit that learns with at least one learning model constructed from labeled first learning data (virtual image template) and second learning data (clopped image), and converts the learned data set into a database. A large-capacity document data construction system using Korean virtual image generation technology.
OCR 모델링부에서 상기 텍스트 이미지 수집 및 전처리부에서 수집된 인식 대상 문서 이미지 내의 텍스트 구조(초성, 중성, 종성), 형식, 숫자, 도형, 기호를 식별 및/또는 판독하기 위한 크롭(Crop)영역을 설정한 후, 상기 크롭(Crop) 영역 내의 텍스트 구조(초성, 중성, 종성), 숫자, 도형, 기호의 위치를 탐색하고, 탐지된 텍스트 구조(초성, 중성, 종성), 형식, 숫자, 도형, 기호의 둘레를 따라 사각형상을 표시하여 사각형상의 픽셀 위치 정보를 생성 및 판독하는 단계;
라벨링부에서 검출한 픽셀 위치 좌표를 기초로 텍스트의 문장구조, 형식, 숫자, 도형, 기호 중 적어도 하나 이상이 포함된 크롭(Crop) 이미지에서 특정 클래스만을 탐지하기 위한 라벨링 처리를 수행하는 단계;
텍스트 가상이미지 생성부에서 데이터베이스에 저장된 복수의 라벨링 이미지를 조합하여 가상의 이미지 템플릿을 생성하는 단계; 및
인공지능 데이터 학습부에서 라벨링(labeling)된 제1 학습 데이터(가상의 이미지 템플릿) 및 제2 학습 데이터(클롭 이미지)를 구축한 적어도 하나 이상의 학습 모델로 학습하고, 학습된 데이터 셋을 데이터베이스화하는 단계를 포함하는 한국어 가상이미지 생성기술을 이용한 대용량 문서 데이터 구축 방법.Collecting a recognition target image from an external terminal or an external server in a text image collection and preprocessing unit, and performing preprocessing to remove at least one of noise, watermark, background color, and frame of the collected recognition target image;
In the OCR modeling unit, a crop area is created to identify and/or read the text structure (initial consonant, middle consonant, final consonant), format, number, figure, and symbol in the recognition target document image collected in the text image collection and preprocessing unit. After setting, search for the position of text structure (initial consonant, middle consonant, final consonant), number, figure, and symbol within the crop area, and search for the detected text structure (initial consonant, middle consonant, final consonant), format, number, shape, Displaying a rectangular shape along the perimeter of a symbol to generate and read pixel position information on the rectangular shape;
Performing labeling processing to detect only a specific class in a cropped image containing at least one of the sentence structure, format, number, figure, and symbol of the text based on the pixel location coordinates detected by the labeling unit;
Generating a virtual image template by combining a plurality of labeling images stored in a database in a text virtual image generator; and
Learning with at least one learning model constructed from labeled first learning data (virtual image template) and second learning data (clopped image) in the artificial intelligence data learning unit, and converting the learned data set into a database. A method of building large-scale document data using Korean virtual image generation technology including steps.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220122595A KR20240043468A (en) | 2022-09-27 | 2022-09-27 | System and Method for Construction of Large-Capacity Document Database Using Korean Virtual Image Generation Technology |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220122595A KR20240043468A (en) | 2022-09-27 | 2022-09-27 | System and Method for Construction of Large-Capacity Document Database Using Korean Virtual Image Generation Technology |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20240043468A true KR20240043468A (en) | 2024-04-03 |
Family
ID=90662355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220122595A KR20240043468A (en) | 2022-09-27 | 2022-09-27 | System and Method for Construction of Large-Capacity Document Database Using Korean Virtual Image Generation Technology |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20240043468A (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190095651A (en) | 2018-02-07 | 2019-08-16 | 삼성에스디에스 주식회사 | Apparatus for generating training data for character learning and method thereof |
-
2022
- 2022-09-27 KR KR1020220122595A patent/KR20240043468A/en unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190095651A (en) | 2018-02-07 | 2019-08-16 | 삼성에스디에스 주식회사 | Apparatus for generating training data for character learning and method thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Busta et al. | Deep textspotter: An end-to-end trainable scene text localization and recognition framework | |
Ye et al. | Text detection and recognition in imagery: A survey | |
Kim et al. | Deep-learning-based recognition of symbols and texts at an industrially applicable level from images of high-density piping and instrumentation diagrams | |
CN103870803A (en) | Vehicle license plate recognition method and system based on coarse positioning and fine positioning fusion | |
CN111353491B (en) | Text direction determining method, device, equipment and storage medium | |
CN113378815B (en) | Scene text positioning and identifying system and training and identifying method thereof | |
Gómez et al. | Cutting Sayre's Knot: reading scene text without segmentation. application to utility meters | |
CN112307919B (en) | Improved YOLOv 3-based digital information area identification method in document image | |
Xu et al. | End-to-end subtitle detection and recognition for videos in East Asian languages via CNN ensemble | |
Geng et al. | An improved helmet detection method for YOLOv3 on an unbalanced dataset | |
Kim et al. | A rule-based method for table detection in website images | |
CN109389050A (en) | A kind of flow chart connection relationship recognition methods | |
Cüceloğlu et al. | Detecting handwritten signatures in scanned documents | |
Harizi et al. | Deep-learning based end-to-end system for text reading in the wild | |
CN111832497B (en) | Text detection post-processing method based on geometric features | |
Castillo et al. | Object detection in digital documents based on machine learning algorithms | |
Lou et al. | Generative shape models: Joint text recognition and segmentation with very little training data | |
Suwanwiwat et al. | Benchmarked multi-script Thai scene text dataset and its multi-class detection solution | |
Jia et al. | Grayscale-projection based optimal character segmentation for camera-captured faint text recognition | |
Alnefaie et al. | End-to-end analysis for text detection and recognition in natural scene images | |
Duth et al. | Recognition of hand written and printed text of cursive writing utilizing optical character recognition | |
KR20240043468A (en) | System and Method for Construction of Large-Capacity Document Database Using Korean Virtual Image Generation Technology | |
US11386636B2 (en) | Image preprocessing for optical character recognition | |
JP2023003887A (en) | Document image processing system, document image processing method, and document image processing program | |
Yang et al. | An improved system for real-time scene text recognition |