KR102673900B1 - Table data extraction system and the method of thereof - Google Patents
Table data extraction system and the method of thereof Download PDFInfo
- Publication number
- KR102673900B1 KR102673900B1 KR1020230112760A KR20230112760A KR102673900B1 KR 102673900 B1 KR102673900 B1 KR 102673900B1 KR 1020230112760 A KR1020230112760 A KR 1020230112760A KR 20230112760 A KR20230112760 A KR 20230112760A KR 102673900 B1 KR102673900 B1 KR 102673900B1
- Authority
- KR
- South Korea
- Prior art keywords
- data
- area
- line
- feature
- cell
- Prior art date
Links
- 238000013075 data extraction Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 49
- 239000000284 extract Substances 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 238000013524 data verification Methods 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/12—Detection or correction of errors, e.g. by rescanning the pattern
- G06V30/133—Evaluation of quality of the acquired characters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/182—Extraction of features or characteristics of the image by coding the contour of the pattern
- G06V30/1823—Extraction of features or characteristics of the image by coding the contour of the pattern using vector-coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19013—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Character Input (AREA)
Abstract
표 데이터 추출 시스템 및 그 방법이 개시된다. 본 발명의 일실시례에 따른 표 데이터 추출 시스템은 적어도 하나의 이미지 문서 데이터가 입력되는 이미지 입력부; 상기 입력된 이미지 문서 데이터에 적어도 하나의 표 데이터가 포함되는지 여부를 판단하고, 상기 표 데이터의 유형을 판단하는 표 유형 판단부; 상기 표 유형 판단부에서 판단된 표 데이터의 유형에 기초하여, 상기 이미지 문서 데이터에 포함된 표 데이터 영역을 추출하고, 상기 추출된 표 데이터 영역을 픽셀 단위로 구분하여 라인 영역을 추출하고, 상기 추출된 라인에 기초하여 셀 영역을 지정하는 셀 영역 지정부; 및 상기 셀 영역 지정부에서 지정된 상기 셀 영역에 포함된 텍스트 데이터를 추출하는 데이터 추출부;를 포함하는 것을 특징으로 한다.A table data extraction system and method are disclosed. A table data extraction system according to an embodiment of the present invention includes an image input unit into which at least one image document data is input; a table type determination unit that determines whether the input image document data includes at least one table data and determines a type of the table data; Based on the type of table data determined by the table type determination unit, a table data area included in the image document data is extracted, the extracted table data area is divided into pixels to extract a line area, and the extraction a cell area designation unit that designates a cell area based on the drawn line; and a data extraction unit that extracts text data included in the cell area designated by the cell area designation unit.
Description
본 발명은 이미지 데이터에 포함된 표 데이터를 추출하는 시스템 및 그 방법에 관한 것으로 보다 상세하게는, 문서 이미지 데이터를 입력받고, 문서 이미지 데이터 포함된 표의 유형을 판단하고, 표 데이터를 추출하여 데이터화 할 수 있는 표 데이터 추출 시스템 및 그 방법에 관한 것이다.The present invention relates to a system and method for extracting table data included in image data, and more specifically, to receive document image data, determine the type of table included in the document image data, extract table data, and convert it into data. It relates to a table data extraction system and method.
최근 이미지로부터 문자를 인식할 수 있는 다양한 광학 문자 서비스(OCR, Optical Character Recognition) 관련 기술들이 등장하고 있다.Recently, various optical character recognition (OCR)-related technologies that can recognize characters from images are emerging.
예컨대, 이미지로부터 문자를 인식하여 해당 문자에 대한 자동 번역 기능을 제공하는 서비스나 주변 사물의 간판 이미지에서 문자를 인식하여 주변 사물에 대한 관련 정보를 인터넷을 통해 검색하여 제공하는 서비스들이 존재한다.For example, there are services that recognize characters from images and provide an automatic translation function for the characters, or services that recognize characters in signage images of nearby objects and search for and provide related information about nearby objects through the Internet.
한편, 사람들은 병원에서 진료를 받은 뒤 진료비 영수증과 처방전을 받을 때 일반적으로 인쇄된 종이 문서 형태의 진료비 영수증과 처방전을 받는다. 또한, 학생들은 학교에서 시험을 치른 뒤, 인쇄된 종이 문서 형태의 시험 성적표를 받는다. Meanwhile, when people receive treatment at a hospital and receive a receipt and prescription, they generally receive the receipt and prescription in the form of printed paper documents. Additionally, after taking the test at school, students receive a test score report in the form of a printed paper document.
그러나, 종이 문서는 보관한 지 오래되면, 보관했던 장소를 잃어버릴 염려도 있고, 나중에 해당 문서를 찾고할 필요가 있는 경우, 스마트폰과 같은 전자기기를 통하여 바로 확인할 수 없다는 불편함이 있다.However, if paper documents have been stored for a long time, there is a risk of losing the location where they were stored, and if the document needs to be found later, there is the inconvenience of not being able to check it immediately through an electronic device such as a smartphone.
이러한 문제점을 해결하기 위하여 문서를 스캔하고, 스캔 이미지로부터 텍스트 정보를 추출하는 기술이 등장하고 있으며, 종래기술인 한국공개특허공보 제10-2010-0120753호는 이미지 센서를 통해 촬영되는 영상을 영상처리하여 특정 이미지 영역의 비텍스트 정보를 제거하고, 문자로 판단된 이미지 영역의 정보를 이진 정보로 변환하는 문자인식을 위한 이미지 센서 및 이미지 센싱 방법에 대하여 개시하고 있고, 한국등록특허공보 제10-2189373호는 뉴럴 네트워크(neural network)를 활용하여 이미지로부터 텍스트를 생성하는 장치 및 방법에 대하여 개시하고 있다.In order to solve this problem, technologies for scanning documents and extracting text information from scanned images are emerging, and the conventional technology, Korean Patent Publication No. 10-2010-0120753, uses image processing of images captured through an image sensor. Discloses an image sensor and image sensing method for character recognition that removes non-text information in a specific image area and converts information in the image area determined as text into binary information, Korean Patent Publication No. 10-2189373 discloses a device and method for generating text from images using a neural network.
보다 상세하게는, 뉴럴 네트워크(neural network)는 인간의 두뇌 신경망을 모방하여 정보를 처리하는 네트워크 구조로 학습이 완료된 알고리즘을 적용하여 이미지 또는 텍스트의 추론하는 기술을 의미한다. More specifically, a neural network is a network structure that processes information by imitating the human brain's neural network and refers to a technology for inferring images or text by applying a learned algorithm.
그러나, 스캔 이미지에 표가 삽입된 경우, 표에 대응하는 영역은 전자 문서 형태가 아닌 단순한 이미지 파일 형식으로 저장되므로, 규격화 및 편집이 가능한 전자 문서 형식으로 기록하고 싶은 경우에는 일일이 표를 만들고, 표를 구성하는 복수의 셀들에 텍스트를 입력하거나 하나하나 입력하는 과정을 거쳐야 한다는 불편함이 있다.However, when a table is inserted into a scanned image, the area corresponding to the table is saved in a simple image file format rather than in the form of an electronic document. Therefore, if you want to record it in an electronic document format that can be standardized and edited, you must create the tables one by one and There is an inconvenience in having to enter text into the multiple cells that make up or go through the process of entering them one by one.
만약, 표가 삽입된 스캔 이미지로부터 표를 구성하는 선을 추출하고, OCR을 이용하여 표 내부에 기록된 텍스트를 추출함으로써, 스캔 이미지로부터 표가 삽입된 전자 문서를 생성할 수 있다면, 사용자의 편의를 도모할 수 있을 것이다. If it were possible to create an electronic document with a table inserted from the scanned image by extracting the lines that make up the table from the scanned image with the table inserted and extracting the text written inside the table using OCR, it would be possible to create an electronic document with a table inserted. will be able to promote.
따라서, 표가 삽입된 이미지를 전자 문서 형태로 변환할 수 있고, 변환된 전자 문서에 삽입된 표의 데이터들을 기초로 지식 데이터베이스를 구축할 수 있는 기술에 대한 연구가 필요하다.Therefore, research is needed on technology that can convert images with tables inserted into electronic documents and build a knowledge database based on table data inserted in the converted electronic documents.
본 발명은 입력된 이미지 데이터에서 표를 추출하여, 표의 유형을 판단하고, 표 데이터를 추출함으로써, 종이 형태로 존재하는 정보를 디지털 데이터로 용이하게 변환할 수 있는 표 데이터 추출 시스템 및 그 방법을 제공하는 데 그 목적이 있다.The present invention provides a table data extraction system and method that can easily convert information existing in paper form into digital data by extracting a table from input image data, determining the type of table, and extracting table data. The purpose is to do this.
또한, 이미지 데이터를 픽셀 단위로 분할하여 표 영역에 포함된 라인 영역을 추출하여 셀 영역을 지정하고, 라인이 존재하지 않는 표의 특징 영역을 추출하여 셀 영역을 지정함으로써, 표의 유형에 관계없이 표 데이터를 정확하게 추출할 수 있는 표 데이터 추출 시스템 및 그 방법을 제공하는 데 그 목적이 있다. In addition, by dividing the image data into pixel units and extracting the line area included in the table area to specify the cell area, and extracting the feature area of the table where no lines exist and specifying the cell area, the table data is stored regardless of the type of table. The purpose is to provide a table data extraction system and method that can accurately extract.
본 발명이 해결하고자 하는 과제들은 이상에서 언급한 과제로 제한되지 않으며, 여기에 언급되지 않은 본 발명이 해결하려는 또 다른 과제들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The problems to be solved by the present invention are not limited to the problems mentioned above, and other problems to be solved by the present invention that are not mentioned herein can be explained to those skilled in the art from the description below. You will be able to understand it clearly.
본 발명의 일실시례에 따른 표 데이터 추출 시스템은, 적어도 하나의 이미지 문서 데이터가 입력되는 이미지 입력부, 입력된 이미지 문서 데이터에 적어도 하나의 표 데이터가 포함되는지 여부를 판단하고, 표 데이터의 유형을 판단하는 표 유형 판단부, 표 유형 판단부에서 판단된 표 데이터의 유형에 기초하여, 이미지 문서 데이터에 포함된 표 데이터 영역을 추출하고, 추출된 표 데이터 영역을 픽셀 단위로 구분하여 라인 영역을 추출하고, 추출된 라인에 기초하여 셀 영역을 지정하는 셀 영역 지정부 및 셀 영역 지정부에서 지정된 셀 영역에 포함된 텍스트 데이터를 추출하는 데이터 추출부를 포함한다.The table data extraction system according to an embodiment of the present invention includes an image input unit where at least one image document data is input, determines whether the input image document data includes at least one table data, and determines the type of table data. Table type determination unit, extracts the table data area included in the image document data based on the type of table data determined by the table type determination unit, and extracts the line area by dividing the extracted table data area in pixel units. and a cell area designation unit that designates a cell area based on the extracted line, and a data extraction unit that extracts text data included in the cell area designated by the cell area designation unit.
또한, 표 유형 판단부는, 이미지 입력부에 입력된 이미지 문서 데이터와 기지정된 학습 DB에 저장된 학습 이미지 데이터와 비교하여 이미지 문서 데이터에 포함된 표 유형을 표준 유형 및 비표준 유형 중 어느 하나로 판단하되, 학습 DB는, 표준 유형으로 분류되고, 셀 영역이 연속된 라인으로 구분되는 제1 학습 이미지 데이터, 비표준 유형으로 분류되고, 셀 영역이 연속된 라인으로 구분되지 않는 제2 학습 이미지 데이터 및 비표준 유형으로 분류되고, 셀 영역에 연속된 라인으로 구분된 영역과, 라인으로 구분되지 않는 영역을 모두 포함하는 제3 학습 이미지 데이터를 포함하고, 셀 영역 지정부는, 이미지 문서 데이터에 포함된 표 데이터 영역을 추출하는 표 영역 추출부, 표 유형 판단부에서 상기 이미지 문서 데이터가 표준 유형으로 판단된 경우, 추출된 표 데이터 영역을 픽셀 단위로 구분하고, 픽셀의 색상을 흑색과 백색으로 판단하고, 흑색으로 판단된 픽셀이 기설정된 개수 이상인지 판단하여 라인 영역을 인식하는 라인 영역 추출부, 표 유형 판단부에서 이미지 문서 데이터가 비표준 유형으로 판단된 경우, 추출된 표 데이터 영역에서 적어도 하나의 특징 영역을 추출하는 특징 영역 추출부 및 라인 추출부에서 인식된 라인 영역 및 특징 영역 추출부에서 추출된 특징 영역에 기초하여 행열 개수를 산출하고 셀 영역을 생성하는 셀 영역 생성부를 포함하는 것을 특징으로 한다.In addition, the table type determination unit determines the table type included in the image document data as either a standard type or a non-standard type by comparing the image document data input to the image input unit with the training image data stored in a predefined learning DB. is classified as a standard type, first training image data whose cell areas are separated by continuous lines, classified as a non-standard type, and second training image data whose cell areas are not separated by continuous lines and classified into a non-standard type, , the cell area includes third training image data including both an area separated by continuous lines and an area not separated by lines, and the cell area designation unit is a table for extracting the table data area included in the image document data. If the image document data is determined to be a standard type in the area extraction unit and the table type determination unit, the extracted table data area is divided into pixels, the color of the pixel is determined to be black and white, and the pixel determined to be black is A line area extraction unit that recognizes the line area by determining whether the number is more than a preset number, and a feature area extraction unit that extracts at least one feature area from the extracted table data area when the table type determination unit determines that the image document data is a non-standard type. It is characterized in that it includes a cell area generation unit that calculates the number of rows and columns and generates a cell area based on the line area recognized by the part and line extraction unit and the feature area extracted by the feature area extraction unit.
또한, 특징 영역 추출부는, 표 유형 판단부에서 이미지 문서 데이터가 상기 제2 학습 이미지 데이터와 비교하여 상기 비표준 유형으로 판단된 경우, 추출된 표 데이터 영역을 픽셀 단위로 구분하고, 표 데이터 영역 내의 픽셀 변화를 감지하여 특징 영역을 추출하며, 특징 영역의 행열 개수를 산출하고, 특징 영역과 상기 행열 개수에 기초하여 특징 영역을 병합하는 노라인 특징 추출부를 포함하는 것을 특징으로 한다.In addition, when the table type determination unit determines that the image document data is the non-standard type by comparing it with the second training image data, the feature area extraction unit divides the extracted table data area into pixel units and pixels within the table data area. It is characterized by comprising a no-line feature extraction unit that detects a change and extracts a feature region, calculates the number of rows and columns of the feature region, and merges the feature region and the feature region based on the number of rows and columns.
또한, 표 유형 판단부에서 이미지 문서 데이터가 상기 제3 학습 이미지 데이터와 비교하여 비표준 유형으로 판단된 경우, 이미지 문서 데이터에 포함된 라인 영역 및 특징 영역을 적어도 하나 추출하고, 라인 영역의 교차점을 적어도 하나 추출하며, 라인 영역의 교차점에 기초하여 특징 영역을 그룹화하여 그룹 영역을 생성하고, 그룹 영역의 행열 개수와, 특징 영역 내의 행열 개수를 산출하여 테이블 구조를 결정하는 브로큰 라인 특징 추출부를 포함하는 것을 특징으로 한다.In addition, when the table type determination unit determines that the image document data is a non-standard type compared to the third training image data, at least one line area and a feature area included in the image document data are extracted, and the intersection of the line areas is determined at least. It includes a broken line feature extraction unit that extracts one, creates a group area by grouping the feature areas based on the intersection of the line areas, and determines the table structure by calculating the number of rows and columns in the group area and the number of rows and columns in the feature area. It is characterized by
또한, 데이터 추출부에서 추출된 텍스트 데이터의 정확도를 검증하는 데이터 검증부를 더 포함하되, 데이터 검증부는, 데이터 추출부에서 추출된 텍스트 데이터에 포함된 특수문자와, 자음 및 모음 중 적어도 어느 하나를 포함하는 단문자를 추출하는 제1 추출부, 텍스트 데이터에 대응되는 단어 데이터를 기지정된 학습 DB로부터 적어도 하나 추출하는 제2 추출부 및 제1 추출부 및 제2 추출부에서 추출된 데이터에 기초하여 텍스트 데이터의 오류 포함 여부를 판단하는 오류 검증부를 포함하며, 학습 DB는, 기지정된 관리자 단말로부터 입력된 단어 데이터가 저장되는 입력 단어 저장부 및 입력 단어 저장부에 저장된 단어 데이터를 기지정된 학습 알고리즘에 적용하여 벡터 데이터를 생성하고, 벡터 데이터와 단어 데이터를 매핑하는 벡터 데이터 생성부를 포함하는 것을 특징으로 한다.In addition, it further includes a data verification unit that verifies the accuracy of the text data extracted from the data extraction unit, wherein the data verification unit includes at least one of special characters, consonants, and vowels included in the text data extracted from the data extraction unit. A first extraction unit for extracting single characters, a second extraction unit for extracting at least one word data corresponding to text data from a predetermined learning DB, and text based on the data extracted from the first extraction unit and the second extraction unit. It includes an error verification unit that determines whether the data contains errors, and the learning DB applies the word data stored in the input word storage unit and the input word storage unit to a predetermined learning algorithm where word data input from a predetermined administrator terminal is stored. It is characterized in that it includes a vector data generation unit that generates vector data and maps vector data and word data.
본 발명의 표 데이터 추출 시스템 및 그 방법은 입력된 이미지 데이터에서 표를 추출하여, 표의 유형을 판단하고, 표 데이터를 추출함으로써, 종이 형태로 존재하는 정보를 디지털 데이터로 용이하게 변환할 수 있는 효과를 가진다.The table data extraction system and method of the present invention has the effect of easily converting information existing in paper form into digital data by extracting a table from input image data, determining the type of table, and extracting table data. has
또한, 이미지 데이터를 픽셀 단위로 분할하여 표 영역에 포함된 라인 영역을 추출하여 셀 영역을 지정하고, 라인이 존재하지 않는 표의 특징 영역을 추출하여 셀 영역을 지정함으로써, 표의 유형에 관계없이 표 데이터를 정확하게 추출할 수 있는 효과를 가진다.In addition, by dividing the image data into pixel units and extracting the line area included in the table area to specify the cell area, and extracting the feature area of the table where no lines exist and specifying the cell area, the table data is stored regardless of the type of table. It has the effect of accurately extracting.
도 1은 본 발명의 일실시례에 따른 표 데이터 추출 시스템의 구성도이다.
도 2는 본 발명의 일실시례에 따른 표 데이터 추출 시스템의 셀 영역 지정부를 설명하기 위한 도면이다.
도 3은 본 발명의 일실시례에 따른 표 데이터 추출 시스템의 표준 유형의 표 데이터 추출을 설명하기 위한 도면이다.
도 4는 본 발명의 일실시례에 표 데이터 추출 시스템의 특징 영역 추출부를 설명하기 위한 도면이다.
도 5 및 도 6은 본 발명의 일실시례에 따른 표 데이터 추출 시스템의 비표준 유형의 표 데이터 추출을 설명하기 위한 도면이다.
도 7은 본 발명의 일실시례에 따른 표 데이터 추출 시스템의 데이터 검증부를 설명하기 위한 도면이다.1 is a configuration diagram of a table data extraction system according to an embodiment of the present invention.
Figure 2 is a diagram for explaining the cell area designation unit of the table data extraction system according to an embodiment of the present invention.
Figure 3 is a diagram for explaining standard type table data extraction of the table data extraction system according to an embodiment of the present invention.
Figure 4 is a diagram for explaining the feature region extraction unit of the table data extraction system in one embodiment of the present invention.
5 and 6 are diagrams for explaining non-standard table data extraction of the table data extraction system according to an embodiment of the present invention.
Figure 7 is a diagram for explaining the data verification unit of the table data extraction system according to an embodiment of the present invention.
이상과 같은 본 발명에 대한 해결하고자 하는 과제, 과제의 해결 수단, 발명의 효과를 포함한 구체적인 사항들은 다음에 기재할 실시례 및 도면들에 포함되어 있다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시례들을 참조하면 명확해질 것이다. Specific details, including the problems to be solved by the present invention, the means for solving the problems, and the effects of the invention, are included in the examples and drawings described below. The advantages and features of the present invention and methods for achieving them will become clear by referring to the embodiments described in detail below along with the accompanying drawings.
이하, 첨부된 도면을 참조하여 본 발명을 보다 상세히 설명하기로 한다.Hereinafter, the present invention will be described in more detail with reference to the attached drawings.
도 1은 본 발명의 일실시례에 따른 표 데이터 추출 시스템의 구성도이고, 도 2는 본 발명의 일실시례에 따른 표 데이터 추출 시스템의 셀 영역 지정부를 설명하기 위한 도면이고, 도 3은 본 발명의 일실시례에 따른 표 데이터 추출 시스템의 표준 유형의 표 데이터 추출을 설명하기 위한 도면이고, 도 4는 본 발명의 일실시례에 표 데이터 추출 시스템의 특징 영역 추출부를 설명하기 위한 도면이고, 도 5 및 도 6은 본 발명의 일실시례에 따른 표 데이터 추출 시스템의 비표준 유형의 표 데이터 추출을 설명하기 위한 도면이고, 도 7은 본 발명의 일실시례에 따른 표 데이터 추출 시스템의 데이터 검증부를 설명하기 위한 도면이다.FIG. 1 is a configuration diagram of a table data extraction system according to an embodiment of the present invention, FIG. 2 is a diagram illustrating a cell area designation unit of the table data extraction system according to an embodiment of the present invention, and FIG. 3 is a diagram showing the configuration of a table data extraction system according to an embodiment of the present invention. It is a diagram for explaining the standard type of table data extraction of the table data extraction system according to an embodiment of the present invention, and Figure 4 is a diagram for explaining the feature area extraction unit of the table data extraction system according to an embodiment of the present invention. Figures 5 and 6 are diagrams for explaining non-standard table data extraction of the table data extraction system according to an embodiment of the present invention, and Figure 7 is a diagram illustrating data verification of the table data extraction system according to an embodiment of the present invention. This is a drawing to explain wealth.
<실시례 1><Example 1>
도 1을 참고하면, 본 발명의 일실시례에 따른 표 데이터 추출 시스템(100)은 이미지 입력부(110), 표 유형 판단부(120), 셀 영역 지정부(130) 및 데이터 추출부(140)로 구성되되, 상기 이미지 입력부(110)는 적어도 하나의 이미지 문서 데이터가 입력될 수 있다.Referring to FIG. 1, the table data extraction system 100 according to an embodiment of the present invention includes an image input unit 110, a table type determination unit 120, a cell area designation unit 130, and a data extraction unit 140. At least one image document data can be input to the image input unit 110.
이때, 이미지 문서 데이터는 문서가 스캔된 jpg, jpeg, png, pdf 등의 파일 형식으로 입력될 수 있고, 상기 이미지 입력부(110)에 포함된 이미지 형식 변환부를 통해 기설정된 형식으로 변환될 수 있다.At this time, the image document data may be input in a file format such as jpg, jpeg, png, or pdf in which the document is scanned, and may be converted into a preset format through an image format conversion unit included in the image input unit 110.
상기 표 유형 판단부(120)는 상기 입력된 이미지 문서 데이터에 적어도 하나의 표 데이터가 포함되는지 여부를 판단하고, 상기 표 데이터의 유형을 판단할 수 있다.The table type determination unit 120 may determine whether at least one table data is included in the input image document data and determine the type of the table data.
보다 상세하게는, 상기 표 유형 판단부(120)는 상기 이미지 입력부(110)에 입력된 상기 이미지 문서 데이터와 기지정된 학습 DB에 저장된 학습 이미지 데이터와 비교하여 상기 이미지 문서 데이터에 포함된 표 유형을 표준 유형 및 비표준 유형 중 어느 하나로 판단할 수 있다.More specifically, the table type determination unit 120 determines the table type included in the image document data by comparing the image document data input to the image input unit 110 with the training image data stored in a predetermined learning DB. It can be judged as either a standard type or a non-standard type.
상기 학습 DB는, 상기 표준 유형으로 분류되고, 상기 셀 영역이 연속된 라인으로 구분되는 제1 학습 이미지 데이터, 상기 비표준 유형으로 분류되고, 상기 셀 영역이 연속된 라인으로 구분되지 않는 제2 학습 이미지 데이터 및 상기 비표준 유형으로 분류되고, 상기 셀 영역에 연속된 라인으로 구분된 영역과, 라인으로 구분되지 않는 영역을 모두 포함하는 제3 학습 이미지 데이터를 포함할 수 있다.The learning DB includes first training image data classified as the standard type and the cell area being divided by continuous lines, and second learning image data classified as the non-standard type and having the cell area not divided by continuous lines. It may include data and third training image data that is classified into the non-standard type and includes both an area divided by a continuous line in the cell area and an area that is not divided by a line.
따라서, 상기 표 유형 판단부(120)는 상기 이미지 입력부(110)에 입력된 상기 이미지 문서 데이터 전체를 스캔하고, 상기 학습 DB에 저장된 제1 내지 제3 학습 이미지 데이터와 일치하는 표 데이터의 포함 여부 및 상기 표 데이터의 표 유형을 판단할 수 있다.Therefore, the table type determination unit 120 scans the entire image document data input to the image input unit 110 and determines whether table data matching the first to third learning image data stored in the learning DB is included. And the table type of the table data can be determined.
한편, 상기 셀 영역 지정부(130)는 상기 표 유형 판단부(120)에서 판단된 표 데이터의 유형에 기초하여, 상기 이미지 문서 데이터에 포함된 표 데이터 영역을 추출하고, 상기 추출된 표 데이터 영역을 픽셀 단위로 구분하여 라인 영역을 추출하고, 상기 추출된 라인에 기초하여 셀 영역을 지정할 수 있다.Meanwhile, the cell area designator 130 extracts a table data area included in the image document data based on the type of table data determined by the table type determination unit 120, and the extracted table data area A line area can be extracted by dividing into pixel units, and a cell area can be designated based on the extracted line.
보다 상세하게는, 도 2에 도시된 바와 같이, 상기 셀 영역 지정부(130)는 상기 이미지 문서 데이터에 포함된 표 데이터 영역을 추출하는 표 영역 추출부(131), 상기 표 유형 판단부(120)에서 상기 이미지 문서 데이터가 상기 표준 유형으로 판단된 경우, 상기 추출된 표 데이터 영역을 픽셀 단위로 구분하고, 상기 픽셀의 색상을 흑색과 백색으로 판단하고, 상기 흑색으로 판단된 픽셀이 기설정된 개수 이상인지 판단하여 라인 영역을 인식하는 라인 영역 추출부(132), 상기 표 유형 판단부(120)에서 상기 이미지 문서 데이터가 상기 비표준 유형으로 판단된 경우, 상기 추출된 표 데이터 영역에서 적어도 하나의 특징 영역을 추출하는 특징 영역 추출부(133) 및 상기 라인 추출부(132)에서 인식된 상기 라인 영역 및 상기 특징 영역 추출부(133)에서 추출된 상기 특징 영역에 기초하여 행열 개수를 산출하고 셀 영역을 생성하는 셀 영역 생성부(134)를 포함할 수 있다.More specifically, as shown in FIG. 2, the cell area designation unit 130 includes a table area extractor 131 that extracts the table data area included in the image document data, and the table type determination unit 120. ), if the image document data is determined to be the standard type, the extracted table data area is divided into pixels, the colors of the pixels are determined to be black and white, and the pixels determined to be black are preset. A line area extractor 132 that recognizes the line area by determining whether it is abnormal, and when the table type determination unit 120 determines that the image document data is the non-standard type, at least one feature in the extracted table data area. Calculate the number of rows and columns based on the line region recognized by the feature region extractor 133 and the line extractor 132 for extracting the region and the feature region extracted by the feature region extractor 133, and calculate the number of rows and columns in the cell region. It may include a cell area generator 134 that generates.
예를 들어, 도 3을 참고하면, 상기 이미지 입력부(110)에 포함된 이미지 문서 데이터에 표준 유형의 표가 포함된 경우, 상기 표 영역 추출부(131)는 상기 이미지 문서 데이터 중에서 상기 표 데이터가 포함된 영역을 추출할 수 있다.For example, referring to FIG. 3, when the image document data included in the image input unit 110 includes a standard type table, the table area extractor 131 extracts the table data from the image document data. The included area can be extracted.
상기 라인 영역 추출부(132)는 상기 표 영역 추출부(131)에서 추출된 표 데이터 영역 내에서 적어도 하나의 라인을 추출할 수 있다. 이때, 라인 영역 추출부(132)는 상기 표 데이터 영역을 픽셀 단위로 분할하고, 상기 픽셀의 색상 백색 및 흑색으로 구분할 수 있다.The line area extractor 132 may extract at least one line from the table data area extracted by the table area extractor 131. At this time, the line area extractor 132 may divide the table data area into pixel units and divide the pixels into white and black.
예를 들어, 상기 라인 영역 추출부(132)에서 분할된 각 픽셀은 고유 좌표 (x1, y1)이 할당되며, 백색인 픽셀은 0, 흑색인 픽셀은 1로 설정된 경우, 상기 x축 또는 y축에서 기설정된 개수(ex. 10개) 이상 연속하는 흑색 픽셀을 탐색하고, 상기 추출된 영역을 라인으로 인식할 수 있다.For example, each pixel divided by the line area extractor 132 is assigned a unique coordinate (x1, y1), and when a white pixel is set to 0 and a black pixel is set to 1, the x-axis or y-axis A preset number (ex. 10) or more consecutive black pixels can be searched, and the extracted area can be recognized as a line.
따라서, 상기 셀 영역 생성부(134)는 도 3에 도시된 바와 같이, 상기 라인 영역 추출부(132)에서 인식된 라인에 기초하여 상기 표 데이터 영역 내에서 적어도 하나의 셀 영역(310)을 생성할 수 있다.Therefore, as shown in FIG. 3, the cell area generator 134 generates at least one cell area 310 in the table data area based on the line recognized by the line area extractor 132. can do.
따라서, 상기 데이터 추출부(140)는 셀 영역 지정부(130)에서 지정된 상기 셀 영역에 포함된 텍스트 데이터를 추출하되, 상기 셀 영역 생성부(134)에서 생성된 적어도 하나의 셀 영역에 각각 OCR 알고리즘을 적용하여, 상기 셀 영역에 대응하는 텍스트 데이터를 추출할 수 있다.Accordingly, the data extraction unit 140 extracts text data included in the cell area designated by the cell area designation unit 130, and performs OCR on at least one cell area generated by the cell area creation unit 134. By applying an algorithm, text data corresponding to the cell area can be extracted.
이때, 상기 표 유형 판단부(120)에서 판단된 표의 유형이 표준 유형인 경우, 상기 셀 영역 지정부(130)의 상기 특징 영역 추출부(133)의 작업 과정은 생략되며, 상기 셀 영역 생성부(134)는 상기 라인 영역 추출부(132)에서 추출된 라인 영역에 기초하여 상기 셀 영역을 생성할 수 있다.At this time, if the table type determined by the table type determination unit 120 is a standard type, the work process of the feature area extraction unit 133 of the cell area designation unit 130 is omitted, and the cell area creation unit 134 may generate the cell area based on the line area extracted by the line area extractor 132.
반면, 상기 표 유형 판단부(120)에서 판단된 표의 유형이 비표준 유형인 경우, 상기 라인 영역 추출부(132)의 작업 과정은 생략되며, 상기 셀 영역 생성부(134)는 상기 특징 영역 추출부(130)에서 추출된 특징 영역에 기초하여 상기 셀 영역을 생성할 수 있다.On the other hand, if the table type determined by the table type determination unit 120 is a non-standard type, the work process of the line area extraction unit 132 is omitted, and the cell area creation unit 134 is operated by the feature area extraction unit. The cell region can be created based on the feature region extracted in (130).
보다 상세하게는, 도 4에 도시된 바와 같이, 상기 특징 영역 추출부(133)는, 상기 표 유형 판단부(120)에서 상기 이미지 문서 데이터가 상기 제2 학습 이미지 데이터와 비교하여 상기 비표준 유형으로 판단된 경우, 상기 추출된 표 데이터 영역을 픽셀 단위로 구분하고, 상기 표 데이터 영역 내의 픽셀 변화를 감지하여 특징 영역을 추출하며, 상기 특징 영역의 행열 개수를 산출하고, 상기 특징 영역과 상기 행열 개수에 기초하여 상기 특징 영역을 병합하는 노라인 특징 추출부(1331) 및 상기 표 유형 판단부(120)에서 상기 이미지 문서 데이터가 상기 제3 학습 이미지 데이터와 비교하여 상기 비표준 유형으로 판단된 경우, 상기 이미지 문서 데이터에 포함된 라인 영역 및 특징 영역을 적어도 하나 추출하고, 상기 라인 영역의 교차점을 적어도 하나 추출하며, 상기 라인 영역의 교차점에 기초하여 상기 특징 영역을 그룹화하여 그룹 영역을 생성하고, 상기 그룹 영역의 행열 개수와, 상기 특징 영역 내의 행열 개수를 산출하여 테이블 구조를 결정하는 브로큰 라인 특징 추출부(1332)를 포함할 수 있다.More specifically, as shown in FIG. 4, the feature area extractor 133 compares the image document data with the second training image data in the table type determination unit 120 to determine the non-standard type. If determined, the extracted table data area is divided into pixel units, a feature area is extracted by detecting pixel changes in the table data area, the number of rows and columns of the feature area is calculated, and the number of rows and columns of the feature area and the rows and columns are calculated. When the image document data is determined to be the non-standard type by comparison with the third training image data in the no-line feature extraction unit 1331 and the table type determination unit 120 for merging the feature areas based on the image Extracting at least one line area and feature area included in document data, extracting at least one intersection of the line areas, grouping the feature areas based on the intersection of the line areas to create a group area, and generating the group area. It may include a broken line feature extractor 1332 that determines the table structure by calculating the number of rows and columns in the feature area.
보다 상세하게는, 노라인 특징 추출부(1331)는 상기 표 데이터에 라인 영역이 포함되지 않은 표의 유형으로부터 특징 영역을 추출하되, 상기 표 영역 추출부(132)에서 추출된 표 데이터 영역을 분석하여 픽셀값이 변화하는 영역을 탐색하여 적어도 하나의 특징 영역을 추출하되, 상기 추출된 특징 영역의 행(row) 및 열(column)의 최대 개수를 산출할 수 있다.More specifically, the no-line feature extraction unit 1331 extracts a feature area from a table type that does not include a line area in the table data, and analyzes the table data area extracted from the table area extraction unit 132 to determine the pixel At least one feature region can be extracted by searching an area where values change, and the maximum number of rows and columns of the extracted feature region can be calculated.
예를 들어, 도 5에 도시된 바와 같이, 상기 노라인 표 데이터의 열의 최대 개수는 4개이고, 행의 최대 개수는 10개로 산출될 수 되고, 상기 표 데이터의 초기 구조는 4열 10행의 구조로 생성될 수 있다. For example, as shown in Figure 5, the maximum number of columns of the no-line table data is 4, the maximum number of rows can be calculated as 10, and the initial structure of the table data is a structure of 4 columns and 10 rows. can be created.
이때, 상기 행의 최대 개수가 10개 아닌 열의 경우, 통합 셀이 존재하는 것으로 판단하여, 상기 노라인 특징 추출부(1331)는 셀 영역을 병합할 수 있다.At this time, in the case of a column where the maximum number of rows is not 10, it is determined that a merged cell exists, and the no-line feature extractor 1331 can merge the cell areas.
일례로, 상기 특징 영역에 의해 생성된 초기 구조에서 1행은 항목 이름으로 인식하여, 자동으로 제외되고, 1행을 제외한 2행 내지 9행에 포함된 셀 영역에 대하여 셀 병합 과정이 수행될 수 있다.For example, in the initial structure created by the feature area, row 1 is recognized as an item name and is automatically excluded, and a cell merging process can be performed on the cell areas included in rows 2 to 9 excluding row 1. there is.
도 5를 참고하면, 상기 노라인 특징 추출부(1331)는 1열 Name을 제외하고 총 5개의 특징 영역이 추출된 것을 확인할 수 있다. 상기 산출된 행의 최대 개수는 10개 이므로 1열 및 3열의 경우, 셀 병합 과정이 수행되되, 상기 항목 이름 아래에 위치하는 셀(510)의 경우, 상기 특징 영역을 기초로 위아래 방향으로 병합이 수행되고, 그 이외의 셀(520, 530, 540, 550)의 경우, 아래 방향으로만 병합이 수행될 수 있다.Referring to Figure 5, it can be seen that the no-line feature extraction unit 1331 extracted a total of 5 feature regions, excluding the first column Name. Since the maximum number of calculated rows is 10, a cell merging process is performed for columns 1 and 3, but for the cell 510 located below the item name, merging is performed in the up and down directions based on the feature area. For other cells 520, 530, 540, and 550, merging can be performed only in the downward direction.
따라서, 셀 병합 작업이 완료된 후 상기 표 데이터의 최종 구조가 결정되고, 상기 셀 영역 생성부(143)은 상기 표 데이터의 최종 구조에 기초하여 적어도 하나의 셀 영역을 생성할 수 있다.Accordingly, after the cell merging operation is completed, the final structure of the table data is determined, and the cell area creation unit 143 may generate at least one cell area based on the final structure of the table data.
한편, 상기 브로큰 라인 특징 추출부(1332)는, 도 6에 도시된 바와 같이, 상기 표 데이터에 라인 영역 및 노라인 영역을 모두 포함하는 표의 유형으로부터 적어도 하나의 특징 영역과 라인 영역을 추출할 수 있다.Meanwhile, as shown in FIG. 6, the broken line feature extractor 1332 can extract at least one feature area and a line area from a table type that includes both a line area and a no-line area in the table data. .
상기 라인 영역을 추출하는 과정과, 상기 특징 영역을 추출하는 과정이 개별적으로 수행되되, 먼저 라인 영역을 추출하는 과정은 상기 라인 영역 추출부(132)와 동일한 과정으로, 상기 표 영역 추출부(132)에서 추출된 표 데이터 영역을 픽셀 단위로 분할하고, 상기 픽셀의 색상을 구분하여 적어도 하나의 라인 영역을 추출할 수 있다.The process of extracting the line area and the process of extracting the feature area are performed separately, but the process of first extracting the line area is the same as that of the line area extractor 132, and the table area extractor 132 ), the extracted table data area can be divided into pixels, and at least one line area can be extracted by distinguishing the colors of the pixels.
또한, 상기 표 영역 추출부(132)에서 추출된 표 데이터 영역을 분석하여 픽셀값이 변화하는 영역을 탐색하여 적어도 하나의 특징 영역을 추출할 수 있다.Additionally, at least one feature area can be extracted by analyzing the table data area extracted by the table area extractor 132 and searching for an area in which pixel values change.
일례로, 상기 브로큰 라인 특징 추출부(1332)는 상기 추출된 라인의 교차점을 탐색하고, 상기 라인 영역 및 교차점에 기초하여 상기 표 데이터의 초기 구조를 결정할 수 있다.For example, the broken line feature extraction unit 1332 may search for intersections of the extracted lines and determine the initial structure of the table data based on the line area and intersection.
이후, 상기 초기 구조에 기초하여 상기 특징 영역을 그룹화하여 그룹 영역(610, 620)을 생성하고, 상기 그룹 영역의 행 개수 및 열 개수를 산출하며, 상기 그룹 영역 내에 포함된 적어도 하나의 특징 영역의 행 개수 및 열 개수를 산출하여 상기 표 데이터의 최종 구조를 결정할 수 있다.Thereafter, the feature areas are grouped based on the initial structure to create group areas 610 and 620, the number of rows and columns of the group area are calculated, and the number of rows and columns of the group area is calculated, and the number of rows and columns of the group area is calculated. The final structure of the table data can be determined by calculating the number of rows and columns.
따라서, 상기 셀 영역 생성부(143)은 상기 표 데이터의 최종 구조에 기초하여 적어도 하나의 셀 영역을 생성할 수 있다.Accordingly, the cell area generator 143 may generate at least one cell area based on the final structure of the table data.
한편, 상기 표 데이터 추출 시스템(100)은 상기 데이터 추출부(140)에서 추출된 데이터의 정확도를 검증하는 데이터 검증부(150)를 더 포함할 수 있다.Meanwhile, the table data extraction system 100 may further include a data verification unit 150 that verifies the accuracy of the data extracted from the data extraction unit 140.
보다 상세하게는, 도 7에 도시된 바와 같이, 상기 데이터 검증부(150)는 상기 데이터 추출부(140)에서 추출된 상기 텍스트 데이터에 포함된 특수문자와, 자음 및 모음 중 적어도 어느 하나를 포함하는 단문자를 추출하는 제1 추출부(151), 상기 텍스트 데이터에 대응되는 단어 데이터를 기지정된 학습 DB로부터 적어도 하나 추출하는 제2 추출부(152) 및 상기 제1 추출부(151) 및 상기 제2 추출부(152)에서 추출된 데이터에 기초하여 상기 텍스트 데이터의 오류 포함 여부를 판단하는 오류 검증부(153)를 포함할 수 있다.More specifically, as shown in FIG. 7, the data verification unit 150 includes at least one of special characters, consonants, and vowels included in the text data extracted by the data extraction unit 140. A first extraction unit 151 for extracting a single character, a second extraction unit 152 for extracting at least one word data corresponding to the text data from a predetermined learning DB, and the first extraction unit 151 and the It may include an error verification unit 153 that determines whether the text data contains an error based on the data extracted by the second extraction unit 152.
예를 들어, 상기 제1 추출부(151)에서 적어도 하나의 특수문자 또는 적어도 하나의 단모음이 추출된 경우, 상기 오류 검증부(153)는 상기 데이터 추출부(140)에서 추출된 텍스트 데이터에 오류가 있는 것으로 판단할 수 있다. For example, when at least one special character or at least one short vowel is extracted in the first extraction unit 151, the error verification unit 153 detects an error in the text data extracted by the data extraction unit 140. It can be judged that there is.
또한, 상기 이미지 문서 데이터로부터 텍스트 추출 과정이 재수행 될 수 있고, 재수행 결과, 동일한 오류가 발생되는 경우, 기지정된 관리자 단말에 상기 이미지 문서 데이터의 수정을 요청하는 알림 신호를 전송할 수도 있다.Additionally, the text extraction process from the image document data may be re-performed, and if the same error occurs as a result of the re-performance, a notification signal requesting modification of the image document data may be transmitted to a predetermined administrator terminal.
한편, 상기 학습 DB는, 상기 관리자 단말로부터 입력된 단어 데이터가 저장되는 입력 단어 저장부 및 상기 입력 단어 저장부에 저장된 상기 단어 데이터를 기지정된 학습 알고리즘에 적용하여 벡터 데이터를 생성하고, 상기 벡터 데이터와 상기 단어 데이터를 매핑하는 벡터 데이터 생성부를 포함할 수 있다.Meanwhile, the learning DB generates vector data by applying an input word storage unit in which word data input from the manager terminal is stored and the word data stored in the input word storage unit to a predetermined learning algorithm, and the vector data and a vector data generator that maps the word data.
보다 상세하게는, 상기 학습 알고리즘에 의해 단어 데이터의 유의어 및 관련어가 학습되며, 상기 벡터 데이터는 매핑된 상기 단어 데이터의 상기 유의어 및 관련어 정보를 포함할 수 있다. More specifically, synonyms and related words of word data are learned by the learning algorithm, and the vector data may include information on the synonyms and related words of the mapped word data.
예를 들어, 상기 제1 추출부(151)에서 특수문자 또는 단모음이 추출되지 않은 경우, 상기 제2 추출부(152)는 상기 입력 단어 저장부에 저장된 단어 데이터 중 상기 텍스트 데이터와 일치하는 단어 데이터가 있는지 여부를 판단하고, 일치하는 단어 데이터를 추출할 수 있다.For example, if a special character or short vowel is not extracted in the first extraction unit 151, the second extraction unit 152 extracts word data that matches the text data among the word data stored in the input word storage unit. You can determine whether there is a , and extract matching word data.
또한, 상기 제2 추출부(152)는 상기 단어 데이터 중 상기 텍스트 데이터와 일치하는 데이터가 없는 경우, 상기 벡터 데이터 생성부에서 생성된 벡터 데이터에 기초하여 상기 텍스트 데이터의 유의어 및 관련어를 추출할 수 있다.In addition, if there is no data among the word data that matches the text data, the second extraction unit 152 may extract synonyms and related words of the text data based on the vector data generated by the vector data generation unit. there is.
이때, 상기 제2 추출부(152)를 통해서 추출된 단어 데이터가 없는 경우, 상기 오류 검증부(153)는 상기 데이터 추출부(140)에서 추출된 텍스트 데이터에 오류가 있는 것으로 판단할 수 있다. At this time, if there is no word data extracted through the second extraction unit 152, the error verification unit 153 may determine that there is an error in the text data extracted by the data extraction unit 140.
한편, 상기 데이터 검증부(150)를 통해 추출된 텍스트 데이터의 검증이 완료된 경우, 상기 텍스트 데이터는 기지정된 서버에 저장될 수 있으며, 오류가 없는 것으로 검증이 완료된 상기 텍스트 데이터는 상기 벡터 데이터를 생성하는 상기 학습 알고리즘의 학습 데이터로 사용될 수 있다. Meanwhile, when verification of the text data extracted through the data verification unit 150 is completed, the text data can be stored in a predetermined server, and the text data that has been verified as free from errors generates the vector data. It can be used as learning data for the learning algorithm.
<실시례 2><Example 2>
본 발명의 일실시례에 따른 상기 표 데이터 추출 시스템(100)의 표 데이터 추출 방법은, 상기 이미지 입력부(110)에 적어도 하나의 이미지 문서 데이터가 입력되는 제1 단계, 상기 표 유형 판단부(120)가 상기 입력된 이미지 문서 데이터에 적어도 하나의 표 데이터가 포함되는지 여부를 판단하고, 상기 표 데이터가 포함되는 경우, 상기 표 데이터의 유형을 판단하는 제2 단계, 상기 셀 영역 지정부(130)가 상기 이미지 문서 데이터의 표 영역을 추출하고, 상기 표의 유형에 기초하여 상기 표 데이터에 포함된 적어도 하나의 라인 영역 및 특징 영역을 추출하는 제3 단계, 상기 셀 영역 지정부(130)가 상기 라인 영역 및 특징 영역에 기초하여 적어도 하나의 셀 영역을 생성하는 제4 단계, 상기 데이터 추출부(140)가 상기 셀 영역에 포함된 텍스트 정보를 추출하는 제5 단계 및 상기 추출된 텍스트 정보를 검증하고, 상기 검증된 텍스트 정보는 기지정된 서버에 저장되는 제6 단계를 포함할 수 있다. The table data extraction method of the table data extraction system 100 according to an embodiment of the present invention includes a first step of inputting at least one image document data into the image input unit 110, and the table type determination unit 120. ) determines whether at least one table data is included in the input image document data, and if the table data is included, a second step of determining the type of the table data, the cell area designator 130 A third step of extracting the table area of the image document data and extracting at least one line area and feature area included in the table data based on the table type, the cell area designation unit 130 A fourth step of generating at least one cell area based on the area and the feature area, a fifth step of the data extraction unit 140 extracting text information included in the cell area, and verifying the extracted text information. , The verified text information may include a sixth step in which the verified text information is stored in a predetermined server.
상기와 같은 본 발명의 효과에 따르면, 입력된 이미지 데이터에서 표를 추출하여, 표의 유형을 판단하고, 표 데이터를 추출함으로써, 종이 형태로 존재하는 정보를 디지털 데이터로 용이하게 변환할 수 있는 표 데이터 추출 시스템 및 그 방법이 제공될 수 있다.According to the effect of the present invention as described above, table data that can easily convert information existing in paper form into digital data by extracting a table from input image data, determining the type of table, and extracting table data An extraction system and method may be provided.
또한, 이미지 데이터를 픽셀 단위로 분할하여 표 영역에 포함된 라인 영역을 추출하여 셀 영역을 지정하고, 라인이 존재하지 않는 표의 특징 영역을 추출하여 셀 영역을 지정함으로써, 표의 유형에 관계없이 표 데이터를 정확하게 추출할 수 있는 표 데이터 추출 시스템 및 그 방법이 제공될 수 있다.In addition, by dividing the image data into pixel units and extracting the line area included in the table area to specify the cell area, and extracting the feature area of the table where no lines exist and specifying the cell area, the table data is stored regardless of the type of table. A table data extraction system and method that can accurately extract can be provided.
또한, 본 발명의 일실시례에 따른, 표 데이터 추출 시스템의 제어 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.Additionally, the control method of the table data extraction system according to an embodiment of the present invention may be recorded on a computer-readable medium including program instructions for performing various computer-implemented operations. The computer-readable medium may include program instructions, data files, data structures, etc., singly or in combination. The medium may have program instructions specifically designed and configured for the present invention, or may be known and available to those skilled in the art of computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. -Includes optical media (magneto-optical media) and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, etc. Examples of program instructions include machine language code, such as that produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter, etc.
이상과 같이 본 발명의 일실시례는 비록 한정된 실시례와 도면에 의해 설명되었으나, 본 발명의 일실시례는 상기 설명된 실시례에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서 본 발명의 일실시례는 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.As described above, although one embodiment of the present invention has been described with limited examples and drawings, one embodiment of the present invention is not limited to the above-described embodiment, which is based on common knowledge in the field to which the present invention pertains. Anyone who has the knowledge can make various modifications and variations from this description. Accordingly, one embodiment of the present invention should be understood only by the scope of the claims set forth below, and all equivalent or equivalent modifications thereof shall fall within the scope of the spirit of the present invention.
110 : 이미지 입력부
120 : 표 유형 판단부
130 : 셀 영역 지정부 131 : 표 영역 추출부
132 : 라인 영역 추출부
133 : 특징 영역 추출부
134 : 셀 영역 생성부
140 : 데이터 추출부
150 : 데이터 검증부110: image input unit
120: Table type judgment unit
130: Cell area designation unit 131: Table area extraction unit
132: Line area extraction unit
133: Feature region extraction unit
134: Cell area creation unit
140: data extraction unit
150: data verification unit
Claims (5)
상기 입력된 이미지 문서 데이터에 적어도 하나의 표 데이터가 포함되는지 여부를 판단하고, 상기 표 데이터의 유형을 판단하는 표 유형 판단부;
상기 표 유형 판단부에서 판단된 표 데이터의 유형에 기초하여, 상기 이미지 문서 데이터에 포함된 표 데이터 영역을 추출하고, 상기 추출된 표 데이터 영역을 픽셀 단위로 구분하여 라인 영역을 추출하고, 상기 추출된 라인에 기초하여 셀 영역을 지정하는 셀 영역 지정부; 및
상기 셀 영역 지정부에서 지정된 상기 셀 영역에 기설정된 OCR 알고리즘을 적용하여 상기 셀 영역에 대응하는 텍스트 데이터를 추출하는 데이터 추출부;를 포함하되,
상기 데이터 추출부에서 추출된 상기 텍스트 데이터의 정확도를 검증하는 데이터 검증부;를 더 포함하고,
상기 표 유형 판단부는,
상기 이미지 입력부에 입력된 상기 이미지 문서 데이터와 기지정된 학습 DB에 저장된 학습 이미지 데이터와 비교하여 상기 이미지 문서 데이터에 포함된 표 유형을 표준 유형 및 비표준 유형 중 어느 하나로 판단하되,
상기 학습 DB는,
상기 표준 유형으로 분류되고, 상기 셀 영역이 연속된 라인으로 구분되는 제1 학습 이미지 데이터;
상기 비표준 유형으로 분류되고, 상기 셀 영역이 연속된 라인으로 구분되지 않는 제2 학습 이미지 데이터; 및
상기 비표준 유형으로 분류되고, 상기 셀 영역에 연속된 라인으로 구분된 영역과, 라인으로 구분되지 않는 영역을 모두 포함하는 제3 학습 이미지 데이터;를 포함하고,
상기 셀 영역 지정부는,
상기 이미지 문서 데이터에 포함된 표 데이터 영역을 추출하는 표 영역 추출부;
상기 표 유형 판단부에서 상기 이미지 문서 데이터가 상기 표준 유형으로 판단된 경우, 상기 추출된 표 데이터 영역을 픽셀 단위로 구분하고, 상기 픽셀의 색상을 흑색과 백색으로 판단하고, 상기 흑색으로 판단된 픽셀이 기설정된 개수 이상인지 판단하여 라인 영역을 인식하는 라인 영역 추출부;
상기 표 유형 판단부에서 상기 이미지 문서 데이터가 상기 비표준 유형으로 판단된 경우, 상기 추출된 표 데이터 영역에서 적어도 하나의 특징 영역을 추출하는 특징 영역 추출부; 및
상기 라인 추출부에서 인식된 상기 라인 영역 및 상기 특징 영역 추출부에서 추출된 상기 특징 영역에 기초하여 행열 개수를 산출하고 셀 영역을 생성하는 셀 영역 생성부;를 포함하며,
상기 셀 영역 생성부는,
상기 표 유형 판단부에서 판단된 상기 표 유형이 상기 표준 유형인 경우, 상기 특징 영역 추출부를 통해 상기 특징 영역을 추출하는 과정을 생략하고, 상기 라인 영역 추출부에서 추출된 상기 라인 영역에 기초하여 상기 셀 영역을 생성하며,
상기 표 유형 판단부에서 판단된 상기 표 유형이 상기 비표준 유형인 경우, 상기 라인 영역 추출부를 통해 상기 라인 영역을 인식하는 과정을 생략하고, 상기 특징 영역 추출부에서 추출된 상기 특징 영역에 기초하여 상기 셀 영역을 생성하고,
상기 특징 영역 추출부는,
상기 표 유형 판단부에서 상기 이미지 문서 데이터가 상기 제2 학습 이미지 데이터와 비교하여 상기 비표준 유형으로 판단된 경우, 상기 추출된 표 데이터 영역을 픽셀 단위로 구분하고, 상기 표 데이터 영역 내의 픽셀 변화를 감지하여 특징 영역을 추출하며, 상기 특징 영역의 행열 개수를 산출하고, 상기 특징 영역과 상기 행열 개수에 기초하여 상기 특징 영역을 병합하는 노라인 특징 추출부; 및
상기 표 유형 판단부에서 상기 이미지 문서 데이터가 상기 제3 학습 이미지 데이터와 비교하여 상기 비표준 유형으로 판단된 경우, 상기 이미지 문서 데이터에 포함된 라인 영역 및 특징 영역을 적어도 하나 추출하고, 상기 라인 영역의 교차점을 적어도 하나 추출하며, 상기 라인 영역의 교차점에 기초하여 상기 특징 영역을 그룹화하여 그룹 영역을 생성하고, 상기 그룹 영역의 행열 개수와, 상기 특징 영역 내의 행열 개수를 산출하여 테이블 구조를 결정하는 브로큰 라인 특징 추출부;를 포함하고,
상기 노라인 특징 추출부는,
상기 특징 영역의 상기 행열 개수 중 행의 최대 개수 및 열의 최대 개수에 기초하여 상기 표 데이터의 초기 구조를 결정하고,
상기 행의 최대 개수 및 상기 열의 최대 개수 미만인 행열이 존재하는 경우, 상기 행열에 적어도 하나의 통합 셀이 존재하는 것으로 판단하여 상기 셀 영역의 셀 병합을 수행하되,
상기 표 데이터의 초기 구조에서 1행은 항목 이름으로 인식하여 상기 1행을 제외한 나머지 행의 셀 영역의 셀 병합을 수행하며,
상기 나머지 행이 상기 1행과 인접하는 아래에 위치하는 경우, 상기 나머지 행의 셀 영역은 위아래 방향 병합이 수행되고, 상기 나머지 행이 상기 1행과 인접하지 않고, 아래에 위치하는 경우, 상기 나머지 행의 셀 영역은 아래 방향 병합이 수행되어 상기 표 데이터의 최종 구조를 결정하고,
상기 브로큰 라인 특징 추출부는,
상기 라인 영역 및 상기 라인 영역의 교차점에 기초하여 상기 표 데이터의 초기 구조를 결정하고,
상기 그룹 영역의 행 개수 및 열개수와, 상기 그룹 영역 내에 포함된 적어도 하나의 상기 특징 영역의 행 개수 및 열 개수 를 산출하여 상기 표 데이터의 최종 구조를 결정하며,
상기 데이터 검증부는,
상기 데이터 추출부에서 추출된 상기 텍스트 데이터에 포함된 특수문자와, 자음 및 모음 중 적어도 어느 하나를 포함하는 단문자를 추출하는 제1 추출부;
상기 텍스트 데이터에 대응되는 단어 데이터를 기지정된 학습 DB로부터 적어도 하나 추출하는 제2 추출부; 및
상기 제1 추출부 및 상기 제2 추출부에서 추출된 데이터에 기초하여 상기 텍스트 데이터의 오류 포함 여부를 판단하는 오류 검증부;를 포함하며,
상기 학습 DB는,
기지정된 관리자 단말로부터 입력된 단어 데이터가 저장되는 입력 단어 저장부; 및
상기 입력 단어 저장부에 저장된 상기 단어 데이터를 기지정된 학습 알고리즘에 적용하여 벡터 데이터를 생성하고, 상기 벡터 데이터와 상기 단어 데이터를 매핑하는 벡터 데이터 생성부;를 포함하고,
상기 벡터 데이터 생성부는,
상기 학습 알고리즘에 기초하여 상기 관리자 단말로부터 입력된 상기 단어 데이터의 유의어 및 관련어를 학습하고, 상기 단어 데이터의 상기 유의어 및 상기 관련어에 대응하는 데이터가 포함된 상기 벡터 데이터를 생성하는 것을 특징으로 하는 표 데이터 추출 시스템.
an image input unit where at least one image document data is input;
a table type determination unit that determines whether the input image document data includes at least one table data and determines a type of the table data;
Based on the type of table data determined by the table type determination unit, a table data area included in the image document data is extracted, the extracted table data area is divided into pixels to extract a line area, and the extraction a cell area designation unit that designates a cell area based on the drawn line; and
A data extraction unit that extracts text data corresponding to the cell area by applying a preset OCR algorithm to the cell area designated by the cell area designation unit,
It further includes a data verification unit that verifies the accuracy of the text data extracted from the data extraction unit,
The table type determination unit,
By comparing the image document data input to the image input unit with learning image data stored in a predetermined learning DB, the table type included in the image document data is determined as one of a standard type and a non-standard type,
The learning DB is,
first training image data classified into the standard type, and the cell areas are divided by continuous lines;
second training image data classified as the non-standard type, and in which the cell area is not divided by continuous lines; and
Third training image data classified as the non-standard type and including both an area divided by a continuous line in the cell area and an area not divided by a line;
The cell area designator,
a table area extractor that extracts a table data area included in the image document data;
When the table type determination unit determines that the image document data is the standard type, the extracted table data area is divided into pixels, the color of the pixel is determined to be black and white, and the pixel determined to be black is determined. a line area extraction unit that recognizes the line area by determining whether the number is greater than or equal to a preset number;
a feature area extraction unit that extracts at least one feature area from the extracted table data area when the table type determination unit determines that the image document data is of the non-standard type; and
It includes a cell area generator that calculates the number of rows and columns and generates a cell area based on the line area recognized by the line extractor and the feature area extracted by the feature area extractor,
The cell area generator,
If the table type determined by the table type determination unit is the standard type, the process of extracting the feature area through the feature area extractor is omitted, and the table type is based on the line area extracted by the line area extractor. Create a cell area,
If the table type determined by the table type determination unit is the non-standard type, the process of recognizing the line area through the line area extractor is omitted, and the process of recognizing the line area is performed based on the feature area extracted by the feature area extractor. Create a cell area,
The feature region extraction unit,
When the table type determination unit determines that the image document data is a non-standard type by comparing it with the second learning image data, the extracted table data area is divided into pixels and a pixel change in the table data area is detected. a no-line feature extraction unit that extracts a feature region, calculates the number of rows and columns of the feature region, and merges the feature region based on the number of rows and columns of the feature region; and
When the table type determination unit determines that the image document data is a non-standard type by comparing it with the third learning image data, extract at least one line area and a feature area included in the image document data, and extract the line area and the feature area of the line area. Broken extracts at least one intersection, creates a group area by grouping the feature areas based on the intersection of the line areas, and determines the table structure by calculating the number of rows and columns in the group area and the number of rows and columns in the feature area. Includes a line feature extraction unit,
The no-line feature extraction unit,
Determine an initial structure of the table data based on the maximum number of rows and the maximum number of columns among the number of rows and columns in the feature area,
If there is a row and column that is less than the maximum number of rows and the maximum number of columns, it is determined that at least one integrated cell exists in the row and column, and cell merging of the cell area is performed,
In the initial structure of the table data, row 1 is recognized as an item name, and cell merging of cell areas of rows other than row 1 is performed,
If the remaining row is located below and adjacent to the first row, the cell area of the remaining row is merged in the upper and lower directions, and if the remaining row is not adjacent to the first row and is located below, the remaining row The cell areas of the rows are subjected to downward merging to determine the final structure of the table data,
The broken line feature extraction unit,
Determine an initial structure of the table data based on the line area and the intersection of the line area,
Determine the final structure of the table data by calculating the number of rows and columns of the group area and the number of rows and columns of at least one feature area included in the group area,
The data verification unit,
a first extraction unit that extracts special characters included in the text data extracted by the data extraction unit and single characters including at least one of a consonant and a vowel;
a second extraction unit that extracts at least one word data corresponding to the text data from a predetermined learning DB; and
It includes an error verification unit that determines whether the text data contains an error based on the data extracted from the first extraction unit and the second extraction unit,
The learning DB is,
an input word storage unit that stores word data input from a predetermined manager terminal; and
A vector data generator that generates vector data by applying the word data stored in the input word storage unit to a predetermined learning algorithm and maps the vector data to the word data,
The vector data generator,
A table characterized in that, based on the learning algorithm, the synonyms and related words of the word data input from the manager terminal are learned, and the vector data containing data corresponding to the synonyms and the related words of the word data are generated. Data extraction system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230112760A KR102673900B1 (en) | 2023-08-28 | 2023-08-28 | Table data extraction system and the method of thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230112760A KR102673900B1 (en) | 2023-08-28 | 2023-08-28 | Table data extraction system and the method of thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR102673900B1 true KR102673900B1 (en) | 2024-06-11 |
KR102673900B9 KR102673900B9 (en) | 2024-09-09 |
Family
ID=91471480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230112760A KR102673900B1 (en) | 2023-08-28 | 2023-08-28 | Table data extraction system and the method of thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102673900B1 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012036345A1 (en) * | 2010-09-17 | 2012-03-22 | 주식회사 엔웨이브 | Optical character recognition and dictionary search system and method in a server-linked integrated page |
JP2016006661A (en) * | 2009-01-02 | 2016-01-14 | アップル インコーポレイテッド | Method and system for document reconfiguration |
KR20210140844A (en) * | 2020-05-14 | 2021-11-23 | 지의소프트 주식회사 | Table data storing system and method on the electronic document |
KR20230062260A (en) * | 2021-10-29 | 2023-05-09 | 삼성에스디에스 주식회사 | Method, apparatus, system and computer program for high quality transformation model learning for document image and document recognition |
-
2023
- 2023-08-28 KR KR1020230112760A patent/KR102673900B1/en active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016006661A (en) * | 2009-01-02 | 2016-01-14 | アップル インコーポレイテッド | Method and system for document reconfiguration |
WO2012036345A1 (en) * | 2010-09-17 | 2012-03-22 | 주식회사 엔웨이브 | Optical character recognition and dictionary search system and method in a server-linked integrated page |
KR20210140844A (en) * | 2020-05-14 | 2021-11-23 | 지의소프트 주식회사 | Table data storing system and method on the electronic document |
KR20230062260A (en) * | 2021-10-29 | 2023-05-09 | 삼성에스디에스 주식회사 | Method, apparatus, system and computer program for high quality transformation model learning for document image and document recognition |
Non-Patent Citations (2)
Title |
---|
한국 공개특허공보 제10-2021-0140844호(2021.11.23.) 1부.* |
한국 공개특허공보 제10-2023-0062260호(2023.05.09.) 1부.* |
Also Published As
Publication number | Publication date |
---|---|
KR102673900B9 (en) | 2024-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3445394B2 (en) | How to compare at least two image sections | |
JP2973944B2 (en) | Document processing apparatus and document processing method | |
Naz et al. | The optical character recognition of Urdu-like cursive scripts | |
Shafait et al. | Table detection in heterogeneous documents | |
KR100249055B1 (en) | Character recognition apparatus | |
KR100412317B1 (en) | Character recognizing/correcting system | |
KR101769918B1 (en) | Recognition device based deep learning for extracting text from images | |
JP3345224B2 (en) | Pattern extraction device, pattern re-recognition table creation device, and pattern recognition device | |
JP2713622B2 (en) | Tabular document reader | |
Al-Maadeed | Text‐Dependent Writer Identification for Arabic Handwriting | |
Halima et al. | Nf-savo: Neuro-fuzzy system for arabic video ocr | |
JP2730665B2 (en) | Character recognition apparatus and method | |
Yalniz et al. | Ottoman archives explorer: A retrieval system for digital Ottoman archives | |
CN115311666A (en) | Image-text recognition method and device, computer equipment and storage medium | |
KR102542174B1 (en) | Digital reference book provision system | |
KR102673900B1 (en) | Table data extraction system and the method of thereof | |
JP3467437B2 (en) | Character recognition apparatus and method and program recording medium | |
Kumar et al. | Line based robust script identification for indianlanguages | |
US10657404B2 (en) | Character recognition device, character recognition method, and character recognition program | |
Sotoodeh et al. | A music symbols recognition method using pattern matching along with integrated projection and morphological operation techniques | |
KR20210137808A (en) | Apparatus and method for extracting words | |
Nisa et al. | Annotation of struck-out text in handwritten documents | |
AbdelRaouf | Offline printed Arabic character recognition | |
Sanjrani et al. | Multilingual OCR systems for the regional languages in Balochistan | |
Amin | Recognition of printed Arabic text using machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |