KR100277831B1 - Table Analysis Method in Document Image - Google Patents

Table Analysis Method in Document Image Download PDF

Info

Publication number
KR100277831B1
KR100277831B1 KR1019980043240A KR19980043240A KR100277831B1 KR 100277831 B1 KR100277831 B1 KR 100277831B1 KR 1019980043240 A KR1019980043240 A KR 1019980043240A KR 19980043240 A KR19980043240 A KR 19980043240A KR 100277831 B1 KR100277831 B1 KR 100277831B1
Authority
KR
South Korea
Prior art keywords
horizontal
candidate
area
extracting
vertical
Prior art date
Application number
KR1019980043240A
Other languages
Korean (ko)
Other versions
KR20000025937A (en
Inventor
장대근
지수영
오원근
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR1019980043240A priority Critical patent/KR100277831B1/en
Publication of KR20000025937A publication Critical patent/KR20000025937A/en
Application granted granted Critical
Publication of KR100277831B1 publication Critical patent/KR100277831B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/20Linear translation of whole images or parts thereof, e.g. panning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10008Still image; Photographic image from scanner, fax or copier

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)

Abstract

본 발명은 스캐너로 입력 받은 문서 영상에서 표(table) 영역을 찾아내고 표의 테두리선들을 내용과 분리하는 방법에 관한 것이다. 먼저, 스캐너로 입력한 문서 영상을 영역 해석하여 텍스트 영역과, 그림 영역으로 분할하고, 그림 영역으로 분할된 영역들을 흑점밀도 및 테두리선을 추출함으로써 그림 영역에서 표 영역을 분리한다.The present invention relates to a method for finding a table region from a document image received by a scanner and separating the table borders from the contents. First, a table image is separated from a picture area by region analysis of a document image input by a scanner, divided into a text area and a picture area, and by extracting black spot density and a border line.

본 발명에 따라 표를 분석하는 방법은, 문서 영상을 텍스트 후보 영역과 그림 후보 영역으로 분리한 후, 분리된 그림 후보 영역을 분석하여 표의 테두리선들을 추출하는 문서 영상에서의 표 분석방법에 있어서, 상기 그림 후보 영역의 흑점밀도를 측정하여 표 후보 영역을 추출하는 제1단계와; 상기 표 후보 영역의 수평, 수직 테두리선을 추출하는 제2단계; 상기 표 후보 영역의 수평, 수직 테두리선 중 최외각 수평, 수직 테두리선들을 추출하고, 이를 기준으로 표 영역을 추출하는 제3단계; 및 상기 표 영역에서 제외된 표 후보 영역을 그림 영역으로 등록하는 제4단계를 포함한 것을 특징으로 한다.In the method of analyzing a table according to the present invention, in the table analysis method in the document image to separate the document image into a text candidate area and a picture candidate area, and then to extract the edges of the table by analyzing the separated picture candidate area, A first step of extracting a table candidate region by measuring a black spot density of the figure candidate region; Extracting horizontal and vertical edges of the table candidate region; Extracting the outermost horizontal and vertical border lines among the horizontal and vertical border lines of the table candidate area, and extracting the table area based on this; And registering a table candidate area excluded from the table area as a picture area.

Description

문서 영상에서의 표 분석방법Table Analysis Method in Document Image

본 발명은 컴퓨터를 이용하여 문서 영상의 표를 분리하는 방법 및 그 기록매체에 관한 것으로써, 특히 스캐너로 입력받은 문서 영상에서 표 영역을 찾아내고 표의 테두리선들과 그 표 속의 내용을 추출하는 문서 영상에서의 표 분석방법에 관한 것이다.The present invention relates to a method for separating a table of a document image using a computer and a recording medium thereof, in particular, a document image for finding a table region from a document image input by a scanner and extracting the borders of the table and the contents of the table. It relates to a table analysis method in.

일반적으로, 문서는 크게 텍스트 영역, 그림 영역, 그리고 표 영역으로 나누어진다. 현재, 문서 영상처리 기술을 살펴보면, 문서 영상에서 텍스트 영역의 문자들을 인식하는 기술이나 그림 영역을 특정 형태의 그림형식(image file format)으로 처리하는 기술은 있으나, 표(table) 영역을 분석하여 테두리선이나 내용을 추출하는 기술은 아직 개발되지 않았다. 특히, 표의 테두리선과 내용부분에 어느 정도의 손실이 있거나 노이즈(noise)로 인해 훼손된 경우에는 제대로 처리할 수 있는 기술이 개발되지 않았다.Generally, documents are divided into text areas, picture areas, and table areas. Currently, the document image processing technology, there is a technique for recognizing the characters of the text area in the document image or a technique for processing the picture area in a specific form of image file format, but by analyzing the table area (border) Techniques for extracting lines or content have not yet been developed. In particular, there has not been developed a technology that can handle properly when there is some loss in the table borders and contents or damaged by noise.

따라서, 활자화된 문서의 전체 내용을 파일(file) 문서로 정확하게 변환할 수 없는 문제점이 있었다.Therefore, there is a problem in that the entire contents of the typed document cannot be accurately converted into a file document.

본 발명은 앞서 설명한 바와 같은 종래 기술의 문제점을 해결하기 위하여 안출된 것으로서, 스캐너로 문서 영상을 입력받아 이 문서 영상을 텍스트 영역, 그림 영역, 표 영역 등 3가지의 영역으로 분할하고, 그 중 표 영역에서 표의 테두리선을 추출함으로써 전표인식과 같은 작업들을 가능하게 하는 데 그 목적이 있다.The present invention has been made to solve the problems of the prior art as described above, receives a document image with a scanner and divides the document image into three areas, such as a text area, a picture area, and a table area, among which a table The goal is to enable tasks such as document recognition by extracting the table borders from the area.

또한, 본 발명은 입력되는 문서 영상에서 표의 테두리선이 어느 정도 손실되거나 잡음에 의해 훼손된 경우라도 정확하게 표의 테두리선을 분리해 내고, 표 내부의 내용을 용이하게 추출할 수 있도록 하는 데 다른 목적이 있다.In addition, another object of the present invention is to make it possible to accurately extract the table borders and to easily extract the contents of the table even when the table borders are lost to some extent or damaged by noise in the input document image. .

도 1은 문서 영상을 영상 처리하여 영역을 분할하는 과정을 도시한 흐름도,1 is a flowchart illustrating a process of segmenting a region by image processing a document image;

도 2는 본 발명의 한 실시예에 따라 문서 영상에서 표를 분석하는 과정을 도시한 흐름도,2 is a flowchart illustrating a process of analyzing a table in a document image according to an embodiment of the present invention;

도 3은 도 2의 1차 오류제거단계를 도시한 상세 흐름도,3 is a detailed flowchart illustrating the primary error elimination step of FIG.

도 4는 본 발명에 의해 처리된 결과를 도시한 도면이다.4 shows the results processed by the present invention.

상기와 같은 목적을 달성하기 위한 본 발명은, 문서 영상을 텍스트 후보 영역과 그림 후보 영역으로 분리한 후, 분리된 그림 후보 영역을 분석하여 표의 테두리선들을 추출하는 문서 영상에서의 표 분석방법에 있어서, 상기 그림 후보 영역의 흑점밀도를 측정하여 표 후보 영역을 추출하는 제1단계와; 상기 표 후보 영역의 수평, 수직 테두리선을 추출하는 제2단계; 상기 표 후보 영역의 수평, 수직 테두리선 중 최외각 수평, 수직 테두리선들을 추출하고, 이를 기준으로 표 영역을 추출하는 제3단계; 및 상기 표 영역에서 제외된 표 후보 영역을 그림 영역으로 등록하는 제4단계를 포함한 것을 특징으로 한다.The present invention for achieving the above object, in the table analysis method for extracting the table borders by separating the document image into a text candidate area and a picture candidate area, and then analyzing the separated picture candidate area A first step of extracting a table candidate region by measuring a black spot density of the figure candidate region; Extracting horizontal and vertical edges of the table candidate region; Extracting the outermost horizontal and vertical border lines among the horizontal and vertical border lines of the table candidate area, and extracting the table area based on this; And registering a table candidate area excluded from the table area as a picture area.

또한, 보다 바람직하게는 상기 최외각 수평, 수직 테두리선들이 직사각형을 이루도록 각각의 테두리선들의 길이를 재조정하는 제5단계와, 상기 각각의 수평, 수직 테두리선들의 끝을 최외각 수평, 수직 테두리선에 접하도록 재조정하는 제6단계를 더 포함한 것을 특징으로 한다.Further, more preferably, the fifth step of adjusting the length of each border line such that the outermost horizontal and vertical border lines form a rectangle, and the ends of the respective horizontal and vertical border lines are the outermost horizontal and vertical border lines. It further comprises a sixth step of readjusting to contact.

본 발명의 목적을 달성하기 위한 컴퓨터로 읽을 수 있는 기록매체는, 컴퓨터에, 문서 영상을 텍스트 후보 영역과 그림 후보 영역으로 분리하는 제1단계와; 상기 그림 후보 영역의 흑점밀도를 측정하여 표 후보 영역을 추출하는 제2단계; 상기 표 후보 영역의 수평, 수직 테두리선을 추출하는 제3단계; 상기 표 후보 영역의 수평, 수직 테두리선 중 최외각 수평, 수직 테두리선들을 추출하고, 이를 기준으로 표 영역을 추출하는 제4단계; 상기 표 영역에서 제외된 표 후보 영역을 그림 영역으로 등록하는 제5단계; 상기 최외각 수평, 수직 테두리선들이 직사각형을 이루도록 각각의 테두리선들의 길이를 재조정하는 제6단계; 및 상기 각각의 수평, 수직 테두리선들의 끝을 최외각 수평, 수직 테두리선에 접하도록 재조정하는 제7단계를 실행시키기 위한 프로그램이 기록된다.A computer-readable recording medium for achieving the object of the present invention includes: a first step of separating a document image into a text candidate area and a picture candidate area in a computer; A second step of extracting a table candidate region by measuring a black spot density of the figure candidate region; Extracting horizontal and vertical border lines of the table candidate area; Extracting the outermost horizontal and vertical border lines among the horizontal and vertical border lines of the table candidate area and extracting the table area based on the fourth and second border lines; Registering a table candidate area excluded from the table area as a picture area; Resizing the lengths of the respective edge lines such that the outermost horizontal and vertical edge lines form a rectangle; And a program for executing the seventh step of readjusting the ends of the respective horizontal and vertical border lines to contact the outermost horizontal and vertical border lines.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 살펴보면 다음과 같다.Hereinafter, an embodiment of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 문서 영상을 영상 처리하여 영역을 분할하는 과정을 도시한 흐름도이고, 도 2는 본 발명의 한 실시예에 따라 문서 영상에서 표를 분석하는 과정을 도시한 흐름도이며, 도 3은 도 2의 1차 오류제거단계를 도시한 상세 흐름도이다.1 is a flowchart illustrating a process of segmenting a region by image processing a document image, FIG. 2 is a flowchart illustrating a process of analyzing a table in a document image according to an embodiment of the present invention, and FIG. 3 is FIG. A detailed flowchart illustrating the first error elimination step of.

본 발명은, 크게 입력된 문서 영상을 해석하여 영역을 분할하는 과정과, 분할된 그림 후보 영역에서 표 영역을 찾아내고 분리하는 표 분석과정으로 구분되어진다. 여기서, 문서 영상을 해석하여 영역을 분할하는 과정은 도 1에 도시되어 있는 바와 같이, 버튼업(bottom up) 방식의 연결요소법(connected components method)을 이용하여 영역을 분할한다.The present invention is divided into a process of segmenting an area by analyzing a largely input document image and a table analysis process of finding and separating a table area from the divided picture candidate area. Here, in the process of analyzing the document image and dividing the region, as shown in FIG. 1, the region is divided by using a connected component method of a button up method.

즉, 입력된 문서 영상을 축소한 후 요소(component)들을 생성하고, 이 요소들을 연결하여 영역을 생성한다. 영역들간의 가소, 세로 간격을 조사하면서, 영역들을 상호 연결하여 새로운 영역을 생성한다. 만들어진 영역들을 텍스트 후보 영역과 그림 후보 영역으로 구분한 다음, 그림 후보 영역으로 구분된 영역들을 표 분석과정에 적용한다.That is, after reducing the input document image, components are generated, and the elements are connected to generate an area. While investigating the plasticity and vertical spacing between the regions, the regions are interconnected to create new regions. The created areas are divided into text candidate areas and picture candidate areas, and the areas divided into picture candidate areas are applied to the table analysis process.

도 2를 참조하면서 본 발명에 따른 문서 영상에서의 표 분석방법을 설명한다.Referring to Fig. 2, a table analysis method in a document image according to the present invention will be described.

문서 영상을 해석하여 영역을 분할하는 과정을 통해 그림 후보 영역으로 구분된 영역이 입력되면, 그 그림 후보 영역의 흑점밀도를 판정하여 흑점밀도가 0.05 이상이고 0.5 이하인 표 후보 영역을 추출한다(단계 202). 이때, 그림 후보 영역의 흑점밀도가 0.05 미만이거나, 0.5를 초과할 경우에는 단계 226으로 진행하여, 그 그림 후보 영역을 그림 영역으로 설정한다.When a region divided into a picture candidate area is input by analyzing a document image and dividing the area, a black spot density of the picture candidate area is determined to extract a table candidate area having a black spot density of 0.05 or more and 0.5 or less (step 202). ). If the black spot density of the picture candidate area is less than 0.05 or more than 0.5, the process proceeds to step 226, where the picture candidate area is set as the picture area.

다음에, 단계 202에서 추출된 표 후보 영역의 수평 테두리선과 수직 테두리선을 추출하는데, 이는 도 2의 단계 204 내지 단계 222를 통해 이루어진다. 수평 테두리선 추출과정과 수직 테두리선 추출과정은 상호 동일하기 때문에 본 실시예에서는 수평 테두리선 추출과정을 중심으로 설명한다.Next, a horizontal border line and a vertical border line of the table candidate region extracted in step 202 are extracted, which is performed through steps 204 to 222 of FIG. Since the horizontal border line extraction process and the vertical border line extraction process are identical to each other, the present embodiment will be described based on the horizontal border line extraction process.

수평 테두리선을 추출하기 위하여, 먼저, 후보 수평 테두리선을 추출하고(단계 204), 추출된 후보 수평 테두리선 수가 1 초과인 지를 판정한다(단계 206). 표가 완성되려면 적어도 2개 이상의 수평 테두리선과 수직 테두리선이 있어야 하는데, 단계 206에서 후보 수평 테두리선이 적어도 2개 이상인 지를 판정하여, 2개 이상이면 단계 208로 진행하고, 2개 미만이면 단계 226으로 진행하여 그 표 후보 영역을 그림 영역으로 설정한다.To extract the horizontal border line, first, the candidate horizontal border line is extracted (step 204), and it is determined whether the number of extracted candidate horizontal border lines is greater than one (step 206). To complete the table, there must be at least two horizontal borders and vertical borders. In step 206, it is determined whether there are at least two candidate horizontal borders, and if more than two, the process proceeds to step 208, and if less than two, the step 226 Proceed to set the table candidate area to the picture area.

후보 수평 테두리선 수가 2 이면(단계 208), 수직 테두리선 수가 1 초과인 지를 판정한 후 단계 212로 진행한다. 후보 수평 테두리선 수가 2 초과이면 단계 212단계로 진행한다. 즉, 후보 수평 테두리선 수가 2 이면, 해당되는 표 후보 영역이 표 영역일 가능성이 희박하기 때문에 수직 테두리선 수를 판정한 다음, 다음 단계로 진행하고, 후보 수평 테두리선 수가 2 초과이면, 바로 다음 단계로 진행한다.If the number of candidate horizontal border lines is two (step 208), it is determined whether the number of vertical border lines is greater than one, and then the process proceeds to step 212. If the number of candidate horizontal border lines is greater than two, the process proceeds to step 212. That is, if the number of candidate horizontal edges is 2, since the corresponding table candidate area is unlikely to be a table area, the number of vertical edges is determined, and then the process proceeds to the next step. Proceed to step.

단계 212는 후보 수평 테두리선의 1차 오류제거단계인데, 이는 각각의 후보 수평 테두리선과 교차하는 수직 테두리선이 2개 이상 존재하는 지를 판정하여 표 영역과 그림 영역을 구분하는 단계이다.Step 212 is a first error elimination step of the candidate horizontal edges, which determines whether two or more vertical edges intersect each candidate horizontal edge and distinguishes the table area from the picture area.

도 3을 참조하면, 각각의 후보 수평 테두리선에 식별자 번호(hvPos)가 부여된 후 입력되면, 첫 번째 후보 수평 테두리선의 오류를 제거하기 위하여 식별자 번호를 1로 설정한다(단계 302). 전체 수평 테두리선 수(hvNum)와 식별자 번호(hvPos)를 비교하여(단계 304), 식별자 번호(hvPos)가 전체 수평 테두리선 수(hvNum)와 동일해지면 도 2의 메인 루틴(main routine)으로 복귀하고, 그렇지 않으면 단계 306으로 진행한다.Referring to FIG. 3, when an identifier number hvPos is input to each candidate horizontal border line and inputted, the identifier number is set to 1 to eliminate an error of the first candidate horizontal border line (step 302). The total horizontal border line number hvNum and the identifier number hvPos are compared (step 304), and when the identifier number hvPos becomes equal to the total horizontal border line number hvNum, the process returns to the main routine of FIG. 2. Otherwise proceed to step 306.

즉, 1번 후보 수평 테두리선으로부터 전체 후보 수평 테두리선을 순차적으로 단계 306 내지 단계 312에 적용시킨다. 단계 306은 해당되는 후보 수평 테두리선과 교차하는 수직 테두리선 수가 2 이상인 지를 판정하는 단계이다. 이때, 교차하는 수직 테두리선 수가 2 미만이면 해당되는 후보 수평 테두리선을 후보에서 제외시키고(단계 308), 후보 수평 테두리선 정보를 재조정한다(단계 310). 그 후, 단계 312에서 식별자 번호를 1 증가시킨 후 단계 304로 진행한다.That is, all candidate horizontal edges are sequentially applied to steps 306 to 312 from the first candidate horizontal edge. Step 306 is a step of determining whether the number of vertical edge lines intersecting the corresponding candidate horizontal edge lines is two or more. At this time, if the number of crossing vertical edges is less than 2, the candidate candidate horizontal edge is excluded from the candidate (step 308), and the candidate horizontal edge information is readjusted (step 310). Thereafter, in step 312, the identifier number is incremented by 1 and the flow proceeds to step 304.

상기와 같은 1차 오류제거단계가 완료되면, 적어도 2개 이상의 수직 테두리선과 교차하는 후보 수평 테두리선만이 남게 된다. 단계 214에서는 훼손으로 인하여 끊어진 수평 테두리선을 복원한다.When the first error elimination step is completed, only candidate horizontal border lines that intersect at least two vertical border lines remain. In step 214, the horizontal border line broken due to the damage is restored.

다음에, 라인밀도를 이용하여 후보 수평 테두리선의 2차 오류제거단계를 수행한다(단계 216). 즉, 후보 수평 테두리선 사이의 라인밀도가 90% 이상일 경우, 해당되는 후보 수평 테두리선을 후보에서 제외시키고 후보 수평 테두리선 정보를 재작성한다.Next, the second error elimination step of the candidate horizontal border line is performed using the line density (step 216). That is, when the line density between the candidate horizontal edges is 90% or more, the candidate horizontal edges are excluded from the candidate and the candidate horizontal edge information is recreated.

이러한 2차 오류제거단계가 완료되면, 후보 수평 테두리선 사이의 간격이 매우 초밀한 후보 수평 테두리선이 제거되기 때문에 잡음에 의해 오판정된 후보 수평 테두리선을 제거할 수 있다.When the second error elimination step is completed, candidate horizontal edges having a very small gap between candidate horizontal edges are removed, and thus candidate horizontal edges that are incorrectly judged by noise can be removed.

단계 218은 남아있는 후보 수평 테두리선 수가 1 초과, 즉 2 이상인 지를 판정하는 단계이다. 이때, 2개 미만의 후보 수평 테두리선이 남아있으면 해당되는 표 후보 영역을 그림 영역으로 재설정하고, 2개 이상의 후보 수평 테두리선이 남아있으면 후보 테두리선들의 교차점에서의 길이를 재조정한다(단계 220). 길이가 재조정된 남아있는 후보 수평 테두리선을 수평 테두리선으로 등록한다(단계 222).Step 218 is a step of determining whether the number of remaining candidate horizontal border lines is more than one, that is, two or more. At this time, if less than two candidate horizontal border lines remain, the corresponding table candidate area is reset to the picture area, and if two or more candidate horizontal border lines remain, the length at the intersection of the candidate border lines is readjusted (step 220). . The remaining candidate horizontal borderline that has been resized is registered as a horizontal borderline (step 222).

상기와 같은 과정을 통해 수평 테두리선을 추출한 다음, 수직 테두리선을 추출한다. 수직 테두리선의 추출하기 위하여, 표 후보 영역의 수평 정보와 수직 정보를 맞바꾸고, 변환된 수평 정보를 상기에서 언급한 수평 테두리선 추출과정에 적용하여 변환된 수평 정보를 이용한 수평 테두리선을 추출한다. 그 후, 이 변환된 수평 정보를 이용한 수평 테두리선을 수직 테두리선으로 변환하여 등록하여, 수직 테두리선을 추출할 수 있다.The horizontal border line is extracted through the above process, and then the vertical border line is extracted. In order to extract the vertical border line, the horizontal information of the table candidate area is exchanged with the vertical information, and the converted horizontal information is applied to the above-described horizontal border line extraction process to extract the horizontal border line using the converted horizontal information. Thereafter, the horizontal edge using the converted horizontal information is converted into a vertical edge and registered, thereby extracting the vertical edge.

이와 같이 표 후보 영역에서 수평 테두리선과 수직 테두리선이 추출되면, 이 정보를 이용하여 최외각 수평 테두리선과 최외각 수직 테두리선을 추출하고, 이를 기준으로 표 영역을 추출한다. 이와 같이 최외각 수평, 수직 테두리선이 추출되면, 그 최외각 수평, 수직 테두리선들이 직사각형을 이루도록 각각의 테두리선들의 길이를 재조정하고, 상기 각각의 수평, 수직 테두리선들의 끝을 최외각 수평, 수직 테두리선에 접하도록 재조정한다.As such, when the horizontal and vertical border lines are extracted from the table candidate area, the outermost horizontal border line and the outermost vertical border line are extracted using this information, and the table area is extracted based on the information. When the outermost horizontal and vertical border lines are extracted as described above, the lengths of the respective outer border lines are readjusted so that the outermost horizontal and vertical border lines form a rectangle, and the ends of the respective horizontal and vertical border lines are outermost horizontal, Readjust to meet the vertical border.

이와같은 과정을 통해 표 영역의 수평, 수직 테두리선들이 추출되면, 테두리선을 제외한 나머지 부분에서 내용을 추출하여 인식한다(단계 224). 물론, 상기와 같은 과정을 통과한 표 후보 영역 중 표 영역에서 제외된 영역은 그림 영역으로 재설정된다(단계 226).When the horizontal and vertical border lines of the table area are extracted through the above process, contents are extracted from the remaining portions except for the border line and recognized (step 224). Of course, the area excluded from the table area among the table candidate areas that have passed the above process is reset to the picture area (step 226).

도 4는 본 발명에 의해 처리된 결과를 도시한 도면이다.4 shows the results processed by the present invention.

상기와 같은 본 발명은 컴퓨터로 읽을 수 있는 기록매체에 기록되고, 컴퓨터에 의해 처리된다.The present invention as described above is recorded on a computer-readable recording medium and processed by a computer.

이상에서 살펴본 바와 같이 본 발명에 의하면, 문서 영상에서 표 영역의 테두리선을 추출하여 표 내부의 내용을 용이하게 추출할 수 있도록 하며, 입력된 문서 영상에서 어느 정도의 손상이 있는 표의 테두리선과 내용을 복구함으로써, 테두리선에 자주 생기는 훼손에 대한 강한 적응력을 제공할 수 있는 효과가 있다.As described above, according to the present invention, it is possible to easily extract the contents of the table area by extracting the border line of the table area from the document image, and the table border and content of the table having some damage from the input document image. By restoring, there is an effect that can provide a strong adaptation to the damage often occurs in the border.

Claims (7)

문서 영상을 텍스트 후보 영역과 그림 후보 영역으로 분리한 후, 분리된 그림 후보 영역을 분석하여 표의 테두리선들을 추출하는 문서 영상에서의 표 분석방법에 있어서,A table analysis method in a document image, wherein a document image is divided into a text candidate area and a picture candidate area, and then the edges of the table are extracted by analyzing the separated picture candidate area. 상기 그림 후보 영역의 흑점밀도를 측정하여 표 후보 영역을 추출하는 제1단계와;A first step of extracting a table candidate region by measuring a black spot density of the figure candidate region; 상기 표 후보 영역의 수평, 수직 테두리선을 추출하는 제2단계;Extracting horizontal and vertical edges of the table candidate region; 상기 표 후보 영역의 수평, 수직 테두리선 중 최외각 수평, 수직 테두리선들을 추출하고, 이를 기준으로 표 영역을 추출하는 제3단계; 및Extracting the outermost horizontal and vertical border lines among the horizontal and vertical border lines of the table candidate area, and extracting the table area based on this; And 상기 표 영역에서 제외된 표 후보 영역을 그림 영역으로 등록하는 제4단계를 포함한 것을 특징으로 하는 문서 영상에서의 표 분석방법.And a fourth step of registering a table candidate area excluded from the table area as a picture area. 제1항에 있어서, 상기 최외각 수평, 수직 테두리선들이 직사각형을 이루도록 각각의 테두리선들의 길이를 재조정하는 제5단계를 더 포함한 것을 특징으로 하는 문서 영상에서의 표 분석방법.The method of claim 1, further comprising a fifth step of re-adjusting the length of each border line such that the outermost horizontal and vertical border lines form a rectangle. 제2항에 있어서, 상기 각각의 수평, 수직 테두리선들의 끝을 최외각 수평, 수직 테두리선에 접하도록 재조정하는 제6단계를 더 포함한 것을 특징으로 하는 문서 영상에서의 표 분석방법.3. The method of claim 2, further comprising a sixth step of readjusting the ends of the horizontal and vertical border lines to contact the outermost horizontal and vertical border lines. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 제1단계는,The method of claim 1, wherein the first step comprises: 상기 그림 후보 영역 중 흑점밀도가 0.05 이상이고 0.5 이하인 경우, 표 후보 영역으로 판단하는 것을 특징으로 하는 문서 영상에서의 표 분석방법.And a black spot density of 0.05 or more and 0.5 or less of the figure candidate area is determined as a table candidate area. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 제2단계의 수평 테두리선 추출단계는,According to any one of claims 1 to 3, wherein the horizontal edge extraction step of the second step, 상기 표 후보 영역에서 후보 수평 테두리선을 추출하는 단계;Extracting a candidate horizontal border line from the table candidate area; 상기 후보 수평 테두리선이 적어도 2개 이상인 경우, 상기 후보 수평 테두리선과 교차하는 수직 테두리선의 수가 2개 미만인 후보 수평 테두리선을 후보에서 제외시키는 1차 오류제거단계;A first error elimination step for excluding candidate candidate horizontal edges having less than two vertical edges intersecting the candidate horizontal edges when the candidate horizontal edges are at least two or more; 상기 후보 수평 테두리선의 라인밀도가 기준치보다 높은 후보 수평 테두리선을 후보에서 제외시키는 2차 오류제거단계; 및A second error elimination step of excluding candidate horizontal edges having a line density of the candidate horizontal edges higher than a reference value from the candidates; And 상기 1차 오류제거단계와 2차 오류제거단계에서 제외되지 않은 후보 수평 테두리선을 수평 테두리선으로 등록하는 단계를 포함한 것을 특징으로 하는 문서 영상에서의 표 분석방법.And registering candidate horizontal edges not excluded in the first error elimination step and the second error elimination step as horizontal edges. 제5항에 있어서, 상기 제2단계의 수직 테두리선 추출단계는,The method of claim 5, wherein the extracting vertical edges of the second step comprises: 상기 표 후보 영역의 수평 정보와 수직 정보를 맞바꾸는 단계;Swapping horizontal and vertical information of the table candidate area; 상기 변환된 수평 정보를 상기 수평 테두리선 추출단계에 적용하여 수평 테두리선을 추출하는 단계;Extracting a horizontal border line by applying the converted horizontal information to the horizontal border line extracting step; 상기 추출된 수평 테두리선을 수직 테두리선으로 변환하여 등록하는 단계를 포함한 것을 특징으로 하는 문서 영상에서의 표 분석방법.And converting the extracted horizontal border line into a vertical border line and registering the extracted horizontal border line. 컴퓨터에,On your computer, 문서 영상을 텍스트 후보 영역과 그림 후보 영역으로 분리하는 제1단계와;Separating the document image into a text candidate area and a picture candidate area; 상기 그림 후보 영역의 흑점밀도를 측정하여 표 후보 영역을 추출하는 제2단계;A second step of extracting a table candidate region by measuring a black spot density of the figure candidate region; 상기 표 후보 영역의 수평, 수직 테두리선을 추출하는 제3단계;Extracting horizontal and vertical border lines of the table candidate area; 상기 표 후보 영역의 수평, 수직 테두리선 중 최외각 수평, 수직 테두리선들을 추출하고, 이를 기준으로 표 영역을 추출하는 제4단계;Extracting the outermost horizontal and vertical border lines among the horizontal and vertical border lines of the table candidate area and extracting the table area based on the fourth and second border lines; 상기 표 영역에서 제외된 표 후보 영역을 그림 영역으로 등록하는 제5단계;Registering a table candidate area excluded from the table area as a picture area; 상기 최외각 수평, 수직 테두리선들이 직사각형을 이루도록 각각의 테두리선들의 길이를 재조정하는 제6단계;Resizing the lengths of the respective edge lines such that the outermost horizontal and vertical edge lines form a rectangle; 상기 각각의 수평, 수직 테두리선들의 끝을 최외각 수평, 수직 테두리선에 접하도록 재조정하는 제7단계를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.And a program for executing a seventh step of readjusting the ends of the horizontal and vertical border lines to contact the outermost horizontal and vertical border lines.
KR1019980043240A 1998-10-15 1998-10-15 Table Analysis Method in Document Image KR100277831B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019980043240A KR100277831B1 (en) 1998-10-15 1998-10-15 Table Analysis Method in Document Image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980043240A KR100277831B1 (en) 1998-10-15 1998-10-15 Table Analysis Method in Document Image

Publications (2)

Publication Number Publication Date
KR20000025937A KR20000025937A (en) 2000-05-06
KR100277831B1 true KR100277831B1 (en) 2001-01-15

Family

ID=19554201

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980043240A KR100277831B1 (en) 1998-10-15 1998-10-15 Table Analysis Method in Document Image

Country Status (1)

Country Link
KR (1) KR100277831B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220146209A (en) 2021-04-23 2022-11-01 주식회사 티맥스에이아이 Method for image-based table border generation

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100411894B1 (en) * 2000-12-28 2003-12-24 한국전자통신연구원 Method for Region Analysis of Documents
KR102161053B1 (en) 2013-09-06 2020-09-29 삼성전자주식회사 Method and apparatus for generating structure of table in images

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220146209A (en) 2021-04-23 2022-11-01 주식회사 티맥스에이아이 Method for image-based table border generation
KR20230035004A (en) 2021-04-23 2023-03-10 주식회사 티맥스에이아이 Method for image-based table border generation

Also Published As

Publication number Publication date
KR20000025937A (en) 2000-05-06

Similar Documents

Publication Publication Date Title
US8041113B2 (en) Image processing device, image processing method, and computer program product
JP3253356B2 (en) Document image area identification method
JP6951905B2 (en) How to cut out lines and words for handwritten text images
US7796817B2 (en) Character recognition method, character recognition device, and computer product
Arai et al. Method for automatic e-comic scene frame extraction for reading comic on mobile devices
US7769234B2 (en) Ruled line extracting program, ruled line extracting apparatus and ruled line extracting method
JPH04195692A (en) Document reader
JP4408495B2 (en) Image processing method and image processing apparatus
US8989485B2 (en) Detecting a junction in a text line of CJK characters
JP5950700B2 (en) Image processing apparatus, image processing method, and program
Bukhari et al. Layout analysis of Arabic script documents
KR100277831B1 (en) Table Analysis Method in Document Image
JP2926066B2 (en) Table recognition device
US9811726B2 (en) Chinese, Japanese, or Korean language detection
JPH06214983A (en) Method and device for converting document picture to logical structuring document
JP2021157460A (en) Information processing apparatus, information processing system and information processing program
JP3121466B2 (en) Image correction device
JP7406884B2 (en) Information processing device, program and control method
KR100331035B1 (en) Automatic Analysis of Format Document Image
JP2006072839A (en) Image processing method, image processing apparatus, image processing program and recording medium
JP4162195B2 (en) Image processing apparatus and image processing program
US11144777B2 (en) Image processing apparatus, image processing method, and image processing program for clipping images included in a large image
KR100310306B1 (en) Method of analyzing document image on computer and recording media recording it
JP4083723B2 (en) Image processing device
Panichkriangkrai et al. Character segmentation for Japanese woodblock printed historical books

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20081001

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee