KR930000019B1

KR930000019B1 - 설명문 추출방법

Info

Publication number: KR930000019B1
Application number: KR1019900016705A
Authority: KR
Inventors: 정찬의
Original assignee: 주식회사 금성사; 이헌조
Priority date: 1990-10-19
Filing date: 1990-10-19
Publication date: 1993-01-06
Also published as: KR920008639A

Abstract

내용 없음.

Description

설명문 추출방법

제1도는 본 발명 설명문 추출의 진행순서도.

제2도는 본 발명에서 주,종의 설명문 추출순서도.

제3도는 상,하로 인접한 블록간에서 설명문을 판단하기 위해 보인 예시블록도.

제4도는 본 발명의 설명문 추출방법에 대한 신호흐름도.

* 도면의 주요부분에 대한 부호의 설명

1 : 그림영역 2-10 : 설명문영역

본 발명은 문서인식에 관한 것으로, 특히 텍스트영역으로 부터 설명문영역을 구분해내는데 적당하도록 한 설명문 추출방법에 관한 것이다.

일반적인 문서 인식방법에 있어서는 그림이나 사진영역 하단에 기록된 설명문 (caption)을 텍스트와 구분시키지 않아 동일한 알고리즘으로 문서인식을 수행할 경우 설명문은 보통 고딕체인 반면 텍스트는 명조체로 되어 있고, 즉, 문자체가 서로 다르고, 문자의 크기도 서로달라 인식상의 에러가 발생될 뿐더러 그에따른 인식시간이 많이 소요되는 문제점이 있었다.

본 발명은 이와같은 문제점을 해결하기 위하여 그림이나 사진영역의 하단에 기록된 설명문을 텍스트와 별도로 구는 문제점이 있었다.

본 발명은 이와같은 문제점을 해결하기 위하여 그림이나 사진영역의 하단에 기록된 설명문을 텍스트와 별도로 구보인 설명도이고, 제2도는 본 발명에서 설명문 추출후 그 설명문의 주(parent)영역과 종(child)영역의 추출순서를 보인 설명도이며, 제3도는 상,하로 인접한 영역간에서 설명문의 추출을 설명하기 위해 보인 예시도이고, 제4도는 본 발명의 설명문 추출방법에 대한 신호 흐름도로서 이들을 참조하여 본 발명을 설명하면 다음과 같다.

설명문 추출순서는 제1도와 같이, 블록의 영역(class) 판별주→주설명추출→종설명문추출 순서로 진행되는 것으로써 먼저, 문서상에 존재하는 모든 블록에 대해 순차적으로 그 영역의 종류를 조사하면서 그 영역이 그림 또는 사진영역에 해당될때 설명문 추출을 시도한다(S1-S3).

예를들어 그림(사진)영역이 B번째 블록이고 문서상에 존재하는 총블록의 수를 ″TB″라고 하면 B+1번째 블록부터 TB번째 블록까지 순차적으로 그 영역이 텍스트 인가를 검사한다(S4,S5).

이렇게하여 영역이 텍스트인 블록(T)이 검출되면 그 블록″T″가 그림(사진)영역인 블록(P)의 설명문 인가를 판단한다(S7-S8).

여기서, 텍스트블록이 어떤 그림영역의 설명문이 될 수 있는 조건을 살펴보면, 첫째, 블록 P의 폭이 블록 T의 폭보다 크지 않아야 하며, 이때 블록 P의 영역이 블록 T의 영역내(X축 방향으로)에 존재하여야 한다(S6). 즉, ″SPX〈STX 또는 EPX)ETX″이면 블록 P의 영역이 블록 T의 설명문이 될 수 없다.

단, SPX : P영역의 X축 스타트값

STX : T영역의 X축 스타트값

EPX : P영역의 X축 종료값

ETX : T영역의 X축 종료값

둘째, 블록 T와 블록 P의 Y축 방향의 각격G_TP이 소정의 임계값 V_T보다 작아야 한다(S7), 즉 G_TP〈V_T, 단 G_TP=1ETY-SPY1를 만족시키지 못하면 블록 P를 블록 T의 설명문으로 볼 수 없다.

여기서, ETY : T영역의 Y축 종료값

SPY : P영역의 Y축 종료값

셋째, 블록P는 블록T의 하단에 존재해야 한다(S8). 즉, SPY〉ETY

이와같은 조건이 블록 B와 블록 T사이에서 만족되면 블록 T를 블록 B의 설명문으로 추출하고 블록 T의 영역을 설명문영역으로 바꾼다(S11).

또한, 상기 제4스텝(S4)에서 제8스텝(S8)을 수행하여 설명문이 추출되면 이 설명문을 ″주설명문″이라하고, 이렇게 추출된 설명문의 블록번호를 스택(stack)에 기억시킴과 아울러 추출된 설명문 블록갯수를 카운트하여 그 갯수를 저장한다(S-S).

이후, 추출된 주설명문의 하단에 존재하는 종설명문을 추출하게 되는데, 제3도를 예로하면 블록 P가 블록 T의 주설명문으로 추출되었다면 블록 P의 하단에 존재하는 블록 C가 그 주블록 P의 종설명문인지를 조사하게 된다.

먼저, 스택에서 가장 최근에 추출된 주설명문의 블록 번호를 현재의 주설명문으로 지정(S15)하는데, 이 현재 주설명문의 추출방법은 상기 제4스텝(S4)에서 제8스텝 (S8) 및 제11스텝(S11)의 과정과 동일하게 제 16스텝(S16)에서 제20스텝(S20)사이에서 실행된다.

이 과정에서 종설명문이 추출되면 그 종설명문을 주설명문으로 지정하고 그 블록번호를 스택에 저장한 후(S21,S22,S14), 제15스텝(S15)부터 상기의 과정을 반복한다.

제3도를 참조하여 상기의 주,종설명문의 추출과정을 좀더 상세히 설명하면, 주설명문 P의 종설명문으로 블록 C가 추출되었을때 현재 주설명문은 블록 P가 되고, 상기 종설명문 C의 블록번호를 페런트[n]에 저장한 후 이를 현재의 주설명문으로 다시 지정하고 현재 주설명문 블록인 C의 종설명문을 찾는 과정을 실행하는데, 이 과정은 제1도에서 경로 ② ③의 과정을 문서상에 존재하는 마지막 블록 TB까지 반복수행하는 과정이다(S22).

상기의 주,종설명문 추출과정을 제2도를 참조하여 다시 설명하면, 그림(사진) 블록1의 주설명문으로 블록 2가 추출되면 (경로 ①), 이는 첫번째 추출된 주설명문이므로 이때 n=1 이 되고, 이를 스택페런트[n=1]=2에 저장한다.

이후 현재 주설명문인 블록 2의 종설명문으로 블록 4가 추출되고(경로 ②), 스택에는 페런트[n=2]=4가 저장된다.

또한 종속설명문 블록 4를 현재 주설명문 블록으로 지정하고, 이의 종설명문 블록으로 설명문 블록 7을 추출한다(경로 ③). 이때 스택페런트[n=3]=7이 되며, 다시 설명문 블록 7을 주설명문으로 지정하고 종설명문을 찾는다(경로 ② ③ 반복).

그러나 현재의 주설명문으로 지정된 블록 7에는 더이상의 종설명문이 존재하지 않으므로 주설명문의 갯수를 하나감소시키고(S24), 추출된 주설명문의 총 갯수가 φ인가를 조사한 다음 (S27), φ이 아니면 새로운 현재의 주설명문을 지정하고(S15) 제1도의 경로 ② ③을 반복수행한다.

그런데 설명문 블록 7에서는 더이상의 종설명문이 존재하지 않으므로(현재 스택페런트 [n=3]=7)추출된 주설명문의 갯수 n을 하나 감소시키고(n=2), 이때의 새로운 현재 주설명문은 페런트[n=2]=4이므로 설명문 볼록4가 지정되며 그 설명문 4의 종설명문으로는 블록 8이 추출된다(페런트[n=3]=8).

이때 상기 설명문 블록 8의 종설명문 블록이 존재하지 않으므로 상기의 과정을 반복하면 페런트[n=2]=4가 되어 그 설명문 블록 4에서 종설명문 블록을 찾게되지만 이 설명문 블록 4에서도 더이상의 종설명문이 존재하지 않으므로 n=n-1로 하여 페런트[n=1]=2가 되며 설명문 블록 2를 현재의 새로운 주설명문으로하여 종설명문을 추출한다.

이와같은 과정을 반복한 후 페런트[φ]=φ일 경우(S25)그림(사진)영역 1의 또다른 주설명문 블록이 있는지를 조사한다(S26, S4-S8).

이에따라 설명문 블룩 3이 주설명문 블록으로 추출되고, 이로부터 제1도의 경로(②, ③이 상기와 같이 반복수행된다.

이후 그림(사진 블록 1의 주설명문 블록이 더 이상 존재하지 않으면 문서상에서 다음의 그림(사진)영역을 찾고(제1도의 경로 ④), 그림영역이 존재하면 제1도의 경로 ①-③의 순서를 반복하여 설명문을 추출한다.

이렇게 하여 문서상에 존재하는 모든 그림영역에 대해 설명문의 추출이 종료되면(S9), 비로서 설명문 추출의 동작실행이 종료된다.

이상에서 상세히 설명한 바와같이 본 발명은 그림(사진)영역의 하단에 존재하는 설명문의 블록을 텍스트로부터 분리해냄으로써 문자인식외 효율성을 한층 증대시킬 수 있는 이점이 있다.

Claims

문서영역의 종류를 조사해서 그림영역을 판별하는 문서인식에 있어서, 그림영역의 주변에 존재하는 텍스트영역의 좌표를 읽어서 그 값이 그림영역의 폭보다 작고 가로방향으로 텍스트영역이 그림영역의 범위내에 포함되며, 그림영역과 텍스트영역간의 세로방향의 간격이 임계치이하일때 그 텍스트영역을 설명문으로 분류하는 것을 특징으로 하는 설명문 추출방법.
제1항에 있어서, 처음에 추출된 설명문을 주설명문으로 설정한 후, 그 주설명문 주변의 텍스트영역과 그 주설명문과의 크기 및 간격을 상기와같이 구별하여 현재 주설명문 블록의 종설명문 블록을 추출하고, 다시 현재의 종설명문 블록을 주설명문 블록으로 지정한 다음 상기의 과정을 되풀이 하여 설명문 블록의 주,종을 구별하는 것을 특징으로 하는 설명문 추출방법.