KR20020055454A

KR20020055454A - 문서영상 영역해석 방법

Info

Publication number: KR20020055454A
Application number: KR1020000083420A
Authority: KR
Inventors: 지수영; 장대근; 황영섭; 문경애; 조수현; 정연구
Original assignee: 오길록; 한국전자통신연구원
Priority date: 2000-12-28
Filing date: 2000-12-28
Publication date: 2002-07-09
Also published as: US20020085755A1; KR100411894B1

Abstract

1. 청구범위에 기재된 발명이 속하는 기술분야

본 발명은 문서영상의 영역해석 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.

2. 발명이 해결하고자 하는 기술적 과제

본 발명은, 축소된 문서영상에서 추출한 연결요소들의 공간적인 관계에 따라 트리구조로 그룹화하고 텍스트 영역에서는 반복적인 분리와 병합을 통하여 세밀하게 정리하고자 한 문서영상의 영역해석 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공함에 그 목적이 있음.

3. 발명의 해결방법의 요지

본 발명은, 문서영상 영역해석 시스템에 적용되는 문서영상의 영역 해석 방법에 있어서, 축소된 문서 영상을 통해 연결 요소를 분석하는 제 1 단계; 상기 연결요소의 분석 결과에 의해 트리를 생성하여 연결 요소를 분류하는 제 2 단계; 상기 분류된 연결 요소에서 텍스트 요소들을 공간적인 관계에 따라 그룹화하는 제 3 단계; 및 상기 그룹화 후, 상기 연결 요소의 반복적인 분리와 병합을 통하여 텍스트 블록을 재 구성하는 제 4 단계를 포함한다.

4. 발명의 중요한 용도

본 발명은 본 발명은 문자인식을 위한 전 단계에 이용됨. 또한, 멀티미디어 문서 작성을 위한 문서의 분석 도구로 이용되며, 문서의 검색 시스템의 입력 부분으로 이용됨.

Description

문서영상 영역해석 방법{Method for Region Analysis of Documents}

본 발명은 문서영상 영역해석 방법에 관한 것으로, 보다 상세하게는 설정된 연결 요소 그룹화에 의한 연결 요소들을 추출한 다음, 이들의 공간적인 관계에 따라 트리 구조로 그룹화하고 텍스트 영역에서 대해서는 새롭게 반복적인 분리와 병합으로 세밀하게 정리하기 위한 문서영상 영역해석 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.

일반적으로 문서 구조의 해석에 관한 연구는 문자 인식에 비해 상대적으로 미흡한 실정이고, 지금까지 개발된 결과로는 일반적이고 복잡한 다단 문서에 대해서는 적용할 수 없는 문제점이 있었다.

이에 본 발명은, 상기와 같은 종래의 문제점을 해결하기 위해 제안된 것으로, 축소된 문서영상에서 추출된 연결 요소들의 공간적인 관계에 따라 트리 구조로 그룹화하고 텍스트 영역에서는 반복적인 분리와 병합을 통하여 세밀하게 정리하고자 한 문서영상 영역해석 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공함에 그 목적이 있다.

도 1은 본 발명에 따른 문서영상 영역해석에서 연결요소 기초정보를 설명하는 도면.

도 2a 내지 도 2c는 본 발명에 따른 문서영상 영역해석에서 연결요소 유형을 설명하는 도면.

도 3은 본 발명에 따른 문서영상 영역해석에서 인접한 단어 및 텍스내의 줄 사이의 공간과 문자크기를 계산하는 도면.

도 4a 및 도 4b는 본 발명에 따른 문서영상 영역해석에서 영역해석 된 실험문서의 분리 결과를 보여주는 일실시예 도면.

도 5는 도 4b에 도시된 분리결과를 토대로 생성된 페이지의 트리구조를 보여주는 일실시예 도면.

도 6은 본 발명에 따른 문서영상 영역해석에 대한 일실시예 흐름도.

상기와 같은 목적을 달성하기 위한 본 발명은, 문서영상 영역해석 시스템에 적용되는 문서영상의 영역 해석 방법에 있어서, 축소된 문서 영상을 통해 연결 요소를 분석하는 제 1 단계; 상기 연결요소의 분석 결과에 의해 트리를 생성하여 연결 요소를 분류하는 제 2 단계; 상기 분류된 연결 요소에서 텍스트 요소들을 공간적인 관계에 따라 그룹화하는 제 3 단계; 및 상기 그룹화 후, 상기 연결 요소의 반복적인 분리와 병합을 통하여 텍스트 블록을 재 구성하는 제 4 단계를 포함하는 것을 특징으로 한다.

한편, 본 발명은, 문서 영상을 해석하기 위해 프로세서를 구비한 영역해석 시스템에, 축소된 문서 영상을 통해 연결 요소를 분석하는 제 1 기능; 상기 연결요소의 분석 결과에 의해 트리를 생성하여 연결 요소를 분류하는 제 2 기능; 상기 분류된 연결 요소에서 텍스트 요소들을 공간적인 관계에 따라 그룹화하는 제 3 기능; 및 상기 그룹화 후, 상기 연결 요소의 반복적인 분리와 병합을 통하여 텍스트 블록을 재 구성하는 제 4 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공함을 특징으로 한다.

여기서 상술된 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.

도 1은 본 발명에 따른 문서영상 영역해석에서 연결요소 기초정보를 설명하는 도면이다.

도 1에 도시된 바와 같이, 영상 영역(m)에 대해서 연결 요소 즉, 병합된 길이의 집합을 구하는데, 하나의 연결 요소는 각각 y1,y2,x1,x2,x11,x12,x21,x22로 표현된다.

여기서, 상기 y1,y2는 외접 사각형의 수평 확장, x1,x2는 외접 사각형의 수직 확장, x11은 맨 윗줄 x 좌표의 최 좌측점, x12는 맨 윗줄 x 좌표의 최 우측점, x21은 맨 아랫줄 x 좌표의 최 좌측점 및 x22는 맨 아랫줄 x 좌표의 최 우측점을 각각 나타낸다.

도 2a 내지 도 2c는 본 발명에 따른 문서영상 영역해석에서 연결 요소 유형을 설명하는 도면이다.

도 2a에 도시된 바와 같이, 문서 영상(m)에 대한 영역을 해석할 때 문서 영상의 두 라인 즉, 아랫줄과 윗줄 중에 윗줄을 부모라인(Parent Line: PL)이라 정의하고, 아랫줄을 자식라인(Child Line: CL)이라고 정의한다.

그리고, 상기 부모라인의 맨 왼쪽 상단 위치의 점을 "r_pleft"로, 부모라인의 맨 오른쪽 상단 위치의 점을 "r_pright"로, 자식라인의 맨 왼쪽 상단 위치의 점을 'r_cleft"로, 그리고 자식라인의 맨 오른쪽 상단 위치의 점을 "r_c.ight"로 정의한다.

도 2b에 도시된 바와 같이, 문서영상의 두 라인중에 윗 줄(부모라인)은 2개 이상으로 직선선분이 간격을 두고, 아랫줄(자식라인)은 길게 위치하는 유형을 "다중 부모 유형"(Multiple Father Type)라 정의한다. 도 2c에 도시된 바와 같이, 문서영상에서 두 라인중에 윗줄(부모라인)은 길게 위치하고, 그 아랫줄(자식라인)이 2 개 이상의 직선 선분이 일정한 간격을 두로 위치한 유형을 "다중 형제 유형"(Multiple Brother Type)이라 정의한다.

상기와 같은 정의되는 연결요소의 유형은 축소된 문서영역을 아래의 조건식 을 만족하면 두 라인이 연결이 되었다고 판단하고 하나의 큰 연결요소 영역으로 묶는다.

또한, 두 연결 요소 유형중에 다중 부모유형 및 다중 형제유형에 따른 영역도 상기의 조건식을 가지고 수행하고, 그 수행 결과에 대해 두 영역간에 관계를 지속적으로 반복하여 조건을 만족할 때까지 수행한다.

도 3은 본 발명에 따른 문서영상 영역해석에서 인접한 단어 및 텍스내의 줄 사이의 공간과 문자크기를 계산하는 도면이다.

도 3의 도시된 바와 같이, 수평 및 수직으로 정렬된 텍스트와 일정하지 않게 떨어져 있는 텍스트를 처리하기 위하여 전체문서 대신에 각 내 노드에 대하여 인접한 단어나 인접한 텍스트내의 줄 사이의 공간과 문자 크기를 계산한다. 즉, 연결요소에 대하여 x축 방향으로 겹친 다른 요소를 찾고 그것으로부터 가장 작은 y축 거리를 두 라인사이의 거리를 "S"로 정의한다.

또한, 문서 영상내의 여러 라인을 살펴 볼 때, 현재 라인과 다음 라인이 일정한 간격으로 존재하지 않고 한 라인을 뛰어넘고 다음 라인이 있는 경우 이 둘 사이의 라인간격을 "S1"로 정의한다.

도 4a 및 도 4b는 본 발명에 따른 문서영상 영역해석에서 영역 해석된 실험 문서의 분리 결과를 보여주는 일실시예 도면이다.

도 4a는 영역해석을 위한 문서(50)로서, 텍스트(Text), 사진(Photo), 바(Bar) 및 프레임(Frame)등의 영역을 포함하고 있다.

도 4b는 도 4a의 문서(50)를 텍스트(Text), 사진(Photo), 바(Bar) 및 프레임(Frame) 영역으로 구분한다. 상기 문서(50)에서 번호 1,2,3,4,5,6,7,8,9 와알파벳A,B,C,D,E는 각각 독립된 연결 요소를 나타내며, 번호 41,42,43,44,45,46,47,48,49,4A 는 연결요소 4에 포함된 보조 연결요소(sub connected component)를 나타낸다. 그리고, 상기 번호 51,52,53,54,55,56,57은 연결요소 5에 포함된 보조 연결요소(sub connected component)를 나타낸다.

도 5는 도 4b에 도시된 분리결과를 토대로 생성된 페이지의 트리구조를 보여주는 일실시예 도면이다.

즉, 도 5에 도시된 바와 같이, 전체적인 문서 페이지(70)가 루트가 되고, 각 내부 노드는 테이블, 텍스트 영역, 사진 및 바 등과 같은 의미있는 블록으로 정의한다. 여기서, 말단의 노드가 연결 요소이다.

먼저, 연결 요소들로부터 초기 트리를 구성함에 함에 있어, 테이블, 프레임 및 사진 등을 갖는 연결 요소들은 요소들에 속한 텍스트와 함께 독립된 노드로 그룹화하고, 여백에 의해 둘려쌓인 텍스트 블록내의 연결요소 들은 다음 단계에서 그룹화된다.

다음으로, 노드들이 개략적으로 분류하는데 즉, 긴 높이와 좁은 넓이를 갖는 연결요소를 "수직바"로, 긴 높이와 넓은 영역을 갖는 것은 수직으로 놓여있는 그림으로 간주한다. 유사하게, 수평바와 수평으로 된 그림으로 분류한다. 연결요소의 넓이와 길이가 가장 큰 글자보다 크면 비 문자영역이고, 이것은 테이블이나 프레임 혹은 그림이라고 간주한다. 이외에 다른 요소들은 가능한 텍스트라고 간주한다.

도 6은 본 발명에 따른 문서영상 영역해석에 대한 일실시예 흐름도이다.

도 6에 도시된 바와같이, 먼저, 연결요소를 분석전에 이미지를 감소시키는데, 이는 요소들의 수를 감소시켜 시스템의 처리시간을 줄이려는 것이다(61). 그 후, 감소된 이미지를 토대로 한줄씩 축소된 영상을 조사하여 그 전줄의 임의의 8개로 연결된 길이(8-connected runs)를 병합하는데, 이때, 병합된 길이의 집합인 연결요소를 분석하고, 그 유형을 정의한다(62,63).

여기서, 연결요소의 분석은 위에서 상술된 조건식에 의해 분석되는데, 축소된 문서영역을 한 줄씩 조사하여 조건식을 만족하면 두 라인이 서로 연결이 되었다고 판단하고 하나의 큰 연결요소 영역으로 묶는다. 계속해서 다음 줄과 비교하면서 반복적으로 연결 요소들을 찾아 분석하여 최종적으로 연결 요소의 유형을 정의한다.

그러면, 상기와 같이 정의된 연결요소의 유형을 토대로 초기 트리를 생성하는데, 즉, 연결요소들로부터 초기 트리를 생성함에 함에 있어, 테이블, 프레임 및 사진 등을 갖는 연결 요소들은 요소들에 속한 텍스트와 함께 독립된 노드로 그룹화하고, 여백에 의해 둘려쌓인 텍스트 블록내의 연결요소 들은 다음 단계에서 그룹화하고, 노드들의 분리를 통해 요소를 분류한다(64). 그리고, 텍스트 요소들을 그룹화하는데, 이는 수평 및 수직으로 정렬된 텍스트와 일정하지 않게 떨어져 있는 텍스트를 갖는 혼합된 문서를 처리하기 위한 것이다. 이를 위해 먼저, 인접한 텍스트 줄사이의 평균거리를 계산하고, 다음으로 모든 요소들로부터 두 라인사이의 거리를 측정하고, 이 측정후에 인접한 줄 사이의 간격에 일치하지 않는 커다란 값은 소거하여 텍스트 요소들을 그룹화 할 수 있다.

여기서, 그룹화는 두 요소 사이의 거리에 의존하는 것으로, 임의의 두 요소가 충분히 가까우면 하나의 블록으로 그룹핑되고, 지식기반 규칙이 요소가 충분히 가까운지 결정할 때 이용된다. 지식기반 규칙이 요소가 둘러쌓인 사각형의 수직방향으로의 거리가 인접한 줄과 글자의 높이 사이의 거리와 비교하여 작고, 두 사각형의 X축 방향으로 겹치면 그 둘사이의 거리는 가깝다고 말한다. 다음에 이것이 그 블록의 임의의 연결요소와 가까우면 하나의 연결된 요소는 하나의 블록으로 묶는다.

이때, 하나의 요소가 임의의 요소와 인접하지 않으면 새로운 블록으로 지정한다. 여기서, 블록이 형성되었기에 텍스트 정렬선, 문자들 사이의 간격, 문자의 크기를 계산하여 텍스트 블록을 제 구성한다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.

이상에서 설명한 본 발명은 진술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진자에게 있어 명백할 것이다.

상기와 같은 본 발명은, 설정된 기준에 의해 연결요소들을 추출 및 이 추출된 연결요소들의 공간적인 관계에 따라 트리구조로 그룹화하고, 텍스트 영역에서는반복적인 분리와 병합을 거쳐 재 조정하여 문서구조의 해석을 효율적으로 수행할 수 있는 효과가 있다.

Claims

문서영상 영역해석 시스템에 적용되는 문서영상의 영역 해석 방법에 있어서,

축소된 문서 영상을 통해 연결 요소를 분석하는 제 1 단계;

상기 연결요소의 분석 결과에 의해 트리를 생성하여 연결 요소를 분류하는 제 2 단계;

상기 분류된 연결 요소에서 텍스트 요소들을 공간적인 관계에 따라 그룹화하는 제 3 단계; 및

상기 그룹화 후, 상기 연결 요소의 반복적인 분리와 병합을 통하여 텍스트 블록을 재 구성하는 제 4 단계

를 포함하는 문서영상 영역해석 방법.
제 1 항에 있어서, 상기 연결 요소의 분석은,

문서 영상에서 r_cleft 또는 r_pleft 위치 좌표 중 둘 중의 큰 좌표가 r_cright 또는 r_pright 위치 좌표 중 작은 좌표보다 작거나 같으면 두 라인을 하나의 영역으로 묶어 분석하는 것을 특징으로 하는 문서영상 영역해석 방법.

(여기서, r_pleft 는 부모라인의 맨 왼쪽 상단 위치의 점, r_pright는 부모라인의 맨 오른쪽 상단 위치의 점을, r_cleft 는 자식라인의 맨 왼쪽 상단 위치의 점, 그리고 r_c.ight는 자식라인의 맨 오른쪽 상단 위치의 점이다)
제 1 항에 있어서, 상기 연결요소의 분류는,

단일 라인, 다중 부모라인 및 다중 형제라인 형태로 추출되는 것을 특징으로 하는 것을 특징으로 하는 문서영상 영역해석 방법.
제 1 항에 있어서, 상기 제 2 단계는,

상기 연결 요소의 유형들로부터 트리를 구성하는 제 5 단계;

상기 구성된 트리에서 테이블, 프레임, 그림을 포함하는 연결요소들은 요소들에 속한 텍스트와 함께 독립된 노드로 그룹화하는 제 6 단계;

여백에 의해 둘려 쌓인 텍스트 블록내의 연결요소들을 그룹화하는 제 7 단계; 및

상기 그룹화되지 않은 노드들을 연결요소의 영역에 의해 분류하는 제 8 단계

를 포함하는 것을 특징으로 하는 문서영상 영역해석 방법.
제 1 항에 있어서, 상기 텍스트 요소의 그룹화는,

동일한 부모노드를 갖는 텍스트 요소상에서 수행되며, 수평/수직으로 정렬된덱스트와 일정하지 않게 떨어져 있는 텍스트는 전체문서 대신에 각 내부 노드에 대하여 인접한 단어나 인접한 텍스트내의 줄 사이의 공간과 문자 크기를 계산하여 수행되는 것을 특징으로 하는 문서영상 영역해석 방법.
제 3 항에 있어서, 상기 제 8 단계에서 노드들은,

긴 높이와 좁은 영역을 갖는 연결요소는 수직바로, 긴 높이와 넓은 영역을 갖는 연결요소는 수직으로 놓여 있는 그림 및 연결요소의 넓이와 길이가 가장 큰 글자보다 크면 비 문자영역으로 분류하는 것을 특징으로 하는 문서영상 영역해석 방법.
문서 영상을 해석하기 위해 프로세서를 구비한 영역해석 시스템에,

축소된 문서 영상을 통해 연결 요소를 분석하는 제 1 기능;

상기 연결요소의 분석 결과에 의해 트리를 생성하여 연결 요소를 분류하는 제 2 기능;

상기 분류된 연결 요소에서 텍스트 요소들을 공간적인 관계에 따라 그룹화하는 제 3 기능; 및

상기 그룹화 후, 상기 연결 요소의 반복적인 분리와 병합을 통하여 텍스트 블록을 재 구성하는 제 4 기능

을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.