KR100334624B1

KR100334624B1 - 클러스터링기반문서영상분할방법

Info

Publication number: KR100334624B1
Application number: KR1019980051038A
Authority: KR
Inventors: 소정; 민병우; 윤호섭; 양영규
Original assignee: 한국전자통신연구원
Priority date: 1998-11-26
Filing date: 1998-11-26
Publication date: 2002-09-17
Also published as: KR20000033954A

Abstract

본 발명은 클러스터링(clustering)에 기반한 문서 영상 분할 방법에 관한 것으로서, 특히 스캐너를 통해 입력된 문서 영상을 문자 영역들로 분할하는 방법에 관한 것이다. 본 발명은 특정한 문서의 구조를 가정하지 않고 문자 영역들 사이의 여백만을 이용함으로써 문자의 크기와 모양, 문자 행의 기울기에 무관하게 문서 영상을 문자 영역들로 분할하는 방법을 제공하는 데 그 목적이 있다. 본 발명의 문서 영상 분할 방법은 문서를 스캔(scan)하여 컴퓨터에 입력하는 제 1과정과; 상기 입력된 영상 내의 물체를 클러스터링에 적합한 형태로 표현하는 제 2과정과; 상기 물체 표현의 결과를 이용하여 클러스터링을 초기화하는 제 3과정과; 상기 초기화 결과에서 시작하여 클러스터링을 수행하는 제 4과정으로 구성된 것을 특징으로 한다. 상술한 바와 같이, 본 발명에 의하면, 특정한 구조를 갖지 않는 문서로부터 문자의 크기와 모양, 문자 행의 기울기에 무관하게 문자 영역들을 분할하여 추출할 수 있다.

Description

클러스터링 기반 문서 영상 분할 방법

본 발명은 클러스터링에 기반한 문서 영상 분할 방법에 관한 것으로서, 특히 특정한 문서 구조, 문자 크기, 문자 모양, 문자 행의 기울기를 가정하지 않고, 문서 영상을 문자 영역들로 분할하는 방법을 제공하는 데 그 목적이 있다.

문서 영상은 대개 여러 개의 문자 영역들로 구성되며, 이러한 영상의 문자영역으로의 분할은 컴퓨터에 의한 문서 영상의 자동 처리에 있어서 가장 먼저 해결되어야 하는 문제이며, 이 분야에서는 많은 기술이 개발되어 왔다.

종래의 문서 영상 분할 기술은 문서의 종류에서 유추할 수 있는 문서의 구조, 문자의 크기, 또는 문자의 모양에 관한 사전 지식을 많이 이용하였다. 또한 이 과정에서 문자 행의 일반적인 구조, 즉, 문자는 수평 방향으로 군집하여 문자 행을 형성하고, 이 문자 행들이 수평 방향으로 군집하여 문자 영역을 구성한다는 점에 의존하였다. 이러한 기술의 대표적인 예로는 런 길이 평활화(run-length smearing), 재귀적 x-y 분할(recursive x-y cut) 방법 등이 있다.

따라서 종래의 기술은 특별한 문서 구조를 가지지 않거나, 문자 크기와 모양을 예측하기 어렵거나, 또는 문자 행이 많이 기울어진 문서에서는 문자 영역을 잘 분할하지 못하는 제약이 있었다.

본 발명은 상기한 종래 기술의 문제점을 해결하기 위한 것으로, 문서 영상 내의 물체들 자체의 특징은 무시하고 그들 사이의 공간적인 위치 정보만을 고려함으로써, 문서가 특정한 구조를 가지지 않거나, 문자 크기와 모양이 매우 가변적이거나, 또는 문자 행이 수평 방향으로부터 많이 기울어진 문서의 영상에서도 클러스터링에 기반하여 문자 영역을 분할하는 방법을 제공하려 한다.

또한 본 발명에 따른 클러스터링 기반 문서 영상 분할방법의 일측면에 의하면, 클러스터링 기반으로 문서 영상을 분할하는 방법에 있어서, 입력된 영상을 이치화하여 흑백 영상으로 변환하고, 그 변환된 흑백 영상에서 클러스터링을 수행하기 위한 연결 요소를 추출하는 단계와, 상기 추출된 각 연결 요소를 둘러싸는 최소 인접 사각형의 중심좌표를 산출하여 상기 각 연결 요소의 위치를 점으로 표현하고, 상기 연결 요소를 표현하는 점간의 거리행렬을 계산하는 단계와, 상기 연결 요소를 표현하는 각 점을 각각의 클러스터로 초기화하고 총클러스터의 개수를 카운팅하는 단계와, 상기 클러스터중 최단 거리를 가지는 두 클러스터를 탐색하여 최단 거리의 클러스터쌍이 선택되는 경우, 그 두 클러스터를 서로 합병하고 총클러스터의 수를 1만큼 감소시키며 영상을 분할하는 단계와, 상기 총클러스터의 수가 기설정된 분할 허용 한계치에 상응하는 클러스터의 수보다 작은 경우, 부적절한 클러스터의 발생 여부를 판단하여 부적절한 클러스터가 발생하지 않은 상태에서 분할된 클러스터의 개수가 1이 되는 경우, 해당 클러스터에 상응하는 영상영역을 최종 문자 영역으로 출력하는 단계를 수행한다.

상술한 바와 같이, 본 발명에 의하면, 특정한 구조를 갖지 않는 문서로부터 문자의 크기와 모양, 문자 행의 기울기에 무관하게 문자 영역들을 분할하여 추출할 수 있다.

도 1은 본 발명에 의한 클러스터링 기반 문서 영상 분할장치의 구성도,

도 2는 본 발명에 의한 클러스터링 기반 문서 영상 분할 방법의 전체적인 흐름도,

도 3은 본 발명에 의한 영상 내의 물체 표현 방법의 흐름도,

도 4는 본 발명에 의한 클러스터링 초기화 방법의 흐름도,

도 5는 본 발명에 의한 클러스터링 방법의 흐름도.

＜도면의 주요부분에 대한 부호의 설명＞

10 : 영상 입력 수단 20 : 영상 내의 물체 표현 수단

30 : 클러스터링 초기화 수단 40 : 클러스터링 수단

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예를 상세하게 설명하면 다음과 같다.

도 1을 참조하여 문서 영상 분할장치의 작동을 살펴보면 다음과 같다.

영상 입력 수단(10)은 문서를 스캐너로 스캔하여 디지털 영상으로 변환하고, 영상 내의 물체 표현 수단(20)은 상기 디지털 영상에서 연결 요소의 점 표현을 생성하고, 클러스터링 초기화 수단(30)은 상기 연결 요소의 점 표현에서 거리 행렬과 초기 클러스터들을 생성하고, 클러스터링 수단(40)은 상기 초기 클러스터들에서 시작하여 거리 행렬을 이용하여 클러스터링을 수행한다.

도 2를 참조하여 문서 영상 분할 방법을 상세히 설명하면 다음과 같다. 문서 영상 분할 방법은, 문서를 스캐너로 스캔하여 디지털 영상으로 변환하고(S10), 디지털 문서 영상에서 연결 요소의 점 표현을 생성하고(S20), 연결 요소의 점 표현에서 거리 행렬과 초기 클러스터들을 생성하고(S30), 초기 클러스터들에서 시작하여 거리 행렬을 이용하여 클러스터링(S40)을 수행한다.

도 3은 영상 내의 물체 표현 방법의 흐름을 나타낸다. 이 과정은 입력된 문서 영상을 클러스터링을 수행하기에 적합한 데이터 형태로 변환한다.

먼저 입력된 문서 영상의 명암도 영상을 적절한 방법으로 이치화하여 흑백 영상으로 변환한다(S21).

다음 변환된 흑백 영상에서 연결 요소(connected component)를 추출한다(S22).

다음 각 연결 요소를 최소한도로 둘러싸는 최소인접사각형(minimum bounding rectangle)의 중심점 좌표를 계산하여(S23) 이 연결 요소의 위치를 한 점으로 표현한다(S24). 즉, 한 연결 요소의 최소인접사각형의 왼쪽 위 좌표와 오른쪽 아래 좌표가 각각 (x ₁ , y ₁ )과 (x ₂ , y ₂ )로 주어진다면, 이 연결 요소의 점 표현은 아래와 같이 계산된다.

이 단계는 클러스터링을 수행할 때, 한 물체(연결 요소)를 한 점으로 나타내기 위해서 필요하다.

도 4는 클러스터링 초기화 방법의 흐름을 나타낸다. 이 과정은 클러스터링을 수행하기 전에 필요한 데이터를 초기화하기 위하여 필요하다.

먼저 연결 요소의 점 표현(S24)에서 거리 행렬(distance matrix)를 계산한다(S241). 두 개의 임의의 점 사이의 거리는 클러스터링에 반복적으로 사용되므로, 거리 행렬은 한 점에 대하여 다른 모든 점들과의 거리를 계산하여 미리 저장한 것이다. 점의 총 개수를N이라 하고,d _ij 를 점i와j사이의 유클리디언 거리(Euclidean distance)라 하면 거리 행렬D는 아래와 같이 구성된다.

다음, 각 점을 자기 자신만을 포함하는 클러스터로 초기화하고(S31) 총 클러스터의 개수를 카운팅한다. 여기서 클러스터란 한 개 이상의 점들의 집합으로 이루어지며 영상 내의 일정한 영역을 차지한다.

도 5는 클러스터링 방법의 흐름을 나타낸다. 이 과정은 초기 클러스터들로부터 시작하여 거리 행렬을 이용하여 클러스터링을 수행하고 클러스터링이 완료되면각 클러스터들을 처음 연결 요소의 군집 형태로 문자 영역으로 출력한다.

먼저 최단 거리를 가지는 두 클러스터를 찾는다(S41). 두 클러스터 사이의 거리는 각각 한 클러스터에 속하는 두 점 사이의 최단 거리로 정의된다. 즉, 클러스터I와J사이의 거리는 아래와 같이 계산한다.

따라서 아래의 조건을 만족하는 두 클러스터P와Q가 찾고자 하는 두 클러스터가 된다.

위와 같이 최단 거리 클러스터 쌍이 선택되면(S41), 두 클러스터를 서로 합병한다(S42). 이 단계는 클러스터링의 핵심적인 부분으로서 단지 연결 요소들 사이의 거리만을 고려하므로 연결 요소의 크기나 모양에 무관하다. 두 클러스터의 합병으로 생성되는 새로운 클러스터는 두 클러스터에 속하는 모든 점들로 구성된다.

위의 클러스터 합병에 의하여 전체 클러스터의 수는 1만큼 감소하므로 이를 기록한다(S43).

다음 클러스터의 수가max보다 작은가 확인한다(S44). 여기서max는 문서가 가질 수 있는 클러스터 수의 최대값으로 처리 대상 문서의 종류에 따라 가변적으로 설정된다. 클러스터의 수가max보다 같거나 크면 위의 최단 거리 클러스터 쌍을 선택하는 과정으로 되돌아가고 그렇지 않으면 다음 단계로 진행한다.

다음 단계에서는 클러스터 합병의 결과 부적절한 클러스터가 생성되었는지 조사한다(S45). 여기서 부적절한 클러스터란 지나치게 크거나 너무 많은 여백을 포함하는 클러스터를 의미한다. 이러한 클러스터가 생성되었다는 것은 클러스터링이 너무 많이 진행되었다는 것을 의미하므로, 마지막 클러스터 합병 직전 상태의 클러스터들이 최적의 클러스터링 결과라는 것을 알 수 있다. 따라서 합병 직전의 클러스터들을 연결 요소의 군집 형태로 출력하면(S46) 이것이 문자 영역들이 되고 문서 영상 분할이 종료된다.

상기 단계에서 부적절한 클러스터가 생성되지 않았다면 클러스터의 수가 1인가 조사한다(S47). 클러스터가 하나만 존재한다면 더 이상의 클러스터링은 의미가 없으므로 이 하나의 클러스터를 최종 문자 영역으로 출력하고 종료한다(S48). 클러스터의 수가 1이 아니면 최단 거리 클러스터 쌍 선택 단계(S41)로 되돌아간다.

상술한 바와 같이, 본 발명에 의하면, 문서가 특정한 구조를 가지지 않거나, 문자 크기와 모양이 매우 가변적이거나, 또는 문자 행이 수평 방향으로부터 많이 기울어진 문서의 영상에서도 클러스터링에 기반하여 문서 영상을 의미 있는 문자 영역들로 분할할 수 있다.

Claims

클러스터링 기반으로 문서 영상을 분할하는 방법에 있어서,

입력된 문서 영상을 이치화하여 흑백 영상으로 변환하고, 그 변환된 흑백 영상에서 클러스터링을 수행하기 위한 연결 요소를 추출하는 단계와,

상기 추출된 각 연결 요소를 최소한도로 둘러싸는 최소인접 사각형의 중심좌표를 산출하여 상기 각 연결 요소의 위치를 점으로 표현하고, 상기 연결 요소를 표현하는 점간의 거리행렬을 계산하는 단계와,

상기 연결 요소를 표현하는 각 점을 자기 자신만을 포함하는 클러스터로 초기화하고 총클러스터의 개수를 카운팅하는 단계와,

상기 클러스터중 최단 거리를 가지는 두 클러스터를 탐색하여 최단 거리의 클러스터쌍이 선택되는 경우, 그 두 클러스터를 서로 합병하고 총클러스터의 수를 1만큼 감소시키며 영상을 분할하는 단계와,

상기 총클러스터의 수가 기설정된 분할허용 한계치에 상응하는 클러스터의 수보다 작은 경우, 부적절한 클러스터의 발생여부를 판단하여 부적절한 클러스터가 발생하지 않은 상태에서 분할된 클러스터의 개수가 1이 되면, 해당 클러스터에 상응하는 영상영역을 최종 문자 영역으로 출력하는 단계를 수행하는 클러스터링 기반 문서 영상 분할방법.