KR100334624B1 - 클러스터링기반문서영상분할방법 - Google Patents

클러스터링기반문서영상분할방법 Download PDF

Info

Publication number
KR100334624B1
KR100334624B1 KR1019980051038A KR19980051038A KR100334624B1 KR 100334624 B1 KR100334624 B1 KR 100334624B1 KR 1019980051038 A KR1019980051038 A KR 1019980051038A KR 19980051038 A KR19980051038 A KR 19980051038A KR 100334624 B1 KR100334624 B1 KR 100334624B1
Authority
KR
South Korea
Prior art keywords
clusters
clustering
cluster
document image
image
Prior art date
Application number
KR1019980051038A
Other languages
English (en)
Other versions
KR20000033954A (ko
Inventor
소정
민병우
윤호섭
양영규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1019980051038A priority Critical patent/KR100334624B1/ko
Publication of KR20000033954A publication Critical patent/KR20000033954A/ko
Application granted granted Critical
Publication of KR100334624B1 publication Critical patent/KR100334624B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 클러스터링(clustering)에 기반한 문서 영상 분할 방법에 관한 것으로서, 특히 스캐너를 통해 입력된 문서 영상을 문자 영역들로 분할하는 방법에 관한 것이다. 본 발명은 특정한 문서의 구조를 가정하지 않고 문자 영역들 사이의 여백만을 이용함으로써 문자의 크기와 모양, 문자 행의 기울기에 무관하게 문서 영상을 문자 영역들로 분할하는 방법을 제공하는 데 그 목적이 있다. 본 발명의 문서 영상 분할 방법은 문서를 스캔(scan)하여 컴퓨터에 입력하는 제 1과정과; 상기 입력된 영상 내의 물체를 클러스터링에 적합한 형태로 표현하는 제 2과정과; 상기 물체 표현의 결과를 이용하여 클러스터링을 초기화하는 제 3과정과; 상기 초기화 결과에서 시작하여 클러스터링을 수행하는 제 4과정으로 구성된 것을 특징으로 한다. 상술한 바와 같이, 본 발명에 의하면, 특정한 구조를 갖지 않는 문서로부터 문자의 크기와 모양, 문자 행의 기울기에 무관하게 문자 영역들을 분할하여 추출할 수 있다.

Description

클러스터링 기반 문서 영상 분할 방법
본 발명은 클러스터링에 기반한 문서 영상 분할 방법에 관한 것으로서, 특히 특정한 문서 구조, 문자 크기, 문자 모양, 문자 행의 기울기를 가정하지 않고, 문서 영상을 문자 영역들로 분할하는 방법을 제공하는 데 그 목적이 있다.
문서 영상은 대개 여러 개의 문자 영역들로 구성되며, 이러한 영상의 문자영역으로의 분할은 컴퓨터에 의한 문서 영상의 자동 처리에 있어서 가장 먼저 해결되어야 하는 문제이며, 이 분야에서는 많은 기술이 개발되어 왔다.
종래의 문서 영상 분할 기술은 문서의 종류에서 유추할 수 있는 문서의 구조, 문자의 크기, 또는 문자의 모양에 관한 사전 지식을 많이 이용하였다. 또한 이 과정에서 문자 행의 일반적인 구조, 즉, 문자는 수평 방향으로 군집하여 문자 행을 형성하고, 이 문자 행들이 수평 방향으로 군집하여 문자 영역을 구성한다는 점에 의존하였다. 이러한 기술의 대표적인 예로는 런 길이 평활화(run-length smearing), 재귀적 x-y 분할(recursive x-y cut) 방법 등이 있다.
따라서 종래의 기술은 특별한 문서 구조를 가지지 않거나, 문자 크기와 모양을 예측하기 어렵거나, 또는 문자 행이 많이 기울어진 문서에서는 문자 영역을 잘 분할하지 못하는 제약이 있었다.
본 발명은 상기한 종래 기술의 문제점을 해결하기 위한 것으로, 문서 영상 내의 물체들 자체의 특징은 무시하고 그들 사이의 공간적인 위치 정보만을 고려함으로써, 문서가 특정한 구조를 가지지 않거나, 문자 크기와 모양이 매우 가변적이거나, 또는 문자 행이 수평 방향으로부터 많이 기울어진 문서의 영상에서도 클러스터링에 기반하여 문자 영역을 분할하는 방법을 제공하려 한다.
또한 본 발명에 따른 클러스터링 기반 문서 영상 분할방법의 일측면에 의하면, 클러스터링 기반으로 문서 영상을 분할하는 방법에 있어서, 입력된 영상을 이치화하여 흑백 영상으로 변환하고, 그 변환된 흑백 영상에서 클러스터링을 수행하기 위한 연결 요소를 추출하는 단계와, 상기 추출된 각 연결 요소를 둘러싸는 최소 인접 사각형의 중심좌표를 산출하여 상기 각 연결 요소의 위치를 점으로 표현하고, 상기 연결 요소를 표현하는 점간의 거리행렬을 계산하는 단계와, 상기 연결 요소를 표현하는 각 점을 각각의 클러스터로 초기화하고 총클러스터의 개수를 카운팅하는 단계와, 상기 클러스터중 최단 거리를 가지는 두 클러스터를 탐색하여 최단 거리의 클러스터쌍이 선택되는 경우, 그 두 클러스터를 서로 합병하고 총클러스터의 수를 1만큼 감소시키며 영상을 분할하는 단계와, 상기 총클러스터의 수가 기설정된 분할 허용 한계치에 상응하는 클러스터의 수보다 작은 경우, 부적절한 클러스터의 발생 여부를 판단하여 부적절한 클러스터가 발생하지 않은 상태에서 분할된 클러스터의 개수가 1이 되는 경우, 해당 클러스터에 상응하는 영상영역을 최종 문자 영역으로 출력하는 단계를 수행한다.
상술한 바와 같이, 본 발명에 의하면, 특정한 구조를 갖지 않는 문서로부터 문자의 크기와 모양, 문자 행의 기울기에 무관하게 문자 영역들을 분할하여 추출할 수 있다.
도 1은 본 발명에 의한 클러스터링 기반 문서 영상 분할장치의 구성도,
도 2는 본 발명에 의한 클러스터링 기반 문서 영상 분할 방법의 전체적인 흐름도,
도 3은 본 발명에 의한 영상 내의 물체 표현 방법의 흐름도,
도 4는 본 발명에 의한 클러스터링 초기화 방법의 흐름도,
도 5는 본 발명에 의한 클러스터링 방법의 흐름도.
<도면의 주요부분에 대한 부호의 설명>
10 : 영상 입력 수단 20 : 영상 내의 물체 표현 수단
30 : 클러스터링 초기화 수단 40 : 클러스터링 수단
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예를 상세하게 설명하면 다음과 같다.
도 1을 참조하여 문서 영상 분할장치의 작동을 살펴보면 다음과 같다.
영상 입력 수단(10)은 문서를 스캐너로 스캔하여 디지털 영상으로 변환하고, 영상 내의 물체 표현 수단(20)은 상기 디지털 영상에서 연결 요소의 점 표현을 생성하고, 클러스터링 초기화 수단(30)은 상기 연결 요소의 점 표현에서 거리 행렬과 초기 클러스터들을 생성하고, 클러스터링 수단(40)은 상기 초기 클러스터들에서 시작하여 거리 행렬을 이용하여 클러스터링을 수행한다.
도 2를 참조하여 문서 영상 분할 방법을 상세히 설명하면 다음과 같다. 문서 영상 분할 방법은, 문서를 스캐너로 스캔하여 디지털 영상으로 변환하고(S10), 디지털 문서 영상에서 연결 요소의 점 표현을 생성하고(S20), 연결 요소의 점 표현에서 거리 행렬과 초기 클러스터들을 생성하고(S30), 초기 클러스터들에서 시작하여 거리 행렬을 이용하여 클러스터링(S40)을 수행한다.
도 3은 영상 내의 물체 표현 방법의 흐름을 나타낸다. 이 과정은 입력된 문서 영상을 클러스터링을 수행하기에 적합한 데이터 형태로 변환한다.
먼저 입력된 문서 영상의 명암도 영상을 적절한 방법으로 이치화하여 흑백 영상으로 변환한다(S21).
다음 변환된 흑백 영상에서 연결 요소(connected component)를 추출한다(S22).
다음 각 연결 요소를 최소한도로 둘러싸는 최소인접사각형(minimum bounding rectangle)의 중심점 좌표를 계산하여(S23) 이 연결 요소의 위치를 한 점으로 표현한다(S24). 즉, 한 연결 요소의 최소인접사각형의 왼쪽 위 좌표와 오른쪽 아래 좌표가 각각 (x 1 , y 1 )과 (x 2 , y 2 )로 주어진다면, 이 연결 요소의 점 표현은 아래와 같이 계산된다.
이 단계는 클러스터링을 수행할 때, 한 물체(연결 요소)를 한 점으로 나타내기 위해서 필요하다.
도 4는 클러스터링 초기화 방법의 흐름을 나타낸다. 이 과정은 클러스터링을 수행하기 전에 필요한 데이터를 초기화하기 위하여 필요하다.
먼저 연결 요소의 점 표현(S24)에서 거리 행렬(distance matrix)를 계산한다(S241). 두 개의 임의의 점 사이의 거리는 클러스터링에 반복적으로 사용되므로, 거리 행렬은 한 점에 대하여 다른 모든 점들과의 거리를 계산하여 미리 저장한 것이다. 점의 총 개수를N이라 하고,d ij 를 점ij사이의 유클리디언 거리(Euclidean distance)라 하면 거리 행렬D는 아래와 같이 구성된다.
다음, 각 점을 자기 자신만을 포함하는 클러스터로 초기화하고(S31) 총 클러스터의 개수를 카운팅한다. 여기서 클러스터란 한 개 이상의 점들의 집합으로 이루어지며 영상 내의 일정한 영역을 차지한다.
도 5는 클러스터링 방법의 흐름을 나타낸다. 이 과정은 초기 클러스터들로부터 시작하여 거리 행렬을 이용하여 클러스터링을 수행하고 클러스터링이 완료되면각 클러스터들을 처음 연결 요소의 군집 형태로 문자 영역으로 출력한다.
먼저 최단 거리를 가지는 두 클러스터를 찾는다(S41). 두 클러스터 사이의 거리는 각각 한 클러스터에 속하는 두 점 사이의 최단 거리로 정의된다. 즉, 클러스터IJ사이의 거리는 아래와 같이 계산한다.
따라서 아래의 조건을 만족하는 두 클러스터PQ가 찾고자 하는 두 클러스터가 된다.
위와 같이 최단 거리 클러스터 쌍이 선택되면(S41), 두 클러스터를 서로 합병한다(S42). 이 단계는 클러스터링의 핵심적인 부분으로서 단지 연결 요소들 사이의 거리만을 고려하므로 연결 요소의 크기나 모양에 무관하다. 두 클러스터의 합병으로 생성되는 새로운 클러스터는 두 클러스터에 속하는 모든 점들로 구성된다.
위의 클러스터 합병에 의하여 전체 클러스터의 수는 1만큼 감소하므로 이를 기록한다(S43).
다음 클러스터의 수가max보다 작은가 확인한다(S44). 여기서max는 문서가 가질 수 있는 클러스터 수의 최대값으로 처리 대상 문서의 종류에 따라 가변적으로 설정된다. 클러스터의 수가max보다 같거나 크면 위의 최단 거리 클러스터 쌍을 선택하는 과정으로 되돌아가고 그렇지 않으면 다음 단계로 진행한다.
다음 단계에서는 클러스터 합병의 결과 부적절한 클러스터가 생성되었는지 조사한다(S45). 여기서 부적절한 클러스터란 지나치게 크거나 너무 많은 여백을 포함하는 클러스터를 의미한다. 이러한 클러스터가 생성되었다는 것은 클러스터링이 너무 많이 진행되었다는 것을 의미하므로, 마지막 클러스터 합병 직전 상태의 클러스터들이 최적의 클러스터링 결과라는 것을 알 수 있다. 따라서 합병 직전의 클러스터들을 연결 요소의 군집 형태로 출력하면(S46) 이것이 문자 영역들이 되고 문서 영상 분할이 종료된다.
상기 단계에서 부적절한 클러스터가 생성되지 않았다면 클러스터의 수가 1인가 조사한다(S47). 클러스터가 하나만 존재한다면 더 이상의 클러스터링은 의미가 없으므로 이 하나의 클러스터를 최종 문자 영역으로 출력하고 종료한다(S48). 클러스터의 수가 1이 아니면 최단 거리 클러스터 쌍 선택 단계(S41)로 되돌아간다.
상술한 바와 같이, 본 발명에 의하면, 문서가 특정한 구조를 가지지 않거나, 문자 크기와 모양이 매우 가변적이거나, 또는 문자 행이 수평 방향으로부터 많이 기울어진 문서의 영상에서도 클러스터링에 기반하여 문서 영상을 의미 있는 문자 영역들로 분할할 수 있다.

Claims (1)

  1. 클러스터링 기반으로 문서 영상을 분할하는 방법에 있어서,
    입력된 문서 영상을 이치화하여 흑백 영상으로 변환하고, 그 변환된 흑백 영상에서 클러스터링을 수행하기 위한 연결 요소를 추출하는 단계와,
    상기 추출된 각 연결 요소를 최소한도로 둘러싸는 최소인접 사각형의 중심좌표를 산출하여 상기 각 연결 요소의 위치를 점으로 표현하고, 상기 연결 요소를 표현하는 점간의 거리행렬을 계산하는 단계와,
    상기 연결 요소를 표현하는 각 점을 자기 자신만을 포함하는 클러스터로 초기화하고 총클러스터의 개수를 카운팅하는 단계와,
    상기 클러스터중 최단 거리를 가지는 두 클러스터를 탐색하여 최단 거리의 클러스터쌍이 선택되는 경우, 그 두 클러스터를 서로 합병하고 총클러스터의 수를 1만큼 감소시키며 영상을 분할하는 단계와,
    상기 총클러스터의 수가 기설정된 분할허용 한계치에 상응하는 클러스터의 수보다 작은 경우, 부적절한 클러스터의 발생여부를 판단하여 부적절한 클러스터가 발생하지 않은 상태에서 분할된 클러스터의 개수가 1이 되면, 해당 클러스터에 상응하는 영상영역을 최종 문자 영역으로 출력하는 단계를 수행하는 클러스터링 기반 문서 영상 분할방법.
KR1019980051038A 1998-11-26 1998-11-26 클러스터링기반문서영상분할방법 KR100334624B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019980051038A KR100334624B1 (ko) 1998-11-26 1998-11-26 클러스터링기반문서영상분할방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980051038A KR100334624B1 (ko) 1998-11-26 1998-11-26 클러스터링기반문서영상분할방법

Publications (2)

Publication Number Publication Date
KR20000033954A KR20000033954A (ko) 2000-06-15
KR100334624B1 true KR100334624B1 (ko) 2002-09-17

Family

ID=19559901

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980051038A KR100334624B1 (ko) 1998-11-26 1998-11-26 클러스터링기반문서영상분할방법

Country Status (1)

Country Link
KR (1) KR100334624B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7623711B2 (en) * 2005-06-30 2009-11-24 Ricoh Co., Ltd. White space graphs and trees for content-adaptive scaling of document images

Also Published As

Publication number Publication date
KR20000033954A (ko) 2000-06-15

Similar Documents

Publication Publication Date Title
US8041113B2 (en) Image processing device, image processing method, and computer program product
US8155445B2 (en) Image processing apparatus, method, and processing program for image inversion with tree structure
US5179599A (en) Dynamic thresholding system for documents using structural information of the documents
KR100938099B1 (ko) 클러스터링 시스템, 클러스터링 방법, 문서 인코딩 시스템 및 클러스터링 방법을 수행하기 위한 컴퓨터 판독가능 매체
US7627176B2 (en) Apparatus, method, and computer program for analyzing document layout
US6711292B2 (en) Block selection of table features
JPH11338976A (ja) 文書画像認識装置、その方法、及び記録媒体
JPH0668301A (ja) 文字認識方法及び装置
US7277584B2 (en) Form recognition system, form recognition method, program and storage medium
US6532302B2 (en) Multiple size reductions for image segmentation
JP4077919B2 (ja) 画像処理方法及び装置及びその記憶媒体
JP4391704B2 (ja) 多値画像から二値画像を生成する画像処理装置および方法
JP2000207489A (ja) 文字抽出方法、装置および記録媒体
US6360006B1 (en) Color block selection
JP5335581B2 (ja) 画像処理装置、画像処理方法及びプログラム
KR100334624B1 (ko) 클러스터링기반문서영상분할방법
US8295602B2 (en) Image processing apparatus and image processing method
JPH11272798A (ja) ボ―ルド体文字を区別する方法及び装置
US11288536B2 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
JPH0656618B2 (ja) 画像情報の文字・図形分離方法
JPH08237404A (ja) 光学文字認識モードの選択方法
JPH0535914A (ja) 画像傾き検出方法
JP2016197362A (ja) 範囲指定プログラム、範囲指定方法および範囲指定装置
JP2023034823A (ja) 画像処理装置、画像処理装置の制御方法およびプログラム
JP2001143076A (ja) 画像処理装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130327

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20140306

Year of fee payment: 13

LAPS Lapse due to unpaid annual fee