KR100200619B1

KR100200619B1 - 문자열 영상에서 어절 영상을 분리하는 방법

Info

Publication number: KR100200619B1
Application number: KR1019960039151A
Authority: KR
Inventors: 정성우
Original assignee: 윤종용; 삼성전자주식회사
Priority date: 1996-09-10
Filing date: 1996-09-10
Publication date: 1999-06-15
Anticipated expiration: 2016-09-10
Also published as: KR19980020632A

Abstract

본 발명은 문자 인식 분야에서 문서 내의 문자열 영상으로부터 어절 영상을 분리하기 위한 방법에 관한 것으로서, 문자열 영상에 대한 수직히스토그램을 구하는 단계; 문자열 영상이 하나의 문자로만 구성되어 있거나, 문자열 영상에 간격이 존재하지 않거나, 하나 이상의 간격이 존재하더라도 그 간격들 모두가 어절 간격으로서는 너무 작은 경우에는 모든 문자열을 하나의 어절 단위로 두는 단계; 문자열 영상에 하나의 간격이 있어 이들 간격으로부터 어절 간격을 구하는 단계; 상기한 바와 같이 구한 어절 간격이 일정 크기 이상인 경우, 그 어절 간격과 같거나 큰 간격을 만날 때마다 어절 단위로 분리하는 단계를 포함함을 특징으로 한다.

본 발명에 의하면, 문자열 영상에서 문자 인식 문제를 기존의 문자행 단위보다는 어절 단위로 처리함으로써 어절 간격에 대한 정확한 정보를 파악하여 문자 인식 결과에 있어서의 띄어쓰기가 명확해지고, 처리 단위가 간결하여 문자 인식 과정이 단순화된다.

Description

문자열 영상에서 어절 영상을 분리하는 방법

본 발명은 문자열 영상으로부터 어절 영상을 분리하기 위한 방법에 관한 것으로서, 특히 광학 문자 인식(OCR:Optical Character Recognition) 분야에서 문서 내의 문자열 영상(Character Stream Image)으로부터 어절 영상을 분리하기 위한 방법에 관한 것이다.

여기에서 어절이라 함은 띄어쓰기의 단위가 되는 문자들의 집합을 말하는 것으로 예를 들면, 우리는 민족 중흥의 역사적 사명을 띠고 이 땅에 태어났다.와 같은 문장에서 우리는, 민족, 중흥의, 역사적, 사명을, 띠고, 이, 땅에, 태어났다,.는 각각 어절을 나타낸다. 문자 인식 과정은 전처리 단계, 인식 단계, 후처리 단계로 대별할 수 있는 데 전처리 단계에서는 영상을 스캔(scan)하고 노이즈(noise)를 제거하는 작업 등을 처리하고, 인식 단계에서는 각 문자를 코드화하며, 후처리 단계에서는 상기 코드화된 내용에 대해 보정처리를 한다. 본 발명은 상기 전처리 단계와 인식 단계 사이에 포함되어 인식 과정을 단순화 시킬 수 있도록 창안된 것이다.

기존의 기술에 의한 광학식 문자 인식을 응용한 국내 제품들은 아르미, 글눈, 하이아트, 스피드리더, 슈퍼리더 등의 제품들이 있는 바, 이들은 통상적으로 문자열 영상을 하나의 문자행 단위로 나누어 처리를 하는 것으로 추측된다. 이와같이 문자행 단위로 처리하는 기존의 방법에서는 문자열에 존재하는 어절 단위의 띄어쓰기가 정확하지 않으며, 문자 인식 문제가 다소 복잡하다는 문제점을 지니고 있다.

본 발명은 상기의 문제점을 해결하기 위하여 창안된 것으로서, 문자열 영상에서 문자 인식 방법을 기존의 문자행 단위보다는 어절 단위로 처리함으로써 어절 간격에 대한 정보를 정확히 파악하여 문자 인식 결과에 있어서의 띄어쓰기를 명확히 할 수 있으며, 처리 단위를 간결히 하여 문자 인식 과정을 단순화할 수 있도록 하기 위하여 하나의 라인으로 구성된 문자열 영상에서의 어절 영상을 분리하는 방법을 제공함에 그 목적이 있다.

도 1은 본 발명을 설명하기 위하여 예시된 수직히스토그램과 문자열 내에 존재할 수 있는 간격의 종류를 도시한 것이다.

도 2는 본 발명의 일실시예인 K-Means 알고리즘을 이용하여 어절 간격을 구하는 방법을 설명하기 위하여 문자열 내에 존재하는 간격 데이터들의 분포도를 도시한 것이다.

도 3은 본 발명에 의한 방법을 시간에 따른 동작으로 나타낸 순서도를 도시한 것이다.

상기의 목적을 달성하기 위하여 문서 내의 문자열 영상을 스캔(scan)하고 노이즈(noise)를 제거하는 작업 등을 처리하는 전처리 단계, 상기 전처리 단계를 거친 각 문자를 코드화하는 인식 단계, 상기 코드화된 내용에 대해 보정처리를 하는 후처리 단계를 갖는 문자 인식 분야에서 상기 전처리 단계와 인식 단계 사이에 포함될 수 있는 인쇄된 문서 내의 문자열 영상으로부터 어절 영상을 분리하는 방법은 상기 문자열 영상에 대한 수직히스토그램을 생성하는 제1단계; 상기 문자열 영상의 폭을 소정의 값(예를 들면, 문자열 영상의 높이의 두 배)과 비교하여 그보다 작은 경우 하나의 문자로 이루어진 문자열로 보아 문자열 영상 전체를 하나의 어절 단위로 두는 제2단계; 상기 제1단계에서 그려진 수직히스토그램에 수직 스캔라인을 통해 검은 점이 전혀 나타나지 않는 곳을 간격이라 할 때, 상기 간격이 존재하는 지를 검사하여 간격이 존재하지 않으면 모든 글자가 붙어있는 하나의 어절로 이루어진 문자열로 보아 문자열 영상 전체를 하나의 어절 단위로 두는 제3단계; 상기 제1단계에서 그려진 수직히스토그램에 하나의 간격만 존재하는 경우 그 간격이 소정의 값보다 큰지를 검사하여 작은 경우에는 하나의 어절로 이루어진 문자열로 보아 문자열 영상 전체를 하나의 어절 단위로 두고, 같거나 큰 경우에는 그 간격을 어절 간격으로 두며, 둘 이상의 간격이 존재하는 경우 이들 간격들로부터 어절 간격을 구하는 제4단계; 및 상기 제4단계에서 구한 어절 간격이 소정의 값보다 큰 지를 검사하여 작은 경우에는 한 어절로 이루어진 문자열로 보아 문자열 영상 전체를 하나의 어절 단위로 두고, 같거나 큰 경우는 수직히스토그램을 분석하여 상기 어절 간격과 같거나 큰 간격을 만날 때마다 어절 단위로 분리하는 제5단계를 포함함을 특징으로 한다.

이하에서는 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.

도 1에서 그림의 윗부분에 도시된 바와 같은 문자열 영상의 검은 화소들에 대해서는 그림의 아랫부분에 도시된 바와 같이 수직히스토그램을 얻을 수 있다. 이 수직히스토그램에는 검은 화소가 존재하지 않는 간격등이 존재하는 데, 이들 간격들은 자소들 사이에 존재하는 간격(1), 음절 사이에 존재하는 간격(2), 어절 사이에 존재하는 간격(3)으로 나뉘어지고 이들 중에서 어절 사이에 존재하는 간격인 간격(3)이 가장 큰 것이 일반적이다. 문자열 영상 내에 존재하는 어절 사이의 간격들 중 가장 작은 간격을 어절 간격이라 정의한다. 본 발명은 어절 간격을 찾아낸 후 수직히스토그램으로부터 어절 간격보다 크거나 같은 간격을 찾아냄으로써 어절 영상들을 분리하는 방법에 관한 것이다.

도 3은 본 발명에 의한 방법을 시간에 따른 동작으로 나타낸 순서도를 도시한 것이다. 먼저 주어진 문자열 영상에 대해 수직히스토그램을 구하고(300단계), 상기 문자열 영상의 폭을 소정의 값(예를 들면, 문자열 영상의 높이의 두배)과 비교하여(310단계) 그보다 작으면 하나의 글자를 가진 한 어절로 이루어진 문자열로 보아 모든 문자열을 하나의 어절 단위로 둔다(380단계). 상기 310단계에서 문자열 영상의 폭이 소정의 값과 같거나 크면 상기 수직히스토그램에 간격이 존재하는 지를 검사하여(320단계) 간격이 존재하지 않으면 모든 글자가 붙어있는 하나의 어절로 이루어진 문자열로 보아 이를 하나의 어절 단위로 둔다(380단계). 상기 수직히스토그램에 몇 개의 간격이 존재하는 지를 검사하여(330단계) 하나의 간격만 존재하는 경우에는 그 간격이 소정의 값보다 큰 지를 검사하여 작은 경우 하나의 어절로 이루어진 문자열로 보고, 같거나 큰 경우에는 그 간격을 어절 간격으로 두고(350단계), 둘 이상의 간격이 존재하는 경우 이들 간격들을 이용하여 어절 간격을 구한다(340단계). 상기 340단계와 350단계에서 구한 어절 간격이 소정의 값보다 큰 지를 검사하여(360단계) 작은 경우에는 한 어절로 이루어진 문자열로 보아 모든 문자열을 하나의 어절 단위로 처리하고(380단계) 종료하며, 같거나 큰 경우는 수직히스토그램을 분석하여 상기 어절 간격과 같거나 큰 간격을 만날 때마다 어절 단위로 분리한다. 이때 소정의 값은 문자열 영상의 높이의 1/4에서 1/2의 값으로 할 수 있으며 문자열 영상의 높이의 1/3의 값이 많이 사용된다. 상기 340단계에 있어서, 둘 이상의 간격들을 이용하여 어절 간격을 구하는 단계는 상기 간격들의 데이터를 이용하여 두개의 대표 평균값 및 이들 대표 평균값에 의해 대표되는 두개의 데이터 그룹에 대한 각각의 표준편차를 구하고, 상기 두개의 대표 평균값과 두개의 표준편차를 이용하여 어절 간격을 구하는 단계로 구분될 수 있다.

문자열 영상 중에 여러개의 간격이 있을 때, 이들 간격들로부터 어절 간격을 찾아내는 방법에 대해서는 K-Means 알고리즘을 이용하는 하나의 실시예를 들어 상세히 설명한다. K-Means 알고리즘은 전산학에서 보편적으로 사용되는 알고리즘으로 주어진 데이터로부터 K개의 대표값을 구하는 것이다.

본 실시예에서는 K의 값을 2로 하고 간격의 집합은 G = {g1, g2, ... gN}로 주어졌다고 가정하여 K-Means 알고리즘을 적용하면 다음과 같다.

M1 = min{G}; G에서 가장 작은 값;

M2 = max{G}; G에서 가장 큰 값;

c = 수렴여부를 결정하는 한계치(적당히 작은 값);

do {

M1' = M1;

M2' = M2;

A1 = {ai｜ai는 G에서 M2보다 M1에 가까운 원소};

A2 = {ai｜ai는 G에서 M1보다 M2에 가까운 원소};

M1 = A1의 평균값;

M2 = A2의 평균값;

} while((｜M1 - M1'｜ c) or (｜M2 - M2'｜ c));

상기 알고리즘에 대해 간단히 설명을 하면, 먼저 하위 대표값 M1과 간격 최소값 S1을 간격 데이터에서 가장 작은 값으로 상위 대표값 M2와 간격 최대값 S2를 간격 데이터에서 가장 큰 값으로 초기화하고, 순환문 안에서는 하위 대표값 M1은 간격 데이터 중에서 상위 대표값보다 현재의 하위 대표값에 더 가까운 데이터들의 평균값으로 갱신하고, 상위 대표값 M2는 간격 데이터 중에서 하위 대표값보다 현재의 상위 대표값에 더 가까운 데이터들의 평균값으로 갱신한다. 상기 상하위 대표값들을 이전의 상하위 대표값과 비교하여 일정한 값보다 작으면 그 값들이 구하고자 하는 두 개의 대표값들이 된다.

d1과 d2를 각각 최종 대표 그룹인 A1, A2의 표준편차라고 할 때, 어절 간격은 ( d2 * M1 + d1 * M2 ) / ( d1 + d2)의 값으로 정해진다. 이 경우, 어절 간격을 ( M1 + M2 ) / 2로 결정하는 것보다 상기의 식에 의해 구하는 잇점은 문자열 내의 간격들이 도 2에 도시된 것처럼 분포되어 있을 때 데이터의 분포 성질까지 포함하게 되므로 보다 정확한 어절 간격을 구해낼 수 있다는 것이다.

상기한 바와 같이 본 발명에 의하면, 문자열 영상에서 문자 인식 문제를 기존의 문자행 단위보다는 어절 단위로 처리함으로써 어절 간격에 대한 정확한 정보를 파악하여 문자 인식 결과에 있어서의 띄어쓰기가 명확해지고, 처리 단위가 간결하여 문자 인식 과정을 단순화할 수 있다.

Claims

문서 내의 문자열 영상을 스캔하고 노이즈를 제거하는 작업 등을 처리하는 전처리 단계, 상기 전처리 단계를 거친 각 문자를 코드화하는 인식 단계, 상기 코드화된 내용에 대해 보정처리를 하는 후처리 단계를 갖는 문자 인식 분야에서 상기 전처리 단계와 인식 단계 사이에 포함될 수 있는 상기 인쇄된 문서 내의 문자열 영상으로부터 어절 영상을 분리하는 방법에 있어서,

상기 문자열 영상에 대한 수직히스토그램을 생성하는 제1단계;

상기 문자열 영상의 폭을 소정의 값과 비교하여 그보다 작은 경우 하나의 문자로 이루어진 문자열로 보아 문자열 영상 전체를 하나의 어절 단위로 두는 제2단계;

상기 제1단계에서 그려진 수직히스토그램에 수직 스캔라인을 통해 검은 점이 전혀 나타나지 않는 곳을 간격이라 할 때, 상기 간격이 존재하는 지를 검사하여 간격이 존재하지 않으면 모든 글자가 붙어있는 하나의 어절로 이루어진 문자열로 보아 문자열 영상 전체를 하나의 어절 단위로 두는 제3단계;

상기 제1단계에서 그려진 수직히스토그램에 하나의 간격만 존재하는 경우 그 간격이 소정의 값보다 작으면 하나의 어절로 이루어진 문자열로 보고, 같거나 크면 그 간격을 어절 간격으로 두고, 둘 이상의 간격이 존재하는 경우 이들 간격들로부터 어절 간격을 구하는 제4단계; 및

상기 제4단계에서 구한 어절 간격이 소정의 값보다 큰 지를 검사하여 작은 경우에는 한 어절로 이루어진 문자열로 보아 문자열 영상 전체를 하나의 어절 단위로 두고, 같거나 큰 경우는 수직히스토그램을 분석하여 상기 어절 간격과 같거나 큰 간격을 만날 때마다 어절 단위로 분리하는 제5단계를 포함함을 특징으로 하는 문자열 영상으로부터 어절 영상을 분리하는 방법.
제1항에 있어서, 상기 제4단계 내의 둘 이상의 간격이 존재하는 경우 이들 간격들을 이용하여 어절 간격을 구하는 단계는

상기 간격들의 데이터를 이용하여 두개의 대표 평균값 및 이들 대표 평균값에 의해 대표되는 두개의 데이터 그룹에 대한 각각의 표준편차를 구하는 단계; 및

상기 두개의 대표 평균값을 각각 M1, M2라 하고 두개의 표준편차를 각각 d1, d2라 하고 어절 간격을 GW라 할 때, GW = ( d2 * M1 + d1 * M2 ) / ( d1 + d2 )에 의하여 어절 간격을 구하는 단계를 포함함을 특징으로 하는 문자열 영상으로부터 어절 영상을 분리하는 방법.]