KR19980049215A

KR19980049215A - 문자 인식을 위한 한글/영문 판별방법

Info

Publication number: KR19980049215A
Application number: KR1019960067888A
Authority: KR
Inventors: 이영태; 최영우
Original assignee: 구자홍; 엘지전자 주식회사
Priority date: 1996-12-19
Filing date: 1996-12-19
Publication date: 1998-09-15
Also published as: KR100206827B1

Abstract

본 발명은 문자 인식을 위한 한글/영문 판별방법에 관한 것으로, 종래에는 한글/영문 판별을 한글 모음의 긴 수직 획과 긴 수평 획을 찾아서 이들 정보의 유무로 판별하였는데 영문자에도 'H', 'T', 'E' 등과 같이 긴 수직 획이나 긴 수평 획이 존재하여 이들 정보만으로는 한글인지 영문자인지 판별하기 어려운 문제점이 있다. 따라서 본 발명은 입력되는 문자에 대하여 16방향의 최 외곽점을 추출하는 제 1단계와; 상기 제 1단계에서 추출한 각 방향의 최 외곽점 사이에서 특징벡터들을 추출하는 제 2단계와; 상기 제 2단계에서 추출한 특징벡터들과 한글과 영문자를 갖는 구조적 특성을 이용하여 같은 성질을 갖는 후보들끼리 분류하는 제 3단계와; 상기 제 3단계에서 분류한 후보문자에 대해 제 2단계에서 추출한 특징중 오목부분의 기울기인 세타와 유사도 성능지수를 이용하여 한글과 영문자를 판별하는 제 4단계로 진행하여 한글과 영문자를 판별하여 보다 정확한 판별이 가능하도록 한다.

Description

문자 인식을 위한 한글/영문 판별방법

본 발명은 한글과 영문자가 포함된 문서를 인식하기 위하여 전처리 과정으로 반드시 필요한 한글/영문 판별 성능을 향상시켜 문자 인식율을 높이기 위한 것으로, 특히 한글과 영문자가 갖는 구조적 특성을 이용하여 한글과 영문을 판별하도록 함으로써 정확한 판별이 가능하도록 한 문자 인식을 위한 한글/영문 판별방법에 관한 것이다.

종래 문자 인식을 위한 한글/영문 판별방법은, 도 1에 도시된 바와 같이, 입력되는 문자를 받아 한글의 특징이 모음을 추출하는 제 1단계와; 상기 제 1단계에서 모음이 추출되면 한글로 판단하고 추출되지 않으면 영문자로 판별하는 제 2단계와; 상기 제 2단계에서 판별이 완료되면 그 판별한 결과를 저장하는 제 3단계로 이루어진다.

상기에서와 같이 각 단계로이루어진 종래 기술에 대하여 살펴보면 다음과 같다.

하나의 문자로 분리된 문자는 먼저 한글인지 영문자인지를 판별하여 각각의 인식기로 보낸다.

상기에서 한글인지 영문자인지의 판별은, 한글의 특징인 모음이 있는지 없는지를 추출하여 모음이 추출되면 한글로 판별하고 추출되지 않으면 영문자로 판별하였다.

즉, 한글의 모음이 갖는 특성인 긴 수직 획과 긴 수평 획의 존재 여부를 판단하여 한글과 영문자를 판별하였다.

그러나, 상기와 같은 종래의 기술에서 한글/영문 판별시 한글 모음의 긴 수직 획과 긴 수평 획을 찾아서 이들 정보의 유무로 판별할 경우 영문자의 'H', 'T', 'E' 등과 같이 긴 수직 획이나 긴 수평 획이 존재하여 이들 정보만으로는 한글인지 영문자인지 판별하기 어려운 문제점이 있다.

따라서, 상기에서와 같은 문제점을 해결하기 위한 본 발명의 목적은 한글과 영문자가 갖는 구조적 특성을 서로 비교하여 서로 연결되지 않은 스트로크(Disconnected Stroke 또는 contour)의 갯수, 홀(Hole)의 갯수, 그리고 오목부분(Concave)의 갯수를 이용하여 분류를 수행하고 최종적으로 같은 그룹내에서 유사도를 비교하여 한글과 영문자를 판별하도록 한 문자 인식을 위한 한글/영문 판별방법을 제공함에 있다.

도 1은 종래 문자 인식을 위한 한글/영문 판별방법에 대한 동작과정도.

도 2는 본 발명 문자 인식을 위한 한글/영문 판별방법에 대한 동작과정도.

도 3은 문자인식 시스템의 구성도.

도 4는 도 2에서, 최외곽 추출과정을 보여주는 설명도.

도 5는 도 2에서, 특징추출 과정을 보여주는 설명도.

도 6a는 도 5에서, 외곽점과 외곽점을 연결하여 얻어지는 기울기 추출 과정도.

도 6b는 도 5에서, 16방향코드 정보를 이용한 기울기 추출 과정도.

도 7a는 도 2에서, 한글/영문 판별시 각 문자별 컨튜어의 갯수를 보여주는 추출도.

도 7b는 도 2에서, 한글/영문 판별시 각 문자별 홀의 갯수를 보여주는 추출도.

도 7c는 도 2에서, 한글/영문 판별시 각 문자별 오목부분의 갯수를 보여주는 추출도.

* 도면의 주요부분에 대한 부호의 설명 *

10 : 호스트 컴퓨터20 : 스캐너

30 : 채널140 : 제 1로컬메모리

50 : 제 1프로세서60 : 채널2

70 : 제 2프로세서80 : 제 2로컬메모리

90 : 글로벌 메모리

상기 목적을 달성하기 위한 본 발명 문자 인식을 위한 한글/영문 판별방법은, 도 2에 도시한 바와 같이, 입력되는 문자에 대하여 16방향의 최 외곽점을 추출하는 제 1단계와; 상기 제 1단계에서 추출한 각 방향의 최 외곽점 사이에서 특징벡터들을 추출하는 제 2단계와; 상기 제 2단계에서 추출된 오목부분으로 부터 방향성 정보를 이용하여 기울기를 추출하는 제 3단계와; 상기 각 단계에서 추출된 정보를 이용하여 같은 성질을 갖는 후보끼리 분류하는 제 4단계와; 상기 제 4단계에서 분류한 후보문자로부터 한글과 영문자를 구부하는 제 5단계로 이루어진다.

상기 각 단계로 이루어진 방법을 수행하기 위한 문자인식 시스템 구성은, 도 3에 도시한 바와 같이, 문서로부터 문자를 읽어들여 이진 데이타로 변환시켜 출력하는 스캐너(20)와; 상기 스캐너(20)를 통해 읽어들인 문서 데이타를 인식하고 한글인지 영문자인지를 판별하기 위한 각종 제어동작을 행하는 호스트 컴퓨터(10)와; 채널1(30)을 통해 호스트 컴퓨터(10)로부터 문서 데이타를 각 문자 단위로 절출하는 제 1프로세서(50)와; 채널2(60)를 통해 제 1프로세서(50)에서 절출된 문서 데이타에 대하여 문자 인식을 수행하는 제 2프로세서(70)와; 데이타 메모리와 프로그램 메모리로 구성되어 상기 제 1, 제 2프로세서(50)(70)의 전용 메모리로 사용되는 로컬 메모리(40)(80)와; 상기 문자 인식시 필요한 데이타를 저장하는 글로벌 메모리(90)로 구성한다.

이와 같이 구성된 본 발명의 동작 및 작용 효과에 대하여 상세히 설명하면 다음과 같다.

문서를 스캐너(20)가 스캔한 후 이진 데이타로 변환시켜 호스트 컴퓨터(10)로 전송하면, 상기 호스트 컴퓨터(10)는 제 1프로세서(50)와 제 2프로세서(70)를 통해 한글과 영문자를 판별한다.

한글과 영문자 판별은, 먼저 도 4a에서와 같이 360℃에 대해 16방향 코드로 나누고, 입력된 문자에 대하여 16방향의 최외곽점을 추출하도록 한다.

그러면 0의 경우 도 4b에서와 같은 최외곽점을 추출하게 되고, 기호 +의 경우에는 도 4c에서와 같은 최 외곽점을 추출하게 된다.

이렇게 하여 추출된 외곽점과 외곽점 사이에 오목영역(ConcaveZone)과 볼록영역(Convex Zone)이 존재하게 된다.

상기에서와 같이 최외곽점을 추출한 다음 입력된 문자에 대해 각 방향의 외곽점과 외곽점 사이에서 아래와 같은 특징벡터들을 추출하도록 한다.

1) L1 : 도 5a에서와 같이 최 외곽점 S와 E 사이에 연결된 외곽(Contour)의 총길이를 L1이라 한다.

2) L2 : 도 5b에서와 같이 최 외곽점 S와 E사이의 직선거리를 L2라 한다.

3) G(Gx, Gy) : 도 5c에서와 같이 라인 세그먼트의 중심점에서 수직방향 길이의 ⅔점 거리를 나타낸다.

4) ρ : 선분 SE와 G(Gx, Gy)간의 최적거리를 나타내며 아래식과 같이 나타낸다.

ρ = [(Sy-Ey)(Gx-Sx)-(Sx-Ex)(Gy-Sy)]/L2

5) 세타(θ) : 최외곽점 S와 E사이를 직선으로 연결했을 때 기울어진 각도를 나타낸다.

즉, 오목부분(Concave)을 형성하는 외곽점과 외곽점을 연결하여 만들어지는 기울기를 추출하는 방법으로, 도 6a에서와 같이 두개의 외곽점을 연결한 기울기가 수평선분이면 세타(Theta)는 0°이고, 수직선분이면 90°가 된다.

상기에서와 같이 오목부분의 기울기를 추출하면 영문자 X에 대해서는 0°가 2개, 90°가 2개인 기울기 값을 나타내게 된다.

따라서 90°, 180°, 270°와 같이 각각 서로다른 기울기로 표현할 수 있도록, 도 6b에서와 같이, 각 오목부분에 대해 수평선분인 0°에서 수직 선분인 90°까지의 기울기 세타를 추출한 다음 해당하는 오목부분의 방향이 도 5a에서 설정한 방향코드 1에서 4이내이면 180도-세타(θ)를 구하고 이때의 분포가능한 기울기는 90°에서 180°가 된다.

오목부분의 방향이 5에서 8이내이면 180+세타(θ)를 구하며 분포가능한 기울기는 180°에서 270°사이가 되고, 오목부분의 방향이 9에서 12이내이면 360도-세타(θ)를 구하며 분포 가능한 기울기는 270°에서 350°사이가 된다.

그리고 오목부분이 방향이 13에서 16사이이면 구해진 세타값 자체가 기울기가 되며 분포 가능한 기울기는 0°에서 90°사이가 된다.

이와 같이 추출된 오목부분의 기울기는 문자 인식시에 유용한 정보로 이용된다.

6) D12 : 최외곽점 S와 E사이에 연결된 외곽(Contour)의 총길이와 직선거리의 비(L2/L1)이다.

7) L12 : 최외곽점 S와 E사이에 연결된 외곽의 총길이와 직선거리의 차(L1-L2)이다.

이상에서와 같이 16방향에 대한 최외곽점을 추출하고, 이 추출한 최외곽점에 의해 형성되는 오목부분을 이용하여 특징벡터들을 추출하여 글로벌 메모리(9)에 저장된다.

다음으로 입력된 문자에 대하여 3개의 구조적 특성요소를 이용하여 같은 성질을 갖는 후보끼기 분류하는데, 이에 대하여 살펴보자.

첫째, 서로 연결되지 않은 스트로크(Disconnected Stroke) 또는 컨튜어(Contour)의 갯수를 구한다.

즉 한글은 자음과 모음이 서로 복합되어 하나의 문자를 이루지만 영문자는 하나의 획이 한 문자를 이루기 때문에 한글자 영문자의 판별정보에 유용하다.

서로 연결되지 않은 스트로크 또는 컨튜어의 갯수는 윤곽선의 궤적이 서로 연결되지 않고 독립적으로 존재하는 경우 이들의 총합이다.

예를 들어, 도 7a에서와 같이, 문자 i의 경우 윤곽선의 궤적이 두 개가 존재하므로 그 갯수는 2가 되고, L의 경우는 윤곽선의 궤적이 하나만 존재하므로 1이 되고, 문자 명인 경우에는 독립적으로 세개의 궤적이 존재하므로 이 값은 3이 된다.

둘째, 홀의 갯수를 구한다.

즉 하나의 문자에 존재하는 홀(Hole)의 총 갯수를 나타낸다.

예를 들어, 도 7b에서와 같이, 문자 k의 경우 홀이 존재하지 않으므로 이 경우는 0이되고, 문자 e의 경우에는 1이 되고, 문자 명인 경우에는 2개가 존재한다.

세째, 오목부분(Concave)의 갯수를 구한다.

즉, 하나의 문자에서 추출된 오목부분을 모두 합한 갯수이다.

예를 들어, 도 7c에서와 같이, 문자 k의 경우 3개가 존재하고, 문자 국자인 경우에는 4개가 존재한다.

이상에서 추출한 컨튜어의 갯수, 홀의 갯수, 그리고 오목부분의 갯수를 이용하여 각 그룹을 결정한다.

이렇게 각 그룹이 결정되면 그 그룹을 찾아 한글인지 영문자인지 판별할 수 있게 된다.

즉, 문자 명자의 경우 컨튜어의 갯수가 3, 홀의 갯수가 2, 그리고 오목부분의 갯수가 3이므로 이와같은 그륩(G)에는 영문자가 하나도 존재하지 않는다.

따라서 G:323 그룹에 속하는 문자는 모두 한글로 판별된다.

그러나 영문자 J나 한글 그는 모두 G:102 그룹에 속하므로 이 그룹 정보만으로는 한글인지 영문자인지를 판별할 수 없다.

따라서 상기에서와 같은 그룹안에서 한글과 영문을 판별하기 위하여 특징추출시 구한 오목부분의 기울기인 세타와, 아래에서와 같은 유사도 성능지수(D_j)를 이용하여 유사도를 구하고, 이 유사도의 값을 이용하여 최종적으로 한글/영문자 판별을 수행한다.

i=1~M(벡터의 갯수)

j=1~후보문자의 갯수

상기 식에서 W_i는 각 벡터의 가중치이고, L_i는 i번째 벡터의 최소값이고, I_i는 입력문자의 i번째 벡터값이고, U_i는 i번째 벡터의 최대값이 된다.

상기 식에 의해 유사도를 측정하여 가장높은 유사도, 즉 유사도 성능지수(D_j)가 가장 적은 값을 이용하여 한글과 영문을 판별한다.

상술한 바와 같이, 본 발명은 한글과 영문자가 갖는 구조적 특성인 컨튜어의 갯수, 홀의 갯수, 그리고 오목부분의 갯수를 이용하여 같은 성질을 갖는 후보들끼리 분류하여 그룹을 형성하고, 최종적으로 같은 그룹내에서 오목부분의 기울기인 세타와 유사도를 비교하여 한글과 영문을 판별하도록 함으로써 정확한 판별이 가능하도록 한 효과가 있다.

Claims

입력되는 문자에 대하여 16방향의 최 외곽점을 추출하는 제 1단계와; 상기 제 1단계에서 추출한 각 방향의 최 외곽점 사이에서 특징벡터들을 추출하는 제 2단계와; 상기 제 2단계에서 추출한 특징벡터들과 한글과 영문자를 갖는 구조적 특성을 이용하여 같은 성질을 갖는 후보들끼리 분류하는 제 3단계와; 상기 제 3단계에서 분류한 후보문자에 대해 제 2단계에서 추출한 특징중 오목부분의 기울기인 세타와 유사도 성능지수를 이용하여 한글과 영문자를 판별하는 제 4단계로 이루어짐을 특징으로 하는 문자 인식을 위한 한글/영문 판별방법.
제 1항에 있어서, 구조적 특성에 의한 후보 분류는 서로 연결되지 않은 스트로크(컨튜어)의 갯수, 홀의 갯수 그리고 오목부분의 갯수를 이용하여 분류하도록 함을 특징으로 하는 문자 인식을 위한 한글/영문 판별방법.
제 2항에 있어서, 서로 연결되지 않은 스트로크의 갯수는 하나의 문자에서 윤곽선의 궤적이 서로 연결되지 않고 독립적으로 존재하는 경우 이들의 총 합을 나타냄을 특징으로 하는 문자 인식을 위한 한글/영문 판별방법.
제 2항에 있어서, 홀의 갯수는 하나의 문자에 존재하는 홀(hole)의 총 갯수를 나타냄을 특징으로 하는 문자 인식을 위한 한글/영문 판별방법.
제 2항에 있어서, 오목부분의 갯수는 하나의 문자에서 추출된 오목부분을 모두 합한 갯수임을 특징으로 하는 문자 인식을 위한 한글/영문 판별방법.
제 1항에 있어서, 유사도 성능지수(D_j)는 다음과 같은 공식으로 이루어짐을 특징으로 하는 문자 인식을 위한 한글/영문 판별방법.

i=1~M(벡터의 갯수)

j=1~후보문자의 갯수

단, W_i는 각 벡터의 가중치, L_i는 i번째 벡터의 최소값, I_i는 입력문자의 i번째 벡터값, U_i는 i번째 벡터의 최대값.