KR0186025B1

KR0186025B1 - 후보 문자 분류 방법

Info

Publication number: KR0186025B1
Application number: KR1019910017699A
Authority: KR
Inventors: 최재균
Original assignee: 이헌조; 엘지전자주식회사
Priority date: 1991-10-09
Filing date: 1991-10-09
Publication date: 1999-05-15
Also published as: US5596657A; CN1035844C; TW231344B; KR930008669A; JPH05225394A; CN1071527A

Abstract

본 발명은 통계적 문자 인식에서 후보 문자를 분류하는 방법에 관한 것으로, 종래 메쉬를 씌운 문자 및 트리구조의 분류트리 생성과 문자의 병렬특성 및 변환에 의한 분류방법은 시간이 많이 소요되고, 로컬 미니아에 빠져 오인식을 하는 문제점이 있었다.

따라서, 본 발명은 이와 같은 문제점을 해결코져 문자영상 입력 후 문자외접 박스를 만들고 X축 및 Y축 두 방향을 런-렝쓰하여 문자배경 픽셀에 연이은 문자픽셀을 저장시켜 X축 및 Y축 특징을 추출하고, 수십회 반복한 다음 이 추출된 X축 및 Y축 평균특징을 계산하여 구해진 위치중 어느 쪽인지 판별하고, 이 소속위치 계산에 의한 각 후보 문자와 거리계산하여 최종 후보 문자로 선택되게 하므로써, 간단한 2차원 특징을 정의하여 고속으로 정확히 분류를 할 수 있고, 저장시에 필요한 메모리도 적게 들어 경제적으로 유리하게 된다.

Description

후보 문자 분류 방법

제1도는 종래에 따른 8×8메쉬를 씌운 문자 영상을 보인 단면도.

제2도는 종래에 따른 트리구조를 보인 설명도.

제3도는 종래에 따른 문자의 병렬특징을 보인 단면도.

제4a도와 4b도는 종래에 따른 주파수 영역으로의 변환예를 보인 설명도.

제5도는 본 발명의 통계적인 문자인식 시스템 구성도.

제6도는 본 발명에 따른 분류기준 데이타 생성부의 흐름도.

제7도는 본 발명에 따른 프로세싱부의 흐름도.

제8도는 일반적인 통계적 인식방법의 흐름도.

제9도는 본 발명에 따른 2차원 특징의 정의를 보인 설명도.

제10도는 본 발명에 따른 각 문자가 조밀하게 분포된 것을 특징점을 보인 특성도.

제11도는 본 발명에 따른 각 문자가 조밀하게 분포된 것을 보인 분포도.

제12도는 본 발명에 따른 최종 후보 문자 영역을 보인 상태도.

* 도면의 주요부분에 대한 부호의 설명

1 : 호스트 프로세서부 2 : 호스트 인터페이스부

3 : 스캐너 인터페이스부 4 : 스캐너

5 : 데이타 메모리부 6 : 프로세싱 메모리부

7 : 버퍼 8 : 어드레스 디코더부

9 : 보조기억장치 10 : 영상표시부

11 : 키보드

본 발명은 통계적 문자 인식에서 후보 문자를 분류하는 방법에 관한 것으로, 특히 한글이나 한자와 같이 많은 조합의 문자체계를 갖는 문자를 인식할 때 미리 입력된 글자와 유사한 특징을 갖는 후보 문자를 추출하는 데 적당하도록 한 후보 문자 분류 방법에 관한 것이다.

종래의 통계적 문자 인식에서는 제1도에 도시된 바와 같이 대부분 메쉬(Mesh)라고 불리우는 격자 모양의 방을 문자에 씌어서 각 메쉬내에 포함되어 있는 문자 픽셀수를 계산하여 그 값을 1차 특징으로 한다.

그리고, 그 특징을 가지고 여러가지 분류방법, 예를 들자면 제2도에 도시된 바와 같이 각 메쉬를 넘버링하여 1부터 NN(n × n 차원일 경우)까지 각 문자 마다 같은 번호를 가진 메쉬간의 유사도를 계산하여 어떤 형태 트리(Tree)를 만들어 그 트리를 베이스로 분류를 하고, 어떤 경우에서는 n × n개의 특징을 모두 사용하지 않고 소수개의 가장 명확한 특징을 선택하여 트리의 숫자를 줄여서 고속의 분류가 가능하도록 하는 방법이 있다.

또한, 다른 방법으로는 제3도에 도시된 바와 같이 문자의 외접 박스에서 최초 문자까지의 거리를 분류특성(병렬특징)으로 사용하기도 하는데, 이 방법은 일정간격의 측정위치를 선정하고 그 점에서 처음으로 문자와 만날때까지 직선을 그어서 그 직선의 길이를 특징으로 삼는 방법이며, 이 방법은 메쉬특징을 이용하여 분류를 하는 방법보다 특징의 수를 줄일 수 있기 때문에 그에따른 트리의 구조가 간단해지고 구현하는데 쉬운 잇점이 있다.

그리고, 제4a도와 4b도에 도시된 바와 같이 그외변환(Transtormation)에 의한 방법은 푸리에 변환과 같이 어떤 타임영역에서 주파수 영역으로의 변환을 통하여 그에따른 특징으로 분류를 하는 방법이 있다.

즉, 이와 같은 종래의 동작 및 문제점을 설명하면 다음과 같다. 먼저 제1도와 같이 메쉬를 이용한 분류방법은 처음에 문자를 몇개의 차원으로 나누는가 하는 문제가 대두되고, 메쉬를 많이 나누게 되면 정확하지만 반대로 메모리가 증가하므로 그에따른 시간의 손실이 많아 전체 시스템의 속도가 떨어지는 단점이 있어서 대부분 한글의 경우는 8 × 8(64차원), 한자의 경우는 16×16(256차원)정도를 많이 사용한다.

이렇게 메쉬가 나누어지면 각 메쉬를 1에서 마지막 메쉬까지 순서대로 번호를 붙이고 각 메쉬내에 포함되어 있는 문자 화소수를 계산하여 그 값을 저장하고, 이때 한글과 같이 그 숫자가 많은 경우는 대상으로 하는 모든 글자에 대하여 이 과정을 수행하며, 모든 특징 추출과정이 끝난 후 모든 글자의 같은 번호를 갖는 메쉬의 특징을 비교하여 그 유사도를 판별하고 같은 부류의 문자끼리 구분을 하고 그 분류된 같은 군내에서 2번째, 3번째, …, N×N번째까지 재분류를 하여 거대한 트리구조의 분류트리를 생성한다.

그리고, 제2도와 같이 이 트리구조를 바탕으로 어떤 미지의 문자가 입력되면 메쉬를 나누고 각 메쉬에 번호를 부여한 다음 이미 정의된 트리구조를 따라 마지막으로 더이상 진전이 없을 때까지 진행한 후 그 위치에 속한 문자군을 후보 문자로 정하는 방법이며, 유사도의 계산은 여러가지가 있으나 피셔의 결정률이나 유클리디안 거리, 마할라노비스 거리등을 사용하여 결정한다.

따라서, 이 방법은 미리 그 트리구조를 정의하고 후보 문자들을 결정하기 때문에 만일 문자에 어떤 왜곡이 가해져서 어떤 한 메쉬나 그 이상의 메쉬의 특징값이 어떤 한계치를 넘을 경우 엉뚱한 곳으로 탐색을 하기 때문에 로컬 미니마(Local Minima)에 빠져 오인식을 하는 경우가 발생하여 오인식이 되는 단점이 있고, 또 차원이 높아질 경우 그에따라 특징의 수도 많아지므로 시간이 많이 소요되며 입력된 문자의 외곽에 잡음이 섞여 문자본래의 크기와 다르게 문자외접 박스가 구성되는 경우 각 메쉬의 취치변동으로 오분류의 가능성이 높은 단점이 있다.

그리고, 제3도와 같이 문자의 병렬특징을 이용한 문자분류 방법은 문자의 외접 박스의 한쪽면에서 일정한 간격으로 위치를 선정하고 각 위치에서 처음으로 문자와 만나기까지의 거리를 계산하여 그 값을 분류특징으로 정하는 방법으로써, 위와 같은 방법보다는 특징의 차원이 줄어들어서 분류시에 소요시간이 줄어드는 장점은 있으나 특징의 갯수가 적기때문에 정확한 분류가 힘든 단점이 있다.

역시 위의 방법과 마찬가지로 문자에 어떤 잡음이 있을 경우, 외접하는 박스의 크기가 변하기 때문에 위치선정시 많은 애로가 따른다.

마지막으로 제4도와 같이 변환에 의한 분류방법은 일반적으로 문자의 영상이 2차원 평면에서 구성되어져 이러한 평면구성을 변환작업을 통해서 특수한 새로운 영역으로 변환을 하여 그 문자가 가지고 있는 특징을 강조하여 분류를 행하며, 푸리에, 라플라시안 변환등이 여기에 속하며 이 방법은 그 특징들이 잘 구분이 되지만 변환하기에 필요한 시간이 많이 소요되며 한글이나 한자와 같이 모아 쓰기문자인 경우는 그 구조상의 문제로 명확한 특징위치를 판별하기 어려운 문제점이 있었다.

본 발명은 이와 같은 총래의 문제점을 해결하기 위하여 프로세싱 모듈의 전단게로 미리 각 문자의 특징을 정의하기 위한 분류기준 데이타 생성부와 실제로 입력된 문자를 분류하는 프로세싱부에 의해 통계적인 문자인식 방법 중에서 한글과 한자와 같이 수많은 조합으로 글자의 구성이 가능한 문자를 인식할 때, 입력문자의 특징에 가장 유사한 문자들을 미리 추출하여서, 그 문자들과만 비교를 하여 빠른 인식을 수행할 수 있도록 한 후보 문자 분류 방법을 창안한 것으로, 이를 첨부한 도면을 참조해 설명하면 다음과 같다.

제5도는 본 발명의 통계적인 문자인식 시스템 구성도로서 이에 도시한 바와 같이 키보드(11)에 연결된 호스트 프로세서부(1)는 시스템의 모든 명령을 수행하고 영상표시부(10)로 연결되고, 또한 그 호스트 프로세서부(1)는 호스트 인터페이스부(2)를 통하여 보조기억장치(9)와 스캐너 인터페이스부(3), 버퍼(7), 어드레스 디코더부(8), 프로세싱 메모리부(6)와 공통으로 연결된다. 그리고, 상기 스캐너 인터페이스부(3)는 다시 영상입력 장치인 스캐너(4)를 연결하고, 상기 버퍼(7) 및 어드레스 디코더부(8)는 데이타 메모리부(5)를 연결하고 상기 호스트 인터페이스부(2)에는 직접 프로세싱 메모리부(6)가 연결되어 구성되고, 이와 같이 구성된 본 발명의 동작설명은 제6도의 분류기준 데이타 생성부의 흐름도와 제7도의 프로세싱부의 흐름도를 참조해 설명하면 다음과 같다.

먼저, 제5도의 동작설명을 하면 키보드(11)로부터 시작명령을 주면 호스트 프로세서부(1)는 진행상황을 영상표시부(10)에서 보여주도록 컨트롤을 하며, 동시에 호스트 인터페이스부(2)로 명령을 전달한다.

처음에 메모리 셀렉션 신호(MS)를 스캐너 인터페이스부(3)로 보내고 그 스캐너 인터페이스부(3)는 스트로브 신호(ST)를 다시 상기 호스트 인터페이스부(2)로 전송하고 문자영상 데이타(D)를 스캐너(4)를 통하여 읽어들이기 시작한다.

읽어들인 문자영상 데이타(D)는 버퍼(7)를 통해 데이타 메모리부(5)로 저장되고 동시에 보조기억장치(9)로 전송되어 저장이 된다. 그리고, 상기 스캐너 인터페이스부(3)로부터 스캐닝이 끝난다는 신호를 상기 호스트 인터페이스부(2)를 통하여 어드레스 디코더부(8)로 정해진 문자영상 한개를 지정하여 프로세싱 메모리부(6)으로 가져온 후, 분류기준 데이타 생성 및 프로세싱 과정의 알고리즘을 수행하고, 수행이 끝난 후, 분류결과는 상기 호스트 인터페이스부(2)를 거쳐서 상기 호스트 프로세서부(1)를 통한 영상표시부(10)로 보내지고 화면에 표시가 된다. 즉, 제6도와 같이 분류기준 데이타 생성부는 영상독취 장치인 이미지 스캐너(Image Scanner)로부터 문자영상을 읽어서 특징추출부를 통하여 최종적으로 특징 및 분류군을 정하고, 특징 추출부내에는 같은 영상을 반복적으로 수행하며 그의 평균을 구하는 모듈도 포함되며, 분류기준 데이타라고 하는 것을 문자인식의 여러단계중 전처리부에 속하는 것으로서 통계적 문자 인식방법에서는 입력된 문자와 가장 비슷한 문자를 전체 문자코에서 추출하여 인식하여야 하기 때문에 한글과 같이 완성형인 경우 2350자 현재 사용되고 있는 한글의 수가 14,000여자가 되기 때문에 일일이 입력문자와 이 대상전체 문자를 비교한다는 것은 시간적으로 낭비가 아닐 수 없다.

따라서, 입력문자의 특징에 가장 유사한 문자들은 미리 추출하여서 그 문자들과만 비교를 하여야 빠른 인식을 수행하는 것이다.

이렇게 미리 인식대상이 되는 전체 문자군에서 서로 같은 특징을 가진 문자끼리 그룹을 만들어 놓고 그 대표값만 기억시켜서 나중에 인식을 할 때 그 대표값들과 입력문자만을 비교하여 가장 유사하다고 판단되는 문자군을 추출하는 것을 분류기준 데이타 생성이라고 한다.

이 분류기준 데이타가 어느정도 객관성을 가지기 위해서는 같은 문자에 대해서 여러번 분류과정을 거쳐 그의 평균값을 구하여 최종값으로 결정한다. 즉, 본 발명에서 사용한 특징값은 앞서 설명한 기존의 방법들이 많은 특징을 추출하여 시간을 소비하는 단점을 없애기 위해서 제9도와 같은 2차원 특징을 정의하였다.

여기서, 제9도는 각 2특징의 스캐닝방향을 나타낸 것으로 X축 방향과 Y축방향을 각각 특징으로 삼은 것으로, 이미지 스캐너를 통한 문자영상은 이미 2진화되어 저장된 것으로 간주한다면 먼저 행하여야 할 작업은 문자에 정확히 외접하는 문자외접 박스를 만들고, 문자영상을 좌에서 우로 한 픽셀(Pixel) 라인씩 스캔하여 화이트 런(White Run)에 연이은 블랙 런(Black Run)일 경우 각각의 값을 W₁(i), B₁(i)에 저장한다.

여기서 i의 값은 그러한 조건이 만날때마다 하나씩 증가하도록 하며, 한 문자에 대해서 X방향으로 상기와 같은 조건을 만족하는 모든 스캔이 끝나면 화이트 런 + 블랙 런 쌍의 길이를 구하고,

그리고, X축 특징을 식(2)와 같이 정의한다.

(i는 총 화이트-블랙 런 페어의 수)

이번에는 Y축 방향, 즉 위에서 아래방향으로 상기와 같은 조건을 만족하는 화이트-런 페어를 구하고 각가의 WB₂(i), W₂(i), B₂(i)를 구해서 저장하여 식(3)과 같이 Y축 특징을 정의한다.

모든 문자에 대해서 위와 같은 작업을 반복하여 제10도와 같이 X-Y 평면상에서 표시하고 여기서 X축은 F(x), Y축은 F(y)이며 각 점은 각 문자가 위치하는 특징점을 나타내는데, 같은 문자에 대해서 수십회 반복한 다음 그 문자의 평균위치 벡터 Fak(X), Fak(Y)와 표준편차 △k(X), △k(Y)를 구한다.

여기서 a의 의미는 평균(average), k는 k번째, △는 표준편차를 의미한다. 이에따라, 각 문자들간의 평균 표준편차를 구하면 식 (4), (5)와 같이 된다.

여기서 m = 전체 문자수

△_T= 평균 표준 편차

즉, 상기 평균 위치 벡터와 표준편차에 의해 구해진 각 문자의 위치를 평면상에 표시하고 X축, Y축의 누적분포도(Histogram)를 구하고, 그 누적분포에 의해 X축, Y축을 정해진 임계값(각 좌표에서 누적분포의 합이 50이상인 것)의 범위로 나누면 제11도와 같이 나누어지는데, 제11도를 보면 각 문자가 조밀하게 분포된 곳은 그만큼 작은 방으로 나뉘어지고 상대적으로 조밀하지 않는 곳은 그만큼 큰 방으로 나누어지며 이 나위어진 각 방들의 위치 좌표 및 그 방에 속한 문자들을 저장한다. 그러므로, 제7도에 도시한 바와 같이 프로세싱부는 분류기준 데이타가 만들어지면 그 다음단계는 인식을 위한 실제적인 단게로 이행한다. 여기서 분류기준 데이타는 인식을 할 때마다 작성하는 것이 아니라 오프-라인 상태로 한번만 계산되면 다시 계산할 필요없이 영구적으로 기억된다.

즉, 문자영상이 이미지 스캐너로 입력되면 문자영상의 정확히 외접하는 외접박스(Box)를 만들고, 앞 절에서 설명한 같은 방법으로 X방향 및 Y방향 특징 추출 F(x), F(y)를 하여 상기 식(4), (5)에 의해 구해진 위치중 어느쪽에 속하는지를 계산하고, 그 방에 속한 문자를 후보로 추출한다.

만일, 제12도와 같이 그 방의 폭이 △보다 작으면 △의 거리에 포함된 다른 방에 속한 문자들끼리 후보문자를 등록한다.

여기서 X : 입력된 문자의 좌표값이고 △_x; △_y; 미리 구해논 표준편차이며 Z : 최종 후보 문자 영역이다.

이상에서 상세히 설명한 바와 같이 본 발명은 통계적인 문자인식 방법중에서 한글과 한자와 같이 수 많은 조합으로 글자의 구성이 가능한 문자를 인식할 때 그 인식의 전처리 단계로서 효율적인 후보 문자 분류가 가능하고, 기존의 후보 문자 분류가 시간이 많이 소요되고, 로컬 미니마(Local Minima)에 빠지기 쉬운 반면에 본 발명은 간단한 2차원 특징을 정의하여 고속으로 정확히 분류를 할 수 있는 잇점이 있으며 그 특징의 저장시에 필요한 메모리도 적게들어 매우 경제적인 잇점이 있게된다.

Claims

이미지 스캐너로부터 문자영상을 읽어서 특징추출부를 통하여 최종적으로 특징 및 분류군을 정하여 분류기준 데이타를 생성하는 분류기준 데이타를 생성하는 분류기준 데이타 생성과정과, 문자영상 입력부로 영상을 받아서 특징추출부를 통하여 특징을 추출하고 그 특징을 바탕으로 분류를 하게되는 분류부로 나뉘어져 수행하는 프로세싱 과정을 거쳐 후보 문자를 분류하는 후보 문자 분류방법.
제1항에 있어서, 상기 분류기준 데이타 생성과정은 문자에 정확히 외접하는 문자 외접 박스를 만들고, 문자영상을 좌에서 우로 한 픽셀 라인씩 스캔하여 화이트 런에 연이은 블랙 런일 경우 각각의 값 W₁(i), B₁(i)을 저장시켜 화이트 런 및 블랙 런 쌍의 길이[WB₁(i) = W₁(i) + B₁(i)]를 구한 다음, x축 및 y축 특징 을 추출하며, 상기와 같은 작업을 수십회 반복하여 그 문자의 평균위치 벡터 Fak(X), Fak(Y)와 표준편자 △_k(X), △_k(Y)를 구하고, 이 구해진 각 문자의 위치를 평면상에 표시하여 임계값의 범위를 결정하는 X축 및 Y축이 누적분포도에 의한 각 후보문자와 거리 계산하여 최종 후보 문자로 선택되게 하는 것을 특징으로 하는 후보 문자 분류 방법.
제1항에 있어서, 상기 프로세싱 과정은 문자영상이 이미지 스캐너로 입력되면 문자영상의 정확히 외접하는 외접 박스를 만들고, 상기와 같은 방법으로 X축 및 Y축 특징 F(X), F(Y)를 계산하여 구해진 위치중 어느쪽에 속하는지를 판별하여 그 방에 속한 문자를 후보로 추출하는 것을 특징으로 하는 후보 문자 분류 방법.