KR100242458B1

KR100242458B1 - 패턴인식 방법 및 장치와 패턴인식 사전을 작성하는 방법

Info

Publication number: KR100242458B1
Application number: KR1019950703453A
Authority: KR
Inventors: 다카오 고바야시
Original assignee: 고오노 모토히로; 가부시키가이샤 바아즈죠오호오가가쿠켄큐우쇼
Priority date: 1993-12-21
Filing date: 1994-12-20
Publication date: 2000-02-01
Also published as: JP2937729B2; KR960701413A; JPH07182453A; EP0686933A4; US5689584A; CA2156521A1; EP0686933A1; WO1995017734A1

Abstract

본 발명은 (a) 입력패턴의 인식영역을 N개의 블록으로 분할하고 대응하는 부영역번호를 상기 N개의 블록에 할당하여 N개의 부영역을 형성하는 스텝과, (b) 규정된 기준에 따라 상기 N개의 부영역 마다 특징을 계산하는 것에 의해 요소로서 N개의 특징을 가지는 특징벡터를 작성하는 스텝과, (c) 특징벡터의 N개의 요소중 최대 또는 최소요소를 구하여 상기 구해진 요소에 대응하는 1의 부영역 번호로 이루어진 제1특징셋트를 작성하고, 2개의 최대요소 또는 최소 요소를 구하여 상기 구해진 2개의 요소에 대응하는 2부영역 번호의 조합으로 이루어진 제2특징셋트를 구하기 위해 N-1의 부영역 번호로 이루어진 제 N-1의 특징셋트를 작성때까지 전체 N-1개의 특징셋트를 작성하는 스텝 및, (d) 여러 종류의 모델패턴에 상기 스텝 (a)∼(c)을 실행해서 구해진 특징셋트가 모델패턴의 카테고리 명칭과 함께 미리 기록된 사전을 참조하여, 입력패턴의 특징셋트와 사전에 저장된 특징셋트 사이에서 카테고리 명칭과 대응관계에 있는 유사도를 구하고, 최대의 유사도가 제공된 카테고리 명칭을 입력패턴의 카테고리 명칭으로 결정하는 스텝을 구비하는 패턴인식방법을 제공한다. 본 발명에 의하면, 인식시간의 감소 및 인식률의 향상이 달성된다.

Description

[발명의 명칭]

패턴인식 방법 및 장치와 패턴인식 사전을 작성하는 방법

[기술분야]

본 발명은 규정된 사전을 참조해서 입력문자 및 여러가지 상이한 입력패턴을 인식하기 위한 방법 및 장치에 관한 것이고, 또 동일하게 사용된 패턴인식 사전을 작성하는 방법에 관한 것이다.

[배경기술]

일반적으로 문자,숫자,패턴등을 인식하기 위한 패턴인식은 표준패턴이 미리 저장된 사전의 내용을 입력패턴과 비교하는 것에 의해 실행된다. 따라서, 패턴인식은 인식되는 문자, 숫자, 패턴등의 종류가 증가함에 따라 그것들을 저장하기 위한 사전의 크기가 커지고, 인식처리의 시간이 비례해서 증가한다는 고유의 문제점이 있다. 그러므로, 패턴인식에 필요한 시간을 감소시킬 필요가 생긴다.

종래기술에서는, 패턴매칭(pattern matching)에 기초한 방법과 특징추출(feature extraction)에 기초한 방법등을 포함하는 다양한 패턴인식방법이 개시되어 있다. 패턴매칭에 기초한 방법에 있어서는, 예를들면 인쇄된 문자, 필기체문자등이 스캐너등에 의해 광학적으로 판독되고, 이때 각각의 입력문자가 패턴 인식사전에 저장된 복수의 표준패턴과 비교되어 최대 유사도를 가진 표준패턴의 명칭이 입력패턴의 명칭으로 선택된다.

특징추출에 기초한 방법에 있어서는, 예를들면 문자부분의 수직 및 수평분포, 문자요소와 그 이웃 요소 사이의 관계들이 문자특징으로 기록된 사전이 미리 작성되고, 포착된 문자를 확인하기 위해 그 특징이 추출되어 기록된 문자의 특징과 비교되어 최대 유사도를 제공하는 특징을 가지는 문자가 포착된 문자와 같은 것으로 결정된다.

또한, 뉴로컴퓨터(neurocomputer)를 사용한 패턴인식방법이 공지되었다. 이러한 종류의 패턴인식방법에 있어서는, 예를들면 인식되는 문자, 숫자, 여러가지 패턴등의 2차원 패턴을 형성하는 돗트(dot)에 대응하는 뉴론(neuron)으로 이루어진 입력층과, 인식출력에 대응하는 뉴론으로 이루어진 출력층 및 그 사이에서 가중된 연결을 제공하는 중간층이 제공되고, 중간층에서의 가중은 백프로퍼게이션(back propagation) 방법등을 사용해서 조절되며, 학습의 완료시에 출력층은 입력층으로 입력된 패턴에 대해서, 패턴명칭과 같은 인식의 결과를 출력한다.

패턴매칭을 사용한 종래의 인식방법은 입력패턴의 크기, 위치 등을 사전에 저장된 표준패턴에 대해 정규화하기 위한 전처리가 실행되고 또한 사전에 저장된 모든 표준패턴에 대해 입력패턴이 비교되는 것이 필요하므로, 전처리 및 패턴매칭에 상당한 시간이 소비된다는 결점이 있다.

한편, 특징추출을 사용한 인식방법에 있어서는, 인식되는 문자의 모든 특징비교가 실행되어야 하고, 문자, 숫자 및 패턴의 특징수가 매우 많아지게 된다. 이것은 고인식률이 달성되려면 사전의 크기가 매우 커지게 된다는 문제점을 생기게하므로 인식시간이 증가한다는 결점이 있다.

또한, 고딕체 및 이탤릭체와 같은 상이한 활자체의 문자, 숫자등과 함께 표준패턴을 포함하는 자료의 경우, 패턴매칭 또는 추출 및 특징비교가 각각의 활자체마다 실행될 필요가 있어, 활자체의 수와 동일한 수의 매칭 또는 비교동작이 하나의 문자명칭에 대해 실행되므로 인식에 상당한 시간이 필요하다. 연속적인 비교가 필요한 방법 대신에 인식되는 패턴의 종류를 한정하는 대분류 기술을 사용하는 방법이 연구되고 있지만, 인식률을 감소시키지 않고 대분류를 실시할 수 있는 최적수단은 아직 실현되지 않았다.

한편, 뉴로컴퓨터를 사용하는 패턴인식방법은 학습이 10 내지 수천번 반복되고, 또한 인식할 수 있는 패턴의 수가 한정될 필요가 있다. 따라서, 이 방법은 현재 상업적으로 실시되지 않고 있다.

상기 사정을 고려하여, 본 발명의 목적은 사전작성에 필요한 시간의 단축, 상이한 활자체의 문자를 포함하는 자료라도 인식시간의 단축 및 인식률의 향상을 달성하는 패턴인식 방법 및 장치와 사전작성 방법을 제공하는 것이다. 본 발명의 또 다른 목적은, 인식처리시 모든 카테고리(category)에 대한 유사도가 얻어질 수 있도록 하는데 있다.

[발명의 개시]

본 발명은, (a) 입력패턴의 인식영역을 N개의 블록으로 분할하고, 대응하는 부영역 번호를 N개의 블록에 할당하여 N개의 부영역을 형성하는 스텝과, (b) 규정된 기준에 따라서 상기 N개의 부영역마다 특징을 계산하는 것에 의해 요소로서 N개의 특징을 가지는 특징벡터를 작성하는 스텝과, (c) 특징벡터의 N개 요소중 최대요소 또는 최소요소를 구하여 상기 구해진 요소에 대응하는 1개의 부영역 번호로 이루어진 제1의 특징셋트을 작성하고, 2개의 최대요소 또는 최소요소를 구하여 상기 구해진 2개의 요소에 대응하는 2개의 부영역번호의 조합으로 이루어진 제2의 특징셋트을 작성하는 등, N-1개의 부영역번호의 조합으로 이루어진 제N-1의 특징셋트를 작성할때까지 전체 N-1개의 특징셋트를 작성하는 스텝 및 (d) 여러종류의 모델 패턴에 상기 스텝(a)∼(c)을 실행해서 구해진 특징셋트가 모델패턴의 카테고리명칭과 함께 미리 기록된 사전을 참조해서 입력패턴의 특징셋트와 사전에 저장된 특징셋트 사이에서 카테고리 명칭과 대응관계에 있는 유사도를 구하고, 최대 유사도가 제공된 카테고리 명칭을 입력패턴의 카테고리 명칭으로 결정하는 스텝을 구비하는 패턴인식 방법을 제공한다.

또한, 본 발명은 인식되는 패턴을 입력하기 위한 입력수단과, 입력패턴의 인식영역을 N개의 블록으로 분할하고, 대응하는 부영역번호를 N개의 블록에 할당하여 N개의 부영역을 형성하기 위한 수단과, 규정된 기준에 따라서 상기 N개의 부영역마다 특징을 계산하는 것에 의해 요소로서 N개의 특징을 가지는 특징벡터를 작성하기 위한 수단과, 특징벡터의 N개의 요소중 최대요소 또는 최소요소를 구하여 상기 구해진 요소에 대응하는 1개의 부영역번호로 이루어진 제1의 특징셋트를 작성하고, 2개의 최대요소 또는 최소요소를 구하여 상기 구해진 2개의 요소에 대응하는 2개의 부영역번호로 이루어진 제2의 특징셋트를 작성하는 등, N-1개의 부영역 번호의 조합으로 이루어진 제 N-1의 특징셋트을 작성할때까지 전체 N-1개의 특징셋트을 작성하기 위한 수단과, 여러종류의 모델 패턴에 패턴입력수단, 부영역 작성수단, 특징벡터 작성수단 및 특징셋트 작성수단에 의해 실행된 처리를 통해서 구해진 특징셋트가 모델 패턴의 카테고리 명칭과 함께 미리 기록된 사전을 저장하기 위한 수단 및 입력패턴의 특징셋트와 사전에 저장된 특징셋트 사이에서 카테고리 명칭과 대응관계에 있는 유사도를 구하고, 최대 유사도가 제공된 카테고리 명칭을 입력패턴의 카테고리 명칭으로 결정하기 위한 수단을 구비하는 패턴인식 장치를 제공한다.

또, 본 발명은, (a) 입력 모델패턴의 인식영역을 N개의 블록으로 분할하고, 대응하는 부영역 번호를 N개의 블록에 할당하여 N개의 부영역을 형성하는 스텝과, (b) 규정된 기준에 따라서 상기 N개의 부영역마다 특징을 계산하는 것에 의해 N개의 특징을 가지는 특징벡터를 요소로서 작성하는 스텝과, (c) 특징벡터의 N개의 요소중 최대요소 또는 최소요소를 구하여 상기 구해진 요소에 대응하는 1개의 부영역번호로 이루어진 제1의 특징셋트를 작성하고, 2개의 최대요소 또는 최소요소를 구하여 상기 구해진 2개의 요소에 대응하는 2개의 부영역번호의 조합으로 이루어진 제2의 특징셋트를 작성하는 등 N-1개의 부영역번호의 조합으로 이루어진 제 N-1의 특징셋트를 작성할때까지 전체 N-1개의 특징셋트을 작성하는 스텝, 및 (d) 각각의 특징셋트와 모델패턴의 카테고리명칭을 결합시키는 것에 의해 특징셋트를 지정된 메모리에 저장하는 스텝을 구비하는 패턴인식 사전을 작성하기 위한 방법을 제공한다.

[도면의 간단한 설명]

제1도는 본 발명의 원리를 설명하기 위한 도면.

제2도는 본 발명의 일실시예에 의한 패턴인식장치의 하드웨어 구성을 나타내는 도면.

제3(a)도, 제3(b)도 및 제3(c)도는 특징벡터 추출을 설명하기 위한 도면.

제4(a)도, 제4(b)도 및 제4(c)도는 단순한 형태로 특징벡터를 설명하기 위한 도면.

제5도는 패턴인식 사전을 설명하기 위한 도면.

제6도는 패턴인식 사전의 자료구조를 설명하기 위한 도면.

제7도는 사전자료의 압축을 설명하기 위한 도면.

제8도는 특징벡터 작성을 위한 절차를 나타내는 플로우챠트,

제9도 내지 제13도는 입력패턴 돗트(dot)를 가중하기 위한 절차를 나타내는 플로우챠트.

제14(a)도, 제14(b)도, 제14(c)도, 제14(d)도, 제14(e)도, 및 제14(f)도는 가중에 의해 패턴이 어떻게 변형되는가를 나타내는 도면.

제15도는 입력패턴의 예를 나타내는 도면.

제16도는 제15도에 도시된 입력패턴을 가중한 후 구해진 패턴을 나타내는 도면.

제17도는 각 부영역내의 돗트를 계산하는 처리에 관련하여 제14(f)도에 도시된 패턴의 부영역에 분포된 돗트 값을 설명하기 위한 도면.

제18도는 제17도에 도시된 돗트분포에서의 돗트 계산의 결과를 구해진 특징벡터를 나타내는 도면.

제19도 및 제20도는 각 부영역내에서 돗트를 계산하기 위한 절차를 나타내는 플로우챠트.

제21도 내지 제23도는 사전을 작성하기 위한 절차를 나타내는 플로우챠트.

제24도 및 제25도는 입력 패턴인식을 위한 절차를 나타내는 플로우챠트.

제26도 및 제27도는 사전탐색을 위한 절차를 나타내는 플로우챠트를 나타낸다.

[발명을 실시하기 위한 최선의 실시예]

이하 본 발명을 첨부된 도면을 참조하여 상세히 설명한다.

제1도는 본 발명의 원리를 설명하기 위한 도면이다. 동도에 도시된 바와 같이, 본 발명의 패턴인식장치는 기본적으로 패턴입력부(1), 패턴인식사전(2) 및 패턴인식 처리부(3)로 구성된다. 패턴입력부(1)는 패턴을 판독할 수 있는 스캐터 또는 이미지 자료가 저장된 메모리로 구성된다. 패턴인식 사전(2)은 가타가나, 히라가나 및 한자 등과 같은 문자명칭, 숫자명칭 및 별표(asterisk)와 같은 패턴명칭으로부터 구해진 특징셋트가 카테고리명칭과 결합해서 저장되는 메모리로 구성된다. 동일한 카테고리 명칭에 속하는 상이한 활자체 때문에 복수의 모델 패턴에서 구해진 특징셋트가 사전(2)에 저장될 수 있다. 이러한 모델패턴이 추가될 필요가 없으면 사전(2)은 판독전용메모리(ROM)로 구성될 수 있다. 마이크로프로세서 등의 처리기능을 이용하는 패턴인식 처리부(3)는 사전(2)을 작성하는 처리와 유사한 처리에 의해 패턴입력부(1)에서 입력된 입력패턴으로부터 특징셋트을 구하고, 입력패턴의 특징셋트와 사전에 저장된 특징셋트 사이에서 카테고리 명칭과 대응관계에 있는 유사도를 구하여, 최대 유사도를 제공하는 카테고리 명칭을 입력패턴의 카테고리 명칭으로 결정한다.

제2도는 본 발명의 일실시예에 의한 패턴인식장치의 하드웨어 구성을 나타내는 블록도이다. 동도에 있어서, 10은 다목적 마이크로컴퓨터로 구성되는 CPU, 11은 CPU(10) 뿐만 아니라 패턴인식 사전용 프로그램을 저장하는 ROM, 12는 CPU(10)의 계산 및 제어동작동안 임시자료를 저장하기 위한 RAM, 13은 인식되는 패턴을 스캔(scan)하기위한 광학수단이 구비된 스캐너, 14는 스캐너를 제어하기 위한 제어회로, 15는 패턴인식 사전, 패턴인식결과 등을 파일(file)로 저장하기 위한 하드디스크장치, 16은 하드디스크장치를 제어하기 위한 제어회로, 17은 이러한 파일을 저장하기 위한 플로피디스크장치, 18은 플로피디스크장치를 제어하기 위한 제어회로, 19는 패턴인식결과 등을 인쇄하기 위한 프린터, 20은 프린터를 제어하기 위한 제어회로이다. CPU(10), ROM(11), RAM(12) 및 제어회로(14, 16, 18)는 시스템버스(30)에 의해 상호 연결된다.

이하, 패턴인식 사전에 대하여 설명한다. 이 사전을 작성하기 위해, 특징셋트들이 페턴스캐너(13)를 통해 입력된 모델패턴으로부터 구해지고, 예를들면 이들 특징셋트들은 문자명칭, 숫자명칭 및 패턴명칭과 같은 카테고리명칭과 결합되어 메모리(예를들면, ROM11)에 저장된다. 이러한 특징셋트들은 특징벡터로부터 구해질 수 있다. 특징벡터는 모델 패턴의 인식영역을 같은 면적크기 또는 같은 돗트수의 N개의 부영역으로 분할하는 것에 의해 작성되고, 각각의 부영역의 돗트수 또는 면적크기는 특징벡터의 요소이거나, 또는 선택적으로 모델 패턴에서 얻어진 동일한 수인 N개의 다른 특징이며, 이때 각각의 특징은 특징벡터의 요소를 형성한다. 특징벡터(V)는 다음과 같이 나타낼 수 있다.

이때, I개의 요소(I=1∼N-1)는 특징벡터(V)의 요소(V₁∼V_N)에서 요소의 내림차순 또는 오름차순으로 연속적으로 선택된다. 1개의 선택된 요소의 벡터위치(이들 위치는 부영역 번호와 일치한다)를 나타내는 요소의 셋트가 특징셋트(T₁)로 불려진다. I=1∼N-1에 따라 N-1개의 특징셋트가 작성된다. 이들 N-1개의 특징셋트(T₁)는 I의 오름차순으로 배열되어 T₁,T₂,···,T_N-1으로 이루어진 특징셋트 수순을 작성한다. 예를들면, (1)식에서 요소가 내림차순의 크기로 배열된다. 즉, 크기가 V₁, V₂, V₃,···,V_N의 순서대로 감소하고, 이때 I-1일때 특징세트는 ｛1｝, I=2일때 특징셋트는 ｛1,2｝, I=3일때 특징셋트는 ｛1,2,3｝등 I=N-1일때 최종 특징셋트는 ｛1,2,3,···,N-1｝이다. 이와같은 방식으로 전체 N-1개의 특징셋트가 얻어진다. 패턴인식 사전은 각각의 특징셋트를 모델 패턴의 카테고리 명칭과 결합해서 메모리에 저장하는 것에 의해 작성된다.

예를들면, 제3(a)도에 도시된 문자 “A”에 대해서, X돗트 ×Y돗트로 이루어진 인식영역이 수직 및 수평 양쪽 방향으로 4분할되면, 같은 면적크기에 전체 16개의 부영역이 얻어진다. 부영역번호(1∼16)가 각각의 부영역에 할당되고, 각각의 부영역에서 흑색 돗트의 수가 계산되며, 각 흑색돗트는 문자영역의 부분을 형성한다. 이들 계산된 값을 V₁∼V₁₆으로 표시하면, (1)식으로 나타낸 특징벡터(V)가 구해진다. 이때, I의 요소(I=1∼N-1)가 요소 V₁∼V₁₆으로 부터 값의 내림차순으로 연속적으로 선택된다. 다음 I개 선택된 벡터요소에 대응하는 I개 의 부영역번호를 나타내는 요소를 각각 가지는 특징셋트(T₁)(I=1∼N-1)가 구해진다. 이들 특징셋트는 I의 오름차순으로 배열되어 특징셋트 수순 T₁∼T_N-₁(-T₁∼T₁₅)를 작성한다.

문자 “A”에 대해서, 부영역번호 (1∼16)이 흑색 돗트 수단의 내림차순으로 배열될때, 그 결과는

6, 7, 10, 11, 13, 16, 2, 3, 9, 12, 5, 8, 14, 15, 1, 4

이고, 이때 특징셋트 수순 T₁∼T₁₅는 다음과 같이 주어진다.

이들 특징셋트는 카테고리명치 A와 결합해서 메모리에 저장된다.

제3(b)도는 인식영역이, 우선 같은 흑색 돗트수의 블록으로 수직으로 분할되고, 각각의 블록은 같은 흑색 돗트수의 부블록으로 수평으로 분할되어, 부영역번호(1∼20)가 부영역에 부할당된 예를 나타낸다. 부영역의 면적크기가 각각 V₁∼V₂₀으로 표시될 때, (1)식으로 표시된 특징벡터가 구해진다. 이때, I개의 요소(I=1∼N-1)가 면적크기의 내림차순 또는 오름차순으로 연속적으로 선택된다. 다음, I개의 선택된 벡터요소에 대응하는 I개의 부영역번호를 나타내는 요소를 각각 가지는 특징셋트(T₁)(I-1∼N-1)가 구해진다. 이들 특징셋트는 I의 오름차순으로 배열되어 특징셋트 수순 T₁∼T_N-1(=T₁∼T₁₉)를 작성한다.

제3(c)도는 패턴인식영역이 동심원과 방사상의 직선으로 분할된 예를 나타낸다. 이 예에 있어서, 각각의 부영역에서 흑색 돗트수가 계산되고, 8개의 최외부 부영역중 최대 계산값을 가지는 부영역이 부영역번호 1을 할당받고, 이것을 시작으로 부영역번호 2∼24가 순차적으로 할당되며, 각각의 부영역에서 흑색 돗트수를 계산하여 24개의 요소로 이루어진 특징벡터를 작성한다. 이때, 1,2,3,·····,23의 특징벡터 요소는 계산값의 내림차순 또는 오름차순으로 순차적으로 선택된다. 다음, I개 선택된 백터요소에 대응하는 I개의 부영역번호를 나타내는 요소를 각각 가지는 특징셋트(T1)(I=1∼N-1)가 구해진다. 이들 특징셋트는 I의 오름차순으로 배열되어 특징셋트 수순 T1∼수-1(=T1∼T23)를 작성한다. 이 방법은 또한 여러종류의 패턴인식에 적용될 수 있다.

다음, 돗트의 가중처리를 설명한다. 제3(a)도에 있어서, 수평돗트수를 X, 수직돗트수를 Y로 표시하면, X×Y(돗트)의 패턴인식영역은,

여기서, 0＜x＜X, O≤y＜Y,x,y는 정수.

로 정의된다. 그러므로, 함수 f(x,y)는 격자점을 나타낸다.

또한, (2)식은 실수로 확대되어 다음과 같이 정의된다.

여기서, 0≤x＜X, O≤y＜Y,x,y 는 실수.

그러므로, 함수 f(x,y)는 또 격자점 사이의 점도 나타낸다.

점(x,y)을 윤곽점이라고 가정하면, f(x,y)≠f(x´,y´)인 점(x´,y´)이 점(x,y)에 매우 근접해서 존재한다. 즉, 매우 근접한 점(x,y) 및 (x´,y´)에 대하여, f(x,y)≠f(x´,y´)인 점이 윤곽점이다.

또한, 점(x,y)에서 가장 가까운 윤곽점까지의 거리를 d(x,y,f)로 나타낼때, 구간(O,X), 및 (O,Y)은 각각 n_x, n_y로 균등하게 분합되어, n_x×n_y=N부영역을 형성하고, 특징벡터(v)의 요소(v_i)는 다음과 같이 나타낼 수 있다.

여기서, Ri는 직사각형 부영역을 나타내고, ∫∫_Ri( )dxdy는 직사각형 부영역의 표면적분을 나타낸다. 또한, 1≤i≤N 이다.

f(x,y)가 0 또는 1이기 때문에, (4)식에서 2·f(x,y)-1은 f(x,y)=1일때 1이고, f(x,y)=0일때 -1이다. 즉, (4)식은 가장 가까운 윤곽점으로부터 거리에 따라 가중값을 할당함으로써 특징벡터(V)의 요소(Vi)를 구하기 위해 사용된다. 이때, 특징벡터(V)가 구해지고, 상술한 바와같이 동일한 방식으로, I개의 요소(I=1∼N-1)가 요소(vi)의 내림차순 또는 오름차순으로 순차적으로 선택된다. 다음, I개의 선택된 백터요소에 대응한 I개의 부영역 번호를 나타내는 요소를 각각 가지는 특징셋트(T_I)(I=1∼N-1)가 구해진다. 이들 벡터셋트는 I의 오름차순으로 배열되어 특징셋트 수순 T₁∼T_N-1를 형성한다.

제4(a)도, 제4(b)도 및 제4(c)도는 간단한 형태의 특징벡터를 설명하기 위한 도면이고, 각각의 도면은 차원 N=4인 특징벡터(V)의 요소를 나타낸다. 각도면에서 번호(1)∼(4)는 부영역 번호를 나타낸다. 제4(a)도, 제4(b)도 및 제4(c)도에 도시된 특징벡터는 각각 Va,Vb 및 Vc로 표시되고, 다음과 같이 주어진다.

1∼N-1개의 요소, 즉 1개, 2개 및 3개의 요소가 특징벡터(V_a)의 요소로 부터 내림차순으로 연속적으로 선택되어 다음과 같이 특징셋트 T_a1, T_a2, T_a3를 구한다.

마찬가지로, 특징벡터(V_b)로부터 구해지는 특징셋트는 다음과 같이 주어진다.

또, 특징벡터(V_c)로 부터 구해지는 특징셋트는 다음과 같이 주어진다.

다음에, 카테고리 명칭 “A”및 “B”에 대해서, 예를들면 다양한 종류의 인쇄된 문자, 필기체 문자 등으로 된 4종류의 모델 패턴이 입력되고, 인식영역이 6개의 부영역(즉, 특징벡터의 차원이 6이다)으로 분할되어 6개의 부영역번호(1∼6)에서 각각 돗트수가 계산된다. 여기서 다음과 같은 결과가 주어졌다고 가정한다.

이때, 특징셋트 수순 TA1∼TA4, TB1∼TB4는 우선 특징벡터중 최대 요소, 2개의 최대 요소등 내림차순의 크기로 1∼5개의 요소로 차례차례 선택하고, 이렇게 선택된 요소에 대응하는 영역번호를 결합시키는 것에 의해 특징벡터 VA1∼VA4∼, VB1∼VB4로 작성된다.

그 결과가 이하에 도시되었다.

사전은 이들 특징셋트를 카테고리 명칭과 결합해서 메모리에 저장하는 것에 의해 작성된다. 제5도는 상기예에 기초한 사전의 일부분을 나타낸다. 예를들면, 특징셋트 ｛3｝이 카테고리 명칭 “A”와 “B”에 공통인 것이 도시되었다. 상기한 바와 같이, 사전은 모델패턴으로부터 특징셋트를 작성하고, 특징셋트를 카테고리명칭과 결합해서 레코드(record)를 작성하며, 특징셋트의 오름차순으로 레코드를 배열하는 것에 의해 작성된다. 사전구조는 하나의 특징 셋트가 하나 이상의 카테고리 명칭과 결합될 수 있다. 따라서, 사전의 작성은 입력모델 패턴의 수에 비례하는 시간내에 달성될 수 있어, 종래의 방법과 비교해서 사전작성 시간의 철저한 감소를 달성한다. 또한, 사전의 일부분에만 수정 또는 추가하는 절차가 필요할 뿐이므로 모델 패턴이 용이하게 추가될 수 있다. 또한 상기한 사전구조는 패턴인식에 필요한 시간을 감소시키는데 공헌한다.

제6도는 패턴인식 사전의 자료구조를 설명하기 위한 도면으로 카테고리 명칭이 비트위치로 표시된 예를 나타낸다. 하나의 특징셋트가 상이한 카테고리명칭 LX₁과 LX₂에 결합될 때, 상기한 바와 같이, 카테고리 명칭 LX₁과, LX₂는 사전에 저장하기 위한 카테고리 명칭 LX´로 OR 논리 처리된다. 이러한 처리에 따라서, 특징셋트와 확인되는 카테고리 명칭의 수와 동일한 비트수의 비트스트링(bit string)으로 표시된 카테고리 명칭의 조합으로부터 사전중 하나의 레코드가 형성된다. 또한, 특징셋트(TX)에 대해서 특징벡터의 요소위치 또는 부영역번호가 부영역의 수와 동일한 비트수의 비트 스트링에서 비트 위치로 표시될 수 있다. 예를들면, 상술한 6개의 부영역 작성의 경우, 요소(“1”∼“6”)는 6비트의 비트 스트링에서 비트위치로 표시되고, 예를들면 특징셋트 ｛2,3｝은 “000110”으로 표시된다.

특징셋트 (TX)가 카테고리명칭 (LX)과 결합된 제6도의 사전구조는 6개의 부영역과 10개의 카테고리가 있는 경우에 관한 것이다. 도시된 예에 있어서, 특징셋트 TX=1(“00001”)가 카테고리 명칭 LX=2(“0000000010”)와 결합되어 하나의 특징셋트가 하나의 카테고리 명칭과 결합되며, 한편 특징셋트 TX=2(“000010”)는 “1”의 비트위치가 상이하게 표시된 2개의 카테고리 명칭에 대응하는 카테고리 명칭 LX=5(“0000000101”)와 결합된다.

카테고리의 수가 많아지면, 카테고리 명칭(LX)을 표시하기 위해 많은 비트수가 필요하고,

여러종류의 자료처리에 사용되는 자료 압축/복원 기술이 사용될 것이다. 제7도에 도시된 바와 같이, 예를들면 자료량을 감소시키기 위해 LX자료가 재정리되고 중복자료가 삭제되어 신규 LX 자료를 작성한다. 이때, TX값과 LX자료에 대한 포인터 정보의 조합으로 이루어진 테이블이 작성된다. 인식처리에 어떠한 나쁜 영향을 미치지 않으면 테이블이 압축될 수 있다.

또한, 특징셋트(TX)를 어드레스트 표시하는 것이 가능하다. 그 경우, 예를들면 제6도에서 TX=1,2,3,5,···63가 LX=2가 어드레스 1에 저장되고, LX=5가 어드레스 2에 저장되는 등 어드레스 1,2,3,5,···,63으로 표시된다. 어드레스 4에 결합된 카테고리 명칭(LX)이 없기 때문에 어드레스 4에 LX=0이 저장된다.

다음, 특징벡터를 작성하기 위한 절차가 구체적인 예와 함께 설명될 것이다. 제8도는 특징벡터를 작성하기 위한 기본적인 절차를 나타내는 플로우차트이다. 여기에 도시된 특징벡터의 작성루틴(routine)은 사전작성처리 또는 입력패턴 인식처리라고 불려지고, 이들 처리는 후술될 것이다. 특징벡터의 작성처리는 특정패턴 인식시스템의 목적등에 따라 여러가지 방법으로 수정될 수 있고, 다음에 전형적인 예를 나타낸다.

우선, 패턴자료가 가중되는가, 아닌가에 대해 판정된다(스텝 102). 자료가 가중된다면, 돗트 가중이 패턴자료에 적용되고(스텝 104), 가중된 돗트가 계산된다(스텝 106). 한편, 가중이 적용되지 않는다고 판정되면, 처리는 패턴자료에서 돗트를 계산하는 스텝으로 건너뛴다(스텝 106). 상기한 것이 특정벡터를 작성하기 위한 기본적인 절차이다. 다음, 가중처리 및 계산처리가 이하에 상세하게 설명될 것이다.

제9도 내지 제13도는 가중처리를 나타내는 플로우챠트를 나타내는 것으로, 제8도의 스텝(104)에서 실행된 처리의 예를 나타낸다. 우선, 변식 Ⅰ(인식영역내의 돗트위치를 지정한다)에 0이 대입된다(스텝 202). 다음, 입력패턴 인식영역의 수평 돗트수를 X, 수직돗트수를 y로 표시하여, Ⅰ가 X×Y보다 작은가 아닌가, 즉 Ⅰ가 인식영역에서 최종돗트의 내측 위치를 지시하는가 아닌가를 판정된다(스텝 204). Ι≥X×Y이면 스텝(210)으로 진행하고, I＜X×Y이면 스텝(206)으로 진행한다. 스텝(206)에서 입력패턴 P〔I〕에 소정의 중위값(MIDDLEAL)이 곱해져 가중된 패턴 θ[I]를 작성한다. 예를 들면, 입력패턴 P[I]는 흰색돗트에 대해 0, 흑색돗트에 대해 1로 표시된다.

따라서, 중위값이 16으로 설정되면 1로 표시된 각각의 흑색돗트에 값 16이 가중된다. 다음, I가 증가되고(스텝 208), 처리가 스텝(204)으로 되돌아간다. 계산의 관점상 흰색면적(0)이 경우에 따라서 가중의 결과 음수값으로 표시되는 상태를 회피하기 위해 중위값이 선택되는 것이 바람직하다. 본 실시예에 있어서, 중위값이 16으로 설정되어 이러한 상태를 회피한다. 그러나, 이 값은 한정되지 않는다.

스텝(206)에서 모든 I에 대한 처리가 종료될 때, 모든 돗트에 대한 처리도 종료하고, 스텝(204)에서 I=X×Y가 충족되어 처리가 스텝(210)(제10도)으로 진행한다. 예를들면, 제14(a)도에 도시된 입력패턴 P[I](X=9, Y=11, I=0∼98)가 입력되는 것으로 가정한다. 그 경우, 제14(b)도에 도시된 패턴 Q[I]는 처리가 스텝(210)으로 진행할때까지 작성된다. 제14(a)도에서 흑색 돗트는 1, 흰색돗트는 0으로 표시한다.

스텝(210)에서 변수 J에 중위값(MIDDLEVAL)이 대입된다. 다음, 변수 I에 0이 대입되고, 규정된 플래그(FLG)가 0으로 설정된다(스텝 212). 다음 스텝(스텝 214)에서 I가 X×Y와 비교된다. I=X×Y이면, 처리가 스텝(238)으로 진행하고, I〈X×Y이면, 처리가 스텝(216)으로 진행한다. 스텝(216)에서 Q[I]가 0과 비교되어 Q[I]≠0이면, 처리가 스텝(236)으로 진행하고, Q[I]=0이면, 처리가 스텝(218)으로 진행한다.

스텝(218)에서, I-X가 0과 비교되어 I-X〈0이면, 처리가 스텝(222)으로 진행하고, I-X≥0이면, 처리가 스텝(220)으로 진행한다. 스텝(220)에서 Q[I-X]가 J와 비교되어 Q[I-X]=J이면, 처리가 스텝(234)으로 진행하고, Q[I-X]≠J이면, 처리가 스텝(222)으로 진행한다. 즉, 현재돗트값 Q[I]가 0이고, 한 직선위의 돗트값 Q[I-X]가 J와 같을 때, 처리가 스텝(234)으로 진행하여 Q[I]가 변한다.

스텝(222)에서 I+X가 X×Y와 비교되어 I+X≥X×Y이면 처리가 스텝(226)으로 진행하고, I+X〈X×Y이면 처리가 스텝(224)으로 진행한다. 스텝(224)에서 Q[I+X]가 J와 비교되어 Q[I+X]=J이면 처리가 스텝(234)으로 진행하고, Q[I+X]≠J이면 처리가 스텝(226)으로 진행한다. 즉, 현재의 돗트값 Q[I]가 0이고, 한 직선 아래의 돗트값 Q[I+X]가 J와 같을 때, 처리가 스텝(234)으로 진행하여 Q[I]가 변한다.

스텝(226)(제11도)에서, I/X의 나머지, 즉 I%X가 0과 비교되어 나머지가 0이면, 즉 I% X=0이면 처리가 스텝(230)으로 진행하고, 나머지가 0이 아니면, 즉 I%X≠0이면 처리가 스텝(228)으로 진행한다. 여기서, %는 C언어에서의 나머지 연산자이다. 스텝(228)에서 Q[I-1]가 J와 비교되어 Q[I-1]=J이면 처리가 스텝(234)으로 진행하고, Q[I-1]≠J이면 처리가 스텝(230)으로 진행한다. 즉, 현재의 돗트값 Q[I]가 0이고, 그 좌측에 인접한 돗트값 Q[I-1]가 J와 같을 때, 처리가 스텝(234)으로 진행하여 Q[I]가 변한다.

스텝(230)에서 I/X의 나머지, 즉 I%X가 X-1과 비교되어 I%X=X-1이면 처리가 스텝(236)으로 진행하고, I%X≠X-1이면 처리가 스텝(232)으로 진행한다. 스텝(232)에서, Q[I+1]가 J와 비교되어 Q[I+1]=J이면, 즉 Q[I]의 우측 이웃의 J와 같으면, 처리가 스텝(236)으로 진행한다.

즉, 현재의 돗트값 Q[I]가 0이고, 그 우측 이웃의 돗트값 Q[I+1]가 J와 같을 때, 처리가 스텝(234)으로 진행하여 Q[I]가 변한다.

스텝(234)에서 Q[I]에 J-1이 대입되고, 플래그(FLG)가 1로 설정된다. 이것은 입력패턴의 흑/백 경계선에 인접한 흰색돗트에 대한 가중이 J-1(초기에 16-1=15)의 값으로 변화되는 것을 의미한다.

스텝(236)에서 변수 I의 값은 스텝(214)으로 되돌아가기 전에 증가되어 다음 돗트에 대한 상기 처리를 실행한다.

모든 돗트에 대해서 상기처리가 종료되고, 스텝(214)에서 I=X×Y가 충족될때, 처리가 스텝(238)으로 진행한다. 제1시간동안 처리가 스텝(238)에 도달할때까지, 상기 제14(b)도의 패턴이 경계선에 인접한 흰색돗트영역이 15로 설정된 제14(c)도의 패턴으로 변형된다.

스텝(238)에서 플래그(FLG)가 0인가 아닌가가 판정된다. 플래그가 1이면, J가 감소되고 (스텝 240), 스텝(212)으로 되돌아간다. 스텝(238)에서 플래그가 0이면, 예를들면 제14(c)도의 패턴이 제14(d)도에 도시된 패턴으로 변형되는 지점까지 처리가 진행되는 것을 의미한다. 그경우, 처리가 스텝(242)으로 진행한다.

스텝(242)(제12도)에서 변수 J에 중위값(MIDDLEVAL)이 대입된다. 다음 스텝(244)에서 변수 I에 수평 돗트수(X)가 대입되고, 플래그(FLG)가 0으로 설정된다. 이때, 스텝(246)에서 I가 X×Y-X와 비교되어 I=X×Y-X이면 처리가 스텝(266)으로 진행하고, I〈X×Y-X이면 처리가 스텝(248)으로 진행한다. 스텝(248)에서, Q(I)가 J와 비교되어 Q[I]=J이면 처리가 스텝(250)으로 진행하고, Q[I]≠J이면 처리가 스텝(264)으로 진행한다.

스텝(250)에서 Q[I-X]가 J와 비교되어 Q[I-X]〈J이면 처리가 스텝(264)으로 진행하고, Q[I+1]≥J이면, 즉 한 직선 위의 돗트값 Q[I]가 변수 J와 같으면, 처리가 스텝(252)으로 진행한다.

스텝(252)에서 Q[I+X]가 J와 비교되어 Q[I+X]〈J이면 처리가 스텝(264)으로 진행하고, Z[I+X]≥J이면, 즉 한 직선 아래의 돗트값 Q[I]가 변수 J와 같으면, 처리가 스텝(254)으로 진행한다.

스텝(254)에서, I/X의 나머지, 즉 I%X가 0과 비교되어 I%X=0이면 처리가 스텝(264)으로 진행하고, I%X≠0이면 처리가 스텝(256)으로 진행한다. 스텝(256)(제13)도에서 Q[I-1]가 J와 비교되어 Q[I-1]〈J이면 처리가 스텝(264)으로 진행하고, Q[I-1]≥J이면, 즉 Q[I]의 좌측이웃이 J와 같으면 처리가 스텝(258)으로 진행한다.

스텝(258)에서 I/X의 나머지, 즉 I%XX-1과 비교되어 I%X=X-1이면 처리가 스텝(264)으로 진행하고, I%X≠X-1이면 처리가 스텝(260)으로 진행한다. 스텝(260)에서 Q[I+I]가 J와 비교되어 Q[I+1]가 〈J이면 처리가 스텝(264)으로 진행하고, Q[I+1]≥J이면, 즉 Q[I]의 우측이웃이 J와 같으면 처리가 스텝(262)으로 진행한다.

스텝(262)에서 Q[I]와 한 직선 위, 아래 및 우측, 좌측의 값이 모두 J와 같이 때문에 Q[I]에 J+1이 대입된다. 즉, 변수 J의 값이 16(초기값)이면, Q[I]에 17이 대입된다. 이때 플래그(FLG)는 1로 설정되고, 처리가 스텝(264)으로 진행한다.

스텝(264)에서 변수가 I가 증가되고, 처리가 스텝(246)으로 되돌아가 다음 돗트에 대한 처리를 실행한다.

스텝(246)에서, 제1시간동안 식 I=X×Y-X가 충족되면, 이것은, 예를들면 상기 제14(d)도의 패턴이 제14(e)도에 도시된 패턴으로 변형되는 지점까지 가중처리가 진행되는 것을 의미한다.

스텝(266)에서 플래그(FLG)가 0인가 아닌가가 판정된다. 플래그가 0이 아니면 J가 증가되고 (스텝 268), 처리가 스텝(244)으로 되돌아간다. 스텝(266)에서 플래그(FLG)가 0이면 제14(e)도의 패턴이 제14(f)도의 도시된 최종패턴으로 변형되는 지점까지 처리가 진행되고, 가중처리가 종료되는 것을 의미한다. 이렇게 흑/백 경계선으로 부터 거리에 따라 가중된 패턴 Q[I](제14(f)도)가 입력패턴 P[I](제14(a)도)로 부터 구해질 수 있다.

제15도는 제14(a)도에 도시된 예보다 많은 돗트수로 작성된 입력패턴의 예를 나타낸다. 여기에, 알파벳 문자 T에 대응하는 입력패턴 P[I]이 도시되었다. 상기한 가중처리가 이 입력패턴 P[I](중위값 MIDDLEVAL이 16으로 설정된다)에 실시될 때, 제16도에 도시된 바와 같은 결과가 될 것이다. 즉, 가중 17,18 및 19가 1로 이루어진 면적의 주변으로 부터 거리에 따라 할당되는 반면, 가중 15, 14, . . ., 7 및 6은 0으로 이루어진 면적의 주변으로부터 거리에 따라 할당된다.

다음, 각 부영역내의 돗트를 계산하는 처리(제8도의 스텝 106)가 아래에서 상세하게 설명될 것이다. 이 처리는 입력패턴 또는 가중된 패턴으로 부터 특징벡터를 구하기 위해 실행되며, 인식영역을 분할 하는 것에 의해 형성된 각 부영역내의 흑색 돗트수 또는 가중된 돗트값을 합계하는 것을 포함한다.

수평 돗트수(X)를 수평 나눗셈수(VX)로 나눈 결과가 정수가 아니면, 또는 수직 돗트수(Y)를 수직 나눗셈수(VX)로 나눈 결과가 정수가 아니면, 경계선상의 돗트값이 영역크기에따라 관계된 부영역 사이에 분포된다. 돗트값 계산에 있어서, 경계선상의 돗트값을 면적크기 사이의 비율로 나누기 보다는 경계선상에 없는 돗트값이 VX×VY이 곱해져 소수를 포함하는 계산을 회피한다. 또한, 이것을 특징벡터(V)의 값에 VX×VY를 곱하는 것으로 귀결되지만, 이들 곱해지는 값 사이의 상대적인 크기를 알 필요가 있으므로 그대로 사용될 수 있다. 예를들면, 제14(f)도의 패턴(X=9, Y=11)이 VX=2, VY=3으로 나누어질때, 제17도에 도시된 자료상에 덧셈연산이 실행될 결과로서 제18도에 도시된 특징벡터가 구해진다.

제19도 및 제20도는 계산처리가 어떻게 실행되는가를 구체적인 형태로 나타내는 플루우챠트이다. 우선, 변수 I가 0으로 설정되고(스텝 302), I가 N(N=특정벡터의차원)과 비교된다(스텝 304). I=N이면 처리가 스텝(310)으로 진행하고, I〈N이면 처리가 스텝(306)으로 진행한다. 스텝(306)에서, 특징벡터(V)의 요소 V[I]에 0이 대입되고, 다음 스텝(308)에서 스텝(304)으로 되돌아 가기 전에 I가 증가된다. 즉, 스텝(304,306,308)에서의 처리에 따라 특징벡터(V)의 각 요소 V[I]가 0으로 초기화 된다.

스텝(310)에서 변수 J가 0으로 설정된다. 다음 스텝(312)에서 J=Y×VY인가 아닌가가 판정된다. 여기서, VY는 수직 나눗셈수, VX는 수평나눗셈수이므로, 특징벡터의 차원(N)은 N=VY×VY 이다. J=Y×VY이면, 계산처리가 종료된다. J〈Y×VY이면 변수가 I가 0으로 설정되고(스텝 314), 이때 I=X×VX인가 아닌가가 판정된다(스텝 316). I=X×VX이면 처리가 스텝(322)으로 진행하고, I〈X×VX이면 처리가 스텝(318)으로 진행한다.

스텝(318)에서, 다음의 연산이 실행한다.

V[J/Y)×VX+I/X]-V[(J/Y)×VX+I/X]+Q[(J/VY)×X+I/VX]

이 연산은 상기한 바와 같이, 수평돗트수(X)를 수평나눗셈수(VX)로 나눈결과가 정수가 아니고, 또는 수직돗트수(Y)를 수직나눗셈수(VY)로 나눈결과가 정수가 아닌경우, 계산을 고려하여 덧셈을 실행한다.

스텝(320)에서 I가 증가되어 스텝(316)으로 되돌아간다. 한편, 스텝(322)에서 J가 증가되어 스텝(312)으로 되돌아간다.

상기 처리에 따라서, X×Y 인식영역이 나눗셈수 VX 및 VY로 나누어진 각각의 부영역에서 돗트수 또는 가증된 돗트값이 서로 더해진다. 예를들면 제14(f)도의 패턴(X=9, Y=11)이 VX=2, VY=3으로 나누어질때, 제17도에 도시된 자료상에 덧셈연산이 실행된 결과로서 제18도에 도시된 특징벡터가 구해지는 것을 쉽게 이해할 수 있다.

이제, 상기 특징벡터 작성처리를 사용하여 사전을 작성하기 위한 절차가 설명될 것이다. 제21도 내지 제23도는 사전작성 절차를 나타내는 플로우챠트이다. 여기서, 특징벡터(V)의, 차원은 N이고, 제6도에 도시된 바와 같이, 각각 특징셋트(TX)와 카테고리명칭(LX)으로 이루어진 복수의 레코드가 저장된 사전을 작성하기 위한 루틴을 나타낸다.

우선, 레코드 어드레스를 지정하기위한 카운터(CNT)가 0으로 소거된다(스텝 402). 다음, 패턴파일(예를들면, 하드디스크 15상에 저장된)이 열린다(스텝 404). 이때, 그 파일을 포함한 모든 패턴자료상에서 처리가 종료되었는가 아닌가가 검사된다.

아직 종료되지 않았다면, 하나의 모델패턴을 나타내는 패턴자료가 구해진다(스텝 403). 이때, O∼L-1 사이에서 선택되고, 적용할 수 있는 카테고리명칭과 일대일로 대응하는 하나의 값이 규정된 변수(CODE)에서 설정된다. 여기서, L은 카테고리 명칭의 번호를 지시한다. N개의 요소로 이루어진 특징벡터(V)의 작성은 상술한 절차에 따라 실행한다(스텝 412). 모델패턴의 특징벡터가 작성될때, 특징셋트(T)에 초기값 0이 대입되고(스텝 414), 변수가 1가 0으로 설정된다(스텝 416).

다음, I가 N-1과 비교된다(스텝 418). I=N-1(후술하는 바와 같이, 스텝 434에서 I가 증가한 결과)이면 처리가 스텝(406)으로 진행하고, I〈N-1이면 처리가 스텝(420)으로 진행한다.

스텝(420)에서 변수(MAXJ)가 0으로 설정되고, J가 1로 설정된 후 처리가 스텝(422)으로 진행한다. 스텝(422)에서 J가 N과 비교되어 J=N이면 처리가 스텝(430)으로 진행하고, J〈N이 면 처리가 스텝(424)으로 진행한다. 스텝(424)에서, 특정벡터(V)의 요소 V(J)가 이전의 최대값 V[MAXJ]와 비교되어 V[J]〉V[MAXJ]이면 처리가 스텝(426)으로 진행하고, V[J]≤V[MAXJ]이면 처리가 스텝(428)으로 진행한다. 스텝(426)에서, 현재의 요소 V(J)가 이전의 최대값 V[MAXJ]보다 크기 때문에, 변수(MAXJ)에 현재값(J)이 대입되고, 처리가 스텝(428)으로 진행한다. 스텝(428)에서, J가 증가되어 스텝(422)으로 되돌아간다.

스텝(430)에서, 현재 처리 사이클에서 구해진 최대요소가 다음 처리사이클에서 최대요소를 탐색할때 검출되지 않도록 V[MAXJ]에 -1이 대입된다. 상기 한 바와 같이, 이것은 본 실시예에 의한 특징벡터 작성처리에서 어떠한 벡터요소도 음수값을 갖지 못하게 한다. 또한, 특징 셋트(T)의 MAXJ번째 비트가 1로 설정되고, 여기서 최상위 비트(LSB)는 비트위치 0에 있다. C언어의 비트처리 연산자인 좌측 이동연산자 “《”를 사용하여 이 연산이 다음과 같이 표시된다.

다음 스텝(432)에서 이렇게 구해진 특징셋트(T)가 특징셋트 테이블 TX[CNT]의 내용으로 저장된다. 또한, CODE째 비트가 1로 설정되고(LSB가 비트위치 0에 있다), 다른 비트는 0으로 설정되며, 결과적인 비트스트링이 카터고리 정보테이블 LX[CNT]의 내용으로 저장된다.

이들 연산은 다음과 같이 표시된다.

이때, 카운터(CNT)가 증가되고, 처리가 스텝(434)으로 진행한다. 스텝(434)에서, 변수 I가 증가되어 스텝(418)으로 되돌아간다.

하나의 패턴자료에 대해 요약하면, 특징벡터의 요소가 내림차순의 크기로 연속적으로 구해지고, 특징셋트와 카테고리 정보로 이루어진 레코드를 작성하는 처리가 전체 N-1개의 레코드가 작성될 때까지 반복된다. 하나의 패턴자료에 대한 처리가 종료될 때, 처리가 스텝(406)으로 돌아가 처리되는 어떤 나머지 패턴에 대해 파일을 검사한다.

패턴파일에 저장된 모든 자료에 대해 상기 처리가 종료될때, 패턴파일이 닫혀진다(스텝436). 다음, 특징셋트(TX)와 카테고리 정보(LX)로 이루어진 테이블이 저장된다(스텝 438). 도수분류(frequency sorting)법에 의한 사전작성이 패턴의 수에 비례하는 시간내에 달성될 수 있기 때문에, 처리속도의 관점상 소위 도수 분류법이 사용되는 것이 바람직하다. 물론, 다른 분류법이 사용될 수 있다. 다음, 현재의 사전작성처리가 신규 사전파일의 작성용인가 존재하는 사전에 자료를 추가하는 것인가가 판정된다(스텝 440). 신규 사전파일의 경우, 메모리의 내용이 파일에 기록된다(스텝 442). 동시에, 제6도에 도시된 바와 같이 동일한 특징셋트에 대해 합병이 실행된다. 자료추가의 경우, 메모리내용을 사전에 합병하면서 자료가 파일에 기록된다(스텝 444). 상기 처리가 패턴인식 사전의 작성을 완성한다.

다음, 입력패턴을 인식하기 위한 절차가 제24도 및 제25도에 도시된 플로우챠트를 참조해서 설명될 것이다. 우선, 상기 사전 작성처리에서 작성된 것과 유사한 특징벡터가 입력패턴에 대해 작성된다(스텝502). 이때, 변수(I)가 0으로 설정되고(스텝504), I=L(L은 카테고리 명칭의 번호)인가 아닌가가 판정된다(스텝 506). I=L이면, 처리가 스텝(512)으로 진행한다. I≠L이면, 사전에서 특징셋트와 적용할 수 있는 카테고리 명칭(변수 I로 확인된) 사이의 유사도 SCORE[I]가 0으로 초기화되고(스텝508), I가 증가되며(스텝 510), 이후 처리가 스텝(506)으로 되돌아간다. 즉, 스텝(504∼510)의 처리에 따라서 유사도 SCORE[I](I=0∼L-I)가 초기화된다.

스텝(512)에서, 특징셋트(T)가 0으로 초기화되고, 다음 스텝(514)에서 스텝(516)으로 진행하기 전에 변수 K가 0으로 설정된다. 스텝(516)에서 K=N-1인가 아닌가가 판정되어 K=N-1이면 처리가 스텝(534)으로 진행한다. 한편, K〈N-1이면 처리가 스텝(518)으로 진행한다.

상술한 사전 작성처리에서 스텝(518∼528)과 스텝(420∼430)은 동일하고, 이들 스텝에 의해 특징셋트(T)가 구해진다. 이때, 후술되는 사전탐색처리가 실행되고(스텝 530), 이후 K가 증가되며(스텝 532), 처리가 스텝(516)으로 되돌아간다.

스텝(534)에서, 유사도 SCORE[I]를 최대로 하는 I가 구해지고, 이러한 I에 대응하는 명칭이 입력패턴의 카테고리 명칭으로 결정된 후, 입력패턴 인식처리가 종료된다.

제26도 및 제27도는 상기 입력패턴 인식처리의 스텝(530)에서 실행된 사전탐색 처리의 스텝을 나타내는 플로우챠트를 나타낸다. 우선, 스텝(602)에서 변수(ISTART)를 0으로 설정하고, 변수(IEND)에 규정된 값(TBLMAX)을 대입하는 것에 의해 초기화가 실행된다. 규정된 값(TBLMAX)은 사전에 저장된 레코드의 수를 지시한다. 다음 스텝(604)에서, ISTART가 IEND와 비교된다. ISTART=IEND이면, 사전탐색처리가 종료되고, ISTART≠IEND이면 처리가 스텝(606)으로 진행한다.

본 실시예의 탐새처리는 이진 탐색방법에 따라 실행되고, 스텝(606)에서 변수(IW)에 (ISTART + IEND)/2가 대입된다. 즉 시작 어드레스와 종료 어드레스의 합이 2로 나누어지고, 그 결과가 중간 어드레스(IW)로 취해진다. 다음 스텝(608)에서, 특징셋트(T)가 TX[IW]와 비교된다. T=TX[IW]이면, 처리가 스텝(614)으로 진행하고, T〈TX[IW]이면 처리가 스텝(610)으로 진행하며, T〉TX[IW]이면, 처리가 스텝(612)으로 진행한다.

스텝(610)에서 IEND에 IW가 대입되고, 처리가 스텝(604)으로 되돌아간다. 스텝(612)에서, ISTART에 IW+1가 대입되어 스텝(604)으로 되돌아간다. 스텝(614)에서 I에 0이 대입되고, 처리가 다음 스텝(616)으로 진행한다.

스텝(616)에서 I가 L과 비교되어 I=L이면 사전 탐색처리가 종료되고, I〈L이면 처리가 스텝(618)으로 진행한다. 스텝(618)에서 카테고리 명칭 LX[IW]의 I번째 비트가 1인지를 알기 위해 검사된다. 여기서, 최상위 비트는 비트위치 0에 있다. 바꾸어 말하면, LX[IW]의 AND 및 1《I, 즉 LX[IW＆1《I이 0인가 아닌가를 판정하기 위해 검사된다. AND가 0이면 처리가 스텝(622)으로 진행하고, 그렇지 않으면 처리가 스텝(620)으로 진행한다.

스텝(620)에서 스텝(622)으로 진행하기 전에 유사도 SCORE[I]가 +1씩 증가된다. 스텝(622)에서 I가 증가되고, 이때 처리가 스텝(616)으로 되돌아간다. 사전 탐색절차가 상술되었다.

이제 특징셋트 및 유사도가 아래에서 더상세하게 설명될 것이다. 하나의 카테고리 명칭과 결합된 모델패턴마다 특징셋트 수순 T₁ ^(c),···,T_N-1 ^(C)(여기서 1≤C≤L, L=카테고리 명칭전체수)가 저장된 패턴인식 사전을 사용하는 것으로 가정한다. 이때, 특징셋트 T₁＊,···,T_N-1＊을 가지는 입력패턴과 C번째 카테고리 명칭에 대응하는 모델패턴 사이의 유사도 S(c)는 다음과 같이 주어진다.

여기서

은 I=1부터 I=N-1까지의 합을 나타낸다.

상기한 것은 상이한 활자체등에 대응하는 복수의 모델패턴에 대해 각각의 카테고리 명칭이 특징셋트 수순을 가지는 경우까지 확대된다. 즉, 주어진 카테고리 명칭(c)이 m개의 모델패턴에 대응하고, 특징셋트

의 매트릭스가 형성될때, 유사도는 아래에 주어진 바와 같이 정의되고, “파워 공간 유사도(power space similarity)”로서 언급된다.

여기서, C_I는 상수(대개 1)

I=1~m

I=1~N-1

은 i가 m 사이에서 변할때 { }내의 값이 취하는 최대값.

본 발명에 있어서, 입력패턴에서 구해진 각각의 특징셋트와 문자 인식사전에 저장된 특징셋트 사이의 파워 공간유사도가 (6)식으로 정의된 바와 같이 계산되고, 최대 유사도가 제공된 모델패턴의 카테고리 명칭이 입력패턴의 카테고리 명칭으로서 결정된다.

예를들면, 미지의 카테고리 명칭을 가지는 입력패턴(PX1, PX2)이 제5도에 도시된 패턴인식 사전을 이용해서 인식되는 경우를 고찰한다. 입력패턴(PX1, PX2) 특징벡터

를 가지는 것으로 가정한다. 이때, 입력패턴(PX1)의 특징벡터(VX1)로 작성된 특징셋트 수순은,

이다. 한편, 입력패턴(PX2)의 특징벡터(VX2)에서 작성된 특징셋트 수순은,

이다. 입력패턴(PX1)의 특징셋트와 상기 특징셋트가 제5도의 사전에서 대조될 때, 입력 패턴(PX1)의 특징셋트에 대해 이하의 것이 명백해진다.

｛3｝은 카테고리 명칭 A 와 B에 결합된다.

｛2, 3,｝은 카테고리 명칭 A에 결합된다.

｛2, 3, 5｝은 어떠한 카테고리 명칭에도 결합되지 않는다.

｛1, 2, 3, 5｝은 카테고리 명칭 A에 결합된다.

｛1, 2, 3, 4, 5｝은 카테고리 명칭 A에 결합된다.

1/5점이 하나의 링크(link)에 주어지면, 입력패턴(PX1)과 카테고리 명칭 A 사이의 유사도는 4/5이고, 입력패턴(PX1)과 카테고리 명칭 B 사이의 유사도는 1/5이다.

같은 방식으로, 입력패턴(PX2)과 카테고리 명칭 A 사이의 유사도는 3/5이고, 입력패턴(PX2)과 카테고리 명칭 B 사이의 유사도는 4/5이다. 그 결과, 입력패턴(PX1)은 카테고리 명칭 A로, 입력패턴(PX2)은 카테고리 명칭 B로 확인된다. 또한, 유사도의 순서대로 카테고리명칭을 선택하는 것이 가능하다.

선택적으로, 복수의 유사도 계산방법을 조합해서 유사도가 구해질 수 있고, 예를들면, A방법으로 구해진 유사도 SA(c), B방법으로 구해진 유사도 SB(c) 및 조합된 유사도 S(c)는 다음과 같이 계산된다.

S(c) = (SA(c) + SB(c))/2

또, 대분류, 중간분류 또는 소분류와 같은 분류를 이용하는 문자인식을 실행할때, 상기 인식방법은 어떠한 소망의 레벨을 가지는 분류에도 적용될 수 있다. 본 발명에서 모든 카테고리에 대해 유사도가 계산되기 때문에 이것이 가능하고, 따라서 본 발명의 방법은 다양한 방식으로 적용될 수 있다.

상기한 바와 같이, 본 발명에 있어서, 입력패턴의 각 특징셋트와 사전에 저장된 특징셋트 사이의 “파워 공간유사도”가 구해지고, 최대 유사도를 가지는 카테고리 명칭이 입력패턴의 카테고리 명칭으로 결정된다. 본 발명의 이 방법이 고인식률을 달성하는 것으로 확인되었다. 또한, 유사도의 계산에서 사전의 레코드가 특징셋트의 오름차순으로 배열되고, 탐색은 예를들면 이진탐색법, 어드레스 표시법 등을 이용해서 행해질 수 있으므로, 유사도 계산은 사전에 저장된 모든 특징셋트에 대해 실행되는 것이 아니라 사전내용의 일부분만을 참조하는 것에 의해 달성될 수 있다. 이것은 인식에 필요한 시간을 감소시키는 효과를 갖는다. 또, 유사도 계산이 모든 카테고리 명칭에 대해 실행되기 때문에, 본 발명의 방법이, 예를들면 패턴 인식에 사용된 대분류 등에 적용될 수 있고, 따라서 응용성의 점에서 큰 장점을 제공한다.

돗트 프린터를 이용하여 52개의 단일 바이트 대, 소 알파벳 문자와 10개의 숫자가 실제로 인쇄되고, 인쇄된 문자는 300dpi(dots per inch) 해상도를 가지는 스캐너를 이용하여 판독되어 사전작서용 모델 패턴과 또 인식률의 측정을 위한 입력패턴으로서 사용된다. 사전용으로 사용된 문자수는 62개의 활자 × 80셋트 = 4960 문자이고, 인식률의 측정용으로 입력된 문자수는 62개의 활자 × 40셋트 = 2480문자이다. 퍼스널 컴퓨터를 이용하여 사전을 작성하기 위해 필요한 시간이 약 151초이고, 인식률은 98.75%인 결과를 나타내었다. 대,소문자 사이의 패턴에서 큰 유사도 때문에 인식률 에러가 발생되지만, 문자 크기에 대한 정보를 입력하는 것에 의해 99.75%의 인식률이 달성된다.

또한, JIS 분류 I문자센트에서 2965개의 칸지문자가 레이저프린터를 이용하여 인쇄되고, 인쇄된 문자는 300dpi의 스캐너에 의해 판독되어 사전 작성용 모델패턴과 또 인식률의 측정을 위한 입력패턴으로서 사용된다. 이 경우, 99.97%의 인식률이 달성된다. 하나의 문자를 인식하기 위해 필요한 시간은 약 0.019초이다. 또, 필기체 문자 0∼9 및 X가 사전 작성 및 인식률의 측정을 위해 제공된다. 이 경우, 전체 10,994개의 문자에 대해 98.86%의 인식률이 얻어진다. 이 인식률은 실제 사용에 충분하다.

본 발명에 따른 패턴인식 사전의 작성에 있어서, N개의 특징이 특징벡터를 작성하기 위해 각 모델 패턴에서 추출되고, N-1개의 특징 셋트는 특징벡터로 작성되며, 이들 특징셋트는 카테고리 명칭과 결합해서 메모리에 저장되고, 하나의 특징셋트는 하나 이상의 카테고리 명칭과 결합될 수 있다. 이것은 모델 패턴과 카테고리 명칭의 수가 많더라도 사전을 작성하기위해 필요한 시간을 감소시켜 경제적으로 사전을 작성할 수 있다. 또한, 추가는 사전의 일부분을 수정할 필요만 있을 뿐이므로 모델 패턴이 사전에 쉽게 추가될 수 있는 장점이 있다.

[산업상의 이용 가능성]

본 발명은 적절히 특징벡터 작성방법을 선택하는 것에 의해 모든 종류의 패턴인식에 적용될 수 있다. 특히, 본 발명은 그 중 광학문자인식(OCR)판독기, 또한, 의료 진단시스템 및 음성인식시스템(패턴으로서 음성파형을 인식)에 적용될 수 있다. 지금까지 설명된 바와 같이, 어떠한 특징벡터 작성방법이라도 사전작성 시간 및 인식시간을 감소시키는 효과가 얻어질수 있다. 또한, 고인식률은 사전의 작성에 사용된 패턴이 항상 정답을 제공하는 사실과, 또 우수한 인식률이 달성된 문자인식(필기체 문자, 인쇄된 문자, 숫자, 알파벳 문자, 간지 등에서 실행된)의 다양한 실례로 증명되었다.

Claims

(a) 입력패턴의 인식영역을 N개의 블록으로 분할하고, 대응하는 부영역번호를 상기 N개의 블록에 할당하여 N개의 부영역을 형성하는 스텝과, (b) 규정된 기준에 따라 상기 N개의 부영역 마다 특징을 계산하는 것에 의해 요소로서 N개의 특징을 가지는 특징벡터를 작성하는 스텝과, (c) 특징벡터의 N개 요소중 최대 또는 최소요소를 구하여 상기 구해진 요소에 대응하는 1의 부영역 번호로 이루어진 제1 특징셋트를 작성하고 이어, 2개의 최대 또는 최소 요소를 구하여 구해진 2개의 요소에 대응하는 2의 부영역 번호의 조합으로 이루어진 제2특징셋트를 작성하는 등, N-1의 부영역 번호로 이루어진 제N-1의 특징셋트를 구할때까지 전체 N-1개의 특징셋트를 작성하는 스텝 및, (d) 여러종류의 모델패턴에 상기 스텝(a)∼(c)을 실행해서 구해진 특징셋트가 모델패턴의 카테고리 명칭과 함께 미리 기록된 사전을 참조하여 입력패턴의 특징셋트와 사전에 저장된 특징셋트 사이에서 카테고리 명칭과 대응관계에 유사도를 구하고, 최대 유사도가 제공된 카테고리 명칭을 입력패턴의 카테고리 명칭으로 결정하는 스텝을 구비하는 패턴인식방법.
제1항에 있어서, 상기 (a)스텝에서 인식영역의 분할은, 상기 입력패턴의 인식영역을 같은 면적 크기를 가지는 N개의 부영역으로 분할하는 것이고, 상기 (b)스텝에서 계산된 특징은, 각각의 부영역에서 돗트값의 합계에 기초한 패턴인식방법.
제1항에 있어서, 상기 (a)스텝에서 인식영역의 분할은, 상기 입력패턴의 인식영역을 N개의 부영역으로 분할하여 돗트값의 합계가 N개의 부영역중 어느 것에 대해서도 같고, 상기 (b)스텝에서 계산된 특징은, 각각의 부영역 면적 크기에 기초한 패턴인식방법.
제2항에 있어서, 상기 각각의 부영역에서 돗트값은 상기 입력패턴의 흑색/흰색 경계선으로부터 거리에 따라 가중되는 패턴인식방법.
인식되는 패턴을 입력하기 위한 패턴 입력수단과, 입력패턴의 인식영역을 N개의 블록으로 분할하고, 대응하는 부영역 번호를 상기 N개의 블록에 할당하여 N개의 부영역을 형성하기 위한 수단과, 규정된 기준에 따라서 N개의 부영역마다 특징을 계산하는 것에 의해 요소로서 N개의 특징을 가지는 특징벡터를 작성하기 위한 수단과, 특징벡터의 N개의 요소중 최대요소 또는 최소요소를 구하여 상기 구해진 요소에 대응하는 1의 부영역 번호로 이루어진 제1 특징셋트를 작성하고, 2개의 최대요소 또는 최소요소를 구하여 상기 구해진 2개의 요소에 대응하는 2의 부영역 번호로 이루어진 제2 특징셋트를 작성하는 등, N-1개의 부영역번호의 조합으로 이루어진 제 N-1의 특징셋트를 작성때까지 전체 N-1개의 특징셋트를 작성하기 위한 수단과, 다양한 종류의 모델 패턴에 패턴입력수단, 부영역형성수단, 특징벡터 작성수단 및 특징셋트 작성수단에 의해 실행된 처리를 통해서 구해진 특징셋트가 모델패턴의 카테고리 명칭과 함께 미리 기록된 사전을 저장하기 위한 수단 및, 입력패턴의 특징셋트와 사전에 저장된 특징셋트 사이에서 카테고리 명칭과 대응관계에 있는 유사도를 구하고, 최대유사도가 제공된 카테고리명칭을 입력패턴의 카테고리 명칭으로 결정하기 위한 수단을 구비하는 패턴인식장치.
제5항에 있어서, 상기 부영역 형성수단은, 입력패턴의 인식영역을 같은 면적크기의 N개의 부영역으로 분할하고, 상기 특징벡터 작성수단은, 각각의 부영역에서 돗트값의 합계에 기초한 특징을 계산하는 패턴인식장치.
제5항에 있어서, 상기 부영역 형성수단은, 입력패턴의 인식영역을 N개의 부영역으로 분할하여 돗트값의 합계가 상기 N개의 부영역중 어느것에 대해서도 같고, 상기 특징벡터 작성수단은, 각각의 부영역 면적크기에 기초한 특징을 계산하는 패턴인식장치.
제6항에 있어서, 각각의 부영역에서 상기 돗트값은 상기 입력패턴의 흑색/흰색 경계선으로부터 거리에 따라 가중되는 패턴인식장치.
(a) 입력모델 패턴의 인식영역을 N개의 블록으로 분할하고, 대응하는 부영역 번호를 상기 N개의 블록에 할당하여 N개의 부영역을 형성하는 스텝과, (b) 규정된 기준에 따라 상기 N개의 부영역마다 특징을 계산하는 것에 의해 요소로서 N개의 특징을 가지는 특징벡터를 작성하는 스텁과, (c) 특징벡터를 N개의 요소중 최대요소 또는 최소요소를 구하여 상기 구해진 요소에 대응하는 1의 부영역 번호로 이루어진 제1 특징셋트를 작성하고, 2개의 최대 또는 최소 요소를 구하여 상기 구해진 2개의 요소에 대응하는 2부영역 번호의 조합으로 이루어진 제2특징셋트를 작성하는 등, N-1의 부영역 번호로 이루어진 제 N-1의 특징셋트를 작성때까지 전체 N-1의 특징셋트를 작성하는 스텝 및, (d) 상기 각각의 특징셋트를 모델패턴의 카테고리 명칭과 결합해서 지정된 메모리에 저장하기 위한 수단을 구비하는 패턴인식사전을 작성하는 방법.
제9항에 있어서, 상기 (a)스텝에서 인식영역의 분할은, 상기 입력패턴의 인식영역을 같은 면적 크기를 가지는 n개의 부영역으로 분할하고 것이고, 상기 (b)스텝에서 계산된 특징은, 각각의 부영역에서 톳트값의 합계에 기초한 패턴인식사전을 작성하는 방법.
제9항에 있어서, 상기 (a)스텝에서 인식영역의 분할은, 상기 입력패턴의 인식영역을 N개의 부영역으로 분할하여 돗트값의 합계가 N개의 부영역중 어느 것에 대해서도 같고,

상기 (b)스텝에서 계산된 특징은 각각의 부영역 면적 크기에 기초한 패턴인식사전을 작성하는 방법.
제10항에 있어서, 상기 각각의 부영역에서 돗트값은 상기 입력패턴의 흑색/흰색 경계선으로 부터 거리에 따라 가중되는 패턴인식사전을 작성하는 방법.