KR19990087555A

KR19990087555A - 인식 사전을 최적화하여 구별하기 어려운 패턴들간을 식별하는방법

Info

Publication number: KR19990087555A
Application number: KR1019980706993A
Authority: KR
Inventors: 다카히코 가와타니
Original assignee: 디. 크레이그 노룬드; 휴렛트-팩카드 캄파니
Priority date: 1996-03-06
Filing date: 1997-03-05
Publication date: 1999-12-27
Also published as: WO1997033250A1; JP3810469B2; EP0885427B1; KR100441706B1; DE69734507T2; JPH09245124A; EP0885427A1; DE69734507D1

Abstract

통상적인 학습 식별 분석(22)에 의해 식별 함수를 정의하며, 각 카테고리의 인-카테고리 패턴 세트내의 모든 훈련용 패턴들과 각 카테고리의 경쟁 패턴 세트내의 모든 훈련용 패턴들로 이 식별 함수의 값을 계산한다(23). 카테고리에 속함으로서 정의되는 모든 훈련용 패턴들로 인-카테고리 패턴 세트를 구성한다. 카테고리에 속하는 것으로 잘못 인식된 다른 카테고리에 속하는 훈련용 패턴들로 경쟁 패턴 세트를 구성한다. 그런 다음, 인-카테고리 패턴 서브세트와 라이벌 패턴 서브세트를 각 카테고리용으로 형성한다(24). 인-카테고리 패턴 세트에 속하는 훈련용 패턴들 중에서 식별 함수의 최대값을 갖는 인-카테고리 패턴 세트에 속하는 사전 결정된 수의 훈련용 패턴들을 선택하여, 카테고리에 대한 인-카테고리 패턴 서브 세트를 형성한다. 경쟁 패턴 세트에 속하는 훈련용 패턴들 중에서 식별 함수의 최소값을 갖는 경쟁 패턴 세트에 속하는 사전 결정된 수의 훈련용 패턴들을 선택하여, 카테고리에 대한 경쟁 패턴 서브 세트를 형성한다. 그런 다음, 인-카테고리 패턴 서브세트와 경쟁 패턴 서브세트상에서 선형 식별 분석 동작을 수행시켜, 새로운 식별 함수를 정의하는 변수들을 구한다. 그런 다음, 새로운 식별 함수를 정의하는 변수들을 사용하여, 인식 사전내에 저장된 카테고리에 대한 기준 벡터와 가중 벡터를 수정한다.

Description

인식 사전을 최적화하여 구별하기 어려운 패턴들간을 식별하는 방법

문자 인식은 전형적으로 이들 단계들은 전처리(preprocessing), 특징 추출(feature extraction) 및 식별(discrimination)의 3단계로 구현된다. 전처리 단계에서는, 입력 패턴의 크기 정규화(size normalization) 및 노이즈 제거가 수행된다. 특징 추출 단계에서는, 입력 패턴내의 각 문자 패턴으로부터 문자 모양을 나타내는 특징값이 추출되며, 이 특징값을 나타내는 특징 벡터가 발생된다. 각 특징은 문자 패턴의 구조의 일부를 나타낸다. 전형적인 특징들로 자획의 길이(the length of stroke), 자획의 각도(the angle of stroke), 루프의 개수(the number of loop)가 포함된다. 예를 들어, 특징이 루프의 개수일 경우, 특징은 아래의 값중 하나를 가질 수 있다.

0 : 문자 패턴이 숫자 "1", "2" 또는 "3"에 속할 경우,

1 : 문자 패턴이 숫자 "0", "6" 또는 "9"에 속할 경우,

2 : 문자 패턴이 숫자 "8"에 속할 경우.

전형적으로, 수백개의 특징값이 입력 패턴내의 각 문자 패턴용으로 추출된다. 특징값은 특징 벡터로 표시되는데, 이 특징 벡터의 구성 요소는 각기 문자 패턴의 특징들중 하나의 특징값을 나타낸다. 특징 벡터는 다수의 차원, 전형적으로 500 차원을 갖는다.

식별 단계에서는, 입력 패턴내의 각 문자 패턴의 특징 벡터가 각 카테고리에 대한 기준 벡터와 비교된다. 문자 패턴은 그의 특징 벡터에 가장 가까운 기준 벡터를 갖는 카테고리에 속하는 것으로 판정된다. 문자 인식에 있어서, 각 카테고리는 하나의 문자를 나타낸다. 예를 들어, 숫자 인식의 경우, 문자들 "0", "1", …, "9"에 대해 각기 하나의 카테고리가 존재한다.

기준 벡터는 인식 사전내에 저장된다. 인식 사전은 여러 사람들의 필적(handwriting)으로부터 얻어진 문자 패턴들로부터 통계적으로 생성된다. 이러한 문자 패턴을 "훈련용 패턴(training pattern)"이라 칭한다. 문자 인식 시스템이 필적 인식용으로 사용될 수 있으려면, 사전 결정된 문자 패턴 세트를 포함하는 필적 샘플들을 각기 제공하는 불특정 다수의 필기자에 의해 인식 사전이 생성되어야 한다. 이 세트내의 각 문자 패턴이 속하는 카테고리는 공지된다. 각 카테고리내의 문자 패턴으로부터 추출된 문자 벡터들이 평균화되며, 각 평균 벡터는 그 카테고리에 대한 기준 벡터로서 인식 사전내에 저장된다.

문자 인식 시스템의 효율성은 그의 인식율에 의해 특징되어 진다. 문자 인식이 수행될 때, 입력 패턴내의 각 문자 패턴에 대해 다음의 결과들중 하나가 얻어진다. (1) 문자 패턴이 속하는 카테고리가 올바르게 인식되었다. (2) 문자 패턴이 임의의 카테고리에 속하는 것으로서 성공적으로 인식되기는 하였으나, 문자 패턴이 잘못 판독되어 카테고리가 올바르지 않았다. (3) 문자 패턴이 어떤 카테고리에도 속하지 않는 것으로서 인식되었다. 예를 들어, 문자 패턴이 숫자 "1"일 경우, 문자 패턴이 카테고리 "1"에 속하는 것으로서 인식될 때 결과 (1)이 발생하고, 문자 패턴이 카테고리 "7"에 속하는 것으로서 잘못 인식될 때 결과 (2)가 발생하며, 문자 패턴이 속하는 카테고리가 인식될 수 없을 때 결과 (3)이 발생한다. 인식율은 결과 (1)을 발생한 문자 인식 사건의 수를 입력 패턴내의 문자 패턴의 총 수로 나눈 것이다. 이상적인 문자 인식 시스템은 1에 근접한 인식율(또는 100%)을 갖는 시스템이다.

문자 인식 시스템의 인식율을 높히기 위해 두가지 기본적인 접근법이 이용될 수 있다. 이들 접근법은 (1) 각 카테고리의 특징 분포를 가능한 정확하게 묘사하고, (2) 카테고리들간의 분포 차를 강조하는 것이다.

문자 인식 시스템의 인식율을 높히기 위한 알려진 여러 접근법들은 첫 번째 접근법에 집중된다. 이들 접근법들은 성공적이었지만 한정된 범위에 국한되었다.

IEICE Trans. D-11, vol J76-D-Ⅱ no. 9, pp. 1851∼59(1993년 9월) "Handprinted Numerals Recognition by Learning Distance Function"에서, 발명자는 두 번째 접근법에 기초해서 문자 인식 시스템의 인식율을 높이는 한가지 방안인 "식별 분석에 의한 학습(Learning by Discriminant Analysis;LDA)"을 개시하였다. 특히, LDA는 잘못 인식된 문자 패턴들(상술한 결과 (2)의 경우)의 수를 감소시킴으로써, 인식율을 증가시킨다. LDA 문자 인식 방법에 있어서, 피셔의 선형 식별 분석법(Fisher's linear discriminant analysis)을 적용함으로써 얻어진 식별 함수는, 입력 패턴내의 각 문자 패턴의 특징 벡터와 각 카테고리의 기준 벡터간의 고유 거리 함수(original distance function)상에 중첩된다. 고유 거리 함수는 특징 벡터와 기준 벡터간의 가중 유크리드 거리(weighted Euclidean distance) 또는 2차 식별 함수(quadratic discriminant function)일 수 있다.

피셔의 선형 식별 분석법은 각 카테고리의 기준 벡터와 그 카테고리에 대한 경쟁 패턴(a rival pattern)의 특징 벡터 사이에 적용된다. 예를 들어, 카테고리 A에 대한 경쟁 패턴은, 상이한 카테고리, 예컨대, 카테고리 B에 속하지만 카테고리 A에 속하는 것으로 잘못 인식된 문자 패턴으로서 정의된다. 이러한 예에 있어서, 경쟁 패턴의 특징 벡터와 카테고리 A의 기준 벡터간의 유크리드 거리가, 경쟁 패턴의 특징 벡터와 카테고리 B(경쟁 패턴이 실제로 속하는 카테고리임)의 기준 벡터간의 유크리드 거리보다 작을 경우에는, 경쟁 패턴은 카테고리 A에 속하는 것으로 잘못 인식된다.

LDA에 있어서, 선형 식별 분석법은 특징 벡터의 1차항과 2차항을 모두 선형 항으로서 사용한다. LDA 패턴 인식 방법을 적용함으로써, 거리 함수내의 복수의 변수들, 예컨대, 기준 벡터, 가중 벡터 및 상수항과 같은 변수들이 동시에 결정될 수 있다. 고유 거리 함수로서 가중 유크리드 거리를 사용한 예가 이하에서 상세히 설명된다.

문자 패턴의 특징 벡터와 임의 카테고리의 기준 벡터간의 가중 유크리드 거리 D(x)는 다음 수학식과 같다.

여기서 x=(x₁,…,x_M)^t는 문자 패턴의 특징 벡터를 나타내고,

μ=(μ₁,…,μ_M)^t는 카테고리의 기준 벡터를 나타내며,

ω=(ω₁,…,ω_M)^t는 가중 벡터를 나타내고,

t는 치환 계수(transposition factor)를 나타낸다.

카테고리의 지수를 나타내는 첨자는 간략화를 위해 수학식 1에는 생략되어 있다.

식별 함수 F(x)를 얻기 위해서, 먼저, LDA는 큰 훈련용 패턴의 세트로 구성된 입력 패턴에 대한 문자 인식 동작을 수행한다. 각 훈련용 패턴은 D(x)의 값이 최소인 카테고리에 속하는 것으로 결정된다. 이러한 문자 인식 동작의 결과들을 분석하여, 각 카테고리에 대해 그 카테고리에 속하는 것으로 잘못 인식된 훈련 패턴들을 식별해낸다. 어떤 카테고리에 속하는 것으로 잘못 인식된 훈련용 패턴들은 그 카테고리에 대한 경쟁 패턴 세트를 구성한다. 각 카테고리에 속하는 것으로 정의된 훈련용 패턴들은 그 카테고리에 대해 인-카테고리 패턴 세트(in-category pattern set)를 구성한다. 예를 들어, 훈련용 패턴 x는 카테고리 A에 속하는 것으로 정의되는데, 그 이유는 훈련용 패턴 x를 쓴 필기자가 어떤 요구에 응답하여 카테고리 A에 속하는 패턴을 쓰기 때문이다. 인-카테고리 패턴 세트내의 훈련용 패턴의 구성 요소는 문자 인식 동작의 인식 결과와 무관하다.

다음으로, LDA는, 각 카테고리의 인-카테고리 패턴 세트와 바로 앞서 설명된 바와 같이 결정된 그의 대응하는 경쟁 패턴 세트 사이에 선형 식별 분석법을 적용한다. 이 선형 식별 분석법은 2M 차원의 벡터 y를 사용하는데, 이 벡터 y의 구성 요소는 다음과 같이 정의된다.

y_m=(x_m-μ_m)²

y_M+m=(x_m-μ_m)

식별 함수 F(x)는 다음식과 같이 표시될 수 있다.

F(x)의 두 번째 형태는 ax²+ bx + c의 2차 방정식임을 알 수 있다.

상수 c는 항상 음수값을 갖는다. 계수 a_m과 b_m을 결정하는 방법은 하기에 설명된다.

문자 패턴이 카테고리에 속할 경우에 식별 함수 F(x)<0 이며, 문자 패턴이 경쟁 패턴 세트에 속할 경우 F(x)>0 이다.

수정된 유크리드 거리 G(x)는 다음과 같이 정의된다.

G(x)=D(x)+YF(x)

여기서 Y는 양의 계수이며, 그 값은, 문자 인식이 수정된 유크리드 거리 G(x)를 사용하여 수행되는 경우에 인식율을 최대화하도록 실험적으로 결정된다.

D(x)에 YF(x)를 가산함으로써, 원래의 가중 유크리드 거리 값은, 문자 패턴의 특징 벡터와 그 문자 패턴이 속하는 카테고리의 기준 벡터간의 거리가 감소되고, 문자 패턴의 특징 벡터와 그 문자 패턴이 속하지 않는 카테고리들의 기준 벡터들간의 거리는 증가되는 방식으로 수정된다. 이것은, 최초 가중 유크리드 거리 D(x)를 사용했을 경우 잘못 인식되었던 문자 패턴이, 수정된 유크리드 거리 G(x)를 사용한 경우 올바르게 인식되는 것을 가능하게 한다.

G(x)는 다음과 같이 나타낼 수 있다.

여기서,

수정된 유크리드 거리 함수 G(x)의 형태는, 상수항 d가 부가되고, 기준 벡터와 가중 벡터의 m번째 구성요소들이 Δμ_m과 Δω'_m로 각각 수정된 점을 제외하고, 최초의 가중 유크리드 거리 함수 D(x)의 형태와 동일하다. 이것은, 거리 함수의 변수들이 카테고리에 대한 경쟁 패턴 세트를 사용하여 학습될 수 있다는 것을 의미한다. 수정된 기준 벡터, 가중 벡터 및 상수항은 G(x)를 결정할 때 인식 사전내에 저장된다.

F(x)를 정의하는 2차 계수들 a_m,b_m및 c는 다음과 같이 결정된다. 벡터 a는 다음과 같이 정의된다.

a=(a₁, …, a_M, b₁, …, b_M)^t

a=Σ^-1(μ_R-μ_N)

c=a^t(μ_R+μ_N)/2

여기서, Σ는 벡터 Y에 대한 인-카테고리 공분산 매트릭스(covariance matrix)이고,

μ_N는 카테고리의 평균 특징 벡터, 즉, 기준 벡터이며,

μ_R는 카테고리의 경쟁 패턴 세트의 평균 특징 벡터이다.

Σ는 다음과 같이 정의될 수 있다.

Σ={(n_S- 1)S_S+ (n_R- 1)S_R}/(n_S+ n_R- 2)

여기서, S_S는 카테고리에 속하는 훈련용 패턴의 공분산 매트릭스이고,

S_R은 카테고리의 경쟁 패턴 세트를 구성하는 훈련용 패턴의 공분산 매트릭스이며,

n_S는 카테고리에 속하는 훈련용 패턴의 수이고,

n_R은 경쟁 패턴 세트를 구성하는 훈련용 패턴의 수이다.

F(x)의 2차 계수들 a_m, b_m및 c에 대한 값이 일단 계산되면, 그리고 나서, F(x)의 값이 각 카테고리에 대해 계산될 수 있다.

Y의 최적값은, D(x), F(x) 및 Y의 상이한 값을 사용하여 훈련용 패턴 세트내의 훈련용 패턴에 대해 문자 인식 동작을 계속해서 수행하여, 각 문자 인식 동작의 인식율을 결정함으로써 결정된다. 즉, Y의 최적값은 최대 인식율을 제공하는 값이다.

LDA를 성공적으로 사용하는데 있어 중요한 것은 F(x)를 올바르게 결정하는 것이다. LDA를 사용하여 F(x)를 얻으려면, 두 개 카테고리의 패턴 세트들이 한 차원의 축 z=F(x)상에 투영되며, 피셔 표준을 최대화하는 식별 함수 F(x)가 결정된다. 피셔 표준은, z축상에서 각 카테고리 분산의 합(s₁ ²+ s₂ ²)으로서 정의되는 인-카테고리 분산에 대한 각 카테고리 분포의 평균들간의 거리의 제곱 T²의 비율로서, 즉, T²/(S₁ ²+ S₂ ²)로서 정의된다.

상술한 기법을 적용할 때 발생하는 한가지 문제점은, 패턴 세트들이 z축상에 투영될 때, 두 개 카테고리의 패턴 세트들의 분포의 대칭성에 관련된다. 문자 인식에 사용되는 특징들은 비대칭적으로 분포되기 때문에, z축상의 패턴 분포 또한 대칭적일 수 없음은 분명하다. 문자 인식에 사용되는 특징 벡터의 여러 요소들은 음으로 비대칭적이기 보다는 양으로 비대칭적으로 분포된다는 사실이 공지되어 있다. 비록, 두 개 카테고리의 패턴 세트들이 특징 공간내에서 대칭적으로 분포되더라도, 선형 식별 분석법은 z축상에 비대칭 분포의 원인이 되는 2차 항을 사용한다.

이것은 간단한 예로 설명된다. 소정 카테고리의 패턴 세트가 공분산 1로 정규 분포되었다고 가정하자. a_m=1 및 b_m=0의 경우가 고려된다. 이러한 경우, F(x)는 유크리드 거리를 나타내므로, z축상의 분포가 유크리드 거리 분포에 상당하게 된다. 유크리드 거리의 확률 밀도 분포 P(z)는 다음과 같이 표현된다.

p(z)=z^(M-2)/2e^-z/2/(2^M/2Γ(M/2))

이 공식은 케이. 후쿠나가(K. Fukunaga)의 "Introduction to Statistical Pattern Recognition"(아카데믹 출판사, 1990년, 제 2 판)에서 발견된다. Γ는 감마 함수를 나타낸다. 수학식 5는 확률 밀도가 감마 분포를 가진다는 사실을 나타낸다. 감마 분포의 확률 밀도는 비대칭인 것으로 알려져 있다.

a_m및 b_m의 임의 값에 대한 일반적인 경우에, 분포를 분석적으로 결정하기가 어렵다. 그러나, 분포가 결코 대칭적이지 않을 것으로 생각된다. 분포가 z축상에서 비대칭적일 경우, 피셔 표준은 모든 문자 패턴 전체에 대해서는 최대화될 수 있지만, 쉽게 혼동되는 문자 패턴에 대해서는 반드시 최대로 되지 않으며, 이러한 문자 패턴들간을 구별하는 것이 매우 요망된다. 다시 말해서, 원래의 LDA 기법은 쉽게 혼동되는 문자 패턴에 대한 최적 식별 함수를 생성하지 않으며, 따라서, 문자 인식의 인식율을 높이기 위해 최초 LDA 기법에 의해 발생된, 수정된 유크리드 거리 G(x)의 능력은 제한된다.

따라서, 쉽게 혼동되는 문자 패턴에 대해 피셔 표준을 최대화시킬 수 있게 함으로써, 식별 함수 F(x) 및 수정된 유크리드 거리 G(x)의 식별 능력을 개선시키는 방법을 제공함이 바람직하다.

발명의 개요

본 발명은 쉽게 혼동되는 문자 패턴에 대해 피셔 표준을 최대화시킬 수 있게 함으로써, 상술한 문제를 해결하며, 따라서, F(x) 및 G(x)의 식별 능력을 개선한다. 상술한 바와 같이, z축상의 분포를 형식화하는 것은 어려우며, 이러한 문제는 분석학적으로 해결하기 어렵다. 이러한 문제를 해결하기 위해서, 본 발명은 다음의 방법을 제공한다.

식별 함수 F(x)는 통상적으로 식별 분석을 학습함으로써 정의되며, 식별 함수값은 각 카테고리의 인-카테고리 패턴 세트내의 모든 훈련용 패턴들에 대해, 그리고 그 카테고리의 경쟁 패턴 세트내의 모든 훈련용 패턴들에 대해 결정된다. 인-카테고리 패턴 세트는 카테고리에 속하는 것으로 정의되는 모든 훈련용 패턴들로 구성된다. 경쟁 패턴 세트는 다른 카테고리에 속하는데, 그 카테고리에 속하는 것으로 잘못 인식된 훈련용 패턴들로 구성된다.

그후, 인-카테고리 패턴 서브세트와 경쟁 패턴 서브세트가 각 카테고리에 대해 형성된다. 카테고리에 대한 인-카테고리 패턴 서브세트는, 인-카테고리 패턴 세트에 속하고, 인-카테고리 패턴 세트에 속하는 훈련용 패턴들중에서 가장 큰 식별 함수 F(x)의 값을 갖는, 사전 결정된 수의 훈련용 패턴들을 선택함으로써 형성된다. 카테고리에 대한 경쟁 패턴 서브세트는, 그 카테고리의 경쟁 패턴 세트에 속하고, 그 경쟁 패턴 세트에 속하는 프레이닝 패턴들중에서 가장 작은 식별 함수 F(x)의 값을 갖는, 사전 결정된 수의 트레이닝 패턴들을 선택함으로써 형성된다.

그리고 나서, 인-카테고리 패턴 서브세트와 경쟁 패턴 서브세트에 대한 식별 분석 동작을 수행하여 새로운 식별 함수를 획득한다.

이러한 처리에 의해 식별 함수의 식별 능력은 증가한다. 결과적으로, 패턴 인식율이 상당히 개선된다.

본 발명은 문자 인식과 같은 패턴 인식 방법에 관한 것이다. 특히, 본 발명은 패턴 인식에 사용되는 인식 사전(recognition dictionary)을 최적화하여, 인식 사전으로 하여금 구별하기 어려운 패턴들간을 더욱 잘 구별할 수 있게 하는 방법에 관한 것이다.

도 1은 본 발명에 따른 문자 인식 장치의 개략적인 블록도,

도 2는 본 발명에 따른 문자 인식 장치의 인식 사전을 산출하는데 이용되는 본 발명에 따른 절차를 도시하는 흐름도.

도 1은 본 발명에 따른 문자 인식 장치의 개략적인 블록도이다. 문자 인식 장치(10)에 있어서, 전처리 모듈(1)은 복수의 문자 패턴으로 구성된 입력 패턴을 전처리하여, 각 문자 패턴의 위치 및 크기를 정규화하고, 문자 패턴으로부터 노이즈를 제거한다. 특징 추출 모듈(2)은 전처리된 각 문자 패턴으로부터, 식별 공정 동안 사용될 특징을 추출한다. 각 문자 패턴의 특징은 그 문자 패턴에 대한 특징 벡터로 표현된다. 거리 계산 모듈(3)은 수정된 가중 벡터와 상수를 사용하여 각 문자 패턴의 특징 벡터와 각 카테고리의 수정된 기준 벡터간의 수정된 유크리드 거리를 계산한다. 수정된 기준 벡터, 수정된 가중 벡터 및 상수는 수정된 인식 사전(4)에 저장된다. 카테고리 결정 모듈(5)은 거리 계산 모듈에 의해 결정된 수정된 유크리드 거리를 수신하며, 입력 패턴내의 각 문자 패턴이 속하는 카테고리를 결정한다. 각 문자 패턴이 속하는 카테고리는 수정된 유크리드 거리값이 최소로 되는 카테고리를 식별해냄으로써 결정된다. 그리고 나서, 카테고리 결정 모듈은 각 문자 패턴에 대해 결정된 카테고리를 그 문자 패턴이 속하는 카테고리로서 출력한다.

상술한 장치는 통상적인 문자 인식 장치와 구조적으로 유사하다. 그러나, 본 장치는, 통상의 문자 인식 장치보다 좀더 높은 인식율을 제공하는데 그 이유는, 아래에 기술되는 바와 같이, 수정된 인식 사전(4)내에 저장된 수정된 기준 벡터, 수정된 가중 벡터 및 상수가 통상적인 문자 인식 장치의 인식 사전내에 저장된 것들과는 다르기 때문이다.

이제, 본 발명에 따른 문자 인식 장치의 인식 사전(4)내에 저장된 수정된 기준 벡터, 수정된 가중 벡터 및 상수를 발생하는데 이용되는 본 발명에 따른 처리가 도 2의 흐름도를 참조하여 기술될 것이다. 도 2에 도시된 처리는 공지의 훈련 절차에 따라 발생된 훈련용 패턴들로 구성된 훈련용 문자 세트를 사용하여 수행된다. 훈련용 패턴은 기지의 카테고리 문자 패턴이다. 훈련용 패턴은, 제각기 사전 결정된 문자 패턴 세트로 구성된 필적 샘플을 제공하는 불특정 다수의 필기자에 의해 발생된다. 세트들내의 각 문자 패턴이 속하는 카테고리가 공지된다. 각 필기자에 의해 제공된 필적 샘플은 각 카테고리내의 몇 개의 문자 패턴을 포함한다.

도 2에 도시된 처리는 도 1에 도시된 문자 인식 장치(10)로 수행될 수도 있다. 그러나, 도 2에 도시된 처리는 별도의 계산 장치로 바람직하게 수행된다. 그후, 이러한 처리에 의해 산출된 결과들은 문자 인식 장치내로 로딩되어, 수정된 인식 사전(4)내에 저장된다. 도 2에 도시된 처리를 수행하는데 이용되는 기능적 요소들은 범용 컴퓨터 또는 디지털 신호 처리 회로를 프로그래밍함으로써 얻어질 수 있다. 이와 달리, 적절한 집적 회로를 구성함으로써 도 2에 도시된 처리를 수행하는데 필요한 기능적 모듈들을 제공할 수도 있다.

단계 (21)에서, 훈련용 패턴 세트를 전처리하여, 각 훈련용 패턴의 위치 및 크기를 정규화하고, 훈련용 패턴으로부터 노이즈를 제거한다. 그후, 각 훈련용 패턴으로부터 특징들을 추출하여, 그 훈련 패턴에 대한 특징 벡터로서 표현한다. 앞서 언급된 바와 같이, 각 특징 벡터는 여러개의 차원, 통상적으로 500개의 차원을 갖는다.

단계 (22)에서, 앞서 설명된 동작과 유사한 통상적인 LDA 동작이 훈련용 패턴 세트에 적용된다. 통상적인 LDA 동작은 각 카테고리에 대해 식별 함수 F₀(x)를 결정하고, 카테고리에 대한 경쟁 패턴 세트를 정의하며, 각 카테고리에 대해 수정된 유크리드 거리 G₀(x)를 계산한다. 통상적인 LDA 동작은 아래와 같이 수행된다.

(a) 훈련용 패턴 세트에 대해 통상적인 문자 인식 동작을 수행한다. 각 훈련용 패턴의 특징 벡터와 각 카테고리의 기준 벡터간의 가중 유크리드 거리 D(x)가 결정된다. 각 훈련용 패턴은 D(x)값이 최소로 되는 카테고리에 속하는 것으로 결정된다. 통상적인 문자 인식 처리시에, 각 카테고리에 대해 기존의 통상적인 인식 사전내에 저장된 기준 벡터와 가중 벡터가 사용된다.

(b) 통상적인 문자 인식 동작에 의해 발생된 문자 인식 결과들을 각 훈련용 패턴의 알려진 카테고리와 비교하여 각 카테고리에 대한 경쟁 패턴 세트를 식별한다. 각 카테고리에 대한 경쟁 패턴 세트는, 그 카테고리에 속하는 것으로 잘못 인식되는 훈련용 패턴으로 구성된다. 그 카테고리에 속하는 것으로 정의되는 훈련용 패턴은 그 카테고리에 대한 인-카테고리 패턴 세트(in-category pattern set)로 칭한다.

(c) 각 카테고리에 대해, 앞서 설명된 바와 같이, 식별 함수 F₀(x)를 정의하는 2차 계수값 a_m, b_m및 c를 인-카테고리 패턴 세트의 특징 벡터와 경쟁 패턴 세트의 특징 벡터로부터 결정한다.

(d) 훈련용 패턴 세트내의 각 훈련용 패턴에 대해, 식별 함수 F₀(x)의 값을 2차 계수값 a_m, b_m, c와, x_m과 μ_m의 값으로부터 결정한다.

(e) 그후, Y의 최적값이 결정된다. 훈련용 패턴 세트내의 각 훈련용 패턴에 대한 수정된 유크리드 거리 G₀(x) 값의 세트를 각 카테고리에 대해 계산한다. 세트내의 각 수정된 유크리드 거리 값은 Y의 상이한 값을 사용하여 계산된다. 각 Y의 값에 대응하는 G₀(x)값을 사용하여 훈련용 패턴 세트에 대해 계속되는 문자 인식 동작들이 수행된다. 이들 문자 인식 동작에 있어서, 각 훈련용 패턴은 G₀(x)의 값이 최소가 되는 카테고리에 속하는 것으로 결정된다. 각 문자 인식 동작의 인식율이 결정된다. Y의 최적값은 최대 인식율 R₀을 제공하는 값이다. 최적값은 Y의 값으로 채택된다.

단계 (23)은 현재 식별 함수 F₀(x)의 값을 최적화하는 루프의 제 1 단계이다. 단계 (23)에서, 현재 식별 함수 F₀(x)의 값이 각 카테고리와 연관된 각 훈련용 패턴에 대해 계산된다. 각 카테고리와 연관된 훈련용 패턴은 인-카테고리 패턴 세트에 속하는 훈련용 패턴과, 카테고리의 경쟁 패턴 세트에 속하는 훈련용 패턴이다.

단계 (23)에서 수행되는 계산에 사용된 현재 식별 함수는 가장 최근에 결정된 식별 함수이다. 따라서, 처음 단계 (23)이 실행될 때는, 단계 (22)에서 결정된 초기 식별 함수 F₀(x)가 현재 식별 함수 F₀(x)로서 사용된다. 단계 (23)에 후속되는 모든 실행 단계에서는, 단계 (25)의 가장 최근의 실행으로 결정되어 단계 (29A)에서 현재 식별 함수로서 채택된 새로운 식별 함수 F₁(x)가 사용된다. 단계 (25)에서 새로운 식별 함수가 결정되는 방법이 이하에 설명된다.

단계 (24)에서, 각 카테고리에 연관된 모든 훈련용 패턴에 대해 단계 (23)에서 계산된 현재 식별 함수 F₀(x)의 값을 조사하여, 두가지 훈련용 패턴 서브세트를 형성할 훈련용 패턴들을 선택한다. 카테고리의 인-카테고리 패턴 세트에 속하고 가장 큰 현재 식별 함수값들을 갖는 사전 결정된 수의 훈련용 패턴이 제 1 서브세트, 즉, 인-카테고리 패턴 서브세트 S_N0를 형성한다. 카테고리의 경쟁 패턴 세트에 속하고 가장 작은 식별 함수값들을 갖는 사전 결정된 수의 훈련용 패턴은 제 2 서브세트, 즉,경쟁 패턴 서브세트 S_R0를 형성한다.

카테고리의 인-카테고리 패턴 서브세트 S_N0에 대한 훈련용 패턴을 선택하기 위해서, 카테고리의 인-카테고리 패턴 세트에 속하는 훈련용 패턴이, 예를 들면, 현재 식별 함수값이 감소하는 순서로 배열될 수 있으며, 제 1 p 훈련용 패턴이 선택될 수 있다. 카테고리의 경쟁 패턴 서브세트 S_R0에 대한 훈련용 패턴을 선택하기 위해서, 카테고리의 경쟁 패턴 세트에 속하는 훈련용 패턴이, 예를 들면, 현재 식별 함수값이 증가하는 순서로 배열될 수 있으며, 제 1 p' 훈련용 패턴이 선택될 수 있다.

단계 (24)에서 수행되는 선택 처리에 의해, 각 카테고리에 연관된, 서로 혼동될 것같은 훈련용 패턴들이 선택된다. 인-카테고리 패턴 서브세트로 선택된 훈련용 패턴들은 가장 큰 식별 함수 F(x)값을 갖는다. 카테고리의 식별 함수 F₀(x)는 카테고리의 기준 벡터와 가장 먼 문자 패턴들에 대한 최대값을 갖는다. 인-카테고리 패턴 서브세트로 선택된 훈련용 패턴들은 인-카테고리 세트중에서 가장 큰 식별 함수값을 갖는 훈련용 패턴들이다. 따라서, 인-카테고리 패턴 서브세트로 선택된 훈련용 패턴들은 인-카테고리 세트내에서 카테고리의 기준 벡터로부터 가장 멀고, 따라서, 경쟁 패턴 세트에 가장 가까운 훈련용 패턴들이다. 다른 한편, 경쟁 패턴 서브세트로 선택된 훈련용 패턴들은 경쟁 패턴 세트중에서 가장 작은 식별 함수값을 갖는 훈련용 패턴들이다. 따라서, 경쟁 패턴 서브세트로 선택된 훈련용 패턴들은 경쟁 패턴 세트내에서 카테고리의 기준 벡터에 가장 가까이 위치한 훈련용 패턴들이다. 인-카테고리 패턴 세트내에서 각 카테고리의 기준 벡터로부터 가장 멀리 위치하는 훈련용 패턴들과, 경쟁 패턴 세트내에서 카테고리의 기준 벡터에 가장 근접한 훈련용 패턴들이 가장 쉽게 혼동되는 훈련용 패턴들이다. 문자 인식 장치는, 장치의 인식율을 증가시키려면 이와 같이 쉽게 혼동되는 문자 패턴들간에 올바르게 구별할 수 있어야 한다.

단계 (25)는 인-카테고리 서브세트 및 경쟁 패턴 서브세트의 구성 요소를 최적화함으로써 현재의 수정된 유크리드 거리 G₀(x)의 값을 최적화하는 루프의 제 1 단계이다. 단계 (25)에서, 선형 식별 분석 동작은 각각의 카테고리에 대해 그 카테고리의 인-카테고리 패턴 서브세트와 카테고리의 경쟁 패턴 서브세트간에 수행된다. 선형 식별 분석 동작은 단계 (22)의 부속 단계들 (c)∼(e)를 참조하여 상술한 바와 유사한 절차를 사용하여 수행된다. 선형 식별 분석 동작에 의해 새로운 식별 함수 F₁(x)가 결정되며, 새로운 수정된 유크리드 거리 G₁(x) = G₀(x) + YF₁(x)이다.

새로운 수정된 유크리드 거리를 결정하는데 있어서, Y의 값은 단계 (22)의 부속 단계 (e)를 참조하여 상술한 절차를 사용하여 선택된다. Y의 값은 새로운 수정된 유크리드 거리 G₁(x)를 사용하여 얻어진 새로운 인식율 R₁을 최대화하는 값으로 선택된다.

단계 (26)에서, 이전 단계에서 새로운 인식율 R1의 최대값을 제공한 문자 인식 동작의 결과들에 대한 검사가 실행된다. 이러한 검사에 의해, 문자 인식 동작에 의해 잘못 인식되었고, 아직 적절한 패턴 서브세트의 구성 요소가 아닌 훈련용 패턴들이 식별된다. 예를 들어, 실제로는 카테고리 A에 속하지만 문자 인식 동작에 의해 카테고리 B에 속하는 것으로 결정된 훈련용 패턴들, 즉, 카테고리 A의 현재의 인-카테고리 패턴 서브세트 S_N0또는 카테고리 B의 현재의 경쟁 패턴 서브세트 S_R0에 속하지 않는 훈련용 패턴들을 조사해서 식별해낸다.

단계 (26)에서 수행되는 처리에서, 현재의 패턴 서브세트는 가장 최근에 결정된 패턴 서브세트이다. 단계 (25)로 시작되는 제 1 반복시에, 현재 패턴 서브세트는 단계 (24)에서 형성된 패턴 서브세트이다. 이 루프의 제 2 및 후속 반복시에, 현재 패턴 서브세트는 루프의 선행 반복시에 단계 (28A)에서 형성되어 단계 (28B)에서 현재 패턴 서브세트로서 채택된 새로운 패턴 서브세트이다.

단계 (27)에서는, 단계 (26)에서 수행된 검사에 의해 잘못 인식되어 적절한 패턴 서브세트에 속하지 않는 모든 훈련용 패턴들이 식별되었는지가 판정된다. 단계 (27)에서의 결과가 "YES"이면, 다음에 기술되는 단계 (28A)를 수행한다. 그렇지 않다면, 그 다음에 기술되는 단계 (29)를 수행한다.

단계 (28A)에서는, 단계 (26)에서 잘못 인식된 훈련용 패턴들로서 식별되었고, 적절한 현재 인-카테고리 패턴 서브세트 S_N0또는 적절한 현재 경쟁 패턴 서브세트 S_R0에 속하지 않는 각 훈련용 패턴이 처리된다. 잘못 인식된 훈련용 패턴이, 그 패턴이 속하는 카테고리에 대한 인-카테고리 패턴 서브세트 S_N0의 구성 요소가 아직 아닐 경우, 이러한 서브세트에 패턴을 부가하여, 새로운 인-카테고리 패턴 서브세트 S_N1를 형성한다. 또는, 잘못 인식된 훈련용 패턴이, 그 패턴이 속하는 것으로 잘못 인식되었던 카테고리에 대한 경쟁 패턴 서브세트 S_R0의 구성 요소가 아직 아닐 경우, 이러한 경쟁 패턴 서브세트에 패턴을 부가하여, 새로운 경쟁 패턴 서브세트 S_R1를 형성한다.

예를 들어, 잘못 인식된 패턴이 실제로는 카테고리 A에 속하지만, 카테고리 B에 속하는 것으로 단계 (25)에서 잘못 인식되었고, 이 잘못 인식된 훈련용 패턴이 그가 실제로 속하는 카테고리 A에 대한 인-카테고리 패턴 서브세트 S_N0의 구성 요소가 아직 아닐 경우, 이러한 훈련용 패턴을 카테고리 A에 대한 인-카테고리 패턴 서브세트에 추가하여, 카테고리 A에 대한 새로운 인-카테고리 패턴 서브세트 S_N1을 형성한다. 또는, 실제로는 카테고리 B에 속하지만 카테고리 A에 속하는 것으로 단계 (25)에서 잘못 인식되었고, 아직 카테고리 A의 경쟁 패턴 서브세트 S_R0의 구성 요소가 아닌, 잘못 인식된 패턴은, 카테고리 A의 경쟁 패턴 서브세트에 추가하여, 카테고리 A에 대한 새로운 경쟁 패턴 서브세트 S_R1을 형성한다.

그리고 나서, 단계 (28B)로 진행하여 새로운 인-카테고리 패턴 서브세트 S_N1을 현재 인-카테고리 패턴 서브세트 S_N0로서 채택하고, 새로운 경쟁 패턴 서브세트 S_R1을 현재 경쟁 패턴 서브세트 S_R0로서 채택하며, 단계 25의 선행 반복시에 결정된 새로운 수정된 유크리드 거리 G₁(x)를 현재 수정된 유크리드 거리 G₀(x)로서 채택한다. 그리고 나서, 단계 25로 복귀한다.

단계 (27)에서, 결과가 "NO"일 경우, 인식율의 수렴 여부를 판단하는 단계 (29A)가 수행된다. 이것은, 새로운 인식율 R₁에서 현재 인식율 R₀를 감하므로써 수행될 수 있다. 수렴은, 감산 결과 R₁-R₀가 사전 결정된 한도 미만인지를 판단하므로써 검출된다.

인식 결과가 수렴하지 않는다면, 단계 (29A)에서 "NO"로 판정되어, 다음에 기술되는 단계 (29B)를 통해 단계 (23)로 복귀한다. 그렇지 않으면, 그 다음에 기술되는 단계 (30)로 진행한다.

단계 (29B)에서, 단계 (25)의 가장 최근 실행시에 결정된 새로운 식별 함수 F₁(x)가 현재 식별 함수 F₀(x)로서 채택되고, 단계 (26)의 가장 최근 실행시에 결정된 새로운 인식율 R₁이 현재 인식율 R₀로서 채택된다. 그후, 단계 (23) 내지 단계 (29A)가 한 번 이상 반복된다.

단계 (29A)에서, 인식 결과가 수렴하면, "YES"로 판정되어, 처리가 종료되는 단계 (30)로 진행한다. 이러한 처리 종료시, 기억 장소에 저장된 각 카테고리에 대한 현재의 수정된 유크리드 거리 G₀(x)를 계산하기 위해 상술한 수학식 4에서 사용된 Y, am, bm 및 c의 값이 도 1에 도시한 문자 인식 장치의 거리 계산 모듈(3)에 의해 액세스될 수 있는 메모리 위치에 저장된다.

대안적으로, 각 카테고리에 대한 현재의 수정된 유크리드 거리 G₀(x)를 계산하기 위해 상술한 수학식 4에서 사용된 Y, am, bm 및 c의 값들은, 도 1에 도시한 문자 인식 장치로 전송될 수 있다. 이들 값을 사용하여, 통상적인 기준 벡터 및 가중 벡터를 수정함으로써, 수정된 기준 벡터, 수정된 가중 벡터 및 상수를 발생할 수 있으며, 이들은 수정된 인식 사전(4)내에 저장된다. 또 다른 방안으로서, 각 카테고리에 대한 현재의 수정된 유크리드 거리 G₀(x)를 계산하기 위해 상술한 수학식 4에서 사용된 Y, am, bm 및 c의 값들은, 단계 (22)의 부속 단계 (a)에서 사용된 통상적인 기준 사전내에 저장된, 각 카테고리에 대한 기준 벡터 및 가중 벡터를 수정하는데 사용될 수 있으며, 그 결과 얻어진 수정된 기준 벡터, 수정된 가중 벡터 및 상수는 도 1에 도시한 문자 인식 장치의 수정된 인식 사전(4)으로 전송될 수 있다. 수정된 기준 벡터, 수정된 가중 벡터 및 상수는 수정된 인식 사전내에 저장될 수 있다. 이들 대안들중 어떤 것도, 도 1에 도시한 문자 인식 장치(10)가 통상적인 수정된 유크리드 거리 G(x) 또는 통상적인 유크리드 거리 D(x) 대신, 현재의 수정된 유크리드 거리 G₀(x)를 사용하여 문자 인식을 수행하게 할 수 있다.

본 발명에 따른 방법에 의해 발생된 수정된 인식 사전을 사용하여 문자 인식이 수행되는 경우, 식별 분석에 의한 학습시 식별 축상에서 분포가 비대칭하는 부정적인 요인들이 감소되어, 인식 정확도가 현저히 향상된다. 본 발명의 일실시예에 의해 발생된 수정된 인식 사전을 사용한 문자 인식은, "National Institute of Standards and Technology(NIST)"에 의해 공표된 SD19 데이터베이스에 포함된 필기된 문자를 사용하여 테스트되었다. 통상적인 LDA를 이용해서 발생된 통상적인 인식 사전을 사용하는 문자 인식에서는, 이러한 데이터베이스상에서 99.75%의 인식율을 제공하였다. 이와 대조적으로, 본 발명에 의해 발생된 수정된 인식 사전을 이용한 경우에는, 99.87%의 인식율이 얻어졌다.

이상, 본 발명의 실시예들을 상세히 기술하였지만, 본 발명은 상술한 실시예들에 한정되지 않으며, 첨부된 청구범위에 의해 정의되는 본 발명의 범주내에서 다양한 변형예들이 실시될 수도 있다는 사실을 이해해야 한다.

Claims

구별하기 어려운 패턴들간을 구별하기 위해, 복수의 각 카테고리에 대한 기준 벡터(reference vector) 및 가중 벡터(weighting vector)를 저장하고, 패턴 인식 동작에 사용되는 인식 사전(recognition dictionary)을 최적화하는 방법에 있어서,

훈련용 패턴(training pattern)을 포함하는 훈련용 패턴 세트를 제공하는 단계와;

각 카테고리에 대해, 인-카테고리 패턴 세트(in-category pattern set)에 속하는 훈련용 패턴들중 하나와, 경쟁 패턴 세트(rival pattern set)에 속하는 훈련용 패턴들중 하나간에 식별 분석 동작(discriminant analysis operation)에 의한 학습을 수행하여 식별 함수를 정의하는 단계(22)와;

상기 인-카테고리 패턴 세트에 속하는 각 훈련용 패턴과, 상기 경쟁 패턴 세트에 속하는 각 훈련용 패턴에 대한 상기 식별 함수의 값을 계산하여 각각의 식별 함수값을 발생하는 단계(23)와;

상기 식별 함수값에 응답하여, 상기 인-카테고리 패턴 세트로부터의 훈련용 패턴을 선택하여 인-카테고리 패턴 서브세트를 형성하고, 경쟁 패턴 세트로부터의 훈련용 패턴을 선택하여 경쟁 패턴 서브세트를 형성하는 단계(24)로서, 상기 인-카테고리 서브세트와 상기 경쟁 패턴 서브세트를 형성하도록 선택된 상기 훈련용 패턴들은 구별하기 어려운 훈련용 패턴들인, 상기 단계(24)와;

상기 인-카테고리 패턴 서브세트에 속하는 상기 훈련용 패턴들과 상기 경쟁 패턴 서브세트에 속하는 훈련용 패턴들간에 선형 식별 분석을 수행하여, 상기 카테고리에 대한 새로운 식별 함수을 정의하는 변수를 발생하는 단계(25)와;

상기 새로운 식별 함수를 정의하는 상기 변수를 사용하여, 상기 카테고리에 대한 상기 인식 사전내에 저장된 상기 기준 벡터와 가중 벡터를 수정하는 단계를 포함하는 인식 사전 최적화 방법.
제 1 항에 있어서,

상기 식별 분석 동작에 의한 학습을 수행하는 단계(22)는,

상기 훈련용 패턴 세트에 대해 통상의 문자 인식 동작을 수행하여, 상기 각 카테고리들에 대한 상기 경쟁 패턴 세트를 정의하는 인식 사전 최적화 방법.
제 1 항 또는 제 2 항에 있어서,

상기 인-카테고리 패턴 세트로부터의 훈련용 패턴들을 선택하여 인-카테고리 패턴 서브세트를 형성하고, 상기 경쟁 패턴 세트로부터의 훈련용 패턴들을 선택하여 경쟁 패턴 서브세트을 형성하는 단계(24)는,

상기 인-카테고리 패턴 세트내에서 가장 큰 식별 함수값을 갖는 훈련용 패턴을 선택하여, 상기 인-카테고리 패턴 서브세트를 형성하는 단계와;

상기 경쟁 패턴 세트내에서 가장 작은 식별 함수값을 갖는 훈련용 패턴을 선택하여, 상기 경쟁 패턴 서브세트를 형성하는 단계를 포함하는 인식 사전 최적화 방법.
제 1, 2 또는 3 항에 있어서,

상기 식별 분석 동작에 의해 학습을 수행하는 단계(22)와, 상기 선형 식별 분석을 수행하는 단계(25)에서 상기 식별 분석 동작에 의한 학습 및 상기 선형 식별 분석은 1차 및 2차 항을 포함하는 식별 함수를 사용하여 수행되는 인식 사전 최적화 방법.
제 1 항 내지 제 4 항중 어느 한 항에 있어서,

상기 선형 식별 분석을 수행하는 단계(25)는 상기 새로운 식별 함수를 정의하는 변수를 사용하여 상기 트레이닝 패턴 세트상에 대한 패턴 인식 동작을 수행하는 단계를 포함하며,

상기 방법은,

(1) 상기 패턴 인식 동작에 의해 각 카테고리에 속하는 것으로 잘못 인식된 훈련용 패턴들을 식별하는 단계(26)와,

(2) 카테고리에 대한 새로운 인-카테고리 패턴 서브세트와 새로운 경쟁 패턴 서브세트를 형성하는 단계(28A)로서,

상기 새로운 인-카테고리 패턴 서브세트는 상기 카테고리에 대한 상기 인-카테고리 패턴 서브세트에, 부가시킴으로써 형성되며, 상기 패턴 인식 동작에 의해 다른 카테고리에 속하는 것으로 잘못 인식되었고, 상기 인-카테고리 패턴 서브세트의 현재 구성 요소가 아닌 상기 카테고리에 속하는 상기 훈련용 패턴들을 추가함으로써 형성되며,

상기 새로운 경쟁 패턴 서브세트는 상기 카테고리에 대한 상기 경쟁 패턴 서브세트에, 부가시킴으로써 형성되며, 상기 패턴 인식 동작에 의해 다른 카테고리에 속하는 것으로 잘못 인식되었고, 상기 경쟁 패턴 서브세트의 현재 구성 요소가 아닌 상기 카테고리에 속하는 상기 훈련용 패턴들을 추가함으로써 형성되는 단계를 더 포함하며,

상기 단계는,

(1) 상기 새로운 식별 함수를 정의하는 상기 변수들을 사용하여 상기 선형 식별 분석과 패턴 인식 동작을 수행하는 단계(25)와,

(2) 잘못 인식된 상기 훈련용 패턴들을 식별하는 단계(26)와,

(3) 상기 카테고리에 대한 새로운 인-카테고리 패턴 서브세트와 새로운 경쟁 패턴 서브세트를 형성하는 단계(28)로 구성되는 루프(a loop)이며,

상기 방법은 상기 루프를 반복적으로 실행시키는 단계를 더 포함하며, 상기 선형 식별 분석(25)은 상기 루프의 이전 실행에서 형성된 상기 새로운 인-카테고리 패턴 서브세트와 상기 새로운 경쟁 패턴 서브세트 사이의 상기 루프의 각 실행내에서 수행되는 인식 사전 최적화 방법.
제 5 항에 있어서,

상기 루프는, 상기 패턴 인식 동작에 의해 잘못 인식된 상기 훈련용 패턴들 모두가 상기 패턴 서브세트내에 구비되는 경우를 결정하는 단계(27)를 더 포함하며,

상기 루프를 반복적으로 실행하는 상기 단계에서, 상기 잘못 인식된 훈련용 패턴들 모두가 상기 패턴 서브세트내에 구비되는 경우를 결정하는, 상기 잘못 인식된 훈련용 패턴들 모두가 상기 패턴 서브세트내에 구비되는 경우를 결정하는 상기 단계까지 상기 루프를 반복적으로 실행시키는 인식 사전 최적화 방법.
제 1 항 내지 제 4 항중 어느 한 항에 있어서,

선형 식별 분석을 수행하는 상기 단계(25)는,

(1) 상기 훈련용 패턴 세트상에서 상기 새로운 식별 함수를 정의하는 변수들을 사용하여 패턴 인식 동작을 수행하되, 상기 패턴 인식 동작은 패턴 인식 결과를 발생시키며,

(2) 상기 패턴 인식 동작에 의해 발생된 상기 패턴 인식 결과에 대한 인식율을 결정하는 단계를 포함하고,

상기 단계는,

(1) 상기 식별 함수의 값을 계산하는 단계(23)와,

(2) 훈련용 패턴들을 선택하여 상기 인-카테고리 패턴 서브세트를 형성하고, 훈련용 패턴들을 선택하여 상기 경쟁 패턴 서브세트를 형성하는 단계(24)와,

(3) 상기 새로운 식별 함수를 정의하는 상기 변수들을 사용하는 상기 패턴 인식 동작, 상기 선형 식별 분석을 수행하여 상기 인식율을 결정하는 단계(25)로 구성되는 루프이며,

상기 단계는, 상기 인식율이, 상기 루프 수렴의 연속적인 실행으로 결정되고, 상기 변수들이, 상기 루프의 상기 다음 실행에서 상기 식별 함수의 상기 값을 계산하는 상기 단계에서 계산된 값을 갖는 상기 식별 함수를 정의하는 상기 부가적인 식별 분석을 상기 루프의 각 실행내에서 수행하는 상기 단계로 결정될 때까지, 상기 루프를 반복적으로 실행시키는 단계를 더 포함하는 인식 사전 최적화 방법.
제 7 항에 있어서,

상기 방법은,

(1) 상기 패턴 인식 동작에 의해 각 카테고리에 속하는 것으로 잘못 인식된 상기 훈련용 패턴들을 식별하는 단계(26)와,

(2) 카테고리에 대한 새로운 인-카테고리 패턴 서브세트와 새로운 경쟁 패턴 서브세트를 형성하는 단계(28A)로서,

상기 새로운 인-카테고리 패턴 서브세트는 상기 카테고리에 대한 상기 인-카테고리 패턴 서브세트에, 부가시킴으로써 형성되며, 상기 패턴 인식 동작에 의해 다른 카테고리에 속하는 것으로 잘못 인식되었고, 상기 인-카테고리 패턴 서브세트의 현재 구성 요소가 아닌 상기 카테고리에 속하는 상기 훈련용 패턴들을 추가함으로써 형성되며,

상기 새로운 경쟁 패턴 서브세트는 상기 카테고리에 대한 상기 경쟁 패턴 서브세트에, 부가시킴으로써 형성되며, 상기 패턴 인식 동작에 의해 다른 카테고리에 속하는 것으로 잘못 인식되었고, 상기 경쟁 패턴 서브세트의 현재 구성 요소가 아닌 상기 카테고리에 속하는 상기 훈련용 패턴들을 추가함으로써 형성되는 단계를 더 포함하며,

상기 단계는,

(1) 상기 새로운 식별 함수를 정의하는 상기 변수들을 사용하여 상기 선형 식별 분석과 패턴 인식 동작을 수행하는 단계(25)와,

(2) 잘못 인식된 상기 훈련용 패턴들을 식별하는 단계(26)와,

(3) 상기 카테고리에 대한 새로운 인-카테고리 패턴 서브세트와 새로운 경쟁 패턴 서브세트를 형성하는 단계(28A)로 구성되는 제 2 루프이며,

상기 방법은 상기 제 2 루프를 반복적으로 실행시키는 단계를 더 포함하며, 상기 선형 식별 분석(25)은 상기 제 2 루프의 이전 실행에서 형성된 상기 새로운 인-카테고리 패턴 서브세트와 상기 새로운 경쟁 패턴 서브세트 사이의 상기 제 2 루프의 각 실행내에서 수행되는 인식 사전 최적화 방법.
제 8 항에 있어서,

상기 제 2 루프는, 상기 패턴 인식 동작에 의해 잘못 인식된 상기 훈련용 패턴들 모두가 상기 패턴 서브세트내에 구비되는 경우를 결정하는 단계(27)를 더 포함하며,

상기 제 2 루프를 반복적으로 실행하는 상기 단계에서, 상기 잘못 인식된 훈련용 패턴들 모두가 상기 패턴 서브세트내에 구비되는 경우를 결정하는, 상기 잘못 인식된 훈련용 패턴들 모두가 상기 패턴 서브세트내에 구비되는 경우를 결정하는 상기 단계까지 상기 제 2 루프를 반복적으로 실행시키는 인식 사전 최적화 방법.