KR100464428B1

KR100464428B1 - 음성 인식 장치

Info

Publication number: KR100464428B1
Application number: KR10-2002-0047581A
Authority: KR
Inventors: 김태수; 장호랑; 박선희; 민병호
Original assignee: 삼성전자주식회사
Priority date: 2002-08-12
Filing date: 2002-08-12
Publication date: 2005-01-03
Also published as: KR20040014835A

Abstract

음성 인식에 필요한 여러가지의 연산들 중에서 자주 사용되며 시스템 점유율이 높은 연산들을 위한 전용 연산 모듈들을 구비하는 음성 인식 장치.

본 발명에 따른 음성 인식 장치는 음성 인식에 있어서 시스템 점유율이 높은 관측 확률 연산 및 FFT연산을 프로세서와 독립적으로 처리하는 전용의 연산 장치들을 구비한다. 연산 장치들은 프로세서에서 제공되는 명령을 해석하여 지시된 동작을 수행한다.

본 발명에 따른 음성 인식 장치는 시스템 점유율이 높은 관측 확률 연산 및 FFT연산을 프로세서와 독립적으로 처리하는 전용의 연산 장치들을 구비함으로써 음성 인식을 위한 처리 시간을 대폭적으로 단축시킬 수 있다는 효과를 가진다.

Description

음성 인식 장치{Apparatus for recognizing a voice}

본 발명은 음성 인식 장치에 관한 것으로서 특히, 음성 인식에 필요한 여러가지의 연산들 중에서 자주 사용되며 시스템 점유율이 높은 연산들을 위한 전용 연산 모듈들을 구비하는 음성 인식 장치에 관한 것이다.

음성인식 기능은 인간이 일상생활에서 접할 수 있는 거의 모든 전자제품에 적용될 수 있으며 이러한 적용 추세는 저가의 전자 장난감(e-toy) 제품을 시작으로점차 그 적용 범위가 확대될 전망이다.

음성 인식과 관련하여 최초로 사용화 기술을 제시한 회사는 IBM사로 문자인식에 처음 은닉 마코프 모델을 적용하면서 효율성을 입증하였다. (1997.06, US 5,636,291)

이러한 음성인식 장치는 크게 세부분으로 나뉘는데, 각각 전처리(Pre-processor) 부분, Front-end 부분, 모델링 부분이다. Pre-processor 부분은 처리 대상의 문자에 대한 어휘소를 인지하는 단계이다.

Front-end 부분은 인지된 어휘소로부터 비교대상이 되는 특징값(Feature value) 또는 파라미터들을 추출해내는 기능을 갖고 있다.

한편, 모델링 부분에서는 추출된 파라미터들을 근거로 향후 인지된 문자에 대한 정확한 판단 기준이 되는 모델을 학습과정(Training Phase)를 통해 구성해 나간다. 이와 함께 인지된 어휘소들을 바탕으로 미리 지정된 문자들중 어느 문자를 인식된 문자로 판단할 지를 결정하는 기능을 수행하게 된다.

이후 IBM사에서는 더 광범위한 영역에서 사용할 수 있는 은닉 마코프 모델을 이용한 음성인식 시스템 및 방법들을 공개하였다. (1998.08, US 5,799,278) 이 기술은 고립어에 대한 음성인식 처리 과정에서 은닉 마코프 모델을 이용하는 기술로써, 음성학적으로 다른 단어들을 인식할 수 있도록 Training되며, 그리고 많은 단어들을 인식하는데 적합한 은닉 마코프 모델을 사용하는 방법 및 음성인식 시스템에 대한 것이다.

음성 인식 장치는 소프트웨어 방식과 하드웨어 방식으로 대별될 수 있따.

소프트웨어 방식은 음성 인식 프로그램을 적재하고, 범용의 프로세서를 사용하는 것으로서, 연산시간이 상대적으로 많이 걸리지만 유연성이 높아 손쉽게 기능을 변경할 수 있다는 장점이 있다..

한편, 전용 하드웨어 방식은 전용의 하드웨어 장치를 사용하는 것으로서, 소프트웨어 방식에 비해 처리 속도가 빠르고 적은 전력소모량을 나타내지만, 유연성이 없어 기능의 변경이 매우 어렵다는 단점이 있다.

따라서, 기능의 변경이 용이한 소프트웨어 방식에 적합하면서 상대적으로 하드웨어 방식에서 처럼 처리 속도가 빠른 음성 인식 장치가 요구된다.

본 발명은 상기의 요구에 부응하기 위한 것으로서 범용의 프로세서를 이용하여 소프트웨어적으로 처리하면서도, 처리 속도가 빠른 음성 인식 장치를 제공하는 것을 그 목적으로 한다.

도 1은 일반적인 음성 인식 시스템의 구성을 보이는 블록도이다.

도 2는 임의의 음절에 대한 상태열을 구하는 방법을 도식적으로 보이기 위한 것이다.

도 3은 단어 인식 과정을 도식적으로 보이기 위한 것이다.

도 4는 본 발명에 따른 음성 인식 장치의 구성을 보이는 블록도이다.

도 5는 도 4에 도시된 장치에 있어서 제어 명령 및 데이터를 수신하는 과정을 도식적으로 보이기 위하여 도시된 블록도이다.

도 6은 도 4에 도시된 장치에 있어서 제어 명령 및 데이터를 수신하는 과정을 도식적으로 보이기 위한 타이밍도이다.

도 7은 본 발명에 따른 음성 인식 장치에 적용된 관측 확률 연산 장치의 상세한 구성을 보이는 블록도이다.

도 8은 비트 해상도의 선정에 대한 이해를 돕기위하여 도시된 것이다.

도 9는 복소 FFT를 연산하는 기수2의 복소 FFT를 수행하는 장치의 기본 구조를 보이기 위해 도시된 것이다.

도 10은 본 발명에 따른 음성 인식 장치에 적용된 복소 FFT 연산 장치의 구성을 보이는 블록도이다.

도 11은 도 10에 도시된 장치의 동작을 도식적으로 보이기 위한 타이밍도이다.

도 12는 블록 고정형의 연산 알고리즘을 보이는 흐름도이다.

도 13는 계수 고정형 알고리즘의 수행 순서를 보이는 흐름도이다.

도 14는 FFTFR 명령을 수행하는 것을 도식적으로 보이기 위한 타이밍도이다.

도 15는 FFTSR 명령을 수행하는 것을 도식적으로 보이기 위한 타이밍도이다.

도 16(a) 및 16(b)는 종래의 FFT 연산 장치의 일예를 보이는 것이다.

도 17은 종래의 FFT연산 장치의 다른 예를 보이는 것

도 18은 종래의 FFT 연산 장치의 또다른 예를 보이는 것

도 19는 종래의 FFT 연산 장치의 또 다른 예를 보이는 것

도 20은 도 10에 도시된 FFT 연산 장치를 이용하여 256포인트의 데이터 블록에 대한 FFT연산을 수행한 결과를 도시한 것이다.

도 21a 내지 도 21b는 본 발명에 따른 음성 인식 장치에 적용된 캐쉬 제어 방법을 도식적으로 보이기 위해 도시된 것이다.

도 22는 본 발명에 따른 음성 인식 장치에 적용된 캐쉬 장치의 구성을 보이는 블록도이다.

도 23은 도 22에 도시된 장치에 있어서 내부 메모리의 저장 내용을 도식적으로 보이기 위해 도시된 것이다.

도 24는 도 22에 도시된 비교기의 상세한 구성을 보이는 블록도이다.

도 25는 도 22에 도시된 어드레스 변환기의 동작을 도식적으로 도시한다.

도 26은 도 22에 도시된 명령어 저장 제어기의 상세한 구성을 보이는 블록도이다.

도 27은 도 22에 도시된 장치의 하드웨어 제어 모드에서의 동작을 보이는 흐름도이다.

도 28은 도 22에 도시된 장치의 소프트웨어 제어 모드에서의 동작을 보이는 흐름도이다.

도 29는 블록 교환 동작을 위한 명령어의 예를 도시한다.

도 30는 도 22에 도시된 버스 I/F의 구성예들을 도시한다.

도 31는 종래의 캐쉬의 일예를 보이는 것이다.

도 32는 종래의 캐쉬의 다른 예를 도시하는 것이다.

도 33은 종래의 캐쉬의 또 다른 예를 도시하는 것이다.

도 34는 종래의 캐쉬의 또 다른 예를 도시하는 것이다.

상기의 목적을 달성하는 본 발명에 따른 음성 인식 장치는

입력되는 음성 신호에서 유효 음성 구간을 추출하고, 유효 음성 구간에서 음성 인식을 위한 특징값들을 추출하고, 이를 미리 저장된 단어의 특징값들과 비교하며, 가장 큰 확률을 보이는 단어를 음성 인식의 결과로서 출력하는 음성 인식 장치에 있어서,

마이크로부터 입력되는 음성 신호를 샘플링하고, 샘플 데이터들을 소정의 시간 단위로 블록화하여 출력하는 CODEC;

상기 CODEC모듈에서 출력되는 데이터 블록들 중에서 유효 음성 구간에 속한 것들을 버퍼링하는 레지스터 파일 모듈;

상기 레지스터 파일 모듈에서 제공되는 데이터 블록들을 주파수 영역으로 변환하거나 그것의 역동작을 수행하고, 그 결과를 상기 레지스터 파일 모듈에 저장하는 FFT 모듈;

FFT 변환에 의해 얻어진 주파수 스펙트럼에 근거하여 추출된 특징값들과 미리 선정된 각 단어 음절의 특징값들을 비교하여 관측 확률을 산출하는 관측 확률 연산 모듈;

상기 CODEC모듈에서 출력되는 데이터 블록들 중에서 유효 음성 구간에 속한 것들을 추출하며 상기 레지스터 파일에 저장하고, 상기 레지스터 파일에 저장된 주파수 스펙트럼으로부터 히든 마코프 모델을 위한 특징값을 산출하며, 상기 관측 확률 연산 모듈에서 연산된 음절별 관측 확률을 이용하여 단어 인식을 수행하는 음성 인식 프로그램을 저장하는 프로그램 메모리; 및

상기 프로그램 메모리에 저장된 음성 인식 프로그램에 의해 상기 구성 모듈들의 동작을 제어하여 음성 인식을 수행하는 프로세서를 포함하는 것을 특징으로 한다.

이하 첨부된 도면을 참조하여 본 발명의 구성 및 동작을 상세히 설명하기로 한다.

도 1은 일반적인 음성 인식 시스템의 구성을 보이는 블록도이다. 도 1에 도시된 장치에 있어서, A/D 블록(101)은 연속적인 신호로 입력되는 음성신호를 연산이 용이한 디지털 신호로 바꿔 주는 기능을 한다.

Pre-emphasis 블록(102)은 음성의 특성상 발음의 구분을 명확하기 위해 고주파 성분을 강조시켜 주는 기능을 한다. 디지털 신호로 바뀐 음성신호는 일정한 샘플링 개수 단위로 분리하여 처리하게 되는데 예를 들면, 240개의 샘플(30㎳) 단위로 구분한다.

현재 일반적으로 은닉 마코프 모델에 사용되는 특징(Feature) 벡터로써 주파수 스펙트럼(Spectrum)에서 생성해낸 켑스트럼(Cepstrum)과 에너지를 사용하기 때문에 이를 구하는 연산이 필요하며, 이러한 에너지 및 스펙트럼을 구하는 연산 블록이 Energy Calculation 블록(103)이다. 여기서는 에너지를 구하기 위해 타이밍 영역에서 에너지 계산 공식을 이용해 30㎳에 대한 순간 에너지를 계산한다. 이 계산식은 수학식 1과 같다.

이 에너지 값은 현재 입력된 신호가 음성신호인지 잡음인지를 판단하는데 사용된다. 이와 함께 주파수 영역에서의 스펙트럼을 구하기 위해서는 신호처리에서많이 사용되는 고속 푸리에 변환(Fast Fourier Transform ;FFT)을 이용한다. 이러한 FFT 연산은 수학식 2와 같이 나타낼 수 있다.

에너지 연산 결과를 이용해 음성신호인지 잡음인지를 판별한 후 음성신호로 판명이 되면 음성의 시작과 끝을 결정하여야 한다. 이러한 음성신호의 시작과 끝을 결정하는 기능을 FineEndPoint 블록(104)에서 수행한다. 이와 같이 유효한 하나의 단어가 결정이 되면 이에 해당하는 스펙트럼 데이터들만이 버퍼 블록(105)에 저장된다. 따라서, 버퍼블록(105)에는 화자(Speaker)의 발화 단어중 잡음 부분이 제외된 유효한 음성신호만이 저장이 된다.

Mel-filter 블록(106)에서는 켑스트럼(Cepstrum)을 구하기 위한 전처리 과정으로 스펙트럼을 32 대역폭으로 필터링하는 Mel-filtering 연산이 수행된다.

이 과정을 통해 32개 대역에 대한 스펙트럼 값이 구해진다. 주파수 영역에 있는 이 값을 다시 시간 영역으로 변환하면 은닉 마코프 모델에서 사용하는 파라미터인 켑스트럼(Cepstrum)을 구할 수 있다. 이러한 시간영역으로의 변환을 위해 Inverse Discrete Cosine Transform(IDCT) 연산을 수행한다. (IDCT 블록, 107)

은닉 마코프 모델을 이용한 검색을 위해 이러한 켑스트럼과 에너지 값이 사용되는데 에너지 값과 켑스트럼간의 값의 차이가 너무 크기 때문에 (10의 2승 정도의 차이), 이러한 값들간의 크기 조절이 필요하다. 이러한 값의 크기조절을 Scale블록(108)에서 수행한다. 값의 조절은 Logarithm을 이용하여 조절한다. 이와 함께, Cepstral Window 블록(109)에서는 Mel-cepstrum 값에서 주기성과 에너지를 분리하는 작업과 잡음 특성을 개선하기 위한 작업을 수행한다. 여기서 잡음 특성을 개선하는 것은 수학식 3을 이용하여 처리한다.

여기서, Sin_Table은 다음 수학식 4와 같이 구성될 수 있다.

이상의 연산이 완료되면, 다음과 같은 Normalization 블록(110)을 통해 각 프레임의 9번째 데이터인 에너지 값들을 일정한 범위 이내의 값으로 정규화시킨다.

수학식 5와 같이 각 프레임의 9번째 데이터들 중에서 가장 큰 값을 찾고, 이 값을 수학식 6과 같이 모든 프레임의 에너지 데이터들에서 빼주면 Normalized Energy를 구할 수 있다.

일반적으로 인식률을 높이기 위해 파라미터(특징 값)의 종류를 늘리는 방법이 자주 사용된다. 가장 흔히 사용되는 방법이 각 프레임의 특징 값(Feature)외에 프레임과 프레임간 특징값의 차이를 또 하나의 특징 값으로 취하는 것이다. Dynamic Feature 블록(111)은 이러한 Delta Cepstrum을 계산하여 2차 특징 값으로 선정하는 부분이다. 이러한 켑스트럼들간의 차이를 계산하는 방법은 수학식 7과 같이 표현될 수 있다.

일반적으로 연산 대상 프레임은 앞과 뒤 각각 2프레임씩이다. 이러한 연산이 완료되면 Cepstrum과 같은 수의 Delta Cepstrum이 생성된다.

이상과 같은 작업을 통해 은닉 마코프 모델 검색의 대상이 되는 특징 값들을 추출해 내게 된다.

이러한 특징 값들로 부터 미리 정해진 은닉 마코프 모델을 이용한 단어 탐색 작업을 수행하게 된다. 은닉 마코프 모델의 탐색 작업은 크게 세 단계를 거친다. 첫번째는 관측 확률(Observation Probability) 계산 블록(112)이다. 기본적으로 검색 및 결정과정은 확률을 근거로 한다. 확률적으로 가장 근사한 음절을 찾아 내는 것이다. 확률 값은 크게 관측 확률(Observation Probability)과 천이 확률(Transition Probability)로 나뉘어 지며 이러한 확률 값을 누적하여 확률 값이 가장 큰 음절의 시퀀스(Sequence)가 선택되는 것이다. 관측 확률은 수학식 8과 같이 나타낼 수 있다.

여기서, dbx는 기준 평균치와 입력 신호에서 추출한 특징 값간의 확률적 거리이다. 확률적으로 거리가 가까울수록 확률값이 커진다. 이러한 확률적 거리를 구하는 공식은 수학식 9와 같다.

여기서, m은 파라미터의 평균값을 나타내며, Feature는 입력된 신호로부터 추출해 낸 파라미터 값을 의미한다. p는 Precision 값으로 분포 정도(분산 1/σ² )를 나타내며 lw는 Log weight로써 가중치를 나타낸다. i는 음소의 대표적인 유형을 나타내는 Mixture를 나타낸다. 예를 들어 인식의 정확도를 높이기 위하여 많은 사람들로부터 대표값을 얻는 것이 필요하고, 이들 대표값들을 하나의 음소에 대하여 공통적 유형을 나타내는 몇 개의 그룹들로 분류하면 i는 각 그룹의 대표값을 나타내는 인수가 된다. k는 프레임의 개수, 그리고 j는 파라미터의 개수를 나타낸다. 참고로 프레임의 개수는 단어의 유형에 따라 다르며 Mixture는 일반적은 사람의 발음 유형에 따라 다양하게 분류될 수 있다. Log Weight는 선형영역에서의 가중치 계산이 로그 영역에서의 가중치 계산으로 변환되면서 감산이 이루어진다.

이와 같이 계산된 관측확률은 미리 선정된 각 단어 음절의 음소가 관측될 수 있는 확률들로 해당 음소마다 각기 다른 확률 값을 갖게 된다. 따라서 모든 음소에 대한 관측확률이 정해지면 이를 미리 정해진 State Machine Sequence 블록(113)에 적용하여 가장 적합한 음소의 Sequence를 구하게 된다. 일반적으로 독립어 인식을 위한 은닉 마코프 모델의 각 State Machine은 인식하고자 하는 단어의 각 음소에 대한 특징 값을 근거로 이루어진 시이퀀스(Sequence)이다.

도 2는 임의의 음절에 대한 상태열을 구하는 방법을 도식적으로 보이기 위한 것으로서, 임의의 음절 "크"에 대한 상태열(State Machine Sequence)을 나타낸 것이다.

"크"라는 음절이 3개의 순차적인 상태열(S1, S2, S3)으로 구성된다고 가정할 때, 도 2에서는 최초 상태(S0)에서 출발하여, S1과 S2를 거처서 최종적으로 S3에 도달하는 과정을 도시하고 있다. 도 2에 있어서 같은 상태에서의 우측으로 진행하는 것은 지연 상태를 의미하며, 이러한 지연 상태는 화자 의존적인 것이다. 즉, 어떤 경우에 있어서 "크"라는 음절이 시간적으로 매우 짧게 발생할 수 있으나 다른 경우에 있어서는 상대적으로 긴 시간에 발생될 수 있다. 어떤 음절의 발생 시간이 길 수록 각 상태에서의 지연이 길어진다. 도 2에 있어서 Sil은 묵음(silent sound)을 나타낸다.

만약 사용자가 "크"라고 발음했다면 이 상태열이 가장 큰 확률 값을 갖게 될 것이다. 따라서 도 2와 같은 많은 상태열이 존재하게 되며 각각의 상태열 마다 하나의 입력 신호에 대한 확률 연산이 이루어 지므로 많은 연산량이 필요하다.

최종적으로 모든 음소에 대한 확률적 연산(음소별 상태열 처리 작업)이 완료되면 음소별 최종 단의 상태(State Machine)에는 확률 값이 저장된다. 도 2에서 각 상태 단을 진행하는 기준은 다음의 수학식 10을 이용해 최대인 가지(Branch)를 선택하면서 Alpha 값을 구하는 것이다. 이러한 Alpha 값은 결국 관측확률이 누적된 값으로 이전의 관측확률 값과 미리 경험적 실험을 통해 얻은 음소간 천이 확률(Transition Probability)을 이용해 구하게 된다.

여기서, State.Alpha는 새로이 계산되어 누적되는 확률 값이며, State.Alpha_prev는 이전까지 누적된 확률 값이다. 또한 trans_prob[0]는 상태 Sn에서 Sn으로 천이할 확률이며(예, S0→S0) trans_prob[1]은 상태 Sn에서 상태 Sn+1로 천이할 확률이다. (예, S0→S1) 그리고 o_prob는 현재의 상태에서 계산된 관측확률이다. Find Maximum Likelihood 블록(114)에서는 수학식 10과 같이 음소별 최종 누적된 확률 값을 근거로 인식된 단어를 선택하는 기능을 수행한다. 이때 확률 값이 가장 큰 해당 단어를 인식된 단어로 선택하게 된다.

"KBS"라는 단어를 인식하기 위한 과정을 예를 들어 설명하기로 한다.

"KBS"라는 단어는 "케이", "비", "에스"라는 3개의 음절로 구성되고, 또한, "케이"라는 음절은 "크", "에", "이"라는 3개의 음소들로 구성되고, "비"라는 음절은 "브"와 "이"라는 음소들로 구성되며, "에스"라는 음절은 "이", "에", 그리고 "스"라는 3개의 음소들로 구성된다.

"KBS"라는 단어는 "크", "에", "이", "브", "이", "이", "에", 그리고 "스"라는 8개의 음소들로 구성되며, 각 음소들의 관측 확률과 각 음소들 사이의 천이 확률에 의해 인식되게 된다.

즉, "KBS"라는 단어를 인식하기 위해서는 "크", "에", "이", "브", "이", "이", "에", 그리고 "스"라는 8개의 음소들이 최대한 정확하게 인식되어야 하고, 그것을 바탕으로 각 음소들 사이의 시퀀스가 최대한 유사한 단어인 "KBS"가 선택되어야 한다.

먼저 입력된 음성 신호에 대하여 각 음소별로 관측 확률이 계산된다. 관측 확률을 계산하기 위해서 데이터베이스에 저장된 대표 음소들과의 유사 정도 즉 확률이 계산되고, 확률이 가장 큰 대표 음소에 대한 확률이 관측확률이 된다. 예를 들면, "크"라는 음소에 대하여 데이터베이스에 저장된 대표 음소들 모두가 비교되고 그 중에서 가장 큰 확률을 보이는 "크"라는 대표 음소가 선택된다.

입력된 음성 신호에 대하여 각 음소별로 관측 확률이 계산되면, 즉, 음성 신호의 각 음소에 대한 대표 음소들이 결정되면, 입력된 음성 신호를 이들 대표 음소들로 이루어진 스테이트 머신 시퀀스에 적용시켜 가장 적합한 시퀀스를 결정하게 된다. 스테이트 머신 시퀀스는 "크", "에", "이", "브", "이", "이", "에", 그리고 "스"라는 8개의 음소들로 구성되게 되며, 각 음소들의 관측 확률 및 이들의 누적값이 가장 큰 단어인 "KBS"가 선택되게 되는 것이다. 각각의 음소들은 세부적으로 3개의 스테이트로 구성된다.

도 3은 단어 인식 과정을 도식적으로 보이기 위한 것이다.

예를 들면, "KBS"라는 단어를 인식하기 위해서 관측 확률 연산 블록(112)를 통하여 각각의 음소들 "크", "에", "이", "브", "이", "이", "에", 그리고 "스"라는 8개의 음소들에 대한 관측 확률이 계산되고, 스테이트 머신(113)을 통하여 각 음소들의 관측 확률 및 이들의 누적값이 가장 큰 단어인 "KBS"가 선택되게 되는 것이다.

일반적으로 기존의 많은 음성인식 제품들은 이상의 기능들을 소프트웨어(C/C++ 언어)나 기계어(Assembly Code)로 설계하여 범용 프로세서를 이용해 기능을 수행시킨다.

또 다른 사용 형태는 전용 하드웨어(ASIC, Application Specific Integrated Circuit)로 구현하여 수행시키기도 한다. 이러한 두 가지 방법은 각각 장단점을 갖고 있다. 소프트웨어로 처리하는 방식은 연산시간이 상대적으로 많이 걸리지만 유연성이 높아 쉽게 기능의 변경이 가능하다.

한편, 전용 하드웨어로 처리하는 방식은 소프트웨어로 처리하는 것에 비해 상대적으로 처리 속도가 빠르고 적은 전력소모량을 나타내지만, 유연성이 없어 기능의 변경이 불가능하다.

따라서 본 발명에서는 기능의 변경이 용이한 소프트웨어 방식에 적합하면서 상대적으로 처리속도가 빠를 수 있도록 지원할 수 있는 장치를 제안한다.

소프트웨어 처리 방식으로 범용 프로세서를 사용할 경우 각 기능을 수행하는데 소요되는 연산수를 표 1에 나타내었다. 여기서 연산수는 실제 명령어 수가 아니라 곱셈, 덧셈, 로그, 지수연산과 같은 연산 횟수를 나타낸다.

연산	Pre-processing	Mel-filtering & Cepstrum	HMM	합계
연산	Pre-emphasis	EnergyCalc.	FFT	합계	Mel-Filter	IDCT	Scaling	Cepstr.	Observ.Prob.	StateMachine
곱셈	160	240	4096	234	288	9	36	43200	0	48,263
덧셈	160	239	6144	202	279	0	1	45600	600	53,225
나눗셉	0	1	0	0	0	0	9	0	0	10
제곱근	0	1	0	0	0	0	0	0	0	1
LOG	0	0	0	32	0	0	0	0	1	33
총연산	320	481	10240	468	567	9	46	88800	601	101,532

표 1에서 알 수 있듯이 일반적인 음성인식 처리에 필요한 총 연산수는 약 100,000개이며 이 중에서 약 88.8% 정도가 관측확률 연산이고, 약 10.1%정도가 FFT 연산이다.

따라서, 관측 확률 연산과 FFT 연산과 같이 시스템 점유율이 높은 연산들을 전용의 연산 장치들을 통하여 처리하게 되면 시스템의 퍼포먼스가 대폭적으로 향상된다. 다시 말하면, 낮은 클록으로 동작하는 장치로도 우수한 음성 인식 효과를 달성할 수 있게 된다.

본 발명에 따르면 관측 확률 연산 및 FFT 연산을 전용으로 수행하는 전용 연산 장치들을 구비함으로써 음성 처리 속도가 증진되는 개선된 음성 인식 장치가 개시된다.

본 발명에 따르면 관측 확률 연산 및 FFT 연산을 전용으로 수행하는 전용 연산 장치들 뿐만 아니라, 배럴 쉬프트, 곱셈 및 누적 연산, 제곱근 연산 등을 위한 전용의 연산 장치들을 구비하는 음성 인식 장치가 개시된다.

본 발명의 음성 인식 장치는 외부 컴퓨터와 연계되어 작동한다. 따라서, 본발명에 따른 음성 인식 장치는 외부 컴퓨터로부터 프로그램을 전달받거나 음성 인식 결과를 외부 컴퓨터로 전달하기 위한 메모리 인터페이스 장치를 구비한다.

본 발명의 음성 인식 장치는 외부 컴퓨터로부터 전달받은 프로그램을 저장하는 프로그램 메모리 및 중앙처리장치와 프로그램 메모리 데이터 처리 속도의 편차를 해소하기 위한 캐쉬 장치를 구비한다.

일반적으로 범용 프로세서의 내부 버스는 2Read, 1Write의 3버스 방식이 널리 사용되고 있다. 따라서, 본 발명의 음성 인식 장치는 3버스 방식에 적합한 구조로 설계된다.

또한, 본 발명의 음성 인식 장치를 구성하는 구성 모듈들은 명령어 버스를 통하여 명령어를 수신하며, 자체에 구비된 디코더가 명령어를 해독하여 지시된 동작을 수행한다.

도 4는 본 발명에 따른 음성 인식 장치의 구성을 보이는 블록도이다. 도 4에 도시된 장치는 system on chip에 의한 장치로서, 화자독립 음성인식 전용 프로세서로서 3버스 시스템 방식을 사용한다. 각 구성 모듈들은 데이터를 위한 3개의 버스(2개의 읽기 버스와 1개의 쓰기 버스) 동작 코드를 위한 2개의 OPcode 버스들을 공유한다.

도 4에 있어서 제어부(Ctrl Unit, 402)는 범용 프로세서를 의미히고, REG FILE(404)은 레지스터 파일(register file) 기능을 수행하는 모듈을 의미하고, ALU(406)는 Arithmatic Logic을 수행하는 모듈을 의미하고, MAC(408)는 관측 확률 연산을 위한 반복적인 Multiply and ACcummulate 기능을 수행하는 것을 의미하고,B SHIFTER(배럴 쉬프터, 410)는 배럴 쉬프트(barrel shift)기능을 수행하는 모듈을 의미하고, FFT(412)는 본 발명에 따른 FFT연산을 수행하는 모듈을 의미하며, SQRT(제곱근 연산기, 414)는 squart and root 연산 기능을 수행하는 모듈을 의미하며, TIMER(타이머, 416)는 타이머 기능을 수행하는 모듈을 나타내며, CLKGEN(클럭 발생기, 418)는 클록 발생 기능을 수행하는 모듈을 나타낸다. CLKGEN(418)는 저전력 소모를 위하여 클록 속도를 조절한다.

PMEM(프로그램 메모리, 420), PMIF(프로그램 메모리 인터페이스, 422), EXIF(외부 인터페이스, 424), MEMIF(메모리 인터페이스, 426), HMM(히든 마코프 모델 연산 모듈, 428), SIF(동기식 직렬 인터페이스, 430), UART(Universal Asynchronous Receiver/Transmitter, 비동기식 직렬 인터페이스, 432), GPIO(범용 입출력 인터페이스, 434), CODEC IF(코덱 인터페이스, 436), 그리고 CODEC(코덱, 440)로 표기된 것들은 각각 프로그램 메모리, 프로그램 메모리 인터페이스, 외부 인터페이스, 메모리 인터페이스, 히든 마코프 모델 연산, 동기식 직렬 연터페이스, 비동기식 직렬 인터페이스, 범용 입출력, 코덱 인터페이스, 그리고 코덱 기능들을 수행하는 모듈들이다. 또한, 외부 버스(452)는 외부 메모리와의 데이터 인터페이스를 위한 외부 버스이다. EXIF(424)는 DMA(Dynamic Memory Access)를 지원한다. 도 4에서 상세히 도시되지는 않았지만 실제로는 각 버스들(442 -450)은 각 모듈들(402-440)에 연결된다.

각 구성 요소들 내부의 제어부(디코더, 미도시)는 전용 명령 버스(OPcode bus, 448, 450)를 통해 명령을 받아 디코딩하여 필요한 동작을 수행한다. 한편, 데이터들은 2개의 읽기 버스(442, 444)들을 통하여 제공되거나 1개의 쓰기 버스(446)를 통하여 출력된다.

도 4에 도시된 장치는 프로그램 메모리(PMEM, Program MEMory, 420)를 구비하며, 프로그램은 외부 인터페이스 장치(EXIF, EXternal InterFace, 424)를 통하여 프로그램 메모리(PMEM, 420)에 로드된다.

제어부(Ctrl Unit, 402)는 자신이 직접 제어 명령을 디코딩하여 지정된 동작을 수행하도록 제어하거나, OPcode bus 0,1(448, 450)를 이용하여 각 구성 모듈들의 동작을 제어한다. 각 구성 모듈들은 OPcode bus1,2(448, 450) 및 읽기 버스 A,B(442, 444)를 공유한다.

제어부(Ctrl Unit, 402)가 직접 제어하는 경우 프로그램 메모리(PMEM, 420)로부터 제어 명령을 펫취(fetch)하여 이를 디코딩하고, 제어 동작에 필요한 데이터를 읽어들여 REG FILE(레지스터 파일, 404)에 저장한다. 이후 제어 동작이 제어 논리일 경우에는 ALU(Arithmatic Logic Unit, 406)를, 승산 및 누산일 경우에는 MAC(Multiply and ACcummulate, 408)를, 배럴 쉬프트 동작일 경우에는 B SHIFTER(Barrel SHITER, 410)를, 자승(square)/근(root)연산일 경우에는 SQRT(SQart and RooT, 414) 등을 이용하여 제어 동작을 수행하고 그 결과값을 다시 REG FILE(레지스터 파일, 404)에 저장한다.

제어부(Ctrl Unit, 402)가 직접 제어하지 않는 경우에는 OPcode bus0,1(448, 450)를 이용한다. 제어부(Ctrl Unit, 402)는 PMEM(프로그램 메모리, 420)으로부터 펫취한 제어 명령을 디코딩하는 대신 OPcode bus0(448) 및 OPcode bus1(450)에 차례로 팻취한 제어 명령을 인가한다.

OPcode bus0(448)과 OPcode bus1(450)에는 동일한 제어 명령이 1클럭의 차이를 두고 차례로 인가된다. 구성 모듈들은 OPcode bus0(448)에 제어 명령이 인가되면 자신에게 해당하는 제어 명령인가를 판단하고, 자신에게 해당하는 것이라면 이를 디코딩하여 제어 명령에 의해 지정된 제어 동작을 수행할 대기 상태가 된다. 이를 위해 구성 모듈들은 제어 명령을 해독하기 위한 디코더들을 자체에 구비한다. 1클럭 후 OPcode bus1(450)에 동일한 제어 명령이 인가되면 이때에 비로소 지정된 제어 명령에 해당하는 동작을 수행하기 위한 제어를 수행한다. 각 OPcode bus들(448, 450)에 인가되는 제어 코드의 인에이블 여부를 나타내기 위하여 RT 및 ET신호선들(미도시)이 할당된다.

도 6에 있어서 최상위의 신호는 클럭 신호(CLK)이고, 차례로 OPcode bus0(448)에 인가되는 제어 명령, OPcode bus1(450)에 인가되는 제어 명령, RT 신호, ET 신호, 읽기 버스 A(442)에 인가되는 데이터, 그리고 읽기 버스 B(444)에 인가되는 데이터이다.

OPcode bus0(448)에 제어 명령이 인가되고, RT 신호에 의해 인에이블되면 도 4의 구성 모듈들 중의 하나가 이를 인식하고 이를 디코딩하여 대기 상태가 된다.이후 OPcode bus1(450)에 동일한 제어 명령이 인가되고 ET신호에 의해 인에이블되면, 해당 구성 모듈이 제어 명령에 의해 지정된 동작을 수행한다. 구체적으로 읽기 버스 A 및 읽기 버스 B에 인가된 데이터를 받아들여, 지정된 동작을 수행하고, 쓰기 버스를 통하여 결과값을 출력한다.

도 4에 도시된 장치에 의해 수행되는 음성 인식 동작을 도 1을 참조하여 상세히 설명하기로 한다. 마이크(미도시)를 통하여 입력된 음성 신호는 CODEC(440)을 통하여 디지털 신호로 변환된다(도 1의 A/D블록(101) 참조).

디지털 변환에 의해 얻어진 샘플링된 데이터는 소정의 시간 간격으로 예를 들어 30ms 단위로 블록화된다. 이때, 데이터는 중첩적으로 즉, 시간축상에서 발생된 샘플링 데이터를 차례로 d0, d1,,,이라 하고, 한 데이터 블록의 데이터 포인트수를 240이라 하면, 처음의 데이터 블록은 d0-d239를 가지고, 다음의 데이터 블록은 d80-d319를 가지게 하는 방식으로 80개씩의 차이를 두고 차례로 블록화된다.

이와 같이 데이터를 중첩적으로 블록화시키는 것은 FFT연산에 있어서 오차를 작게 하기 위한 것이다.

복소 FFT연산에 있어서 연산 속도를 증진시키기 위하여 실수부에 현재 계산할 데이터 블록을 입력하고, 허수부에는 다음에 계산할 데이터 블록을 넣어 한번에 2개의 FFT 결과를 얻는 방법이 사용된다.

이를 위해서는 실수부 및 허수부에 입력되는 데이터들의 값이 서로 비슷해야 한다는 조건이 충족되어야 한다.

음성 데이터나 화상 데이터는 1차 마코프 모델을 만족하는 것으로서 그 특성상 전후의 값이 서로 비숫하고 급격히 변하지 않기 때문에 이러한 연산 방법에 적합하다.

더욱이 데이터 블록에 포함되는 데이터들을 중첩적으로 할당함에 의해 FFT 연산에서의 오차 범위를 더욱 낮추게 할 수 있다.

CDEDC IF(436)는 CODEC(440)의 동작을 제어한다.

수학식 1에 의해 표현된 바대로 각 블록에 대한 즉, 30ms에 대한 순간 에너지를 연산한다. 수학식 1을 연산하기 위한 덧셈, 곱셈 및 누산, 자승 및 제곱근연산은 각각 도 4에 도시된 ALU(406), MAC(408), 그리고 SQRT(414)에 의해 수행된다.

이와 함께, 수학식 2에 의해 표현된 바대로 각 데이터 블록에 대해 FFT 연산을 수행한다. FFT연산은 FFT(412)에 의해 수행되며, FFT 연산 결과로서 주파수 영역의 스펙트럼이 얻어진다.(도 1의 Energy Calculation 블록(103) 참조)

얻어진 에너지 연산 결과를 이용하여 음성 신호의 시작과 끝 즉, 하나의 단어를 결정한다. (도 1의 FindEndPoint 블록(104) 참조)

유효한 음성 구간 예를 들어 유효한 하나의 단어가 결정되면, 이에 해당하는 스펙트럼 데이터들만이 버퍼링된다. 도 4에 도시된 REGFILE(404)은 버퍼링을 위한 저장 공간을 제공한다.

스펙트럼 데이터로부터 켑스트럼을 구하기 위한 전처리 과정으로서 32 대역폭으로 필터링하는 mel-filtering 연산이 수행된다.(도 1의 Mel-Filter 블록(106) 참조)

mel-filtering 연산을 수행함에 의해 32개 대역에 대한 스펙트럼값이 구해진다.

주파수 영역에 있는 이 스펙트럼 값들을 다시 시간 영역으로 변환하면 은닉 마코프 모델레서 사용하는 파라미터인 켑스트럼을 구할 수 있다. 시간영역으로의 변환을 위한 IDCT 연산은 FFT 과정의 역과정에 해당하므로 FFT(412)을 사용하여 IDCT 연산을 수행한다.(도 1의 IDCT 블록(107) 참조)

에너지 값과 켑스트럼 값들 사이의 크기 조절을 수행한다.(도 1의 Scale 블록(108) 참조) 이와 함께, 수학식 3에 의해 Mel-cepstrum 값에서 주기성과 에너지를 분리하는 작업과 잡음 특성을 개선하기 위한 작업을 수행한다. (도 1의 Cepstral Window(109) 참조)

이상의 연산이 완료되면, 각 프레임의 9번째 데이터인 에너지 값들을 일정한 범위 이내의 값으로 정규화시킨다. (도 1의 Normalization 블록(110) 참조)

수학식 5와 같이 각 프레임의 9번째 데이터들 중에서 가장 큰 값을 찾고 이 값을 수학식 6과 같이 모든 프레임의 에너지 데이터들에서 빼주면 Normalized Energy를 구할 수 있다.

수학식 7에 따라 Delta Cepstrum을 계산하여 2차 특징 값으로 선정한다.(도 1의 Dynamic Feature 블록(111) 참조)

이러한 연산이 완료되면 Cepstrum과 같은 갯수의 Delta Cepstrum이 생성된다.

이러한 특징 값들로 부터 미리 정해진 은닉 마코프 모델을 이용한 단어 탐색 작업을 수행하게 된다.

수학식 8 및 9에 의해 관측 확률(Observation Probability) 을 계산한다. 관측 확률은 HMM(428)에 의해 계산된다.(도 1의 관측 확률 계산 블록(112) 참조) 계산된 관측확률은 미리 선정된 각 단어 음절의 음소가 관측될 수 있는 확률들로 해당 음소마다 각기 다른 확률 값을 갖게 된다.

MAC(408)는 HMM(428)과 연계하여 동작하며, 관측 확률 연산을 위한 반복적 곱셈 및 누산 연산을 수행한다.

유효 음성 구간 내의 모든 음소에 대한 관측확률이 정해지면 이를 미리 정해진 State Machine Sequence 에 적용하여 가장 적합한 음소의 Sequence를 구한다.(도 1의 State Machine Sequence 블록(113) 참조)

일반적으로 독립어 인식을 위한 은닉 마코프 모델의 각 State Machine은 인식하고자 하는 단어의 각 음소에 대한 특징 값을 근거로 이루어진 시이퀀스(Sequence)이다.

최종적으로 모든 음소에 대한 확률적 연산(음소별 상태열 처리 작업)이 완료되면 음소별 최종 단의 상태(State Machine)에는 확률 값이 저장된다. 수학식 10과 같이 음소별 최종 누적된 확률 값을 근거로 인식된 단어를 선택ㅎ한다. 이때 확률 값이 가장 큰 해당 단어를 인식된 단어로 선택하게 된다. (도 1의 Find Maximum Likelihood 블록(114) 참조)

도 4에 도시된 장치는 PMEM(420)에 저장된 프로그램에 의해 수행된다. 제어부(402)와 PMEM(420)과의 데이터 액세스 속도의 차이에 의해 시스템의 퍼포먼스가 저하되는 것을 방지하기 위한 캐쉬 장치로서 PMIF(422)가 제공된다.

상술한 바와 같은 본 발명에 따른 음성 인식 장치는 음성 인식에 필요한 연산들 중에서 시스템 점유율이 높은 연산들을 전용의 연산 장치들을 통하여 연산하게 하게 함으로써 시스템의 퍼포먼스가 대폭적으로 개선되게 된다.

표 1에서 알 수 있듯이 일반적인 음성인식 처리에 필요한 총 연산수는 약 100,000개이며 이 중에서 약 88.8% 정도가 관측확률 연산이다.

실제로 현재 널리 사용되고 있는 범용 프로세서인 ARM Processor 계열에 상기한 알고리즘을 실장하여 수행할 경우 전체 기능 수행을 위한 총 명령어 수 약 36백만 명령어가 수행되며 이 중에 약 33백만 명령어가 은닉 마코프 모델 검색에 소요되는 것으로 분석이 되었다. 표 2는 실제 ARM 프로세서를 이용하여 음성인식 기능을 수행할 경우 소요되는 명령어들을 기능 블록별로 분류한 것이다.

Function Block	명령어 cycle 수	Percentage(%)
Observation Probability 연산	22,267,200	61.7%
State Machine Update	11,183,240	30.7%
FFT	910,935	2.50%
Find Maximum Likelihood	531,640	1.46%
Mel-Filtering/IDCT/Scaling	473,630	1.30%
Dynamic Feature	283,181	0.78%
Pre-emphasis & Energy Calculation	272,037	0.75%
Cepstral Window & Normalize	156,061	0.43%
Find End Point	123,050	0.30%
Total	36,400,974	100.00%

표 2에서 알 수 있듯이, 명령어 수행에서도 약 62% 정도가 소요되는 것으로 나타났다. 따라서, 가장 많은 명령어가 수행되는 관측확률 연산 부분을 전용 장치로 지원함으로써 처리 속도 향상 및 소모전력 감소를 도모할 수 있다.

본 발명에서는 이러한 Observation Probability 연산을 적은 명령어 즉, 적은 사이클로도 수행할 수 있는 관측 확률 전용 연산 장치를 개시한다.

관측확률을 계산 능력을 개선하기 위해, 본 발명에서는 가장 연산량이 많은 확률적 거리 계산식 수학식 9에서 수학식 10과 같은 연산을 하나의 명령어로 수행할 수 있는 장치를 개시한다.

여기서, p[i][j]는 precision으로 분포정도(분산, 1/σ²)를 나타내며, mean[i][j]는 각 음소의 평균 값 그리고 feature[k][j]는 음소에 대한 파라미터 값으로 에너지와 켑스트럼을 의미한다. 수학식 11에서 mean[i][j] - feature[k][j]는 확률적으로 입력된 음소의 파라미터가 미리 정의된 대표 파라미터와 어느 정도 차이(거리)가 있는지를 나타내며 절대적인 확률적 거리를 계산하기 위해 자승을 취한다. 그리고 여기에 분산을 곱하면 객관적인 실제 거리를 예측할 수 있다. 여기서 대표 파라미터 값들은 수많은 음성 데이터를 통해 경험적으로 얻어낸 값들로 다양한 사람으로부터 얻어낸 음성 데이터가 많으면 많을수록 인식률은 개선된다.

그러나 본 발명에서는 하드웨어의 제한적 특성, 즉 데이터 비트(16 비트)의 한계를 고려하여 인식률을 최대한 올리기 위해 수학식 12와 같은 연산을 수행한다.

여기서, p[i][j]는 식⑾에서의 분산 1/σ²와 달리 분포 정도를 나타내는 1/σ이다. 분산 1/σ²대신에 분포 정도 1/σ를 사용하는 이유는 다음과 같다.

수학식 9에 의하면 (m[i][j]-feature[i][j]을 자승 연산한 결과와 p[i][j]를 곱셈 연산하고 있으나 수학식 12에 의하면 p[i][j]·(m[i][j]-feature[i][j])을 연산한 결과를 자승연산하고 있다.

수학식 9에 의하면 p[i][j]를 표현하기 위하여 자승 연산할 결과와 같은 정도의 비트 해상도가 필요하지만 수학식 12에 의하면 (m[i][j]-feature[i][j])의 결과과 같은 정도의 비트 해상도만이 필요하다는 것을 의미한다.

다시 말하면 16비트 비트 해상도를 유지하기 위해서는 수학식 9에 의하면 p[i][j]를 표현하기 위하여 32비트가 필요하지만 수학식 12에 의하면 p[i][j]를 표현하기 위하여 16비트만일 필요하다. 한편, 수학식 12에 의하면 p[i][j]·(m[i][j]-feature[i][j])을 연산한 결과를 자승연산하고 있으므로 결과적으로 수학식 9에서와 같이 1/σ²을 사용한 것과 비슷한 효과를 얻을 수 있다.

도 7은 본 발명에 따른 음성 인식 장치에 적용된 관측 확률 연산 장치의 상세한 구성을 보이는 블록도이다. 도 7에 도시된 장치는 도 4에 도시된 HMM(428)의 내부에 구현된다. HMM(428)은 추후에 설명되는 바와 같이 도 7에 도시된 장치 및 명령어를 해독하여 도 7에 도시된 장치를 제어하는 제어기(미도시)를 구비한다.

도 7에 도시된 장치는 감산기(705), 곱셈기(706), 자승기(707), 그리고 누산기(708)를 구비한다. 참조 번호 702, 703, 704, 그리고 709는 레지스터를 나타낸다.

외부 메모리(701)은 데이터 베이스화된 저장 장치로서 모든 대표 음소들에 대한 presion, mean, feature들을 저장한다. 여기서, precision으로 분포정도(1/σ)를 나타내며, mean은 각 대표 음소를 나타내는 파라미터들(에너지와 켑스트럼)의 평균값, 그리고 feature[k][j]는 음소에 대한 파라미터 값으로 에너지와 켑스트럼을 의미한다.

도 7에 도시된 장치에 있어서 먼저 감산기(705)를 이용해 mean과 freture의 차이를 구하며, 이 결과는 실제 거리를 구하기 위해 곱셈기(406)를 통하여 분산 정도(1/σ)가 곱해진다. 이 결과는 절대적인 차이를 구하기 위해 자승기(707)를 통하여 자승을 구하며, 이전 파라미터와의 누적을 위해 가산기(708)를 사용하게 된다.

즉, 수학식 12에 표현될 결과를 곱셈기(706)에서 얻고, 수학식 9에서 표현된연산의 결과를 누산기(708)에서 얻게 된다.

외부 저장 장치에는 p[i][j], mean[i][j], 그리고 feature[i][j]가 저장되고, 이들이 소정의 순서에 따라 순차적으로 레지스터들(402, 403, 404)에 제공된다. 소정의 순서는 i, j가 순차적으로 증가되도록 설정된다.

i, j를 바꾸어가면서 p[i][j], mean[i][j], 그리고 feature[i][j]들이 순차적으로 레지스터들(702, 703, 704)에 제공되고, 레지스터(709)에서 최종적으로 누적된 관측확률이 구해진다.

이러한 확률의 누적 계산에 의해 가장 확률적으로 유사한 음소의 경우 가장큰 값을 갖게 된다. 연산의 시작단과 마지막 단의 레지스터들(702, 703, 704, 709)은 데이터의 안정화를 위해 사용된다.

도 7에 도시된 곱셈기(706) 및 누산기(708)는 도 4의 MAC(408)에 의해 지원될 수 있다.

도 7에 도시된 장치에 있어서 데이터의 비트 해상도(Bit Resolution)는 프로세서의 구조에 따라 달라질 수 있으며 비트 수가 커지면 커질수록 상세한 계산 결과를 얻을 수 있다. 그러나 이러한 비트 해상도는 회로의 크기와 관련이 있기 때문에 인식률을 고려하여 적절한 해상도를 선정해야 한다.

도 8은 비트 해상도의 선정에 대한 이해를 돕기위하여 도시된 것이다. 비트 해상도의 선정에 대한 한 예로 도 8은 16 비트 해상도를 갖는 프로세서에 대한 내부 비트 해상도를 나타내었다. 여기서 각 단계의 절단 과정은 16비트 데이터 폭의 한계에 따른 것으로 최대한 성능 저하를 막기 위한 선택이다. 본 발명에서 제시한 장치를 이용하면 범용 프로세서만을 사용하는 경우에 비해 처리 속도 측면에서 많은 개선을 거둘 수 있다.

feature와 mean은 각각이 4비트의 정수와 12비트의 소수로 구성된다. 이들 feature와 mean을 감산기(705)를 통하여 감산하여 역시 4비트의 정수와 12비트의 소수로 구성된 결과값을 얻는다.

precision은 7비트의 정수와 9비트의 소수로 구성된다. precision과 감산기(705)의 감산 결과를 곱셈기(706)를 통하여 곱셈하여 10비트의 정수와 6비트의 소수로 구성된 결과값을 얻는다.

곱셈기(706)의 결과값을 자승기(707)를 통하여 자승연산하여 20비트의 정수와 12비트의 소수로 구성될 결과값을 얻고, 이들을 가산기(408)를 통하여 가산 및 스케일 연산하여 21비트의 정수와 11비트의 소수로 구성되는 결과값을 얻는다.

표 3은 일반적으로 많이 사용되는 은닉 마코프 모델을 사용한 음성인식 알고리즘을 범용 프로세서(ARM Series)에서 수행시킨 경우와 본 발명에서 제시한 관측확률 계산 전용 장치를 채택한 전용 프로세서에 수행시킨 경우를 비교 분석한 것이다.

Processor	Cycle 수	Time](20M CLK)
ARM Processor	36,400,974	1.82s
관축확률 연산장치 채용	15,151,534	0.758s

표 3에서 범용 프로세서는 음성인식 기능을 수행하는데 약 3천6백만 사이클이 수행된 반면에 전용 장치를 채용한 전용 프로세서는 절반 수준인 1천5백만 사이클 정도면 필요 기능을 수행할 수 있다. 따라서 거의 실시간 음성인식 처리가 가능하며 이는 다시 말해서 낮은 클럭 주파수로도 범용 프로세서와 동일한 성능을 내기 때문에 소비전력 측면에서도 많은 효과를 거둘 수 있다는 것을 의미한다. 참고로 전력 소모량과 클럭 주파수와의 관계는 수학식 13과 같이 나타낼 수 있다.

여기서, P는 전력소모량이며, C는 회로를 구성하는 Capacitance 값을 나타낸다. f는 회로내 신호의 전체 천이 정도를 나타내는데, 거의 대부분을 클럭 속도가좌우한다. V는 공급전압이다. 따라서 클럭 속도를 반으로 떨어뜨리면, 이론적으로는 전력소모량도 반으로 줄게 된다.

도 4에 도시된 장치에 있어서 CLKGEN(1118)는 구성 모듈들에 제공되는 클럭 신호를 발생하며, 저전력 소모를 위하여 클럭 속도를 변화시키는 것을 지원한다.

도 7에 도시된 바와 같은 본 발명의 관측 확률 연산 장치는 외부 메모리(701)에 미리 경험적 방법에 의해 얻은 사람 유형별 대표음소의 평균 파라미터와 천이 확률 값들, 그리고 분포 정도와 새로이 입력된 음성에서 추출한 파라미터들을 저장해 놓는다. 이러한 데이터는 일단 전용장치 내부의 레지스터들(702,703,704)에 저장되는데 이는 외부의 데이터 변화에 따른 신호변화를 최소화하기 위한 것으로 전력소모와 깊은 관계가 있다. 내부 레지스터에 저장된 데이터중 입력된 음성에서 추출된 파라미터(Feature)와 미리 저장된 평균 파라미터(Mean)는 그들간의 차이를 구하기 위해 감산기(705)를 통해 감산 연산을 수행한다.

이 결과는 곱셈기(706)를 통해 분산정도(1/σ)를 나타내는 Precision과 곱해지고 다시 자승기(707)를 통해 실질적인 확률적 거리를 계산하게 된다. 이 값은 단어를 형성하는 많은 음성 파라미터 프레임들 중 시간적으로 현재의 파라미터만을 계산한 것이므로 가산기(708)를 통해 이전까지 계산된 확률적 거리와 가산되어 누적되어야 한다. 누적 연산을 위해 가산기(708)과 더불어 레지스터(709)가 사용되며 레지스터에 저장된 데이터는 다음 연산을 위해 가산기(708)에 제공된다.

이러한 레지스터들은 누적연산을 위해서 뿐만 아니라, 신호 천이의 최소화를위해서도 사용된다. 이상의 과정은 미리 정해 놓은 각 음소에 대해 동일하게 적용되며 각 음소별/상태별로 해당 저장 장소에 그 값이 저장된다. 결과적으로 입력된 단어에 대한 모든 파라미터들에 대한 연산이 완료되면 각 단어의 음소별로 누적된 값들 중 가장 큰 값이 확률적으로 가장 유사한 단어로 인식될 수 있다. 이와 같이 누적된 값들을 이용해 최종 인식된 단어를 판단하는 것은 기존 프로세서에서 수행할 것이다.

도 4의 HMM 모듈(428)은 도 7의 장치가 실제로 구현된 것이다. HMM(428)은 특징 값들로 부터 미리 정해진 은닉 마코프 모델을 이용한 단어 탐색 작업을 수행하게 된다.

즉, HMM(428)은 명령 버스(OPcode bus0,1, 448, 450)를 통해 명령을 받아 디코딩하여 도 7에 도시된 바와 같은 본 발명의 관측 확률 연산 장치를 제어해서 관측 확률 연산을 수행하도록 한다. 한편, 데이터들은 2개의 읽기 버스(642, 644)들을 통하여 제공되거나 1개의 쓰기 버스(646)를 통하여 출력된다.

HMM(428)은 도 4에 도시된 제어부(Ctrl Unit, 402)에서 제공되는 제어 명령을 2개의 OPcode bus들(448, 450)을 통해 전송받으며, 내부의 제어부(미도시)가 수신된 제어 명령을 디코딩하고 도 7에 도시된 바와 같은 관측 확률 연산 장치를 제어해서 관측 확률 연산을 수행하도록 한다.

본 발명의 관측 확률 연산 장치에 의하면 은닉 마코프 모델 탐색 방법을 사용함에 있어서, 가장 많은 연산을 수행하는 관측확률 계산 과정을 효율적으로 수행할 수 있다.

본 발명을 통해 구현된 은닉 마코프 모델 탐색을 위한 관측확률 계산 전용 장치는 이러한 음성인식 기능의 처리 속도를 향상시키기 위해 발명된 장치이며, 이러한 장치를 사용하지 않았을 때 보다 50% 이상 명령어 횟수를 줄일 수 있기 때문에, 동일한 기능을 일정 시간에 처리하는 경우 낮은 클럭 속도로도 처리가 가능하며 전력 소모량도 1/2로 줄일 수 있다.

이외에도 본 발명을 통해 구현된 은닉 마코프 모델 탐색을 위한 관측확률 계산 전용 장치는 은닉 마코프 모델을 이용한 확률적 연산에도 사용할 수 있다.

한편, 고속 푸리에 변환(Fast Fourier Transform)은 디지털 신호 처리 분야에서 사용되며, 주파수 영역과 시간 영역 상호간의 변환을 수행하는 알고리즘으로서 보통 소프트웨어적으로 수행된다. 그러나, 최근 들어 고속의 실시간 처리를 위해 하드웨어고 구현하는 경향이 점차 늘어가고 있다.

현재 유럽의 디지털 방송 규격은 채널 잡음의 면역성을 높이기 위해 푸리에 변환을 포함한 COFDM(Complex Orthogonal Frequency Division Multiplexing) 방식을 사용하고 있으며, 이외에도 스펙트럼 분석기(spectrum analyzer) 등의 각종 측정기, 음성 인식 장치 등에서도 고속 푸리에 변환 장치를 사용하고 있다.

이산적인 신호에 대한 푸리에 변환은 이산 푸리에 변환과 고속 푸리에 변환으로 수행될 수 있다. 이산 푸리에 변환은 NXN 개의 계산량을 필요로 하므로 자원의 효율성이 떨어지는 반면에 고속 푸리에 변환은 (N/2)log(N)개의 계산량만을 요구하므로 효율적인 구현이 가능하다. 특히, 신호의 개수가 커지면 커질수록 그 계산량의 감소폭은 기하급수적으로 감소하게 된다. 그러므로 고속 푸리에 변환은 고속의 실시간 처리를 요하는 분야에서 주로 이용된다.

FFT는 다음과 같은 수식으로 전개될 수 있다.

먼저, k가 우수(even)인 경우에는 k=2r로 나타낼 수 있다. 수학식 14에 k=2r을 대입하면 수학식 15와 같이 정리할 수 있다.

k가 우수(even)인 경우와 마찬가지로 k가 기수(odd)인 경우에는 k=2r+1로 나타낼 수 있으므로 우수인 경우와 마찬가지로 수학식 16과 같이 정리할 수 있다.

따라서, X(k)는 다음과 같이 정리될 수 있다.

수학식 17의 의미는 N포인트(N 개의 샘플링된 데이터)의 DFT를 N/2 포인트의 DFT로 나눌 수 있고 이를 반복함에 의해 궁극적으로 기본 구조를 가지는 DFT를 반복적으로 수행함에 의해 FFT를 달성할 수 있음을 의미한다.

수학식 17에 있어서,항은 후단의 FFT에 의해 연산되는 것이므로 수식에서 제외하여도 좋다.

또한,항에 대하여 오일러(Euler) 공식을 적용하면

이므로

수학식 17은 다음과 같이 정리된다.

한편, 복소값을 가지는 신호z(n)에 대한 복소FFT는 수학식 19의 x(n)을 z(n)으로 치환함에 의해 얻어진다.

수학식 20에을 대입하여 정리하면 다음과 같은 수식으로 전개될 수 있다. 여기서,은 실수이고은 허수이다.

여기서,은 복소 FFT에 얻어지는 출력값의 실수부이고,

는 복소 FFT에 의해 얻어지는 출력값의 허수부이다.

실수 FFT를 수행할 때에는 복소 연산의 허수부에 '0'을 집어 넣어서 결과를 얻게 되므로 불필요한 연산이 발생한다. 이점을 이용해서 허수부에 다음에 계산할 데이터 블록을 넣어 한번에 2개의 FFT 결과를 얻는다. 이렇게 하면 별도로 계산할 때와 비교해서 값이 다르지만, 2개의 데이터 블록이 음성 신호와 같이 급격히 변동하지 않을 경우에는 적은 오차 범위 내에서 FFT를 수행할 수 있다. 특히, 시간축에서 연속된 데이터 블록들을 D(T), D(T-1), D(T-2),,,라 할때 첫번재 FFT에서는 실수부에 D(T)를 넣고 허수부에 D(T-1)을 넣어서 연산하여 D(T)에 대한 FFT를 연산하고, 두번재 FFT에서는 실수부에 D(T-1)을 넣고 허수부에 D(T-2)를 넣어서 D(T-1)에 대한 FFT를 연산하는 방법 즉, 데이터 블록들을 중복시킴에 의해 오차 범위를 더욱 낮출 수 있다.

즉, 제1실수와 제1허수로 된 제1복소수와 제2실수와 제2허수로된 제2복소수의 FFT 연산에 있어서, 실수 데이터 블록에는및에 상응하는 제1실수 및 제2실수가 블록화되어 수용되게 되고, 허수 데이터 블록에는및에 상응하는 제1실수 및 제2실수가 블록화되어 수용되게 된다.

도 9는 복소 FFT를 연산하는 기수2(radix 2)의 복소 FFT를 수행하는 장치의 기본 구조를 보이기 위해 도시된 것이다. 도 9에 도시된 바의 장치는 통상 버터플라이 (butterfly) 연산기로 알려져 있다.

도 9에서 화살표는 데이터의 흐름을 표시하고, 동그라미의 +/X는 각각 덧셈 연산 및 곱셈 연산을 표시하고, 네모칸은 입력 혹은 연산 결과를 표시한다. 도 9의 왼쪽 네모칸들에 도시되는 것은 입력들이고 오른쪽 네모칸들에 표시되는 것은 출력들이며, 가운데 네모칸들에 표시되는 것은 출력값들을 얻기 위해 필요한 중간값들이다.

과은 실수 입력이고,,은 허수 입력이다. 실제로는과은 데이터 블록 D(T-1)의 n번째 및 N/2+n번째 데이터들이고,은 데이터 블록 D(T-2)의 n번째 및 N/2+n번째 데이터들이다. 연속된 2개의 데이터 블록들{D(T-1), D(T-2)}이 음성 신호와 같이 급격히 변동하지 않는 신호로부터 샘플링된 데이터들일 경우에는 적은 오차 범위 내에서 복소 FFT를 수행할 수 있다.

중간값들(a, b, c, d) 및 출력값들(e, f)는 다음과 같다.

a)

b)

c)

d)

e)

f)

출력값 e와 f는 다음 단의 DFT로 전달되며, 실제에 있어서는 도 9에 도시된 기본 구조에 재귀적으로 입력된다.

식 e와 f로 보여지는 바와 같이 FFT의 기본적 연산 방식인 기수 2(radix 2)의 복소 FFT는 4개의 항과 2개의 계수를 입력하여 4개의 결과값을 얻고 있다.

이러한 FFT연산은 범용 프로세서를 이용한 소프트웨어적인 것과 전용 FFT 연산 장치를 이용한 것으로 대별될 수 있다. CPU(Central Processing Unit)나 DSP(Digital Signal Processor)와 같은 일반적인 프로세서에서는 3버스 시스템 방식이 일반적으로 사용되고 있다. 3버스 시스템에 있어서 덧셈이나 곱셈과 같은 두개의 항을 연산하여 한개의 결과값을 얻는 연산의 경우에는 파이프라인(pipe line) 방식을 이용하여 1사이클(cycle)에 하나의 연산을 수행하도록 할 수 있지만, FFT의 기본적 연산 방식인 기수 2(radix 2)의 복소 FFT처럼 4개의 항과 2개의 계수(sin계수, cos계수)를 입력하여 4개의 결과값을 얻는 경우에는 많은 사이클이 소요되어 파이프라인화해도 빠른 속도를 얻기가 어렵다.

이러한 문제를 해결하기 위하여 종래의 FFT 연산 장치에서는 계수용 전용 메모리, 어드레스 연산 장치, 전용 버스를 두기도하고, 아예 2 write 버스 방식을 도입하기도 하였다. 그러나, 이렇게 할 경우 칩 면적, 소비 전력 등의 측면에서 불리하고 독특한 구조 때문에 생산 수율이 떨어질 수 있다. 또한, 범용 프로세서와의 호환성이 결여되어 IP 산업 분야에 곧바로 적용하기 어렵다는 문제점도 있다.

본 발명에서는 FFT연산 속도를 최소화할 수 있는 개선된 복소 FFT 연산 장치가 개시된다.

도 10은 본 발명에 따른 음성 인식 장치에 적용된 복소 FFT 연산 장치의 구성을 보이는 블록도이다. 도 10에 도시된 장치는 3버스 시스템 즉, 2개의 읽기 버스와 1개의 쓰기 버스를 가지는 시스템에 적용된 것이며, 도 4에 도시된 FFT(412)의 내부에 구현된다.

도 10에 도시된 장치는 읽기버스 A(442) 및 읽기버스 B(444)로부터 연산에 사용될 데이터들을 로드하기 위한 입력 레지스터1 및 입력 레지스터2(1002, 1004), 읽기버스 A(442) 및 읽기버스 B(444)로부터 연산에 사용될 sin값과 cos값을 로드하기 위한 계수 레지스터1 및 계수 레지스터2(1006, 1008), 덧셈기(1014)와 뺄셈기(1016), 뺄셈기(1016)의 출력과 계수레지스터들(1006, 1008)의 출력들과의 곱셈을 연산하기 위한 곱셈기1 및 곱셈기2(1018, 1020), 복소 연산을 수행할 수 있도록 마련된 4개의 저장레지스터들(1024, 1026, 1028, 1030), 그리고 덧셈기(1014)와 뺄셈기(1016)의 동작을 지원하기 위한 멀티플렉서들(1010, 1012), 출력 제어를 위한 멀티플렉서(1032), 그리고 도 10에 도시된 구성 요소들의 동작을 제어하기 위한 제어기(1034)를 포함한다.

도 10에 도시된 장치에서 기수2의 복소 FFT를 수행하기 위한 동작은 5-6사이클 사이에 수행된다.

1) 제1사이클에서의 동작

제1사이클에서는 연산에 사용될 sin계수 및 cos계수를 로드한다.

sin계수 및 cos계수는 각각 읽기버스 A 및 읽기버스 B를 통하여 계수레지스터1(1006) 및 계수레지스터2(1008)에 로드된다.

2) 제2사이클에서의 동작

제2사이클에서는 연산에 사용될 실수 데이터들을 로드하고 덧셈 및 뺄셈 연산을 수행한다. 구체적으로 읽기버스 A를 통하여이 입력 레지스터1(1002)에 로드되고 읽기버스 B를 통하여이 입력 레지스터(1004)에 로드되며 덧셈기(1014)에 의해이 연산되고, 뺄셈기(1016)에 의해이 연산된다. 덧셈기(1014)와 뺄셈기(1016)는 입력들이 주어지면 자동으로 연산하여 출력을 내게되므로 별도의 동작 사이클이 필요없다. 덧셈기(1014)의 출력은 멀티플렉서3(1032)에 제공되고 뺄셈기(1016)의 출력은 멀티플렉서3(1032) 및 곱셈기들(1018, 1020)에 제공된다.

또한, 곱셈기1(1018)은 뺄셈기(1016)의 출력인과 계수레지스터1(1006)에 로드된 sin계수의 곱셈 연산을 수행하여 도 9에 도시된 f)의 두번째 항인을 출력한다. 이 값은 저장 레지스터1(1024)에 저장된다.

한편, 곱셈기2(1020)는 뺄셈기(1016)의 출력인과 계수레지스터2(1008)에 로드된 cos계수의 곱셈 연산을 수행하여 도 9에 도시된 3)의 첫번째 항인을 출력한다. 이 값은 저장 레지스터2(1026)에 저장된다.

3) 제3사이클에서의 동작

제3사이클에서는 연산에 사용될 허수 데이터들을 로드하고 덧셈 및 뺄셈 연산을 수행한다. 구체적으로 읽기버스 A를 통하여이 입력 레지스터1(1002)에 로드되고 읽기버스 B를 통하여이 입력 레지스터(1004)에 로드되며 덧셈기(1014)에 의해이 연산되고, 뺄셈기(1016)에 의해이 연산된다. 덧셈기(1014)와 뺄셈기(1016)는 입력들이 주어지면 자동으로 연산하여 출력을 내게되므로 별도의 동작 사이클이 필요없다. 덧셈기(1014)의 출력은 멀티플렉서3(1032)에 제공되고 뺄셈기(1016)의 출력은 멀티플렉서3(1032) 및 곱셈기(1020)에 제공된다.

곱셈기1(1018)은 뺄셈기(1016)의 출력인과 계수레지스터1(1006)에 로드된 sin계수의 곱셈 연산을 수행하여 도 9에 도시된 e)의 두번째 항인을 출력한다. 이 값은 저장 레지스터3(1028)에 저장된다.

한편, 곱셈기1(1020)은 뺄셈기(1016)의 출력인과 계수레지스터2(1008)에 로드된 cos계수의 곱셈 연산을 수행하여 도 9에 도시된 f)의 첫번째 항인

을 출력한다. 이 값은 저장 레지스터4(1030)에 저장된다.

4) 제4사이클에서의 동작

제4사이클에서는 저장 레지스터2(1026) 및 저장 레지스터3(1028)에 저장된 값들을 이용하여 기수2의 복소 FFT의 실수값(도 9의 e)를 연산하여 출력한다.

구체적으로 저장 레지스터2(1026)에 저장된과 저장 레지스터3(1028)에 저장된이 멀티플렉서2(1012)를 통하여 뺄셈기(1016)에 제공되며, 뺄셈기(1016)는 이들의 감산값인

을 연산하여 멀티플렉서(1032)에 제공한다. 이 때 뺄셈기(1016)의 출력은 도 9의 e), 즉 기수2인 복소 FFT연산의 실수부값임을 알 수 있다.

또한, 뺄셈기(1016)의 출력은 멀티플렉서(1032)를 통하여 출력 레지스터(1036)에 제공되며, 쓰기버스 C를 통하여 메모리(미도시)에 저장된다.

5) 제5사이클에서의 동작

제5사이클에서는 저장 레지스터1(1024) 및 저장 레지스터4(1030)에 저장된 값들을 이용하여 기수2의 복소 FFT연산의 허수값(도 9의 f)를 연산하여 출력한다.

구체적으로 저장 레지스터1(1024)에 저장된과 저장 레지스터4(1030)에 저장된이 멀티플렉서1(1010)를 통하여 덧셈기(1014)에 제공되며, 덧셈기(1014)는 이들의 가산값인을 연산하여 멀티플렉서(1032)에 제공한다. 이 때 덧셈기(1014)의 출력은 도 9의 f), 즉 기수2인 복소 FFT연산의 허수값임을 알 수 있다.

또한, 덧셈기(1014)의 출력은 멀티플렉서(1032)를 통하여 출력 레지스터(1036)에 제공되며, 쓰기버스 C를 통하여 메모리(미도시)에 저장된다.

도 10에 도시된 바와 같은 기수2의 버터플라이 연산 장치를 이용하여 N포인트(여기서, N은 2의 멱승으로 표현되며, 포인트는 한 데이터 블록의 데이터 개수를 의미하는 단위)의 복소 FFT를 연산할 경우 (N/2)log(N)개의 스테이지(stage)를 수행하여야 한다.

예를 들면 16포인트일 경우는 4개의 스테이지를, 256포인트일 경우는 8개의 스테이지를 필요로 한다.

도 11은 16포인트 복소 FFT연산의 경우에 있어서의 각 스테이지별 데이터흐름을 보이는 것이다. 복소 FFT연산의 결과 최종적으로 얻어지는 FFT계수의 출력 순서가 첫음의 데이터 포인트들의 입력 순서와 다르기 때문에 이들을 재배열하는 작업이 필요하지만 본 명세서에서는 이에 대한 자세한 설명을 생략하기로 한다.

도 10에 도시된 기수2의 버터플라이 연산 장치를 이용하여 256포인트의 복소 FFT연산을 수행할 경우 연산에 소요되는 사이클수는 다음과 같다.

N포인트의 데이터 블록에 대한 복소 FFT는 각 스테이지마다 이전 스테이지의 m(m은 양의 짝수이고, m<=N)포인트의 데이터 블록에 대한 DFT를 m/2의 포인트의 데이터 블록에 대한 두 개의 DFT로 변환하여 연산하므로 각 스테이지마다 N/2개의 기수2의 복소 FFT연산이 필요하다. 따라서, 256포인트의 복소 FFT일 경우 도 10에 도시된 장치를 이용하여 각 스테이지마다 128회만큼 데이터포인트를 바꾸어가며 동일한 연산을 반복하게 된다.

연산에 소요되는 cycle 수

= (계수의 로드를 위한 1cycle + 연산과 출력을 위한 4cycle) * 한 스테이지에서의 반복횟수 128회 * 256포인트 FFT의 스테이지 개수인 8

= 5,120 cycle

이와 같은 계산은 스테이지를 고정하고 N/2씩 나누어짐으로서 증가되는 블록수를 바탕으로 연산하는 블록 고정형 연산 알고리즘에 의해 연산한 결과이다.

도 12는 블록 고정형의 연산 알고리즘을 보이는 흐름도이다.

FFT연산에 있어서 다음 스테이지의 블록수는 현재 스테이지의 블록수의 2배가 되지만 같은 스테이지 내의 모든 블록들은 동일한 계수들을 사용한다. 예를 들어 각 스테이지당 블록의 크기는 처음 스테이지에서는 N/2, 다음 스테이지에서는 N/2*2와 같이 각 스테이지마다 1/2씩 줄어들며, 이와 반대로 블록의 갯수는 각 스테이지마다 2배로 늘어난다.

블록 고정형 알고리즘에 있어서는 블록별로 독자적인 연산을 수행하는 것으로서 구체적으로 설명하면, 각 블록의 연산시 필요한 게수를 해당 블록이 연산될 때마다 로드하여 사용한다.

1202과정(S1202)은 첫번째 스테이지(stage0)를 위한 변수를 설정하기 위한 과정으로서, 블록 갯수를 나타내는 변수 numb(number of blocks)를 1로 하고, 블록 길이를 나타내는 변수 lenb(length of block)를 N/2로 설정한다.

1204과정(S1204)은 실수 데이터의 어드레싱을 위한 변수 j1 및 허수 데이터의 어드레싱을 위한 변수 j2의 초기값을 설정하는 과정으로서, j1은 0으로, j2는 lenb의 값으로 설정한다. 여기서, 실수 데이터와 허수 데이터 즉, 데이터 블록 D(T-1)과 다음 데이터 블록 D(T-2)가 메모리 상에 연속되어 저장된 것으로 가정한다.변수는 w변수의 베이스를 나타내기 위한 변수이다.

1206과정(S1206)은 각 블록별로 실수 데이터의 어드레싱을 위한 변수 j1 , 허수 데이터의 어드레싱을 위한 변수 j2, 계수 데이터의 어드레싱을 위한 변수 w의 초기값을 설정하는 과정으로서, j1은 1204과정(S1204)에서 설정된 값에 lenb값을 더한 것으로, j2는 1204과정(S1204)에서 설정된 값에 lenb값을 더한 것으로 설정하고, w는 0으로 설정한다. k2는 처리될 블록을 나타내기 위한 변수이다.

1208과정(S1208)은 버터플라이 연산을 수행하는 과정으로서 도 10에 도시된 장치를 이용하여 각 블록별로 FFT연산을 수행한다. k1은 처리되는 데이터의 순서를 나타내기 위한 변수이다.

1210과정(S1210)은 다음에 처리할 데이터를 지정하는 과정으로서 k1 변수의값을 1만큼 증가시키고, lenb 와 비교한다. k1 변수의 값이 lenb변수의 값보다 작으면 즉, 해당 블록에서 처리할 데이터가 남아있으면 1208과정(S1208)로 복귀한다. 만일 k1 변수의 값이 lenb변수의 값보다 작지 않으면 즉, 해당 블록의 모든 데이터에 대해 처리가 종료되었으면 1212과정(S1212)으로 진행한다.

1212과정(S1212)은 다음에 처리할 블록을 지정하는 과정으로서 k2 변수의 값을 1만큼 증가시키고, numb 변수와 비교한다. k2변수의 값이 lenb변수의 값보다 작으면, 즉 해당 스테이지에서 처리할 블록이 남아있으면 1206과정(S1206)으로 복귀한다. 만일 k2변수의 값이 numb변수의 값보다 작지 않으면, 즉, 해당 스테이지의 모든 블록에 대해 처리가 종료되었으면 1214과정(S1214)로 진행한다.

1214과정(S1214)은 다음에 처리할 스테이지를 지정하는 과정으로서 numb변수의 값을 2배만큼 증가시키고, lenb변수의 값을 1/2만큼 감소시킨다.

1216과정(S1216)은 모든 스테이지가 처리되었는 지를 판단하기 위한 과정으로서, stage 변수의 값을 1만큼 증가시키고 log2N과 비교한다. stage변수의 값이 log2N보다 작으면 1204과정(S1204)으로 복귀하고 그렇지 않으면 FFT연산을 종료한다.

블록 고정형의 경우 계수를 로드하기 위한 사이클이 데이터 포인트마다 필요한 대신에 각 블록에서 데이터 포인트들의 어드레스를 지정하기 위한 연산은 단순해진다. 왜냐하면 다음에 연산할 데이터 포인트는 단순한 incresement연산이면 족하기 때문이다. 따라서, 블록 고정형의 경우는 블록수가 적은 전반의 스테이지에 사용할 경우에 효과적이다.

블록 고정형 연산 알고리즘에서는 블록에 대한 FFT를 연산할 때마다 계수를 로드하게 된다. 블록 고정형과는 달리 계수를 먼저 로드하고 각 블록에서 공통된 계수를 사용하는 연산을 추출해서 수행하는 방법 즉, 계수 고정형 연산 알고리즘도 생각해 볼 수 있다.

이것의 한계값은 다음과 같이 계산해볼 수 있다.

연산에 소요되는 cycle수

=

= 4,351

계수 고정형 알고리즘에서는 블록별로 공통된 계수를 사용하는 연산을 추출하여 그룹화하고, 먼저 공통된 계수를 로드한 후에 그룹화된 연산들을 한꺼번에 수행하는 방법이다.

FFT연산에 있어서 다음 스테이지의 블록수는 현재 스테이지의 블록수의 2배가 되고 각 블록의 데이터 포인트의 수는 1/2배가 되지만 같은 스테이지 내의 모든 블록들은 동일한 계수들을 사용한다. 예를 들어 256포인트의 데이터 블록에 대하여 FFT연산을 수행하는 경우 스테이지 0에서의 블록수는 2이고, 각 블록의 데이터 포인트는 128개이며, 각 블록에서 사용되는 계수도 1428개이다. 또한, 계수는 각 블록들에 의해 공통적으로 사용되며, 2πn/N(n=0, 2, 4,,,256, 총 128개)으로 결정된다. 즉, 각 블록의 데이터 포인트들을 상위로부터 하위로 순서를 매길 경우 같은순서의 데이터 포인트들은 같은 계수를 사용한다.

계수 고정형에서는 계수를 먼저 로드한 후에 각 블록에서 같은 계수를 사용하는 데이터 포인트들에 대한 FFT연산들을 블록 순서에 따라 순차적으로 수행한다.

1302과정(S1302)은 첫번째 스테이지(stage0)를 위한 변수를 설정하기 위한 과정으로서, 블록 갯수를 나타내는 변수 numb(number of blocks)를 1로 하고, 블록 길이를 나타내는 변수 lenb(length of block) 및 hlenb를 각각 를 N 및 lenb/2로 설정한다.

1304과정(S1304)은 계수 어드레싱을 위한 변수들(w과)과 데이터 어드레싱을 위한 변수 jp를 설정하는 과정으로서 w는 0으로,는로 , 그리고 jp는 0으로 설정한다. stage는 처리된 스테이지를 나타내는 변수이다.변수는 w변수의 베이스를 나타내기 위한 변수이다.

1306과정(S1306)은 각 스테이지별로 계수 어드레싱을 위한 변수들(w과)과 데이터 어드레싱을 위한 변수 jp, j1, j2를 설정하는 과정으로서 w는을 베이스로하여 즉,변수 만큼 증가시키고, jp는 1만큼 증가시키고, j1은 jp의 값으로, 그리고 j2는 jp+hlenb의 값으로 설정한다. 여기서, j1은 실수 데이터의 어드레싱을 위한 변수이고, j2는 허수 데이터의 어드레싱을 위한 변수이다. k1은 처리되는 데이터의 순서를 나타내기 위한 변수이다.

1308과정(S1308)은 버터플라이 연산을 수행하는 과정으로서 도 10에 도시된 장치를 이용하여 각 스테이지별 및 블록별로 FFT연산을 수행한다.

1310과정(S1310)은 다음에 처리할 데이터를 지정하는 과정으로서 k1 변수의 값을 1만큼 증가시키고, lenb 와 비교한다. k1 변수의 값이 lenb변수의 값보다 작으면 즉, 해당 블록에서 처리할 데이터가 남아있으면 1308과정(S1308)로 복귀한다. 만일 k1 변수의 값이 lenb변수의 값보다 작지 않으면 즉, 해당 블록의 모든 데이터에 대해 처리가 종료되었으면 1312과정(S1312)으로 진행한다.

1312과정(S1312)은 다음에 처리할 블록을 지정하는 과정으로서 k2 변수의 값을 1만큼 증가시키고, numb 변수와 비교한다. k2변수의 값이 lenb변수의 값보다 작으면, 즉 해당 스테이지에서 처리할 블록이 남아있으면 1306과정(S1306)으로 복귀한다. 만일 k2변수의 값이 numb변수의 값보다 작지 않으면, 즉, 해당 스테이지의 모든 블록에 대해 처리가 종료되었으면 1314과정(S1314)로 진행한다. k2는 처리될 블록을 나타내기 위한 변수이다.

1314과정(S1314)은 다음 스테이지를 위한 변수들을 재지정하는 과정으로서 numb변수의 값을 2배만큼 증가시키고, lenb 변수 및 hlenb 변수의 값을 1/2만큼 감소시킨다.

1316과정(S1316)은 모든 스테이지가 처리되었는 지를 판단하기 위한 과정으로서, stage 변수의 값을 1만큼 증가시키고 log2N과 비교한다. stage변수의 값이 log2N보다 작으면 1304과정(S1304)으로 복귀하고 그렇지 않으면 FFT연산을 종료한다.

계수 고정형의 경우 계수를 로드하기 위한 사이클을 절감되는 대신에 각 블록마다 같은 계수를 사용하는 데이터 포인트들의 어드레스를 지정하기 위한 어드레스 연산이 증가한다. 따라서, 계수 고정형의 경우는 블록수가 적은 초반의 스테이지들 보다는 블록수가 많아지는 후반의 스테이지들에서 사용할 경우에 더욱 효과적이다.

실제로는 블록 고정형과 계수 고정형에 대하여 실험을 해보면 블록 고정헝의 경우 약 6,200cycle이 얻어진다.

더욱더 나아가 stage별로 분리하는 방법을 사용하면

stage7를 분리하는 경우 ; 약 5,500 cycle

stage 7과 6을 분리하는 경우 ; 약 5,200 cycle

이 얻어진다.

여기서, 스테이지별로 분리한다는 것은 루프(loop, 회귀 반복 논리를 말하며, for-while, do-while 연산이 이에 해당)을 일부 스테이지들에 대해서만 수행하고 다른 스테이지에 대해서는 루프 연산을 풀어서 수행한다는 것을 의미한다. 구체적으로 예를 들자면 위의 stage7을 분리하는 경우란 모든 스테이지에 대하여 동일한 알고리즘을 loop에 넣어서 스테이지 0부터 스테이지 7까지 수행하는 것이 아니라 스테이지 0-6까지만 loop 내에서 수행하고 나머지 스테이지 7에 대해서는 loop 밖에서 수행하는 것을 의미한다.

계수 고정형의 경우 약 5,400cycle이 얻어지는 데 여기에서도 stage 별로 분리하는 방법을 사용하면

stage0를 분리할 경우 ; 약 5,430cycle

stage0과 stage1을 분리할 경우 ; 약 5,420cycle

이 얻어지며, 블록 고정형처럼 대폭적인 것은 아니지만 역시 줄어들게 된다.

또, 이상의 2가지 방법을 혼합하면 4번째 stage까지 계수 고정형, 그 다음은 블록 고정형을 사용하는 방법이 약 4,800cycle로서 최소치를 나타내게 된다.

여기서, 한걸음 더 나아가 위의 사이클들 중에서 4번째 사이클 혹은 5번째 사이클에서 다음 계산을 위한 계수들을 입력할 수 있다는 점을 감안하면 연산에 소요되는 사이클 수가 약 4,500cycle로 줄어들게 된다.

도 10에 도시된 장치에 있어서 덧셈기(1014)와 뺄셈기(1016)는 실수부와 허수부의 연산에 공통적으로 사용할 수 있다. 덧셈기와 뺄셈기의 동작은 FET연산에 필요한 사이클수에 영향을 주지 않기 때문에 복소 FFT의 출력값 즉, 도 9의 e와 f를 연산하기 위한 덧셈기와 뺄셈기는 별도로 구비하지 않고, 저장 레지스터들(1024, 1026, 1028, 1030), 멀티플렉서들(1010, 1012), 그리고 덧셈기(1014)와 뺄셈기(1016)를 사용하여 e와 f를 구한다.

곱셈기는 칩(chip)상에서 면적을 많이 차지하지만 동시 수행의 잇점이 더 크므로 두 개를 사용한다.

제어기(1034)는 제어부(402)로부터 읽기버스A 또는 읽기버스 B로 명령을 받아 디코딩해서 작동하거나 또는 전용 명령 버스를 통해 명령을 받아 디코딩하거나 또는 제어부(402)에서 명령을 디코딩하여 제어선을 통하여 입력시킨 정보로 연산기들(덧셈기, 뺄셈기, 곱셈기)와 입력/계수/저장레지스터들, 그리고 멀티플렉서들을 제어해서 FFT를 수행하도록 한다. IFFT(Inverse FFT)는 수학식 17에서 지수(exponential) 부분의 부호가 역이 되면 성립하기 때문에 저장레지스터들(1024, 1026, 1028, 1030)로부터 멀티플렉서들(1010, 1012)를 통하여 덧셈기(1014) 및 뺄셈기(1016)에 입력되는 값을 변경함에 의해 달성횐다.

또한, 출력 레지스터(1036)는 오버플로우될 수 있기 때문에 출력할 때 제어기(1034)에 의해 1비트씩 하위로 이동한 값이 출력될 수 있는 구조 즉, 1/2 스케일링(scaling)이 가능하게 하는 구조를 갖추도록 한다.

도 4의 FFT(412)는 본 발명에 따른 복소 FFT 연산장치의 적용례이다. 본 발명에 따른 FFT 복소 연산 장치에 있어서 제어기(1034)는 전용 명령 버스(OPcode bus0, 1)를 통해 명령을 받아 디코딩하여 연산기들(덧셈기, 뺄셈기, 곱셈기)와 입력/계수/저장레지스터들, 그리고 멀티플렉서들을 제어해서 FFT를 수행하도록 한다. 한편, 데이터들은 2개의 읽기 버스(442, 444)들을 통하여 제공되거나 1개의 쓰기 버스(446)를 통하여 출력된다.

FFT (412)는 도 4의 제어부(Ctrl Unit, 402)에서 제공되는 제어 명령을 2개의 OPcode bus들(448, 450)을 통해 전송받으며, 도 10의 제어기(1034)가 수신된 제어 명령을 디코딩하고 연산기들(덧셈기, 뺄셈기, 곱셈기)와 입력/계수/저장레지스터들, 그리고 멀티플렉서들을 제어해서 FFT를 수행하도록 한다.

예를 들어 도 10에 도시된 바와 같은 FFT연산 장치에서는 제어기(1034)가 수신된 제어 명령을 디코딩하여 연산기들(덧셈기, 뺄셈기, 곱셈기)와 입력/계수/저장 레지스터들, 그리고 멀티플렉서들을 제어하여 FFT 연산 동작을 수행하고 그 결과값을 출력 레지스터(1036)를 통하여 외부로 출력한다.

FFT 연산을 위하여 제어 명령은 다음과 같은 6가지가 있다.

1. 계수(cos, sin)의 입력(A2FFT) ; cycle1에 해당

2. 실수 데이터의 입력, 연산 및 출력(FFTFR; FFT Front Real) ; cycle2에 해당

3. 허수 데이터의 입력, 연산 및 출력(FFTFI; FFT Front Imaginary); cycle3에 해당

4. 실수값의 연산 및 출력(FFTSR ; FFT Secondary Real) ; cycle4에 해당

5. 허수값의 연산 및 출력(FFTSI ; FFT Secondary Imaginary) ; cycle5에 해당

6. 실수값/허수값의 연산 및 출력이 수행되는 동안 계수를 입력(FFTSIC) ; cycle4 혹은 cycle5가 수행되는 동안 계수 레지스터(1006, 1008)에 다음 연산을 위한 계수값을 로드하는 명령으로서 연산에 소요되는 사이클수를 줄이는 데 유용하다.

도 14에 있어서 최상위의 신호는 클럭 신호(CK1)이고, 차례로 OPcode bus0에 인가되는 제어 명령, OPcode bus1에 인가되는 제어 명령, RT, ET, 읽기 버스 A 및 B에 인가되는 데이터들, 입력 레지스터들(1002, 1004)에 인가되는 데이터들, 덧셈기(1014) 및 뺄셈기(1016)에 인가되는 데이터들, 곱셈기들(1018, 1020)에 인가되는 데이터들, 저장 레지스터들(1024, 1026)에 인가되는 데이터들, 출력 레지스터(1036)에 인가되는 데이터, 그리고 출력 인에이블 신호(FFT_EN)를 나타낸다.

OPcode bus0에 제어 명령이 인가되고, RT 신호에 의해 인에이블되면 제어기(1034)가 이를 디코딩하여 FFT 연산을 위한 대기 상태로 전환한다. 이후 OPcode bus1에 FFTSR 명령이 인가되고 ET신호에 의해 인에이블되면 제어기(1034)가 제2사이클을 수행하기 위한 제어 동작을 수행한다.

구체적으로, 제어기(1034)는 입력 레지스터들(1002, 1004)을 제어하여 읽기버스 A 및 B로부터 인가된 데이터를 저장하게 한다. 입력 레지스터들(1002, 1004)에 저장된 실수 데이터들은 덧셈기(1014) 및 뺄셈기(1016)에 제공된다. 제어기(1034)는 덧셈기(1014) 및 뺄셈기(1016)를 제어하여 덧셈 연산 및 뺄셈 연산을 수행하게 한다. 뺄셈기(1016)의 연산 결과는 곱셈기들(1018, 1020)에 제공된다. 제어기(1034)는 곱셈기들(1018, 1020)을 제어하여 곱셈 연산을 수행하게 하고, 저장 레지스터들(1024, 1026)을 제어하여 곱셈기들(1018, 1020)의 연산 결과들을 저장하게 하며, 멀티플렉서(1032)를 제어하여 뺄셈기(1016)의 출력이 출력 레지스터(1036)에 저장되게 한다.

이후 제어기(1034)는 출력 인에이블 신호(FFT_EN)을 발하여 다른 모듈에서 출력 레지스터(1036)에 저장된 값(복소 FFT의 실수값)을 가져갈 수 있게 한다. 예를 들어 도 4에 도시된 장치에 있어서, FFT 연산 모듈(412)에서 출력 인에이블 신호(FFT_EN)이 발생되면, 제어부(Ctrl Unit, 402)는 FFT 연산 모듈(412)로부터 출력 데이터를 인출하여 REGFILE(레지스터 파일, 404)에 저장하게 된다.

FFTFI 명령의 수행도 FFTFR과 유사하기 때문에 상세한 설명을 생략한다.

도 15에 있어서 최상위의 신호는 클럭 신호(CK1)이고, 차례로 OPcode bus0에 인가되는 제어 명령, OPcode bus0에 인가되는 제어 명령, RT, ET, 읽기 버스 A 및 B에 인가되는 데이터들, 저장 레지스터들(1024, 1026, 1028, 1030)에 인가되는 데이터들, 그리고 덧셈기(1014) 및 뺄셈기(1016)에 인가되는 데이터, 출력 레지스터(1036)에 인가되는 데이터, 그리고 출력 인에이블 신호(FFT_EN)들을 나타낸다.

OPcode bus0에 FFTSR 제어 명령이 인가되고, RT 신호에 의해 인에이블되면 제어부(1036)가 이를 디코딩하여 FFT 연산을 위한 대기 상태로 전환한다. 이후 OPcode bus1에 FFTFR 명령이 인가되고 ET신호에 의해 인에이블되면 제어기(1034)가 제4사이클을 수행하기 위한 제어 동작을 수행한다.

구체적으로, 멀티플렉서(1010, 1012)를 제어하여 저장 레지스터들(1024, 1026)에 저장된 데이터들이 뺄셈기(1016)에 제공되게 한다. 뺄셈기(1016)를 제어하여 뺄셈 연산을 수행하게 하고, 멀티플렉서(1032)를 제어하여 뺄셈기(1016)의 출력이 출력 레지스터(1036)에 저장되게 한다.

이후 제어기(1034)는 출력 인에이블 신호(FFT_EN)을 발하여 다른 모듈에서 출력 레지스터(1035)에 저장된 값(복소 FFT의 실수값)을 가져갈 수 있게 한다.

FFTSI 명령의 수행도 FFTSR과 유사하기 때문에 상세한 설명을 생략한다.

출력 레지스터(1036)는 제4사이클을 통하여 얻어지는 실수값과 제5사이클을 통하여 얻어지는 허수값을 차례로 저장 및 출력한다. 만일 출력 레지스터(1036)에 저장된 값에서 오버 플로우가 발생했을 경우에는 스케일링 동작을 수행한 후에 출력한다.

도 16(a) 및 16(b)는 종래의 FFT 연산 장치의 일예를 보이는 것으로서 일본 특허공개 평 06-060107)에 개시된 것이다. 도 16(a) 및 도 16(b)에 도시된 장치는 버터플라이 연산기를 모두 하드웨어화한 것이다. 그러나, 전용의 계수 메모리 및 이를 위한 계수 어드레스 연산 장치를 필요로하며, 하나의 FFT연산 즉, 2데이터 포인트를 이용한 FFT 연산을 위해 도 16(a)의 경우 16사이클이 소요되고, 도 16(b)의 경우 6사이클이 소요된다.

도 17은 종래의 FFT연산 장치의 다른 예를 보이는 것으로서 한국 공개 특허 1999-0079171에 개시된 것이다. 도 17에 도시된 장치는 곱셈기 1개와 덧셈기 2개로 구성되는 비교적 간단한 구성을 가지지만 계수 전용 메모리 및 이를 위한 계수 어드레스 레지스터들, 데이터 포인트의 어드레스 연산을 위한 데이터 어드레스 레지스터들을 필요로 하며, 하나의 FFT 연산 즉, 2데이터 포인트를 이용한 FFT 연산을 위해 9사이클을 필요로 한다.

도 18은 종래의 FFT 연산 장치의 또 다른 예를 보이는 것으로서 한국 공개 특허 2001-0036860에 개시된 것이다. 도 18에 도시된 장치는 곱셈기 4개, 덧셈기 2개, ALU 2개로 구성되며, 1Read/1Write bus 칭 계수용 2Read bus를 가지며, 최소 6사이클 정도가 소요된다.

도 19는 종래의 FFT 연산 장치의 또 다른 예를 보이는 것으로서 일본 공개 특허 소 63-086048호에 개시된 것이다. 도 19에 개시된 장치는 Intel MMX 프로세서를 채용하며, 곱셈기 4개, 덧셈기 2개, 부가 덧셈기(U, V 파이프라인)으로 구성되며, 16cycle/2(pipeline)이 소요된다.

도 20은 도 10에 도시된 FFT 연산 장치를 이용하여 256포인트의 데이터 블록에 대한 FFT연산을 수행한 결과를 도시한 것이다. 도 20에 있어서 종축은 제품들의 종류를 나타내고, 횡축은 연산에 소요된 사이클수를 나타낸다. 도 20을 참조하면 TI C54X는 8,542사이클, TIC55X는 4,960사이클, ADI 2100은 7,372사이클, Frio는 4,117사이클이 소요되는 반면에 본 발명에 따른 FFT 연산 장치는 4,500사이클이 소요된다.

본 발명에 따른 FFT 연산 장치의 경우 TI C54X보다 1.9배, ADI 2100보다 1.6배정도 빠르고 TIC55X처럼 5버스 시스템(3Read 2Write)보다 성능이 우수하다.

한편, TI CttX의 경우 3Read 2Write 버스를 사용하기 때문에 범용의 3버스 시스템이 아니며, 범용의 3버스 시스템을 적용하지만 두 쌍을 사용하고 있으므로 본 발명에 따른 FFT 연산 장치가 호환성 및 복잡성 면에서도 우수함을 알 수 있다.

즉, 본 발명에 따른 FFT 연산 장치는 범용의 3버스 시스템과의 호환성을 유지하면서도 연산에 소요되는 사이클수를 최소화할 수 있다.

현재 중앙처리장치와 주메모리의 데이타 처리 속도의 차이는 약 100배 이상이며, 이 처리 속도 차이를 캐쉬가 보완하게 된다.

캐쉬는 중앙처리장치가 다음에 요구할 것으로 예상되는 일련의 데이터를 주메모리로부터 먼저 읽어들여 저장해두는 장치로서 주메모리에 비해 빠른 액세스 속도를 가진다.

중앙처리장치는 주메모리를 액세스하기 전에 캐쉬를 먼저 액세스하여 원하는데이터를 얻게 된다. 이 예상의 적중율은 실제 상당히 높고 따라서 프로그램이 빠른 속도로 동작하게 된다.

일반적인 캐쉬 처리 방법은 캐쉬 미스(cash miss)가 발생한 블록을 주메모리로부터 읽어서 교환하는 기법을 사용한다. 이때 캐쉬 크기, 블록 매핑 방식, 블록 교환 방식, 쓰기 방식 등을 고려하여 효율을 높이도록 설계한다. 일반적으로 히트율(또는 블록의 사용율)이 교환 기준이 된다.

통상적으로 반복 명령은 높은 히트율을 가지는 반면 인터럽트 벡터나 인터럽트 서비스 루팀과 같이 일련의 긴 코드의 반복 구조를 갖는 프로그램은 상대적으로 낮은 히트율을 가진다.

히트율에 따른 캐쉬 정책을 사용하게 되면 비주기적이고 불특정하게 발생할 수 있는 인터럽트의 속상상 각 인터럽트 벡터 내지는 인터럽트 서비스 루팀이 반응 시간(interrupt latency, 인터럽트가 발생하여 그 인터럽트에 해당하는 서비스를 개시하기 까지의 경과 시간)에서 크게 차이가 나기도 하고 같은 인터럽트일 지라도 때에 따라서 반응 시간이 달라지게 된다.

따라서, 항상 빠른 인터럽트 반응 시간을 요구하는 실시간 처리 시스템에서 히트율에 따른 캐쉬 정책은 적합하지 않게 된다.

종래의 캐쉬는 하드웨어적으로 제어되도록 구성되어 있어 상황변화에 따라 적절한 캐쉬 정책을 구사하지 못하고 있다는 문제점이 있다.

여기서, 하드웨어적으로 제어된다고 하는 것은 예를 들어 캐쉬 자체에 구비된 알고리즘에 의한 제어를 말하며, 캐쉬 자체의 알고리즘은 캐쉬의 제작과 더불어고정되어 버리기 때문에 캐쉬는 이후의 상황 변화에도 불구하고 고정적이고 항구적인 방식에 의해 제어된다.

진보된 캐쉬 중에는 몇가지의 캐쉬 정책들 중의 하나를 스위칭 방식 혹은 모드 제어 방식에 의해 선택적으로 사용할 수 있도록 하는 것도 있지만 역시 다양한 캐쉬 정책을 임의적으로 구사할 수는 없었다.

따라서, 캐쉬를 소프트웨어적으로 제어하는 즉, 캐쉬에 설정된 하드웨어적인 제어 방식에 구애됨이 없이 자유롭게 캐쉬의 제어 방식을 변경할 수 있게하여 다양한 캐쉬 정책을 구사할 수 있게 하는 방안이 요구된다.

한편, 캐쉬는 명령 캐쉬와 데이터 캐쉬로 구분될 수 있다. 데이터 캐쉬는 조작 대상이 되는 데이터를 대상으로 하는 것이고, 명령 캐쉬는 중앙 처리 장치를 제어하는 명령을 대상으로 하는 것이다.

데이터 캐쉬는 영상 처리 장치에 있어서 프레임 단위의 영상 데이터를 처리하는 버퍼, 오디오 처리 장치에 있어서 입출력 속도를 조절하기 위한 버퍼 등의 용도로 사용된다.

명령 캐쉬는 실시간 처리 시스템에 있어서 인터럽트 반응 시간을 최소화하기 위해 다음에 처리될 명령을 처리하는 용도로 사용된다.

LSI의 집적도의 향상에 따라 종래의 보드 레벨의 임베디드 시스템이 복합칩(system on chip)으로 구현되고 있다. 복합칩은 메모리와 로직 칩을 별도로 사용할 경우보다 칩과 칩 사이의 데이터 전송 때 지연 효과를 줄여 고속전송이 가능하며 소비 전력도 종래의 보드 레벨의 임베디드 시스템보다 절반 이하의 수준으로 낮출 수 있는 것으로서, 차세대 반도체 설계기술 중의 하나이다.

특히 이 칩은 원칩화에 따른 시스템 성능 향상 및 보드 크기 축소 등으로 종전보다 가격 대비 성능 면에서 20% 이상의 시스템 제조비용 절감이 가능하다

이런 이유로 복합칩은 PC용 그래픽 컨트롤러를 비롯해 네트워크 장비, 통신기기, 개인휴대 단말기(PDA), 세트톱박스, 디지털다기능디스크 등의 제품에 폭넓게 사용되고 있으며 이에 따른 세계 주요 반도체 생산업체들의 복합칩 개발 열기 또한 뜨거워지고 있다.

과거의 보드 레벨의 임베디드 시스템(embeded system)을 복합칩으로 구현할 경우 , 인터럽트에 의한 처리를 주로 하는 RTOS(Real Time Operating System)의 사용이 보편화될 것으로 예상된다.

그렇지만 이러한 장치에 일반적인 캐쉬를 사용하면 PCB(Processss Control Block)이나 인터럽트 서비스 루틴이 캐쉬에 존재하지 않아 시스템 전체의 퍼포먼스가 중어들 가능성이 있다.

따라서, 원칩화된 실시간 처리 시스템에 있어서 인터럽트 반응 시간을 최소화하는 방안이 요구된다.

본 발명에 따른 캐쉬 장치는 소프트웨어적으로 다양한 캐쉬 방법을 제어할 수 있다는 장점이 있다.

본 발명에 따른 캐쉬 제어 방법은 갱신 포인터를 사용하는 것을 특징으로 한다. 실제에 있어서 캐쉬의 내부 메모리는 블록화되고, 갱신 포인터는 각 블록 메모리를 가리키게 된다. 갱신 포인터에 의해 지시되는 블록 메모리가 블록 교환의 대상이 된다. 즉, 갱신 포인터는 블록화된 내부 메모리의 각 블록 메모리들 중의 하나를 나타내며, 캐쉬 미스 발생시 갱신 포인터가 지시하는 블록 메모리가 블록 교환의 대상이 된다.

도 21a에 있어서 참조부호 2100은 중앙처리장치를 나타내고, 2200은 캐쉬를 나타내며, 2300은 주메모리를 나타내며, 그리고 2400은 캐쉬 제어용 프로그램을 나타낸다.

캐쉬(2200)는 중앙처리장치(2100)가 다음에 요구할 것으로 예상되는 일련의 데이터를 주메모리(2300)로부터 먼저 읽어들여 저장해둔다.

캐쉬(2200)는 제어기(22002), 쓰기용 블록 저장 레지스터(22004), 그리고 내부 메모리(22006)을 구비한다. 여기서, 쓰기용 블록 저장 레지스터(22004)는 내부 메모리(22006)에서 블록 교환 동작에서 갱신할 블록의 위치를 가리키게 된다.

내부 메모리(22006)는 블록화되어 있고, 쓰기용 블록 저장 레지스터(22004) 혹은 갱신 포인터(24002)가 지시하는 블록 메모리가 블록 교환의 대상이 된다.

도 21b는 갱신 포인터 및 쓰기용 블록 저장 레지스터와 관련한 블록 교환 동작을 도식적으로 도시한다. 내부 메모리(22006)는 블록화된 복수의 블록 메모리들로 구성된다. 캐쉬 제어용 프로그램(2400)의 변수인 갱신 포인터(24002)는 복수의 블록 메모리들 중의 하나를 가리키게 된다. 갱신 포인터(24002)에 의해 지시되는 블록 메모리는 캐쉬(2200)가 캐쉬 제어용 프로그램에 의해 제어될 때 블록 교환의대상이 된다.

갱신 포인터(24002)는 프로그램 내에서 사용되는 하나의 변수이며, 갱신 포인터(24002)의 값 즉, 블록 교환 동작시 교환될 블록을 지시하는 값은 소프트웨어적으로 즉, 캐쉬(2200)의 외부에서 작동하는 캐쉬 제어용 프로그램(2400)에 의해 결정된다.

블록 교환 동작시 교환될 블록은 하드웨어적으로 결정될 수도 있다. 하드웨어적으로 결정할 때는 캐쉬(2200) 자체의 알고리즘, 즉, 캐쉬(2200)의 제작시 프로그램된 알고리즘에 의해 결정된다. 캐쉬(2200) 자체는 그것의 제작과 더불어 동작 알고리즘이 고정되어 버리므로 상황 변화에 따른 유연한 대응이 어렵지만 외부의 프로그램에 의해 블록 메모리의 갱신 여부를 결정하면 상황변화에 따른 유연한 대응이 가능하게 된다.

프로그램(2400)은 주메모리(2300)에 로드되거나 주메모리(2300)로부터 캐쉬(2200)으로 로드되거나 혹은 별도의 메모리에 로드될 수 있다.

도 21b에 있어서 갱신 포인터(24002)와 쓰기용 블록 저장 레지스터(22004)이 도시된다. 쓰기용 블록 저장 레지스터(22008)에 저장된 값은 캐쉬(2200) 자체에서 결정된 교환될 블록을 나타내게 된다.

따라서, 갱신 포인터(24002)와 쓰기용 블록 저장 레지스터(22004)의 우선 순위가 결정되어야 한다. 본 발명에 있어서는 갱신 포인터(24002)가 쓰기용 블록 저장 레지스터(22004)보다 높은 우선 순위를 가지게한다. 따라서, 캐쉬(2200)가 캐쉬용 제어 프로그램(2400)에 의해 제어될 경우에는 쓰기용 블록 저장레지스터(22004)에 저장된 정보는 무시된다.

경우에 따라서는 블록 메모리 각각의 갱신 여부를 금지하여야 한다. 예를 들면, 필수적인 데이터를 저장하는 블록 메모리는 이후의 블록 교환 동작에서 제외되도록 갱신 금지로 설정되어야 한다. 도 2b에는 이를 위한 메모리 블록 쓰기모드 레지스터(22008)가 제시된다.

메모리 블록 쓰기 모드 레지스터(22008)는 하드웨어적 혹은 소프트웨어적으로 그 값이 변경된다. 예를 들어 캐쉬(2200)의 초기 동작 즉, 도 2a에 도시된 구성요소들을 구비하는 시스템의 기동을 위한 초기화 동작들 중의 하나로서 캐쉬(2200)을 초기화하는 동작에서는 주메모리(2300)에서 가장 기본적이고 필수적인 데이터가 내부 메모리(22004)의 첫번째 블록 메모리에 로드되면서 이 블록 메모리를 쓰기 금지로 설정된다.

메모리 블록 쓰기 모드 레지스터(22008)의 저장 내용은 하드웨어적인 갱신 동작에 있어서 언제나 참조된다. 그렇지만 본 발명에 있어서 소프트웨어적인 동작 즉, 캐쉬(2200)의 외부에서 작동하는 캐쉬 제어용 프로그램(2400)에 의해 캐쉬(2200)를 제어할 경우에는 하드웨어적인 제어시 메모리 블록 쓰기 모드 레지스터(22008)에 설정된 정보는 무시된다.

하드웨어적인 제어와 소프트웨어적인 제어는 중앙 처리 장치에 의해 결정된다. 예를 들어 중앙 처리 장치는 캐쉬 히트율을 모니터링하고, 그것의 변화에 따라 하드웨어적인 제어 즉, 캐쉬 자체의 알고리즘에 의한 제어만으로도 캐쉬 히트율이 소정값 이상으로 유지되고 있는 지를 판단하고, 캐쉬 히트율이 소정값 이하로 떨어질 경우 소프트웨어적인 제어 즉, 캐쉬 외부에서 작동하는 프로그램에 의해 캐쉬의 블록 교환 동작을 제어할 수 있도록 제어한다.

캐쉬 제어용 프로그램(2400)은 명령에 의해 캐쉬(2200)을 제어한다. 캐쉬 제어용 프로그램(2400)에서 발생된 명령은 캐쉬(200)에 제공된다. 캐쉬(2200)의 캐쉬 제어부(22002)는 명령을 디코딩하여 캐쉬(200)의 동작을 제어한다.

이 명령을 통하여 캐쉬 제어용 프로그램(2400)은 캐쉬(2200)의 블록 교환 동작, 각 블록 메모리의 쓰기 금지 여부를 제어한다.

이와 같이 본 발명에 따른 캐쉬 제어 방법은 블록 교환 동작에서 교환될 블록 메모리를 캐쉬의 외부에서 작동하는 프로그램에 의해 적응적으로 결정할 수 있게 함으로써 상황 변화에 따른 캐쉬 정책의 변화를 유연하게 유지할 수 있다.

도 22는 본 발명에 따른 음성 인식 장치에 적용된 캐쉬 장치의 구성을 보이는 블록도이다. 도 22에 도시된 장치는 도 4에 도시된 PMIF(422)의 내부에 구현된다.

도 22에 도시된 장치는 캐쉬(2200)에 인가되는 외부 어드레스와 내부 메모리(2206)에 저장된 외부 어드레스를 비교하는 비교기(2202), 외부 어드레스를 내부 메모리(2206)를 액세스하기 위한 내부 어드레스로 변환해주는 어드레스 변환기(2204), 외부 메모리로부터의 데이터를 내부 메모리(2206)에 로드하는 명령어 저장 제어기(2208), 내부 메모리(2206)와 버스를 인터페이스하는 버스 I/F(InterFace, 2210)로 구성된다.

여기서, 외부 메모리는 통상적으로는 주메모리를 지칭하지만 반드시 이에 한정되지는 않는다. 또한, 외부 어드레스라 함은 예를 들어 중앙 처리 장치가 주메모리를 액세스할 때 사용하는 어드레스를 말하며, 내부 어드레스란 캐쉬의 내부에 구비된 내부 메모리(2206)를 액세스하기 위해 사용하는 어드레스를 말한다.

도 23은 도 22에 도시된 장치에 있어서 내부 메모리의 저장 내용을 도식적으로 보이기 위해 도시된 것이다. 도 23에 도시된 바와 같이 내부 메모리(2206)에는 외부 메모리의 어드레스(외부 어드레스), 해당 어드레스의 데이터가 함께 저장된다. 내부 메모리(2206)에 저장된 외부 어드레스는 캐쉬(2200)에 인가되는 외부 어드레스와 비교된다.

또한, 내부 메모리(2206)는 블록화된 복수의 블록 메모리들(블록 메모리#1- 블록 메모리#n)으로 구성된다.

중앙처리장치는 주메모리를 액세스하기 전에 먼저 1차적으로 캐쉬(2200)를 액세스한다. 즉, 중앙처리장치는 주메모리를 액세스하기 위한 외부 어드레스를 캐쉬(2200)에 인가하여 데이터를 요구한다. 캐쉬(2200)는 인가된 외부 어드레스를 내부 메모리(2206)에 저장된 외부 어드레스와 비교하여 동일한 어드레스가 있으면 그에 상응하는 데이터를 독출하여 중앙처리장치에 제공하거나 중앙처리장치에서 제공되는 데이터를 기록한다.

캐쉬(2200)는 주메모리보다 빠른 액세스 속도를 가지기 때문에, 중앙처리장치가 캐쉬(2200)를 액세스하게 되면 주메모리를 액세스하는 것보다 더욱 빠르게 데이터를 주고받을 수 있다.

만일, 내부 메모리(2206)에 저장된 외부 어드레스들 중에서 인가된 외부 어드레스와 일치하는 것이 없으면 캐쉬 미스(cash miss)가 발생한 것이고, 이 경우 중앙처리장치는 2차적으로 주메모리를 액세스하게 된다.

캐쉬 미스가 발생되면 캐쉬(2200)는 주메모리를 액세스하여 캐쉬 미스가 발생된 위치(외부 어드레스에 의해 지정되는 위치)의 데이터를 읽어들여 내부 메모리(2206)를 갱신한다. 실제로는 블록 단위의 교환이 이루어진다.

블록 교환을 수행함에 있어서 종래의 캐쉬는 블록을 교체하는 순서가 하드웨어적으로 고정된다. 예를 들면, 캐쉬 미스가 발생할 때마다 첫번째 블록→두번째 블록→세번째 블록,,,의 순서로 순차적으로 블록 교환이 이루어진다. 이러한 교환 방식에 의하면 교환된 블록에 히트율이 높거나 중요한 데이터가 저장되어 있더라도 어쩔수 없이 교환이 수행되어야 한다는 문제점이 있다.

본 발명의 장치는 도 28를 참조하여 설명되는 바와 같이 저장된 내용의 중요도 혹은 우선 순위에 따라 교환되는 블록을 소프트웨어적으로 적절하게 선택할 수 있다.

도 22에 도시된 장치에 있어서, 내부 메모리(2206)는 블록화되어 있고, 각 블록 메모리들에는 일련의 데이터 예를 들면 인터럽트 벡터 혹은 인터럽트 서비스 루틴이 저장된다.

도 24는 도 22에 도시된 비교기의 상세한 구성을 보이는 블록도이다. 도 22에 도시된 비교기(2202)는 대표 번지 레지스터들(2402a - 2402n), 외부 어드레스와 대표 번지 레지스터들(2402a - 2402n)에 저장된 대표 번지들(대표번지1 - 대표번지n)을 비교하고 일치 여부를 나타내는 선택 신호들(선택신호1 - 선택신호n)을 발생하는 비교기들(404a - 404n), 내부 메모리(2206)에 저장된 외부 어드레스와 캐쉬(2200)에 인가되는 외부 어드레스의 일치 여부를 검출하는 일치 검출기(2406)를 구비한다.

여기서, n은 내부 메모리(2206)의 블록수에 상응한다.

대표 번지 레지스터들(2402a - 2402n)은 도 2에 도시된 명령어 저장 제어기(2208)에의해 제어되며, 대표 번지 레지스터들(2402a - 2402n)에는 명령어 저장 제어기(2208)에서 제공되는 대표 번지들이 저장된다.

여기서, 대표 번지는 각 블록 메모리에 저장된 외부 어드레스 중의 선두 어드레스가 된다. 통상 주메모리는 바이트단위(8비트)로 구성되고, 버스는 이보다 큰 단위로 구성된다. 버스가 4바이트(32비트)단위로 구성된다면 액세스 속도의 향상을 위하여 통상 4바이트(4개의 어드레스)가 한꺼번에 독출된다. 단지 선두 어드레스만을 지정하면 메모리는 자동적으로 4개의 어드레스를 연속으로 처리한다.

즉, 메모리는 적어도 버스폭에 해당하는 만큼 블록화되어 있다고 볼 수 있다. 그렇지만 실제에 있어서 4바이트는 너무나 작은 단위이기 때문에 빈번한 블록 교환이 발생할 수 있다. 따라서, 실제의 블록은 훨씬 큰 단위를 가진다.

따라서, 대표 번지 레지스터들(2402a - 2402n)은 각 블록 메모리에 저장된 외부 어드레스들 중의 선두 어드레스를 가진다. 특히, 선두 어드레스 중의 상위 어드레스가 대표 번지 레지스터들(2402a - 2402n)에 저장된다.

비교기들(2404a - 2404n)은 외부 어드레스중의 상위 어드레스와 대표 번지 레지스터들(2402a - 2402n)에 저장된 대표 어드레스들을 각각 비교한다. 비교 결과에 따라 외부 어드레스가 대표 어드레스에 상응하는 지의 여부를 나타내는 선택 신호(선택신호1 - 선택신호n)를 발생한다. 발생된 선택 신호(선택신호1 - 선택신호n)는 도 22에 도시된 어드레스 변환기(2204)에 제공된다.

한편, 발생된 선택 신호(선택신호1 - 선택신호n)는 일치 검출기(406)에도 제공되며, 일치 검출기(2406)는 선택 신호(선택신호1 - 선택신호n)에 의해 캐쉬 미스 여부를 판단하게 된다. 선택 신호(선택신호1 - 선택신호n) 모두가 불일치를 나타내게 되면 캐쉬 미스가 발생한 것이다.

일치 검출기(2406)에서 출력되는 일치 검출 신호는 도 22에 도시된 어드레스 변환기(2206)에 제공되어 내부 메모리 혹은 외부 메모리의 액세스 여부를 결정한다.

한편, 일치 검출기(2406)에서 출력되는 일치 검출 신호는 도 2에 도시된 명령어 저장 제어기(2208)에도 제공되며, 명령어 저장 제어기(2208)는 이 일치 검출 신호에 의해 캐쉬 미스의 발생 여부를 판단하고, 이에 근거하여 블록 교환 동작을 수행하게 된다.

도 25는 도 22에 도시된 어드레스 변환기의 동작을 도식적으로 도시한다. 도 25에 도시된 바와 같이 어드레스 변환기(2204)는 외부 어드레스, 비교기들(2404a - 2404n)로부터의 선택신호1∼n, 명령어 저장 제어기(2208)로부터의 선택신호1∼n, 쓰기 어드레스를 입력하며, 내부 메모리(2206)의 어드레스 및 읽기/쓰기 제어 신호를 발생한다.

먼저, 캐쉬 히트가 발생한 경우의 어드레스 변환기의 동작을 설명한다.

캐쉬 히트의 여부는 도 22 및 도 24에 도시된 비교기(2202)로부터의 일치 검출 신호에 의해 판별된다. 캐쉬 히트가 발생하면 즉, 비교기(2202)로부터의 일치 검출 신호가 일치를 나타내면, 어드레스 변환기는 비교기들(2404a - 2404n)로부터의 선택신호1∼n를 참조하여 그에 인가되는 외부 어드레스를 내부 메모리(2206)를 위한 내부 어드레스로 변환하여 내부 메모리(2206)에 제공한다. 이와 함께 읽기/쓰기 등의 내부 메모리 제어 신호를 발생한다.

외부 어드레스와 내부 어드레스의 매핑 관계는 내부 메모리(2206)로 사용되는 메모리의 종류 및 기타 설계시 고려 사항에 의해 얼마든지 달라질 수 있으므로 상세히 기술하지 않는다.

다음, 캐쉬 미스가 발생한 경우의 어드레스 변환기(2204)의 동작을 설명한다.

캐쉬 미스의 여부는 도 22 및 도 24에 도시된 비교기(2202)로부터의 일치 검출 신호에 의해 판별된다. 캐쉬 미스가 발생하면 중앙처리장치는 2차적으로 외부 메모리를 액세스하게 되며 이후 도 22에 도시된 명령어 저장 제어기(2208)에 의해 블록 교환이 발생하게 된다. 블록 교환시 어드레스 변환기(2204)는 명령어 저장 제어기(2208)에서 제공되는 선택신호1∼n 및 쓰기 어드레스를 참조하여 내부 메모리(2206)를 액세스하기 위한 내부 어드레스를 발생한다. 이때, 명령어 저장 제어기(2208)에서 제공되는 선택신호1∼n가 내부 어드레스의 상위 어드레스를 결정하고, 명령어 저장 제어기(2208)에서 제공되는 쓰기 어드레스가 내부 어드레스의 하위 어드레스를 결정한다.

도 26은 도 22에 도시된 명령어 저장 제어기의 상세한 구성을 보이는 블록도이다. 도 26에 도시된 장치는 메모리 로드 제어기(2602), 상위 어드레스 발생기(2604), 하위 어드레스 발생기(2606), 제어 모드 레지스터(2608), 메모리 블록 쓰기 모드 레지스터(2610), 쓰기용 메모리 블록 번지 저장 레지스터(2612)를 구비한다.

명령어 저장 제어기(2208)의 동작은 도 3에 도시된 일치 검출기(2406)에서 제공되는 일치 검출 신호에 의해 결정된다. 일치 검출 신호가 불일치를 나타내면 명령어 저장 제어기(2208)는 블록 교환 동작을 수행한다.

블록 교환 동작은 하드웨어적으로(하드웨어 제어 모드) 혹은 소프트웨어적으로(소프트웨어 제어 모드) 수행된다.

먼저 하드웨어 제어 모드에 설명한다. 하드웨어 제어 모드란 이미 결정되어 있는 블록 교환 순서에 따라 순차적으로 블록 교환이 수행되는 것을 말한다.

다음에 교환할 블록에 관한 정보가 쓰기용 메모리 블록 번지 저장 레지스터(2612)에 저장된다. 메모리 로드 제어기(2602)는 쓰기용 메모리 블록 번지 저장 레지스터(2612)에 저장된 정보를 참조하여 도 24에 도시된 대표 번지 레지스터들(2402a - 2402n)에 제공되는 대표 번지1-n 및 도 5의 어드레스 변환기에 제공되는 쓰기 어드레스를 발생한다.

교환할 블록 메모리는 쓰기용 메모리 블록 번지 저장 레지스터(2612)에의해 알려진다. 메모리 로드 제어기(2602)는 쓰기용 메모리 블록 번지 저장 레지스터(2612)에 저장된 정보를 참조하여 대표 번지 레지스터들(2402a - 2402n)들중의 하나를 선택한다. 블록 메모리들과 대표 번지 레지스터들(2402a - 2402n)들은 1:1의 대응 관계를 가진다.

상위 어드레스 발생기(2604)는 외부 어드레스를 참조하여 선택된 대표 번지 레지스터에 저장할 대표 번지를 발생한다. 구체적으로 상위 어드레스 발생기(604)는 외부 어드레스 중의 상위 어드레스를 취하여 대표 번지를 발생한다. 발생된 대표 번지는 선택된 대표 번지 레지스터에 제공된다.

한편, 하위 어드레스 발생기(2606)는 메모리 로드 제어기(2602)의 제어에 따라 어드레스 변환기(2206)에 제공되는 쓰기 어드레스를 발생한다. 하위 어드레스 발생기(2606)는 초기에 "0"으로 설정되고, 외부 메모리로부터 데이터를 로드할 때마다 1씩 증가된다.

캐쉬(2200)가 외부 메모리를 액세스하기 위한 외부 어드레스는 상위 어드레스 발생기(2604)에서 발생된 상위 어드레스와 하위 어드레스 발생기(606)에서 발생된 하위 어드레스를 조합함에 의해 얻어진다.

한편, 메모리 로드 제어기(2602)는 읽기/쓰기 등의 외부 메모리 제어 신호를 발생한다.

도 27은 도 22에 도시된 장치의 하드웨어 제어 모드에서의 동작을 보이는 흐름도이다. 도 27에 도시된 바에 의하면 첫번째 블록(1번 메모리 블록)부터 마지막 블록(n번 메모리 블록)까지 순차적으로 블록 교환을 수행하는 가장 간단한 예가 설명된다.

먼저 초기 로드가 수행된다.(s2702) 초기 로드는 후술하는 바와 같이 초기로드 제어 신호에 의해 기동되며, 시스템의 초기화 단계에서 수행된다.

초기 로드가 지정되면 1번 메모리 블록에 데이터를 로드한다. 즉, 주메모리로부터 한 블록만큼의 데이터가 독출되고, 이것이 내부 메모리(2206)의 1번 메모리 블록에 로드된다.(s2704)

쓰기 블록을 2번째 블록으로 설정한다.(s2706) 쓰기 블록의 설정 내용은 쓰기용 메모리 블록 번지 저장 레지스터(2612)에 저장된다.

불일치가 검출되었는지를 판단한다.(s2708) 도 23에 도시된 일치 검출기(2406)에서 발생된 일치 검출 신호가 불일치를 나타낸다면 불일치가 검출된 것으로 판단한다.

하드웨어 제어 모드인지를 판단한다(s2710) 하드웨어 제어 모드의 여부는 도 6의 제어 모드 레지스터(2608)에 설정된 내용을 참조함에 의해 알수 있다.

하드웨어 제어 모드라면 s2712 내지 s2714과정을 통하여 읽기 블록과 쓰기 블록의 일치 여부를 판단한다. s2712 내지 s2714과정은 잘못된 기록을 방지하기 위한 것들이다.

쓰기 가능 모드인지를 판단한다.(s2716) 해당 블록이 쓰기 가능한 지의 여부는 도 25의 메모리 블록 쓰기 모드 레지스터(2610)에 설정된 내용을 참조함에 의해 알 수 있다. 만일 해당 블록이 쓰기 불가능으로 설정되어 있다면 쓰기 블록을 변경한다.(s2718)

해당 블록이 쓰기 가능으로 설정되어 있다면 쓰기 블록에 데이터를 로드한다.(s2720) 즉, 주메모리로부터 한 블록만큼의 데이터를 읽어들여 내부메모리(2206)의 해당 블록 메모리에 로드한다.

다음 블록으로 쓰기 블록을 설정한다.(s2722)

다음으로 소프트웨어 제어 모드에 대하여 설명한다. 소프트웨어 제어 모드란 이미 결정되어 있는 블록 교환 순서에 따라 순차적으로 블록 교환이 수행되는 것이 아니라 교환할 블록을 소프트웨어에 의해 그때그때의 상황에 따라 결정하는 것을 말한다.

소프트웨어 제어 모드를 사용하면 히트율이 높은 블록이나 중요한 데이터가 저장된 블록이 교환되는 것을 회피할 수 있기 때문에 효율적인 캐쉬의 운용이 가능하게 된다.

하드웨어 제어 모드의 경우 상위 어드레스 발생기(2604)는 버퍼에 지나지 않으나 소프트웨어 제어 보드의 경우는 의미를 갖게 된다.

도 28은 도 22에 도시된 장치의 소프트웨어 제어 모드에서의 동작을 보이는 흐름도이다. 도 28에 도시된 예의 소프트웨어 제어 모드에서는 쓰기용 메모리 블록 번지 저장 레지스터(2612)의 설정 내용에 관계없이 모든 블록에 대하여 쓰기 가능하게 하고, 블록별 쓰기 가능 모드는 전적으로 소프트웨어에 의해 관리된다. 또한, 불일치 검출에 의하지 않고도 단지 명령을 수행해서 내부 메모리(2206)에 데이터를 로드를 할 수 있게 한다.

먼저 초기 로드가 수행된다.(s2802) 초기 로드는 후술하는 바와 같이 초기 로드 제어 신호에 의해 기동되며, 시스템의 초기화 단계에서 수행된다.

초기 로드가 지정되면 1번 메모리 블록에 데이터를 로드한다. 즉, 주메모리로부터 한 블록만큼의 데이터가 독출되고, 이것이 내부 메모리(2206)의 1번 메모리 블록에 로드된다.(s2804)

로드된 블록 메모리의 다음 블록 메모리를 쓰기 블록으로 설정한다.(s2806)

소프트웨어 제어 모드로 설정한다.(s2808) 소프트웨어 제어 모드로 설정되면 쓰기용 메모리 블록 번지 저장 레지스터(2612)의 설정 내용에 관계없이 모든 블록에 대하여 쓰기 가능하게 되고, 블록별 쓰기 가능 모드는 전적으로 소프트웨어에 의해 관리된다. 또한, 불일치 검출에 의하지 않고도 단지 명령을 수행해서 내부 메모리(2206)에 데이터를 로드를 할 수 있게 된다.

로드 명령인지를 판단한다.(s2810)

소프트웨어 제어 모드인지를 판단한다.(s2812)

로드를 수행한다.(s2814) 즉, 외부 메모리로부터 내부 메모리(2206)로 데이터를 로드한다.

쓰기 블록을 다음 블록으로 설정한다.(s2816) 여기서는 로드가 수행된 블록의 다음 블록으로 설정하고 있지만 이는 소프트웨어에 의해 결정되는 것이므로 반드시 다음 블록이 될 필요는 없다.

하드웨어 제어 모드와 소프트웨어 제어 모드의 여부는 제어 모드 레지스터(608)에 의해 결정된다. 제어모드 레지스터(2608)가 소프트웨어 제어 모드를 나타내게 되면 쓰기용 메모리 블록 번지 저장 레지스터(2612)에 저장된 정보는 무시되고 별도의 프로그램에 의해 교환될 블록이 결정된다.

교환될 블록은 외부제어기의 명령 혹은 제어 신호에 의해 결정된다. 여기서,외부 제어기란 통상 중앙처리장치를 지칭하지만 반드시 그것에 한정되는 것은 아니다. 명령은 마이크로 프로세서 레벨의 명령 즉, op코드를 지칭한다.

먼저, 외부 제어기의 명령에 의한 블록 교환 동작을 설명한다.

도 29는 블록 교환 동작을 위한 명령어의 예를 도시한다. 첫번째 예(도 29의 상측에 도시된 것)에 의하면 명령어는 블록 교환 동작을 지정하는 오퍼랜드(operand)과 목적지(destination) 그리고 소오스(source)를 포함한다. 여기서, 소오스는 외부 메모리를 나타내고, 목적지는 내부 메모리를 나타낸다.

즉, 첫번째 예에 의하면 외부 메모리와 내부 메모리 사이에서 블록 메모리의 저장 용량에 해당하는 만큼의 데이터를 교환하게 된다. 교환은 내부 메모리의 저장 내용을 외부 메모리에 로드시키는 것이 될 수도 있고, 반대로 외부 메모리의 저장 내용을 내부 메모리에 로드시키는 것이 될 수 있다.

두번째 예(도 9의 하측에 도시된 것)에 의하면 명령어는 블록 교환 동작을 지정하는 뉴모닉(neumonic), 목적지(destination), 소오스(source), 그리고 블록 갯수를 포함한다.

즉, 첫번째 예에 의하면 외부 메모리와 내부 메모리 사이에서 지시된 갯수 만큼의 블록 메모리들의 저장 용량에 해당하는 만큼의 데이터를 교환하게 된다.

다음으로, 제어 신호에 의한 블록 교환 동작을 설명한다. 여기서, 제어 신호란 캐쉬를 제어하는 내부 제어기에서 발생되는 신호를 지칭한다. 후술하는 바에 의해 명확해지는 바와 같이 캐쉬를 구현하는 모듈은 명령어를 디코딩하여 도 21에 도시된 캐쉬를 제어하는 내부 제어기(2212)를 구비한다. 이러한 내부 제어기에 의해캐쉬를 구현하는 모듈은 독자적으로 캐쉬를 제어할 수 있게 된다.

도 26에 도시된 장치에 있어서 초기 로드 신호는 리셋 신호의 역할을 수행한다. 초기 로드 신호는 시스템의 가동 초기 단계에서 발생된다. 초기 로드 신호가 발생되면 메모리 로드 제어기(2602)는 모든 설정을 초기화하고, 주메모리에서 약속된 데이터들을 읽어들여 내부 메모리(2206)에 로드하게 된다. 초기 로드의 대상이 되는 데이터는 PCB(Process Control Block)와 같이 사용도 및 우선도가 가장 큰 것이 될 수 있다.

도 26의 메모리 블록 쓰기 모드 레지스터(2610)는 각 메모리 블록의 쓰기 가능/쓰기 불가능을 설정하기 위하여 제공된다. 메모리 블록의 쓰기 모드 레지스터(610)에 저장된 정보는 하드웨어적인 제어 모드 및 소프트웨어적인 제어 모드에서 모두 참조된다. 만일 메모리 블록의 쓰기 모드 레지스터(610)에 저장된 정보에 의해 어떤 메모리 블록이 쓰기 금지로 설정된다면 해당 메모리 블록으로부터 데이터를 독출할 수는 있지만 기록하는 것을 블가능하게 된다.

따라서, 쓰기 금지로 설정된 메모리 블록은 블록 교환 동작시 제외되게 된다.

예를 들면 초기 로드 동작에 있어서, 주메모리로부터 약속된 1블록만킁의 데이터가 내부 메모리(206)의 첫번째 블록에 로드되고, 이 첫번째 블록은 쓰기 금지로 설정될 수 있다.

도 30는 도 22에 도시된 버스 I/F의 구성예들을 도시한다. 도 30에 도시된 바와 같이 메모리 블록의 출력을 멀티플렉서나 3스테이트 버퍼를 이용해서 버스에연결해주고, 버스 I/F의 내부에는 래치나 버스 홀더를 둘 수 있다.

여기서, 버스 홀더는 버스가 플로팅(floating state)로 되는 것을 방지하기 위한 것으로서 도 30에 도시된 바와 같이 통상적인 버퍼를 이용하여 구성되게 된다. 버스 홀더는 두개의 인버터가 재귀적으로 연결된 구조를 가지며 버스 홀더에 인가된 신호는 인버터1 및 인버터2에 의해 동일한 상태를 유지하게 된다. 이러한 버스홀더에 의해 버스가 플로팅 상태로 되는 것이 방지된다.

버스가 플로팅 상태가 된다는 것은 신호 레벨이 결정되지 않는 것을 의미한다. 버스에는 모오스 트랜지스터로 구성되는 게이트등이 연결될 수 있으며, 모오스 트랜지스터의 경우 0과 1사이의 천이 영역에서 전류 소모가 매우 크다. 플로팅 상태가 되면 신호 레벨이 천이 영역에 설정되게 되므로 모오스 트랜지스터를 통하여 커다란 전력 소모가 유발되게 된다.

도 4에 도시된 PMIF(422)은 도 1에 도시된 본 발명의 캐쉬를 포함한다.

즉, PMIF(422)는 제어용 명령 버스(OPcode bus0, 1)를 통해 명령을 받아 디코딩하여 도 22에 도시된 바와 같은 본 발명의 캐쉬를 제어하여 캐쉬 동작을 수행하도록 한다. 한편, 데이터들은 2개의 읽기 버스(442, 444)들을 통하여 제공되거나 1개의 쓰기 버스(446)를 통하여 출력된다. PMIF(422)의 제어부(미도시)가 수신된 제어 명령을 디코딩하여 도 2에 도시된 바와 같은 캐쉬를 제어하여 블록 교환 동작을 수행한다.

도 31는 종래의 캐쉬의 일예를 보이는 것으로서 일본 공개 특허 평10-214228에 개시된 것이다.

도 31에 도시된 장치는 시스템의 주메모리 영역을 캐쉬가 사용할 수 있는 지의 여부를 유저가 설정할 수 있게 하는 것이며, 그 설정은 소프트웨어적 혹은 하드웨어적으로 수행될 수 있다. 구체적으로 중앙 처리 장치의 캐쉬 인에이블 입력 단자에 캐쉬 인에이블 신호와 메모리 영역별로 나운 캐쉬 가능 정보를 가진 페이지 테이블의 양쪽이 모두 캐쉬 가능할 때만 캐쉬가 동작하도록 구성하고 있다.

그러나, 본 발명은 캐쉬의 내부 메모리 블록의 갱신에 있어서 쓰기용 메모리 블록 번지 저장 레지스터를 이용하여 갱신될 블록을 하드웨어적 혹은 소프트웨어적으로 선택할 수 있도록 하는 것으로서 도 14에 도시된 장치와는 다르다.

도 32는 종래의 캐쉬의 다른 예를 도시하는 것으로서 일본 공개 특허 소60-183652호에 개시된 것이다. 도 32에 도시된 장치는 주메모리의 데이터를 블록 단위로 기억하는 수단과 주메모리상의 어드레스를 기억하는 수단을 이용하여 디렉토리(태그 tag)라 불리우는 블록 단위의 갱신 제어 플래그를 두어 소프트웨어에 의해 제어함으로서 블록 단위의 갱신 가/불가를 제어한다.

그러나 본 발명은 갱신 시에 사용되는 메모리 블록의 선택 포인터 즉, 쓰기용 메모리 블록 번지 저장 레지스터를 하드웨어적 혹은 소프트웨어적으로 제어함에 의해 블록 단위로 갱신할 수 있도록 하는 것으로서 도 15에 도시된 장치와는 다르다.

도 33은 종래의 캐쉬의 또 다른 예를 도시하는 것으로서 일본 공개 특허 평6-67976호에 개시된 것이다. 도 33에 도시된 장치는 주메모리상에 있는 마이크로 프로그램에 의해 명령어 캐쉬의 성능을 향상시킨다.

구체적으로 블록 로드 횟수, 갱신 억제 정보, 블록 로드 억제 정보를 고위, 중위, 하위로 중요도가 다른 3종류의 마이크로 프로그램 명령어를 이용하여 하드위에 제어 소프트웨어의 실행전, 실행중, 실행후별로 제어하도록 구성하고 있다.

그러나, 본 발명의 캐쉬 장치는 도 15에 도시된 장치와 비교할 때 하드웨어/소프트웨어 양측면에서 메모리 블록의 갱신 가/불가를 지원할 수 있고, 명령의 우선 순위나 변경 방법이 비교적 간단히 실현될 수 있다.

도 34는 종래의 캐쉬의 또 다른 예를 도시하는 것으로서 일본 공개 특허 소63-86048호에 개시된 것이다. 도 34에 도시된 장치는 동적으로 할당할 데이터와 정적으로 할당할 데이터를 캐쉬의 영역별로 나누어 캐쉬의 히트율을 향상시킨다.

구체적으로 자우 갱신이 필요한 동적인 데이터는 제1영역에 두고, 내부를 수 워드(word)단위로 하드웨어적으로 갱신하게 하고, 정적인 데이터는 제2영역에 두어, 내부를 수천 워드 단위로 소프트웨어적으로 갱신하게 한다.

그러나, 본 발명의 장치는 어느 블록에서나 정적, 동적으로 설정하는 것이 가능하여 시스템의 구성이 유연하다.

이와 같이 본 발명에 따른 캐쉬는 실시간 처리 시스템에 있어서 인터럽트 반응 시간을 최소화한다. 또한 하드웨어적인 제어 뿐만 아니라 소프트웨어적인 제어 방법을 제어하여 다양한 캐쉬 방법을 구현할 수 있게 한다.

또한, 캐쉬를 종래의 장치가 약 10,000개의 게이트로 구성되는 것에 비해 약 2,500개의 게이트로 구현할 수 있어서 VLSI에 적합하므로, 생산성 및 가격 절감의 효과를 기대할 수 있다.

본 발명에 따른 음성 인식 장치는 음성 인식에 있어서 시스템 점유율이 높은 연산들을 자체적으로 처리하는 전용의 연산 장치들을 구비하여 음성 인식을 위한 연산 속도롤 대폭적으로 향상시키는 효과를 가진다.

또한, 본 발명은 기능의 변경이 용이한 소프트웨어 방식에 적합하면서도 상대적으로 처리속도가 빠르다는 효과를 가진다.

본 발명에 따른 음성 인식 장치는 2Read 1Write방식을 지원하여 범용의 프로세서에 적합하다는 효과를 가진다.

본 발명에 따른 음성 인식 장치는 System On Chip 방식에 의해 제작되어, 원칩화에 따른 시스템 성능 향상 및 보드 크기 축소 등으로 제조 비용의 절감이 가능하다는 효과를 가진다.

또한, 본 발명의 음성 인식 장치를 구성하는 전용의 연산 장치들은 모듈화되어 있고, 각 연산 장치들은 명령어 버스를 통하여 명령어를 수신하며, 자체에 구비된 디코더가 명령어를 해독하여 지시된 동작을 수행하므로 시스템 점유율을 최소화 할 수 있게 하여 낮은 속도의 클럭으로도 충분히 음성 인식 처리를 수행할 수 있다는 장점이 있다.

Claims

입력되는 음성 신호에서 유효 음성 구간을 추출하고, 유효 음성 구간에서 음성 인식을 위한 특징값들을 추출하고, 이들을 미리 저장된 단어의 특징값들과 비교하며, 가장 큰 확률을 보이는 단어를 음성 인식의 결과로서 출력하는 음성 인식 장치에 있어서,

마이크로부터 입력되는 음성 신호를 샘플링하고, 샘플 데이터들을 소정의 시간 단위로 블록화하여 출력하는 CODEC 모듈;

상기 CODEC모듈에서 출력되는 데이터 블록들 중에서 유효 음성 구간에 속한 것들을 버퍼링하는 레지스터 파일 모듈;

상기 레지스터 파일 모듈에서 제공되는 데이터 블록들을 주파수 영역으로 변환하거나 그것의 역동작을 수행하고, 그 결과를 상기 레지스터 파일 모듈에 저장하는 FFT(Fast Fourier Transform) 모듈;

FFT 변환에 의해 얻어진 주파수 스펙트럼에 근거하여 추출된 특징값들과 미리 선정된 각 단어 음절의 특징값들을 비교하여 관측 확률을 산출하는 관측 확률 연산 모듈;

상기 CODEC모듈에서 출력되는 데이터 블록들 중에서 유효 음성 구간에 속한 것들을 추출하며 상기 레지스터 파일에 저장하고, 상기 레지스터 파일에 저장된 주파수 스펙트럼으로부터 히든 마코프 모델을 위한 특징값을 산출하며, 상기 관측 확률 연산 모듈에서 연산된 음절별 관측 확률을 이용하여 단어 인식을 수행하는 음성 인식 프로그램을 저장하는 프로그램 메모리; 및

상기 프로그램 메모리에 저장된 음성 인식 프로그램에 의해 상기 구성 모듈들의 동작을 제어하여 음성 인식을 수행하는 프로세서를 포함하는 음성 인식 장치.
제1항에 있어서,

2개의 Read 버스;

1개의 Write 버스; 및

상기 부재들에 명령을 전달하기 위한 명령어 버스를 더 구비하고,

상기 버스들은 각 부재들에 의해 공유되는 것을 특징으로 하는 음성 인식 장치.
제2항에 있어서,

상기 FFT 모듈, 관측 확률 연산 모듈들은 상기 명령어 버스를 통하여 제공되는 명령어를 해석하여 지정된 조작을 수행하도록 제어하는 제어기를 각각 구비하는 것을 특징으로 하는 음성 인식 장치.
제1항에 있어서,

상기 프로세서가 다음에 요구할 것으로 예상되는 일련의 명령들을 상기 프로그램 메모리로부터 먼저 읽어들여 저장하여 상기 프로세서에 제공하는 캐쉬 모듈을 더 구비하는 것을 특징으로 하는 음성 인식 장치.
제4항에 있어서, 상기 캐쉬 장치에 저장되는 명령은 인터럽트 벡터 및 인터럽트 서비스 루틴인 것을 특징으로 하는 음성 인식 장치.
제4항에 있어서, 상기 캐쉬는 음성 인식 장치의 초기화 동작에 있어서 프로그램 메모리의 소정 영역의 명령어들을 로드하도록 초기화되는 것을 특징으로 하는 음성 인식 장치.
제4항에 있어서, 상기 프로그램 메모리에는 상기 캐쉬 장치를 제어하는 프로그램이 로드되고,

상기 캐쉬 장치는 상기 캐쉬 제어용 프로그램에 의해 그것의 블록 교환 동작이 제어되는 것을 특징으로 하는 음성 인식 장치.
제1항에 있어서,

외부 메모리에서 제공되는 프로그램 및 데이터를 인터페이스하는 메모리 인터페이스 모듈을 더 더 구비하는 것을 특징으로 하는 음성 인식 장치.
제2항에 있어서,

상기 부재들이 외부 메모리에 액세스하고자 하는 요구를 받아 우선 순위 분석을 하고 이들을 외부 메모리에 연결시켜주는 외부 메모리 인터페이스 모듈을 더 구비하는 것을 특징으로 하는 음성 인식 장치.
제1항에 있어서,

상기 관측 확률 연산 모듈과 연계하여 동작하며, 관측 확률 연산을 위한 반복적 곱셈 및 누산 연산을 수행하는 MAC(Multiply and ACcummulate) 모듈을 더 구비하는 것을 특징으로 하는 음성 인식 장치.
제1항에 있어서,

상기 부재들에 제공되는 클럭 신호를 발생하는 클럭 발생기를 더 구비하며,

상기 클럭 발생기는 저전력 소모를 위하여 클럭 속도를 조정하는 것을 특징으로 하는 음성 인식 장치.