KR100202424B1

KR100202424B1 - 실시간 음성인식방법

Info

Publication number: KR100202424B1
Application number: KR1019950047885A
Authority: KR
Inventors: 정호선; 조영탁
Original assignee: 정호선
Priority date: 1995-12-08
Filing date: 1995-12-08
Publication date: 1999-06-15
Anticipated expiration: 2015-12-08
Also published as: KR970050112A

Abstract

본 발명은 음성인식방법에 관한 것으로, 다수의 샘플 음성신호로부터 구해진 신호차이를 저장하는 신호차이누적과정; 저장된 신호차이의 최대값으로 된 일련의 열을 계산하고, 상기 열로부터 음성을 음절로 분리하고 자음과 모음을 구별하는 세그먼트화과정; 세그먼트화과정에서 분리된 자음과 모음에 의하여 음성신호를 시간영역에서 정규화하여 음성특징을 추출하는 정규화과정; 및 실수형 신경회로망에서와 같은 학습상수 및 활성함수를 가진 정수형 입력구동 다층 퍼셉트론 신경회로망에 상기 추출된 특징을 적용하여 특징으로부터 음성을 분류하는 과정을 포함함을 특징으로 한다.

본 발명에 의하면, 음성인식처리에 있어서 저가형, 소형이면서도 실시간 처리가 가능하며 높은 인식율을 가지는 시스템을 구현할 수 있다.

Description

실시간 음성인식방법

제1도는 본 발명에의한 음성인식장난감의 하드웨어적인 구성을 도시한 구성블럭도.

제2도는 제1도에 도시된 음성인식장치의 상세 구성블럭도.

제3도는 본 발명에 의한 음성인식 알고리즘을 설명하기 위한 블록도.

제4도는 신호차이누적법(SDAM)의 개념을 설명하기 위한 도면.

제5도는 음성신호로부터 특징을 추출하는 전처리과정을 설명하기 위한 도면.

제6도는 전처리과정을 거친 정규화된 출력을 도시한 도면.

제7도는 정수형 IDMLP 신경회로망의 활성함수를 도시한 도면.

제8도는 신호차이의 프레임 최대값의 열을 나타낸 도면.

본 발명은 신경회로망을 이용한 음성인식방법에 관한 것으로, 특히 정수형의 빠른 전처리 알고리즘과 빠른 정수형 신경회로망을 사용한 음성인식방법에 관한 것이다.

음성인식기술은 인간의 생활을 더욱 편리하게 할 수 있으며, 음성은 곧 컴퓨터의 가장 편리하고 빠른 입력방법이 될 것이다. 그러나 DTW, HMM, 및 주파수분석 알고림즘을 이용한 종래의 음성인식시스템에서는 그 알고림즘에서 많은 연산과 부동소숫점 계산을 필요로 하기 때문에 워크스테이션이나 DSP시스템과 같은 빠르고 값비싼 컴퓨터시스템이 요구되었다. 최근에 Z80 CPU를 이용한 소형 시스템이 시도되고 있으나, 그 시스템에 사용되는 필터뱅크칩(filter bank chip)이 다소 비싸고, 또한 그 시스템은 다소 비효율적인 알고리즘으로 되어 있어 인식결과가 좋지 못하였다.

일반적인 음성인식시스템은 사람의 조음기관에 의하여 발생된 공기의 압력변화를 전기신호로 바꾸어주는 변환기(transducer), 여기에서 생성된 전기신호로부터 분류에 필요한 여러 가지 특징을 추출해내는 전처리과정, 이러한 특징으로부터 음성을 분류하는 분류과정(classification)으로 나누어진다.

사람의 조음기관에서의 압축된 공기로 성대를 울리거나 또는 압축된 공기를 좁은 통로를 통과시켜 생기는 교란을 이용하여 음성원(speech source)을 만들게 된다. 이러한 울림 또는 교란이 구강의 형태, 혀의 위치, 비공 등을 통과하며 변형이 되어 주변공기의 압력을 변화시키게 되는데 이것이 바로 음성이다.

다음 단계에서는 이러한 공기의 압력 변화를 변환기를 이용하여 전기적인 신호로 바꾸게 된다. 이러한 과정에서 주의해야 할 점은 공기의 압력 변화에 담겨있는 정보 중 일부가 손실되지 않도록 해야한다는 점이다. 이러한 정보의 손실은 변환기의 대역폭이 20-20,000Hz이므로 정보량을 잃지 않으려면 대역폭이 20KHz 이상인 변환기가 필요하다.

변환기를 통하여 생성된 전기적인 신호를 그대로 음성을 구분하는 분류기의 입력으로 넣는다는 것은 실제적으로 불가능하다. 왜냐하면 같은 사람이 같은 단어를 발음한다 하더라도 그 전기적인 파형이 같지 않기 때문이다. 이는 그 파형에 담겨진 정부가 그 파형의 시간적 높낮이에 있지 않다는 것을 의미한다. 따라서 음성이 내포하는 정보를 그대로 유지하면서 인식에 잘 응용될 수 있는 특징들을 음성으로부터 추출해야 하는데 이러한 과정을 전처리과정이라 한다.

전기적신호로 변환된 음성을 디지털값으로 나타내는 파형부호화방법과 신호의 특성을 파라미터로 나타내는 파라미터적 표현방법의 두가지가 있다. 전자의 예로는 전화전송에 많이 사용되는 PCM방식, 음성의 디지털저장에 사용되는 ADPCM 등을 비롯하여 DM, ADM, DPCM 등이 있으나 음성인식에 사용되는 경우는 매우 드물다. 이에 반하여 후자의 경우는 음성신호로부터 에너지, 피치 주기, 영교차율, 필터뱅크출력, 포먼트, LPC계수 등의 파라미터를 추출하는 것으로 음성인식에 주로 사용된다. 여기서 가장 많이 이용되는 방법은 필터뱅크 출력을 이용한 캡스트럼 출력이다.

다음 단계로는 이러한 전처리 과정의 출력을 바탕으로 음소/음절을 가려내는 인식과정을 거치게 된다. 즉, 분류화과정은 전처리과정에서 추출된 여러 특징들을 입력으로하여 그 음소가 어떤 것인지를 알아내는 과정이다.

이러한 분류과정은 크게 나누어 알고리즘적 접근방법과 신경회로망을 응용한 방법으로 나눌 수 있는데, 전자의 경우는 포먼트를 이용한 분류방법, DTW(Dynamic Time Warping)방법, HMM(Hidden Markovmodel)을 이용한 방법등이 있으며, 후자의 경우는 TDNN(Time Delay Neural Network), INN(Intergrated Neural Network), TRACE model, SOFM 등이 있다.

기존의 알고리즘적 접근방법은 음성인식시스템에서 가장 많이 사용하는 기법이다. 그러나 이러한 방법들의 가장 큰 취약점은 음성에 대하여 하나의 모델 혹은 가정을 세우고, 이를 기반으로 분류방법을 도출하였다는 점이다. 만약 이러한 가정이 잘 맞는 경우에는 그 인식율이 높지만, 실제 음성들이 이러한 기정을 잘 만족하지 않는 경우에는 그 인식율이 많이 떨어지게 된다.

이러한 문제점을 해결할 수 있는 하나의 방법이 신경회로망을 이용한 방법이다. 여기에서는 많은 음성샘플로부터 인식하는 방법을 학습을 통하여 스스로 배우게 한 뒤, 그 학습 결과를 바탕으로 시험음성샘플을 분류하게 한다. 즉 음성에 대한 특정한 모델을 설정하지 않고 그 안에 숨은 규칙을 신경회로망으로 하여금 찾아내게 하는 방법이다. 그러나 이 방법은 아직 하드웨어 구현의 어려움이 가장 큰 문제점으로 남아 있다. 음성인식에 있어서의 신경회로망의 개요는 다음과 같다. 여러 그룹으로 구분해야 할 데이터들이 섞여 있는 상태에서 각 그룹별로 데이터를 구분하는 일은 음성인식, 문자인식, 화상인식 등의 분야에서 흔히 요구되는 일이다. 이러한 분류룰 기존의 규칙기반방법으로 수행하기 위해서는 우선 그 분류대상에 대한 충분한 지식을 가진 전문가가 분류해야 할 그룹별로 그 특징을 추출한다. 그런 뒤 이 규칙을 기반으로 알고리즘을 만들고 이를 프로그램함으로써 기존의 Von-Neumann형 컴퓨터의 힘을 빌어 분류를 수행하게 된다. 그런데 분류해야 할 대상 및 그룹의 수가 커질수록 하나의 데이터를 분류하는 시간이 점점 더 길어지게 된다. 따라서 실시간 처리를 요구하는 상황에서는 분류대상의 수를 제한하는 것이 보통이다.

길고 신경회로망은 학습을 통하여 대상이 가지고 있는 규칙을 스스로 찾아내도록 할 수 있다. 아울러 신경회로망이 갖는 특징 중의 하나는 이러한 학습의 결과를 이용하여 주어진 데이터를 분류하는데 걸리는 시간이 매우 짧다는 점이다. 이러한 빠른 속도는 신경회로망의 구조가 고도의 병렬성을 갖기 때문이다.

신경회로망의 여려 모델에서는 은닉층이라 불리는 외부와는 직접 접촉하지 않는 단위층으로 쓰인다. 이 층의 기능에는 입력데이타와 출력의 관계에 걸친 규칙성의 추출이라는 측면을 가지고 있다. 따라서 활성화 패턴이라든가 유니트 간의 결합가증치를 살피면 외계에 관한 지식의 내부표현에 관한 실마리가 풀릴 가능성이 있다.

신경회로망에 의한 음성인식이 앞으로 크게 기대되는 이유는, 첫째로 연속음성 인식을 위해서는 실시간 내에 입력들을 50,000 단어정도의 표본패턴(examplar pattern)들에 매치시키고 음성(phonemic)이나 구문(syntactic) 등의 분석을 할 수 있는 아주 빠른 계산속도가 필요한데 이 문제는 단지 신경회로망만이 해결할 수 있고, 둘째로 음성신호들이 관측하는대로 새로운 특징을 포착하기 위한 회로망 구조를 변화시키는 self-organization을 구현할 수 있는 알고리즘과 시간에 따라 변화하는 내부 파라미터들에 적응할 수 있는 알고리즘이 또한 신경회로망으로 가능하기 때문이다.

종래의 음성특징 추출과정에서는 주파수 분석방법이 널리 사용되고 있다. 시간영역에서 주파수영역으로 변화하기 위하여, 부동소숫점 계산을 하는 고속퓨리에변환(FFT)을 적용해야 하나, 이것은 마이크로프로세서에서 동작하는데 긴 시간이 소요된다. 예를 들어, 8097BH 시스템에서 12MHz클럭에 의해 256 포인트 FFT계산을 위해서 약 2초가 필요하다.

즉, 종래의 음성인식장치는 전처리 알고리즘의 비효율성으로 인하여 많은 계산과정과 실수형 연산을 필요로 하며, DSP칩을 사용하거나 워크스테이션급 시스템 또는 486PC 이상의 값비싸고 규모가 크며 속도가 빠른 시스템의 사용이 요구되었다. 또한 속도가 빠른 시스템을 사용하더라도 음성을 인식하는데 어느 정도의 시간이 걸려 실시간 인식이 어려우며, 신경회로망 학습시에도 학습시간이 오래 걸리는 문제점이 있었다.

따라서, 본 발명의 목적은 정수형의 빠른 전처리 알고리즘과 빠른 정수형 신경화로망을 사용하여 인식속도면에서 월등하고 인식율도 향상된 음성인식방법을 제공하는데 있다.

상기 목적을 달성하기 위한 본 발명에 의한 음성인식방법은,

음성신호로부터 특징을 추출하고, 추출된 특징으로부터 음성을 분류하여 음성인식에 적용하기 위한 음성인식방법에 있어서, 다수의 샘플음성신호로부터 구해진 신호차이를 저장하는 신호차이누적과정; 상기 저장된 신호차이의 최대값으로 된 일련의 열을 계산하고, 상기 열로부터 음성을 음절로 분리하고 자음과 모음을 구별하는 세그먼트화과정; 상기 세그먼트화과정에서 분리된 자음과 모음에 의하여 음성신호를 시간영역에서 정규화하여 음성특징을 추출하는 정규화과정; 및 실수형 신경회로망에서와 같은 학습상수 및 활성함수를 가진 정수형 입력구동 다층 퍼셉트론 신경회로망에 상기 추출된 특징을 적용하여 특징으로부터 음성을 분류하는 과정을 포함함을 특징으로 한다.

이하, 첨부한 도면을 참조하여, 본 발명을 더욱 자세하게 설명하고자 한다.

본 발명은 FFT에 유사한 빠른 알고리즘으로 8097시스템에서 동작할 수 있는 시스템에 관한 것이며, 또한 정수계산에 의하여 동작되는 신호차이누적 히스토그램방법(signal difference accumulation histogram method)을 제안한다. 따라서 본 발명은 약간의 계산만이 요구되어 매우 빠르면서도 필터뱅크 출력과 유사한 출력을 발생한다. 음성특징 추출의 다음 과정은 DTW, HMM, 또는 신경회로망을 적용하는 것이다. 이러한 방법으로 특징을 신경회로망에 적용하는 것은 음성인식에서 가장 빠른 방법이 된다.

제3도는 본 발명에 의한 음성인식방법을 설명하기 위한 블록도로서, 음성인식 알고리즘은 입력된 음성에 대하여 특징을 추출하는 전처리부분(31)과 추출된 특징이 적용되어 인식결과를 출력하는 신경회로망부분(33)으로 크게 양분할 수 있다.

전처리부분(31)은 본 발명에 의한 신호차이누적 히스토그램(Signal Difference Accumulation histgram method: SDAM)부분, 구간검출(segmentation)부분, 및 입력음성으로부터 추출된 특징을 정규화하는 부분으로 구성된다.

신경회로망부분(33)에서는 추출된 특징이 입력 구동 다층 퍼셉트론(Input Driven Multilayer Perceptron: IDMLP) 신경회로망으로 인가된다. 신경회로망부분에서 신경회로망의 가증치는 8097BH 프로세서보다 빠른 개인용 컴퓨터를 이용하여 계산된다.

제5도는 음성신호로부터 특징을 추출하기 위한 부분으로, 음성인식에서 가장 중요한 부분이라 할 수 있다. 종래의 기술에 의한 전처리방법을 살펴보면 FFT에 의한 주파수해석, LPC cepstrum 계수, DTW 등을 이용한 여러 가지 방법이 있으나, 이들 모두가 상당한 계산을 필요로 한다는 단점을 가지고 있다. 이 중에서도 FFT에 위한 주파수해석을 신경회로망에 적용하는 것이 종래 사용되는 방법 중에서도 대체로 빠른 방법이라 할 수 있다. 그러나 FFT를 소형의 마이크로시스템에 사용하는 경우 너무 많은 계산시간이 소요되므로 적당하지 않다. 따라서 본 발명에서는 빠른 정수형 연산을 거쳐 주파수 필터뱅크에 해당하는 출력을 발생할 수 있는 알고리즘을 개시한다.

본 발명에 의한 전처리과정은 다음과 같다. 10KHz 샘플을(sampling rate)로 8비트의 디지털화된 음성신호에 대하여, 빠르게 처리될 수 있는 정수계산에 위해 빠른 특징추출을 위하여 신호차이누적법(SDAN)을 사용한다(51). 일련의 차이누적 프레임의 최대값으로부터 음성을 음절로 분리하고, 자음과 모음을 구별한다(53). 마지막으로, 세스먼트화과정에 의거한 정규화된 데이터로부터 신경회로망에 인가할 완성된 16채널, 15프레임의 특징이 생성된다(55).

제4도는 제5도에 도시된 신호차이 누적법(SDAM)에 대하여 자세히 설명한다.

SDAM은 FFT에서와 같이 256포인트, 30프레임에 대하여 계산된다. 먼저, 시작 포인트의 샘플부터 256번째 샘플까지 256크기의 프레임을 선택하고, 8비트의 디지털화된 음성신호의 열 S(n)으로부터 S(n)과 S(n+)사이의 차이를 계산하며, 여기서 는 특징의 효율을 결정하는 스텝상수(step constance)이다. 다음과정은 그 차이를 16개의 멜스케일 저장장치(16's mel-scaled stirages)에 저장하는 것이다. 예를 들어, 만일 차이 S(7)-S(9)가 23이고, 제2저장장치가 10부터 25까지로 멜스케일되어 있다면, 그 차이값을 제2저장장치에 저장한다. 다음 과정으로, 16개의 맬스케일 저장장치에 누적된 데이터의 수를 카운트하고, 그러면 각 프레임에 대하여 16개의 정수값을 얻는다. 쉬프트상수(shifting constant)에 의해 쉬프트된 프레임으로부터 제1프레임에서와 같은 과정으로 나머지 특징들을 추출한다.

제8도는 프레임에 대한 신호차이의 최대값의 열을 나타낸 도면으로, 도면을 참조하여 세그먼트화(segmentation) 과정을 설명한다. 30프레임의 데이터를 최소화하고 정규화하기 위하여, 신호차이의 최대값으로 된 일련의 M(n)을 계산하면, 30프레임에 대해 M(1)로부터 M(30)의 열을 얻는다. 제8도에 도시된 열로부터 음성을 음절로 분리하고 자음부와 모음부를 구별할 수 있다.

세그먼트화 과정에 의해 분리된　자음과 모음영역은 음성신호를 시간영역에서 정규화할 수 있으며, 제6도는 전처리과정을 거친 정규화된 출력을 도시한 도면이다. 시간영역의 정규화 과정에서 매우 중요한 것은 자음부와 모음부의 차이를 고려하는 것이다. 만일 단어의 발음이 길다면 모음부가 주로 길게 되며, 따라서 모음부를 시간영역에서 정규화해야 하지만, 시간영역에서 표준데이타에 비례하여 재스케일(rescale)할 필요는 없으며, 다만 자음부의 어떤 프레임을 지울 필요가 있다. 예를 들어, 두 단어의 음성인식에 있어서 제1단어에서 제1자음부의 3프레임, 모음부의 3프레임, 및 제2자음부의 3프레임을 선택하고, 제2단어에서도 제1자음부의 3프레임, 및 제2자음부의 3프레임을 선택하고, 제2단어에서도 제1자음부의 3프레임, 모음부의 3프레임, 및 제2자음부의 3프레임을 선택한다. 이것은 시간영역에서 정규화되고, 또한 크기정규화도 필요하다. 이는 크기측에서 표준데이타에 비례하여 재스케일함에 의해 수행된다.

이상의 내용을 기초로, 본 발명에 의한 전처리과정을 요약하면 다음과 같다.

먼저, 샘플링된 5000개의 음성데이타로부터 처음 256개를 한 프레임으로 잡은 다음 순차적으로 각각 샘플간의 차이를 모두 구하여 일정범위안에 속하는 데이터의 개수를 헤아린다. 즉 제4도에 도시된 바와 같이 차이값이 구해지면 그 차이값에 해당하는 16개의 통에 집어 넣는다. 한 프레임내의 모든 차이값의 계산이 끝나면 각 통에 들어있는 데이터의 개수를 세어 나열하는데, 이 결과가 바로 필터뱅크 출력에 해당한다. 위와 같은 방법으로 시간측에서 일정시간만큼 이동시킨 나머지 프레임들에 대하여 신호차이 누적법을 사용하여 나머지 필터뱅크출력들을 구하면 된다. 이 방법은 일정시간에서의 신호기울기가 주파수와 밀접한 관계를 가진다는 사실에 근거를 둔 것이다. 위에서 구해진 필터뱅크 출력은 구간검출을 통한 정규화를 거쳐 신경회로망 입력에 적합한 16채널 15프레임 데이터가 된다.

다음으로, 변형된 IDMLP를 사용한 분류화과정(Classification)을 설명한다.

변형된 정수 IDMLP 신경회로망의 입력노드로 인가되는 추출특징의 입력값은 0과 128 사이의 정수값을 가지며, 입력노드의 수는 16*15이며, 출력노드의 수는 15이다. 이러한 모델에서 모든 연산이 정수계산으로 수행되어 그 처리가 빠르다.

이 모델은 가증치(weight)를 계산하기 위한 다음의 식에서 부동소숫점 MLP(floating point MLP)에서와 같이 학습상수(lerning constant:)을 가지며, 또한 제7도(정수형 IDMLP 신경회로망의 활성함수)에 도시된 바와 같이 매우 빠르고 효율적인 활성함수(activation function)를 가진다.

학습과정에서 더 이상의 입력패턴과 노드에 대하여, 만일 활성함수의 오프셋이 변화되면 학습율은 향상될 것이다. 그래서 최적의 오프셋값을 추적하기 위한 알고리즘(offset tracking algorithm)을 제안한다.

초기 오프셋값으로 0을 선택한다.

전체 에러가 더 이상의 반복에 의해서도 감소되지 않을 때 그 반복회수를 카운트한다.

만일 그 회수가 미리 정의된 상수값보다 더 크면 정미가(netvalue)의 평균을 계산한다.

만일 그 평균이 양수이면 오프셋을 1포인트 증가시키고, 만일 그 평균이 음수이면 오프셋을 1포인트 감소시킨다.

새로운 오프셋값을 사용하여 가증치와 에러를 계산한다.

전체 에러가 원하는 값으로 될 때까지 부터의 과정을 반복한다.

본 발명에서 음성학습과 인식에 사용된 신경회로망은 0에서 128까지 정수형의 패턴을 입력으로 하고, 실수형 신경회로망을 흉내낸 활성함수를 가지며, 이 함수의 X축 쉬프트인수인 오프셋을 추적하는 알고리즘을 사용함으로써 빠르고 우수한 학습률을 가지면서도 실수형 신경회로망에 버금가는 인식률을 유지할 수 있다.

제1도는 본 발명에 의한 음성인식장난감의 하드웨어적인 구성을 도시한 구성블럭도이며, 제2도는 제1도에 도시된 음성인식장치의 상세 구성블럭도이다.

시스템 하드웨어는 마이크 입력부(11), 음성신호증폭기(12), 5KHz저역통과필터(Low Pass FilterL LPF)(13) 8097BH 마이크로프로세서(14), 32K바이트 EPROM(18), 32K바이트 SRAM(16) 7세그먼트 디스프레이장치(7-segment display device)(17), 및 음성합성부(15)로 구성된다.

8097BH는 8채널 10비트 해상도를 가진 아나로그-디지탈 변환기(A/D converter)를 구비하고 있으나, 본 실시예에서는 샘플데이타의 메모리공간을 줄이기 위하여 8비트 해상도로 한 채널의 아나로그-디지탈변환기만을 사용한다. 음성인식은 5KHz 저역통과필터를 거쳐 10KHz 10비트로 샘플링되며, 8비트 5000샘플을 가지고 인식을 신호처리를 한다.

본 발명에 의한 음성인식장치의 인식률은 다음과 같은 인식실험을 통하여 조사해 보았다. 인식대상음성으로는 다음의 음성샘플로부터 8비트 해상도로 5000 데이터의 10KHz 샘플링에 의해 처음 두 음절을 취한다.

이름이 뭐니?

업어 줄까?

안아 줄까?

맘마 먹을래?

놀러 갈까?

특징학습과정에서, 8097 장난감시스템에서 한 사람의 100 음성샘플로부터 음성특징을 추출하고, 240 입력노드와 5 출력노드를 가진 신경회로망에 모든 노드에 더 이상의 에러가 없을 때까지 특징을 학습하도록 하였다. 이러한 특징학습에 36초가 걸렸다.

압력노드 개수 : 240개

출력노드 개수 : 5

학습에 걸린 시간 : 1분 39초

최종 offset : 1100

장난감시스템의 EPROM에 학습과정에서의 출력가증치를 프로그램한후, 인식실험을 수행하였다. 상기의 인식대상 단어로 학습시킨 결과 그인식결과는 다음과 같이 나타났다.

1. 본인의 새로운 음성에 대하여 98%의 인식율을 가짐.

2. 같은 세대(20대)의 동료 남자 음성에 대하여 95%의 인식율을 가짐.

3. 30대의 남자 음성에 대하여 80%의 인식율을 가짐.

4. 인식은 실시간과 같이 거의 동시에 이루어짐.

상세한 바와 같은 본 발명에 의한 음성인식방법은 다음과 같은 산업분야에 응용될 수 있다.

1. 음성으로 채널을 변환하거나 볼륨을 조절하게 하는 텔레비젼.

2. 음성으로 끄고 켤 수 있게 하는 조명등.

3. 음성을 알아 듣고 그에 따라 반응하는 로봇.

4. 음성으로 제어되는 엘리베이터

5. 음성으로 와이퍼나 라디오의 동작을 제어하게 하는 자동차.

본 발명에 의한 음성인식 장난감은 빠른 A/D변환기를 내장한 INTEL 8097 16비트 원칩 마이크로프로세서를 사용하여 보드의 크기를 줄이고 비싼 필터뱅크 칩을 사용하는 대신에 정수형의 빠른 전처리 알고리즘과 빠른 정수형 신경회로망을 사용하여 인식속도면에서 월등하고 인식율도 향상된 저가형 시스템을 구성한다.

본 발명에 의하면, 음성인식처리에 있어서 저가형, 소형이면서도 실시간 처리가 가능하며 높은 인식률을 가지는 시스템을 구현할 수 있음으로써, 장난감과 같은 소형이면서 저가의 시스템에 적합하며, 음성인식의 실용화, 즉 음성인식 엘리베이터, 음성인식 장난감, 음성인식 텔레비젼, 음성인식 자동차 등과 같은 실생활에 직접 사용되는 분야에 적용할 수 있다.

Claims

음성신호로부터 특징을 추출하고, 추출된 특징으로부터 음성을 분류하여 음성인식에 적용하기 위한 음성인식방법에 있어서, 다수의 샘플 음성신호로부터 구해진 신호차이를 저장하는 신호차이누적과정; 상기 저장된 신호차이의 최대값으로 된 일련의 열을 계산하고, 상기 열로부터 음성을 음절로 분리하고 자음과 모음을 구별하는 세그먼트화 과정; 상기 세그먼트화과정에서 분리된 자음과 모음에 의하여 음성신호를 시간영역에서 정규화하여 음성특징을 추출하는 정규화과정; 및 실수형 신경회로망에서와 같은 학습상수 및 활성함수를 가진 정수형 입력구동 다층 퍼셉트론 신경회로망에 상기 추출된 특징을 적용하여 특징으로부터 음성을 분류하는 과정을 포함함을 특징으로 하는 음성인식방법.
제1항에 있어서, 상기 신호차이누적과정은 소정 개수의 샘플을 한 프레임으로 선택하고, 순차적으로 각각 샘플간의 차이를 구하는 과정; 상기 계산된 차이값을 대응하는 복수의 멜스케일 저장장치에 저장하는 과정; 및 상기 각 멜스케일 저장장치에 누적된 데이터의 수를 카운트하는 과정; 및 시간측에서 일정시간만큼 이동시키고 나머지 프레임에 대하여 상기 제1프레임에서와 같은 과정을 반복하는 과정을 포함함을 특징으로 하는 음성인식방법.
정수형 입력구동 다층 퍼셉트론 신경회로망의 활성함수에서 최적의 오프셋값을 설정하기 위한 방법에 있어서, 초기 오프셋값으로 0을 선택하는 제1과정; 전체 에러가 더 이상의 반복에 의해서도 감소되지 않을 때 그 반복회수를 카운트하는 제2과정; 만일 상기 카운트된 반복회수가 소정의 상수값보다 더 크면 정미가(net value)의 평균을 계산하는 제3과정; 만일 상기 계산된 평균값이 음수이면 오프셋을 1포인트 감소시키는 제3과정; 상기 과정에서 증가 또는 감소된 새로운 오프셋값을 사용하여 가증치와 에러를 계산하는 제4과정; 및 전체 에러가 소정의 원하는 값으로 될 때까지 상기 제2과정부터 반복하는 제5과정을 포함함을 특징으로 하는 오프셋값 설정방법.