KR100292919B1 - 뉴럴 네트워크를 이용한 음성인식장치 및 그 학습방법 - Google Patents

뉴럴 네트워크를 이용한 음성인식장치 및 그 학습방법 Download PDF

Info

Publication number
KR100292919B1
KR100292919B1 KR1019930703580A KR930703580A KR100292919B1 KR 100292919 B1 KR100292919 B1 KR 100292919B1 KR 1019930703580 A KR1019930703580 A KR 1019930703580A KR 930703580 A KR930703580 A KR 930703580A KR 100292919 B1 KR100292919 B1 KR 100292919B1
Authority
KR
South Korea
Prior art keywords
value
output
neural network
learning
internal state
Prior art date
Application number
KR1019930703580A
Other languages
English (en)
Inventor
이나즈미미치히로
Original Assignee
야스카와 히데아키
세이코 엡슨 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 야스카와 히데아키, 세이코 엡슨 가부시키가이샤 filed Critical 야스카와 히데아키
Application granted granted Critical
Publication of KR100292919B1 publication Critical patent/KR100292919B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

본 발명은 뉴럴네트워크를 이용한 음성인식장치에 관한 것으로써, 본 발명의 신경세포용소자는 내부상태값을 기억하는 내부상태값 기억수단과, 내부상태값을 다른 신경세포용소자의 출력, 자기자신의 출력, 외부에서 입력등에 기초하여 갱신하는 내부상태값 갱신수단과, 내부상태값을 외부출력으로 변환하는 출력값 생성수단을 가지며, 따라서 신경세포용소자 자신이 입력된 데이타의 과거의 이력을 유지할 수 있기 때문에 음성등의 시계열 데이타를 뉴럴네트워크에 특별한 구성을 설치하는 일없이 처리할 수 있는 것을 특징으로 한다.

Description

[발명의 명칭]
뉴럴(neural) 네트워크를 이용한 음성인식장치 및 그 학습방법
[발명의 상세한 설명]
[기술분야]
본 발명은 뉴럴네트워크를 이용한 음성인식장치 및 그 학습방법에 관한 것이다. 본 발명은 음성데이터등의 시계열데이터를 처리할 때, 종래와 같이 입력데이터의 처음단· 마지막단을 주거나 하는 것이 아니며, 또한 생각할 수 있는 모든 처음단·마지막단의 조합에 대해서 처리하는 것은 아니다. 본 발명은, 신경세포모양 소자(neuron-like element)자신이 입력된 데이터의 과거이력을 유지할 수 있는 구성으로 함으로써 음성등의 시계열데이터의 처리를 간단한 하드웨어 구성으로, 동시에 고정밀도로 행하는 것이 가능하도록 한 것이다.
또한 본 발명의 방법은 뉴럴네트워크에 그와 같은 처리를 행하게 하기 위한 뉴럴네트워크의 학습방법에 관한 것이다.
[배경기술]
종래부터 데이터인식수단, 특히 시계열데이타의 범주를 학습에 의해 인식하기 위해 실용적으로 이용되어 있는 수단으로는 다음과 같은 것이 있다. 다이나믹 프로그래밍(DP)법, 내장마르코프모델(Markov)(HMM)법, 백프로퍼게이션(back propagation) 학습법, 다층퍼셉트론(Multi-Layered Perceptron)형 뉴럴네트워크를 이용한 방법(MLP)법, 상세하게는 예를 들면 중천성일(中川聖一)저 「확률모델에 의한 음성인식」(전자정보통신학회), 중천(中川), 녹야(鹿野), 동창(東倉) 공저「음성·청각과 신경회로망모델」(오옴사)등에 기술되어 있다.
이 DP법, HMM법에 공통되는 문제는 교사가 되는 데이터 및 인식대상이 되는 입력데이터에 모두 처음단과 마지막단이 필요한 것이다. 외관상 처음단 및 마지막단에 의존하지 않는 처리를 하기 위한 수단의 하나로 입력데이터에서 가장 좋은 결과를 주는 처음단·마지막단을 시행착오적으로 발견하는 방법이 있다. 그러나 예를 들면 길이 N의 입력데이터중에서 어느 범주에 속하는 데이터의 부분을 검출하는 경우를 생각해 보면, 처음단의 가능성으로는 N개의 패턴이 있고, 또 마지막단의 가능성도 N개의 패턴이 있다. 즉 처음단·마지막단의 조합으로는 N2개의 패턴의 조합가능성을 생각할 수 있다. 따라서 이 수법을 이용하는 경우에는 이러한 상당히 많은 조합 전부에 대해서 인식처리를 행하지 않으면 안되고 그 처리에 방대한 시간이 걸리는 문제가 있었다.
또한 이 수법을 이용한 경우에는 조합의 수 N2라는 양적인 문제이전에 입력데이터의 처음단 및 마지막단을 가정하는 것 자체에 보다 본질적인 문제가 있다. 즉 입력 데이터에 어떤 범주의 데이터가 단 하나밖에 포함되지 않는 조건이면 그 처음단·마지막단은 분명하다. 그러나 입력데이터에 복수의 범주의 데이터가 연속해서 포함되는 경우에는 처음단·마지막단의 경계는 분명하지 않다. 특히 음성등의 시계열정보는 그런 경계가 명확하게 존재하지 않고 연속한 2가지 범주의 데이터가 중복하는 천이영역을 거쳐 한쪽에서 다른 쪽으로 변화한다. 따라서 데이터의 처음단·마지막단을 가정하는 것은 그 정확도에 있어서 매우 큰 문제가 있다.
종래 방법중 또 다른 한가지 방법인 MLP법의 경우는 이런 데이터의 처음단·마지막단을 가정할 필요는 없다. 그러나 그것에 대신해서 입력데이터 범위를 특정한다는 의미에서 새로운 처음단·마지막단의 문제가 일어난다.
즉 MLP법은 기본적으로는 정적인 데이터를 인식하기 위한 방법이다. 따라서 그것에 시계열데이터를 인식시키기 위해서는 어떤 시간범위 데이터를 1개 입력데이터로서 입력하고, 등가적으로 시간정보를 처리하지 않으면 안되는 문제가 있다. 이 시간범위는 MLP의 구성상 고정된 것이 아니면 안된다.
그러나 시계열데이터의 길이는 그 범주에 의해 또 동일범주중에 있어서도 크게 변동한다. 예를 들면 음성에 있어서의 음소를 예를 들면, 긴 음소인 모듬 등과 짧은 음소인 파열음의 평균길이는 10배이상 다르다. 또 동일음소라도 실제의 음성중에서의 길이는 2배이상 변동한다. 따라서 가령 데이터의 입력 범위를 평균적인 길이로 설정했다고 해도 짧은 음소를 인식하는 경우는 그 입력데이터중에 인식대상 이외의 데이터가 다수 포함되고, 또 긴 음소를 인식하는 경우는 그 입력데이터중에 인식대상의 데이터의 일부밖에 포함되지 않게 된다. 이것들은 모두 인식능력을 낮추는 원인이 된다. 또 음소마다 다른 입력길이를 설정해도 그 음소자신의 길이가 변동하기 때문에 마찬가지의 문제가 발생한다. 이와 같은 것은 시계열정보일반에 나타나는 것이다.
[발명의 개시]
종래의 DP법, HMM법은 취급하는 데이터의 처음단과 마지막단을 필요로 한다. MLP법은 학습시에 입력범위의 처음단과 마지막단을 필요로 한다. 그러나 시계열정보의 처음단·마지막단은 원리적으로 명확하게는 할 수 없고, 무리하게 처음단·마지막단을 가정하면 음성인식능력을 떨어뜨리게 된다. 외관상 이것을 완화하기 위해서는 모든 처음단·마지막단의 조합에 대해서 처리가 필요하게 되고, 이 결과 방대한 처리가 필요하게 된다.
이것에 대해서 본 발명의 뉴럴네트워크를 이용한 음성인식장치는,
1) 뉴럴네트워크를 구성하는 각 신경세포모양소자(neuron-like element)가 내부상태값 기억수단과, 상기 내부상태값 기억수단에 기억된 내부상태값과, 그 신경세포모양소자에 입력되는 입력값에 기초하여 상기 내부상태값 기억수단의 내부상태값을 갱신하는 내부상태값 갱신수단과, 상기 내부상태값 기억수단의 출력을 외부출력값으로 변환하는 출력값 생성수단을 갖도록 구성되어 있다.
2) 여기에 있어서 상기 내부상태값 갱신수단은 상기 입력값 및 상기 내부상태값에 가중치를 붙여 누계하는 가중치누계수단으로서 형성되고, 상기 내부상태값 기억수단은 상기 가중치누계수단(weighted accumulation means)에 의해 누계된 값을 적분하는 적분수단으로서 형성되고, 상기 출력값 생성수단은 상기 적분수단에 의해 얻어진 값을 이미 설정된 상한값과 하한값사이의 값으로 변환하는 출력값 제한수단으로서 형성할 수 있다.
3) 또한 상기 뉴럴네트워크를 구성하는 i번째의 상기 신경세포모양소자의 내부 상태값을 Xi로 하고, τi를 시정수로 하고, 상기 신경세포모양소자로의 상기 가중치입력값을 Zj(J는 0부터 n, n은 0 또는 자연수)로 하면 상기 내부상태값 갱신수단은
을 만족하는 값으로 내부상태값을 갱신하도록 형성할 수 있다.
4) 또한 상기 i번째의 신경세포모양소자로의 가중치입력값(Zj)이, 상기 i번째의 신경세포모양소자 자신의 출력에 가중치를 곱한 값을 포함하도록 할 수 있다.
5) 또한 상기 i번째의 신경세포모양소자로의 가중치 입력값(Zj)이 상기 뉴럴네트워크를 구성하는 다른 신경세포모양소자의 출력에 가중치를 곱한 값을 포함하도록 할 수 있다.
6) 또한 상기 i번째의 신경세포모양소자로의 가중치 입력값(Zj)이 상기 뉴럴네트워크의 외부에서 주어진 데이터를 포함하도록 할 수 있다.
7) 또한 상기 i번째의 신경세포모양소자로의 가중치 입력값(Zj)이 어떤 고정된 값에 가중치를 곱한 값을 포함하도록 할 수 있다.
8) 또한 상기 출력값 생성수단이 정부(正負)대칭출력범위를 갖도록 형성할 수 있다.
9) 또한 상기 뉴럴네트워크는 적어도 긍정출력, 부정출력의 2가지의 출력을 가지도록 형성할 수 있다.
10) 또한 상기 음성인식장치는 인식시키고 싶은 입력의 특징추출을 행함과 동시에 특징추출한 값을 상기 뉴럴네트워크로 입력하는 음성특징추출수단과, 상기 뉴럴네트워크의 출력값을 인식결과로 변환하는 인식결과출력수단과, 상기 뉴럴네트워크를 구성하는 신경세포모양소자의 내부상태값 기억수단에 이미 설정된 초기값을 주는 내부상태값 초기화수단을 갖도록 형성할 수 있다.
11) 또한 상기 10)의 음성인식장치는 상기 뉴럴네트워크에 배경잡음을 입력하는 배경잡음입력수단과, 상기 뉴럴네트워크의 출력에서 평형상태를 검출하고 상기 평형상태의 검출에 기초하여 내부상태 초기값 설정수단에 이미 설정된 내부상태 초기값을 변경하는 신호를 출력하는 평형상태 검출수단을 포함하도록 형성할 수 있다.
12) 또한 본 발명의 뉴럴네트워크를 이용한 음성인식장치의 학습방법은 상기 10) 또는 11)의 음성인식장치가 상기 뉴럴네트워크를 학습시키기 위한 학습부를 포함하도록 형성된다.
그리고 상기 학습부는 학습용 입력데이터를 기억하는 입력데이터 기억수단과, 상기 입력데이터수단에서 학습용 입력데이터를 선택하는 입력데이터 선택수단과, 학습용 출력데이터를 기억하는 출력데이터 기억수단과, 선택된 입력데이터와 그 연쇄에 의해 학습용 출력데이터를 선택하는 출력데이터 선택수단과, 선택된 학습용 입력데이터를 상기 특징추출부에 입력하고 상기 뉴럴네트워크의 학습을 제어하는 학습제어수단을 포함하고, 상기 학습제어수단은 상기 뉴럴네트워크의 출력과 상기 출력데이터 선택수단의 출력에 기초하여 상기 신경세포모양소자의 결합의 가중치를 변경하도록 형성된다.
13) 그리고 청구범위 제 12 항에 기재된 음성인식장치의 학습방법에 있어서, 상기 입력데이터 기억수단은 복수개의 범주를 가지고, 상기 출력데이터 기억수단은 상기 입력데이터 기억수단의 각 범주에 대응하는 범주를 갖고, 상기 입력데이터 선택수단은 상기 입력데이터 기억수단의 범주에서 학습시키고 싶은 복수개의 데이터를 선택하고, 상기 출력데이터 선택수단은 상기 입력데이터 선택수단에 의해 선택된 학습용 입력데이터에 대응하는 학습용 출력데이터를 선택하고, 상기 학습제어부는 상기 입력데이터 선택수단이 선택한 복수개의 데이터를 하나로 연결하는 입력 데이터 연결수단과, 상기 출력데이터 선택수단이 선택한 학습용 출력데이터를 하나로 연결하는 출력데이터 연결수단을 갖고, 상기 학습제어부는 상기 연결한 1개의 학습용 입력데이터를 음성특징 추출수단에 입력하고, 상기 뉴럴네트워크의 출력과 상기 출력연결수단의 출력에 기초하여 상기 신경세포모양소자의 결합의 가중치를 변경하도록 형성된다.
14) 여기에 있어서 상기 범주의 수가 2가 되도록 형성할 수 있다.
15) 상기 12) 내지 14)의 뉴럴네트워크를 사용한 음성인식장치의 학습방법에 있어서, 상기 학습부는 잡음데이터를 기억하는 잡음데이터 기억수단과, 상기 선택된 학습데이터에 상기 잡음데이터 기억수단에서 선택된 잡음을 중첩하는 잡음중첩수단을 갖고, 상기 잡음중첩수단에 의해 잡음이 중첩된 입력데이터를 이용하여 상기 뉴럴네트워크를 학습시키도록 형성할 수 있다.
16) 여기에 있어서 상기 배경잡음을 중첩시키는 위치를 벗어나서 반복학습시켜도 좋다.
17) 또한, 처음에 배경잡음이 중첩되어 있지 않은 입력데이터로 학습시킨 후에 같은 입력데이터에 배경잡음을 중첩하여 학습시키도록 해도 좋다.
이와 같이 본 발명의 뉴럴네트워크를 이용한 음성인식장치 및 학습방법에 의하면 이하의 효과가 있다.
1) 종래예에서는 음성입력의 길이(N)의 제곱(N2)에 비례한 처리시간이 필요했지만 본 발명에서는 데이터가 1회만 주어지면 충분하고 매우 고속처리가 가능하다.
2) 입력데이터를 기억하는 메모리가 아주 적어도 좋다.
3) 결과를 정규화할 필요가 없다.
4) 용이하게 연속처리가 가능하다.
5) 정수형의 데이터표현으로도 충분한 정밀도를 얻을 수 있다.
6) 긍정부정 출력을 조합시키는 것에 의해 매우 고정밀도의 인식결과를 얻을 수 있다.
7) 보다 다출력의 임의의 정보를 출력시킬 수 있다.
8) 대잡음성(對雜音性)등을 용이하게 향상시킬 수 있다.
9) 여러 가지 시간스케일의 현상에의 대응을 학습에 의해 자기조직적으로 행할 수 있다.
10) 뉴럴네트워크의 연상능력, 정보의 압축신장능력을 목적에 포함시켜서 최적으로 배치하는 구성을 용이하게 행할 수 있다.
11) 학습이 매우 용이하고 그 때문에 시행착오적인 부분이 매우 적다.
[도면의 간단한 설명]
제1도는 본 발명의 뉴럴네트워크를 구성하는 신경세포모양소자를 나타내는 도면,
제2도는 제1도의 신경세포모양소자를 구체적인 기능으로 치환한 도면,
제3도는 제2도의 구성을 전기회로로 치환한 예,
제4도는 본 발명의 신경세포모양소자를 이용하여 구성된 뉴럴네트워크를 이용한 음성인식장치를 나타내는 도면,
제5도는 제4도의 뉴럴네트워크를 3층화한 도면,
제6도는 제5도의 뉴럴네트워크를 더 다층화한 도면,
제7도는 제6도의 전달네트워크를 분할한 도면,
제8도는 자기회귀루프를 갖는 뉴럴네트워크를 나타내는 도면,
제9도는 임의의 결합 뉴럴네트워크를 나타내는 도면,
제10도는 본 발명의 음성인식장치의 내(耐)잡음성을 설명하기 위한 도면,
제11도는 본 발명의 음성인식장치의 시간스케일의 학습효과를 설명하기 위한 도면,
제12도는 본 발명의 신경세포모양소자를 이용한 다른 음성인식장치의 구성을 나타내는 도면,
제13도는 제12도의 음성인식장치의 동작순서를 표시하는 도면,
제14도는 본 발명의 뉴럴네트워크를 이용한 음성인식장치의 학습방법을 나타내는 도면,
제15도는 본 발명의 학습방법의 학습순서를 나타내는 도면,
제16도는 본 발명의 학습데이터의 연결을 나타내는 도면,
제17도는 본 발명의 학습데이터의 구성을 나타내는 도면,
제18도는 본 발명의 뉴럴네트워크를 이용한 음성인식장치의 학습방법을 나타내는 도면,
제19도는 본 발명의 음성인식장치에 의한 음성단어 검출출력을 나타내는 도면,
제20도는 본 발명의 음성인식장치에 의한 다른 음성단어 검출출력을 나타내는 도면,
제21도는 본 발명의 음성인식장치의 다른 구성을 나타내는 도면,
제22도는 제21도의 음성인식장치의 동작순서를 나타내는 도면,
제23도는 배경잡음중첩수단을 갖는 음성인식장치의 학습방법을 나타내는 도면,
제24도는 학습데이터로의 잡음성분의 중첩방법을 나타내는 도면,
제25도는 본 발명의 학습방법으로 학습시킨 뉴럴네트워크에 미지단어를 주었을 때의 인식결과를 나타내는 도면,
제26도는 제25도와 같은 처리를 미지화자에 대해서 행한 경우의 인식결과를 나타내는 도면,
제27도는 제26도와 같은 처리를 배경잡음을 주고 행한 경우의 인식결과를 나타내는 도면,
제28도는 종래기술의 신경세포모양소자를 나타내는 도면,
제29도는 제28도의 신경세포모양소자를 구체적인 기능으로 치환한 도면, 및
제30도는 제29도의 구성을 전기회로로 치환한 도면이다.
[발명을 실시하기 위한 최선의 형태]
제 1 도는 본 발명에 있어서의 뉴럴네트워크를 구성하는 신경세포모양소자(이하 「노드」라고 한다)의 기능을 모식적으로 나타낸 것이다. 도면중 "104"는 1개의 노드전체를 나타낸다. "101"은 내부상태값 기억수단을 나타낸다. "102"는 "101"에 기억된 내부상태값 및 노드에 입력되는 입력값에 기초하여 내부상태값을 갱신하는 내부상태값 갱신수단을 나타낸다. "103"은 내부상태값을 외부출력으로 변환하는 출력값 생성수단을 나타낸다.
제 2 도는 제 1 도에 나타낸 노드의 기능을 보다 구체적으로 나타낸 것이다. 도면중 "201"은 데이터입력수단을 나타낸다. "202"는 "201"에 의해 얻어진 데이터 입력값에 가중치를 붙여 누계하는 가중치누계수단을 나타낸다. "203"은 누계된 데이터 값을 적분하는 적분수단을 나타낸다. "204"는 적분의 결과 얻어진 값을 이미 설정된 어떤 범주의 값으로 변환하는 출력값 제한수단을 각각 모식적으로 나타낸다.
제 3 도는 제 2 도의 구성을 전자회로로 한 일례이다. 도면중 "301"은 제 2 도의 데이터입력수단과 가중치 누계수단을, 또 "302"는 적분수단을, "303"은 출력값 제한수단을 나타낸다.
한편 제 28 도는 종래의 MLP법에 이용되는 뉴럴네트워크를 구성하는 노드의 기능을 모식적으로 나타낸 것이다. 도면중 "2803"은 1개의 노드 전체를, "2801"은 내부 상태값을 계산하는 내부상태값 계산수단을, "2802"는 "2801"에 의해 계산된 내부상태값을 외부출력으로 변환하는 출력값 생성수단을 나타낸다.
마찬가지로 제 29 도는 제 28 도에 나타낸 종래의 노드의 기능을 구체적으로 나타낸 것이다. 도면중 "2901"은 데이터입력수단을, "2902"는 "2901"에 의해 얻어진 데이터 입력값에 가중치를 붙여 누계하는 가중치누계수단을, "2903"은 누계된 데이터값을 이미 설정된 어떤 범위의 값으로 변환하는 출력값 제한 수단을 나타낸다.
제 30 도는 제 29 도의 구성을 전자회로로 한 예이다. 도면중 "3001"은 제 29 도의 데이터입력수단과 가중치누계수단을, 또 "3002"는 출력값 제한수단을 나타낸다.
제 1 도~제 3 도 및 제 28 도~제 30 도에서 분명히 한 바와 같이 본 발명의 노드는 종래의 노드에는 없었던 적분수단을 가진다. 종래의 노드는 그 출력이 그 시점에서의 입력에 의해서만 결정된다는 의미에서 정적이다. 이것에 비해 본 발명의 노드는 그 노드에 입력된 데이터의 과거의 이력이 그 적분값으로서 변환, 유지되고 있고, 그것에 의해 출력이 결정된다는 의미에서 동적이라고 말할 수 있다.
즉, 종래의 정적인 노드를 이용한 뉴럴네트워크에서는 시계열데이터를 처리하려고 하면 그 네트워크의 구조상에 데이터의 시간구조를 취할 필요가 있었다. 이것에 대해 본 발명의 동적인 노드를 이용한 뉴럴네트워크는 그 자체로 시계열데이터를 처리할 수 있다.
보다 구체적으로 말하면 종래의 뉴럴네트워크로 시계열데이터를 처리시키려고하면 그 시간정보를 공간정보로 전개하는 것과 같은 방법, 예를 들면 복수의 타이밍으로 입력된 데이터를 1개의 입력데이터로 합치는 등의 방법이 필요하게 된다. 이것을 위해서는 이 합치는 데이터를 기억하고 관리하기 위한 하드웨어와 처리가 필요하게 된다. 또는 상기한 바와 같은 시간에 의존하는 정보를 기억하기 위한 특별한 콘텍스트 소자가 필요하게 된다. 또 이 콘텍스트를 관리하는 하드웨어와 처리도 필요하다.
이에 대해 본 발명의 뉴럴네트워크에 의하면 콘텍스트정보 등은 각각의 소자내부의 적분값으로서 기억되기 때문에 뉴럴네트워크에 특별한 구조를 설치할 필요가 없다. 따라서 데이터의 입력도 각각의 타이밍의 데이터를 각각의 타이밍으로 입력하는 가장 단순한 데이터입력방법에 따라 행하면 충분하고, 데이터의 입력에 시간정보를 치리하기 위한 특별한 하드웨어나 처리는 필요하지 않다.
다음에 본 발명의 노드 및 그 노드에 의해 구성되는 뉴럴네트워크의 실제 동작에 대해서 설명한다. 노드의 내부상태값을 X, 출력값을 Y로 한다. X와 Y의 시간변화에 있어서, 현재의 내부상태값을 Xcurr, 갱신된 내부상태값을 Xnext, 또는 그 갱신동작시에 노드에 입력되는 입력값을 Zi(i는 0에서 n이고, n은 그 노드로의 입력수)로 한다. 내부상태값 갱신수단의 동작을 형식적으로 함수(G)로 표시하면 갱신된 내부상태값 Xnext는,
Xnext = G(Xcurr, Zo,..., Zi,..., Zn) (1)
로 표현할 수 있다. 식(1)의 구체적인 형태는 여러 가지의 것을 생각할 수 있는데, 예를 들면 1차 미분방정식을 이용한 다음의 식(2)과 같은 것도 가능하다.
여기서 τi는 한 시정수이다.
여기서 입력값(Zj)을 좀더 상세히 정의한다. 이 입력값으로는 다음의 ①에서 ④등을 생각할 수 있다. ① 어떤 결합가중치를 곱한 그 노드 자신의 출력. ② 어떤 결합가중치를 곱한 다른 노드의 출력. ③ 등가적으로 내부상태 갱신수단으로 바이어스를 주기 위한 결합가중치를 곱한 고정출력값. ④그 노드에 뉴럴네트워크의 외부에서 입려되는 외부입력. 그래서 이와 같은 입력값(Zj)에 대한 i번째의 노드의 내부상태값의 갱신을 고려한다. 내부상태값을 Xi, 임의의 노드의 출력을 Yj, j번째 노드의 출력을 i번째의 노드의 입력으로 결합하는 결합강도를 Wij, 바이어스값을 θi, i번째 노드로의 외부 입력값을 Di로 하면 식(2)은 보다 구체적으로 다음과 같이 쓸 수 있다.
이와 같이 해서 결정된 어떤 한 순간의 노드의 내부상태를 X로 하고, 출력값 생성수단의 동작을 형식적으로 함수(F)로 표시하면 노드의 출력(Y)은,
Y=F(X) (4)
로 표현할 수 있다. F의 구체적인 형태로는 이하의 식(5)으로 나타내는 바와 같은 정부(正負)대칭출력의 시그모이드(로지스틱) 함수등을 생각할 수 있다.
그러나 이 함수형태는 필수적인 것이 아니고 그 외에도 보다 단순한 선형변환이나 임계값 함수등도 생각할 수 있다.
이와 같은 식에 따라 본 발명에 있어서의 뉴럴네트워크의 출력(Y)의 시계열은 계산된다.
제 4 도는 본 발명의 노드에 의해 구성된 뉴럴네트워크를 사용한 음성인식장치의 일례를 나타내는 것이다. 도면중 "401"은 음성특징추출수단을, "402"는 본 발명의 노드에 의해 구성된 뉴럴네트워크를, "403"은 인식결과의 출력수단을 나타낸다. 음성 특징추출수단에 의해 추출된 출력이 2개의 노드에 입력된다. 이 뉴럴네트워크는 임의의 노드가 다른 모든 노드와 결합되어 있는 전(全)결합형의 뉴럴네트워크로 되어 있다. 뉴럴네트워크에서는 2개의 출력이 인식결과출력수단으로 향해 출력되어 있다. 본 발명의 뉴럴네트워크에서는 출력수는 임의로 설정할 수 있다. 따라서, 단어인식을 행하는 경우는 긍정출력, 부정출력 2가지의 출력을 설치하고, 이 각 출력의 인식결과를 종합적으로 판단하여 인식정밀도를 높일 수 있다. 물론 뉴럴네트워크로의 입력수 및 출력수는 제 4 도와 같이 2개로 한정되는 것이 아니고 몇 개라도 좋다.
제 5 도-제 9 도에 본 발명의 노드에 의해 구성된 뉴럴네트워크의 다른 구성예를 나타낸다.
제 5 도에는 제 4 도의 뉴럴네트워크(402)의 구성을 첨가한 예가 도시되어 있다. 뉴럴네트워크(402)는 입력층(501), 내장층(502), 출력층(503)을 포함한다. 이 구성은 종래기술의 MLP법과 외관상 동일하게 보인다. 그러나 본 발명의 노드에 의해 구성된 뉴럴네트워크는 먼저 입력층의 값이 결정되고, 그 후에 그 값을 입력으로 하는 내장층의 값이 결정되고, 이하 마찬가지로 출력층에 이르기까지의 각 층의 값이 순차적으로 결정되어 가는 종래기술과 같은 피드포워드형 네트워크가 아니다.
본 발명의 노드를 이용한 뉴럴네트워크는 노드 자신이 내부상태값을 유지할 수 있기 때문에 종래기술과 같은 콘텍스트층을 필요로 하지 않고 시계열 데이터를 인식하며 콘텍스트층을 갖는 종래기술과 동등한 결과를 얻을 수 있다. 또한 모든 층의 출력이 동시에 결정되기 때문에 종래기술의 MLP법보다도 더 효율이 좋은 병렬처리가 가능하다.
또 본 발명의 노드를 이용한 뉴럴네트워크는 높은 내잡음성도 갖는다. 제 10 도의 a)는 종래의 단순한 MLP법에 있어서의 노드의 입력과 출력의 대응을 나타내는 것이다. 도면에서 분명히 한 바와 같이 반형파적인 입력에 스파이크적인 잡음이 중첩한 신호가 입력으로 주어지면, 거의 그대로의 파형이 출력으로 나타난다. 이와 같이 MLP법의 노드는 그 입력을 단순히 출력으로 반영하기 때문에 잡음의 영향을 그대로 받는다.
그러나 본 발명의 노드는 내부상태값으로 시간적인 이력을 기억하고 있다. 그리고 그 내부상태값과 입력의 함수로서 다음의 내부상태값 및 출력값이 결정된다. 따라서 제 10 도 a)와 같은 스파이크적인 잡음이 입력에 중첩해도 제 10 도 b)에 나타내는 바와 같이 스파이크적인 파형은 둔화되고 그 영향은 작아지고, 그 결과 양호한 내잡음성을 얻을 수 있다.
이와 같은 내잡음성은 콘텍스트층을 가지는 종래기술에 있어서도 다소 얻을 수 있다. 그러나 종래기술은 뉴럴네트워크를 구성하는 노드의 일부로서 그 이력정보를 유지하는 특별한 구성을 가진 외부노드를 설치하는 것이기 때문에, 본 발명과 같이 모든 노드가 자기자신의 이력정보를 내부상태값으로 유지하는 경우와 비교하여 그 내잡음성은 떨어진다.
다음의 예는 제 5 도의 뉴럴네트워크의 구성을 보다 다층으로 하고, 제 6 도에 나타내는 바와 같은 모래시계형 네트워크를 구성한 것이다. 제 6 도에 있어서 "601"은 특징추출(또는 정보압축)네트워크를, "602"는 전달네트워크를, "603"은 인식(또는 정보신장)네트워크를 나타낸다. 제 6 도의 뉴럴네트워크의 구성도 일견 종래의 MLP법과 같다. 그러나 그 동작은 상기한 바와 같이 전혀 다르다. 이와 같은 구성을 취함으로써 본 발명의 효과를 손상시키지 않고 시계열적인 효과를 가지는 특징추출(또는 정보압축)뉴럴네트워크 및 시계열적인 효과를 가지는 인식네트워크(또는 정보신장)네트워크등의 기능을 모듈화하고 음성인식시스템을 구성하는 것도 가능하다.
그 다음은 제 6 도의 전달네트워크(602)를, 제 7 도에 나타내는 정보송신기능(702)과 정보수신기능(703)으로 분할한 예이다. "702"와 "703" 사이의 파선은 이것들이 공간적·시간적으로 분리되어 있어도 좋음을 나타낸다. 이 파선이 전송선등의 공간적인 거리를 나타낸다고 하면 이 파선은 음성압축전송장치를 나타내게 된다. 이 파선이 시간적인 거리를 나타낸다고 하면 이 파선은 예를 들면 음성압축기록장치를 나타내게 된다. 물론 여기서 압축되는 대상은 음성에 한정되는 것이 아니라 보다 일반적인 정보라도 무방하다. 또한 인식처리는 넓은 의미에서의 정보압축처리인 것은 말할 나위도 없다.
제 7 도에 있어서도 지금까지 서술해온 본 발명의 효과는 손상되지 않는다. 예를 들면 제 10 도에서 설명한 대잡음성에 의해 전송선상에서의 전송오류나 잡음의 혼입, 또는 기록매체의 결함이나 열화등에 대해서도 양호한 내성을 나타내는 것이다.
다음의 예는 제 4 도의 구성을 간단히 한 것이다. 제 8 도의 뉴럴네트워크는 자기회귀루프를 가짐으로써 보다 넓은 시간적 변동범위의 현상을 취급할 수 있다. 즉 입력값(Z) 중 자기회귀루프 부분의 결합강도를 W로 하면 이 자기회귀루프를 고려하는 것은 근사적으로 계(系)의 시정수(τ)를 이하의 식으로 치환한 것에 상당한다.
τ÷(1-W) (6)
이 W는 이하에 서술하는 학습에 의해 수정되는 값이기 때문에 학습데이터에 맞추어 계의 응답의 시간스케일을 최적화할 수 있다. 종래의 콘텍스트층을 이용한 방법으로는 이와 같은 것을 학습에 의해 자기조직적으로 행할 수는 없고, 사람이 시간스케일에 맞춘 네트워크의 설정을 행하는 것이 필요하게 된다.
제 11 도는 이 효과를 개념적으로 나타낸 도면이다. 제 11 도의 a)에 나타낸바와 같은 방형파의 연속입력이 있다고 한다. 이 방형파의 주기보다도 계의 응답시정수가 크면 계의 응답은 a)의 출력과 같이 전의 출력에 다음의 출력이 가산되어서 옳은 인식결과를 얻을 수는 없다.
한편 제 8 도에 나타내는 바와 같이 자기회귀루프의 한 계에서는 계의 시정수는 학습에 의해 최적화되기 때문에, 그 응답은 예를 들면 제 11 도의 b)와 같이 수정되는 것이 가능하고 좋은 인식율을 얻을 수 있다.
이와 같은 계의 시정수의 학습기능과 적당한 학습방법을 조합함으로써 제 6 도, 제 7 도의 시스템의 대잡음성등을 더 높일 수 있다.
그리고 최후의 뉴럴네트워크의 구성예로서 제 8 도의 뉴럴네트워크를 임의의 결합 뉴럴네트워크로 한 예를 제 9 도에 나타낸다. 임의의 결합 뉴럴네트워크(902)는 입력네트워크(904)와 출력네트워크(905)의 2개의 서브네트워크로 이루어진다. 본 예에서는 입력네트워크를 전결합형의 서브네트워크로 하고, 출력네트워크를 임의의 결합형의 서브네트워크로 해서 2개의 서브네트워크를 한 방향적으로 접속하는 구성으로 했다.
이와 같은 구성에 의해 먼저 서술한 것과 같은 효과에 첨가하여, 이하의 효과를 얻을 수 있다. 즉 전결합형 뉴럴네트워크에 의한 연상(連想)능력을 이용하여 입력의 결함을 보충하거나 대잡음성을 높이는 등의 기능, 또한 한 방향의 결합을 이용하여 정보의 흐름을 휴리스틱(heuristic)으로 처리하여 정보의 압축, 신장등을 행하는 등의 기능을 최적으로 행할 수 있는 등의 효과를 얻을 수 있다.
이상이 제 4 도에 나타낸 뉴럴네트워크의 다른 구성예인데 다음에 음성인식장치의 다른 구성예를 보겠다.
제 12 도는 제 4 도의 음성인식장치에 내부상태 초기값 설정수단(1204)을 추가한 것으로, 다른 구성은 제 4 도와 동일하다. 식(2)에서 나타낸 바와 같이 본 발명의 뉴럴네트워크의 동작은 1차 미분방정식으로 기술된다. 따라서 그 동작을 결정함에 있어서는 초기값이 필요하게 된다. 내부상태 초기값 설정수단은 뉴럴네트워크가 동작을 하기 위해 이미 결정된 초기값을 모든 노드에 주는 것이다. 제 13 도에 기초하여 본 음성인식장치의 동작순서를 설명하면,
1. 내부상태 초기값 설정수단에 의해 모든 노드에 적당히 선택된 초기내부상태값(X)을 세트하고 그것에 대응하는 출력(Y)을 세트한다.
2. 처리가 종료하면 끝난다.
3. 모든 노드 각각에 있어서 입력값(Z)의 합을 구한다. 입력값(Z)은 앞에 설명한 바와 같다. 음성특징 추출수단에 의해 추출된 음성특징량은 외부입력값으로 이 Z의 일부로 계산된다.
4. 모든 노드 각각에 대해서 3에서 구한 Z의 합과 내부상태값(X) 그 자체의 값에 의해 X의 값이 갱신된다.
5. 갱신된 X의 값에 의해 출력값(Y)이 계산된다.
6. 처리(2)로 돌아간다.
의 순서가 된다. 인식결과는 출력에 할당된 노드의 출력으로서 인식결과 출력수단에 주어진다.
이상이 본 발명의 노드를 사용한 뉴럴네트워크에 의한 음성인식장치의 기본적인 동작원리 및 그 구성이다. 이와 같은 뉴럴네트워크에 희망하는 처리를 시키기 위해서는 뉴럴네트워크를 학습시키는 것이 필요하게 된다. 그래서 다음에 뉴럴네트워크의 학습방법에 대해서 설명한다.
제 14 도가 본 발명의 음성인식장치의 학습방법을 나타내는 구성도이다. 도면중 "1410"은 뉴럴네트워크(1402)를 학습시키기 위한 학습부를 나타낸다. "1411"은 소정의 학습용 입력데이터가 기억된 입력데이터 기억수단, "1413"은 각 학습용 입력데이터에 대응하는 규범이 되는 출력데이터가 기억된 출력데이터 기억수단, "1412"는 입력 데이터 기억수단에서 학습시키고 싶은 입력데이터를 선택하는 입력데이터 선택수단, 마찬가지로 "1414"는 출력데이터를 선택하는 출력데이터 선택수단, 그리고 "1415"는 뉴럴네트워크의 학습을 제어하는 학습제어수단을 나타낸다.
다음에 이 학습부에 의한 음성인식장치의 학습방법에 대해서 제 13 도, 제 14 도를 참조하면서 설명한다. 우선 모든 노드에 이미 설정된 초기상태값(X)을 세트한다. 다음에 학습시키고 싶은 학습용 입력데이터가 입력데이터 선택수단에 의해 선택된다. 선택된 입력데이터는 학습제어수단에 보내진다. 이때 선택한 학습용 입력데이터에 대응하는 학습용 출력데이터가 출력데이터 선택수단에 의해 선택된다. 선택된 출력데이터도 마찬가지로 학습용 제어수단으로 보내진다. 선택된 학습용 입력데이터는 음성특징추출수단(1401)에 입력되고, 여기서 특징추출된 특징벡터가 뉴럴네트워크에 외부입력으로서 입력된다. 모든 노드에 대해서 각각 입력(Z)의 합을 구하고, 식(2)에 따라 내부상태값(X)을 갱신한다. 그리고 갱신된 X에 의해 출력(Y)을 구한다.
초기 단계에서는 뉴럴네트워크의 각 유니트간의 결합강도에는 임의의 값이 주어지고 있다. 따라서 뉴럴네트워크에서 출력되는 출력값(Y)은 임의의 값이다.
이상의 내용을 입력데이터 시계열의 종료까지 반복한다. 이와 같이 해서 얻어진 출력(Y)의 시계열에 대해서 다음식 (7)으로 나타내는 식에 의해 학습 평가값(C)을 구한다.
여기서 C는 한 학습평가값이고, E는 어떤 오차평가값이다. 식 (7)에 따라 C의 시계열은 제 15 도에 나타내는 바와 같은 처리에 의해 계산된다.
이 처리의 구체적인 예로서, 선택한 학습용 입력데이터에 대응하는 학습용 출력데이터를 T로 하고, 학습용 입력데이터에 대응하는 출력값을 Y로 하고 오차평가함수로서 다음식 (8)으로 나타내는 쿨백-라이블러(kullback-leibler) 거리를 이용하면 E는
으로 쓸 수 있다. 쿨백-라이블러 거리를 이용하면 여러 요인에 의해 학습이 고속이 되는 이점이 있다.
또 식 (8)과 실질적으로 동일하지만 출력값 생성수단이 대칭출력인 경우는 식(8)은 다음의 식 (9)과 같이 표시된다.
이렇게 이 식들을 이용함으로써 식 (7)의 보다 구체적인 형태로 다음식 (10)을 얻을 수 있다.
이상을 주는 것에 의해 결합강도(W)의 수정규칙은 다음식 (11)으로 주어진다.
여기서 a는 작은 +의 정수이다. 이것에 따라 출력이 목적으로 하는 값이 되도록 각 유니트간의 결합강도를 변경한다. 인식시키고 싶은 음성데이터를 반복입력하여 조금씩 각 유니트간의 결합강도를 변경함으로서 네트워크에서 옳은 값이 출력되게 된다. 출력이 수렴되기까지의 반복회수는 수천회 정도이다.
이 학습규칙은 예시한 전결합형의 뉴럴네트워크뿐 아니라 층형상결합 등을 특수예로 포함하는 보다 일반적인 임의 결합 뉴럴네트워크에도 적용가능한 것은 분명하다.
다음에 2가지의 학습용 입력데이터를 계속해서 입력하고 학습시키는 방법에 대해서 뉴럴네트워크가 긍정출력과 부청출력의 2개의 출력을 갖는 경우를 예를 들어 설명한다.
입력데이터를 1개씩 이용한 학습에서는 한번 높은 레벨로 된 긍정출력은 낮은 레벨로 내려갈 수 없다. 반대로 한번 낮은 레벨로 된 부정출력은 높은 레벨로 올라갈수 없다. 즉 입력데이터를 한 개씩 이용한 학습에서는 제 16(a) 도에 나타내는 바와 같이 인식시키고 싶은 입력데이터(이하 「긍정데이터」라고 한다)를 주고 긍정출력을 높은 레벨로 상승시키는 학습(부정출력은 낮은 레벨인 채) 또는 제 16(b) 도에 나타내는 바와 같이 인식시키고 싶지 않은 데이터(이하「부정데이터」라고 한다)를 주고 부정출력을 높은 레벨로 상승시키는 학습(긍정출력은 낮은 레벨인 채)이 행해진다. 그런데 이 학습에서는 긍정출력, 부정출력 모두 한번 높은 레벨로 상승한 출력값이 하강하는 일은 없다.
따라서 긍정데이터와 부정데이터가 혼재한 복수의 음성데이터가 연속해서 주어진 경우 긍정데이터의 출력으로 한번 높은 레벨로 올라간 긍정출력은 그 후에 부정데이터의 입력이 있어도 낮은 레벨로 내려가는 일은 없다. 이것은 부정출력에 대해서도 마찬가지이다.
그래서 본 실시예에서는 제 17(a)~(d) 도에 나타내는 바와 같이 2개의 음성데이터를 연속해서 주고 출력의 상승과 하강의 양쪽의 학습하는 방법을 이용했다. 제 17(a) 도에서는 부정데이터와 긍정데이터를 연속하여 입력하고 긍정출력의 상승, 부정출력의 상승과 하강을 학습시킨다. 제 17(b) 도에서는 긍정데이터와 부정데이터를 연속하여 입력하고 긍정출력의 상승과 하강, 부정출력의 상승을 학습시킨다. 제 17(c) 도에서는 부정데이터를 2개 연속하여 입력하고 제 17(a) 도의 학습에서 부정데이터의 다음은 긍정데이터라는 그릇된 인식을 뉴럴네트워크에 가지지 않도록 한다. 마찬가지로 제 17(d) 도에서는 긍정데이터를 2개 연속하여 입력하고 제 17(b) 도의 학습에서 긍정데이터의 다음은 부정데이터라는 그릇된 인식을 뉴럴네트워크에 가지지 않도록 한다.
환언하면 이것은 뉴럴네트워크동작의 초기값 의존성의 문제이다. 즉 입력데이터를 1개만 이용한 학습에서는 그 학습이 특정의 초기값에서만 개시된다. 이 때문에 그 초기값에 대해서만, 기대되는 능력을 나타내는 바와 같은 학습결과밖에 얻을 수 없다. 따라서 일반적인 경우에 적응할 수 있도록 하기 위해서는 여러 초기값에 대해서도 정확한 반응이 일어나도록 학습시키지 않으면 안 된다. 그러나 이와 같은 여러 초기값으로는 모든 예를 들 필요는 없다. 실제 인식시에 있어서는 그 인식대상에 대한 여러 제약에 의해, 가능한 초기값의 조합은 한정되게 된다. 학습에 2개 이상의 데이터의 연쇄를 이용하는 것은 이와 같은 가능한 초기값의 조합을 근사적으로 주는 것이고, 이 목적을 위해서는 2개의 데이터의 연속에만 있어서도 충분히 좋은 결과를 얻을 수 있다. 물론 3개 이상의 연속데이터를 이용해도 좋다.
제 18 도는 이 2개의 연속입력을 뉴럴네트워크로 학습시키기 위한 음성인식장치의 구성도이다. 여기서는 제 14 도에서 설명한 입력데이터 기억수단이 긍정데이터, 부정데이터라는 2개 범주의 데이터를 기억하는 수단으로 구성되어 있다. 도면중 "1801"은 여러 조건에서 수집된 인식해야 하는 단어의 데이터군인 긍정데이터를 기억하는 기억수단을, "1802"는 또 하나의 범주인 인식해야 하는 단어이외의 부정데이터를 기억하는 기억수단을, "1803", "1804"는 각각의 범주에 대한 학습용 출력데이터를 기억하는 출력데이터 기억수단이다. 여기서는 각 범주에 3개의 데이터가 있는 것으로 한다. "1805"는 입력데이터 선택수단을, "1806"은 출력데이터 선택수단을, "1807"은 입력데이터 연결수단을, "1808"은 출력데이터 연결수단을, "1809"는 학습제어수단을, "1810"은 뉴럴네트워크를 각각 나타낸다.
입력데이터 선택수단(1411)에 의해 긍정데이터 기억수단(1801), 부정데이터 기억수단(1802)에서 학습용 입력데이터가 2개 선택된다. 그 조합에 대해서는 제 17 도에서 설명한 바와 같다. 선택된 2개의 입력데이터는 입력데이터 연결수단에서 1개의 연속데이터로 이루어진다. 그리고 이 연속데이터는 음성특징 추출수단에서 특징추출되고 뉴럴네트워크에 입력된다. 뉴럴네트워크내에서는 제 13 도의 처리에 따라 출력값이 시계열적으로 계산된다. 뉴럴네트워크의 출력은 학습제어수단에 보내져서 이미 선택되어 있는 학습용 출력데이터와의 오차가 계산되고, 각 노드의 결합 가중치가 수정됨으로써 뉴럴네트워크는 학습을 거듭한다. 제 18 도에서는 뉴럴네트워크의 출력을 긍정출력노드와 부정출력노드 2개로 한다. "1803", "1804"중의 실선이 긍정데이터에 대응하는 긍정출력노드의 학습용 출력, 점선이 부정데이터에 대응하는 부정출력노드의 학습용 출력이다.
그래서 이와 같은 특징을 갖는 노드에 의해 구성된 뉴럴네트워크로 이루어지고, 제 18 도에서 설명한 학습방법에 의해 학습시킨 음성인식장치의 인식결과를 다음에 나타낸다. 실제로는 음성특징추출수단의 출력으로서 20차의 LPC켑스트럼을 가정하고 입력을 "20", 출력을 "2", 그 외를 "10"으로 하여, 합계 32개의 노드에 의해 뉴럴네트워크를 구성했다.
우선 학습에 대해서 설명한다. 인식시키고 싶은 단어(긍정데이터)로 「지체없이」를, 그 이외의 참조용 단어(부정데이터)로는 「종점」, 「솜씨」, 「거절」, 「초월」. 「분류」, 「로커」, 「산맥」, 「내장퓨리턴」의 8단어를 주었다. 뉴럴네트워크의 출력으로는 상기한 긍정데이터에 대응하는 긍정출력과, 부정데이터에 대응하는 부정출력 2개를 고려했다. 학습용 출력으로는 제 17 도에서 설명한 4개의 경우를 상정했다. 이 학습용 출력의 곡선부분은 그 데이터의 시간적인 중점에 원점을 가지고, 또 그 데이터의 처음단을 -10, 마지막단을 10에 대응시킨 식(5)의 시그모이드함수를 0~0.9의 범위로 변형한 것 또는 그것을 반전한 것을 이용했다. 또한 학습용의 화자는 (주)ATR 자동번역전화연구소의 연구용일본어음성데이터베이스중의 MAU와 FSU로 행했다. 입력과 출력의 대응에 대해서는 1프레임분의 입력데이터(이 경우는 20차 LPC켑스트럼)를 입력하고 1조의 긍정출력, 부정출력을 얻는 것으로 했다. 따라서 종래와 같이 복수프레임의 데이터를 입력하도록 할 필요는 없다.
또한 종래예의 MLP법의 변형인 「피드백결합을 가지는 BP모델」형 뉴럴네트워크에서는 학습을 수렴시키는 것이 곤란하고, 그 학습용 출력을 시행착오적으로 작성하지 않으면 안되는 문제점이 있었는데, 본 발명의 음성인식방법의 뉴럴네트워크는 이상의 방법으로 학습시킴으로써 수 100~수 1000회의 학습으로 희망하는 출력을 생성하도록 이루어졌다. 또한 학습용 출력도 시행착오적인 부분은 전혀 없고 일의적으로 결정할 수 있다.
제 25 도는 이와 같은 학습을 시킨 뉴럴네트워크에 학습에 이용하지 않은 미지의 단어를 포함하는 데이터를 주고 그 능력을 검증한 결과이다. 단어 종류의 합계는 216단어이고 그 가운데 9단어는 학습에 이용한 것이다. 이 216단어에서 여러 조합의 2단어 연쇄데이터를 작성하여 검증에 이용했다. 검증시 단어의 출현총수는 화자당 1290단어이다. 인식결과의 판정은 긍정출력과 부정출력의 조합에 기초하여 행해진다. 긍정출력이 0.75 이상, 부정출력이 0.25 이하이면 검출, 긍정출력이 0.25이하, 부정출력이 0.75이상이면 비검출, 그 이외는 곤혹상태라고 한다. 이 판정조건에 있어서 검출해야 할 단어가 없는 위치에서 검출출력이 얻어진 경우를 삽입오류, 검출해야 할 단어가 갖는 위치에 있어서 비검출출력이 얻어진 경우를 누락오류로 했다.
또한 아래의 제 26 도는 제 25 도와 같은 실험을 학습에 이용한 화자이외의 미지화자 9인에 대해서 행한 것이다.
제 25 도, 제 26 도에서 분명히 한 바와 같이 본 발명의 음성인식방법에 의하면 약간의 데이터를 학습시키는 것만으로 매우 좋은 인식율을 얻을 수 있다.
제 19 도는 연속한 3개 이상의 단어중에서 인식대상으로 하는 단어를 검출한 예이다. 도면중 실선은 긍정출력을, 점선은 부정출력을 나타낸다. 도면에서 분명히 한 바와 같이 종래예와 같이 처음단·마지막단을 주는 일없이 단어「지체없이」를 인식하고 있는 것을 알 수 있다.
또한 제 20 도는 미지단어중에서 인식대상단어「지체없이」를 인식한 예이다. 제 19 도와 마찬가지로 실선은 긍정출력을, 점선은 부정출력을 나타내고 있다. 이와 같이 본 발명의 인식방법은 충분한 범화(汎化)능력을 가지고 있는 것을 알 수 있다.
이것을 종래예와 비교하면 제 19 도에서 준 데이터의 길이는 합계 1049개이기 때문에 종래의 처음단·마지막단을 주고 인식시키는 경우는 단순히 말해서 1049의 제곱개의 조합을 조사할 필요가 있었다. 그러나 본 발명은 1049개의 데이터를 각각 1회씩 입력으로 주는 것만으로 되기 때문에 종래 처리방법과 비교하여 수백분의 1시간으로 처리할 수 있다. 또한 데이터를 각각 1회만 입력하면 되기 때문에 종래와 같이 처음단·마지막단이 될 수 있는 범위의 데이터를 기억해둘 필요가 없고, 데이터 메모리도 소량밖에 필요없고, 그 계산량도 적어진다.
또한 출력은 종래예의 DP법, HMM법과 같이 단조증가 또는 단조감소하는 것이 아니라 필요한 곳에서 피크값을 가지기 때문에 출력값을 입력데이터의 길이에 대해서 정규화할 필요도 없다. 즉 출력은 항상 어느 범위(이 예의 경우는 -1에서 1 사이)에 있고, 그 값이 가지는 가중치는 인식구간 어디에서나 같다. 이것은 처리해야하는 값의 동적범위가 좁은 것을 의미하고, 처리시에 부동소수점데이터나 대수데이터를 이용하지 않아도 정수형의 데이터로 충분한 성능을 나오게 하는 것을 의미하고 있다.
그래서 긍정출력과 부정출력의 2개의 출력의 종합적인 판단에 의해 인식을 하고 있기 때문에 예를 들면 제 20 도의 「구입」부분에서 긍정출력이 상승해도 부정출력이 내려가지 않기 때문에 오인식을 하는 일없이, 음성인식처리의 정밀도를 향상시킬 수 있다. 물론 출력수는 2로 한정되지 않고 필요에 따라 몇 개를 설치해도 좋다. 예를 들면 현재 입력되어 있는 데이터가 학습에 이용된 데이터와 어느 정도 유사한가라는 출력을 부가함으로써 더욱 인식결과의 정밀도를 높일 수 있다. 또 그것들을 복수개 이용함에 의해 최적의 결과를 주는 뉴럴네트워크를 선택할 수 있다.
또한 인식대상의 단위도 예시한 바와 같은 단어뿐 아니라 음절 또는 음소로 할 수도 있다. 이 경우에는 비교적 소수의 뉴럴네트워크에 의해 그 언어음성의 전체를 인식하는 것이 가능해진다. 그것에 의해 예를 들면 구술(dictation)시스템이 가능해 진다. 또 인식단위로는 상기와 같은 언어와의 대응을 고려하지 않은 추상적인 것이어도 좋다. 이와 같은 인식단위를 이용하는 것은 특히 인식장치를 정보압축에 이용하는 경우에 유효하다.
제 21 도는 본 발명의 다른 실시예를 나타낸 것으로, 제 12 도에 나타낸 음성 인식장치에 대해서 배경잡음입력수단(2105) 및 평형상태 검출수단(2106)이 부가된 것이다. 다른 것은 제 12 도와 같다.
제 21 도의 구성에 있어서 어떻게 내부상태 초기값을 결정하는가의 처리의 흐름을 제 22 도에 나타낸다. 도면중 배경잡음데이터의 작성에 관한 부분은 적당한 초기값 설정수단, 적당한 정상입력작성수단을 포함하거나 또는 무입력에 대응하는 것이 없어도 좋다. 제 27 도는 이 장치를 제 18 도에 나타낸 학습방법으로 학습시켜서 인식한 결과를 나타낸 것이고 실시예 1의 표 1과 표 2에 대응하는 결과를 모은 것이다. 이것은 약 3초의 배경잡음 입력에 의해 평형상태가 된 뉴럴네트워크의 내부상태값을 초기값으로 보존하고, 인식처리시에는 그 값을 식 (2)의 미분방정식의 초기값으로 이용한 것이다.
제 27 도에서 분명히 한 바와 같이 본 실시예의 많은 경우 단어의 누락오류가 실시예 1의 결과와 비교해서 개선되어 있다.
실제로 보다 고기능의 음성인식장치에 있어서는 단순한 음성인식기능에 첨가하여 언어적인 처리를 이용하는 일이 많다. 이때 삽입적인 오류는 그와 같은 언어적인 제약에 의해 정정삭제하는 것이 비교적 용이하게 가능하지만, 누락적인 오류를 그와 같은 언어적인 제약으로 추론추가하는 일은 곤란하다. 따라서 본 실시예에 나타낸 바와 같은 누락오류율의 개선은 보다 고성능의 음성인식장치를 실현하기 위해 중요한 사항이다.
제 23 도는 제 14 도의 학습부에 잡음데이터 기억수단과 잡음데이터 중첩수단이 부가된 예이다. 기본적인 학습방법에 대해서는 제 14 도에 설명한 바와 같다. 본 실시예의 특징은 이미 잡음성분을 중첩한 데이터를 학습용 데이터로 이용하는 점에 있다. 학습용데이터의 인식처리는 학습용데이터에 포함되어 있는 잡음성분을 제거한 데이터에 대해서 인식이 행해지도록 뉴럴네트워크의 각 유니트간의 가중치가 학습용 제어수단에 의해 조정된다. 즉 뉴럴네트워크는 학습용 데이터에 포함되는 잡음성분을 명확히 식별할 수 있도록 학습된다.
그러면 어떻게 학습용 데이터에 잡음성분을 중첩하는가인데 학습데이터에 잡음성분의 중첩은 제 24 도에 나타내는 바와 같이 여러 곳에서 행해진다. 도면중 "2401"은 학습용 데이터를, "2402", "2403"은 잡음성분을 나타낸다. 제 24(b) 도는 제 24(a) 도의 학습용 데이터의 전단부분에 잡음성분(2402)을 중첩한 예이고, 제 24(c)도는 학습용 데이터의 후단부분에 잡음성분(2403)을 중첩시킨 예이다. 이와 같이 학습용 데이터의 여러 곳에 잡음성분을 중첩시킨 중첩데이터를 이용하고, 학습용 데이터에 중첩된 잡음성분을 제거한 데이터를 인식하도록 학습시키는 것에 의해 뉴럴네트워크는 잡음성분만을 명확하게 식별할 수 있게 된다. 이것에 의해 뉴럴네트워크는 비정상잡음이 중첩된 음성데이터의 잡음성분을 옳게 인식할 수 있게 된다.
[산업상의 이용가능성]
이상과 같이 본 발명의 음성인식장치 및 학습방법은 연속음성인식뿐 아니라 고립음성인식에 관해서도 매우 유효하다.
또한 본 발명은 음성인식에 한정되지 않고 넓게 시계열정보의 처리에 있어서도 유효하고 입력데이터와 출력데이터의 대응을 취할 수 있는 것이면 어떤 시계열정보의 처리도 가능하다. 이용가능성으로는 정보의 압축, 신장, 파형등가 등을 생각할 수 있다.

Claims (15)

  1. 뉴럴네트워크를 구성하는 각 신경세포모양소자(neuron-like element)가 내부상태값 기억수단과, 상기 내부상태값 기억수단에 기억된 내부상태값과 그 신경세포모양소자에 입력되는 입력값에 기초하여 상기 내부상태값 기억수단의 내부상태값을 갱신하는 내부상태값 갱신수단과, 상기 내부상태값 기억수단의 출력을 외부출력값으로 변환하는 출력값 생성수단을 갖는 뉴럴네트워크를 이용한 음성인식장치에 있어서, 상기 내부상태값 갱신수단은 상기 입력값 및 상기 내부상태값에 가중치를 붙여 누계하는 가중치 누계수단으로서 형성되고, 상기 내부상태값 기억수단은 상기 가중치 누계수단에 의해 누계된 값을 적분하는 적분수단으로서 형성되며, 상기 출력값 생성수단은 상기 적분수단에 의해 얻어진 값을 이미 설정된 상한값과 하한값 사이의 값으로 변환하는 출력값 제한수단으로서 형성되고, 상기 뉴럴네트워크를 구성하는 i번째의 상기 신경세포모양소자의 내부상태값을 Xi로 하고, τi를 시정수로 하며, 상기 신경세포모양소자로의 상기 가중치입력값을 Zj(j 는 0에서 n, n은 0 또는 자연수)로 하면, 상기 내부상태값 갱신수단이
    을 만족하는 값으로 내부상태값을 갱신하는 것을 특징으로 하는 뉴럴네트워크를 이용한 음성인식장치.
  2. 제3항에 있어서, 상기 i번째의 신경세포모양소자로의 가중치 입력값(Zj)이 상기 i번째의 신경세포모양소자 자신의 출력에 가중치를 곱한 값을 포함하는 것을 특징으로 하는 뉴럴네트워크를 이용한 음성인식장치.
  3. 제3항에 있어서, 상기 i번째의 신경세포모양소자로의 가중치 입력값(Zj)이 상기 뉴럴네트워크를 구성하는 다른 신경세포모양소자의 출력에 가중치를 곱한 값을 포함하는 것을 특징으로 하는 뉴럴네트워크를 이용한 음성인식장치.
  4. 제3항에 있어서, 상기 i번째의 신경세포모양소자로의 가중치 입력값(Zj)이 상기 뉴럴네트워크의 외부에서 주어진 데이터를 포함하는 것을 특징으로 하는 뉴럴네트워크를 이용한 음성인식장치.
  5. 제3항에 있어서, 상기 i번째의 신경세포모양소자로의 가중치 입력값(Zj)이 어떤 고정된 값에 가중치를 곱한 값을 포함하는 것을 특징으로 하는 뉴럴네트워크를 이용한 음성인식장치
  6. 뉴럴네트워크를 구성하는 각 신경세포모양소자가 내부상태값 기억수단과, 상기 내부상태값 기억수단에 기억된 내부상태값과 그 신경세포모양소자에 입력되는 입력값에 기초하여 상기 내부상태값 기억수단의 내부상태값을 갱신하는 내부상태값 갱신수단과, 상기 내부상태값 기억수단의 출력을 외부출력값으로 변환하는 출력값 생성수단을 갖는 뉴럴네트워크를 이용한 음성인식장치에 있어서, 상기 내부상태값 갱신수단은 상기 입력값 및 상기 내부상태값에 가중치를 붙여 누계하는 가중치 누계수단으로서 형성되고, 상기 내부상태값 기억수단은 상기 가중치 누계수단에 의해 누계된 값을 적분하는 적분수단으로서 형성되며, 상기 출력값 생성수단은 상기 적분수단에 의해 얻어진 값을 이미 설정된 상한값과 하한값 사이의 값으로 변환하는 출력값 제한수단으로서 형성되고, 상기 출력값 생성수단이 양음대칭출력범위를 가지는 것을 특징으로 하는 뉴럴네트워크를 이용한 음성인식장치.
  7. 제3항에 있어서, 상기 뉴럴네트워크는 적어도 긍정출력, 부정출력의 2개의 출력을 가지는 것을 특징으로 하는 뉴럴네트워크를 이용한 음성인식장치.
  8. 제3항에 있어서, 상기 음성인식장치는 인식시키고 싶은 입력의 특징추출을 행하고 특징추출한 값을 상기 뉴럴네트워크에 입력하는 음성특징추출수단과, 상기 뉴럴네트워크의 출력값을 인식결과로 변환하는 인식결과 출력수단과, 상기 뉴럴네트워크를 구성하는 신경세포모양소자의 내부상태값 기억수단에 이미 설정된 초기값을 주는 내부상태값 초기화수단을 가지는 것을 특징으로 하는 뉴럴네트워크를 이용한 음성인식장치.
  9. 제10항에 있어서, 상기 뉴럴네트워크에 배경잡음을 입력하는 배경잡음입력수단과, 상기 뉴럴네트워크의 출력에서 평형상태를 검출하고 상기 평형상태의 검출에 기초하여 내부상태 초기값 설정수단에 이미 설정된 내부상태 초기값을 변경하는 신호를 출력하는 평형상태 검출수단을 설치한 것을 특징으로 하는 뉴럴네트워크를 이용한 음성인식장치.
  10. 상기 뉴럴네트워크를 학습시키기 위한 학습단계를 가지고, 상기 학습단계는, 학습용 입력데이터를 기억하는 입력데이터 기억단계, 상기 기억된 입력데이터에서 학습용 입력데이터를 선택하는 입력데이터 선택단계, 학습용 출력데이터를 기억하는 출력데이터 기억단계, 선택된 입력데이터와 그 연쇄에 의해 학습용 출력데이터를 선택하는 출력데이터 선택단계, 및 선택된 학습용 입력데이터를 특징추출부에 입력하고 상기 뉴럴네트워크의 학습을 제어하는 학습제어단계를 가지며, 상기 학습제어단계는 상기 뉴럴네트워크의 출력과 상기 출력데이터 선택단계의 출력에 기초하여 신경세포모양소자의 결합의 가중치를 변경하는 것을 특징으로 하는 제11항에 따른 뉴럴네트워크를 이용한 음성인식장치의 학습방법.
  11. 제12항에 있어서, 상기 입력데이터 기억단계는 복수개의 범주를 가지고, 상기 출력데이터 기억단계는 상기 입력데이터 기억단계의 각 범주에 대응하는 범주를 가지며, 상기 입력데이터 선택단계는 상기 입력데이터 기억단계의 범주에서 학습시키고 싶은 복수개의 데이터를 선택하고, 상기 출력데이터 선택단계는 상기 입력데이터 선택단계에 의해 선택된 학습용 입력데이터에 대응하는 학습용 출력데이터를 선택하며, 상기 학습제어단계는, 상기 입력데이터 선택단계에서 선택한 복수개의 데이터를 1개로 연결하는 입력데이터 연결단계, 및 상기 출력데이터 선택단계에서 선택한 학습용 출력데이터를 1개로 연결하는 출력데이터 연결단계를 가지고, 상기 학습제어단계는 상기 연결한 1개의 학습용 입력데이터를 음성특징 추출수단에 입력하고, 상기 뉴럴네트워크의 출력과 상기 출력데이터 연결단계의 출력에 기초하여 상기 신경세포모양소자의 결합의 가중치를 변경하는 것을 특징으로 하는 뉴럴네트워크를 이용한 음성인식장치의 학습방법.
  12. 제13항에 있어서, 상기 범주의 수가 2인 것을 특징으로 하는 뉴럴네트워크를 이용한 음성인식장치의 학습방법.
  13. 제12항 내지 제14항 중 어느 한 항에 있어서, 상기 학습단계는 잡음데이터를 기억하는 잡음데이터 기억단계, 및 상기 선택된 학습데이터에 상기 잡음데이터 기억단계에서 선택된 잡음을 중첩하는 잡음중첩단계를 가지고, 상기 잡음중첩단계에 의해 잡음이 중첩된 입력데이터를 이용하여 상기 뉴럴네트워크를 학습시키는 것을 특징으로 하는 뉴럴네트워크를 이용한 음성인식장치의 학습방법.
  14. 제15항에 있어서, 상기 배경잡음을 중첩시키는 위치를 벗어나서 반복하여 학습시키는 것을 특징으로 하는 뉴럴네트워크를 이용한 음성인식장치의 학습방법.
  15. 제15항에 있어서, 처음에 배경잡음이 중첩되어 있지 않은 입력데이터로 학습시킨 후에 같은 입력데이터에 배경잡음을 중첩하여 학습시키는 것을 특징으로 하는 뉴럴네트워크를 이용한 음성인식장치의 학습방법.
KR1019930703580A 1992-03-30 1993-03-26 뉴럴 네트워크를 이용한 음성인식장치 및 그 학습방법 KR100292919B1 (ko)

Applications Claiming Priority (13)

Application Number Priority Date Filing Date Title
JP7381892 1992-03-30
JP92-73818 1992-03-30
JP92-87146 1992-04-08
JP8714692 1992-04-08
JP8878692 1992-04-09
JP92-88786 1992-04-09
JP15942292 1992-06-18
JP92-159422 1992-06-18
JP15944192 1992-06-18
JP92-159441 1992-06-18
JP16107592 1992-06-19
JP92-161075 1992-06-19
PCT/JP1993/000373 WO1993020552A1 (en) 1992-03-30 1993-03-26 Speech recognition apparatus using neural network, and learning method therefor

Publications (1)

Publication Number Publication Date
KR100292919B1 true KR100292919B1 (ko) 2001-06-15

Family

ID=27551274

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019930703580A KR100292919B1 (ko) 1992-03-30 1993-03-26 뉴럴 네트워크를 이용한 음성인식장치 및 그 학습방법

Country Status (6)

Country Link
EP (1) EP0586714B1 (ko)
JP (2) JP3521429B2 (ko)
KR (1) KR100292919B1 (ko)
DE (1) DE69327997T2 (ko)
HK (1) HK1013879A1 (ko)
WO (1) WO1993020552A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100772373B1 (ko) 2005-02-07 2007-11-01 삼성전자주식회사 복수개의 데이터 처리 장치를 이용한 데이터 처리 장치 및그 방법과, 이를 구현하기 위한 프로그램이 기록된 기록매체
KR101991041B1 (ko) 2018-12-31 2019-06-19 서울대학교산학협력단 아날로그 이진인공신경망 회로에서 활성도 조절을 통한 공정변이 보상방법 및 그 시스템

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5715372A (en) * 1995-01-10 1998-02-03 Lucent Technologies Inc. Method and apparatus for characterizing an input signal
TW347503B (en) * 1995-11-15 1998-12-11 Hitachi Ltd Character recognition translation system and voice recognition translation system
JP2013529342A (ja) 2010-05-19 2013-07-18 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア ニューラル処理ユニット
US9082078B2 (en) 2012-07-27 2015-07-14 The Intellisis Corporation Neural processing engine and architecture using the same
US9185057B2 (en) 2012-12-05 2015-11-10 The Intellisis Corporation Smart memory
US10061531B2 (en) 2015-01-29 2018-08-28 Knuedge Incorporated Uniform system wide addressing for a computing system
US9552327B2 (en) 2015-01-29 2017-01-24 Knuedge Incorporated Memory controller for a network on a chip device
KR102494139B1 (ko) * 2015-11-06 2023-01-31 삼성전자주식회사 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
US10027583B2 (en) 2016-03-22 2018-07-17 Knuedge Incorporated Chained packet sequences in a network on a chip architecture
US10346049B2 (en) 2016-04-29 2019-07-09 Friday Harbor Llc Distributed contiguous reads in a network on a chip architecture
KR20180080446A (ko) * 2017-01-04 2018-07-12 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN110310628B (zh) 2019-06-27 2022-05-20 百度在线网络技术(北京)有限公司 唤醒模型的优化方法、装置、设备及存储介质
NL2029215B1 (en) * 2021-09-21 2022-06-03 Univ Dalian Tech Speech keyword recognition method based on gated channel transformation sandglass residual neural network

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0272398A (ja) * 1988-09-07 1990-03-12 Hitachi Ltd 音声信号用前処理装置
JP2897220B2 (ja) * 1988-09-17 1999-05-31 ソニー株式会社 信号処理装置
JP2580826B2 (ja) * 1990-03-14 1997-02-12 日本電気株式会社 フィードバック神経細胞モデル
JP3091504B2 (ja) * 1991-03-26 2000-09-25 三洋電機株式会社 神経回路網モデルによる音声認識方法
JPH04295894A (ja) * 1991-03-26 1992-10-20 Sanyo Electric Co Ltd 神経回路網モデルによる音声認識方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100772373B1 (ko) 2005-02-07 2007-11-01 삼성전자주식회사 복수개의 데이터 처리 장치를 이용한 데이터 처리 장치 및그 방법과, 이를 구현하기 위한 프로그램이 기록된 기록매체
KR101991041B1 (ko) 2018-12-31 2019-06-19 서울대학교산학협력단 아날로그 이진인공신경망 회로에서 활성도 조절을 통한 공정변이 보상방법 및 그 시스템

Also Published As

Publication number Publication date
JP3521429B2 (ja) 2004-04-19
WO1993020552A1 (en) 1993-10-14
EP0586714A1 (en) 1994-03-16
EP0586714B1 (en) 2000-03-08
EP0586714A4 (en) 1995-12-13
DE69327997T2 (de) 2000-07-27
DE69327997D1 (de) 2000-04-13
JP2000298663A (ja) 2000-10-24
HK1013879A1 (en) 1999-09-10

Similar Documents

Publication Publication Date Title
KR100292919B1 (ko) 뉴럴 네트워크를 이용한 음성인식장치 및 그 학습방법
JP3168779B2 (ja) 音声認識装置及び方法
EP0574951B1 (en) Speech recognition system
Kumatani et al. Direct modeling of raw audio with dnns for wake word detection
US20080147391A1 (en) Method of and apparatus for transforming speech feature vector
US5809461A (en) Speech recognition apparatus using neural network and learning method therefor
US5461696A (en) Decision directed adaptive neural network
US6151592A (en) Recognition apparatus using neural network, and learning method therefor
US5181256A (en) Pattern recognition device using a neural network
US20050071161A1 (en) Speech recognition method having relatively higher availability and correctiveness
JPH0540497A (ja) 話者適応音声認識装置
JPH07306692A (ja) 音声認識装置及び音声入力装置
JP3467556B2 (ja) 音声認識装置
JPH064097A (ja) 話者認識方法
JPH06119476A (ja) 時系列データ処理装置
KR102159988B1 (ko) 음성 몽타주 생성 방법 및 시스템
JP3521844B2 (ja) ニューラルネットワークを用いた認識装置
JP2021005122A (ja) 同一事象に対して時系列に発生した異なるメディアデータを統合した学習モデルを構築するプログラム、装置及び方法
Wang et al. Speaker verification and identification using gamma neural networks
JPH05204399A (ja) 不特定話者音素認識方法
JP2792709B2 (ja) 音声認識装置
KR102536736B1 (ko) 언어 학습 시스템 및 방법
Benıtez et al. Word verification using confidence measures in speech recognition
Agarwalla et al. Composite feature set for mood recognition in dialectal assamese speech
KR20000058531A (ko) 음성합성 및 음성인식 기술을 이용한 언어 학습 및 훈련기능을 가진 완구의 제어방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20120302

Year of fee payment: 12

EXPY Expiration of term