KR910007530B1 - 음성인식장치 및 그 방법 - Google Patents

음성인식장치 및 그 방법 Download PDF

Info

Publication number
KR910007530B1
KR910007530B1 KR1019880013005A KR880013005A KR910007530B1 KR 910007530 B1 KR910007530 B1 KR 910007530B1 KR 1019880013005 A KR1019880013005 A KR 1019880013005A KR 880013005 A KR880013005 A KR 880013005A KR 910007530 B1 KR910007530 B1 KR 910007530B1
Authority
KR
South Korea
Prior art keywords
dictionary
axis
pattern
orthogonalization
data
Prior art date
Application number
KR1019880013005A
Other languages
English (en)
Other versions
KR890007211A (ko
Inventor
츠네오 니타
Original Assignee
가부시키가이샤 도시바
아오이 죠이치
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP62252107A external-priority patent/JP2514984B2/ja
Priority claimed from JP62252109A external-priority patent/JP2514986B2/ja
Priority claimed from JP62252108A external-priority patent/JP2514985B2/ja
Priority claimed from JP62252106A external-priority patent/JP2514983B2/ja
Application filed by 가부시키가이샤 도시바, 아오이 죠이치 filed Critical 가부시키가이샤 도시바
Publication of KR890007211A publication Critical patent/KR890007211A/ko
Application granted granted Critical
Publication of KR910007530B1 publication Critical patent/KR910007530B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

내용 없음.

Description

음성인식장치 및 그 방법
제1도는 일반적으로 패턴매칭방법에 따른 음성인식장치를 나타낸 블록도.
제2도는 일반적은 부분공간법에 따른 음성인식장치를 나타낸 블록도.
제3도는 본 발명에 따른 음성인식장치의 1실시예를 나타낸 블록도.
제4도는 제3도에 나타낸 직교화시간필터부의 처리과정을 나타낸 플로우챠트.
제5도는 제3도에 나타낸 직교화시간필터부의 재직교화처리 과정을 나타낸 플로우챠트.
제6도는 제3도에 나타낸 직교화시간필터부의 처리과정을 나타낸 플로우챠트.
제7도는 제3도에 나타낸 직교화시간필터부의 또 다른 처리과정을 나타낸 플로우챠트.
제8도는 본 발명에 따른 음성인식장치의 다른 실시예를 나타낸 블록도.
제9도는 제8도에 나타낸 실시예에서 부가사전이 발생하는 처리과정을 나타낸 플로우챠트.
제10도는 제8도에 나타낸 실시예에서 음성인식성능을 평가하기 위한 실험표본을 나타낸 그래프.
제11도는 본 발명에 따른 음성인식장치의 또 다른 실시예를 나타낸 블록도.
제12도는 제11도에 나타낸 직교화시간/주파수필터부의 처리과정을 나타낸 플로우챠트.
제13도는 제11도에 나타낸 직교화시간/주파수필터부의 다른 처리과정을 나타낸 플로우챠트.
제14도는 본 발명의 또 다른 실시예를 나타낸 블록도이다.
* 도면의 주요부분에 대한 부호의 설명
1 : 음향분식부 2 : 시작단/종단검출기
3 : 표준패턴사전 4 : 패턴매칭부
5 : 결정부 6 : 표본점추출부
7 : 패턴축적부 8 : GS 직교화부
9 : 직교화사전 10 : 유사도계산부
11 : 직교화시간필터부 12 : 직교화시간/주파수필터부.
[적용분야]
본 발명은 적은 수의 학습패턴을 사용하여 높은 인식성능을 얻을 수 있는 음성인식장치 및 그 방법에 관한 것이다.
[종래기술 및 그 문제점]
음성에 의한 정보의 입출력은 사람들에게 매우 자연스럽고, 또한 맨-머쉰 인터페이스(man-machine interface)의 관점에서 볼 때 매우 우수하기 때문에 여러 가지 음성 입출력장치가 연구되어졌다. 현재 실용화되고 있는 패턴매칭방법에 따른 음성인식장치는 단어음성을 인식하기 위한 것으로, 제1도에 나타낸 바와 같이 구성되어 있다.
음향분석부(1)는 마이크로폰을 사용하여 발성된 음성을 전기적신호로 변환하고, BPF(Band Pass Filtering) 분석이나 LPC(Linear Prediction Coding) 분석을 사용하여 음향적으로 분석하며, 시작단/종단검출기(2)는 분석된 신호의 단어음성구간을 검출한다. 표준패턴사전(3)은 인식된 단어의 표준패턴을 미리 저장하고, 패턴매칭부(4)는 유사도나 거리(예컨대 유클리드 거리나 DP(Dynamic Programming) 매칭에서 절대값의 합) 등을 계산하며, 결정부(5)는 상기 패턴매칭부(4)에서 계산된 유사도나 거리값을 이용하여 인식결과를 결정한다. 예컨대, 상기 결정부(5)는 입력음성의 인식결과로서 가장 높은 유사도를 갖는 표준패턴의 카테고리명을 얻는다.
그러나 패턴매칭방법에 의한 음성인식에서는 입력음성패턴과 미리등록된 표준패턴간에서 시간축방향의 변차(패턴변형)가 문제로 되었다.
따라서 부분공간법이 제시되었다. 이 부분공간법에 있어서 직교화사전은 미리 요구된 학습패턴에 기인하여 발생되어지고, 음성인식은 사전을 사용하여 실행된다.
제2도는 부분공간법의 구성을 나타내는바, 음향분석부(1)와 시작단/종단검출기(2)는 제1도와 마찬가지인 구성과 기능을 가지고 있다. 표본점추출부(6)는 시작단/종단검출기(2)에서 검출된 음성부를 등분할하여 소정의 표본점의 수를 추출하고, (특징벡터의 수 X 표본점의 수)에 의해 표현된 표준패턴을 구한다. 이러한 표준패턴의 소정의 수는 인식된 카테고리(단어 인식, 음절)의 단위로 얻어지고, 패턴축적부(7)에 축적된다. 그램-쉬미트(Gram-Schmidt)직교화부(8)는 다음과 같이 패턴축적부(7)에 축적된 소정의 표준패턴의 수(3 또는 그 이상)을 이용하여 직교화사전(9)을 작성한다.
각 카테고리마다 그 카테고리의 m번째 학습패턴을 am으로 하고, 3회 발성된 학습패턴을 이용한 경우를 가정하면, i) 먼저 1회째의 학습데이터(a1)를 제1축의 사전(b1)으로 놓으면 다음과 같은 관계가 직교화사전(9)에 등록된다.
Figure kpo00001
ii) GS 직교화식을 이용하여 제2학습패턴데이터(a2)를 기초로 다음과 같은 계산이 수행된다.
Figure kpo00002
∥b2∥가 소정값보다 클 때 ∥b2∥는 제2축의 b3로서 직교화사전(9)에 등록된다. 공식(2)에서, (·)는 내적을 나타내고, ∥ ∥는 노르말을 나타낸다.
iii) 제3학습데이터(α3)를 기초로 다음과 같은 계산이 수행된다.
Figure kpo00003
∥b3∥가 소정값보다 클 때 ∥b3∥는 제3축과
Figure kpo00004
로서 직교화사전(9)에 등록되지만, 제2축의 사전이 구해지지 않았다면 식(2)의 계산을 수행하고, 각 카테고리에 대해 동작 i)∼iii)이 수행되어 복수의 직교화사전을 준비한다.
유사도계산부(10)는 앞에서 설명한 바와 같이 작성된 직교화사전(9)과 각 입력음성패턴(X)의 사이에서 다음과 같은 식을 계산한다.
Figure kpo00005
따라서 카테고리(i)의 각 직교화사전 (b1,r)에 따른 유사도가 계산되고, 입력음성패턴(X)은 계산된 유사도에 따라 인식되며, 카테고리(i)의 복수의 직교화사전 (b1,r)은 미리 정규화된다. 여기서 Ki는 사전의 수(축의 수)를 나타낸다.
그러나 GS 직교화를 사용하는 방식에 있어서, 각 직교축에 의해 생기는 편차는 명확하지 못하다. 특히 직교화에 있어서 직교축의 다양성이 고려되어 질 수 있고, 패턴편차변동은 직교축에 의존하기 때문에 상기한 바와 같이 계산된 직교화사전(9)의 카테고리(i)의 표준패턴 {b1,1,b1,2,b1,3}은 카테고리(i) 본래의 표준적 패턴을 항상 잘 표현하지 못한다.
[발명의 목적]
본 발명은 상기와 같은 실정을 감안하여 발명된 것으로, 적은 수의 학습패턴에 의해 표준패턴을 잘 표현 할 수 있는 직교화사전을 작성할 수 있고, 인식과정에서 성능 개선할 수 있는 음성인식장치와 그 방법을 제공하는데 그 목적이 있다.
[발명의 구성]
상기 목적을 달성하기 위한 본 발명은, 입력되는 음성을 전기적인 신호로 변환하고 전기적인 신호를 음향적으로 분석하는 음향분석수단과, 음향적으로 분석된 전기적인 신호의 음성구간을 검출하는 음성구간검출수단, 이 음성구간검출수단에 의해 음성구간이 검출된 음성패턴으로부터 소정수의 표본점을 추출하여 표본패턴을 구해내는 표본패턴발생수단, 인식된 각 카테고리(i; i는 1 또는 1보다 큰 양의 정수)에 대해 상기 표본패턴발생수단(6)에 의해 발생된 소정수의 표본패턴을 축적하는 표본패턴축적수단, 카테고리(i)의 표본패턴으로부터 평균패턴을 구해 그 평균패턴을 시간축에 따라 평활화함에 따라 얻어지는 제1축의 사전데이터를 발생시키고 그 평균패턴을 시간축에 따라 미분해서 제N축(N은 1 또는 1보다 큰 양의 정수)의 사전데이터를 발생시키는 직교화시간필터수단, 이 직교화시간필터수단에 의해 발생된 제1축과 제N축의 사전데이터를 저장시키는 직교화사전수단, 상기 표본패턴발생수단에 의해 생성된 표본패턴과 상기 직교화사전의 수단에 축적된 제1축과 제N축의 사전데이터 사이에서 유사도를 계산하는 유사도계산수단 및, 이 유사도계산수단에 의해 계산된 유사도를 기초로 하여 입력패턴을 결정하는 입력결정수단을 구비하여 구성되어 있다.
또한 본 발명에 따른 음성인식방법은 입력음성을 전기적인 신호로 변환해서 그 전기적인 신호를 음향적으로 분석하고, 음향적으로 분석된 전기적인 신호의 음성구간을 검출하며, 음성구간이 검출된 음성패턴으로부터 소정수의 표본점을 추출해서 표본패턴을 구하고 인식된 각 카테고리(i; i는 1 또는 1보다 큰 양의 정수)에 대해 소정수의 표본패턴을 축적시키며, 카테고리(i)의 표본패턴으로부터 평균패턴을 구해 그 평균패턴을 시간축에 따라 평활화함에 의해 제1축의 사전데이터를 구하며 그 평균패턴을 시간축에 따라 미분해서 제N축(N은 1 또는 1보다 큰 양의 정수)의 사전데이터를 구하고, 제1축과 제N축의 발생된 사전데이터를 축적시키며, 계산된 유사도를 기초로 하여 입력패턴을 결정하도록 구성되어 있다.
[작용]
본 발명 음성인식장치에 따르면, 직교화사전은 시간축방향으로 음성패턴의 편차를 흡수하기 위해 생성되어지므로 음성인식은 시간축방향으로 입력음성패턴의 편차에 의한 영향없이 수행될 수 있다. 따라서 인식성능이 개선될 수 있다. 직교화사전은 직교화시간필터를 이용하여 생성되어지므로 고성능의 직교화사전이 학습패턴의 적은 수에 따라 효과적으로 생성되어질 수 있다.
또한 상기 직교화사전에 직교하는 부가사전이 생성되므로 상기한 시간축방향의 패턴편차 이외의 패턴편차를 효과적으로 흡수할 수 있는 인식처리가 수행될 수 있다.
원하는 학습패턴의 평균패턴을 구하기 위해 3가지나 그 이상의 형태의 필터가 이용되고, 시간축과 주파수축에 따라 평균패턴이 평활화 되어 제1축의 사전을 얻을 수 있으므로 시간축과 주파수축에 따른 음성패턴의 편차는 효과적으로 흡수된다. 또한 제2축의 사전을 얻기 위해 시간축에 따라 평균패턴이 미분되어 시간축에 따른 음성패턴의 편차가 효과적으로 흡수될 수 있고, 제3축의 사전을 얻기 위해 주파수축에 따라 평균패턴이 미분되어 주파수축에 따른 음성패턴의 편차가 효과적으로 흡수된다. 상기와 같은 방법에 따라 시간축과 주파수축에 의해 패턴편차를 흡수하는 직교화사전이 생성되어질 수 있으므로, 이 직교화사전의 각 사전패턴은 편차에 의해 야기되는 변위에 대응되므로 인식수행의 개선에 크게 기여한다. 또한 제2, 제3축의 사전은 시간축과 주파수축에 따라 패턴편차를 흡수하는 평균패턴에 의해 생성된 사전패턴(제1축)에 의해 얻어지고, 이에 따라 직교화사전이 생성된다. 따라서 직교화사전 자체의 각 직교축에 의해 발생된 패턴편차는 일반적인 장치에서는 명확하지 못하다. 따라서 적은 수의 학습패턴을 효과적으로 사용함에 따라 높은 직교화사전이 생성되어 질 수 있다.
또한 직교화사전에 직교하는 부가산이 생성되어지고 직교사전에 부가되므로 부가사전은 인식처리를 수행하기 위해 앞에서 설명한 시간축과 주파수축에 따라 그 이외의 패턴편차를 효과적으로 흡수할 수 있다. 따라서 인식성능이 크게 개선될 수 있다.
[실시예]
제3도는 본 발명에 따른 음성인식장치의 1실시예를 나타낸 블록도이고, 제1도와 제2도에 나타낸 일반적인 음성인식장치와 같은 부분에는 동일 참조부호를 붙혀 그 설명을 생략한다.
본 실시예는 직교화사전을 생성하기 위한 수단으로서 직교화시간필터부(11)를 사용하는데 그 특징이 있다. 일반적인 음성인식장치에 있어서, 직교화사전(9)은 패턴축적부(7)에 저장된 학습패턴을 이용하여 GS직교화부(8)에 의해 생성된다. 본 발명에서는 직교화시간필터부(11)가 GS 직교화부(8) 대신 사용되어졌다. 직교화시간필터부(11)는 적어도 평활화처리와 미분처리를 위해 다수의 필터로 구성되어지는 바, 예컨대 다수의 직교화시간필터로 구성된다. 또한 직교화시간필터부(11)는 디지털신호 처리기로 구성되어질 수 있다.
본 실시예에서 패턴축적부(7)에서 수집된 학습패턴은 j(∠=0,1,…,15)로 표현되는 16개의 음향분석된 특징벡터로 구성되는 데이터장치로서 주어지고, k(=0,1,…,16)로 주어지는 17개의 부구간으로 음성부를 등분할하는 18개의 표본점에서 표본되어지는 것을 가정한다.
카테고리(i)에 대해 3회씩 수집된 m번째의 학습패턴을 αm(j,k)으로 하면, 직교화시간필터부(11)는 다음과 같이 직교화사전(9)을 작성한다. 이에 관한 설명은 제4도에 나타낸 플로우챠트를 참조하여 상세히 설명한다.
먼저 단계 21에서 직교화시간필터부(11)는 식(5)을 이용하여 카테고리(i)의 학습패턴 αm(j,k)으로부터 평균패턴 A(j,k)을 계산한다.
Figure kpo00006
단계 23에서 직교화시간필터부(11)는 제1축의 사전 b1(j,k)을 계산하기 위해 식(6)으로 단계 21에서 계산된 평균패턴 A(j,k)을 대신하여 상기 직교화사전(9)을 등록하고, 사전 b1(j,k)은 시간축에 따라 평균패턴 A(j,k)을 평활화 하는 것에 의해 계산되며, 상기 직교화시간필터부(11)는 사전 b1(j,k)을 정규화하고 상기 직교화사전(9)의 참고데이터로 제공되는 제1축의 사전데이터로서 등록한다.
Figure kpo00007
단계 25에서 직교화시간필터부(11)는 제2축의 사전 B2(J,K)을 계산하기 위해 식(7)으로 평균패턴 a(J,K)을 대신하고 계산된 사전을 정규화 한다. 그후 직교화시간필터부(11)는 직교화사전(9)에 사전을 등록한다. 사전 b2(j,k)은 시간축에 따라 평균패턴 A(j,k)을 미분하는 것에 의해 계산되어질 수 있다.
Figure kpo00008
이상과 같이 계산된 제2축의 사전 b2(j,k)은 제1축의 사전 b1(j,k)에 완전하게 직교하지는 않으므로 제5도에 나타낸 단계 27에서 사전 b2(j,k)에 대해 재직교화 처리가 수행된다. 특히 사전 b2(j,k)이 식(8)을 이용하여 재직교화되고 재직교화된 사전데이터 B2(j,k)는 정규화된다. 그때 정규화된 데이터는 제2축의 사전으로서 직교화사전(9)에 등록되어진다.
Figure kpo00009
그러나 이러한 재직교화처리가 수행되지 않으면, 상기한 바와 같이 계산된 제2축의 사전 b2(j,k)을 이용하여 만족할 만한 인식수행을 얻을 수 있다.
따라서 단계 21과 23 및 25의 처리동작이 반복적으로 수행되어 직교화사전(9)이 생성된다.
제6도는 직교화시간필터부(11)에 의해 직교화사전(9)을 생성하는 또 다른 처리과정을 나타낸 것으로, 특히 단계 29에서 수집된 학습패턴 am(j,k)은 제1축의 사전 b1(j,k)을 얻기 위해 식(9)으로 구성되고, 사전은 직교화사전(9)에 정규화되고 등록되어진다.
Figure kpo00010
직교화시간필터부(11)는 제2축의 사전 b2(j,k)을 계산하기 위해 단계 31에서 식(10)으로 학습패턴 am(j,k)을 구성하여 직교화사전(9)에 등록한다.
Figure kpo00011
단계 29와 단계 31에 나타낸 처리동작은 카테고리의 수만큼 반복실행하여 직교화사전을 생성한다. 제6도에 나타낸 직교화사전을 생성하는 방법에 있어서, 시간축에 따라 평활화된 제1축의 사전 b1(j,k)과 시간축에 따라 미분된 제2축의 사전 b2(j,k)은 잠정적으로 계산되는 평균패턴 Am(j,k)없이 수집된 학습패턴 am(j,k)의 소정의 수로부터 직접 계산되어질 수 있다.
상기 설명에서 직교화사전(9)은 제2축까지 계산되어질 수 있다.
상기 설명에서 직교화사전(9)은 제2축까지 계산되어지고, 제3축의 사전과 그 후의 사전은 2차미분 등에 의해 생성되어진다. 이 경우 학습패턴으로서, 상기한 바와 같이 18개의 점으로서 뿐만 아니라 20개의 점이나 그 보다 더 많은 점이 사용되어 질 수 있다.
위와 같은 경우 제7도에 나타낸 플로우챠트를 참고하여 설명한다.
단계 33에서 평균패턴 A(j,k)은 제4도에 나타낸 단계 21에서와 같이 식(5)을 이용하여 카테고리(i)의 학습패턴 am(j,k)으로부터 계산된다.
단계 35에서, 단계 33에서 얻어진 평균패턴 A(j,k)은 제1축의 사전 b1(j,k)을 계산하기 위해 식(11)으로 대체되어, 사전이 직교화사전(9)에 정규화되고 등록이 된다.
Figure kpo00012
Figure kpo00013
단계 37에서 평균패턴 A(j,k)은 제2축의 사전 b2(j,k)을 얻기 위해 식(12)으로 대체된다.
Figure kpo00014
단계 39에서 평균패턴 A(j,k)은 제2축의 사전 b2(j,k)을 얻기 위해 식(13)으로 대체된다.
Figure kpo00015
하기 표는 남성 5명과 여성 3명으로부터 15회 수집한 숫자음성입력과 인명으로 구성된 음성데이터로, 5회로 구성된 수집된 데이터를 학습용으로 사용하고 10회로 구성된 수집된 데이터를 인식성능평가용으로 사용하였다.
[표 1]
Figure kpo00016
상기 실험데이터로부터 알 수 있듯이, 직교화시간필터로 구성된 직교화사전을 사용할 때, 인식성능은 GS직교화방법에 의해 생성된 직교화사전의 경우보다 개선될 수 있다.
상기 실험데이터로부터, 음성인식을 수행하기 위해 사용된 시간축에 따른 대체를 보상하기 위해 미분필터를 사용하여 생성된 직교화사전을 사용한 본 발명 음성인식장치와 그 방법에 따르면, 적은 수의 학습패턴으로 높은 인식성능을 수행할 수 있다.
제8도는 본 발명 음성인식장치의 또 다른 실시예를 나타낸 블록도이다.
본 실시에는 제3도에 나타낸 실시예에 GS 직교화부를 부가적으로 설치해서 구성된 것으로, 직교화시간 필터부(11)에 의해 생성된 직교화사전(9)에 직교하는 사전은 부가사전으로 생성되어지고, 부가사전은 직교화사전(9)에 부가되어진다. 제8도에 나타낸 참조부호중 동일 참조부호는 제3도에 나타낸 부분과 같은 부분으로 그에 대한 설명은 생략한다. 패턴축적부(7)에 저장된 학습패턴으로부터 직교화사전(9)에 직교하는 부가사전을 생성하기 위한 GS 직교화부(8)의 처리는 제9도에 나타낸 플로우챠트를 참조하여 설명한다.
특히, 단계 41에서 GS 직교화부(8)는 GS 직교화식(식(14))으로 패턴축적부(7)에서 수집된 학습패턴 am(j,k)을 대신한다.
Figure kpo00017
(여기서 p는 직교화사전의 축의 수이다)
단계 43에서, GS 직교화부(8)는 단계 41에서 계산된 ∥bp+m∥이 소정값보다 크면 점검을 하고, 단계 43에서 YES이면 ∥bp+m∥이 부가사전으로서 직교화사전(9)에 등록된다.
단계 41, 43, 45에서의 처리동작은 카테고리의 수에 대응하는 횟수만큼 반복 실행된다.
부가사전은 직교화시간필터를 사용함에 따라 구성된 직교화사전에 부가하여 GS 직교화부(8)에 의해 생성되고, 직교화사전에 등록되며, 시간축에 따른 패턴편차가 효과적으로 흡수되는 한편 인식처리가 수행된다.
제10도에 나타낸 실험데이터로부터 복합유사도법(KL전개)에 있어서, 발성회수가 증가함에 따라 에러율의 감소는 미분/직교화보다 크지만, 5회정도의 발성에 대해 미분/직교화에 의해 계산된 직교화사전은 인식성능의 면에서 우수하므로 오히려 잘 사용된다.
제11도는 본 발명에 따른 음성인식장치의 또 다른 실시예를 나타낸 블록도인바, 제3도에 나타낸 참조부호와 동일부분에는 동일 참조부호를 붙혀 그 설명을 생략한다. 이 실시예의 특징은 제3도 나타낸 직교화시간필터부(11)의 대신으로 직교화시간필터부가 3개 내지 그 이상의 형태로 직교화시간/주파수필터부(12)가 구성되어 있다는 점이다.
직교화사전을 생성하기 위한 직교화시간/주파수필터부(12)의 처리는 제12도에 나타낸 플로우챠트를 참조하여 설명한다.
단계 51에서 평균패턴 A(j,k)는 다음과 같이 카테고리(i)의 학습패턴 am(j,k)으로부터 계산된다.
Figure kpo00018
단계 53에서 상기한 바와 같이 계산된 평균패턴 A(j,k)을 이용하면 제1축의 사전 b1(j,k)은 다음과 같이 계산된다.
Figure kpo00019
계산된 사전은 직교화사전(9)에서 정규화되고 등록된다. 사전 b1(j,k)은 시간축과 주파수축에 따라 평균패턴 A(j,k)을 평활화함에 의해 얻어지고, 직교화사전(9)에 참고데이터로서 제1축의 사전데이터로 등록된다.
단계 55에서, 제2축의 사전 b2(j,k)은 다음과 같은 평균패턴 A(j,k)을 이용하여 계산된다.
Figure kpo00020
계산된 사전은 정규화되고 직교사전(9)에 등록된다.
사전 b(j,k)은 시간축에 따라 평균패턴 A(j,k)을 미분함에 따라 얻어진다.
이러한 방법으로 계산된 제2축의 사전 b2(j,k)은 제1축의 사전 b1(j,k)에 완전하게 직교하지 않으므로 다음과 같은 식으로 표현되는 재직교화처리가 수행되는 것이 필요하다.
Figure kpo00021
재직교화사전데이터 B2(j,k)는 제2축의 새로운 사전 b2(j,k)으로서 직교화사전(9)에 등록될 수 있다. 그러나 재직교화가 수행되지 않을지라도 상기한 바와 같이 얻어진 사전 b2(j,k)에 의해 만족할만한 직교성능을 얻을 수 있다.
단계 51, 53, 55에서 처리동작은 각 카테고리에 대해 반복실행되어 직교화사전(9)을 생성한다.
제13도는 축의 수가 3개일 때, 직교화사전을 생성하는 처리과정을 나타낸 프로우챠트로서, 단계 57, 59, 61은 제12도에서의 단계 51, 53, 55와 같은 것으로 그에 대한 상세한 설명은 생략한다.
단계 63에서 평균패턴 A(j,k)을 이용하면 다음과 같은 식에 의해 제3축의 사전 b3(j,k)이 계산된다.
Figure kpo00022
계산된 사전은 정규화되고 직교화사전(9)에 등록된다.
사전 b3(j,k)은 주파수축에 따라 평균패턴 A(j,k)을 미분함에 의해 구해진다.
따라서 직교화사전(9)은 각 카테고리에 대해 단계 57, 59, 61, 63에서 처리를 반복함에 따라 생성될 수 있다.
제14도는 본 발명의 또 다른 실시예를 나타낸 블록도이다.
본 발명의 특징은 제11도에 나타낸 실시예에 GS 직교화부가 부가적으로 구성된 것으로, 직교화시간/주파수필터부(12)에 의해 생성된 직교화사전에 직교하는 사전은 부가사전으로서 생성되고, 직교화사전(9)에 부가된다.
제14도에 나타낸 참조부호중 제11도와 동일 부분에는 같은 참조부호를 붙혀 그에 대한 설명은 생략한다. 제14도에 나타낸 GS 직교화부(8)의 처리는 제8도에 나타낸 것과 같은 방법으로 식(14)을 이용하여 수행되고, 그에 대한 상세한 설명은 생략한다.
[효과]
이상에서 설명한 바와 같이 본 발명에 따르면, 필터를 이용하여 시간축방향의 패턴편차를 흡수하여 직교화사전을 작성하고, 또한 이 직교화사전에 부가하기 때문에 최소한의 학습패턴으로 그 패턴의 편차를 효과적으로 표현하는 사전을 얻을 수 있고, 그 인식성능의 향상을 도모할 수 있다.

Claims (33)

  1. 입력되는 음성을 전기적인 신호로 변환해서 그 전기적인 신호를 음향적으로 분석하는 음향분석수단(1)과, 음향적으로 분석된 전기적인 신호의 음성구간을 검출하는 음성구간검출수단(2), 이 음성구간검출수단(2)에 의해 음성구간이 검출된 음성패턴으로부터 소정수의 표본점을 추출하여 표본패턴을 구해내는 표본패턴발생수단(6), 인식된 각 카테고리(i; i는 1 또는 1보다 큰 양의 정수)에 대해 상기 표본패턴발생수단(6)에 의해 발생된 소정수의 표본패턴을 축적하는 표본패턴축적수단(7), 이 표본패턴축적수단에 축적된 소정수의 표본패턴을 사용하여 직교화사전을 발생시키는 직교화수단(8), 이 직교화수단에 의해 발생되는 직교화사전데이터를 축적하는 직교화사전수단(9), 상기 표본패턴발생수단에 의해 발생된 표본패턴과 상기 직교화사전수단(9)에 축적된 제1 및 제2축의 사전데이터 사이의 유사도를 계산해내는 유사도계산수단(10), 이 유사도계산수단(10)에 의해 계산된 유사도를 기초로 표본패턴을 결정하는 표본패턴결정수단(5)을 구비하여 구성된 음성인식장치에 있어서, 상기 직교화수단(8)은 카테고리(i)의 표본패턴으로부터 평균패턴을 계산하고, 이 평균패턴을 시간축을 따라 평활화함과 더불어 그 평균패턴을 시간축을 따라 미분하여 제2축의 사전데이터를 발생시키는 다수의 필터로 구성된 직교시간필터수단(11)으로 구성된 것을 특징으로 하는 음성인식장치
  2. 제1항에 있어서, 상기 직교시간필터수단(11)은 다음의 식
    Figure kpo00023
    을 기초로 카테고리(i)의 학습패턴 am(j,k)에 대한 평균패턴 A(j,k)을 계산하고,
    Figure kpo00024
    의 식을 따라 평균패턴 A(j,k)을 사용하여 제1축의 사전 b1(j,k)을 구한 다음,
    Figure kpo00025
    에 따라 평균패턴 A(j,k)을 사용하여 사전 b2(j,k)을 구하며, 제2축의 사전 b2(j,k)을 정규화하여 그 정규화된 사전을 상기 직교화사전수단에 등록시키도록 된 것을 특징으로 하는 음성인식장치
  3. 제2항에 있어서, 상기 직교화시간필터수단(11)은
    Figure kpo00026
    으로 표시되는 식을 기초로 제2축의 사전데이터의 재직교화처리를 수행하고, 그 재직교화된 사전데이터 B2(j,k)를 정규화하여 제2축의 사전으로서 상기 직교화사전수단에 등록시키도록 된 것을 특징으로 하는 음성인식장치.
  4. 제1항에 있어서, 상기 직교화시간필터수단은,
    Figure kpo00027
    로 표시되는 제1축의 사전 b1(j,k)을 카테고리(i)의 학습패턴 am(j,k)으로부터 구하고,
    Figure kpo00028
    로 표시되는 제2축의 사전 b2(j,k)을 학습패턴 am(j,k)으로부터 구해내어 상기 직교화사전수단에 등록시키도록 된 것을 특징으로 하는 음성인식장치
  5. 제1항에 있어서, 상기 직교시간필터수단은,
    Figure kpo00029
    로 표시되는 제1축의 사전 b1(j,k)를 카테고리(i)의 학습패턴 am(j,k)으로부터 구해내고,
    Figure kpo00030
    로 표시되는 제2축의 사전 b2(j,k)를 구해내며,
    Figure kpo00031
    의 식을 기초로 제2축의 사전데이터를 2차미분해서 제3축의 사전을 발생시키도록 된 것을 특징으로 하는 음성인식장치.
  6. (a) 입력음성을 전기적인 신호로 변환해서 그 전기적인 신호를 음향적으로 분석하는 단계 와, (b)음향적으로 분석된 전기적인 신호의 음성구간을 검출하는 단계, (c) 음성구간이 검출된 음성패턴으로부터 소정수의 표본점을 추출해서 표본패턴을 구하는 단계, (d) 인식된 각 카테고리 (i; i 는 1 또는 1보다 큰 양의 정수)에 대해 소정수의 표본패턴을 축적시키는 단계, (e) 축적된 소정수의 표본패턴을 사용하여 직교화사전을 발생시키는 단계, (f) 발생된 직교화사전데이터를 축적시키는 단계, (g) 상기 발생된 표본패턴과 제1, 제2축의 축적된 사전데이터 사이의 유사도를 계산하는 단계 및, (b) 계산된 유사도를 기초로 표본패턴을 결정하는 단계 로 구성된 음성인식방법에 있어서, 상기 직교화사전발생 단계 는 카테고리(i)의 표본패턴으로부터 평균패턴을 계산하고, 시간축을 따라 이 평균패턴을 평활화하여 제1축의 사전데이터를 발생시키며, 상기 평균패턴을 시간축을 따라 미분하여 제2축의 사전데이터를 발생시키도록 구성된 것을 특징으로 하는 음성인식방법.
  7. 제6항에 있어서, 상기 단계 (e)는 다음의 식
    Figure kpo00032
    을 기초로 카테고리(i)의 학습패턴 am(j,k)에 대한 평균패턴 A(j,k)을 계산하고,
    Figure kpo00033
    의 식에 따라 평균패턴 A(j,k)을 사용하여 제1축의 사전 b1(j,k)을 구하며,
    b2(j,k)=-A(j,k-1)+A(j,k+1)[j와 k는 양의 정수]
    의 식에 따라 평균패턴 A(j,k)을 사용하여 사전 b2(j,k)을 구하고, 제2축의 사전 b2(j,k)을 정규화하도록 구성된 것을 특징으로 하는 음성인식방법.
  8. 제7항에 있어서, 상기 단계 (e)는 다음의 식
    b2(j,k)=b2(j,k)-[b2(j,k)·b1(j,k)]·b1(j,k)
    를 기초로 제2축의 사전데이터를 재직교화 처리하고, 재직교화사전데이터 B2(j,k)를 정규화해서 제2축의 사전을 발생시키도록 된 것을 특징으로 하는 음성인식방법.
  9. 제6항에 있어서, 상기 단계 (e)에는 다음의 식
    b2(j,k)=(1/3)
    Figure kpo00034
    {am(j,k-1)+2*am(j,k)+am(j,k+1)} [j와 k는 양의 정수]
    로 표시되는 제1축의 사전 b(j,k)을 카테고리(i)의 학습패턴 am(j,k)으로부터 구하고,
    b2(j,k)=(1/3)
    Figure kpo00035
    {-am(j,k-1)+am(j,k+1)} [j와 k는 양의 정수]
    로 표시되는 제2축의 사전 b(j,k)을 학습패턴 am(j,k)으로부터 구하도록 된 것을 특징으로 하는 음성인식방법.
  10. 제6항에 있어서, 상기 단계 (e)는 다음의 식
    b1(j,k)=A(j,k-2)+4*A(j,k-1)+6*A(j,k)+4*A(j,k+1)+A|(j,k+2)[j와 k는 양의 정수]
    로 표시되는 제1축의 사전 b1(j,k)를 카테고리(i)의 학습패턴 am(j,k)으로부터 구하고,
    b2(j,k)=-A(j,k-2)-2*A(j,k-1)+2*A(j,k-1)+A(j,k+2)[j와 k는 양의 정수]
    로 표시되는 제2축의 사전 b2(j,k)을 구해내는 단계 및,
    b3(j,k)=-A(j,k-2)-2*A(j,k-1)+3*A(j,k)-2*A(j,k+1)-A|(j,k+2)
    의 식을 기초로 제2축의 사전데이터를 2차미분해서 제3축의 사전을 발생시키도록 된 것을 특징으로 하는 음성인식방법.
  11. 제1항에 있어서, 상기 직교화사전수단에 대해 직교되는 부가사전으로서의 사전을 발생시켜 그 직교화사전수단에 부가사전을 부가하는 직교화수단(8)이 더 포함된 것을 특징으로 하는 음성인식장치.
  12. 제11항에 있어서, 상기 직교화수단은 그램쉬미트 직교화에 의해 상기 직교화수단에 대해 직교하는 사전을 발생시키도록 된 것을 특징으로 하는 음성인식장치.
  13. 제11항에 있어서, 상기 직교화시간필터수단은 다음의 식
    A(j,k)=(1/3)
    Figure kpo00036
    am(j,k)[j와 k는 양의 정수]
    에 기초해서 카테고리(i)의 학습패턴 am(j,k)에 대한 평균패턴 A(j,k)을 계산하고,
    b1(j,k)=A(j,k-1)+2*A(j,k)+A(j,k-1)[j와 k는 양의 정수]
    의 식에 따라 평균패턴 A(j,k)를 사용하여 제1축의 사전 b1(j,k)을 구하며,
    b2(j,k)=-A(j,k-1)+A(j,k-1)
    의 식에 따라 평균패턴 A(j,k)을 사용하여 제2축의 사전 b2(j,k)을 구하고, 제2축의 사전b2(j,k)을 정규화해서 그 정규화사전을 직교화사전수단에 등록시키도록 된 것을 특징으로 하는 음성인식장치.
  14. 제13항에 있어서, 상기 직교화시간필터수단은 다음의 식
    B2(j,k)=b2(j,k)-[b2(j,k)·b1(j,k)]·b1(j,k)
    을 기초로 제2축의 사전데이터에 대한 재직교화처리를 수행하고, 재직교화사전데이터 B2(j,k)를 정규화해서 그 정규화사전데이터를 제2축의 사전으로서 상기 직교화사전수단에 등록시키도록 된 것을 특징으로 하는 음성인식장치.
  15. 제11항에 있어서, 상기 직교화시간필터수단은
    b1(j,k)=(1/3)
    Figure kpo00037
    {am(j,k-1)+2*am(j,k)+am(j,k+1)} [j와 k는 양의 정수]
    로 표시되는 제1축의 사전 b1(j,k)을 카테고리(i)의 학습패턴 am(j,k)으로부터 구하고,
    b2(j,k)=(1/3)
    Figure kpo00038
    {-am(j,k-1)+am(j,k+1)} [j와 k는 양의 정수]
    의 식으로 표시되는 제2축의 사전 b2(j,k)를 구하여 그 구해낸 사전을 상기 직교화사전수단에 등록시키도록된 것을 특징으로 하는 음성인식장치.
  16. 제11항에 있어서, 상기 직교화시간필터수단은
    b1(j,k)=A(j,k-2)+4*A(j,k-1)+6*A(j,k)+4*A(j,k+1)+A|(j,k+2)[j와 k는 양의 정수]
    의 식으로 표시되는 제1축의 사전 b1(j,k)를 카테고리(i)의 학습패턴 am(j,k)으로부터 구하고,
    b2(j,k)=-A(j,k-2)-2*A(j,k-1)+2*A(j,k+1)+A(j,k+2)[j와 k는 양의 정수]
    로 표시되는 제2축의 사전 b2(j,k)를 구하며,
    b3(j,k)=-A(j,k-2)-2*A(j,k-1)+3*A(j,k)-2*A(j,k+1)-A|(j,k+2)[j와 k는 양의 정수]
    의 식을 기초로 제2축의 사전데이터를 2차미분하여 제3축의 사전을 발생화시키도록 된 것을 특징으로 하는 음성인식장치.
  17. 제6항에 있어서, 상기 직교화사전에 직교하는 부가사전으로서의 사전을 발생시켜 그 부가사전을 상기 직교화사전에 부가시키는 단계 가 더 구비된 것을 특징으로 하는 음성인식방법.
  18. 제17항에 있어서, 상기 단계 (e)는 다음의 식
    A(j,k)=(1/3)
    Figure kpo00039
    am(j,k)[j와 k는 양의 정수]
    을 기초로 카테고리(i)의 학습패턴 am(j,k)에 대한 평균패턴 A(j,k)을 계산하고,
    b1(j,k)=A(j,k-1)+2*A(j,k)+A(j,k+1)[j와 k는 양의 정수]
    의 식에 따라 평균패턴 A(j,k)을 사용하여 제1축의 사전 b1(j,k)을 구하며,
    b2(j,k)=-A(j,k-1)+A(j,k+1)[j와 k는 양의 정수]
    의 식에 따라 평균패턴 A(j,k)를 사용하여 사전 b2(j,k)를 구하고, 제2축의 사전 b2(j,k)를 정규화하도록 된 것을 특징으로 하는 음성인식방법.
  19. 제18항에 있어서, 상기 단계 (e)는 다음의 식
    B2(j,k)=b2(j,k)-[b2(j,k)·b1(j,k)]·b1(j,k)
    을 기초로 제2축의 사전데이터의 재직교화처리를 실행하고, 재직교화사전데이터 B2(j,k)를 정규화하여 제2축의 사전을 발생시키도록 된 것을 특징으로 하는 음성인식방법.
  20. 제17항에 있어서, 상기 단계 (e)는 다음의 식
    b1(j,k)=(1/3)
    Figure kpo00040
    {am(j,k-1)+2*am(j,k)+am(j,k+1)} [j와 k는 양의 정수]
    로 표시되는 제1축의 사전 b1(j,k)를 카테고리(i)의 학습패턴 am(j,k)으로부터 구하고,
    b2(j,k)=(1/3)
    Figure kpo00041
    {-am(j,k-1)+am(j,k+1)} [j와 k는 양의 정수]
    로 표시되는 제2축의 사전 b2(j,k)를 학습패턴 am(j,k)으로부터 구하도록 된 것을 특징으로 하는 음성인식방법.
  21. 제17항에 있어서, 상기 단계 (e)는 다음의 식
    b1(j,k)=A(j,k-2)+4*A(j,k-1)+6*A(j,k)+4*A(j,k+1)+A|(j,k+2)[j와 k는 양의 정수]
    로 표시되는 제1축의 사전 b1(j,k)을 카테고리(i)의 학습패턴 am(j,k)으로부터 구하고,
    b2(j,k)=-A(j,k-2)-2*A(j,k-1)+2*A(j,k+1)+A(j,k+2)[j와 k는 양의 정수]
    로 표시되는 제2축의 사전 b2(j,k)을 구하며,
    b3(j,k)=-A(j,k-2)-2*A(j,k-1)+3*A(j,k)-2*A(j,k+1)-A|(j,k+2)[j와 k는 양의 정수]
    의 식을 기초로 제2축의 사전데이터를 2차미분하여 제3축의 사전을 발생시키도록 된 것을 특징으로 하는 음성인식방법.
  22. 제1항에 있어서, 상기 직교화수단은 카테고리(i)의 표본패턴으로부터 평균패턴을 구하고, 그 평균패턴을 시간축을 따라 평활화하여 제1축의 사전데이터를 발생시키며, 평균패턴을 시간축을 따라 미분하여 제2축의 사전데이터를 발생시키고, 평균패턴을 주파수축에 따라 미분하여 제3축의 사전데이터를 발생시키는 최소한 3가지 유형의 필터로 구성된 직교화시간/주파수필터수단(12)이 포함된 것을 특징으로 하는 음성인식장치.
  23. 제22항에 있어서, 상기 직교화시간/주파수필터수단은
    A(j,k)=(1/3)
    Figure kpo00042
    am(j,k)
    의 식을 이용하여 카테고리(i)의 학습패턴 am(j,k)로부터 평균패턴 A(j,k)을 구하고,
    b1(j,k)=A(j-1,k-1)+A(j-1,k)+A(j-1,k+1)+A(j,k-1)+2*A|(j,k)+A(j,k+1)+A(j+1,k-1)+A(j+1,k)+A(j+1,k+1)[j와 k는 양의 정수]
    의 식을 이용하여 제1축의 사전 b1(j,k)을 구하며,
    b2(j,k)=-A(j-1,k-1)+A(j-1,k+1)+{(-A(j,k-1)+A(j,k+1)}+{-A(j+1,k-1)+A(j+1,k+1)} [j와 k는 양의 정수]
    의 식을 이용하여 제2축의 사전 b2(j,k)를 구하고,
    b3(j,k)=-A(j-1,k-1)-A(j-1,k)-A(j-1,k+1)+A(j+1,k-1)+A|(j-1,k)+A(j+1,k+1)[j와 k는 양의 정수]
    의 식을 이용하여 제3축의 사전 b3(j,k)을 구하며, 상기 제1, 제2, 제3축의 사전을 정규화해서 그 정규화사전을 상기 직교화사전수단에 등록시키도록 된 것을 특징으로 하는 음성인식장치.
  24. 제23항에 있어서, 상기 직교화시간/주파수필터수단은
    B2(j,k)=b2(j,k)-[b2(j,k)·b1(j,k)]·b1(j,k)
    의 식을 기초로 제2축의 사전데이터에 대한 재직교화처리를 수행하여 그 재직교화사전데이터 B2(j,k)를 제2축의 새로운 사전 b2(j,k)로서 상기 직교화사전수단에 등록시키도록 된 것을 특징으로 하는 음성인식장치.
  25. 제6항에 있어서, 상기 직교화사전을 발생시키는 단계 는 카테고리(i)의 표본패턴으로부터 평균패턴을 구하고, 그 평균패턴을 시간축에 따라 평활화하여 제1축의 사전데이터를 발생시키며, 평균패턴을 시간축에 따라 비문하여 제2축의 사전데이터를 발생시키고, 평균패턴을 주파수축을 미분하여 제3축의 사전데이터를 발생시키도록 된 것을 특징으로 하는 음성인식방법.
  26. 제25항에 있어서, 상기 단계 (e)는 다음의 식
    A(j,k)=(1/3)
    Figure kpo00043
    am(j,k)
    를 이용하여 카테고리(i)의 학습패턴 am(j,k)으로부터 평균패턴 A(j,k)을 구하고,
    b1(j,k)=A(j-1,k-1)+A(j-1,k)+A(j-1,k+1)+A(j,k+1)+2*A|(j,k)+A(j,k+1)+A(j+1,k-1)+A(j-1,k)+A(j+1,k+1)[j와 k는 양의 정수]
    의 식을 이용하여 제1축의 사전 b1(j,k)를 구하며,
    b2(j,k)=-A(j-1,k-1)+A(j-1,k+1)+{-A(j,k-1)+A(j,k+1)}+{-A|(j+1,k-1)+A(j+1,k+1)} [j와 k는 양의 정수]
    의 식을 이용하여 제2축의 사전 b2(j,k)를 구하고,
    b3(j,k)=-A(j-1,k-1)-A(j-1,k)-A(j-1,k+1)+A(j-1,k+1)+A|(j+1,k)+A(j+1,k+1)[j와 k는 양의 정수]
    의 식을 이용하여 제3축의 사전 b3(j,k)를 구하며, 상기 제1, 제2, 제3축의 사전을 정규화하도록 구성된 것을 특징으로 하는 음성인식방법.
  27. 제26항에 있어서, 상기 단계 (e)는 다음의 식
    B2(j,k)=b2(j,k)-[b2(j,k)·b1(j,k)]·b2(j,k)
    을 기초로 제2축의 사전데이터를 재직교화처리하고, 그 재직교화처리된 사전데이터 B2(j,k)를 제2축의 새로운 사전 b2(j,k)로서 발생하도록 된 것을 특징으로 하는 음성인식방법.
  28. 제1항에 있어서, 상기 직교화수단은 카테고리(i)의 표본패턴으로부터 평균패턴을 구하고, 그 평균패턴을 시간축에 따라 평활화하여 제1축의 사전데이터를 발생시키며, 평균패턴을 시간축에 따라 미분하여 제2축의 사전데이터를 발생시키고, 평균패턴을 주파수축을 따라 미분하여 제3축의 사전데이터를 발생시키는 최소한 3가지 유형의 필터로 구성된 직교화시간/주파수필터수단(12)과 더불어, 상기 직교화사전수단에 직교되는 부가사전으로서의 사전을 발생시켜 그 부가사전을 상기 직교화사전수단에 부가시키는 직교화수단(8)이 더 구비되어 구성된 것을 특징으로 하는 음성인식장치.
  29. 제28항에 있어서, 상기 직교화시간/주파수필터수단은 다음의 식
    A(j,k)=(1/3)
    Figure kpo00044
    am(j,k)
    를 이용하여 카테고리(i)의 학습패턴 am(j,k)으로부터 평균패턴 A(j,k)을 구하고,
    b1(j,k)=A(j-1,k-1)+A(j-1,k)+A(j-1,k-1)+A(j,k-1)+2*A|(j,k)+A(j,k-1)+A(j-1,k-1)+A(j-1,k)+A(j-1,k-1)[j와 k는 양의 정수]
    의 식을 이용하여 제1축의 사전 B1(j,k)를 구하며,
    b2(j,k)=-A(j-1,k-1)+A(j-1,k+1)+{-A(j,k-1)+A(j,k+1)}+{-A|(j+1,k-1)+A(j+1,k+1)} [j와 k는 양의 정수]
    의 식을 이용하여 제2축의 사전 b2(j,k)를 구하고,
    b3(j,k)=-A(j-1,k-1)-A(j-1,k)-A(j-1,k+1)+A(j+1,k-1)+A|(j+1,k)+A(j+1,k+1)[j와 k는 양의 정수]
    의 식을 이용하여 제3축의 사전 b3(j,k)를 구하고, 상기 제1, 제2, 제3축의 사전을 정규화하여 그 정규화사전을 직교화사전수단에 등록시키도록 된 것을 특징으로 하는 음성인식장치.
  30. 제29항에 있어서, 상기 직교화시간/주파수필터수단은 다음의 식
    B2(j,k)=b2(j,k)-[b2(j,k)·b2(j,k)]·b1(j,k)
    을 기초로 제2축의 사전데이터의 재직교화처리를 수행하고, 그 재직교화사전데이터를 제2축의 새로운 사전 b2(j,k)로서 상기 직교화사전수단에 등록시키도록 된 것을 특징으로 하는 음성인식장치.
  31. 제6항에 있어서, 상기 직교화사전을 발생시키는 단계는 카테고리(i)의 표본패턴으로부터 평균패턴을 구하고, 평균패턴을 시간축에 따라 평활화하여 제1축의 사전데이터를 발생시키며, 평균패턴을 시간축에 따라 미분하여 제2축의 사전데이터를 발생시키고, 평균패턴을 주파수축에 따라 미분하여 제3축의 사전데이터를 발생시키는 단계 와 더불어, 상기 직교화사전에 대해 직교적인 부가사전으로서의 사전을 발생시켜 그 부가사전을 상기 직교화사전에 부가하는 단계 가 더 구비된 것을 특징으로 하는 음성인식방법.
  32. 제31항에 있어서, 단계 (e)는 다음의 식
    A(j,k)=(1/3)
    Figure kpo00045
    am(j,k)
    를 이용하여 카테고리(i)의 학습패턴 am(j,k)으로부터 평균패턴 A(j,k)을 구하고,
    b1(j,k)=A(j-1,k-1)+A(j-1,k)+A(j-1,k+1)+A(j,k-1)+2*A|(j,k)+A(j,k+1)+A(j+1,k-1)+A(j+1,k)+A(j+1,k+1)[j와 k는 양의 정수]
    의 식을 이용하여 제1축의 사전 b1(j,k)를 구하며,
    b2(j,k)=-A(j-1,k-1)+A(j-1,k+1)+{-A(j,k-1)+A(j,k+1)}+(-A|(j+1,k-1)+A(j+1,k+1)} [j와 k는 양의 정수]
    의 식을 이용하여 제2축의 사전 b2(j,k)를 구하고,
    b3(j,k)=-A(j-1,k-1)-A(j-1,k)-A(j-1,k-1)+A(j-1,k-1)+A|(j-1,k)+A(j-1,k-1)[j와 k는 양의 정수]
    의 식을 이용하여 제3축의 사전 b3(j,k)를 구하며, 상기 제1, 제2, 제3축의 사전을 정규화하도록 구성된 것을 특징으로 하는 음성인식방법.
  33. 제32항에 있어서, 상기 단계 (e)는 다음의 식
    B2(j,k)=b2(j,k)-[b2(j,k)·b1(j,k)]·b1(j,k)
    를 기초로 제2축의 사전데이터의 재직교화처리를 수행하고 그 재직교화사전데이터를 제2축의 새로운 사전 b2(j,k)로서 발생시키도록 된 것을 특징으로 하는 음성인식방법.
KR1019880013005A 1987-10-06 1988-10-06 음성인식장치 및 그 방법 KR910007530B1 (ko)

Applications Claiming Priority (12)

Application Number Priority Date Filing Date Title
JP?62-252108 1987-10-06
JP62-252107 1987-10-06
JP?62-252107 1987-10-06
JP62252107A JP2514984B2 (ja) 1987-10-06 1987-10-06 音声認識方式
JP62252109A JP2514986B2 (ja) 1987-10-06 1987-10-06 音声認識方式
JP62-252108 1987-10-06
JP62252108A JP2514985B2 (ja) 1987-10-06 1987-10-06 音声認識方式
JP62-252106 1987-10-06
JP?62-252109 1987-10-06
JP62-252109 1987-10-06
JP62252106A JP2514983B2 (ja) 1987-10-06 1987-10-06 音声認識方式
JP?62-252106 1987-10-06

Publications (2)

Publication Number Publication Date
KR890007211A KR890007211A (ko) 1989-06-19
KR910007530B1 true KR910007530B1 (ko) 1991-09-27

Family

ID=17232585

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019880013005A KR910007530B1 (ko) 1987-10-06 1988-10-06 음성인식장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR910007530B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100330905B1 (ko) * 1999-05-25 2002-04-03 김인광 음향 또는 음성의 패턴 인식을 이용한 완구의 동작 제어 방법

Also Published As

Publication number Publication date
KR890007211A (ko) 1989-06-19

Similar Documents

Publication Publication Date Title
JP2739950B2 (ja) パターン認識装置
US11056097B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
JPH0352640B2 (ko)
US5907826A (en) Speaker-independent speech recognition using vowel/consonant segmentation based on pitch intensity values
Seman et al. An evaluation of endpoint detection measures for malay speech recognition of an isolated words
EP0430615B1 (en) Speech recognition system
JP2006235243A (ja) 音響信号分析装置及び音響信号分析プログラム
Kumar et al. Modified segmentation algorithm based on short term energy & zero crossing rate for Maithili speech signal
KR910007530B1 (ko) 음성인식장치 및 그 방법
JP2010102129A (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
Ramabadran et al. The ETSI extended distributed speech recognition (DSR) standards: server-side speech reconstruction
Khaing et al. Myanmar continuous speech recognition system based on DTW and HMM
JP2502880B2 (ja) 音声認識方法
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
JP4362072B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
US5001760A (en) Speech recognition apparatus and method utilizing an orthogonalized dictionary
TWI460718B (zh) 一個辨認所有語言句子方法
JP2666296B2 (ja) 音声認識装置
JP2514983B2 (ja) 音声認識方式
JP2710045B2 (ja) 音声認識方法
JP3032215B2 (ja) 有音検出装置及びその方法
JP2514985B2 (ja) 音声認識方式
CN118072717A (zh) 语音识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
G160 Decision to publish patent application
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080813

Year of fee payment: 18

EXPY Expiration of term