KR20030018073A - 음성 인식 장치 및 음성 인식 방법 - Google Patents

음성 인식 장치 및 음성 인식 방법 Download PDF

Info

Publication number
KR20030018073A
KR20030018073A KR10-2003-7001766A KR20037001766A KR20030018073A KR 20030018073 A KR20030018073 A KR 20030018073A KR 20037001766 A KR20037001766 A KR 20037001766A KR 20030018073 A KR20030018073 A KR 20030018073A
Authority
KR
South Korea
Prior art keywords
conversion
conversion function
input
voice
function
Prior art date
Application number
KR10-2003-7001766A
Other languages
English (en)
Other versions
KR100924399B1 (ko
Inventor
헬무트 룩케
Original Assignee
소니 가부시끼 가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 가부시끼 가이샤 filed Critical 소니 가부시끼 가이샤
Publication of KR20030018073A publication Critical patent/KR20030018073A/ko
Application granted granted Critical
Publication of KR100924399B1 publication Critical patent/KR100924399B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 복수 사용자에 대하여 고정밀도의 음성 인식을 행하는 음성 인식 장치에 관한 것이다. 적응부(12)는 입력 음성을 기억부(13)에 기억된 1이상의 변환 함수에 의해 변환한 변환 결과에 기초하여 그 1이상의 변환 함수 중에서, 입력 음성을 음향 모델에 적응시키는 데 최적인 변환 함수를 검출하고, 그 최적인 변환 함수에 입력 음성을 할당한다. 또한, 적응부(12)는 새로운 입력 음성이 할당된 변환 함수를, 그 변환 함수에 할당되어 있는 모든 입력 음성을 이용하여 갱신한다. 선택부(14)는 기억부(13)에 기억된 1이상의 변환 함수 중에서, 입력 음성을 변환하는 데 이용하는 변환 함수를 선택하고, 변환부(5)는 그 선택된 변환 함수에 따라, 입력 음성을 변환한다. 매칭부(6)는 입력 음성을 변환 함수에 의해 변환한 것과 음향 모델과의 매칭 처리를 행한다. 본 발명은 음성을 인식하는 장치에 적용할 수 있다.

Description

음성 인식 장치 및 음성 인식 방법{VOICE RECOGNITION APPARATUS AND VOICE RECOGNITION METHOD}
음성 인식 장치에서는, 일반적으로 다음과 같은 처리(음성 인식 처리)가 행해짐으로써, 입력된 음성이 음성 인식된다.
즉, 음성 인식 장치에서는 입력된 음성이 음향 분석됨으로써, 그 음성의 특징량을 나타내는 소정 차원의 특징 벡터의 추출이 행해진다. 여기서, 음성 분석의 방법으로서는 푸리에 변환 등이 있다.
그 후, 특징 벡터 계열과 음향 모델과의 매칭 처리가 행해지고, 그 매칭 처리 결과 얻어지는, 특징 벡터 계열에 매치하는 음향 모델의 계열에 대응하는 단어 열(단어)이 음성 인식 결과로 된다.
매칭 처리를, 예를 들면 연속 HMM(Hidden Markov Model)법으로 행할 경우, 음향 모델로서는 특징 벡터 공간에서 정의되는 1이상의 가우스 확률 분포 등의 확률 (밀도) 함수를 이용하여 구성되는 HMM이 이용된다. 그리고, 매칭 처리에서는 음향 모델을 구성하는 가우스 확률 분포를 이용하여, 음성 인식 결과의 복수의 후보(이하, 적절하게, 가설이라고 함)로서의 음향 모델의 계열로부터, 특징 벡터 계열이 관측되는 우도(尤度)(스코어)가 계산되고, 그 스코어에 기초하여 복수의 가설 중에서, 최종적인 음성 인식 결과가 결정된다. 즉, 복수의 가설 중, 특징 벡터 계열에 대한 스코어를 가장 높게 하는 가설이 입력 음성에 가장 매치하는 것으로서 선택되고, 그 가설을 구성하는 음향 모델의 계열에 대응하는 단어 열이 음성 인식 결과로서 출력된다.
그런데, 최근에는 여러가지 음성 인식 장치가 제안되고 있지만, 이들 음성 인식 장치는 크고, 특정 화자용 음성 인식 장치, 불특정 화자용 음성 인식 장치, 및 모델 적응형 음성 인식 장치의 세 가지로 나눌 수 있다.
특정 화자용 음성 인식 장치에서는, 특정 화자의 음성을 이용하여 학습된 음향 모델이 이용되기 때문에, 그 특정 화자의 음성에 대해서는 정밀도가 높은(오인식율이 낮은) 음성 인식 결과를 얻을 수 있다. 그러나, 특정 화자용 음성 인식 장치에서는 그 특정 화자 이외의 화자에 대해서는, 일반적으로 음성 인식 정밀도가 크게 열화한다.
불특정 화자용 음성 인식 장치에서는, 불특정 다수의 화자의 음성을 이용하여 학습된 음향 모델이 이용되기 때문에, 임의의 화자에 대하여, 비교적 정밀도가 높은 음성 인식 결과를 얻을 수 있다. 그러나, 불특성 화자용의 음성 인식 장치에서는 임의의 특정 화자에게 주목하면, 그 특정 화자에 대해서는 그 특정 화자용 음성 인식 장치 정도의 음성 인식 정밀도를 얻을 수 없다.
모델 적응형 음성 인식 장치는, 처음에는 불특정 화자용 음성 인식 장치와 마찬가지의 성능을 갖지만, 특정 사용자(화자)가 장치를 사용하고 있으면, 그 사용자의 음성에 의해, 음향 모델의 모델 적응이 행해져, 그 사용자에 대한 음성 인식 정밀도가 향상되어 간다.
즉, 모델 적응형 음성 인식 장치는, 처음에는 불특정 화자용 음성 인식 장치에서의 경우와 마찬가지의 음향 모델을 이용하여 음성 인식을 행하지만, 그 때, 사용자로부터 입력된 음성과 음향 모델 사이의 미스매치를 분석하고, 그 분석 결과에 기초하여 음향 모델을 입력 음성에 매치하는 것(적용하는 것)으로 변환하는 변환 행렬을 구한다. 그리고, 그 후에는 음향 모델을 변환 행렬로 변환한 음향 모델, 즉 모델 적응을 행한 음향 모델을 이용하여 음성 인식이 행해진다. 모델 적응형 음성 인식 장치에서, 상술한 바와 같은 모델 적응이, 예를 들면 사용자가 장치를 본격적으로 사용하기 전에, 트레이닝으로서 행해지고, 이에 의해 음향 모델이 그 사용자의 음성에 매치하는 것으로 변환되기 때문에, 그 특정한 사용자에 대한 음성 인식 정밀도가 향상된다.
또, 모델 적응형 음성 인식 장치에서의 음향 모델은, 상술한 바와 같이 입력된 음성을 음성 인식하는 데 적합한 것으로 변환되므로, 사용자(화자)에 주목하면, 음성 인식 장치는 그 사용자에게 적응하게 되지만, 그 음성 인식 장치가 사용되는 환경에 주목하면, 그 환경에 적응하게 된다.
즉, 음성 인식 장치가 사용되는 환경에서는, 예를 들면 그 장소에서의 노이즈나, 사용자의 음성이 음성 인식 장치에 입력되기까지의 채널의 왜곡이 존재한다. 모델 적응형 음성 인식 장치가 임의의 일정한 환경 하에서 사용되는 경우, 음향 모델은 그 환경 하에서 음에 적응하도록 변환되므로, 그러한 의미에서, 모델 적응형 음성 인식 장치는 그것이 사용되는 환경에 적응하게 된다. 여기서, 채널의 왜곡으로서는, 음성을 전기 신호로 변환하기 위한 마이크의 특성에 기초하는 것이나, 음성 인식 장치에 입력되는 음성이 전화 회선 등의 대역 제한된 전송로를 통해 송신되어 오는 경우의, 그 전송로의 특성에 기초하는 것 등이 있다.
여기서, 음향 모델로서 HMM을 이용하는 경우, 그 모델 적응은, 예를 들면 그 HMM을 구성하는 가우스 확률 분포를 정의하는 평균 벡터를, 상술한 변환 행렬에 의해 선형 변환함으로써 행해진다. 또, 이와 같이 음향 모델을 변환하는 모델 적응과 동등한 효과는, 특징 벡터를 변환 행렬에 의해 선형 변환하고, 그 변환 후의 특징 벡터와 음향 모델을 이용하여 스코어 계산을 행함으로써도 얻을 수 있다. 따라서, 모델 적응은, 변환 행렬에 의해, 음향 모델을 변환하는 것과 특징 벡터를 변환하는 것 중 어느 하나를 의미한다. 즉, 모델 적응에서는 사용자의 음성으로부터 얻어진 특징 벡터에 음향 모델을 적응시켜도 되고, 사용자의 음성으로부터 얻어진 특징 벡터를 음향 모델에 적응시켜도 된다.
모델 적응은, 임의의 주목 발화(發話)의 특징 벡터가 음향 모델로부터 관측되는 우도, 즉 이 경우에는 주목 발화에 대응하는 음향 모델(주목 발화의 음운 등을 나타내는 음향 모델)로서의 HMM을 구성하는 가우스 확률 분포로부터 계산되는 특징 벡터에 대한 스코어를 개선하는 것(스코어를 높게 하는 것)을 목적으로 하므로, 예를 들면 지금, 특징 벡터를 변환하는 모델 적응을 고려하면, 이 경우 특징 벡터가 변환 행렬에 의해 변환됨으로써, 음향 모델을 구성하는 가우스 확률 분포를 정의하는 평균 벡터로 사상되는 것이 이상적이다.
따라서, 모델 적응에서는 주목 발화에 대응하는 음향 모델로부터 계산되는, 주목 발화의 특징 벡터에 대한 스코어가, 다른 음향 모델로부터 계산되는 스코어보다 커지도록 하기 때문에, 주목 발화의 특징 벡터를 주목 발화에 대응하는 음향 모델을 구성하는 가우스 확률 분포를 정의하는 평균 벡터에 일치시키는 선형 변환을 행하는 변환 행렬이 구해진다. 이 변환 행렬의 산출은, 예를 들면 정기적 또는 부정기적으로 행할 수 있으며, 음성 인식 시에는 그 변환 행렬에 의해 변환된 특징 벡터(또는 음향 모델)를 이용하여 매칭 처리가 행해진다.
또, 임의의 특정 화자에 대하여, 모델 적응을 행하기 위한 변환 행렬은 그 특정 화자의 복수 발화로부터 얻어지는 복수의 특징 벡터 계열을 이용하여 구해진다. 따라서, 변환 행렬로서는 복수의 특징 벡터 각각을 대응하는 평균 벡터에 일치시키는 행렬을 구할 필요가 있다. 복수의 특징 벡터 각각을, 대응하는 평균 벡터에 사상하는 변환 행렬을 구하는 방법으로서는, 예를 들면 선형 회귀(최소 제곱법)를 이용하는 것이 알려져 있다. 단, 이와 같이 하여 구해진 변환 행렬은, 특정 화자의 발화로부터 얻어지는 특징 벡터를, 대응하는 평균 벡터와의 통계적인 오차(여기서는 제곱 오차의 총합)를 최소로 하는 벡터에 사상하는 것이고, 따라서 그 변환 행렬에 의해, 특정 화자의 발화로부터 얻어지는 임의의 특징 벡터를 대응하는 평균 벡터에 완전하게 일치하도록 변환하는 것은, 일반적으로는 할 수 없다.
또한, 모델 적응의 방법으로는 상술한 방법 이외에도, 미세한 점에서 다른 다양한 방법이 있지만, 어느 방법으로 해도, 기본은 상술한 방법과 마찬가지로, 주목 발화의 특징 벡터, 또는 주목 발화에 대응하는 음향 모델을 그 음향 모델로부터, 그 특징 벡터가 관측되는 우도를 최대로 하도록 변환하는 것이라고 할 수 있다.
모델 적응형 음성 인식 장치에서, 임의의 특정 사용자의 음성에 의한 모델 적응, 또는 임의의 특정 환경 하에서의 모델 적응이 진행해 가면, 그 특정 사용자의 음성이나, 특정 환경 하에서의 음성 인식 정밀도가 향상해 가지만, 한편으로는, 다른 사용자나 다른 환경에서의 음성 인식 정밀도는 열화해 간다. 그 결과, 모델 적응형 음성 인식 장치는, 특정 화자용 음성 인식 장치와 마찬가지의 성능을 갖게 된다.
그런데, 모델 적응형 음성 인식 장치가, 상술한 바와 같이 특정 사용자나 특정 환경에 적응한 후라도, 그 음성 인식 장치를 다른 사용자가 사용하고, 또는 다른 환경 하에서 사용함으로써, 그 다른 사용자나 다른 환경에 적응시킬 수 있다.
그러나, 다른 사용자나 다른 환경에서의 사용이 개시된 직후에는 음성 인식 장치의 음향 모델은, 최초의 사용자나 최초의 환경에 적응한 것으로 되어 있기 때문에, 그 음향 모델이 다른 사용자나 다른 환경에 적응하기까지는 음성 인식 정밀도가 크게 열화한다.
또한, 경우에 따라서는 최초의 사용자나 최초의 환경에 적응한 음향 모델을 다른 사용자나 다른 환경에 대하여, 충분히 적응시킬 수 없는 경우가 있어, 그 경우, 최초의 사용자나 최초의 환경에 적응한 음향 모델을 원래 상태의 음향 모델로 복귀시키고 나서(리세트하고 나서), 다른 사용자나 다른 환경에 적응시킬 필요가 있다.
그래서, 복수 세트의 음향 모델을 준비해 두고, 사용자별로 다른 세트의 음향 모델을 그 사용자에게 적응시키는 음성 인식 장치가 있으며, 이러한 음성 인식 장치에 따르면, 복수의 사용자 각각에 대하여, 그 사용자에게 적응시킨 음향 모델을 이용하여 음성 인식이 행해지므로, 그 복수의 사용자 전부에 대하여, 특정 화자용 음성 인식 장치와 마찬가지의 음성 인식 정밀도를 얻을 수 있다.
그러나, 이러한 음성 인식 장치에서는, 발화하고 있는 사용자에게 적응한 음향 모델을 이용하여 음성 인식을 행하기 때문에, 어떤 사용자가 발화를 행하고 있는지를 장치에 알려 주어야 하고, 그 때문에, 사용자는 장치의 사용을 개시하기 전에, 버튼을 조작하는 등, 자신을 특정하는 정보를 입력할 필요가 있어, 번거로웠다.
〈발명의 개시〉
본 발명은 이러한 상황을 감안하여 이루어진 것으로, 복수의 사용자에 의해, 또는 복수의 환경 하에서 사용되는 경우라도, 사용자가 모델 적응을 의식하지 않도록 하고 높은 정밀도의 음성 인식을 행할 수 있도록 하는 것이다.
본 발명의 음성 인식 장치는, 입력 음성과, 음성 인식에 이용하는 음향 모델 중의 한쪽을 변환하여, 다른 쪽에 적응시키는 모델 적응을 행할 때, 입력 음성 또는 음향 모델 중의 한쪽을 변환하는 1이상의 변환 함수를 기억하는 변환 함수 기억수단과, 입력 음성과 그 입력 음성에 대응하는 음향 모델 중의 한쪽을, 변환 함수 기억 수단에 기억된 1이상의 변환 함수 각각에 따라 변환한 변환 결과에 기초하여 변환 함수 기억 수단에 기억된 1이상의 변환 함수 중에서, 입력 음성과 음향 모델 중의 한쪽을 다른 쪽에 적응시키는 데 최적인 변환 함수를 검출하고, 그 최적인 변환 함수에 입력 음성을 할당하는 할당 수단과, 변환 함수가 할당된 입력 음성을 기억하는 음성 기억 수단과, 변환 함수 기억 수단에 기억된 1이상의 변환 함수 중, 할당 수단에서 새로운 입력 음성이 할당된 변환 함수를 그 변환 함수에 할당되어 있는 모든 입력 음성을 이용하여 갱신하는 변환 함수 갱신 수단과, 변환 함수 기억 수단에 기억된 1이상의 변환 함수 중에서, 입력 음성과 음향 모델 중의 한쪽을 변환하는 데 이용하는 변환 함수를 선택하는 변환 함수 선택 수단과, 변환 함수 선택 수단에서 선택된 변환 함수에 의해, 입력 음성과 음향 모델 중의 한쪽을 변환하는 변환 수단과, 입력 음성과 음향 모델 중의 한쪽을 변환 함수에 의해 변환한 것과, 다른 쪽과의 매칭 처리를 행하고, 그 매칭 처리 결과에 기초하여 입력 음성의 음성 인식 결과를 출력하는 매칭 수단을 포함하는 것을 특징으로 한다.
본 발명의 음성 인식 방법은, 입력 음성과 그 입력 음성에 대응하는 음향 모델 중의 한쪽을, 1이상의 변환 함수 각각에 따라 변환한 변환 결과에 기초하여 1이상의 변환 함수 중에서, 입력 음성과 음향 모델 중의 한쪽을 다른 쪽에 적응시키는 데 최적인 변환 함수를 검출하고, 그 최적인 변환 함수에 입력 음성을 할당하는 할당 단계와, 1이상의 변환 함수 중, 할당 단계에서 새로운 입력 음성이 할당된 변환 함수를, 그 변환 함수에 할당되어 있는 모든 입력 음성을 이용하여 갱신하는 변환함수 갱신 단계와, 1이상의 변환 함수 중에서, 입력 음성과 음향 모델 중의 한쪽을 변환하는 데 이용하는 변환 함수를 선택하는 변환 함수 선택 단계와, 변환 함수 선택 단계에서 선택된 변환 함수에 의해, 입력 음성과 음향 모델 중의 한쪽을 변환하는 변환 단계와, 입력 음성과 음향 모델 중의 한쪽을 변환 함수에 의해 변환한 것과, 다른 쪽과의 매칭 처리를 행하고, 그 매칭 처리 결과에 기초하여 입력 음성의 음성 인식 결과를 출력하는 매칭 단계를 포함하는 것을 특징으로 한다.
본 발명의 프로그램은, 입력 음성과 그 입력 음성에 대응하는 음향 모델 중의 한쪽을 1이상의 변환 함수 각각에 의해 변환한 변환 결과에 기초하여 1이상의 변환 함수 중에서, 입력 음성과 음향 모델 중의 한쪽을 다른 쪽에 적응시키는 데 최적인 변환 함수를 검출하고, 그 최적인 변환 함수에 입력 음성을 할당하는 할당 단계와, 1이상의 변환 함수 중, 할당 단계에서 새로운 입력 음성이 할당된 변환 함수를, 그 변환 함수에 할당되어 있는 모든 입력 음성을 이용하여 갱신하는 변환 함수 갱신 단계와, 1이상의 변환 함수 중에서, 입력 음성과 음향 모델 중의 한쪽을 변환하는 데 이용하는 변환 함수를 선택하는 변환 함수 선택 단계와, 변환 함수 선택 단계에서 선택된 변환 함수에 의해, 입력 음성과 음향 모델 중의 한쪽을 변환하는 변환 단계와, 입력 음성과 음향 모델 중의 한쪽을 변환 함수에 의해 변환한 것과, 다른 쪽과의 매칭 처리를 행하고, 그 매칭 처리 결과에 기초하여 입력 음성의 음성 인식 결과를 출력하는 매칭 단계를 포함하는 것을 특징으로 한다.
본 발명의 기록 매체는, 입력 음성과 그 입력 음성에 대응하는 음향 모델 중의 한쪽을, 1이상의 변환 함수 각각에 따라 변환한 변환 결과에 기초하여 1이상의변환 함수 중에서, 입력 음성과 음향 모델 중의 한쪽을 다른 쪽에 적응시키는 데 최적인 변환 함수를 검출하고, 그 최적인 변환 함수에 입력 음성을 할당하는 할당 단계와, 1이상의 변환 함수 중, 할당 단계에서 새로운 입력 음성이 할당된 변환 함수를 그 변환 함수에 할당되어 있는 모든 입력 음성을 이용하여 갱신하는 변환 함수 갱신 단계와, 1이상의 변환 함수 중에서, 입력 음성과 음향 모델 중의 한쪽을 변환하는 데 이용하는 변환 함수를 선택하는 변환 함수 선택 단계와, 변환 함수 선택 단계에서 선택된 변환 함수에 의해, 입력 음성과 음향 모델 중의 한쪽을 변환하는 변환 단계와, 입력 음성과 음향 모델 중의 한쪽을 변환 함수에 의해 변환한 것과, 다른 쪽과의 매칭 처리를 행하고, 그 매칭 처리 결과에 기초하여 입력 음성의 음성 인식 결과를 출력하는 매칭 단계를 포함하는 프로그램이 기록되어 있는 것을 특징으로 한다.
본 발명에서는, 입력 음성과 그 입력 음성에 대응하는 음향 모델 중의 한쪽을 1이상의 변환 함수 각각에 따라 변환한 변환 결과에 기초하여 그 1이상의 변환 함수 중에서, 입력 음성과 음향 모델 중의 한쪽을 다른 쪽에 적응시키는 데 최적인 변환 함수가 검출되고, 그 최적인 변환 함수에 입력 음성이 할당되고, 새로운 입력 음성이 할당된 변환 함수가, 그 변환 함수에 할당되어 있는 모든 입력 음성을 이용하여 갱신된다. 또한, 1이상의 변환 함수 중에서, 입력 음성과 음향 모델 중의 한쪽을 변환하는 데 이용하는 변환 함수가 선택되고, 그 선택된 변환 함수에 의해, 입력 음성과 음향 모델 중의 한쪽이 변환된다. 그리고, 입력 음성과 음향 모델 중의 한쪽을 변환 함수에 의해 변환한 것과, 다른 쪽과의 매칭 처리가 행해지고, 그매칭 처리 결과에 기초하여 입력 음성의 음성 인식 결과가 출력된다.
본 발명은 음성 인식 장치 및 음성 인식 방법에 관한 것으로, 복수의 사용자에 의해, 또는 복수의 환경 하에서 장치가 사용되는 경우라도, 사용자에게 모델 적응을 의식시키지 않고 높은 정밀도의 음성 인식을 행할 수 있도록 하는 음성 인식 장치 및 음성 인식 방법에 관한 것이다.
도 1은 본 발명을 적용한 음성 인식 장치의 일 실시예의 구성예를 도시하는 블록도.
도 2는 음성 인식 처리를 설명하는 흐름도.
도 3은 적응 데이터 등록 처리를 설명하는 흐름도.
도 4는 변환 행렬 갱신 처리를 설명하는 흐름도.
도 5는 변환 행렬 생성/삭제 처리를 설명하는 흐름도.
도 6은 변환 행렬 생성 처리를 설명하는 흐름도.
도 7은 변환 행렬 삭제 처리를 설명하는 흐름도.
도 8은 본 발명을 적용한 음성 인식 장치의 다른 실시예의 구성예를 도시하는 블록도.
도 9는 본 발명을 적용한 컴퓨터의 일 실시예의 구성예를 도시하는 블록도.
〈발명을 실시하기 위한 최량의 형태〉
도 1은 본 발명을 적용한 음성 인식 장치의 일 실시예의 구성예를 도시하고 있다.
사용자가 발성한 음성은 마이크(마이크로폰)(1)에 입력되고, 마이크(1)에서는 그 입력 음성이 전기 신호로서의 음성 신호로 변환된다. 이 음성 신호는 A/D(Analog Digital) 변환부(2)에 공급된다. A/D 변환부(2)에서는 마이크(1)로부터의 아날로그 신호인 음성 신호가 샘플링, 양자화되어, 디지털 신호인 음성 데이터로 변환된다. 이 음성 데이터는 특징 추출부(3)에 공급된다.
특징 추출부(3)는 A/D 변환부(2)로부터의 음성 데이터에 대하여, 적당한 프레임마다 음향 분석 처리를 실시하고, 이에 의해, 예를 들면 MFCC(Mel Frequency Cepstrum Coefficient) 등의 특징량으로서의 특징 벡터를 추출한다. 또, 특징 추출부(3)는, 기타 예를 들면 스펙트럼이나, 선형 예측 계수, 켑스트럼 계수, 선 스펙트럼쌍 등의 특징 벡터를 추출할 수 있다.
특징 추출부(3)에서 프레임마다 얻어지는 특징 벡터는, 특징 벡터 버퍼(4)에 순차적으로 공급되어 기억된다. 따라서, 특징 벡터 버퍼(4)에서는 프레임별 특징 벡터의 시계열이 기억되어 간다.
또, 버퍼(4)는, 예를 들면 임의의 발화의 개시로부터 종료까지(음성 구간) 얻어지는 시계열의 특징 벡터를 기억한다.
변환부(5)는 선택부(14)로부터 공급되는 변환 행렬에 의해, 버퍼(4)에 기억된 특징 벡터를 선형 변환하고, 그 변환 후의 특징 벡터(이하, 적절하게, 변환 특징 벡터라고 함)를 음향 모델 기억부(7)에 기억된 음향 모델에 적응시킨 것으로서, 매칭부(6)에 공급한다.
매칭부(6)는 변환부(5)로부터 공급되는 특징 벡터(변환 특징 벡터)를 이용하여, 음향 모델 기억부(7), 사전 기억부(8), 및 문법 기억부(9)를 필요에 따라 참조하면서, 마이크(1)에 입력된 음성(입력 음성)을, 예를 들면 연속 분포 HMM법 등에 기초하여 음성 인식한다.
즉, 음향 모델 기억부(7)는 음성 인식하는 음성의 언어에서의 개개의 음소나음절 등의 소정의 단위(PLU(Phonetic-Linguistic-Units)마다의 음향적인 특징을 나타내는 음향 모델을 기억하고 있다. 여기서는, 연속 분포 HMM법에 기초하여 음성 인식을 행하기 때문에, 음향 모델로서는, 예를 들면 소정의 특징 벡터 계열이 관측되는 확률을 계산하는 데 이용되는 가우스 분포를 갖는 HMM(Hidden Markov Model)이 이용된다. 여기서, HMM이 갖는 가우스 분포는 평균 벡터와 공분산 행렬로 정의된다. 또, HMM은 가우스 분포 이외의 확률 밀도 함수를 이용하여 구성할 수 있다.
사전 기억부(8)는 인식 대상의 각 단어(어휘)에 대하여, 그 발음에 관한 정보(음운 정보)가 기술된 단어 사전을 기억하고 있다.
문법 기억부(9)는 사전 기억부(8)의 단어 사전에 등록되어 있는 각 단어가 어떻게 연쇄하는지(연결되는지)를 기술한 문법 규칙(언어 모델)을 기억하고 있다. 여기서, 문법 규칙으로서는, 예를 들면 문맥 자유 문법(CFG)이나, 통계적인 단어 연쇄 확률(N-gram) 등에 기초한 규칙을 이용할 수 있다.
매칭부(6)는 사전 기억부(8)의 단어 사전을 참조함으로써, 음향 모델 기억부(7)에 기억되어 있는 음향 모델을 접속함으로써, 단어의 음향 모델(단어 모델)을 구성한다. 또한, 매칭부(6)는 몇 개인가의 단어 모델을 문법 기억부(9)에 기억된 문법 규칙을 참조함으로써 접속하고, 그와 같이 하여 접속된 단어 모델을 이용하여, 시계열의 특징 벡터에 기초하여 연속 분포 HMM법에 의해, 마이크(1)에 입력된 음성을 인식한다. 즉, 매칭부(6)는 상술한 바와 같이 하여 구성된 각 단어 모델의 계열로부터, 변환부(5)를 통하여 공급되는 시계열의 특징 벡터가 관측되는 우도를 나타내는 스코어를 계산한다. 그리고, 매칭부(6)는 그 스코어가 가장 높은단어 모델의 계열을 검출하고, 그 단어 모델의 계열에 대응하는 단어 열을 음성의 인식 결과로서 출력한다.
또, 여기서는 HMM법으로 음성 인식이 행해지므로, 매칭부(6)는 접속된 단어 모델에 대응하는 단어 열에 대하여, 각 특징 벡터의 출현 확률을 누적하고, 그 누적값을 스코어로 하고, 그 스코어를 가장 높게 하는 단어 열을 음성 인식 결과로서 출력한다.
스코어 계산은, 일반적으로 음향 모델 기억부(7)에 기억된 음향 모델에 의해 주어지는 음향적인 스코어(이하, 적절하게, 음향 스코어라고 함)와, 문법 기억부(9)에 기억된 문법 규칙에 의해 주어지는 언어적인 스코어(이하, 적절하게, 언어 스코어라고 함)를 통합 평가함으로써 행해진다.
즉, 음향 스코어는, 예를 들면 HMM법에 의한 경우에는 단어 모델을 구성하는 음향 모델로부터, 특징 추출부(3)가 출력하는 특징 벡터의 계열이 관측되는 확률에 기초하여 계산된다. 또한, 언어 스코어는, 예를 들면 바이그램에 의한 경우에는 주목하고 있는 단어와, 그 단어 직전의 단어가 연쇄(연접)하는 확률에 기초하여 구해진다. 그리고, 각 단어에 대한 음향 스코어와 언어 스코어를 통합 평가하여 얻어지는 최종적인 스코어(이하, 적절하게, 최종 스코어라고 함)에 기초하여 음성 인식 결과가 확정된다.
구체적으로는, 임의의 N개의 단어로 이루어지는 단어 열에서의 k번째의 단어를 wk로 하여, 그 단어 wk의 음향 스코어를 A(wk)로, 언어 스코어를 L(wk)로 각각 나타낼 때, 그 단어 열의 최종 스코어 S는, 예를 들면 다음 식에 따라 계산된다.
단, Σ는 k가 1부터 N일 때의 서메이션을 취하는 것을 나타낸다. 또한, Ck는 단어 wk의 언어 스코어 L(wk)에 곱하는 가중을 나타낸다.
매칭부(6)에서는, 예를 들면 상기 수학식 1에 나타내는 최종 스코어를 가장 크게 하는 N과, 단어 열 w1, w2, …, wN을 구하는 매칭 처리가 행해지고, 그 단어 열 w1, w2, …, wN이 음성 인식 결과로서 출력된다.
이상과 같은 매칭 처리가 행해짐으로써, 도 1의 음성 인식 장치에서는, 예를 들면 사용자가 「뉴욕에 가고 싶습니다」라고 발화한 경우에는 「뉴욕」, 「에」, 「가고」, 「싶습니다」 등의 각 단어에, 음향 스코어 및 언어 스코어가 주어지고, 이들을 종합 평가하여 얻어지는 최종 스코어가 가장 클 때에, 단어 열 「뉴욕」, 「에」, 「가고」, 「싶습니다」가 음성 인식 결과로서 출력된다.
그런데, 상술한 경우에, 사전 기억부(8)의 단어 사전에, 「뉴욕」, 「에」, 「가고」, 및 「싶습니다」의 4단어가 등록되어 있다고 하면, 이들 4단어를 이용하여 구성할 수 있는 4단어의 배열은 44종류 존재한다. 따라서, 단순하게는 매칭부(6)에서는 이 44종류의 단어 열을 평가하고, 그 중에서, 사용자의 발화에 가장 적합한 것(최종 스코어를 가장 크게 하는 것)을 결정해야만 한다. 그리고, 단어 사전에 등록하는 단어 수가 증가하면, 그 단어 수만큼의 단어의 배열 수는 단어 수의 단어 수승만큼 되므로, 평가의 대상으로 해야 하는 단어 열은 방대한 수가 된다.
또한, 일반적으로는 발화 중에 포함되는 단어의 수는 미지이므로, 4단어의 배열로 이루어지는 단어 열뿐만 아니라, 1단어, 2단어, …로 이루어지는 단어 열도, 평가의 대상으로 할 필요가 있다. 따라서, 평가해야 할 단어 열의 수는 더욱 방대한 것으로 되므로, 그와 같은 방대한 단어 열 중에서, 음성 인식 결과로서 가장 확실한 것을 계산량 및 사용하는 메모리 용량의 관점에서 효율적으로 결정하는 것은 매우 중요한 문제이다.
계산량 및 메모리 용량의 효율화를 도모하는 방법으로는, 예를 들면 음향 스코어를 구하는 과정에서, 그 도중에 얻어지는 음향 스코어에 기초하여 그 스코어 계산을 중단하는 음향적인 가지치기 방법이나, 언어 스코어에 기초하여 스코어 계산의 대상으로 하는 단어를 집합시키는 언어적인 가지치기 방법이 있다.
이들 가지치기 방법은 빔 검색법이라고도 한다. 또한, 빔 검색법에서, 단어를 좁혀들어가는데에는 소정의 임계값이 이용되며, 이 임계값을 빔 폭이라고 한다.
여기서, 이하 적절하게, 음향 스코어나 언어 스코어를 일괄하여 스코어라고 한다.
빔 검색법에서는 임의의 단어의 계열을 음성 인식 결과의 후보로서의 가설로 하고, 그 가설로서의 단어의 계열(음성 인식 결과의 후보)에 새롭게 단어를 접속함으로써 새로운 가설이 생성되고, 생성된 각 가설로서의 단어의 계열에 대한 스코어가 특징 벡터를 이용하여 계산된다. 또한, 스코어가 비교적 낮은 가설이 삭제되고, 남은 가설에 대하여 이하 마찬가지의 처리가 반복된다.
그리고, 음성 인식 대상의 발화로부터 얻어진 특징 벡터 계열의 선두부터 최후까지(음성 구간)에 대하여, 스코어 계산이 종료하면, 그 시점에 남아 있는 가설 중, 예를 들면 가장 스코어가 높은 가설로서의 단어의 계열이 음성 인식 결과로 된다.
등록부(10)는 버퍼(4)에 기억된, 예를 들면 발화별(음성 구간별) 음성의 특징 벡터 계열을, 그 음성에 대응하는 계열의 음향 모델(여기서는 상술한 바와 같이 HMM) 각각이 갖는 가우스 분포를 정의하는 평균 벡터의 계열에 대응시켜 적응 데이터베이스(11)에 공급한다.
여기서, 등록부(10)가 적응 데이터베이스(11)에 공급하는 특징 벡터 계열과 그에 대응된 평균 벡터의 계열은, 특징 추출부(3)가 출력하는 특징 벡터를 음향 모델 기억부(7)에 기억된 음향 모델에 적응시키는 데 이용되는 변환 행렬의 갱신에 이용된다. 따라서, 등록부(10)가 적응 데이터베이스(11)에 공급하는 특징 벡터 계열과, 그에 대응된 평균 벡터의 계열과의 조합을, 이하 적절하게, 적응 데이터라고 한다.
이러한 적응 데이터에서의 평균 벡터의 계열은 대응하는 음향 모델의 계열로부터 관측되는 우도(확률)가 가장 높은 특징 벡터 계열이고, 따라서 이상적으로는 적응 데이터에서의 특징 벡터 계열을, 그 특징 벡터에 대응되고 있는 평균 벡터의 계열로 변환하는 변환 행렬이, 최적의 모델 적응을 행하는 변환 행렬이라고 할 수있다.
또, 적응 데이터를 구성하기 위해서는, 음성의 특징 벡터와, 그 음성에 대응하는 계열의 음향 모델을 얻을 필요가 있지만, 적응 데이터를 구성하는 음성의 특징 벡터는 마이크(1)에 입력된 사용자 등의 음성을 특징 추출부(3)에서 처리함으로써 얻을 수 있다. 한편, 마이크(1)에 입력된 음성에 대응하는 계열의 음향 모델을 어떻게 인식할지가 문제가 되지만, 이것은 예를 들면 다음과 같은 두 가지 방법에 의해 인식할 수 있다.
즉, 제1 방법에서는 음성 인식 장치에 있어서, 사용자에 대하여, 소정의 단어의 발화를 요구한다. 이 경우, 그 요구에 따라, 사용자가 소정의 단어를 발화하였다고 하면, 그 음성에 대응하는 음향 모델의 계열은, 사용자에게 발화를 요구한 소정의 단어에 기초하여 인식할 수 있다.
또한, 제2 방법에서는 음성 인식 장치에 있어서, 사용자의 음성으로부터 얻어지는 특징 벡터를 변환부(5)에서, 후술하는 변환 행렬 기억부(13)에 기억된 변환 행렬 각각으로 변환하고, 그 결과 얻어지는 변환 특징 벡터 각각을 이용하여, 매칭부(6)에서 매칭 처리를 행한다. 이 경우, 변환 특징 벡터 각각에 대하여 얻어지는 음성 인식 결과 중, 가장 스코어가 높은 것을, 정확한 음성 인식 결과로서, 그 음성 인식 결과에 대응하는 음향 모델의 계열을 사용자의 음성에 대응하는 음향 모델의 계열로서 인식할 수 있다.
또, 제2 방법에 의한 경우에는, 등록부(10)는 매칭부(6)의 내부 상태를 감시함으로써 스코어를 인식하고, 버퍼(4)에 기억된 음성의 특징 벡터 계열에 대하여,그 음성에 대응하는(스코어를 가장 높게 하는) 음향 모델의 계열을 인식한다.
또한, 제1 및 제2 방법 중 어느 방법에 따른 경우라도, 등록부(10)에서는 음향 모델로서의 HMM에 대한 평균 벡터(HMM을 구성하는 상태로부터 특징 벡터가 관측될 확률을 계산하는 데 이용하는 가우스 분포를 정의하는 평균 벡터)를 인식할 필요가 있지만, 등록부(10)는 이 평균 벡터를 음향 모델 기억부(7)를 참조함으로써 인식한다.
적응 데이터베이스(11)는 등록부(10)로부터 공급되는 적응 데이터를, 그 적응 데이터가 변환 행렬 기억부(13)에 기억된 어느 변환 행렬에 할당되어 있는지를 나타내는 할당 정보와 함께 기억한다. 할당 정보는 모델 적응부(12)로부터 적응 데이터베이스(11)에 공급되도록 되어 있다.
모델 적응부(12)는 적응 데이터베이스(11)에 기억된 적응 데이터를 이용하여, 음성의 특징 벡터를 음향 모델 기억부(7)에 기억된 음향 모델에 적응시키는 모델 적응을 행하는 데 이용되는 변환 행렬의 갱신, 생성, 삭제 등을 행한다.
또한, 모델 적응부(12)는 적응 데이터베이스(11)에, 새로운 적응 데이터가 기억된 경우, 그 적응 데이터를 변환 행렬 기억부(13)에 기억된 변환 행렬 중 어느 것에 할당해야 되는지를 인식하여, 그 변환 행렬에 할당한다.
즉, 모델 적응부(12)는 적응 데이터베이스(11)에 새롭게 기억된 적응 데이터를 변환 행렬 기억부(13)에 기억된 변환 행렬 중 어느 것에 할당해야 하는지를 인식하고, 그 할당을 나타내는 할당 정보를 생성한다. 그리고, 모델 적응부(12)는 그 할당 정보를 적응 데이터베이스(11)에 공급하고, 대응하는 적응 데이터에 대응하여 기억시킨다.
따라서, 도 1의 음성 인식 장치에서는(후술하는 도 8의 음성 인식 장치에서도 마찬가지임), 적응 데이터베이스(11)에 기억된 모든 적응 데이터는 변환 행렬 기억부(13)에 기억된 변환 행렬 중 어느 하나에 할당되도록 되어 있으며, 이 할당에 의해, 적응 데이터는 몇 개의 클래스(변환 행렬에 의해 특정되는 클래스)로 분류(서브세트화)된다.
변환 행렬 기억부(13)는 1이상의 변환 행렬을 기억한다. 또, 변환 행렬 기억부(13)는 초기 상태로서는, 예를 들면 1개의 변환 행렬만을 기억하고 있다. 여기서, 변환 행렬 기억부(13)에, 초기 상태로서 기억시켜 두는 1개의 변환 행렬로서는, 예를 들면 종래의 모델 적응형 음성 인식 장치에서의 경우와 마찬가지로, 항등 행렬(단위 행렬) 등을 채용할 수 있다.
선택부(14)는 매칭부(6)의 내부 상태를 감시하고 있으며, 그 감시 결과에 기초하여 변환 행렬 기억부(13)에 기억된 1이상의 변환 함수 중에서, 버퍼(4)에 기억된 특징 벡터를 변환하는 데 이용하는 것을 선택하여, 변환부(5)에 공급한다.
다음으로, 도 2의 흐름도를 참조하여, 도 1의 음성 인식 장치에 의한 음성 인식 처리에 대하여 설명한다.
마이크(1)에 입력된 사용자의 음성은 A/D 변환부(2)를 통함으로써, 디지털 음성 데이터로서 특징 추출부(3)에 공급되고, 특징 추출부(3)는 공급되는 음성 데이터에 대하여, 소정의 프레임마다 음향 분석을 하여, 특징 벡터를 추출한다. 특징 추출부(3)에서 프레임마다 얻어지는 특징 벡터는 버퍼(4)에 순차적으로 공급되어 기억된다. 특징 추출부(3)에 의한 특징 벡터의 추출, 및 버퍼(4)에 의한 특징 벡터의 기억은, 사용자의 1발화(음성 구간)가 종료할 때까지 속행된다.
음성 구간의 검출은, 예를 들면 공지의 방법 등에 의해 행하는 것으로 한다.
이상과 같이 하여, 버퍼(4)에, 특징 벡터의 기억이 개시되면, 선택부(14)는 단계 S1에서, 변환 행렬 기억부(13)에 기억된 모든 변환 행렬을 선택하여 변환부(5)에 공급하고, 단계 S2로 진행한다. 여기서, 선택부(14)에서 선택된 변환 행렬을, 이하 적절하게, 선택 변환 행렬이라고 한다.
단계 S2에서는 변환부(5)가 버퍼(4)로부터의 시계열의 특징 벡터의 판독, 선택부(14)로부터 공급된 선택 변환 행렬에 의한, 버퍼(4)로부터 판독된 특징 벡터의 변환, 및 그 변환에 의해 얻어지는 변환 특징 벡터의 매칭부(6)에의 공급을 개시한다.
즉, 이 경우, 변환 행렬 기억부(13)에 기억된 변환 행렬 전부가 선택 변환 행렬로 되어 있기 때문에, 변환부(5)는 그 변환 행렬 각각에 따라, 버퍼(4)에 기억된 특징 벡터를 변환하고, 그 결과 얻어지는 변환 특징 벡터의 계열을 매칭부(6)에 공급한다.
따라서, 단계 S2에서는 매칭부(6)에, 변환 행렬 기억부(13)에 기억된 1이상의 변환 행렬 각각에 따라 변환된 특징 벡터 계열의 공급이 개시된다.
그 후, 단계 S3으로 진행하여, 매칭부(6)는 공급되는 특징 벡터 계열을 이용하여, 음향 모델 기억부(7), 사전 기억부(8), 및 문법 기억부(9)를 필요에 따라 참조하여, 연속 분포 HMM법 등에 기초한 스코어를 빔 검색법에 의해 가설의 가지치기를 하면서 계산하는 매칭 처리를 행한다.
즉, 매칭부(6)는 변환 행렬 기억부(13)에 기억된 1이상의 변환 행렬 각각에 따라 변환된 특징 벡터 계열 각각에 대하여 매칭 처리를 행한다.
그리고, 단계 S4로 진행하여, 매칭부(6)는 변환 행렬 기억부(13)에 기억된 1이상의 변환 행렬 각각에 따라 변환된 특징 벡터 계열 각각에 대하여, 음성 구간의 개시 시각으로부터 소정 시간 분의 가설이 얻어졌는지를 판정한다.
단계 S4에서 음성 구간의 개시 시각으로부터 소정 시간 분의 가설이 아직 얻어지지 않았다고 판정된 경우, 단계 S3으로 되돌아가 매칭부(6)는 변환부(5)로부터 공급되는 특징 벡터 계열을 이용한 매칭 처리를 속행한다.
또한, 단계 S4에서 음성 구간의 개시 시각으로부터 소정 시간 분의 가설이 얻어졌다고 판정된 경우, 즉 매칭부(6)에서, 변환 행렬 기억부(13)에 기억된 1이상의 변환 행렬 각각에 따라 변환된 특징 벡터 계열 각각에 대하여, 음성 구간의 개시 시각으로부터 소정 시간 분의 가설이 얻어진 경우, 단계 S5로 진행하여, 선택부(14)는 변환 행렬 기억부(13)에 기억된 1이상의 변환 행렬 각각에 따라 변환된 특징 벡터 계열 각각에 대하여 얻어진 소정 시간 분의 가설 중에서, 가장 스코어가 높은 것을 선택한다. 또한, 단계 S5에서는 선택부(14)는 그 가장 스코어가 높은 가설이 얻어진 특징 벡터 계열을 변환하는 데 이용한 변환 행렬을 검출하고, 단계 S6으로 진행한다.
여기서, 이와 같이 하여 검출된 변환 행렬(이하 적절하게, 검출 변환 행렬이라고 함)은 현재 입력되어 있는 사용자의 음성(의 특징 벡터)에 대하여, 음향 모델기억부(7)에 기억된 음향 모델로부터 얻어지는 가장 높은 스코어를 제공하므로, 사용자의 음성을 음향 모델에 가장 적응시키는 것, 즉 그 사용자의 음성에 대하여 최적인 변환 행렬이라고 할 수 있다.
단계 S6에서는 선택부(14)는 변환 행렬 기억부(13)에 기억된 변환 행렬 중에서 단계 S5에서 검출된 검출 변환 행렬(최적의 변환 행렬)을 선택하고, 그 선택 변환 행렬을 변환부(5)에 공급하고, 단계 S7로 진행한다.
단계 S7에서는 변환부(5)가 선택부(14)로부터 공급된 선택 변환 행렬에 따른, 버퍼(4)로부터 판독된 특징 벡터의 변환, 및 그 변환에 의해 얻어지는 변환 특징 벡터의 매칭부(6)로의 공급을 개시한다.
즉, 이에 의해, 현재 입력되어 있는 사용자의 음성을 음향 모델에 가장 적응시키는 변환 행렬(이하 적절하게, 최적 변환 행렬이라고 함)에 의해 변환된 특징 벡터 계열의 매칭부(6)로의 공급이 개시된다.
그 후, 단계 S8로 진행하여, 매칭부(6)는 공급되는 특징 벡터 계열을 이용하여 매칭 처리를 속행한다. 즉, 매칭부(6)는 변환 행렬 기억부(13)에 기억된 변환 행렬 중, 현재 입력되어 있는 음성에 있어서 최적의 변환 행렬에 의해 변환된 특징 벡터 계열을 이용하여, 매칭 처리를 속행한다. 이에 의해, 매칭부(6)는 최적 변환 행렬에 의해 변환된 특징 벡터 계열을 이용하여 얻어지는 스코어를 계산해 간다.
또, 그 때, 매칭부(6)는 단계 S3 및 S4의 루프 처리로 얻어진, 최적 변환 행렬 이외의 변환 행렬에 의해 변환된 특징 벡터를 이용하여 구해진 스코어 및 가설을 삭제한다.
그리고, 매칭부(6)는 음성 구간의 종료 시각까지의 스코어의 계산이 종료되면, 단계 S9로 진행하여, 지금까지 남아 있는 가설 중에서, 가장 스코어가 높은 것을 검출하여, 음성 인식 결과로서 출력하고, 단계 S10으로 진행한다.
단계 S10에서는 적응 데이터베이스(11)에 새로운 적응 데이터를 등록하는(기억시키는) 적응 데이터 등록 처리가 행해지고, 음성 인식 처리를 종료한다.
다음으로, 도 3의 흐름도를 참조하여, 도 2의 단계 S10에서의 적응 데이터 등록 처리에 대하여 설명한다.
적응 데이터 등록 처리에서는, 우선 최초로, 단계 S21에서, 등록부(10)는, 매칭부(6)의 내부 상태를 참조함으로써, 버퍼(4)에 기억된 1발화에 대한 음성의 특징 벡터 계열에 대하여, 그 음성에 대응하는 음향 모델의 계열(그 발화의 음성 인식 결과를 구성하는 음향 모델의 계열)을 인식한다. 또한, 단계 S21에서는 등록부(10)는, 인식한 음향 모델의 계열의, 각 음향 모델이 갖는 가우스 분포를 정의하는 평균 벡터를 음향 모델 기억부(7)를 참조함으로써 인식하고, 그 음향 모델의 계열에 대응하는 평균 벡터의 계열과 버퍼(4)에 기억된 특징 벡터 계열을 대응시킴으로써, 적응 데이터를 구성한다. 그리고, 단계 S22로 진행하여, 등록부(10)는 그 적응 데이터를 적응 데이터베이스(11)에 공급하여 기억시키고, 단계 S23으로 진행한다.
단계 S23에서는 등록부(10)는 버퍼(4)에 기억시킨 1발화분의 특징 벡터 계열을 삭제함으로써, 버퍼(4)를 클리어하고, 단계 S24로 진행한다.
단계 S24에서는 모델 적응부(12)는, 직전의 단계 S22에서 적응데이터베이스(11)에 기억된 새로운 적응 데이터를 주목 적응 데이터로 하여, 그 주목 적응 데이터에서의 특징 벡터 계열을, 그 특징 벡터 계열에 대응되는 평균 벡터의 계열에 가장 근사한 벡터 계열로 변환하는 변환 행렬(최적 변환 행렬)을 변환 행렬 기억부(13)에 기억된 변환 행렬 중에서 검출한다.
즉, 예를 들면 모델 적응부(12)는 주목 적응 데이터에서의 특징 벡터 계열을 변환 행렬 기억부(13)에 기억된 임의의 1개의 변환 행렬에 의해 변환하여, 변환 특징 벡터 계열을 얻는다. 또한, 모델 적응부(21)는, 예를 들면 그 변환 특징 벡터 계열의 각 변환 특징 벡터와, 주목 적응 데이터에서의 평균 벡터의 계열의 대응하는 평균 벡터와의 거리의 총합을, 그 변환 특징 벡터와 평균 벡터의 계열과의 오차로서 구한다. 모델 적응부(21)는 이상과 같은 변환 특징 벡터와 평균 벡터의 계열과의 오차를 변환 행렬 기억부(13)에 기억된 변환 행렬 각각에 의해 얻어지는 변환 특징 벡터 각각에 대하여 구하고, 그 오차를 최소로 하는 변환 특징 벡터를 얻는 데 이용한 변환 행렬을 최적 변환 행렬로서 검출한다.
그리고, 단계 S25로 진행하여, 모델 적응부(12)는 주목 적응 데이터를 최적 변환 행렬에 할당한다. 즉, 모델 적응부(12)는 최적 변환 행렬을 나타내는 정보를 상술한 할당 정보로 하고, 그 할당 정보를 적응 데이터베이스(11)에 공급하여, 주목 적응 데이터에 대응하여 기억시킨다.
그 후, 단계 S26으로 진행하여, 모델 적응부(12)는 변환 행렬 기억부(13)에 기억된 변환 행렬을 적응 데이터베이스(11)에 기억된 적응 데이터를 이용하여 갱신하는 변환 행렬 갱신 처리를 행하고, 적응 데이터 등록 처리를 종료한다.
다음으로, 도 4의 흐름도를 참조하여, 도 3의 단계 S26에서의 변환 행렬 갱신 처리에 대하여 설명한다.
변환 행렬 갱신 처리에서는, 우선 최초로, 단계 S31에서 모델 적응부(12)는 변환 행렬 기억부(13)에 기억된 변환 행렬 중, 주목 적응 데이터를 할당한 변환 행렬을 주목 변환 행렬로 하고, 단계 S32로 진행한다.
단계 S32에서는 모델 적응부(12)는 주목 변환 행렬에 할당되어 있는 적응 데이터 전부를 이용하여, 주목 변환 행렬을 갱신한다.
즉, 모델 적응부(12)는, 예를 들면 주목 변환 행렬에 할당되어 있는 각 적응 데이터에서의 특징 벡터 계열을 선형 변환하는 행렬로서, 그 선형 변환 후의 특징 벡터의 계열과 그 특징 벡터 계열에 대응되는 평균 벡터와의 오차를 최소로 하는 것을 최소 제곱법(선형 회귀)에 의해 구한다. 그리고, 모델 적응부(12)는 이 행렬에 의해, 주목 변환 행렬을 갱신하고(이 행렬을 주목 변환 행렬로 치환하고), 갱신 후의 주목 변환 행렬을 변환 행렬 기억부(13)에 공급하여, 갱신 전의 주목 변환 행렬에 덮어쓰기하는 형태로 기억시킨다.
또, 단계 S32에서의 주목 변환 행렬의 갱신 방법 자체는, 기본적으로 종래의 모델 적응형 음성 인식 장치에서의 모델 적응과 마찬가지이다. 단, 단계 S32에서의 주목 변환 행렬의 갱신은 그 주목 변환 행렬에 할당되어 있는 적응 데이터만이 이용되는 점에서, 예를 들면 모델 적응을 위해 입력된 음성 전부를 이용하여 모델 적응을 행하는 종래의 방법과 서로 다르다. 즉, 종래의 모델 적응의 방법에 있어서는 적응 데이터가 변환 행렬에 할당되는 개념이 없다.
또한, 단계 S32에서 주목 변환 행렬에 할당되어 있는 적응 데이터는 적응 데이터베이스(11)에 기억되어 있는 할당 정보를 참조함으로써 인식된다.
단계 S32에서 주목 변환 행렬이 갱신된 후에는 단계 S33으로 진행하여, 변환 행렬 기억부(13)에 기억된 각 변환 행렬에 대한 적응 데이터의 할당을 갱신하는 할당 갱신 처리가 행해진다.
즉, 단계 S32에서 주목 변환 행렬이 갱신되기 때문에, 변환 행렬 기억부(13)에 기억된 각 변환 행렬에 할당된 적응 데이터 중에는 현재 할당되어 있는 변환 행렬이 아닌, 주목 변환 행렬이 최적 변환 행렬이 되는 경우가 있다. 또한, 갱신된 주목 변환 행렬에 할당되어 있는 적응 데이터 중에는 주목 변환 행렬이 아닌, 다른 변환 행렬이 최적 변환 행렬이 되는 경우가 있다. 그래서, 단계 S33의 할당 갱신 처리에서는 적응 데이터베이스(11)에 기억되어 있는 각 적응 데이터가 현재 할당되어 있는 변환 행렬이 최적 변환 행렬로 되어 있는지를 확인하고, 최적 변환 행렬로 되어 있지 않는 경우에는 그 적응 데이터를 최적 변환 행렬에 재할당하게 된다.
구체적으로는, 할당 갱신 처리는 단계 S41 내지 S48의 처리로 구성되고, 우선 최초로, 단계 S41에서 모델 적응부(12)는, 변수 I와 J로 변환 행렬 기억부(13)에 기억되어 있는 변환 행렬의 수와 적응 데이터베이스(11)에 기억되어 있는 적응 데이터의 수를 각각 세트함과 함께, 변환 행렬을 카운트하는 변수 i와 적응 데이터를 카운트하는 변수 j를 모두 1로 초기화한다.
그 후, 단계 S42로 진행하여, 모델 적응부(12)는 적응 데이터베이스(11)에 기억되어 있는 j번째 적응 데이터인 적응 데이터 #j에서의 특징 벡터 계열을 변환행렬 기억부(13)에 기억되어 있는 i번째 변환 행렬인 변환 행렬 Mi로 변환하고, 단계 S43으로 진행한다. 단계 S43에서는 모델 적응부(12)는 적응 데이터 #j를 변환 행렬 Mi로 변환함으로써 얻어지는 변환 특징 벡터와 적응 데이터 #j에서의 평균 벡터의 계열과의 오차 ε(i, j)를, 상술한 도 3의 단계 S24에서 설명한 경우와 마찬가지로 하여 구한다.
그리고, 단계 S44로 진행하여, 모델 적응부(12)는 변수 i가 변환 행렬의 총수인 I와 같은지를 판정한다. 단계 S44에서 변수 i가 I와 같지 않다고 판정된 경우, 단계 S45로 진행하여, 모델 적응부(12)는 변수 i를 1만 인크리먼트하고, 단계 S42로 되돌아가 이하 마찬가지의 처리를 반복한다.
또한, 단계 S44에서 변수 i가 I와 같다고 판정된 경우, 단계 S46으로 진행하여, 모델 적응부(12)는 변수 j가 적응 데이터의 총수인 J와 같은지를 판정한다. 단계 S46에서 변수 j가 J와 같지 않다고 판정된 경우, 단계 S47로 진행하여, 모델 적응부(12)는 변수 j를 1만큼 인크리먼트함과 함께, 변수 i를 1로 초기화하고, 단계 S42로 되돌아가 이하 마찬가지의 처리를 반복한다.
그리고, 단계 S46에서, 변수 j가 J와 같다고 판정된 경우, 즉 적응 데이터베이스(11)에 기억된 적응 데이터 전부에 대하여, 그 적응 데이터를 변환 행렬 기억부(13)에 기억된 변환 행렬 각각으로 변환한 변환 특징 벡터 각각과, 그 적응 데이터에서의 평균 벡터의 계열과의 오차 ε(i, j)가 구해진 경우(i=1, 2, …, I:j=1, 2, …, J), 단계 S48로 진행하여, 모델 적응부(12)는 각 적응 데이터 #j를 오차ε(i, j)를 최소로 하는 변환 행렬 Mi에 재할당한다. 즉, 모델 적응부(12)는 적응 데이터베이스(11)에 기억된 적응 데이터 #j에, 오차 ε(i, j)를 최소로 하는 변환 행렬 Mi를 나타내는 정보를 할당 정보로서 대응하여 기억시킨다(덮어쓰기한다).
여기서, 적응 데이터 #j가 변환 행렬 Mi에 할당되어 있는 경우에, 그 적응 데이터 #j에서의 특징 벡터 계열을 변환 행렬 Mi로 변환하여 얻어지는 변환 특징 벡터 계열과 적응 데이터 #j에서의 평균 벡터의 계열과의 오차 ε(i, j)를, 이하 적절하게, 적응 데이터에 대한 오차라고 한다.
이상과 같이 하여, 단계 S41 내지 S48의 처리로 이루어지는 단계 S33의 할당 갱신 처리가 종료하면, 단계 S34로 진행하여, 모델 적응부(12)는 그 할당 갱신 처리에 의해, 할당되는 적응 데이터가 변화한 변환 행렬이 존재하는지의 여부를 판정한다.
단계 S34에서 할당되는 적응 데이터가 변화한 변환 행렬이 존재한다고 판정된 경우, 단계 S35로 진행하여, 모델 적응부(12)는 적응 데이터의 할당이 변화한 변환 행렬을 주목 변환 행렬로 하고, 단계 S32로 되돌아가 이하 마찬가지의 처리를 반복한다.
즉, 적응 데이터의 할당이 변화한 변환 행렬이 존재하는 경우에는, 단계 S35에서 그 변환 행렬이 주목 변환 행렬로 된다. 그리고, 단계 S32로 되돌아가 그 주목 변환 행렬을 그에 할당되어 있는 적응 데이터를 이용하여 갱신하고, 또한 단계 S33에서 할당 갱신 처리를 행하는 것이 반복된다.
또, 적응 데이터의 할당이 변화한 변환 행렬이 복수 존재하는 경우에는, 단계 S35에서는 그 복수의 변환 행렬이 주목 변환 행렬로 되고, 단계 S32에서는 그 복수의 주목 변환 행렬 각각이, 각각에 할당되어 있는 적응 데이터를 이용하여 갱신된다.
한편, 단계 S34에서 적응 데이터의 할당이 변화한 변환 행렬이 존재하지 않는다고 판정된 경우, 즉 적응 데이터베이스(11)에서의 적응 데이터가 전부, 최적 변환 행렬에 할당된 경우, 단계 S36으로 진행하여, 모델 적응부(12)는 변환 행렬 생성/삭제 처리를 행하고, 변환 행렬 갱신 처리를 종료한다.
다음으로, 도 5의 흐름도를 참조하여, 도 4의 단계 S36에서의 변환 행렬 생성/삭제 처리에 대하여 설명한다.
변환 행렬 생성/삭제 처리에서는, 우선 최초로, 단계 S51에서 모델 적응부(12)는 변환 행렬 기억부(13)에 기억된 변환 행렬 중에, 새로운 변환 행렬을 생성하는 경우에 만족해야 할, 미리 설정된 소정의 생성 조건을 만족하는 변환 행렬이 존재하는지의 여부를 판정한다.
여기서, 생성 조건으로는, 예를 들면 변환 행렬에, 소정 임계값 이상의 수(소정의 임계값보다 많은 수)의 적응 데이터가 할당되어 있는 것을 채용할 수 있다. 또한, 생성 조건으로는, 기타 예를 들면, 변환 행렬에 할당되어 있는 적응 데이터에 대한 오차의 평균값이 소정의 임계값 이상인(보다 큰) 것이나, 변환 행렬에 할당되어 있는 적응 데이터에 대한 오차가 소정의 임계값 이상의 것이, 소정 수 이상 존재하는 것 등을 채용할 수 있다. 즉, 생성 조건으로는 그 변환 행렬에 의해서는그 변환 행렬에 할당되어 있는 모든 적응 데이터에서의 특징 벡터를, 그에 대응되는 평균 벡터에 양호한 정밀도로 변환하는 것이 곤란하게 된 상황을 나타내는 조건 등을 채용할 수 있다.
단계 S51에서 변환 행렬 기억부(13)에 기억된 변환 행렬 중에, 생성 조건을 만족하는 것이 존재하지 않는다고 판정된 경우, 단계 S52 및 S53을 스킵하여, 단계 S54로 진행한다.
또한, 단계 S51에서 변환 행렬 기억부(13)에 기억된 변환 행렬 중에, 생성 조건을 만족하는 것이 있다고 판정된 경우, 단계 S52로 진행하여, 모델 적응부(12)는 그 생성 조건을 만족하는 변환 행렬을 주목 변환 행렬로 하고, 단계 S53으로 진행한다.
단계 S53에서는 모델 적응부(12)는 후술하는 변환 행렬 생성 처리를 행하고, 단계 S54로 진행한다.
단계 S54에서는 모델 적응부(12)는 변환 행렬 기억부(13)에 기억된 변환 행렬 중에, 변환 행렬을 삭제하는 경우에 만족해야 할, 미리 설정된 소정의 삭제 조건을 만족하는 변환 행렬이 존재하는지의 여부를 판정한다.
여기서, 삭제 조건으로는, 예를 들면 변환 행렬에, 소정 임계값 이하의 수(소정의 임계값 미만의 수)의 적응 데이터밖에 할당되어 있지 않는 것을 채용할 수 있다. 또한, 삭제 조건으로는, 변환 행렬에 소정 임계값 이하의 수의 적응 데이터밖에 할당되어 있지 않은 것 외에, 예를 들면 변환 행렬에 할당되어 있는 적응 데이터에 대한 오차의 평균값이 소정의 임계값 이상인(보다 큰) 것 등을 채용할 수있다. 또한, 삭제 조건으로는 변환 행렬 기억부(13)에 기억된 각 변환 행렬에 대하여, 도 2의 음성 인식 처리에 있어서의 단계 S6에서 선택된 최신의 일시를 기억해 두고, 그 일시가 현재 일시로부터 소정의 일수 이상 과거인 것 등을 채용할 수도 있다. 이 경우, 도 2의 음성 인식 처리에 있어서의 단계 S6에서 장기간 선택되지 않은 변환 행렬이 삭제되게 된다.
이상과 같이, 삭제 조건으로는 그 변환 행렬에 할당되는 적응 데이터가 거의 없는 상황이나, 그 변환 행렬이 음성 인식에 있어서 거의 사용(선택)되지 않는 상황을 나타내는 조건 등을 채용할 수 있다.
단계 S54에서 변환 행렬 기억부(13)에 기억된 변환 행렬 중에, 삭제 조건을 만족하는 것이 존재하지 않는다고 판정된 경우, 단계 S55 및 S56을 스킵하여, 변환 행렬 생성/삭제 처리를 종료한다.
또한, 단계 S51에서 변환 행렬 기억부(13)에 기억된 변환 행렬 중에, 삭제 조건을 만족하는 것이 있다고 판정된 경우, 단계 S55로 진행하여, 모델 적응부(12)는 그 삭제 조건을 만족하는 변환 행렬을 주목 변환 행렬로 하고, 단계 S56으로 진행한다.
단계 S56에서는 모델 적응부(12)는 후술하는 변환 행렬 삭제 처리를 행하고, 변환 행렬 생성/삭제 처리를 종료한다.
다음으로, 도 6의 흐름도를 참조하여, 도 5의 단계 S53에서의 변환 행렬 생성 처리에 대하여 설명한다.
변환 행렬 생성 처리에서는, 우선 최초로, 단계 S61에서 모델 적응부(61)는주목 변환 행렬에 기초하여 제1과 제2 행렬을 생성한다.
즉, 이 경우, 도 5의 단계 S52에서 생성 조건을 만족하는 변환 행렬이 주목 변환 행렬로 되어 있으며, 단계 S61에서는 그 주목 변환 행렬이, 소위 분할(split)되고, 이에 의해 제1과 제2의 2개의 행렬이 생성된다.
또, 도 5의 단계 S52에서, 주목 변환 행렬로 된 변환 행렬이 복수 존재하는 경우에는 도 6의 변환 행렬 생성 처리는, 예를 들면 그 복수의 주목 변환 행렬 하나 하나에 대하여, 순차적으로 또는 병렬로 행해진다.
여기서, 단계 S61에서의, 주목 변환 행렬에 기초한 제1과 제2 행렬의 생성은, 예를 들면 주목 변환 행렬을 기준으로 하여, 그 성분을 소정값만 변화시킴으로써 행할 수 있다.
즉, 예를 들면 주목 변환 행렬을 기준으로 하여, 그 성분에 소정의 값을 가산 또는 감산함으로써, 소정 벡터를 주목 변환 행렬에 의해 사상(변환)한 경우보다, 소정의 미소 벡터 Δ와 -Δ만큼 어긋난 위치로 각각 사상하는 2개의 행렬을 구하여, 이 2개의 행렬을 제1과 제2 행렬로 할 수 있다. 또한, 주목 변환 행렬을 그대로 제1 행렬로 함과 함께, 주목 변환 행렬을 기준으로 하여, 그 성분에 소정의 값을 가산 또는 감산함으로써, 소정 벡터를 주목 변환 행렬에 의해 사상한 경우보다, 소정의 미소 벡터 Δ만큼 어긋난 위치로 사상하는 행렬을 구하여, 그 행렬을 제2 행렬로 할 수 있다.
단계 S61에서 제1과 제2 행렬을 생성한 후에는, 단계 S62로 진행하여, 모델 적응부(12)는 주목 변환 행렬에 할당되어 있는 적응 데이터의 수를 변수 K로 세트함과 함께, 그 적응 데이터의 수를 카운트하는 변수 k를 1로 초기화하고, 단계 S63으로 진행한다.
단계 S63에서는 모델 적응부(12)는 주목 변환 행렬에 할당되어 있는 k번째 적응 데이터인 적응 데이터 #k에서의 특징 벡터 계열을, 제1과 제2 행렬 각각으로 변환함으로써, 2개의 변환 특징 벡터 계열을 구한다.
여기서, 특징 벡터 계열을 제1 행렬과 제2 행렬 각각에 의해 변환함으로써 얻어지는 변환 특징 벡터 계열을, 각각 제1 변환 특징 벡터 계열과 제2 변환 특징 벡터 계열이라고 한다.
그 후, 단계 S64로 진행하여, 모델 적응부(12)는 제1 변환 특징 벡터 계열과 적응 데이터 #k에서의 평균 벡터 계열과의 오차(이하, 적절하게, 제1 오차라고 함), 및 제2 변환 특징 벡터 계열과 적응 데이터 #k에서의 평균 벡터 계열과의 오차(이하, 적절하게, 제2 오차라고 함)를 구하고, 단계 S65로 진행한다.
단계 S65에서는 모델 적응부(12)는 제1 오차가 제2 오차 미만(이하)인지를 판정한다. 단계 S65에서, 제1 오차가 제2 오차 미만이라고 판정된 경우, 즉 제1 행렬과 제2 행렬을 비교한 경우에, 제1 행렬이 적응 데이터 #k에서의 특징 벡터 계열을 대응하는 음향 모델에 보다 적절하게 적응시킬 수 있는 경우, 단계 S66으로 진행하여, 모델 적응부(12)는 제1 행렬에 적응 데이터 #k를 할당하고, 단계 S68로 진행한다.
또한, 단계 S65에서, 제1 오차가 제2 오차 미만이 아니라고 판정된 경우, 즉 제1 행렬과 제2 행렬을 비교한 경우에, 제2 행렬이 적응 데이터 #k에서의 특징 벡터 계열을 대응하는 음향 모델에 보다 적절하게 적응시킬 수 있는 경우, 단계 S67로 진행하여, 모델 적응부(12)는 제2 행렬에 적응 데이터 #k를 할당하고, 단계 S68로 진행한다.
단계 S68에서는 모델 적응부(12)는 변수 k가 주목 변환 행렬에 할당되어 있는 적응 데이터의 총수 K와 같은지를 판정한다.
단계 S68에서 변수 k가 K와 같지 않다고 판정된 경우, 단계 S69로 진행하여, 모델 적응부(12)는 변수 k를 1만큼 인크리먼트하고, 단계 S63으로 되돌아가 이하 마찬가지의 처리를 반복한다.
또한, 단계 S68에서 변수 k가 K와 같다고 판정된 경우, 즉 주목 변환 행렬에 할당되어 있었던 적응 데이터 각각이 제1 또는 제2 행렬 중의 적절한 쪽(특징 벡터를 대응하는 평균 벡터에 보다 가까운 것으로 변환하는 쪽)에 할당된 경우, 단계 S70으로 진행하여, 모델 적응부(12)는 변환 행렬 기억부(13)로부터 주목 변환 행렬을 삭제하고, 제1과 제2 행렬을 새로운 변환 행렬로서 변환 행렬 기억부(13)에 기억시킨다.
즉, 이에 의해, 주목 변환 행렬이 삭제됨과 함께, 새로운 2개의 변환 행렬이 추가되어, 변환 행렬 기억부(13)에서는, 실질적으로 변환 행렬이 1개 증가한(생성된) 것으로 된다.
그 후, 단계 S71로 진행하여, 모델 적응부(12)는 새로운 2개의 변환 행렬을 주목 변환 행렬로 하고, 단계 S72로 진행한다.
단계 S72에서는 모델 적응부(12)는 도 4의 단계 S32에서의 경우와 마찬가지로, 주목 변환 행렬에 할당되어 있는 적응 데이터 전부를 이용하여, 주목 변환 행렬을 갱신한다.
또, 이 경우, 변환 행렬 기억부(13)에 새롭게 기억된 2개의 변환 행렬이 주목 변환 행렬로 되어 있으며, 따라서 그 2개의 주목 변환 행렬 각각이, 각각에 할당되어 있는 적응 데이터를 이용하여 갱신된다.
그 후, 단계 S73으로 진행하여, 모델 적응부(12)는 도 4의 단계 S33에서의 경우와 마찬가지의 할당 갱신 처리를 행하고, 단계 S74로 진행한다.
단계 S74에서는 모델 적응부(12)는 단계 S73에서의 할당 갱신 처리에 의해, 할당되는 적응 데이터가 변화한 변환 행렬이 존재하는지의 여부를 판정한다.
단계 S74에서, 할당되는 적응 데이터가 변화한 변환 행렬이 존재한다고 판정된 경우, 단계 S75로 진행하여, 모델 적응부(12)는 적응 데이터의 할당이 변환한 변환 행렬을 새롭게 주목 변환 행렬로 하고, 단계 S72로 되돌아가 이하 마찬가지의 처리를 반복한다.
즉, 적응 데이터의 할당이 변화한 변환 행렬이 존재하는 경우에는 단계 S75에서 그 변환 행렬이 주목 변환 행렬로 된다. 그리고, 단계 S72로 되돌아가 그 주목 변환 행렬을 그에 할당되어 있는 적응 데이터를 이용하여 갱신하고, 또한 단계 S73에서 할당 갱신 처리를 행하는 것이 반복된다.
또, 적응 데이터의 할당이 변화한 변환 행렬이 복수 존재하는 경우에는 단계 S75에서는 그 복수의 변환 행렬이 주목 변환 행렬로 되고, 단계 S72에서는 그 복수의 주목 변환 행렬 각각이, 각각에 할당되어 있는 적응 데이터를 이용하여 갱신된다.
한편, 단계 S74에서, 적응 데이터의 할당이 변화한 변환 행렬이 존재하지 않는다고 판정된 경우, 즉 적응 데이터베이스(11)에서의 적응 데이터가, 전부 최적 변환 행렬에 할당된 경우, 변환 행렬 생성 처리를 종료한다.
다음으로, 도 7의 흐름도를 참조하여, 도 5의 단계 S56에서의 변환 행렬 삭제 처리에 대하여 설명한다.
변환 행렬 삭제 처리에서는, 우선 최초로, 단계 S81에서, 모델 적응부(81)는 주목 변환 행렬을 변환 행렬 기억부(13)로부터 삭제한다.
즉, 이 경우, 도 5의 단계 S55에서, 삭제 조건을 만족하는 변환 행렬이 주목 변환 행렬로 되어 있으며, 단계 S81에서는 그 주목 변환 행렬이 변환 행렬 기억부(13)로부터 소거된다.
또, 도 5의 단계 S55에서 주목 변환 행렬로 된 변환 행렬이 복수 존재하는 경우에는, 도 7의 단계 S81에서 그 복수의 주목 변환 행렬 전부가 삭제된다.
단계 S81에서 주목 변환 행렬을 삭제한 후에는 단계 S82로 진행하여, 모델 적응부(12)는 주목 변환 행렬에 할당되어 있는 적응 데이터의 수를 변수 K로 세트함과 함께, 그 적응 데이터의 수를 카운트하는 변수 k를 1로 초기화하고, 단계 S83으로 진행한다.
또, 단계 S81에서 복수의 주목 변환 행렬을 삭제한 경우에는, 단계 S82에서는 그 복수의 주목 변환 행렬 각각에 할당되어 있는 적응 데이터의 총수를 변수 K로 세트한다.
단계 S83에서는 모델 적응부(12)는 도 3의 단계 S24에서의 경우와 마찬가지로, k번째 적응 데이터인 적응 데이터 #k에서의 특징 벡터 계열을 그 특징 벡터 계열에 대응되는 평균 벡터의 계열에 가장 근사한 벡터 계열로 변환하는 변환 행렬, 즉 최적 변환 행렬을 변환 행렬 기억부(13)에 기억된 변환 행렬 중에서 검출하고, 단계 S84로 진행한다.
단계 S84에서는 모델 적응부(12)는 단계 S83에서 검출된 변환 행렬(최적 변환 행렬)에 적응 데이터 #k를 할당(다시 함)하고, 단계 S85로 진행한다.
단계 S85에서는 모델 적응부(12)는 변수 k가 단계 S81에서 삭제된 주목 변환 행렬에 할당되어 있었던 적응 데이터의 총수 K와 같은지를 판정한다.
단계 S85에서 변수 k가 K와 같지 않다고 판정된 경우, 단계 S86으로 진행하여, 모델 적응부(12)는 변수 k를 1만큼 인크리먼트하고, 단계 S83으로 되돌아가 이하 마찬가지의 처리를 반복한다.
또한, 단계 S85에서 변수 k가 K와 같다고 판정된 경우, 즉 단계 S81에서 삭제된 주목 변환 행렬에 할당되어 있었던 적응 데이터의 전부가, 변환 행렬 기억부(13)에 기억된 변환 행렬 중 어느 하나에 재할당된 경우, 단계 S87로 진행하여, 모델 적응부(12)는 그 주목 변환 행렬에 할당되어 있었던 적응 데이터 중 어느 하나가 새롭게 할당된 변환 행렬 전부를 새롭게 주목 변환 행렬로 하고, 단계 S88로 진행한다.
단계 S88에서는 모델 적응부(12)는 도 4의 단계 S32에서의 경우와 마찬가지로 주목 변환 행렬에 할당되어 있는 적응 데이터 전부를 이용하여 주목 변환 행렬을 갱신한다.
또, 복수의 변환 행렬이 주목 변환 행렬로 되어 있는 경우에는 단계 S88에서는, 그 복수의 주목 변환 행렬 각각이, 각각에 할당되어 있는 적응 데이터를 이용하여 갱신된다.
그 후, 단계 S89로 진행하여, 모델 적응부(12)는 도 4의 단계 S33에서의 경우와 마찬가지의 할당 갱신 처리를 행하고, 단계 S90으로 진행한다.
단계 S90에서는, 모델 적응부(12)는 단계 S89에서의 할당 갱신 처리에 의해, 할당되는 적응 데이터가 변화한 변환 행렬이 존재하는지를 판정한다.
단계 S90에서 할당되는 적응 데이터가 변화한 변환 행렬이 존재한다고 판정된 경우, 단계 S91로 진행하여, 모델 적응부(12)는 적응 데이터의 할당이 변환한 변환 행렬을 주목 변환 행렬로 하고, 단계 S88로 되돌아가 이하 마찬가지의 처리를 반복한다.
즉, 적응 데이터의 할당이 변화한 변환 행렬이 존재하는 경우에는, 단계 S91에서, 그 변환 행렬이 주목 변환 행렬로 된다. 그리고, 단계 S88로 되돌아가 그 주목 변환 행렬을 그에 할당되어 있는 적응 데이터를 이용하여 갱신하고, 또한 단계 S89에서 할당 갱신 처리를 행하는 것이 반복된다.
또, 적응 데이터의 할당이 변화한 변환 행렬이 복수 존재하는 경우에는, 단계 S91에서는 그 복수의 변환 행렬이 주목 변환 행렬로 되고, 단계 S88에서는 그 복수의 주목 변환 행렬 각각이, 각각에 할당되어 있는 적응 데이터를 이용하여 갱신된다.
한편, 단계 S90에서 적응 데이터의 할당이 변화한 변환 행렬이 존재하지 않는다고 판정된 경우, 즉 적응 데이터베이스(11)에서의 적응 데이터가 전부, 최적 변환 행렬에 할당된 경우, 변환 행렬 삭제 처리를 종료한다.
이상과 같이, 도 1의 음성 인식 장치에서는 사용자가 발화를 행하면, 도 3의 적응 데이터 등록 처리에 의해, 그 사용자의 음성의 특징 벡터를 포함하는 적응 데이터가 등록되어 있으며, 또한 그 적응 데이터는 변환 행렬 기억부(13)에 기억된 1이상의 변환 행렬 중의 최적 변환 행렬에 할당된다. 그리고, 새롭게 적응 데이터가 할당된 변환 행렬은 도 4의 변환 행렬 갱신 처리에 의해, 그에 할당되어 있는 적응 데이터를 이용하여 갱신되고, 또한 적응 데이터베이스(11)에 기억된 각 적응 데이터가 최적 변환 행렬에 할당되도록, 적응 데이터의 변환 행렬의 재할당이 행해진다.
따라서, 적응 데이터는 그 적응 데이터에서의 특징 벡터 계열을 대응하는 음향 모델에 적응시키는 데 최적인 변환 행렬별로 클래스 분류(클래스터링)되고, 또한 그와 같이 클래스 분류된 각 클래스의 적응 데이터를 이용하여, 그 클래스에 대응하는 변환 행렬이 갱신되어 가므로, 사용자로부터 입력된 음성이, 말하자면 자동적으로 클래스 분류되고, 그 클래스의 음성을 대응하는 음향 모델에 의해 적절하게 적응시키도록, 변환 행렬이 갱신되어 가게 되고, 그 결과 그와 같은 변환 행렬을 이용하여 모델 적응을 행함으로써, 음성 인식 정밀도를 향상시킬 수 있다.
또, 사용자로부터 입력된 음성의 클래스 분류는 그 음성에 있어서, 어느 변환 행렬이 최적 변환 행렬인지라는 관점에서 행해지기 때문에, 사용자가 자신의 음성을 어느 클래스로 클래스 분류해야 할 것인지를 지정할 필요는 없다. 이것은, 예를 들면 동일 사용자의 음성이어도, 음성 인식 장치가 사용되는 환경 등이 다르면, 다른 클래스로 클래스 분류되는(다른 변환 행렬에 할당되는) 경우가 있는 것을 의미하지만, 만일 다른 클래스로 클래스 분류된다고 해도, 그 클래스로 클래스 분류된 음성에 있어서는 그 클래스에 대응하는 변환 행렬이 최적 변환 행렬이고, 따라서 그 최적 변환 행렬에 따르면, 음성을, 대응하는 음향 모델에 최적으로 적응시킬 수 있게 된다.
또, 다른 사용자의 음성이어도, 동일한 클래스로 클래스 분류되는(동일한 변환 행렬에 할당되는) 경우도 있을 수 있지만, 만일 동일한 클래스로 클래스 분류된다고 해도, 역시 그 클래스로 클래스 분류된 음성에 있어서는 그 클래스에 대응하는 변환 행렬이 최적 변환 행렬이고, 따라서 그 최적 변환 행렬에 따르면, 음성을, 대응하는 음향 모델에 최적으로 적응시킬 수 있게 된다.
또한, 도 6의 변환 행렬 생성 처리에 따르면, 새롭게 변환 행렬이 생성되고, 그 변환 행렬은 그 변환 행렬을 최적 변환 행렬로 하는 적응 데이터를 이용하여 갱신된다. 따라서, 예를 들면 음성 인식 장치가 지금까지와는 크게 다른 환경에서 사용되는 경우나, 또는 지금까지의 사용자와는 특징이 크게 다른 사용자에 의한 발화가 입력되는 경우라도, 음성 인식 정밀도의 큰 열화를 방지할 수 있다.
즉, 음성 인식 장치가 지금까지와는 크게 다른 환경에서 사용되는 경우나, 또는 지금까지의 사용자와는 특징이 크게 다른 사용자에 의한 발화가 입력되는 경우에는 변환 행렬 기억부(13)에 기억되어 있는 변환 행렬에서는 입력된 음성을 대응하는 음향 모델에 충분히 적응시킬 수 없어, 음성 인식 정밀도가 열화하는 경우가 있다. 도 6의 변환 행렬 생성 처리에 따르면, 새로운 변환 행렬이 생성되고, 그 새로운 변환 행렬이 지금까지와는 크게 다른 환경 하에서 입력된 음성이나, 지금까지의 사용자와는 특징이 크게 다른 사용자에 의한 음성을 이용하여 갱신되게 되고, 그 결과 종래의 모델 적응형 음성 인식 장치에서 생기는, 사용자나 환경의 변화에 의한 음성 인식 정밀도의 열화를 방지할 수 있게 된다.
또한, 도 6의 변환 행렬 생성 처리에서는, 예를 들면 변환 행렬에 할당되어 있는 적응 데이터의 수가 많아질 때나, 그 적응 데이터에 대한 오차의 평균값이 커질 때 등에, 그 적응 데이터의 할당을, 말하자면 분할하는 제1과 제2 행렬이 새로운 변환 행렬로서 생성되고, 또한 적응 데이터가 그 적응 데이터에서의 특징 벡터 계열을 대응하는 평균 벡터의 계열에 의해 근사한 계열로 사상(변환)하는 변환 행렬에 재할당되므로, 음성을, 대응하는 음향 모델에 의해 적응시키는 변환 행렬이 사용자가 알 수 없는 동안에, 말하자면 동적으로 생성되게 되어, 사용자에게 모델 적응을 의식시키지 않고 완료된다.
또한, 도 7의 변환 행렬 삭제 처리에서는, 예를 들면 변환 행렬에 할당되어 있는 적응 데이터의 수가 적어질 때에, 그 변환 행렬이 삭제되기 때문에, 변환 행렬 기억부(13)에 기억시키는 변환 행렬의 수가 지나치게 많아짐으로 인한 처리량의 증가 등을 방지할 수 있다.
또한, 도 1의 음성 인식 장치에서는, 도 2의 음성 인식 처리에 있어서, 변환 행렬 기억부(13)에 기억된 1이상의 변환 행렬 각각에 의해, 소정 시간의 특징 벡터계열을 변환함으로써 얻어지는 변환 특징 벡터 계열을 이용하여 매칭 처리를 행하고, 그 후의 매칭 처리를 가장 높은 우도가 얻어진 변환 행렬에 의해 특징 벡터 계열을 변환함으로써 속행하도록 했기 때문에, 입력된 음성이 그 음성을, 대응하는 음향 모델에 적응시키는 데 최적인 변환 행렬(본 실시예에서는 입력된 음성의 특징 벡터 계열을 그 음성에 대응하는 음향 모델의 계열이 갖는 각 가우스 분포를 정의하는 평균 벡터의 계열에 가장 근사한 계열로 변환하는 변환 행렬)에 의해 변환된다. 따라서, 음성 인식 장치가 복수의 사용자에 의해, 또는 복수의 환경 하에서 사용되는 경우라도, 각 사용자의 음성, 또는 각 환경 하에서 입력되는 음성을 대응하는 음향 모델에 곧바로 적응시킬 수 있어, 사용자에게 모델 적응을 의식시키지 않고 높은 정밀도의 음성 인식을 행할 수 있다.
즉, 종래의 모델 적응형 음성 인식 장치에서는 상술한 바와 같이 특정 사용자나 특정 환경에 적응하도록 모델 적응이 행해진 후에, 다른 사용자나 다른 환경에서의 사용이 개시되면, 음성 인식 장치의 음향 모델이 최초의 사용자나 최초의 환경에 적응한 것으로 되어 있으므로, 그 음향 모델이 다른 사용자나 다른 환경에 적응하기까지는 음성 인식 정밀도가 크게 열화하지만, 도 1의 음성 인식 장치에서는 입력된 음성이 최적 변환 행렬에 의해 변환됨으로써, 대응하는 음향 모델에 적응시키는 것이 행해지므로, 곧바로, 다른 사용자나 환경에 대응(적응)할 수 있다.
다음으로, 도 1의 음성 인식 장치에서는 입력된 음성(의 특징 벡터)을 대응하는 음향 모델에 적응시키는 모델 적응을 행하도록 하였지만, 음성 인식 장치에서는 상술한 바와 같이 음향 모델을 입력된 음성에 적응시키는 모델 적응을 행하도록할 수도 있다.
그래서, 도 8은 그와 같은 음성 인식 장치의 구성예를 도시하고 있다. 도 8에서, 도 1에서의 경우와 대응하는 부분에 대해서는 동일한 부호를 붙이고, 이하에서는 그 설명을 적절하게 생략한다. 즉, 도 8의 음성 인식 장치는 선택부(14)에서 선택된 변환 행렬을 이용한 변환을 행하는 변환부(5)가 버퍼(4)와 매칭부(6)의 사이가 아닌, 매칭부(6)와 음향 모델 기억부(7) 사이에 설치되어 있는 것 외에는, 도 1의 음성 인식 장치와 기본적으로 마찬가지로 구성되어 있다.
따라서, 도 8의 음성 인식 장치에서는 변환 행렬에 의해, 특징 벡터 계열이 변환되는 것이 아니라, 음향 모델 기억부(7)에 기억된 음향 모델(이 갖는 가우스 분포를 정의하는 평균 벡터의 계열)이 변환되고, 이에 의해 입력된 음성에 적응시킨 음향 모델을 얻은 후, 매칭부(6)에서 그 음향 모델을 이용하여 매칭 처리가 행해진다.
따라서, 도 8의 음성 인식 장치에서도, 도 1의 음성 인식 장치의 경우와 마찬가지의 효과를 얻을 수 있다.
또, 도 8의 음성 인식 장치에서는 음향 모델을 입력된 음성에 적응시킴으로써, 적응 데이터에서의 평균 벡터의 계열을 그 적응 데이터에서의 특징 벡터 계열에 가장 근사한 계열로 변환하는 변환 행렬이 최적 변환 행렬로서 구해진다. 따라서, 단순하게는 도 1의 음성 인식 장치에서 이용되는 변환 행렬과 도 8의 음성 인식 장치에서 이용되는 변환 행렬과는, 역행렬의 관계에 있게 된다.
다음으로, 상술한 일련의 처리는 하드웨어에 의해 행할 수도 있고, 소프트웨어에 의해 행할 수도 있다. 일련의 처리를 소프트웨어에 의해 행하는 경우에는 그 소프트웨어를 구성하는 프로그램이 범용의 컴퓨터 등에 인스톨된다.
따라서, 도 9는 상술한 일련의 처리를 실행하는 프로그램이 인스톨되는 컴퓨터의 일 실시예의 구성예를 도시하고 있다.
프로그램은 컴퓨터에 내장되어 있는 기록 매체로서의 하드디스크(105)나 ROM(103)에 미리 기록해 둘 수 있다.
또는, 프로그램은 플렉시블 디스크, CD-ROM(Compact Disc Read Only Memory), MO(Magneto optical) 디스크, DVD(Digital Versatile Disc), 자기 디스크, 반도체 메모리 등의 리무버블 기록 매체(111)에, 일시적 또는 영속적으로 저장(기록)해 둘 수 있다. 이러한 리무버블 기록 매체(111)는, 소위 패키지 소프트웨어로서 제공할 수 있다.
또, 프로그램은 상술한 바와 같은 리무버블 기록 매체(111)로부터 컴퓨터에 인스톨하는 것 외에, 다운로드 사이트로부터, 디지털 위성 방송용 인공위성을 통해 컴퓨터에 무선으로 전송하거나, LAN(Local Area Network), 인터넷 등의 네트워크를 통해 컴퓨터에 유선으로 전송하고, 컴퓨터에서는 그와 같이 하여 전송되어 오는 프로그램을 통신부(108)로 수신하고, 내장된 하드디스크(105)에 인스톨할 수 있다.
컴퓨터는 CPU(Central Processing Unit)(102)를 내장하고 있다. CPU(102)에는 버스(101)를 통해 입출력 인터페이스(110)가 접속되어 있으며, CPU(102)는 입출력 인터페이스(110)를 통해 사용자에 의해, 키보드, 마우스, 마이크 등으로 구성되는 입력부(107)가 조작됨으로써 명령이 입력되면, 그에 따라, ROM(Read OnlyMemory)(103)에 저장되어 있는 프로그램을 실행한다. 또는, CPU(102)는 하드디스크(105)에 저장되어 있는 프로그램, 위성 또는 네트워크로부터 전송되고 통신부(108)에서 수신되어 하드디스크(105)에 인스톨된 프로그램, 또는 드라이브(109)에 장착된 리무버블 기록 매체(111)로부터 판독되어 하드디스크(105)에 인스톨된 프로그램을 RAM(Random Access Memory)(104)에 로드하여 실행한다. 이에 의해, CPU(102)는 상술한 흐름도에 따른 처리, 또는 상술한 블록도의 구성에 의해 행해지는 처리를 행한다. 그리고, CPU(102)는 그 처리 결과를 필요에 따라, 예를 들면 입출력 인터페이스(110)를 통해 LCD(Liquid Crystal Display)나 스피커 등으로 구성되는 출력부(106)로부터 출력, 또는 통신부(108)로부터 송신, 나아가서는 하드디스크(105) 등에 기록시킨다.
여기서, 본 명세서에서, 컴퓨터에 각종 처리를 행하게 하기 위한 프로그램을 기술하는 처리 단계는 반드시 흐름도로서 기재된 순서에 따라 시계열로 처리할 필요는 없고, 병렬적 또는 개별적으로 실행되는 처리(예를 들면, 병렬 처리 또는 오브젝트에 의한 처리)도 포함하는 것이다.
또한, 프로그램은 하나의 컴퓨터에 의해 처리되는 것이어도 되고, 복수의 컴퓨터에 의해 분산 처리되는 것이어도 된다. 또한, 프로그램은 먼 곳의 컴퓨터에 전송되어 실행되는 것이어도 된다.
또, 본 실시예에서는 모델 적응을 위한 변환에, 행렬(변환 행렬)을 이용하도록 하였지만, 기타 임의의 함수를 이용할 수 있다.
또한, 본 실시예에서는 모델 적응을 위한 변환으로서, 선형 변환을 행하도록하였지만, 기타 예를 들면, 비선형의 변환을 행하도록 할 수도 있다.
또한, 본 실시예에서는 음향 모델로서 HMM을 이용하고, 또한 HMM법에 기초한 매칭 처리를 행함으로써, 음성 인식 결과로서의 우도를 나타내는 스코어를 구하도록 하였지만, 음성 인식을 행하는 알고리즘은 HMM법에 한정되는 것이 아니다.
또한, 본 실시예에서는 적응 데이터에, 특징 벡터를 포함시켜, 적응 데이터베이스(11)에 기억시키도록 하였지만, 적응 데이터에는 특징 벡터 대신에, 예를 들면 음성의 파형 데이터 그 자체를 포함하게 하도록 할 수도 있다.
또한, 본 실시예에서는 도 4의 변환 행렬 갱신 처리를 입력된 음성에 대하여, 그 음성 인식 결과를 출력한 후에 행하도록 하였지만, 변환 행렬 갱신 처리는 그 밖의 임의의 타이밍으로, 정기적 또는 부정기적으로 행하도록 할 수 있다.
또한, 본 실시예에서는 도 4의 변환 행렬 갱신 처리의 일부로서, 도 5의 변환 행렬 생성/삭제 처리를 행하도록 하였지만, 변환 행렬 생성/삭제 처리도, 그 밖의 임의의 타이밍에서, 정기적 또는 부정기적으로 행하도록 할 수 있다.
또한, 본 실시예에서는 적응 데이터가 적응 데이터베이스(11)의 기억 용량의 상한까지 기억된 경우의 대처에 대해서는 특별히 언급하지 않았지만, 이 경우에는, 예를 들면 그 후에 공급되는 적응 데이터를 기억시키지 않도록 할 수도 있고, 또는 시간적으로 오래된(과거의) 적응 데이터를 적응 데이터베이스(11)로부터 소거하도록 할 수도 있다. 또한, 동일한 평균 벡터의 계열에 대응되는, 근사된 특징 벡터 계열을 갖는 복수의 적응 데이터를 검색하고, 그 복수의 적응 데이터를 그 동일한 평균 벡터의 계열과, 근사된 복수의 특징 벡터 계열의 임의의 1개로 이루어지는 1개의 적응 데이터에 통합하도록 해도 된다.
또한, 본 실시예에서는 연속 HMM법에 의해 음성 인식을 행하도록 하였지만, 음성 인식에는, 기타 예를 들면, 이산 HMM법을 채용할 수도 있다.
또한, 본 실시예에서는 도 6의 변환 행렬 생성 처리에 있어서, 생성 조건을 만족하는 변환 행렬로부터 제1과 제2의 2개의 행렬을 생성하도록 하였지만, 기타 3개 이상의 행렬을 생성할 수도 있다.
본 발명에 따르면, 입력 음성과 그 입력 음성에 대응하는 음향 모델 중의 한쪽을 1이상의 변환 함수 각각에 따라 변환한 변환 결과에 기초하여 그 1이상의 변환 함수 중에서, 입력 음성과 음향 모델 중의 한쪽을 다른 쪽에 적응시키는 데 최적인 변환 함수가 검출되고, 그 최적인 변환 함수에 입력 음성이 할당되고, 새로운 입력 음성이 할당된 변환 함수가, 그 변환 함수에 할당되어 있는 모든 입력 음성을 이용하여 갱신된다. 또한, 1이상의 변환 함수 중에서, 입력 음성과 음향 모델 중의 한쪽을 변환하는 데 이용하는 변환 함수가 선택되고, 그 선택된 변환 함수에 따라, 입력 음성과 음향 모델 중의 한쪽이 변환된다. 그리고, 입력 음성과 음향 모델 중의 한쪽을 변환 함수에 의해 변환한 것과 다른 쪽과의 매칭 처리가 행해지고, 그 매칭 처리 결과에 기초하여 입력 음성의 음성 인식 결과가 출력된다. 따라서, 음성 인식 장치가 복수의 사용자에 의해, 또는 복수의 환경 하에서 사용되는 경우라도, 사용자가 모델 적응을 의식하지 않도록 하여 높은 정밀도의 음성 인식을 행할 수 있다.

Claims (22)

  1. 음성을 음성 인식하는 음성 인식 장치에 있어서,
    입력 음성과 음성 인식에 이용하는 음향 모델 중의 한쪽을 변환하여, 다른 쪽에 적응시키는 모델 적응을 행할 때, 상기 입력 음성 또는 음향 모델 중의 한쪽을 변환하는 1 이상의 변환 함수를 기억하는 변환 함수 기억 수단과,
    상기 입력 음성과 그 입력 음성에 대응하는 상기 음향 모델 중의 한쪽을, 상기 변환 함수 기억 수단에 기억된 1이상의 변환 함수 각각에 따라 변환한 변환 결과에 기초하여 상기 변환 함수 기억 수단에 기억된 1이상의 변환 함수 중에서, 상기 입력 음성과 음향 모델 중의 한쪽을 다른 쪽에 적응시키는 데 최적인 변환 함수를 검출하고, 그 최적인 변환 함수에 상기 입력 음성을 할당하는 할당 수단과,
    상기 변환 함수가 할당된 상기 입력 음성을 기억하는 음성 기억 수단과,
    상기 변환 함수 기억 수단에 기억된 1이상의 변환 함수 중, 상기 할당 수단에서 새로운 입력 음성이 할당된 변환 함수를, 그 변환 함수에 할당되어 있는 모든 입력 음성을 이용하여 갱신하는 변환 함수 갱신 수단과,
    상기 변환 함수 기억 수단에 기억된 1이상의 변환 함수 중에서, 상기 입력 음성과 상기 음향 모델 중의 한쪽을 변환하는 데 이용하는 상기 변환 함수를 선택하는 변환 함수 선택 수단과,
    상기 변환 함수 선택 수단에서 선택된 상기 변환 함수에 의해, 상기 입력 음성과 상기 음향 모델 중의 한쪽을 변환하는 변환 수단과,
    상기 입력 음성과 상기 음향 모델 중의 한쪽을 상기 변환 함수에 의해 변환한 것과, 다른 쪽과의 매칭 처리를 행하고, 그 매칭 처리 결과에 기초하여 상기 입력 음성의 음성 인식 결과를 출력하는 매칭 수단
    을 포함하는 것을 특징으로 하는 음성 인식 장치.
  2. 제1항에 있어서,
    상기 음향 모델은 HMM(Hidden Markov Model)이고,
    상기 매칭 수단은 HMM법에 기초한 매칭 처리를 행하는 것을 특징으로 하는 음성 인식 장치.
  3. 제2항에 있어서,
    상기 HMM은, 그 HMM으로부터 소정의 음성의 특징 벡터 계열이 관측되는 확률을 계산하기 위한 가우스 분포를 갖고,
    상기 할당 수단은 상기 입력 음성의 특징 벡터 계열과 그 입력 음성에 대응하는 상기 HMM이 갖는 상기 가우스 분포를 정의하는 평균 벡터의 계열 중의 한쪽을, 상기 변환 함수 기억 수단에 기억된 1이상의 변환 함수 각각에 따라 변환하고, 그 변환 후의 특징 벡터 계열 또는 평균 벡터의 계열 중의 한쪽과, 다른 쪽과의 오차를 최소로 하는 변환 함수를, 상기 최적인 변환 함수로서 검출하는 것을 특징으로 하는 음성 인식 장치.
  4. 제2항에 있어서,
    상기 변환 함수 갱신 수단은 상기 변환 함수에 할당되어 있는 1발화 이상의 상기 입력 음성 각각에 대하여, 그 입력 음성의 특징 벡터 계열과 그 입력 음성에 대응하는 상기 HMM이 갖는 상기 가우스 분포를 정의하는 평균 벡터의 계열 중의 한쪽을, 상기 변환 함수에 의해 변환했을 때에, 그 변환 후의 특징 벡터 계열 또는 평균 벡터의 계열 중의 한쪽과, 다른 쪽과의 통계적인 오차를 최소로 하도록, 상기 변환 함수를 갱신하는 것을 특징으로 하는 음성 인식 장치.
  5. 제4항에 있어서,
    상기 변환 함수 갱신 수단은 상기 변환 함수에 할당되어 있는 1발화 이상의 상기 입력 음성 각각에 대하여, 그 입력 음성의 특징 벡터 계열과 그 입력 음성에 대응하는 상기 HMM이 갖는 상기 가우스 분포를 정의하는 평균 벡터의 계열 중의 한쪽을, 상기 변환 함수에 의해 변환했을 때에, 그 변환 후의 특징 벡터 계열 또는 평균 벡터의 계열 중의 한쪽과, 다른 쪽과의 통계적인 오차를 최소로 하는 상기 변환 함수를 최소 제곱법에 의해 구하는 것을 특징으로 하는 음성 인식 장치.
  6. 제1항에 있어서,
    상기 변환 함수 갱신 수단은 상기 새로운 입력 음성이 할당된 변환 함수를 갱신한 후, 상기 음성 기억 수단에 기억된 입력 음성 전부에 대하여, 그 입력 음성과 그 입력 음성에 대응하는 음향 모델 중의 한쪽을 다른 쪽에 적응시키는 데 최적인 변환 함수를, 상기 변환 함수 기억 수단에 기억된 1이상의 변환 함수 중에서 검출하고, 그 최적인 변환 함수에 상기 입력 음성을 재할당하는 것을 특징으로 하는 음성 인식 장치.
  7. 제6항에 있어서,
    상기 변환 함수 갱신 수단은, 또한
    상기 변환 함수 기억 수단에 기억된 1이상의 변환 함수 중, 상기 입력 음성의 할당이 변화한 변환 함수 각각을 갱신하고,
    그 후, 상기 음성 기억 수단에 기억된 입력 음성 전부에 대하여, 그 입력 음성과 그 입력 음성에 대응하는 음향 모델 중의 한쪽을 다른 쪽에 적응시키는 데 최적인 변환 함수를, 상기 변환 함수 기억 수단에 기억된 1이상의 변환 함수 중에서 검출하고, 그 최적인 변환 함수에 상기 입력 음성을 재할당하는 것을,
    상기 변환 함수에의 입력 음성의 할당이 변화하지 않게 될 때까지 반복하는 것을 특징으로 하는 음성 인식 장치.
  8. 제1항에 있어서,
    상기 변환 함수 기억 수단에 기억되어 있는 변환 함수에 기초하여 새로운 변환 함수를 생성하는 변환 함수 생성 수단을 더 포함하는 것을 특징으로 하는 음성 인식 장치.
  9. 제8항에 있어서,
    상기 변환 함수 생성 수단은 상기 변환 함수 기억 수단에 기억되어 있는 1이상의 변환 함수 중, 소정의 생성 조건을 만족하는 변환 함수에 기초하여 새로운 변환 함수를 생성하는 것을 특징으로 하는 음성 인식 장치.
  10. 제9항에 있어서,
    상기 변환 함수 생성 수단은 상기 변환 함수 기억 수단에 기억되어 있는 1이상의 변환 함수 중, 소정의 임계값 이상의 발화 수의 입력 음성이 할당되어 있는 변환 함수를, 소정의 생성 조건을 만족하는 변환 함수로 하고, 그 변환 함수에 기초하여 새로운 변환 함수를 생성하는 것을 특징으로 하는 음성 인식 장치.
  11. 제8항에 있어서,
    상기 변환 함수 생성 수단은,
    상기 변환 함수 기억 수단에 기억되어 있는 1개의 변환 함수를 기준으로 하여, 제1과 제2의 2개의 변환 함수를 구하고,
    기준으로 한 1개의 변환 함수에 할당되어 있던 입력 음성 전부에 대하여, 그 입력 음성과 그 입력 음성에 대응하는 음향 모델 중의 한쪽을 다른 쪽에 적응시키는 데 최적인 변환 함수를, 상기 제1과 제2 변환 함수 중에서 검출하고, 그 최적인 변환 함수에 상기 입력 음성을 할당하고,
    상기 제1과 제2 변환 함수를, 각각에 할당되어 있는 입력 음성을 이용하여갱신하고,
    그 갱신 후의 상기 제1과 제2 변환 행렬을 상기 기준으로 한 1개의 변환 함수 대신에 상기 변환 함수 기억 수단에 기억시키는 것을 특징으로 하는 음성 인식 장치.
  12. 제11항에 있어서,
    상기 변환 함수 생성 수단은 상기 갱신 후의 제1과 제2 변환 행렬을 상기 변환 행렬 기억 수단에 기억시킨 후, 상기 음성 기억 수단에 기억된 입력 음성 전부에 대하여, 그 입력 음성과 그 입력 음성에 대응하는 음향 모델 중의 한쪽을 다른 쪽에 적응시키는 데 최적인 변환 함수를, 상기 변환 함수 기억 수단에 기억된 1이상의 변환 함수 중에서 검출하고, 그 최적인 변환 함수에 상기 입력 음성을 재할당하는 것을 특징으로 하는 음성 인식 장치.
  13. 제12항에 있어서,
    상기 변환 함수 생성 수단은 상기 변환 함수의 입력 음성을 재할당한 후,
    상기 변환 함수 기억 수단에 기억된 1이상의 변환 함수 중, 상기 입력 음성의 할당이 변화한 변환 함수 각각을 갱신하고,
    그 후, 상기 음성 기억 수단에 기억된 입력 음성 전부에 대하여, 그 입력 음성과 그 입력 음성에 대응하는 음향 모델 중의 한쪽을 다른 쪽에 적응시키는 데 최적인 변환 함수를, 상기 변환 함수 기억 수단에 기억된 1이상의 변환 함수 중에서검출하고, 그 최적인 변환 함수에 상기 입력 음성을 재할당하는 것을,
    상기 변환 함수에의 입력 음성의 할당이 변화하지 않게 될 때까지 반복하는 것을 특징으로 하는 음성 인식 장치.
  14. 제1항에 있어서,
    상기 변환 함수 기억 수단에 기억되어 있는 변환 함수를 삭제하는 변환 함수 삭제 수단을 더 포함하는 것을 특징으로 하는 음성 인식 장치.
  15. 제14항에 있어서,
    상기 변환 함수 삭제 수단은 상기 변환 함수 기억 수단에 기억되어 있는 1이상의 변환 함수 중의, 소정의 삭제 조건을 만족하는 변환 함수를 삭제하는 것을 특징으로 하는 음성 인식 장치.
  16. 제15항에 있어서,
    상기 변환 함수 삭제 수단은 상기 변환 함수 기억 수단에 기억되어 있는 1이상의 변환 함수 중, 소정의 임계값 이하의 발화 수의 입력 음성이 할당되어 있는 변환 함수를, 소정의 삭제 조건을 만족하는 변환 함수로서 삭제하는 것을 특징으로 하는 음성 인식 장치.
  17. 제14항에 있어서,
    상기 변환 함수 삭제 수단은,
    상기 변환 함수를 상기 변환 함수 기억 수단으로부터 삭제하고,
    삭제된 변환 함수에 할당되어 있는 입력 음성 전부에 대하여, 그 입력 음성과 그 입력 음성에 대응하는 음향 모델 중의 한쪽을 다른 쪽에 적응시키는 데 최적인 변환 함수를, 상기 변환 함수 기억 수단에 남아 있는 1이상의 변환 함수 중에서 검출하고, 그 최적인 변환 함수에 상기 입력 음성을 재할당하는 것을 특징으로 하는 음성 인식 장치.
  18. 제17항에 있어서,
    상기 변환 함수 삭제 수단은 상기 변환 함수에 입력 음성을 재할당한 후,
    상기 변환 함수 기억 수단에 기억된 1이상의 변환 함수 중, 상기 입력 음성의 할당이 변화한 변환 함수 각각을 갱신하고,
    그 후, 상기 음성 기억 수단에 기억된 입력 음성 전부에 대하여, 그 입력 음성과 그 입력 음성에 대응하는 음향 모델 중의 한쪽을 다른 쪽에 적응시키는 데 최적인 변환 함수를, 상기 변환 함수 기억 수단에 기억된 1이상의 변환 함수 중에서 검출하고, 그 최적인 변환 함수에 상기 입력 음성을 재할당하는 것을,
    상기 변환 함수에의 입력 음성의 할당이 변화하지 않게 될 때까지 반복하는 것을 특징으로 하는 음성 인식 장치.
  19. 제1항에 있어서,
    상기 변환 함수 선택 수단은 상기 변환 함수 기억 수단에 기억된 1이상의 변환 함수 각각에 따라, 상기 입력 음성과 상기 음향 모델 중의 한쪽을 변환한 것과, 다른 쪽과의 매칭 처리를 행했을 때에, 가장 우도가 높은 음성 인식 결과가 얻어지는 상기 변환 함수를 선택하는 것을 특징으로 하는 음성 인식 장치.
  20. 입력 음성과, 음성 인식에 이용하는 음향 모델 중의 한쪽을 변환하여, 다른 쪽에 적응시키는 모델 적응을 행할 때, 상기 입력 음성 또는 음향 모델 중의 한쪽을 변환하는 1이상의 변환 함수를 이용하여 상기 입력 음성을 음성 인식하는 음성 인식 방법으로서,
    상기 입력 음성과 그 입력 음성에 대응하는 상기 음향 모델 중의 한쪽을, 상기 1이상의 변환 함수 각각에 따라 변환한 변환 결과에 기초하여 상기 1이상의 변환 함수 중에서, 상기 입력 음성과 음향 모델 중의 한쪽을 다른 쪽에 적응시키는 데 최적인 변환 함수를 검출하고, 그 최적인 변환 함수에 상기 입력 음성을 할당하는 할당 단계와,
    상기 변환 함수가 할당된 상기 입력 음성을 기억하는 음성 기억 단계와,
    상기 1이상의 변환 함수 중, 상기 할당 단계에서 새로운 입력 음성이 할당된 변환 함수를, 그 변환 함수에 할당되어 있는 모든 입력 음성을 이용하여 갱신하는 변환 함수 갱신 단계와,
    상기 1이상의 변환 함수 중에서, 상기 입력 음성과 상기 음향 모델 중의 한쪽을 변환하는 데 이용하는 상기 변환 함수를 선택하는 변환 함수 선택 단계와,
    상기 변환 함수 선택 단계에서 선택된 상기 변환 함수에 의해, 상기 입력 음성과 상기 음향 모델 중의 한쪽을 변환하는 변환 단계와,
    상기 입력 음성과 상기 음향 모델 중의 한쪽을 상기 변환 함수에 의해 변환한 것과, 다른 쪽과의 매칭 처리를 행하고, 그 매칭 처리 결과에 기초하여 상기 입력 음성의 음성 인식 결과를 출력하는 매칭 단계
    를 포함하는 것을 특징으로 하는 음성 인식 방법.
  21. 입력 음성과, 음성 인식에 이용하는 음향 모델 중의 한쪽을 변환하여, 다른 쪽에 적응시키는 모델 적응을 행할 때, 상기 입력 음성 또는 음향 모델 중의 한쪽을 변환하는 1이상의 변환 함수를 이용하여 상기 입력 음성을 음성 인식하는 음성 인식 처리를 컴퓨터에 행하게 하는 프로그램으로서,
    상기 입력 음성과 그 입력 음성에 대응하는 상기 음향 모델 중의 한쪽을, 상기 1이상의 변환 함수 각각에 따라 변환한 변환 결과에 기초하여 상기 1이상의 변환 함수 중에서, 상기 입력 음성과 음향 모델 중의 한쪽을 다른 쪽에 적응시키는 데 최적인 변환 함수를 검출하고, 그 최적인 변환 함수에 상기 입력 음성을 할당하는 할당 단계와,
    상기 변환 함수가 할당된 상기 입력 음성을 기억하는 음성 기억 단계와,
    상기 1이상의 변환 함수 중, 상기 할당 단계에서 새로운 입력 음성이 할당된 변환 함수를 그 변환 함수에 할당되어 있는 모든 입력 음성을 이용하여 갱신하는 변환 함수 갱신 단계와,
    상기 1이상의 변환 함수 중에서, 상기 입력 음성과 상기 음향 모델 중의 한쪽을 변환하는 데 이용하는 상기 변환 함수를 선택하는 변환 함수 선택 단계와,
    상기 변환 함수 선택 단계에서 선택된 상기 변환 함수에 의해, 상기 입력 음성과 상기 음향 모델 중의 한쪽을 변환하는 변환 단계와,
    상기 입력 음성과 상기 음향 모델 중의 한쪽을 상기 변환 함수에 의해 변환한 것과, 다른 쪽과의 매칭 처리를 행하고, 그 매칭 처리 결과에 기초하여 상기 입력 음성의 음성 인식 결과를 출력하는 매칭 단계
    를 포함하는 것을 특징으로 하는 프로그램.
  22. 입력 음성과, 음성 인식에 이용하는 음향 모델 중의 한쪽을 변환하여, 다른 쪽에 적응시키는 모델 적응을 행할 때, 상기 입력 음성 또는 음향 모델 중의 한쪽을 변환하는 1이상의 변환 함수를 이용하여 상기 입력 음성을 음성 인식하는 음성 인식 처리를 컴퓨터에 행하게 하는 프로그램이 기록되어 있는 기록 매체로서,
    상기 입력 음성과 그 입력 음성에 대응하는 상기 음향 모델 중의 한쪽을, 상기 1이상의 변환 함수 각각에 의해 변환한 변환 결과에 기초하여 상기 1이상의 변환 함수 중에서, 상기 입력 음성과 음향 모델 중의 한쪽을 다른 쪽에 적응시키는 데 최적인 변환 함수를 검출하고, 그 최적인 변환 함수에 상기 입력 음성을 할당하는 할당 단계와,
    상기 변환 함수가 할당된 상기 입력 음성을 기억하는 음성 기억 단계와,
    상기 1이상의 변환 함수 중, 상기 할당 단계에서 새로운 입력 음성이 할당된변환 함수를, 그 변환 함수에 할당되어 있는 모든 입력 음성을 이용하여 갱신하는 변환 함수 갱신 단계와,
    상기 1이상의 변환 함수 중에서, 상기 입력 음성과 상기 음향 모델 중의 한쪽을 변환하는 데 이용하는 상기 변환 함수를 선택하는 변환 함수 선택 단계와,
    상기 변환 함수 선택 단계에서 선택된 상기 변환 함수에 의해, 상기 입력 음성과 상기 음향 모델 중의 한쪽을 변환하는 변환 단계와,
    상기 입력 음성과 상기 음향 모델 중의 한쪽을 상기 변환 함수에 의해 변환한 것과, 다른 쪽과의 매칭 처리를 행하고, 그 매칭 처리 결과에 기초하여 상기 입력 음성의 음성 인식 결과를 출력하는 매칭 단계
    를 포함하는 프로그램이 기록되어 있는 것을 특징으로 하는 기록 매체.
KR1020037001766A 2001-06-08 2002-06-07 음성 인식 장치 및 음성 인식 방법 KR100924399B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001174633A JP2002366187A (ja) 2001-06-08 2001-06-08 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JPJP-P-2001-00174633 2001-06-08
PCT/JP2002/005647 WO2002101719A1 (en) 2001-06-08 2002-06-07 Voice recognition apparatus and voice recognition method

Publications (2)

Publication Number Publication Date
KR20030018073A true KR20030018073A (ko) 2003-03-04
KR100924399B1 KR100924399B1 (ko) 2009-10-29

Family

ID=19015892

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020037001766A KR100924399B1 (ko) 2001-06-08 2002-06-07 음성 인식 장치 및 음성 인식 방법

Country Status (6)

Country Link
US (1) US7219055B2 (ko)
EP (1) EP1394770A4 (ko)
JP (1) JP2002366187A (ko)
KR (1) KR100924399B1 (ko)
CN (1) CN1244902C (ko)
WO (1) WO2002101719A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200062392A (ko) * 2013-02-07 2020-06-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US12009007B2 (en) 2023-04-17 2024-06-11 Apple Inc. Voice trigger for a digital assistant

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050246330A1 (en) * 2004-03-05 2005-11-03 Giang Phan H System and method for blocking key selection
WO2005112000A1 (fr) * 2004-04-20 2005-11-24 France Telecom Procede et systeme de reconnaissance vocale par modelisation contextuelle d’unites vocales
JP2006201749A (ja) * 2004-12-21 2006-08-03 Matsushita Electric Ind Co Ltd 音声による選択装置、及び選択方法
CN1811911B (zh) * 2005-01-28 2010-06-23 北京捷通华声语音技术有限公司 自适应的语音变换处理方法
US8315857B2 (en) * 2005-05-27 2012-11-20 Audience, Inc. Systems and methods for audio signal analysis and modification
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
EP2026327A4 (en) * 2006-05-31 2012-03-07 Nec Corp LANGUAGE MODEL LEARNING, LANGUAGE MODEL LEARNING AND LANGUAGE MODEL LEARNING PROGRAM
US7617103B2 (en) * 2006-08-25 2009-11-10 Microsoft Corporation Incrementally regulated discriminative margins in MCE training for speech recognition
US8423364B2 (en) * 2007-02-20 2013-04-16 Microsoft Corporation Generic framework for large-margin MCE training in speech recognition
TWI319563B (en) * 2007-05-31 2010-01-11 Cyberon Corp Method and module for improving personal speech recognition capability
GB2453366B (en) * 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus
US8645135B2 (en) * 2008-09-12 2014-02-04 Rosetta Stone, Ltd. Method for creating a speech model
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US9026444B2 (en) 2009-09-16 2015-05-05 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
WO2011071484A1 (en) * 2009-12-08 2011-06-16 Nuance Communications, Inc. Guest speaker robust adapted speech recognition
CN101923854B (zh) * 2010-08-31 2012-03-28 中国科学院计算技术研究所 一种交互式语音识别系统和方法
US8635067B2 (en) 2010-12-09 2014-01-21 International Business Machines Corporation Model restructuring for client and server based automatic speech recognition
US9224384B2 (en) * 2012-06-06 2015-12-29 Cypress Semiconductor Corporation Histogram based pre-pruning scheme for active HMMS
KR20140028174A (ko) * 2012-07-13 2014-03-10 삼성전자주식회사 음성 인식 방법 및 이를 적용한 전자 장치
CN102862587B (zh) * 2012-08-20 2016-01-27 泉州市铁通电子设备有限公司 一种铁路车机联控语音分析方法和设备
KR101429138B1 (ko) * 2012-09-25 2014-08-11 주식회사 금영 복수의 사용자를 위한 장치에서의 음성 인식 방법
US20140337030A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Adaptive audio frame processing for keyword detection
US9251784B2 (en) 2013-10-23 2016-02-02 International Business Machines Corporation Regularized feature space discrimination adaptation
JP5777178B2 (ja) * 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
US9589560B1 (en) * 2013-12-19 2017-03-07 Amazon Technologies, Inc. Estimating false rejection rate in a detection system
CN103730120A (zh) * 2013-12-27 2014-04-16 深圳市亚略特生物识别科技有限公司 电子设备的语音控制方法及系统
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
KR102371697B1 (ko) * 2015-02-11 2022-03-08 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) * 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
KR20170046291A (ko) * 2015-10-21 2017-05-02 삼성전자주식회사 전자 기기, 그의 음향 모델 적응 방법 및 음성 인식 시스템
JP6805037B2 (ja) * 2017-03-22 2020-12-23 株式会社東芝 話者検索装置、話者検索方法、および話者検索プログラム
CN107180640B (zh) * 2017-04-13 2020-06-12 广东工业大学 一种相位相关的高密度叠窗频谱计算方法
US10446136B2 (en) * 2017-05-11 2019-10-15 Ants Technology (Hk) Limited Accent invariant speech recognition
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN109754784B (zh) * 2017-11-02 2021-01-29 华为技术有限公司 训练滤波模型的方法和语音识别的方法
CN110517680B (zh) * 2018-11-15 2023-02-03 腾讯科技(深圳)有限公司 一种人工智能的数据检测方法及装置、存储介质
CN113345428B (zh) * 2021-06-04 2023-08-04 北京华捷艾米科技有限公司 语音识别模型的匹配方法、装置、设备和存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2980382B2 (ja) * 1990-12-19 1999-11-22 富士通株式会社 話者適応音声認識方法および装置
JPH06214596A (ja) * 1993-01-14 1994-08-05 Ricoh Co Ltd 音声認識装置および話者適応化方法
JPH06324695A (ja) * 1993-05-13 1994-11-25 Seiko Epson Corp 音声認識装置
JP3216565B2 (ja) * 1996-08-02 2001-10-09 日本電信電話株式会社 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
JP3035239B2 (ja) * 1997-03-10 2000-04-24 株式会社エイ・ティ・アール音声翻訳通信研究所 話者正規化装置、話者適応化装置及び音声認識装置
JP3088357B2 (ja) * 1997-09-08 2000-09-18 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者音響モデル生成装置及び音声認識装置
US6151573A (en) * 1997-09-17 2000-11-21 Texas Instruments Incorporated Source normalization training for HMM modeling of speech
JP3412496B2 (ja) 1998-02-25 2003-06-03 三菱電機株式会社 話者適応化装置と音声認識装置
US6343267B1 (en) * 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
JP4461557B2 (ja) * 2000-03-09 2010-05-12 パナソニック株式会社 音声認識方法および音声認識装置
US6999926B2 (en) * 2000-11-16 2006-02-14 International Business Machines Corporation Unsupervised incremental adaptation using maximum likelihood spectral transformation
US6915259B2 (en) * 2001-05-24 2005-07-05 Matsushita Electric Industrial Co., Ltd. Speaker and environment adaptation based on linear separation of variability sources
US7165028B2 (en) * 2001-12-12 2007-01-16 Texas Instruments Incorporated Method of speech recognition resistant to convolutive distortion and additive distortion
US7072834B2 (en) * 2002-04-05 2006-07-04 Intel Corporation Adapting to adverse acoustic environment in speech processing using playback training data

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200062392A (ko) * 2013-02-07 2020-06-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
KR20220044855A (ko) * 2013-02-07 2022-04-11 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US11636869B2 (en) 2013-02-07 2023-04-25 Apple Inc. Voice trigger for a digital assistant
US11862186B2 (en) 2013-02-07 2024-01-02 Apple Inc. Voice trigger for a digital assistant
US12009007B2 (en) 2023-04-17 2024-06-11 Apple Inc. Voice trigger for a digital assistant

Also Published As

Publication number Publication date
US20040059576A1 (en) 2004-03-25
JP2002366187A (ja) 2002-12-20
EP1394770A4 (en) 2006-06-07
CN1465043A (zh) 2003-12-31
CN1244902C (zh) 2006-03-08
US7219055B2 (en) 2007-05-15
EP1394770A1 (en) 2004-03-03
WO2002101719A1 (en) 2002-12-19
KR100924399B1 (ko) 2009-10-29

Similar Documents

Publication Publication Date Title
KR100924399B1 (ko) 음성 인식 장치 및 음성 인식 방법
US8019602B2 (en) Automatic speech recognition learning using user corrections
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
JP4351385B2 (ja) 連続および分離音声を認識するための音声認識システム
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
US7054810B2 (en) Feature vector-based apparatus and method for robust pattern recognition
US6260013B1 (en) Speech recognition system employing discriminatively trained models
US8290773B2 (en) Information processing apparatus, method and recording medium for generating acoustic model
JP5106371B2 (ja) 話認認証の検証のための方法および装置、話者認証システム
US20060009965A1 (en) Method and apparatus for distribution-based language model adaptation
KR20050098839A (ko) 네트워크 환경에서 음성 처리를 위한 중간 처리기
JP4515054B2 (ja) 音声認識の方法および音声信号を復号化する方法
KR20050082253A (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP2004226982A (ja) 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
Manasa et al. Comparison of acoustical models of GMM-HMM based for speech recognition in Hindi using PocketSphinx
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
US7003465B2 (en) Method for speech recognition, apparatus for the same, and voice controller
JPH10254473A (ja) 音声変換方法及び音声変換装置
JP2886118B2 (ja) 隠れマルコフモデルの学習装置及び音声認識装置
JPH0895592A (ja) パターン認識方法
KR100586045B1 (ko) 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법
JP3868798B2 (ja) 音声認識装置
KR100352748B1 (ko) 온라인 학습형 음성합성 장치 및 그 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee