KR100574769B1 - 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법 - Google Patents

최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법 Download PDF

Info

Publication number
KR100574769B1
KR100574769B1 KR1019990015593A KR19990015593A KR100574769B1 KR 100574769 B1 KR100574769 B1 KR 100574769B1 KR 1019990015593 A KR1019990015593 A KR 1019990015593A KR 19990015593 A KR19990015593 A KR 19990015593A KR 100574769 B1 KR100574769 B1 KR 100574769B1
Authority
KR
South Korea
Prior art keywords
speaker
model
supervector
eigenspace
new
Prior art date
Application number
KR1019990015593A
Other languages
English (en)
Other versions
KR19990083632A (ko
Inventor
패트릭 가이언
Original Assignee
마쯔시다덴기산교 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/070,054 external-priority patent/US6263309B1/en
Priority claimed from US09/070,208 external-priority patent/US6327565B1/en
Application filed by 마쯔시다덴기산교 가부시키가이샤 filed Critical 마쯔시다덴기산교 가부시키가이샤
Publication of KR19990083632A publication Critical patent/KR19990083632A/ko
Application granted granted Critical
Publication of KR100574769B1 publication Critical patent/KR100574769B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Complex Calculations (AREA)
  • Toys (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

화자의존형 모델 세트는 비교적 복수의 훈련 화자에 따라 훈련되며, 화자당 하나의 모델과 모델 변수는 화자당 하나씩 슈퍼벡터 세트를 구성하기 위해 설정 순서대로 추출된다. 이어서 고유음성 공간을 형성하는 고유벡터 세트를 생성하기 위해 슈퍼벡터 세트상에서 주성분 분석이 실행된다. 필요할 경우, 벡터의 갯수는 데이터 압축을 달성하기 위해 감소될 수도 있다. 그후, 신규 화자는 최우 평가에 기초하여 상기 슈퍼벡터를 고유음성 공간에 억제하므로써 슈퍼벡터가 구성되는 적용 데이터를 제공한다. 이러한 신규 화자의 고유공간에서의 최종 계수는 그 화자에 대해 적응 모델이 구성되는 신규의 모델 변수 세트를 구성하는데 사용된다. 환경 적응은 훈련 데이터에서 환경 가변성을 포함하므로써 실행된다.

Description

최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법{SPEAKER AND ENVIRONMENT ADAPTATION BASED ON EIGENVOICES IMCLUDING MAXIMUM LIKELIHOOD METHOD}
도 1 은 본 발명을 이해하는데 사용되는 예시적인 히든 마르코프 모델(HMM)을 도시한 도면.
도 2 는 복수의 훈련 화자로부터 고유공간을 구성하는 방법을 도시한 데이터 흐름을 도시한 도면.
도 3 은 본 발명에 따른 고유음성을 사용하여 적응성 모델이 구성되는 방법을 도시한 데이터흐름을 도시한 도면.
도 4 는 본 발명의 최우 조작으로 투영 조작을 비교한, 고유공간을 2차원으로 도시한 개략도.
도 5 는 신규 화자로부터의 관찰 데이터가 고유공간을 통해 본 발명에 따른 적응성 모델로 전환되는 방법을 도시한 도면.
도 6 은 본 발명의 최우 고유공간 적응 처리를 도시한 도면.
[도면의 주요부분에 대한 부호의 설명]
14 : 출력 확률 세트 18 : 변수
20 : 훈련 화자 30 : 슈퍼벡터
38 : 고유공간 40 : 화자
본 발명은 음성 인식에 관한 것으로서, 특히 새로운 화자(話者)의 음성을 보다 양호하게 인식할 수 있도록 음성 인식 모델의 변수가 교정되는 화자 적응 방법에 관한 것이다.
음성 인식 시스템은 화자에 의존하거나 의존하지 않을 수 있다. 화자의존형 시스템은 개인이 말한 수많은 단어의 실시예를 적용하므로써 개인이 말한 것을 이해하도록 훈련된다(이러한 실시예는 "훈련 데이터"로 불리워진다). 화자의존형 시스템은 훈련된 개인에 대해서는 매우 정확해지며, 그 외의 것에 대해서는 부정확해지는 경향이 있다. 화자 독립형 시스템은 적용된 언어를 말하려는 사람에 의해 사용되도록 디자인되는데, 이들은 전형적으로 다른 많은 사람들로부터의 데이터로 훈련된다. 훈련 데이터가 아닌 화자의 인식을 실행하는 화자 독립형 시스템에 대한 에러 비율은 훈련된 화자의 인식을 실행하는 화자의존형 시스템의 에러 비율보다 약 2배 내지 3배 높다.
성능을 개선하기 위해, 많은 음성 인식 시스템은 화자 적응을 실행할 설비를 포함하고 있으므로, 음성 인식 시스템은 에러 비율을 감소시키기 위해 사용중 조정될 수 있다. 현존의 기술 연구에 따르면 기본적으로 다음과 같은 3가지 화자 적용 접근방법이 있다.
(1) 화자 정상화 : 신규 화자 특성 벡터에 의해 발생된 디지탈 신호의 관찰은 화자의존형 시스템이 훈련한 기준 화자로부터의 관찰과 매우 유사하게 변형된다. 일부의 경우, 상기 변형은 대향 방향을 취한다. 기준 패턴은 신규 화자로부터의 데이터와 매우 유사하게 변형된다.
(2) 화자 클러스터링 : 신규 화자의 관찰은 훈련 화자의 클러스터를 선택하는데 사용된다. 각각의 클러스터는 클러스터에서의 화자에서만 훈련되는 완벽한 히든 마르코프 모델(HMM) 세트와 연관된다. 일단 화자에 가장 적절한 클러스터가 선정되면, 이러한 클러스터로부터 오직 HMM 만을 사용하여 인식이 실행된다.
(3) 모델 적용 : HMM 변수는 적용 데이터의 특성을 반영하기 위해 업데이트된다. 2가지의 최신 모델 적용 기법은 최대귀납예측법(maximum posteriori estimation : MAP)과, 최우(最尤) 선형회귀법(maximum likelihood linear regression : MLLR)이다.
이와 같은 각각의 적용 기법은 매우 유용한 것으로 판명되었지만, 결점이 없는 것은 아니다. 일반적으로, 효과적인 적용 기법은 상당한 연산 수단을 필요로 하는 경향이 있으며 각 화자의 부분에 상당한 훈련 노력을 필요로 한다.
본 발명은 화자와 환경 적응을 실행하기 위한 완전히 새로운 기법을 제공한다. 이러한 기법은 초기 화자 독립형 인식 시스템으로 하여금 각각의 신규 화자에 대한 상당한 양의 훈련 데이타를 필요로 하지 않고 화자의존형 시스템에 접근하는 신규 화자와 새로운 음향 환형에서 성능 레벨을 신속히 달성할 수 있게 한다. 우리는 이러한 기법을 "고유음성 적응법(eigenvoice adaptation)" 으로 칭한다. 이러한 기법은 수많은 화자의존형 모델의 수많은 집합이 고유벡터 세트를 양산하는 주성분 분석(principal component analysis : PCA)에 의해 분석되는 오프라인 단계를 포함하며, 상기 고유벡터 세트는 "고유음성 벡터" 또는 "고유음성"으로 칭한다. 이러한 오프라인 단계는 단지 한번만 실행되지만 상당한 연산이 실행된다. 이러한 단계후, 음성 인식 시스템이 사용될 때마다, 고유음성에 의해 걸쳐진 공간에서 벡터를 얻기 위하여 신규 화자로부터 얻은 적용 데이터상에서 수치적으로 저렴한 작동이 실행된다. 이러한 새로운 벡터는 신규 화자에 대해 적응된 모델을 제공한다.
본 발명은 화자와 환형 적용을 실시할 수 있는 매우 새로운 기법을 제공한다. 이러한 기법은 초기 화자 독립형 인식 시스템으로 하여금 각각의 신규 화자에 대한 상당한 양의 훈련 데이타를 요구하지 않고 화자의존형 시스템에 접근하는 신규 화자와 새로운 음향 환형에서 성능 레벨을 신속히 달성할 수 있게 한다. 이러한 기법은 "고유음성 적응법(eigenvoice adaptation)" 으로 불리워진다. 이러한 기법은 수많은 화자의존형 모델의 수많은 집합이 고유벡터 세트를 양산하는 주성분 분석(PCA)에 의해 분석되는 오프라인 단계를 포함하며, 상기 고유벡터 세트는 "고유음성 벡터" 또는 "고유음성"으로 불리워진다. 이러한 오프라인 단계는 단지 한번만 실행되지만 상당한 연산이 실행된다. 이러한 단계후, 음성 인식 시스템이 사용될 때마다, 고유음성에 의해 걸쳐진 공간에서 벡터를 얻기 위하여 신규 화자로부터 얻은 적용 데이터상에서 수치적으로 저렴한 작동이 실행된다. 이러한 새로운 벡터는 신규 화자에 대해 적용된 모델을 제공한다.
MAP 와 MLLR 과 같은 모델 적용 기법과는 달리, 대부분의 값비싼 연산은 PCA 단계에서 오프라인에서 발생된다. 이것은 인식 시스템이 사용될 때 본 발명이 저렴한 연산 비용으로 화자나 환경 적응을 매우 신속히 실행할 수 있게 한다.
본 발명의 동력의 일부는 훈련 화자의 수집 세트와 인식 시스템이 적용되는 새로운 각각의 화자를 표시하는 고유음성으로부터 유도된다. 환언하면, PCA 단계중 전개되는 고유공간은 모든 훈련 화자의 수집 음성 특징을 나타낸다. 이러한 n 차원 공간을 형성하는 각각의 고유벡터는 서로 연관되지 않거나 교차되며, 데이터의 변화를 설명하기 위한 중요 순서대로 리스트된다. 하기에는 이러한 배치에서 가장 높은 고유벡터가 암형-수형 칫수를 제공하는 것이 서술될 것이다. 상기 고유벡터가 포지티브 중량을 수용하면, 화자는 아마도 수형이 되며, 네거티브 중량을 수용하면 화자는 아마도 수형이 된다. 그러나, 각각의 고유벡터는 화자 사이에 어떤 물리적 편차에 대한 프라이어리를 할당하지 않음을 인식해야 한다. 오히려, 상기 고유벡터는 PCA 가 이에 따라 실행할 때 훈련 데이터로부터 유도된다.
신규 화자가 적용중에 음성 인식기를 사용함에 따라, 모델 출력 변수는 이미 결정된 고유음성의 선형 조합으로 억제된다. 환언하면, 신규 화자 상에서 훈련된 화자의존형 모델은 훈련 화자에 의해 이미 한정된 고유공간내에 놓여야 한다. 이것은 비교적 저렴한 연산 작동이다. 이러한 기법은 단지 소량의 적용 음성이 사용되는 경우에도 양호한 화자의존형 모델을 신속히 발생시킨다. 따라서, 이와 같은 기법은 다량의 적용 데이터가 사용될 수 없는 환경 적응용이나 화자에 사용된다. 예를 들어, 상기 기법은 음성가능형 상호작용 마케팅 시스템에서 양호하게 작동되며, 상기 마케팅 시스템은 순서를 놓기 위해 화자가 시스템을 통해 진행됨에 따라 신규 화자가 시스템 내비게이션 시도에 전화로 응답하고 상기 시스템이 신규 화자에 자동으로 적용된다.
특히, 본 발명은 새로운 벡터를 고유음성에 의해 걸쳐진 공간에 위치시키기 위해 최우법을 사용한다. 이러한 최우법은 신규 화자로부터의 관찰 데이터에 기초하여 또한 히든 마르코프 모델 구성 방법의 인지에 기초하여 보조기능을 구성하는 단계를 포함한다. 이와 같은 보조 기능을 이용함에 따라, 최우 벡터는 미분을 취하고 극대치를 발견하므로써 얻어진다. 따라서, 이러한 최우 벡터는 본질적으로 고유음성에 의해 걸쳐진 공간내에 억제되며, 가용 입력 음성 데이터에 주어진 신규 화자를 위해 상기 공간내에서 최적의 표현을 제공한다.
본 발명에 의해 사용된 최우법은 많은 장점을 제공한다. 첫번째로, 최우 벡터로 구성된 적응성 모델은 주어진 양의 관찰 데이터에서 항상 최적의 HMM 모델 세트를 발생시킨다.
두번째로, 최우법이 일부 연산을 포함하지만, 이와 같은 연산에 대한 부담은 매우 경감되는데, 그 이유는 고유음성 표현은 개인의 음성을 서술하는데 필요한 변수의 갯수를 상당히 감소시키기 때문이다. 반면에, 전형적인 히든 마르코프 모델 표현은 수천개의 부유 포인트 넘버 변수를 포함하며, 본 발명의 고유음성 표현은 훨씬 적은 변수를 필요로 하며, 이러한 시스템이 상술한 바와 같은 변수보다 훨씬 적은 변수로 작동되지만 전형적인 실시예에서는 주어진 화자를 제공하는데 25 내지 100 변수를 사용한다. 컴퓨터가 매우 용이하게 연산할 수 있는 선형 방정식 세트를 해결하므로써 실행되는 최우 연산을 허용하면서 고유음성은 교차되기 때문에, 본 발명에서는 연산에 대한 부담이 상당히 감소된다.
세번째로, 상기 관찰 데이터는 히든 마르코프 모델에 의해 서술된 모든 사운드 유니트와 각각의 실시예를 포함할 필요가 없다. 따라서, 최우법은 사운드 유니트의 일부가 누락되어도 작동될 것이다. 이와는 달리, 투영 조작을 사용하여 신규 화자의 변수를 고유음성에 위치시키면, 화자는 히든 마르코프 모델에 의해 서술된 모든 사운드 유니트와 적어도 하나의 실시예를 말할 필요가 있다. 실제 용어에 있어서, 최우법은 매우 짧고 위치적으로 불완전한 훈련 세션에 기초하여 강건한 적응 모델을 구성하게 한다. 따라서, 이러한 기법은 다량의 적응성 데이터가 필요없는 환경 적응용이나 화자에 사용된다. 예를 들어, 상기 기법은 음성가능형 상호작용 마케팅 시스템에서 양호하게 작동되며, 상기 마케팅 시스템은 순서를 놓기 위해 화자가 시스템을 통해 진행됨에 따라 신규 화자가 시스템 내비게이션 시도에 전화로 응답하고 상기 시스템이 신규 화자에 자동으로 적용된다.
본 발명의 기타 다른 목적과 특징 및 장점은 첨부된 도면을 참조한 하기의 상세한 설명에 의해 보다 명확하게 이해될 것이다.
본 발명의 화자 적응 기법을 양호하게 이해하기 위해서는 기본적으로 음성 인식 시스템의 이해가 필요하다. 히드 마르코프 모델은 상태 다이아그램을 포함하는 모델링 접근 방법이다. 어떠한 음성 유니트(예를 들어, 구, 단어, 서브단어, 음소 등등)라도 이러한 모델에 포함된 모든 지식 소스에 의해 모델로 될 수 있다.
상기 HMM 은 일련의 관찰가능한 출력을 불연속한 간격으로 생성하는 공지되지 않은 처리를 제공하며, 상기 출력은 일부 한정된 알파벳(음성 유니트의 설정된 세트에 대응)의 요소이다. 이러한 모델은 관찰가능한 출력을 생성하는 상태 시컨스가 공지되지 않았기 때문에 "히든(hidden)"으로 불리워진다.
도 1 에 도시된 바와 같이, HMM(10)은 도 1 에 화살표로 도시된 바와 같이 상태 세트(S1, S2, . . .S5)에 의해 그러한 상태 쌍 사이의 천이를 한정하는 벡터와, 확률 데이터의 집합으로 도시된다. 특히 상기 히든 마르코프 모델은 천이 벡터와 연관된 천이 확률 세트(12)와, 각각의 상태에서 관찰 출력과 연관된 출력 확률 세트(14)를 포함한다. 상기 모델은 규칙적으로 이격되어 불연속한 간격으로 하나의 상태로부터 다른 상태로 측정된다. 측정시, 상기 모델은 그 현재의 상태로부터 천이 벡터가 존재하는 다른 상태로 변화될 수 있다. 도시된 바와 같이, 천이는 주어진 상태로부터 복귀될 수도 있다.
천이 확률은 모델이 측정될 때 한 상태로부터 다른 상태로의 천이가 발생될 확률을 나타낸다. 따라서, 도 1 에 도시된 바와 같이, 각각의 천이는 확률값(0 과 1 사이)과 연관되어 있다. 어떤 상태를 남기는 모든 확률의 총합은 1 과 동일하다. 도시를 위해, 예시적인 천이 확률값 세트는 천이 확률 테이블(12)에 제공되었다. 작동 실시예에서, 이러한 값들은 어떤 상태를 남기는 모든 확률의 총합이 1 과 동일한 것을 억제하므로써 훈련 데이터에 의해 발생되는 것을 인식해야 한다.
천이가 이루어질 때마다, 모델은 그 알파벳의 하나의 요소를 방출하거나 출력하는 것으로 여겨질 수 있다. 도 1 에 도시된 실시예에서는 음소 기본형 음성 유니트인 것으로 가정된다. 따라서, 출력 확률 테이블(14)에서 인식된 기호는 표준 영어에서 발견된 일부 음소에 대응한다. 각각의 천이에 따라 방출되는 알파벳 요소는 출력 확률값이나 훈련중 습득한 기능에 의존한다. 이와 같이 방출된 출력은 관찰 시컨스(훈련 데이터에 기초)를 제공하며, 알파벳의 각각의 요소는 방출 확률을 갖는다.
모델링 음성에 있어서는 출력을 불연속한 알파벳 기호의 시컨스가 아닌 일련의 연속한 벡터로 처리하는 것이 일반적이다. 이것은 단일의 수치값과는 달리 출력 확률을 연속한 확률 함수로 표현할 것을 요구한다. 따라서, HMM 은 하나이상의 가우스 함수를 포함하는 확률 함수에 자주 의존하게 된다. 복수의 가우스 함수가 사용될 때, 이들은 전형적으로 도면부호 16 으로 도시된 바와 같이 복잡한 확률 분포를 한정하기 위해 부가적으로 혼합된다.
단일의 가우스 함수나 복합 가우스 함수로 제공된 여부에 관계없이 확률 분포는 복수의 변수로 서술될 수 있다. 천이 확률값(표 12)과 마찬가지로, 이러한 출력 확률 변수는 부유 포인트 넘버를 포함할 수 있다. 변수 테이블 18 은 전형적으로 훈련 화자로부터 관찰된 데이터에 기초하여 확률밀도 함수(probability density function: pdf)를 나타내는데 사용되는 변수를 인식한다. 도 1 의 가우스 함수(16)에서 방정식으로 표시된 바와 같이, 모델링될 관찰 벡터(O)에 대한 확률밀도 함수는 가우스 밀도(N)에 의해 곱해진 각각의 혼합 성분에 대해 혼합 계수의 반복적 총합이며, 가우스 밀도는 세프스트럴이나 필터 뱅크 계수 음성 변수를 표시하는 코베리언스 매트릭스(Uj)나 평균 벡터(nj)를 갖는다.
히든 마르코프 모델 인식기의 실행 설명은 다양하게 변할 수 있다. 도 1 에 도시된 HMM 실시예는 단순히 히든 마르코프 모델의 구성 방법을 도시하는 것으로서 이것이 본 발명의 범위를 한정하는 것은 아니다. 이에 대해, 히드 마르코프 모델링 개념에는 많은 변화가 있다. 하기에 상세히 서술되는 바와 같이, 본 발명의 고유음성 적응 기법은 다른 변수 기본형 음성 모델링 시스템에서와 마찬가지로 각각의 상이한 히든 마르코프 모델 변화에 대해 용이하게 적응될 수 있다.
고유음성 공간의 구축
도 2 에는 훈련 화자를 제공하기 위해 고유공간을 구축하는 처리 방법이 도시되어 있다. 훈련 화자(20)의 넘버(T)는 고유공간이 구축되는 훈련 데이터(22)의 전집을 제공한다. 상당한 수의 화자(100 내지 200)가 훈련 데이터를 제공한다. 이러한 훈련 데이터는 화자의존형 모델[speaker dependent(SD) model]을 훈련하는데 사용된다. 단계(24)에서는 화자당 하나의 모델이 구축되며, 각각의 모델은 인식 시스템에 의해 이해되는 사운드 공간을 제공한다. 도 1 에 제공된 서술에 따라, 각각의 모델은 HMM 세트와 각각의 사운드 유니트에 대한 하나의 HMM 이 될 수 있다. 이것은 도 2 에 도면부호 26 으로 도시되었다.
T 화자로부터의 모든 훈련 데이터가 각각의 화자의존형 모델을 훈련하는데 사용된 후에, T 슈퍼벡터 세트가 28에서 구축된다. 따라서, 각각의 T 화자에 대해 하나의 슈퍼벡터(30)가 있게 될 것이다. 각각의 화자에 대한 슈퍼벡터는 그 화자를 위한 히든 마르코프 모델의 변수(18)의 적어도 일부에 대응하는 변수(전형적으로, 부유 포인트 넘버)의 순서가 부여된 리스트를 포함한다. 각각의 사운드 유니트에 대응하는 변수는 주어진 화자에 대해 슈퍼벡터에 포함된다. 변수는 편리한 순서대로 조직된다. 상기 순서는 중요하지는 않지만, 일단 한번 채택되면 모든 T 화자에 대해 따라야 한다.
순서가 부여된 히든 마르코프 모델 변수는 슈퍼벡터를 형성하기 위해 쇠사슬 형태로 연결된다. 슈퍼벡터에 포함될 HMM 변수의 선택은 가용의 처리 동력에 의존한다. 가우스로부터 슈퍼벡터를 구성하는 것은 양호한 결과를 제공하는 것으로 판명되었다. 만일 대용량의 처리 동력이 가용될 수 있다면, 슈퍼벡터는 천이 확률(도 1 에서 표 12)이나 코베리언스 매트릭스 변수(도 1 에서 변수 18)과 같은 HMM 변수를 포함할 것이다. 자연적으로, 만일 히든 마르코프 모델이 불연속 출력(확률밀도와는 달리)을 생성한다면, 이러한 출력값은 슈퍼벡터를 포함하는데 사용될 수 있다.
각각의 훈련 화자에 대해 슈퍼벡터가 구성된 후, 단계(32)에서 주성분 분석이 실행되었다. T 슈퍼벡터에 대한 주성분 분석은 T 고유 벡터(34)를 생성한다. 따라서, 만일 120 훈련 화자가 사용되었다면, 시스템은 120 고유벡터를 발생시킬 것이다. 이러한 고유벡터는 고유음성이나 고유공간으로 불리는 것을 한정한다.
고유공간을 결정하는 고유벡터는 상관관계가 없으며, 이들은 각각 다른 화자가 구별하는 상이한 칫수를 제공한다. 본래 훈련 세트에서의 각각의 슈퍼벡터는 이러한 고유벡터의 선형 조합으로 제공될 수 있다. 상기 고유벡터는 데이터를 모델링하느데 중요한 것으로 순서가 부여된다. 제 1 고유벡터는 제 2 고유벡터보다 중요하며, 제 2 벡터는 제 3 벡터보다 중요하다. 따라서, 제 1 고유벡터는 수형-암형 칫수에 대응하는 것으로 판명되었다.
T 고유벡터의 최대값은 단계(32)에서 생성되지만, 실제로 이들 고유벡터의 일부는 폐기할 수 있으며, 단지 제 1 N 고유벡터만 사용된다. 따라서, 단계(36)에서, 감소된 변수 고유공간(38)을 포함하기 위해 T 고유벡터의 N 을 선택적으로 추출할 수 있다. 높은 순서의 고유벡터가 폐기될 수 있는데, 이것은 이들이 전형적으로 화자들중에서 비난하기 위해 그다지 중요하지 않은 정보를 포함하고 있기 때문이다. 고유음성 공간을 훈련 화자의 전체 갯수 이하로 줄이는 것은 한정된 메모리와 프로세서 리소스를 갖는 실제 시스템을 구성할 때 도움이 될 수 있는 본래의 데이터 압축을 제공한다.
적응 실행
일단 고유음성이 구성되었다면, 화자 적응이나 환형 적응은 용이하게 구성될 수 있다. 고유공간을 구성하는 것은 연산적으로 다소 격렬한 작업이고 전형적으로 오프라인으로 실시되지만, 적응은 신규 화자가 시스템을 사용할 동안 실행될 수 있는 비교적 간단한 연산 작업이다. 도 3 에 있어서, 신규 화자(40)로부터의 음성은 단계(42)에서 이하 추출 통계로 언급되는 HMM(44)(각각의 사운드 유니트에 대해 하나)의 변수로부터 통계를 연산하는데 사용된다. 우리는 상기 통계를 감독 모드나 비감독 모드에서 추출할 수 있는데, 상기 감독 모드에서 훈련 시스템은 훈련 음성의 내용을 미리 알 수 있으며 비감독 모드에서 음성 인식 시스템은 적응 음성의 내용을 결정하기 위해 화자 독립형 모델을 사용한다.
추출 통계치로 형성된 모델은 언제나 적어도 처음에는 인식에 대해서는 매우 부적절할 것이다. 단계(46)에서, 슈퍼벡터(48)는 훈련 화자로부터 이미 형성되어 있는 고유음성 공간(38)내에 속하는 것이 억제되도록 형성된다. 상기 슈퍼벡터(48)는 인식을 위해 사용된 HMM 모델이 고유음성 공간(38)을 포함하는 고유음성의 선형 조합이 되어야 하는 부여된 억제에 의해 구성된다.
추출된 통계치는 신규 화자에 대해 적응된 모델을 포함할 선형 조합 계수를 평가하는 작용을 한다. 따라서, 단계(50)에서 슈퍼벡터(48)에 기초하여 새로운 세트의 HMM 이 구성되므로써 적응 모델(52)을 발생시킨다. 필요할 경우, 상기 적응 모델(52)로부터 신규 슈퍼벡터를 구성한 후 부가적인 적응 모델이 구성되는 다른 HMM 세트를 구성하기 위해 선택적인 반복 처리가 실행된다.
도 4 는 2차원 공간에서 신규 화자의 음성 모델이 고유공간(38)내에 억제되는 것을 도시하고 있다. 상술한 바와 같이, 고유공간은 주성분 분석을 통해 발생된 고유벡터의 갯수와 동일하거나 적은 복합차원의 공간이다. 도 4 에는 단지 2차원만 도시되었지만, 고유공간(38)은 전형적으로 상기 2차원보다 상당히 높다.
신규 화자는 데이터 포인트(60)로 개략적으로 도시되었다. 상기 데이터 포인트(60)는 도 3 에 도시된 슈퍼벡터(48)에 대응한다. 신규 화자는 고유공간(38)의 외측에 위치된다. 상술한 바와 같이, 적응 절차는 상기 신규 화자에 대한 양호한 적응 모델을 제공하는 고유공간내에서 포인트를 찾는 단계를 포함한다. 적응 모델은 신규 화자에 의해 말해진 입력 음성에 기초하지만, 고유공간(38)내에 억제된다.
고유공간내에 신규 화자를 위치시키는 간단한 기법은 라인(62)으로 도시된 간단한 투영 조작을 사용하는 것이다. 투영 조작이라 함은 신규 화자의 입력 음성에 대응하는 고유공간의 외측에서 가능한한 포인트에 가까운 고유공간내에 포인트를 찾는 것이다. 따라서, 간단한 투영은 고유공간(38)내에 신규 화자를 포인트(64)에 위치시키는 것이다. 이러한 포인트는 실제로 HMM 세트가 재구성되는 슈퍼벡터이다.
상기 투영 조작은 고유공간내의 포인트가 신규 포인트에 대해 최적인 것을 보상하지 않는 비교적 불완전한 기법이다. 또한, 투영 조작은 신규 화자에 대한 슈퍼벡터가 그 화자에 대해 HMM 의 전체 세트를 제공하는 완전한 세트의 데이터를 포함할 것을 요구한다. 이러한 요구사항은 실질적으로 상당한 제한을 일으킨다. 신규 화자를 고유공간에 억제하기 위해 투영을 사용할 때, 그 화자는 모든 음성 유니트가 데이터에 제공되도록 충분한 입력 음성을 공급해야만 한다. 예를 들어, 만일 히든 마르코프 모델이 영어로 모든 음소를 제공하도록 설계되었다면, 훈련 화자는 간단한 투영 기법이 사용되기 전에 모든 음소의 실시예를 제공해야만 한다. 많은 경우에 있어서, 이러한 억제는 실제로 간단하지 않다.
본 발명의 최우법은 상술한 간단한 투영에 대한 상술의 결점에 접근하고 있다. 본 발명의 최우법은 신규 화자에 의해 공급된 음성을 발생시킬 최우을 갖는 히든 마르코프 모델 세트에 대응하는 슈퍼벡터를 제공하는 고유공간(38)내에 포인트(66)를 찾는다. 도시를 위해, 상기 최우 처리는 도 4 에 선(68)으로 도시되었다.
간단한 투영 조작이 슈퍼벡터의 모든 요소를 동일한 중요성을 갖는 것으로 처리한 반면, 최우법은 실제 데이터로부터 일어나는 확률에 기초하여 보다 확실한 데이터를 모두 중요하게 취급한다. 간단한 투영 기법과는 달리, 최우법은 신규 화자가 완전한 세트의 훈련 데이터(즉, 사운드 유니트의 일부가 누락된 데이터)로 공급되지 않은 경우에도 작동될 것이다. 실제로, 최우법은 이러한 모델이 다른 모델보다 신규 화자에 의해 공급된 입력 음성을 발생시키려는 확률을 포함하는 히든 마르코프 모델로부터 슈퍼벡터가 구성되는 콘텍스트를 고려한다.
실제로, 최우법은 입력 음성이 실제로 얼만큼 가용한지에 관계없이 신규 화자의 입력 음성과 가장 일치하는 고유공간내에 슈퍼벡터를 선택할 것이다. 도시를 위하여, 신규 화자는 앨라배마의 젊은 여성으로 가정한다. 이러한 화자로부터의 소수의 음절을 수용함에 따라, 최우법은 화자의 앨라배마 여성 액센트와 일치하는 모든 음소(입력 음성에 아칙 제공되지 않았지만)를 제공하는 고유공간내에 포인트를 선택할 것이다.
도 5 는 최우법이 작동되는 방법을 도시하고 있다. 신규 화자로부터의 입력 음성은 슈퍼벡터(70)에서 각각의 변수에 대한 통계치를 추출하는데 사용된다. 상술한 바와 같이, 슈퍼벡터는 세프스트럴 계수 등에 대응하는 쇠사슬 형태의 음성 변수 리스트를 포함한다. 도시된 실시예에서, 이러한 변수는 신규 화자에 대응하는 히든 마르코프 모델 세트로부터 추출된 가우스 수단을 제공하는 부유 포인트 넘버이다. 다른 HMM 변수도 사용될 수 있다. 이러한 HMM 수단은 점(72)으로 도시되었다. 데이터에 완전히 거주하였을 때, 슈퍼벡터(70)는 HMM 모델에 의해 제공된 각각의 사운드 유니트에 대응하는 각각의 HMM 을 위한 부유 포인트 넘버를 포함하다. 도시를 위해, 음소 "ah" 에 대한 변수가 제공되지만 음소 "iy" 에 대한 변수는 누락된 것으로 가정한다.
고유공간(38)은 고유벡터 세트(74, 76, 78)에 의해 제공된다. 신규 화자로부터의 관찰 데이터에 대응하는 슈퍼벡터(70)는 각각의 고유벡터를 대응의 고유값(W1, W2, . . .Wn)으로 곱하므로써 고유공간에 제공된다. 이러한 고유값은 처음에는 알 수없다. 최우법은 이러한 모르는 값을 위한 값을 찾는다. 하기에 상세히 서술되는 바와 같이, 이러한 값들은 고유공간내에 신규 화자를 가장 양호하게 제공하는 최적의 솔루션을 추적하므로써 선택된다.
고유값을 고유공간(38)의 대응의 고유벡터와 곱하고 최종값을 총합한 후에, 적응 모델(80)이 생성된다. 입력 음성[슈퍼벡터(70)]의 추출 통계치가 일부 누락된 변수값(예를 들어, "iy" 변수)을 갖는 반면, 적응 모델을 제공하는 슈퍼벡터(80)는 상기 값에 완전히 거주한다. 이것이 본 발명의 장점이다. 또한, 슈퍼벡터(80)에서의 값은 고유공간에서 신규 화자를 나타내는 최우을 갖는 최적의 솔루션을 제공한다.
각각의 고유값(W1, W2, . . .Wn)은 최우 벡터를 포함한다. 도 4 는 벡터(82)를 개략적으로 도시하고 있다. 도시된 바와 같이, 최우 벡터(82)는 고유값 세트(W1, W2, . . .Wn)를 포함한다.
최우법을 사용하여 적응을 실시하는 절차는 도 6 에 도시되어 있다. 신규 화자로부터의 음성은 관차 데이터(100)를 포함하는 통계 세트를 추출하는데 사용된다. 추출된 통계치(102)는 슈퍼벡터(104)를 구성하는데 사용된다. 도시된 바와 같이, 추출 통계는 HMM 모델 세트(102)를 형성하는데 사용된다.
슈퍼벡터(106)를 사용하므로써, 보조 함수(Q)(108)가 구성된다. 양호한 실시예는 설정된 HMM 모델 세트(102)를 위한 관찰 데이터를 발생시킬 확률을 제공하는 보조기능을 채용한다. 보조 함수(Q)의 일련의 조작은 상기 함수가 확률 기간(P)을 포함할 뿐만 아니라 상기 기간의 로가리즘 즉, logP 를 포함한다면 용이하게 이루어진다.
단계(100)에서 보조 함수는 각각의 고유값(W1, W2, . . .Wn)에 대해 각각 보 조 함수의 미분계수를 취하므로써 최대가 된다. 예를 들어, 만일 고유 공간이 칫수(100)을 갖는다면, 이러한 시스템은 각각을 0 으로 설정하고 각각의 W 에 대해 해답을 구하는 보조함수(Q)의 100 미분계수를 연산한다. 이것은 대형 연산인 것으로 보이지만, 전형적으로 종래 MAP 또는 MLLR 기법에 필요한 수천가지 연산을 실행하는 것보다 저렴한다.
이렇게 얻은 최종적인 Ws 세트는 최우의 포인트에 대응하는 고유공간에서의 포인트를 확인하는데 필요하다. 따라서, Ws 세트는 고유공간에서 최우 벡터를 포함한다. 이에 대해, 각각의 고유벡터[도 5 에서 고유벡터(74, 76, 78)]는 교차 벡터 세트를 형성하거나 또는 고유공간내에 억제된 포인트를 형성하기 위해 고유값이 곱해지도록 조정된다. 이러한 최우 벡터(112)는 고유공간[도 4 에서 포인트(66)]에서 최적의 포인트에 대응하는 슈퍼벡터(114)를 구성하는데 사용된다. 상기 슈퍼벡터(114)는 단계(116)에서 신규 화자에 대한 적응 모델(118)을 구성하는데 사용된다.
본 발명의 최우 구성의 논리에 있어서, 모델(λ)에 대한 관찰(O=o1.....oT)의 확률을 최대로 한다. 이것은 보조 함수(Q)를 반복적으로 최대로 하므로써 실행될 수 있으며, 여기서 상기 λ 는 반복시의 현재 모델이며,
Figure 112005054519531-pat00026
는 추정된 모델이다.
Figure 111999004131144-pat00002
예비적 접근으로서, 우리는 단지 평균값에 대해서만 최대치를 실행하였다. 콘텍스트에서, 확률(P)은 HMM 세트에 의해 제공되였으며, 다음과 같은 식을 얻었다.
Figure 111999004131144-pat00003
Figure 111999004131144-pat00004
은 시간(t)에서의 특징 벡터이며,
Figure 111999004131144-pat00005
은 상태(s)의 혼합 가우스(m)에 대한 역전 코베리언스이고,
Figure 111999004131144-pat00006
은 상태(s)와 혼합 성분(m)에 대해 적절히 조정된 수단이며,
Figure 111999004131144-pat00007
은 P(혼합 가우스 m|λ,Ot)이다.
신규 화자의 HMM 에 대한 가우스 수단은 고유공간에 위치되는 것으로 가정한다. 이러한 공간은 평균 슈퍼벡터
Figure 112005054519531-pat00027
에 의해 걸쳐지게 한다.
Figure 111999004131144-pat00009
상기
Figure 111999004131144-pat00010
은 고유벡터(고유모델)(j)의 상태(s)에서 혼합 가우스에 대한 평균 벡터를 나타낸다.
Figure 111999004131144-pat00011
상기
Figure 112005054519531-pat00028
는 직교하며,
Figure 112005054519531-pat00029
는 화자 모델의 고유값이다. 신규 화자가 관찰된 화자의 데이터베이스의 선형 조합으로서 모델링될 수 있는 것으로 가정하자. M 의 혼합 가우스(m)과 λ의 상태(s)에서는
Figure 111999004131144-pat00014
이다.
Q 를 최대로 할 필요가 있기 때문에,
Figure 111999004131144-pat00015
으로 설정하였다.
(고유벡터는 교차하기 때문에,
Figure 111999004131144-pat00016
인 것을 주의해야 한다.)
따라서,
Figure 111999004131144-pat00017
이 된다.
상술한 유도체를 연산하면,
Figure 111999004131144-pat00018
이 된다.
이로부터 다음과 같은 선형 방정식 세트를 얻을 수 있다.
Figure 111999004131144-pat00019
환경 적응
본 발명은 화자 적응 기법에 대해 서술하였지만, 이러한 기법은 환형 적응에도 쉽게 사용될 수 있다. 많은 음성 인식 시스템은 마이크 위치와, 실내 음향과, 배경 노이즈와, 오디오 신호 채널 품질 등과 같은 환경 상태에 매우 민감하다. 고유벡터는 다른 화자를 모델링하는데 사용되었던 것처럼 다른 음성 환경을 모델링하는데 사용될 수 있다.
대부분의 경우, 화자 적응과 환경 적응의 필요성을 수용하는 것이 바람직하다. 이를 위해, 훈련 화자는 광범위한 환경 가변성에서 기록될 것을 보장할 필요가 있다. 양호한 성능을 얻기 위해, 훈련 화자의 갯수와 고유음성의 갯수는 조용한 환경에서 고유음성 적응에 필요한 것보다 클 필요가 있다.
화자가 아니라 환경에 적용할 화자 독립형 시스템을 구성하기 위해 상술한 기법에 미세한 변형이 가해진다. 먼저, E 화자 독립형 모델을 훈련하는데, 여기서 상기 E 는 훈련 데이터에서 다른 환경의 넘버이다. 각각의 E 모델은 동일한 환경에서 다른 많은 화자에서 훈련된다. 이상적으로, 상이한 기록 환경은 가능한한 다르게 될 것이다. 고유음성 처리는 상술한 바와 같이 실행된다. 이 경우, 고유음성 벡터는 환경들 사이의 변화 성분을 제공할 것이다. 따라서, 제 1 고유벡터는 화자 적응 실시예에서처럼 수형-암형 칫수를 제공할 수도 있고 그렇지 않을 수도 있다.
본 발명은 양호한 실시예를 참조로 서술되었기에 이에 한정되지 않으며, 본 기술분야의 숙련자라면 첨부된 청구범위로부터의 일탈없이 본 발명에 다양한 변형과 수정이 가해질 수 있다.








Claims (13)

  1. 복수의 훈련 화자를 위해 화자 모델 세트를 제공하는 단계와,
    각각의 슈퍼벡터가 훈련 화자의 일인과 관련되도록 상기 화자 모델 세트로부터 슈퍼벡터 세트를 구축하는 단계와,
    복수의 훈련 화자를 표현하는 고유공간을 정의하는 복수의 고유벡터 세트를 실행하기 위해, 상기 슈퍼벡터 세트에 대해 주성분 분석을 실행하는 단계와,
    새로운 화자로부터 입력 음성을 수신하는 단계와,
    입력 음성을 이용하여 적용 음성 모델을 생성하는 단계를 포함하며,
    상기 적응 모델은 고유공간내에 존재하는 고유벡터 세트의 선형 조합인 것을 특징으로 하는 화자 적응 실행 방법.
  2. 제 1 항에 있어서, 상기 화자 모델은 설정의 화자를 위한 슈퍼벡터가 설정의 화자와 연관된 화자 모델로부터 모델 변수를 쇠사슬형태로 연결하므로써 구축되도록, 하나이상의 모델 변수를 한정하는 것을 특징으로 하는 화자 적응 실행 방법.
  3. 제 2 항에 있어서, 상기 각각의 훈련 화자에 대한 모델은 상이한 음성 유니트 세트에 대응하며, 각각의 슈퍼벡터는 설정 순서대로 분류된 음성 유니트에 대응하는 모델 변수를 쇠사슬 형태로 형성하는 것을 특징으로 하는 화자 적응 실행 방법.
  4. 제 2 항에 있어서, 상기 모델 변수는 세프스트럴 계수인 것을 특징으로 하는 화자 적응 실행 방법.
  5. 제 2 항에 있어서, 상기 모델 변수는 필터 뱅크 계수인 것을 특징으로 하는 화자 적응 실행 방법.
  6. 제 1 항에 있어서, 상기 주성분 분석단계는 훈련 화자의 갯수와 동일한 갯수인 주성분 벡터 세트를 생성하는 것을 특징으로 하는 화자 적응 실행 방법.
  7. 제 1 항에 있어서, 상기 주성분 분석 실행단계는 주성분 벡터의 순서 리스트를 생성하며, 상기 고유공간 구성 단계는 고유공간의 순서를 감소시키기 위해 상기 순서 리스트의 설정된 부분을 폐기하는 단계를 포함하는 것을 특징으로 하는 화자 적응 실행 방법.
  8. 제 1 항에 있어서, 상기 적응 모델 생성단계는 입력 음성을 고유공간에 투영시키므로써 실행되는 것을 특징으로 하는 화자 적응 실행 방법.
  9. 제 1 항에 있어서, 상기 적응 모델 생성단계는 상기 입력 음성에 기초하여 고유공간에 포인트를 설정하므로써 실행되는 것을 특징으로 하는 화자 적응 실행 방법.
  10. 복수의 훈련 화자를 위해 화자 모델 세트를 제공하는 단계와,
    각각의 슈퍼벡터가 훈련 화자의 일인과 관련되도록 상기 화자 모델 세트로부터 슈퍼벡터 세트를 구축하는 단계와,
    복수의 훈련 화자를 표현하는 고유공간을 정의하는 복수의 고유벡터 세트를 실행하기 위해, 상기 슈퍼벡터 세트에 대해 주성분 분석을 실행하는 단계와,
    새로운 화자로부터 입력 음성을 수신하는 단계와,
    상기 입력 음성에 기초하여 최우 벡터를 생성하는 단계와,
    적응 모델을 억제하여 상기 적응 모델이 고유공간내에 존재하도록 고유벡터 세트와 최우 벡터를 이용하여 적응 모델을 생성하는 단계를 포함하는 것을 특징으로 하는 화자 적응 실행 방법.
  11. 제 10 항에 있어서, 설정된 모델 세트를 위한 관찰 데이터의 생성 확률을 제공하는 보조 함수를 형성하는 단계와, 최우 벡터를 찾기 위해 상기 보조 함수를 최대로 하는 단계를 포함하며, 상기 입력 음성은 관찰 데이터를 공급하는 것을 특징으로 하는 화자 적응 실행 방법.
  12. 제 10 항에 있어서, 상기 적응 모델은 최우 벡터를 상기 주성분 벡터와 곱하여 억제되는 것을 특징으로 하는 화자 적응 실행 방법.
  13. 제 11 항에 있어서, 상기 최대화 단계는 고유값 변수 세트로서 최우 벡터를 제공하는 단계와,
    상기 고유값 변수에 대해 보조 함수의 제 1 미분을 취하는 단계와,
    제 1 미분이 0 이 될 때 상기 고유값 변수의 대응값을 해결하는 단계를 포함하는 것을 특징으로 하는 화자 적응 실행 방법.
KR1019990015593A 1998-04-30 1999-04-30 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법 KR100574769B1 (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US9/070,208 1998-04-30
US09/070,054 1998-04-30
US09/070,054 US6263309B1 (en) 1998-04-30 1998-04-30 Maximum likelihood method for finding an adapted speaker model in eigenvoice space
US09/070,208 US6327565B1 (en) 1998-04-30 1998-04-30 Speaker and environment adaptation based on eigenvoices
US09/070,208 1998-04-30
US9/070,054 1998-04-30

Publications (2)

Publication Number Publication Date
KR19990083632A KR19990083632A (ko) 1999-11-25
KR100574769B1 true KR100574769B1 (ko) 2006-04-28

Family

ID=26750711

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990015593A KR100574769B1 (ko) 1998-04-30 1999-04-30 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법

Country Status (7)

Country Link
EP (1) EP0953968B1 (ko)
JP (2) JPH11338491A (ko)
KR (1) KR100574769B1 (ko)
CN (1) CN1144172C (ko)
AT (1) ATE286616T1 (ko)
DE (1) DE69923026T2 (ko)
TW (1) TW436758B (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6343267B1 (en) 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6253181B1 (en) 1999-01-22 2001-06-26 Matsushita Electric Industrial Co., Ltd. Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers
US6571208B1 (en) * 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
DE10022700A1 (de) * 2000-05-10 2001-11-22 Sympalog Gmbh Sprachdialogsystem
AU5205700A (en) * 2000-06-15 2002-01-08 Intel Corporation Speaker adaptation using weighted feedback
EP1178467B1 (en) * 2000-07-05 2005-03-09 Matsushita Electric Industrial Co., Ltd. Speaker verification and identification
DE10047724A1 (de) * 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraumes zur Darstellung einer Mehrzahl von Trainingssprechern
DE10047723A1 (de) * 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE10047718A1 (de) * 2000-09-27 2002-04-18 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
KR20050063986A (ko) * 2003-12-23 2005-06-29 한국전자통신연구원 고유음성 계수를 이용한 화자종속 음성인식 시스템 및 방법
EP1774516B1 (en) * 2004-01-12 2011-03-16 Voice Signal Technologies Inc. Normalization of cepstral features for speech recognition
JP4964194B2 (ja) * 2008-07-09 2012-06-27 日本電信電話株式会社 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
GB2510200B (en) * 2013-01-29 2017-05-10 Toshiba Res Europe Ltd A computer generated head
CN111833842B (zh) * 2020-06-30 2023-11-03 讯飞智元信息科技有限公司 合成音模板发现方法、装置以及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05232989A (ja) * 1992-02-20 1993-09-10 Nippon Telegr & Teleph Corp <Ntt> 音響モデルの話者適応化法
JPH06266384A (ja) * 1993-03-16 1994-09-22 A T R Jido Honyaku Denwa Kenkyusho:Kk 音響モデル適応方式
JPH06282292A (ja) * 1993-03-26 1994-10-07 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識方式
JPH08110792A (ja) * 1994-10-12 1996-04-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 話者適応化装置及び音声認識装置
KR970029326A (ko) * 1995-11-27 1997-06-26 김광호 화자 적응 방법
JPH1097273A (ja) * 1996-08-02 1998-04-14 Nippon Telegr & Teleph Corp <Ntt> 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
JPH10207485A (ja) * 1997-01-22 1998-08-07 Toshiba Corp 音声認識装置及び話者適応方法
JPH1165589A (ja) * 1997-06-10 1999-03-09 Honda Motor Co Ltd 音声認識装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6391699A (ja) * 1986-10-03 1988-04-22 株式会社リコー 音声認識方式
US5572624A (en) * 1994-01-24 1996-11-05 Kurzweil Applied Intelligence, Inc. Speech recognition system accommodating different sources

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05232989A (ja) * 1992-02-20 1993-09-10 Nippon Telegr & Teleph Corp <Ntt> 音響モデルの話者適応化法
JPH06266384A (ja) * 1993-03-16 1994-09-22 A T R Jido Honyaku Denwa Kenkyusho:Kk 音響モデル適応方式
JPH06282292A (ja) * 1993-03-26 1994-10-07 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識方式
JPH08110792A (ja) * 1994-10-12 1996-04-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 話者適応化装置及び音声認識装置
KR970029326A (ko) * 1995-11-27 1997-06-26 김광호 화자 적응 방법
JPH1097273A (ja) * 1996-08-02 1998-04-14 Nippon Telegr & Teleph Corp <Ntt> 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
JPH10207485A (ja) * 1997-01-22 1998-08-07 Toshiba Corp 音声認識装置及び話者適応方法
JPH1165589A (ja) * 1997-06-10 1999-03-09 Honda Motor Co Ltd 音声認識装置

Also Published As

Publication number Publication date
DE69923026T2 (de) 2005-12-22
EP0953968A2 (en) 1999-11-03
JPH11338491A (ja) 1999-12-10
ATE286616T1 (de) 2005-01-15
DE69923026D1 (de) 2005-02-10
CN1144172C (zh) 2004-03-31
TW436758B (en) 2001-05-28
EP0953968B1 (en) 2005-01-05
KR19990083632A (ko) 1999-11-25
CN1243304A (zh) 2000-02-02
JP2004004906A (ja) 2004-01-08
EP0953968A3 (en) 2000-05-10

Similar Documents

Publication Publication Date Title
US6343267B1 (en) Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6141644A (en) Speaker verification and speaker identification based on eigenvoices
US6263309B1 (en) Maximum likelihood method for finding an adapted speaker model in eigenvoice space
US6327565B1 (en) Speaker and environment adaptation based on eigenvoices
Gales Semi-tied covariance matrices for hidden Markov models
US6151574A (en) Technique for adaptation of hidden markov models for speech recognition
US5812975A (en) State transition model design method and voice recognition method and apparatus using same
EP0771461B1 (en) Method and apparatus for speech recognition using optimised partial probability mixture tying
US5822728A (en) Multistage word recognizer based on reliably detected phoneme similarity regions
Zhou et al. A compact representation of visual speech data using latent variables
US20050273325A1 (en) Removing noise from feature vectors
KR100574769B1 (ko) 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법
JPH10512686A (ja) 個別話者に適応した音声認識のための方法及び装置
JP2010049291A (ja) 音声認識システムのための動的にコンフィギュレーション可能な音響モデル
JP2002014692A (ja) 音響モデル作成装置及びその方法
JP2002149185A (ja) 複数の学習用話者を表現する固有空間の決定方法
WO2002091357A1 (en) Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system
Lee et al. Bayesian adaptive learning and MAP estimation of HMM
US20020143539A1 (en) Method of determining an eigenspace for representing a plurality of training speakers
JP2002132286A (ja) 音声認識方法
JPH1185186A (ja) 不特定話者音響モデル生成装置及び音声認識装置
US5828998A (en) Identification-function calculator, identification-function calculating method, identification unit, identification method, and speech recognition system
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
US6795804B1 (en) System and method for enhancing speech and pattern recognition using multiple transforms

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee