KR100879410B1

KR100879410B1 - 음향 특징 벡터 수정을 사용하는 분산형 음성 인식 시스템

Info

Publication number: KR100879410B1
Application number: KR1020037010130A
Authority: KR
Inventors: 치엔충 창; 나렌 멜레야스; 바이론 요시호 야프소
Original assignee: 콸콤 인코포레이티드
Priority date: 2001-01-31
Filing date: 2002-01-30
Publication date: 2009-01-19
Also published as: HK1062738A1; TW546633B; JP4567290B2; KR20040062433A; CN1284133C; EP1356453B1; CN1494712A; AU2002235513A1; BR0206836A; EP1356453A2; US20020103639A1; US7024359B2; WO2002065453A2; JP4976432B2; JP2009151318A; JP2004536330A; ATE407420T1; DE60228682D1; WO2002065453A3

Abstract

음성 인식 시스템은 화자 독립 음향 모델(238)에 대한 음성 인식 패턴 매칭 전에 음향 특징 벡터에 화자 의존 수정 함수를 인가한다. 적응 엔진(224)은 한 세트의 음향 특징 벡터(X)를 적응 모델(228)에 매칭하여 화자 의존 특징 벡터 수정 함수(f())를 선택하고, 그 다음 상기 함수는 X에 제공되어 수정된 세트의 음향 특징 벡터(f(X))를 형성한다. 그 다음, 수정된 음향 특징 벡터 f(X)를 화자 독립 음향 모델(238)과 상관시킴으로써 음성 인식이 수행된다.

Description

음향 특징 벡터 수정을 사용하는 분산형 음성 인식 시스템 {DISTRIBUTED VOICE RECOGNITION SYSTEM USING ACOUSTIC FEATURE VECTOR MODIFICATION}

본 발명은 스피치(speech) 신호 처리에 관한 것이다. 특히, 본 발명은 음향 특징 벡터 수정을 사용하여 분산형 음성 인식을 위한 새로운 방법 및 장치에 관한 것이다.

음성 인식은 사용자 음성 명령을 인식하여 머신과 인간과의 인터페이스를 용이하게 하기 위하여 시뮬레이트된 지능을 가진 머신을 사용하는 가장 중요한 기술중 하나를 나타낸다. 음향 스피치 신호로부터 언어 메시지를 복원하는 기술을 사용하는 시스템은 소위 음성 인식(VR) 시스템이라 불린다. 도 1은 프리엠퍼시스 필터(102), 음향 특징 추출(AFE) 유닛(104), 및 패턴 매칭 엔진(110)을 가진 기본적인 VR 시스템을 도시한다. AFE 유닛(104)은 일련의 디지털 음성 샘플을 음향 특징 벡터라 불리는 측정 값(예를 들어, 추출된 주파수 성분)의 세트로 변환한다. 패턴 매칭 엔진(110)은 일련의 음향 특징 벡터를 VR 음향 모델(112)에 포함된 패턴과 매칭시킨다. VR 패턴 매칭 엔진은 일반적으로 종래에 공지된 비터비(Viterbi) 디코딩 기술을 사용한다. 일련의 패턴이 음향 모델(112)로부터 인식될 때, 일련의 패턴은 입력 발음(utterance)에 대응하는 언어 워드의 식별된 시퀀스와 같은 적정 출력 포맷을 산출하도록 분석된다.

음향 모델(112)은 다양한 스피치 사운드 및 연관된 통계적 분산 정보로부터 추출된 음향 특징 벡터의 데이터베이스로서 기술될 수 있다. 이들 음향 특징 벡터 패턴은 음소, 트리-폰(tri-phones) 및 전체 워드 모델과 같은 짧은 스피치 세그먼트에 대응한다. "트레이닝(training)"은 음향 모델(112)에서 패턴을 생성하기 위하여 하나 이상의 화자(speaker)로부터의 특정 스피치 세그먼트 또는 음절(syllable)의 스피치 샘플을 수집하는 과정을 언급한다. "테스팅(testing)"은 최종 사용자 스피치 샘플로부터 추출된 일련의 음향 특징 벡터와 음향 모델(112)의 내용을 상관시키는 과정을 언급한다. 주어진 시스템의 성능은 최종 사용자 스피치 및 데이터베이스 내용 간의 상관도에 크게 의존한다.

선택적으로, 최종 사용자는 음향 모델(112)이 최종 사용자의 스피치와 매우 잘 매칭하도록 트레이닝 및 테스팅 동안 스피치 음향 특징 벡터를 제공한다. 그러나 음향 모델(112)이 일반적으로 다수의 스피치 세그먼트에 대한 패턴을 나타내야 하기 때문에, 종종 대량의 메모리를 점유한다. 더욱이, 모든 가능한 화자로부터 음향 모델을 트레이닝하는데 필요한 모든 데이터를 수집하는 것은 실용적이지 않다. 따라서 많은 기존 VR 시스템은 많은 대표적인 화자의 스피치를 사용하여 트레이닝된 음향 모델을 사용한다. 이러한 음향 모델은 폭넓은 다수의 사용자에게 가장 좋은 성능을 가지도록 설계되지만, 임의의 하나의 사용자에게는 최적이 아니다. 이러한 음향 모델을 사용하는 VR 시스템에서, 특정 사용자의 스피치를 인식하기 위한 능력은 특정 사용자에게 최적화된 음향 모델을 사용하는 VR 시스템의 능력에 비해 품질이 떨어질 것이다. 강한 외국어 악센트를 가진 사용자 같은 일부 사용자에 대하여, 공유된 음향 모델을 사용하는 VR 시스템의 성능은 너무 불량하여 사용자들은 VR 서비스를 효과적으로 사용할 수 없다.

적응(adaptation)은 트레이닝 및 테스트 조건의 비매칭에 의해 유발된 인식 성능의 품질 저하를 경감시키기 위한 효과적인 방법이다. 적응은 테스팅 환경과 밀접하게 매칭시키기 위하여 테스팅 동안 VR 음향 모델을 수정시킨다. 최대 가능 선형 복귀 및 베이즈(Bayesian) 적응 같은 여러 적응 방법이 공지되어 있다.

스피치 인식 태스크의 복잡성이 증가하기 때문에, 무선 장치에 전체 인식 시스템을 수용하는 것이 점점 더 어려워지고 있다. 따라서, 중앙 통신 센터에 배치된 공유된 음향 모델은 모든 사용자에게 음향 모델을 제공한다. 중앙 기지국은 계산적으로 복잡한 음향 매칭을 책임진다. 분산형 VR 시스템에서, 음향 모델은 많은 화자들에 의해 공유되며, 이에 따라 임의의 개별 화자에 최적화될 수 없다.

그러므로 요구된 계산 자원을 최소화하면서 다수의 개별 사용자의 성능을 개선하는 VR 시스템에 대한 필요성이 요망된다.

여기에 개시된 방법 및 장치는 음성 인식 패턴 매칭 전에 음향 특징 벡터를 변환시키기 위하여 화자 의존(speaker-dependent) 처리가 사용되는 신규하고 개선된 분산형 음성 인식 시스템에 관한 것이다. 화자 의존 처리는 화자, 적응 모델을 사용하는 중간 패턴 매칭 처리의 결과, 또는 이들 둘 다에 기초하여 가변하는 파라미터를 가진 변환 함수에 따라 수행된다. 화자 의존 처리는 원격국, 통신 센터, 또는 이들의 결합부에서 이루어질 수 있다. 음향 특징 벡터는 음성 인식 패턴 매칭 전에 환경 의존 처리를 사용하여 변환될 수 있다. 음향 특징 벡터는 동작 음향 환경(대기 잡음, 마이크로폰의 주파수 응답 등)의 변화에 적응하도록 수정될 수 있다. 환경 의존 처리는 원격국, 통신 센터, 또는 이들의 결합부에서 이루어질 수 있다.

"전형적으로"라는 단어는 "예시", "보기" 또는 "설명"으로서 여기에서 사용된다. "전형적인 실시예"로서 기술된 임의의 실시예는 반드시 다른 실시예에 비하여 유리하거나 또는 바람직한 것으로 해석되는 것은 아니다.

여기에서 기술된 방법 및 장치의 특징, 목적 및 장점은 동일한 도면부호가 동일한 구성요소를 나타내는 도면들과 이하의 상세한 설명을 참조로 고찰할 때 더욱더 명백해질 것이다.

도 1은 기본적인 음성 인식 시스템을 도시한 도면.

도 2는 전형적인 환경에 따른 분산형 VR 시스템을 도시한 도면.

도 3은 음향 특징 벡터 수정 및 특징 벡터 수정 함수의 선택이 전체적으로 원격국에서 이루어지는 분산형 VR 수행 방법을 도시한 흐름도.

도 4는 음향 특징 벡터 수정 및 특징 벡터 수정 함수의 선택이 전체적으로 통신 센터에서 이루어지는 분산형 VR 수행 방법을 도시하는 흐름도.

도 5는 특징 벡터 수정 함수 또는 적응 모델을 최적화하기 위해 중앙 음향 모델이 사용되는 분산형 VR 수행 방법을 도시한 흐름도.

표준 음성 인식기에 있어서, 인식 또는 트레이닝시, 대부분의 계산 복잡성은 음성 인식기의 패턴 매칭 서브시스템에 집중된다. 무선 시스템 측면에서, 음성 인식기는 음성 인식 애플리케이션에 의해 소비되는 무선(over-the-air) 대역폭을 최소화하기 위하여 분산형 시스템으로서 구현된다. 부가적으로, 분산형 VR 시스템은 보코더의 사용시 종종 발생하는 것과 같이 음성 데이터의 손실 소스 코딩시에 발생할 수 있는 성능 저하를 방지한다. 이러한 분산형 구조는 본 발명의 양도인에게 양도되고 "분산형 음성 인식 시스템"이라는 명칭을 가진 미국특허 제5,956,683호에 상세히 기술되고, 이 특허는 여기에서 '683 특허로서 참조된다.

디지털 무선 전화 시스템 같은 전형적인 무선 통신 시스템에서, 사용자의 음성 신호는 이동 전화 또는 원격국 내의 마이크로폰을 통하여 수신된다. 그 다음에, 아날로그 음성 신호는 예를 들어 초당 8000개의 8-비트 스피치 샘플인 디지털 샘플 스트림을 생성하도록 디지털적으로 샘플링된다. 스피치 샘플을 직접 무선 채널을 통해 전송하는 것이 효율적이므로 정보는 일반적으로 전송 전에 압축된다. 보코딩이라 불리는 기술을 통해, 보코더는 스피치 샘플의 스트림을 일련의 보다 작은 보코더 패킷으로 압축한다. 그 다음에, 더 작은 보코더 패킷은 그들이 나타내는 스피치 샘플 대신에 무선 채널을 통해 전송된다. 그 다음에, 보코더 패킷은 무선 기지국에 의하여 수신되며, 화자를 통해 청취자에게 제공되는 스피치 샘플의 스트림을 생성하기 위하여 역보코딩된다.

보코더의 주목적은 역보코딩될 때 청취자가 스피치를 이해할 수 있게 하는 능력을 유지하면서 가능한 한 많이 화자의 스피치 샘플을 압축하는 것이다. 보코더 알고리즘은 통상적으로 역보코딩된 스피치 샘플이 원래 보코딩된 샘플과 정확하게 매칭되지 않는 것과 같은 손실 압축 알고리즘이다. 게다가, 보코더 알고리즘은 비록 하나 이상의 보코더 패킷이 무선 채널을 통한 전송시 손실될지라도 이해할 수 있는 역보코딩된 스피치를 생성하도록 최적화된다. 이런 최적화는 보코더로 입력되는 스피치 샘플과 역보코딩의 결과 간에 추가적인 비매칭을 유발한다. 보코딩 및 역보코딩으로 인해 유발되는 스피치 샘플의 변경은 일반적으로 비록 여러 보코더 알고리즘에 따라 저하 정도가 크게 변화할지라도 음성 인식 알고리즘의 성능을 저하시킨다.

'683 특허에 기술된 시스템에서, 원격국은 음향 특징 추출을 수행하고, 무선 채널을 통하여 기지국으로 보코더 패킷 대신 음향 특징 벡터를 전송한다. 음향 특징 벡터가 보코더 패킷보다 작은 대역폭을 점유하기 때문에, 벡터들은 (예를 들어, 순방향 에러 정정(FEC) 기술을 사용하여) 통신 채널 에러로부터의 보호가 추가된 동일한 무선 채널을 통하여 전송될 수 있다. '683 특허에 기술된 기본 시스템의 성능 이상의 VR 성능은 특징 벡터가 이하에 기술된 화자-종속 특징 벡터 수정 기능을 사용하여 최적화될 때 실현될 수 있다.

도 2는 예시적인 실시예에 따른 분산형 VR 시스템을 도시한다. 음향 특징 추출(AFE)은 원격국(202) 내에서 이루어지며, 음향 특징 벡터는 무선 채널(206)을 통하여 기지국 및 VR 통신 센터(204)로 전송된다. 당업자는 여기에 기술된 기술이 무선 채널을 포함하지 않는 VR 시스템에 동일하게 적용될 수 있다는 것을 인식할 것이다.

기술된 실시예에서, 사용자로부터의 음성 신호는 마이크로폰(MIC)(210)에서 전기 신호로 변환되고 아날로그 대 디지털 컨버터(ADC)(212)에서 디지털 스피치 샘플로 변환된다. 그 다음에, 디지털 샘플 스트림은 저주파 신호 성분을 감쇠시키는 유한 임펄스 응답(FIR) 필터와 같은 프리엠파시스(PE) 필터(214)를 사용하여 필터링된다.

그 다음에, 필터링된 샘플은 AFE 유닛(216)에서 분석된다. AFE 유닛(216)은 디지털 음성 샘플을 음향 특징 벡터로 변환된다. 예시적인 실시예에서, AFE 유닛(216)은 다른 주파수 빈(bin)에 대응하는 신호 강도의 벡터를 생성하기 위하여 연속 디지털 샘플의 세그먼트에 대하여 퓨리에 변환을 수행한다. 예시적인 실시예에서, 주파수 빈은 바크 스케일(bark scale)에 따라 가변하는 대역폭을 가진다. 바크 스케일에서, 각각의 주파수 빈의 대역폭은 빈의 중심 주파수에 비례하며, 이에 따라 고주파 빈은 저주파 빈보다 보다 넓은 주파수 대역을 가진다. 바크 스케일은 종래에 공지된 Rabiner, L. R. 및 Juang, B. H.저 Fundamentals of Speech Recognition, Prentice Hall 1993에 기술된다.

전형적인 실시예에서, 각각의 음향 특징 벡터는 고정 시간 간격에 걸쳐 수집된 일련의 스피치 샘플로부터 추출된다. 전형적인 실시예에서, 이들 시간 간격은 중첩된다. 예를 들어, 음향 특징은 10밀리초마다 시작하는 스피치 데이터의 20밀리초 간격으로부터 획득될 수 있으며, 이에 따라 각각의 두 개의 연속 간격은 10-밀리초 세그먼트를 공유한다. 당업자는 시간 간격이 여기에 기술된 실시예의 범위에서 벗어나지 않고 중첩되지 않거나 또는 비고정 간격을 가질 수 있다는 것을 인식해야 한다.

AFE 유닛(216)에 의해 생성된 각각의 음향 특징 벡터(도 2의 X로서 식별됨)는 적응 엔진(224)에 제공되며, 적응 엔진(224)은 적응 모델(228)의 내용을 기초로 음향 특징 벡터를 특성화하기 위하여 패턴 매칭을 수행한다. 패턴 매칭의 결과에 기초하여, 적응 엔진(224)은 메모리(227)로부터 특징 벡터 수정 함수 f() 세트 중 하나를 선택하고 이를 사용하여 수정된 음향 특징 벡터 f(X)를 생성한다.

단일 음향 특징 벡터 또는 일련의 연속 음향 특징 벡터를 기술하기 위하여 X가 사용된다. 유사하게, f(X)는 수정된 단일 음향 특징 벡터 또는 수정된 일련의 연속 음향 특징 벡터를 기술하기 위해 사용된다.

전형적인 실시예 및 도 2에 기술된 바와 같이, 수정된 벡터 f(X)는 무선 모뎀(218)에서 변조되어 무선 채널(206)을 통해 전송되고, 통신 센터(204) 내의 무선 모뎀(230)에서 복조되고, 중앙 VR 엔진(234)에 의해 중앙 음향 모델(238)에 대하여 매칭된다. 무선 모뎀(218, 230) 및 무선 채널(206)은 CDMA, TDMA 또는 FDMA를 포함하는 다양한 무선 인터페이스 중 일부를 사용할 수 있다. 게다가, 무선 모뎀(218, 230)은 기술된 실시예의 범위로부터 벗어나지 않고 비무선 채널을 통해 통신하는 다른 형태의 통신 인터페이스로 대체될 수 있다. 예를 들어, 원격국(202)은 지상통신선 모뎀, T1/E1, ISDN, DSL, 이더넷, 또는 인쇄회로기판(PCB) 상의 트레이스를 포함하는 다양한 형태의 통신 채널 중 일부를 통해 통신 센터(204)와 통신할 수 있다.

전형적인 실시예에서, 벡터 수정 함수 f()는 특정 사용자 또는 화자에 대해 최적화되고, 다중 사용자 사이에 공유된 중앙 음향 모델(238)에 대해 매칭될 때 스피치가 정확하게 인식될 가능성을 최대화시키도록 설계된다. 원격국(202)의 적응 모델(228)은 중앙 음향 모델(238)보다 작으며, 이에 따라 특정 사용자에 대해 최적화되는 개별 적응 모델(228)을 유지하는 것이 가능하다. 또한, 하나 이상의 화자에 대한 특징 벡터 수정 함수 f()의 파라미터는 원격국(202)의 메모리(227)에 저장하기에 충분히 작다.

대안 실시예에서, 환경 종속 특징 벡터 수정 함수에 대한 부가적인 파라미터 세트가 메모리(227)에 저장된다. 환경 종속 특징 벡터 수정 함수의 선택 및 최적화는 사실상 보다 전역적(global)이며, 그러므로 각각의 호출 동안 일반적으로 수행될 수 있다. 매우 간단한 환경 종속 특징 벡터 수정 함수의 실시예는 잡음 환경에 적응되도록 각각의 음향 특징 벡터의 각각의 엘리먼트에 일정한 이득(k)을 인가하는 것이다.

벡터 수정 함수 f()는 임의의 여러가지 형태들을 가질 수 있다. 예를 들어, 벡터 수정 함수 f()는 AX + b 형태의 관계 변환(affine transform)일 수 있다. 선택적으로, 벡터 수정 함수 f()는 초기화된 유한 임펄스 응답(FIR) 필터의 세트일 수 있으며 그 후에 연속적인 음향 특징 벡터들의 세트로 적용될 수 있다. 다른 형태의 벡터 수정 함수 f()는 당업자에게 명백하고 여기에 기술된 실시예의 범위 내에 있다.

전형적인 실시예에서, 벡터 수정 함수 f()는 연속적인 음향 특징 벡터의 세트에 기초하여 선택된다. 예를 들어, 적응 엔진(224)은 적응 모델(228)에서 음향 특징 벡터의 스트림 및 다중 스피치 패턴 사이의 상관도를 결정하기 위하여 비터비 디코딩 또는 격자 디코딩 기술을 적용할 수 있다. 일단 높은 상관도가 검출되면, 벡터 수정 함수 f()는 검출된 패턴에 기초하여 선택되고 음향 특징 벡터의 스트림으로부터의 대응 세그먼트에 적용된다. 이러한 방법은 적응 엔진(224)이 일련의 음향 특징 벡터를 저장하고 각각의 음향 특징 벡터에 적용될 f()를 선택하기 전에 적응 모델(228)과 일련의 음향 특징 벡터의 패턴 매칭을 수행할 것을 요구한다. 전형적인 실시예에서, 적응 엔진은 비수정 음향 특징 벡터의 탄성 버퍼를 유지하고, 그 다음에 전송 전에 탄성 버퍼의 내용에 선택된 f()를 적용한다. 탄성 버퍼의 내용은 적응 모델(228)에서 패턴과 비교되고, 최대 상관 메트릭은 탄성 버퍼의 내용과 가장 높은 상관도를 가진 패턴에 대해 생성된다. 이런 최대 상관 관계는 하나 이상의 임계값과 비교된다. 만약 최대 상관 관계가 검출 임계값을 초과하면, 최대 상관 관계와 연관된 패턴에 대응하는 f()는 버퍼의 음향 특징 벡터에 적용되고 전송된다. 만약 최대 상관 관계가 검출 임계값을 초과하기 전에 탄성 버퍼가 풀(full)이 되면, 탄성 버퍼의 내용은 수정 없이 전송되거나 또는 디폴트 f()를 사용하여 선택적으로 수정되어 전송된다.
f()의 화자-종속 최적화는 다수의 방법 중 일부 방법으로 수행될 수 있다. 제 1 전형적인 실시예에서, 제어 프로세서(222)는 다수의 발음(utterance)을 통해 사용자 스피치 및 적응 모델(228) 간의 상관도를 모니터한다. f()의 변화로 인하여 VR 성능이 개선되는 것을 제어 프로세서(222)가 결정할 때, 제어 프로세서(222)는 f()의 파라미터를 수정하고 메모리(227)에 새로운 파라미터를 저장한다. 선택적으로, 제어 프로세서(222)는 VR 성능을 개선하기 위하여 직접적으로 적응 모델(228)을 수정할 수 있다.

삭제

도 2에 도시된 바와 같이, 원격국(202)은 개별 VR 엔진(220) 및 원격국 음향 모델(226)을 부가적으로 포함할 수 있다. 제한된 메모리 용량으로 인해, 무선전화와 같은 원격국(202)의 음향 모델(226)은 일반적으로 작아야 하며 이에 따라 적은 수의 구(phrase) 또는 음소(phoneme)로 제한된다. 다른 한편으로, 음향 모델이 적은 수의 사용자에 의해 사용된 원격국 내에 포함되기 때문에, 원격국 음향 모델(226)은 VR 성능을 개선하기 위하여 하나 이상의 특정 사용자로 최적화될 수 있다. 예를 들어, "호출" 및 10개의 디지트와 각각 같은 워드에 대한 스피치 패턴이 무선 폰의 소유자에 대해 맞추어질 수 있다. 이러한 로컬 원격국 음향 모델(226)은 원격국(202)이 작은 워드 세트에 대해 매우 양호한 VR 성능을 가지도록 한다. 게다가, 원격국 음향 모델(226)은 원격국(202)이 통신 센터(204)에 무선 링크를 설정하지 않고 VR을 수행할 수 있도록 한다.

f()의 최적화는 관리 학습(supervised learning) 또는 비관리 학습(unsupervised learning)을 통해 이루어질 수 있다. 관리 학습은 원격국 음향 모델을 정확하게 최적화하기 위해 사용되는 미리 결정된 워드 또는 문장을 사용자에게 발음하도록 하는 트레이닝에 관한 것이다. VR 시스템이 입력으로서 사용되는 워드 또는 문장의 사전 지식을 가지기 때문에, 미리 결정된 워드 또는 문장을 식별하기 위하여 관리 학습 동안 VR을 수행할 필요가 없다. 관리 학습은 특정 사용자에 대한 음향 모델을 생성하기 위한 가장 정확한 방식으로 고려된다. 관리 학습의 예는 사용자가 원격국(202)의 원격국 음향 모델(226)로 10 디지트에 대한 스피치를 우선 프로그램할 때 제공한다. 원격국(202)이 발화된 디지트에 대응하는 스피치 패턴의 사전 지식을 가지기 때문에, 원격국 음향 모델(226)은 VR 성능 저하의 위험성을 줄이면서 특정 사용자에게 맞추어질 수 있다.

관리 학습과 대조적으로, 비관리 학습은 발음된 워드 또는 스피치 패턴의 사전 지식을 가진 VR 시스템 없이 발생한다. 부정확한 스피치 패턴에 발음을 매칭시키는 위험성 때문에, 비관리 학습에 기초한 원격국 음향 모델의 수정은 훨씬 더 보수적인 방식으로 행해져야 한다. 예를 들어, 많은 과거의 발음은 서로 유사하고 임의의 다른 스피치 패턴보다 음향 모델의 하나의 스피치 패턴에 보다 근접하도록 발생할 수 있다. 만약 과거의 발음 모두가 모델의 하나의 스피치 패턴과 정확하게 매칭되면, 음향 모델에서 하나의 스피치 패턴은 유사한 발음의 세트와 더 근접하게 매칭되도록 수정될 수 있다. 그러나 만약 많은 과거의 발음이 모델의 하나의 스피치 패턴에 대응하지 않으면, 하나의 스피치 패턴의 수정으로 인하여 VR의 성능이 저하된다. 선택적으로, VR 시스템은 과거의 패턴 매칭 정확성에 기초하여 사용자로부터 피드백을 수집하지만, 상기 피드백은 종종 이용 불가능할 수 있다.

불행하게도, 관리 학습은 사용자에게 지루하여 다수의 스피치 패턴을 가진 음향 모델을 생성하는데 실용적이지 않다. 그러나 관리 학습은 벡터 수정 함수 f()의 세트를 최적화하거나, 또는 적응 모델(228)에서 보다 제한된 스피치 패턴을 최적화하는데 여전히 유용하다. 사용자의 강한 악센트에 의해 유발된 스피치 패턴의 차이는 관리 학습이 요구될 수 있는 응용의 예이다. 음향 특징 벡터가 악센트를 보상하기 위하여 중요한 수정을 요구할 수 있기 때문에, 이런 수정 정확도에 대한 필요성은 크다.

비관리 학습은 특정 사용자에 대한 벡터 수정 함수 f()를 최적화하는데 사용될 수 있으며, 여기서 최적화는 VR 에러의 보다 적은 직접적인 원인일 수 있다. 예를 들어, 긴 음성-계통(tract) 길이 또는 평균 음성 피치를 가진 화자에 적응하기에 필요한 벡터 수정 함수 f()의 조절은 악센트를 보상하기 위하여 필요한 조절보다 자연적으로 더 전역적(global)이다. 이러한 전역적 벡터 수정의 보다 큰 부정확성은 VR 효율성에 크게 영향을 주지않고 유발될 수 있다.

일반적으로, 적응 엔진(224)은 완전한 VR을 수행하기 위해서가 아니라 단지 벡터 수정 함수 f()만을 선택하기 위해서 작은 적응 모델(228)을 사용한다. 그것의 작은 크기로 인해, 적응 모델(228)은 적응 모델(228) 또는 벡터 수정 함수 f()를 최적화하기 위한 트레이닝을 수행하는데 부적합하다. 적응 모델(228)과 화자의 음성 데이터의 매칭도를 개선하기 위하여 적응 모델(228) 또는 벡터 수정 함수 f()를 조절하면 보다 큰 중앙 음향 모델(238)과의 매칭도가 실제로 저하될 수 있다. 중앙 음향 모델(238)이 VR를 위하여 실제로 사용된 모델이기 때문에, 상기 조절은 최적화보다 오히려 잘못될 수 있는 여지가 있다.

전형적인 실시예에서, 원격국(202) 및 통신 센터(204)는 비관리 학습을 사용하는 경우에 적응 모델(228) 또는 벡터 수정 함수 f()를 수정하기 위해 협력한다. 적응 모델(228)을 수정할 것인지 또는 벡터 수정 모델 f()을 수정할 것인지에 대한 결정은 중앙 음향 모델(238)과의 개선된 매칭에 기초하여 이루어진다. 예를 들어, 원격국(202)은 다중 세트의 음향 특징 벡터, 비수정(unmodified) 음향 특징 벡터(X) 및 수정된 음향 특징 벡터 f(X)를 통신 센터(204)에 전송할 수 있다. 선택적으로, 원격국(202)은 수정된 음향 특징 벡터 f₁(X) 및 f₂(X)를 전송할 수 있으며, 여기서 f₂(X)는 시험적인 개선된 특징 벡터 수정 함수이다. 다른 실시예에서, 원격국(202)은 X, 및 특징 벡터 수정 함수 f₁(X) 및 f₂(X) 둘 다에 대한 파라미터를 전송한다. 원격국(202)은 다중 세트를 전송할 수 있으며, 제 2 세트의 정보를 통신 센터(204)에 전송할지의 여부에 대한 결정은 고정 시간 간격에 기초할 수 있다.

특징 벡터 수정 함수에 대한 수정된 음향 특징 벡터 또는 파라미터에 관한 음향 특징 정보의 다중 세트를 수신하는 동안, 통신 센터(204)는 그 자체의 VR 엔진(234) 및 중앙 음향 모델(238)을 사용하여 결과적인 수정된 음향 특징 벡터의 매칭 정도를 평가한다. 그 다음에, 통신 센터(204)는 개선된 VR 성능이 변화되었는지의 여부를 지시하는 정보를 원격국(202)에 다시 전송한다. 예를 들어, 통신 센터(204)는 각각의 음향 특징 벡터 세트에 대한 스피치 패턴 상관 메트릭을 원격국(202)에 전송한다. 음향 특징 벡터 세트에 대한 스피치 패턴 상관 메트릭은 중앙 음향 모델(238)의 내용 및 음향 특징 벡터 세트 간의 상관도를 지시한다. 벡터의 두 세트 간의 상대 상관도에 기초하여, 원격국(202)은 적응 모델(228)을 조절할 수 있거나 또는 하나 이상의 특징 벡터 수정 함수 f()를 조절할 수 있다. 원격국(202)은 실제 워드 인식을 위하여 사용될 벡터의 어느 한 세트의 사용을 지정할 수 있거나, 또는 통신 센터(204)는 그들의 상관 메트릭에 기초하여 벡터 세트를 선택할 수 있다. 다른 실시예에서, 원격국(202)은 통신 센터(204)로부터 결과적인 상관 메트릭을 수신한 후 VR에 사용될 음향 특징 벡터 세트를 식별한다.

다른 실시예에서, 원격국(202)은 그것의 로컬 적응 엔진(224) 및 적응 모델(228)을 사용하여 특징 벡터 수정 함수 f()를 식별하고, f()와 함께 비수정 음향 특징 벡터(X)를 통신 센터(204)로 전송한다. 그 다음에, 통신 센터(204)는 X에 f()를 적용하고 수정 및 비수정 벡터를 사용하여 테스팅을 수행한다. 그 다음에, 통신 센터(204)는 테스팅 결과를 다시 원격국(202)으로 전송하여 원격국(202)에 의해 특징 벡터 수정 함수가 보다 정확하게 조절될 수 있도록 한다.

다른 실시예에서, 적응 엔진(224) 및 적응 모델(228)은 원격국(202) 대신에 통신 센터(204)에 통합된다. 통신 센터(204) 내의 제어 프로세서(232)는 모뎀(230)을 통하여 비수정 음향 특징 벡터의 스트림을 수신하고 이들 스트림을 통신 센터(204) 내의 적응 엔진 및 적응 모델에 제공한다. 이런 중간 패턴 매칭 결과에 기초하여, 제어 프로세서(232)는 통신 센터 메모리(236) 내에 저장된 데이터베이스로부터 특징 벡터 수정 함수 f()를 선택한다. 전형적인 실시예에서, 통신 센터 메모리(236)는 특정 사용자에 대응하는 특징 벡터 수정 함수 f()의 세트를 포함한다. 이는 앞서 기술된 바와 같이 원격국(202)에 저장된 특징 벡터 수정 함수 정보 대신에 또는 이 정보에 부가하는 정보일 수 있다. 통신 센터(204)는 특징 벡터가 추출되는 음성 데이터를 제공하는 특정 화자를 식별하기 위하여 다양한 형태의 화자 식별 정보의 일부를 사용한다. 예컨대, 특징 벡터 수정 함수 세트를 선택하기 위하여 사용된 화자 식별 정보는 무선 채널(206)의 반대측 단부에 있는 무선 전화의 이동 식별 번호(MIN)일 수 있다. 선택적으로, 사용자는 향상된 VR 서비스를 위해 그 자신을 식별하기 위한 패스워드를 입력할 수 있다. 부가적으로, 환경 종속 특징 벡터 수정 함수는 스피치 데이터의 측정을 기초로 하여 무선 전화 호출 동안 적응 및 적용될 수 있다. 많은 다른 방법은 여기에 기술된 실시예의 범위로부터 벗어나지 않고 화자 종속 벡터 수정 함수의 세트를 선택하기 위하여 사용될 수 있다.

당업자는 원격국(202) 내의 다중 패턴 매칭 엔진(220, 224)이 여기에 기술된 실시예의 범위로부터 벗어나지 않고 결합될 수 있다는 것을 인식한다. 더욱이, 원격국(202) 내의 다른 음향 모델(226, 228)은 간단히 결합될 수 있다. 게다가, 하나 이상의 패턴 매칭 엔진(220, 224)은 원격국(202)의 제어 프로세서(222)에 통합될 수 있다. 또한, 하나 이상의 음향 모델(226, 228)은 제어 프로세서(222)에 의해 사용된 메모리(227)에 통합될 수 있다.

통신 센터(204)에서, 중앙 스피치 패턴 매칭 엔진(234)은 존재하는 경우에 여기에 기술된 실시예의 범위로부터 벗어나지 않고 적응 엔진(도시 안 됨)과 결합할 수 있다. 더욱이, 중앙 음향 모델(238)은 적응 모델(도시 안 됨)과 결합할 수 있다. 게다가, 통신 센터(204)에 존재하는 경우에 중앙 스피치 패턴 매칭 엔진(234) 및 적응 엔진(도시 안 됨) 중 어느 하나 또는 둘 다는 통신 센터(204)의 제어 프로세서(232)에 통합될 수 있다. 또한, 통신 센터(204)에 제공되는 경우에 중앙 음향 모델(238) 및 적응 모델(도시 안 됨) 중 어느 하나 또는 둘 다가 통신 센터(204)의 제어 프로세서(232)에 통합될 수 있다.

도 3은 X 및 f()의 수정이 원격 적응 모델과의 수렴(convergence)에 기초하여 원격국(202)에서 전체적으로 이루어지는 분산형 VR 수행 방법의 흐름도이다. 단계(302)에서, 원격국(202)은 디지털 음성 샘플의 스트림을 생성하기 위하여 마이크로폰으로부터 아날로그 음성 신호를 샘플링한다. 단계(304)에서, 예를 들어 앞서 기술된 바와 같이 프리엠파시스 필터를 사용하여 스피치 샘플이 필터링된다. 단계(306)에서, 필터링된 스피치 샘플로부터 음향 특징 벡터(X)의 스트림이 추출된다. 앞서 기술된 바와 같이, 음향 특징 벡터는 고정 또는 가변 구간인 스피치 샘플의 중첩 또는 비중첩 간격으로부터 추출될 수 있다.

단계(308)에서, 원격국(202)은 적응 모델(도 2의 228 같은)에 포함된 음향 특징 벡터의 스트림 및 다중 패턴 간의 상관도를 결정하기 위하여 패턴 매칭을 수행한다. 단계(310)에서, 원격국(202)은 음향 특징 벡터(X)의 스트림과 가장 밀접하게 매칭하는 적응 모델의 패턴을 선택한다. 선택된 패턴은 목표 패턴이라 불린다. 앞서 논의된 바와 같이, X 및 목표 패턴 간의 상관도는 검출 임계값과 비교될 수 있다. 만약 상관도가 검출 임계값보다 크면, 원격국(202)은 목표 패턴에 대응하는 특징 벡터 수정 함수 f()를 선택한다. 만약 상관도가 검출 임계값보다 작으면, 원격국(202)은 f(X) = X이 되도록 음향 특징 벡터 식별 함수 f()를 선택하거나, 일부 디폴트 f()를 선택한다. 전형적인 실시예에서, 원격국(202)은 그것의 로컬 적응 모델의 다양한 패턴에 대응하는 특징 벡터 수정 함수의 로컬 데이터베이스로부터 특징 벡터 수정 함수 f()를 선택한다. 원격국(202)은 단계(312)에서 음향 특징 벡터(X) 스트림에 선택된 특징 벡터 수정 함수 f()를 적용하여 f(X)를 생성한다.

전형적인 실시예에서, 원격국(202)은 X 및 목표 패턴 간의 상관도를 지시하는 상관 메트릭을 생성한다. 원격국(202)은 f(X) 및 목표 패턴 간의 상관도를 지시하는 상관 메트릭을 생성한다. 비관리 학습의 예에서, 원격국(202)은 하나 이상의 특징 벡터 수정 함수 f()를 수정할 것인지의 여부를 단계(314)에서 결정하기 위하여 과거의 상관 메트릭 값과 함께 두 개의 상관 메트릭을 사용한다. 단계(314)에서 f()를 수정하기 위한 결정이 이루어지면, 단계(316)에서 f()가 수정된다. 전형적인 실시예에서, 새로운 수정된 음향 특징 벡터 f(X)를 형성하기 위하여 단계(318)에서 수정된 f()가 X에 직접 적용된다. 다른 실시예에서, 단계(318)는 생략되고, 새로운 특징 벡터 수정 함수 f()는 추후 음향 특징 벡터(X) 세트 때까지 영향을 미치지 않는다.

단계(314)에서 f()를 수정하지 않는다는 결정이 이루어지면 또는 단계(316 및 318) 이후에, 단계(320)에서 원격국(202)은 무선 채널(206)을 통하여 통신 센터(204)로 현재 f(X)를 전송한다. 그 다음에, VR 패턴 매칭은 단계(322)에서 통신 센터(204) 내에서 이루어진다.

다른 실시예에서, 통신 센터(204)는 VR 패턴 매칭 단계(322) 동안 스피치 패턴 상관 메트릭을 생성하고, f()의 최적화를 돕기 위하여 이들 메트릭을 원격국(302)에 다시 전송한다. 스피치 패턴 상관 메트릭은 여러 방식 중 일부 방식으로 포맷화될 수 있다. 예를 들어, 통신 센터(204)는 중앙 음향 모델에서 발견된 패턴과의 정확한 상관을 형성하기 위하여 f(X)에 적용될 수 있는 음향 특징 벡터 수정 에러 함수 f_E()를 리턴할 수 있다. 선택적으로, 통신 센터(204)는 f(X)와 가장 높은 상관도를 가지는 것으로 발견된 중앙 음향 모델의 목표 패턴에 대응하는 음향 특징 벡터의 세트를 간단히 리턴할 수 있다. 또는, 통신 센터(204)는 목표 패턴을 선택하기 위하여 사용되는 하드-결정(hard-decision) 또는 소프트-결정(soft-decision) 비터비 디코딩 프로세스로부터 유도된 브랜치 메트릭을 리턴할 수 있다. 스피치 패턴 상관 메트릭은 이들 형태의 정보의 결합을 포함할 수 있다. 이와 같이 리턴된 정보는 f()를 최적화할 때 원격국(202)에 의해 사용된다. 전형적인 실시예에서, 단계(318)의 f(X) 재생성은 생략되고, 원격국(202)은 통신 센터(204)로부터 피드백을 수신한 후 f()의 수정을 수행한다(단계 314 및 316).

도 4는 X 및 f()의 수정이 중앙 음향 모델과의 상관 관계에 기초하여 통신 센터(204)에서 전체적으로 이루어지는 분산형 VR 수행 방법의 흐름도를 도시한다. 단계(402)에서, 원격국(202)은 디지털 음성 샘플의 스트림을 생성하기 위하여 마이크로폰으로부터 아날로그 음성 신호를 샘플링한다. 단계(404)에서, 스피치 샘플은 앞서 기술된 바와 같이 예를 들어 프리엠파시스 필터를 사용하여 필터링된다. 단계(406)에서, 음향 특징 벡터(X)의 스트림은 필터링된 스피치 샘플로부터 추출된다. 앞서 기술된 바와 같이, 음향 특징 벡터는 고정 또는 가변 구간인 스피치 샘플의 중첩 또는 비중첩 간격으로부터 추출될 수 있다.

단계(408)에서, 원격국(202)은 무선 채널(206)을 통하여 음향 특징 벡터(X)의 비수정 스트림을 전송한다. 단계(410)에서, 통신 센터(204)는 적응 패턴 매칭을 수행한다. 앞에서 논의된 바와 같이, 적응 패턴 매칭은 개별 적응 모델을 사용하거나 또는 큰 중앙 음향 모델(238)을 사용하여 수행될 수 있다. 단계(412)에서, 통신 센터(204)는 음향 특징 벡터(X)의 스트림과 가장 밀접하게 매칭하는 적응 모델의 패턴을 선택한다. 선택된 패턴은 목표 패턴이라 불린다. 앞서 기술된 바와 같이, 만약 X 및 목표 패턴 사이의 상관 관계가 임계값을 초과하면, 목표 패턴에 대응하는 f()가 선택된다. 그렇지 않으면, 디폴트 f() 또는 널(null) f()이 선택된다. 단계(414)에서, 선택된 특징 벡터 수정 함수 f()는 음향 특징 벡터 f(X)의 수정된 스트림을 형성하기 위하여 음향 특징 벡터(X)의 스트림에 적용된다.

전형적인 실시예에서, 특징 벡터 수정 함수 f()는 통신 센터(204) 내에 존재하는 특징 벡터 수정 함수의 큰 데이터베이스의 서브세트로부터 선택된다. 선택을 위하여 이용 가능한 특징 벡터 수정 함수의 서브세트는 화자에 의존적이며, 이에 따라 중앙 음향 모델(도 2에서 238)을 사용하는 패턴 매칭은 X보다 입력으로서 f(X)를 사용하여 보다 정확하게 될 것이다. 앞서 기술된 바와 같이, 통신 센터(204)가 특징 벡터 수정 함수의 화자 의존 서브세트를 선택할 수 있는 방법의 예는 화자에 의해 입력된 패스워드 또는 화자의 무선 폰의 MIN의 사용을 포함한다.

전형적인 실시예에서, 통신 센터(204)는 X 및 목표 패턴 사이의 상관 관계 및 f(X) 및 목표 패턴 사이의 상관 관계에 대한 상관 메트릭을 생성한다. 그 다음에, 통신 센터(204)는 하나 이상의 특징 벡터 수정 함수 f()를 수정할 것인지를 단계(416)에서 결정하기 위하여 과거의 상관 메트릭 값과 함께 두 개의 상관 메트릭을 사용한다. 단계(416)에서 f()를 수정하기 위한 결정이 이루어지면, 단계(418)에서 f()는 수정된다. 전형적인 실시예에서, 수정된 f()는 새로이 수정된 음향 벡터 f(X)를 형성하기 위하여 단계(420)에서 X에 직접 적용된다. 다른 실시예에서, 단계(420)는 생략되고, 새로운 특징 벡터 수정 함수 f()는 음향 특징 벡터(X)의 추후 세트까지 영향을 미치지 않는다.

단계(416)에서 f()를 수정하지 않는다는 결정이 이루어지면 또는 단계(418 및 420) 이후에는, 단계(422)에서 통신 센터(204)는 중앙 음향 모델(238)을 사용하여 VR 패턴 매칭을 수행한다.

도 5는 통신 센터(204) 내의 중앙 음향 모델이 특징 벡터 수정 함수 또는 적응 모델을 최적화하기 위하여 사용되는 분산형 VR 수행 방법의 흐름도를 기술한다. 전형적인 실시예에서, 원격국(202) 및 통신 센터(204)는 필요에 따라 정보를 교환하고 특징 벡터 수정 함수 최적화의 정확도를 최대로 하기 위하여 상호 작용한다.

단계(502)에서, 원격국(202)은 디지털 음성 샘플의 스트림을 생성하기 위하여 마이크로폰으로부터 아날로그 음성 신호를 샘플링한다. 단계(504)에서, 스피치 샘플은 예를 들어 앞서 기술된 바와 같이 프리엠파시스 필터를 사용하여 필터링된다. 단계(506)에서, 음향 특징 벡터(X)의 스트림은 필터링된 스피치 샘플로부터 추출된다. 앞서 기술된 바와 같이, 음향 특징 벡터는 고정 또는 가변 구간인 스피치 샘플의 중첩 또는 비중첩 간격으로부터 추출될 수 있다.

단계(508)에서, 원격국(202)은 (도 2의 228과 같은) 적응 모델에 포함된 다중 패턴 및 음향 특징 벡터의 스트림간의 상관도를 결정하기 위하여 패턴 매칭을 수행한다. 단계(510)에서, 원격국(202)은 음향 특징 벡터(X)의 스트림과 가장 밀접하게 매칭되는 적응 모델 패턴을 선택한다. 선택된 패턴은 목표 패턴이라 한다. 앞서 기술된 바와 같이, 만약 X 및 목표 패턴 사이의 상관 관계가 임계값을 초과하면, 목표 패턴에 대응하는 제 1 특징 벡터 수정 함수 f₁()가 선택된다. 그렇지 않으면, 디폴트 f() 또는 널 f()가 선택된다. 원격국(202)은 그것의 로컬 적응 모델의 다양한 패턴에 대응하는 특징 벡터 수정 함수의 로컬 데이터베이스로부터 특징 벡터 수정 함수 f()를 선택한다. 원격국(202)은, 단계(512)에서, 선택된 특징 벡터 수정 함수 f()를 음향 특징 벡터(X)의 스트림에 적용하여, f(X)를 생성한다.

도 3 및 도 4에 관련하여 기술된 방법과 대조적으로, 단계(514)에서, 원격국(202)은 채널(206)을 통하여 통신센터(204)로 음향 특징 벡터 f₁(X) 및 f₂(X)의 두 세트를 전송한다. 단계(516)에서, 통신 센터(204)는 입력으로서 f₁(X)을 사용하여 그것의 중앙 음향 모델에 대해 패턴 매칭을 수행한다. 이러한 VR 패턴 매칭의 결과로서, 통신 센터(204)는 f₁(X)과의 가장 높은 상관도를 가진 패턴 세트 또는 목표 패턴을 식별한다. 단계(518)에서, 통신 센서(204)는 f₁(X) 및 목표 패턴 간의 상관도를 지시하는 제 1 스피치 패턴 상관 메트릭 및 f₂(X) 및 목표 패턴 간의 상관도를 지시하는 제 2 스피치 패턴 상관 메트릭을 생성한다.

음향 특징 벡터의 양 세트가 중앙 음향 모델과의 패턴 매칭을 위해 사용될지라도, 실제 VR에는 단지 하나의 세트만이 사용된다. 따라서 원격국(202)은 예상되지 않은 성능 저하의 위험성 없이 제안된 특징 벡터 수정 함수의 성능을 평가할 수 있다. 또한, 원격국(202)은 f()를 최적화할 때, 보다 작은 로컬 적응 모델에 전적으로 의존할 필요가 없다. 다른 실시예에서, 원격국(202)은 f₂(X) = X이도록 f₂()에 대한 널 함수를 사용할 수 있다. 이러한 방법은 원격국(202)이 음향 특징 벡터 수정 없이 달성되는 VR 성능에 대해 f()의 성능을 검증하도록 한다.

단계(520)에서, 통신 센터(204)는 무선 채널(206)을 통하여 원격국(202)에 다시 두 개의 스피치 패턴 상관 메트릭을 전송한다. 수신된 스피치 패턴 상관 메트릭에 기초하여, 단계(522)에서 원격국(202)은 단계(524)에서 f₁()을 수정할 것인지 여부를 결정한다. 단계(522)에서 f₁(X)를 수정할 것인지 여부에 대한 결정은 스피치 패턴 상관 메트릭의 한 세트에 기초할 수도 있고, 또는 로컬 적응 모델로부터 동일한 스피치 패턴과 연관된 일련의 스피치 패턴 상관 메트릭에 기초할 수도 있다. 앞서 논의된 바와 같이, 스피치 패턴 상관 메트릭은 음향 특징 벡터 수정 에러 함수 f_E(), f(X)와 가장 높은 상관도를 가지는 것으로 발견된 중앙 음향 모델의 패턴에 대응하는 음향 특징 벡터의 세트, 또는 비터비 디코딩 브랜치 메트릭을 포함할 수 있다.

당업자는 앞서 설명된 기술이 다양한 형태의 무선 채널(206) 중 일부에 동일하게 적용될 수 있다는 것을 인식할 것이다. 예를 들어, 무선 채널(206)(및 모뎀 218, 230)은 코드 분할 다중 액세스(CDMA) 기술, 아날로그 셀룰러, 시분할 다중 액세스(TDMA), 또는 다른 형태의 무선 채널을 사용할 수 있다. 선택적으로, 채널(206)은 광, 적외선, 및 이더넷 채널을 포함하는(그러나, 이에 제한되지 않음), 무선과 다른 채널의 형태를 가질 수 있다. 또 다른 실시예에서, 원격국(202) 및 통신 센터(204)는 중앙 음향 모델(238)을 사용하여 VR을 테스트하기 전에 음향 특징 벡터의 화자 의존 수정을 수행하는 단일 시스템과 결합되어, 전체적으로 채널(206)의 위험성을 제거한다.

당업자는 다양한 다른 형태의 기술 중 일부를 사용하여 정보 및 신호를 표현할 수 있다는 것을 이해해야 한다. 예를 들어, 앞의 상세한 설명 전반에 걸쳐 참조될 수 있는 데이터, 명령, 지시, 정보, 신호, 비트, 심벌 및 칩은 전압, 전류, 전자기파, 자기장 또는 입자, 광필드 또는 입자, 또는 임의의 결합에 의해 표현될 수 있다.

당업자는 여기에 기술된 실시예와 관련하여 기술된 다양한 예시적인 논리 블록, 모듈, 회로 및 알고리즘 단계가 전자 하드웨어, 컴퓨터 소프트웨어 또는 이들의 결합으로서 구현될 수 있다는 이해해야 한다. 이러한 하드웨어 및 소프트웨어의 호환성을 명확히 기술하기 위하여, 다양한 예시적인 구성요소, 블록, 모듈, 회로 및 단계가 그들의 기능과 관련하여 기술되었다. 이러한 기능이 하드웨어로서 구현되는지 또는 소프트웨어로서 구현되는지의 여부는 전체 시스템상에 부여된 특정 응용 및 설계에 의존한다. 당업자는 각각의 특정 응용에 대하여 가변적인 방식으로 기술된 기능을 구현할 수 있지만, 이러한 구현 결정은 본 발명의 범위를 벗어나지 않고 해석되어야 한다. 여기에 기술된 실시예와 관련하여 기술된 다양한 예시적인 논리 블록, 모듈 및 회로는 범용 프로세서, 디지털 신호 프로세서(DSP), 주문형 집적회로(ASIC), 필드 프로그램 가능 게이트 어레이(FPGA) 또는 다른 프로그램 가능 논리 소자, 개별 게이트 또는 트랜지스터 논리소자, 개별 하드웨어 소자, 또는 여기에 기술된 기능을 수행하도록 설계된 이들의 임의의 결합으로 구현 또는 수행될 수 있다. 범용 프로세서는 마이크로프로세서이지만, 대안으로 범용 프로세서는 임의의 종래 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수 있다. 프로세서는 컴퓨팅 장치의 결합, 예를 들어 DSP 및 마이크로프로세서의 결합, 다수의 마이크로프로세서, DSP 코어와 관련한 하나 이상의 마이크로프로세서, 또는 임의의 다른 상기 구성으로 구현될 수 있다.

여기에 기술된 실시예와 관련하여 기술된 방법 또는 알고리즘의 단계는 하드웨어, 또는 프로세서에 의해 실행되는 소프트웨어 모듈, 또는 이들 두 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 제거가능 디스크, CD-ROM 또는 공지된 임의의 다른 형태의 저장 매체 내에 상주할 수 있다. 전형적인 저장 매체는 프로세서에 접속되며, 이러한 프로세서는 저장 매체로부터 정보를 판독하거나 저장 매체에 정보를 기록할 수 있다. 대안으로, 저장 매체는 프로세서에 집적될 수 있다. 프로세서 및 저장 매체는 ASIC에 존재할 수 있다. ASIC는 원격국에 존재할 수 있다. 대안으로, 프로세서 및 저장 매체는 원격국에서 개별 소자로서 존재할 수 있다.

개시된 실시예의 이전 설명은 당업자로 하여금 본 발명을 실시하거나 또는 사용할 수 있도록 한다. 이들 실시예에 대한 다양한 수정은 당업자에게 명백할 것이며, 여기에서 정의된 일반적인 원리는 본 발명의 사상 또는 범위로부터 벗어나지 않고 다른 실시예에 적용될 수 있다.

따라서, 본 발명은 여기에 기술된 실시예에 제한되지 않고 여기에 기술된 원리 및 신규한 특징과 일치하는 최광 범위를 따른다.

Claims

음향 패턴 정보를 포함하는 적응 모델;

선택된 특징 벡터 수정 함수를 식별하기 위해 음향 특징 벡터들과 상기 음향 패턴 정보의 매칭을 수행하고, 상기 적응 모델보다 큰 중앙 음향 모델을 사용하여 음성 인식 엔진에 의해 프로세싱하기 위한 수정된 음향 특징 벡터들의 세트를 생성하기 위해 상기 선택된 특징 벡터 수정 함수를 상기 음향 특징 벡터들로 적용하도록 구성된 적응 엔진;

상기 수정된 음향 특징 벡터들의 매칭 정도를 평가하는 통신 센터로 상기 수정된 음향 특징 벡터들을 전송함으로써 상기 선택된 특징 벡터 수정 함수의 성능을 평가하고, 상기 통신 센터로부터 수신된 상기 평가에 기반하여 상기 선택된 특징 벡터 수정 함수를 조절하는 제어 프로세서; 및

상기 수정된 음향 특징 벡터들을 상기 음성 인식 엔진에 전달하기 위한 통신 인터페이스를 포함하는 것을 특징으로 하는 원격국 장치.
제 1 항에 있어서,

특징 벡터 수정 함수들의 세트에 대응하는 적어도 하나의 파라미터들의 세트를 저장하는 메모리를 더 포함하며, 상기 선택된 특징 벡터 수정 함수는 상기 특징 벡터 수정 함수들의 세트의 멤버(member)인 것을 특징으로 하는 원격국 장치.
제 2 항에 있어서,

상기 메모리는 특징 벡터 수정 함수들의 세트에 대응하는 하나보다 많은 파라미터들의 세트를 포함하며, 각각의 파라미터들의 세트는 특정한 화자(speaker)에 대응하는 것을 특징으로 하는 원격국 장치.
제 2 항에 있어서,

상기 메모리는 특징 벡터 수정 함수들의 세트에 대응하는 하나보다 많은 파라미터들의 세트를 포함하며, 상기 각각의 파라미터들의 세트는 상이한 음향 환경에 대응하는 것을 특징으로 하는 원격국 장치.
음향 특징 벡터 수정을 이용하는 방법으로서,

적응 모델로부터 음향 패턴 정보를 검색하는 단계;

적응 엔진을 사용하여, 선택된 특징 벡터 수정 함수를 식별하기 위해 음향 특징 벡터들과 상기 음향 패턴 정보의 패턴 매칭을 수행하는 단계;

상기 적응 엔진에 의해, 상기 적응 모델보다 큰 중앙 음향 모델을 사용하여 음성 인식 엔진에 의해 프로세싱하기 위한 수정된 음향 특징 벡터들의 세트를 생성하기 위해 상기 선택된 특징 벡터 수정 함수를 상기 음향 특징 벡터들로 적용하는 단계;

상기 수정된 음향 특징 벡터들의 매칭 정도를 평가하는 통신 센터로 상기 수정된 음향 특징 벡터들을 전송함으로써 상기 선택된 특징 벡터 수정 함수의 성능을 평가하고, 상기 통신 센터로부터 수신된 상기 평가에 기반하여 상기 선택된 특징 벡터 수정 함수를 조절하는 단계; 및

상기 수정된 음향 특징 벡터들을 상기 음성 인식 엔진에 전달하는 단계를 포함하는 것을 특징으로 하는 방법.
제 5 항에 있어서,

특징 벡터 수정 함수들의 세트에 대응하는 적어도 하나의 파라미터들의 세트를 메모리에 저장하는 단계를 더 포함하며, 상기 선택된 특징 벡터 수정 함수는 상기 특징 벡터 수정 함수들의 세트의 멤버인 것을 특징으로 하는 방법.
제 6 항에 있어서,

상기 메모리는 특징 벡터 수정 함수들의 세트에 대응하는 하나보다 많은 파라미터들의 세트를 포함하며, 각각의 파라미터들의 세트는 특정한 화자에 대응하는 것을 특징으로 하는 방법.
제 6 항에 있어서,

상기 메모리는 특징 벡터 수정 함수들의 세트에 대응하는 하나보다 많은 파라미터들의 세트를 포함하며, 상기 각각의 파라미터들의 세트는 상이한 음향 환경에 대응하는 것을 특징으로 하는 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제