KR20010005674A - 인식 시스템 - Google Patents

인식 시스템 Download PDF

Info

Publication number
KR20010005674A
KR20010005674A KR1019997008742A KR19997008742A KR20010005674A KR 20010005674 A KR20010005674 A KR 20010005674A KR 1019997008742 A KR1019997008742 A KR 1019997008742A KR 19997008742 A KR19997008742 A KR 19997008742A KR 20010005674 A KR20010005674 A KR 20010005674A
Authority
KR
South Korea
Prior art keywords
compensation
data
vector
vectors
model
Prior art date
Application number
KR1019997008742A
Other languages
English (en)
Inventor
케이스마이클 폰팅
모버트윌리암 시리즈
마이클 존 톰린손
Original Assignee
스켈톤 에스. 알.
더 세크러터리 오브 스테이트 포 디펜스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 스켈톤 에스. 알., 더 세크러터리 오브 스테이트 포 디펜스 filed Critical 스켈톤 에스. 알.
Publication of KR20010005674A publication Critical patent/KR20010005674A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Complex Calculations (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 음성 신호에서 26개의 주파수 간격에 대해 에너지 값들의 연속적인 데이터 벡터들을 생성하는 필터뱅크 분석기(16)를 포함하는 인식 시스템(10)에 관한 것이다. 유니트(18)는 각각의 벡터에서 스펙트럼 왜곡에 대해 보상한다. 보상된 벡터들은 12 치수를 갖는 특징 벡터로 변환되고, 컴퓨터(24)에서 숨겨진 마르코프 모델 상태와 매치된다. 각각의 매치된 모델 상태는 음성 특징 벡터의 추정치인 평균 값을 갖는다. 매치 인버터(28)는 의사-반전 변환에 의해 주파수 공간에서 음성 데이터 벡터의 추정치를 생성한다. 그것은 주파수 공간으로의 후기 변환에서 손실될 정보를 포함한다. 추정된 데이터는 그의 결합된 음성 신호 데이터 벡터와 비교되고, 무한 임펄스 응답 필터(44)는 이들의 차이를 다른 것들과 평균한다. 이와 같이 생성된 평균된 차이 벡터는 음성 신호 데이터 벡터들의 보상에서 유니트(18)에 의해 사용된다.

Description

인식 시스템{Recognition system}
음성 인식 시스템은 목적하는 데이터 또는 신호가 인식에 이용되기 전에 일부 형태의 일그러짐을 수행하는 인식 시스템의 양호한 예이다. 전화 용도에서 특히, 전화 핸드세트의 위치로 인한 음성 신호로의 변화 또는 음성 인식 시스템의 성능은 핸드세트, 전화선 및 교환에 의해 종종 심각하게 저하된다. 하나의 특정한 문제점은 핸드세트의 위치에 의해 유발된 음성 레벨의 변화에 관한 것이다. 문제점의 보다 복잡한 조사는 주파수 밸런스에 대한 변화가 역시 현저하지 않음을 보여준다. 평균 신호 레벨에 대한 변화의 보상은 자동 이득 제어(AGC)의 일부 형태를 사용함으로써 종종 이루어진다. 불행하게도, 예를 들면 전화 대화에 사용된 개개인의 음성의 세기 레벨들 간의 일시적인 차이가 종종 존재하는 2가지 유선 전화 시스템 구조에서 유효 AGC를 제공하기는 곤란할 수 있다. 4가지 유선 구조에서 다루기 곤란한 현저한 역 채널 에코가 존재할 수 있다. 그것은 일방의 음성의 오염으로부터 상대방과의 음성의 대화에 이르기까지 발생한다.
일그러짐을 다루는 문제점에 대한 한 가지 시도는 많은 종류의 핸드세트 및 화자 위치를 사용하여 수집된 트레이닝 데이터를 사용하는 음성 인식 시스템을 트레이닝하는 것이다. 이러한 시도는 2가지 문제점이 있다. 첫째, 세계적인 전화 네트워크에서, 매우 큰 수의 가능한 마이크로폰 유형 및 화자 위치가 존재하고; 결과적으로 요구되는 트레이닝 데이터의 양은 실용화되기에 너무 커서 이 시스템은 공지되지 않은 마이크로폰에 대한 그의 성능을 최적화시킬 수 없다. 둘째, 인식하는 과정에서, 단지 적은 분획의 트레이닝 데이터가 효율적으로 사용된다.
인식 성능을 개선시키기 위한 한 가지 시도는 왜곡을 다루는 보상의 일부 형태를 적용하는 것이다. 현재 음성 인식 시스템은 때때로 "필터뱅크 분석"으로서 공지된 프로세스 동안 시간 영역의 파형으로부터 입력 신호를 주파수 영역의 연속 벡터로 변환시킨다. 이들 벡터에 일부 형태의 보상을 적용시킬 수 있다. 적절한 보상을 결정하기 위해 많은 방법이 사용될 수 있다. 이러한 방법중 한가지는 Sadaoki Furui의 문헌["Cepstral Analysis Technique for Automatic Speaker Verification", IEEE Trans Acoustics, Speech and Signal processing, 29(2); 254-272, 1981년 4월]에 개시되어 있다. 이 방법은 신호의 장기간 스펙트럼 특성을 얻기 위해 전체 대화에 대한 필터뱅크 분석기의 출력을 평균하고, 데이터 상으로 통과하는 초 동안 왜곡에 대한 보상을 적용하는 것을 포함한다. 이어서, 보상된 데이터는 음성 인식 장치로 통과한다. 이러한 시도에는 2가지 주요 문제점이 따른다. 첫째, 신호 정정은 전체 대화에 대해 적용되기 때문에 왜곡이 신속히 변화하는 경우에 대화에 적절하지 못하다. 이는 셀방식 무선 전화로부터의 대화에서 발생할 수 있다. 둘째, 인식 개시 전에 적절한 정정을 얻기 위해 전체 대화를 처리할 필요가 있기 때문에, 이것은 실시간 적용에 부적합할 수 있다.
바람직한 시도는 때때로 스펙트럼 형상 적응(SSA)으로서 공지된 기술을 사용하는 것이다. 이러한 기술을 사용하는 인식 시스템은 매번의 경우에 인식될 신호의 기대되는 스펙트럼 특성에 대한 정보를 제공하고, 이는 상위 기간을 제공하기 위해 그 신호에 실제로 존재하는 동등물과 비교된다. 이어서, 상위 기간은 정정 기간을 제공하기 위해 많은 연속적인 신호들 상으로 평균된다(시간 평균). 이러한 종류의 시스템은 Yunxin Zhao의 문헌["Iterative Self-Learning Speaker and Channel Adaptation under Various Initial Conditions", Proc IEEE ICASSP [11] 페이지 712-715]에 개시되어 있다. 여기서 데이터는 문장 원칙으로 문장에 대해 처리된다. 입력 신호는 많은 주파수 대역에 걸쳐 신호 에너지의 변화를 각각 나타내는 연속 벡터를 생성하기 위해 필터뱅크 분석을 수행한다. 벡터는 음성 모델 상태들에 매치시킴으로써 처리된다. 벡터가 매치된 모델 상태의 파라미터들은 그 모델에 따라 기대되는 벡터에 대한 값을 예측하기 위해 사용된다. 벡터와 예측된 값 간의 차이가 연산되고, 각각이 문장에 의해 겪는 평균 왜곡을 결정하기 위해 문장으로부터 초기 벡터들에 의해 얻어진 상위 값들에 의해 시간 평균된다. 이어서, 하나의 문장에 대해 결정된 SSA 파라미터들은 다음 문장을 처리하기 위해 사용된다.
Zhao의 시도는 불행하게도 다음 이유 때문에 보다 복잡한 음성 인식 시스템에 작용하지 못한다. 이들 시스템에서, 필터뱅크 분석으로부터 얻어진 데이터 벡터(주파수 공간에 표현됨)는 주파수 영역으로부터 일부 추상적인 특징 공간으로 변환된다. 이러한 변환은 구어의 특성인 특징들을 보존하면서 화자의 특성인 정보의 형태로 음성 신호로의 목적하지 않는 기여를 감소시키기 때문에, 정확히 적용될 때 이러한 변환은 인식 정확도를 개선시킨다. 모델 상태는 벡터가 변환된 동일한 특징 공간에 나타낸다. 이는 상기한 바의 인식 정확도를 개선시키기 위해 주파수 공간으로부터 특징 공간으로의 변환의 고위 차수 기간을 폐기하기 위한 통상적인 실시이고, 이는 치수의 감소가 존재함, 즉, 특징 공간 벡터들이 주파수 공간 벡터보다 더 적은 치수 또는 벡터 소자를 갖는 것을 의미한다. 이는 주파수 공간으로부터 특징 공간으로의 변환에서 정보의 손실이 일어나고, 이러한 목적에 불충분한 정보를 포함하기 때문에 주파수 공간에 기대치의 단일 추정치를 제공하기 위해 더 이상 모델 파라미터들을 사용할 수 없음을 의미한다. 이는 주파수 영역의 보상이 상기 Zhao 참조 문헌에 기재된 바와 같이 구현될 수 없음을 의미한다.
본 발명은 데이터 벡터를 소정의 모델과 결합시킴으로써 데이터 인식에 착수하는 종류의 인식 시스템, 그러한 벡터 및 모델들의 결합을 포함하는 인식 방법에 관한 것이며, 특히 일그러짐이 인식 프로세스 전에 발생하는 음성 및 패턴 인식에 관한 것이다.
도 1은 음성 인식 시스템 형태의 본 발명의 인식 시스템의 블록도.
도 2는 도 1의 시스템에서 음성 인식에 사용된 음성 모델 상태를 그래프로 예시한 도면.
도 3 및 도 4는 2가지 상이한 마이크로폰의 스펙트럼 형상 채택 과정을 그래프로 예시한 도면.
도 5는 2개의 화자가 연루될 때 음성 인식에서 음성 모델 상태의 사용을 그래프로 예시한 도면.
도 6은 모델들과 화자들 간의 주파수 차이에 대해 보상하도록 배열된 본 발명의 추가의 음성 인식 시스템의 블록도.
본 발명의 목적은 왜곡 보상되는 인식 시스템을 제공하는 것이다.
본 발명은
a) 데이터 벡터 내의 왜곡을 보상하기 위한 보상 수단,
b) 모델의 그것에 대한 이들의 치수를 감소시키기 위해 왜곡 보상 후 데이터 벡터에 대한 변환을 적용하기 위한 변환 수단,
c) 적절한 모델과 각각의 변환된 데이터 벡터를 결합시키기 위한 매칭 수단,
d) 상기 변환의 반전에 의해 결합된 모델로부터 데이터 벡터 추정치를 얻기 위한 전환 수단, 및
e) 보상 수단에 의해 왜곡 보상에 사용하기 위해 대응하는 데이터 벡터 및 데이터 벡터 추정치로부터 보상을 유도하기 위한 유도 수단을 포함하는, 비교적 낮은 차수의 소정의 모델과 다차원 데이터 벡터를 결합시키는 인식 시스템을 제공한다.
본 발명은 치수의 감소에도 불구하고 모델 매칭에 기초하여 왜곡 보상을 제공하는 장점을 제공한다. 본 발명에 따라 매칭 이전의 정보의 손실에도 불구하고 보상에 사용하기 위한 데이터 벡터 추정치를 제공할 수 있는 것으로 밝혀졌다.
바람직한 실시예에서, 전환 수단은 상기 변환의 의사-반전을 구현하고, 그의 치수를 감소시키기 위한 데이터 벡터 추정치에 따른 변환 수단의 동작이 이러한 정보의 손실을 초래할 수 있는 방식으로 정보를 포함함으로써 데이터 벡터의 그것에 대한 모델 치수의 증가를 제공하도록 배열된다. 이 실시예는 추정치의 상대적인 소거라는 장점을 제공하고, 의사-전환 모델 변환은 정보가 변환 수단의 후속 오퍼레이션에서 제거되는 방식으로 이러한 목적에 포함될 때 허용될 수 있는 추정치를 제공하는 것으로 밝혀졌다.
변환 수단은 함수 A( )로 나타낸 변환을 데이터 벡터에 적용하도록 배열될 수 있고, 전환 수단은 하기 관계 A(A-(A(q)))=A(q)(여기서, q는 약간의 임의 벡터임)를 만족시키는 함수 A-( ), A( ) 및 A-( )로 나타낸 의사-반전 변환을 구현하도록 배열될 수 있다.
구동 수단은 데이터 벡터 추정치와 데이터 벡터 및 선행 추정치와 유사한 종류의 벡터로부터 구동을 유도하도록 배열될 수 있다. 저역 필터링을 구현하는 지수 시간 창을 갖는 미세한 임펄스 반응 필터를 혼입시킬 수 있다.
바람직한 실시예에서, 본 발명의 시스템은 음성 인식을 위해 배열되고, 각각의 벡터는 각각의 주파수 간격으로 음성 신호 에너지를 나타내는 소자들을 갖는다. 구동 수단은 왜곡 보상에 사용하기 위한 보상 벡터를 생성하도록 배열될 수 있고, 보상 수단은 각각의 보상 벡터 소자들의 대수에 데이터 벡터 소자들의 대수를 부가하도록 배열될 수 있다. 변환 수단은 매트릭스 변환을 적용하도록 배열되고 매칭 수단은 숨겨진 마르코프(Markov) 모델 매칭을 구현하도록 배열되는 것이 바람직하고; 전환 수단은 변환된 데이터 벡터와 결합된 모델 상태로부터 데이터 벡터 추정치를 생성하고 가우스 분포를 갖도록 배열될 수 있다. 매칭 수단은 가우스 분포의 매트릭스인 모델 상태를 사용할 수 있고, 전환 수단은 그로부터 데이터 벡터 추정치를 생성하도록 배열될 수 있다.
보상 수단은 주파수 공간에서 이동을 보상하도록 매트릭스 증식을 위해 선택적으로 제공될 수 있다. 구동 수단은 칼만(Kalman) 필터일 수 있다.
매칭 수단은 세그먼트의 숨겨진 마르코프 모델 매칭을 구현하도록 배열될 수 있다.
데이터 벡터는 화자의 입술로부터 유도된 영상 정보를 적어도 부분적으로 포함할 수 있고, 보상 수단은 화상의 일루미네이션 레벨, 방향 및 기하학적 왜곡중의 적어도 하나에 대한 보상을 제공할 수 있다.
변환 수단은 일부 계수가 데이터 벡터 치수를 감소시키기 위해 폐기된 경우에 코사인 변환을 적용하도록 배열되는 것이 바람직하다.
왜곡의 존재 하에 음성 인식을 위한 본 발명의 시스템은
a) 변화하는 음성 신호 레벨,
b) 마이크로폰 위치의 변화,
c) 마이크로폰 유형의 변화,
d) 음성 신호 라인 특성의 변화,
e) 배경 잡음 레벨,
f) 주파수 이동,
g) 화자 일루미네이션 레벨,
h) 일루미네이션 방향, 및
i) 화자의 특징의 기하학적 왜곡
중의 적어도 하나에 대한 보상을 제공하도록 배열된 전환 수단 및 유도 수단을 포함하는 것이 바람직하다.
본 발명은 음성 이외의 신호에 대한 왜곡의 보상을 선택적으로 제공할 수 있다. 이는 예를 들면 정보가 개인의 안면에 지시된 비디오 카메라로부터 영상 정보로 부분적으로 또는 전체적으로 구성된 인식 시스템에서 일루미네이션 레벨 또는 뷰 앵글에 대한 보상을 제공할 수 있다.
유도 수단은 데이터 벡터에서 왜곡에 대한 보상을 유도하기 위해 복수개의 데이터 벡터 추정치로부터 분포를 조합하기 위한 무한 임펄스 반응 필터 또는 칼만 필터를 혼입할 수 있다.
본 발명의 바람직한 실시예에서, 매칭 수단은 복수개의 모델 상태 및 각각 변환된 데이터 벡터와 결합된 모델 클래스를 지시하도록 배열되고, 구동 수단은 각각의 데이터 벡터에 대한 각각의 보상을 유도하도록 배열되고, 보상 수단은 매칭 수단에 의해 지시된 모델 클래스에 따라 선택적으로 보상을 적용하도록 배열된다. 매칭 수단은 부분적인 트래이스백을 구현하고, 약간 늦은 시간에 반전될 수 있는 매치된 모델 상태를 지시하도록 배열될 수 있고; 전환 수단 및 유도 수단과의 조합에서, 그러한 매칭에 기초하여 생성된 보상에 대한 정정을 제공할 수 있다.
또 다른 면에서, 본 발명은
a) 데이터 벡터들에서 왜곡에 대한 보상 단계;
b) 모델들의 그것에 대한 이들의 치수를 감소시키기 위해 왜곡 보상 후 데이터 벡터들에 변환을 적용시키는 단계,
c) 각각의 변환된 데이터 벡터를 각각의 모델과 결합시키는 단계,
d) 결합된 모델로부터 데이터 벡터 추정치를 얻기 위해 상기 변환을 전환시키는 단계, 및
e) 데이터 벡터 추정치 및 그것이 대응하는 데이터 벡터로부터 보상을 유도하고, 왜곡에 대해 데이터 벡터들을 보상하기 위해 보상을 이용하는 단계를 포함하는, 모델들보다 더 큰 치수의 데이터 벡터와 소정의 다중 치수 모델을 결합시키는 방법을 제공한다.
단계(d)에서 전환은 그의 치수를 감소시키기 위한 데이터 벡터 추정치에 대한 변환의 적용이 그러한 정보의 손실을 초래하는 방식으로 정보를 포함함으로써 데이터 벡터의 그것에 대한 모델 치수의 증가를 제공하도록 상기 변환의 의사-반전 수단에 의해 구현되는 것이 바람직하다.
다른 면에서, 변환 수단 및 전환 수단이 필수적이지 않은 경우에, 본 발명은
a) 복수개의 보상된 데이터 벡터들을 생성하기 위해 각각의 데이터 벡터에 대해 각각의 데이터 유형과 연관된 보상을 적용하도록 배열된 것으로, 복수개의 상이한 유형의 데이터에 따라 데이터 벡터들에서 왜곡에 대해 보상하기 위한 보상 수단,
b) 보상된 데이터 벡터들 및 모델들을 결합시키고 각각의 데이터 벡터에 대해 적절한 모델 및 각각의 데이터 유형에 대응하는 모델의 클래스를 지시하도록 배열된 매칭 수단, 및
c) 모델 클래스와 결합된 각각의 데이터 유형에 대한 왜곡 보상에서 보상 수단에 의해 사용하기 위해 연관된 데이터 벡터 및 매칭 수단에 의해 지시된 모델로부터 보상을 유도하기 위한 유도 수단을 포함하는, 데이터 벡터들과 소정의 모델들을 결합시키는 인식 시스템을 제공한다.
본 발명을 보다 완전히 이해하기 위해, 그의 실시예는 이하 단지 예로써 수반된 도면을 참조하여 기재할 것이다.
도 1을 참조하면, 음성 인식 시스템 형태의 본 발명의 실시예는 일반적으로 10으로 나타낸다. 이 시스템(10)은 필터뱅크 분석기(16)에 자체 접속된 아날로그-디지털(A/D) 변환기(14)에 접속된 전화(12)를 혼입시킨다. 분석기(16)는 비-무한 신호 샘플의 통상적인 문제점을 다루기 위해 20 mS 해밍 창을 사용하는 400개의 지점의 이산 푸리에 변환(DFT)을 구현한다. 그것은 이와 같이 얻어진 푸리에 성분들이 거의 멜(즉, 지각적인 선형) 스케일로 26개의 주파수 간격 각각에 대해 얻어진 평균값에 걸쳐 26개의 서브세트로 합체하고, 대수 진폭값을 생성한다. 따라서, 그것은 26개의 채널에서 대수 출력에 따라 대역 필터의 뱅크를 자극한다. 분석기(16)로부터 출력은 스펙트럼 형상 적응(SSA)을 제공하는 보상 유니트(18) 및 버퍼 메모리(20)로 통과한다. SSA 보상 유니트(18)는 디지털 가산기이다. 이 장치는 그의 출력이 26에서 시스템 출력을 제공하는 모델 매치된 컴퓨터(24)로 통과하는 변환 장치(22)에 접속된다.
컴퓨터(24)는 또한 매치 인버터 또는 "취소(undo) 장치"에 접속되어, 차이 연산기(30)에 입력을 제공하고; 이러한 연산기는 버퍼 메모리(20)로부터 제2 입력을 수신하고, 그 자체는 라인(32)을 통해 매칭 장치(24)로부터 타이밍 정보를 수신한다. 차이 연산기(30)로부터의 출력은 디멀티플렉서(36)로의 제1 입력으로서 라인(34)을 통해 통과하고, 이는 매칭 장치(24)로부터 라인(38)을 통해 모델 클래스 정보의 제2 입력을 수신한다. 디멀티플렉서(36)는 무한 임펄스 응답(IIR) 필터(44)의 뱅크의 비음성 및 음성 섹션(44a 및 44b)에 접속된 2개의 출력(40 및 42)을 갖는다. 이들 섹션 각각은 26개의 IIR 필터의 배열이다. 라인(46)은 음성 섹션(44b)을 SSA 파라미터 기억 장치(48)에 접속시키고, 이는 다시 SSA 보상 유니트(18)에 접속된다.
인식 시스템(10)은 다음과 같이 작동한다. 전화(12)로부터 아날로그 음성 신호는 (A/D) 변환기(14)에 의해 디지털 신호로 변형되고, 신호를 샘플링하고, 20KHz의 속도로 신호들을 출력한다. 필터뱅크 분석기(16)는 디지털 신호를 사용하여 연속적인 400 지점 이산 푸리에 변환(DFT)을 산출하기 위해 디지털 신호들을 이용한다. 이어서, 각각의 변환에 대해 DFT에 의해 출력된 200 지점은 서브-그룹으로 '빈되거나' 또는 분리되고, 부가되고, 26개의 주파수 간격에 대해 대수 스케일로 평균 에너지를 제공하기 위해 이들의 대수가 취해진다. 분석기(16)는 26 아날로그 대역 필터의 뱅크의 디지털 등가물이다. 분석기(16)로부터 각각의 출력 변환은 26개 성분을 갖는 벡터이고, 각각의 성분은 결합된 푸리에 변환 계수들을 평균함으로써 얻어진 각각의 주파수 간격에서 에너지의 대수를 나타낸다.
개개의 벡터들은 연속 에너지(10 mS)에서 분석기(16)로부터 출력이고, 각각은 이전의 20 mS에서 음성 신호에서 에너지에 비한 평균을 나타낸다. 시점 ti에서 분석기로부터 i번째 벡터 출력은 Oi로서 정의된다. 이것은 그의 생성 시간 ti에 대응하는 각각의 어드레스에서 500개의 가장 최근에 얻어진 벡터를 저장하는, 버퍼 메모리(20)에 저장된다.
각각의 벡터 Oi는 SSA 파라미터 기억 장치(48)에 저장된 26개 파라미터들의 세트 Pj(j=0 내지 25)를 사용하는 변환을 적용하는 보상 유니트(18)로 통과된다. 이들 파라미터들의 생성은 이후에 설명할 것이다. 이 유니트(18)은 기억 장치(48)의 내용을 벡터 Oi에 가산한다. 변환은 왜곡에 대해 보상하기 위해 벡터의 스펙트럼 형상의 채택에 대응한다. 이러한 변환은 신호 채널 또는 마이크로폰 특성에 의해 도입된 평균 신호 레벨 및 선형 왜곡으로의 변화에 대한 보상을 제공한다.
유니트(18)에서 보상 후, 각각의 벡터(이하 Oi CORR라 칭함)는 보다 적은 치수를 갖는 특징 공간에서 벡터 y를 생성하기 위한 공간 또는 주파수 영역으로부터 그것을 변환시키는 변환 장치(22)로 통과된다. 장치(22)는 각각의 보상된 벡터의 코사인 변환을 생성하고, 그 변환의 첫 번째 12개의 용어만이 유지되도록 그것을 생략한다. 코사인 변환의 사용은 데이터에서 목적하지 않는 상관 관계를 줄임으로써 인식 정확도를 개선시키는 수단으로서 선행 기술에 공지되어 있다. 코사인 변환의 생략 역시 화자 독립형 시스템들의 설계를 위해 선행 기술에 공지되어 있으며, 그 이유는 목적치 않는 화자-의존형 부정확도를 제거하기 때문이다. 변환은 변환 매트릭스의 계수들이 필요한 코사인 변환의 특징에 의해 결정되는 경우의 매트릭스 승산으로서 수행된다. 그것은 26으로부터 12로 벡터들의 치수를 감소시킨다.
본 실시예에서, 유니트(22)에 의한 코사인 변환의 구현은 특징 벡터들의 성분들의 연산을 포함한다. 하기 수학식 1a,1b는 매트릭스 오퍼레이션의 평가를 나타낸다.
여기서, yk는 벡터 yi의 k번째 성분이고, Om corr은 보상된 벡터 Oi corr의 m번째 성분이고; m은 필터뱅크 출력의 26 채널들에 대해 0 내지 25의 값을 갖고, k는 코사인 변환의 제1의 12 용어에 대해 0 내지 11의 값을 갖는다.
변환된, 보상된 벡터들 Yi는 모델 매칭 컴퓨터(24)로 통과된다. 이러한 컴퓨터는 2개의 치수(본 실시예에서 12에 반대됨)의 보다 단순한 특징 공간을 예시하는, 도 2를 참조하여 기재될 방법을 구현한다. 모델 매칭 컴퓨터(24)는 선행 기술에 공지된 종류의 종래의 숨겨진 마르코프 모델 매칭 알고리즘을 구현한다. 예를 들면 음성 인식에 대한 표준 교재인 "Speech Synthesis and Recognition", J N Holmes, Van Nostrand Reinhode(UK) 1988, 특히 제7장 및 제8장 참조. 컴퓨터(24)는 전화 음성의 종래의 숨겨진 마르코프 모델인 모델들을 사용한다. 각각의 모델은 워드 또는 워드의 일부(서브-워드)에 대응하고; 각각의 모델은 많은 상태를 갖고 음향의 시퀀스에 대응한다. 예를 들면, 숫자 0 내지 9에 대한 숫자 인식기에서, 모델당 10개의 상태가 사용될 수 있다. 하나의 상태는 특징 공간의 치수를 갖는 단일 성분 가우스 확률 분포로 나타내고, 즉, 그 분포는 다음 형태를 갖는다;
여기서, Cs는 모델 상태에 대한 상수이고, μs,k및 σs,k(k=0,...11)는 12 치수 특징 공간에서 모델 상태 S에 대한 확률 분포의 평균 및 표준 편차의 12 성분들이고, xk는 12 치수 특징 벡터 공간을 정의하는 변수이다.
선행 기술의 매칭 프로세스는 초기의 벡터/모델 매칭의 결과를 고려하여 벡터들을 모델들과 매치시키는 단계를 포함함으로써, 인식 정확도의 확률은 입력의 시퀀스에 비해 최대화된다. 이는 동적 프로그래밍에 의해 수행된다.
도 2는 확률 분포 외형을 나타내는 3가지 모델 상태의 S1, S2 및 S3 타원형을 갖는 모델을 예시한다. 변형된 정정된 특징 벡터 Yi의 2개의 치수 등가물이 도시된다. 컴퓨터(24)는 모델 상태가 벡터 Yi에 대한 매칭에 가장 적절한지를 결정하는 모델 매칭 알고리즘을 사용한다. 벡터와 모델 상태 간의 매칭 확률은 초기 매칭 히스토리에 의해 부과된 임의의 구속에 적용되는 벡터의 위치에서 모델 상태의 확률 분포의 크기로 지시된다. 도 2에 나타낸 단순화된 2개의 치수 상태에서, 확률 고려는 벡터 Yi가 모델 상태 S1에 매치되어야 함을 지시할 수 있다. 동일한 매치가 일어나는 것이 우연이 아닌 경우, 매치될 것으로 보이는 모델 상태 S1로부터 기대되는 그러한 벡터의 값은 Yi와 동일하지 않을 것이다. 이와 같이 기대되거나 또는 추정되는 값은 S1에 대한 확률 분포의 평균 값으로 제공되고, 일부 특징 벡터 μsi로 나타낸다. 모델 상태 평균 값은 26에서 출력되고, 역시 본 명세서에서 "취소" 오퍼레이션으로 공지된 것을 구현하는 매치 인버터(28)로 통과된다.
취소 오퍼레이션의 목적은 이후에 기재될 SSA 보상 유니트(18)에 적용되는 스펙트럼 형상 채택 파라미터들을 발생시키는 데 있어서 그러한 벡터를 사용하기 위해 Yi와의 부정확한 결합에 반대로 μsi가 정확히 대응하는 주파수 공간에서 벡터를 결정할 수 있게 한다.
취소 오퍼레이션은 주파수 공간(Oi)으로부터 특징 공간(Yi)에 이르기까지 장치(22)에서 구현되는 변환의 의사-반전에 수학적으로 등가인 연산을 포함하고; 즉, 특징 공간(Yi)으로부터 주파수 공간(Oi)으로의 변환이다. 주파수 공간으로부터 특징 공간으로의 변환이 일부 매트릭스 A에 의해 나타나는 경우, 의사-반전은 다음 관계를 만족시키는 임의의 매트릭스 A-이다.
A가 제곱이고, 비단수형인 경우, A의 통상적인 반전인 단지 하나의 매트릭스 A-가 존재한다. 본 발명이 지정하는 종류의 인식 시스템에서, 특징 공간은 상기한 바와 같이 목적치 않는 분포를 배치할 필요성 때문에 주파수 공간보다 더 적은 치수를 갖는다. 결과적으로, 일부 정보는 폐기되고, 매트릭스 A는 직사각형이다. 직사각형 매트릭스는 유일한 역함수를 갖지 않고, 따라서, 매트릭스 A의 유일한 반전을 얻을 수 없다.
그러나, 본 발명에 따라, 놀랍게도 인식 공정에 대한 수용될 수 없는 부작용 없이 매트릭스 A의 의사-반전인 임의의 매트릭스 A-를 유리하게 사용할 수 있는 것으로 밝혀졌다.
본 실시예에서, 매트릭스 A는 12x26 성분 매트릭스이고, A-는 26x12 성분 매트릭스이다. 매트릭스 A의 계수들은 생략된 코사인 변환을 제공하기 위해 연산된다. 적절한 의사-반전 매트릭스 A-는 26x26 성분 매트릭스로서 26 성분 코사인 변환의 진정한 반전을 취하고, 26x12 성분 매트릭스를 제공하기 위해 컬럼들을 폐기함으로써 연산될 수 있다. 단순한 코사인 변환 이외의 변환이 사용되는 경우, 의사-반전은 표준 수적 기술에 의해 얻어질 수 있다.
Y가 특징 공간(μsi와 등가임)에서 일부 지점이고,가 매트릭스 A에 의해 승산될 때 Y로 변환되는 주파수 공간에서 대응하는 지점인 경우, 다음과 같이 A-를 사용하여를 얻기 위해 누구나 변환을 취소할 수 있다.
주파수로부터 특징 공간으로의 변환에서 정보의 손실이 없기 때문에, 매트릭스 A-의 무한수 및의 대응 값이 존재한다. 그러나, 그러한 매트릭스 모두는 다음을 만족시킨다:
수학식 5는 매트릭스 A에 의해 승산될 때,및 O 모두가 매칭 컴퓨터(24)에 의한 인식 목적에 대한 특징 공간에서 Y로 변환되고, 따라서,가 의사-반전을 사용하여 생성되었다는 사실은 매칭 공정에 부작용을 미치지 않는다. 즉, 의사-반전 공정에 부가된 임의의 정보는 주파수 공간으로부터 특징 공간에 이르는 보상된 벡터들의 변환에서 이후에 근절된다. 결과적으로, 주파수의 특징 공간으로의 매핑을 취소할 수 있고 순차로, 그것을 "재시도(redo)"할 수 있다. 매칭 인버터(28)는 디지털 매트릭스/벡터 승산에 의해 '취소' 오퍼레이션을 구동한다. 그것은 컴퓨터(24) 내의 소프트웨어에 의해 선택적으로 구현될 수 있다.
매칭 인버터(28)는 주파수 공간에서 대응하는 지점을 제공하기 위해 특징 공간으로부터 다시 주파수 공간으로, 매치된 모델 상태 S1의 평균 성분들인 μsi를 변환시킨다. 컴퓨터(24)에 의해 출력된 벡터 μsi는 매트릭스 A-에 의해 승산된다. 매트릭스 오퍼레이션은 하기 수학식 6에 나타낸 합산을 적용함으로써 수행된다:
여기서, m(m=0 내지 25)은 출력 벡터 i의 26개의 성분들이고, μsl,0내지 μsl,11은 μsi의 12 성분이며, 여기서, i는 그것이 매치되는 모델 및 선택된 매트릭스 A-에 기초한 데이터 벡터 Qi에 대해 예측된 값이다.
i값은 차이 연산기(30)으로 통과된다. 동시에, 버퍼 메모리(20)는 Qi값의 메모리 어드레스 형태로 타이밍 정보를 컴퓨터(24)로부터 수신한다. 이러한 어드레스에 응답하여 그것은 i와 비교하기 위해 차이 연산기(30)에 Qi를 출력한다. 차이 연산기(30)는 차이 벡터를 발생시키기 위해 예측된 벡터들과 관찰된 벡터들 간의 차이를 연산한다. 차이 벡터는 음성 신호가 수행되는 왜곡 프로세스의 일시적 추정치를 주파수 공간에 나타낸다 이 추정치는 디멀티플렉서(36)로 통과되고, 동시에 숫자 1 또는 0의 형태로 모델 분류 정보를 수신하고; 이들 숫자중, 1은 모델 매칭 컴퓨터(24)가 인식된 음성을 가짐을 나타내고, 0은 컴퓨터가 인식된 잡음을 가짐을 나타낸다. 디멀티플렉서(36)는 컴퓨터(24)로부터 1을 수신하는지 또는 0을 수신하는지에 따라 음성 또는 비음성 IIR 필터 섹션(44a 또는 44b)으로 차이 연산기 출력을 루팅시킨다.
디멀티플렉서(36)에 의한 음성과 잡음 간의 차별화의 목적은 음성이 없는 장기간의 대화에 대해 보상 기간들이 잡음 및 간섭의 영향에 의해 왜곡될 수 있는 문제를 다루는 것이다. 영국 특허 공개 제GB2 137 791A호는 신호의 어떤 부분이 잡음에 대응하고, 어떤 부분이 음성에 대응하는지를 결정하기 위해 음성 인식 시스템을 사용하는 방법을 기재하고 있다. 선행 기술의 방법은 배경 잡음의 스펙트럼 특성을 결정하는 데 목표를 두고 있지만, 음성 신호 및 잡음으로부터 개별적으로 보상의 추정치를 유도하기 위해 시스템(10)에서 음성 및 잡음의 마크 영역들에 유사한 방법을 사용할 수 있는 것으로 밝혀졌다. 이는 시스템(10)이 음성이 없는 연장된 기간의 통화를 보다 적절히 처리할 수 있게 한다. 또한, 보다 신속한 출력을 허용하고 보다 신속한 채택 시간이 얻어지게 한다.
잡음 또는 간섭과 반대 음성인 것으로 식별된 벡터는 디멀티플렉서(36)로부터 40에서 차이 벡터로 출력을 증가시킨다. 이러한 차이는 상기한 바와 같이 26개의 무한 임펄스 응답 필터의 배열인 음성 필터 섹션(44b)으로 통과된다. 필터 섹션(44b)은 차이 벡터의 26개의 성분들 각각에 대한 각각의 필터를 혼입시킨다. 유니트(30)에 의해 연산된 차이 벡터는 단일 데이터 벡터에 기초하고, 그것은 마이크로폰 및 음성류의 음향의 랜덤 특성으로 인한 차이와 조합된 라인 특성으로 인한 정정 가능한 왜곡의 일시적 추정치를 나타낸다.
음성 필터 섹션(44b)은 0.5초의 시간 상수를 갖는다. 그것은 정정 가능한 왜곡으로 인해 장기간의 변수를 트래킹하면서 워드 인식의 에러 및 랜덤 변수의 영향과 반작용하는 여러 가지 워드(예를 들면 약 3개의 워드 또는 1.5초)의 단기간 평균을 제공한다. 각각의 입력 차이 벡터의 수신에 응답하여, 그것은 시간에 따라 지수적으로 최소화되는 초기 입력 벡터들로부터 분포 및 그 입력 벡터의 평균인 출력 벡터를 생성하고; 출력 벡터로의 분포는 가장 최근의 50개의 차이 벡터들로부터 대략적으로 증가한다.
음성 필터 섹션(44b)으로부터 출력 벡터는 그의 존재하는 소자들을 대체한 SSA 파라미터 기억 장치(48)로 로드된 갱신된 파라미터들의 세트를 제공한다. 상기한 바와 같이, 파라미터들의 갱신된 세트는 필터 뱅크 분석기(16)로부터 현재 출력의 스펙트럼 형상을 채택하도록 사용되고, 파라미터 세트는 음성 모델 상태로의 각각의 데이터 벡터의 매칭에 응답하여 갱신된다. 매칭을 생성하는 데 있어서 단기간의 지연이 존재한다. 소자들(18 내지 48)이 컴퓨터에 의해 총체적으로 구현되는 본 발명의 일 실시예에서, 음성 신호로부터 갱신된 파라미터들을 얻기 위해 요구되는 시간은 0.5초 또는 거의 평균 워드의 지속 기간이었다. 결과적으로, 그것은 그의 효과가 워드로부터 워드로 변화하는 왜곡에 대해 보상한다. 전형적인 선행 기술의 시스템은 본 발명보다 보상을 제공하기에 훨씬 더 느리고, 비교적 단기간 왜곡에 대처할 수 없다. 상기한 바의 짜오 참조 문헌은 분석을 위해 전체 문장을 요한다. 본 실시예에서, 사용된 변환은 신호 채널 또는 마이크로폰 특성에 의해 도입된 선형 왜곡 및 평균 신호 레벨로의 변화에 대한 보상을 제공한다.
본 발명의 상기 실시예에서, 비음성 IIR 필터 섹션(44a)은 그의 출력이 사용되지 않기 때문에 잉여된다. 그의 사용은 SSA 보상 유니트(18) 및 기억 장치(48)의 대안적 구현을 포함하는 본 발명의 다른 실시예에서 기재될 것이다. 본 실시예에서, 기억 장치(48)는 52개의 파라미터들 Pj(j=0 내지 51)을 포함하고, 그중 지수 0 내지 25는 상기한 바의 승산 왜곡(평균 신호 레벨 및 선형 왜곡)에 대한 보상에 대응하는 한편, 지수 26 내지 51은 선형 스케일(예, 채널 잡음)로 부가된 왜곡에 대한 보상에 대응한다. SSA 보상 유니트(18)는 제1의 26개의 파라미터들 Pj(j=0 내지 25)을 추가함으로써 대수 형태의 Oj의 벡터 소자들에 대한 승산 정정을 적용시킨다. 그것은 이것의 반전 및 대수로부터 선형 스케일로의 데이터 벡터의 변환에 대한 단서를 포함한다. 그것은 대수로부터 Oi의 정정된 벡터 소자들을 선형 스케일로 변환시키고, 26개의 파라미터들 Pj(j=26 내지 51)의 제2 세트를 부가함으로써 선형 정정을 적용한다. 이어서, 이것은 결과를 대수 스케일로 다시 변환시킨다. 유니트(18)는 잡음 정정을 부가하고, 왜곡 정정에 의해 승산함으로써 선형 영역에서 모든 정정을 선택적으로 적용시킬 수 있다. 변환은 평균 신호 레벨로의 변화 및 신호 채널 또는 마이크로폰 특성에 의해 도입된 선형 왜곡 뿐만 아니라 배경 잡음에 대한 보상을 제공한다. 승산 왜곡에 대한 파라미터들의 추정치를 얻기 위해, 음성 필터 섹션(44b)은 상기한 바와 같이 사용된다. 추가의 잡음에 대한 파라미터들의 추정치를 얻기 위해, 비음성 필터 섹션(44a)은 아날로그 방식으로 사용된다.
인식 시스템(10)의 성능을 나타내기 위해, 전화(12) 대신에 2가지 상이한 마이크로폰(A 및 B)을 사용한 실험이 이루어졌다. 시험은 공수 정찰 임무 과정에서 생성된 구어 레포트를 사용하여 수행하였다. 모델 매칭 컴퓨터(24)는 3가지 상태의 단일 혼합 성분 마이크로폰에 기초한 표준적인 숨겨진 마르코프 모델을 사용하여 프로그램하였다. 모델들은 마이크로폰 A를 사용하여 동일한 화자에 의해 기록된 36개의 공수 정찰 임무 레포트로 훈련되었다. 각각의 레포트는 약 30초 동안 지속되었다. 컴퓨터(24)는 각각의 워드가 동일하게 고려되는 518 워드 신택스를 사용하였고; 즉, 어휘는 약 518 워드였다. 실험에서, 화자는 마이크로폰 A 및 B로 동시에 말하였다. 스테레오 타입 레코더를 사용하여 여러 가지 마이크로폰 위치에 대한 기록이 이루어졌다. 이어서, 기록은 아날로그-디지털 변환기에 의해 디지털화되고, 컴퓨터의 하드 디스크로 전송되었다. 이어서, 데이터는 필터뱅크 분석기(16)에 구현된 컴퓨터 프로그램에 의해 분석되었다. 이어서, 데이터는 유니트(18, 20, 22, 24, 28, 30, 36, 44 및 48)에 구현된 제2 프로그램에 의해 처리되었다. 출력(26)은 분석을 위해 디스크로 기록되었다. 제2 분석에서, SSA 보상 유니트(18), 및 버퍼(20), 매치 인버터(28), 차이 연산기(30), 디멀티플렉서(36), 무한 임펄스 응답 필터(44) 및 SSA 파라미터 기억 장치(48)의 작용은 디스에이블되었다. 하기 마이크로폰 위치가 사용되었다:
표준: 구강의 코너에 의한 레벨
중심: 구강의 정면에서 중심
하위: 구강의 코너 아래 1인치
턱: 턱에 의한 레벨
아래 나타낸 표는 스펙트럼 형상 채택(SSA)을 구비한 시스템(10)에 대해서 및 달리 지적하지 않는 한 등가인 SSA가 없는 비교용 시스템 모두에 대해 순차로 처리된 3가지 공수 정찰 임무 레포트에 대해 마이크로폰(Mic) A 및 B를 사용하여 얻은 워드 인식에 대한 에러 비율을 보여준다. 그것은 본 발명에 따라 SSA를 사용하는 워드 에러 비율에 대한 영향을 예시한다. 4가지 마이크로폰 위치 모두에서, 본 발명에 따라 '취소' 오퍼레이션에 의해 SSA를 사용함으로써 에러 비율을 개선시킨다. 마이크로폰 B에 대해, 2의 인자 이상인 경우 및 3의 인자 이상인 경우에 개선이 이루어졌다.
본 발명의 오퍼레이션을 모니터하기 위해, SSA 파라미터 기억 장치(48)의 내용(보상 벡터로 표현됨)은 처리하는 동안 약 0.5초의 간격으로 기록된다. 도 3 및 4는 마이크로폰 A 및 B 각각에 대한 시간의 함수로서 SSA 파라미터들을 보여준다. 파라미터들(평균된 차이 벡터 소자들)은 각각의 필터뱅크 채널 번호에 대응하고 그에 거슬러 작도된다. 박스에서 "키"로 라벨된 라벨들은 10mS의 유니트로 표현된 생성 시간 ti또는 프레임 번호를 나타낸다. 제1의 60초(ti〈6,000) 동안 그 값들은 신속히 변화하고, 고정된 프로파일쪽으로 수렴된다. 마이크로폰 B는 큰 주파수에서 보다 크게 출력되고, 도 3에서 채널(24)의 최소 값은 이에 대한 시스템의 보상이다. 시스템(10)은 전체적인 음성 파워 레벨에 대한 현저한 정정을 가능케 하고, 이는 자동 이득 조절에 비교될 수 있다. 평활한 것이기보다는 오히려, 도 3 및 T는 모두 정정 기간에 현저한 '잔물결(ripple)'을 디스플레이한다. 이는 진정한 반전 오퍼레이션보다는 오히려 의사-반전에 기초한 '취소' 오퍼레이션의 결과이고; 즉, 잔물결은 오퍼레이션에 의해 도입된 정보에 대응한다. 그러나, 수학식 3으로 나타낸 바와 같이, 잔물결은 주파수 영역 데이터가 주파수 공간(Oi)으로부터 모델 영역인 특징 공간(Yi)으로 장치(22)에서 변환될 때 상실된다. 따라서, 이들이 대응하는 잔물결 및 정보는 모델 매칭 컴퓨터(24)에 의해 수행된 인식 오퍼레이션에 대해 실질적으로 영향을 미치지 않는다.
시스템(10)에 대한 개선은 필터뱅크 분석기(16)에 의해 출력된 데이터 벡터와 기억 장치(48)에서 SSA 파라미터들을 갱신하기 위해 사용된 그의 추정값 간의 지연을 감소시키기 위해 이루어질 수 있다. 시스템(10)에서, 보상 파라미터들은 매칭 컴퓨터(24)가 특징 벡터와 모델 상태 간의 매치를 출력할 때마다 갱신된다. 이러한 출력은 '부분 트레이스백'으로서 공지된 프로세스가 매칭 컴퓨터(24)에서 발생할 때 일어난다. 부분 트레이스백 공정은 이미 기재된 홀름의 참조 문헌 7,11장에 보다 상세히 기재되어 있다. 숨겨진 마르코프 모델 매칭 알고리즘의 오퍼레이션으로 인해, 부분 트레이스백이 발생할 때, 모델 상태와 모호하지 않게 결합될 수 없는 매칭 컴퓨터(24)에서 많은 수의 최근 특징 벡터들이 통상적으로 존재한다. 즉, 매칭 컴퓨터(24)는 가장 최근 특징 벡터들이 어떤 모델 상태와 결합되는지를 "추측"할 수 있고, 후속 특징 벡터들의 처리는 추측된 모델 상태가 반전되게 할 수 있다. 예를 들면, "음성을 인식한다(recognise speech)"라는 구절을 처리할 때, 모델 매치기(24)는 "r"이라는 음향이 "아름다운 해안에 난파(wrech a nice beach)"에서 "wr"보다는 오히려 "인식하다(recognise)"에서 "r"로부터 유래하는 것을 확인할 수 있기 전에 '인식하다'에서 "g" 음향에 대한 특징 벡터들을 처리할 것을 요한다. 이러한 지연은 약 50개의 벡터 또는 0.5초일 수 있다. 이러한 지연의 충격을 최소화하기 위해, 각각의 부분 트레이스백 기간에서, 매칭 컴퓨터(24)는 매치가 아직 완전히 확인되지 않은 특징 벡터들에 대한 "최상의 추측" 매치를 출력하도록 변형될 수 있다. 디멀티플렉서(36) 및 필터뱅크(44)는 약간 늦은 시간에, 매칭 컴퓨터(24)가 "최상의 추측"의 동정을 확인할 때, 매치된 모델 상태에 대한 변화가 이루어지는 경우(예를 들면, 약간 늦은 시간에 확인된 매치 출력이 "wr"이었을 때 "최상의 추측" 출력이 "r"인 경우) 적은 정정이 적용될 수 있도록 변형될 수 있다.
대안으로, 인식 출력이 즉시에 요구되지 않는 경우, 시스템(10)은 전체 워드 또는 구절은 시스템을 통해 제1 통과에서 상기한 바와 같이 포획되고 처리되고, 이어서 워드 또는 구절이 제1 통과 중에 연산된 정정 기간을 사용하여 제2 통과에서 재처리되도록 배열될 수 있다. 이는 매우 적은 양의 음성(예, 단일 워드)이 처리에 이용될 수 있는 경우에만 유리할 수 있다.
시스템(10)은 2방식 대화 또는 반전 채널 에코와의 1방식 전화 접속에 의해 사용하도록 채택될 수 있다. 이는 도2와 마찬가지로 매치기 오퍼레이션과 2차수 등가를 보여주는 도 5에 예시되어 있다. 상기한 바와 같이, 3가지 모델 상태, S1, S2 및 S3이 도시되고, 타원형이 확률 분포의 외형을 나타낸다. 2개의 변환 정정된 특징 벡터들(Yi 1및 Yi 2) 역시 도시한다. 2방식 대화에서, 벡터(Oi)는 2명의 화자들에 의해 생성될 수 있거나 또는 배경 잡음에 대응할 수 있다. 더욱이, 마이크로폰 및 채널 특성이 2명의 화자들 간에 상이할 수 있기 때문에, SSA 파라미터들의 2 세트가 각각의 화자에 대해 하나로 유지된다. 필터뱅크 출력이 보상될 때 2개의 정정된 벡터들이 발생되고, 각각은 파라미터들의 각각의 세트를 사용한다. 정정된 벡터들 모두는 Yi 1및 Yi 2를 제공하도록 변환되고, 매칭 컴퓨터(24)로 통과되고, 이는 모델들 중에서 최상으로 부합되는 것인 벡터들중의 하나만으로 매치되도록 구성된다. 매칭은 2명의 화자 또는 배경 잡음중 어느 것이 관련 벡터와 결합되는지를 식별한다. SSA 파라미터들의 2개의 세트 각각은 그의 관련된 화자 또는 잡음이 정정을 발생시키기 위해 매치되고 사용된 벡터들에 반응성인 것으로서 식별될 때만 갱신된다. 이를 구현하는 변형된 시스템은 기억 장치(48)와 유사한 2개의 기억 장치에서 SSA 파라미터들의 2 세트, 각각의 하자/마이크로폰 조합에 대해 한 세트를 유지한다. IIR 필터 뱅크(44)로부터 이들 기억 장치로 및 이들 기억 장치로부터 SSA 유니트(18)로의 스위칭 접속은 디멀티플렉서(36)와의 관계에 기재된 컴퓨터(24)의 제어 하에 디멀티플렉서에 의해 구현된다. 이러한 시도는 컴퓨터(24)가 모델을 제공하도록 배열될 수 있는 음성 및 잡음의 관련 소스 및 SSA 파라미터들의 임의의 수의 세트로 확장될 수 있다. 주파수 공간으로부터 특징 공간으로의 변환 또는 상기한 바의 침입 또는 "취소" 오퍼레이션을 포함할 수 없는 인식 시스템에서 데이터 유형 또는 다중 소스의 인식에 사용될 수 있고; 즉, 모델들이 데이터 벡터들로서 치수의 수 및 동일한 공간일 수 있다. 일반적으로, 이는 인식 데이터의 유형 소스 또는 모델 클래스(예, 화자 A, 화자 B 또는 잡음)가 매칭 컴퓨터에 의해 식별되는 것에 따라 구별된 복수개의 차별화된 보상을 발생시키는 인식 시스템에 관련한다. 데이터 벡터가 그 클래스의 모델과 매치됨으로써 특정 모델 클래스에 속하는 매칭 컴퓨터에 의해 식별될 때, 이와 같이 얻어진 모델은 그 클래스와 연관된 보상에 대한 갱신된 값을 유도하도록 사용된다. 현재 보상 값은 각각의 모델 클래스에 대해 유지된다. 각각의 데이터 벡터는 현재 보상 값들 각각에 의한 보상을 수행하고, 매치를 시도하도록 매칭 컴퓨터에 대해 복수개의 보상된 벡터들로 증가된다. 보상된 데이터 벡터는 먼저 매치된 관련 모델이 그 벡터가 대응하는 데이터의 유형 또는 소스에 대한 정확한 클래스로 매치되는 경우, 및 두 번째로 벡터에 적용된 보상은 그것이 수행되는 왜곡과 적절히 반작용하는 경우 양호한 매치를 단지 통상적으로 제공할 것이다. 부적절하게 보상된 데이터 벡터들은 정정 유형의 모델들과 매치되지 않고, 적절히 보상된 데이터 벡터들은 부정확한 유형의 모델들과 매치될 수 없다. (보상되지 않은) 데이터 벡터 및 그의 관련 모델은 상기한 바의 모델 클래스에 의해 지시된 데이터 유형 또는 대응하는 소스에 대해 갱신된 보상을 유도하도록 사용된다.
시스템(10)은 주파수에서 이동의 형태를 취하는 음성 신호로의 변화에 대한 보상을 제공하도록 변형될 수 있다. 이들은 상이한 기도 길이를 갖는 화자들 간의 차이의 결과로서 발생될 수 있고, 예를 들면 어린이는 성인에 비교되고, 여성은 남성에 비교된다. 인간의 음성에 대해, 약 4kHz에 이르는 주파수 범위에서 필터뱅크 출력의 여러 가지 채널들의 에너지는 기도에서 공명으로부터 발생한다. 이들 공명(포르만트로서 공지됨)의 위치는 입, 입술, 혀 및 기도의 나머지 일부에서 근육의 관절에서 변화의 결과로서 음성 생성중에 변화한다.
기도의 치수는 화자들 간에 상이하고, 따라서, 공명의 위치는 화자들 간의 조직적인 방식으로 변화할 것이다. 예를 들면, "Control method used in a study of vowels", Journal of the Acoustic Society of America, 24(1952)에 보고된 피터슨(Peterson) 및 바니(Barney)에 의해 수행된 측정에서, 모음[a]에서 F1포르만트의 통상적인 주파수는 전형적인 성인 남성에 대해 730 Hz로부터 어린이에 대해 1030Hz로 변화한다. 마찬가지로, "The Speech Chain: The physics and biology of spoken language", by Denes 및 Pinson, Anchor Books(1973) 제153페이지는 10개의 영어 순수 모음 음향에 대해 4,000Hz에 이르는 범위의 평균 포르만트 주파수가 남성 화자에 비해 여성 화자에 대해 현저히 더 크다는 것을 나타낸다. 약 4,000Hz 이상의 주파수에 대해, 음향은 다른 메카니즘에 의해 주로 발생되고, 기도 길이와의 차이는 거의 발음되지 않는다.
인식 시스템의 음성 모델 세트가 성인 남성의 음성을 사용하여 배타적으로 훈련되지만, 시스템이 여성 또는 어린이의 음성을 인식하고자 시도되는 경우, 개선된 성능이 하나의 필터뱅크 출력 채널로부터 하위 채널로 에너지의 뒤틀림이 초래될 수 있다. 밴드된 매트릭스에 의해 필터뱅크로부터 출력된 데이터 벡터들을 승산함으로써 왜곡의 형태에 대한 보상을 제공할 수 있고, B의 소자들은 적절한 주파수 이동을 제공하도록 선택된다. 필요할 경우, 이들 소자는 동시에 왜곡의 승산 형태에 대한 보상을 제공할 수 있다.
시스템(10)은 단일 가우스 왜곡의 형태로 모델 상태를 사용하지만, 매칭 성능의 개선을 유도하는 것으로 보일 수 있기 때문에 그러한 분포의 혼합을 사용할 수도 있다. 이어서, 매치 인버터(28)는 이들 혼합물로부터 얻어진 데이터 벡터 추정치를 생성하기 위해 배열된다. 2개의 가우스의 혼합인 분포는 다음 형태를 갖는다:
여기서, Cs,0및 Cs,1은 모델 상태 S에 대한 상수인 경우; μs,0,k, μs,1,k, σs,0,k및 σs,0,k(k=0,...1)는 모델 상태에 대한 2개의 가우스 확률 분포의 평균 및 표준 편차의 12 성분이고, xk는 12 치수 특징 벡터 공간을 정의하는 변수이다.
매칭 컴퓨터(24) 수단은 "Speech recognition using a linear dynamic segmental HMM", Proceedings of Eurospeech '95, 1611-1614페이지(1995)에서 Wendy Holmes에 의해 기재된 세그먼트화된 숨겨진 마르코프 모델 매칭을 구현하도록 프로그램될 수 있다. 이러한 경우에, 매치 인버터(28)는 세그먼트화 궤적에 따라 예측된 값으로부터 데이터 벡터 추정치를 생성한다.
이하 도 6을 참조하면, 상기한 바와 같은 석에 등가인 소자들이 프레픽스(100)를 마찬가지로 참조하는 경우, 상기한 바와 같이 주파수 이동을 구현하는 100에 의해 일반적으로 지시된 시스템이 존재한다. 시스템(100)의 오퍼레이션의 모델 및 구축은 시스템(10)의 그것과 유사하고, 전자의 기술은 이들이 상이한 국면에 대해 크게 지향될 수 있다. 입력 음성 신호는 디지털화되고, 필터뱅크는 유니트(114 및 116)에 의해 분석된다. 이어서, 필터뱅크 출력은 보상 유니트(118)에 의해 처리되고, 이는 그의 매트릭스 소자가 기억 장치(148)에 저장된 밴드된 매트릭스 B에 의해 필터 뱅크 벡터들을 승산한다. 밴드된 매트릭스는 대각선 대역의 비-0 매트릭스 소자들을 갖는 매트릭스이고, 모든 다른 매트릭스 소자들은 0이다. 변환 장치(122)는 주파수 영역으로부터 보다 적은 치수의 특징 또는 모델 영역에 이르기까지 보상된 벡터들을 변환시킨다. 변환 후, 벡터들은 모델 클래스 정보와 함께 매칭 모델에 따라 기대될 수 있는 벡터의 값을 출력하는 매칭 컴퓨터(124)에 의해 매치된다. 기대치는 추정된 벡터로 되는 주파수 공간까지의 변환에 대해 매치 인버터(128)로 통과된다. 추정된 벡터들은 그의 역할이 이후에 보다 상세히 기재된 칼만 필터(137)로 디멀티플렉서(136)를 통해 통과된다.
밴드된 매트릭스 B에서 매트릭스 소자들은 다른 주파수에서 기원하는 것으로 보이도록 하나의 필터뱅크 채널로부터 이동 에너지에 대한 정정을 제공하도록 배열된다. 예를 들면, 필터뱅크(116)의 채널(8 및 9)에서 채널(6 및 7)로의 에너지 이동은 성인에 적합한 모델에 따라 어린이가 말한 음성을 처리할 때 모음 [a]에서 F1포르만트에서 차이를 보상하는 데 거의 대응한다. 대안으로, 아래 표에 주어진 B의 비-0 계수에 의해, 보상 유니트(118)는 보상이 남성 화자에 적절한 음성 모델을 사용할 때 여성으로부터 음성을 인식하는 시스템에 적절하게 한다.
칼만 필터(137)의 역할은 이하 기재할 것이다. 칼만 필터링은 전자 공학의 많은 분야, 특히 레이더 시스템의 설계에 잘 알려져 있으며; 이는 관찰치가 타임 시퀀스를 형성하고, 일부 랜덤 방해에 적용되는 경우 선형 시스템(예를 들면 매트릭스)의 계수를 결정하기 위해 사용될 수 있다. 시스템(100)에 의해 구현된 보상 파라미터들 또는 매트릭스 소자들은 그의 파라미터들이 칼만 필터에 의해 추정되는 26개의 스퀘어 매트릭스 B에 의해 26개로 표현된다. 디멀티플렉서(136)의 음성 출력은 버퍼(120)가 실제로 관찰된 기억된 값을 유지하면서 매치된 모델 상태에 따라 기대되는 필터뱅크 출력의 추정치를 제공하도록 사용된다. 이들 2개의 값은 칼만 필터에 의해 비교되고, 매트릭스 B의 소자들을 갱신하기 위해 사용된다.
칼만 필터들의 디자인 및 구현은 디지털 신호 처리의 많은 영역에 공지되어 있으며, 예를 들면 "Probability, Random Variables and Stochastic Processes", McGraw-Hill series in Electrical Engineering, 1984, 458페이지에서 아타나시오스 파폴리스에 의해 기재되어 있다. 칼만 필터(137)는 기억 장치(148)에 기억된 매트릭스 B의 소자들을 갱신한다. 이는 상이한 기도 길이를 갖는 화자들 간에 발생하는 상이한 필터뱅크 채널들 간의 에너지의 조직적인 이동에 대한 보상 뿐만 아니라 상기한 바의 마이크로폰 및 채널 효과들에 대한 보상을 제공한다. 보상 유니트(118)는 벡터의 부가 뿐만 아니라 주파수 이동을 제공하는 것 외에 부가 잡음에 대해 보상하는 매트릭스 승산을 구현할 수 있다.
주파수 이동에 대한 보상은 푸리에 변환 후 필터뱅크 분석에서 수행된 비닝 오퍼레이션(주파수 평준화)으로의 변화를 가능케 함으로써 선택적으로 적용될 수 있다.
시스템(10 및 100)에서, 컴퓨터(24 또는 124)dp 의해 구현된 모델들의 파라미터들은 예를 들면 화자가 말한 액센트 또는 방언의 모델링을 개선하기 위해 채택될 수 있다.
본 발명은 다른 인식 기술에 적용될 수도 있다. 본 발명은 마이크로폰으로부터 직접적인 소정의 사건으로의 비음성 음향을 식별하기 위해 사용될 수 있다. 대안으로, 본 발명은 "Automatic Speech Recognition that Includes Visual Speech Cues" in Proc. Inst. Acoustics, 1994 Autumn Conference, Windemere, 15-22페이지에서 브루크, 톰린슨 및 무어가 개시한 입술 판독에서와 같이 비디오 카메라로부터 데이터에서 일루미네이션 레벨에 대해 보상할 수 있다. 본 발명 데이터가 잡음 또는 기타 목적하지 않는 기여의 효과를 최소화하기 위해 치수가 감소된 특징 공간으로 매핑되는 기술과 관련되어 사용될 수도 있다. 이러한 기술은 특히 레이더 데이터를 처리하는 데 사용된다. 체계적인 왜곡 처리에 대한 보상은 모델 영역에 용이하게 적용될 수 없는 데이터 영역에서 종종 가능하다.
본 발명은 특히 밀리미터 범위의 파장을 갖는 레이더 영상 센서에 사용될 수 있다. 데이터 벡터들은 장면의 2가지 치수 영상을 나타낸다. 데이터 벡터들의 변환은 목적물의 모델과의 매칭을 허용하는 2가지 치수의 생략된 신속한 푸리에 변환일 수 있다. 이어서, 레이더 영상 평면에서 왜곡에 대한 보상이 구현될 수도 있다.

Claims (23)

  1. a) 데이터 벡터들에서 왜곡에 대해 보상하기 위한 보상 수단(18)과,
    b) 각각의 보상된 데이터 벡터를 적절한 모델과 결합시키기 위한 매칭 수단(24)을 포함하고, 다중-치수 데이터 벡터들을 소정의 모델들과 결합시키기 위한 인식 시스템에 있어서,
    c) 상기 모델들이 데이터 벡터들보다 적은 치수로 이루어지고,
    d) 상기 매칭 수단(24)이 상기 모델들의 것에 대한 이들의 치수를 감소시키기 위해 왜곡 보상 후 데이터 벡터들에 변환을 적용하기 위한 변환 수단(22)을 포함하고,
    e) 상기 시스템(10)이 상기 변환의 반전에 의해 상기 결합된 모델로부터 데이터 벡터 추정치를 얻기 위한 전환 수단(28)을 포함하고,
    f) 상기 시스템(10)이 데이터 벡터 추정치 및 그것이 상기 보상 수단에 의해 왜곡 보상에 사용하는 데 대응하는 데이터 벡터로부터 보상을 유도하기 위한 유도 수단(30)을 포함하는 것을 특징으로 하는 인식 시스템.
  2. 제 1 항에 있어서,
    상기 전환 수단(28)이 상기 변환의 의사-반전을 구현하고, 그의 치수를 감소시키기 위해 데이터 벡터 추정치에 따른 변환 수단(22)의 오퍼레이션이 그러한 정보의 손실을 초래할 수 있는 방식으로 정보를 포함함으로써 데이터 벡터의 그것에 대한 모델 치수의 증가를 제공하도록 배열된 것을 특징으로 하는 인식 시스템.
  3. 제 2 항에 있어서,
    상기 변환 수단이 데이터 벡터들에 매트릭스 A로 나타낸 변환을 적용시키도록 배열되고, 상기 전환 수단(28)이 매트릭스 A-로 나타낸 의사-반전 모델 변환을 구현하도록 배열되고, 매트릭스 A 및 A-는 하기 관계: 즉, AA-A=A를 만족시키는 것을 특징으로 하는 인식 시스템.
  4. 제 2 항에 있어서,
    상기 유도 수단(30)이 상기 데이터 벡터 추정치 및 상기 데이터 벡터로부터 분포 및 유사한 종류의 1개 이상의 선행 분포를 평균함으로써 보상을 유도하도록 배열되는 것을 특징으로 하는 인식 시스템.
  5. 제 2 항에 있어서,
    음성 인식을 위해 배열되고, 상기 데이터 벡터들이 주파수의 함수로서 음성 신호의 표시인 것을 특징으로 하는 인식 시스템.
  6. 제 2 항에 있어서,
    상기 데이터 벡터가 적어도 부분적으로 비디오 영상 데이터로 구성된 것을 특징으로 하는 인식 시스템.
  7. 제 6 항에 있어서,
    음성 인식을 위해 배열되고, 상기 데이터 벡터들이 부분적으로 음성 신호 및 부분적으로 화자 특징의 표시인 것을 특징으로 하는 인식 시스템.
  8. 제 2 항에 있어서,
    음성 인식을 위해 배열되고, 상기 데이터 벡터들이 음성 신호의 표시이고, 상기 매칭 수단(24)이 숨겨진 마르코프(Markov) 모델 매칭을 구현하도록 배열되고, 상기 전환 수단(28)이 변환된 데이터 벡터들과 결합된 모델들의 확률 분포로부터 연산된 데이터 벡터 추정을 생성하도록 배열된 것을 특징으로 하는 인식 시스템.
  9. 제 8 항에 있어서,
    상기 매칭 수단(24)이 세그먼트화된 숨겨진 마르코프 모델 매칭을 구현하도록 배열되고, 상기 전환 수단(28)이 상기 매칭 수단(24)에 의해 연산된 바의 세그먼트 궤적의 추정치로부터 데이터 벡터 추정치를 생성하도록 배열된 것을 특징으로 하는 인식 시스템.
  10. 제 2 항에 있어서,
    상기 매칭 수단(24)이 복수개의 모델 클래스가 각각의 변환된 데이터 벡터와 결합된 것을 지시하도록 배열된 것을 특징으로 하는 인식 시스템.
  11. 제 10 항에 있어서,
    상기 매칭 수단(24)이 각각의 모델 클래스에 대해 모델들의 각각의 세트를 구현하도록 배열되고, 유도 수단(30)이 각각의 모델 클래스에 대한 각각의 보상을 유도하도록 배열되고, 보상 수단(18)이 모델 클래스에 따라 선택적으로 보상을 적용하도록 배열된 것을 특징으로 하는 인식 시스템.
  12. 제 11 항에 있어서,
    상기 매칭 수단(24)이 2명의 화자들 각각에 대한 모델들의 각각의 세트를 구현하도록 배열된 것을 특징으로 하는 인식 시스템.
  13. 제 2 항에 있어서,
    상기 변환 수단(22)이 관찰된 데이터 벡터들과 상기 매칭 수단(24)에 의해 사용된 모델들이 대응하는 데이터 벡터들 간의 차이를 중화하기 위한 주파수 이동을 구현하도록 배열된 것을 특징으로 하는 인식 시스템.
  14. 제 2 항에 있어서,
    상기 변환 수단(22)이 밴드된(banded) 매트릭스에 의한 보상을 구현하도록 배열된 것을 특징으로 하는 인식 시스템.
  15. 제 2 항에 있어서,
    상기 유도 수단(30)이 칼만(Kalman) 필터링에 따라 보상을 갱신하도록 배열된 것을 특징으로 하는 인식 시스템.
  16. 제 2 항에 있어서,
    상기 변환 수단(22)은 일부 계수가 데이터 벡터 치수를 감소시키기 위해 폐기된 코사인 변환을 적용하도록 배열된 것을 특징으로 하는 인식 시스템.
  17. 제 2 항에 있어서,
    왜곡의 존재 하에 음성 인식을 위해 배열되고,
    상기 전환 수단(28) 및 상기 유도 수단(30)이
    a) 변화하는 음성 신호 레벨,
    b) 마이크로폰 위치의 변화,
    c) 마이크로폰 유형의 변화,
    d) 음성 신호 라인 특성의 변화,
    e) 배경 잡음 레벨,
    f) 주파수 이동,
    g) 화자 일루미네이션 레벨,
    h) 일루미네이션 방향, 및
    i) 화자의 특징의 기하학적 왜곡
    중의 적어도 하나에 대한 보상을 제공하도록 배열된 것을 특징으로 하는 인식 시스템.
  18. 제 2 항에 있어서,
    상기 유도 수단(30)이 보상에 달리 영향을 미칠 수도 있는 데이터 벡터들에 의해 나타낸 랜덤 변수들에 반작용하도록 배열된 것을 특징으로 하는 인식 시스템.
  19. 제 2 항에 있어서,
    각각의 데이터 벡터에 의해 시스템의 이중 트랜싯을 제공하도록 배열되며, 상기 보상 수단이 순간에 이중 트랜싯(transit)을 작동시키고, 그것이 얻어진 데이터 벡터에 적용될 보상을 제공하도록 배열된 것을 특징으로 하는 인식 시스템.
  20. 제 2 항에 있어서,
    상기 매칭 수단(24)이 인식 에러들의 정정을 위한 부분 트레이스백을 구현하도록 배열되고, 전환 수단(28)과 유도 수단(30)의 조합에서, 그러한 에러들에 기초하여 생성된 보상에 대한 정정을 제공하도록 배열된 것을 특징으로 하는 인식 시스템.
  21. 제 1 항에 있어서,
    a) 상기 보상 수단이 각각의 데이터 소스와 결합된 왜곡의 각각의 형태에 대해 보상된 변형된 데이터 벡터들의 각각의 세트를 제공하기 위해 복수개의 초상에 의해 각각의 데이터 벡터를 변형시킴으로써 왜곡의 복수개의 형태에 대해 보상하도록 배열되고,
    b) 상기 변환 수단이 각각의 변환된 데이터 벡터들을 제공하도록 변형된 데이터 벡터들의 각각의 세트를 변형시키도록 배열되고,
    c) 상기 매칭 수단은 각각의 세트에서 변환된 데이터 벡터가 그 모델들 중의 하나와 가장 잘 부합되는 것을 확인하고, 변환된 데이터 벡터에 대해 대응하는 데이터 소스를 지시하도록 배열되고,
    d) 상기 유도 수단은 매칭 수단으로 지시된 데이터 소스와 결합된 왜곡의 형태에 대한 보상에 있어서 사용하기 위한 확인된 최상의 적합에 기초한 보상을 유도하도록 배열된 것을 특징으로 하는 인식 시스템.
  22. a) 데이터 벡터들에서 왜곡에 대한 보상 단계와,
    b) 모델들의 치수에 대한 이들의 치수를 감소시키기 위해 왜곡 보상 후 데이터 벡터들에 변환을 적용시키는 단계와,
    c) 각각의 변환된 데이터 벡터를 각각의 모델과 결합시키는 단계를 포함하고, 소정의 다중-치수 모델들을 데이터 벡터들과 결합시키는 방법에 있어서,
    상기 데이터 벡터들이 모델들보다 더 큰 치수를 가지며,
    d) 상기 결합된 모델들로부터 데이터 벡터 추정치를 얻기 위해 상기 변환을 전환시키는 단계와,
    e) 상기 데이터 벡터 추정치 및 그것이 대응하는 데이터 벡터로부터 보상을 유도하고, 왜곡에 대해 데이터 벡터들을 보상하기 위해 보상을 이용하는 단계를 포함하는 것을 특징으로 하는 소정의 다중-치수 모델들을 데이터 벡터들과 결합시키는 방법.
  23. 제 22 항에 있어서,
    상기 단계(d)에서의 전환은 상기 변환의 의사-반전 수단에 의해 구현되고, 그의 치수를 감소시키기 위한 데이터 벡터 추정치에 대한 변환의 적용이 그러한 정보의 손실을 초래하는 방식으로 정보를 포함함으로써 데이터 벡터의 그것에 대한 모델 치수의 증가를 제공하는 것을 특징으로 하는 방법.
KR1019997008742A 1997-03-25 1998-02-24 인식 시스템 KR20010005674A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GBGB9706174.1A GB9706174D0 (en) 1997-03-25 1997-03-25 Recognition system
GB9706174.1 1997-07-09
PCT/GB1998/000593 WO1998043237A1 (en) 1997-03-25 1998-02-24 Recognition system

Publications (1)

Publication Number Publication Date
KR20010005674A true KR20010005674A (ko) 2001-01-15

Family

ID=10809832

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1019997008742A KR20010005674A (ko) 1997-03-25 1998-02-24 인식 시스템
KR1019997008753A KR20010005685A (ko) 1997-03-25 1998-02-26 음성 분석 시스템

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1019997008753A KR20010005685A (ko) 1997-03-25 1998-02-26 음성 분석 시스템

Country Status (9)

Country Link
US (1) US6671666B1 (ko)
EP (1) EP0970462B1 (ko)
JP (1) JP2001517325A (ko)
KR (2) KR20010005674A (ko)
CN (1) CN1168069C (ko)
CA (1) CA2284484A1 (ko)
DE (1) DE69836580D1 (ko)
GB (2) GB9706174D0 (ko)
WO (1) WO1998043237A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100444418B1 (ko) * 2000-02-14 2004-08-16 루센트 테크놀러지스 인크 개선된 음성 품질을 갖는 이동 전화 대 이동 전화 디지털 무선 접속

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6505160B1 (en) 1995-07-27 2003-01-07 Digimarc Corporation Connected audio and other media objects
US6182036B1 (en) * 1999-02-23 2001-01-30 Motorola, Inc. Method of extracting features in a voice recognition system
GB9913773D0 (en) * 1999-06-14 1999-08-11 Simpson Mark C Speech signal processing
GB2355834A (en) * 1999-10-29 2001-05-02 Nokia Mobile Phones Ltd Speech recognition
US6990446B1 (en) * 2000-10-10 2006-01-24 Microsoft Corporation Method and apparatus using spectral addition for speaker recognition
US7457750B2 (en) * 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
EP1229516A1 (en) * 2001-01-26 2002-08-07 Telefonaktiebolaget L M Ericsson (Publ) Method, device, terminal and system for the automatic recognition of distorted speech data
US6985858B2 (en) * 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
JP2005249816A (ja) 2004-03-01 2005-09-15 Internatl Business Mach Corp <Ibm> 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
US7512536B2 (en) * 2004-05-14 2009-03-31 Texas Instruments Incorporated Efficient filter bank computation for audio coding
US7643686B2 (en) * 2004-11-17 2010-01-05 Eastman Kodak Company Multi-tiered image clustering by event
US7567903B1 (en) * 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US7778831B2 (en) 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8010358B2 (en) 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7831431B2 (en) 2006-10-31 2010-11-09 Honda Motor Co., Ltd. Voice recognition updates via remote broadcast signal
JP4591793B2 (ja) * 2008-04-22 2010-12-01 ソニー株式会社 推定装置および方法、並びにプログラム
US8751227B2 (en) * 2008-04-30 2014-06-10 Nec Corporation Acoustic model learning device and speech recognition device
US8543393B2 (en) 2008-05-20 2013-09-24 Calabrio, Inc. Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms
US8645135B2 (en) * 2008-09-12 2014-02-04 Rosetta Stone, Ltd. Method for creating a speech model
US8788256B2 (en) 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442829B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8442833B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
CN101566999B (zh) * 2009-06-02 2010-11-17 哈尔滨工业大学 一种快速音频检索的方法
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
WO2014080622A1 (ja) * 2012-11-21 2014-05-30 パナソニック株式会社 複合材料中の繊維状フィラーの3次元画像処理方法および3次元画像処理装置
US10685131B1 (en) * 2017-02-03 2020-06-16 Rockloans Marketplace Llc User authentication
KR20200140571A (ko) * 2019-06-07 2020-12-16 삼성전자주식회사 데이터 인식 방법 및 장치
CN112104340B (zh) * 2020-09-08 2024-04-16 华北电力大学 一种基于HMM模型和Kalman滤波技术的开关量输入模块BIT降虚警方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2737624B2 (ja) * 1993-12-27 1998-04-08 日本電気株式会社 音声認識装置
JP2780676B2 (ja) * 1995-06-23 1998-07-30 日本電気株式会社 音声認識装置及び音声認識方法
US5796924A (en) * 1996-03-19 1998-08-18 Motorola, Inc. Method and system for selecting pattern recognition training vectors
WO1998043238A1 (en) * 1997-03-25 1998-10-01 The Secretary Of State For Defence Speech analysis system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100444418B1 (ko) * 2000-02-14 2004-08-16 루센트 테크놀러지스 인크 개선된 음성 품질을 갖는 이동 전화 대 이동 전화 디지털 무선 접속

Also Published As

Publication number Publication date
DE69836580D1 (de) 2007-01-18
JP2001517325A (ja) 2001-10-02
CA2284484A1 (en) 1998-10-01
GB9706174D0 (en) 1997-11-19
KR20010005685A (ko) 2001-01-15
US6671666B1 (en) 2003-12-30
CN1251194A (zh) 2000-04-19
CN1168069C (zh) 2004-09-22
EP0970462A1 (en) 2000-01-12
WO1998043237A1 (en) 1998-10-01
GB9714345D0 (en) 1997-11-19
EP0970462B1 (en) 2006-12-06

Similar Documents

Publication Publication Date Title
KR20010005674A (ko) 인식 시스템
EP0886263B1 (en) Environmentally compensated speech processing
Acero et al. Robust speech recognition by normalization of the acoustic space.
Liu et al. Efficient cepstral normalization for robust speech recognition
Nakatani et al. Harmonicity-based blind dereverberation for single-channel speech signals
US6173258B1 (en) Method for reducing noise distortions in a speech recognition system
EP1195744B1 (en) Noise robust voice recognition
EP1903560B1 (en) Sound signal correcting method, sound signal correcting apparatus and computer program
JP5242782B2 (ja) 音声認識方法
Stern et al. Signal processing for robust speech recognition
Kolossa et al. Independent component analysis and time-frequency masking for speech recognition in multitalker conditions
US20060165202A1 (en) Signal processor for robust pattern recognition
JP2000099080A (ja) 信頼性尺度の評価を用いる音声認識方法
JPH09160584A (ja) 音声適応化装置および音声認識装置
US6456697B1 (en) Device and method of channel effect compensation for telephone speech recognition
JP2003532162A (ja) 雑音に影響された音声の認識のためのロバストなパラメータ
Shi et al. Phase-based dual-microphone speech enhancement using a prior speech model
JPH10149191A (ja) モデル適応方法、装置およびその記憶媒体
Sehr et al. Towards robust distant-talking automatic speech recognition in reverberant environments
US7225124B2 (en) Methods and apparatus for multiple source signal separation
US5765124A (en) Time-varying feature space preprocessing procedure for telephone based speech recognition
Wang et al. Robust distant speech recognition by combining multiple microphone-array processing with position-dependent CMN
Han et al. Switching linear dynamic transducer for stereo data based speech feature mapping
JP2005084653A (ja) 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム
Sehr et al. Maximum likelihood estimation of a reverberation model for robust distant-talking speech recognition

Legal Events

Date Code Title Description
N231 Notification of change of applicant
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid