KR19990043998A - 패턴인식시스템 - Google Patents

패턴인식시스템 Download PDF

Info

Publication number
KR19990043998A
KR19990043998A KR1019980701230A KR19980701230A KR19990043998A KR 19990043998 A KR19990043998 A KR 19990043998A KR 1019980701230 A KR1019980701230 A KR 1019980701230A KR 19980701230 A KR19980701230 A KR 19980701230A KR 19990043998 A KR19990043998 A KR 19990043998A
Authority
KR
South Korea
Prior art keywords
input signal
noise
pattern
speech
reference pattern
Prior art date
Application number
KR1019980701230A
Other languages
English (en)
Inventor
사이먼 니콜라스 다우니
Original Assignee
세모스 로버트 어니스트 빅커스
브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 세모스 로버트 어니스트 빅커스, 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니 filed Critical 세모스 로버트 어니스트 빅커스
Publication of KR19990043998A publication Critical patent/KR19990043998A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Traffic Control Systems (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

본 발명은 음성 인식 또는 이미지 인식 시스템용 패턴 인식 시스템에 관한 것으로서, 패턴 인식 장치는 인식되는 레퍼런스 패턴의 허용된 시퀀스에 대한 유사성을 나타내기 위해 입력 신호를 처리하는 인식 처리기(3)를 포함하고, 음성 인식 처리기(3)는 상기 입력 신호에 대응하는 패턴의 시퀀스를 식별하고, 음성 포함 부분과 선행 및/또는 후속 상기 음성 포함 부분, 잡음 또는 무음 부분으로 입력 신호를 분할하는 분류수단(36, 37)을 포함하고, 패턴 식별을 목적으로 상기 분류수단(36, 37)에 의한 이후의 사용을 위해 잡음 또는 무음 부분의 패턴을 발생하기 위해 잡음 모델 발생기(35)가 제공되며, 잡음 모델 발생기는 레퍼런스 패턴을 조정하는데 사용될 수 있는 입력 신호의 각각의 잡음 부분에 대한 잡음 모델을 발생할 수 있는 것을 특징으로 한다.

Description

패턴 인식 시스템
본 발명은 예를 들면 음성 인식 또는 이미지 인식 시스템용 패턴 인식 시스템에 관한 것이다.
실용적인 음석 인식 시스템은 일상적인 사용할 때에 마주칠 수 있는 서로 다른 환경 조건하에서 동작할 수 있어야 한다. 일반적으로 그런 시스템의 최적 성능은 특정 환경에 맞도록 설계된 동등한 인식기의 그것보다는 나쁘지만, 배경 조건이 인식기가 설계되었던 환경으로부터 멀어질 때 그런 인식기의 성능은 심하게 저하된다. 하이레벨의 주위 잡음은 자동 음성 인식 처리기에 있어서 중요한 문제점중 하나이다. 소음원은 배경 음성, 사무소 설비, 트래픽, 기계의 험(hum) 등을 포함한다. 이동전화와 연관하여 특히 문제가 되는 잡음원은 전화가 사용되고 있는 곳에서 자동차에서 발생하는 것이다. 이 잡음원은 종종 상당한 음향 잡음을 제공하여 음성 인식 처리기의 심각한 성능 저하를 초래한다.
예를 들어 수기(handwriting) 인식과 같은 이미지 처리에 있어서, 사용자는 대개 시스템이 입력 수기를 인식하도록 매우 명확하게 기입해야 한다. 한 사람의 수기에서의 변칙성은 시스템이 연속적으로 잘못 인식하도록 할 수 있다.
음성 인식 처리에 있어서 음성 데이터는 통상 디지털 형태로 입력 음성 데이터 스트림으로부터 기능 세트 또는 벡터로 된 보다 압축되고 지각적으로 의미있는 데이터 세트를 끌어내는 처리기에 입력되는 것이 일반적이다. 예를 들면, 음성은 통상 마이크로폰을 통해 입력되고, 샘플링되고, 디지털화되며, 길이 10-20㎳(예를 들어 8㎑로 샘플링됨)의 프레임으로 세그먼트화되며, 각 프레임에 대해 한 세트의 계수가 계산된다. 음성 인식에서 화자는 주지된 단어 또는 구 세트, 인식기의 어휘 중 하나를 말하는 것으로 정상적으로 가정된다. 템플릿(template) 또는 모델로 알려진 단어 또는 구의 저장된 표현은 화자 독립 인식의 경우에 다수의 화자로부터 이전에 도출된 것으로 그 단어의 레퍼런스(reference) 기능 행렬을 포함한다. 입력 기능 벡터는 그 모델과 맞춰지고, 이들 양자 사이의 유사성 정도가 생성된다.
광대역 잡음이 존재하는 경우에 보다 낮은 레벨의 음성 스펙트럼의 특정 영역은 다른 것들보다도 잡음의 영향을 더 많이 받을 것이다. 잡음 차폐(masking) 기술이 개발되어왔고, 이 기술로 서로 다른 배경 잡음레벨에 기인한 비논리적인 차이가 제거된다. 1976년, Proceedings ICASSP, 573-576페이지에 실린 D H Klatt의 "스펙트럼 매칭을 위한 디지털 필터 뱅크"에 개시된 바와 같이 이것은 입력 신호의 각각의 추출된 기능 레벨과 잡음의 추정을 비교함으로써 얻어지고, 입력 기능에 대한 레벨이 잡음 추정의 대응하는 기능보다 낮으면 그 기능에 대한 레벨은 잡음 레벨로 세트된다. Klatt에 의해 개시된 기술은 각 세션의 초기에 지정된 구를 사용자가 말한다는 것에 의존한다. 입력으로부터 도출된 스펙트럼은 그 구에 대한 모델 스펙트럼과 비교되고, 세션의 남은 기간에 발음된 어구의 모든 스펙트럼 프레임에 부가되는 정규화 스펙트럼이 계산된다.
Klatt는 또한 정규화 스펙트럼 계산에 앞서 공통 잡음 플로어(floor)가 계산되어야 한다고 주장한다. 이는 각 세션의 초기에 배경 잡음의 1초 샘플을 레코딩함으로써 얻어진다. 그러나, 이 구성은 잡음 플로어 추정 동안 침묵을 유지하고 정규화 스펙트럼의 계산을 위해 지정된 구를 말해야한다는 것을 사용자가 주지하고 있다는 것에 의존한다.
1986년, Proceedings ICASSP, J N Holmes와 N C Sedgwick의 논문, "개연성 모델을 사용한 음성 인식을 위한 잡음 보상"에서 입력 신호의 기능들은 얻어지는 차폐된 입력 기능이 시스템 템플릿의 대응하는 기능 레벨보다 클 때만 잡음 레벨에 의해 "차폐"된다.
이들 양자의 방법은 모두 방해 잡음 신호의 추정을 필요로 한다. 이 추정을 얻기 위해 사용자는 침묵을 유지하고, 한 세션의 특정 포인트에서 지정된 구를 말하는 것을 필요하다. 그런 구성은 사용자가 항상 협력할 것으로 신뢰할 수 없기 때문에 자동 음성 인식을 사용하는 라이브 서비스에는 분명히 부적합하다.
유럽특허출원 제625774호는 음성 검출 장치에 관한 것이고, 여기서 음성 사운드(음소)의 모델은 트레이닝(training) 데이터로부터 오프라인으로 발생된다. 입력 신호는 이때 각 모델과 비교되고, 이 비교에 기초하여 신호가 음성을 포함하는지에 관한 결정이 행해진다.
따라서 이 장치는 입력 신호가 어떤 음소를 포함하는지를 결정하고, 만약 그렇다면 입력 신호가 음성을 포함한다고 결정한다. 이 음소 모델은 화자의 대표적인 면에 대한 양호한 표현을 제공하기 위해 다수의 화자로부터 오프라인으로 발생된다.
일본특허출원 제1-260495호는 음성 인식 시스템을 개시하고 있고, 여기서 총칭 잡음 모델은 다시 오프라인으로 형성된다. 인식 초기에 입력 신호는 모든 총징 잡음 모델에 비교되고, 입력 신호의 특성과 가장 근접한 잡음 모델이 식별된다. 이 식별된 잡음 모델은 이때 총칭 음소 모델을 변환하는데 사용된다. 이 기술은 잡음 모델에 대한 식별이 실행되는 동안 사용자가 침묵을 유지하는 것에 추정가능하게 의존한다. 사용자가 말을 하고 있다면, 가장 근접한 일치하는 잡음 모델이 현존하는 실제 잡음과 전혀 닮지 않을 때까지 계속 식별될 것이다.
일본특허출원 제61-100878호는 잡음 삭감/차폐 기술을 이용하는 패턴 인식 장치에 관한 것이다. 적응형 잡음 마스크가 사용된다. 입력 신호는 모니터되고, 특성 변수가 식별되면 이것은 잡음으로 식별된다. 잡음으로 식별되는 신호의 이런 부분들은 차폐되고(즉, 0의 크기를 갖는), 차폐된 입력 신호는 패턴 인식 장치에 입력된다. 잡음을 식별하는데 사용된 통상적인 특성 변수는 이 특허출원에서는 식별되지 않는다.
유럽특허출원 제594480호는 특히 항공전자공학 분야에서 사용하기 위해 개발된 음성 검출 방법에 관한 것이다. 이 방법의 목적은 음성의 시작과 끝을 검출하고, 방해 신호를 차폐하는 것이다. 또한 이것은 음성 개시 전에 취해진 잡음의 추정에 의해 신호가 차폐되고, 차폐된 신호에 대해 인식이 실행되는 주지된 차폐 기술과 유사하다.
본 발명에 따른 음성 인식 장치는
인식되는 음성과 비음성 사운드를 나타내는 레퍼런스 패턴의 기억장치;
입력 신호에 대응하는 레퍼런스 패턴의 시퀀스를 식별하고, 이 식별된 시퀀스에 기초하여 입력 신호를 적어도 하나의 음성 포함 부분과 적어도 하나의 비음성 부분으로 반복적으로 분할하는 분류수단;
이후에 패턴 식별을 목적으로 상기 분류수단에 의해 사용되는 비음성 부분에 대응하는 잡음 패턴을 발생하는 잡음 패턴 발생기; 및
상기 식별된 시퀀스에 따라 입력 신호의 인식을 나타내는 인식 신호를 제공하는 출력 수단을 포함한다.
따라서 잡음 패턴은 직접적인 음성일 것으로 간주되는 것이 아니라 입력 신호의 일부로부터 발생되고, 현재 입력 신호에 대한 방해 잡음 변수의 추정을 나타낸다. 잡음 패턴 발생기는 신호의 각 부분이 음성일 것으로 간주된 후에 잡음 표현 패턴을 발생하도록 구성되고, 가장 새로운 잡음 패턴이 이전에 발생된 잡음 패턴을 대체하는 것이 바람직하다.
잡음 표현 패턴 발생기는 최초의 레퍼런스 패턴을 발생하기 위해 사용된 동일한 기술에 따라 잡음 표현 패턴(들)을 발생하도록 구성된다. 이런 구성은 최초 레퍼런스 패턴이 발생된 잡음 패턴(들)에 의해 변환되도록 한다. 단어 모델을 변환하는 기술에 대한 한 예는 1993년, Proc. Eurospeech, 837-840페이지에 실린 M J F Gales와 S J Young의 "병렬 모델 조합을 사용하는 잡음의 HMM 인식"에 개시되어 있다.
여기서 용어 "단어"는 음성 단위를 의미하고, 이것은 한 단어일 수도 있지만, 또한 다이폰(diphone), 음소, 이음(allophone) 등일 수도 있다. 레퍼런스 패턴은 히든 마르코브 모델(HMM), 동적 시간 왜곡(DTW) 모델, 템플릿 또는 다른 적절한 단어 표현 모델일 수 있다. 한 모델내에서 발생하는 처리는 본 발명에 관한 한 무관하다. 인식은 미지의 발음된 어구를 지정된 천이(transition) 네트워크와 일치시키는 처리이고, 상기 네트워크는 사용자가 말하기 쉬운 것과 호환되도록 설계되었다.
본 발명의 제 2 태양에 따르면,
복수의 레퍼런스 패턴을 각각 입력 신호와 비교하는 단계;
그 입력신호에 대응하는 레퍼런스 패턴의 시퀀스를 식별하고, 이 식별된 시퀀스에 따라 입력 신호의 인식을 표시하는 단계;
허용가능한 레퍼런스 패턴에 대응하지 않는 것으로 간주되는 입력 신호의 부분을 식별하는 단계; 및
허용가능한 레퍼런스 패턴에 대응하지 않는 것으로 식별되는 입력 신호의 부분들에서 이후의 비교에 사용할 부가적인 레퍼런스 패턴을 발생하는 단계를 포함하는 것을 특징으로 하는 패턴 인식 방법이 제공된다.
본 발명의 다른 태양에 따르면
레퍼런스 패턴의 기억장치;
레퍼런스 패턴을 각각 입력신호의 연속적인 부분들과 비교하고, 각각의 부분에 대하여 그 부분과 가장 근접하게 일치하는 레퍼런스 패턴을 식별하는 비교 수단;
입력신호에 대응하는 것으로 갖주된 레퍼런스 패턴의 시퀀스에 기초하여 입력신호의 인식을 나타내는 신호를 출력하는 출력;
허용가능한 레퍼런스 패턴에 대응하는 것으로 간주되지 않는 입력 신호의 부분을 식별하는 수단; 및
입력 신호의 식별된 부분에서 이후에 상기 비교 수단에 의해 사용할 레퍼런스 패턴을 발생하는 수단을 포함하는 것을 특징으로 하는 패턴 인식 장치가 제공된다.
허용가능한 패턴들은 인식기 어휘의 단어들(앞에서 정의된 바와 같이)을 나타낼 수 있다. 예를 들면 기계의 소음, 거리 소음, 자동차 엔진 소음과 같은 비음성 사운드를 나타내는 "허용불가능한" 레퍼런스 패턴이 또한 제공될 수 있다. 총칭 음성 사운드를 나타내는 레퍼런스 패턴이 또한 제공될 수도 있다. 따라서 허용가능한 레퍼런스 패턴과 근접하게 일치하지 않는 입력 신호의 부분은 부가적인 레퍼런스 패턴을 발생하는데 사용될 수 있다.
이제 첨부한 도면을 참조하고 예를 통해서 본 발명에 대해 기술한다.
도 1은 통신 환경의 대화형 자동 음성 시스템에서의 본 발명에 따른 패턴 인식 시스템의 이용을 개략적으로 보여주는 도면,
도 2는 본 발명에 따른 음성 인식 장치의 기능요소를 보여주는 도면,
도 3은 도 2의 음성 인식 장치의 일부를 형성하는 분류 처리기의 기능요소를 개략적으로 보여주는 블록도,
도 4는 도 2의 음성 인식 장치의 일부를 형성하는 시퀀서(sequencer)의 기능요소를 개략적으로 보여주는 블록도,
도 5는 도 4의 일부를 형성하는 기억장치내의 한 필드에 대한 개략적인 표현,
도 6은 도 4의 시퀀서에 의해 실행된 파티셔닝(partitioning)을 설명하는 도면,
도 7은 로컬 잡음 모델의 발생에 대한 흐름도를 보여주는 도면,
도 8은 인식 네트워크의 개략적인 표현,
도 9는 본 발명에 따른 음성 인식 장치에 사용할 잡음 모델 발생기의 제 2 실시예를 보여주는 도면 및
도 10은 여러 인식 시스템의 상대적인 성능을 보여주는 도면이다.
통계적인 신호 모델링에 대하여 주지된 방식은 1988년 4월, British Telecom Technology Journal, Vol. 6, No. 2 105-115 페이지에 실린 S J Cox의 논문, "자동 음성 인식을 위한 히든 마르코브 모델: 이론과 응용"에 기술된 바와 같이 히든 마르코브 모델(HMM)을 사용한다. 본 발명은 HMM의 사용을 참조하여 기술된다. 그러나 본 발명은 통계적인 모델에 한정되지 않는다. 적절한 패턴 인식 방법이 사용될 수 있다. HMM의 이론과 실질적인 구현은 음성 인식 분야에 주지되어 있고, 여기에서는 더 이상 기술되지 않는다.
도 1에서, 음성 인식을 포함하는 통신시스템은 일반적으로 마이크로폰(1)(통상 전화 핸드세트의 일부를 형성), 통신네트워크(2)(통상 공용 교환 통신네트워크(PSTN)), 이 네트워크(2)로부터 음성 신호를 수신하도록 연결된 음성 인식 처리기(3) 및 이 음성 인식 처리기(3)에 연결되어 이로부터 특정 단어 또는 구의 인식 여부를 나타내는 음성 인식 신호를 수신하고, 이에 응답하여 동작을 행하도록 구성된 이용장치(4)를 포함한다. 예를 들어 이용장치(4)는 은행 거래를 행하는 원격 조작 은행 단말기일 수 있다.
많은 경우에 있어서 이용장치(4)는 네트워크(2)를 통하여 통상 사용자의 핸드세트의 일부를 형성하는 스피커(5)에 전송되는 사용자가 청취가능한 응답을 발생한다.
동작에 있어서 사용자는 마이크로폰(1)에 대고 말을 하고, 신호는 마이크로폰(1)에서 네트워크(2)를 통하여 음성 인식 처리기(3)에 전송된다. 음성 인식 처리기는 음성 신호를 분석하고, 특정 단어 또는 구의 인식 여부를 나타내는 신호가 발생되어 음성 인식의 경우에 적절한 동작을 행하는 이용장치(4)에 전송된다.
음성 인식 처리기(3)는 마이크로폰(1)에서 네트워크(2)로, 그리고 네트워크(2)를 지나는 신호에 의해 취해진 경로를 무시한다. 다양한 형태 또는 질의 핸드세트가 사용될 수 있다. 마찬가지로 네트워크(2)내에서 무선 링크, 아날로그 및 디지털 경로 등의 다양한 전송경로가 취해질 수 있다. 따라서 음성 인식 처리기(3)에 도달하는, 마이크로폰(1)의 변환 특성, 네트워크(2)에 대한 링크, 네트워크(2)를 지나는 채널 및 음성 인식 처리기(3)에 대한 링크가 얽힌 음성 신호 Y는 마이크로폰(1)에서 수신된 음성 신호 S에 대응하고, 단일 전송 특성 H에 의해 일괄적으로 처리되고, 설계될 수 있다.
도 2에서, 인식 처리기(3)는 음성을 디지털 형태(디지털 네트워크 또는 아날로그-디지털 변환기중 어느 하나에서)로 수신하는 입력, 일련의 디지털 샘플을 연속하는 샘플의 일련의 프레임으로 분할(partition)하는 프레임 발생기(32); 샘플의 한 프레임에서 대응하는 기능 벡터를 발행하는 기능 추출기(33); 입력 신호의 프레임을 수신하고, 이로부터 잡음 표현 모델을 발생하는 잡음 표현 모델 발생기(35); 일련의 기능 벡터를 수신하고, 인식 결과를 발생하기 위해 이것을 각각 복수의 모델과 비교하는 분류기(36); 분류기(36)로부터 분류 결과를 수신하고 분류기 출력의 시퀀스가 최대 유사성을 나타내는 지정된 구어를 결정하도록 구성되는 시퀀서(37); 및 인식된 음성 발음 어구를 나타내는 인식 신호가 제공되는 출력 포트(38)를 포함한다.
프레임 발생기(32)
프레임 발생기(32)는 예를 들어 초당 8,000개의 샘플을 갖는 샘플율로 음성 샘플을 포함하는 음성 신호를 수신하고, 매 16㎳ 마다 하나의 프레임을 갖는 프레임율로 256개의 연속적인 샘플(즉, 음성 신호의 32㎳)을 포함하는 프레임을 형성하도록 구성된다. 각 프레임은 프레임의 에지에 의해 발생되는 가상 구조를 줄이기 위해 해밍 윈도우(Hamming window)를 사용하여 윈도우로 나누어지는 것이 바람직하다(즉 프레임 에지측의 샘플은 지정된 가중 상수와 곱해진다). 바람직한 실시예에서 프레임은 윈도우로 나누어지는 것에 의한 효과를 개선하기 위해 오버래핑(50% 까지)된다.
기능 추출기(33)
기능 추출기(33)는 프레임 발생기(32)에서 프레임을 수신하고, 각각의 경우에 기능 세트 또는 벡터를 발생한다. 예를 들어 기능은 켑스트럴(cepstral) 계수(예를 들면 1982년 proc. IEEE 2026페이지에 실린 Chollet & Gagnoulet의 "레퍼펀스(reference) 시스템을 사용하는 음성 인식기와 데이터베이스의 평가에 대하여"에 기술된 바와 같은 선형 예측 코딩(LPC) 켑스트럴 계수) 또는 멜(mel) 주파수 켑스트럴 계수(MFCC) 또는 1988년 IEEE Trans. on Acoustics, Speech and Signal Processing Vol. 36 No. 6 871페이지에 실린 Soong & Rosenberg의 "화자 인식의 즉각적이고 과도적인 스펙트럼 정보의 사용에 대하여"에 기술된 바와 같은 각각의 계수에 대하여 선행 벡터의 계수와 대응하는 계수 값 사이의 차이를 포함하는 계수의 차이값)를 포함할 수 있다. 마찬가지로 여러 가지 형태의 기능 계수를 혼합하여 사용할 수도 있다.
최종적으로 기능 추출기(33)는 각각의 연속적인 프레임에 대하여 증가된 프레임 수를 출력한다. 기능 벡터들은 분류기(36)와 잡음 모델 발생기(35)에 입력된다. FIFO 버퍼(39)는 기능 벡터들이 잡음 모델 발생기(35)로 전송되기 전에 이들을 일시 저장한다.
이 실시예에서 프레임 발생기(32)와 기능 추출기는 하나의 적절히 프로그램된 디지털 신호 처리기(DSP) 장치(모토롤라사의 DSP 56000 또는 텍사스 인스트루먼트사의 TMS C 320과 같은) 또는 이와 유사한 장치에 의해 제공된다.
분류기(36)
도 3을 참조하면, 이 실시예에서 분류기(36)는 분류 처리기(361)과 상태 메모리(362)를 포함한다.
상태 메모리(362)는 인식되는 복수의 음성 단위, 예를 들면 이음(allophone)에 대하여 상태 필드(3621, 3622, ...)를 포함한다. 예를 들어 인식 처리기에 의해 인식되는 이음은 3개의 상태를 포함하는 HMM에 의해 표시되고, 따라서 각 이음에 대하여 변수를 저장하기 위해 3개의 상태 필드(3621a, 3621b, 3621c)가 상태 메모리(362)에 제공된다.
이 상태 필드들은 연관된 이음의 HMM 표본의 상태를 정의하는 변수들을 저장하고, 그 변수들은 데이터 보조 세트로부터 종래의 방식으로 지정되었다. 상태 메모리(362)는 또한 상태 필드(362n)에 평균 회선 잡음의 추정을 모델링하는 변수를 저장하고, 그 추정은 종래의 방식으로 예를 들면 복수의 전화 통화로부터의 신호에서 오프라인으로 발생된다.
분류기(36)는 이에 대한 각각의 프레임 입력에 대하여 메모리(362)내의 각각의 상태 필드를 번갈아 판독하도록 구성되며, 각각에 대하여 현재의 입력 기능 계수 세트를 사용하여 입력 기능 세트 또는 벡터가 대응하는 상태에 대응하는 확률 Pi를 계산한다.
따라서, 분류기의 출력은 입력 기능 벡터가 각각의 상태에 대응하는 가능성을 나타내는 복수의 상태 확률 Pi이고, 이것은 상태 메모리(362)의 각각의 상태에 대하여 하나이다.
분류 처리기(361)는 적절히 프로그램된 디지털 신호 처리(DSP) 장치일 수 있고, 특히 기능 추출기(33)와 동일한 디지털 신호 처리장치일 수도 있다.
시퀀서(37)
도 4를 참조하면, 이 실시예에서 시퀀서(37)는 상태 시퀀스 메모리(372), 문장분석 처리기(371) 및 시퀀서 출력 버퍼(374)를 포함한다.
또한 처리된 각각의 프레임에 대하여 분류 처리기(361)의 출력을 저장하는 상태 확률 메모리(373)가 제공된다. 상태 시퀀스 메모리(372)는 각각 일련의 이음과 잡음으로 구성되는 인식되는 단어 또는 구에 대응하는 복수의 상태 시퀀스 필드(3721, 3722, ...)를 포함한다.
상태 시퀀스 메모리(372)의 각각의 상태 시퀀스는 도 5에 도시된 바와 같이 복수의 상태(S1, S2, ..., SN)와 각각의 상태에 대하여 2개의 확률, 반복 확률(Pii)와 다음 상태로의 천이 확률(Pii+1)을 포함한다. 시퀀스의 상태는 3개의 상태로 구성된 복수의 그룹이고, 각각의 단일 이음과 적절한 경우에 잡음과 관련된다. 따라서 일련의 프레임과 연관된 상태의 관측된 시퀀스는 각각의 상태 시퀀스 모델(3721i) 등의 각각의 상태 Si에 대한 수회 반복을 포함할 수 있다. 예를 들면 다음과 같다.
프레임
1 2 3 4 5 6 7 8 9 ... Z Z+1
상태 S1 S1 S1 S2 S2 S2 S2 S2 S2 ... Sn Sn
문장분석 처리기(371)는 각각의 프레임에서 상태 확률 메모리(373)에 저장된 상태 확률을 판독하고, 시간을 초과한 날짜에 대하여 가장 적절한 상태 경로를 계산하며, 이 경로와 상태 시퀀스 메모리(372)에 저장된 상태 시퀀스와 비교하도록 구성된다. 예를 들어 상태 시퀀스는 전화번호의 이름 또는 숫자열을 포함할 수 있다.
계산은 위에서 인용된 Cox의 논문에 기술된 주지된 히든 마르코브 모델 방법을 이용한다. 통상 문장분석 처리기(371)에 의해 실행된 HMM 처리는 주지된 비터비(Viterbi) 알고리즘을 이용한다. 문장분석 처리기(371)는 예를 들어 인텔의 i-486 마이크로프로세서 또는 모토롤라의 68000 마이크로프로세서와 같은 마이크로프로세서일 수 있고, 대안적으로 DSP 장치(예를 들어 상기 프로세서에 이용되는 것과 동일한 DSP 장치)일 수 있다.
따라서 (인식되는 단어, 구 또는 다른 음성 시퀀스에 대응하는) 각각의 상태 시퀀스에 대하여 확률 스코어(score)가 입력 음성의 각 프레임에서 문장분석 처리기(371)에 의해 출력되고, 출력 버퍼(374)에 저장된다. 따라서 버퍼(374)는 입력 신호의 각 프레임과 각 시퀀스에 대하여 확률 스코어, 프레임 수에 대한 레코드 및 확률 스코어가 관련되는 상태 모델에 대한 레코드를 포함한다. 구어의 끝이 검출되면, 대응하는 이름, 단어 또는 구가 인식된 것을 나타내기 위해 가장 적절한 상태 시퀀스를 나타내는 레이블(label) 신호가 버퍼에서 출력 포트(38)로 출력된다.
그리고 시퀀스 처리기는 버퍼(374)에 포함된 정보를 검사하고, 프레임 수에 의해 음성 인식 장치의 어휘내에 속하는 것으로 인식되는 입력 신호의 부분들(여기서는 음성 부분으로 인용됨)과 그 어휘내에 속하지 않는 것으로 간주되는 입력 신호의 부분들(여기서는 "잡음 부분"으로 인용됨)을 식별한다. 이것은 도 6에 도시되어 있다. 그리고 시퀀스 처리기(37)는 이러한 잡음 부분들을 구성하는 프레임 수를 로컬 잡음 모델을 발생하는 잡음 모델 발생기(35)로 전송한다. 시퀀서(37)는 비터비(Viterbi) 인식 알고리즘에 의해 음성 부분의 종료 시점에서의 부정확성으로 인해 음성 데이터가 잡음 부분에 속하는 것을 방지하기 위해 입력 신호의 간주된 음성 부분의 어느 한쪽의 몇 개의 프레임(예를 들어 3개)에 대한 안전 여유를 제공하도록 구성된다. 예를 들어 6개의 연속적인 프레임에 대한 최소 제한이 잡음 부분을 한정하기 위해 적용된다. 이에 의해 모델화된 잡음과 유사하게 보이는 가상 프레임이 로컬 잡음 모델을 발생하는데 사용되는 것을 방지된다.
잡음 모델 발생기(35)
시퀀스 처리기(37)에 의해 식별된 입력 신호의 잡음 부분내로 제한된 프레임에 대한 기능 벡터는 버퍼(39)로부터 잡음 모델 발생기(35)로 입력된다. 잡음 모델 발생기는 이에 대한 기능 벡터 입력을 모델화하는 HMM를 한정하는 변수를 발생한다. 잡음 표현 모델 발생기(35)는 단일 상태를 갖는 HMM를 발생하도록 구성되지만, 다른 모든 변수들(천이 확률, 모델의 수 등)은 변화할 수 있다.
잡음 모델은 도 7에 도시된 바와 같이 종래의 클러스터링(clustering) 알고리즘을 사용하여 발생된다. 그런 알고리즘은 1980년 1월, IEEE Trans Com-28에 실린 Y. Linde, A Buzo 및 R M Gray의 "벡터 양자화 설계에 대한 알고리즘"에 기술되어 있다. 입력 데이터는 계산되는 상태의 수에 따라 균일하게 절편화되고, 특정 레이블(즉, HMM의 상태)의 세그먼트는 모두 한 곳에 모이게 된다(pooled). 그리고 각 상태에 대한 모델의 수와 관련하여 클러스터의 수가 선택된다. 그리고 풀(pool)의 벡터는 각각 유클리딘(Euclidean) 거리 미터법을 사용하여 중심이 가장 가까운 풀 클러스터(상태 평균)에 할당된다. 그리고 가장 큰 평균 거리를 갖는 클러스터는 분할되고, 이 "가장 산만한" 클러스터는 기초적인 분산의 최소한의 표본으로 가정된다. 이 분할은 클러스터의 중심 벡터를 ±0.1 표준 편향 또는 ±0.5 정도 이동함으로써 달성된다. 그리고 데이터 벡터는 모두 새로운 클러스터 세트에 재할당되고, 클러스터 중심이 다시 계산된다. 재할당/재계산 루프는 클러스터 수렴 또는 최대 클러스터 반복 수에 도달할 때까지 반복되고, 이렇게 하여 로컬 잡음의 추정이 발생한다. 그리고 이 추정을 모델화하기 위해 HMM 변수가 계산된다. 잡음 모델 발생기(35)에 의해 발생된 잡음 모델은 분류기(36)로 전송되고, 이후의 인식을 위해 상태 메모리(362)에 저장된다.
상기한 바와 같이, 시퀀스 처리기(371)는 예를 들면 숫자열과 같은 특정 구 또는 단어를 인식하도록 특별히 구성된 상태 모델의 시퀀스(3721, 3722, ...)와 연관된다. 이런 상태 모델의 시퀀스는 간단한 형태로 예를 들어 도 8에 도시된 인식 네트워크로서 표현될 수 있다.
도 8은 3 숫자열을 인식하도록 설계된 인식 네트워크(82)를 도시하고 있다. 실제로 이 숫자들은 도 6과 연관하여 논의된 바와 같이 일련의 이음으로 표현된다. 그러나, 간단함을 위해 도 8의 네트워크는 일련의 노드(84)로서 도시되어 있고, 이들 각 노드들은 전체 숫자를 나타낸다. 숫자열은 잡음 노드(86, 88)에 의해 양측으로 제한된다. 네트워크의 각 노드(84, 86, 88)는 그 노드의 숫자를 나타내는 모델과 연관된다. 즉, 노드(841)는 단어 "1"이 나타내는 모델과 연관되고, 노드(842)는 단어 "2"가 나타내는 모델과 연관되며, 노드(843)는 단어 "3"이 나타내는 모델과 연관되며, 등등. 종래와 마찬가지로 초기에는 잡음 노드(86)와 연관된 미리 발생된 회선 잡음 모델만이 이용가능하다. 숫자(1-9), 노트(naught), 제로(zero), "오(oh)" 및 회선 잡음에 대한 모델은 HMM을 한정하는 변수로서 상태 메모리(362)에 저장된다. 잡음 노드(88)와 연관된 잡음 모델 발생기(35)에 의해 발생된 잡음 모델도 또한 상태 메모리(362)에 저장된다. 잡음 유일 경로(89)가 또한 제공된다.
음성 인식은 다음과 같이 동작한다. 입력 신호는 프레임 발생기(32)에 의해 데이터 프레임으로 분리된다. 기능 추출기(33)는 데이터의 각 프레임으로부터 기능 벡터를 발생한다. 분류기(36)는 상기한 바와 같이 입력 신호의 기능 벡터와 상태 필드 기억장치(362)에 저장된 각각의 상태 필드(또는 모델)를 비교하고, 복수의 확률을 출력한다. 그리고 시퀀서(37)는 입력과 허용된 상태 시퀀스 사이의 일치의 근사를 나타내는 스코어를 출력하고, 어떤 상태 시퀀스가 가장 근사한 일치를 제공하는지를 결정한다. 가장 근사한 일치를 제공하는 시퀀스는 그 장치에 의해 인식된 구어를 나타내는 것으로 간주된다.
시퀀서는 신호의 잡음 부분을 나타내는 것으로 간주되는 입력 신호의 그런 프레임들을 식별한다. 이 정보는 기능 추출기로부터 식별된 프레임에 대한 기능 벡터를 수신하고, 이에 대하여 기능 벡터 입력을 모델화하는 단일 상태 HMM에 대한 변수를 계산하는 잡음 모델 발생기(35)로 전송된다.
일단 잡음 모델 발생기가 로컬 잡음을 나타내는 모델의 변수들을 발생하면, 이 변수들("로컬 잡음 모델")은 상태 메모리(362)의 상태 필드에 저장된다. 그리고 이 로컬 잡음 모델을 사용하여 동일한 입력 신호에 대해 두 번째 인식이 실행된다. 그리고 이후의 인식 실행은 도 8에 간략히 도시된 바와 같이 회선 잡음 모델과 로컬 잡음 모델을 모두 사용한다.
본 발명에 따른 장치의 한 실시예의 효율성을 평가하기 위해 실행된 실험에서 상당한 개선이 이루어졌음이 밝혀졌다. 입력 신호가 음성과 잡음 부분으로 수동으로 분할되는 "최적 성능" 또는 "일치형" 시스템은 입력된 단어의 96.01%를 정확히 인식하였다. 총칭 회선 잡음 모델만이 사용된 시스템은 단어의 92.40%를 정확히 인식하였다. 로컬 잡음에 대한 단일 추정이 하나의 호출과 단일 모드, 계산된 단일 상태 HMM에 대해 발생되는 본 발명에 따른 장치는 사용자가 말한 단어의 94.47%를 정확히 인식하였다.
본 발명의 다른 실시예에 따르면, 새로운 로컬 잡음 모델은 입력 신호의 음성 부분 뒤에 발생되고, 이전의 로컬 잡음 모델에 겹쳐쓰면서 상태 메모리(362)에 저장된다. 이것은 잡음 모델이 예를 들면 전화 호출과 같은 세션의 시작에서 잡음의 샘플로 발생되는 것보다도 잠재적으로 변화하는 실제 상태에 대한 표본인 것을 의미한다.
로컬 잡음의 추정은 단어 표현 모델을 조정하는데 사용될 수 있다. 이것은 소음이 대개 부가적인 것, 즉 입력 신호는 음성 신호와 소음의 합이기 때문에 비교적 간단한 기술이다.
단어 표현 모델 조정은 선형 필터 뱅크 도메인에서 실행된다. 도 9는 이런 조정 단계를 도시하고 있다. 이 실시예에서 각각의 단어 표현 모델 또는 상태 필드 기억장치(362)에 저장된 상태는 멜(mel) 주파수 도메인의 통상적인 단어의 구어를 나타내는 복수의 멜 주파수 켑스트럴 계수(MFCC)를 포함한다. 단어 모델의 각각의 켑스트럴 계수는 예를 들면 주파수 계수를 발생하기 위해 켑스트럴 계수에 대해 역 이산 코사인 변환(DCT)을 실행하고, 역 알고리즘을 취함으로써 켑스트럴 도메인에서 주파수 도메인으로 변환된다(92). 그리고 잡음 모델 발생기(35)에 의해 발생된 추정된 로컬 잡음 모델 기능 벡터(93)가 단어 모델의 주파수 계수에 가산된다(94). 그리고 발생되는 벡터의 로그(log)는 분류기(36)의 상태 메모리(362)에 저장된 조정형 단어 모델(96)과 조정형 모델을 발생하기 위해 이산 코사인 변환(DCT)에 의해 켑스트럴 도메인으로 다시 변환된다. 발생되는 조정형 단어 표현 모델은 일치된 조건들을 시뮬레이션한다. 최초의 단어 표현 모델(91)은 새로운 조정형 단어 표현 모델을 발생하기 위해 이후에 발생된 잡음 표현 모델에 의해 조정되도록 유지된다.
도 10은 단어 표현 모델의 조정을 포함하는 본 발명에 따른 음성인식장치의 한 실시예의 성능을 도시하고 있다. "일치형" 시스템, (상기한) 본 발명에 따른 "조정형" 시스템, (1979년 4월, IEEE Trans. ASSP, 113페이지에 실린 S Boll의 "스펙트럼 감산을 사용한 음성의 음향 잡음 억제"에 기술된 바와 같은) "차폐형" 시스템 및 비보상 시스템, 즉 일반적인 회선 잡음 모델을 갖고 다른 보상은 없는 시스템에 대한 결과들이 도시되어 있다. 본 발명에 의해 제공된 이점들, 본 발명에 따른 시스템의 성능은 잡음 차폐형 시스템보다 10%, 10㏈의 신호 대 잡음비(SNR)에서 스펙트럼 감산 시스템 보다 26% 더 정확하다는 것을 명백히 알 수 있다.

Claims (10)

  1. 인식되는 음성과 비음성 사운드를 나타내는 레퍼런스 패턴의 기억장치(362);
    입력 신호에 대응하는 레퍼런스 패턴의 시퀀스를 식별하고, 식별된 시퀀스에 기초하여 상기 입력 신호를 음성 포함 부분과 적어도 하나의 비음성 부분으로 반복적으로 분할하는 분류수단(36, 37);
    패턴 식별을 목적으로 상기 분류수단(36, 37)에 의한 이후의 사용을 위해 상기 비음성 부분에 대응하는 잡음 패턴을 발생하는 잡음 패턴 발생기(35); 및
    상기 식별된 시퀀스에 따라 상기 입력 신호의 인식을 나타내는 인식 신호를 제공하는 출력수단(374)을 포함하는 것을 특징으로 하는 음성 인식 장치.
  2. 제 1 항에 있어서,
    상기 잡음 패턴 발생기(35)는 음성 신호의 비음성 부분에서 패턴을 발생하도록 구성되는 것을 특징으로 하는 음성 인식 장치.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 잡음 패턴 발생기(35)는 상기 입력 신호의 비음성 부분의 기간이 지정된 기간보다 크거나 같을 경우에만 잡음 패턴을 발생하도록 구성되는 것을 특징으로 하는 음성 인식 장치.
  4. 제 1 항 내지 제 3 항중 어느 한 항에 있어서,
    상기 잡음 패턴 발생기(35)는 비음성 부분으로부터 히든 마르코브 모델에 대한 변수를 계산하는 것을 특징으로 하는 음성 인식 장치.
  5. 제 1 항 내지 제 4 항중 어느 한 항에 있어서,
    발생된 잡음 패턴에 응답하여 음성 레퍼런스 패턴을 조정하기 위해 조정수단이 제공되는 것을 특징으로 하는 음성 인식 장치.
  6. 제 5 항에 있어서,
    제 4 항에 종속될 때, 상기 조정수단은 각각의 음성 레퍼런스 패턴에 대한 히든 마르코브 모델에 잡음 패턴의 평균을 가산하도록 구성되는 것을 특징으로 하는 음성 인식 장치.
  7. 복수의 레퍼런스 패턴을 각각 입력 신호와 비교하는 단계;
    상기 입력 신호에 대응하는 레퍼런스 패턴의 시퀀스를 식별하고, 그 식별된 시퀀스에 따라 상기 입력 신호의 인식을 표시하는 단계;
    허용가능한 레퍼런스 패턴에 대응하지 않는 것으로 간주되는 입력 신호의 부분들을 식별하는 단계; 및
    허용가능한 레퍼런스 패턴에 대응하지 않는 것으로 식별되는 입력신호의 부분들에서 이후의 비교에서 사용하기 위해 부가적인 레퍼런스 패턴을 발생하는 단계를 포함하는 것을 특징으로 하는 패턴 인식 방법.
  8. 레퍼런스 패턴의 기억장치;
    레퍼런스 패턴을 각각 입력 신호의 연속하는 부분들과 비교하고, 각각의 부분에 대하여 그 부분에 가장 근사하게 일치하는 레퍼런스 패턴을 식별하는 비교수단;
    상기 입력 신호에 대응하는 것으로 간주된 레퍼런스 패턴의 시퀀스를 나타내는 신호를 출력하는 출력;
    허용가능한 레퍼런스 패턴에 대응하지 않는 것으로 간주되는 입력 신호의 부분을 식별하는 수단; 및
    상기 비교수단에 의한 이후의 사용을 위해 상기 입력 신호의 식별된 부분에서 레퍼런스 패턴을 발생하는 수단을 포함하는 것을 특징으로 하는 패턴 인식 장치.
  9. 제 8 항에 있어서,
    허용가능한 레퍼런스 패턴에 대응하지 않는 것으로 간주되는 입력 신호의 각 부분에서 레퍼런스 패턴이 발생되는 것을 특징으로 하는 패턴 인식 장치.
  10. 제 8 항 또는 제 9 항에 있어서,
    상기 허용가능한 레퍼런스 패턴은 음성 사운드를 나타내고, 입력 신호는 신호를 나타내는 것을 특징으로 하는 패턴 인식 장치.
KR1019980701230A 1995-08-24 1996-08-23 패턴인식시스템 KR19990043998A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP95305982 1995-08-24
EP95305982.1 1995-08-24

Publications (1)

Publication Number Publication Date
KR19990043998A true KR19990043998A (ko) 1999-06-25

Family

ID=8221302

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980701230A KR19990043998A (ko) 1995-08-24 1996-08-23 패턴인식시스템

Country Status (12)

Country Link
US (1) US6078884A (ko)
EP (1) EP0846318B1 (ko)
JP (1) JPH11511567A (ko)
KR (1) KR19990043998A (ko)
CN (1) CN1199488A (ko)
AU (1) AU720511B2 (ko)
CA (1) CA2228948C (ko)
DE (1) DE69616568T2 (ko)
HK (1) HK1011880A1 (ko)
NO (1) NO980752D0 (ko)
NZ (1) NZ316124A (ko)
WO (1) WO1997008684A1 (ko)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6594392B2 (en) * 1999-05-17 2003-07-15 Intel Corporation Pattern recognition based on piecewise linear probability density function
US6480824B2 (en) * 1999-06-04 2002-11-12 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for canceling noise in a microphone communications path using an electrical equivalence reference signal
US7080314B1 (en) * 2000-06-16 2006-07-18 Lucent Technologies Inc. Document descriptor extraction method
JP4590692B2 (ja) 2000-06-28 2010-12-01 パナソニック株式会社 音響モデル作成装置及びその方法
TW521266B (en) * 2000-07-13 2003-02-21 Verbaltek Inc Perceptual phonetic feature speech recognition system and method
JP2002073072A (ja) * 2000-08-31 2002-03-12 Sony Corp モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置
WO2002035856A2 (en) * 2000-10-20 2002-05-02 Bops, Inc. Methods and apparatus for efficient vocoder implementations
US20020113687A1 (en) * 2000-11-03 2002-08-22 Center Julian L. Method of extending image-based face recognition systems to utilize multi-view image sequences and audio information
US6801656B1 (en) 2000-11-06 2004-10-05 Koninklijke Philips Electronics N.V. Method and apparatus for determining a number of states for a hidden Markov model in a signal processing system
US7308400B2 (en) * 2000-12-14 2007-12-11 International Business Machines Corporation Adaptation of statistical parsers based on mathematical transform
US6952669B2 (en) 2001-01-12 2005-10-04 Telecompression Technologies, Inc. Variable rate speech data compression
US6721282B2 (en) 2001-01-12 2004-04-13 Telecompression Technologies, Inc. Telecommunication data compression apparatus and method
GB2380644A (en) * 2001-06-07 2003-04-09 Canon Kk Speech detection
US6959276B2 (en) 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US6950796B2 (en) * 2001-11-05 2005-09-27 Motorola, Inc. Speech recognition by dynamical noise model adaptation
JP4061094B2 (ja) * 2002-03-15 2008-03-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
AU2003260047A1 (en) * 2002-08-29 2004-03-19 Paul Rudolf Associative memory device and method based on wave propagation
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
US7676366B2 (en) * 2003-01-13 2010-03-09 Art Advanced Recognition Technologies Inc. Adaptation of symbols
US7133825B2 (en) 2003-11-28 2006-11-07 Skyworks Solutions, Inc. Computationally efficient background noise suppressor for speech coding and speech recognition
US8117032B2 (en) * 2005-11-09 2012-02-14 Nuance Communications, Inc. Noise playback enhancement of prerecorded audio for speech recognition operations
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US9390085B2 (en) * 2012-03-23 2016-07-12 Tata Consultancy Sevices Limited Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
US9666204B2 (en) 2014-04-30 2017-05-30 Qualcomm Incorporated Voice profile management and speech signal generation
JP6618884B2 (ja) * 2016-11-17 2019-12-11 株式会社東芝 認識装置、認識方法およびプログラム
US10332520B2 (en) 2017-02-13 2019-06-25 Qualcomm Incorporated Enhanced speech generation
CN110914899B (zh) * 2017-07-19 2023-10-24 日本电信电话株式会社 掩模计算装置、簇权重学习装置、掩模计算神经网络学习装置、掩模计算方法、簇权重学习方法和掩模计算神经网络学习方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4811399A (en) * 1984-12-31 1989-03-07 Itt Defense Communications, A Division Of Itt Corporation Apparatus and method for automatic speech recognition
US4852181A (en) * 1985-09-26 1989-07-25 Oki Electric Industry Co., Ltd. Speech recognition for recognizing the catagory of an input speech pattern
GB8613327D0 (en) * 1986-06-02 1986-07-09 British Telecomm Speech processor
GB2216320B (en) * 1988-02-29 1992-08-19 Int Standard Electric Corp Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
US5333275A (en) * 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
US5721808A (en) * 1995-03-06 1998-02-24 Nippon Telegraph And Telephone Corporation Method for the composition of noise-resistant hidden markov models for speech recognition and speech recognizer using the same

Also Published As

Publication number Publication date
EP0846318B1 (en) 2001-10-31
NZ316124A (en) 2000-02-28
JPH11511567A (ja) 1999-10-05
CA2228948A1 (en) 1997-03-06
HK1011880A1 (en) 1999-07-23
US6078884A (en) 2000-06-20
WO1997008684A1 (en) 1997-03-06
NO980752L (no) 1998-02-23
MX9801401A (es) 1998-05-31
AU6828596A (en) 1997-03-19
CA2228948C (en) 2001-11-20
AU720511B2 (en) 2000-06-01
DE69616568T2 (de) 2002-07-11
CN1199488A (zh) 1998-11-18
NO980752D0 (no) 1998-02-23
EP0846318A1 (en) 1998-06-10
DE69616568D1 (de) 2001-12-06

Similar Documents

Publication Publication Date Title
KR19990043998A (ko) 패턴인식시스템
Murthy et al. Robust text-independent speaker identification over telephone channels
US5806029A (en) Signal conditioned minimum error rate training for continuous speech recognition
US5812972A (en) Adaptive decision directed speech recognition bias equalization method and apparatus
Hansen Morphological constrained feature enhancement with adaptive cepstral compensation (MCE-ACC) for speech recognition in noise and Lombard effect
US6389395B1 (en) System and method for generating a phonetic baseform for a word and using the generated baseform for speech recognition
CA2233728C (en) Multiple models integration for multi-environment speech recognition
US5459815A (en) Speech recognition method using time-frequency masking mechanism
Chowdhury et al. Bayesian on-line spectral change point detection: a soft computing approach for on-line ASR
JPH075892A (ja) 音声認識方法
KR20010102549A (ko) 화자 인식 방법 및 장치
US5943647A (en) Speech recognition based on HMMs
US7072750B2 (en) Method and apparatus for rejection of speech recognition results in accordance with confidence level
Garg et al. A comparative study of noise reduction techniques for automatic speech recognition systems
AU776919B2 (en) Robust parameters for noisy speech recognition
Anastasakos et al. Adaptation to new microphones using tied-mixture normalization
Kotnik et al. Efficient noise robust feature extraction algorithms for distributed speech recognition (DSR) systems
JPH10254473A (ja) 音声変換方法及び音声変換装置
Juang et al. Deployable automatic speech recognition systems: Advances and challenges
MXPA98001401A (en) Recognition of configurac
Rose et al. A user-configurable system for voice label recognition
JP3900628B2 (ja) 音声認識装置
Ney et al. Acoustic-phonetic modeling in the SPICOS system
Setiawan Exploration and optimization of noise reduction algorithms for speech recognition in embedded devices
Lleida Solano et al. Telemaco-a real time keyword spotting application for voice dialing

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application