KR20010040669A - 잡음 보상되는 음성 인식 시스템 및 방법 - Google Patents

잡음 보상되는 음성 인식 시스템 및 방법 Download PDF

Info

Publication number
KR20010040669A
KR20010040669A KR1020007008543A KR20007008543A KR20010040669A KR 20010040669 A KR20010040669 A KR 20010040669A KR 1020007008543 A KR1020007008543 A KR 1020007008543A KR 20007008543 A KR20007008543 A KR 20007008543A KR 20010040669 A KR20010040669 A KR 20010040669A
Authority
KR
South Korea
Prior art keywords
noise
input signal
signal
speech recognition
speech
Prior art date
Application number
KR1020007008543A
Other languages
English (en)
Other versions
KR100574594B1 (ko
Inventor
길버트 씨. 시
닝 비
Original Assignee
러셀 비. 밀러
콸콤 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 러셀 비. 밀러, 콸콤 인코포레이티드 filed Critical 러셀 비. 밀러
Publication of KR20010040669A publication Critical patent/KR20010040669A/ko
Application granted granted Critical
Publication of KR100574594B1 publication Critical patent/KR100574594B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 잡음의 존재내에서 음성 인식 정확도를 개선하는 시스템 및 방법에 관한 것이다. 음성 인식 트레이닝 유니트는 디지털화된 음성 샘플들을 저장하기 위해 인식 시간에 액세스될 수 있는 음성 데이터베이스로 변경된다. 개선된 인식 유니트는 계속적으로 오디오 환경에서 존재하는 잡음 특성들을 분석하는 잡음 분석, 모델링 및 합성 유니트를 포함하고 비슷한 특성들을 갖는 추정된 잡음 신호를 생성한다. 인식 유니트는 그 때 음성 데이터베이스의 음성 샘플들 각각에 추정된 잡음 신호를 부가하고 결과 값들에 파라미터 확정을 실행함으로써 잡음 보상된 템플릿 데이터베이스를 만든다. 이러한 과정은 인식되는 단어를 오염시켰던 실제 잡음 신호와 비슷한 특성을 갖는 추정된 잡음 신호를 사용하는 모든 템플릿들을 리트레이닝함으로써 인식 형태에서 잡음의 존재를 설명해준다. 본 방법은 인식 정확도를 증대시키는 좋은 템플릿 매치 가능성을 개선시킨다.

Description

잡음 보상되는 음성 인식 시스템 및 방법{SYSTEM AND METHOD FOR NOISE-COMPENSATED SPEECH RECOGNITION}
음성 신호들의 디지털 프로세싱은 특히 셀룰라 폰 및 PCS 응용에 널리 유용하다는 것이 밝혀졌다. 디지털 음성 처리 기술중 하나는 음성 인식 기술이다. 음성 인식의 사용은 안정성의 이유 때문에 중요성을 갖고 있다. 예를 들어, 음성 인식은 셀룰라 폰 키패드 위에 누름 단추의 매뉴얼 태스크를 대신하여 사용될 수 있다. 이것은 특히 사용자가 차를 운전하면서 전화를 걸 때 중요하다. 음성 인식 없이 전화를 사용하면, 운전자는 핸들에서 한 손을 치워야 하며 전화 다이얼을 위해 버튼을 누르는 동안 폰 키패드를 주시해야 한다. 이러한 행동들은 자동차 사고의 가능성을 증대시킨다. 음성 인식은 운전자가 양손을 핸들에 놓은 채로 길을 주시하는 동안 전화를 걸 수 있도록 허용한다. 음성 인식을 보유하는 핸즈프리 카킷들은 안정성의 이유 때문에 미래 시스템에서 법령화된 필요조건이 될 것 같다.
오늘날 사용되는 가장 보편적인 유형인, 통화자-의존 음성 인식은, 트레이닝 형태 및 인식 형태의 두 가지 형태로 동작한다. 트레이닝 형태에서는, 음성 인식 시스템은 사용자로 하여금 단어로 된 말들의 각각을 한 번이나 두 번 이상 말하게 하여 이런 특정 단어들이나 문장들에 대한 사용자의 음성의 특성을 알 수 있다. 인식 단어 크기들은 일반적으로 작고(50 단어 이하) 음성 인식 시스템은 그것을 트레이닝한 사용자에게만 높은 인식 정확도를 달성할 것이다. 핸즈프리 카킷 시스템에 대한 단어의 예는 키패드위의 숫자들, 그 키워드는 보통 전화를 걸게되는 동료들, 친구들 혹은 가족들의 20개의 이름들뿐만 아니라,"통화","전송","다이얼","취소","지움","더함","삭제","히스토리","프로그램","예","아니오" 같은 것을 포함할 것이다. 일단 트레이닝이 완성되면, 사용자는 트레이닝된 키워드들을 말하는 것으로 인식 형태에서 전화를 걸 수 있다. 예를 들어, "존"이라는 이름이 트레이닝된 이름들 중 하나였다면, 사용자는 "콜 존"이라는 어구를 말하는 것으로 존에게 전화를 걸 수 있다. 음성 인식 시스템은 "콜" 과 "존" 이라는 단어들을 인식하고, 사용자가 전에 존의 전화번호로 입력했던 숫자를 다이얼한다.
통화자-의존 음성 인식 시스템의 트레이닝 유니트(6)의 블록 다이어그램은 도 1 에서 도시된다. 트레이닝 유니트(6)는 트레이닝된 단어나 어구에 대한 디지털화된 음성 샘플들의 세트인, 입력 s(n)을 수신한다. 음성 신호 s(n)은 특정한 단어나 어구의 사용자의 발음의 특성을 잡아내는 N 파라미터들{ p(n) n=1...N }의 템플릿을 생성하는 파라미터 확정 블록(7)에 통과된다. 파라미터 확정 유니트(7)는 기술분야에서 잘 알려진 많은 다양한 음성 파라미터 확정 기술들의 어떤 것도 실행할 수 있다. 파라미터 확정 기술의 전형적인 실시예는 여기서 참조로 언급되는 본 발명의 양도자에게 양도된 " 가변 속도 보코더 "라는 미국 특허 No. 5,414,796 에 기술된 보코더 엔코더이다. 파라미터 확정 기술의 선택적인 실시예는 빠른 퓨리에 변환(FFT)인데, 그 N 파라미터들은 N FFT 계수들이다. 다른 실시예들은 FFT 계수들에 기원한 파라미터들이 나온다. 각 구두의 단어 또는 어구는 템플릿 데이터베이스(8)에 저장되는 N 파라미터들의 한 템플릿을 생성한다. 템플릿 데이터베이스(8)는 전원이 꺼져있을 때 템플릿들이 그대로 상주하도록 비휘발성의 어떤 유형으로 저장된다.
도 2 는 통화자-의존 음성 인식 시스템의 인식 형태동안 동작하는 음성 인식 유니트(10)의 블록 다이어그램이다. 음성 인식 유니트(10)는 트레이닝 유니트(6)에서 일반적으로 템플릿 데이터베이스(8)가 되는 템플릿 데이터베이스(14)를 포함한다. 음성 인식 유니트(10)에 입력은 음성이 인식되는 입력 음성 x(n)으로 디지털화된다. 입력 음성 x(n)은 트레이닝 유니트(6)의 파라미터 확정 블록(7)과 같은 파라미터 확정 기술을 실행하는 파라미터 확정 블록(12)으로 넘겨진다. 파라미터 확정 블록(12)은 입력 음성 x(n)의 특성들을 만드는 N 파라미터들{ t(n) n=1...N }의 인식 템플릿을 생성한다. 인식 템플릿 t(n)은 그 때 템플릿 t(n)과 템플릿 데이터베이스(14)에 저장된 모든 템플릿들사이의 패턴 비교를 실행하는 패턴 비교 블록(16)으로 넘겨진다. 템플릿 t(n) 및 템플릿 데이터베이스(14)의 템플릿들의 각각 사이의 거리들은 인식 템플릿 t(n)에 가장 가깝게 매치하는 템플릿을 템플릿 데이터베이스(14)로부터 선택하는 결과 블록(18)으로 나아가 있다. 결과 블록(18)의 출력은 구술된 어휘의 단어에 따른 결과이다.
인식 정확도는 어휘에 있어 인식 시스템이 구술된 단어나 어구들을 정확하게 얼마나 잘 인식하는지의 수단이다. 예를 들어, 95%의 인식 정확도는 인식 유니트가 정확하게 100번에서 95번의 어휘의 단어들을 인식하는 것을 나타낸다. 종래의 음성 인식 시스템에서는, 인식 정확성은 잡음의 존재로 현저하게 질이 나쁘다. 정확도 손실에 대한 주된 이유는 트레이닝 형태가 일반적으로 잡음 없는 환경에서 일어나지만 인식은 일반적으로 잡음이 있는 환경에서 일어나기 때문이다. 예를 들어, 핸즈프리 카킷 음성 인식 시스템은 보통 자동차가 주차장에 있거나, 도로에 주차되어있는 동안 트레이닝된다. 따라서, 엔진 및 에어 컨디셔닝은 가동이 안되며 창은 보통 닫혀있다. 그러나, 인식은 보통 자동차가 주행중이고, 따라서 엔진은 가동중이고, 도로 및 바람 소음이 존재하며, 창들은 열려있을 수 있는 등등인 조건에서 사용된다. 트레이닝과 인식 형태사이의 소음 레벨에서의 불균형의 결과로써, 인식 템플릿은 트레이닝 동안 얻은 템플릿의 어느것과도 좋은 매치를 형성하지 않는다. 이것은 인식 에러나 실패 가능성을 증대시킨다.
도 3은 잡음이 있는 상태에서 음성 인식을 실행해야 하는 음성 인식 유니트(20)를 도시한다. 도 3에서 도시된대로, 가산기(22)는 잡음 오염 음성 신호 r(n)을 생성하기 위해 음성 신호 x(n)에 잡음 신호 w(n)을 더한다. 가산기(22)는 시스템의 물리적 요소가 아니라, 잡음 환경의 인공산물이라는 것을 알아야 한다. 잡음 오염 음성 신호 r(n)은 잡음 오염 템플릿 t1(n)을 생성하는 파라미터 확정 블록(24)에 대한 입력이다. 패턴 비교 블록(28)은 템플릿 t1(n)과 잡음 없는 환경에서 만들어졌던 템플릿 데이터 베이스(26)의 모든 템플릿들을 비교한다. 잡음-오염 템플릿 t1(n)은 트레이닝 템플릿들의 어느것과도 정확히 매치하지 않기 때문에, 결과 블록(30)에 의해 생성된 결과는 인식 에러나 실패가 될 수 있는 높은 가능성이 있다.
본 발명은 음성 처리에 관한 발명이다. 좀 더 구체적으로, 본 발명은 구두의 단어들이나 문장들을 자동 인식하는 시스템 및 방법에 관한 것이다.
도 1은 음성 인식 시스템의 트레이닝 유니트의 블록 다이어그램이다.
도 2는 음성 인식 유니트의 블록 다이어그램이다.
도 3은 잡음에 의해 오염된 음성 입력위에 음성 인식을 실행하는 음성 인식 유니트의 블록 다이어그램이다.
도 4는 음성 인식 시스템의 개선된 트레이닝 유니트의 블록 다이어그램이다.
도 5는 전형적인 개선된 음성 인식 유니트의 블록 다이어그램이다.
본 발명은 잡음 상태에서 구술된 단어들이나 어구들의 자동 인식에 대한 시스템 및 방법에 관한 것이다. 통화자-의존 음성 인식 시스템들은 트레이닝 형태 및 인식 형태인 두 가지 형태로 동작한다. 종래의 음성 인식 시스템의 트레이닝 형태에서는, 사용자는 특정된 어휘내의 단어들이나 어구들을 말해야 한다. 각 단어나 어구에 대해 디지털화된 음성 샘플들은 구술된 언어들을 특성화하는 파라미터들의 템플릿을 생성하도록 프로세스된다. 트레이닝 형태의 출력은 그러한 템플릿의 라이브러리이며, 사용자는 원하는 동작을 실행하기 위해 특정한 단어나 어구를 말한다. 구술된 단어 또는 어구는 트레이닝 동안 생성된 모든 템플릿들과 비교되는 템플릿을 생성하기 위해 디지털화되고 프로세스된다. 가장 근접한 매치는 실행될 동작을 결정한다. 음성 인식 시스템의 정확성을 제한하는 주된 손상은 잡음의 존재이다. 인식동안의 잡음의 부가는 심각하게 인식 정확도를 떨어뜨리는데, 왜냐하면 이런 잡음은 템플릿 데이터베이스가 생성되었을 때는 트레이닝동안 존재하지 않았기 때문이다. 본 발명은 인식 정확도를 개선하기 위해 인식할 때에 존재하는 특정한 잡음 조건들을 설명해 줄 필요를 깨달았다.
파라미터의 템플릿들을 저장하는 대신에, 개선된 음성 처리 시스템 및 방법은 트레이닝 형태에서의 각 구술된 단어나 어구에 대한 디지털화된 음성 샘플들을 저장한다. 트레이닝 형태 출력은 따라서 디지털화된 음성 데이터베이스이다. 인식 형태에서, 오디오 환경에서의 잡음 특성들은 계속해서 감시된다. 사용자가 인식을 실행하기 위해 단어나 어구를 말하면, 잡음 보상 템플릿 데이터베이스는 음성 데이터베이스에서의 각 신호에 잡음 신호를 부가하고 음성 더하기 잡음 신호들의 각각에 파라미터 확정을 실행함으로써 만들어진다. 이러한 부가된 잡음 신호의 한 실시예는 실제의 잡음 신호와 비슷한 특성을 갖는 인공적으로 합성된 잡음 신호이다. 선택적인 실시예는 사용자가 인식을 실행하기 위해 단어나 어구를 구술하기 직전에 발생되는 잡음의 시간 윈도를 기록하는 것이다. 템플릿 데이터베이스는 인식되는 구술된 단어나 어구에 존재하는 잡음의 같은 형태를 사용하여 만들어지기 때문에, 음성 인식 유니트는 인식 정확도를 개선하는, 템플릿들 사이에 좋은 매치를 찾을 수 있다.
본 발명의 형태, 목적 및 이점들은 참조 특성들이 전체를 통해 일치되게 확인하는 도면들과 관련하여 밑에서 진술되는 자세한 기술로 명백해질 것이다.
본 발명은 잡음이 존재할 때 음성 인식 정확도를 개선하는 시스템 및 방법에 관한 것이다. 본 발명은 계산력과 메모리 집적에서의 최근의 진보의 장점을 가지며 인식하는 동안 잡음의 존재를 밝혀내기 위해 트레이닝 및 인식 형태를 변경한다. 음성 인식 유니트의 기능은 잡음 오염 음성위에 계산된 인식 템플릿에 가장 가까운 매치를 찾는 것이다. 잡음의 특성들은 시간과 위치에 따라 변할 수 있기 때문에, 본 발명은 템플릿 데이터베이스를 만드는데 최적의 시간은 인식 형태 동안이라는 것을 알아냈다.
도 4는 음성 인식 시스템의 개선된 트레이닝 유니트(40)의 블록 다이어그램을 나타낸다. 도 1에서의 도시된 종래의 트레이닝 방법에 반대하여, 트레이닝 유니트(40)는 파라미터 확정 단계를 제거하기 위해 변경된다. 파라미터들의 템플릿들을 저장하는 대신에, 실제의 단어들과 어구들의 디지털화된 음성 샘플들이 저장된다. 따라서, 트레이닝 유니트(40)는 입력 음성 샘플들 s(n)로 수신하고 음성 데이터베이스(42)에서 디지털화된 음성 샘플들 s(n)을 저장한다. 트레이닝 후에, 음성 데이터베이스(42)는 M 음성 신호들을 보유하는데, 상기 M 은 어휘에 있는 단어들의 수이다. 파라미터 확정을 실행하는 종전의 시스템 및 방법은 단지 음성 파라미터들만을 저장함으로써 음성 특성들에 대해서는 정보를 유실하는 데 반해, 본 시스템 및 방법은 인식 형태에서 쓰이는 모든 음성 정보들을 보존할 수 있다.
도 5는 트레이닝 유니트(40)와 함께 사용되는 개선된 음성 인식 유니트(50)의 블록 다이어그램을 나타낸다. 음성 인식 유니트(50)에의 입력은 잡음 오염된 음성 신호 r(n)이다. 잡음 오염된 음성 신호 r(n)은 잡음 신호 w(n)에 음성 신호 x(n)을 더하는 가산기(52)에 의해 생성된다. 앞서와 같이, 가산기(52)는 상기 시스템의 물리적 요소가 아니라 잡음 환경의 인공산물이다.
음성 인식 유니트(50)는 트레이닝 형태동안 기록되었던 디지털화된 음성 샘플들을 함유하는 음성 데이터베이스(60)를 포함한다. 음성 인식 유니트(50)는 또한 잡음 오염 음성 신호 r(n)이 잡음 오염 템플릿 t1(n)을 생성하기 위해 넘겨지는 파라미터 확정 블록(54)을 포함한다. 종래의 음성 인식 시스템에서는, 파라미터 확정 블록(54)은 많은 음성 파라미터 확정 기술들의 어느 것이라도 실행할 수 있다.
전형적인 파라미터 확정 기술은 선형 예측 코딩(LPC) 분석 기술들을 사용한다. LPC 분석 기술들은 디지털 필터로서의 음성 구역을 만든다. LPC 분석을 사용하면, LPC 켑스트럼 계수들 c(m)은 음성 신호를 나타내기 위한 파라미터들이 되도록 연산 될 수 있다. 상기 계수들 c(m)은 다음 단계를 이용하여 연산된다. 첫째, 잡음 오염 음성 신호 r(n)은 윈도 함수 v(n)을 적용하여 음성 샘플들의 프레임위에 윈도된다.
y(n) = r(n)v(n) 0 〈= n 〈= N-1 (1)
전형적인 실시예에서, 윈도 함수 v(n)은 해밍 윈도이고 프레임 크기 N 은 160이다. 다음으로, 자기 상관 계수들은 다음 방정식을 이용하는 윈도된 샘플들위에 연산된다.
전형적인 실시예에서는, 계산되는 자기 상관 계수들의 수인, P는 그 수가 10인 LPC 예측기의 순서와 같다. LPC 계수들은 더빈의 귀납 알고리즘을 이용한 자기 상관 값들로부터 직접 계산된다. 그 알고리즘은 다음과 같이 수식으로 나타난다.
LPC 계수들은 다음 방정식을 사용하여 LPC 셉스트럴 계수들로 전환된다:
파라미터 확정에 대해 LPC 셉스트럴 계수들 대신에 다른 기술들이 이용될 수 있다는 것을 알아야 한다.
게다가, 신호 r(n)은 음성의 존재 혹은 부재를 결정하는 음성 검출 블록(56)으로 넘겨진다. 음성 검출 블록(56)은 다수의 기술중 아무거나 사용하여 음성의 존재 혹은 부재를 결정할 수 있다. 그러한 방법의 하나는 앞서 말한 미국 특허 No. 5,414,796 "가변 속도 보코더"에 나타나있다. 이 기술은 음성의 존재 혹은 부재에 관해서 결정을 하는 음성 활동의 레벨을 분석한다. 음성 활동의 레벨은 배경 잡음 에너지 평가와 비교한 신호의 에너지에 기반을 둔다. 첫째로, 에너지 E(n)은 바람직한 실시예에서 160 샘플로 이루어지는 각 프레임에 대해 연산된다. 배경 잡음 에너지 평가 B(n)은 다음 방정식을 이용하여 계산될 수 있다.
만약 B(n)〈160000 이면, 세개의 한계값들이 다음과 같이 B(n)을 사용하여 계산된다.
만약 B(n)〉160000 이면, 세개의 한계값들은 다음과 같이 계산된다.
이러한 음성 검출 방법은 에너지 E(n)이 한계값 T2(B(n))보다 클 때 음성의 존재함을 나타내고, 에너지 E(n)이 한계값 T2(B(n))보다 작을 때 음성의 부재함을 나타낸다. 선택적인 실시예에서는, 본 방법은 둘이나 그 이상의 주파수 대역에서의 배경 잡음 에너지 평가 및 한계값들을 계산하는 것으로 확장된다. 덧붙여서, 방정식 (13)-(19)에서 주어진 값들은 실험적으로 결정된 것이며 환경에 따라 변할 수 있다는 것을 알아야 한다.
음성 검출 블록(56)은 음성이 부재라고 결정하면, 상기 음성 검출 블록은 잡음 분석, 모델링 및 합성 블록(58)를 가능케하는 제어 신호를 보낸다. 음성의 부재에 있어, 수신된 신호 r(n)은 잡음 신호 w(n)과 같다는 것을 알아야 한다.
잡음 분석, 모델링 및 합성 블록(58)이 가동되면, 잡음 신호 r(n)의 특성들을 분석하고, 그것을 모델링하고, 실제의 잡음 w(n)에 비슷한 특성을 갖는 잡음 신호 w1(n)을 합성한다. 잡음 분석, 모델링 및 합성을 실행하는 전형적인 실시예는 "에코 제거기에서의 잡음 대체 시스템 및 방법"이라는 미국 특허 No. 5,646,991에 나타나있다. 상기 특허는 본 발명의 양수인에게 양도되었고 여기서 참조로 언급된다. 본 방법은 다음과 같이 주어진 예측 에러를 통한 잡음 신호 r(n)을 통과시켜서 잡음 분석을 실행한다.
예측기의 순서인 P는 전형적인 실시예에서는 5 이다. LPC 계수들인 ai는 (1)에서 (9)까지의 방정식들을 이용하여 전에 설명된대로 계산된다. 일단 LPC 계수들이 얻어지면, 합성된 잡음 샘플들은 주어진 잡음 합성 필터를 통해 백색 잡음을 통과시킴으로써 동일한 스펙트럼 특성을 갖도록 생성될 수 있다.
상기 방정식은 단순히 잡음 분석에 사용된 필터의 역수이다. 실제 잡음 에너지와 같은 합성된 잡음 에너지를 만들기 위해 합성된 잡음 샘플들의 각각에 배율을 적용한 후에, 출력은 합성된 잡음 w1(n)이다.
합성된 잡음 w1(n)은 합성된 잡음 오염 음성 샘플들의 세트를 생성하기 위해 가산기(62)에 의해 음성 데이터베이스(60)에 디지털화된 음성 샘플들의 각 세트에 더해진다. 그러고 나면, 합성된 잡음 오염된 음성 샘플들의 각 세트는 파라미터 확정 블록(54)에 사용된 동일한 파라미터 확정 기술을 사용한 합성된 잡음 오염 음성 샘플들의 각 세트에 대한 파라미터들의 세트를 생성하는 파라미터 확정블록(64)으로 통과된다. 파라미터 확정 블록(54)은 음성 샘플들의 각 세트에 대한 파라미터들의 템플릿을 생성하고, 템플릿들은 잡음 보상된 템플릿 데이터베이스(66)에 저장된다. 잡음 보상된 템플릿 데이터베이스(66)는 종래의 트레이닝이 인식동안 존재하는 잡음의 같은 유형으로 발생하는 것처럼 만들어지는 템플릿의 세트이다. 미국 특허 No. 5,646,991에서 나타난 방법에 더하여 추정된 잡음 w1(n)을 생성하기 위해 가능한 방법들이 많이 있다. 선택적인 실시예는 사용자가 잡음없는 때 존재하는 실제 잡음의 시간 윈도를 단순하게 기록하고 추정된 잡음 w1(n)으로 이 잡음 신호를 사용한다. 인식되는 단어나 어구가 구술되기 직전에 기록된 잡음의 시간 윈도는 본 방법의 전형적인 실시예이다. 또 다른 방법은 특정 기간에 걸쳐서 얻어진 잡음의 다양한 윈도를 평균화하는 것이다.
도 5를 참조하면, 패턴 비교 블록(68)은 잡음 보상된 템플릿 데이터베이스(66)에서의 모든 템플릿과 잡음 오염 템플릿 t1(n)을 비교한다. 잡음 효과들은 잡음보상된 템플릿 데이터베이스(66)에 포함되기 때문에, 확정 블록(70)은 t1(n)에 대한 좋은 매치를 찾을 수 있다. 이러한 방법으로 잡음의 효과에 대해 설명함으로써, 음성 인식 시스템의 정확도가 개선된다.
바람직한 실시예들의 상기 설명은 기술 분야에서 숙련된 어느 누구라도 본 발명을 만들거나 사용할 수 있도록 기술되었다. 이러한 실시예들에 다양한 변형은 기술 분야에서 숙련된 자들에게 쉽게 명백해질 것이며, 여기서 정의된 일반적인 법칙들은 독창적인 능력의 사용없이 다른 실시예들에도 적용될 수 있다.
따라서, 본 발명은 여기서 나타난 실시예들이 제한되는 것이 아니라 여기서 밝혀진 신규한 형태와 법칙들과 일관된 가장 넓은 범위에 따른다.

Claims (23)

  1. 음성 인식 시스템에 있어서,
    트레인되는 단어들이나 어구들의 신호를 수신하고, 상기 단어들 혹은 어구들 각각에 대해 디지털화된 샘플들을 생성하며, 음성 데이터베이스에서의 상기 디지털화된 샘플들을 저장하기 위한 트레이닝 유니트; 및
    인식되는 잡음 오염 입력 신호를 수신하고, 상기 음성 데이터베이스의 상기 디지털화된 샘플들에 잡음 효과(effect)들을 적용시켜서 잡음 보상된 템플릿 데이터베이스를 생성하며, 상기 잡음 보상된 템플릿 데이터베이스에 기초한 상기 잡음 오염 입력 신호에 대해 음성 인식 결과를 제공하기 위한 음성 인식 유니트를 포함하는 것을 특징으로 하는 음성 인식 시스템.
  2. 제 1 항에 있어서, 상기 음성 인식 유니트는,
    상기 잡음 오염 입력 신호를 수신하고 미리 결정된 파라미터 결정 기술에 따라 상기 입력 신호를 표시하는 파라미터들의 템플릿을 생성하기 위한 제 1 파라미터 결정 유니트;
    상기 디지털화된 샘플들에 적합한 잡음 효과들을 갖는 상기 음성 데이터베이스를 수신하고, 상기 미리 결정된 파라미터 결정 기술에 따라 상기 잡음 보상된 템플릿 데이터베이스를 생성하기 위한 제 2 파라미터 결정 유니트; 및
    최상의 매치를 결정하고 그로인해 상기 음성 인식 결과를 확인하도록 상기 입력 신호를 표시하는 상기 파라미터들의 템플릿과 상기 잡음 보상된 템플릿 데이터베이스의 템플릿들을 비교하기 위한 패턴 비교 유니트를 포함하는 것을 특징으로 하는 음성 인식 시스템.
  3. 제 1 항에 있어서, 상기 음성 인식 유니트는,
    잡음 오염 입력 신호를 수신하고 음성이 상기 입력 신호에 존재하는지 아닌지를 결정하는 음성 검출 유니트를 포함하는데, 상기 입력 신호는 음성이 상기 입력 신호에 존재하지 않는 것으로 결정될 때 잡음 신호로 규정되며; 및
    음성이 상기 입력 신호에 존재하지 않는것으로 결정될 때 활성화되며, 상기 잡음 신호를 분석하고, 상기 잡음 신호의 특성들을 가지며 상기 음성 데이터베이스의 상기 디지털화된 샘플들에 잡음 효과들을 적용한 합성된 잡음 신호를 합성하기 위한 잡음 유니트를 포함하는 것을 특징으로 하는 음성 인식 시스템.
  4. 제 2 항에 있어서, 상기 음성 인식 유니트는,
    상기 잡음 오염 입력 신호를 수신하고 음성이 상기 입력 신호에 존재하는지 아닌지를 결정하기 위한 음성 검출 유니트를 포함하는데, 상기 입력 신호는 음성이 상기 입력 신호에 존재하지 않음이 결정될 때 잡음 신호로 규정되며; 및
    음성이 상기 입력 신호에 존재하지 않는 것으로 결정될 때 활성화되며 상기 잡음 신호를 분석하고 상기 잡음 신호의 특성들을 가지며 상기 음성 데이터베이스의 상기 디지털화된 샘플들에 잡음의 효과를 적용한 합성된 잡음 신호를 합성하는 잡음 유니트를 포함하는 것을 특징으로 하는 음성 인식 시스템.
  5. 제 2 항에 있어서, 상기 파라미터 결정 기술은 선형 예측 코딩(LPC) 분석 기술인 것을 특징으로 하는 음성 인식 시스템.
  6. 제 4 항에 있어서, 상기 파라미터 결정 기술은 선형 예측 코딩(LPC) 분석 기술인 것을 특징으로 하는 음성 인식 시스템.
  7. 제 3 항에 있어서, 상기 음성 검출 유니트는 상기 입력 신호의 음성 활동 레벨을 분석함으로써 음성의 존재를 결정하는 것을 특징으로 하는 음성 인식 시스템.
  8. 제 4 항에 있어서, 상기 음성 검출 유니트는 상기 입력 신호의 음성 활동 레벨을 분석함으로써 음성의 존재를 결정하는 것을 특징으로 하는 음성 인식 시스템.
  9. 제 3 항에 있어서, 상기 잡음 유니트는 선형 예측 코딩(LPC) 기술을 사용하는 상기 합성된 잡음 신호를 분석하고 합성하는 것을 특징으로 하는 음성 인식 시스템.
  10. 제 3 항에 있어서, 상기 합성된 잡음 신호는 상기 입력 신호가 인식되기 직전에 기록된 상기 잡음 신호의 윈도우에 상응하는 것을 특징으로 하는 음성 인식 시스템.
  11. 제 3 항에 있어서, 상기 합성된 잡음 신호는 예정된 시간 주기에 걸쳐 기록된 상기 잡음 신호의 다양한 윈도우들의 평균에 상응하는 것을 특징으로 하는 음성 인식 시스템.
  12. 제 4 항에 있어서, 상기 잡음 유니트는 선형 예측 코딩(LPC) 기술을 사용하는 상기 합성된 잡음 신호를 분석하고 합성하는 것을 특징으로 하는 음성 인식 시스템.
  13. 제 4 항에 있어서, 상기 합성된 잡음 신호는 상기 입력 신호가 인식되기 직전에 기록된 상기 잡음 신호의 윈도우에 상응하는 것을 특징으로 하는 음성 인식 시스템.
  14. 제 4 항에 있어서, 상기 합성된 잡음 신호는 예정된 시간 주기에 걸쳐 기록된 상기 잡음 신호의 다양한 윈도우들의 평균에 상응하는 것을 특징으로 하는 음성 인식 시스템.
  15. 잡음이 있는 환경의 효과들을 고려하는 음성 인식 시스템의 트레이닝 유니트에 있어서,
    트레이닝된 단어들이나 어구들의 신호를 수신하는 수단;
    상기 각 단어나 어구에 대해 디지털화된 샘플들을 생성하는 수단; 및
    음성 데이터베이스에서 상기 디지털화된 샘플들을 저장하는 수단을 포함하는 것을 특징으로 하는 트레이닝 유니트.
  16. 잡음이 있는 환경의 효과들을 고려하는, 입력 신호를 인식하기 위한 음성 인식 시스템의 음성 인식 유니트에 있어서,
    음성 데이터베이스의 어휘의 단어 혹은 어구의 디지털화된 샘플을 저장하는 수단;
    상기 어휘의 잡음 오염 디지털화된 샘플들을 생성하도록 상기 어휘의 상기 디지털화된 샘플들에 잡음 효과를 적용하는 수단;
    상기 잡음 오염 디지털화된 샘플들에 기초하여 잡음 보상된 템플릿 데이터베이스를 생성하는 수단; 및
    상기 잡음 보상된 템플릿 데이터베이스에 기초하여 상기 입력 신호에 대한 음성 인식 결과를 결정하는 수단을 포함하는 것을 특징으로 하는 음성 인식 유니트.
  17. 제 16 항에 있어서,
    상기 입력 신호를 수신하고 예정된 파라미터 결정 기술에 따라 상기 입력 신호를 표시하는 파라미터들의 템플릿을 생성하는 제 1 파라미터 결정 수단; 및
    상기 어휘의 상기 잡음 오염 디지털화된 샘플들을 수신하고 상기 예정된 파라미터 결정 기술에 따라 상기 잡음 보상된 템플릿 데이터베이스의 템플릿들을 생성하기 위한 제 2 파라미터 결정 수단을 포함하며,
    상기 음성 인식 결과를 결정하는 상기 수단은 최상의 매치를 결정하고 그로인해 상기 음성 인식 결과를 확인하도록 상기 입력 신호를 표시하는 파라미터들의 상기 템플릿과 상기 잡음 보상된 템플릿 데이터베이스의 템플릿들을 비교하는 것을 특징으로 하는 음성 인식 유니트.
  18. 제 16 항에 있어서, 잡음 효과들을 적용하는 상기 수단은,
    음성이 상기 입력 신호에 존재하는지 아닌지를 결정하는 수단을 포함하는데 상기 입력 신호는 음성이 상기 입력 신호에 존재하지 않을 때 잡음 신호로 규정되며; 및
    상기 잡음 신호를 분석하고 합성된 잡음 신호를 합성하는 수단을 포함하며,
    상기 합성된 잡음 신호는 상기 어휘의 상기 디지털화된 샘플들에 부가되는 것을 특징으로 하는 음성 인식 유니트.
  19. 제 17 항에 있어서, 잡음 효과들을 적용하는 상기 수단은,
    음성이 상기 입력 신호에 존재하는지 아닌지를 결정하는 수단을 포함하는데, 상기 입력 신호는 음성이 상기 입력 신호에 존재하지 않는 것으로 결정될 때 잡음 신호로 규정되며; 및
    상기 잡음 신호를 분석하고 합성된 잡음 신호를 합성하는 수단을 포함하며,
    상기 합성된 잡음 신호는 상기 어휘의 상기 디지털화된 샘플들에 부가되는 것을 특징으로 하는 음성 인식 유니트.
  20. 잡음 환경의 효과를 설명하는 음성 인식 방법에 있어서,
    어휘에 속하여 있는 트레이닝된 각 단어 혹은 어구의 디지털화된 샘플들을 생성하는 단계;
    음성 데이터베이스에 상기 디지털화된 샘플들을 저장하는 단계;
    인식되는 입력 신호를 수신하는 단계;
    상기 어휘의 잡음 오염 디지털화된 샘플들을 생성하기 위해 상기 어휘의 상기 디지털화된 샘플들에 잡음 효과를 적용시키는 단계;
    상기 잡음 오염 디지털화된 샘플들에 기초하여 잡음 보상된 템플릿 데이터베이스를 생성하는 단계; 및
    상기 잡음 보상된 템플릿 데이터베이스에 기초하여 상기 잡음 오염 입력 신호에 대한 음성 인식 결과를 제공하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
  21. 제 20 항에 있어서,
    예정된 파라미터 결정 기술에 따라 상기 입력 신호를 표시하는 파라미터들의 템플릿을 생성하는 단계; 및
    상기 예정된 파라미터 결정 기술에 따라 상기 잡음 보상된 템플릿 데이터베이스에 대하여 템플릿들을 생성하는 단계를 더 포함하며,
    음성 인식 결과를 제공하는 상기 단계는 최상의 매치를 결정하고 그로인해 상기 음성 인식 결과를 확인하도록 상기 입력 신호를 표시하는 파라미터들의 상기 템플릿과 상기 잡음 보상된 템플릿 데이터베이스의 상기 템플릿들을 비교하는 것을 특징으로 하는 음성 인식 방법.
  22. 제 20 항에 있어서, 잡음 효과들을 적용하는 상기 단계는,
    음성이 상기 입력 신호에 존재하는지 아닌지를 결정하는 단계를 포함하는데, 상기 입력 신호는 음성이 상기 입력 신호에 존재하지 않는 것이 결정될 때 잡음 신호로 규정되며; 및
    상기 잡음 신호를 분석하고 합성된 잡음 신호를 합성하는 단계를 포함하며,
    상기 합성된 잡음 신호는 상기 잡음 오염 디지털화된 샘플들을 생성하도록 상기 어휘의 상기 디지털화된 샘플들에 부가되는 것을 특징으로 하는 음성 인식 방법.
  23. 제 21 항에 있어서, 잡음 효과를 적용하는 상기 단계는,
    음성이 상기 입력 신호에 존재하는지 아닌지를 결정하는 단계를 포함하는데,상기 입력 신호는 음성이 상기 입력 신호에 존재하지 않는 것으로 결정될 때 잡음 신호로 규정되며; 및
    상기 잡음 신호를 분석하고 합성된 잡음 신호를 합성하는 단계를 포함하며,
    상기 합성된 잡음 신호는 상기 잡음 오염 디지털화된 샘플들을 생성하는 상기 어휘의 상기 디지털화된 샘플들에 부가되는 것을 특징으로 하는 음성 인식 방법.
KR1020007008543A 1998-02-04 1999-02-03 잡음 보상되는 음성 인식 시스템 및 방법 KR100574594B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/018,257 US6381569B1 (en) 1998-02-04 1998-02-04 Noise-compensated speech recognition templates
US09/018,257 1998-02-04

Publications (2)

Publication Number Publication Date
KR20010040669A true KR20010040669A (ko) 2001-05-15
KR100574594B1 KR100574594B1 (ko) 2006-04-28

Family

ID=21787025

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020007008543A KR100574594B1 (ko) 1998-02-04 1999-02-03 잡음 보상되는 음성 인식 시스템 및 방법

Country Status (9)

Country Link
US (2) US6381569B1 (ko)
EP (1) EP1058925B1 (ko)
JP (1) JP4750271B2 (ko)
KR (1) KR100574594B1 (ko)
CN (1) CN1228761C (ko)
AU (1) AU2577499A (ko)
DE (1) DE69916255T2 (ko)
HK (1) HK1035600A1 (ko)
WO (1) WO1999040571A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100751923B1 (ko) * 2005-11-11 2007-08-24 고려대학교 산학협력단 잡음환경에 강인한 음성인식을 위한 에너지 특징 보상 방법및 장치
KR20180025921A (ko) * 2015-06-30 2018-03-09 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 데이터베이스를 생성하기 위한 방법 및 장치

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6744887B1 (en) * 1999-10-05 2004-06-01 Zhone Technologies, Inc. Acoustic echo processing system
JP4590692B2 (ja) * 2000-06-28 2010-12-01 パナソニック株式会社 音響モデル作成装置及びその方法
US6631348B1 (en) * 2000-08-08 2003-10-07 Intel Corporation Dynamic speech recognition pattern switching for enhanced speech recognition accuracy
JP4244514B2 (ja) * 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
US6999926B2 (en) * 2000-11-16 2006-02-14 International Business Machines Corporation Unsupervised incremental adaptation using maximum likelihood spectral transformation
US7236929B2 (en) * 2001-05-09 2007-06-26 Plantronics, Inc. Echo suppression and speech detection techniques for telephony applications
JP4240878B2 (ja) * 2001-12-13 2009-03-18 四一 安藤 音声認識方法及び音声認識装置
JP3885002B2 (ja) * 2002-06-28 2007-02-21 キヤノン株式会社 情報処理装置およびその方法
US7340397B2 (en) * 2003-03-03 2008-03-04 International Business Machines Corporation Speech recognition optimization tool
US20050228673A1 (en) * 2004-03-30 2005-10-13 Nefian Ara V Techniques for separating and evaluating audio and video source data
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
WO2006089055A1 (en) * 2005-02-15 2006-08-24 Bbn Technologies Corp. Speech analyzing system with adaptive noise codebook
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
CN1936829B (zh) * 2005-09-23 2010-05-26 鸿富锦精密工业(深圳)有限公司 声音输出系统及方法
US7729911B2 (en) * 2005-09-27 2010-06-01 General Motors Llc Speech recognition method and system
US20070118372A1 (en) * 2005-11-23 2007-05-24 General Electric Company System and method for generating closed captions
CN100389421C (zh) * 2006-04-20 2008-05-21 北京理工大学 一种快速构造用于关键词检出任务的语音数据库的方法
CN101636783B (zh) * 2007-03-16 2011-12-14 松下电器产业株式会社 声音分析装置、声音分析方法及系统集成电路
US8868417B2 (en) * 2007-06-15 2014-10-21 Alon Konchitsky Handset intelligibility enhancement system using adaptive filters and signal buffers
US9343079B2 (en) 2007-06-15 2016-05-17 Alon Konchitsky Receiver intelligibility enhancement system
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
US8615397B2 (en) * 2008-04-04 2013-12-24 Intuit Inc. Identifying audio content using distorted target patterns
US8433564B2 (en) * 2009-07-02 2013-04-30 Alon Konchitsky Method for wind noise reduction
DE102009059138A1 (de) 2009-12-19 2010-07-29 Daimler Ag Verfahren und Testsystem zum Testen eines Spracherkennungssystems
US20120143604A1 (en) * 2010-12-07 2012-06-07 Rita Singh Method for Restoring Spectral Components in Denoised Speech Signals
US9143571B2 (en) * 2011-03-04 2015-09-22 Qualcomm Incorporated Method and apparatus for identifying mobile devices in similar sound environment
EP2798534B1 (en) * 2011-12-31 2019-02-06 InterDigital Madison Patent Holdings Method and device for presenting content
CN103514878A (zh) * 2012-06-27 2014-01-15 北京百度网讯科技有限公司 声学建模方法及装置和语音识别方法及装置
US9293148B2 (en) 2012-10-11 2016-03-22 International Business Machines Corporation Reducing noise in a shared media session
CN103903616B (zh) * 2012-12-25 2017-12-29 联想(北京)有限公司 一种信息处理的方法及电子设备
CN103544953B (zh) * 2013-10-24 2016-01-20 哈尔滨师范大学 一种基于背景噪声最小统计量特征的声音环境识别方法
US9466310B2 (en) * 2013-12-20 2016-10-11 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Compensating for identifiable background content in a speech recognition device
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9299347B1 (en) * 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
CN105405447B (zh) * 2015-10-27 2019-05-24 航宇救生装备有限公司 一种送话呼吸噪声屏蔽方法
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
CN106816154A (zh) * 2016-12-15 2017-06-09 北京青笋科技有限公司 一种具有智能降噪功能的灯具语音识别控制方法
KR102410820B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
US10762905B2 (en) * 2018-07-31 2020-09-01 Cirrus Logic, Inc. Speaker verification
CN109256144B (zh) * 2018-11-20 2022-09-06 中国科学技术大学 基于集成学习与噪声感知训练的语音增强方法
CN109841227B (zh) * 2019-03-11 2020-10-02 南京邮电大学 一种基于学习补偿的背景噪声去除方法
CN110808030B (zh) * 2019-11-22 2021-01-22 珠海格力电器股份有限公司 语音唤醒方法、系统、存储介质及电子设备
EP3862782A1 (en) * 2020-02-04 2021-08-11 Infineon Technologies AG Apparatus and method for correcting an input signal

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4933973A (en) 1988-02-29 1990-06-12 Itt Corporation Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
US5095503A (en) 1989-12-20 1992-03-10 Motorola, Inc. Cellular telephone controller with synthesized voice feedback for directory number confirmation and call status
DE69232202T2 (de) 1991-06-11 2002-07-25 Qualcomm Inc Vocoder mit veraendlicher bitrate
US5307405A (en) 1992-09-25 1994-04-26 Qualcomm Incorporated Network echo canceller
DE4340679A1 (de) 1993-11-30 1995-06-01 Detecon Gmbh Sprachmodul für die akustische Wiedergabe von SAPI 3 Messages (Short Message Service) in einer Mobilstation (MS)
US5845246A (en) * 1995-02-28 1998-12-01 Voice Control Systems, Inc. Method for reducing database requirements for speech recognition systems
IL116103A0 (en) 1995-11-23 1996-01-31 Wireless Links International L Mobile data terminals with text to speech capability
US5778342A (en) * 1996-02-01 1998-07-07 Dspc Israel Ltd. Pattern recognition system and method
US5950123A (en) 1996-08-26 1999-09-07 Telefonaktiebolaget L M Cellular telephone network support of audible information delivery to visually impaired subscribers

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100751923B1 (ko) * 2005-11-11 2007-08-24 고려대학교 산학협력단 잡음환경에 강인한 음성인식을 위한 에너지 특징 보상 방법및 장치
KR20180025921A (ko) * 2015-06-30 2018-03-09 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 데이터베이스를 생성하기 위한 방법 및 장치
US11003709B2 (en) 2015-06-30 2021-05-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and device for associating noises and for analyzing
US11880407B2 (en) 2015-06-30 2024-01-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and device for generating a database of noise

Also Published As

Publication number Publication date
US6381569B1 (en) 2002-04-30
WO1999040571A1 (en) 1999-08-12
AU2577499A (en) 1999-08-23
DE69916255T2 (de) 2005-04-14
EP1058925A1 (en) 2000-12-13
HK1035600A1 (en) 2001-11-30
EP1058925B1 (en) 2004-04-07
DE69916255D1 (de) 2004-05-13
CN1228761C (zh) 2005-11-23
JP2002502993A (ja) 2002-01-29
CN1296607A (zh) 2001-05-23
KR100574594B1 (ko) 2006-04-28
JP4750271B2 (ja) 2011-08-17
US20010001141A1 (en) 2001-05-10

Similar Documents

Publication Publication Date Title
KR100574594B1 (ko) 잡음 보상되는 음성 인식 시스템 및 방법
US10109271B2 (en) Frame erasure concealment technique for a bitstream-based feature extractor
US7181390B2 (en) Noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
EP1301922B1 (en) System and method for voice recognition with a plurality of voice recognition engines
EP0911805B1 (en) Speech recognition method and speech recognition apparatus
US7254536B2 (en) Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech
US20040190732A1 (en) Method of noise estimation using incremental bayes learning
KR20010093334A (ko) 잡음 신호에서 음성의 엔드포인팅 방법
US20060165202A1 (en) Signal processor for robust pattern recognition
JP3105465B2 (ja) 音声区間検出方法
US5579432A (en) Discriminating between stationary and non-stationary signals
US6792405B2 (en) Bitstream-based feature extraction method for a front-end speech recognizer
US20030046069A1 (en) Noise reduction system and method
JP4325044B2 (ja) 音声認識システム
Kim et al. Performance improvement of a bitstream-based front-end for wireless speech recognition in adverse environments
JP2003513320A (ja) 音声信号からの雑音の消去
Hernando On the use of filter-bank energies driven from the autocorrelation sequence for noisy speech recognition.
JP2000056791A (ja) 単語音声認識システムにおける環境適応装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120329

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130329

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160330

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20170330

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20180329

Year of fee payment: 13

EXPY Expiration of term