KR20050000541A - 잡음 감소와 관련된 불확실성을 결정하는 방법 - Google Patents

잡음 감소와 관련된 불확실성을 결정하는 방법 Download PDF

Info

Publication number
KR20050000541A
KR20050000541A KR10-2004-7018410A KR20047018410A KR20050000541A KR 20050000541 A KR20050000541 A KR 20050000541A KR 20047018410 A KR20047018410 A KR 20047018410A KR 20050000541 A KR20050000541 A KR 20050000541A
Authority
KR
South Korea
Prior art keywords
noise
signal
uncertainty
component
probability
Prior art date
Application number
KR10-2004-7018410A
Other languages
English (en)
Inventor
리 뎅
알레잔드로 아세로
제임스 지. 드롭포
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/152,143 external-priority patent/US7107210B2/en
Priority claimed from US10/152,127 external-priority patent/US7103540B2/en
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20050000541A publication Critical patent/KR20050000541A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

스피치 왜곡의 파라미터 모델에 기초하여 잡음 감소의 불확실성을 결정하기 위한 방법 및 장치가 제공된다. 우선 상기 방법을 사용하여 잡음이 있는 신호의 잡음을 감소시킨다. 특히, 잡음이 있는 신호의 일부의 표시로부터 잡음이 감소되어 음향 환경 모델을 사용함으로써(413) 클린화된 신호의 표시를 생성한다(304). 그 후 잡음 감소 프로세스와 관련된 불확실성이 계산된다. 일 실시예에서는, 잡음-감소된 신호와 함께, 잡음 감소 프로세스의 불확실성을 사용하여 패턴 상태를 디코딩한다(306).

Description

잡음 감소와 관련된 불확실성을 결정하는 방법{METHOD OF DETERMINING UNCERTAINTY ASSOCIATED WITH NOISE REDUCTION}
스피치 인식 시스템과 같은 패턴 인식 시스템은 입력 신호를 취하고 그 신호를 디코드하여 그 신호에 의해 표시되는 패턴을 찾고자 한다. 예를 들어, 스피치 인식 시스템에서는, 스피치 신호(종종 테스트 신호로 지칭됨)는 인식 시스템에 의해 수신되고 스피치 신호에 의해 표현되는 일련의 워드들을 식별하기 위해 디코드된다.
인입하는 테스트 신호를 디코드하기 위해, 대부분의 인식 시스템들은 테스트 신호들의 일부가 특정 패턴을 나타낼 가능성을 기술하는 하나 이상의 모델들을 사용한다. 이러한 모델들의 예는 중립 네트들, 동적 시간 와핑, 세그먼트 모델, 및 히든 마르코브 모델을 포함한다.
인입하는 신호를 디코드하기 위해 모델이 사용될 수 있기 전에, 모델은 트레이닝되어야 한다. 이것은 일반적으로 공지된 트레이닝 패턴으로부터 발생되는 입력 트레이닝 신호들을 측정함으로써 수행된다. 예를 들어, 스피치 인식시, 공지된텍스트로부터 판독하는 스피커들에 의해 스피치 신호들의 집합이 발생된다. 그 후 이러한 스피치 신호들은 모델들을 트레이닝하기 위해 사용된다.
모델이 최적으로 작용하기 위해, 모델을 트레이닝하는데 사용되는 신호들은 디코드되는 궁극적인 테스트 신호들과 유사해야 한다. 특히, 트레이닝 신호들은 디코드되는 테스트 신호들과 동일한 양 및 형태의 노이즈를 포함하는 것이 바람직하다.
일반적으로, 트레이닝 신호는 "클린(clean)" 조건들 하에서 수집되고 비교적 잡음이 없는 것으로 여겨진다. 테스트 신호에서의 이러한 동일한 저레벨의 잡음을 실현하기 위해, 많은 종래 시스템들은 테스팅 데이터에 잡음 감소 기술을 적용한다. 이러한 잡음 감소 기술에 의해 패턴 인식 동안 사용되는 테스트 신호가 클린된다. 대부분의 시스템들에서, 잡음 감소 기술은 다중 차수의 특징 벡터들의 시퀀스를 생성하는데, 각 특징 벡터는 잡음-감소된 신호의 프레임을 나타낸다.
불행히도, 잡음 감소 기술들은 완벽하게 작용하지 않기 때문에, 클린화된(cleaned) 신호에 일부 고유의 불확실성이 존재한다. 과거에는, 이러한 불확실성을 처리하기 위한 2가지의 일반적인 기술들이 있었다. 첫번째로 불확실성을 무시하고 잡음 감소 프로세스를 완벽한 것으로 취급하는 것이다. 이것은 인식 시스템의 진정한 상태를 무시하기 때문에, 인식 에러들이 방지될 수 있다.
잡음 감소의 불확실성을 처리하는 다른 종래 기술은 잡음 감소 기술이 나쁘게 수행될 수 있는 입력 신호의 프레임들을 식별하는 것이다. 이러한 프레임들에서는, 에러에서 발생할 수 있는 특징 벡터들의 차수들이 잡음 감소 시스템에 의해표시되어 인식 동안 사용되지 않는다. 따라서, 소정량 이상의 불확실성을 갖는 특징 벡터 컴포넌트들은 디코딩 동안 완전히 무시된다. 이러한 시스템들은 잡음 감소tl 불확실성을 인정하지만, 컴포넌트를 완전히 무시하는 기술은 컴포넌트를, 인식 동안 도움이 될 수 있는 정보를 제공하지 않는 것으로 취급한다. 이것은 상당한 양의 불확실성에도 불구하고 잡음-감소된 컴포넌트는 인식 동안 도움이 될 수 있는 몇몇 정보를 계속 제공할 수 있기 때문에 거의 발생할 거능성이 없다.
또한, 종래 기술은 몇몇 잡음 제거 프로세스의 불확실성을 결정하기 위한 수단을 제공하지 않는다. 그 결과, 이러한 프로세스들과 관련된 불확실성을 결정할 수 없었다.
이러한 관점에서, 잡음 감소시 불확실성을 식별하고 패턴 인식 동안 그 불확실성을 이용하는 기술이 필요하다.
본 발명은 패턴 인식에 관한 것이다. 특히, 본 발명은 잡음 감소 후에 패턴 인식을 수행하는 것에 관한 것이다.
도 1은 본 발명이 실시될 수 있는 일 컴퓨팅 환경의 블럭도.
도 2는 본 발명이 실시될 수 있는 다른 컴퓨팅 환경의 블럭도.
도 3은 본 발명의 일 실시예의 잡음 감소 시스템을 사용하는 방법의 흐름도.
도 4는 본 발명의 실시예들이 사용될 수 있는 패턴 인식 시스템의 블럭도.
잡음이 있는 신호에서 잡음을 감소시키는 방법 및 장치가 제공된다. 특히, 음향 환경 모델을 사용함으로써 클린화된 신호의 표시를 생성하기 위해 잡음이 있는 신호의 일부의 표시로부터 잡음이 감소된다. 그 후 잡음 감소 프로세스와 관련된 불확실성이 계산된다. 일 실시예에서는, 잡음 감소 프로세스의 불확실성을 사용하여 클린화된 신호로부터 패턴 상태를 디코드한다.
도 1은 본 발명이 구현될 수 있는 적절한 컴퓨팅 시스템 환경(100)의 예를 나타낸다. 컴퓨팅 시스템 환경(100)은 단지 적절한 컴퓨팅 환경의 일 예이며 본 발명의 사용 또는 기능의 범위에 제한을 가하도록 의도된 것은 아니다. 컴퓨팅 환경(100)은 예시적인 오퍼레이팅 환경(100)에 도시된 컴포넌트들 중의 임의의 하나 또는 조합에 관하여 임의의 종속성(dependency) 또는 요구사항(requirement)을 갖는 것으로 해석되어서는 안된다.
본 발명은 많은 다른 범용 또는 특수목적 컴퓨팅 시스템 환경들 또는 구성들과 함께 동작될 수 있다. 본 발명과 함께 사용하기에 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경, 및/또는 구성의 예로는, 퍼스널 컴퓨터, 서버 컴퓨터, 핸드헬드(hand-held) 또는 랩탑 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 셋 탑 박스(set top box), 프로그램가능한 가전제품(programmable consumer electronics), 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전화 시스템, 상기의 시스템 또는 장치 중의 임의의 것을 포함하는 분산형 컴퓨팅 환경 등이 포함될 수 있지만, 이에 한정되지 않는다.
본 발명은 컴퓨터에 의해 실행되는, 프로그램 모듈과 같은 컴퓨터 실행가능 명령과 일반적으로 관련하여 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포함한다. 본 발명은 또한 통신 네트워크를 통해 링크된 원격 프로세싱 장치에 의해 태스크를 수행하는 분산형 컴퓨팅 환경에서 실행될 수 있다. 분산형 컴퓨팅 환경에서, 프로그램 모듈 및 그외 데이터는 메모리 저장 장치를 포함하는 국부 및 원격 컴퓨터 저장 매체 내에 위치할 수 있다.
도 1을 참조하면, 본 발명을 구현하기 위한 예시적인 시스템은 컴퓨터(110)의 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들로는, 프로세싱 유닛(120), 시스템 메모리(130), 및 시스템 메모리를 포함하는 다양한 시스템 컴포넌트를 프로세싱 유닛(120)에 연결시키는 시스템 버스(121)가 포함될 수 있지만, 이에 한정되는 것은 아니다. 시스템 버스(121)는 다양한 버스 아키텍처 중의 임의의 것을 사용하는 로컬 버스, 주변 버스, 및 메모리 버스 또는 메모리 컨트롤러를 포함하는 몇가지 유형의 버스 구조 중의 임의의 것일 수 있다. 예로서, 이러한 아키텍처는 산업 표준 아키텍처(ISA) 버스, 마이크로 채널 아키텍처(MCA) 버스, 인핸스드 ISA(Enhanced ISA; EISA) 버스, 비디오 일렉트로닉스 표준 어소시에이션(VESA) 로컬 버스, 및 (메자닌(Mezzanine) 버스로도 알려진) 주변 컴포넌트 상호접속(PCI) 버스를 포함하지만, 이에 한정되는 것은 아니다.
컴퓨터(110)는 통상적으로 다양한 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터(110)에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수 있으며, 휘발성 및 불휘발성 매체, 분리형(removable) 및 비분리형(non-removable) 매체를 둘다 포함한다. 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있지만, 이에 한정되는 것은 아니다. 컴퓨터 저장매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 불휘발성, 분리형 및 비분리형 매체를 둘다 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래쉬 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광학 디스크 저장장치, 자기 카세트, 자기 테이프, 자기 디스크 저장장치 또는 기타 자기 저장장치, 또는 컴퓨터(110)에 의해 액세스될 수 있고 원하는 정보를 저장하는 데 사용될 수 있는 임의의 기타 매체를 포함할 수 있지만, 이에 한정되지 않는다. 통신 매체는 통상적으로 반송파 또는 기타 전송 메카니즘 등의 변조된 데이터 신호에 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 다른 데이터를 구현하며, 임의의 정보 전달 매체를 포함한다. "변조된 데이터 신호"라는 용어는 신호 내에 정보를 인코딩하도록 설정되거나 변환된 특성을 하나 또는 그 이상을 갖는 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 유선 접속 등의 유선 매체와, 음향, RF, 적외선 및 기타 무선 매체 등의 무선 매체를 포함하지만, 이에 한정되지 않는다. 상술한 것들 중의의 임의의 조합이 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.
시스템 메모리(130)는 ROM(131) 및 RAM(132) 등의 휘발성 및/또는 불휘발성 메모리의 형태의 컴퓨터 저장 매체를 포함한다. 시동중과 같은 때에 컴퓨터(110) 내의 구성요소들간에 정보를 전송하는 것을 돕는 기본 루틴을 포함하는 기본 입출력 시스템(133; BIOS)은 일반적으로 ROM(131)에 저장된다. RAM(132)은 일반적으로 프로세싱 유닛(120)에 즉시 액세스될 수 있고 및/또는 프로세싱 유닛(120)에 의해현재 작동되는 프로그램 모듈 및/또는 데이터를 포함한다. 예로서, (한정하고자 하는 것은 아님) 도 1은 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)를 도시한다.
컴퓨터(110)는 또한 다른 분리형/비분리형, 휘발성/불휘발성 컴퓨터 저장 매체를 포함할 수 있다. 단지 예로서, 도 1에는 비분리형 불휘발성 자기 매체로부터 판독하거나 그 자기 매체에 기록하는 하드 디스크 드라이브(141), 분리형 불휘발성 자기 디스크(152)로부터 판독하거나 그 자기 디스크에 기록하는 자기 디스크 드라이브(151), 및 CD-ROM 또는 기타 광학 매체 등의 분리형 불휘발성 광학 디스크(156)로부터 판독하거나 그 광학 디스크에 기록하는 광학 디스크 드라이브(155)가 도시되어 있다. 예시적인 오퍼레이팅 환경에서 사용될 수 있는 다른 분리형/비분리형, 휘발성/불휘발성 컴퓨터 저장 매체는 자기 테이프 카세트, 플래쉬 메모리 카드, DVD(Digital versatile disk), 디지털 비디오 테이프, 고체 RAM, 고체 ROM 등을 포함하지만 이에 한정되지 않는다. 하드 디스크 드라이브(141)는 일반적으로 인터페이스(140)와 같은 비분리형 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광학 디스크 드라이브(155)는 일반적으로 인터페이스(150)와 같은 분리형 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.
앞서 기술되고 도 1에 도시된 드라이브 및 그 관련 컴퓨터 저장 매체는 컴퓨터(110)를 위한 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 기타 데이터의 저장을 제공한다. 도 1에서, 예를 들어, 하드 디스크 드라이브(141)는 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시된다. 이들 컴포넌트는 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일할 수도 있고 다를 수도 있다. 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 다른 프로그램 모듈(146), 및 프로그램 데이터(147)는 최소한 다른 복사본(different copies)임을 나타내기 위하여 다른 번호를 부여하였다.
사용자는 일반적으로 마우스, 트랙볼, 또는 터치 패드라 불리우는 포인팅 장치(161), 마이크로폰(163), 및 키보드(162)와 같은 입력 장치를 통해 컴퓨터(110)에 명령 및 정보를 입력할 수 있다. (도시되지 않은) 기타 입력 장치는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 입력 장치 및 그외의 입력 장치는 시스템 버스에 연결된 사용자 입력 인터페이스(160)를 통해 종종 프로세싱 유닛(120)에 접속되지만, 병렬 포트, 게임 포트 또는 유니버설 시리얼 포트(USB) 와 같은 기타 인터페이스 및 버스 구조에 의해 접속될 수 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치는 또한 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속된다. 모니터 외에도, 컴퓨터는 또한 출력 주변 인터페이스(195)를 통해 접속될 수 있는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있다.
컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 이용한 네트워크 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널컴퓨터, 핸드 헬드 장치, 서버, 라우터, 네트워크 PC, 피어(peer) 장치, 또는 기타 공통 네트워크 노드일 수 있으며, 컴퓨터(110)에 관하여 상술한 구성요소 중 다수 또는 모든 구성요소를 일반적으로 포함한. 도 1에 도시된 논리적 접속은 근거리 통신망(LAN; 171) 및 원거리 통신망(WAN; 173)을 포함하지만, 그 외의 네트워크를 포함할 수도 있다. 이러한 네트워크 환경은 사무실, 기업 광역 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.
LAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 일반적으로 인터넷 등의 WAN(173)을 통해 통신을 구축하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메카니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크 환경에서, 컴퓨터(110)에 관하여 도시된 프로그램 모듈 또는 그 일부분은 원격 메모리 저장 장치에 저장될 수 있다. 예로서 (한정하고자 하는 것은 아님), 도 1은 원격 컴퓨터(180)에 상주하는 원격 애플리케이션 프로그램(185)을 도시한다. 도시된 네트워크 접속은 예시적인 것이며, 컴퓨터들간의 통신 링크를 구축하는 그 외의 수단이 사용될 수 있다.
도 2는 예시적인 컴퓨팅 환경인 모바일 디바이스(200)의 블록도이다. 모바일 디바이스(200)는 마이크로프로세서(202), 메모리(204), 입출력(I/O) 컴포넌트(206), 및 원격 컴퓨터 또는 기타 모바일 디바이스들과 통신하기 위한 통신 인터페이스(208)를 포함한다. 일 실시예에서는, 상기한 컴포넌트들은 적합한 버스(210)를 통해 또 다른 컴포넌트들과 통신을 위해 결합된다.
메모리(204)는 배터리 백업 모듈(도시하지 않음)을 갖는 RAM과 같은 불휘발성 전자 메모리로서 구현되어, 모바일 디바이스(200)에 대한 일반적인 전력이 셧다운되는 경우 메모리(204)에 저장된 정보가 소실되지 않도록 한다. 메모리(204)의 일부는 프로그램 실행을 위해 어드레스 가능한 메모리로서 할당되는 것이 바람직한 반면, 메모리(204)의 또 다른 부분은 예를 들어 디스크 드라이브 상의 저장을 시뮬레이트하기 위해 저장용으로 사용되는 것이 바람직하다.
메모리(204)는 오퍼레이팅 시스템(212), 애플리케이션 프로그램(214) 뿐만 아니라 오브젝트 스토어(216)를 포함한다. 동작시, 오퍼레이팅 시스템(212)은 메모리(204)로부터의 프로세서(202)에 의해 실행되는 것이 바람직하다. 바람직한 일 실시예에서는 오퍼레이팅 시스템(212)은 마이크로소프트사로부터 상업적으로 이용가능한 WINDOWSCE 브랜드이다. 오퍼레이팅 시스템(212)은 모바일 디바이스들용으로 설계되는 것이 바람직하고 공개된 애플리케이션 프로그래밍 인터페이스들 및 방법들의 세트를 통해 애플리케이션들(214)에 의해 이용될 수 있는 데이터베이스 특징들을 구현한다. 오브젝트 스토어(216) 내의 오브젝트들은 공개된 애플리케이션 프로그래밍 인터페이스들 및 방법들에 대한 호출에 적어도 부분적으로 응답하여, 애플리케이션들(214) 및 오퍼레이팅 시스템(212)에 의해 유지된다.
통신 인터페이스(208)는 모바일 디바이스(200)가 정보를 송수신할 수 있도록 하는 다수의 디바이스들 및 기술들을 나타낸다. 디바이스들은 일명 유선 및 무선 모뎀, 위성 수신기 및 방송 튜너들을 포함한다. 모바일 디바이스(200)는 또한 데이터를 교환하기 위해 컴퓨터에 직접 접속될 수 있다. 이러한 경우에, 통신 인터페이스(208)는 적외선 송수신기 또는 직렬 또는 병렬 통신 접속일 수 있으며, 이 모두는 일련의 정보를 송신할 수 있다.
입출력 컴포넌트(206)는 터치형 스크린, 버튼, 롤러, 및 마이크로폰과 같은 각종 입력 디바이스들 뿐만 아니라 오디오 발생기, 진동 디바이스, 및 디스플레이를 포함하는 각종 출력 장치들을 포함한다. 상기 열거된 디바이스들은 예일 뿐이며 모두 모바일 디바이스(200)에 존재할 필요는 없다. 또한, 기타 입출력 디바이스들은 본 발명의 범위 내에서 모바일 디바이스(200)에 부착되거나 이와 함께 발견될 수 있다.
이하의 설명에서는, 본 발명은 발명의 이해를 용이하게 하도록 스피치 인식을 참조하여 설명된다. 그러나, 본 발명은 스피치 인식에 한정되지 않고 패턴 인식 시스템에서 사용될 수 있다는 것을 본 기술 분야의 당업자들은 인식할 것이다.
스피치 인식의 목표는 스피치 신호를 워드들의 시퀀스로 변환하는 것이다. 이를 수행하기 위해, 스피치 신호는 일반적으로 중첩되는 스피치의 프레임들로 분할되고 각 프레임은 프레임의 내용을 설명하는 특징 벡터 y로 변환된다. 디코딩이라고도 칭해지는 인식 동안, 특징 벡터들에 의해 표시될 수 있는 가장 가능성있는 음성 상태들의 시퀀스를 식별하기 위해 음향 모델이 사용된다. 결과적인 음성 상태들의 시퀀스는 디코딩된 워드들의 시퀀스를 나타낸다.
많은 음향 모델들은 가우스 혼합(mixture of Gaussians)을 평가하여 어느 하나의 음성 상태의 확률을 결정한다. 따라서, 각 프레임에서, 프레임에 대해 가장가능성있는 음성 상태를 식별하기 위해 각 음성 상태에 대한 가우스 혼합을 평가한다. 각 가우스의 평가는, 음성 상태에 대한 혼합 컴포넌트가 m인 경우, 특징 벡터 y의 확률인을 결정하는 것으로 생각될 수 있다.
잡음 감소를 스피치 인식과 결합하여 사용하는 경우, 잡음이 있는 입력 특징 벡터 y는 잡음 감소 시스템에 의해 클린화된 특징 벡터로 변환된다. 클린화된 특징 벡터는 실제 클린 특징 벡터 x의 추정량을 나타낸다. 클린화된 특징 벡터는 입력 신호로서, 클린화된 특징 벡터가 주어지면 가장 가능성있는 음성 상태를 식별하고자 하는 스피치 인식 시스템으로 제공된다.
잡음 변질이 없다면, 관찰 벡터 y는 클린 벡터 x와 동일하다. 따라서, 클린 관찰 벡터를 위해 혼합 컴포넌트에 대한 가우스를 평가하는 것은 혼합 컴포넌트 m, p(x|m)이 주어진 경우 클린 벡터 x의 확률을 평가하는 것과 동일하다.
그러나, 관찰 벡터가 잡음에 의해 변질되어 잡음 감소 시스템이 사용되는 경우, 인식기에 대한 입력은 더이상 이상적인 클린 벡터 x가 아니라 대신에 단지 x의 추정량인 클린화된 특징 벡터이다. 과거에는, 간단히 클린화된 특징 벡터를 마치 이상적인 클린 특징 벡터 x와 동일하다고 취급하는 것이 공통적이었다. 이러한 경우, 혼합 컴포넌트에 대한 가우스는 확률을 결정함으로써 근사화될 수 있다.
본 발명에 의하면, 모든 가능한 미확인 클린 스피치 벡터들에 대해 결합 조건 확률 밀도 함수를 마진화함으로써 확률을 결정하는 보다 정밀한 접근법이 사용된다. 수학식으로 표현하면 다음과 같다:
수학식 1의 우변을 전개하면 수학식 1은 수학식 2가 될 수 있다:
수학식 2와 관련된 계산들을 보다 용이하게 구현시키기 위해서, 확률은 m과 관계없도록 가정하면이 된다. 그 후 이 확률은 잡음 감소 프로세스의 불확실성을 기술하는 가우스 분포로서 모델링된다. 특히,
여기서, 분포는 클린화된 특징 벡터에 걸쳐 정의되고, 이상적인 클린 특징 벡터 x와 동일한 평균, 및 잡음 감소 프로세스와 관련된 분산을 나타내는 분산를 갖는다. 수학식 3에서는 전체 벡터에 걸쳐 가우스 분포를 단일 가우스로서 표현하기 위해 간략한 표시법을 사용했음에 유의하라. 사실, 특징 벡터의 각 차수에 대해, 그 자신의 평균 및 분산을 갖는 별도의 가우스가 존재한다. 예를 들어,
여기서, yl은 잡음이 있는 특징 벡터의 컴포넌트 l이고, xl은 클린 특징 벡터의 컴포넌트 l이고,는 클린화된 특징 벡터의 컴포넌트 l이고,는 특징 벡터들의 컴포넌트 l에 대한 잡음 감소 프로세스와 관련된 분산(또한 불확실성이라고도 칭함)이다.
이전 확률은 또한 가우스 분포들의 집합으로서 모델링되고, 벡터의 각 컴포넌트에 대한 이전 확률은 다음과 같다:
여기서,은 이전 분포의 평균이고,는 특징 벡터들의 컴포넌트 l에 대한 분포의 분산이다.
수학식 2, 4 및 5를 결합하여 적분을 구하면 수학식 6과 같다:
따라서, 본 발명의 프레임워크에 따르면, 음향 모델에서 사용되는 분포의 분산은 이전 모델과 관련된 분산와, 잡음 감소 프로세스와 관련된 분산 또는 불확실성과의 조합이다. 결과적으로, 컴포넌트에 대하여 잡음 감소 프로세스와 관련된 불확실성이 높으면, 각 음성 상태에 대해 발생되는 확률들 사이의 차가 적을 것이다. 결과적으로, 컴포넌트는 음성 상태 시퀀스의 디코딩에 영향을 주지 않을 것이다. 그러나, 잡음 감소 프로세스의 불확실성이 작으면, 각종 음성 상태들에 대한 음향 모델들은 컴포넌트에 대한 별개의 확률들을 발생시킬 것이고 이에 따라 컴포넌트는 음성 상태의 선택에 강하게 영항을 미칠 것이다.
본 발명의 일 실시예에 따르면, 잡음 감소 프로세스는 클린 스피치의 동적 양상들의 사전 모델, 클린 스피치의 정적 양상들의 사전 모델, 및 클린 스피치, 잡음 스피치 및 잡음 사이의 관계를 설명하는 음향-왜곡 또는 음향-환경 모델을 사용한다. 따라서 본 발명은 이러한 파리미터 기반의 잡음 감소 프로세스에서 불확실성을 결정하기 위한 기술을 제공한다.
상기에서, 잡음 감소 방법은 켑스트럼 도메인(cepstral domain)에서 수행된다. 특히, 클린 스피치, 잡음이 있는 스피치, 및 잡음의 각 프레임은 프레임 내에 있는 신호의 주파수 도메인 표시의 대수 및 이산 코사인 변환을 취하여 형성되는 켑스트럼 특징 벡터에 의해 표시된다. 따라서, 상기에서는, 본 방법은 잡음이 있는 스피치 특징 벡터로부터 잡음-감소된 특징 벡터를 식별하고자 한다. 상기 수학식 3에 따르면, 각 벡터를 단일 분포로 표시되도록 처리하는 간략화된 표시법이 이하에 사용된다. 구현시에는, 벡터의 각 컴포넌트에 대해 별개의 분포가 존재한다.
잡음이 있는 벡터로부터 잡음을 감소시키기 위해, 조건부 기대(conditional expectation)를 사용하여 잡음-감소된 벡터의 최소 평균 제곱 추정량이 결정된다:
여기서,은 현재 프레임의 잡음-감소된 특징 벡터에 대한 추정량이고,는 이전 프레임에 대해 결정된 잡음-감소된 특징 벡터에 대한 추정량이고, yt는 현재 프레임에 대한 잡음이 있는 스피치 특징 벡터이고, xt는 현재 프레임에 대한 클린 스피치 특징 벡터이다.
베이즈 규칙(bayes rule)을 사용하여, 수학식 1에서의 추정량이 수학식 8과 같이 다시 정립될 수 있다:
여기서, 이전 프레임에서의 클린 스피치 벡터의 추정량이인 경우에,는 클린 스피치 벡터 xt의 조건부 확률이고, 클린 스피치 벡터가 xt인 경우에는 잡음이 있는 스피치 벡터의 주건부 확률이고, p(yt)는 잡음이 있는 스피치 벡터 yt의 확률이다.
본 발명의 일 실시예에 따르면, 조건부 확률을 설명하기 위해 혼합 모델이 사용된다. 수학식의 관점에서는 다음과 같다:
조건부 사전 확률은 m번째 혼합 컴포넌트에 의해 제공되는 확률이고, cm은 m번째 혼합 컴포넌트에 대한 가중화 팩터이다.
일 실시예에 따르면, 잡음이 있는 스피치는 클린 스피치에 잡음이 추가된 결과로 여겨진다. 이것은 다르게는 잡음이 있는 스피치에 대한 왜곡 모델로서 알려진 음향 환경 모델을 제공한다. 시간 도메인에서, 이러한 추가는 선형이다. 그러나, 켑스트럼 특징 도메인에서, 이러한 추가는 비선형으로 되어 수학식 10의 특징 벡터 관계식이 된다:
여기서,
이고 r은 잔차이다.
수학식 10의 표현을 보다 사용하기 쉽게 하기 위해, 절단된 테일러 시리즈 근사법을 사용하여 비선형성이 선형화된다. 특히, xt=x0인 g(nt-xt)에 대한 0차 테일러 시리즈 전개를 사용하여 수학식 12의 근사값을 형성한다.
여기서는 전개점 x0에서의 0차 테일러 시리즈 전개이고,은 현재 프레임에서의 잡음의 추정량이다. 대부분의 실시예들에서, 전개점 x0는 잡음 감소 프로세스의 이전 반복동안 결정된 클린 스피치 신호의 추정량으로서 선택되고,은 순환 기술(recursive technique)을 사용하여 결정된다. 본 기술 분야의 당업자들은 잡음 추정의 순환 기술이 본 발명에 이용될 수 있는 다수의 상이한 잡음 추정 기술들의 일례라는 것을 인식할 것이다.
수학식 12에 도시된 관계식에 기초하여, 수학식 8의 조건부 확률은 음향 환경 확률가 된다. 이러한 음향 환경 확률 및 상기 수학식 9를 사용하여, 수학식 8을 수학식 13과 같이 재작성할 수 있다:
수학식 13의 적분을 계산하기 위해, 조건부 사전(conditional prior)를 우선 평가한다. 이러한 평가를 보다 용이하게 하기 위해, 이것은 다음과 같이 생각된다:
여기서
따라서, 수학식 14에서는, xt는 클린 스피치의 정적 양상들을 나타내고는 클린 스피치의 동적 양상들을 나타낸다.
조건부 사전의 평가를 보다 단순화시키기 위해, 클린 스피치의 정적 양상들은 클린 스피치의 동적 양상들과 비상관된다고 가정한다. 결과적으로 다음과 같다:
일 실시예에 따르면, 클린 스피치의 정적 양상들에 대한 사전 확률 및 클린 스피치의 동적 양상들에 대한 사전 확률은 수학식 17과 같이 가우스 분포들로서 각각 모델링된다:
여기서는 클린 스피치의 정적 양상들에 대한 사전 모델의 평균 및 분산이고,는 클린 스피치의 동적 양상들에 대한 사전 모델의 평균 및 분산이다.
상기 2개의 가우스 분포들의 곱에서의 지수(exponent)를 xt에서의 표준 2차 형식으로 맞추고, 상기 수학식 14를 사용하면, 수학식 18이 된다:
여기서
이다.
많은 실시예들에서, 음향 환경 확률은 수학식 21과 같은 형식의 음향 모델을 생성하는 가우스 분포로서 모델링된다:
여기서는 잔차 r에 대한 공분산 행렬(covariance matrix)의 근사값인 고정 대각 공분산 행렬이다.
따라서, 수학식 13의 피제수(numerator)의 적분은 수학식 22가 된다:
이 적분을 계산하면, 수학식 23이 된다:
여기서
수학식 15에서 만들어진 0차 근사값 하에서 클린 스피치 모델의 m번째 컴포넌트가 주어지면, 수학식 25의 가우스 분포는 관찰 가능성 yt라고 보여질 수 있다. 즉,
그 결과, 수학식 13에서의 제수(denominator)는 수학식 29와 같이 결정될 수 있다:
수학식 13, 23, 및 29를 결합하면 xt에 대한 추정량이 산출된다:
여기서,
수학식 30의 각 피가수(summand)는 최종 감소된 잡음 벡터에 기여한 혼합 컴포넌트이다. 각 피가수는 3개의 항의 가중된 합에, 혼합 컴포넌트가 주어지면 발생하는 잡음이 있는 특징 벡터의 상대적인 확률 yt를 곱함으로써 형성된다. 제1 항은 사전 클린 스피치 모델의 정적 양상들의 평균으로부터 취해지는 감소된 잡음 벡터의 예측이다. 제2 항은 이전 프레임에 대한 감소된 잡음 벡터의 추정량과 사전 클린 스피치 모델의 동적 양상들의 평균에 기초한 감소된 잡음 벡터에 대한 예측이다. 마지막 항인는 어떠한 사전 정보도 없을 경우 음향 왜곡 모델에 기초한, 잡음-감소된 클린-스피치 벡터의 예측이다.
따라서, 수학식 30의 추정량은 클린 스피치의 정적 양상들의 사전 모델, 클린 스피치의 동적 양상들의 사전 모델 및 음향 왜곡 모델을 사용한다. 결과적으로, 수학식 30의 추정량을 사용하여 생성되는, 잡음-감소된 벡터들의 시퀀스는 불연속점을 거의 포함하지 않고 보다 자연스럽게 나타난다.
또한, 각 피가수의 각 항들에 적용되는 가중화 값들은, 항들중 하나의 분산이 증가함에 따라 그 상대적인 가중화가 감소하도록 된다. 따라서, 잡음-감소된 값을 기술할 때 항이 보다 정확하게 되기 때문에 그 항의 가중화는 다른 항들의 가중화에 비해 증가한다.
예를 들어, 클린 스피치의 정적 양상들에 대한 사전 모델에 의해 예측된 값에 적용되는 가중화 값은 클린 스피치의 동적 양상들에 대한 사전 모델의 분산의 함수이다. 그 결과, 클린 스피치의 동적 양상들에 대한 모델의 분산이 클린 스피치의 정적 양상들에 대한 모델의 분산에 비해 증가하는 경우, 정적 양상들에 대한 사전 모델에 의해 예측되는 값의 상대적인 가중화가 증가한다.
클린 스피치의 동적 양상들에 대한 사전 모델에 의해 예측되는 값의 가중화에 대해 유사한 효과가 발생하는데, 그 이유는 이러한 가중화 값이 클린 스피치의 정적 양상들에 대한 사전 모델의 분산의 함수이기 때문이다.
수학식 31의 추정량이 사용될 수 있기 전에, 각종 모델들에 대한 파라미터들이 트레이닝되어야 한다. 일 실시예에 따르면, EM 알고리즘이 사용되어 켑스트럼 도메인의 평균 및 공분산 파라미터들,,을 트레이닝한다. 이러한 트레이닝 프로세스 동안, 혼합 컴포넌트 가중치 cm도 트레이닝된다. 이러한 트레이닝을 수행하기 위한 기술들은 본 기술 분야에 잘 알려져있다. 고정 공분산 행렬 ψ는 모든 이용가능한 신호들을 갖는 트레이닝 데이터를 잡음 비율들로 풀링(pooling)함으로써 추정된다.
일 실시예에 의하면, 잡음이 감소된 벡터 xt는 현재 반복중인 잡음-감소된 벡터의 값이 다음 반복시 테일러 시리즈 근사값의 전개점 xo로서 사용되도록 반복적으로 결정된다. 제1 반복 동안, 테일러 시리즈 근사값에 대한 전개점은 통상의 분포인 수학식 32를 사용하여 잡음이 있는 벡터에 최고 확률를 제공하는 혼합 컴포넌트 평균이다:
각각의 반복에서, 잡음-감소된 벡터는 수학식 33과 같이 계산된다:
여기서, j는 반복 카운터를 나타내고,
이다.
따라서, 잡음-감소된 벡터에 대한 기대값은 수학식 35와 같다:
여기서, J는 반복의 총수이다.
본 발명에 따르면, 수학식 33의 반복에 의해 표현되는 잡음 감소 프로세스와 관련된 불확실성도 계산되어 인식 동안 사용될 수 있다. 불확실성은 수학식 36과 같이 정의되는에서의 분산이다:
여기서,
이다.
상기 수학식 14-21의 모델들 및 근사값들을 사용하면, 적분 Im은 수학식 38이 된다:
여기서,
이다.
수학식 38의 결과를 수학식 37에 대체하면 수학식 43이 얻어진다:
여기서,
이다.
그 후 수학식 43에서 계산된 값은 수학식 33-35에서 계산된 잡음 감소된 벡터에 대한 기대값의 제곱과 함께 사용되어 상기 수학식 36을 사용하는 잡음 감소프로세스의 불확실성을 결정한다. 수학식 36에서는,는 불확실성의 벡터 표시이고 정적 잡음 감소된 벡터의 각 컴포넌트에 대한 별개의 불확실성을 나타냄을 유의하라.
상기 수학식 33-35는 잡음-감소된 벡터의 정적 컴포넌트들을 결정한다. 본 발명의 실시예들에 따르면, 프레임들 사이에서 컴포넌트들이 변하는 방법을 기술하는 이러한 정적 컴포넌트들의 미분도 결정될 수 있다. 이러한 미분은 일반적으로 동적 특징들이라 지칭된다. 본 발명에 따르면, 동적 특징들의 2가지 형태가 결정된다. 하나는 프레임들 사이의 변화를 나타내는 델타 특징이고, 다른 하나는 델타 특징들의 변화율을 나타내는 가속 특징이다. 일 실시예에 따르면, 델타 특징들은 수학식 45와 같이 계산된다:
여기서,는 잡음-감소된 벡터에 대한 동적 특징이고, K는 동적 특징들을 결정하기 위해 사용될 인접 프레임들의 수를 나타내고, ωτ는 인접 프레임들에 상대적인 가중화를 제공하는 고정 가중치들이다. 잡음-감소된 특징 벡터들의 각 컴포넌트들에 대해 별도의 계산이 수행되는 것을 나타내기 위해 수학식 45에서 벡터 표시법에 사용되었음을 주의하라.
가속 특징들은 또한 수학식 45에서 계산된 델타 특징들에 기초하여 결정될수 있다. 특히:
여기서,는 잡음 감소된 벡터에 대한 가속 특징이고, K는 동적 특징들을 결정하기 위해 사용될 인접 프레임들의 수를 나타내고, υτ는 인접 프레임들에 상대적인 가중화를 제공하는 고정 가중치들이다.
델타 및 가속 특징들은 정적 잡음-감소된 특징들과 함께 디코더에 제공된다. 또한, 델타 및 가속 특징들의 불확실성이 계산되어 디코더로 제공된다. 특히 델타 및 가속 특징들의 불확실성은 다음과 같이 계산된다:
여기서,는 상기 수학식 36에서 계산된 불확실성이고,는 델타 특징들의 불확실성이고,는 가속 특징들의 불확실성이며, ωτ및υτ는 수학식 45 및 46에서 사용된 동일한 가중치들이다.
정적 특징들, 델타 특징들 및 가속 특징들의 불확실성은 각각 수학식 6에서사용되어 디코딩 동안 잡음이 있는 특징 벡터의 해당 특징들의 확률을 결정한다. 특히, 수학식 45 및 46에서 계산된 델타 특징 및 가속 특징의 각 컴포넌트는 잡음-감소된 벡터의 별도의 컴포넌트로서 취급되고, 델타 벡터 및 각 가속 벡터의 각 컴포넌트와 관련된 해당 불확실성은 수학식 6에서 불확실성로서 사용된다.
본 발명을 스피치 인식에서 사용하기 위한 방법 및 시스템은 도 3의 흐름도 및 도 4의 블록도에 도시된다. 상기 방법은 도 3의 단계 300에서 시작하는데, 여기서 잡음이 있는 스피치 신호가 특징 벡터들의 시퀀스로 변환된다. 이를 수행하기 위해, 도 4의 마이크로폰(404)은 스피커(400) 및 하나 이상의 추가 잡음원(402)으로부터의 음파를 전기 신호로 변환한다. 그 후 전기 신호는 아날로그 디지털 컨버터(406)에 의해 샘플링되어 디지털 값들의 시퀀스를 발생하며, 상기 디지털 값들은 프레임 작성기(408)에 의해 값들의 프레임으로 그룹화된다. 일 실시예에서는, AD 컨버터(406)는 아날로그 신호를 16kHz 및 16 비트/샘플로 샘플링하여, 초당 32 킬로바이트의 스피치 데이터를 생성하고, 프레임 작성기(408)는 25 밀리초 만큼의 데이터를 포함하는 10 밀리초마다 새로운 프레임을 생성한다.
프레임 작성기(408)에 의해 제공되는 데이터의 각 프레임은 특징 추출기(410)에 의해 특징 벡터로 변환된다. 이러한 특징 벡터들을 식별하기 위한 방법은 본 기술 분야에 잘 알려져 있으며 13차원 MFCC(Mel-Frequency Cepstrum Coefficients) 추출법을 포함한다.
도 3의 단계 302에서, 잡음이 있는 스피치 신호에 대한 특징 벡터들이 도 4의 잡음 추정 모듈(411)로 제공된다. 잡음 추정 모듈(411)은 현재 프레임의 잡음을 추정하고 잡음이 있는 스피치 신호와 함께 잡음 추정량을 나타내는 특징 벡터를 잡음 감소 모듈(412)에 제공한다.
도 3의 단계 304에서, 잡음 감소 모듈(412)은 상기 수학식 33-35, 45 및 46과, 잡음 감소 파라미터 저장 장치(413)에 저장되어 있는 상기 식들의 모델 파라미터들을 사용하여 잡음이 있는 특징 벡터들의 시퀀스로부터 잡음-감소된 특징 벡터들의 시퀀스를 생성한다. 특히, 잡음 감소 모듈(412)은 상술한 바와 같은 음향 왜곡 모델을 사용한다. 또한, 잡음 감소 모듈(412)은 수학식 36-44, 47 및 48을 사용하여 잡음-감소된 특징 벡터들을 형성하는 것과 관련된 불확실성을 결정한다.
잡음 감소 모듈(412)의 출력은 잡음-감소된 특징 벡터들의 시리즈 및 상기 잡음-감소된 특징 벡터들과 관련된 불확실성의 대응하는 시리즈이다. 입력 신호가 트레이닝 신호이면, 잡음-감소된 특징 벡터들의 시리즈는 트레이너(424)로 제공되는데, 이것은 잡음-감소된 특징 벡터들 및 트레이닝 텍스트(426)를 사용하여 음향 모델(418)을 트레이닝한다. 이러한 모델들을 트레이닝하기 위한 기술은 본 기술 분야에 알려져 있으며 본 발명의 이해를 위해서 설명될 필요는 없다.
입력 신호가 테스트 신호이면, 잡음-감소된 특징 벡터들 및 대응하는 불확실성들이 디코더(414)에 제공되는데, 이것은 도 3의 단계 36에 도시된 바와 같이 특징 벡터들의 스트림, 불확실성들의 스트림, 렉시콘(415), 언어 모델(416), 및 음향 모델(418)에 기초하여 워드들중 가장 가능성있는 시퀀스를 식별한다. 특히, 디코딩은 상기 수학식 6을 사용한다.
가설 워드들중 가장 가능성있는 시퀀스는 확신 측정 모듈(420)에 제공된다.확신 측정 모듈(420)은 2차 음향 모델(도시하지 않음)에 부분적으로 기초하여 어떤 워드들이 스피치 인식기에 의해 부적절하게 인식될 가능성이 가장 큰지를 식별한다. 그 후 확신 측정 모듈(420)은 어떤 워드들이 부적절하게 식별되었는지를 나타내는 식별자들과 함께 가설 워드들의 시퀀스를 출력 모듈(422)에 제공한다. 본 기술분야의 당업자들은 확신 측정 모듈(420)이 본 발명의 실시를 위해 반드시 필요하지는 않다는 것을 인식할 것이다.
도 4는 스피치 인식 시스템을 도시하지만, 본 발명은 임의의 패턴 인식 시스템에서 사용될 수 있으며 스피치에 한정되지 않는다.
본 발명은 특정 실시예들을 참조하여 설명되었지만, 본 기술분야에 숙련된 자는 발명의 정신 및 범위로부터 벗어나지 않고 형식 및 상세에 있어서 변화가 이루어질 수 있음을 인식할 것이다.

Claims (16)

  1. 잡음이 있는 신호(noisy signal)에서 잡음을 감소시키는 방법으로서,
    상기 잡음이 있는 신호의 일부의 표시에서 잡음을 감소시켜, 음향-환경 모델(acoustic-environment model)을 사용하여 잡음-감소된 신호의 일부의 표시를 생성하는 단계; 및
    상기 잡음을 감소시키는 것과 관련된 불확실성을 식별하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 불확실성을 사용하여 확률 분포를 조정함으로써 변경된 확률 분포를 형성하는 단계; 및
    상기 잡음-감소된 신호의 일부의 상기 표시 및 상기 변경된 확률 분포를 사용하여 패턴 상태를 디코딩하는 단계
    를 더 포함하는 방법.
  3. 제1항에 있어서,
    잡음-감소된 신호의 일부의 상기 표시는 상기 잡음-감소된 신호의 델타 특징들(delta features)의 표시를 포함하는 방법.
  4. 제3항에 있어서,
    상기 불확실성을 식별하는 단계는 상기 잡음-감소된 신호의 델타 특징과 관련된 불확실성을 식별하는 단계를 포함하는 방법.
  5. 제1항에 있어서,
    잡음-감소된 신호의 일부의 상기 표시는 상기 잡음-감소된 신호의 가속 특징들의 표시를 포함하는 방법.
  6. 제5항에 있어서,
    상기 불확실성을 식별하는 단계는 상기 잡음-감소된 신호의 가속 특징과 관련된 불확실성을 식별하는 단계를 포함하는 방법.
  7. 제1항에 있어서,
    상기 잡음을 감소시키는 단계는 클린 신호(clean signal)들의 동적 양상들의 사전 모델(prior model)을 사용하는 단계를 포함하는 방법.
  8. 잡음이 있는 신호의 프레임을, 적어도 2개의 컴포넌트들을 포함하는 특징 벡터(feature vector)로 변환하는 단계;
    상기 잡음이 있는 신호에 대한 상기 특징 벡터의 컴포넌트에서 잡음을 감소시켜, 음향 왜곡 모델(acoustic distortion model)을 사용함으로써 클린화된 신호(cleaned signal)에 대한 특징 벡터의 컴포넌트를 생성하는 단계; 및
    상기 컴포넌트로부터 상기 잡음을 감소시키는 것과 관련된 불확실성을 식별하는 단계
    를 수행하기 위한 컴퓨터-실행가능한 명령어들을 갖는 컴퓨터 판독가능한 매체.
  9. 제8항에 있어서,
    상기 컴퓨터 실행가능한 명령어들은,
    상기 클린화된 신호에 대한 상기 컴포넌트 및 상기 컴포넌트로부터 상기 잡음을 감소시키는 것과 관련된 상기 불확실성에 부분적으로 기초하여 음성 상태(phonetic state)에 대한 확률의 확률 컴포넌트를 결정하는 단계; 및
    상기 확률 컴포넌트를 사용하여 상기 불확실성의 값에 관계없이 상기 음성 상태의 상기 확률을 결정하는 단계
    를 포함하는 추가의 단계들을 수행하는 컴퓨터 판독가능한 매체.
  10. 제9항에 있어서,
    상기 확률 컴포넌트를 결정하는 단계는 상기 불확실성에 부분적으로 기초하여 확률 분포를 정의하는 단계를 포함하는 컴퓨터 판독가능한 매체.
  11. 제10항에 있어서,
    상기 확률 분포를 정의하는 단계는 확률 분포의 분산에 상기 불확실성을 추가하는 단계를 포함하는 컴퓨터 판독가능한 매체.
  12. 제8항에 있어서,
    상기 컴퓨터 실행가능한 명령어들은 상기 클린화된 신호의 델타 특징을 결정하는 단계를 포함하는 추가의 단계를 수행하는 컴퓨터 판독가능한 매체.
  13. 제12항에 있어서,
    상기 컴퓨터 실행가능한 명령어들은 상기 클린화된 신호의 상기 델타 특징의 불확실성을 결정하는 단계를 포함하는 추가의 단계를 수행하는 컴퓨터 판독가능한 매체.
  14. 제8항에 있어서,
    상기 컴퓨터 실행가능한 명령어들은 상기 클린화된 신호의 가속 특징을 결정하는 단계를 포함하는 추가의 단계를 수행하는 컴퓨터 판독가능한 매체.
  15. 제14항에 있어서,
    상기 컴퓨터 실행가능한 명령어들은 상기 클린화된 신호의 상기 가속 특징의 불확실성을 결정하는 단계를 포함하는 추가의 단계를 수행하는 컴퓨터 판독가능한 매체.
  16. 제8항에 있어서,
    컴포넌트로부터 잡음을 감소시키는 상기 단계는 클린 신호의 동적 양상들의 사전 모델을 사용하는 단계를 더 포함하는 컴퓨터 판독가능한 매체.
KR10-2004-7018410A 2002-05-20 2003-05-20 잡음 감소와 관련된 불확실성을 결정하는 방법 KR20050000541A (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US10/152,143 US7107210B2 (en) 2002-05-20 2002-05-20 Method of noise reduction based on dynamic aspects of speech
US10/152,143 2002-05-20
US10/152,127 US7103540B2 (en) 2002-05-20 2002-05-20 Method of pattern recognition using noise reduction uncertainty
US10/152,127 2002-05-20
US10/236,042 2002-09-05
US10/236,042 US7174292B2 (en) 2002-05-20 2002-09-05 Method of determining uncertainty associated with acoustic distortion-based noise reduction
PCT/US2003/016032 WO2003100769A1 (en) 2002-05-20 2003-05-20 Method of determining uncertainty associated with noise reduction

Publications (1)

Publication Number Publication Date
KR20050000541A true KR20050000541A (ko) 2005-01-05

Family

ID=29587546

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2004-7018410A KR20050000541A (ko) 2002-05-20 2003-05-20 잡음 감소와 관련된 불확실성을 결정하는 방법

Country Status (7)

Country Link
US (2) US7174292B2 (ko)
EP (1) EP1506542A1 (ko)
JP (1) JP2005527002A (ko)
KR (1) KR20050000541A (ko)
CN (1) CN1653520A (ko)
AU (1) AU2003241553A1 (ko)
WO (1) WO2003100769A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100919223B1 (ko) * 2007-09-19 2009-09-28 한국전자통신연구원 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7107210B2 (en) * 2002-05-20 2006-09-12 Microsoft Corporation Method of noise reduction based on dynamic aspects of speech
US7174292B2 (en) * 2002-05-20 2007-02-06 Microsoft Corporation Method of determining uncertainty associated with acoustic distortion-based noise reduction
US7103540B2 (en) * 2002-05-20 2006-09-05 Microsoft Corporation Method of pattern recognition using noise reduction uncertainty
KR100558391B1 (ko) * 2003-10-16 2006-03-10 삼성전자주식회사 디스플레이장치 및 그 제어방법
DE102004008225B4 (de) * 2004-02-19 2006-02-16 Infineon Technologies Ag Verfahren und Einrichtung zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, Verfahren und Einrichtung zur Mustererkennung sowie computerlesbare Speichermedien
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
US20070219796A1 (en) * 2006-03-20 2007-09-20 Microsoft Corporation Weighted likelihood ratio for pattern recognition
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8209175B2 (en) * 2006-06-08 2012-06-26 Microsoft Corporation Uncertainty interval content sensing within communications
KR100908121B1 (ko) 2006-12-15 2009-07-16 삼성전자주식회사 음성 특징 벡터 변환 방법 및 장치
US8195453B2 (en) * 2007-09-13 2012-06-05 Qnx Software Systems Limited Distributed intelligibility testing system
US8140330B2 (en) * 2008-06-13 2012-03-20 Robert Bosch Gmbh System and method for detecting repeated patterns in dialog systems
US8160878B2 (en) * 2008-09-16 2012-04-17 Microsoft Corporation Piecewise-based variable-parameter Hidden Markov Models and the training thereof
US8145488B2 (en) * 2008-09-16 2012-03-27 Microsoft Corporation Parameter clustering and sharing for variable-parameter hidden markov models
ES2334429B2 (es) * 2009-09-24 2011-07-15 Universidad Politécnica de Madrid Sistema y procedimiento de deteccion e identificacion de sonidos en tiempo real producidos por fuentes sonoras especificas.
US20110178800A1 (en) * 2010-01-19 2011-07-21 Lloyd Watts Distortion Measurement for Noise Suppression System
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US8874441B2 (en) * 2011-01-19 2014-10-28 Broadcom Corporation Noise suppression using multiple sensors of a communication device
CN109118199A (zh) * 2011-02-16 2019-01-01 维萨国际服务协会 快拍移动支付装置,方法和系统
US10586227B2 (en) 2011-02-16 2020-03-10 Visa International Service Association Snap mobile payment apparatuses, methods and systems
AU2012220669A1 (en) 2011-02-22 2013-05-02 Visa International Service Association Universal electronic payment apparatuses, methods and systems
WO2013006725A2 (en) 2011-07-05 2013-01-10 Visa International Service Association Electronic wallet checkout platform apparatuses, methods and systems
US9582598B2 (en) 2011-07-05 2017-02-28 Visa International Service Association Hybrid applications utilizing distributed models and views apparatuses, methods and systems
US9355393B2 (en) 2011-08-18 2016-05-31 Visa International Service Association Multi-directional wallet connector apparatuses, methods and systems
US9710807B2 (en) 2011-08-18 2017-07-18 Visa International Service Association Third-party value added wallet features and interfaces apparatuses, methods and systems
US10242358B2 (en) 2011-08-18 2019-03-26 Visa International Service Association Remote decoupled application persistent state apparatuses, methods and systems
US10825001B2 (en) 2011-08-18 2020-11-03 Visa International Service Association Multi-directional wallet connector apparatuses, methods and systems
US10223730B2 (en) 2011-09-23 2019-03-05 Visa International Service Association E-wallet store injection search apparatuses, methods and systems
AU2013214801B2 (en) 2012-02-02 2018-06-21 Visa International Service Association Multi-source, multi-dimensional, cross-entity, multimedia database platform apparatuses, methods and systems
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
MY181026A (en) 2013-06-21 2020-12-16 Fraunhofer Ges Forschung Apparatus and method realizing improved concepts for tcx ltp
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US9437212B1 (en) * 2013-12-16 2016-09-06 Marvell International Ltd. Systems and methods for suppressing noise in an audio signal for subbands in a frequency domain based on a closed-form solution
US20150336786A1 (en) * 2014-05-20 2015-11-26 General Electric Company Refrigerators for providing dispensing in response to voice commands
WO2016033364A1 (en) 2014-08-28 2016-03-03 Audience, Inc. Multi-sourced noise suppression
DE112015004185T5 (de) * 2014-09-12 2017-06-01 Knowles Electronics, Llc Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
WO2017037830A1 (ja) * 2015-08-31 2017-03-09 三菱電機株式会社 音声認識装置および音声認識処理方法
US11514314B2 (en) 2019-11-25 2022-11-29 International Business Machines Corporation Modeling environment noise for training neural networks

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4897878A (en) * 1985-08-26 1990-01-30 Itt Corporation Noise compensation in speech recognition apparatus
GB8608289D0 (en) * 1986-04-04 1986-05-08 Pa Consulting Services Noise compensation in speech recognition
US5148489A (en) * 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
US5604839A (en) * 1994-07-29 1997-02-18 Microsoft Corporation Method and system for improving speech recognition through front-end normalization of feature vectors
US5924065A (en) * 1997-06-16 1999-07-13 Digital Equipment Corporation Environmently compensated speech processing
US6633842B1 (en) * 1999-10-22 2003-10-14 Texas Instruments Incorporated Speech recognition front-end feature extraction for noisy speech
US6098040A (en) * 1997-11-07 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking
US6202047B1 (en) * 1998-03-30 2001-03-13 At&T Corp. Method and apparatus for speech recognition using second order statistics and linear estimation of cepstral coefficients
WO2000001124A1 (en) * 1998-06-29 2000-01-06 Nokia Networks Oy Symbol estimation using soft-output algorithm and feedback
US6980952B1 (en) * 1998-08-15 2005-12-27 Texas Instruments Incorporated Source normalization training for HMM modeling of speech
US6173258B1 (en) * 1998-09-09 2001-01-09 Sony Corporation Method for reducing noise distortions in a speech recognition system
US6418411B1 (en) * 1999-03-12 2002-07-09 Texas Instruments Incorporated Method and system for adaptive speech recognition in a noisy environment
US6577997B1 (en) * 1999-05-28 2003-06-10 Texas Instruments Incorporated System and method of noise-dependent classification
DE60018696T2 (de) * 1999-07-01 2006-04-06 Koninklijke Philips Electronics N.V. Robuste sprachverarbeitung von verrauschten sprachmodellen
US6633843B2 (en) * 2000-06-08 2003-10-14 Texas Instruments Incorporated Log-spectral compensation of PMC Gaussian mean vectors for noisy speech recognition using log-max assumption
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
US6876966B1 (en) * 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
US7003455B1 (en) * 2000-10-16 2006-02-21 Microsoft Corporation Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech
US6985858B2 (en) * 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
US20030055640A1 (en) * 2001-05-01 2003-03-20 Ramot University Authority For Applied Research & Industrial Development Ltd. System and method for parameter estimation for pattern recognition
US7158933B2 (en) * 2001-05-11 2007-01-02 Siemens Corporate Research, Inc. Multi-channel speech enhancement system and method based on psychoacoustic masking effects
US6915259B2 (en) * 2001-05-24 2005-07-05 Matsushita Electric Industrial Co., Ltd. Speaker and environment adaptation based on linear separation of variability sources
US6959276B2 (en) * 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US6990447B2 (en) * 2001-11-15 2006-01-24 Microsoft Corportion Method and apparatus for denoising and deverberation using variational inference and strong speech models
US7117148B2 (en) * 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US6944590B2 (en) * 2002-04-05 2005-09-13 Microsoft Corporation Method of iterative noise estimation in a recursive framework
US7103540B2 (en) * 2002-05-20 2006-09-05 Microsoft Corporation Method of pattern recognition using noise reduction uncertainty
US7174292B2 (en) * 2002-05-20 2007-02-06 Microsoft Corporation Method of determining uncertainty associated with acoustic distortion-based noise reduction
US7107210B2 (en) * 2002-05-20 2006-09-12 Microsoft Corporation Method of noise reduction based on dynamic aspects of speech
US7050975B2 (en) * 2002-07-23 2006-05-23 Microsoft Corporation Method of speech recognition using time-dependent interpolation and hidden dynamic value classes
US7200557B2 (en) * 2002-11-27 2007-04-03 Microsoft Corporation Method of reducing index sizes used to represent spectral content vectors

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100919223B1 (ko) * 2007-09-19 2009-09-28 한국전자통신연구원 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치

Also Published As

Publication number Publication date
CN1653520A (zh) 2005-08-10
US20070106504A1 (en) 2007-05-10
AU2003241553A1 (en) 2003-12-12
US7289955B2 (en) 2007-10-30
WO2003100769A1 (en) 2003-12-04
US7174292B2 (en) 2007-02-06
JP2005527002A (ja) 2005-09-08
EP1506542A1 (en) 2005-02-16
US20030225577A1 (en) 2003-12-04

Similar Documents

Publication Publication Date Title
KR20050000541A (ko) 잡음 감소와 관련된 불확실성을 결정하는 방법
KR101201146B1 (ko) 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대 잡음비를 사용하는 잡음 감소 방법
US7617098B2 (en) Method of noise reduction based on dynamic aspects of speech
KR101004495B1 (ko) 증분 베이즈 학습을 사용하는 잡음 추정 방법
US6985858B2 (en) Method and apparatus for removing noise from feature vectors
EP1398762B1 (en) Non-linear model for removing noise from corrupted signals
EP1396845B1 (en) Method of iterative noise estimation in a recursive framework
US7460992B2 (en) Method of pattern recognition using noise reduction uncertainty
US7418383B2 (en) Noise robust speech recognition with a switching linear dynamic model
KR101087319B1 (ko) 음성 인식을 위한 고조파 모델 기반 프론트 엔드를이용하는 방법 및 장치
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
US20030191637A1 (en) Method of ITERATIVE NOISE ESTIMATION IN A RECURSIVE FRAMEWORK

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid