KR101201146B1 - 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대 잡음비를 사용하는 잡음 감소 방법 - Google Patents

최적의 추정을 위한 중요한 양으로서 순간적인 신호 대 잡음비를 사용하는 잡음 감소 방법 Download PDF

Info

Publication number
KR101201146B1
KR101201146B1 KR1020110107639A KR20110107639A KR101201146B1 KR 101201146 B1 KR101201146 B1 KR 101201146B1 KR 1020110107639 A KR1020110107639 A KR 1020110107639A KR 20110107639 A KR20110107639 A KR 20110107639A KR 101201146 B1 KR101201146 B1 KR 101201146B1
Authority
KR
South Korea
Prior art keywords
signal
noise
random variable
determining
clean
Prior art date
Application number
KR1020110107639A
Other languages
English (en)
Other versions
KR20110131147A (ko
Inventor
제임스 지. 드로포
리 뎅
알레산드로 아세로
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20110131147A publication Critical patent/KR20110131147A/ko
Application granted granted Critical
Publication of KR101201146B1 publication Critical patent/KR101201146B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Abstract

잡음을 정확하게 추정하고 패턴 인식 신호들의 잡음을 감소시키는 시스템 및 방법이 제공된다. 이러한 방법 및 시스템은 적어도 클린 신호 랜덤 변수 및 잡음 랜덤 변수의 함수로서 맵핑 랜덤 변수를 정의한다. 그 후 맵핑 랜덤 변수에 대한 값들의 분포중 적어도 하나의 특징을 설명하는 모델 파라미터가 결정된다. 모델 파라미터에 기초하여, 클린 신호 랜덤 변수에 대한 추정값이 결정된다. 본 발명의 많은 특징들 하에서, 맵핑 랜덤 변수는 신호 대 잡음비 변수이고 상기 방법 및 시스템은 모델 파라미터로부터 신호 대 잡음비 변수에 대한 값을 추정한다.

Description

최적의 추정을 위한 중요한 양으로서 순간적인 신호 대 잡음비를 사용하는 잡음 감소 방법{METHOD OF NOISE REDUCTION USING INSTANTANEOUS SIGNAL-TO-NOISE RATIO AS THE PRINCIPAL QUANTITY FOR OPTIMAL ESTIMATION}
본 발명은 잡음 감소에 관한 것이다. 특히, 본 발명은 패턴 인식에서 사용되는 신호들로부터의 잡음 제거에 관한 것이다.
음성 인식 시스템과 같은 패턴 인식 시스템은 입력 신호를 취하고 신호에 의해 표시되는 패턴을 찾기 위해 신호를 디코드하려고 시도한다. 예를 들어, 스피치(speech) 인식 시스템에서, 스피치 신호(종종 테스트 신호라 함)는 인식 시스템에 의해 수신되어 스피치 신호에 의해 표시되는 일련의 단어를 식별하도록 디코드된다.
인입하는 테스트 신호를 디코드하기 위해, 대부분의 인식 시스템들은 테스트 신호의 일부가 특정 패턴을 나타낼 가능성을 기술하는 하나 이상의 모델을 사용한다. 이러한 모델들의 예들은 신경망(Neural Nets), 다이나믹 시간 왜곡(Dynamic Time Warping), 세그먼트 모델들, 및 히든 마르코프 모델들(Hidden Markov Models)을 포함한다.
인입 신호를 디코드하기 위해 모델이 사용될 수 있기 전에, 모델은 트레이닝되어야 한다. 이것은 일반적으로 공지된 트레이닝 패턴으로부터 발생되는 입력 트레이닝 신호들을 측정함으로써 수행된다. 예를 들어, 스피치 인식시, 공지된 텍스트로부터 판독하는 스피커들에 의해 스피치 신호들의 수집이 발생된다. 그 후 이러한 스피치 신호들은 모델들을 트레이닝하기 위해 사용된다.
모델들이 최적으로 작용하기 위해, 모델을 트레이닝하는데 사용되는 신호들은 디코드되는 최종 테스트 신호들과 유사해야 한다. 특히, 트레이닝 신호들은 디코드되는 테스트 신호들과 동일한 양 및 동일한 유형의 잡음을 가져야 한다.
일반적으로, 트레이닝 신호는 "클린(clean)" 조건 하에서 수집되고 비교적 잡음이 없도록 고려된다. 테스트 신호에서 이러한 동일한 저레벨의 잡음을 실현하기 위해, 많은 종래 시스템들은 잡음 감소 기술들을 테스팅 데이터에 적용한다.
테스트 데이터의 잡음을 감소시키는 2가지 공지된 기술에서, 잡음이 있는 스피치는 클린 스피치와 시간 도메인에서의 잡음의 선형 조합으로서 모델링된다. 인식 디코더는 로그 도메인에 있는 멜-주파수 필터-뱅크 특징들(Mel-frequency filter-bank features)에 동작하기 때문에, 시간 도메인에서의 이러한 선형 관계는 로그 도메인에서 다음과 같다:
Figure 112011082264176-pat00001
여기서, y는 잡음이 있는 스피치이고, x는 클린 스피치이고, n은 잡음이고, ε은 잔차이다. 이상적으로, ε은 x 및 n이 상수이고 위상이 동일할 경우 0이 될 것이다. 그러나, ε이 제로의 기대값을 가질 수 있더라도, 실제 데이터에서는, ε은 제로가 아닌 값들을 갖는다. 따라서, ε은 분산을 갖는다.
이것을 설명하기 위해, 종래 기술 하의 하나의 시스템은 가우스의 변수가 잡음 n과 클린 스피치 x의 값들에 의존하는 가우스로서 ε을 모델링했다. 이러한 시스템은 실제 분포되는 모든 영역들에 대해 양호한 근사값들을 제공하지만, x와 n 모두에서 추론을 요구하기 때문에 트레이닝하는 것은 시간이 걸린다.
또 다른 시스템에서, ε은 잡음 n 또는 클린 스피치 x에 의존하지 않는 가우스으로서 모델링되었다. 분산은 x 또는 n에 의존하지 않았기 때문에, x와 n이 변경됨에 따라 그 값은 변경되지 않을 것이다. 결과적으로, 분산이 너무 높게 설정되었다면, 잡음이 클린 스피치보다 훨씬 큰 경우 또는 클린 스피치가 잡음보다 훨씬 큰 경우에 양호한 모델을 제공하지 않을 것이다. 분산이 너무 낮게 설정되었다면, 잡음 및 클린 스피치가 거의 동일한 경우에 양호한 모델을 제공하지 않을 것이다. 이것을 처리하기 위해, 종래 기술은 반복 테일러 시리즈 근사값을 사용하여 최적 레벨에서 분산을 설정했다.
이러한 시스템은 잡음 또는 클린 스피치에 의존하는 것으로서 잔차를 모델링하지 않았지만, x 및 n 모두에서의 추론을 요구하기 때문에 여전히 사용을 위해 시간이 소비되었다.
본 발명의 목적은 패턴 인식 신호들에서 잡음을 감소시키는 시스템 및 방법을 제공하는 것이다.
패턴 인식 신호들의 잡음을 감소시키는 시스템 및 방법이 제공된다. 이러한 방법 및 시스템은 맵핑 랜덤 변수를 적어도 클린 신호 랜덤 번후 및 잡음 랜덤 변수의 함수로서 정의한다. 그 후 맵핑 랜덤 변수에 대한 값들의 분포중 적어도 하나의 특징을 설명하는 모델 파라미터가 결정된다. 모델 파라미터에 기초하여, 클린 신호 랜덤 변수에 대한 추정값이 결정된다. 본 발명의 많은 특징들 하에서, 맵핑 랜덤 변수는 신호 대 잡음 변수이고 이러한 방법 및 시스템은 모델 파라미터로부터 신호 대 잡음 변수에 대한 값을 추정한다.
본 발명에 의하면, 패턴 인식 신호들에서 잡음을 감소시키는 시스템 및 방법이 제공된다.
도 1은 본 발명이 수행될 수 있는 하나의 컴퓨팅 환경에 대한 블록도.
도 2는 본 발명이 수행될 수 있는 또 다른 컴퓨팅 환경에 대한 블록도.
도 3은 본 발명의 일 실시예의 잡음 감소 시스템을 사용하는 방법의 흐름도.
도 4는 본 발명의 실시예들이 사용될 수 있는 잡음 감소 시스템 및 신호 대 잡음 인식 시스템의 블록도.
도 5는 본 발명의 실시예들이 수행될 수 있는 패턴 인식 시스템의 블록도.
도 1은 본 발명이 구현될 수 있는 적절한 컴퓨팅 시스템 환경(100)의 예를 나타낸다. 컴퓨팅 시스템 환경(100)은 단지 적절한 컴퓨팅 환경의 일 예이며 본 발명의 사용 또는 기능의 범위에 제한을 가하도록 의도된 것은 아니다. 컴퓨팅 환경(100)은 예시적인 오퍼레이팅 환경(100)에 도시된 컴포넌트들 중의 임의의 하나 또는 조합에 관하여 임의의 종속성(dependency) 또는 요구사항(requirement)을 갖는 것으로 해석되어서는 안된다.
본 발명은 많은 다른 범용 또는 특수목적 컴퓨팅 시스템 환경들 또는 구성들과 함께 동작될 수 있다. 본 발명과 함께 사용하기에 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경, 및/또는 구성의 예로는, 퍼스널 컴퓨터, 서버 컴퓨터, 핸드헬드(hand-held) 또는 랩탑 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 셋 탑 박스(set top box), 프로그램가능한 가전제품(programmable consumer electronics), 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 상기의 시스템 또는 장치 중의 임의의 것을 포함하는 분산형 컴퓨팅 환경 등이 포함될 수 있지만, 이에 한정되지 않는다.
본 발명은 컴퓨터에 의해 실행되는, 프로그램 모듈과 같은 컴퓨터 실행가능 명령과 일반적으로 관련하여 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포함한다. 본 발명은 또한 통신 네트워크 또는 다른 데이터 전송 매체를 통해 링크된 원격 프로세싱 장치에 의해 태스크를 수행하는 분산형 컴퓨팅 환경에서 실행될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 포함하는 로컬 및 원격 컴퓨터 저장 매체 내에 위치할 수 있다.
도 1을 참조하면, 본 발명을 구현하기 위한 예시적인 시스템은 컴퓨터(110)의 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들로는, 프로세싱 유닛(120), 시스템 메모리(130), 및 시스템 메모리를 포함하는 다양한 시스템 컴포넌트를 프로세싱 유닛(120)에 연결시키는 시스템 버스(121)가 포함될 수 있지만, 이에 한정되는 것은 아니다. 시스템 버스(121)는 다양한 버스 아키텍처 중의 임의의 것을 사용하는 로컬 버스, 주변 버스, 및 메모리 버스 또는 메모리 컨트롤러를 포함하는 몇가지 유형의 버스 구조 중의 임의의 것일 수 있다. 예로서, 이러한 아키텍처는 산업 표준 아키텍처(ISA) 버스, 마이크로 채널 아키텍처(MCA) 버스, 인핸스드 ISA(Enhanced ISA; EISA) 버스, 비디오 일렉트로닉스 표준 어소시에이션(VESA) 로컬 버스, 및 (메자닌(Mezzanine) 버스로도 알려진) 주변 컴포넌트 상호접속(PCI) 버스를 포함하지만, 이에 한정되는 것은 아니다.
컴퓨터(110)는 통상적으로 다양한 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터(110)에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수 있으며, 휘발성 및 불휘발성 매체, 착탈가능(removable) 및 착탈불가능(non-removable) 매체를 둘다 포함한다. 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있지만, 이에 한정되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 불휘발성, 착탈가능 및 착탈불가능 매체를 둘다 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래쉬 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광학 디스크 저장장치, 자기 카세트, 자기 테이프, 자기 디스크 저장장치 또는 기타 자기 저장장치, 또는 컴퓨터(110)에 의해 액세스될 수 있고 원하는 정보를 저장하는 데 사용될 수 있는 임의의 기타 매체를 포함할 수 있지만, 이에 한정되지 않는다. 통신 매체는 통상적으로 반송파 또는 기타 전송 메카니즘 등의 변조된 데이터 신호에 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 다른 데이터를 구현하며, 임의의 정보 전달 매체를 포함한다. "변조된 데이터 신호"라는 용어는 신호 내에 정보를 인코딩하도록 설정되거나 변환된 특성을 하나 또는 그 이상을 갖는 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 유선 접속 등의 유선 매체와, 음향, RF, 적외선 및 기타 무선 매체 등의 무선 매체를 포함하지만, 이에 한정되지 않는다. 상술한 것들 중의의 임의의 조합이 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.
시스템 메모리(130)는 ROM(131) 및 RAM(132) 등의 휘발성 및/또는 불휘발성 메모리의 형태의 컴퓨터 저장 매체를 포함한다. 시동중과 같은 때에 컴퓨터(110) 내의 구성요소들간에 정보를 전송하는 것을 돕는 기본 루틴을 포함하는 기본 입출력 시스템(133; BIOS)은 일반적으로 ROM(131)에 저장된다. RAM(132)은 일반적으로 프로세싱 유닛(120)에 즉시 액세스될 수 있고 및/또는 프로세싱 유닛(120)에 의해 현재 작동되는 프로그램 모듈 및/또는 데이터를 포함한다. 예로서, (한정하고자 하는 것은 아님) 도 1은 오퍼레이팅 시스템(134), 어플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)를 도시한다.
컴퓨터(110)는 또한 다른 착탈가능/착탈불가능, 휘발성/불휘발성 컴퓨터 저장 매체를 포함할 수 있다. 단지 예로서, 도 1에는 착탈불가능 불휘발성 자기 매체로부터 판독하거나 그 자기 매체에 기록하는 하드 디스크 드라이브(141), 착탈가능 불휘발성 자기 디스크(152)로부터 판독하거나 그 자기 디스크에 기록하는 자기 디스크 드라이브(151), 및 CD-ROM 또는 기타 광학 매체 등의 착탈가능 불휘발성 광학 디스크(156)로부터 판독하거나 그 광학 디스크에 기록하는 광학 디스크 드라이브(155)가 도시되어 있다. 예시적인 오퍼레이팅 환경에서 사용될 수 있는 다른 착탈가능/착탈불가능, 휘발성/불휘발성 컴퓨터 저장 매체는 자기 테이프 카세트, 플래쉬 메모리 카드, DVD(Digital versatile disk), 디지털 비디오 테이프, 고체 RAM, 고체 ROM 등을 포함하지만 이에 한정되지 않는다. 하드 디스크 드라이브(141)는 일반적으로 인터페이스(140)와 같은 착탈불가능 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광학 디스크 드라이브(155)는 일반적으로 인터페이스(150)와 같은 착탈가능 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.
앞서 기술되고 도 1에 도시된 드라이브 및 그 관련 컴퓨터 저장 매체는 컴퓨터(110)를 위한 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 기타 데이터의 저장을 제공한다. 도 1에서, 예를 들어, 하드 디스크 드라이브(141)는 오퍼레이팅 시스템(144), 어플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시된다. 이들 컴포넌트는 오퍼레이팅 시스템(134), 어플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일할 수도 있고 다를 수도 있다. 오퍼레이팅 시스템(144), 어플리케이션 프로그램(145), 다른 프로그램 모듈(146), 및 프로그램 데이터(147)는 최소한 다른 복사본(different copies)임을 나타내기 위하여 다른 번호를 부여하였다.
사용자는 일반적으로 마우스, 트랙볼, 또는 터치 패드라 불리우는 포인팅 장치(161), 키보드(162), 및 마이크로폰(163)과 같은 입력 장치를 통해 컴퓨터(110)에 커맨드 및 정보를 입력할 수 있다. (도시되지 않은) 기타 입력 장치는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 입력 장치 및 그외의 입력 장치는 시스템 버스에 연결된 사용자 입력 인터페이스(160)를 통해 종종 프로세싱 유닛(120)에 접속되지만, 병렬 포트, 게임 포트 또는 유니버설 시리얼 포트(USB) 와 같은 기타 인터페이스 및 버스 구조에 의해 접속될 수 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치는 또한 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속된다. 모니터 외에도, 컴퓨터는 또한 출력 주변 인터페이스(195)를 통해 접속될 수 있는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있다.
컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 이용한 네트워크 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 서버, 라우터, 네트워크 PC, 피어(peer) 장치, 또는 기타 공통 네트워크 노드일 수 있으며, 컴퓨터(110)에 관하여 상술한 구성요소 중 다수 또는 모든 구성요소를 일반적으로 포함할 수 있다. 도 1에 도시된 논리적 접속은 근거리 통신망(LAN; 171) 및 원거리 통신망(WAN; 173)을 포함하지만, 그 외의 네트워크를 포함할 수도 있다. 이러한 네트워크 환경은 사무실, 기업 광역 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.
LAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 일반적으로 인터넷 등의 WAN(173)을 통해 통신을 구축하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메카니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크 환경에서, 컴퓨터(110)에 관하여 도시된 프로그램 모듈 또는 그 일부분은 원격 메모리 저장 장치에 저장될 수 있다. 예로서 (한정하고자 하는 것은 아님), 도 1은 원격 컴퓨터(180)에 상주하는 원격 어플리케이션 프로그램(185)을 도시한다. 도시된 네트워크 접속은 예시적인 것이며, 컴퓨터들간의 통신 링크를 구축하는 그 외의 수단이 사용될 수 있다.
도 2는 예시적인 컴퓨팅 환경인 모바일 장치(200)의 블록도이다. 모바일 장치(200)는 마이크로프로세서(202), 메모리(204), 입출력(I/O) 컴포넌트들(206), 및 원격 컴퓨터들 또는 기타 모바일 장치들과 통신하기 위한 통신 인터페이스(208)를 포함한다. 일 실시예에서, 상기한 컴포넌트들은 적절한 버스(210)을 통해 또 다른 컴포넌트들과 통신하기 위해 결합된다.
메모리(204)는 배터리 백업 모듈(도시하지 않음)을 갖는 RAM 등의 불휘발성 전자 메모리로서 구현되어, 모바일 장치(200)에 대한 일반적인 파워가 셧다운되는 경우에 메모리(204) 내에 저장된 정보가 소실되지 않도록 한다. 예를 들어 디스크 드라이브 상의 저장을 자극하기 위해, 메모리(204)의 일부는 프로그램 실행을 위해 어드레스가능한 메모리로서 할당되는 것이 바람직한 반면, 메모리(204)의 또 다른 일부는 저장을 위해 사용되는 것이 바람직하다.
메모리(204)는 오브젝트 스토어(216) 뿐만 아니라 오퍼레이팅 시스템(212) 및 어플리케이션 프로그램들(214)을 포함한다. 동작시, 오퍼레이팅 시스템(212)은 메모리(204)로부터 프로세서(202)에 의해 실행되는 것이 바람직하다. 하나의 바람직한 실시예에서, 오퍼레이팅 시스템(212)은 마이크로소프트 코포레이션으로부터 상업적으로 이용가능한 WINDOWS
Figure 112011082264176-pat00002
CE 브랜드 오퍼레이팅 시스템이다. 오퍼레이팅 시스템(212)은 모바일 장치들을 위해 설계되는 것이 바람직하며, 노출된 어플리케이션 프로그래밍 인터페이스들 및 방법들의 세트를 통해 어플리케이션들(214)에 의해 이용될 수 있는 데이터베이스 특징들을 구현한다. 오브젝트 스토어(216) 내의 오브젝트들은 노출된 어플리케이션 프로그래밍 인터페이스들 및 방법들에 대한 호출들에 적어도 부분적으로 응답하여, 어플리케이션들(214) 및 오퍼레이팅 시스템(216)에 의해 유지된다.
통신 인터페이스(208)는 모바일 장치(200)가 정보를 송수신하게 하는 다수의 장치들 및 기술들을 나타낸다. 장치들은 몇개만 지정하자면 유선 및 무선 모뎀들, 위성 수신기들 및 방송 튜너들을 포함한다. 모바일 장치(200)은 또한 데이터를 교환하기 위해 컴퓨터에 직접 접속될 수 있다. 이러한 경우에, 통신 인터페이스(208)는 적외선 송수신기 또는 직렬 또는 병렬 통신 접속일 수 있으며, 이들 모두는 일련의 정보를 송신할 수 있다.
입출력 컴포넌트들(206)은 오디오 발생기, 진동 장치, 및 디스플레이를 포함하는 각종 출력 장치들 뿐만 아니라 터치 감지 스크린, 버트들, 롤러들, 및 마이크로폰들과 같은 각종 입력 장치들을 포함한다. 상기 나열된 장치들은 단지 예로서 모바일 장치(200) 상에 모두 존재할 필요는 없다. 또한, 다른 입출력 장치들은 본 발명의 범위 내에서 모바일 장치(200)에 부착되거나 이와 함께 발견될 수 있다.
본 발명의 하나의 특징 하에서, 잡음이 있는 스피치와 클린 스피치 및 잡음의 합 사이의 차이에 대한 오류 관점에서 제로 분산을 가정함으로써 패턴 인식 신호들의 잡음을 감소시키는 시스템 및 방법이 제공된다. 실제 거동을 잘 모델링하지 않는 것으로 생각되었기 때문에 그리고 잡음이 클린 스피치보다 훨씬 큰 경우에 분산에 대한 제로의 값이 클린 스피치의 계산을 불안정하게 했기 때문에 과거에 이것은 행해지지 않았다. 이것은 다음으로부터 알 수 있다.
Figure 112011082264176-pat00003
여기서 x는 클린 스피치 특징 벡터, y는 잡음 스피치 특징 벡터 및 n은 잡음 특징 벡터이다. n이 x보다 훨씬 크면, n 및 y는 거의 동일하다. 이러한 경우, x가 민감하게 되어 n이 변한다. 또한, 대수 내부의 항이 음수가 되는 것을 방지하기 위해 n이 제한되어야 한다.
이러한 문제들을 극복하기 위해, 본 발명은 특징 벡터의 로그 도메인에서 수학식 3과 같이 표현되는 신호 대 잡음비 r을 이용한다.
Figure 112011082264176-pat00004
수학식 3은 맵핑 랜덤 변수 r에 대한 하나의 정의를 제공함을 유의해야 한다. 맵핑 랜덤 변수에 대해 상이한 정의들을 형성하는 x와 n 사이의 관계식에 대한 변경들은 본 발명의 범위 내에 있다.
이 정의를 이용하여, 상기 수학식 2는 특징 벡터 r의 항들에서 x와 n의 정의들을 제공하도록 재작성된다.
Figure 112011082264176-pat00005
Figure 112011082264176-pat00006
수학식 4 및 5에서 x와 n 모두는 랜덤 변수들이고 고정되지 않음을 유의하라. 따라서, 본 발명은 잡음 n 또는 클린 스피치 x에 대한 가능한 값들에 제한을 두지 않고 잔차에 대해 제로값을 가정한다.
x와 n에 대한 이러한 정의들을 이용하여, 결합 확률 분포 함수가 다음과 같이 정의된다.
Figure 112011082264176-pat00007
여기서 s는 음소(phoneme)와 같은 스피치 상태이고, p(y|x,n)는 클린 스피치 특징 벡터 x 및 잡음 특징 벡터 n이 주어졌을 때 잡음이 있는 스피치 특징 벡터 y의 확률을 나타내는 관찰 확률이고, p(y|x,n)는 클린 스피치 특징 벡터 및 잡음 특징 벡터가 주어졌을 때 신호 대 잡음비 특징 벡터 r의 확률을 나타내는 신호 대 잡음 확률이고, p(x,s)는 클린 스피치 특징 벡터 및 스피치 상태의 결합 확률이고, p(n)은 잡음 특징 벡터의 사전 확률이다.
관찰 확률 및 신호 대 잡음비 확률은 모두 x와 n의 결정 함수들이다. 그 결과, 조건 확률들은 디락(Dirac) 델타 함수들로서 표현될 수 있다:
Figure 112011082264176-pat00008
Figure 112011082264176-pat00009
여기서,
Figure 112011082264176-pat00010
Figure 112011082264176-pat00011
이것은 결합 확률 밀도 함수가 x와 n에 대해 무시되게 하여 다음과 같은 결합 확률 p(y,r,s)를 생성한다:
Figure 112011082264176-pat00012
Figure 112011082264176-pat00013
Figure 112011082264176-pat00014
Figure 112011082264176-pat00015
여기서 p(x,s)는 평균
Figure 112011082264176-pat00016
, 분산
Figure 112011082264176-pat00017
의 가우스로서 표현되는 확률 p(x|s) 및 스피치 상태에 대한 사전 확률 p(s)로 분할되고 확률 p(n)은 평균 μn 및 분산 σn의 가우스로서 표시된다.
가우스 분포들에 적용되는 비선형 함수들을 간단히 하기 위해, 본 발명의 일 실시예는 수학식 15와 같은 비선형 함수의 일부에 대해 제1차 테일러 시리즈 근사값을 이용한다.
Figure 112011082264176-pat00018
여기서,
Figure 112011082264176-pat00019
Figure 112011082264176-pat00020
여기서
Figure 112011082264176-pat00021
은 테일러 시리즈 전개에 대한 전개점이고,
Figure 112011082264176-pat00022
는 신호 대 잡음비 전개점 벡터
Figure 112011082264176-pat00023
의 각 요소에 대해 수행되는 벡터함수이고,
Figure 112011082264176-pat00024
은 신호 대 잡음비 전개점 벡터의 각 벡터 요소들에 대해 괄호 안의 함수를 수행하고 매트릭스의 대각선을 따라 이들 값들을 배치하는 매트릭스 함수이다. 설명의 편의상, 이하에는
Figure 112011082264176-pat00025
Figure 112011082264176-pat00026
로 나타내고,
Figure 112011082264176-pat00027
Figure 112011082264176-pat00028
로 나타낸다.
수학식 15의 테일러 시리즈 근사값은 수학식 14에서
Figure 112011082264176-pat00029
으로 대체되어 수학식 18을 생성할 수 있다:
Figure 112011082264176-pat00030
표준 가우스 처리 공식들을 이용하여, 수학식 18은 수학식 19와 같은 인수분해된 형태가 될 수 있다:
Figure 112011082264176-pat00031
여기서,
Figure 112011082264176-pat00032
Figure 112011082264176-pat00033
Figure 112011082264176-pat00034
Figure 112011082264176-pat00035
Figure 112011082264176-pat00036
Figure 112011082264176-pat00037
Figure 112011082264176-pat00038
여기서
Figure 112011082264176-pat00039
Figure 112011082264176-pat00040
는 스피치 상태 s에 대한 신호 대 잡음비의 평균 및 분산이다.
본 발명의 일 특징 하에서, 수학식 20 - 26은 클린 스피치 및/또는 신호 대 잡음비에 대한 추정값을 결정하기 위해 사용된다. 이러한 결정을 하는 방법은 도 3의 흐름도에 도시되며, 이것은 도 4의 블록도를 참조하여 이하에 설명된다.
도 3의 단계 300에서, 클린 스피치 모델의 평균
Figure 112011082264176-pat00041
및 분산
Figure 112011082264176-pat00042
뿐만 아니라, 각 스피치 상태 s의 사전 확률 p(s)은 클린 트레이닝 스피치 및 트레이닝 텍스트로부터 트레이닝된다. 상이한 평균 및 분산은 각 스피치 상태 s에 대해 트레이닝됨을 유의하라. 그들이 트레이닝된 후, 클린 스피치 모델 파라미터들은 잡음 감소 파라미터 저장 유닛(416) 내에 저장된다.
단계 302에서, 입력 발음(utterance)으로부터 특징들이 추출된다. 이를 수행하기 위해, 도 4의 마이크로폰(404)은 스피커(400) 및 하나 이상의 부가 잡음원들(402)로부터의 음성파들을 전기 신호들로 변환한다. 그 후, 전기 신호들은 아날로그 디지털 컨버터(406)에 의해 샘플링되어 디지털 값들의 시퀀스를 발생하고, 프레임 작성기(408)에 의해 값들의 프레임들로 그룹화된다. 일 실시예에서, AD 컨버터(406)는 16 kHz 및 샘플당 16 비트로 아날로그 신호를 샘플링함으로써, 초당 32 킬로바이트의 스피치 데이터를 생성하고 프레임 작성기(408)는 10 밀리초마다 25 밀리초 만큼의 데이터를 포함하는 새로운 프레임을 생성한다.
프레임 작성기(408)에 의해 제공되는 데이터의 각 프레임은 특징 추출기(410)에 의해 특징 벡터로 변환된다. 이러한 특징 벡터들을 식별하는 방법은 본 기술 분야에 공지되어 있고 39차원 MFCC(Mel-Frequency Cepstrum Coefficients) 추출을 포함한다. 하나의 특정 실시예에서, 대부분의 MFCC 추출 시스템들에서 사용되는 로그 에너지 특징은 c0로 대체되고, 파워 스펙트럼 밀도가 스펙트럼 크기 대신에 사용된다.
단계 304에서, 도 3의 방법은 잡음 추정 유닛(412)을 사용하여 입력 신호의 각 프레임에 대해 잡음을 추정한다. 본 발명에서는 임의의 공지된 잡음 추정 기술이 사용될 수 있다. 예를 들어, T.Kristjansson, et al., "Joint estimation of noise and channel distortion in a generalized EM framework," in Proc. ASRU 2001, Italy, December 2001에 기재된 기술이 사용될 수 있다. 또한, 간단한 스피치/논스피치 검출기가 사용될 수 있다.
전체 발음 또는 발음의 상당한 부분에 걸친 잡음의 추정값들은 잡음 모델 트레이너(414)에 의해 사용되고, 이것은 추정된 잡음으로부터 평균 μn 및 분산 σn을 포함하는 잡음 모델을 구성한다. 잡음 모델은 잡음 감소 파라미터 저장 장치(416)에 저장된다.
단계 306에서, 잡음 감소 유닛(418)은 클린 스피치 모델의 평균 및 잡음 모델의 평균을 사용하여 수학식 21 및 22의 테일러 시리즈 전개에 대한 초기 전개점
Figure 112011082264176-pat00043
을 결정한다. 특히, 각 스피치 유닛에 대한 초기 전개점은 스피치 유닛에 대한 클린 스피치 평균과 잡음의 평균 사이의 차와 동일하게 설정된다.
일단 테일러 시리즈 전개점이 초기화되면, 단계 308에서 잡음 감소 유닛(418)이 수학식 21 및 22의 테일러 시리즈 전개를 사용하여 각 스피치 유닛에 대한 신호 대 잡음비들의 평균
Figure 112011082264176-pat00044
을 산출한다. 단계 310에서, 신호 대 잡음비들의 평균은 이전 평균값들(만일 존재하는 경우)과 비교되어 평균들이 안정한 값들로 수렴하는지를 판정한다. 평균들이 수렴하지 않으면(또는 이것이 제1 반복인 경우) 프로세스는 테일러 시리즈 확정점들이 신호 대 잡음비들의 각각의 평균으로 설정되는 단계 312를 계속한다. 그 후 프로세스는 단계 308로 리턴하여 수학식 21 및 22를 사용하여 신호 대 잡음비들의 평균을 재추정한다. 단계 308, 310 및 312는 신호 대 잡음비들의 평균들이 수렴할 때까지 반복된다.
신호 대 잡음비들의 평균들이 안정하면, 프로세스는 테일러 시리즈 전개가 사용되어 클린 스피치에 대한 추정값 및/또는 신호 대 잡음비에 대한 추정값을 결정하는 단계 314를 계속한다. 클린 스피치에 대한 추정값은 수학식 27과 같이 계산된다.
Figure 112011082264176-pat00045
여기서,
Figure 112011082264176-pat00046
Figure 112011082264176-pat00047
여기서 p(y|s)는 상기한 수학식 23-26를 사용하여 계산되고 p(s)는 클린 스피치 모델로부터 얻어진다.
신호 대 잡음비의 추정값은 수학식 30으로서 계산된다.
Figure 112011082264176-pat00048
따라서, 도 3의 프로세스는 신호 대 잡음비에 대한 추정값(420) 및/또는 입력 신호의 각 프레임에 대한 클린 스피치 특징 벡터의 추정값(422)을 생성할 수 있다.
신호 대 잡음비들 및 클린 스피치 특징 벡터들에 대한 추정값들은 임의의 원하는 목적을 위해 사용될 수 있다. 하나의 실시예에서, 클린 스피치 특징 벡터들에 대한 추정값들은 도 5에 도시된 스피치 인식 시스템에서 직접 사용된다.
입력 신호가 트레이닝 신호이면, 클린 스피치 특징 벡터들(422)에 대한 추정값들의 시리즈가 트레이너(500)에 제공되며, 이것은 클린 스피치 특징 벡터들에 대한 추정값들 및 트레이닝 텍스트(502)를 사용하여 음향 모델(504)을 트레이닝한다. 이러한 모델들을 트레이닝하는 기술들은 본 기술 분야에 공지되어 있고 그들의 설명은 본 발명의 이해를 위해 요구되지 않는다.
입력 신호가 테스트 신호이면, 클린 스피치 특징 벡터들의 추정값들은 디코더(506)에 제공되고, 이것은 특징 벡터들, 렉시콘(508), 언어 모델(510), 및 음향 모델(504)의 스트림에 기초하여 가장 유사한 단어들의 시퀀스를 식별한다. 디코딩을 위해 사용되는 특별한 방법은 본 발명에 중요하지 않고 디코딩에 대한 임의의 여러 공지된 방법들이 사용될 수 있다.
가정(hypothesis) 단어들의 가장 가능한 시퀀스는 신뢰도 측정 모듈(512)에 제공된다. 신뢰도 측정 모듈(512)은 부분적으로 2차 음향 모델(도시하지 않음)에 기초하여, 어떤 단어들이 스피치 인식기에 의해 가장 부적절하게 식별될 것 같은지를 식별한다. 그 후 신뢰도 측정 모듈(512)은 어떤 단어들이 부적절하게 식별될 수 있는지를 나타내는 식별자들을 따라 출력 모듈(514)에 가설 단어들의 시퀀스를 제공한다. 본 기술 분야에 숙련된 자는 신뢰도 측정 모듈(512)이 본 발명의 실행을 위해 반드시 필요하지는 않음을 인식할 것이다.
도 4 및 도 5가 스피치 시스템들을 도시하였지만, 본 발명은 임의의 패턴 인식 시스템에서 사용될 수 있고 스피치에 한정되지 않는다.
본 발명은 특정한 실시예들을 참조하여 설명되었지만, 본 기술 분야의 당업자들은 본 발명의 정신 및 범위에서 벗어나지 않고 형태 및 상세에 있어서 변경이 이루어질 수 있음을 인식할 것이다.
144 : 오퍼레이팅 시스템
145 : 어플리케이션 프로그램들
147 : 프로그램 데이터
120 : 프로세싱 유닛
190 : 비디오 인터페이스

Claims (10)

  1. 신호 대 잡음비 변수의 함수로서 랜덤 변수를 정의하는 단계;
    정의된 상기 함수에 기초하여 상기 신호 대 잡음비 변수의 분포에 대한 평균을 결정하는 단계; 및
    상기 평균을 사용하여 관측 신호의 프레임에 대하여 상기 신호 대 잡음비 변수에 대한 값의 추정값을 결정하는 단계
    를 포함하는 단계들을 수행하기 위한 컴퓨터 실행가능한 명령어들이 저장되어 있는 컴퓨터 판독가능한 저장 매체.
  2. 제1항에 있어서,
    상기 랜덤 변수는 클린 신호의 일부를 나타내는 클린 신호 랜덤 변수를 포함하는 컴퓨터 판독가능한 저장 매체.
  3. 제1항에 있어서,
    상기 랜덤 변수는 관측 신호의 잡음을 나타내는 잡음 신호 랜덤 변수를 포함하는 컴퓨터 판독가능한 저장 매체.
  4. 제1항에 있어서,
    상기 랜덤 변수를 정의하는 단계는 관측값의 함수로서 상기 랜덤 변수를 정의하는 단계를 더 포함하는 컴퓨터 판독가능한 저장 매체.
  5. 제1항에 있어서,
    상기 평균을 결정하는 단계는 정의된 상기 함수의 적어도 일부를 근사값 함수에 의해 근사시키는 단계를 더 포함하는 컴퓨터 판독가능한 저장 매체.
  6. 제1항에 있어서,
    상기 평균을 이용하여 상기 랜덤 변수의 추정값을 결정하는 단계를 더 포함하는 컴퓨터 판독가능한 저장 매체.
  7. 제6항에 있어서,
    상기 랜덤 변수는 클린 신호의 일부를 나타내는 클린 신호 랜덤 변수인 컴퓨터 판독가능한 저장 매체.
  8. 제1항에 있어서,
    상기 평균을 결정하는 단계는 클린 신호값들의 분포를 설명하는 모델 파라미터에 기초하여 상기 평균을 결정하는 단계를 더 포함하고,
    상기 클린 신호값 각각은 클린 신호의 일부를 나타내는 컴퓨터 판독가능한 저장 매체.
  9. 제1항에 있어서,
    상기 평균을 결정하는 단계는 잡음값들의 분포를 설명하는 모델 파라미터에 기초하여 상기 평균을 결정하는 단계를 더 포함하는 컴퓨터 판독가능한 저장 매체.
  10. 제9항에 있어서,
    관측 신호로부터 상기 평균을 결정하는 단계를 수행하기 위한 컴퓨터 실행가능 명령어들을 더 포함하는 컴퓨터 판독가능한 저장 매체.
KR1020110107639A 2003-08-19 2011-10-20 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대 잡음비를 사용하는 잡음 감소 방법 KR101201146B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/643,370 2003-08-19
US10/643,370 US7363221B2 (en) 2003-08-19 2003-08-19 Method of noise reduction using instantaneous signal-to-noise ratio as the principal quantity for optimal estimation

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020040064968A Division KR101117940B1 (ko) 2003-08-19 2004-08-18 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대잡음비를 사용하는 잡음 감소 방법

Publications (2)

Publication Number Publication Date
KR20110131147A KR20110131147A (ko) 2011-12-06
KR101201146B1 true KR101201146B1 (ko) 2012-11-13

Family

ID=34063458

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020040064968A KR101117940B1 (ko) 2003-08-19 2004-08-18 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대잡음비를 사용하는 잡음 감소 방법
KR1020110107639A KR101201146B1 (ko) 2003-08-19 2011-10-20 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대 잡음비를 사용하는 잡음 감소 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020040064968A KR101117940B1 (ko) 2003-08-19 2004-08-18 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대잡음비를 사용하는 잡음 감소 방법

Country Status (5)

Country Link
US (1) US7363221B2 (ko)
EP (1) EP1508893B1 (ko)
JP (2) JP4855661B2 (ko)
KR (2) KR101117940B1 (ko)
CN (1) CN1584984B (ko)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7103540B2 (en) * 2002-05-20 2006-09-05 Microsoft Corporation Method of pattern recognition using noise reduction uncertainty
US7107210B2 (en) * 2002-05-20 2006-09-12 Microsoft Corporation Method of noise reduction based on dynamic aspects of speech
DE102004002546A1 (de) * 2004-01-17 2005-08-04 Abb Patent Gmbh Verfahren zum Betrieb eines Durchflussmesssystems
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
US7844453B2 (en) * 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US8369417B2 (en) * 2006-05-19 2013-02-05 The Hong Kong University Of Science And Technology Optimal denoising for video coding
US8831111B2 (en) * 2006-05-19 2014-09-09 The Hong Kong University Of Science And Technology Decoding with embedded denoising
CN101622668B (zh) * 2007-03-02 2012-05-30 艾利森电话股份有限公司 电信网络中的方法和装置
WO2009039897A1 (en) 2007-09-26 2009-04-02 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
JP5642339B2 (ja) * 2008-03-11 2014-12-17 トヨタ自動車株式会社 信号分離装置及び信号分離方法
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
EP2410522B1 (en) 2008-07-11 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, method for encoding an audio signal and computer program
GB2464093B (en) * 2008-09-29 2011-03-09 Toshiba Res Europ Ltd A speech recognition method
US20100262423A1 (en) * 2009-04-13 2010-10-14 Microsoft Corporation Feature compensation approach to robust speech recognition
CN101894563B (zh) * 2010-07-15 2013-03-20 瑞声声学科技(深圳)有限公司 语音增强的方法
US8731923B2 (en) * 2010-08-20 2014-05-20 Adacel Systems, Inc. System and method for merging audio data streams for use in speech recognition applications
US20120143604A1 (en) * 2010-12-07 2012-06-07 Rita Singh Method for Restoring Spectral Components in Denoised Speech Signals
CN102571230A (zh) * 2011-12-22 2012-07-11 中国人民解放军总参谋部第六十三研究所 基于高阶统计量与信噪比盲估计的分布式协同信号识别方法
US20150287406A1 (en) * 2012-03-23 2015-10-08 Google Inc. Estimating Speech in the Presence of Noise
CN103280215B (zh) * 2013-05-28 2016-03-23 北京百度网讯科技有限公司 一种音频特征库建立方法及装置
US10748551B2 (en) 2014-07-16 2020-08-18 Nec Corporation Noise suppression system, noise suppression method, and recording medium storing program
CN105448303B (zh) * 2015-11-27 2020-02-04 百度在线网络技术(北京)有限公司 语音信号的处理方法和装置
CN107797000A (zh) * 2017-10-25 2018-03-13 成都西井科技有限公司 基于模型的分析的微波信号检测方法
CN112307422A (zh) * 2020-10-30 2021-02-02 天津光电通信技术有限公司 一种低信噪比下信号时频分析方法、装置及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020002455A1 (en) * 1998-01-09 2002-01-03 At&T Corporation Core estimator and adaptive gains from signal to noise ratio in a hybrid speech enhancement system

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4897878A (en) * 1985-08-26 1990-01-30 Itt Corporation Noise compensation in speech recognition apparatus
JP3102195B2 (ja) * 1993-04-02 2000-10-23 三菱電機株式会社 音声認識装置
US5704007A (en) * 1994-03-11 1997-12-30 Apple Computer, Inc. Utilization of multiple voice sources in a speech synthesizer
JP3484757B2 (ja) * 1994-05-13 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び雑音区間検出方法
US5864812A (en) * 1994-12-06 1999-01-26 Matsushita Electric Industrial Co., Ltd. Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments
JP3452443B2 (ja) * 1996-03-25 2003-09-29 三菱電機株式会社 騒音下音声認識装置及び騒音下音声認識方法
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
JP3454403B2 (ja) * 1997-03-14 2003-10-06 日本電信電話株式会社 帯域分割型雑音低減方法及び装置
DE69840408D1 (de) * 1997-07-31 2009-02-12 Cisco Tech Inc Erzeugung von sprachnachrichten
JPH11345000A (ja) * 1998-06-03 1999-12-14 Nec Corp 雑音消去方法及び雑音消去装置
KR100304666B1 (ko) * 1999-08-28 2001-11-01 윤종용 음성 향상 방법
US6879957B1 (en) * 1999-10-04 2005-04-12 William H. Pechter Method for producing a speech rendition of text from diphone sounds
US20030158734A1 (en) * 1999-12-16 2003-08-21 Brian Cruickshank Text to speech conversion using word concatenation
JP2002366186A (ja) * 2001-06-11 2002-12-20 Hitachi Ltd 音声合成方法及びそれを実施する音声合成装置
US7010488B2 (en) * 2002-05-09 2006-03-07 Oregon Health & Science University System and method for compressing concatenative acoustic inventories for speech synthesis

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020002455A1 (en) * 1998-01-09 2002-01-03 At&T Corporation Core estimator and adaptive gains from signal to noise ratio in a hybrid speech enhancement system

Also Published As

Publication number Publication date
KR101117940B1 (ko) 2012-02-29
CN1584984B (zh) 2010-05-26
EP1508893B1 (en) 2013-05-22
EP1508893A2 (en) 2005-02-23
CN1584984A (zh) 2005-02-23
EP1508893A3 (en) 2007-09-05
JP4855661B2 (ja) 2012-01-18
KR20110131147A (ko) 2011-12-06
KR20050020949A (ko) 2005-03-04
JP2011158918A (ja) 2011-08-18
US20050043945A1 (en) 2005-02-24
US7363221B2 (en) 2008-04-22
JP2005062890A (ja) 2005-03-10

Similar Documents

Publication Publication Date Title
KR101201146B1 (ko) 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대 잡음비를 사용하는 잡음 감소 방법
US7617098B2 (en) Method of noise reduction based on dynamic aspects of speech
US6985858B2 (en) Method and apparatus for removing noise from feature vectors
EP1536414B1 (en) Method and apparatus for multi-sensory speech enhancement
KR101153093B1 (ko) 다감각 음성 향상을 위한 방법 및 장치
EP1199708B1 (en) Noise robust pattern recognition
US7460992B2 (en) Method of pattern recognition using noise reduction uncertainty
JP4219774B2 (ja) 劣化信号から雑音を除去する非線形観測モデル
US7174292B2 (en) Method of determining uncertainty associated with acoustic distortion-based noise reduction
US7117148B2 (en) Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US7346504B2 (en) Multi-sensory speech enhancement using a clean speech prior
US7254536B2 (en) Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech
JP2004264816A (ja) 再帰的構成における反復ノイズ推定法
MXPA04002919A (es) Metodo de calculo de ruido mediante el uso del aprendizaje de bayes de incremento.
US6990447B2 (en) Method and apparatus for denoising and deverberation using variational inference and strong speech models
Mammone et al. Robust speech processing as an inverse problem

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151016

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161019

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20171018

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20181018

Year of fee payment: 7