KR20070119741A - 음색 노이즈 강인성을 위한 신호 처리 시스템 - Google Patents

음색 노이즈 강인성을 위한 신호 처리 시스템 Download PDF

Info

Publication number
KR20070119741A
KR20070119741A KR1020077025928A KR20077025928A KR20070119741A KR 20070119741 A KR20070119741 A KR 20070119741A KR 1020077025928 A KR1020077025928 A KR 1020077025928A KR 20077025928 A KR20077025928 A KR 20077025928A KR 20070119741 A KR20070119741 A KR 20070119741A
Authority
KR
South Korea
Prior art keywords
signal
input signal
smoothed
noise
component
Prior art date
Application number
KR1020077025928A
Other languages
English (en)
Inventor
필립 에이. 헤더링톤
알렉스 에스코트
Original Assignee
큐엔엑스 소프트웨어 시스템즈 (웨이브마커스) 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 큐엔엑스 소프트웨어 시스템즈 (웨이브마커스) 인코포레이티드 filed Critical 큐엔엑스 소프트웨어 시스템즈 (웨이브마커스) 인코포레이티드
Publication of KR20070119741A publication Critical patent/KR20070119741A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Abstract

처리 시스템은 원하는 신호 성분을 포함하는 출력 신호를 생성하고, 음색 노이즈를 감소 또는 제거한다. 상기 출력 신호는 음성 인식 시스템, 피치 검출기, 다른 처리 시스템을 비롯한 임의의 후속 신호 처리 시스템에 제공될 수 있다. 상기 후속 처리 시스템은 음색 입력 신호 노이즈를 원하는 신호 콘텐트로 오인한다든지, 노이즈를 분석하기 위해 불필요하게 컴퓨터 리소스를 소모한다든지, 상기 음색 노이즈에 의해 유도된 의사 동작을 취한다든지 하지 않는다.

Description

음색 노이즈 강인성을 위한 신호 처리 시스템 {SIGNAL PROCESSING SYSTEM FOR TONAL NOISE ROBUSTNESS}
본 발명은 신호 처리 시스템에 관한 것이다. 특히, 본 발명은 음색 노이즈(tonal noise)에 대한 강인성 조치를 다른 신호 처리 시스템에 부여하는 신호 처리 시스템에 관한 것이다.
거의 대부분의 신호 처리 시스템은 입력 신호 노이즈를 명석하게 다루어야 한다. 입력 신호 노이즈는 입력 신호의 원하는 성분들을 감추거나(마스킹), 붕괴시키거나, 왜곡하거나, 그렇지 않으면 나쁜 영향을 줄 수 있다. 신호 처리 시스템 또는 그 목적에 상관없이, 입력 신호 노이즈는 또한 원하는 입력 신호 성분을 모방할 수 있고, 입력 신호 노이즈를 확인, 제거 또는 보상하는 어려움을 증가시킬 수 있다.
음색 노이즈는 일부 애플리케이션에서 원하는 입력 신호 성분을 모방하는 노이즈의 한 형태이다. 예를 들면, 음성 처리 시스템은 보통, 고조파 활동(harmonic activity)을 포함하는 목소리 신호 성분을 검출하고 처리한다. 모음 및 일부 자음은, 각 개인이 언제 말하고 있는지, 무엇을 말하는지 또는 음성의 다른 특징을 결정하기 위하여 상기 처리 시스템이 사용하는 특징적인 음색 콘텐트를 나타낸다.
원하는 신호 콘텐트에 대하여 입력 신호를 검사하는 음성 처리 시스템은 음색 노이즈를 음성으로 해석할 수 있고, 음색 노이즈를 갖는 입력 신호의 세그먼트(segment)를 분리할 수 있고, 음색 노이즈를 처리하고자 할 수 있다. 음성 처리 시스템은 세그먼트를 분리하기 위해서뿐만 아니라 세그먼트를 처리하고 그 처리의 결과에 기초하여 동작을 취하기 위하여 가치있는 계산에 관한 리소스(computational resources)를 소모한다. 음성 인식 시스템에서, 상기 시스템은 음색 노이즈를 음성 명령으로 해석할 수 있고, 의사 명령(spurious command)을 실행할 수 있으며, 의도하지 않았던 동작을 응답하여 취할 수 있다.
신호 처리 시스템용 음색 노이즈 강인성을 제공하는 시스템에 대한 요구가 있다.
본 발명은 추가 처리를 위하여 음색 노이즈를 신호 성분으로서 검출하는 것을 완화하거나 제거하는 사전-처리 시스템(pre-processing system)을 제공한다. 상기 사전-처리 시스템은 임의의 다운스트림 처리 시스템에 의하여 더욱 신뢰성 있게 분석될 수 있는 출력 신호를 생성한다. 상기 출력 신호는, 원하는 신호 콘텐트는 유지하면서 음색 노이즈를 억제한다. 다운스트림 처리 시스템은 음색 입력 신호 노이즈를 원하는 신호 콘텐트로 잘못 해석하지 않고고, 계산에 관한 리소스를 불필요하게 소모하지 않으며, 입력 신호 콘텐트에 대하여 요구되지 않은 동작을 취하지 않는다.
사전-처리 시스템은 메모리와 상기 메모리에 접속된 프로세서를 포함한다. 상기 메모리는 평활화 프로그램(smoothing program), 배경 노이즈 추정치 및 블렌딩 프로그램(blending program)을 저장한다. 상기 평활화 프로그램은 입력 신호 중의 신호 피크에 감쇠(attenuation)를 적용하여 평활화된 신호를 생성한다. 상기 블렌딩 프로그램은 배경 노이즈 추정치에 기초하여, 상기 평활화된 신호를 입력 신호와 결합하여, 출력 신호를 생성한다. 상기 프로세서는 상기 평활화 프로그램과 블렌딩 프로그램을 실행한다.
상기 감쇠는 입력 신호 상의 멀티-패스 윈도우된 평균(multi-pass windowed average)일 수 있다. 상기 감쇠에 의해, 입력 신호 중의 원하는 신호 피크뿐만 아니라 음색 노이즈 피크와 같은 노이즈 피크가 평활화될 수 있다. 다른 감쇠가 채용될 수도 있다.
상기 블렌딩 프로그램은 입력 신호 성분과 평활화된 신호 성분에 기초하여 출력 신호 성분을 결정한다. 상기 출력 신호 성분은 부분적으로, 입력 신호의 신호-대-노이즈 비, 또는 다른 노이즈 조치에 부분적으로 의존할 수 있다. SNR에 따라, 상기 출력 신호 성분은 입력 신호 성분일 수도 있고, 평활화된 신호 성분일 수도 있고, 입력 신호 성분과 평활화된 신호 성분의 혼합일 수도 있다. 다른 양으로 더 적거나 더 많은 신호의 혼합이 채용될 수도 있다.
본 발명의 다른 시스템, 방법 및 이점은 다음의 도면 및 상세한 설명을 통해 당업자에게 명백할 것이다. 이러한 모든 추가의 시스템, 방법, 특징 및 이점은 본 설명 및 본 발명의 범위에 포함되고, 후술하는 청구의 범위에 의해 보호된다.
본 발명은 다음의 도면과 설명을 참고로 하여 더 잘 이해될 수 있다. 도면의 구성요소는 반드시 크기대로인 것은 아니며, 본 발명의 원리를 보여주는 것에 주안점을 두고 있다. 또한, 도면에서, 유사한 도면 번호는 다른 도면 전체에 걸쳐 대응 부분을 나타낸다.
도 1은 신호 처리 시스템을 보여준다.
도 2는 도로 노이즈 스펙트럼과 입력 신호 스펙트럼을 보여준다.
도 3은 에너지가 광대역으로 증가한 입력 신호 스펙트럼과 도로 노이즈 스펙트럼을 보여준다.
도 4는 입력 신호 스펙트럼과 평활화된 신호 스펙트럼을 보여준다.
도 5는 입력 신호 성분들을 보여준다.
도 6은 윈도우된(windowed) 평균된 신호 성분들을 보여준다.
도 7은 투-패스 윈도우된 평균된 신호 성분들을 보여준다.
도 8은 입력 신호 스펙트럼, 배경 노이즈 스펙트럼, 및 출력 신호 스펙트럼을 보여준다.
도 9는 입력 신호 스펙트럼, 배경 노이즈 스펙트럼, 및 출력 신호 스펙트럼을 보여준다.
도 10은 평활화 프로그램이 입력 신호의 피크를 감쇠시키기 위해 취할 수 있는 동작을 보여준다.
도 11은 블렌딩 프로그램이 평활화된 신호과 입력 신호를 결합하기 위해 취할 수 있는 동작을 보여준다.
도 12는 음색 노이즈 강인성을 제공하는 신호 사전-처리 시스템을 포함하는 신호 처리 시스템을 보여준다.
신호 처리 시스템은 추가 처리를 위한 관심 대상 신호 성분으로서 음색 노이즈(tonal noise)를 검출할 가능성을 감소시킨다. 신호 처리 시스템은 후속 처리 회로 또는 로직에 출력 신호를 제공한다. 출력 신호는 입력 신호에 존재하는 원하는 신호 콘텐트를 포함하는 한편 음색 노이즈를 감소시키거나 제거한다. 후속 처리 단계는 관심 대상 신호로 오해된 노이즈를 처리하기 위해 시간 또는 컴퓨터 자원을 소모하는 것을 피할 수 있다.
도 1에서, 처리 시스템(100)은 프로세서(102)와 메모리(104)를 포함한다. 프로세서(102)는 입력 신호 'x'(106)에 대해 원하는 동적 범위를 확립하거나 유지하기 위하여 자동 게인 제어기(108)를 제어할 수 있다. 프로세서(102)는 상기 입력 신호 'x'를 수신하고 아날로그-디지털 변환기(ADC)를 이용하여 상기 입력 신호 'x'(106)를 디지털화할 수 있다. 상기 ADC는 프로세서(102)의 일부이거나 프로세서와 별개일 수 있다. 다르게는 또는 추가로, 프로세서(102)는 디지털 신호 샘플로서 입력 신호 'x'(106)를 수신할 수 있다.
입력 신호 'x'(106)는 원하는 신호 성분과 원치않는 신호 성분을 포함하고 있다. 하기의 설명은 차량 내의 음성 인식 시스템을 위한 사전-처리 시스템(pre-processing system)을 설명한다. 하지만, 처리 시스템(100)은 입력 신호를 처리하는 임의의 다른 장치에서 이용될 수 있다.
도 1에서, 원하는 신호 소스(110)는 음성(112)을 포함한다. 음성(112)은 발성된 명령을 차량 내의 음성 인식 시스템에 전달할 수 있다. 상기 음성 인식 시스템은 창문, 자물쇠, 오디오 또는 비주얼 시스템, 기후 제어 시스템, 또는 임의의 다른 차량 요소와 같은 차량 요소들을 제어할 수 있다.
원치않는 신호 소스(114)는 음색 노이즈 소스(116)를 포함한다. 음색 노이즈 소스(116)는 음성(112)를 붕괴시키거나, 차단하거나 또는 왜곡할 수 있는 신호를 생성한다. 음색 노이즈 소스(116)는 주기적 성분을 갖는 신호를 생성한다. 음색 노이즈 소스는 엔진 잡음 또는 윙윙거리는 소리 또는 기타 전자기적 간섭, 차량 타이어(예컨대, 타이어가 요철 구간과 같은 포장도로 홈 또는 융기된 포장도로 마커를 달릴 때) 또는 기타 기계적 노이즈 소스, 차량 오디오/비주얼 시스템으로부터의 노이즈를 비롯한 오디오 출력, 기타 차량 내의 다른 음성, 또는 기타 음색 노이즈 소스를 포함할 수 있다.
마이크로폰(118)은 원하는 신호 소스(110)와 원치않는 신호 소스(114)에 의해 생성된 사운드를 캡쳐한다. 마이크로폰(118)은 차량 내의 음성 인식 시스템의 일부, 핸즈 프리 폰 시스템의 일부, 또는 차량 내의 임의의 다른 시스템의 일부일 수 있다. 마이크로폰(118)은 상기 사운드를 캡쳐하고 대응하는 전기적 신호를 자동 게인 제어기(108)에 제공한다. 자동 게인 제어기(108)는 아날로그-디지털 변환기(109)의 상기 동적 범위에 따라 입력 신호 레벨을 조절한다.
음색 노이즈는 마이크로폰(118) 및/또는 자동 게인 제어기(108)의 전후에서 입력 신호 내로 직접 결합될 수 있다. 따라서, 음색 노이즈는 들릴 필요가 없으며 입력 신호 'x'(106) 내에 존재하기 위하여 마이크로폰(118)에 의해 캡쳐될 필요가 없다. 엔진 전자부품에 의해 생성되는 전자기적 노이즈는 직접 입력 신호 내로 결합되는 음색 노이즈를 생성할 수 있다.
프로세서(102)는 노이즈 추정기(estimator)(120), 평활화(smoothing) 프로그램(122), 및 블렌딩(blending) 프로그램(124)을 실행한다. 노이즈 추정기(120)는 배경 노이즈 추정치를 제공하는 회로 또는 로직일 수 있다. 노이즈 추정기(120)는 배경 노이즈 추정치를 형성하기 위하여 음성 활동이 없는 기간 동안 입력 신호 레벨을 측정할 수 있다. 다르게는, 또는 추가로, 노이즈 추정기(120)는 배경 노이즈 추정치를 얻기 위해 음성이 존재하는지 여부에 관계없이 시간 윈도우(예, 1~500 ms, 1~5s, 또는 다른 윈도우)에 걸쳐 시간 또는 주파수 콘텐트에서 입력 신호 'x'(106)의 평균 또는 기타 통계적 측정값을 형성할 수 있다. 신호 크기, 주파수 콘텐트 또는 기타 특징에 기초한 다른 노이즈 추정 기법도 이용될 수 있다.
평활화 프로그램(122)은 입력 신호 'x'(106) 중의 피크를 감소시키거나 제거한다. 상기 피크는 음색 노이즈 피크, 원하는 신호 피크, 또는 두 가지 타입 모두의 피크일 수 있다. 평활화 프로그램(122)은 평활화된 신호(126)을 생성한다.
평활화 파라미터(128)는 평활화 프로그램(122)에 대한 구성 옵션(configuration options)을 확립한다. 평활화 파라미터(128)는 입력 신호에 적용될 수 있는 다수의 평활화 기법 사이에서 선택하거나, 평활화 기법 중 임의의 기법에 대한 파라미터를 제공하거나, 또는 평활화 프로그램(122)에 대한 구성 옵션을 확립할 수 있다. 다르게는, 평활화 프로그램(122)은 임의의 원하는 평활화 기법을 위해 사전-구성될 수 있다.
한 가지 구현예에서, 평활화 파라미터(128)는 윈도우된 평균 평활화 기법(windowed average smoothing technique)을 선택한다. 평활화 파라미터(128)는 평활화 프로그램(122)이 원-패스 윈도우된 평균(one-pass windowed average), 투-패스 윈도우된 평균, 또는 기타 멀티-패스 윈도우된 평균을 적용할 것인지 여부를 추가로 특정할 수 있다. 또한, 평활화 파라미터(128)는 윈도우된 평균의 각 패스에 대한 윈도우 크기, 평균이 어떻게 계산되는지, 중심에서 벗어난(outlying) 샘플을 버릴지 여부, 중심에서 벗어난 샘플 역치, 어느 패스가 중심에서 벗어난 샘플을 버릴지, 또는 기타 평활화 파라미터를 특정할 수 있다.
블렌딩 프로그램(124)은 출력 신호 'y'(130)을 생성하기 위해 블렌딩 규칙(132)을 실행한다. 블렌딩 파라미터(134)는 블렌딩 프로그램(124)에 대한 작업 파라미터를 확립할 수 있다. 블렌딩 파라미터(134)는 하위 SNR 역치(lower 눅threshold)(136), 상위 SNR 역치(upper SNR threshold)(138)를 확립하며, 블렌딩 함수 특정자(blending function specifier)(140)를 포함할 수 있다. 다르게는, 블렌딩 프로그램(124)은 출력 신호 'y'(130)를 생성하기 위한 사전-구성된 기법을 실행할 수 있다.
프로세서(102)는 배경 노이즈 추정치를 이용하여, 입력 신호 'x'(106)에 대한 신호-대-노이즈 비(SNR) 스펙트럼 추정치를 형성한다. 상기 SNR 추정치는 블렌딩 프로그램(124)의 실행에 앞서 또는 임의의 다른 시간에, 이산적 이벤트들(discrete events)이 발생할 때 주기적으로 샘플마다 샘플 상에서 업데이트될 수 있다. SNR 추정치는 블렌딩 프로그램(124)의 동작에 영향을 미친다.
블렌딩 프로그램(124)은 입력 신호, 배경 노이즈 추정치, 및 평활화된 신호의 스펙트럼들을 고려한다. 프로세서(102)는 패스트 푸리에 변환(Fast Fourier Transform)과 같은 시간-대-주파수 변환을 적용하여 상기 스펙트럼들을 얻을 수 있다. 시간-대-주파수 변환은 256, 512의 길이, 또는 입력 신호 'x'(106) 중의 음색 피크를 드러내는 임의의 다른 길이를 가질 수 있다.
시간-대-주파수 변환은 입력 신호 및 배경 노이즈 추정치 중의 주파수 콘텐트를 나타내는 이산적 신호 성분들을 생성한다. 입력 신호로부터 얻어진 평활화된 신호(126)은 또한 이산 주파수 신호 성분으로 나타내질 수 있다. 블렌딩 프로그램(124)은 입력 신호 성분, 평활화된 신호 성분 및 SNR 추정치에 기초하여 하나 이상의 출력 신호 성분을 결정한다.
도 1은 블렌딩 프로그램(124)에 의해 적용되거나 그 프로그램에서 구현되는 세 가지 블렌딩 규칙(132), 즉 제 1 블렌딩 규칙(142), 제 2 블렌딩 규칙(144), 및 제 3 블렌딩 규칙(144)을 보여준다. 블렌딩 규칙(132)은 표 1에서 도시한 것과 같이 확립될 수 있다:
규칙 번호 블렌딩 규칙
1 SNR 추정치가 상위 SNR 역치보다 큰 경우, 출력 신호 성분을 입력 신호 성분에 설정한다.
2 SNR 추정치가 하위 SNR 역치보다 작은 경우, 출력 신호 성분을 평활화된신호 성분에 설정한다.
3 SNR 역치가 상위 SNR 역치와 하위 SNR 역치 사이에 있는 경우, 입력 신호 성분과 평활화된 신호 성분의 블렌딩 함수를 평가하여 출력 신호 성분을 설정한다.
블렌딩 프로그램(124)의 동작을 지시하기 위하여 임의의 다른 규칙 또는 규칙 조합이 확립될 수 있다.
하위 SNR 역치(136)는 블렌딩 프로그램(124)이 출력 신호 스펙트럼 성분으로서 평활화된 신호 성분을 언제 사용할지를 결정한다. 블렌딩 프로그램(124)이 출력 신호를 생성함에 따라, 블렌딩 규칙(144)은 SNR 추정치가 하위 SNR 역치(136)보다 작은 경우, 블렌딩 프로그램(124)으로 하여금 현재의 출력 신호 'y'(130) 성분에 대해 평활화된 신호 성분을 사용하도록 한다. 상위 SNR 역치(138)는 언제 블렌딩 프로그램(124)이 출력 신호 스펙트럼 성분으로서 입력 신호 성분을 사용할지를 결정할 수 있다. 블렌딩 프로그램(124)이 출력 신호 'y'(130)을 생성함에 따라, 블렌딩 규칙(142)은 SNR 추정치가 상위 SNR 역치(138)보다 큰 경우, 블렌딩 프로그램(124)으로 하여금 현재의 출력 신호 요소에 대해 입력 신호 요소를 사용하도록 한다.
상기 SNR 추정치는 또한 상위 SNR 역치(138)와 하위 SNR 역치(136) 사이에 있을 수 있다. 이러한 경우, 블렌딩 규칙(146)은 입력 신호 성분과 평활화된 신호 성분의 블렌딩 함수를 평가함으로써 블렌딩 프로그램(124)이 현재의 출력 신호 성분을 결정하도록 한다. 블렌딩 함수 특정자(140)는 블렌딩 프로그램(124)이 입력 신호 성분과 평활화된 신호 성분의 가중된 평균을 결정하도록 할 수 있다. 다른 블렌딩 함수가 이용될 수 있으며 다른, 추가의 또는 더 적은 수의 신호를 고려할 수있다.
상기 가중된 평균은 선형 SNR 가중된 평균일 수 있다. 즉,
Figure 112007080115679-PCT00001
상기 식에서, 'y'는 출력 신호 성분이며, 's'는 평활화된 신호 성분이고, 'x'는 입력 신호 성분이며, 'upper'는 상위 SNR 역치(138)이며, 'lower'는 하위 SNR 역치(136)이며, 'SNR'은 SNR 추정치이다. 따라서, 만일 SNR 추정치가 상위 SNR 역치(138)와 하위 SNR 역치(136) 사이의 길의 80%이면, 출력 신호 성분은 평활화된 신호 성분의 20%와 입력 신호 성분의 80%로 설정된다. 다른 선형 및/또는 비선형 가중도 이용될 수 있다.
블렌딩 프로그램(124)은 데시벨(dB)로 표현되는 입력 신호 및 평활화된 신호 성분에 기초하여, 출력 신호 스펙트럼 성분(dB)을 결정할 수 있다. 다르게는, 블렌딩 프로그램(124)은 입력 신호 또는 평활화된 신호 성분의 파워 또는 진폭에 기초하여 출력 신호 성분을 결정할 수 있다. 프로세서(102)는 또한 다른 처리 단계에 출력 신호 'y'(130)를 제공하기 전에 파워 또는 진폭과 같은 다른 표현으로 출력 신호 'y'(130)를 변환할 수 있다.
도 2는 입력 신호 스펙트럼(202)과 도로 노이즈 스펙트럼(204)을 보여준다. 도로 노이즈는 입력 신호 'x'(106)의 전체 레벨에 기여한다. 추가의 노이즈 소스는 입력 신호에 1000 Hz 음색 노이즈를 기여한다. 음색 노이즈는 1000 Hz에서의 음색 노이즈 피크(206)와 208, 210, 212, 및 214로 나타낸 1000 Hz의 고조파에서 노이즈 피크에 의해 드러난다.
도 3은 입력 신호 스펙트럼(302)과 도로 노이즈 스펙트럼(304)을 보여준다. 입력 신호 스펙트럼(302)은 신호 에너지의 광대역 증가를 보여준다. 상기 증가는 일시적이며 차량이 도로의 범프를 때림으로써, 또는 다른 노이즈 소스에 의해 야기될 수 있다. 음색 노이즈는 남아 있으며 음색 노이즈 피크(206-214)에서 확대된다.
신호 에너지의 광대역 증가는 신호 검출기 또는 다른 처리 로직이 차량 음성 인식 시스템에의 음성 명령을 위해 입력 신호가 분석되어야 하는 것을 결정하도록 할 수 있다. 음성 인식 시스템은 신호 검출에 응답하여 입력 신호 'y'(106)를 검사하기 위하여 피치 검출기, 엔드포인터, 또는 다른 신호 처리 시스템을 이용할 수 있다. 음색 노이즈는 스피치의 특징(예, 모음)을 모방하며 입력 신호 중의 스피치 콘텐트를 잘못 확인시킬 수 있다. 처리 시스템(100)은 입력 신호 'x'(106)을 평활하하고 블렌딩하여, 잘못된 확인을 감소시키거나 제거한다.
도 4는 입력 신호 스펙트럼(302)으로부터 생성된 평활화된 신호 스펙트럼(402)을 보여준다. 평활화된 신호 스펙트럼(402)은 약 40 dB만큼 세로(dB) 축에서 하향 이동되었다. 평활화 프로그램(122)은 평활화된 신호 스펙트럼(402)을 생성한다. 평활화된 스펙트럼(402)에서, 음색 노이즈 피크(206~214)는 입력 신호 스펙트럼(302)의 투-패스 윈도우된 평균을 통해 실질적으로 감소되거나 제거된다.
도 5는 입력 신호(302)의 일부의 이산 스펙트럼 표현의 신호 성분들을 나타낸다. 502와 504로 표시한 두 성분은 입력 신호 중의 피크(506)의 부분이다. 제1 패스 평균화 윈도우(508)는 첫 번째 4개의 입력 신호 성분을 포괄한다. 제1 패스 평균화 윈도우(508)는 4의 길이를 갖지만, 더 크거나(예컨대, 20~30) 더 작을 수 있다. 길이 5의 제2 패스 평균화 윈도우(510) 역시 신호 성분(512, 514, 516, 518 및 520)을 포괄하는 인덱스 위치에 표시되어 있다. 평균화 윈도우(508, 510)의 길이는 FFT 길이에 의존하여 윈도우(508, 510)는 FFT에서 야기되는 스펙트럼 피크와 주변 주파수 성분을 포괄한다.
평활화 프로그램(122)은 먼저 평균화 윈도우(508)를 입력 신호 성분에 적용한다. 평활화 프로그램(122)은 윈도우(508) 내에서 입력 신호 성분들의 첫 번째 윈도우된 평균을 생성한다. 평활화 프로그램(122)은 입력 신호 성분들을 따른 인덱스 위치에 의해 평균화 윈도우(508) 인덱스 위치를 이동시킨다. 각 인덱스 위치에서, 평활화 프로그램(122)은 첫 번째 윈도우된 평균 신호의 새로운 스펙트럼 성분을 결정한다.
도 6은 첫 번째 윈도우된 평균화된 신호(616)의 일부의 이산 스펙트럼 표현의 신호 성분들을 보여준다. 제2 패스 평균화 윈도우(510)는 제2 패스 평균화 윈도우(510) 내에 있는 입력 신호 성분(512~520)과 함께, 도 6에서 재생성된다. 평활화 프로그램(122)은 입력 신호(302) 상에서 제1 패스 평균화 윈도우(508)의 원 패스로 첫 번째 윈도우된 평균화된 신호(616)을 생성하였다. 첫 번째 윈도우된 평균화된 신호(616)의 성분 중 둘은 602와 604로 표시하였다. 첫번째 윈도우된 평균화 피크(606)의 두 성분(602, 604)은 첫 번째 윈도우된 평균화 패스에 의한 입력 신호 피크(506)의 감소를 보여준다.
두 번째 패스 중에, 평활화 프로그램(112)은 제2 패스 평균화 윈도우(510)를 입력 신호 성분에 적용한다. 제2 패스 평균화 윈도우(510)는 제1 패스 평균화 윈도우(608)와 동일한 크기이거나, 더 크거나, 또는 더 작을 수 있다. 평활화 프로그램(122)은 첫번째 윈도우된 평균화된 성분과 윈도우(510)내의 입력 신호 성분에 기초하여 평활화된 스펙트럼 신호 성분을 생성한다. 평활화 프로그램(122)은 입력 신호 요소를 따른 인덱스 위치에 의해 제2 평균화 윈도우(510) 인덱스 위치를 이동시킨다. 각 인덱스 위치에서, 평활화 프로그램(122)은 평활화된 신호 스펙트럼의 새로운 신호 성분을 결정한다.
윈도우된 평균의 두 번째 패스 중에, 평활화 프로그램(122)은 임의의 주어진 인덱스 위치에 대해 중심에서 벗어난 신호 성분을 버리거나 또는 고려대상에서 제외할 수 있다. 도 6에서, 제2 패스 평균화 윈도우(510)의 현재 인덱스 위치에 대하여, 중심에서 벗어난 두 개의 성분은 신호 성분(516, 518)이다. 임의의 주어진 인덱스 위치에서, 중심에서 벗어난 신호 성분은 그 인덱스 위치에서 첫 번째 윈도우된 평균화된 성분의 값 위에 놓이는 윈도우(510) 내의 신호 성분일 수 있다.
도 6에서, 평균 윈도(510)의 인덱스 위치에서의 평균값은 도면 부호 614로 나타내었다. 신호 성분(516, 518)은 평균값(614) 위에 있으며, 평활화된 신호 성분을 결정하는 제2의 윈도 평균(second windowed average)에서의 고려 대상에서 제거된다. 평활화 파라미터(128)는 어떤 신호 성분이 중심에서 벗어난 성분으로 적임인 경우에 대한 다른 범주를 설정할 수 있다. 상기 범주는 상기 평균의 절대적인 또는 상대적인 신호 성분값 위의 역치값, 및/또는 어떤 신호 성분이 중심에서 벗어난 신호 성분인 것으로 결정되기 전에 만족시키는 다른 범주를 설정할 수 있다.
도 7은 평활화된 신호 스펙트럼(702)의 몇몇 성분을 보여준다. 평활화된 피크(706)의 두 성분(702, 704)이 표시되어 있고, 이들 성분은 피크(506, 606)의 추가 감소를 보여준다. 평활화 프로그램(122)은 추가의 또는 상이한 평활화 기법을 입력 신호에 적용하여, 그 입력 신호의 피크를 감소 또는 제거하는 평활화된 출력 신호를 얻을 수 있다. 상기 평활화된 피크는 음색 노이즈 피크, 음성과 같은 관심 대상의 신호 성분, 또는 임의의 다른 소스에 의해 생성된 피크일 수 있다. 따라서, 상기 평활화된 신호 스펙트럼은 완전히 평탄하지는 않지만, 입력 신호의 일부 감쇠된 특성을 보유하고 있다.
도 8은 출력 신호 스펙트럼(802) 및 배경 노이즈 추정 스펙트럼(804)을 보여준다. 또한, 음색 노이즈 성분(206~214)이 있는 입력 신호 주파수 스펙트럼(302)과, 평활화된 신호 스펙트럼(402)이 도시되어 있다. 스펙트럼(802, 804, 302, 402)은 수직 축(dB) 상에서 분리되어 있다. 도 8은 배경 노이즈 추정 스펙트럼(804)이 음색 노이즈 성분(206~214)에 적응되어, 대응하는 배경 노이즈 피크(806, 808, 810, 812, 814)를 포함하고 있는 것을 보여준다.
블렌딩 프로그램(124)은 입력 신호 스펙트럼(302)과 평활화된 신호 스펙트럼(402)의 혼합으로서 출력 신호 스펙트럼(802)을 생성한다. 블렌딩 프로그램(124)은, 부분적으로 배경 노이즈 추정 스펙트럼(804)에 기초하여, 상기 혼합을 수행한다. 상기 혼합은 블렌딩 규칙(132) 및 다른 규칙을 따를 수 있다. 한 가지 구현예에 있어서, 각각의 스펙트럼 인덱스 위치에서의 출력 신호 성분('y')은 다음과 같이 주어질 수 있다.
Figure 112007080115679-PCT00002
'x'는 인덱스 위치에서의 입력 신호 성분이고, 's'는 그 인덱스 위치에서의 평활화된 입력 신호 성분이며, SNR은 SNR 추정치이고, 'upper'는 상위 SNR 역치(138)이고, 'lower'는 하위 SNR 역치(136)이다.
상위 SNR 역치(138)는 1~10dB, 2~8dB, 4~6dB 또는 임의의 다른 상위 역치일 수 있다. 하위 SNR 역치(136)는 0~1dB, 0dB 미만, 또는 임의의 다른 하위 역치일 수 있다. 상기 역치(136, 138)는 처리 시스템(100)의 동작 중에 동적으로 설정되거나 적합하게 될 수 있다.
도 8에서, 배경 노이즈 추정 스펙트럼(804)은 음색 노이즈에 적합하게 되어 있고, SNR은 도시된 주파수 범위에 걸쳐 낮다(즉, 0~1dB). 따라서, 블렌딩 프로그램(132)은 기본적으로 평활화된 신호(402)를 이용하여 출력 신호(802)를 생성한다. 음색 노이즈 피크(206~214)는 출력 신호(402)에서 상당히 감소 또는 제거된다. 출력 신호(802)는 음색 노이즈 성분을 원하는 신호 성분으로서 잘못 검출하는 가능성을 감소 또는 제거하는 임의의 후속 처리 시스템에 제공될 수 있다.
도 9는 음성 콘텐트와 대략 100 Hz 및 2000 Hz 사이의 고조파(harmonics)(904)를 포함하는 입력 신호 성분(902)을 보여준다. 음색 노이즈는 잔류한 채 남아 있으며, 1 KHz의 간격으로 음색 노이즈 피크(206~214)를 일으킨다. 배경 노이즈 추정 스펙트럼(906)은 상기 지속되는 음색 노이즈에 적응되어 있고, 음색 노이즈 피크(806~814)를 포함하고 있다. 배경 노이즈 추정 스펙트럼(906)은 더 빨리 변화하는 음성 콘텐트 및 고조파(904)에 적응되어 있지 않고, 따라서 음성 콘텐트(904)에 대응하는 성분을 제거하고 있다.
평활화 프로그램(122)은 입력 신호 스펙트럼(902)으로부터 평활화된 신호 스펙트럼(908)을 생성한다. 평활화된 신호 스펙트럼(908)은 입력 신호의 감쇠된 특성은 유지하면서, 입력 신호 스펙트럼(902)의 피크를 현저히 감소 또는 제거한다. 상기 음색 노이즈와 음성 콘텐트 피크 모두는 평활화된 신호 스펙트럼(908)에서 평활화되거나 제거된다.
도 9는 또한 출력 신호 스펙트럼(910)을 보여준다. 블렌딩 프로그램(124)은 블렌딩 규칙(132) 및 블렌딩 파라미터(134)에 기초하여 출력 신호 스펙트럼(910)을 생성한다. 음성 콘텐트 및 고조파(904)(대략 100 Hz 내지 2000 Hz)를 포함하는 입력 신호 스펙트럼(902)의 일부는 비교적 높은 SNR을 갖고 있다. 2000 Hz 이후의 입력 신호 스펙트럼(902) 부분은 비교적 낮은 SNR을 갖고 있다. 출력 신호(910)를 형성하는 입력 신호 스펙트럼(902)과 평활화된 신호 스펙트럼(908)의 혼합부에 SNR 스펙트럼의 영향이 나타나 있다. 예컨대, 입력 신호 성분(914)은 대응하는 배경 노이즈 스펙트럼 지점(916) 위에 SNR 웰(well)을 갖고 있다. 따라서, 출력 신호 스펙트럼(910)은 입력 신호 성분(914)의 전부 또는 많은 부분을 재생성하는 신호 성분(918)을 갖는다.
출력 신호 스펙트럼(910)은 SNR이 비교적 높은 입력 신호 스펙트럼(902)의 성분들을 재생성한다. 따라서, 출력 신호 스펙트럼(910)은 음성 콘텐트(904)를 나타내는 스펙트럼 성분(912)을 포함한다. 또한, 출력 신호 스펙트럼(910)은 입력 신호 SNR이 낮은 경우 평활화된 신호 성분을 이용하여 음색 노이즈 피크(806~814)를 현저히 감소 또는 제거한다.
출력 신호 성분을 생성할 때, 블렌딩 프로그램(124)은 SNR이 상위 역치(138)를 초과하는 경우 상기 입력 신호 성분을 이용한다. 이에 의해, 출력 신호 스펙트럼(910)은 입력 신호 스펙트럼(902) 중의 원하는 신호 콘텐트를 캡처한다. 블렌딩 프로그램(124)은 SNR이 하위 역치(136)보다 낮은 경우 평활화된 신호 성분을 이용한다. 이에 의해, 출력 신호 스펙트럼(910)은 원래 입력 신호 스펙트럼(902)에 존재하는 피크의 상당한 감쇠를 반영한다.
출력 신호 스펙트럼(910)은 피치 검출기, 음성 인식 시스템 또는 다른 시스템과 같은 후속 처리 시스템에 제공될 수 있다. 프로세서(102)는 진폭 또는 파워(예컨대, 진폭의 제곱)의 표현으로, 스펙트럼 샘플 형태로, 또는 출력 신호 스펙트럼(910)에 기초한 임의의 다른 형태로 출력 신호('y')(130)를 제공할 수 있다. 출력 신호('y')(130)는 음색 노이즈 성분(206~214)을 현저히 감소 또는 제거하였지만, 원하는 신호 콘텐트(904)를 보유하고 있다. 후속의 처리 시스템은 음색 노이즈 성분(206~214)에 의해 야기된 거짓 트리거(false triggers) 없이 - 이는 그렇지 않을 경우 음성 콘텐트 또는 다른 원하는 신호 콘텐트를 모방할 수 있다 - 입력 신호('x')(106)에 원래 존재하는 음성 콘텐트를 신뢰성 있게 검출하여 처리할 수 있다.
도 10은 평활화 프로그램(122)에 의해 취해질 수 있는 동작의 흐름도(1000)이다. 평활화 프로그램(122)은 입력 신호 스펙트럼(902)을 획득한다(동작 1002). 프로세서는 입력 신호 상에서 시간-대-주파수 변환(예컨대, FFT)을 수행하여, 메모리(104)에 입력 신호 스펙트럼(902)을 제공할 수 있다. 별법으로서, 평활화 프로그램(122)이 상기 변환을 수행할 수 있다.
입력 신호 스펙트럼(902)을 평활화하기 위한 준비에 있어서, 평활화 프로그램(122)은 메모리(104) 내의 평활화 파라미터(128)를 판독한다(동작 1004). 평활화 파라미터(128)는 평활화 알고리즘, 상기 평활화 알고리즘에 대한 파라미터, 예컨대 하나 이상의 윈도우된 평균 패스(windowed average passes)를 위한 윈도 사이즈, 또는 다른 파라미터를 특정할 수 있다. 투-패스 윈도우된 평균 평활화 기법에 대하여, 평활화 프로그램(122)은 제1 평균화 윈도(508)를 위치 대 위치로 입력 신호 스펙트럼(902)에 적용하여, 첫 번째 윈도우된, 평균화된 신호를 생성한다(동작 1006).
두 번째 패스에 있어서, 평활화 프로그램(122)은 제2의 평균화 윈도우(608)를 입력 신호에 적용한다(동작 1008). 두 번째 패스 중에, 평활화 프로그램(122)은 현재의 평균화 윈도우 내의 신호 성분이 중심에서 벗어난 신호 성분인지 여부를 결정할 수 있다. 평활화 프로그램(122)은 중심에서 벗어난 신호 성분이 상기 윈도우된 평균에 기여하지 않도록 또는 많이 기여하지 않도록, 그 중심에서 벗어난 신호 성분을 폐기 또는 감쇠할 수 있다(동작 1010).
평활화 프로그램(122)은 윈도에 남아 있는 입력 신호 성분에 기초하여 출력 신호 성분을 생성한다(동작 1012). 입력 신호에 추가의 성분이 없는 경우, 상기 블렌딩 프로그램은 종료된다. 그렇지 않으면, 평활화 프로그램(122)은 제2의 평균화 윈도우(608)를 다음 위치로 이동시켜(동작 1014) 계속된다. 평활화된 신호 스텍트럼(908)이 얻어진다.
도 11은 블렌딩 프로그램(124)에 의해 취해질 수 있는 동작의 흐름도(1100)이다. 블렌딩 프로그램(124)은 메모리(104)로부터 블렌딩 파라미터(134)를 판독하고(동작 1102), 입력 신호 스펙트럼(902), 평활화된 신호 스펙트럼(908) 및 SNR 스펙트럼 추정치를 얻는다(동작 1104). 상기 SNR 스펙트럼 추정치는 입력 신호 스펙트럼 대 배경 노이즈 스텍트럼(906)의 비에 기초할 수 있다.
블렌딩 프로그램(124)은 개개의 출력 신호 스펙트럼 성분들을 생성한다. 각각의 성분에 대하여, 블렌딩 프로그램(124)은 다음 입력 신호 스펙트럼 성분, 평활화된 신호 스펙트럼 성분, SNR 추정치를 얻는다(동작 1106). 블렌딩 프로그램(124)은 블렌딩 규칙(132)을 적용하여, 다음 출력 신호 스펙트럼 성분을 생성한다.
도 11은 블렌딩 규칙(142, 144, 146)의 적용을 보여준다. SNR이 상위 SNR 역치(138)보다 큰 경우(동작 1108), 블렌딩 프로그램(124)은 입력 신호 성분이 되는 출력 신호 성분을 결정한다(동작 1110). SNR이 하위 SNR 역치(136)보다 낮으면(동작 1112), 블렌딩 프로그램(124)은 평활화된 신호 성분이 되는 출력 신호 성분을 결정한다(동작 1114).
SNR이 상위 SNR 역치(138)와 하위 SNR 역치(136) 사이에 있는 경우, 블렌딩 프로그램(124)은 입력 신호 성분과 평활화된 신호 성분의 혼합이 되는 출력 신호 성분을 결정한다(동작 1116). 상기 혼합은 SNR 가중 혼합(SNR weighted mix)일 수 있다. 별법으로서, 상기 출력 신호 성분을 형성하기 위해 동일 또는 상이한 신호들의 다른 혼합 또한 채용될 수 있다.
블렌딩 프로그램(124)은 각각의 입력 신호 성분에 대해 출력 신호 성분을 생성할 수 있다. 더 이상 입력 신호 성분이 없는 경우에(동작 1118), 블렌딩 프로그램(124)은 종료된다. 출력 신호 스펙트럼(910)이 얻어진다.
도 12에서, 음색 노이즈 강인성을 위한 신호 사전-처리 시스템(1200)이 사전 처리 로직(1202) 및 사후-처리 로직(1204)과 연계하여 동작한다. 사전-처리 시스템(1200)은 노이즈 추정 로직(1206), 평활화 로직(1208) 및 블렌딩 로직(1210)을 포함한다. 노이즈 추정 로직(1206)은 배경 노이즈 추정치를 제공하고, 평활화 로직(1208)은 입력 신호 중의 피크를 감소 또는 제거하여, 평활화된 신호를 형성하고, 블렌딩 로직(1210)은 상기 입력 신호, 평활화된 신호 및 배경 노이즈 추정치에 기초하여, 음색 노이즈에 강인한 출력 신호를 결정한다.
신호 처리 시스템(1200)은 입력 소스(1212)로부터 입력을 직접 또는 신호 처리 시스템(1214)에 의한 초기 처리 후에 수신할 수 있다. 신호 처리 시스템(1214)은 신호 소스(1212)로부터 디지털 또는 아날로그 입력을 받아들이고, 임의의 원하는 처리를 상기 신호에 적용하며, 사전-처리 시스템(1200)으로의 출력 신호를 생성한다.
입력 소스(1212)는 디지털 신호 소스 또는, 아날로그 소스(1216)와 같은 아날로그 신호 소스를 포함할 수 있다. 상기 입력 소스는 마이크로폰(1218) 또는 다른 음향 센서를 포함할 수 있다. 마이크로폰(1218)은 차량, 홈 컴퓨터 또는 임의의 다른 애플리케이션 내의 음성 인식 시스템으로의 음성 커맨드를 캡처할 수 있다. 다른 시스템들은 음색 노이즈 소스의 영향을 받기가 쉬운 다른 형태의 센서(1220)를 채용할 수 있다. 센서(1220)는 터치, 포스, 또는 모션 센서, 유도형 변위 센서(inductive displacement sensor), 근접 검출기(proximity detectors), 또는 다른 형태의 센서를 포함할 수 있다.
상기 디지털 신호 소스는 사전-처리 시스템(1200)이 구현되는 시스템 내에 통신 인터페이스(1222), 메모리 또는 다른 회로 또는 로직을 포함할 수 있다. 입력 소스(1212)가 디지털 신호 소스인 경우에, 신호 처리 시스템(1214)은 상기 디지털 신호 샘플을 처리할 수 있고, 아날로그 출력 신호를 생성한다. 사전-처리 시스템(1200)은 아날로그 출력 신호 또는 디지털 신호 샘플을 처리할 수 있다.
사전-처리 시스템(1200)은 또한 사후-처리 로직(1204)에 접속된다. 사후-처리 로직(1204)은 오디오 재생 시스템(1224), 디지털 및/또는 아날로그 데이터 전송 시스템(1226), 피치 추정기(1228), 음성 인식 시스템(1230) 또는 다른 시스템을 포함할 수 있다. 사전-처리 시스템(1200)은 음색 노이즈 강인 출력 신호를 임의의 다른 형태의 사후-처리 로직(1204)에 제공할 수 있다.
음성 인식 시스템(1230)은 피치 추정기(1228)와 연계하여 동작할 수 있다. 피치 추정기(1228)는 이산 코사인 변화 회로 또는 로직을 포함할 수 있고, 파워 또는 진폭 기반의 출력 신호 스펙트럼(910) 표현을 처리할 수 있다. 상기 음성 인식 시스템은 음성을 해석하고, 음성으로부터 방향을 취하며, 음성을 기록하고, 그렇지 않으면 음성을 처리하는 회로 및/또는 로직을 포함할 수 있다. 음성 인식 시스템(1230)은 핸즈프리 카폰, 데스크톱 또는 포터블 컴퓨터 시스템, 엔터테인먼트 디바이스, 또는 임의의 다른 시스템의 일부로서 음성을 처리할 수 있다. 핸즈프리 카 폰에 있어서, 사전-처리 시스템(1200)은 음색 노이즈를 제거하고, 출력 신호를 음성 인식 시스템에 제공한다.
전송 시스템(1226)은 네트워크 접속, 디지털 또는 아날로그 전송기, 또는 다른 전송 회로 및/또는 로직을 제공할 수 있다. 전송 시스템(1226)은 사전-처리 시스템(1200)에 의해 생성된 음색 노이즈 강인 출력 신호를 다른 기기에 통신시킨다. 예컨대, 카폰에 있어서, 전송 시스템(1226)은 카폰으로부터의 증대된 신호를 ZigBee, Mobile-Fi, Ultrawideband, Wi-Fi 또는 WiMax 네트워크와 같은 무선 접속을 통해 기지국 또는 다른 수신기에 통신시킬 수 있다.
오디오 재생 시스템(1224)은 디지털-아날로그 변환기, 필터, 증폭기, 다른 회로 또는 로직을 포함할 수 있다. 오디오 재생 시스템(1224)은 음성 및/또는 음악 재생 시스템일 수 있다. 오디오 재생 시스템(1224)은 셀룰러 폰, 카폰, 디지털 매체 플레이어/리코더, 라디오, 스테레오, 포터블 게이밍 기기, 또는 사운드 재생을 채용하는 다른 기기에 구현될 수 있다.
처리 시스템(100 및/또는 1200)은 하드웨어 및/또는 소프트웨어로 구현될 수 있다. 처리 시스템(100 및/또는 1200)은 디지털 신호 프로세서(DSP), 마이크로컨트롤러 또는 다른 프로세서를 포함할 수 있다. 처리 시스템(100 및/또는 1200)은 이산 로직 또는 회로, 이산 로직과 프로세서의 혼합을 포함할 수 있고, 또는 복수의 프로세서 또는 프로그램에 걸쳐 분포될 수 있다. 추가적으로, 또는 별법으로서, 처리 시스템(100 및/또는 1200)은 디스크, EPROM, 플래시 카드 또는 다른 메모리와 같이, 기계 판독 가능한 매체 상에 저장된 명령어 형태를 취할 수 있다.
처리 시스템(100)은 음색 노이즈를 억제하면서, 출력 신호('y')(130) 중의 원하는 신호 콘텐트를 유지한다. 처리 시스템(100)은 강한 음색 노이즈를 제거할 수 있어, 희박한 음성 콘텐트 조차도 출력 신호에서 검출될 수 있도록 한다. 출력 신호('y')(130)는 후속의 처리 회로 또는 로직이 노이즈를, 추가 처리를 담보하는 신호로서 해석할 가능성을 감소시킨다. 제한된 계산에 관한 리소스(limited computational resources)가 세이브될 수 있고, 후속의 처리 로직은 의사 동작(spurious actions)을 취하는 것, 부정확한 커맨드를 발행하는 것, 또는 입력 신호에 의해 콜되지 않는 다른 방식으로 응답하는 것을 피할 수 있다.
본 발명의 여러 실시예를 설명하였지만, 더 많은 실시예 및 구현예가 본 발명의 범위 내에서 가능하다는 것은 당업자에게 명백할 것이다. 따라서, 본 발명은 첨부된 청구의 범위 및 그 등가물을 제외하고는 제한되지 않는다.

Claims (31)

  1. 노이즈 신호 피크를 포함하는 입력 신호를 얻는 단계;
    상기 입력 신호 중의 상기 노이즈 피크를 감쇠시켜 평활화된 신호를 얻는 단계;
    배경 노이즈 추정치를 얻는 단계; 및
    상기 배경 노이즈 추정치에 기초하여, 상기 평활화된 신호를 상기 입력 신호와 블렌딩하여 출력 신호를 얻는 단계
    를 포함하는 신호 사전-처리 방법.
  2. 제 1항에 있어서,
    상기 노이즈 피크를 감쇠시키는 단계는 상기 입력 신호 중의 음색 노이즈를 감쇠시키는 것을 포함하는 것인 방법.
  3. 제 2항에 있어서,
    상기 입력 신호를 얻는 단계는 음색 노이즈와 원하는 신호 피크를 포함하는 입력 신호를 얻는 것을 포함하고,
    상기 감쇠는 상기 원하는 신호 피크를 감쇠시켜 상기 평활화된 신호를 얻는 것을 더 포함하는 것인 방법.
  4. 제 2항에 있어서, 상기 감쇠는 상기 입력 신호의 제1 윈도우된 평균을 결정하는 것을 포함하는 것인 방법.
  5. 제 2항에 있어서, 상기 감쇠는 상기 입력 신호의 제1 윈도우된 평균을 결정하여 제1의 평균화된 신호를 얻는 것과, 상기 제1의 평균화된 신호의 제2의 윈도우된 평균을 결정하는 것을 포함하는 것인 방법.
  6. 제 5항에 있어서, 상기 제2의 윈도우된 평균을 결정하는 단계는:
    상기 제1 평균화된 신호의 인덱스 포인트(index point)에서 시작하는 신호 성분들의 윈도우를 선택하는 것;
    상기 신호 성분들 중 적어도 하나를 중심에서 벗어난 신호 성분으로서 확인하는 것; 및
    상기 제2의 윈도우된 평균을 결정할 때 상기 중심에서 벗어난 신호 성분을 배제하는 것
    을 포함하는 것인 방법.
  7. 제 6항에 있어서,
    상기 확인은 상기 인덱스 포인트에서 상기 입력 신호의 상기 제1 윈도우된 평균을 초과하는 상기 윈도우 중의 신호 성분을 결정하는 것을 포함하는 것인 방법.
  8. 제 1항에 있어서, 상기 블렌딩은 상기 입력 신호와 상기 평활화된 신호의 신호-대-노이즈 비의 가중된 혼합(weighted mix)을 형성하는 것을 포함하는 것인 방법.
  9. 감쇠를 입력 신호 중의 노이즈 신호 피크에 적용하여 평활화된 신호를 얻는 평활화 프로그램과,
    배경 노이즈 추정치와,
    상기 배경 노이즈 추정치에 기초하여 상기 평활화된 신호와 상기 입력 신호를 결합하여 출력 신호를 생성하는 블렌딩 프로그램
    을 포함하는 메모리; 및
    상기 평활화 프로그램 및 상기 블렌딩 프로그램을 실행하는, 상기 메모리에 접속된 프로세서
    를 포함하는 것인 신호 처리 시스템.
  10. 제 9항에 있어서, 상기 감쇠는 상기 입력 신호의 윈도우된 평균을 포함하는 것인 시스템.
  11. 제 9항에 있어서, 상기 감쇠는 상기 입력 신호의 투-패스 윈도우된 평균을 포함하는 것인 시스템.
  12. 제 9항에 있어서, 상기 감쇠는 상기 입력 신호의 투-패스 윈도우된 평균을 포함하고, 상기 투-패스 윈도우된 평균의 두 번째 패스 중에 중심에서 벗어난 신호 성분을 배제하는 것인 시스템.
  13. 제 9항에 있어서, 상기 메모리는 상기 블렌딩 프로그램에 의해 적용되어 상기 출력 신호를 생성하는 블렌딩 규칙을 더 포함하는 것인 방법.
  14. 제 9항에 있어서, 상기 블렌딩 규칙은 상기 입력 신호의 입력 신호 성분과 상기 평활화된 신호의 평활화된 신호 성분에 기초하여 상기 출력 신호를 위한 출력 신호 성분을 생성하고, 상기 블렌딩 규칙은, 상기 배경 노이즈 추정치에 기초한 신호-대-노이즈 추정치가 상위 역치보다 큰 경우, 상기 출력 신호 성분을 상기 입력 신호 성분으로 설정하는 것인 시스템.
  15. 제 9항에 있어서, 상기 블렌딩 규칙은 상기 입력 신호의 입력 신호 성분과 상기 평활화된 신호의 평활화된 신호 성분에 기초하여 상기 출력 신호를 위한 출력 신호 성분을 생성하고, 상기 블렌딩 규칙은, 상기 배경 노이즈 추정치에 기초한 신호-대-노이즈 추정치가 하위 역치보다 작은 경우, 상기 출력 신호 성분을 상기 평활화된 신호 성분으로 설정하는 것인 시스템.
  16. 제 9항에 있어서, 상기 블렌딩 규칙은 상기 입력 신호의 입력 신호 성분과 상기 평활화된 신호의 평활화된 신호 성분에 기초하여 상기 출력 신호를 위한 출력 신호 성분을 생성하고, 상기 블렌딩 규칙은, 상기 SNR 역치가 상기 상위 SNR 역치와 상기 하위 SNR 역치 사이에 있을 경우, 상기 입력 신호 성분과 상기 평활화된 신호 성분의 블렌딩 함수를 적용함으로써 상기 출력 신호 성분을 설정하는 것인 시스템.
  17. 제 16항에 있어서, 상기 블렌딩 함수는 상기 입력 신호와 상기 평활화된 신호의 선형 가중된 평균을 포함하는 것인 시스템.
  18. 음색 노이즈 피크와 원하는 신호 피크를 포함하는 입력 신호 표현과,
    배경 노이즈 추정치와,
    상기 입력 신호 표현과 상기 배경 노이즈 추정치에 기초한 신호-대-노이즈 비(SNR) 추정치와,
    평균화 윈도우를 상기 입력 신호 표현에 연속적으로 적용하여, 상기 음색 노이즈 피크와 상기 원하는 신호 피크를 감쇠시켜, 평활화된 신호 표현을 얻도록 동작가능한 멀티-패스 윈도우 프로그램과,
    상위 SNR 역치와,
    하위 SNR 역치와,
    상기 입력 신호 표현의 입력 신호 성분과 상기 평활화된 신호 표현의 평활화 된 신호 성분으로부터 출력 신호 성분을 생성하기 위한 블렌딩 프로그램
    을 포함하는 메모리; 및
    상기 멀티-패스 윈도우 프로그램과 상기 블렌딩 프로그램을 실행하는, 상기 메모리에 접속된 프로세서;
    를 포함하고,
    상기 블렌딩 프로그램은 적어도,
    상기 SNR 추정치가 상기 상위 SNR 역치보다 큰 경우 상기 출력 신호 성분을 상기 입력 신호 성분으로 설정하고;
    상기 SNR 추정치가 상기 하위 SNR 역치보다 작은 경우 상기 출력 신호 성분을 상기 평활화된 신호 성분으로 설정하며;
    상기 SNR 역치가 상기 상위 SNR 역치와 상기 하위 SNR 역치 사이에 있을 경우, 상기 입력 신호 성분과 상기 평활화된 신호 성분의 블렌딩 함수를 적용함으로써 상기 출력 신호 성분을 설정하는;
    블렌딩 규칙을 구현하는 것인 신호 사전-처리 시스템.
  19. 제 18항에 있어서, 상기 평균화 윈도우는 제 1 길이의 평균화 윈도우 및 상이한 제 2 길이의 평균화 윈도를 포함하는 것인 시스템.
  20. 제 19항에 있어서, 상기 상이한 제2 길이의 평균화 윈도는 상기 제 1 길이의 평균화 윈도우보다 길고, 상기 멀티-패스 윈도우 프로그램은 상기 더 긴 제 2 길이 의 평균화 윈도우의 적용 중에 중심에서 벗어난 신호 성분을 배제하는 것인 시스템.
  21. 제 20항에 있어서, 상기 중심에서 벗어난 신호 성분은 상기 제 1 길이의 평균화 윈도우의 적용을 통해 얻어지는 평균화된 신호 레벨을 초과하는 것인 시스템.
  22. 제 18항에 있어서, 상기 블렌딩 함수는 상기 평활화된 신호 성분과 상기 입력 신호 성분의 선형적으로 종속적인 혼합(linearly dependent mix)인 것인 시스템.
  23. 제 19항에 있어서, 상기 상이한 제 2 길이의 평균화 윈도는 상기 제 1 길이의 평균화 윈도보다 짧은 것인 시스템.
  24. 기계 판독 가능한 매체; 및
    상기 매체에 저장되는 명령어를 포함하고,
    상기 명령어는 처리 시스템이,
    배경 노이즈 추정치를 얻고;
    입력 신호 중의 피크를 감쇠시켜, 평활화된 신호를 얻고;
    상기 배경 노이즈 추정치에 기초하여, 블렌딩 규칙을 적용하여 상기 평활화된 신호를 상기 입력 신호와 결합하여 출력 신호를 형성하도록 하는 것인 제품.
  25. 제 24항에 있어서, 상기 피크를 감쇠시키는 상기 명령어는 음색 노이즈 피크와 원하는 신호 피크를 감쇠시키는 명령어를 포함하는 것인 제품.
  26. 제 24항에 있어서, 상기 피크를 감쇠시키는 상기 명령어는 윈도우된 평균화 명령어를 포함하는 것인 제품.
  27. 제 24항에 있어서, 상기 피크를 감쇠시키는 상기 명령어는 멀티-패스 윈도우된 평균화 명령어를 포함하는 것인 제품.
  28. 제 24항에 있어서, 상기 피크를 감쇠시키는 상기 명령어는 중심에서 벗어난 신호 성분을 폐기하는 멀티-패스 윈도우된 평균화 명령어를 포함하는 것인 제품.
  29. 제 28항에 있어서, 상기 중심에서 벗어난 신호 샘플은 음색 노이즈 피크 성분과 원하는 신호 피크 성분을 포함하는 것인 제품.
  30. 제 24항에 있어서, 상기 블렌딩 규칙을 적용하는 상기 명령어는,
    상기 입력 신호와 상기 평활화된 신호의 신호-대-노이즈 비 가중된 혼합을 형성하는 명령어를 포함하는 것인 제품.
  31. 제 30항에 있어서, 상기 매체는 상기 배경 노이즈 추정치와 상기 입력 신호에 기초하여 신호-대-노이즈(SNR) 조치를 결정하는 명령어를 더 포함하고,
    상기 가중된 혼합은 y=(1-(SNR/(upper-lower)))*s+(SNR/(upper-lower))*x를 포함하고,
    여기서, y는 상기 출력 신호 성분이고, s는 상기 평활화된 신호 성분이고, x는 상기 입력 신호 상분이고, upper는 상위 SNR 역치이고, lower는 하위 SNR 역치이고, SNR은 상기 SNR 측정값인 것인 제품.
KR1020077025928A 2005-05-17 2006-04-12 음색 노이즈 강인성을 위한 신호 처리 시스템 KR20070119741A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/131,150 2005-05-17
US11/131,150 US8520861B2 (en) 2005-05-17 2005-05-17 Signal processing system for tonal noise robustness

Publications (1)

Publication Number Publication Date
KR20070119741A true KR20070119741A (ko) 2007-12-20

Family

ID=37430870

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077025928A KR20070119741A (ko) 2005-05-17 2006-04-12 음색 노이즈 강인성을 위한 신호 처리 시스템

Country Status (7)

Country Link
US (1) US8520861B2 (ko)
EP (1) EP1882251A1 (ko)
JP (1) JP2008541177A (ko)
KR (1) KR20070119741A (ko)
CN (1) CN101176149A (ko)
CA (1) CA2607169C (ko)
WO (1) WO2006122388A1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4757158B2 (ja) * 2006-09-20 2011-08-24 富士通株式会社 音信号処理方法、音信号処理装置及びコンピュータプログラム
US8489396B2 (en) * 2007-07-25 2013-07-16 Qnx Software Systems Limited Noise reduction with integrated tonal noise reduction
US20090150144A1 (en) * 2007-12-10 2009-06-11 Qnx Software Systems (Wavemakers), Inc. Robust voice detector for receive-side automatic gain control
KR101317813B1 (ko) * 2008-03-31 2013-10-15 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
KR101335417B1 (ko) * 2008-03-31 2013-12-05 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
JP5136378B2 (ja) * 2008-12-09 2013-02-06 富士通株式会社 音響処理方法
DK3493205T3 (da) * 2010-12-24 2021-04-19 Huawei Tech Co Ltd Fremgangsmåde og indretning til adaptiv detektion af stemmeaktivitet i et lydindgangssignal
WO2013125257A1 (ja) * 2012-02-20 2013-08-29 株式会社Jvcケンウッド 雑音信号抑制装置、雑音信号抑制方法、特殊信号検出装置、特殊信号検出方法、報知音検出装置、および、報知音検出方法
CN105702264B (zh) * 2015-12-30 2020-02-07 深圳海福地电子科技有限公司 音频处理装置和方法
US10027430B1 (en) * 2017-04-18 2018-07-17 Topcon Positioning Systems, Inc. Method and apparatus for estimating the current signal-to-thermal noise ratio and signal-to-pulse noise ratio

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4628156A (en) 1982-12-27 1986-12-09 International Business Machines Corporation Canceller trained echo suppressor
WO1995002288A1 (en) * 1993-07-07 1995-01-19 Picturetel Corporation Reduction of background noise for speech enhancement
US5544250A (en) * 1994-07-18 1996-08-06 Motorola Noise suppression system and method therefor
JP3604393B2 (ja) * 1994-07-18 2004-12-22 松下電器産業株式会社 音声検出装置
JP2606171B2 (ja) * 1994-12-12 1997-04-30 日本電気株式会社 受話音量自動可変回路
US5862230A (en) 1997-01-22 1999-01-19 Darby; Ronald A. Method to reduce perceived sound leakage between auditoriums in multiplex theaters
KR100341044B1 (ko) * 1997-12-08 2002-07-13 다니구찌 이찌로오, 기타오카 다카시 음성 신호 가공 방법 및 음성 신호 가공 장치
US6111957A (en) 1998-07-02 2000-08-29 Acoustic Technologies, Inc. Apparatus and method for adjusting audio equipment in acoustic environments
US6111156A (en) * 1998-11-10 2000-08-29 Nova Chemicals (International) S.A. Integrated high temperature high conversion olefin/polyolefin process
US6321197B1 (en) * 1999-01-22 2001-11-20 Motorola, Inc. Communication device and method for endpointing speech utterances
US6725190B1 (en) 1999-11-02 2004-04-20 International Business Machines Corporation Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
US6674865B1 (en) 2000-10-19 2004-01-06 Lear Corporation Automatic volume control for communication system
DE10118653C2 (de) 2001-04-14 2003-03-27 Daimler Chrysler Ag Verfahren zur Geräuschreduktion
GB2375028B (en) 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
US20030093270A1 (en) 2001-11-13 2003-05-15 Domer Steven M. Comfort noise including recorded noise
US7136079B2 (en) 2002-04-04 2006-11-14 Saudi Arabian Oil Company Edge preserving smoothing method
US20030216907A1 (en) 2002-05-14 2003-11-20 Acoustic Technologies, Inc. Enhancing the aural perception of speech
US8145491B2 (en) 2002-07-30 2012-03-27 Nuance Communications, Inc. Techniques for enhancing the performance of concatenative speech synthesis
US7146316B2 (en) 2002-10-17 2006-12-05 Clarity Technologies, Inc. Noise reduction in subbanded speech signals
US7343283B2 (en) * 2002-10-23 2008-03-11 Motorola, Inc. Method and apparatus for coding a noise-suppressed audio signal
DE10250739A1 (de) * 2002-10-31 2004-05-13 Bayerische Motoren Werke Ag Verfahren zur Bewertung von Störgeräuschen
US7895036B2 (en) 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US7454332B2 (en) * 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression

Also Published As

Publication number Publication date
US20060265215A1 (en) 2006-11-23
WO2006122388A1 (en) 2006-11-23
CN101176149A (zh) 2008-05-07
US8520861B2 (en) 2013-08-27
JP2008541177A (ja) 2008-11-20
CA2607169A1 (en) 2006-11-23
EP1882251A1 (en) 2008-01-30
CA2607169C (en) 2014-05-20

Similar Documents

Publication Publication Date Title
KR20070119741A (ko) 음색 노이즈 강인성을 위한 신호 처리 시스템
KR100944252B1 (ko) 오디오 신호 내에서 음성활동 탐지
US8284947B2 (en) Reverberation estimation and suppression system
US8515097B2 (en) Single microphone wind noise suppression
US8620672B2 (en) Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
CN1727860B (zh) 语音噪音抑制方法和语音噪音抑制器
KR100851716B1 (ko) 바크 대역 위너 필터링 및 변형된 도블링거 잡음 추정에기반한 잡음 억제
US8521530B1 (en) System and method for enhancing a monaural audio signal
JP5265056B2 (ja) 雑音抑圧装置
US9386162B2 (en) Systems and methods for reducing audio noise
EP2244254B1 (en) Ambient noise compensation system robust to high excitation noise
JP5870476B2 (ja) 雑音推定装置、雑音推定方法および雑音推定プログラム
WO2000036592A1 (en) Improved noise spectrum tracking for speech enhancement
KR20150005979A (ko) 오디오 신호 프로세싱을 위한 시스템들 및 방법들
KR20100051727A (ko) 노이즈 활동 검출을 위한 시스템 및 방법
US20210136230A1 (en) Howl detection in conference systems
KR20040075787A (ko) 윈드 노이즈 억제 시스템, 윈드 노이즈 검출 시스템, 윈드버핏 제거 방법 및 노이즈 검출 제어용 소프트웨어를구비하는 신호 기록 매체
JP2002541753A (ja) 固定フィルタを用いた時間領域スペクトラル減算による信号雑音の低減
CN111554315A (zh) 单通道语音增强方法及装置、存储介质、终端
US8199928B2 (en) System for processing an acoustic input signal to provide an output signal with reduced noise
CN103824563A (zh) 一种基于模块复用的助听器去噪装置和方法
KR100931487B1 (ko) 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치
KR101993003B1 (ko) 잡음 제거 장치 및 방법
CN113593599A (zh) 一种去除语音信号中噪声信号的方法
Asgari et al. Voice activity detection using entropy in spectrum domain

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application