WO2009123412A1

WO2009123412A1 - 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체

Info

Publication number: WO2009123412A1
Application number: PCT/KR2009/001641
Authority: WO
Inventors: 정성일; 하동경
Original assignee: (주)트란소노
Priority date: 2008-03-31
Filing date: 2009-03-31
Publication date: 2009-10-08
Also published as: US20110029305A1; KR101335417B1; KR20090104558A; US8744845B2

Abstract

노이지 음성 신호의 잡음 추정 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체를 제공한다. 본 발명의 일 실시예에 따른 노이지 음성 신호의 잡음 추정 방법은 입력되는 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하는 단계, 인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하는 단계, 직전 프레임의 탐색 프레임만을 이용하거나 및/또는 직전 프레임의 탐색 프레임과 직전 프레임의 평활 크기 스펙트럼 중에서 크기가 작은 스펙트럼과 현재 프레임의 평활 크기 스펙트럼을 이용하여 현재 프레임의 탐색 프레임을 구하는 단계, 상기 평활 크기 스펙트럼과 상기 탐색 스펙트럼을 이용하여 상기 입력 노이지 음성 신호에 포함된 잡음 성분의 비율을 나타내는 식별비를 구하는 단계, 및 상기 식별비를 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 잡음 스펙트럼을 구하는 단계를 포함한다. 이러한 본 발명의 실시예에 의하면, 잡음 추정을 위한 계산량이 적으며 또한 대용량의 메모리가 필요 없기 때문에, 하드웨어나 소프트웨어로 구현하기가 용이하며, 또한 주파수 서브밴드별로 적응적인 절차의 수행이 가능해서 잡음 추정의 정확도를 높일 수가 있다.

Description

노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체

본 발명은 음성 신호 처리에 관한 것으로, 보다 구체적으로 노이지 음성 신호(Noisy Speech Signal)에서 잡음의 상태를 판별하고, 또한 노이지 음성 신호로부터 잡음을 추정하며, 아울러 추정된 잡음을 이용하여 음질을 개선하는 등과 같은 노이지 음성 신호의 처리 절차와 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체에 관한 것이다.

스피커폰(Speakerphone)은, 다수의 사람들 사이의 통신을 용이하게 하며 또한 개별적으로는 핸즈-프리 세팅을 제공할 수 있기 때문에 많은 통신 기기의 필수 장치로 구비되어 있다. 최근에는 무선 통신 기술의 발달로 영상 통화용 통신 기기가 널리 보급되고 있는 추세이다. 그리고 멀티미디어 재생을 지원하는 통신 기기나 PMP(Portable Multimedia Player)나 MP3 플레이어 등과 같은 미디어 재생 장치의 보급 증가로 블루투스(bluetooth) 등과 같은 근거리 무선 통신 기기의 보급도 증가하고 있다. 또한, 청력이 약하여 잘 들을 수 없는 사람들에게 도움을 줄 수 있도록 보청기(Hearing Aid)가 개발되어 보급되고 있다. 이러한 스피커폰이나 보청기, 그리고 영상 통화용 통신 기기나 블루투스 등과 같은 장치에서는 잡음이 섞여 있는 음성 신호인 노이지 음성(Noisy Speech) 신호로부터 음성을 인식하거나 또는 배경 잡음(Background Noise)을 제거하거나 약화시켜서 개선된 음성 신호를 추출하기 위한 노이지 음성 신호의 처리 장치가 구비되어 있다.

노이지 음성 처리 장치의 성능은 이를 구비하는 음성 기반 어플리케이션 장치의 성능에 결정적인 영향을 미친다. 왜냐하면, 배경 잡음은 거의 언제나 음성 신호를 오염시켜서, 음성 코덱, 개인 휴대 통신(Cellular Telephony), 및 음성 인식(Speech Recognition) 등과 같은 음성 기반 어플리케이션 장치의 성능을 급격하게 떨어뜨릴 수가 있기 때문이다. 따라서 배경 잡음에 의한 영향을 최소화함으로써 노이지 음성 신호의 처리 성능을 향상시키기 위한 연구가 활발하게 진행되고 있다.

음성 인식은 일반적으로 마이크나 전화 등을 통하여 얻어진 음향학적 신호를 단어나 단어 집합 또는 문장으로 변환하는 과정을 말한다. 이러한 음성 인식의 정확도를 향상시키기 위한 첫 번째 과정은, 단일 채널을 통해 입력되는 잡음과 음성이 공존하는 입력 신호로부터 음향학적 신호인 음성 성분만을 효율적으로 추출하는 것이다. 노이지 음성 신호로부터 음성 성분만을 추출하기 위해서는, 입력 노이지 음성 신호에서 잡음 성분이 우세한지 또는 음성 성분이 우세한지를 판별하거나 또는 잡음의 상태를 정확하게 파악하는 등과 같은 노이지 음성 신호의 처리 절차가 효율적으로 수행되어야 한다.

그리고 단일 채널을 통해 입력되는 잡음과 음성이 공존하는 음성 신호의 음질을 개선하기 위해서는, 노이지 음성 신호 중에서 음성 성분에는 손상을 가하지 않으면서 잡음 성분만을 효율적으로 약화시키거나 또는 제거하여야 한다. 따라서 단일 채널을 통해 입력되는 노이지 음성 신호의 처리 절차에서는, 입력 노이지 음성 신호에서 잡음의 상태를 정확하게 파악하고, 또한 이를 이용하여 입력 노이지 음성 신호로부터 잡음 성분을 구하기 위한 잡음 추정(Noise Estimation) 절차를 기본적으로 포함한다. 그리고 추정된 잡음(Estimated Noise) 신호는 노이지 음성 신호에서 잡음 성분을 약화시키거나 또는 제거하여 음질을 개선하는데 이용된다.

추정된 잡음 신호를 이용하여 음질을 개선하는 방법은 여러 가지가 있는데, 그 중의 한 가지 방법은 스펙트럼 차감(Spectral Subtraction, SS)법이다. 스펙트럼 차갑법에 의하면, 노이지 음성 신호의 스펙트럼에서 추정된 잡음 신호의 스펙트럼을 차감하는데, 이에 의하여 노이지 음성 신호로부터 잡음을 감쇠시키거나 또는 제거함으로써 향상된 음성 신호를 얻을 수가 있다.

스펙트럼 차감법을 이용하는 노이지 음성 신호의 처리 장치에서는 무엇보다도 잡음 추정이 정확하게 이루어져야 하며, 또한 정확한 잡음의 추정을 위해서는 잡음의 상태를 정확하게 파악해야 한다. 하지만, 입력 노이지 음성 신호로부터 실시간으로 잡음의 상태를 파악하고 또한 실시간으로 잡음을 정확하게 추정하는 것은 결코 쉽지가 않다. 특히, 다양한 비정적인 환경에 오염된 노이지 음성 신호인 경우에는, 잡음의 상태 파악이나 잡음 추정을 정확하게 수행하고 이로부터 향상된 음성 신호를 얻는다는 것은 매우 어려운 일이다.

잡음 추정이 부정확한 경우에, 처리된 노이지 음성 신호는 두 가지 종류의 부작용을 유발할 수가 있다. 그 하나는 추정된 잡음이 실제 잡음보다 낮은 경우인데, 이러한 경우에는 처리된 노이지 음성 신호에서 성가신 잔류 잡음(Annoying Residual Noise) 또는 잔류 뮤지컬 잡음(Residual Musical Noise)이 감지될 수 있다. 다른 하나는 추정된 잡음이 실제 잡음보다 큰 경우인데, 이러한 경우에는 과도한 스펙트럼 차감으로 인하여 음성 왜곡이 발생하게 된다.

노이지 음성 신호에서 잡음의 상태를 파악하고 또한 정확한 잡음 추정을 위하여 많은 방법들이 제안되었다. 그 중에서 한 가지는 음성 활동 감지(Voice Activity Detection, VAD)와 이를 이용하는 VAD 기반 잡음 추정 방법이다. VAD 기반 잡음 추정 방법에 의하면, 이전의 여러 잡음 프레임(Noise Frame)이나 긴 과거 프레임으로부터 획득한 통계 정보를 이용하여 잡음의 상태를 파악하고 또한 잡음을 추정한다. 잡음 프레임이란 음성이 포함되지 않은 묵음 프레임(Silent Frame or Speech-absent Frame) 또는 전체 노이지 음성 신호에서 음성보다 잡음 성분이 압도적으로 우세한 잡음-우세 프레임(Noise Dominant Frame)을 일컫는다.

이러한 기존의 VAD 기반 잡음 추정 방법은 잡음이 시간에 따라서 변화가 심하지 않을 경우에 상당히 우수한 성능을 보여 준다. 그러나 배경 잡음이 비정적(Non-stationary)이거나 또는 레벨 가변적(Level-varying)인 경우, 신호 대 잡음비(Signal to Noise Ratio, SNR)가 낮은 경우, 또는 음성 신호의 에너지가 약한 경우 등에, 종래의 VAD 기반 방법은 잡음의 상태나 현재의 잡음 레벨에 대한 신뢰할 수 있는 정보를 획득하기가 어려운 단점이 있다. 또한, VAD 기반 방법은 일반적으로 높은 계산비용을 지불해야 하는 문제점을 보여 준다.

VAD 기반 방법의 단점을 극복하기 위하여, 여러 가지 새로운 방법이 제안되었다. 이들 중에서 널리 알려진 접근법 중의 하나는 회귀 평균화(Recursive Averaging)를 기반으로 하는 가중된 평균화(Weighted Average, WA) 기법이다. WA 기법은 VAD를 도입하지 않고 주파수 영역에서 잡음 추정하고 또한 추정된 잡음을 연속적으로 갱신하는 방법이다. WA 기법에 의하면, 현재 프레임에서 노이지 음성 신호의 크기 스펙트럼(Magnitude Spectrum)과 이전 프레임에서 추정된 잡음의 크기 스펙트럼 사이에 고정된 망각 요소(Forgetting Factor)를 적용하여 잡음을 추정한다. 하지만, 이러한 WA 기법은 고정된 망각 요소를 적용하기 때문에, 다양한 잡음 환경이나 비정적인 잡음 환경에서의 잡음 변화를 반영할 수 없으며, 그 결과 올바른 잡음 추정을 수행하지 못하는 한계가 있다.

VAD 기반 방법의 단점을 극복하기 위하여 제안된 다른 하나의 잡음 추정 방법은 최소 통계(Minimum Statistics, MS) 알고리즘을 이용하는 것이다. 이에 의하면, 탐색 윈도우(Search Window)에 걸쳐서 노이지 음성 신호의 평활된 파워 스펙트럼(Smoothed Power Spectrum)의 최소값을 추적하며, 추적된 최소값에 보상 상수(Compensate Constant)를 곱하여 잡음을 추정한다. 여기서, 탐색 윈도우는 약 1.5초의 최근 프레임들을 커버한다. 이러한 MS 알고리즘은 일반적으로 훌륭한 성능을 보여 주지만, 탐색 윈도우 길이에 해당하는 긴 과거 프레임의 정보가 지속적으로 필요하기 때문에 대용량의 메모리가 필요하고, 특히 잡음이 대부분을 차지하는 잡음 우세 신호(Noise Dominant Signal)에서 잡음 레벨의 변화를 빨리 추적할 수 없는 단점이 있다. 또한, MS 알고리즘도 기본적으로 과거 프레임의 추정된 잡음 정보를 이용하기 때문에, 잡음의 레벨 변화가 심하거나 또는 다른 잡음 환경으로 바뀌는 경우에는 신뢰할만한 결과를 보여 주지 못하는 한계가 있다.

이러한 기존 MS 알고리즘의 단점을 해결하기 위하여, 여러 가지 종류의 수정된 MS 알고리즘이 제안되었다. 이들 수정된 MS 알고리즘의 대부분이 갖는 공통적인 두 가지 특징은 다음과 같다. 첫째는 고려 대상이 되는 현재 프레임 또는 주파수 위치(Frequency Bin)에 음성이 존재하는지 또는 묵음 구간인지를 연속적으로 구별하기 위한 VAD 방법을 포함하고 있다는 것이고, 두 번째 특징은 순환 평균(Recursive Averaging, RA) 기반의 잡음 추정기(Noise Estimator)가 사용된다는 것이다.

그런데, 이러한 기존의 수정된 MS 알고리즘은 최초의 MS 알고리즘이 보여준 잡음 추정에 있어서의 시간 지연과 비정적인 잡음 환경에서의 부정확한 추정을 어느 정도는 해결할 수가 있었지만, 이를 완전하게 해결할 수는 없다. 왜냐하면, 수정된 MS 알고리즘도 본질적으로는 MS 알고리즘과 동일한 방법, 즉 현재 프레임의 잡음을 추정함에 있어서, 이전의 여러 잡음 프레임이나 또는 긴 과거 프레임의 추정된 잡음 신호가 반영되어 사용되고 있으며, 그 결과 대용량의 메모리와 많은 계산량이 요구되기 때문이다.

따라서 종래의 MS 알고리즘 또는 수정된 MS 알고리즘은 잡음 환경이 가변적이거나 또는 잡음 도미넌트 프레임에서 레벨의 변화가 급격한 배경 잡음을 신속하고 정확하게 추정하기가 어려운 단점이 있다. 또한, 기존의 VAD 기반 방법이나 MS 알고리즘, 또는 변형된 MS 알고리즘은 잡음의 상태를 파악하기 위하여 큰 용량의 메모리가 필요할 뿐만 아니라 연산량이 상당히 많아서 높은 계산 비용이 지불되어야 하는 한계가 있다.

본 발명이 해결하고자 하는 과제는 비정적이며 또한 다양한 유형의 잡음 조건에서도 입력 노이지 음성 신호의 잡음 상태를 정확하게 판별하고 또한 적은 메모리와 연산량을 이용해서도 잡음 유사(Noise-like) 구간과 음성 유사(Speech-like) 구간을 정확하게 판별하거나 또는 음성 인식을 위한 잡음 상태의 판별이 가능한 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체를 제공하는 것이다.

본 발명이 해결하고자 하는 과제는 비정적이며 또한 다양한 유형의 잡음 조건에서도 정확하게 현재 프레임의 잡음을 추정할 수 있고, 또한 이를 통하여 처리된 노이지 음성 신호의 음질을 개선할 수 있으며, 특히 잔류 뮤지컬 잡음을 효과적으로 억제할 수 있는 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체를 제공하는 것이다.

본 발명이 해결하고자 하는 다른 과제는 노이지 도미넌트 신호인 경우에도 잡음의 변화를 신속하고 또한 정확하게 추적할 수 있으며, 또한 시간 지연이 발생하는 것을 효과적으로 방지할 수 있는 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체를 제공하는 것이다.

본 발명이 해결하고자 하는 또 다른 과제는 음성이 대부분을 차지하는 신호에서는 잡음 레벨이 과대평가 되어서 음성 왜곡이 발생하는 것을 방지할 수 있는 잡음 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체를 제공하는 것이다.

상기한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 노이지 음성 신호의 처리 방법은 입력 노이지 음성 신호의 잡음을 추정하는 방법으로써, 입력되는 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하는 단계, 인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하는 단계, 상기 평활 크기 스펙트럼의 예측된 잡음 성분을 나타내는 탐색 스펙트럼을 구하는 단계, 및 상기 탐색 스펙트럼을 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 잡음 스펙트럼을 구하는 단계를 포함한다.

상기한 과제를 해결하기 위한 본 발명의 다른 실시예에 따른 노이지 음성 신호의 처리 방법은 입력되는 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하는 단계, 인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하는 단계, 직전 프레임의 탐색 프레임만을 이용하거나 및/또는 직전 프레임의 탐색 프레임과 직전 프레임의 평활 크기 스펙트럼 중에서 크기가 작은 스펙트럼과 현재 프레임의 평활 크기 스펙트럼을 이용하여 현재 프레임의 탐색 프레임을 구하는 단계, 상기 평활 크기 스펙트럼과 상기 탐색 스펙트럼을 이용하여 상기 입력 노이지 음성 신호에 포함된 잡음 성분의 비율을 나타내는 식별비를 구하는 단계, 및 상기 식별비를 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 잡음 스펙트럼을 구하는 단계를 포함한다.

상기한 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 노이지 음성 신호의 처리 방법은 시간 도메인의 입력 노이지 음성 신호를 처리하는 방법으로써, 상기 노이지 음성 신호에 대한 퓨리에 변환을 수행하여 퓨리에 변환 신호를 생성하고, 상기 노이지 음성 신호의 예측된 잡음 성분을 나타내는 탐색 신호를 구하기 위한 전방향 탐색을 수행하고, 상기 퓨리에 변환 신호와 상기 탐색 신호를 이용하여 상기 노이지 음성 신호의 잡음 상태를 나타내는 식별비를 구하고, 그리고 상기 식별비의 함수 또는 0으로 정의되는 적응적 망각 요소를 이용하여, 이전 프레임의 잡음 신호와 현재 프레임의 상기 퓨리에 변환 신호의 순환 평균으로 정의되는 현재 프레임의 잡음 신호를 구하는 것을 포함하고, 상기 탐색 신호는 직전 프레임의 탐색 신호와 직전 프레임의 상기 퓨리에 변환 신호 중에서 크기가 작은 신호와 현재 프레임의 상기 퓨리에 변환 신호에 망각 요소를 적용하여 구한다.

상기한 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 노이지 음성 신호의 처리 장치는 입력되는 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하기 위한 변환 유닛, 인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하기 위한 평활화 유닛, 상기 평활 크기 스펙트럼의 예측된 잡음 성분을 나타내는 탐색 스펙트럼을 구하기 위한 전방향 탐색 유닛, 및 상기 탐색 스펙트럼을 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 잡음 스펙트럼을 구하기 위한 잡음 추정 유닛을 포함한다.

상기한 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 노이지 음성 신호의 처리 장치는 입력되는 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하기 위한 변환 유닛, 인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하기 위한 평활화 유닛, 직전 프레임의 탐색 프레임만을 이용하거나 및/또는 직전 프레임의 탐색 프레임과 직전 프레임의 평활 크기 스펙트럼 중에서 크기가 작은 스펙트럼과 현재 프레임의 평활 크기 스펙트럼을 이용하여 현재 프레임의 탐색 프레임을 구하기 위한 전방향 탐색 유닛, 상기 평활 크기 스펙트럼과 상기 탐색 스펙트럼을 이용하여 상기 입력 노이지 음성 신호에 포함된 잡음 성분의 비율을 나타내는 식별비를 구하기 위한 잡음 상태 판별 유닛, 및 상기 식별비를 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 잡음 스펙트럼을 구하기 위한 잡음 추정 유닛을 포함한다.

상기한 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 노이지 음성 신호의 처리 장치는 시간 도메인의 입력 노이지 음성 신호를 처리하여 상기 노이지 음성 신호의 잡음 성분을 추정하기 위한 노이지 음성 신호의 처리 장치로써, 상기 처리 장치는 상기 노이지 음성 신호에 대한 퓨리에 변환을 수행하여 퓨리에 변환 신호를 생성하고, 상기 노이지 음성 신호의 예측된 잡음 성분을 나타내는 탐색 신호를 구하기 위한 전방향 탐색을 수행하고, 상기 퓨리에 변환 신호와 상기 탐색 신호를 이용하여 상기 노이지 음성 신호의 잡음 상태를 나타내는 식별비를 구하고, 그리고 상기 식별비의 함수 또는 0으로 정의되는 적응적 망각 요소를 이용하여, 이전 프레임의 잡음 신호와 현재 프레임의 상기 퓨리에 변환 신호의 순환 평균으로 정의되는 현재 프레임의 잡음 신호를 구하며, 상기 탐색 신호는 직전 프레임의 탐색 신호와 직전 프레임의 상기 퓨리에 변환 신호 중에서 크기가 작은 신호와 현재 프레임의 상기 퓨리에 변환 신호에 망각 요소를 적용하여 구한다.

본 발명의 실시예에 의하면, 잡음의 변화에 상관없이 프레임별로 고정된 망각 요소를 적용하는 기존의 WA 기법 대신에, 서브밴드에 존재하는 잡음의 상태에 따라 그 값이 변하는 적응적 망각 요소를 적용하여 잡음을 추정한다. 그리고 잡음 성분의 비중이 상대적으로 높은 잡음 유사 영역에서는 추정된 잡음의 업데이트가 지속적으로 이루어지지만, 음성 성분의 비중이 상대적으로 높은 음성 유사 영역에서는 업데이트를 하지 않는다. 따라서 본 발명의 실시예에 의하면, 잡음의 변화에 따라서 잡음 추정과 업데이트를 효율적으로 수행할 수가 있다.

그리고 본 실시예의 일 측면에 의하면, 상기 적응적 망각 요소는 입력 노이지 음성 신호의 잡음 상태에 따라서도 그 값이 달라질 수 있다. 예컨대, 상기 적응적 망각 요소는 식별비의 값에 비례할 수가 있으며, 이와 같은 경우에는 잡음 성분이 더 많은 비중을 차지할수록 입력 노이지 음성 신호를 더 많이 반영함으로써, 잡음 추정의 정확도를 향상시킬 수가 있다.

또한, 본 실시예의 다른 측면에 의하면, 기존의 VAD 기반 방법이나 MS 알고리즘이 아닌 전방향 탐색으로 구한 식별비를 이용하여 잡음 추정을 수행할 수가 있다. 그 결과, 본 실시예에서는 잡음 추정에 있어서 상대적으로 계산량이 적을 뿐만 아니라 요구되는 메모리의 용량도 크기 않기 때문에, 실제 하드웨어나 소프트웨어로 구현하기가 용이하다.

도 1은 본 발명의 제1 실시예에 따른 입력 노이지 음성 신호의 잡음 상태를 판별하기 위한 절차를 보여 주는 흐름도이다.

도 2는 첫 번째 전방향 탐색 절차에 따른 탐색 스펙트럼의 개략적인 모양을 보여 주는 도면이다.

도 3은 두 번째 전방향 탐색 절차에 따른 탐색 스펙트럼의 개략적인 모양을 보여 주는 도면이다.

도 4는 세 번째 전방향 탐색 절차에 따른 탐색 스펙트럼의 개략적인 모양을 보여 주는 도면이다.

도 5는 본 발명의 제1 실시예를 이용하여 구한 식별비 φ_i(j)를 이용하여 잡음의 상태를 판별하는 과정의 일례를 설명하기 위한 도면이다.

도 6은 본 발명의 제2 실시예에 따른 입력 노이지 음성 신호에 대한 잡음 추정 절차를 보여 주는 흐름도이다.

도 7은 수학식 12의 레벨 조정자 ρ(j)를 서브밴드 인덱스 j의 함수로 도시한 그래프이다.

도 8은 본 발명의 제3 실시예에 따른 입력 노이지 음성 신호에 대한 음질 개선 절차를 보여 주는 흐름도이다.

도 9는 크기 SNR ω_i(j)의 변화에 따른 변형된 비선형 구조의 과중이득 함수 ζ_i(j)의 변화의 일례를 나타내는 도면이다.

도 10은 본 발명의 제4 실시예에 따른 노이지 음성 신호의 잡음 상태의 판별 장치의 구성을 보여 주는 블록도이다.

도 11은 본 발명의 제5 실시예에 따른 노이지 음성 신호의 잡음 추정 장치의 구성을 보여 주는 블록도이다.

도 12는 본 발명의 제6 실시예에 따른 노이지 음성 신호의 음질 개선 장치의 구성을 보여 주는 블록도이다.

도 13은 본 발명의 제7 실시예에 따른 음성 기반 어플리케이션 장치의 구성을 보여 주는 블록도이다.

도 14는 여러 가지 종류의 부가 잡음을 포함하는 입력 노이지 음성 신호에 대한 본 발명의 제1 실시예에 따른 노이지 음성 신호의 잡음 상태의 판별 절차의 효과를 보여 주기 위한 개선된 세그멘탈 SNR 그래프이다.

도 15는 여러 가지 종류의 부가 잡음을 포함하는 입력 노이지 음성 신호에 대한 본 발명의 제1 실시예에 따른 노이지 음성 신호의 잡음 상태의 판별 절차의 효과를 보여 주기 위한 세그멘탈 WSSM 그래프이다.

도 16은 여러 가지 종류의 부가 잡음을 포함하는 입력 노이지 음성 신호에 대한 본 발명의 제2 실시예에 따른 노이지 음성 신호의 잡음 추정 절차의 효과를 보여 주기 위한 개선된 세그멘탈 SNR 그래프이다.

도 17은 여러 가지 종류의 부가 잡음을 포함하는 입력 노이지 음성 신호에 대한 본 발명의 제2 실시예에 따른 노이지 음성 신호의 잡음 추정 절차의 효과를 보여 주기 위한 세그멘탈 WSSM 그래프이다.

도 18은 여러 가지 종류의 부가 잡음을 포함하는 입력 노이지 음성 신호에 대한 본 발명의 제3 실시예에 따른 노이지 음성 신호의 음질 개선 절차의 효과를 보여 주기 위한 개선된 세그멘탈 SNR 그래프이다.

도 19는 여러 가지 종류의 부가 잡음을 포함하는 입력 노이지 음성 신호에 대한 본 발명의 제3 실시예에 따른 노이지 음성 신호의 음질 개선 절차의 효과를 보여 주기 위한 세그멘탈 WSSM 그래프이다.

이하에서는, 첨부 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세하게 설명한다. 후술하는 실시예는 본 발명의 기술적 사상을 예시적으로 설명하기 위한 목적이므로, 본 발명의 기술적 사상은 이 실시예에 의하여 한정되는 것으로 해석되어서는 안된다. 본 실시예에 대한 설명 및 도면에서 각각의 구성요소에 부가된 참조 부호는 단지 설명의 편의를 위하여 기재된 것일 뿐이며, 명세서 전체에 걸쳐서 동일한 참조 번호는 동일한 구성 요소를 지칭한다.

그리고 후술하는 본 발명의 실시예는 노이지 음성 신호에 대한 주파수 영역으로의 변환 알고리즘으로서 푸리에 변환을 적용하는 경우에 대해서만 예를 들어서 설명한다. 하지만, 본 발명의 실시예가 여기에만 한정되는 것은 아니며, 예컨대 웨이블릿 패킷 변환을 적용하는 경우에도 동등하게 적용할 수 있다는 것은 당업자에게 자명하므로, 이하에서는 웨이블릿 패킷 변환을 적용하는 실시예에 대한 구체적인 설명은 생략한다.

제1 실시예

도 1은 본 발명의 제1 실시예에 따른 노이지 음성 신호의 처리 절차의 일례로써, 입력 노이지 음성 신호의 잡음 상태를 판별하기 위한 절차를 보여 주는 흐름도이다. 도 1을 참조하면, 본 발명의 제1 실시예에 따른 노이지 음성 신호에 대한 잡음 상태의 판별 절차는 입력 노이지 음성 신호에 대한 퓨리에 변환 단계(Fourier Transform, S11), 크기 평활화 단계(Magnitude Smoothing, S12), 전방향 탐색 단계(Forward Searching, S13), 및 식별비 계산 단계(Identification Ratio Calculation, S14)를 포함한다. 이하, 입력 노이지 음성 신호를 처리하여 개선된 음성을 출력하는 본 발명의 실시예를 구성하는 각 단계에 대하여 보다 구체적으로 설명한다.

먼저, 입력 노이지 음성 신호 y(n)에 대한 퓨리에 변환(Fourier Transform)을 수행한다(S11). 이러한 퓨리에 변환은 입력 노이지 음성 신호 y(n)의 단기간(short-time) 신호에 대하여 연속적으로 수행되며, 그 결과 입력 노이지 음성 신호 y(n)는 퓨리에 스펙트럼(Fourier Spectrum, FS) Y _i (f)으로 근사화될 수 있다.

입력 노이지 음성 신호 y(n)는 다음의 수학식 1과 같이 깨끗한 음성과 가산 잡음의 합으로 표현할 수 있다. 수학식 1에서, n은 이산(discrete) 시간 인덱스, x(n)은 깨끗한 음성(Clean Speech) 신호, 그리고 w(n)은 부가적인 잡음(Additive Noise) 신호를 나타낸다.

수학식 1

그리고 상기 입력 노이지 음성 신호 y(n)은 단구간 퓨리에 변환에 의하여 근사하되는 퓨리에 스펙트럼 Y _i (f)은 수학식 2로 표현할 수 있다.

수학식 2

수학식 2에서, i와 f는 각각 프레임 인덱스와 주파수 위치(frequency bin) 인덱스를 나타내며, X _i (f)는 깨끗한 음성의 퓨리에 스펙트럼(FS)이고, W _i (f)는 잡음의 퓨리에 스펙트럼(FS)이다.

본 발명의 실시예에 의하면, 주파수 위치의 대역폭의 크기, 즉 서브밴드 사이즈(SB)에 대해서는 특별한 제한이 없다. 예를 들어, 서브밴드 사이즈는 전체 주파수 범위에 걸치거나 또는 전체 주파수 범위를 균등하게 2개, 4개, 또는 8개 등으로 분할한 대역폭일 수도 있다. 특히, 서브밴드 사이즈가 전체 주파수 범위를 2개 이상으로 분할한 대역폭일 경우에, 후속되는 잡음 상태의 식별 과정이나 잡음 추정 절차, 및 음질 개선 등의 절차는 퓨리에 스펙트럼을 각 서브밴드 단위로 분할하여 신호 처리 절차를 수행할 수도 있다. 이 경우에, 각 서브밴드에 대한 노이지 음성 신호의 퓨리에 변환 스펙트럼은 Y _i,j (f)로 표시할 수 있는데, 여기서 j(0≤j<J<L이고, J와 L은 각각 전체 서브밴드 개수와 전체 주파수 위치 개수를 결정짓는 자연수이다)는 전체 주파수 2^L에서 서브밴드 사이즈(=2^L-J)로 나눈 서브밴드 인덱스를 나타낸다.

다음으로, 퓨리에 변환된 신호에 대한 평활화(smoothing) 절차를 수행한다(S12). 평활화 절차는 전체 퓨리에 스펙트럼에 대하여 수행하거나 또는 각 서브밴드 단위로 수행할 수도 있다. 평활화 절차는 인접한 프레임 신호 사이에 존재하는 신호들의 크기 편차를 완화하기 위한 것으로써, 일반적으로 인접한 프레임의 신호들 사이에 그 크기에 있어서 큰 편차가 존재하는 경우에, 이들로부터 잡음의 상태를 정확하게 식별하거나 또는 정확한 실제 잡음을 취득하기가 어려운 문제가 있기 때문이다. 이에 의하면, 후속 단계인 전방향 탐색이나 그 이후의 단계에서, 평활화되기 이전의 퓨리에 스펙트럼의 크기인

를 사용하는 대신에 평활 요소(smoothing factor, α_s)를 적용하여 인접 프레임의 신호들간의 편차를 완화시킨 평활화된 스펙트럼을 사용한다.

퓨리에 변환 스펙트럼 Y _i (f)에 대한 크기 평활화 단계의 적용 결과, 수학식 3과 같은 평활 크기 스펙트럼(smoothed magnitude spectrum) S _i (f)이 출력될 수 있다. 만일, 평활화 절차가 각 서브밴드 단위의 퓨리에 스펙트럼 Y _i,j (f)에 대하여 수행되는 경우에는, 출력되는 평활 크기 스펙트럼은 S _i,j (f)로 나타낼 수 있다.

수학식 3

그리고 평활화 절차를 전방향 탐색 절차의 이전에 수행하면, 후속되는 전방향 탐색 절차에서 음성 성분의 밸리(valley) 부분이 잡음 유사 영역이나 잡음 우세 프레임으로 잘못 판정되는 것을 방지할 수도 있다. 왜냐하면, 전방향 탐색 절차에서 상대적으로 큰 편차를 갖는 입력 신호를 그대로 사용하는 경우에는, 탐색 스펙트럼과 음성 성분의 밸리 부분과 일치할 수가 있기 때문이다.

일반적으로 음성 유사 영역이나 음성 우세 구간에서 상기 음성 성분의 밸리 전후에는 상대적으로 크기가 큰 음성 신호가 수반되기 때문에, 평활화 절차를 수행하면 음성 성분의 밸리 부분은 그 크기가 상대적으로 크게 증가한다. 따라서 평활화 절차를 수행하면 전방향 탐색 단계에서 상기 밸리 부분이 탐색 스펙트럼과 일치하게 되는 것을 방지할 수가 있다.

다음으로, 출력되는 평활 크기 스펙트럼 S _i (f)에 대한 전방향 탐색(forward searching)을 수행한다(S13). 이러한 전방향 탐색은 각 서브밴드 단위로 수행될 수 있는데, 이 경우에는 전방향 탐색 절차에서는 S _i,j (f)신호가 이용된다. 전방향 탐색 절차는 한 프레임 전체 또는 한 프레임에서 나뉜 여러 서브밴드 단위로 평활 크기 스펙트럼에 존재하는 잡음 성분을 예측하기 위한 과정이다.

후술하는 바와 같이, 전방향 탐색 절차에서는 직전 프레임의 탐색 스펙트럼만을 이용하거나 및/또는 직전 프레임의 탐색 스펙트럼과 직전 프레임의 평활 크기 스펙트럼 중에서 크기가 작은 스페트럼과 현재 프레임의 평활 크기 스펙트럼만을 이용하여 탐색 스펙트럼을 구하거나 업데이트 한다. 이러한 전방향 잡음 탐색 절차를 이용하면, 종래의 VAD 기반 방법이나 변형된 MS 알고리즘에 존재하는 여러 가지 문제점, 예컨대 비정적인 잡음 환경이나 잡음 에너지 레벨의 변화가 심한 경우에 잡음 추정이 정확하게 이루어지지 않는 문제점이나 많은 계산량 또는 상당히 많은 이전 프레임의 정보를 저장해야 하는 문제점 등을 효율적으로 극복할 수 있다. 이하, 본 발명의 실시예에 따른 전방향 탐색 절차에서 이용될 수 있는 세 가지 유형의 탐색 스펙트럼에 대하여 상세하게 설명한다.

수학식 4는 첫 번째 전방향 탐색 절차에 따른 탐색 스펙트럼의 일례를 수학적으로 표현한 것이다.

수학식 4

여기서 i는 프레임 인덱스이고, j(0≤j<J<L)는 전체 주파수 2^L에서 서브밴드(SB) 사이즈(=2^L-J)로 나눈 서브밴드 인덱스인데, J와 L은 각각 전체 서브밴드의 개수와 전체 주파수 위치 개수를 결정짓는 자연수이다. 그리고 T _i,j (f)는 첫 번째 전방향 탐색 절차에 이용되는 탐색 스펙트럼이고, S _i,j (f)는 수학식 3에 따른 평활 크기 스펙트럼이다. U _i-1,j (f)는 이전 프레임의 전방향 탐색의 정도를 반영하기 위한 가중된 스펙트럼(weighted spectrum)으로써, 예컨대 이전 프레임의 탐색 스펙트럼과 평활 크기 스펙트럼 중에서 더 작은 값을 지시할 수 있다. 또한, κ(j)(0 < κ(J-1) ≤ κ(j) ≤ κ(0) ≤ 1)는 탐색 스펙트럼 T_i,j(f)를 계산하기 위해 이전 프레임의 가중된 스펙트럼 U_i-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 S_i,j(f)간의 갱신 정도를 반영하는 차등적 망각 요소이다.

본 발명의 일 실시예에 따른 첫 번째 전방향 탐색 절차에 의하면, 이전 프레임의 평활 크기 스펙트럼 S_i-1,j(f) 또는 이전 프레임의 탐색 스펙트럼 T_i-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 S_i,j(f)을 이용하여 현재 프레임의 탐색 스펙트럼 T_i,j(f)을 구한다. 보다 구체적으로, 이전 프레임의 탐색 스펙트럼 T_i-1,j(f)이 이전 프레임의 평활 크기 스펙트럼 S_i-1,j(f)보다 더 작은 경우에는 이전 프레임의 탐색 스펙트럼 T_i-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 S_i,j(f)을 이용하여, 현재 프레임의 탐색 스펙트럼 T_i,j(f)을 구한다. 반면, 이전 프레임의 탐색 스펙트럼 T_i-1,j(f)이 이전 프레임의 평활 크기 스펙트럼 S_i-1,j(f)보다 더 큰 경우에는, 이전 프레임의 탐색 스펙트럼 T_i-1,j(f)은 이용하지 않고 이전 프레임과 현재 프레임의 평활 크기 스펙트럼 S_i-1,j(f) 및 S_i,j(f)만을 이용하여, 현재 프레임의 탐색 스펙트럼 T_i,j(f)을 구한다.

따라서 상기 첫 번째 전방향 탐색 절차에서는, 이전 프레임의 탐색 스펙트럼 T_i-1,j(f)과 평활 크기 스펙트럼 S_i-1,j(f) 중에서 크기가 더 작은 스펙트럼과 함께 현재 프레임의 평활 크기 스펙트럼 S_i,j(f)을 이용하여, 현재 프레임의 탐색 스펙트럼 T_i,j(f)을 구한다. 이 경우에, 이전 프레임의 탐색 스펙트럼 T_i-1,j(f)과 평활 크기 스펙트럼 S_i-1,j(f) 중에서 크기가 더 작은 스펙트럼은 '가중된 스펙트럼'이라고 칭할 수도 있다.

계속해서 수학식 4를 참조하면, 현재 프레임의 탐색 스펙트럼 T_i,j(f)을 계산하는데 있어서 망각 요소(수학식 4에서 κ(j)로 표기)도 사용된다. 망각 요소는 이전 프레임의 가중된 스펙트럼 U_i-1,j(f)와 현재 프레임의 평활 크기 스펙트럼 S_i,j(f)간의 갱신 정도를 반영하기 위한 것이다. 이러한 망각 요소는 서브밴드 인덱스에 따라서 값이 변하는 차등적 망각 요소 κ(j)일 수 있는데, 이 경우에 차등적 망각 요소 κ(j)는 예컨대, 수학식 5와 같이 정의될 수도 있다.

수학식 5

이와 같이, 서브 밴드 별로 차등적 망각 요소 κ(j)의 크기를 달리하는 이유는 일반적으로 저주파 대역에서는 음성 신호인 유성음이 상대적으로 많은 비율을 차지하고, 고주파 대역에서는 잡음 신호인 무성임이 상대적으로 많은 비율을 차지하기 때문이다. 수학식 5에 의하면, 저주파 대역에서는 차등적 망각 요소 κ(j)의 크기가 상대적으로 크며, 그 결과 탐색 스펙트럼 T_i,j(f)에는 이전 프레임의 탐색 스펙트럼 T_i-1,j(f) 또는 평활 크기 스펙트럼 S_i-1,j(f)이 상대적으로 높은 비율로 반영된다. 반면에, 고주파 대역에서는 차등적 망각 요소 κ(j)의 크기가 작아지며 그 결과 탐색 스펙트럼 T_i,j(f)에는 현재 프레임의 평활 크기 스펙트럼 S_i,j(f)이 더 높은 비유로 반영된다.

이러한 첫 번째 전방향 탐색 절차에 따른 탐색 스펙트럼(수학식 4)의 개략적인 모양은 도 2에 도시되어 있다. 도 2에서 가로축은 시간 방향, 즉 프레임 인덱스 j가 증가하는 방향을 나타내고 세로축은 크기 스펙트럼(평활 크기 스펙트럼이나 탐색 스펙트럼)을 나타낸다. 다만, 도 2에 도시된 평활 크기 스펙트럼 S_i,j(f)이나 탐색 스펙트럼 T_i,j(f)은 단지 예시적으로 도시한 것이며, 그 미세 모양을 세부적으로 도시하지 않고 개략적인 개형만을 도시한 것이다.

도 2를 참조하면, 수학식 4에 따른 탐색 스펙트럼 T_i,j(f)은 평활 크기 스펙트럼 S_i,j(f)의 제1 극소점(P1)에서 출발하여 평활 크기 스펙트럼 S_i,j(f)을 추종하여 증가한다(단, 첫 번째 프레임의 탐색 스펙트럼 T_1,j(f) 크기는 평활 크기 스펙트럼 S_1,j(f)의 크기와 같다). 이러한 탐색 스펙트럼 T_i,j(f)은 평활 크기 스펙트럼 S_i,j(f)의 기울기보다는 작은 소정의 기울기로 증가하는 형태를 가질 수 있다. 탐색 스펙트럼 T_i,j(f)의 기울기는 일정할 필요가 없지만, 그렇다고 본 발명의 실시예가 일정한 기울기를 갖는 것을 배제하는 것은 아니다. 그 결과, 탐색의 초기 단계인 평활 크기 스펙트럼 S_i,j(f)이 증가하는 구간, 예컨대 제1 극소점(P1)에 해당되는 시간(T1)에서부터 평활 크기 스펙트럼 S_i,j(f)의 제1 극대점(P2)에 해당되는 시간(T2)까지는, 대체적으로 평활 크기 스펙트럼 S_i,j(f)과 탐색 스펙트럼 T_i,j(f)과의 차이는 증가한다.

그리고 상기 제1 극대점(P2)에 해당되는 시간(T2) 이후, 즉 평활 크기 스펙트럼 S_i,j(f)이 감소하는 구간에서는 대체적으로 평활 크기 스펙트럼 S_i,j(f)과 탐색 스펙트럼 T_i,j(f)과의 차이는 감소한다. 왜냐하면, 탐색 스펙트럼 T_i,j(f)은 크기가 일정하거나 조금씩 크기가 증가하기 때문이다. 이 경우, 평활 크기 스펙트럼 S_i,j(f)의 제2 극소점(P3)에 해당되는 시간(T4) 이전의 임의의 시간(T3)에서 탐색 스펙트럼 T_i,j(f)과 평활 크기 스펙트럼 S_i,j(f)이 만나며, 그 이후에는 상기 탐색 스펙트럼 T_i,j(f)은 평활 크기 스펙트럼 S_i,j(f)을 추종하여 상기 제2 극소점(P3)에 해당되는 시간(T4)까지 그 값이 감소한다. 이 때, 평활 크기 스펙트럼 S_i,j(f)과 탐색 스펙트럼 T_i,j(f)은 그 크기가 거의 유사하게 움직인다.

계속해서 도 2를 참조하면, 이러한 평활 크기 스펙트럼 S_i,j(f)의 제1 극소점(P1)에서 제2 극소점(P3) 사이에서 나타나는 탐색 스펙트럼 T_i,j(f)의 궤적은, 평활 크기 스펙트럼 S_i,j(f)의 제2 극소점(P3)에서 제3 극소점(P5) 사이 및 그 이후에도 계속적으로 동일한 형태로 나타난다.

이와 같이, 본 발명의 일 실시예에 따른 첫 번째 전방향 탐색 절차에서는, 이전 프레임의 평활 크기 스펙트럼 S_i-1,j(f) 또는 이전 프레임의 탐색 스펙트럼 T_i-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 S_i,j(f)을 이용하여 현재 프레임의 탐색 스펙트럼 T_i,j(f)을 구하며, 상기 탐색 스펙트럼 T_i,j(f)은 계속 업데이트된다. 그리고 이렇게 구한 탐색 스펙트럼 T_i,j(f)은, 각 서브밴드별로 입력 노이지 음성 신호에서 잡음이 차지하는 비율을 예측하거나 또는 잡음의 크기를 추정하는데 이용할 수 있는데, 이에 대해서는 후술한다.

다음으로 본 발명의 일 실시예에 따른 두 번째 및 세 번째 전방향 탐색 절차에 대하여 수행한다.

본 발명의 일 실시예에 따른 두 번째 및 세 번째 전방향 탐색 절차에서는 탐색을 2단계로 구분하여 수행한다는 점에서, 상기 첫 번째 전방향 탐색 절차와 다소 차이가 있지만 그 기본 원리가 다른 것은 아니다. 보다 구체적으로, 두 번째 및 세 번째 전방향 탐색 절차에서는 하나의 탐색 구간(예컨대, 평활 크기 스펙트럼 S_i,j(f)에서 서로 인접한 극소점 사이)을 두 개의 하부 구간으로 나누어서, 각 하부 구간에 대하여 궤적을 달리하여 전방향 탐색을 수행한다. 이러한 탐색 구간은 예컨대, 평활 크기 스펙트럼이 증가하는 제1 하부 구간과 감소하는 제2 하부 구간으로 구분할 수 있다.

수학식 6은 두 번째 전방향 탐색 절차에 따른 탐색 스펙트럼의 일례를 수학적으로 표현한 것이다.

수학식 6

단, 수학식 6에 사용된 기호의 의미는 수학식 4와 같으므로 설명은 생략한다.

수학식 6을 참조하면, 본 발명의 실시예에 따른 두 번째 전방향 탐색 절차에서는 탐색의 전반부(예컨대, 평활 크기 스펙트럼 S_i,j(f)이 증가하는 제1 하부 구간)에는 이전 프레임의 평활 크기 스펙트럼 S_i-1,j(f) 또는 이전 프레임의 탐색 스펙트럼 T_i-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 S_i,j(f)을 이용하여 현재 프레임의 탐색 스펙트럼 T_i,j(f)을 구한다.

반면, 탐색의 후반부(예컨대, 평활 크기 스펙트럼 S_i,j(f)이 감소하는 제2 하부 구간)에는 이전 프레임의 탐색 스펙트럼 T_i-1,j(f)만을 이용하여 현재 프레임의 탐색 스펙트럼 T_i,j(f)을 구한다. 일례로, 수학식 6과 같이 현재 프레임의 탐색 스펙트럼 T_i,j(f)을 이전 프레임의 탐색 스펙트럼 T_i-1,j(f)과 동일하다고 할 수 있다. 다만, 이 경우에는 탐색 스펙트럼 T_i,j(f)이 평활 크기 스펙트럼 S_i,j(f)보다 더 커지게 될 수가 있는데, 탐색 스펙트럼 T_i,j(f)이 평활 크기 스펙트럼 S_i,j(f)이 만나는 이후의 구간에서는 상기 제1 하부 구간에서 사용한 방법과 동일한 방법을 이용하여 탐색 스펙트럼 T_i,j(f)을 업데이트한다. 왜냐하면, 탐색 스펙트럼 T_i,j(f)은 예측된 잡음 성분이기 때문에 평활 크기 스펙트럼 S_i,j(f) 보다 더 클 수는 없기 때문이다.

그리고 전술한 첫 번째 전방향 탐색 절차에서와 마찬가지로, 제1 하부 구간에서 현재 프레임의 탐색 스펙트럼 T_i,j(f)을 계산하는데 있어서 망각 요소(수학식 6에서 κ(j)로 표기)가 사용될 수 있다. 망각 요소는 이전 프레임의 가중된 스펙트럼 U_i-1,j(f)와 현재 프레임의 평활 크기 스펙트럼 S_i,j(f)간의 갱신 정도를 반영하기 위한 것으로써, 예컨대 수학식 5와 같이 정의된 차등적 망각 요소 κ(j)일 수 있다.

이러한 두 번째 전방향 탐색 절차에 따른 탐색 스펙트럼(수학식 6)의 개략적인 모양은 도 3에 도시되어 있다. 도 3에서 가로축은 시간 방향, 즉 프레임 방향을 나타내고 세로축은 크기 스펙트럼(평활 크기 스펙트럼이나 탐색 스펙트럼)을 나타낸다. 그리고 도 3에 도시된 평활 크기 스펙트럼 S_i,j(f)이나 탐색 스펙트럼 T_i,j(f)은 도 2와 마찬가지로 그래프의 개형만을 예시적으로 도시한 것이다.

도 3을 참조하면, 제1 하부 구간, 즉 평활 크기 스펙트럼 S_i,j(f)이 증가하는 구간에서의 수학식 6에 따른 탐색 스펙트럼 T_i,j(f)은, 도 2와 마찬가지로, 평활 크기 스펙트럼 S_i,j(f)의 제1 극소점(P1)에서 출발하여 평활 크기 스펙트럼 S_i,j(f)을 추종하여 증가한다. 그리고 제2 하부 구간, 즉 평활 크기 스펙트럼 S_i,j(f)이 감소하는 구간에서의 수학식 6에 따른 탐색 스펙트럼 T_i,j(f)은, 이전 프레임의 탐색 스펙트럼 T_i-1,j(f)과 동일하므로 기울기가 0인 직선의 형태를 갖는다. 이 경우에도 제1 극대점(P2)에 해당되는 시간(T2) 이후에는 대체적으로 평활 크기 스펙트럼 S_i,j(f)과 탐색 스펙트럼 T_i,j(f)과의 차이는 감소하나 감소 정도는 도 2의 경우보다 낮다. 그리고 평활 크기 스펙트럼 S_i,j(f)의 제2 극소점(P3)에 해당되는 시간(T4) 이전의 임의의 시간(T3)에서 탐색 스펙트럼 T_i,j(f)과 평활 크기 스펙트럼 S_i,j(f)의 크기가 일치하며, 그 이후에는 도 2와 동일하므로 상세한 설명은 생략한다.

이와 같이, 본 발명의 일 실시예에 따른 두 번째 전방향 탐색 절차에서는, 이전 프레임의 평활 크기 스펙트럼 S_i-1,j(f) 또는 이전 프레임의 탐색 스펙트럼 T_i-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 S_i,j(f)을 이용하거나 또는 이전 프레임의 탐색 스펙트럼 T_i-1,j(f)만을 이용하여 현재 프레임의 탐색 스펙트럼 T_i,j(f)을 구한다. 그리고 상기 탐색 스펙트럼 T_i,j(f)은 후속 절차에서 각 서브밴드 단위나 또는 전체 주파수 범위에서 입력 노이지 음성 신호에서 잡음 상태를 예측하거나 또는 잡음의 크기를 추정하는데 이용할 수가 있다.

수학식 7은 세 번째 전방향 탐색 절차에 따른 탐색 스펙트럼의 일례를 수학적으로 표현한 것이다.

수학식 7

단, 수학식 7에 사용된 기호의 의미는 수학식 4와 같으므로 설명은 생략한다.

수학식 7을 참조하면, 본 발명의 실시예에 따른 세 번째 전방향 탐색 절차에서는 전술한 두 번째 전방향 탐색 절차와는 반대로 탐색을 수행한다. 보다 구체적으로, 탐색의 전반부(예컨대, 평활 크기 스펙트럼 S_i,j(f)이 증가하는 제1 하부 구간)에는 이전 프레임의 탐색 스펙트럼 T_i-1,j(f)만을 이용하여 현재 프레임의 탐색 스펙트럼 T_i,j(f)을 구한다. 일례로, 수학식 7과 같이 현재 프레임의 탐색 스펙트럼 T_i,j(f)을 이전 프레임의 탐색 스펙트럼 T_i-1,j(f)과 동일하다고 할 수 있다. 반면, 탐색의 후반부(예컨대, 평활 크기 스펙트럼 S_i,j(f)이 감소하는 제2 하부 구간)에는 이전 프레임의 평활 크기 스펙트럼 S_i-1,j(f) 또는 이전 프레임의 탐색 스펙트럼 T_i-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 S_i,j(f)을 이용하여 현재 프레임의 탐색 스펙트럼 T_i,j(f)을 구한다.

그리고 전술한 첫 번째 및 두 번째 전방향 탐색 절차에서와 마찬가지로, 제2 하부 구간에서 현재 프레임의 탐색 스펙트럼 T_i,j(f)을 계산하는데 있어서 망각 요소(수학식 7에서 κ(j)로 표기)가 사용될 수 있다. 망각 요소는, 예컨대 수학식 5와 같이, 서브밴드 인덱스에 따라서 값이 변하는 차등적 망각 요소일 수 있다.

이러한 세 번째 전방향 탐색 절차에 따른 탐색 스펙트럼(수학식 7)의 개략적인 모양은 도 4에 도시되어 있다. 도 4에서 가로축은 시간 방향, 즉 프레임 방향을 나타내고 세로축은 크기 스펙트럼(평활 크기 스펙트럼이나 탐색 스펙트럼)을 나타낸다. 그리고 도 4에 도시된 평활 크기 스펙트럼 S_i,j(f)이나 탐색 스펙트럼 T_i,j(f)도 도 2 및 도 3과 마찬가지로 그래프의 개형만을 예시적으로 도시한 것이다.

도 4를 참조하면, 제1 하부 구간, 즉 평활 크기 스펙트럼 S_i,j(f)이 증가하는 구간에서의 수학식 7에 따른 탐색 스펙트럼 T_i,j(f)은 이전 프레임의 탐색 스펙트럼 T_i-1,j(f)과 동일하므로 기울기가 0인 직선의 형태를 갖는다. 그 결과, 탐색의 초기 단계, 예컨대 제1 극소점(P1)에 해당되는 시간(T1)에서부터 평활 크기 스펙트럼 S_i,j(f)의 제1 극대점(P2)에 해당되는 시간(T2)까지는, 대체적으로 평활 크기 스펙트럼 S_i,j(f)과 탐색 스펙트럼 T_i,j(f)과의 차이는 증가한다. 그리고 차이의 증가율도 도 2나 도 3의 경우보다 크다.

그리고 제2 하부 구간, 즉 평활 크기 스펙트럼 S_i,j(f)이 감소하는 구간에서의 수학식 7에 따른 탐색 스펙트럼 T_i,j(f)은, 평활 크기 스펙트럼 S_i,j(f)의 제1 극소점(P1)에서 출발하여 평활 크기 스펙트럼 S_i,j(f)을 추종하여 증가한다. 이 경우에도 제1 극대점(P2)에 해당되는 시간(T2) 이후에는 대체적으로 평활 크기 스펙트럼 S_i,j(f)과 탐색 스펙트럼 T_i,j(f)과의 차이는 감소한다. 그리고 평활 크기 스펙트럼 S_i,j(f)의 제2 극소점(P3)에 해당되는 시간(T4) 이전의 임의의 시간(T3)에서 탐색 스펙트럼 T_i,j(f)과 평활 크기 스펙트럼 S_i,j(f)의 크기가 일치하며, 그 시간(T3) 이후에는, 상기 탐색 스펙트럼 T_i,j(f)은 평활 크기 스펙트럼 S_i,j(f)을 추종하여 상기 제2 극소점(P3)에 해당되는 시간(T4)까지 그 값이 감소한다.

이와 같이, 본 발명의 일 실시예에 따른 세 번째 전방향 탐색 절차에서는 이전 프레임의 평활 크기 스펙트럼 S_i-1,j(f) 또는 이전 프레임의 탐색 스펙트럼 T_i-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 S_i,j(f)을 이용하거나 또는 이전 프레임의 탐색 스펙트럼 T_i-1,j(f)만을 이용하여 현재 프레임의 탐색 스펙트럼 T_i,j(f)을 구한다. 상기 탐색 스펙트럼 T_i,j(f)은, 각 서브밴드별로 또는 전체 주파수 범위에서 입력 노이지 음성 신호에서 잡음이 차지하는 비율을 예측하거나 또는 잡음의 크기를 추정하는데 이용할 수가 있다.

계속해서 도 1을 참조하면, 전방향 탐색 단계의 결과로 구한 탐색 스펙트럼 T_i,j(f)과 평활 크기 스펙트럼 S_i,j(f)을 이용하여 식별비를 계산한다(S14). 식별비는, 입력 노이지 음성 신호의 잡음 상태를 판별하기 위한 것으로써, 입력 노이지 음성 신호에서 잡음 신호가 차지하는 비율을 나타내는 것일 수 있다. 이러한 식별비를 이용하면, 현재 프레임이 잡음 우세 프레임(Noise Dominant Frame)인지 또는 음성 우세 프레임(Speech Dominat Frame)인지를 판단하거나 또는 입력 노이지 음성 신호에서 잡음 유사 영역(Noise-like Region)과 음성 유사 영역(Speech-like Region)을 구분할 수가 있다.

상기 식별비는 전체 주파수 범위에 대하여 계산되거나 또는 서브밴드 단위로 계산될 수 있다. 전체 주파수 범위에 대하여 계산할 경우에, 각 서브밴드별 탐색 스펙트럼 T_i,j(f)과 평활 크기 스펙트럼 S_i,j(f)을 각각 소정의 가중치를 부여하여 먼저 합한 다음에 식별비를 계산하거나 또는 각 서브밴드별로 식별비를 먼저 계산한 다음에 상기 서브밴드별 식별비를 소정의 가중치를 부여하여 합할 수도 있다.

식별비를 정확하게 계산하기 위해서는 입력 노이지 음성 신호에서 잡음 신호만을 추출해낼 수 있어야 한다. 그러나 음성과 잡음이 공존하는 노이지 음성 신호가 단일 채널을 통해 입력되는 경우에는 현실적으로 입력 신호에서 잡음 신호만을 추출할 수가 없다. 따라서 본 발명의 실시예에서는 이러한 식별비를 계산하기 위하여, 실제 잡음 신호가 아니라 전술한 탐색 스펙트럼 T_i,j(f), 즉 예측된 잡음 스펙트럼을 이용한다.

따라서 본 발명의 실시예에 의하면, 상기 식별비는 입력 노이즈 음성 신호의 크기, 즉 평활 크기 스펙트럼 S_i,j(f)에 대한 탐색 스펙트럼 또는 예측된 잡음 스펙트럼 T_i,j(f)의 비율로 계산할 수 있다. 다만, 잡음 신호의 크기는 원 입력 신호보다 클 수가 없기 때문에 상기 식별비는 1보다 클 수 없으며, 이러한 경우에는 상기 식별비를 1로 할 수 있다.

이와 같이 본 발명의 실시예에 따라서 식별비를 정의할 경우에, 잡음의 상태는 다음과 같이 판별할 수 있다. 예컨대, 상기 식별비가 1에 근접할 경우에 해당 프레임은 잡음 유사 영역에 포함되거나 또는 잡음 우세 프레임에 해당된다. 그리고 상기 식별비가 0에 근접할 경우에는 해당 프레임은 음성 유사 영역에 포함되거나 또는 음성 우세 프레임에 해당된다.

본 발명의 실시예와 같이 탐색 스펙트럼 T_i,j(f)을 이용하여 식별비를 구하면, 여러 개의 과거 프레임에 대한 정보가 필요 없어서 대용량의 메모리가 요구되지 않으며 또한 계산량도 많지 않은 장점이 있다. 또한, 탐색 스펙트럼 T_i,j(f)(특히, 수학식 4의 탐색 스펙트럼)은 입력 노이지 음성 신호의 잡음 성분을 적응적으로 반영하기 때문에, 잡음 상태의 판별이나 잡음 추정의 정확도가 높다.

수학식 8은 본 발명의 실시예에 따른 식별비 φ_i(j)의 일례를 보여 주는 계산식으로써, 이에 의하면 식별비가 각 서브밴드별로 계산된다. 수학식 8을 참조하면, j번째 서브밴드에서의 식별비 φ_i(j)는 해당 서브밴드에서의 평활 크기 스펙트럼의 합에 대한 탐색 스펙트럼과 평활 크기 스펙트럼 중에서 크기가 작은 스펙트럼의 합 사이의 비임을 알 수 있다. 따라서 식별비 φ_i(j)는 0이상이지만 그 값은 1보다 클 수는 없다.

수학식 8

여기서 i는 프레임 인덱스이고, j(0≤j<J<L)는 전체 주파수 2^L에서 서브밴드(SB) 사이즈(=2^L-J)로 나눈 서브밴드 인덱스인데, J와 L은 각각 전체 서브밴드의 개수와 전체 주파수 위치 개수를 결정짓는 자연수이다. 그리고 T _i,j (f)는 전방향 탐색 절차에 따른 예측된 잡음 스펙트럼 또는 탐색 스펙트럼이고, S _i,j (f)는 수학식 3에 따른 평활 크기 스펙트럼이다. 그리고 min(a, b)는 a와 b 중에서 더 작은 값을 가리킨다.

그리고 식별비 φ_i(j)를 수학식 8과 같이 정의하는 경우에, 수학식 4, 6, 및 7에서의 가중된 평활 크기 스펙트럼 U_i,j (f)은 다음의 수학식 9와 같이 나타낼 수 있다.

수학식 9

도 5는 단계(S14)에서 구한 식별비 φ_i(j)를 이용하여 잡음의 상태를 판별하는 과정의 일례를 설명하기 위한 도면이다. 도 5에서 가로축은 시간 방향, 즉 프레임의 진행 방향을 나타내고, 세로축은 식별비 φ_i(j)를 나타낸다. 그리고 도 5의 식별비 φ_i(j)의 그래프는 도 2에 도시된 j번째 서브밴드에 대한 평활 크기 스펙트럼 S _i,j (f)과 탐색 스펙트럼 T_i,j (f)을 수학식 9에 적용하여 구한 값을 개략적으로 나타낸 것이다. 따라서 도 5에 표시되어 있는 시간 T1, T2, T3, 및 T4은 각각 도 2에 표시되어 있는 시간에 대응한다.

도 5를 참조하면, 식별비 φ_i(j)는 임의의 식별비 임계치(threshold value) φ_th를 기준으로 두 부분으로 구분된다. 여기서 식별비 임계치 φ_th는 0과 1 사이, 보다 구체적으로는 0.3과 0.7 사이의 임의의 값일 수 있는데, 예컨대 식별비 임계치 φ_th는0.5가 될 수 있다. 그리고 시간 T_a와 시간 T_b 사이와 시간 T_c와 시간 T_d 사이(빗금친 영역)에서는 식별비 φ_i(j)가 상기 식별비 임계치 φ_th보다 크지만, 시간 T_a 이전, 시간 T_b와 시간 T_c 사이, 및 시간 T_d 이후에서는 식별비 φ_i(j)가 상기 식별비 임계치 φ_th보다 작다. 본 발명의 실시예에 의하면, 식별비 φ_i(j)는 평활 크기 스펙트럼 S_i,j(f)에 대한 탐색 스펙트럼 T_i,j(f)의 비율로 정의되므로, 식별비 φ_i(j)가 식별비 임계치 φ_th이상인 시간(프레임)은 잡음 유사 영역(프레임)이라고 판별할 수 있고, 식별비 φ_i(j)가 식별비 임계치 φ_th이상인 시간(프레임)은 음성 유사 영역(프레임)이라고 판별할 수 있다.

본 실시예의 다른 측면에 의하면, 단계 S14에서 구한 식별비 φ_i(j)는 음성 인식을 위한 VAD로 이용할 수도 있다. 예를 들어, 단계 S14에서 구한 식별비 φ_i(j)가 소정의 임계치 이하인 경우에만 음성 신호가 있는 것으로 간주하고, 상기 식별비 φ_i(j)가 소정의 임계치 이상인 경우에는 음성 신호가 없는 것으로 간주할 수 있다.

이상에서 상세하게 설명한 본 발명의 실시예에 따른 입력 노이지 음성 신호의 잡음 상태를 판별하기 위한 절차는 적어도 다음과 같은 두 가지의 특징을 갖는다.

첫째, 본 발명의 실시예에 의하면 탐색 스펙트럼 T_i,j(f)을 이용하여 잡음 상태를 판별하기 때문에, 기존의 VAD 방법 등과는 달리, 여러 개의 잡음 프레임이나 긴 과거 프레임에서 나타나는 정보를 이용하지 않는다. 대신에, 본 발명의 실시예에 의하면, 현재 프레임 또는 현재 프레임에서 나뉜 둘 이상의 서브밴드 각각에서 전방향 탐색 방법을 이용하여 탐색 스펙트럼 T_i,j(f)을 구하고 또한 이를 이용하여 구한 식별비 φ_i(j)만을 이용하여 잡음의 상태를 판별할 수 있다. 따라서 본 발명의 실시예에 의하면, 기존의 방법에 비하여 계산량이 현저히 적을 뿐만 아니라 대용량의 메모리도 필요 없으므로, 실제 하드웨어나 소프트웨어로 구현하기가 용이하다.

둘째, 본 발명의 실시예에 의하면, 잡음의 레벨 변화가 크거나 또는 잡음 환경이 변화하는 등과 같이 비정적인 잡음 환경에서도 잡음의 상태를 빨리 판별할 수가 있다. 왜냐하면, 본 발명의 실시예에서는 전방향 탐색을 이용하여 탐색 스펙트럼 S_i,j(f)을 구하며, 또한 이러한 탐색 스펙트럼을 구하는데 있어서 적응적으로 변화하는 여러 가지 값들, 예컨대 차등적 망각 요소 κ(j), 가중된 평활 크기 스펙트럼 U_i,j(f), 및/또는 식별비 φ_i(j)가 적용되기 때문이다.

제2 실시예

다음으로 본 발명의 제2 실시예에 따른 노이지 음성 신호의 처리 절차로써, 입력 노이지 음성 신호에 대한 잡음 추정 절차에 대하여 설명한다.

도 6은 본 발명의 일 실시예에 따른 입력 노이지 음성 신호에 대한 잡음 추정 절차를 보여 주는 흐름도이다. 도 6을 참조하면, 본 발명의 제2 실시예에 따른 잡음 추정 절차는 입력 노이지 음성 신호에 대한 퓨리에 변환 단계(Fourier Transform, S21), 크기 평활화 단계(Magnitude Smoothing, S22), 전방향 탐색 단계(Forward Searching, S23), 및 적응적 잡음 추정 단계(Adaptive Noise Estimation, S24)를 포함한다. 여기서 상기 단계 S21 내지 S23은, 도 1을 참조하여 전술한 본 발명의 제1 실시예에 따른 잡음 상태의 판별 절차의 단계 S11 내지 S13과 동일한 과정이 이용될 수 있으므로, 이하에서는 전술한 제1 실시예에서 상세하게 설명하지 않은 부분을 중심으로 설명한다.

도 6을 참조하면, 우선 입력 노이지 음성 신호 y(n)에 대한 퓨리에 변환(Fourier Transform)을 수행한다(S21). 퓨리에 변환의 결과, 입력 노이지 음성 신호 y(n)는 퓨리에 스펙트럼(Fourier Spectrum, FS) Y _i,j (f)으로 근사화될 수 있다.

다음으로, 퓨리에 스펙트럼 Y _i,j (f)에 대한 평활화(smoothing) 과정을 수행한다(S22). 평활화 단계는 전체 퓨리에 스펙트럼에 대하여 수행하거나 또는 각 서브밴드 단위로 수행할 수도 있다. 퓨리에 스펙트럼 Y _i,j (f)에 대한 크기 평활화 단계의 적용 결과, 평활 크기 스펙트럼(smoothed magnitude spectrum) S _i,j (f)이 출력된다.

다음으로, 출력되는 평활 크기 스펙트럼 S _i,j (f)에 대한 전방향 탐색을 수행한다(S23). 전방향 탐색 절차는 한 프레임 전체 또는 한 프레임에서 나뉜 여러 서브밴드 단위로 평활 크기 스펙트럼에 존재하는 잡음의 상태를 예측하기 위한 것으로써, 예시적인 절차이다. 즉, 본 발명의 제2 실시예에서 잡음의 상태를 예측하는데 있어서, 반드시 전방향 탐색 절차가 이용될 필요는 없으며, 기존의 어떠한 방법이라도 이용될 수 있다. 본 발명의 실시예에 따른 전방향 탐색 절차에서는 수학식 4, 수학식 6, 또는 수학식 7을 이용할 수 있으며, 그 결과 탐색 스펙트럼 T_i,j(f)이 얻어질 수 있다.

계속해서 도 6을 참조하면, 전방향 탐색이 완료되면 잡음 추정 절차를 수행한다(S24). 전술한 바와 같이, 단일 채널을 통해 입력되는 노이지 음성 신호에서 잡음 성분만을 분리하여 추출할 수는 없으므로, 본 단계의 잡음 추정 과정은 상기 입력 노이지 음성 신호에 포함되어 있는 잡음 성분 또는 그것의 크기를 예측하는 과정이라고 할 수 있다.

보다 구체적으로, 본 발명의 실시예에서는 탐색 스펙트럼 T_i,j(f)을 이용하여 정의되는 적응적 망각 요소 λ_i(j)를 이용한 순환 평균 기법을 이용하여 잡음 스펙트럼 또는 잡음 신호의 크기

를 추정한다. 예컨대, 현재 프레임의 평활 크기 스펙트럼 S_i,j(f)과 직전 프레임의 잡음 스펙트럼의 크기

에 적응적 망각 요소 λ_i(j)를 적용한 순환 평균 기법으로 잡음 스펙트럼

을 업데이트할 수 있다.

그리고 본 발명의 실시예에 의하면, 잡음 추정 단계 S24는 전체 주파수 범위에 대하여 일괄적으로 수행되거나 또는 서브밴드 단위로 수행될 수 있다. 후자의 경우에, 적응적 망각 요소 λ_i(j)는 서브밴드 별로 그 값이 달라질 수 있다. 잡음 성분, 특히 뮤지컬 잡음은 고주파 밴드에 많이 발생하므로, 서브밴드별로 적응적 망각 요소 λ_i(j)를 달리하면 잡음의 특성에 따른 효율적인 잡음 추정이 가능하다.

본 실시예의 일 측면에 의하면, 상기 적응적 망각 요소 λ_i(j)는 전방향 탐색의 결과로 구한 탐색 스펙트럼 T_i,j(f)을 이용하여 구할 수 있지만, 본 실시예가 여기에만 한정되는 것은 아니다. 즉, 본 실시예에 따른 잡음 추정 절차에서 이용될 수 있는 적응적 망각 요소 λ_i(j)는 전방향 탐색 단계(S23)에서 구한 탐색 스펙트럼 T_i,j(f)이 아닌 지금까지 알려진 방법이나 이후에 새로 개발될 다른 방법으로 예측한 잡음 상태를 나타내기 위한 탐색 스펙트럼이나 예측 잡음 스펙트럼 등을 이용하여 구할 수도 있다.

본 발명의 일 실시예에 의하면, 현재 프레임의 평활 크기 스펙트럼 S_i,j(f)과 이전 프레임의 추정된 잡음 스펙트럼

을 이용한 가중 평균 기법으로 현재 프레임의 잡음 신호, 예컨대 현재 프레임의 잡음 스펙트럼

을 구한다. 다만, 본 발명의 실시예에서는 고정된 망각 요소를 사용하는 종래의 가중 평균 기법과는 달리, 시간에 따른 잡음의 변화가 반영되며 또한 서브밴드별로 가중치가 달라지는 적응적 망각 요소 λ_i(j)를 사용하여 잡음 스펙트럼을 구한다. 이러한 본 발명의 실시예에 따른 잡음 추정 절차는 수학식 10으로 표현할 수 있다.

수학식 10

본 실시예의 다른 측면에 의하면, 현재 프레임이 잡음 유사 프레임인 경우에는, 수학식 10과 같이, 현재 프레임의 평활 크기 스펙트럼 S_i,j(f)과 이전 프레임의 추정된 잡음 스펙트럼

을 이용한 가중 평균 기법으로 현재 프레임의 잡음 스펙트럼

을 구할 수 있다. 그리고 현재 프레임이 음성 유사 프레임인 경우에는, 이전 프레임의 추정된 잡음 스펙트럼

만을 이용하여 현재 프레임의 잡음 스펙트럼

을 구할 수 있다. 이러한 경우에는 상기 수학식 10에서 적응적 망각 요소 λ_i(j)가 0이 되는 경우에 해당되며, 그 결과 현재 프레임의 잡음 스펙트럼

은 이전 프레임의 잡음 스펙트럼

과 동일하게 된다.

특히, 본 발명의 실시예에 의하면, 상기 적응적 망각 요소 λ_i(j)는 단계 S23에서 구한 탐색 스펙트럼 T_i,j(f)을 이용하여 지속적으로 업데이트될 수 있다. 예를 들어, 적응적 망각 요소 λ_i(j)는 전술한 제1 실시예의 단계 S14에서 구한 식별비 φ_i(j), 즉 평활 크기 스펙트럼 S_i,j(f)에 대한 탐색 스펙트럼 T_i,j(f)의 비를 이용하여 구할 수 있다. 이 경우에, 적응적 망각 요소 λ_i(j)는 상기 식별비 φ_i(j)에 선형적으로 또는 비선형적으로 비례하도록 설정할 수 있다. 이러한 본 발명의 실시예는 이전 프레임의 추정된 잡음 신호를 이용하여 망각 요소를 적응적으로 업데이트하는 것과도 다르다.

그리고 본 실시예의 일 측면에 의하면, 상기 적응적 망각 요소 λ_i(j)는 서브 밴드 인덱스에 따라서 값이 변할 수 있다. 서브 밴드 별로 적응적 망각 요소 λ_i(j)의 크기를 달리하면, 일반적으로 저주파 영역에서는 음성 신호인 유성음이 대부분을 차지하고, 고주파 영역에서는 잡음 신호인 무성음이 대부분을 차지한다는 특성을 잡음 추정에 반영할 수 있다. 예를 들어, 상기 적응적 망각 요소 λ_i(j)는 저주파 영역에서는 그 값이 작지만 고주파 영역에서는 그 값이 점점 증가하도록 할 수 있다. 이 경우에, 현재 프레임의 잡음 스펙트럼

을 구할 때 현재 프레임의 평활 크기 스펙트럼 S_i,j(f)의 반영 비율을 저주파 영역에 비하여 고주파 영역에서 크게 하고, 반대로 이전 프레임의 추정된 잡음 스펙트럼

의 반영 비율은 고주파 영역에 비하여 저주파 영역에서 크게 되도록 할 수 있다. 이를 위하여, 상기 적응적 망각 요소 λ_i(j)는 서브 밴드 인덱스에 따라서 그 값이 차등적으로 부여되도록 하는 레벨 조정자 ρ(j)를 이용하여 표현할 수 있다.

수학식 11과 수학식 12는 전술한 본 발명의 실시예에 따른 적응적 망각 요소 λ_i(j)와 레벨 조정자 ρ(j)의 일례를 수학적으로 표현한 것이다.

수학식 11

수학식 12

여기서, i, j는 각각 프레임 인덱스 및 서브밴드 인덱스를 가리킨다. φ_i(j)는 잡음 상태를 판별하기 위한 식별비로써 예컨대, 수학식 8에 정의된 값일 수 있다. 그리고 φ_th (0 < φ_th < 1)는 입력 노이즈 음성 신호의 잡음 상태에 따라 잡음 유사 서브밴드 또는 음성 유사 서브밴드로 구분하기 위한 임계치로써, 0.3에서 0.7 사이의 값, 예컨대 0.5일 수 있다. 예컨대, φ_i(j)가 φ_th 보다 크면 해당 서브밴드에서는 잡음 유사 서브밴드인 것을 의미하고, 반대로 φ_i(j)가 φ_th 보다 작으면 해당 서브밴드에서는 음성 유사 서브밴드인 것을 의미한다. 그리고 b_s와 b_e는 0 ≤ b_s ≤ ρ_i(j) < b_e < 1의 관계가 성립하는 임의의 상수이다.

도 7은 수학식 12의 레벨 조정자 ρ(j)를 서브밴드 인덱스 j의 함수로 도시한 것이다. 도 7을 참조하면, 레벨 조정자 ρ_i(j)는 서브밴드 인덱스 j에 따라 그 값이 달라진다는 것을 알 수 있는데, 이러한 레벨 조정자 ρ_i(j)는 수학식 11에 따라서 망각 요소 λ_i(j)의 값이 서브밴드 인덱스 j에 따라 달라지도록 한다. 예를 들어, 레벨 조정자 ρ_i(j)는 저주파 영역에서는 그 값이 작지만, 서브밴드 인덱스가 증가할수록 ρ_i(j)도 증가한다. 이에 의하면, 잡음 추정(수학식 10 참조)에 있어서 저주파 영역 보다는 고주파 영역에서 입력 노이지 음성 신호가 반영되는 비율이 더 크다.

수학식 11을 참조하면, 적응적 망각 요소 λ_i(j)(0 < λ_i(j) < ρ_i(j))는 서브밴드에 포함된 잡음 상태의 변화, 즉 식별비 φ_i(j)에 따라서 가변하는 적응적 망각 요소이다. 식별비 φ_i(j)는, 본 발명의 제1 실시에와 같이, 서브밴드 인덱스에 따라서 값이 적응적으로 변할 수 있지만, 본 실시예가 이러한 경우로 한정되는 것은 아니다. 그리고 전술한 바와 같이, 레벨 조정자 ρ_i(j)는 서브밴드 인덱스에 따라서 값이 증가한다. 따라서 본 발명의 실시예에 의하면, 적응적 망각 요소 λ_i(j)는 잡음 상태와 서브밴드 인덱스에 따라서 적응적으로 변한다.

수학식 8과 수학식 10 내지 수학식 12에 의할 경우에, 본 발명의 제2 실시예에 따른 잡음 추정 절차는 다음과 같이 보다 구체적으로 설명될 수 있다. 단, 설명의 편의를 위하여 레벨 조정자 ρ_i(j)와 식별비 임계치 φ_th는 해당 서브밴드에서 각각 0.2 및 0.5라고 가정한다.

우선, 식별비 φ_i(j)가 상기 식별비 임계치 φ_th인 0.5보다 작거나 같은 경우에, 수학식 11에 의하면 적응적 망각 요소 λ_i(j)는 0이 된다. 식별비 φ_i(j)가 0.5 보다 작은 구간은 음성 유사 영역이라고 할 수 있으므로, 이러한 구간에서는 노이지 음성 신호에서 음성 성분의 비중이 상대적으로 높다. 따라서 수학식 10에 의할 경우에, 이러한 음성 유사 영역에서는 잡음 추정의 갱신을 수행하지 않는다. 즉, 현재 프레임의 잡음 스펙트럼과 이전 프레임의 잡음 스펙트럼이 동일하다(

=

).

그리고 식별비 φ_i(j)가 상기 식별비 임계치 φ_th인 0.5보다 큰 경우, 예컨대 식별비 φ_i(j)가 1인 경우에, 수학식 11 및 12에 의하면 적응적 망각 요소 λ_i(j)는 0.2이 된다. 식별비 φ_i(j)가 0.5 보다 큰 구간은 잡음 유사 영역이라고 할 수 있으므로, 이러한 구간에서는 노이지 음성 신호에서 잡음 성분의 비중이 상대적으로 높다. 따라서 수학식 10에 의할 경우에, 이러한 잡음 유사 영역에서는 잡음 추정의 갱신을 수행한다(

= 0.2ㅇS_i,j(f) + 0.8ㅇ

).

이상에서 상세하게 설명한 바와 같이, 본 발명의 제2 실시예에 따른 잡음 추정 방법에서는 잡음의 변화에 상관없이 프레임별로 고정된 망각 요소를 적용하는 기존의 WA 기법 대신에, 서브밴드에 존재하는 잡음의 상태에 따라 그 값이 변하는 적응적 망각 요소를 적용하여 잡음을 추정한다. 그리고 잡음 성분의 비중이 상대적으로 높은 잡음 유사 영역에서는 추정된 잡음의 업데이트가 지속적으로 이루어지지만, 음성 성분의 비중이 상대적으로 높은 음성 유사 영역에서는 업데이트를 하지 않는다. 따라서 본 발명의 실시예에 의하면, 잡음의 변화에 따라서 잡음 추정과 업데이트를 효율적으로 수행할 수가 있다.

그리고 본 실시예의 일 측면에 의하면, 상기 적응적 망각 요소는 입력 노이지 음성 신호의 잡음 상태에 따라서도 그 값이 달라질 수 있다. 예컨대, 상기 적응적 망각 요소는 식별비 φ_i(j)의 값에 비례할 수가 있으며, 이와 같은 경우에는 잡음 성분이 더 많은 비중을 차지할수록 입력 노이지 음성 신호를 더 많이 반영함으로써, 잡음 추정의 정확도를 향상시킬 수가 있다.

또한, 본 실시예의 다른 측면에 의하면, 기존의 VAD 기반 방법이나 MS 알고리즘이 아닌 전술한 제1 실시예에 따른 전방향 탐색으로 구한 식별비 φ_i(j)를 이용하여 잡음 추정을 수행할 수가 있다. 그 결과, 본 실시예에서는 잡음 추정에 있어서 상대적으로 계산량이 적을 뿐만 아니라 요구되는 메모리의 용량도 크기 않기 때문에, 실제 하드웨어나 소프트웨어로 구현하기가 용이하다.

제3 실시예

다음으로 본 발명의 제3 실시예에 따른 노이지 음성 신호의 처리 절차로써, 입력 노이지 음성 신호에 대한 음질 개선 절차에 대하여 설명한다.

도 8은 본 발명의 일 실시예에 따른 입력 노이지 음성 신호에 대한 잡음 추정 절차를 보여 주는 흐름도이다. 도 8을 참조하면, 본 발명의 제3 실시예에 따른 음질 개선 절차는 입력 노이지 음성 신호에 대한 퓨리에 변환 단계(Fourier Transform, S31), 크기 평활화 단계(Magnitude Smoothing, S32), 전방향 탐색 단계(Forward Searching, S33), 적응적 잡음 추정 단계(Adaptive Noise Estimation, S34), 상대 크기 차이(Relative Magnitude Difference, RMD) 계산 단계(RMD Measure, S35), 개선된 비선형 구조의 과중 이득 함수 계산 단계(Calculation of Modified Overweighting Gain Function with Nonlinear Structure, S36), 및 변형된 스펙트럼 차감 단계(Modified Spectral Subtraction, S37)를 포함한다.

여기서 상기 단계 S31 내지 S34는, 도 6을 참조하여 전술한 본 발명의 제2 실시예에 따른 잡음 추정 절차의 단계 S21 내지 S24와 동일한 과정이 이용될 수 있으므로, 이하에서는 전술한 제2 실시예에서 상세하게 설명하지 않은 부분을 중심으로 설명한다. 다만, 본 발명의 제3 실시예의 여러 가지 특징들 중의 하나는 추정된 잡음 스펙트럼을 이용하여 상기 단계 S35 및 S36을 수행하는 것이므로, 상기 단계 S31 내지 S34까지는 기존의 잡음 추정 절차로 대체되는 것을 배제하지는 않을 수도 있다.

도 8을 참조하면, 우선 입력 노이지 음성 신호 y(n)에 대한 퓨리에 변환(Fourier Transform)을 수행한다(S31). 퓨리에 변환의 결과, 입력 노이지 음성 신호 y(n)는 퓨리에 스펙트럼(Fourier Spectrum, FS) Y _i,j (f)으로 근사화될 수 있다.

다음으로, 퓨리에 스펙트럼 Y _i,j (f)에 대한 평활화(smoothing) 과정을 수행한다(S32). 평활화 단계는 전체 퓨리에 스펙트럼에 대하여 수행하거나 또는 각 서브밴드 단위로 수행할 수도 있다. 퓨리에 스펙트럼 Y _i,j (f)에 대한 크기 평활화 단계의 적용 결과, 평활 크기 스펙트럼(smoothed magnitude spectrum) S _i,j (f)이 출력된다.

다음으로, 출력되는 평활 크기 스펙트럼 S _i,j (f)에 대한 전방향 탐색을 수행한다(S33). 전방향 탐색 절차는 한 프레임 전체 또는 한 프레임에서 나뉜 여러 서브밴드 단위로 평활 크기 스펙트럼에 존재하는 잡음의 상태를 예측하기 위한 것으로써, 예시적인 절차이다. 즉, 본 발명의 제3 실시예에서 잡음의 상태를 예측하는데 있어서, 반드시 전방향 탐색 절차가 이용될 필요는 없으며, 기존의 어떠한 방법이라도 이용될 수 있다. 이하에서는, 수학식 4, 수학식 6, 또는 수학식 7을 이용하여 구한 탐색 스펙트럼 T_i,j(f)을 이용하는 경우에 대해서만 설명한다.

다음으로, 전방향 탐색을 통해서 구한 탐색 스펙트럼 T_i,j(f)을 이용하여 잡음을 추정한다(S34). 본 실시예의 일 측면에 의하면, 서브밴드 별로 차등적 값을 갖는 적응적 망각 요소 λ_i(j)를 구하고 또한 상기 적응적 망각 요소가 적용된 가중 평균 기법에 따라서 적응적으로 잡음을 추정할 수 있다. 이를 위하여, 현재 프레임의 평활 크기 스펙트럼 S_i,j(f)과 이전 프레임의 추정된 잡음 스펙트럼

을 구할 수 있다(수학식 10, 11, 및 12 참조).

다음으로 단계 S36에서의 변형된 스펙트럼 차감 절차를 수행하기 위한 예비 단계로 상대 크기 차이(RMD) γ_i(j)를 계산한다(S35). 상대 크기 차이 γ_i(j)는 서브밴드에 걸쳐서 존재하는 노이지 음성 신호와 잡음 신호 사이의 상대적 차이를 나타내기 위한 것으로써, 이를 이용하면 뮤지컬 잡음의 잔재를 억제할 수 있는 과중 이득 함수 ψ_i(j)를 얻기 위해서 사용된다. 프레임에서 둘 이상으로 나눈 서브밴드는 차등적 가중치를 적용하기 위하여 도입되었다.

수학식 13

수학식 13은 기존의 방법에 따른 상대 크기 차이(RMD) γ_i(j)를 나타내는 식으로써, SB와 j는 각각 서브밴드 사이즈와 서브밴드 인덱스를 가리킨다. 그리고 수학식 13은 단계 S32의 크기 평활화 절차가 적용되지 않은 경우를 나타낸다는 점에서, 본 발명의 실시예와 차이가 있다. 이 경우에, Y_i,j(f)와 X_i,j(f)는 각각 평활화 절차 이전의 퓨리에 변환된 노이지 음성 스펙트럼과 순수 음성 스펙트럼을 나타내고, 수학식 13의

는 평활화 절차가 생략된 신호를 이용하여 구한 추정된 잡음 스펙트럼을 나타낸다.

수학식 13에서, 상대 크기 차이 γ_i(j)가 1에 가까우면 이 서브밴드는 개선된 음성에 뮤지컬 잡음이 상대적으로 적게 관찰되는 음성 유사 서브밴드를 나타낸다. 반대로 상대 크기 차이 γ_i(j)가 0에 가까우면 이 서브밴드는 개선된 음성에 뮤지컬 잡음이 상대적으로 적게 관찰되는 잡음 유사 서브밴드를 나타낸다. 또한 상대 크기 차이 γ_i(j)가 1이면 이 서브밴드에서는

으로 되기 때문에 완전한 잡음 서브밴드를 나타낸다. 반대로 상대 크기 차이 γ_i(j)가 0이면 이 서브밴드는

이기에 완전한 음성 서브밴드를 나타낸다. 그러나 종래의 방법에 의하면, 단일 채널에서 비정적인 잡음에 오염된 노이지 음성 신호의 크기

로부터 잡음 추정을 정확하게 수행하는 것은 어렵기 때문에 상대 크기 차이 γ_i(j)를 정확하게 구하는 것 또한 쉽지가 않다.

따라서 본 발명의 실시예에서는 보다 정확한 상대 크기 차이 γ_i(j)를 구하기 위하여 단계 S34에서 구한 추정된 잡음 스펙트럼

과 max (S_i,j(f),

)를 사용한다. 수학식 14는 본 발명의 실시예에 따른 상대 크기 차이 γ_i(j)를 나타내는 식이다. 수학식 14에서 max (a, b)는 a와 b 중에서 더 큰 값을 나타내는 함수이다. 일반적으로, 잡음 신호는 이를 포함하는 노이지 음성 신호보다 클 수가 없기 때문에 잡음이 오염된 음성보다 큰 경우는 발생하지 않으며, 따라서 max (S_i,j(f),

)가 사용되는 것은 타당하다.

수학식 14

다음으로, 상대 크기 차이 γ_i(j)를 이용하여 변형된 비선형 구조의 과중 이득 함수를 구한다(S36). 수학식 15는 본 발명의 실시예에 따른 변형된 비선형 구조의 과중이득 함수 ζ_i(j)를 구하기 위한 전제 단계로써 구해야 하는 기존의 비선형 구조의 과중이득 함수 ψ_i(j)를 보여 주는 식이다. 여기서, η는 서브밴드에 존재하는 음성의 양과 잡음의 양이 같을 경우의 상대 크기 차이 γ_i(j)의 값으로써, 수학식 14에 의하면 그 값은

이다(

). 그리고 ξ은 기존의 과중이득 함수 ψ_i(j)의 최대치를 설정하기 위한 레벨조정 상수이고, τ는 기존의 과중 이득 함수 ψ_i(j)의 형태를 변형하기 위한 멱지수(exponent)이다.

수학식 15

그런데, 일상에서 발생하는 대부분의 유색 잡음은 고주파 대역에 비해 저주파 대역에서 많은 에너지를 형성한다. 따라서 본 발명의 실시예에서는 유색 잡음의 특성을 고려하여 주파수 밴드별 차등적으로 적용되는 개선된 비선형 구조의 과중이득 함수 ζ_i(j)를 제안한다. 수학식 16은 본 발명의 실시예에 따른 변형된 과중이득 함수 ζ_i(j)를 나타내는 식이다. 기존의 과중이득 함수 ψ_i(j)는 저주파 대역에 낮은 이득을 할당하고 고주파 대역에 높은 이득을 할당하여, 무성음의 감쇠 효과를 보다 적게 줄이기 위함이다. 반대로, 수학식 16의 변형된 과중이득 함수 ζ_i(j)는 고주파 대역에 비해 저주파 대역에 높은 이득이 할당되도록 하기 때문에, 저주파 대역에서 잡음의 효과를 보다 많이 감쇠시킬 수가 있다.

수학식 16

여기서, m_s (m_s > 0)와 m_e (m_e < 0, m_s> m_e)는 각각 개선된 과중이득 함수 ζ_i(j)의 레벨을 조정하기 위한 임의의 상수이다.

도 9는 상대 크기 차이 γ_i(j)가 η, 즉

이상이 되는 부분(즉, 크기 크기 SNR ω_i(j)이 0.5 이상이 되는 부분)에 대하여, ξ를 2.5로 설정한 경우의 크기 SNR ω_i(j) (

)의 변화에 따른 변형된 비선형 구조의 과중이득 함수 ζ_i(j)의 변화를 나타낸 것이다. 도 9에서 수직 점선은 상대 크기 차이 γ_i(j)가 η 보다 큰 영역에서 크기 SNR ω_i(j)의 중앙 위치인 0.75를 경계로 하여 기존의 과중이득 함수 ψ_i(j)의 강한 잡음 영역과 약한 잡음 영역으로 구분하기 위한 기준선이다.

도 9와 수학식 16을 참조하면, 변형된 과중이득 함수 ζ_i(j)가 비선형 구조를 가지기에 다음과 같은 주요 두 가지 장점을 가진다는 것을 알 수 있다.

첫째, 약한 잡음 영역과 비교해서 뮤지컬 잡음이 자주 발생되며 상대적으로 크게 인지되는 강한 잡음 영역에서 뮤지컬 잡음의 발생을 효과적으로 억제할 수 있다. 이유는 후술하는 변형된 스펙트럼 차감 방법을 보여 주는 수학식에서 강한 잡음 영역의

는 약한 잡음 영역의

보다 비선형적으로 큰 가중치가 적용되어 잡음의 양을 상대적으로 많이 감쇠시키기 때문이다.

둘째, 강한 잡음 영역과 비교해서 뮤지컬 잡음이 적게 발생하며 상대적으로 적게 인지되는 약한 잡음 영역에서 음성 명도를 신뢰적으로 제공할 수 있다. 이유는 후술하는 변형된 스펙트럼 차감 방법을 보여 주는 수학식에서 약한 잡음 영역의

는 강한 잡음 영역의

보다 비선형적으로 낮은 가중치가 적용되어 음성의 양을 상대적으로 적게 감쇠시키기 때문이다.

계속해서, 변형된 과중이득 함수 ζ_i(j)를 이용하여 변형된 스펙트럼 차감을 수행함으로써, 개선된 음성 신호

를 얻는다(S37). 본 발명의 실시예에 따른 변형된 스펙트럼 차감은 수학식 17 및 수학식 18을 이용하여 수행될 수 있다.

수학식 17

수학식 18

여기서, G_i,j(f) (0 ≤ G_i,j(f) ≤ 1)와 β(0 ≤ β ≤ 1)는 각각 변형된 시변(time-varying) 이득함수와 스펙트럼 평활화 요소를 가리킨다.

이상에서 상세하게 설명한 바와 같이, 본 발명의 실시예에 따른 음질 개선 방법에 의하면, 뮤지컬 잡음이 자주 발생되며 상대적으로 크게 인지되는 강한 잡음 영역에서는 뮤지컬 잡음의 발생을 효과적으로 억제하여 인공음을 효율적으로 억제할 수 있다. 뿐만 아니라, 약한 잡음 영역이나 그 이외의 부분에서는 음성 왜곡이 적게 발생하여 보다 명료한 음성을 제공할 수가 있다.

그리고 본 실시예의 일 측면에 의하면, 잡음 추정 시에 전술한 본 발명의 제2 실시예에 따른 잡음 추정 방법을 사용하면, 잡음의 변화에 따라서 잡음 추정과 업데이트를 효율적으로 수행할 수가 있고, 잡음 추정의 정확도를 향상시킬 수가 있다. 또한, 본 실시예의 다른 측면에 의하면, 기존의 VAD 기반 방법이나 MS 알고리즘이 아닌 전술한 제1 실시예에 따른 전방향 탐색으로 구한 식별비 φ_i(j)를 이용하여 잡음 추정을 수행할 수가 있어서, 상대적으로 계산량이 적을 뿐만 아니라 요구되는 메모리의 용량도 크기 않기 때문에, 실제 하드웨어나 소프트웨어로 구현하기가 용이하다.

다음으로 본 발명의 실시예에 따른 노이지 음성 신호의 처리 장치에 대하여 설명한다. 본 발명의 실시예에 따른 노이지 음성 신호의 처리 장치는 휴대폰, 블루투스, 보청기, 스피커폰, 음성인식 시스템 등과 같은 음성 기반 어플리케이션 장치에 내장되는 소프트웨어(Software), 음성 기반 어플리케이션의 프로세서(컴퓨터)를 실행시키도록 컴퓨터 판독 가능한 기록매체의 형태, 또는 음성 기반 어플리케이션 장치에 장착되는 칩의 형태 등과 같이 다양한 방법으로 구현될 수 있다.

제4 실시예

도 10은 본 발명의 제4 실시예에 따른 노이지 음성 신호의 처리 장치를 보여 주는 블록도로써, 잡음 상태의 판별 장치이다. 도 10을 참조하면, 노이지 음성 신호에 대한 잡음 상태의 판별 장치(100)는 입력 노이지 음성 신호에 대한 퓨리에 변환 유닛(110), 크기 평활화 유닛(120), 전방향 탐색 유닛(130), 및 식별비 계산 유닛(140)을 포함한다. 본 발명의 실시예에 따른 잡음 상태의 판별 장치(100)에 포함되는 각 구성 요소(110, 120, 130, 및 140)의 기능은 전술한 본 발명의 제1 실시예에 따른 노이지 음성 신호의 처리 절차를 구성하는 단계(S11, S12, S13, 및 S14)에서 설명한 것이 동일하게 적용될 수 있으므로, 이하 이에 대한 구체적인 설명은 생략한다. 이러한 본 발명의 제4 실시예에 따른 노이지 음성 신호의 처리 장치(100)는 스피커폰이나 영상 통화용 통신 기기, 보청기, 블루투스 기기 등과 같은 음성 기반 어플리케이션 장치 또는 음성인식 시스템 등에 구비되어, 입력 노이지 음성 신호로부터 잡음의 상태를 판별하고, 또한 이를 이용하여 잡음 추정, 음질 개선, 및/또는 음성 인식을 하는데 이용될 수 있다.

제5 실시예

도 11은 본 발명의 제5 실시예에 따른 노이지 음성 신호의 처리 장치를 보여 주는 블록도로써, 잡음 추정 장치이다. 도 11을 참조하면, 노이지 음성 신호에 대한 잡음 추정 장치(200)는 입력 노이지 음성 신호에 대한 퓨리에 변환 유닛(210), 크기 평활화 유닛(220), 전방향 탐색 유닛(230), 및 잡음 추정 유닛(240)을 포함한다. 또한, 도면에는 도시하지 않았지만, 상기 잡음 추정 장치(200)는 식별비 계산 유닛을 더 포함할 수도 있다(제4 실시예 참조). 이러한 잡음 추정 장치(200)에 포함되는 각 구성 요소(210, 220, 230, 및 240)의 기능은 전술한 본 발명의 제2 실시예에 따른 노이지 음성 신호의 처리 절차를 구성하는 단계(S21, S22, S23, 및 S24)에서 설명한 것이 동일하게 적용될 수 있으므로, 이하 이에 대한 구체적인 설명은 생략한다. 이러한 본 발명의 제5 실시예에 따른 노이지 음성 신호의 처리 장치(200)도 스피커폰이나 영상 통화용 통신 기기, 보청기, 블루투스 기기 등과 같은 음성 기반 어플리케이션 장치 또는 음성인식 시스템 등에 구비되어, 입력 노이지 음성 신호로부터 잡음의 상태를 판별하고, 또한 이를 이용하여 잡음 추정, 음질 개선, 및/또는 음성 인식을 하는데 이용될 수 있다.

제6 실시예

도 12는 본 발명의 제6 실시예에 따른 노이지 음성 신호의 처리 장치를 보여 주는 블록도로써, 음질 개선 장치이다. 도 12를 참조하면, 노이지 음성 신호에 대한 음질 개선 장치(300)는 입력 노이지 음성 신호에 대한 퓨리에 변환 유닛(310), 크기 평활화 유닛(320), 전방향 탐색 유닛(330), 잡음 추정 유닛(340), 상대 크기 차이(RMD) 계산 유닛(350), 개선된 비선형 구조의 과중 이득 함수 계산 유닛(360), 및 변형된 스펙트럼 차감 유닛(370)을 포함한다. 또한, 도면에는 도시하지 않았지만, 상기 음질 개선 장치(300)는 식별비 계산 유닛을 더 포함할 수도 있다(제4 실시예 참조). 이러한 음질 개선 장치(300)에 포함되는 각 구성 요소(310 내지 370)의 기능은 전술한 본 발명의 제3 실시예에 따른 노이지 음성 신호의 처리 절차를 구성하는 단계(S31 내지 S37)에서 설명한 것이 동일하게 적용될 수 있으므로, 이하 이에 대한 구체적인 설명은 생략한다. 이러한 본 발명의 제6 실시예에 따른 노이지 음성 신호의 처리 장치(300)도 스피커폰이나 영상 통화용 통신 기기, 보청기, 블루투스 기기 등과 같은 음성 기반 어플리케이션 장치 또는 음성인식 시스템 등에 구비되어, 입력 노이지 음성 신호로부터 잡음의 상태를 판별하고, 또한 이를 이용하여 잡음 추정, 음질 개선, 및/또는 음성 인식을 하는데 이용될 수 있다.

제7 실시예

도 13은 본 발명의 제7 실시예에 따른 음성 기반 어플리케이션 장치의 구성을 보여 주는 블록도로서, 도 10, 도 10, 또는 도 12에 도시된 노이지 음성 신호의 처리 장치(300)를 포함한다. 도 13을 참조하면, 음성 기반 어플리케이션 장치(400)는 마이크(410), 노이지 음성 신호의 처리 장치(420), 및 응용 장치(Application Device, 430)을 포함한다.

마이크(410)는 노이지 음성 신호를 획득하기 음성 기반 어플리케이션 장치(400)로 입력하기 위한 입력 수단이다. 노이지 음성 신호의 처리 장치(420)는 마이크(410)를 통해 획득한 노이지 음성 신호를 처리하여 잡음 상태를 판별하거나, 잡음을 추정하거나 또는 추정된 잡음을 이용하여 개선된 음성 신호를 출력하기 위한 것으로써, 이러한 노이지 음성 신호의 처리 장치(420)는 도 10 내지 도 12에 도시된 장치(100, 200, 300) 중의 하나와 동일한 구성을 갖는 장치일 수 있다. 이 경우에 노이지 음성 신호의 처리 장치(420)는 전술한 본 발명의 제1 실시예, 제2 실시예, 또는 제3 실시예에 따른 노이지 음성 신호의 처리 절차에 따라서 노이지 음성 신호를 처리하여 식별비, 추정된 잡음 신호, 또는 개선된 음성 신호를 출력한다.

또한, 음성 기반 어플리케이션 장치(400)는 상기 노이지 음성 신호의 처리 장치를 통해 생성된 식별비, 추정된 잡음 신호, 또는 개선된 음성 신호를 이용하여 다른 용도로 이용하기 위한 응용 장치(430)를 포함한다. 예를 들어, 응용 장치(430)는 개선된 음성 신호를 장치(400)의 외부로 출력하기 위한 출력 장치, 예컨대 스피커이거나 및/또는 개선된 음성 신호로부터 음성 인식을 하기 위한 음성 인식 시스템, 개선된 음성 신호를 압축하기 위한 코덱 장치, 및/또는 압축된 음성 신호를 유무선 통신 네트워크를 통해 전송하기 위한 전송 장치 등일 수 있다.

테스트 결과

본 발명의 실시예에 따른 잡음 상태의 판별 방법, 노이즈 추정 방법, 및 음질 개선 절차의 성능을 평가하기 위하여, 양적인 테스트는 물론 질적인 테스트도 함께 수행하였다. 여기서, 질적인 테스트란 비형식적이고 주관적인 듣기 테스트 및 스펙트럼 조사를 의미하고, 양적인 테스트는 개선된 세그멘탈 신호 대 잡음비(Improved Segmental Signal to Noise Ratio, Improved Seg.SNR)와 세그멘탈 가중된 스펙트럼 경사 측정(Segmental weighted Spectral Slope Measure, Seg.WSSM)을 구하는 것을 의미한다.

개선된 세그멘탈 신호 대 잡음비(Improved Seg.SNR)는 수학식 19 및 수학식 20을 이용하여 계산되었다. 그리고 세그멘탈 가중된 스펙트럼 경사 측정(Seg.WSSM)은 수학식 21 및 22를 이용하여 계산되었다.

수학식 19

수학식 20

여기서, M, F, x(n), 및

은 각각 전체 프레임 개수, 프레임 사이즈, 깨끗한 음성 신호, 및 개선된 음성 신호를 가리킨다. 그리고 Seg.SNR_Input과 Seg.SNR_Input는 각각 오염된 음성 신호와 개선된 음성 신호의 Seg.SNR이다.

수학식 21

수학식 22

여기서, CB는 임계 밴드의 전체 개수이며, Ω,

, Ω_SPL, 및 Λ(r)은 각각 깨끗한 음성의 음압(Sound Pressure Level, SPL), 개선된 음성의 SPL, 전체 성능을 조절하기 위한 가변적 계수, 및 각 임계 밴드의 가중치이다. 또한,

와

는 각각 깨끗한 음성 신호와 개선된 음성 신호의 임계 밴드의 중심 주파수에서 크기 스펙트럼 경사이다.

주관적인 테스트 결과에 의하면, 본 발명의 실시예에 의할 경우에 잔류 뮤지컬 노이즈는 거의 관측이 되지 않았을 뿐만 아니라 개선된 음성 신호에서의 왜곡도 종래의 다른 방법에 비해서 상당히 줄어들었다는 것을 확인할 수 있었다. 여기서, 종래의 다른 방법이란 본 발명의 실시예에 따른 테스트 결과에 대한 성능 비교를 위하여 참조 기술로써 WA 방법(스케일링 인자 α = 0.95, 임계치 β = 2)을 이용하였다. 이하에서 설명하는 바와 같이, 양적인 테스트에서의 실험 결과는 이러한 질적인 테스트에서의 실험 결과를 뒷받침하는 것이었다.

양적인 테스트에서는 TIMIT 데이터베이스로부터 30초 길이의 음성 신호(이 중에서 15초는 남성의 음성 신호이고 나머지 15초는 여성의 음성 신호)가 선택되었는데, 그것의 지속 시간은 6초 이상이다. 그리고 가산 잡음(additive noise)으로써 네 가지 유형의 노이즈 신호가 사용되었는데, 이들은 모두 NoiseX-92 데이터베이스에서 선택된 것으로서 각각 사람 웅성 잡음(speech-like noise), F16 전투기(aircraft cockpit noise), 공장(factory noise), 및 백색 가우시안 노이즈(white gaussian noise)이다. 각 음성은 각 유형의 노이즈를 이용하여 SNR 0dB, 5dB, 및 10dB로 결합되었다. 모든 신호의 샘플링 주파수는 16kHz이고, 각 프레임은 50%의 오버랩핑을 갖는 512 샘플(32ms)로 구성되어 있다.

도 14는 본 발명의 제1 실시예에 따른 노이지 음성 신호의 잡음 상태의 판별 절차의 효과를 보여 주기 위한 개선된 세그멘탈 SNR 그래프이다. 도 14에서 (a), (b), (c), 및 (d)는 각각 부가 잡음이 사람 웅성 잡음, F16 비행기 잡음, 공장 잡음, 및 백색 가우시안 잡음인 노이지 음성 신호를 이용하여 테스트한 경우이다(도 15 내지 도 19에서도 이와 동일함). 도 14에서 'PM'으로 표시된 것은 전술한 본 발명의 제1 실시예에 따라서 전방향 탐색을 이용한 잡음 판별 절차에 의해 획득한 개선된 음성 신호에서 측정된 개선된 세그멘탈 SNR이고, 'WA'로 표시된 것은 기존의 가중 평균(WA) 절차를 사용하여 획득한 개선된 음성 신호에서 측정된 개선된 세그멘탈 SNR이다. 도 14를 참조하면, 본 발명의 실시예에 의할 경우에, 입력 SNR에 상관없이 세그멘탈 SNR이 상당히 향상되며, 특히 입력 SNR이 낮은 경우에 세그멘탈 SNR의 향상 효과가 크다는 것을 알 수 있다. 다만, 공장 잡음이나 백색 가우시안 잡음의 경우에는 입력 SNR이 10인 경우에, 세그멘탈 SNR의 향상 효과가 거의 없는 것으로 나타났다.

도 15는 본 발명의 제1 실시예에 따른 노이지 음성 신호의 잡음 상태의 판별 절차의 효과를 보여 주기 위한 다른 예로써, 세그멘탈 WSSM에 대한 것이다. 도 15를 참조하면, 본 발명의 실시예에 의할 경우에, 입력 SNR에 상관없이 일반적으로 세그멘탈 WSSM이 낮아진다는 것을 알 수 있다. 다만, 사람 웅성 잡음의 경우에는 입력 SNR이 작은 경우에, 오히려 세그멘탈 WSSM이 약간 높아질 수 있다.

도 16은 본 발명의 제2 실시예에 따른 잡음 추정 절차의 효과를 보여 주기 위한 일례이다. 도 16에서 'PM'으로 표시된 것은 전술한 본 발명의 제2 실시예에 따라서 전방향 탐색 및 적응적 잡음 추정을 이용한 잡음 추정 절차에 의해 획득한 개선된 음성 신호에서 측정된 개선된 세그멘탈 SNR이고, 'WA'로 표시된 것은 기존의 가중 평균 절차를 사용하여 획득한 개선된 음성 신호에서 측정된 개선된 세그멘탈 SNR이다. 도 16을 참조하면, 본 발명의 실시예에 의할 경우에, 입력 SNR에 상관없이 세그멘탈 SNR이 상당히 향상되며, 특히 입력 SNR이 낮은 경우에 세그멘탈 SNR의 향상 효과가 크다는 것을 알 수 있다.

도 17은 본 발명의 제2 실시예에 따른 노이지 음성 신호의 잡음 상태의 판별 절차의 효과를 보여 주기 위한 다른 예로써, 세그멘탈 WSSM에 대한 것이다. 도 17을 참조하면, 본 발명의 실시예에 의할 경우에, 입력 SNR에 상관없이 일반적으로 세그멘탈 WSSM이 낮아진다는 것을 알 수 있다.

도 18은 본 발명의 제3 실시예에 따른 잡음 추정 절차의 효과를 보여 주기 위한 일례이다. 도 18에서 'PM'으로 표시된 것은 전술한 본 발명의 제3 실시예에 따라서 전방향 탐색, 적응적 잡음 추정, 및 비선형 구조의 변형된 과중 이득 함수를 이용한 변형된 스펙트럼 차감법을 이용한 음질 개선 절차에 의해 획득한 개선된 음성 신호에서 측정된 개선된 세그멘탈 SNR이고, 'WA'로 표시된 것은 기존의 개선된 최소값 제어 순환 평균(Improved Minima Controlled Recursive Average, IMCRA) 절차를 사용하여 획득한 개선된 음성 신호에서 측정된 개선된 세그멘탈 SNR이다. 도 18을 참조하면, 본 발명의 실시예에 의할 경우에, 입력 SNR에 상관없이 세그멘탈 SNR이 상당히 향상되며, 특히 입력 SNR이 낮은 경우에 세그멘탈 SNR의 향상 효과가 크다는 것을 알 수 있다.

도 19는 본 발명의 제3 실시예에 따른 노이지 음성 신호의 잡음 상태의 판별 절차의 효과를 보여 주기 위한 다른 예로써, 세그멘탈 WSSM에 대한 것이다. 도 19를 참조하면, 본 발명의 실시예에 의할 경우에, 입력 SNR에 상관없이 일반적으로 세그멘탈 WSSM이 낮아진다는 것을 알 수 있다.

이상에서 상세하게 설명한 본 발명의 실시예는 단지 본 발명의 기술 사상을 보여주기 위한 예시적인 것으로서, 상기 실시예에의 의하여 본 발명의 기술 사상이 한정되는 것으로 해석되어서는 안된다. 본 발명의 보호 범위는 후술하는 본 발명의 특허청구범위에 의하여 특정된다.

Claims

입력되는 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하는 단계;

인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하는 단계;

상기 평활 크기 스펙트럼의 예측된 잡음 성분을 나타내는 탐색 스펙트럼을 구하는 단계; 및

상기 탐색 스펙트럼을 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 잡음 스펙트럼을 구하는 단계를 포함하는 노이지 음성 신호에 대한 잡음 추정 방법.
제1항에 있어서, 상기 탐색 스펙트럼을 구하는 단계 이후에,

상기 평활 크기 스펙트럼과 상기 탐색 스펙트럼을 이용하여 상기 입력 노이지 음성 신호에 포함된 잡음 성분의 비율을 나타내는 식별비를 구하는 단계를 더 포함하고,

상기 적응적 망각 요소는 상기 식별비를 이용하여 정의되는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.
제2항에 있어서, 상기 적응적 망각 요소는, 상기 식별비가 소정의 식별비 임계치보다 작은 경우에는 '0'이 되고, 상기 식별비가 상기 식별비 임계치보다 큰 경우에는 상기 식별비에 비례하는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.
제3항에 있어서, 상기 식별비에 비례하는 상기 적응적 망각 요소는 상기 주파수 도메인의 전체 주파수 범위를 복수 개로 분할한 서브밴드에 따라서 그 값이 달라지는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.
제4항에 있어서, 상기 적응적 망각 요소는 상기 서브밴드의 인덱스에 비례하는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.
입력되는 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하는 단계;

인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하는 단계;

직전 프레임의 탐색 프레임만을 이용하거나 및/또는 직전 프레임의 탐색 프레임과 직전 프레임의 평활 크기 스펙트럼 중에서 크기가 작은 스펙트럼과 현재 프레임의 평활 크기 스펙트럼을 이용하여 현재 프레임의 탐색 프레임을 구하는 단계;

상기 평활 크기 스펙트럼과 상기 탐색 스펙트럼을 이용하여 상기 입력 노이지 음성 신호에 포함된 잡음 성분의 비율을 나타내는 식별비를 구하는 단계; 및

상기 식별비를 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 잡음 스펙트럼을 구하는 단계를 포함하는 노이지 음성 신호에 대한 잡음 추정 방법.
제6항에 있어서, 상기 평활 크기 스펙트럼은 하기 식 (E-1)을 이용하여 구하는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.

(E-1)

여기서, i는 프레임 인덱스, f는 주파수, S_i-1(f)과 S_i(f)는 각각 (i-1)번째 및 i번째 프레임의 평활 크기 스펙트럼, Y_i(f)는 i번째 프레임의 변환 스펙트럼, α_s는 평활 인자(smoothing factor)를 가리킨다.
제7항에 있어서, 상기 탐색 프레임을 구하는 단계와 상기 잡음 상태의 판별 단계는 상기 주파수 도메인의 전체 주파수 범위를 복수 개로 분할한 서브밴드 단위로 수행하는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.
제8항에 있어서, 상기 탐색 프레임은 하기 식 (E-2)를 이용하여 구하는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.

(E-2)

여기서, i는 프레임 인덱스이고, j(0≤j<J<L)는 상기 소정의 주파수 범위 2^L에서 서브밴드(SB) 사이즈(=2^L-J)로 나눈 서브밴드 인덱스(J와 L은 각각 전체 서브밴드의 개수와 상기 소정의 주파수 범위를 결정짓는 자연수)이며, T _i,j (f)는 탐색 스펙트럼, S _i,j (f)는 평활 크기 스펙트럼, 그리고 U _i-1,j (f)는 직전 프레임의 탐색 스펙트럼과 평활 크기 스펙트럼 중에서 더 작은 값을 지시하는 가중된 스펙트럼(weighted spectrum)이고, κ(j)(0 < κ(J-1) ≤ κ(j) ≤ κ(0) ≤ 1)는 차등적 망각 요소이다.
제8항에 있어서, 상기 탐색 프레임은 하기 식 (E-3)을 이용하여 구하는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.

(E-3)
제8항에 있어서, 상기 탐색 프레임은 하기 식 (E-4)를 이용하여 구하는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.

(E-4)
제9항 내지 제11항 중 어느 하나의 항에 있어서, 상기 차등적 망각 요소의 값은 상기 서브밴드의 인덱스에 반비례하는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.
제12항에 있어서, 상기 차등적 망각 요소는 하기 식 (E-5)로 표시되는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.

(E-5)

여기서, 0 < κ(J-1) ≤ κ(j) ≤ κ(0) ≤ 1이다.
제9항 내지 제11항 중 어느 하나의 항에 있어서, 상기 식별비는 하기 식 (E-6)를 이용하여 구하는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.

(E-6)

여기서, SB는 서브밴드 사이즈, min(a, b)는 a와 b 중에서 더 작은 값을 가리킨다.
제14항에 있어서, 상기 가중된 스펙트럼은 하기 식 (E-7)로 정의되는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.

(E-7)
제15항에 있어서, 상기 잡음 스펙트럼은 하기 식 (E-8)로 정의되는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.

(E-8)

여기서, i와 j는 각각 프레임 인덱스와 서브밴드 인덱스,
는 현재 프레임의 잡음 스펙트럼, |hat N_i-1,j (f)|는 이전 프레임의 잡음 스펙트럼, λ_i(j)는 적응적 망각 요소로써 하기 식 (E-9) 및 (E-10)으로 정의되며,

(E-9)

(E-10)

φ_i(j)는 식별비, φ_th (0 < φ_th < 1)는 입력 노이즈 음성 신호의 잡음 상태에 따라 잡음 유사 서브밴드 또는 음성 유사 서브밴드로 구분하기 위한 임계치, 그리고 b_s와 b_e는 각각 0 ≤ b_s ≤ ρ_i(j) < b_e < 1의 관계가 성립하는 임의의 상수이다.
제6항에 있어서, 상기 변환 스펙트럼을 구하는 단계에서는 퓨리에 변환을 이용하는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.
시간 도메인의 입력 노이지 음성 신호를 처리하는 방법에 있어서,

상기 노이지 음성 신호에 대한 퓨리에 변환을 수행하여 퓨리에 변환 신호를 생성하고,

상기 노이지 음성 신호의 예측된 잡음 성분을 나타내는 탐색 신호를 구하기 위한 전방향 탐색을 수행하고,

상기 퓨리에 변환 신호와 상기 탐색 신호를 이용하여 상기 노이지 음성 신호의 잡음 상태를 나타내는 식별비를 구하고, 그리고

상기 식별비의 함수 또는 0으로 정의되는 적응적 망각 요소를 이용하여, 이전 프레임의 잡음 신호와 현재 프레임의 상기 퓨리에 변환 신호의 순환 평균으로 정의되는 현재 프레임의 잡음 신호를 구하는 것을 포함하고,

상기 탐색 신호는 직전 프레임의 탐색 신호와 직전 프레임의 상기 퓨리에 변환 신호 중에서 크기가 작은 신호와 현재 프레임의 상기 퓨리에 변환 신호에 망각 요소를 적용하여 구하는 것을 특징으로 하는 노이지 음성 신호의 처리 방법.
제18항에 있어서, 인접한 프레임들 사이에서 상기 노이지 음성 신호의 크기 차이를 완화한 평활화된 신호를 구하고, 상기 탐색 신호와 상기 현재 프레임의 잡음 신호는 상기 퓨리에 신호 대신에 상기 평활화된 신호를 이용하여 구하는 것을 특징으로 하는 노이지 음성 신호의 처리 방법.
제19항에 있어서, 상기 탐색 신호는 상기 주파수 도메인의 전체 주파수 범위를 복수 개로 분할한 서브밴드 단위로 구하며,

상기 크기가 작은 신호에 곱해지는 상기 망각 요소는 저주파 대역 보다는 고주파 대역에서 더 작은 차등적 망각 요소인 것을 특징으로 하는 노이지 음성 신호의 처리 방법.
제18항에 있어서, 상기 퓨리에 변환 신호의 크기가 증가하는 구간에서, 상기 탐색 신호는 직전 프레임의 상기 탐색 신호와 같은 것을 특징으로 하는 노이지 음성 신호의 처리 방법.
제18항에 있어서, 상기 퓨리에 변환 신호의 크기가 감소하고 또한 상기 퓨리에 변환 신호의 크기가 상기 탐색 신호의 크기보다 더 큰 구간에서, 상기 탐색 신호는 직전 프레임의 상기 탐색 신호와 같은 것을 특징으로 하는 노이지 음성 신호의 처리 방법.
입력되는 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하기 위한 변환 유닛;

인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하기 위한 평활화 유닛;

상기 평활 크기 스펙트럼의 예측된 잡음 성분을 나타내는 탐색 스펙트럼을 구하기 위한 전방향 탐색 유닛; 및

상기 탐색 스펙트럼을 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 잡음 스펙트럼을 구하기 위한 잡음 추정 유닛을 포함하는 노이지 음성 신호에 대한 잡음 추정 장치.
입력되는 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하기 위한 변환 유닛;

인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하기 위한 평활화 유닛;

직전 프레임의 탐색 프레임만을 이용하거나 및/또는 직전 프레임의 탐색 프레임과 직전 프레임의 평활 크기 스펙트럼 중에서 크기가 작은 스펙트럼과 현재 프레임의 평활 크기 스펙트럼을 이용하여 현재 프레임의 탐색 프레임을 구하기 위한 전방향 탐색 유닛;

상기 평활 크기 스펙트럼과 상기 탐색 스펙트럼을 이용하여 상기 입력 노이지 음성 신호에 포함된 잡음 성분의 비율을 나타내는 식별비를 구하기 위한 잡음 상태 판별 유닛; 및

상기 식별비를 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 잡음 스펙트럼을 구하기 위한 잡음 추정 유닛을 포함하는 노이지 음성 신호의 처리 장치.
시간 도메인의 입력 노이지 음성 신호를 처리하여 상기 노이지 음성 신호의 잡음 성분을 추정하기 위한 노이지 음성 신호의 처리 장치에 있어서, 상기 처리 장치는

상기 노이지 음성 신호에 대한 퓨리에 변환을 수행하여 퓨리에 변환 신호를 생성하고,

상기 노이지 음성 신호의 예측된 잡음 성분을 나타내는 탐색 신호를 구하기 위한 전방향 탐색을 수행하고,

상기 퓨리에 변환 신호와 상기 탐색 신호를 이용하여 상기 노이지 음성 신호의 잡음 상태를 나타내는 식별비를 구하고, 그리고

상기 식별비의 함수 또는 0으로 정의되는 적응적 망각 요소를 이용하여, 이전 프레임의 잡음 신호와 현재 프레임의 상기 퓨리에 변환 신호의 순환 평균으로 정의되는 현재 프레임의 잡음 신호를 구하며,

상기 탐색 신호는 직전 프레임의 탐색 신호와 직전 프레임의 상기 퓨리에 변환 신호 중에서 크기가 작은 신호와 현재 프레임의 상기 퓨리에 변환 신호에 망각 요소를 적용하여 구하는 것을 특징으로 하는 노이지 음성 신호의 처리 장치.
컴퓨터를 제어하여 입력 노이지 음성 신호의 잡음을 추정하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체로서, 상기 프로그램은

입력되는 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하기 위한 변환 처리와,

인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하기 위한 평활화 처리와,

직전 프레임의 탐색 프레임만을 이용하거나 및/또는 직전 프레임의 탐색 프레임과 직전 프레임의 평활 크기 스펙트럼 중에서 크기가 작은 스펙트럼과 현재 프레임의 평활 크기 스펙트럼을 이용하여 현재 프레임의 탐색 프레임을 구하기 위한 전방향 탐색 처리와,

상기 평활 크기 스펙트럼과 상기 탐색 스펙트럼을 이용하여 상기 입력 노이지 음성 신호에 포함된 잡음 성분의 비율을 나타내는 식별비를 구하기 위한 잡음 상태의 판별 처리와, 그리고

상기 식별비를 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 잡음 스펙트럼을 구하기 위한 잡음 추정 처리를 수행하는 것을 특징으로 하는 컴퓨터 판독 가능한 기록매체.
컴퓨터를 제어하여 시간 도메인의 입력 노이지 음성 신호를 처리하여 상기 노이지 음성 신호의 잡음 성분을 추정하도록 고안된 프로그램을 기록한 컴퓨터 판독 가능한 기록매체로서, 상기 프로그램은

상기 노이지 음성 신호에 대한 퓨리에 변환을 수행하여 퓨리에 변환 신호를 생성하기 위한 변환 처리와,

상기 노이지 음성 신호의 예측된 잡음 성분을 나타내는 탐색 신호를 구하기 위한 전방향 탐색을 수행하기 위한 전방향 탐색 처리와,

상기 퓨리에 변환 신호와 상기 탐색 신호를 이용하여 상기 노이지 음성 신호의 잡음 상태를 나타내는 식별비를 구하기 위한 잡음 상태의 판별 처리와, 그리고

상기 식별비의 함수 또는 0으로 정의되는 적응적 망각 요소를 이용하여, 이전 프레임의 잡음 신호와 현재 프레임의 상기 퓨리에 변환 신호의 순환 평균으로 정의되는 현재 프레임의 잡음 신호를 구하기 위한 잡음 추정 처리를 수행하며,

상기 탐색 신호는 직전 프레임의 탐색 신호와 직전 프레임의 상기 퓨리에 변환 신호 중에서 크기가 작은 신호와 현재 프레임의 상기 퓨리에 변환 신호에 망각 요소를 적용하여 구하는 것을 특징으로 하는 컴퓨터 판독 가능한 기록 매체.