KR101260938B1 - 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 - Google Patents

노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 Download PDF

Info

Publication number
KR101260938B1
KR101260938B1 KR1020080030017A KR20080030017A KR101260938B1 KR 101260938 B1 KR101260938 B1 KR 101260938B1 KR 1020080030017 A KR1020080030017 A KR 1020080030017A KR 20080030017 A KR20080030017 A KR 20080030017A KR 101260938 B1 KR101260938 B1 KR 101260938B1
Authority
KR
South Korea
Prior art keywords
spectrum
noise
speech signal
search
signal
Prior art date
Application number
KR1020080030017A
Other languages
English (en)
Other versions
KR20090104559A (ko
Inventor
정성일
하동경
Original Assignee
(주)트란소노
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=41377708&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR101260938(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by (주)트란소노 filed Critical (주)트란소노
Priority to KR1020080030017A priority Critical patent/KR101260938B1/ko
Priority to US12/935,390 priority patent/US8694311B2/en
Priority to PCT/KR2009/001642 priority patent/WO2009145449A2/ko
Publication of KR20090104559A publication Critical patent/KR20090104559A/ko
Application granted granted Critical
Publication of KR101260938B1 publication Critical patent/KR101260938B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

노이지 음성 신호의 음질 개선 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체를 제공한다. 본 발명의 일 실시예에 따른 노이지 음성 신호의 음질 개선 방법은 노이지 음성 신호의 음질 개선 방법으로써, 입력되는 노이지 음성 신호의 잡음 신호를 추정하고, 노이지 음성 신호와 추정된 잡음 신호 사이의 상대적 차이를 나타내는 상대 크기 차이를 구하며, 상대 크기 차이를 이용하여 고주파 대역보다 저주파 대역에 상대적으로 높은 이득이 할당되도록 하는 변형된 비선형 구조의 과중 이득 함수를 구한 후에, 과중 이득 함수를 이용하여 구한 시변 이득 함수와 상기 노이지 음성 신호를 곱하여 개선된 음성 신호를 구할 수 있다. 이 경우에, 잡음 신호는 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구한 후에 이것의 평활 크기 스펙트럼을 구하고, 평활 크기 스펙트럼의 예측된 잡음 성분을 나타내는 탐색 스펙트럼을 구한 다음, 탐색 스펙트럼을 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 추정할 수 있다.

Description

노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체{Procedure for processing noisy speech signals, and apparatus and program therefor}
본 발명은 음성 신호 처리에 관한 것으로, 보다 구체적으로 노이지 음성 신호(Noisy Speech Signal)에서 잡음의 상태를 판별하고, 또한 노이지 음성 신호로부터 잡음을 추정하며, 아울러 추정된 잡음을 이용하여 음질을 개선하는 등과 같은 노이지 음성 신호의 처리 절차와 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체에 관한 것이다.
스피커폰(Speakerphone)은, 다수의 사람들 사이의 통신을 용이하게 하며 또한 개별적으로는 핸즈-프리 세팅을 제공할 수 있기 때문에 많은 통신 기기의 필수 장치로 구비되어 있다. 최근에는 무선 통신 기술의 발달로 영상 통화용 통신 기기가 널리 보급되고 있는 추세이다. 그리고 멀티미디어 재생을 지원하는 통신 기기나 PMP(Portable Multimedia Player)나 MP3 플레이어 등과 같은 미디어 재생 장치의 보급 증가로 블루투스(bluetooth) 등과 같은 근거리 무선 통신 기기의 보급도 증가하고 있다. 또한, 청력이 약하여 잘 들을 수 없는 사람들에게 도움을 줄 수 있도록 보청기(Hearing Aid)가 개발되어 보급되고 있다. 이러한 스피커폰이나 보청기, 그리고 영상 통화용 통신 기기나 블루투스 등과 같은 장치에서는 잡음이 섞여 있는 음성 신호인 노이지 음성(Noisy Speech) 신호로부터 음성을 인식하거나 또는 배경 잡음(Background Noise)을 제거하거나 약화시켜서 개선된 음성 신호를 추출하기 위한 노이지 음성 신호의 처리 장치가 구비되어 있다.
노이지 음성 처리 장치의 성능은 이를 구비하는 음성 기반 어플리케이션 장치의 성능에 결정적인 영향을 미친다. 왜냐하면, 배경 잡음은 거의 언제나 음성 신호를 오염시켜서, 음성 코덱, 개인 휴대 통신(Cellular Telephony), 및 음성 인식(Speech Recognition) 등과 같은 음성 기반 어플리케이션 장치의 성능을 급격하게 떨어뜨릴 수가 있기 때문이다. 따라서 배경 잡음에 의한 영향을 최소화함으로써 노이지 음성 신호의 처리 성능을 향상시키기 위한 연구가 활발하게 진행되고 있다.
음성 인식은 일반적으로 마이크나 전화 등을 통하여 얻어진 음향학적 신호를 단어나 단어 집합 또는 문장으로 변환하는 과정을 말한다. 이러한 음성 인식의 정확도를 향상시키기 위한 첫 번째 과정은, 단일 채널을 통해 입력되는 잡음과 음성이 공존하는 입력 신호로부터 음향학적 신호인 음성 성분만을 효율적으로 추출하는 것이다. 노이지 음성 신호로부터 음성 성분만을 추출하기 위해서는, 입력 노이지 음성 신호에서 잡음 성분이 우세한지 또는 음성 성분이 우세한지를 판별하거나 또는 잡음의 상태를 정확하게 파악하는 등과 같은 노이지 음성 신호의 처리 절차가 효율적으로 수행되어야 한다.
그리고 단일 채널을 통해 입력되는 잡음과 음성이 공존하는 음성 신호의 음질을 개선하기 위해서는, 노이지 음성 신호 중에서 음성 성분에는 손상을 가하지 않으면서 잡음 성분만을 효율적으로 약화시키거나 또는 제거하여야 한다. 따라서 단일 채널을 통해 입력되는 노이지 음성 신호의 처리 절차에서는, 입력 노이지 음성 신호에서 잡음의 상태를 정확하게 파악하고, 또한 이를 이용하여 입력 노이지 음성 신호로부터 잡음 성분을 구하기 위한 잡음 추정(Noise Estimation) 절차를 기본적으로 포함한다. 그리고 추정된 잡음(Estimated Noise) 신호는 노이지 음성 신호에서 잡음 성분을 약화시키거나 또는 제거하여 음질을 개선하는데 이용된다.
추정된 잡음 신호를 이용하여 음질을 개선하는 방법은 여러 가지가 있는데, 그 중의 한 가지 방법은 스펙트럼 차감(Spectral Subtraction, SS)법이다. 스펙트럼 차갑법에 의하면, 노이지 음성 신호의 스펙트럼에서 추정된 잡음 신호의 스펙트럼을 차감하는데, 이에 의하여 노이지 음성 신호로부터 잡음을 감쇠시키거나 또는 제거함으로써 향상된 음성 신호를 얻을 수가 있다.
스펙트럼 차감법을 이용하는 노이지 음성 신호의 처리 장치에서는 무엇보다도 잡음 추정이 정확하게 이루어져야 하며, 또한 정확한 잡음의 추정을 위해서는 잡음의 상태를 정확하게 파악해야 한다. 하지만, 입력 노이지 음성 신호로부터 실시간으로 잡음의 상태를 파악하고 또한 실시간으로 잡음을 정확하게 추정하는 것은 결코 쉽지가 않다. 특히, 다양한 비정적인 환경에 오염된 노이지 음성 신호인 경우에는, 잡음의 상태 파악이나 잡음 추정을 정확하게 수행하고 이로부터 향상된 음성 신호를 얻는다는 것은 매우 어려운 일이다.
잡음 추정이 부정확한 경우에, 처리된 노이지 음성 신호는 두 가지 종류의 부작용을 유발할 수가 있다. 그 하나는 추정된 잡음이 실제 잡음보다 낮은 경우인데, 이러한 경우에는 처리된 노이지 음성 신호에서 성가신 잔류 잡음(Annoying Residual Noise) 또는 잔류 뮤지컬 잡음(Residual Musical Noise)이 감지될 수 있다. 다른 하나는 추정된 잡음이 실제 잡음보다 큰 경우인데, 이러한 경우에는 과도한 스펙트럼 차감으로 인하여 음성 왜곡이 발생하게 된다.
노이지 음성 신호에서 잡음의 상태를 파악하고 또한 정확한 잡음 추정을 위하여 많은 방법들이 제안되었다. 그 중에서 한 가지는 음성 활동 감지(Voice Activity Detection, VAD)와 이를 이용하는 VAD 기반 잡음 추정 방법이다. VAD 기반 잡음 추정 방법에 의하면, 이전의 여러 잡음 프레임(Noise Frame)이나 긴 과거 프레임으로부터 획득한 통계 정보를 이용하여 잡음의 상태를 파악하고 또한 잡음을 추정한다. 잡음 프레임이란 음성이 포함되지 않은 묵음 프레임(Silent Frame or Speech-absent Frame) 또는 전체 노이지 음성 신호에서 음성보다 잡음 성분이 압도적으로 우세한 잡음-우세 프레임(Noise Dominant Frame)을 일컫는다.
이러한 기존의 VAD 기반 잡음 추정 방법은 잡음이 시간에 따라서 변화가 심하지 않을 경우에 상당히 우수한 성능을 보여 준다. 그러나 배경 잡음이 비정적(Non-stationary)이거나 또는 레벨 가변적(Level-varying)인 경우, 신호 대 잡음비(Signal to Noise Ratio, SNR)가 낮은 경우, 또는 음성 신호의 에너지가 약한 경우 등에, 종래의 VAD 기반 방법은 잡음의 상태나 현재의 잡음 레벨에 대한 신뢰할 수 있는 정보를 획득하기가 어려운 단점이 있다. 또한, VAD 기반 방법은 일반적으로 높은 계산비용을 지불해야 하는 문제점을 보여 준다.
VAD 기반 방법의 단점을 극복하기 위하여, 여러 가지 새로운 방법이 제안되었다. 이들 중에서 널리 알려진 접근법 중의 하나는 회귀 평균화(Recursive Averaging)를 기반으로 하는 가중된 평균화(Weighted Average, WA) 기법이다. WA 기법은 VAD를 도입하지 않고 주파수 영역에서 잡음 추정하고 또한 추정된 잡음을 연속적으로 갱신하는 방법이다. WA 기법에 의하면, 현재 프레임에서 노이지 음성 신호의 크기 스펙트럼(Magnitude Spectrum)과 이전 프레임에서 추정된 잡음의 크기 스펙트럼 사이에 고정된 망각 요소(Forgetting Factor)를 적용하여 잡음을 추정한다. 하지만, 이러한 WA 기법은 고정된 망각 요소를 적용하기 때문에, 다양한 잡음 환경이나 비정적인 잡음 환경에서의 잡음 변화를 반영할 수 없으며, 그 결과 올바른 잡음 추정을 수행하지 못하는 한계가 있다.
VAD 기반 방법의 단점을 극복하기 위하여 제안된 다른 하나의 잡음 추정 방법은 최소 통계(Minimum Statistics, MS) 알고리즘을 이용하는 것이다. 이에 의하면, 탐색 윈도우(Search Window)에 걸쳐서 노이지 음성 신호의 평활된 파워 스펙트럼(Smoothed Power Spectrum)의 최소값을 추적하며, 추적된 최소값에 보상 상수(Compensate Constant)를 곱하여 잡음을 추정한다. 여기서, 탐색 윈도우는 약 1.5초의 최근 프레임들을 커버한다. 이러한 MS 알고리즘은 일반적으로 훌륭한 성능을 보여 주지만, 탐색 윈도우 길이에 해당하는 긴 과거 프레임의 정보가 지속적으로 필요하기 때문에 대용량의 메모리가 필요하고, 특히 잡음이 대부분을 차지하는 잡음 우세 신호(Noise Dominant Signal)에서 잡음 레벨의 변화를 빨리 추적할 수 없는 단점이 있다. 또한, MS 알고리즘도 기본적으로 과거 프레임의 추정된 잡음 정보를 이용하기 때문에, 잡음의 레벨 변화가 심하거나 또는 다른 잡음 환경으로 바뀌는 경우에는 신뢰할만한 결과를 보여 주지 못하는 한계가 있다.
이러한 기존 MS 알고리즘의 단점을 해결하기 위하여, 여러 가지 종류의 수정된 MS 알고리즘이 제안되었다. 이들 수정된 MS 알고리즘의 대부분이 갖는 공통적인 두 가지 특징은 다음과 같다. 첫째는 고려 대상이 되는 현재 프레임 또는 주파수 위치(Frequency Bin)에 음성이 존재하는지 또는 묵음 구간인지를 연속적으로 구별하기 위한 VAD 방법을 포함하고 있다는 것이고, 두 번째 특징은 순환 평균(Recursive Averaging, RA) 기반의 잡음 추정기(Noise Estimator)가 사용된다는 것이다.
그런데, 이러한 기존의 수정된 MS 알고리즘은 최초의 MS 알고리즘이 보여준 잡음 추정에 있어서의 시간 지연과 비정적인 잡음 환경에서의 부정확한 추정을 어느 정도는 해결할 수가 있었지만, 이를 완전하게 해결할 수는 없다. 왜냐하면, 수정된 MS 알고리즘도 본질적으로는 MS 알고리즘과 동일한 방법, 즉 현재 프레임의 잡음을 추정함에 있어서, 이전의 여러 잡음 프레임이나 또는 긴 과거 프레임의 추정된 잡음 신호가 반영되어 사용되고 있으며, 그 결과 대용량의 메모리와 많은 계산량이 요구되기 때문이다.
따라서 종래의 MS 알고리즘 또는 수정된 MS 알고리즘은 잡음 환경이 가변적이거나 또는 잡음 도미넌트 프레임에서 레벨의 변화가 급격한 배경 잡음을 신속하 고 정확하게 추정하기가 어려운 단점이 있다. 또한, 기존의 VAD 기반 방법이나 MS 알고리즘, 또는 변형된 MS 알고리즘은 잡음의 상태를 파악하기 위하여 큰 용량의 메모리가 필요할 뿐만 아니라 연산량이 상당히 많아서 높은 계산 비용이 지불되어야 하는 한계가 있다.
본 발명이 해결하고자 하는 과제는 비정적이며 또한 다양한 유형의 잡음 조건에서도 입력 노이지 음성 신호의 잡음 상태를 정확하게 판별하고 또한 적은 메모리와 연산량을 이용해서도 잡음 유사(Noise-like) 구간과 음성 유사(Speech-like) 구간을 정확하게 판별하거나 또는 음성 인식을 위한 잡음 상태의 판별이 가능한 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체를 제공하는 것이다.
본 발명이 해결하고자 하는 과제는 비정적이며 또한 다양한 유형의 잡음 조건에서도 정확하게 현재 프레임의 잡음을 추정할 수 있고, 또한 이를 통하여 처리된 노이지 음성 신호의 음질을 개선할 수 있으며, 특히 잔류 뮤지컬 잡음을 효과적으로 억제할 수 있는 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체를 제공하는 것이다.
본 발명이 해결하고자 하는 다른 과제는 노이지 도미넌트 신호인 경우에도 잡음의 변화를 신속하고 또한 정확하게 추적할 수 있으며, 또한 시간 지연이 발생 하는 것을 효과적으로 방지할 수 있는 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체를 제공하는 것이다.
본 발명이 해결하고자 하는 또 다른 과제는 음성이 대부분을 차지하는 신호에서는 잡음 레벨이 과대평가 되어서 음성 왜곡이 발생하는 것을 방지할 수 있는 잡음 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체를 제공하는 것이다.
상기한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 노이지 음성 신호의 처리 방법은 노이지 음성 신호의 음질 개선 방법으로써, 입력되는 노이지 음성 신호에 대한 소정의 잡음 추정 절차를 수행하여 상기 노이지 음성 신호의 잡음 신호를 추정하는 단계, 상기 노이지 음성 신호와 상기 추정된 잡음 신호 사이의 상대적 차이를 나타내는 상대 크기 차이를 구하는 단계, 상기 상대 크기 차이를 이용하여 고주파 대역보다 저주파 대역에 상대적으로 높은 이득이 할당되도록 하는 변형된 비선형 구조의 과중 이득 함수를 구하는 단계, 및 상기 과중 이득 함수를 이용하여 구한 시변 이득 함수와 상기 노이지 음성 신호를 곱하여 개선된 음성 신호를 구하는 단계를 포함한다.
상기 실시예의 일 측면에 의하면, 상기 잡음 신호를 추정하는 단계는 상기 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하는 단계, 인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙 트럼을 구하는 단계, 상기 평활 크기 스펙트럼의 예측된 잡음 성분을 나타내는 탐색 스펙트럼을 구하는 단계, 및 상기 탐색 스펙트럼을 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 상기 잡음 신호를 구하는 단계를 포함할 수 있다.
상기한 과제를 해결하기 위한 본 발명의 다른 실시예에 따른 노이지 음성 신호의 처리 장치는 노이지 음성 신호의 음질 개선 장치로써, 입력되는 노이지 음성 신호에 대한 소정의 잡음 추정 절차를 수행하여 상기 노이지 음성 신호의 잡음 신호를 추정하기 위한 잡음 추정 수단, 상기 노이지 음성 신호와 상기 추정된 잡음 신호 사이의 상대적 차이를 나타내는 상대 크기 차이를 구하기 위한 상대 크기 차이 측정 유닛, 및 상기 상대 크기 차이를 이용하여 고주파 대역보다 저주파 대역에 상대적으로 높은 이득이 할당되도록 하는 변형된 비선형 구조의 과중 이득 함수를 구하고, 상기 과중 이득 함수를 이용하여 구한 시변 이득 함수와 상기 노이지 음성 신호를 곱하여 개선된 음성 신호를 구하기 위한 출력 신호 생성 유닛을 포함한다.
상기한 과제를 해결하기 위한 본 발명의 또 다른 실시예는 노이지 음성 신호의 처리 장치를 포함하는 음성 기반 어플리케이션 장치로써, 노이지 음성 신호를 수신하도록 고안된 입력 장치, 상기 입력 장치를 통해 수신한 노이지 음성 신호에 대한 소정의 잡음 추정 절차를 수행하여 상기 노이지 음성 신호의 잡음 신호를 추정하기 위한 잡음 추정 수단, 상기 노이지 음성 신호와 상기 추정된 잡음 신호 사이의 상대적 차이를 나타내는 상대 크기 차이를 구하기 위한 상대 크기 차이 측정 유닛, 및 상기 상대 크기 차이를 이용하여 고주파 대역보다 저주파 대역에 상대적 으로 높은 이득이 할당되도록 하는 변형된 비선형 구조의 과중 이득 함수를 구하고, 상기 과중 이득 함수를 이용하여 구한 시변 이득 함수와 상기 노이지 음성 신호를 곱하여 개선된 음성 신호를 구하기 위한 출력 신호 생성 유닛을 포함하는 노이지 음성 신호의 음질 개선 장치, 및 상기 음질 개선 장치로부터 출력되는 개선된 음성 신호를 외부로 출력하도록 고안된 출력 수단이나 전송 네트워크를 통해 전송하도록 고안된 전송 장치, 또는 음성 인식 시스템을 포함한다.
상기한 과제를 해결하기 위한 본 발명의 또 다른 실시예는 컴퓨터를 제어하여 입력 노이지 음성 신호의 음질을 개선하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체로서, 상기 프로그램은 입력되는 노이지 음성 신호에 대한 소정의 잡음 추정 절차를 수행하여 상기 노이지 음성 신호의 잡음 신호를 추정하는 처리와, 상기 노이지 음성 신호와 상기 추정된 잡음 신호 사이의 상대적 차이를 나타내는 상대 크기 차이를 구하는 처리와, 상기 상대 크기 차이를 이용하여 고주파 대역보다 저주파 대역에 상대적으로 높은 이득이 할당되도록 하는 변형된 비선형 구조의 과중 이득 함수를 구하는 처리와, 그리고 상기 과중 이득 함수를 이용하여 구한 시변 이득 함수와 상기 노이지 음성 신호를 곱하여 개선된 음성 신호를 구하는 처리를 수행한다.
본 발명의 실시예에 의하면, 뮤지컬 잡음이 자주 발생되며 상대적으로 크게 인지되는 강한 잡음 영역에서는 뮤지컬 잡음의 발생을 효과적으로 억제하여 인공음 을 효율적으로 억제할 수 있다. 뿐만 아니라, 약한 잡음 영역이나 그 이외의 부분에서는 음성 왜곡이 적게 발생하여 보다 명료한 음성을 제공할 수가 있다.
그리고 본 실시예의 일 측면에 의하면, 잡음의 변화에 상관없이 프레임별로 고정된 망각 요소를 적용하는 기존의 WA 기법 대신에, 서브밴드에 존재하는 잡음의 상태에 따라 그 값이 변하는 적응적 망각 요소를 적용하여 잡음을 추정하고, 또한 잡음 성분의 비중이 상대적으로 높은 잡음 유사 영역에서는 추정된 잡음의 업데이트를 지속적으로 함으로써, 잡음의 변화에 따라서 잡음 추정과 업데이트를 효율적으로 그리고 음성 신호에 대한 손상 없이 수행할 수가 있다.
또한, 본 실시예의 다른 측면에 의하면, 기존의 VAD 기반 방법이나 MS 알고리즘이 아닌 전방향 탐색으로 구한 식별비를 이용하여 잡음 추정을 수행할 수가 있다. 그 결과, 본 실시예에서는 잡음 추정에 있어서 상대적으로 계산량이 적을 뿐만 아니라 요구되는 메모리의 용량도 크기 않기 때문에, 실제 하드웨어나 소프트웨어로 구현하기가 용이하다.
이하에서는, 첨부 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세하게 설명한다. 후술하는 실시예는 본 발명의 기술적 사상을 예시적으로 설명하기 위한 목적이므로, 본 발명의 기술적 사상은 이 실시예에 의하여 한정되는 것으로 해석되어서는 안된다. 본 실시예에 대한 설명 및 도면에서 각각의 구성요소에 부가된 참조 부호는 단지 설명의 편의를 위하여 기재된 것일 뿐이며, 명세서 전체 에 걸쳐서 동일한 참조 번호는 동일한 구성 요소를 지칭한다.
그리고 후술하는 본 발명의 실시예는 노이지 음성 신호에 대한 주파수 영역으로의 변환 알고리즘으로서 푸리에 변환을 적용하는 경우에 대해서만 예를 들어서 설명한다. 하지만, 본 발명의 실시예가 여기에만 한정되는 것은 아니며, 예컨대 웨이블릿 패킷 변환을 적용하는 경우에도 동등하게 적용할 수 있다는 것은 당업자에게 자명하므로, 이하에서는 웨이블릿 패킷 변환을 적용하는 실시예에 대한 구체적인 설명은 생략한다.
제1 실시예
도 1은 본 발명의 제1 실시예에 따른 노이지 음성 신호의 처리 절차의 일례로써, 입력 노이지 음성 신호의 잡음 상태를 판별하기 위한 절차를 보여 주는 흐름도이다. 도 1을 참조하면, 본 발명의 제1 실시예에 따른 노이지 음성 신호에 대한 잡음 상태의 판별 절차는 입력 노이지 음성 신호에 대한 퓨리에 변환 단계(Fourier Transform, S11), 크기 평활화 단계(Magnitude Smoothing, S12), 전방향 탐색 단계(Forward Searching, S13), 및 식별비 계산 단계(Identification Ratio Calculation, S14)를 포함한다. 이하, 입력 노이지 음성 신호를 처리하여 개선된 음성을 출력하는 본 발명의 실시예를 구성하는 각 단계에 대하여 보다 구체적으로 설명한다.
먼저, 입력 노이지 음성 신호 y(n)에 대한 퓨리에 변환(Fourier Transform)을 수행한다(S11). 이러한 퓨리에 변환은 입력 노이지 음성 신호 y(n)의 단기 간(short-time) 신호에 대하여 연속적으로 수행되며, 그 결과 입력 노이지 음성 신호 y(n)는 퓨리에 스펙트럼(Fourier Spectrum, FS) Y i (f)으로 근사화될 수 있다.
입력 노이지 음성 신호 y(n)는 다음의 수학식 1과 같이 깨끗한 음성과 가산 잡음의 합으로 표현할 수 있다. 수학식 1에서, n은 이산(discrete) 시간 인덱스, x(n)은 깨끗한 음성(Clean Speech) 신호, 그리고 w(n)은 부가적인 잡음(Additive Noise) 신호를 나타낸다.
Figure 112008023455191-pat00001
그리고 상기 입력 노이지 음성 신호 y(n)은 단구간 퓨리에 변환에 의하여 근사하되는 퓨리에 스펙트럼 Y i (f)은 수학식 2로 표현할 수 있다.
Figure 112008023455191-pat00002
수학식 2에서, if는 각각 프레임 인덱스와 주파수 위치(frequency bin) 인덱스를 나타내며, X i (f)는 깨끗한 음성의 퓨리에 스펙트럼(FS)이고, W i (f)는 잡음의 퓨리에 스펙트럼(FS)이다.
본 발명의 실시예에 의하면, 주파수 위치의 대역폭의 크기, 즉 서브밴드 사이즈(SB)에 대해서는 특별한 제한이 없다. 예를 들어, 서브밴드 사이즈는 전체 주파수 범위에 걸치거나 또는 전체 주파수 범위를 균등하게 2개, 4개, 또는 8개 등으로 분할한 대역폭일 수도 있다. 특히, 서브밴드 사이즈가 전체 주파수 범위를 2개 이상으로 분할한 대역폭일 경우에, 후속되는 잡음 상태의 식별 과정이나 잡음 추정 절차, 및 음질 개선 등의 절차는 퓨리에 스펙트럼을 각 서브밴드 단위로 분할하여 신호 처리 절차를 수행할 수도 있다. 이 경우에, 각 서브밴드에 대한 노이지 음성 신호의 퓨리에 변환 스펙트럼은 Y i,j (f)로 표시할 수 있는데, 여기서 j(0≤j<J<L이고, J와 L은 각각 전체 서브밴드 개수와 전체 주파수 위치 개수를 결정짓는 자연수이다)는 전체 주파수 2L에서 서브밴드 사이즈(=2L-J)로 나눈 서브밴드 인덱스를 나타낸다.
다음으로, 퓨리에 변환된 신호에 대한 평활화(smoothing) 절차를 수행한다(S12). 평활화 절차는 전체 퓨리에 스펙트럼에 대하여 수행하거나 또는 각 서브밴드 단위로 수행할 수도 있다. 평활화 절차는 인접한 프레임 신호 사이에 존재하는 신호들의 크기 편차를 완화하기 위한 것으로써, 일반적으로 인접한 프레임의 신호들 사이에 그 크기에 있어서 큰 편차가 존재하는 경우에, 이들로부터 잡음의 상태를 정확하게 식별하거나 또는 정확한 실제 잡음을 취득하기가 어려운 문제가 있기 때문이다. 이에 의하면, 후속 단계인 전방향 탐색이나 그 이후의 단계에서, 평활화되기 이전의 퓨리에 스펙트럼의 크기인
Figure 112008023455191-pat00003
를 사용하는 대신에 평활 요소(smoothing factor, αs)를 적용하여 인접 프레임의 신호들간의 편차를 완화시킨 평활화된 스펙트럼을 사용한다.
퓨리에 변환 스펙트럼 Y i (f)에 대한 크기 평활화 단계의 적용 결과, 수학식 3과 같은 평활 크기 스펙트럼(smoothed magnitude spectrum) S i (f)이 출력될 수 있다. 만일, 평활화 절차가 각 서브밴드 단위의 퓨리에 스펙트럼 Y i,j (f)에 대하여 수행되는 경우에는, 출력되는 평활 크기 스펙트럼은 S i,j (f)로 나타낼 수 있다.
Figure 112008023455191-pat00004
그리고 평활화 절차를 전방향 탐색 절차의 이전에 수행하면, 후속되는 전방향 탐색 절차에서 음성 성분의 밸리(valley) 부분이 잡음 유사 영역이나 잡음 우세 프레임으로 잘못 판정되는 것을 방지할 수도 있다. 왜냐하면, 전방향 탐색 절차에서 상대적으로 큰 편차를 갖는 입력 신호를 그대로 사용하는 경우에는, 탐색 스펙트럼과 음성 성분의 밸리 부분과 일치할 수가 있기 때문이다.
일반적으로 음성 유사 영역이나 음성 우세 구간에서 상기 음성 성분의 밸리 전후에는 상대적으로 크기가 큰 음성 신호가 수반되기 때문에, 평활화 절차를 수행하면 음성 성분의 밸리 부분은 그 크기가 상대적으로 크게 증가한다. 따라서 평활화 절차를 수행하면 전방향 탐색 단계에서 상기 밸리 부분이 탐색 스펙트럼과 일치하게 되는 것을 방지할 수가 있다.
다음으로, 출력되는 평활 크기 스펙트럼 S i (f)에 대한 전방향 탐색(forward searching)을 수행한다(S13). 이러한 전방향 탐색은 각 서브밴드 단위로 수행될 수 있는데, 이 경우에는 전방향 탐색 절차에서는 S i,j (f)신호가 이용된다. 전방향 탐색 절차는 한 프레임 전체 또는 한 프레임에서 나뉜 여러 서브밴드 단위로 평활 크기 스펙트럼에 존재하는 잡음 성분을 예측하기 위한 과정이다.
후술하는 바와 같이, 전방향 탐색 절차에서는 직전 프레임의 탐색 스펙트럼만을 이용하거나 및/또는 직전 프레임의 탐색 스펙트럼과 직전 프레임의 평활 크기 스펙트럼 중에서 크기가 작은 스페트럼과 현재 프레임의 평활 크기 스펙트럼만을 이용하여 탐색 스펙트럼을 구하거나 업데이트 한다. 이러한 전방향 잡음 탐색 절차를 이용하면, 종래의 VAD 기반 방법이나 변형된 MS 알고리즘에 존재하는 여러 가지 문제점, 예컨대 비정적인 잡음 환경이나 잡음 에너지 레벨의 변화가 심한 경우에 잡음 추정이 정확하게 이루어지지 않는 문제점이나 많은 계산량 또는 상당히 많은 이전 프레임의 정보를 저장해야 하는 문제점 등을 효율적으로 극복할 수 있다. 이하, 본 발명의 실시예에 따른 전방향 탐색 절차에서 이용될 수 있는 세 가지 유형의 탐색 스펙트럼에 대하여 상세하게 설명한다.
수학식 4는 첫 번째 전방향 탐색 절차에 따른 탐색 스펙트럼의 일례를 수학적으로 표현한 것이다.
Figure 112008023455191-pat00005
여기서 i는 프레임 인덱스이고, j(0≤j<J<L)는 전체 주파수 2L에서 서브밴드(SB) 사이즈(=2 L-J )로 나눈 서브밴드 인덱스인데, JL은 각각 전체 서브밴드의 개수와 전체 주파수 위치 개수를 결정짓는 자연수이다. 그리고 T i,j (f)는 첫 번째 전방향 탐색 절차에 이용되는 탐색 스펙트럼이고, S i,j (f)는 수학식 3에 따른 평활 크기 스펙트럼이다. U i-1,j (f)는 이전 프레임의 전방향 탐색의 정도를 반영하기 위한 가중된 스펙트럼(weighted spectrum)으로써, 예컨대 이전 프레임의 탐색 스펙트럼과 평활 크기 스펙트럼 중에서 더 작은 값을 지시할 수 있다. 또한, κ(j)(0 < κ(J-1) ≤ κ(j) ≤ κ(0) ≤ 1)는 탐색 스펙트럼 Ti,j(f)를 계산하기 위해 이전 프레임의 가중된 스펙트럼 Ui-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 Si,j(f)간의 갱신 정도를 반영하는 차등적 망각 요소이다.
본 발명의 일 실시예에 따른 첫 번째 전방향 탐색 절차에 의하면, 이전 프레임의 평활 크기 스펙트럼 Si-1,j(f) 또는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 Si,j(f)을 이용하여 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 구한다. 보다 구체적으로, 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)이 이전 프레임의 평활 크기 스펙트럼 Si-1,j(f)보다 더 작은 경우에는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 Si,j(f)을 이용하여, 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 구한다. 반면, 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)이 이전 프레임의 평활 크기 스펙트럼 Si-1,j(f)보다 더 큰 경우에는, 이전 프 레임의 탐색 스펙트럼 Ti-1,j(f)은 이용하지 않고 이전 프레임과 현재 프레임의 평활 크기 스펙트럼 Si-1,j(f) 및 Si,j(f)만을 이용하여, 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 구한다.
따라서 상기 첫 번째 전방향 탐색 절차에서는, 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 평활 크기 스펙트럼 Si-1,j(f) 중에서 크기가 더 작은 스펙트럼과 함께 현재 프레임의 평활 크기 스펙트럼 Si,j(f)을 이용하여, 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 구한다. 이 경우에, 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 평활 크기 스펙트럼 Si-1,j(f) 중에서 크기가 더 작은 스펙트럼은 '가중된 스펙트럼'이라고 칭할 수도 있다.
계속해서 수학식 4를 참조하면, 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 계산하는데 있어서 망각 요소(수학식 4에서 κ(j)로 표기)도 사용된다. 망각 요소는 이전 프레임의 가중된 스펙트럼 Ui-1,j(f)와 현재 프레임의 평활 크기 스펙트럼 Si,j(f)간의 갱신 정도를 반영하기 위한 것이다. 이러한 망각 요소는 서브밴드 인덱스에 따라서 값이 변하는 차등적 망각 요소 κ(j)일 수 있는데, 이 경우에 차등적 망각 요소 κ(j)는 예컨대, 수학식 5와 같이 정의될 수도 있다.
Figure 112008023455191-pat00006
이와 같이, 서브 밴드 별로 차등적 망각 요소 κ(j)의 크기를 달리하는 이유는 일반적으로 저주파 대역에서는 음성 신호인 유성음이 상대적으로 많은 비율을 차지하고, 고주파 대역에서는 잡음 신호인 무성임이 상대적으로 많은 비율을 차지하기 때문이다. 수학식 5에 의하면, 저주파 대역에서는 차등적 망각 요소 κ(j)의 크기가 상대적으로 크며, 그 결과 탐색 스펙트럼 Ti,j(f)에는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f) 또는 평활 크기 스펙트럼 Si-1,j(f)이 상대적으로 높은 비율로 반영된다. 반면에, 고주파 대역에서는 차등적 망각 요소 κ(j)의 크기가 작아지며 그 결과 탐색 스펙트럼 Ti,j(f)에는 현재 프레임의 평활 크기 스펙트럼 Si,j(f)이 더 높은 비유로 반영된다.
이러한 첫 번째 전방향 탐색 절차에 따른 탐색 스펙트럼(수학식 4)의 개략적인 모양은 도 2에 도시되어 있다. 도 2에서 가로축은 시간 방향, 즉 프레임 인덱스 j가 증가하는 방향을 나타내고 세로축은 크기 스펙트럼(평활 크기 스펙트럼이나 탐색 스펙트럼)을 나타낸다. 다만, 도 2에 도시된 평활 크기 스펙트럼 Si,j(f)이나 탐색 스펙트럼 Ti,j(f)은 단지 예시적으로 도시한 것이며, 그 미세 모양을 세부적으로 도시하지 않고 개략적인 개형만을 도시한 것이다.
도 2를 참조하면, 수학식 4에 따른 탐색 스펙트럼 Ti,j(f)은 평활 크기 스펙트럼 Si,j(f)의 제1 극소점(P1)에서 출발하여 평활 크기 스펙트럼 Si,j(f)을 추종하여 증가한다(단, 첫 번째 프레임의 탐색 스펙트럼 T1,j(f) 크기는 평활 크기 스펙트럼 S1,j(f)의 크기와 같다). 이러한 탐색 스펙트럼 Ti,j(f)은 평활 크기 스펙트럼 Si,j(f)의 기울기보다는 작은 소정의 기울기로 증가하는 형태를 가질 수 있다. 탐색 스펙트럼 Ti,j(f)의 기울기는 일정할 필요가 없지만, 그렇다고 본 발명의 실시예가 일정한 기울기를 갖는 것을 배제하는 것은 아니다. 그 결과, 탐색의 초기 단계인 평활 크기 스펙트럼 Si,j(f)이 증가하는 구간, 예컨대 제1 극소점(P1)에 해당되는 시간(T1)에서부터 평활 크기 스펙트럼 Si,j(f)의 제1 극대점(P2)에 해당되는 시간(T2)까지는, 대체적으로 평활 크기 스펙트럼 Si,j(f)과 탐색 스펙트럼 Ti,j(f)과의 차이는 증가한다.
그리고 상기 제1 극대점(P2)에 해당되는 시간(T2) 이후, 즉 평활 크기 스펙트럼 Si,j(f)이 감소하는 구간에서는 대체적으로 평활 크기 스펙트럼 Si,j(f)과 탐색 스펙트럼 Ti,j(f)과의 차이는 감소한다. 왜냐하면, 탐색 스펙트럼 Ti,j(f)은 크기가 일정하거나 조금씩 크기가 증가하기 때문이다. 이 경우, 평활 크기 스펙트럼 Si,j(f)의 제2 극소점(P3)에 해당되는 시간(T4) 이전의 임의의 시간(T3)에서 탐색 스펙트럼 Ti,j(f)과 평활 크기 스펙트럼 Si,j(f)이 만나며, 그 이후에는 상기 탐색 스펙트럼 Ti,j(f)은 평활 크기 스펙트럼 Si,j(f)을 추종하여 상기 제2 극소점(P3)에 해당되는 시간(T4)까지 그 값이 감소한다. 이 때, 평활 크기 스펙트럼 Si,j(f)과 탐색 스펙트럼 Ti,j(f)은 그 크기가 거의 유사하게 움직인다.
계속해서 도 2를 참조하면, 이러한 평활 크기 스펙트럼 Si,j(f)의 제1 극소점(P1)에서 제2 극소점(P3) 사이에서 나타나는 탐색 스펙트럼 Ti,j(f)의 궤적은, 평활 크기 스펙트럼 Si,j(f)의 제2 극소점(P3)에서 제3 극소점(P5) 사이 및 그 이후에도 계속적으로 동일한 형태로 나타난다.
이와 같이, 본 발명의 일 실시예에 따른 첫 번째 전방향 탐색 절차에서는, 이전 프레임의 평활 크기 스펙트럼 Si-1,j(f) 또는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 Si,j(f)을 이용하여 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 구하며, 상기 탐색 스펙트럼 Ti,j(f)은 계속 업데이트된다. 그리고 이렇게 구한 탐색 스펙트럼 Ti,j(f)은, 각 서브밴드별로 입력 노이지 음성 신호에서 잡음이 차지하는 비율을 예측하거나 또는 잡음의 크기를 추정하는데 이용할 수 있는데, 이에 대해서는 후술한다.
다음으로 본 발명의 일 실시예에 따른 두 번째 및 세 번째 전방향 탐색 절차에 대하여 수행한다.
본 발명의 일 실시예에 따른 두 번째 및 세 번째 전방향 탐색 절차에서는 탐색을 2단계로 구분하여 수행한다는 점에서, 상기 첫 번째 전방향 탐색 절차와 다소 차이가 있지만 그 기본 원리가 다른 것은 아니다. 보다 구체적으로, 두 번째 및 세 번째 전방향 탐색 절차에서는 하나의 탐색 구간(예컨대, 평활 크기 스펙트럼 Si,j(f)에서 서로 인접한 극소점 사이)을 두 개의 하부 구간으로 나누어서, 각 하부 구간에 대하여 궤적을 달리하여 전방향 탐색을 수행한다. 이러한 탐색 구간은 예컨대, 평활 크기 스펙트럼이 증가하는 제1 하부 구간과 감소하는 제2 하부 구간으로 구분할 수 있다.
수학식 6은 두 번째 전방향 탐색 절차에 따른 탐색 스펙트럼의 일례를 수학적으로 표현한 것이다.
Figure 112008023455191-pat00007
단, 수학식 6에 사용된 기호의 의미는 수학식 4와 같으므로 설명은 생략한다.
수학식 6을 참조하면, 본 발명의 실시예에 따른 두 번째 전방향 탐색 절차에서는 탐색의 전반부(예컨대, 평활 크기 스펙트럼 Si,j(f)이 증가하는 제1 하부 구간)에는 이전 프레임의 평활 크기 스펙트럼 Si-1,j(f) 또는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 Si,j(f)을 이용하여 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 구한다.
반면, 탐색의 후반부(예컨대, 평활 크기 스펙트럼 Si,j(f)이 감소하는 제2 하부 구간)에는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)만을 이용하여 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 구한다. 일례로, 수학식 6과 같이 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 동일하다고 할 수 있다. 다만, 이 경우에는 탐색 스펙트럼 Ti,j(f)이 평활 크기 스펙트럼 Si,j(f)보다 더 커지게 될 수가 있는데, 탐색 스펙트럼 Ti,j(f)이 평활 크기 스펙트럼 Si,j(f)이 만나는 이후의 구간에서는 상기 제1 하부 구간에서 사용한 방법과 동일한 방법을 이용하여 탐색 스펙트럼 Ti,j(f)을 업데이트한다. 왜냐하면, 탐색 스펙트럼 Ti,j(f)은 예측된 잡음 성분이기 때문에 평활 크기 스펙트럼 Si,j(f) 보다 더 클 수는 없기 때문이다.
그리고 전술한 첫 번째 전방향 탐색 절차에서와 마찬가지로, 제1 하부 구간에서 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 계산하는데 있어서 망각 요소(수학식 6에서 κ(j)로 표기)가 사용될 수 있다. 망각 요소는 이전 프레임의 가중된 스펙트럼 Ui-1,j(f)와 현재 프레임의 평활 크기 스펙트럼 Si,j(f)간의 갱신 정도를 반영하기 위한 것으로써, 예컨대 수학식 5와 같이 정의된 차등적 망각 요소 κ(j)일 수 있다.
이러한 두 번째 전방향 탐색 절차에 따른 탐색 스펙트럼(수학식 6)의 개략적인 모양은 도 3에 도시되어 있다. 도 3에서 가로축은 시간 방향, 즉 프레임 방향을 나타내고 세로축은 크기 스펙트럼(평활 크기 스펙트럼이나 탐색 스펙트럼)을 나타낸다. 그리고 도 3에 도시된 평활 크기 스펙트럼 Si,j(f)이나 탐색 스펙트럼 Ti,j(f) 은 도 2와 마찬가지로 그래프의 개형만을 예시적으로 도시한 것이다.
도 3을 참조하면, 제1 하부 구간, 즉 평활 크기 스펙트럼 Si,j(f)이 증가하는 구간에서의 수학식 6에 따른 탐색 스펙트럼 Ti,j(f)은, 도 2와 마찬가지로, 평활 크기 스펙트럼 Si,j(f)의 제1 극소점(P1)에서 출발하여 평활 크기 스펙트럼 Si,j(f)을 추종하여 증가한다. 그리고 제2 하부 구간, 즉 평활 크기 스펙트럼 Si,j(f)이 감소하는 구간에서의 수학식 6에 따른 탐색 스펙트럼 Ti,j(f)은, 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 동일하므로 기울기가 0인 직선의 형태를 갖는다. 이 경우에도 제1 극대점(P2)에 해당되는 시간(T2) 이후에는 대체적으로 평활 크기 스펙트럼 Si,j(f)과 탐색 스펙트럼 Ti,j(f)과의 차이는 감소하나 감소 정도는 도 2의 경우보다 낮다. 그리고 평활 크기 스펙트럼 Si,j(f)의 제2 극소점(P3)에 해당되는 시간(T4) 이전의 임의의 시간(T3)에서 탐색 스펙트럼 Ti,j(f)과 평활 크기 스펙트럼 Si,j(f)의 크기가 일치하며, 그 이후에는 도 2와 동일하므로 상세한 설명은 생략한다.
이와 같이, 본 발명의 일 실시예에 따른 두 번째 전방향 탐색 절차에서는, 이전 프레임의 평활 크기 스펙트럼 Si-1,j(f) 또는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 Si,j(f)을 이용하거나 또는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)만을 이용하여 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 구 한다. 그리고 상기 탐색 스펙트럼 Ti,j(f)은 후속 절차에서 각 서브밴드 단위나 또는 전체 주파수 범위에서 입력 노이지 음성 신호에서 잡음 상태를 예측하거나 또는 잡음의 크기를 추정하는데 이용할 수가 있다.
수학식 7은 세 번째 전방향 탐색 절차에 따른 탐색 스펙트럼의 일례를 수학적으로 표현한 것이다.
Figure 112008023455191-pat00008
단, 수학식 7에 사용된 기호의 의미는 수학식 4와 같으므로 설명은 생략한다.
수학식 7을 참조하면, 본 발명의 실시예에 따른 세 번째 전방향 탐색 절차에서는 전술한 두 번째 전방향 탐색 절차와는 반대로 탐색을 수행한다. 보다 구체적으로, 탐색의 전반부(예컨대, 평활 크기 스펙트럼 Si,j(f)이 증가하는 제1 하부 구간)에는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)만을 이용하여 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 구한다. 일례로, 수학식 7과 같이 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 동일하다고 할 수 있다. 반면, 탐색의 후반부(예컨대, 평활 크기 스펙트럼 Si,j(f)이 감소하는 제2 하부 구간)에는 이전 프레임의 평활 크기 스펙트럼 Si-1,j(f) 또는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 Si,j(f)을 이용하여 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 구한다.
그리고 전술한 첫 번째 및 두 번째 전방향 탐색 절차에서와 마찬가지로, 제2 하부 구간에서 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 계산하는데 있어서 망각 요소(수학식 7에서 κ(j)로 표기)가 사용될 수 있다. 망각 요소는, 예컨대 수학식 5와 같이, 서브밴드 인덱스에 따라서 값이 변하는 차등적 망각 요소일 수 있다.
이러한 세 번째 전방향 탐색 절차에 따른 탐색 스펙트럼(수학식 7)의 개략적인 모양은 도 4에 도시되어 있다. 도 4에서 가로축은 시간 방향, 즉 프레임 방향을 나타내고 세로축은 크기 스펙트럼(평활 크기 스펙트럼이나 탐색 스펙트럼)을 나타낸다. 그리고 도 4에 도시된 평활 크기 스펙트럼 Si,j(f)이나 탐색 스펙트럼 Ti,j(f)도 도 2 및 도 3과 마찬가지로 그래프의 개형만을 예시적으로 도시한 것이다.
도 4를 참조하면, 제1 하부 구간, 즉 평활 크기 스펙트럼 Si,j(f)이 증가하는 구간에서의 수학식 7에 따른 탐색 스펙트럼 Ti,j(f)은 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 동일하므로 기울기가 0인 직선의 형태를 갖는다. 그 결과, 탐색의 초기 단계, 예컨대 제1 극소점(P1)에 해당되는 시간(T1)에서부터 평활 크기 스펙트럼 Si,j(f)의 제1 극대점(P2)에 해당되는 시간(T2)까지는, 대체적으로 평활 크기 스펙 트럼 Si,j(f)과 탐색 스펙트럼 Ti,j(f)과의 차이는 증가한다. 그리고 차이의 증가율도 도 2나 도 3의 경우보다 크다.
그리고 제2 하부 구간, 즉 평활 크기 스펙트럼 Si,j(f)이 감소하는 구간에서의 수학식 7에 따른 탐색 스펙트럼 Ti,j(f)은, 평활 크기 스펙트럼 Si,j(f)의 제1 극소점(P1)에서 출발하여 평활 크기 스펙트럼 Si,j(f)을 추종하여 증가한다. 이 경우에도 제1 극대점(P2)에 해당되는 시간(T2) 이후에는 대체적으로 평활 크기 스펙트럼 Si,j(f)과 탐색 스펙트럼 Ti,j(f)과의 차이는 감소한다. 그리고 평활 크기 스펙트럼 Si,j(f)의 제2 극소점(P3)에 해당되는 시간(T4) 이전의 임의의 시간(T3)에서 탐색 스펙트럼 Ti,j(f)과 평활 크기 스펙트럼 Si,j(f)의 크기가 일치하며, 그 시간(T3) 이후에는, 상기 탐색 스펙트럼 Ti,j(f)은 평활 크기 스펙트럼 Si,j(f)을 추종하여 상기 제2 극소점(P3)에 해당되는 시간(T4)까지 그 값이 감소한다.
이와 같이, 본 발명의 일 실시예에 따른 세 번째 전방향 탐색 절차에서는 이전 프레임의 평활 크기 스펙트럼 Si-1,j(f) 또는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 Si,j(f)을 이용하거나 또는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)만을 이용하여 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 구한다. 상기 탐색 스펙트럼 Ti,j(f)은, 각 서브밴드별로 또는 전체 주파수 범위에서 입력 노이지 음성 신호에서 잡음이 차지하는 비율을 예측하거나 또는 잡음의 크기 를 추정하는데 이용할 수가 있다.
계속해서 도 1을 참조하면, 전방향 탐색 단계의 결과로 구한 탐색 스펙트럼 Ti,j(f)과 평활 크기 스펙트럼 Si,j(f)을 이용하여 식별비를 계산한다(S14). 식별비는, 입력 노이지 음성 신호의 잡음 상태를 판별하기 위한 것으로써, 입력 노이지 음성 신호에서 잡음 신호가 차지하는 비율을 나타내는 것일 수 있다. 이러한 식별비를 이용하면, 현재 프레임이 잡음 우세 프레임(Noise Dominant Frame)인지 또는 음성 우세 프레임(Speech Dominat Frame)인지를 판단하거나 또는 입력 노이지 음성 신호에서 잡음 유사 영역(Noise-like Region)과 음성 유사 영역(Speech-like Region)을 구분할 수가 있다.
상기 식별비는 전체 주파수 범위에 대하여 계산되거나 또는 서브밴드 단위로 계산될 수 있다. 전체 주파수 범위에 대하여 계산할 경우에, 각 서브밴드별 탐색 스펙트럼 Ti,j(f)과 평활 크기 스펙트럼 Si,j(f)을 각각 소정의 가중치를 부여하여 먼저 합한 다음에 식별비를 계산하거나 또는 각 서브밴드별로 식별비를 먼저 계산한 다음에 상기 서브밴드별 식별비를 소정의 가중치를 부여하여 합할 수도 있다.
식별비를 정확하게 계산하기 위해서는 입력 노이지 음성 신호에서 잡음 신호만을 추출해낼 수 있어야 한다. 그러나 음성과 잡음이 공존하는 노이지 음성 신호가 단일 채널을 통해 입력되는 경우에는 현실적으로 입력 신호에서 잡음 신호만을 추출할 수가 없다. 따라서 본 발명의 실시예에서는 이러한 식별비를 계산하기 위하 여, 실제 잡음 신호가 아니라 전술한 탐색 스펙트럼 Ti,j(f), 즉 예측된 잡음 스펙트럼을 이용한다.
따라서 본 발명의 실시예에 의하면, 상기 식별비는 입력 노이즈 음성 신호의 크기, 즉 평활 크기 스펙트럼 Si,j(f)에 대한 탐색 스펙트럼 또는 예측된 잡음 스펙트럼 Ti,j(f)의 비율로 계산할 수 있다. 다만, 잡음 신호의 크기는 원 입력 신호보다 클 수가 없기 때문에 상기 식별비는 1보다 클 수 없으며, 이러한 경우에는 상기 식별비를 1로 할 수 있다.
이와 같이 본 발명의 실시예에 따라서 식별비를 정의할 경우에, 잡음의 상태는 다음과 같이 판별할 수 있다. 예컨대, 상기 식별비가 1에 근접할 경우에 해당 프레임은 잡음 유사 영역에 포함되거나 또는 잡음 우세 프레임에 해당된다. 그리고 상기 식별비가 0에 근접할 경우에는 해당 프레임은 음성 유사 영역에 포함되거나 또는 음성 우세 프레임에 해당된다.
본 발명의 실시예와 같이 탐색 스펙트럼 Ti,j(f)을 이용하여 식별비를 구하면, 여러 개의 과거 프레임에 대한 정보가 필요 없어서 대용량의 메모리가 요구되지 않으며 또한 계산량도 많지 않은 장점이 있다. 또한, 탐색 스펙트럼 Ti,j(f)(특히, 수학식 4의 탐색 스펙트럼)은 입력 노이지 음성 신호의 잡음 성분을 적응적으로 반영하기 때문에, 잡음 상태의 판별이나 잡음 추정의 정확도가 높다.
수학식 8은 본 발명의 실시예에 따른 식별비 φi(j)의 일례를 보여 주는 계 산식으로써, 이에 의하면 식별비가 각 서브밴드별로 계산된다. 수학식 8을 참조하면, j번째 서브밴드에서의 식별비 φi(j)는 해당 서브밴드에서의 평활 크기 스펙트럼의 합에 대한 탐색 스펙트럼과 평활 크기 스펙트럼 중에서 크기가 작은 스펙트럼의 합 사이의 비임을 알 수 있다. 따라서 식별비 φi(j)는 0이상이지만 그 값은 1보다 클 수는 없다.
Figure 112008023455191-pat00009
여기서 i는 프레임 인덱스이고, j(0≤j<J<L)는 전체 주파수 2L에서 서브밴드(SB) 사이즈(=2 L-J )로 나눈 서브밴드 인덱스인데, JL은 각각 전체 서브밴드의 개수와 전체 주파수 위치 개수를 결정짓는 자연수이다. 그리고 T i,j (f)는 전방향 탐색 절차에 따른 예측된 잡음 스펙트럼 또는 탐색 스펙트럼이고, S i,j (f)는 수학식 3에 따른 평활 크기 스펙트럼이다. 그리고 min(a, b)는 a와 b 중에서 더 작은 값을 가리킨다.
그리고 식별비 φi(j)를 수학식 8과 같이 정의하는 경우에, 수학식 4, 6, 및 7에서의 가중된 평활 크기 스펙트럼 U i,j (f)은 다음의 수학식 9와 같이 나타낼 수 있다.
Figure 112008023455191-pat00010
도 5는 단계(S14)에서 구한 식별비 φi(j)를 이용하여 잡음의 상태를 판별하는 과정의 일례를 설명하기 위한 도면이다. 도 5에서 가로축은 시간 방향, 즉 프레임의 진행 방향을 나타내고, 세로축은 식별비 φi(j)를 나타낸다. 그리고 도 5의 식별비 φi(j)의 그래프는 도 2에 도시된 j번째 서브밴드에 대한 평활 크기 스펙트럼 S i,j (f)과 탐색 스펙트럼 T i,j (f)을 수학식 9에 적용하여 구한 값을 개략적으로 나타낸 것이다. 따라서 도 5에 표시되어 있는 시간 T1, T2, T3, 및 T4은 각각 도 2에 표시되어 있는 시간에 대응한다.
도 5를 참조하면, 식별비 φi(j)는 임의의 식별비 임계치(threshold value) φth를 기준으로 두 부분으로 구분된다. 여기서 식별비 임계치 φth는 0과 1 사이, 보다 구체적으로는 0.3과 0.7 사이의 임의의 값일 수 있는데, 예컨대 식별비 임계치 φth는0.5가 될 수 있다. 그리고 시간 Ta와 시간 Tb 사이와 시간 Tc와 시간 Td 사이(빗금친 영역)에서는 식별비 φi(j)가 상기 식별비 임계치 φth 보다 크지만, 시간 Ta 이전, 시간 Tb와 시간 Tc 사이, 및 시간 Td 이후에서는 식별비 φi(j)가 상기 식별비 임계치 φth 보다 작다. 본 발명의 실시예에 의하면, 식별비 φi(j)는 평활 크기 스펙트럼 Si,j(f)에 대한 탐색 스펙트럼 Ti,j(f)의 비율로 정의되므로, 식별비 φ i(j)가 식별비 임계치 φth 이상인 시간(프레임)은 잡음 유사 영역(프레임)이라고 판별할 수 있고, 식별비 φi(j)가 식별비 임계치 φth 이상인 시간(프레임)은 음성 유사 영역(프레임)이라고 판별할 수 있다.
본 실시예의 다른 측면에 의하면, 단계 S14에서 구한 식별비 φi(j)는 음성 인식을 위한 VAD로 이용할 수도 있다. 예를 들어, 단계 S14에서 구한 식별비 φi(j)가 소정의 임계치 이하인 경우에만 음성 신호가 있는 것으로 간주하고, 상기 식별비 φi(j)가 소정의 임계치 이상인 경우에는 음성 신호가 없는 것으로 간주할 수 있다.
이상에서 상세하게 설명한 본 발명의 실시예에 따른 입력 노이지 음성 신호의 잡음 상태를 판별하기 위한 절차는 적어도 다음과 같은 두 가지의 특징을 갖는다.
첫째, 본 발명의 실시예에 의하면 탐색 스펙트럼 Ti,j(f)을 이용하여 잡음 상태를 판별하기 때문에, 기존의 VAD 방법 등과는 달리, 여러 개의 잡음 프레임이나 긴 과거 프레임에서 나타나는 정보를 이용하지 않는다. 대신에, 본 발명의 실시예에 의하면, 현재 프레임 또는 현재 프레임에서 나뉜 둘 이상의 서브밴드 각각에서 전방향 탐색 방법을 이용하여 탐색 스펙트럼 Ti,j(f)을 구하고 또한 이를 이용하여 구한 식별비 φi(j)만을 이용하여 잡음의 상태를 판별할 수 있다. 따라서 본 발명의 실시예에 의하면, 기존의 방법에 비하여 계산량이 현저히 적을 뿐만 아니라 대용량의 메모리도 필요 없으므로, 실제 하드웨어나 소프트웨어로 구현하기가 용이하다.
둘째, 본 발명의 실시예에 의하면, 잡음의 레벨 변화가 크거나 또는 잡음 환경이 변화하는 등과 같이 비정적인 잡음 환경에서도 잡음의 상태를 빨리 판별할 수가 있다. 왜냐하면, 본 발명의 실시예에서는 전방향 탐색을 이용하여 탐색 스펙트럼 Si,j(f)을 구하며, 또한 이러한 탐색 스펙트럼을 구하는데 있어서 적응적으로 변화하는 여러 가지 값들, 예컨대 차등적 망각 요소 κ(j), 가중된 평활 크기 스펙트럼 Ui,j(f), 및/또는 식별비 φi(j)가 적용되기 때문이다.
제2 실시예
다음으로 본 발명의 제2 실시예에 따른 노이지 음성 신호의 처리 절차로써, 입력 노이지 음성 신호에 대한 잡음 추정 절차에 대하여 설명한다.
도 6은 본 발명의 일 실시예에 따른 입력 노이지 음성 신호에 대한 잡음 추정 절차를 보여 주는 흐름도이다. 도 6을 참조하면, 본 발명의 제2 실시예에 따른 잡음 추정 절차는 입력 노이지 음성 신호에 대한 퓨리에 변환 단계(Fourier Transform, S21), 크기 평활화 단계(Magnitude Smoothing, S22), 전방향 탐색 단계(Forward Searching, S23), 및 적응적 잡음 추정 단계(Adaptive Noise Estimation, S24)를 포함한다. 여기서 상기 단계 S21 내지 S23은, 도 1을 참조하여 전술한 본 발명의 제1 실시예에 따른 잡음 상태의 판별 절차의 단계 S11 내지 S13 과 동일한 과정이 이용될 수 있으므로, 이하에서는 전술한 제1 실시예에서 상세하게 설명하지 않은 부분을 중심으로 설명한다.
도 6을 참조하면, 우선 입력 노이지 음성 신호 y(n)에 대한 퓨리에 변환(Fourier Transform)을 수행한다(S21). 퓨리에 변환의 결과, 입력 노이지 음성 신호 y(n)는 퓨리에 스펙트럼(Fourier Spectrum, FS) Y i,j (f)으로 근사화될 수 있다.
다음으로, 퓨리에 스펙트럼 Y i,j (f)에 대한 평활화(smoothing) 과정을 수행한다(S22). 평활화 단계는 전체 퓨리에 스펙트럼에 대하여 수행하거나 또는 각 서브밴드 단위로 수행할 수도 있다. 퓨리에 스펙트럼 Y i,j (f)에 대한 크기 평활화 단계의 적용 결과, 평활 크기 스펙트럼(smoothed magnitude spectrum) S i,j (f)이 출력된다.
다음으로, 출력되는 평활 크기 스펙트럼 S i,j (f)에 대한 전방향 탐색을 수행한다(S23). 전방향 탐색 절차는 한 프레임 전체 또는 한 프레임에서 나뉜 여러 서브밴드 단위로 평활 크기 스펙트럼에 존재하는 잡음의 상태를 예측하기 위한 것으로써, 예시적인 절차이다. 즉, 본 발명의 제2 실시예에서 잡음의 상태를 예측하는데 있어서, 반드시 전방향 탐색 절차가 이용될 필요는 없으며, 기존의 어떠한 방법이라도 이용될 수 있다. 본 발명의 실시예에 따른 전방향 탐색 절차에서는 수학식 4, 수학식 6, 또는 수학식 7을 이용할 수 있으며, 그 결과 탐색 스펙트럼 Ti,j(f)이 얻어질 수 있다.
계속해서 도 6을 참조하면, 전방향 탐색이 완료되면 잡음 추정 절차를 수행한다(S24). 전술한 바와 같이, 단일 채널을 통해 입력되는 노이지 음성 신호에서 잡음 성분만을 분리하여 추출할 수는 없으므로, 본 단계의 잡음 추정 과정은 상기 입력 노이지 음성 신호에 포함되어 있는 잡음 성분 또는 그것의 크기를 예측하는 과정이라고 할 수 있다.
보다 구체적으로, 본 발명의 실시예에서는 탐색 스펙트럼 Ti,j(f)을 이용하여 정의되는 적응적 망각 요소 λi(j)를 이용한 순환 평균 기법을 이용하여 잡음 스펙트럼 또는 잡음 신호의 크기
Figure 112008023455191-pat00011
를 추정한다. 예컨대, 현재 프레임의 평활 크기 스펙트럼 Si,j(f)과 직전 프레임의 잡음 스펙트럼의 크기
Figure 112008023455191-pat00012
에 적응적 망각 요소 λi(j)를 적용한 순환 평균 기법으로 잡음 스펙트럼
Figure 112008023455191-pat00013
을 업데이트할 수 있다.
그리고 본 발명의 실시예에 의하면, 잡음 추정 단계 S24는 전체 주파수 범위에 대하여 일괄적으로 수행되거나 또는 서브밴드 단위로 수행될 수 있다. 후자의 경우에, 적응적 망각 요소 λi(j)는 서브밴드 별로 그 값이 달라질 수 있다. 잡음 성분, 특히 뮤지컬 잡음은 고주파 밴드에 많이 발생하므로, 서브밴드별로 적응적 망각 요소 λi(j)를 달리하면 잡음의 특성에 따른 효율적인 잡음 추정이 가능하다.
본 실시예의 일 측면에 의하면, 상기 적응적 망각 요소 λi(j)는 전방향 탐색의 결과로 구한 탐색 스펙트럼 Ti,j(f)을 이용하여 구할 수 있지만, 본 실시예가 여기에만 한정되는 것은 아니다. 즉, 본 실시예에 따른 잡음 추정 절차에서 이용될 수 있는 적응적 망각 요소 λi(j)는 전방향 탐색 단계(S23)에서 구한 탐색 스펙트럼 Ti,j(f)이 아닌 지금까지 알려진 방법이나 이후에 새로 개발될 다른 방법으로 예측한 잡음 상태를 나타내기 위한 탐색 스펙트럼이나 예측 잡음 스펙트럼 등을 이용하여 구할 수도 있다.
본 발명의 일 실시예에 의하면, 현재 프레임의 평활 크기 스펙트럼 Si,j(f)과 이전 프레임의 추정된 잡음 스펙트럼
Figure 112008023455191-pat00014
을 이용한 가중 평균 기법으로 현재 프레임의 잡음 신호, 예컨대 현재 프레임의 잡음 스펙트럼
Figure 112008023455191-pat00015
을 구한다. 다만, 본 발명의 실시예에서는 고정된 망각 요소를 사용하는 종래의 가중 평균 기법과는 달리, 시간에 따른 잡음의 변화가 반영되며 또한 서브밴드별로 가중치가 달라지는 적응적 망각 요소 λi(j)를 사용하여 잡음 스펙트럼을 구한다. 이러한 본 발명의 실시예에 따른 잡음 추정 절차는 수학식 10으로 표현할 수 있다.
Figure 112008023455191-pat00016
본 실시예의 다른 측면에 의하면, 현재 프레임이 잡음 유사 프레임인 경우에 는, 수학식 10과 같이, 현재 프레임의 평활 크기 스펙트럼 Si,j(f)과 이전 프레임의 추정된 잡음 스펙트럼
Figure 112008023455191-pat00017
을 이용한 가중 평균 기법으로 현재 프레임의 잡음 스펙트럼
Figure 112008023455191-pat00018
을 구할 수 있다. 그리고 현재 프레임이 음성 유사 프레임인 경우에는, 이전 프레임의 추정된 잡음 스펙트럼
Figure 112008023455191-pat00019
만을 이용하여 현재 프레임의 잡음 스펙트럼
Figure 112008023455191-pat00020
을 구할 수 있다. 이러한 경우에는 상기 수학식 10에서 적응적 망각 요소 λi(j)가 0이 되는 경우에 해당되며, 그 결과 현재 프레임의 잡음 스펙트럼
Figure 112008023455191-pat00021
은 이전 프레임의 잡음 스펙트럼
Figure 112008023455191-pat00022
과 동일하게 된다.
특히, 본 발명의 실시예에 의하면, 상기 적응적 망각 요소 λi(j)는 단계 S23에서 구한 탐색 스펙트럼 Ti,j(f)을 이용하여 지속적으로 업데이트될 수 있다. 예를 들어, 적응적 망각 요소 λi(j)는 전술한 제1 실시예의 단계 S14에서 구한 식별비 φi(j), 즉 평활 크기 스펙트럼 Si,j(f)에 대한 탐색 스펙트럼 Ti,j(f)의 비를 이용하여 구할 수 있다. 이 경우에, 적응적 망각 요소 λi(j)는 상기 식별비 φi(j)에 선형적으로 또는 비선형적으로 비례하도록 설정할 수 있다. 이러한 본 발명의 실시예는 이전 프레임의 추정된 잡음 신호를 이용하여 망각 요소를 적응적으로 업데이트하는 것과도 다르다.
그리고 본 실시예의 일 측면에 의하면, 상기 적응적 망각 요소 λi(j)는 서브 밴드 인덱스에 따라서 값이 변할 수 있다. 서브 밴드 별로 적응적 망각 요소 λ i(j)의 크기를 달리하면, 일반적으로 저주파 영역에서는 음성 신호인 유성음이 대부분을 차지하고, 고주파 영역에서는 잡음 신호인 무성음이 대부분을 차지한다는 특성을 잡음 추정에 반영할 수 있다. 예를 들어, 상기 적응적 망각 요소 λi(j)는 저주파 영역에서는 그 값이 작지만 고주파 영역에서는 그 값이 점점 증가하도록 할 수 있다. 이 경우에, 현재 프레임의 잡음 스펙트럼
Figure 112008023455191-pat00023
을 구할 때 현재 프레임의 평활 크기 스펙트럼 Si,j(f)의 반영 비율을 저주파 영역에 비하여 고주파 영역에서 크게 하고, 반대로 이전 프레임의 추정된 잡음 스펙트럼
Figure 112008023455191-pat00024
의 반영 비율은 고주파 영역에 비하여 저주파 영역에서 크게 되도록 할 수 있다. 이를 위하여, 상기 적응적 망각 요소 λi(j)는 서브 밴드 인덱스에 따라서 그 값이 차등적으로 부여되도록 하는 레벨 조정자 ρ(j)를 이용하여 표현할 수 있다.
수학식 11과 수학식 12는 전술한 본 발명의 실시예에 따른 적응적 망각 요소 λi(j)와 레벨 조정자 ρ(j)의 일례를 수학적으로 표현한 것이다.
Figure 112008023455191-pat00025
Figure 112008023455191-pat00026
여기서, i, j는 각각 프레임 인덱스 및 서브밴드 인덱스를 가리킨다. φi(j)는 잡음 상태를 판별하기 위한 식별비로써 예컨대, 수학식 8에 정의된 값일 수 있다. 그리고 φth (0 < φth < 1)는 입력 노이즈 음성 신호의 잡음 상태에 따라 잡음 유사 서브밴드 또는 음성 유사 서브밴드로 구분하기 위한 임계치로써, 0.3에서 0.7 사이의 값, 예컨대 0.5일 수 있다. 예컨대, φi(j)가 φth 보다 크면 해당 서브밴드에서는 잡음 유사 서브밴드인 것을 의미하고, 반대로 φi(j)가 φth 보다 작으면 해당 서브밴드에서는 음성 유사 서브밴드인 것을 의미한다. 그리고 bs와 be는 0 ≤ bs ≤ ρi(j) < be < 1의 관계가 성립하는 임의의 상수이다.
도 7은 수학식 12의 레벨 조정자 ρ(j)를 서브밴드 인덱스 j의 함수로 도시한 것이다. 도 7을 참조하면, 레벨 조정자 ρi(j)는 서브밴드 인덱스 j에 따라 그 값이 달라진다는 것을 알 수 있는데, 이러한 레벨 조정자 ρi(j)는 수학식 11에 따라서 망각 요소 λi(j)의 값이 서브밴드 인덱스 j에 따라 달라지도록 한다. 예를 들어, 레벨 조정자 ρi(j)는 저주파 영역에서는 그 값이 작지만, 서브밴드 인덱스가 증가할수록 ρi(j)도 증가한다. 이에 의하면, 잡음 추정(수학식 10 참조)에 있어서 저주파 영역 보다는 고주파 영역에서 입력 노이지 음성 신호가 반영되는 비율이 더 크다.
수학식 11을 참조하면, 적응적 망각 요소 λi(j)(0 < λi(j) < ρi(j))는 서 브밴드에 포함된 잡음 상태의 변화, 즉 식별비 φi(j)에 따라서 가변하는 적응적 망각 요소이다. 식별비 φi(j)는, 본 발명의 제1 실시에와 같이, 서브밴드 인덱스에 따라서 값이 적응적으로 변할 수 있지만, 본 실시예가 이러한 경우로 한정되는 것은 아니다. 그리고 전술한 바와 같이, 레벨 조정자 ρi(j)는 서브밴드 인덱스에 따라서 값이 증가한다. 따라서 본 발명의 실시예에 의하면, 적응적 망각 요소 λi(j)는 잡음 상태와 서브밴드 인덱스에 따라서 적응적으로 변한다.
수학식 8과 수학식 10 내지 수학식 12에 의할 경우에, 본 발명의 제2 실시예에 따른 잡음 추정 절차는 다음과 같이 보다 구체적으로 설명될 수 있다. 단, 설명의 편의를 위하여 레벨 조정자 ρi(j)와 식별비 임계치 φth는 해당 서브밴드에서 각각 0.2 및 0.5라고 가정한다.
우선, 식별비 φi(j)가 상기 식별비 임계치 φth인 0.5보다 작거나 같은 경우에, 수학식 11에 의하면 적응적 망각 요소 λi(j)는 0이 된다. 식별비 φi(j)가 0.5 보다 작은 구간은 음성 유사 영역이라고 할 수 있으므로, 이러한 구간에서는 노이지 음성 신호에서 음성 성분의 비중이 상대적으로 높다. 따라서 수학식 10에 의할 경우에, 이러한 음성 유사 영역에서는 잡음 추정의 갱신을 수행하지 않는다. 즉, 현재 프레임의 잡음 스펙트럼과 이전 프레임의 잡음 스펙트럼이 동일하다(
Figure 112008023455191-pat00027
=
Figure 112008023455191-pat00028
).
그리고 식별비 φi(j)가 상기 식별비 임계치 φth인 0.5보다 큰 경우, 예컨대 식별비 φi(j)가 1인 경우에, 수학식 11 및 12에 의하면 적응적 망각 요소 λi(j)는 0.2이 된다. 식별비 φi(j)가 0.5 보다 큰 구간은 잡음 유사 영역이라고 할 수 있으므로, 이러한 구간에서는 노이지 음성 신호에서 잡음 성분의 비중이 상대적으로 높다. 따라서 수학식 10에 의할 경우에, 이러한 잡음 유사 영역에서는 잡음 추정의 갱신을 수행한다(
Figure 112008023455191-pat00029
= 0.2ㅇSi,j(f) + 0.8ㅇ
Figure 112008023455191-pat00030
).
이상에서 상세하게 설명한 바와 같이, 본 발명의 제2 실시예에 따른 잡음 추정 방법에서는 잡음의 변화에 상관없이 프레임별로 고정된 망각 요소를 적용하는 기존의 WA 기법 대신에, 서브밴드에 존재하는 잡음의 상태에 따라 그 값이 변하는 적응적 망각 요소를 적용하여 잡음을 추정한다. 그리고 잡음 성분의 비중이 상대적으로 높은 잡음 유사 영역에서는 추정된 잡음의 업데이트가 지속적으로 이루어지지만, 음성 성분의 비중이 상대적으로 높은 음성 유사 영역에서는 업데이트를 하지 않는다. 따라서 본 발명의 실시예에 의하면, 잡음의 변화에 따라서 잡음 추정과 업데이트를 효율적으로 수행할 수가 있다.
그리고 본 실시예의 일 측면에 의하면, 상기 적응적 망각 요소는 입력 노이지 음성 신호의 잡음 상태에 따라서도 그 값이 달라질 수 있다. 예컨대, 상기 적응적 망각 요소는 식별비 φi(j)의 값에 비례할 수가 있으며, 이와 같은 경우에는 잡 음 성분이 더 많은 비중을 차지할수록 입력 노이지 음성 신호를 더 많이 반영함으로써, 잡음 추정의 정확도를 향상시킬 수가 있다.
또한, 본 실시예의 다른 측면에 의하면, 기존의 VAD 기반 방법이나 MS 알고리즘이 아닌 전술한 제1 실시예에 따른 전방향 탐색으로 구한 식별비 φi(j)를 이용하여 잡음 추정을 수행할 수가 있다. 그 결과, 본 실시예에서는 잡음 추정에 있어서 상대적으로 계산량이 적을 뿐만 아니라 요구되는 메모리의 용량도 크기 않기 때문에, 실제 하드웨어나 소프트웨어로 구현하기가 용이하다.
제3 실시예
다음으로 본 발명의 제3 실시예에 따른 노이지 음성 신호의 처리 절차로써, 입력 노이지 음성 신호에 대한 음질 개선 절차에 대하여 설명한다.
도 8은 본 발명의 일 실시예에 따른 입력 노이지 음성 신호에 대한 잡음 추정 절차를 보여 주는 흐름도이다. 도 8을 참조하면, 본 발명의 제3 실시예에 따른 음질 개선 절차는 입력 노이지 음성 신호에 대한 퓨리에 변환 단계(Fourier Transform, S31), 크기 평활화 단계(Magnitude Smoothing, S32), 전방향 탐색 단계(Forward Searching, S33), 적응적 잡음 추정 단계(Adaptive Noise Estimation, S34), 상대 크기 차이(Relative Magnitude Difference, RMD) 계산 단계(RMD Measure, S35), 개선된 비선형 구조의 과중 이득 함수 계산 단계(Calculation of Modified Overweighting Gain Function with Nonlinear Structure, S36), 및 변형 된 스펙트럼 차감 단계(Modified Spectral Subtraction, S37)를 포함한다.
여기서 상기 단계 S31 내지 S34는, 도 6을 참조하여 전술한 본 발명의 제2 실시예에 따른 잡음 추정 절차의 단계 S21 내지 S24와 동일한 과정이 이용될 수 있으므로, 이하에서는 전술한 제2 실시예에서 상세하게 설명하지 않은 부분을 중심으로 설명한다. 다만, 본 발명의 제3 실시예의 여러 가지 특징들 중의 하나는 추정된 잡음 스펙트럼을 이용하여 상기 단계 S35 및 S36을 수행하는 것이므로, 상기 단계 S31 내지 S34까지는 기존의 잡음 추정 절차로 대체되는 것을 배제하지는 않을 수도 있다.
도 8을 참조하면, 우선 입력 노이지 음성 신호 y(n)에 대한 퓨리에 변환(Fourier Transform)을 수행한다(S31). 퓨리에 변환의 결과, 입력 노이지 음성 신호 y(n)는 퓨리에 스펙트럼(Fourier Spectrum, FS) Y i,j (f)으로 근사화될 수 있다.
다음으로, 퓨리에 스펙트럼 Y i,j (f)에 대한 평활화(smoothing) 과정을 수행한다(S32). 평활화 단계는 전체 퓨리에 스펙트럼에 대하여 수행하거나 또는 각 서브밴드 단위로 수행할 수도 있다. 퓨리에 스펙트럼 Y i,j (f)에 대한 크기 평활화 단계의 적용 결과, 평활 크기 스펙트럼(smoothed magnitude spectrum) S i,j (f)이 출력된다.
다음으로, 출력되는 평활 크기 스펙트럼 S i,j (f)에 대한 전방향 탐색을 수행 한다(S33). 전방향 탐색 절차는 한 프레임 전체 또는 한 프레임에서 나뉜 여러 서브밴드 단위로 평활 크기 스펙트럼에 존재하는 잡음의 상태를 예측하기 위한 것으로써, 예시적인 절차이다. 즉, 본 발명의 제3 실시예에서 잡음의 상태를 예측하는데 있어서, 반드시 전방향 탐색 절차가 이용될 필요는 없으며, 기존의 어떠한 방법이라도 이용될 수 있다. 이하에서는, 수학식 4, 수학식 6, 또는 수학식 7을 이용하여 구한 탐색 스펙트럼 Ti,j(f)을 이용하는 경우에 대해서만 설명한다.
다음으로, 전방향 탐색을 통해서 구한 탐색 스펙트럼 Ti,j(f)을 이용하여 잡음을 추정한다(S34). 본 실시예의 일 측면에 의하면, 서브밴드 별로 차등적 값을 갖는 적응적 망각 요소 λi(j)를 구하고 또한 상기 적응적 망각 요소가 적용된 가중 평균 기법에 따라서 적응적으로 잡음을 추정할 수 있다. 이를 위하여, 현재 프레임의 평활 크기 스펙트럼 Si,j(f)과 이전 프레임의 추정된 잡음 스펙트럼
Figure 112008023455191-pat00031
을 이용한 가중 평균 기법으로 현재 프레임의 잡음 스펙트럼
Figure 112008023455191-pat00032
을 구할 수 있다(수학식 10, 11, 및 12 참조).
다음으로 단계 S36에서의 변형된 스펙트럼 차감 절차를 수행하기 위한 예비 단계로 상대 크기 차이(RMD) γi(j)를 계산한다(S35). 상대 크기 차이 γi(j)는 서브밴드에 걸쳐서 존재하는 노이지 음성 신호와 잡음 신호 사이의 상대적 차이를 나타내기 위한 것으로써, 이를 이용하면 뮤지컬 잡음의 잔재를 억제할 수 있는 과중 이득 함수 ψi(j)를 얻기 위해서 사용된다. 프레임에서 둘 이상으로 나눈 서브밴드 는 차등적 가중치를 적용하기 위하여 도입되었다.
Figure 112008023455191-pat00033
수학식 13은 기존의 방법에 따른 상대 크기 차이(RMD) γi(j)를 나타내는 식으로써, SB와 j는 각각 서브밴드 사이즈와 서브밴드 인덱스를 가리킨다. 그리고 수학식 13은 단계 S32의 크기 평활화 절차가 적용되지 않은 경우를 나타낸다는 점에서, 본 발명의 실시예와 차이가 있다. 이 경우에, Yi,j(f)와 Xi,j(f)는 각각 평활화 절차 이전의 퓨리에 변환된 노이지 음성 스펙트럼과 순수 음성 스펙트럼을 나타내고, 수학식 13의
Figure 112008023455191-pat00034
는 평활화 절차가 생략된 신호를 이용하여 구한 추정된 잡음 스펙트럼을 나타낸다.
수학식 13에서, 상대 크기 차이 γi(j)가 1에 가까우면 이 서브밴드는 개선된 음성에 뮤지컬 잡음이 상대적으로 적게 관찰되는 음성 유사 서브밴드를 나타낸다. 반대로 상대 크기 차이 γi(j)가 0에 가까우면 이 서브밴드는 개선된 음성에 뮤지컬 잡음이 상대적으로 적게 관찰되는 잡음 유사 서브밴드를 나타낸다. 또한 상대 크기 차이 γi(j)가 1이면 이 서브밴드에서는
Figure 112008023455191-pat00035
으로 되기 때문에 완전 한 잡음 서브밴드를 나타낸다. 반대로 상대 크기 차이 γi(j)가 0이면 이 서브밴드는
Figure 112008023455191-pat00036
이기에 완전한 음성 서브밴드를 나타낸다. 그러나 종래의 방법에 의하면, 단일 채널에서 비정적인 잡음에 오염된 노이지 음성 신호의 크기
Figure 112008023455191-pat00037
로부터 잡음 추정을 정확하게 수행하는 것은 어렵기 때문에 상대 크기 차이 γi(j)를 정확하게 구하는 것 또한 쉽지가 않다.
따라서 본 발명의 실시예에서는 보다 정확한 상대 크기 차이 γi(j)를 구하기 위하여 단계 S34에서 구한 추정된 잡음 스펙트럼
Figure 112008023455191-pat00038
과 max (Si,j(f),
Figure 112008023455191-pat00039
)를 사용한다. 수학식 14는 본 발명의 실시예에 따른 상대 크기 차이 γi(j)를 나타내는 식이다. 수학식 14에서 max (a, b)는 a와 b 중에서 더 큰 값을 나타내는 함수이다. 일반적으로, 잡음 신호는 이를 포함하는 노이지 음성 신호보다 클 수가 없기 때문에 잡음이 오염된 음성보다 큰 경우는 발생하지 않으며, 따라서 max (Si,j(f),
Figure 112008023455191-pat00040
)가 사용되는 것은 타당하다.
Figure 112008023455191-pat00041
다음으로, 상대 크기 차이 γi(j)를 이용하여 변형된 비선형 구조의 과중 이 득 함수를 구한다(S36). 수학식 15는 본 발명의 실시예에 따른 변형된 비선형 구조의 과중이득 함수 ζi(j)를 구하기 위한 전제 단계로써 구해야 하는 기존의 비선형 구조의 과중이득 함수 ψi(j)를 보여 주는 식이다. 여기서, η는 서브밴드에 존재하는 음성의 양과 잡음의 양이 같을 경우의 상대 크기 차이 γi(j)의 값으로써, 수학식 14에 의하면 그 값은
Figure 112008023455191-pat00042
이다(
Figure 112008023455191-pat00043
). 그리고 ξ은 기존의 과중이득 함수 ψi(j)의 최대치를 설정하기 위한 레벨조정 상수이고, τ는 기존의 과중 이득 함수 ψi(j)의 형태를 변형하기 위한 멱지수(exponent)이다.
Figure 112008023455191-pat00044
그런데, 일상에서 발생하는 대부분의 유색 잡음은 고주파 대역에 비해 저주파 대역에서 많은 에너지를 형성한다. 따라서 본 발명의 실시예에서는 유색 잡음의 특성을 고려하여 주파수 밴드별 차등적으로 적용되는 개선된 비선형 구조의 과중이득 함수 ζi(j)를 제안한다. 수학식 16은 본 발명의 실시예에 따른 변형된 과중이득 함수 ζi(j)를 나타내는 식이다. 기존의 과중이득 함수 ψi(j)는 저주파 대역에 낮은 이득을 할당하고 고주파 대역에 높은 이득을 할당하여, 무성음의 감쇠 효과를 보다 적게 줄이기 위함이다. 반대로, 수학식 16의 변형된 과중이득 함수 ζi(j)는 고주파 대역에 비해 저주파 대역에 높은 이득이 할당되도록 하기 때문에, 저주파 대역에서 잡음의 효과를 보다 많이 감쇠시킬 수가 있다.
Figure 112008023455191-pat00045
여기서, ms (ms > 0)와 me (me < 0, ms > me)는 각각 개선된 과중이득 함수 ζi(j)의 레벨을 조정하기 위한 임의의 상수이다.
도 9는 상대 크기 차이 γi(j)가 η, 즉
Figure 112008023455191-pat00046
이상이 되는 부분(즉, 크기 크기 SNR ωi(j)이 0.5 이상이 되는 부분)에 대하여, ξ를 2.5로 설정한 경우의 크기 SNR ωi(j) (
Figure 112008023455191-pat00047
)의 변화에 따른 변형된 비선형 구조의 과중이득 함수 ζi(j)의 변화를 나타낸 것이다. 도 9에서 수직 점선은 상대 크기 차이 γi(j)가 η 보다 큰 영역에서 크기 SNR ωi(j)의 중앙 위치인 0.75를 경계로 하여 기존의 과중이득 함수 ψi(j)의 강한 잡음 영역과 약한 잡음 영역으로 구분하기 위한 기준선이다.
도 9와 수학식 16을 참조하면, 변형된 과중이득 함수 ζi(j)가 비선형 구조를 가지기에 다음과 같은 주요 두 가지 장점을 가진다는 것을 알 수 있다.
첫째, 약한 잡음 영역과 비교해서 뮤지컬 잡음이 자주 발생되며 상대적으로 크게 인지되는 강한 잡음 영역에서 뮤지컬 잡음의 발생을 효과적으로 억제할 수 있다. 이유는 후술하는 변형된 스펙트럼 차감 방법을 보여 주는 수학식에서 강한 잡음 영역의
Figure 112008023455191-pat00048
는 약한 잡음 영역의
Figure 112008023455191-pat00049
보다 비선형적으로 큰 가중치가 적용되어 잡음의 양을 상대적으로 많이 감쇠시키기 때문이다.
둘째, 강한 잡음 영역과 비교해서 뮤지컬 잡음이 적게 발생하며 상대적으로 적게 인지되는 약한 잡음 영역에서 음성 명도를 신뢰적으로 제공할 수 있다. 이유는 후술하는 변형된 스펙트럼 차감 방법을 보여 주는 수학식에서 약한 잡음 영역의
Figure 112008023455191-pat00050
는 강한 잡음 영역의
Figure 112008023455191-pat00051
보다 비선형적으로 낮은 가중치가 적용되어 음성의 양을 상대적으로 적게 감쇠시키기 때문이다.
계속해서, 변형된 과중이득 함수 ζi(j)를 이용하여 변형된 스펙트럼 차감을 수행함으로써, 개선된 음성 신호
Figure 112008023455191-pat00052
를 얻는다(S37). 본 발명의 실시예에 따른 변형된 스펙트럼 차감은 수학식 17 및 수학식 18을 이용하여 수행될 수 있다.
Figure 112008023455191-pat00053
Figure 112008023455191-pat00054
여기서, Gi,j(f) (0 ≤ Gi,j(f) ≤ 1)와 β(0 ≤ β ≤ 1)는 각각 변형된 시 변(time-varying) 이득함수와 스펙트럼 평활화 요소를 가리킨다.
이상에서 상세하게 설명한 바와 같이, 본 발명의 실시예에 따른 음질 개선 방법에 의하면, 뮤지컬 잡음이 자주 발생되며 상대적으로 크게 인지되는 강한 잡음 영역에서는 뮤지컬 잡음의 발생을 효과적으로 억제하여 인공음을 효율적으로 억제할 수 있다. 뿐만 아니라, 약한 잡음 영역이나 그 이외의 부분에서는 음성 왜곡이 적게 발생하여 보다 명료한 음성을 제공할 수가 있다.
그리고 본 실시예의 일 측면에 의하면, 잡음 추정 시에 전술한 본 발명의 제2 실시예에 따른 잡음 추정 방법을 사용하면, 잡음의 변화에 따라서 잡음 추정과 업데이트를 효율적으로 수행할 수가 있고, 잡음 추정의 정확도를 향상시킬 수가 있다. 또한, 본 실시예의 다른 측면에 의하면, 기존의 VAD 기반 방법이나 MS 알고리즘이 아닌 전술한 제1 실시예에 따른 전방향 탐색으로 구한 식별비 φi(j)를 이용하여 잡음 추정을 수행할 수가 있어서, 상대적으로 계산량이 적을 뿐만 아니라 요구되는 메모리의 용량도 크기 않기 때문에, 실제 하드웨어나 소프트웨어로 구현하기가 용이하다.
다음으로 본 발명의 실시예에 따른 노이지 음성 신호의 처리 장치에 대하여 설명한다. 본 발명의 실시예에 따른 노이지 음성 신호의 처리 장치는 휴대폰, 블루투스, 보청기, 스피커폰, 음성인식 시스템 등과 같은 음성 기반 어플리케이션 장치 에 내장되는 소프트웨어(Software), 음성 기반 어플리케이션의 프로세서(컴퓨터)를 실행시키도록 컴퓨터 판독 가능한 기록매체의 형태, 또는 음성 기반 어플리케이션 장치에 장착되는 칩의 형태 등과 같이 다양한 방법으로 구현될 수 있다.
제4 실시예
도 10은 본 발명의 제4 실시예에 따른 노이지 음성 신호의 처리 장치를 보여 주는 블록도로써, 잡음 상태의 판별 장치이다. 도 10을 참조하면, 노이지 음성 신호에 대한 잡음 상태의 판별 장치(100)는 입력 노이지 음성 신호에 대한 퓨리에 변환 유닛(110), 크기 평활화 유닛(120), 전방향 탐색 유닛(130), 및 식별비 계산 유닛(140)을 포함한다. 본 발명의 실시예에 따른 잡음 상태의 판별 장치(100)에 포함되는 각 구성 요소(110, 120, 130, 및 140)의 기능은 전술한 본 발명의 제1 실시예에 따른 노이지 음성 신호의 처리 절차를 구성하는 단계(S11, S12, S13, 및 S14)에서 설명한 것이 동일하게 적용될 수 있으므로, 이하 이에 대한 구체적인 설명은 생략한다. 이러한 본 발명의 제4 실시예에 따른 노이지 음성 신호의 처리 장치(100)는 스피커폰이나 영상 통화용 통신 기기, 보청기, 블루투스 기기 등과 같은 음성 기반 어플리케이션 장치 또는 음성인식 시스템 등에 구비되어, 입력 노이지 음성 신호로부터 잡음의 상태를 판별하고, 또한 이를 이용하여 잡음 추정, 음질 개선, 및/또는 음성 인식을 하는데 이용될 수 있다.
제5 실시예
도 11은 본 발명의 제5 실시예에 따른 노이지 음성 신호의 처리 장치를 보여 주는 블록도로써, 잡음 추정 장치이다. 도 11을 참조하면, 노이지 음성 신호에 대한 잡음 추정 장치(200)는 입력 노이지 음성 신호에 대한 퓨리에 변환 유닛(210), 크기 평활화 유닛(220), 전방향 탐색 유닛(230), 및 잡음 추정 유닛(240)을 포함한다. 또한, 도면에는 도시하지 않았지만, 상기 잡음 추정 장치(200)는 식별비 계산 유닛을 더 포함할 수도 있다(제4 실시예 참조). 이러한 잡음 추정 장치(200)에 포함되는 각 구성 요소(210, 220, 230, 및 240)의 기능은 전술한 본 발명의 제2 실시예에 따른 노이지 음성 신호의 처리 절차를 구성하는 단계(S21, S22, S23, 및 S24)에서 설명한 것이 동일하게 적용될 수 있으므로, 이하 이에 대한 구체적인 설명은 생략한다. 이러한 본 발명의 제5 실시예에 따른 노이지 음성 신호의 처리 장치(200)도 스피커폰이나 영상 통화용 통신 기기, 보청기, 블루투스 기기 등과 같은 음성 기반 어플리케이션 장치 또는 음성인식 시스템 등에 구비되어, 입력 노이지 음성 신호로부터 잡음의 상태를 판별하고, 또한 이를 이용하여 잡음 추정, 음질 개선, 및/또는 음성 인식을 하는데 이용될 수 있다.
제6 실시예
도 12는 본 발명의 제6 실시예에 따른 노이지 음성 신호의 처리 장치를 보여 주는 블록도로써, 음질 개선 장치이다. 도 12를 참조하면, 노이지 음성 신호에 대한 음질 개선 장치(300)는 입력 노이지 음성 신호에 대한 퓨리에 변환 유닛(310), 크기 평활화 유닛(320), 전방향 탐색 유닛(330), 잡음 추정 유닛(340), 상대 크기 차이(RMD) 계산 유닛(350), 개선된 비선형 구조의 과중 이득 함수 계산 유닛(360), 및 변형된 스펙트럼 차감 유닛(370)을 포함한다. 또한, 도면에는 도시하지 않았지만, 상기 음질 개선 장치(300)는 식별비 계산 유닛을 더 포함할 수도 있다(제4 실시예 참조). 이러한 음질 개선 장치(300)에 포함되는 각 구성 요소(310 내지 370)의 기능은 전술한 본 발명의 제3 실시예에 따른 노이지 음성 신호의 처리 절차를 구성하는 단계(S31 내지 S37)에서 설명한 것이 동일하게 적용될 수 있으므로, 이하 이에 대한 구체적인 설명은 생략한다. 이러한 본 발명의 제6 실시예에 따른 노이지 음성 신호의 처리 장치(300)도 스피커폰이나 영상 통화용 통신 기기, 보청기, 블루투스 기기 등과 같은 음성 기반 어플리케이션 장치 또는 음성인식 시스템 등에 구비되어, 입력 노이지 음성 신호로부터 잡음의 상태를 판별하고, 또한 이를 이용하여 잡음 추정, 음질 개선, 및/또는 음성 인식을 하는데 이용될 수 있다.
제7 실시예
도 13은 본 발명의 제7 실시예에 따른 음성 기반 어플리케이션 장치의 구성을 보여 주는 블록도로서, 도 10, 도 10, 또는 도 12에 도시된 노이지 음성 신호의 처리 장치(300)를 포함한다. 도 13을 참조하면, 음성 기반 어플리케이션 장치(400)는 마이크(410), 노이지 음성 신호의 처리 장치(420), 및 응용 장치(Application Device, 430)을 포함한다.
마이크(410)는 노이지 음성 신호를 획득하기 음성 기반 어플리케이션 장치(400)로 입력하기 위한 입력 수단이다. 노이지 음성 신호의 처리 장치(420)는 마 이크(410)를 통해 획득한 노이지 음성 신호를 처리하여 잡음 상태를 판별하거나, 잡음을 추정하거나 또는 추정된 잡음을 이용하여 개선된 음성 신호를 출력하기 위한 것으로써, 이러한 노이지 음성 신호의 처리 장치(420)는 도 10 내지 도 12에 도시된 장치(100, 200, 300) 중의 하나와 동일한 구성을 갖는 장치일 수 있다. 이 경우에 노이지 음성 신호의 처리 장치(420)는 전술한 본 발명의 제1 실시예, 제2 실시예, 또는 제3 실시예에 따른 노이지 음성 신호의 처리 절차에 따라서 노이지 음성 신호를 처리하여 식별비, 추정된 잡음 신호, 또는 개선된 음성 신호를 출력한다.
또한, 음성 기반 어플리케이션 장치(400)는 상기 노이지 음성 신호의 처리 장치를 통해 생성된 식별비, 추정된 잡음 신호, 또는 개선된 음성 신호를 이용하여 다른 용도로 이용하기 위한 응용 장치(430)를 포함한다. 예를 들어, 응용 장치(430)는 개선된 음성 신호를 장치(400)의 외부로 출력하기 위한 출력 장치, 예컨대 스피커이거나 및/또는 개선된 음성 신호로부터 음성 인식을 하기 위한 음성 인식 시스템, 개선된 음성 신호를 압축하기 위한 코덱 장치, 및/또는 압축된 음성 신호를 유무선 통신 네트워크를 통해 전송하기 위한 전송 장치 등일 수 있다.
테스트 결과
본 발명의 실시예에 따른 잡음 상태의 판별 방법, 노이즈 추정 방법, 및 음질 개선 절차의 성능을 평가하기 위하여, 양적인 테스트는 물론 질적인 테스트도 함께 수행하였다. 여기서, 질적인 테스트란 비형식적이고 주관적인 듣기 테스트 및 스펙트럼 조사를 의미하고, 양적인 테스트는 개선된 세그멘탈 신호 대 잡음비(Improved Segmental Signal to Noise Ratio, Improved Seg.SNR)와 세그멘탈 가중된 스펙트럼 경사 측정(Segmental weighted Spectral Slope Measure, Seg.WSSM)을 구하는 것을 의미한다.
개선된 세그멘탈 신호 대 잡음비(Improved Seg.SNR)는 수학식 19 및 수학식 20을 이용하여 계산되었다. 그리고 세그멘탈 가중된 스펙트럼 경사 측정(Seg.WSSM)은 수학식 21 및 22를 이용하여 계산되었다.
Figure 112008023455191-pat00055
Figure 112008023455191-pat00056
여기서, M, F, x(n), 및
Figure 112008023455191-pat00057
은 각각 전체 프레임 개수, 프레임 사이즈, 깨끗한 음성 신호, 및 개선된 음성 신호를 가리킨다. 그리고 Seg.SNRInput과 Seg.SNRInput는 각각 오염된 음성 신호와 개선된 음성 신호의 Seg.SNR이다.
Figure 112008023455191-pat00058
Figure 112008023455191-pat00059
여기서, CB는 임계 밴드의 전체 개수이며, Ω,
Figure 112008023455191-pat00060
, ΩSPL, 및 Λ(r)은 각각 깨끗한 음성의 음압(Sound Pressure Level, SPL), 개선된 음성의 SPL, 전체 성능을 조절하기 위한 가변적 계수, 및 각 임계 밴드의 가중치이다. 또한,
Figure 112008023455191-pat00061
Figure 112008023455191-pat00062
는 각각 깨끗한 음성 신호와 개선된 음성 신호의 임계 밴드의 중심 주파수에서 크기 스펙트럼 경사이다.
주관적인 테스트 결과에 의하면, 본 발명의 실시예에 의할 경우에 잔류 뮤지컬 노이즈는 거의 관측이 되지 않았을 뿐만 아니라 개선된 음성 신호에서의 왜곡도 종래의 다른 방법에 비해서 상당히 줄어들었다는 것을 확인할 수 있었다. 여기서, 종래의 다른 방법이란 본 발명의 실시예에 따른 테스트 결과에 대한 성능 비교를 위하여 참조 기술로써 WA 방법(스케일링 인자 α = 0.95, 임계치 β = 2)을 이용하였다. 이하에서 설명하는 바와 같이, 양적인 테스트에서의 실험 결과는 이러한 질적인 테스트에서의 실험 결과를 뒷받침하는 것이었다.
양적인 테스트에서는 TIMIT 데이터베이스로부터 30초 길이의 음성 신호(이 중에서 15초는 남성의 음성 신호이고 나머지 15초는 여성의 음성 신호)가 선택되었는데, 그것의 지속 시간은 6초 이상이다. 그리고 가산 잡음(additive noise)으로써 네 가지 유형의 노이즈 신호가 사용되었는데, 이들은 모두 NoiseX-92 데이터베이스에서 선택된 것으로서 각각 사람 웅성 잡음(speech-like noise), F16 전투 기(aircraft cockpit noise), 공장(factory noise), 및 백색 가우시안 노이즈(white gaussian noise)이다. 각 음성은 각 유형의 노이즈를 이용하여 SNR 0dB, 5dB, 및 10dB로 결합되었다. 모든 신호의 샘플링 주파수는 16kHz이고, 각 프레임은 50%의 오버랩핑을 갖는 512 샘플(32ms)로 구성되어 있다.
도 14는 본 발명의 제1 실시예에 따른 노이지 음성 신호의 잡음 상태의 판별 절차의 효과를 보여 주기 위한 개선된 세그멘탈 SNR 그래프이다. 도 14에서 (a), (b), (c), 및 (d)는 각각 부가 잡음이 사람 웅성 잡음, F16 비행기 잡음, 공장 잡음, 및 백색 가우시안 잡음인 노이지 음성 신호를 이용하여 테스트한 경우이다(도 15 내지 도 19에서도 이와 동일함). 도 14에서 'PM'으로 표시된 것은 전술한 본 발명의 제1 실시예에 따라서 전방향 탐색을 이용한 잡음 판별 절차에 의해 획득한 개선된 음성 신호에서 측정된 개선된 세그멘탈 SNR이고, 'WA'로 표시된 것은 기존의 가중 평균(WA) 절차를 사용하여 획득한 개선된 음성 신호에서 측정된 개선된 세그멘탈 SNR이다. 도 14를 참조하면, 본 발명의 실시예에 의할 경우에, 입력 SNR에 상관없이 세그멘탈 SNR이 상당히 향상되며, 특히 입력 SNR이 낮은 경우에 세그멘탈 SNR의 향상 효과가 크다는 것을 알 수 있다. 다만, 공장 잡음이나 백색 가우시안 잡음의 경우에는 입력 SNR이 10인 경우에, 세그멘탈 SNR의 향상 효과가 거의 없는 것으로 나타났다.
도 15는 본 발명의 제1 실시예에 따른 노이지 음성 신호의 잡음 상태의 판별 절차의 효과를 보여 주기 위한 다른 예로써, 세그멘탈 WSSM에 대한 것이다. 도 15를 참조하면, 본 발명의 실시예에 의할 경우에, 입력 SNR에 상관없이 일반적으로 세그멘탈 WSSM이 낮아진다는 것을 알 수 있다. 다만, 사람 웅성 잡음의 경우에는 입력 SNR이 작은 경우에, 오히려 세그멘탈 WSSM이 약간 높아질 수 있다.
도 16은 본 발명의 제2 실시예에 따른 잡음 추정 절차의 효과를 보여 주기 위한 일례이다. 도 16에서 'PM'으로 표시된 것은 전술한 본 발명의 제2 실시예에 따라서 전방향 탐색 및 적응적 잡음 추정을 이용한 잡음 추정 절차에 의해 획득한 개선된 음성 신호에서 측정된 개선된 세그멘탈 SNR이고, 'WA'로 표시된 것은 기존의 가중 평균 절차를 사용하여 획득한 개선된 음성 신호에서 측정된 개선된 세그멘탈 SNR이다. 도 16을 참조하면, 본 발명의 실시예에 의할 경우에, 입력 SNR에 상관없이 세그멘탈 SNR이 상당히 향상되며, 특히 입력 SNR이 낮은 경우에 세그멘탈 SNR의 향상 효과가 크다는 것을 알 수 있다.
도 17은 본 발명의 제2 실시예에 따른 노이지 음성 신호의 잡음 상태의 판별 절차의 효과를 보여 주기 위한 다른 예로써, 세그멘탈 WSSM에 대한 것이다. 도 17을 참조하면, 본 발명의 실시예에 의할 경우에, 입력 SNR에 상관없이 일반적으로 세그멘탈 WSSM이 낮아진다는 것을 알 수 있다.
도 18은 본 발명의 제3 실시예에 따른 잡음 추정 절차의 효과를 보여 주기 위한 일례이다. 도 18에서 'PM'으로 표시된 것은 전술한 본 발명의 제3 실시예에 따라서 전방향 탐색, 적응적 잡음 추정, 및 비선형 구조의 변형된 과중 이득 함수를 이용한 변형된 스펙트럼 차감법을 이용한 음질 개선 절차에 의해 획득한 개선된 음성 신호에서 측정된 개선된 세그멘탈 SNR이고, 'WA'로 표시된 것은 기존의 개선된 최소값 제어 순환 평균(Improved Minima Controlled Recursive Average, IMCRA) 절차를 사용하여 획득한 개선된 음성 신호에서 측정된 개선된 세그멘탈 SNR이다. 도 18을 참조하면, 본 발명의 실시예에 의할 경우에, 입력 SNR에 상관없이 세그멘탈 SNR이 상당히 향상되며, 특히 입력 SNR이 낮은 경우에 세그멘탈 SNR의 향상 효과가 크다는 것을 알 수 있다.
도 19는 본 발명의 제3 실시예에 따른 노이지 음성 신호의 잡음 상태의 판별 절차의 효과를 보여 주기 위한 다른 예로써, 세그멘탈 WSSM에 대한 것이다. 도 19를 참조하면, 본 발명의 실시예에 의할 경우에, 입력 SNR에 상관없이 일반적으로 세그멘탈 WSSM이 낮아진다는 것을 알 수 있다.
이상에서 상세하게 설명한 본 발명의 실시예는 단지 본 발명의 기술 사상을 보여주기 위한 예시적인 것으로서, 상기 실시예에의 의하여 본 발명의 기술 사상이 한정되는 것으로 해석되어서는 안된다. 본 발명의 보호 범위는 후술하는 본 발명의 특허청구범위에 의하여 특정된다.
도 1은 본 발명의 제1 실시예에 따른 입력 노이지 음성 신호의 잡음 상태를 판별하기 위한 절차를 보여 주는 흐름도이다.
도 2는 첫 번째 전방향 탐색 절차에 따른 탐색 스펙트럼의 개략적인 모양을 보여 주는 도면이다.
도 3은 두 번째 전방향 탐색 절차에 따른 탐색 스펙트럼의 개략적인 모양을 보여 주는 도면이다.
도 4는 세 번째 전방향 탐색 절차에 따른 탐색 스펙트럼의 개략적인 모양을 보여 주는 도면이다.
도 5는 본 발명의 제1 실시예를 이용하여 구한 식별비 φi(j)를 이용하여 잡음의 상태를 판별하는 과정의 일례를 설명하기 위한 도면이다.
도 6은 본 발명의 제2 실시예에 따른 입력 노이지 음성 신호에 대한 잡음 추정 절차를 보여 주는 흐름도이다.
도 7은 수학식 12의 레벨 조정자 ρ(j)를 서브밴드 인덱스 j의 함수로 도시한 그래프이다.
도 8은 본 발명의 제3 실시예에 따른 입력 노이지 음성 신호에 대한 음질 개선 절차를 보여 주는 흐름도이다.
도 9는 크기 SNR ωi(j)의 변화에 따른 변형된 비선형 구조의 과중이득 함수 ζi(j)의 변화의 일례를 나타내는 도면이다.
도 10은 본 발명의 제4 실시예에 따른 노이지 음성 신호의 잡음 상태의 판별 장치의 구성을 보여 주는 블록도이다.
도 11은 본 발명의 제5 실시예에 따른 노이지 음성 신호의 잡음 추정 장치의 구성을 보여 주는 블록도이다.
도 12는 본 발명의 제6 실시예에 따른 노이지 음성 신호의 음질 개선 장치의 구성을 보여 주는 블록도이다.
도 13은 본 발명의 제7 실시예에 따른 음성 기반 어플리케이션 장치의 구성을 보여 주는 블록도이다.
도 14는 여러 가지 종류의 부가 잡음을 포함하는 입력 노이지 음성 신호에 대한 본 발명의 제1 실시예에 따른 노이지 음성 신호의 잡음 상태의 판별 절차의 효과를 보여 주기 위한 개선된 세그멘탈 SNR 그래프이다.
도 15는 여러 가지 종류의 부가 잡음을 포함하는 입력 노이지 음성 신호에 대한 본 발명의 제1 실시예에 따른 노이지 음성 신호의 잡음 상태의 판별 절차의 효과를 보여 주기 위한 세그멘탈 WSSM 그래프이다.
도 16은 여러 가지 종류의 부가 잡음을 포함하는 입력 노이지 음성 신호에 대한 본 발명의 제2 실시예에 따른 노이지 음성 신호의 잡음 추정 절차의 효과를 보여 주기 위한 개선된 세그멘탈 SNR 그래프이다.
도 17은 여러 가지 종류의 부가 잡음을 포함하는 입력 노이지 음성 신호에 대한 본 발명의 제2 실시예에 따른 노이지 음성 신호의 잡음 추정 절차의 효과를 보여 주기 위한 세그멘탈 WSSM 그래프이다.
도 18은 여러 가지 종류의 부가 잡음을 포함하는 입력 노이지 음성 신호에 대한 본 발명의 제3 실시예에 따른 노이지 음성 신호의 음질 개선 절차의 효과를 보여 주기 위한 개선된 세그멘탈 SNR 그래프이다.
도 19는 여러 가지 종류의 부가 잡음을 포함하는 입력 노이지 음성 신호에 대한 본 발명의 제3 실시예에 따른 노이지 음성 신호의 음질 개선 절차의 효과를 보여 주기 위한 세그멘탈 WSSM 그래프이다.

Claims (26)

  1. 입력되는 노이지 음성 신호에 대한 소정의 잡음 추정 절차를 수행하여 상기 노이지 음성 신호의 잡음 신호를 추정하는 단계;
    상기 노이지 음성 신호와 상기 추정된 잡음 신호 사이의 상대적 차이를 나타내는 상대 크기 차이를 구하는 단계;
    상기 상대 크기 차이를 이용하여 고주파 대역보다 저주파 대역에 상대적으로 높은 이득이 할당되도록 하되, 주파수 및 전체 주파수 위치 개수를 변수로 하는 변형된 비선형 구조의 과중 이득 함수를 구하는 단계; 및
    상기 변형된 비선형 구조의 과중 이득 함수를 이용하여 구한 시변 이득 함수와 상기 노이지 음성 신호를 곱하여 개선된 음성 신호를 구하는 단계를 포함하는 노이지 음성 신호의 음질 개선 방법.
  2. 제1항에 있어서, 상기 잡음 신호를 추정하는 단계는
    상기 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하는 단계;
    인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하는 단계;
    상기 평활 크기 스펙트럼의 예측된 잡음 성분을 나타내는 탐색 스펙트럼을 구하는 단계; 및
    상기 탐색 스펙트럼을 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 상기 잡음 신호를 구하는 단계를 포함하는 노이지 음성 신호의 음질 개선 방법.
  3. 제2항에 있어서, 상기 탐색 스펙트럼을 구하는 단계 이후에,
    상기 평활 크기 스펙트럼과 상기 탐색 스펙트럼을 이용하여 상기 입력 노이지 음성 신호에 포함된 잡음 성분의 비율을 나타내는 식별비를 구하는 단계를 더 포함하고,
    상기 적응적 망각 요소는 상기 식별비를 이용하여 정의되는 것을 특징으로 하는 노이지 음성 신호의 음질 개선 방법.
  4. 제3항에 있어서, 상기 적응적 망각 요소는, 상기 식별비가 소정의 식별비 임계치보다 작은 경우에는 '0'이 되고, 상기 식별비가 상기 식별비 임계치보다 큰 경우에는 상기 식별비에 비례하는 것을 특징으로 하는 노이지 음성 신호의 음질 개선 방법.
  5. 제4항에 있어서, 상기 식별비에 비례하는 상기 적응적 망각 요소는 상기 주파수 도메인의 전체 주파수 범위를 복수 개로 분할한 서브밴드에 따라서 그 값이 달라지는 것을 특징으로 하는 노이지 음성 신호의 음질 개선 방법.
  6. 제5항에 있어서, 상기 적응적 망각 요소는 상기 서브밴드의 인덱스에 비례하는 것을 특징으로 하는 노이지 음성 신호의 음질 개선 방법.
  7. 입력되는 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하는 단계;
    인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하는 단계;
    직전 프레임의 탐색 프레임만을 이용하거나 및/또는 직전 프레임의 탐색 프레임과 직전 프레임의 평활 크기 스펙트럼 중에서 크기가 작은 스펙트럼과 현재 프레임의 평활 크기 스펙트럼을 이용하여 현재 프레임의 탐색 프레임을 구하는 단계;
    상기 평활 크기 스펙트럼과 상기 탐색 스펙트럼을 이용하여 상기 입력 노이지 음성 신호에 포함된 잡음 성분의 비율을 나타내는 식별비를 구하는 단계;
    상기 식별비를 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 잡음 스펙트럼을 구하는 단계;
    상기 평활화 크기 스펙트럼과 상기 구해진 잡음 스펙트럼 사이의 상대적 차이를 나타내는 상대 크기 차이를 구하는 단계;
    상기 상대 크기 차이를 이용하여 고주파 대역보다 저주파 대역에 상대적으로 높은 이득이 할당되도록 하는 변형된 비선형 구조의 과중 이득 함수를 구하는 단계; 및
    상기 변형된 비선형 구조의 과중 이득 함수를 이용하여 구한 시변 이득 함수와 상기 노이지 음성 신호를 곱하여 개선된 음성 신호를 구하는 단계를 포함하는 노이지 음성 신호의 음질 개선 방법.
  8. 제7항에 있어서, 상기 탐색 프레임을 구하는 단계와 상기 식별비를 구하는 단계는 상기 주파수 도메인의 전체 주파수 범위를 복수 개로 분할한 서브밴드 단위로 수행하는 것을 특징으로 하는 노이지 음성 신호의 음질 개선 방법.
  9. 제8항에 있어서,
    상기 평활 크기 스펙트럼은 하기 식 (E-1)을 이용하여 구하고, 상기 탐색 프레임은 하기 식 (E-2)를 이용하여 구하는 것을 특징으로 하는 노이지 음성 신호의 음질 개선 방법.
    Figure 112008023455191-pat00063
    (E-1)
    Figure 112008023455191-pat00064
    (E-2)
    여기서, i는 프레임 인덱스, f는 주파수, Si,j(f)는 평활 크기 스펙트럼, Yi,j(f)는 변환 스펙트럼, αs는 평활 인자(smoothing factor)를 가리키고, T i,j (f)는 탐색 스펙트럼, 그리고 U i-1,j (f)는 직전 프레임의 탐색 스펙트럼과 평활 크기 스펙트럼 중에서 더 작은 값을 지시하는 가중된 스펙트럼(weighted spectrum)이고, κ(j)(0 < κ(J-1) ≤ κ(j) ≤ κ(0) ≤ 1)는 차등적 망각 요소이다.
  10. 제8항에 있어서, 상기 평활 크기 스펙트럼은 하기 식 (E-1)을 이용하여 구하고, 상기 탐색 프레임은 하기 식 (E-3)을 이용하여 구하는 것을 특징으로 하는 노이지 음성 신호의 음질 개선 방법.
    Figure 112008023455191-pat00065
    (E-1)
    Figure 112008023455191-pat00066
    (E-3)
  11. 제8항에 있어서, 상기 평활 크기 스펙트럼은 하기 식 (E-1)을 이용하여 구하고, 상기 탐색 프레임은 하기 식 (E-4)를 이용하여 구하는 것을 특징으로 하는 노이지 음성 신호의 음질 개선 방법.
    Figure 112008023455191-pat00067
    (E-1)
    Figure 112008023455191-pat00068
    (E-4)
  12. 제9항 내지 제11항 중 어느 하나의 항에 있어서, 상기 차등적 망각 요소의 값은 상기 서브밴드의 인덱스에 반비례하는 것을 특징으로 하는 노이지 음성 신호의 음질 개선 방법.
  13. 제12항에 있어서, 상기 차등적 망각 요소는 하기 식 (E-5)로 표시되는 것을 특징으로 하는 노이지 음성 신호의 음질 개선 방법.
    Figure 112012076079118-pat00069
    (E-5)
    여기서, J는 전체 서브밴드 개수이고, 0 < κ(J-1) ≤ κ(j) ≤ κ(0) ≤ 1이다.
  14. 제9항 내지 제11항 중 어느 하나의 항에 있어서, 상기 식별비는 하기 식 (E-6)를 이용하여 구하는 것을 특징으로 하는 노이지 음성 신호의 음질 개선 방법.
    Figure 112008023455191-pat00070
    (E-6)
    여기서, SB는 서브밴드 사이즈, min(a, b)는 a와 b 중에서 더 작은 값을 가리킨다.
  15. 제14항에 있어서, 상기 가중된 스펙트럼은 하기 식 (E-7)로 정의되는 것을 특징으로 하는 노이지 음성 신호의 음질 개선 방법.
    Figure 112008023455191-pat00071
    (E-7)
  16. 제15항에 있어서, 상기 잡음 스펙트럼은 하기 식 (E-8)로 정의되는 것을 특징으로 하는 노이지 음성 신호의 음질 개선 방법.
    Figure 112012076079118-pat00072
    (E-8)
    여기서, i와 j는 각각 프레임 인덱스와 서브밴드 인덱스,
    Figure 112012076079118-pat00073
    는 현재 프레임의 잡음 스펙트럼,
    Figure 112012076079118-pat00074
    는 이전 프레임의 잡음 스펙트럼, λi(j)는 적응적 망각 요소로써 하기 식 (E-9) 및 (E-10)으로 정의되며,
    Figure 112012076079118-pat00075
    (E-9)
    Figure 112012076079118-pat00076
    (E-10)
    φi(j)는 식별비, φth (0 < φth < 1)는 입력 노이즈 음성 신호의 잡음 상태에 따라 잡음 유사 서브밴드 또는 음성 유사 서브밴드로 구분하기 위한 임계치, J는 전체 서브밴드 개수, 그리고 bs와 be는 각각 0 ≤ bs ≤ ρi(j) < be < 1의 관계가 성립하는 임의의 상수이다.
  17. 제16항에 있어서, 상기 상대 크기 차이는 하기 식 (E-11)을 이용하여 구하는 것을 특징으로 하는 노이지 음성 신호의 음질 개선 방법.
    Figure 112008023455191-pat00077
    (E-11)
    여기서, γi(j)는 상대 크기 차이, max (a, b)는 a와 b 중에서 더 큰 값을 나타내는 함수이다.
  18. 제17항에 있어서, 상기 변형된 비선형 구조의 과중이득 함수는 하기 식 (E-12)를 이용하는 구하는 것을 특징으로 하는 노이지 음성 신호의 음질 개선 방법.
    Figure 112012076079118-pat00078
    (E-12)
    여기서, ζi(j)는 변형된 비선형 구조의 과중 이득 함수, ms (ms > 0)와 me (me < 0, ms > me)는 각각 ζi(j)의 레벨을 조정하기 위한 임의의 상수, L은 전체 주파수 위치 개수, ψi(j)는 하기 식 (E-13)으로 정의되는 기존의 비선형 구조의 과중 이득 함수이다.
    Figure 112012076079118-pat00080
    (E-13)
    여기서, η는
    Figure 112012076079118-pat00103
    , τ는 ψi(j)의 형태를 변형하기 위한 멱지수이다.
  19. 제18항에 있어서, 상기 개선된 음성 신호는 하기 식 (E-14)를 이용하여 구하는 것을 특징으로 하는 노이지 음성 신호의 음질 개선 방법.
    Figure 112008023455191-pat00081
    (E-14)
    여기서,
    Figure 112008023455191-pat00082
    는 개선된 음성 신호, Gi,j(f) (0 ≤ Gi,j(f) ≤ 1)는 하기 식 (E-15)로 정의되는 시변 이득함수이고, β(0 ≤ β ≤ 1)는 스펙트럼 평활화 요소이다.
    Figure 112008023455191-pat00083
    (E-15)
  20. 제7항에 있어서, 상기 변환 스펙트럼을 구하는 단계에서는 퓨리에 변환을 이용하는 것을 특징으로 하는 노이지 음성 신호의 음질 개선 방법.
  21. 입력되는 노이지 음성 신호에 대한 소정의 잡음 추정 절차를 수행하여 상기 노이지 음성 신호의 잡음 신호를 추정하기 위한 잡음 추정 수단;
    상기 노이지 음성 신호와 상기 추정된 잡음 신호 사이의 상대적 차이를 나타내는 상대 크기 차이를 구하기 위한 상대 크기 차이 측정 유닛; 및
    상기 상대 크기 차이를 이용하여 고주파 대역보다 저주파 대역에 상대적으로 높은 이득이 할당되도록 하되, 주파수 및 전체 주파수 위치 개수를 변수로 하는 변형된 비선형 구조의 과중 이득 함수를 구하고, 상기 변형된 비선형 구조의 과중 이득 함수를 이용하여 구한 시변 이득 함수와 상기 노이지 음성 신호를 곱하여 개선된 음성 신호를 구하기 위한 출력 신호 생성 유닛을 포함하는 노이지 음성 신호의 음질 개선 장치.
  22. 제21항에 있어서, 상기 잡음 추정 수단은
    상기 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하기 위한 변환 유닛;
    인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하기 위한 평활화 유닛;
    상기 평활 크기 스펙트럼의 예측된 잡음 성분을 나타내는 탐색 스펙트럼을 구하기 위한 전방향 탐색 유닛; 및
    상기 탐색 스펙트럼을 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 잡음 스펙트럼을 구하기 위한 잡음 추정 유닛을 포함하는 것을 특징으로 하는 노이지 음성 신호의 음질 개선 장치.
  23. 노이지 음성 신호를 수신하도록 고안된 입력 장치;
    상기 입력 장치를 통해 수신한 노이지 음성 신호에 대한 소정의 잡음 추정 절차를 수행하여 상기 노이지 음성 신호의 잡음 신호를 추정하기 위한 잡음 추정 수단, 상기 노이지 음성 신호와 상기 추정된 잡음 신호 사이의 상대적 차이를 나타내는 상대 크기 차이를 구하기 위한 상대 크기 차이 측정 유닛, 및 상기 상대 크기 차이를 이용하여 고주파 대역보다 저주파 대역에 상대적으로 높은 이득이 할당되도록 하되, 주파수 및 전체 주파수 위치 개수를 변수로 하는 변형된 비선형 구조의 과중 이득 함수를 구하고, 상기 변형된 비선형 구조의 과중 이득 함수를 이용하여 구한 시변 이득 함수와 상기 노이지 음성 신호를 곱하여 개선된 음성 신호를 구하기 위한 출력 신호 생성 유닛을 포함하는 노이지 음성 신호의 음질 개선 장치; 및
    상기 음질 개선 장치로부터 출력되는 개선된 음성 신호를 외부로 출력하도록 고안된 출력 수단을 포함하는 음성 기반 어플리케이션 장치.
  24. 노이지 음성 신호를 수신하도록 고안된 입력 장치;
    상기 입력 장치를 통해 수신한 노이지 음성 신호에 대한 소정의 잡음 추정 절차를 수행하여 상기 노이지 음성 신호의 잡음 신호를 추정하기 위한 잡음 추정 수단, 상기 노이지 음성 신호와 상기 추정된 잡음 신호 사이의 상대적 차이를 나타내는 상대 크기 차이를 구하기 위한 상대 크기 차이 측정 유닛, 및 상기 상대 크기 차이를 이용하여 고주파 대역보다 저주파 대역에 상대적으로 높은 이득이 할당되도록 하되, 주파수 및 전체 주파수 위치 개수를 변수로 하는 변형된 비선형 구조의 과중 이득 함수를 구하고, 상기 변형된 비선형 구조의 과중 이득 함수를 이용하여 구한 시변 이득 함수와 상기 노이지 음성 신호를 곱하여 개선된 음성 신호를 구하기 위한 출력 신호 생성 유닛을 포함하는 노이지 음성 신호의 음질 개선 장치; 및
    상기 음질 개선 장치로부터 출력되는 상기 개선된 음성 신호를 전송 네트워크를 통해 전송하도록 고안된 전송 장치를 포함하는 음성 기반 어플리케이션 장치.
  25. 컴퓨터를 제어하여 입력 노이지 음성 신호의 음질을 개선하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체로서, 상기 프로그램은
    입력되는 노이지 음성 신호에 대한 소정의 잡음 추정 절차를 수행하여 상기 노이지 음성 신호의 잡음 신호를 추정하는 처리와,
    상기 노이지 음성 신호와 상기 추정된 잡음 신호 사이의 상대적 차이를 나타내는 상대 크기 차이를 구하는 처리와,
    상기 상대 크기 차이를 이용하여 고주파 대역보다 저주파 대역에 상대적으로 높은 이득이 할당되도록 하되, 주파수 및 전체 주파수 위치 개수를 변수로 하는 변형된 비선형 구조의 과중 이득 함수를 구하는 처리와, 그리고
    상기 변형된 비선형 구조의 과중 이득 함수를 이용하여 구한 시변 이득 함수와 상기 노이지 음성 신호를 곱하여 개선된 음성 신호를 구하는 처리를 수행하는 것을 특징으로 하는 컴퓨터 판독 가능한 기록매체.
  26. 제25항에 있어서, 상기 잡음 신호를 추정하는 처리는
    상기 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하기 위한 처리와,
    인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하기 위한 처리와,
    상기 평활 크기 스펙트럼의 예측된 잡음 성분을 나타내는 탐색 스펙트럼을 구하기 위한 처리와, 그리고
    상기 탐색 스펙트럼을 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 상기 잡음 신호를 구하기 위한 처리를 수행하는 것을 특징으로 하는 컴퓨터 판독 가능한 기록 매체.
KR1020080030017A 2008-03-31 2008-03-31 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 KR101260938B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020080030017A KR101260938B1 (ko) 2008-03-31 2008-03-31 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
US12/935,390 US8694311B2 (en) 2008-03-31 2009-03-31 Method for processing noisy speech signal, apparatus for same and computer-readable recording medium
PCT/KR2009/001642 WO2009145449A2 (ko) 2008-03-31 2009-03-31 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080030017A KR101260938B1 (ko) 2008-03-31 2008-03-31 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체

Publications (2)

Publication Number Publication Date
KR20090104559A KR20090104559A (ko) 2009-10-06
KR101260938B1 true KR101260938B1 (ko) 2013-05-06

Family

ID=41377708

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080030017A KR101260938B1 (ko) 2008-03-31 2008-03-31 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체

Country Status (3)

Country Link
US (1) US8694311B2 (ko)
KR (1) KR101260938B1 (ko)
WO (1) WO2009145449A2 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101176207B1 (ko) 2010-10-18 2012-08-28 (주)트란소노 음성통신 시스템 및 음성통신 방법
KR101290997B1 (ko) * 2012-03-26 2013-07-30 세종대학교산학협력단 적응형 코드벡터를 이용한 코드북 기반 음성 향상 방법 및 그 장치
US9484043B1 (en) * 2014-03-05 2016-11-01 QoSound, Inc. Noise suppressor
JP6559576B2 (ja) * 2016-01-05 2019-08-14 株式会社東芝 雑音抑圧装置、雑音抑圧方法及びプログラム
US9972134B2 (en) 2016-06-30 2018-05-15 Microsoft Technology Licensing, Llc Adaptive smoothing based on user focus on a target object
KR101943582B1 (ko) * 2017-04-25 2019-01-29 연세대학교 산학협력단 음향 신호 강조 방법
KR20180125384A (ko) * 2017-05-15 2018-11-23 한국전기연구원 음성 검출기를 구비한 보청기 및 그 방법
CN108806712B (zh) * 2018-04-27 2020-08-18 深圳市沃特沃德股份有限公司 减少频域处理量的方法与装置
CN110265055B (zh) * 2019-06-17 2021-04-20 杭州叙简科技股份有限公司 一种poc对讲的语音去噪增强系统及语音去噪增强方法
CN113299308A (zh) * 2020-09-18 2021-08-24 阿里巴巴集团控股有限公司 一种语音增强方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100655953B1 (ko) 2006-02-06 2006-12-11 한양대학교 산학협력단 웨이블릿 패킷 변환을 이용한 음성 처리 시스템 및 그 방법
KR100789084B1 (ko) * 2006-11-21 2007-12-26 한양대학교 산학협력단 웨이블릿 패킷 영역에서 비선형 구조의 과중 이득에 의한음질 개선 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000033530A (ko) 1998-11-24 2000-06-15 김영환 음성 구간 검출과 스펙트럼 차감법을 이용한 차량 잡음제거방법
US6523003B1 (en) * 2000-03-28 2003-02-18 Tellabs Operations, Inc. Spectrally interdependent gain adjustment techniques
JP3457293B2 (ja) * 2001-06-06 2003-10-14 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法
US20050288923A1 (en) * 2004-06-25 2005-12-29 The Hong Kong University Of Science And Technology Speech enhancement by noise masking
KR100677126B1 (ko) 2004-07-27 2007-02-02 삼성전자주식회사 레코더 기기의 잡음 제거 장치 및 그 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100655953B1 (ko) 2006-02-06 2006-12-11 한양대학교 산학협력단 웨이블릿 패킷 변환을 이용한 음성 처리 시스템 및 그 방법
KR100789084B1 (ko) * 2006-11-21 2007-12-26 한양대학교 산학협력단 웨이블릿 패킷 영역에서 비선형 구조의 과중 이득에 의한음질 개선 방법

Also Published As

Publication number Publication date
US8694311B2 (en) 2014-04-08
WO2009145449A3 (ko) 2010-01-21
WO2009145449A2 (ko) 2009-12-03
US20110022383A1 (en) 2011-01-27
KR20090104559A (ko) 2009-10-06

Similar Documents

Publication Publication Date Title
KR101260938B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
KR101317813B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
US10504539B2 (en) Voice activity detection systems and methods
JP4307557B2 (ja) 音声活性度検出器
US6766292B1 (en) Relative noise ratio weighting techniques for adaptive noise cancellation
US6523003B1 (en) Spectrally interdependent gain adjustment techniques
JP4279357B2 (ja) 特に補聴器における雑音を低減する装置および方法
US20080312916A1 (en) Receiver Intelligibility Enhancement System
US6671667B1 (en) Speech presence measurement detection techniques
KR101335417B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
JP2011033717A (ja) 雑音抑圧装置
JP2004341339A (ja) 雑音抑圧装置
KR101295727B1 (ko) 적응적 잡음추정 장치 및 방법
Sun et al. Investigations into the relationship between measurable speech quality and speech recognition rate for telephony speech
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
KR20200095370A (ko) 음성 신호에서의 마찰음의 검출
CA2401672A1 (en) Perceptual spectral weighting of frequency bands for adaptive noise cancellation
Zhou et al. Non-intrusive speech quality objective evaluation in high-noise environments
KR100931487B1 (ko) 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치
Tiwari et al. Speech enhancement using noise estimation with dynamic quantile tracking
Graf et al. Kurtosis-Controlled Babble Noise Suppression
KR100931181B1 (ko) 노이지 음성 신호의 처리 방법 및 이를 위한 컴퓨터 판독가능한 기록매체
Abu-El-Quran et al. Multiengine Speech Processing Using SNR Estimator in Variable Noisy Environments
Loizou et al. A MODIFIED SPECTRAL SUBTRACTION METHOD COMBINED WITH PERCEPTUAL WEIGHTING FOR SPEECH ENHANCEMENT
JPH07283860A (ja) ノイズ除去装置

Legal Events

Date Code Title Description
N231 Notification of change of applicant
N231 Notification of change of applicant
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160503

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170529

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180531

Year of fee payment: 6