KR20090082700A - 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치 - Google Patents

노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치 Download PDF

Info

Publication number
KR20090082700A
KR20090082700A KR1020080008617A KR20080008617A KR20090082700A KR 20090082700 A KR20090082700 A KR 20090082700A KR 1020080008617 A KR1020080008617 A KR 1020080008617A KR 20080008617 A KR20080008617 A KR 20080008617A KR 20090082700 A KR20090082700 A KR 20090082700A
Authority
KR
South Korea
Prior art keywords
noise
signal
frame
transform
speech signal
Prior art date
Application number
KR1020080008617A
Other languages
English (en)
Other versions
KR100931487B1 (ko
Inventor
정성일
신옥근
하동경
유강주
김형순
양성일
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020080008617A priority Critical patent/KR100931487B1/ko
Publication of KR20090082700A publication Critical patent/KR20090082700A/ko
Application granted granted Critical
Publication of KR100931487B1 publication Critical patent/KR100931487B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/06Receivers
    • H04B1/10Means associated with receiver for limiting or suppressing noise or interference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/002Damping circuit arrangements for transducers, e.g. motional feedback circuits

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

웨이블릿 패킷 변환 도메인 또는 퓨리에 변환 도메인 등과 같은 주파수 도메인에서의 새로운 순환 평균 기반 노이즈 추정을 포함하는 노이지 음성 신호의 처리 장치와 그 장치를 포함하는 음성 기반 어플리케이션 장치에 관하여 개시한다. 본 발명의 일 실시예에 따른 노이지 음성 신호의 처리 장치는 균일 웨이블릿 패킷 변환 유닛, 스무딩 유닛, 노이즈 추정 유닛, 및 스펙트럼 차감 유닛을 포함한다. 노이즈 추정 유닛은 스무딩 유닛으로부터 생성된 스무드된 변환 신호의 인접한 노드 사이의 웨이블릿 패킷 변환 계수의 크기비를 이용하여 현재 프레임이 묵음 프레임인지를 판정하고, 만일 현재 프레임이 묵음 프레임인 경우에는 스케일링 인자를 업데이트한 후에 스무드된 변환 신호를 이용하여 노이즈를 추정하고, 만일 현재 프레임이 묵음 프레임이 아닌 경우에는 곧바로 스무드된 변환 신호를 이용하여 노이즈를 추정한다. 따라서 본 발명의 실시예에 의하면, 비정적인 노이즈의 변동을 신속하고 또한 정확하게 추적할 수가 있으며, 노이즈 도미넌트 프레임에서 시간 지연이 생기는 것을 방지할 수 있을 뿐만 아니라 뮤지컬 노이즈가 잔류하는 현상이나 음성의 왜곡을 방지할 수가 있다.
Figure P1020080008617
노이즈 추정, 순환 평균, 균일 웨이블릿 패킷 변환, 퓨리에 변환, 묵음 프레 임

Description

노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성 기반 어플리케이션 장치{Apparatus for processing noisy speech signals and speech-based application equipments including the apparatus}
본 발명은 노이지 음성 신호(Noisy Speech Signal)의 처리에 관한 것으로, 보다 구체적으로 비정적인 노이즈 환경에서도 효율적으로 배경 노이즈를 제거할 수 있는 노이지 음성 신호의 처리 장치와 이를 포함하는 음성 기반 어플리케이션 장치에 관한 것이다.
스피커폰(Speakerphone)은, 다수의 당사자들 사이의 통신을 용이하게 하며 또한 개별적으로는 핸즈-프리 세팅을 제공할 수 있기 때문에, 많은 통신 기기의 필수 장치로 구비되어 있다. 그리고 최근 무선 통신 기술의 발달로 영상 통화용 통신 기기의 보급이 널리 이루어지고 있다. 또한, 청력이 약하여 잘 들을 수 없는 사람들에게 도움을 줄 수 있도록 보청기(Hearing Aid)가 개발되어 보급되고 있다. 이러한 스피커폰이나 보청기, 그리고 영상 통화용 통신 기기 등에서는 노이즈가 섞여 있는 음성 신호인 노이지 음성(Noisy Speech) 신호로부터 배경 노이즈(Background Noise)를 제거하여 음성 신호만을 처리하기 위한 노이지 음성 신호의 처리 장치가 구비되어 있다.
이러한 노이즈 음성 처리 장치의 성능은 이를 구비하는 음성 기반 어플리케이션 장치의 성능에 큰 영향을 미친다. 왜냐하면, 배경 노이즈는 거의 언제나 음성 신호를 오염시켜서, 음성 코덱, 개인 휴대 통신(Cellular Telephony), 및 음성 인식(Speech Recognition) 등과 같은 음성 기반 어플리케이션 장치의 성능을 급격하게 떨어뜨릴 수가 있기 때문이다. 따라서 배경 노이즈에 의한 영향을 최소화함으로써 노이지 음성 신호의 처리 장치의 성능을 개선하기 위한 연구가 활발하게 진행되고 있다.
노이즈와 음성이 공존하는 단일 채널에서 음질 개선을 위해서는 노이지 음성 신호 중에서 음성 성분에는 손상을 가하지 않으면서 노이즈 성분만을 효율적으로 제거하여야 한다. 따라서 대부분의 노이지 음성 처리 절차에서는 노이지 음성 신호의 노이즈 성분을 구하기 위한 노이즈 추정(Noise Estimation) 절차를 기본적으로 포함한다. 그리고 추정된 노이즈(Estimated Noise) 신호는 노이지 음성 신호에서 노이즈 성분을 제거하는데 이용되는데, 이와 같이 노이지 음성 신호의 스펙트럼에서 추정된 노이즈 신호의 스펙트럼을 차감함으로써 노이즈를 제거하는 방법을 일반적으로 스펙트럼 차감(Spectral Subtraction)법이라고 한다.
스펙트럼 차감법을 이용하는 노이지 음성 신호의 처리 장치에서는 무엇보다도 노이즈 추정이 정확하게 이루어져야 한다. 하지만, 노이지 음성 신호에서 실시간으로 노이즈를 정확하게 추정하는 것은 결코 쉽지가 않다. 뿐만 아니라, 다양한 비정적인 환경에 오염된 노이지 음성 신호로부터 노이즈 추정을 정확하게 수행하여 깨끗한 음성 신호를 얻는다는 것은 매우 어려운 일이다. 부정확한 노이즈 추정은 두 가지 종류의 부작용을 유발할 수가 있는데, 만일 추정된 노이즈가 실제 노이즈보다 낮으면, 개선된 음성 신호에서 성가신 잔류 노이즈(Annoying Residual Noise) 또는 잔류 뮤지컬 노이즈(Residual Musical Noise)가 감지될 수 있다. 반면, 추정된 노이즈가 실제 노이즈보다 높으면, 개선된 음성 신호에서 음성 왜곡이 발생하게 된다.
정확한 노이즈 추정을 위하여 많은 방법들이 제안되었는데, 그 중에서 다소 직관적이고 직접적인 노이즈 추정 절차는 음성 활동 감지(Voice Activity Detection, VAD) 기반 방법을 사용하는 것이다. VAD 기반 방법에 의하면, 이전의 노이즈 프레임(Noise Frame)으로부터 획득한 통계 정보를 이용하여 노이즈를 추정한다. 노이즈 프레임이란 음성이 포함되지 않은 묵음 프레임(Silent Frame or Speech-absent Frame)을 일컫는다. 그러나 배경 노이즈가 비정적(Non-stationary)이거나 또는 레벨 가변적(Level-varying)인 경우에, 종래의 VAD 기반 방법은 과거의 통계 정보를 이용하기 때문에 현재의 노이즈 레벨에 대한 신뢰할 수 있는 정보를 획득하기가 어려운 단점이 있다.
VAD 기반 방법의 단점을 극복하기 위하여, 여러 가지 새로운 방법이 제안되었다. 이들 중에서 널리 알려진 접근법은 최소 통계(Minimum Statistics, MS) 알고리즘을 이용하는 것이다. 이에 의하면, 탐색 윈도우(Search Window)에 걸쳐서 노이지 음성 신호의 스무드된 파워 스펙트럼(Smoothed Power Spectrum)의 최소값을 추적한다. 여기서, 탐색 윈도우는 약 1.5초의 최근 프레임들을 커버한다. 이러한 MS 알고리즘은 일반적으로 훌륭한 성능을 보여 주지만, 특히 노이즈가 대부분을 차지하는 노이즈 도미넌트 신호(Noise Dominant Signal)에서 노이즈 레벨의 변화를 빨리 추적할 수 없는 단점이 있다. 그 결과, 노이즈 추정에 있어서의 시간 지연(Time Lag)이라는 문제가 발생한다.
이러한 단점을 해결하기 위하여, 여러 가지 종류의 수정된 MS 알고리즘이 제안되었다. 이들 수정된 MS 알고리즘의 대부분이 갖는 공통적인 두 가지 특징은 다음과 같다. 첫째는 고려 대상이 되는 프레임 또는 주파수 빈(Frequency Bin)에 음성이 존재하는지 또는 묵음 구간인지를 구별하기 위한 지시자(Indicator)가 지속적으로 사용된다는 것이다. 그리고 두 번째 특징은 순환 평균(Recursive Averaging, RA) 기반 노이즈 추정기(Noise Estimator)가 사용된다는 것이다.
그런데, 수정된 MS 알고리즘은 최초의 MS 알고리즘이 보여준 노이즈 추정에 있어서의 시간 지연을 어느 정도는 해결할 수가 있었지만, 이를 완전하게 해결할 수는 없었다. 왜냐하면, 수정된 MS 알고리즘도 본질적으로는 MS 알고리즘과 동일한 방법, 즉 현재 프레임의 노이즈를 추정함에 있어서, 이전 프레임의 추정된 노이즈 신호가 큰 가중치로 반영되어 사용되고 있기 때문이다. 따라서 종래의 MS 알고리즘 또는 수정된 MS 알고리즘은 특히, 노이즈 도미넌트 프레임에서 레벨의 변화가 급격한 배경 노이즈를 신속하고 정확하게 추정하기가 어렵다.
본 발명이 해결하고자 하는 과제는 전술한 종래의 노이지 음성 신호의 처리 절차에서 파생되는 문제점을 해결하는 것으로서, 비정적이며 또한 다양한 유형의 노이즈 조건에서도 효과적으로 음질을 개선할 수 있고, 특히 잔류 뮤지컬 잡음을 효과적으로 억제할 수 있는 음질 개선 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 다른 과제는 노이지 도미넌트 신호인 경우에도 노이즈의 변화를 신속하고 또한 정확하게 추적할 수 있으며, 또한 시간 지연이 발생하는 것을 효과적으로 방지할 수 있는 노이지 음성 신호의 처리 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 또 다른 과제는 음성이 대부분을 차지하는 신호에서는 노이즈 레벨이 과대평가 되어서 음성 왜곡이 발생하는 것을 방지할 수 있는 노이즈 음성 신호의 처리 장치를 제공하는 것이다.
전술한 과제를 해결하기 위하여, 본 발명에서는 균일 웨이블릿 패킷 변환 도메인 또는 퓨리에 변환 도메인 등과 같은 주파수 도메인에서의 적응적 노이즈 추정 절차와 이를 이용한 노이지 음성 신호의 처리 방법 및 장치를 제안한다. 본 발명에 따라 제안된 알고리즘에서의 주요한 특징 두 가지는 노이지 도미넌트 프레임에서도 현재 프레임의 노이지 음성 신호에 큰 가중치를 부여하는 순환적 평균 기반 노이즈 추정(RA-based Noise Estimation) 및 정확한 묵음 프레임의 판정을 통한 지속적인 스케일링 인자의 리파인먼트(Scaling Factor Refinement)이다.
본 발명의 실시예에서도 노이즈를 추정하기 위하여 RA 기반 노이즈 추정을 사용한다는 점에서, 종래의 MS 알고리즘이나 가중 평균(Weighted Average, WA) 알 고리즘과 공통점이 있다. 그러나 본 발명의 실시예에 따른 RA 기반 노이즈 추정은, 스케일링 인자의 관점에서, 음질 개선에서 일반적으로 사용되고 있는 종래의 RA 기반 노이즈 추정과 차이가 있다. 즉, 종래의 MS 알고리즘이나 WA 알고리즘에서의 RA 기반 노이즈 추정에서는, 이전 프레임의 노이즈 추정치에 더 큰 가중치를 부여하고 입력 신호(Input Signal)인 현재 프레임의 노이지 스피치 신호에는 더 작은 가중치를 부여하였다. 반면에, 본 발명의 실시예에서는, 이러한 기존의 알고리즘과는 반대로, 노이지 음성 신호에 대한 노이즈의 비율이 소정의 임계치 이상일 경우에는 현재의 입력 노이지 음성 신호에 보다 큰 가중치를 할당되도록 함으로써, 신속하고 정확한 노이즈 추정이 가능하도록 하고 시간 지연이 발생되는 것을 방지한다. 그리고 노이지 스피치 신호에 대한 노이즈의 비율이 소정의 임계치 이하일 경우에는, 현재의 입력 노이지 신호만을 이용하여 노이즈를 추정함으로써, 노이즈가 과대 평가되는 것을 방지한다.
그리고 스케일링 인자 리파인먼트와 관련하여 본 발명의 실시예에 의하면, 고려 대상인 주파수 도메인의 노드(예컨대, 웨이블릿 패킷 노드)가 스피치가 없는 묵음(Speech-absent)인 것으로 판정될 경우에, 스케일링 인자를 지속적으로 업데이트한다. 그리고 묵음 구간인지 여부를 판정함에 있어서, 파워나 엔트로피가 아닌 인접한 노드 사이의 변환 계수, 예컨대 웨이블릿 패킷 변환 계수(Wavelet Packet Transform Coefficient, WPTC)의 크기비(Magnitude Ratio)를 이용하기 때문에, 묵음 구간에 대한 판정의 정확도를 향상시킬 수가 있다.
일반적으로, 음성이 없다는 것을 감지하는 것은 노이즈를 추정하는 과정에서 큰 도움이 될 수 있다. 그러나 묵음 프레임인를 부정확하게 판정하는 경우에는 노이즈 추정에 큰 오류를 발생시킬 수가 있기 때문에, 정확한 판정이 요구된다. 본 발명의 실시예에 의하면, 노이즈 신호는 주파수 도메인, 예컨대 웨이블릿 패킷 변환 도메인에서의 이웃 노드들 사이에 변환 계수의 크기가 유사하다는 성질을 이용한다. 보다 구체적으로, 본 발명에서는 해당 프레임에서 음성이 존재하는지 여부를 조사하기 위하여, 주파수 도메인, 예컨대 웨이블릿 패킷 변환 도메인에서 현재 노드와 함께 이웃 노드에서의 변환 계수(예컨대, WPTC)의 크기 사이의 비를 고려한다. 이러한 본 발명의 실시예에 의하면, 고도로 비정적인 노이즈 환경에서도 현재 프레임이 묵음 프레임에 해당되는지에 대한 판정의 정확성을 향상시킬 수가 있다.
상기한 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른 노이지 음성 신호의 처리 장치는 현재 프레임의 입력 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 계수들로 이루어진 변환 신호를 생성하도록 고안된 변환 유닛, 상기 변환 신호를 이용하여 노이즈를 추정하는 수단으로써, 만일 스케일링 인자가 소정의 임계치보다 작은 경우에는 상기 입력 노이지 음성 신호만을 이용하여 제1 노이즈를 추정하고, 만일 상기 스케일링 인자가 상기 임계치 이상인 경우에는 상기 입력 노이지 음성 신호와 이전 프레임의 노이즈 추정치를 모두 이용하되 상기 노이즈 추정치보다 상기 입력 노이지 음성 신호에 더 큰 가중치를 할당하여 제2 노이즈를 추정하도록 고안된 노이즈 추정 유닛, 및 상기 변환 유닛으로부터 출력되는 변환 신호에서 상기 노이즈 추정 유닛으로부터 출력되는 추정된 노이즈 신호를 차감하여 개선된 음성 신호를 얻도록 고안된 스펙트럼 차감 유닛을 포함한다. 상기 노이지 음성 신호의 처리 장치는 상기 스펙트럼 차감 유닛으로부터 출력되는 개선된 음성 신호를 시간 도메인으로 역변환하여 시간 영역에서의 개선된 음성 신호를 생성하기 위한 역변환 유닛을 더 포함할 수도 있다.
상기한 기술적 과제를 달성하기 위한 본 발명의 다른 실시예에 따른 노이지 음성 신호의 처리를 위한 묵음 프레임의 판정 장치는 현재 프레임의 입력 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 계수들로 이루어진 변환 신호를 생성하도록 고안된 변환 유닛 및 소정 차수의 변환 레벨에서 상기 변환 유닛으로부터 출력되는 상기 변환 신호의 인접한 노드 사이의 상기 변환 계수의 크기비를 이용하여 현재 프레임이 묵음 프레임인지를 판정하도록 고안된 판정 유닛을 포함한다.
상기한 해결 과제를 달성하기 위한 본 발명의 또 다른 실시예에 따른 노이지 음성 신호의 처리 장치는 현재 프레임의 입력 노이지 음성 신호에 대하여 균일 웨이블릿 패킷 변환을 수행하여 변환 신호를 생성하도록 고안된 균일 웨이블릿 패킷 변환 유닛, 이전 프레임의 스무드된 변환 신호와 상기 균일 웨이블릿 패킷 변환 유닛에서 생성된 현재 프레임의 임의의 고정된 웨이블릿 패킷 트리 레벨에서의 변환 신호의 크기를 이용하여, 상기 현재 프레임의 스무드된 변환 신호를 생성하도록 고안된 스무딩 유닛, 상기 스무딩 유닛으로부터 생성된 상기 스무드된 변환 신호의 인접한 노드 사이의 웨이블릿 패킷 변환 계수의 크기비를 이용하여 현재 프레임이 묵음 프레임인지를 판정하고, 만일 상기 현재 프레임이 묵음 프레임인 경우에는 스케일링 인자를 업데이트한 후에 상기 스무드된 변환 신호를 이용하여 노이즈를 추정하고, 만일 상기 현재 프레임이 묵음 프레임이 아닌 경우에는 곧바로 상기 스무 드된 변환 신호를 이용하여 노이즈를 추정하도록 고안된 노이즈 추정 유닛, 상기 노이즈 추정 유닛에서 추정된 노이즈를 이용하여 스펙트럼 차감 과정을 수행하여 개선된 음성 신호를 구하도록 고안된 스펙트럼 차감 유닛, 및 상기 스펙트럼 차감 유닛으로부터 구해진 개선된 음성 신호에 대하여 균일 웨이블릿 패킷 역변환을 수행하도록 고안된 균일 웨이블릿 패킷 역변환 유닛을 포함한다.
상기한 해결 과제를 달성하기 위한 본 발명의 또 다른 실시예는 음성 기반 어플리케이션 장치에 관한 것으로서, 노이지 음성 신호를 획득하도록 고안된 입력 장치, 상기 입력 장치를 통해 획득한 노이지 음성 신호를 처리하여 개선된 음성 신호를 생성하도록 고안된 전술한 본 발명의 일 실시예에 따른 노이지 음성 신호의 처리 장치, 및 상기 노이지 음성 신호의 처리 장치로부터 출력되는 개선된 음성 신호를 외부로 출력하도록 고안된 출력 수단을 포함한다.
상기한 해결 과제를 달성하기 위한 본 발명의 또 다른 실시예는 음성 기반 어플리케이션 장치에 관한 것으로, 노이지 음성 신호를 획득하도록 고안된 입력 장치, 상기 입력 장치를 통해 획득한 노이지 음성 신호를 처리하여 개선된 음성 신호를 생성하도록 고안된 전술한 본 발명의 실시예에 따른 노이지 음성 신호의 처리 장치, 및 상기 노이지 음성 신호의 처리 장치로부터 출력되는 개선된 음성 신호를 전송 네트워크를 통해 전송하도록 고안된 전송 장치를 포함한다.
순환 평균(RA) 기반 노이즈 추정에서 이전의 노이즈 추정치는 과거 프레임으로부터 획득한 정보이고, 입력 노이지 스피치 신호는 현재 프레임으로부터 획득한 정보이다. 본 발명의 실시예에 의하면, 입력 노이지 스피치 신호에 대한 이전 프레임에서의 노이즈 추정치, 즉 스케일링 인자가 소정의 임계치보다 클 경우에는 이전 프레임으로부터 추정된 노이즈 보다는 현재 프레임에 존재하는 신호에 보다 높은 가중치를 부여하여 현재 프레임의 노이즈를 추정한다. 따라서 본 발명에 의하면, 노이즈 추정기가 현재 프레임의 노이지 스피치 신호에 포함된 노이즈의 변화에 대한 추적을 보다 신속하게 그리고 적응적으로 수행할 수 있도록 한다. 이러한 본 발명의 실시예에 의하면, 노이즈가 일정 비율 이상을 차지하고 또한 고도로 비정적이거나 또는 레벨-가변적 환경에서도 급격히 변화하는 노이즈를 정확하게 적응적으로 추정할 수 있기 때문에, 종래의 MS 알고리즘이나 WA 알고리즘이 보여 준 근본적인 한계, 즉 시간 지연으로 인하여 뮤지컬 노이즈가 잔류하는 문제를 해결할 수가 있다.
그리고 본 발명의 실시예에 의하면, 입력 노이지 스피치 신호에 대한 이전 프레임의 추정 노이즈의 비율(스케일링 인자)이 상기 임계치 이하일 경우에는 현재 프레임의 입력 노이지 스피치 신호만을 이용하여 노이즈를 추정한다. 그 결과, 본 발명의 실시예에 따른 노이즈 추정 절차에서는 음성의 비율이 높은 노이지 음성 신호에서 노이즈 레벨이 지나치게 높게 추정되어 음성 왜곡이 발생하는 것을 방지할 수가 있다.
또한, 본 발명의 실시예에 의하면, 현재 프레임이 묵음 프레임인지를 판정함에 있어서, 주파수 도메인, 예컨대 웨이블릿 패킷 변환 도메인에서 이웃하는 노드 사이의 변환 계수(예컨대, WPTC)의 크기비를 이용한다. 이러한 본 발명의 실시예에 따른 묵음 프레임의 판정 방법은, 다양한 비정적인 노이즈 환경에서도 변화가 없는 노이즈 신호의 근본적인 특성을 이용하는 것이기 때문에, 묵음 프레임에 대한 판정의 정확도를 한층 향상시킬 수가 있다. 그리고 이렇게 향상된 정확도로 판정된 묵음 프레임에서 획득한 최신 정보는, 노이즈 추정에서 사용하는 스케일링 인자를 새롭게 정의하는데 이용되고, 또한 필요한 경우에는 묵음 프레임의 판정에 이용되는 기준 프레임의 정보를 업데이트하는데 이용될 수 있다. 따라서 이러한 본 발명의 실시예에 따른 묵음 프레임의 판정 방법은, 노이지 음성 신호의 처리에 있어서 보다 현재 프레임에 가까운 이전 프레임의 정보를 이용할 수 있도록 하기 때문에, 노이즈 추정의 정확도를 한층 향상시킬 수가 있다.
이하에서는, 첨부 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세하게 설명한다. 후술하는 실시예는 본 발명의 기술적 사상을 설명하기 위한 목적이므로, 본 발명의 기술적 사상은 이 실시예에 의하여 한정되는 것으로 해석되어서는 안된다. 본 실시예에 대한 설명 및 도면에서 각각의 구성요소에 부가된 참조 부호는 단지 설명의 편의를 위하여 기재된 것일 뿐이다.
그리고 후술하는 본 발명의 실시예는 주파수 변환으로서 웨이블릿 패킷 변환을 적용하는 경우에 대해서만 예를 들어서 설명한다. 하지만, 본 발명의 실시예가 웨이블릿 패킷 변환이 아닌 퓨리에 변환을 적용하는 경우에도 동등하게 적용할 수 있다는 것은 당업자에게 자명하므로, 이하에서는 퓨리에 변환을 적용하는 실시예에 대한 구체적인 설명은 생략한다.
도 1은 본 발명의 일 실시예에 따른 노이지 음성 신호의 처리 절차를 보여 주는 흐름도이다. 도 1을 참조하면, 본 발명의 일 실시예에 따른 노이지 음성 신호의 처리 절차는 입력 노이지 음성 신호에 대한 균일 웨이블릿 패킷 변환 단계(Uniform Wavelet Packet Transform, S10), 스무딩 단계(Smoothing, S20), 노이즈 추정 단계(Noise Estimation, S30), 변형된 스펙트럼 차감 단계(Modified Spectrum Substraction, S40), 및 균일 웨이블릿 패킷 역변환 단계(Inverse Uniform Wavelet Packet Transform, S50)를 포함한다. 이하, 입력 노이지 음성 신호를 처리하여 개선된 음성을 출력하는 본 발명의 실시예를 구성하는 각 단계에 대하여 보다 구체적으로 설명한다.
입력 노이지 음성 신호 y(l)는 다음의 수학식 1과 같이 깨끗한 음성과 가산 노이즈의 합으로 표현할 수 있다. 수학식 1에서, l, s(l), 및 n(l)은 각각 이산 시간 인덱스(Discrete Time Index), 깨끗한 음성(Clean Speech), 부가적인 비관련 노이즈(Additive Uncorrelated Noise)를 나타낸다.
Figure 112008007022856-PAT00001
그리고 상기 입력 노이지 음성 신호 y(l)에 대하여 균일 웨이블릿 패킷 변환을 수행하여 웨이블릿 패킷 변환 도메인에서의 변환 신호를 생성한다(S10). 상기 변환 신호는 균일 웨이블릿 패킷 변환 영역에서의 변환 계수이며, 그 구조는 도 2에 도시되어 있다. 도 2를 참조하면, 전체 트리 레벨(Tree Level)을 J라고 할 경우 에, 웨이블릿 패킷 변환이 이루어지지 않은 레벨을 0으로 표시하고, 레벨0에서의 노드(Node)의 개수를 1로 가정한다. 웨이블릿 패킷 변환 단계에 따라 트리 레벨은 1씩 증가하고, 그에 따라서 노드의 개수는 2배씩 증가한다. 따라서 j(0≤j≤J-1)번째 트리 레벨에서 노드의 개수는 2j이 된다. 각 노드는 하나 이상의 변환 계수를 가지고 있으며, 노드에 포함되는 변환 계수의 개수는 각 노드마다 동일하다. 이와 같이, 입력 노이지 음성 신호에 대한 균일한 밴드 구조를 갖는 웨이블릿 패킷 계수는 다음의 수학식 2로 표현할 수 있다.
Figure 112008007022856-PAT00002
여기서, i, j, k (0 ≤ k ≤ K-1), 및 m (m = 0, 1, …, M-1)은 각각 프레임 인덱스, 웨이블릿 패킷 트리 레벨 인덱스, 노드 인덱스 및 각 노드에서의 계수 빈 인덱스(Coefficient Bin Index)를 나타낸다. 그리고 S i,j,k (m)은 깨끗한 음성의 웨이블릿 패킷 변환 계수를 나타내고, N i,j,k (m)은 노이즈의 웨이블릿 패킷 변환 계수를 나타낸다.
그런데, 본 발명의 실시예에서는 단일 고정 트리 레벨(예컨대, j=3)에서의 웨이블릿 패킷 변환 신호를 취급하므로, 상기 변한 신호에서 웨이블릿 패킷 트리 레벨 인덱스 j는 제외할 수가 있다. 따라서 아래 첨자 j를 삭제하면, 상기 수학식 2는 동등하게 수학식 3으로 표현할 수 있다.
Figure 112008007022856-PAT00003
다음으로, 균일 웨이블릿 패킷 변환된 변환 신호에 대하여 스무딩을 수행한다(S20). 일반적으로 웨이블릿 패킷 계수 Y i,k (m)는 시간 축(Time Axis), 즉 각 노드에서의 계수 빈 인덱스 m에 대하여 날카로운 피크와 벨리(Peaks and Valleys)를 가지기 때문에, 이를 부주의하게 취급할 경우에는 종종 개선된 음성 신호에서 잔류 노이즈를 초래하게 된다. 따라서 본 단계의 스무딩 절차는 노이즈를 추정하는 과정에서 이러한 위험을 줄이기 위한 것이다.
다음의 수학식 4는 본 발명의 일 실시예에 따른 스무딩 단계를 표현하는 식으로서, 날카로운 피크와 벨리를 제거하기 위하여 순환적 평균(Recursive Averaging) 기법이 사용되는 경우이다. 수학식 4에서, αX (0 < αX <1)와 X i,k (m)는 각각 스무딩 인자(Smoothing Factor)와 스무드된 웨이블릿 패킷 변환 계수를 나타낸다. 수학식 4를 참조하면, 본 발명의 실시예에서는 웨이블릿 패킷 변환된 변환 신호의 파워(Power)가 아닌 크기(Magnitude)를 이용한다는 것을 알 수 있는데, 이것은 본 발명의 실시예에서는 묵음 구간을 찾기 위하여 인접한 노드 간의 변환 계수의 크기비(Magnitude Ratio)를 이용하는 것과 관련이 있다. 이에 대해서는 후술하기로 한다.
Figure 112008007022856-PAT00004
다음으로, 스무드된 웨이블릿 패킷 변환 계수를 이용하여 노이즈 추정 절차를 수행한다(S30). 본 단계의 노이즈 추정 절차는, 스펙트럼 차감법에서 현재 입력 노이지 음성 신호에서 배경 노이즈를 제거하는데 이용할 노이즈 신호를 추정하는 절차이다.
음성 개선을 위하여 노이즈 추정 절차에서 순환 평균(RA) 알고리즘이나 또는 가중 평균(WA) 알고리즘은 종래부터 널리 사용되어 왔다. 이의 대표적인 예는 여러 가지가 있는데, 고도의 비정적인 환경에서 노이즈 파워 스펙트럼을 추정하는데 RA 기법을 사용하는 Rangachari, Loizou, 및 Hu의 논문("A noise estimation algorithm with rapid adaptation for highly non-stationary environments", IEEE ICASSP, pp.305-308, May 2004), 노이즈 변이(Noise Variance)를 추정하는데 RA 기법을 사용하는 최소 제어 순환 평균(Minima Controlled Recursive Averaging, MCRA)(I. Cohen, B. Berdugo, "Noise estimation by minima controlled recursive averaging for robust speech enhancement", IEEE Signal Processing Letter, vol. 9, no.1, pp. 12-15, Jan. 2002), 및 개선된 MCRA(I. Cohen, "Noise spectrum estimation in sdverse environments: improved minima controlled recursive averaging", IEEE Trans. Speech and Audio Processing, vol. 11, no. 5, pp. 466-475, Sept. 2003) 등이 그 일례이다.
이러한 RA 기반 방법에서의 기본적인 개념은 다음의 수학식 5와 같이 나타낼 수 있다.
Figure 112008007022856-PAT00005
여기서,
Figure 112008007022856-PAT00006
과 Xi는 각각 i번째 프레임의 추정된 노이즈를 나타내는 파라미터(크기, 파워, 변이 등)와 입력 노이지 음성을 나타내는 파라미터이고, α는 스케일링 인자이다. 상기 스케일링 인자는 일반적으로
Figure 112008007022856-PAT00007
의 형태를 갖고 있다. 여기서
Figure 112008007022856-PAT00008
및 P(Xi)는 각각 이전 프레임에서의 노이즈 추정치를 나타내는 파라미터와 입력 노이지 음성을 나타내는 파라미터이다. 따라서 노이즈 도미넌트 프레임인 경우에는 상기 스케일링 인자 α는 상대적으로 큰 값을 가지며, 그 결과 현재 프레임의 노이즈 추정
Figure 112008007022856-PAT00009
은 대부분 이전 프레임의 노이즈 추정치
Figure 112008007022856-PAT00010
에 의존한다. 이러한 종래의 노이즈 추정 알고리즘은 정적인 노이즈 환경에서 효과가 우수한 것으로 알려져 있지만, 전술한 바와 같이 비정적인 노이즈 환경과 노이즈 도미넌트 프레임에서는 심각한 결함을 나타낼 수 있다.
그리고 상기 수학식 5에 기초하여 노이즈 추정을 하는 경우에는, 노이즈 레벨이 증가하는 경우에는 약 0.5 내지 2초의 시간 지연이 발생하는 것으로 관측되었다. 이것의 주된 원인은 스케일링 인자 α의 값이 증가할수록 현재 프레임의 노이즈 추정은 이전 프레임의 노이즈 추정치에 더 많은 영향을 받기 때문이다. 그 결과, 상기 수학식 5에 기초하는 기존의 노이즈 추정 방법은 비정적인 환경에서의 노이즈의 변동(Fluctuation)을 효과적으로 반영할 수가 없다. 따라서 노이지 음성 신 호에서 노이즈가 대부분을 차지하는 영역, 즉 α가 거의 1이 되는 영역에서 이러한 노이즈의 변동에 대처하기 위해서는, 이전 프레임의 노이즈 추정 보다는 현재 프레임의 노이지 음성 신호 전체에 더 많이 의존하도록 하여 노이즈 추정을 수행하도록 할 필요가 있다.
따라서 본 발명의 실시예에 따른 노이즈 추정 절차(S30)는 우선, 적응적 순환 평균 노이즈 추정으로써, 스케일링 인자의 크기가 소정의 임계치보다 큰 경우와 작은 경우를 구분하여 각기 다른 방법으로 노이즈를 추정하며, 특히 스케일링 인자의 크기가 상기 임계치 이상이어서 노이즈 도미넌트 프레임인 경우에는 추정된 과거 프레임의 노이즈 신호보다는 현재 프레임의 노이지 음성 신호를 더 많이 반영하여 노이즈 추정을 한다는 점에서 기존의 노이즈 추정 방법과는 차이가 있다.
그리고 본 발명의 실시예의 일 측면에 의하면, 노이즈 추정을 하기 이전에 묵음 구간을 먼저 조사하여 스케일링 인자를 지속적으로 업데이트하는데, 묵음 구간을 검출하는데 있어서 인접한 노드 간의 WPTC의 크기비(Magnitude Ratio)를 이용한다. 이러한 본 발명의 실시예에 따른 묵음 구간의 판정 절차는 묵음 구간의 검출에 대한 정확도를 향상시킬 수가 있다.
도 3은 이러한 본 발명의 일 실시예에 따른 노이즈 추정 절차를 보여 주는 흐름도이다. 도 3을 참조하면, 본 발명의 실시예에 따른 노이즈 추정 절차(S30)는 스케일링 인자(Scaling Factor) 추정 단계(S31), 크기비 기반 묵음 판정 단계(S32), 해당 프레임이 묵음 프레임인지를 판정하고(S33), 만일 묵음 프레임인 것으로 판정되는 경우에는 스케일링 인자를 업데이트(S34)한 후에 노이즈를 추정하 고(S35), 묵음 프레임이 아닌 것으로 판정되는 경우에는 곧바로 노이즈를 추정하는 단계(S35)를 포함한다.
단계 S31에서의 스케일링 인자의 추정을 위하여, 우선 본 발명의 실시예에 적용될 수 있는 스케일링 인자에 대하여 정의한다. 본 발명의 실시예에 따른 스케일링 인자 φi(k)는 임의의 노드 k에서의 크기 기반 스케일링 인자(Magnitude Based Scaling Factor)로써, i 번째 프레임의 노이지 음성 신호의 노드 k에서의 WPTC 크기의 합(수학식 6)에 대한 (i-1)번째 프레임에서의 추정된 노이즈 신호의 노드 k에서의 WPTC 크기의 합(수학식 7)의 비로 표현된다. 그리고 이러한 본 발명의 일 실시예에 따른 크기 기반 스케일링 인자는 1보다 클 수는 없다.
Figure 112008007022856-PAT00011
Figure 112008007022856-PAT00012
이와 같이, 단계 S31에서는 gi(k)에 대한 hi-1(k)의 비로 스케일링 인자 φi(k)를 계산한다. 상기 스케일링 인자는 노이지 음성 신호에서 노이즈가 차지하는 비율에 대한 추정치를 계산하기 위한 것이다. 그리고 상기 스케일링 인자는 임의의 노드 k에 대하여 계산되므로, 노드 레벨 스케일링 인자이다.
이와 같이, 스케일링 인자에 대한 추정이 이루어지고 나면, 다음으로 현재 프레임이 묵음 프레임인지에 대한 판정을 수행한다(S32). 이러한 본 단계는 임의적인 것으로서, 본 발명의 실시예에 의하면 매 프레임마다 묵음 프레임인지를 판정하기 위한 절차를 수행할 필요는 없다. 예를 들어, 매 프레임마다 수행하지 않고 소정의 프레임 간격으로 묵음 프레임인지를 판정하거나 또는 필요한 경우에만 임의적으로 묵음 프레임인지를 판정할 수도 있다.
묵음 여부를 판단하는 일차적인 목적은 단계 S31에서 추정된 스케일링 인자를 단계 S34에서 업데이트하기 위한 것이다. 본 발명의 실시예에서는 현재 처리 대상이 되는 노드 k에서의 WPTC 크기와 이에 인접한 노드, 예컨대 노드 (k-1) 및/또는 노드 (k+1)에서의 WPTC 크기 사이의 크기비를 묵음 프레임인 기준 프레임에서의 크기비와 비교함으로써, 현재 프레임이 묵음 프레임인지 또는 아닌지를 판단한다.
노이지 음성의 처리와 이를 위한 노이즈 추정 절차에서 묵음 프레임은 노이지 음성의 처리에 필요한 많은 파라미터들을 새롭게 정의하거나 또는 업데이트하는데 이용할 수가 있다. 따라서 묵음 프레임인지를 정확하게 그리고 가능한 자주 판단하는 것이 중요하다. 일반적으로 노이즈가 비정적인 경우에, 단일 채널 노이지 음성의 입력에서 음성의 존부를 정확하게 판정하는 것은 상당히 어렵다. 본 발명의 실시예에서는 비정적인 노이즈 환경에서도 묵음 여부에 대한 판정의 정확도를 향상시키기 위하여, 웨이블릿 패킷 변환 도메인의 각 노드에서 음성이 존재하는지 또는 묵음인지를 판단한다.
그리고 본 발명의 실시예에서는 크기비 기반 판정법(Magnitude Ratio-based Decision Approach)을 제안한다. 음성이 존재하는지 또는 묵음인지를 판정하기 위 하여 종래에도 많은 파라미터(스펙트럼 에너지(Spectral Energy), 제로 크로싱비(Zero Crossing Rate), 엔트로피(Entrpoy) 등)가 사용되었다. 그러나 현재까지 웨이블릿 패킷 변환 도메인에서 인접한 노드 사이의 WPTC의 크기비에 기초하여 묵음인지를 판정하는 방법은 알려져 있지 않다.
본 발명의 실시예는 다음과 같은 현상, 즉 자연적인 노이즈 스펙트럼은, 비록 그것인 비정적인 노이즈라고 하더라도, 웨이블릿 패킷 변환 도메인에서 이웃 밴드와는 독립적으로 급격한 변동을 보여주지 않는다는 현상에 기초한다. 이러한 현상을 이용할 경우에, 만일 이웃한 밴드 사이에 WPTC의 크기비를 파라미터로 사용하고, 그리고 그것을 기준 노이즈 프레임에서의 WPTC의 크기비와 비교함으로써, 묵음 여부에 대한 판정을 용이하게 할 수가 있다.
이와 같이, 본 발명의 실시예에서는, 후술하는 바와 같이, WPTC의 크기비를 통하여 노이지 음성 신호에서 묵음 여부를 판정한다. 예를 들어, 각 노드 k에 대하여 두 개의 인접 노드 (k+1) 및 (k-1)와의 WPTC의 크기비를 수학식 8과 같이 정의할 수 있다. 수학식 8에서 노드 k와 노드 (k+1)과의 WPTC의 크기비를 상방향 비(Upward Ratio, UPR), γi UP(k)라고 하고, 노드 k와 노드 (k-1)과의 WPTC의 크기비를 하방향 비(Downward Ratio, DNR), γi DN(k)라고 한다. 그리고 gi(k)는 수학식 6에 정의되어 있으며, K는 웨이블릿 패킷 트리 레벨이 k인 경우의 노드의 개수를 나타낸다.
Figure 112008007022856-PAT00013
그리고 두 개의 기준비, 즉 상방향 기준비(Upward Reference Ratio, R-UPR), λUP(k) 및 하방향 기준비(Downward Reference Ratio, R-DNR), λDN(k)를 수학식 8에서 정의한 것과 동일한 방식으로 정의한다. 이들 두 개의 기준비는 수학식 8에서 정의된 비와 비교하는데 있어서 기준이 되는 것으로서, 이미 알고 있는 묵음 프레임으로부터 구할 수가 있다. 여기서, 이미 알고 있는 묵음 프레임은 예컨대, 통상적으로 음성이 없는 것으로 간주되는 발화(Utterance)의 시작 프레임 또는 본 발명의 실시예에 따른 묵음 판정 절차에 따라서 가장 최근에 식별된 묵음 프레임 등이 될 수 있다.
만일 R-UPR에 대한 UPR의 비
Figure 112008007022856-PAT00014
가 1에 가까우면, 현재 프레임에서 k번째 노드의 노이즈 비율과 (k+1)번째 노드의 노이즈 비율 사이의 비가 기준 프레임에서의 노이즈 비율 사이의 비와 서로 비슷하다는 것을 나타내며, 이것은 R-DNR에 대한 DNR의 비
Figure 112008007022856-PAT00015
의 경우에도 동일하게 적용될 수 있다. 즉, R-UPR(또는 R-DNR)에 대한 UPR(또는 DNR)의 비가 1에 가까우면, 현재 프레임에서의 두 개의 노드 사이의 노이즈 크기 경향(Noise Magnitude Trend)은 그 크기에 상관없이 기준 프레임에서의 두 개의 노드 사이의 노이즈 크기 경향과 유사하다는 것을 알 수 있다. 즉, 이 와 같은 경우에는 현재 프레임이 기준 프레임과 유사한 WPTC의 크기비를 보이므로, 현재 프레임도 묵음 프레임에 해당될 가능성이 상당히 높다.
도 4는 본 발명의 실시예에서와 같이 UPR과 DNR을 이용하여 묵음 여부를 판단하는 것이 효과적임을 설명하기 위한 도면이다. 도 4의 (a)는 SNR(Signal to Noise Ration) 5db에서의 노이지 음성의 파형을 보여 주는 도면이고, 도 4의 (d)는 상기 (a)의 배경 노이즈의 파형을 보여 주는 도면이다. 도 4의 (b)와 (e)는 각각 주파수 0 내지 3kHz 범위에서 (a)의 노이지 음성와 (d)의 노이즈에 대한 스펙트로그램(Spectrogram)을 보여 주는 도면이고, 도 4의 (c)와 (f)는 각각 노드 인덱스 k=2에서 (a)와 (d)의 UPR γUP(점선) 및 DNR γDN(실선)을 보여 주는 도면이다.
여기서, 스펙트로그램의 주파수 범위가 0 내지 3kHz 범위인 것은 노드 인덱스가 0 내지 2인 것에 대응한다. 그리고 상기 노이즈 파형은 백색 가우시안 노이즈를 진폭 조정함으로써 획득할 수 있으며, '변동 백색 가우시안 노이즈(Fluctuating White Gaussian Noise)'라고도 한다. 도 4의 (f)를 참조하면, 노이즈 신호의 UPR과 DNR은 상대적으로 평평한 반면에, 도 4의 (c)를 참조하면, 노이지 음성 신호의 UPR과 DNR은 음성 신호의 진폭과 유사하게 비례하면서 변동되는 것을 알 수 있다. 결국, UPR와 DNR은 크기의 비이기 때문에, 에너지 레벨의 변동에 의해서는 거의 영향을 받지 않으며, 음성이 함께 존재할 경우에는 음성 신호의 영향으로 UPR과 DNR이 변동이 생기지만, 노이즈 신호만으로 구성된 묵음 프레임의 경우에는 UPR과 DNR은 거의 일정하다는 것을 알 수 있다.
UPR와 DNR을 이용하는 이상의 내용을 정리하면, 다음과 같이 공식화가 가능하다. 우선, 상방향과 하방향의 유사도 파라미터(Resemblance Parameters)를 수학식 9와 같이 정의한다.
Figure 112008007022856-PAT00016
그리고 k번째 노드에서의 음성의 존재를 나타내는 파라미터는 수학식 10에서와 같이 Λi(k)로 나타낸다. 여기서, 임계치 η은 실험적으로 결정할 수 있다. 수학식 10을 참조하면 알 수 있는 바와 같이, ξi UP와 ξi DN중에서 어느 하나가 상기 임계치 η보다 큰 경우에, 상기 k번째 노드는 음성이 존재하는 것으로 임의적으로 가정된다. 그리고 수학식 10에서는 경계, 즉 K가 0이거나 또는 K-1인 경우에는 Λi(k)가 정의되어 있지 않은데, Λi(0)=Λi(1)이고 Λi(K-1)=Λi(K-2)라고 가정할 수 있다.
Figure 112008007022856-PAT00017
이와 같이, 본 발명의 실시예에 의하면, 상방향과 하방향의 유사도 파라미터를 이용하여 음성이 존재하는지 여부를 판정한다. 특히, 본 실시예의 일 측면에 의하면, 하나 이상의 유사도 파라미터 Λi(k)를 이용하여 묵음 프레임인지를 판정하는 것이 바람직하다. 왜냐하면, 대부분의 자연적 음성은 그 성분(Ingredients)들이 주파수 도메인에서 좁은 밴드에 한정되어 있기 보다는 넓은 영역에 퍼져 있기 때문에, 다수의 유사도 파라미터를 이용할 경우에는 판정의 정확도를 향상시킬 수 있기 때문이다. 실험에 의할 경우에, 음성 성분들이 적어도 2~3kHz 이상에 걸쳐서 퍼져 있다. 따라서 본 발명의 바람직한 실시예에서는 적어도 연속되는 3개 이상의 유사도 파라미터 Λi(k)가 음성이 존재하는 것을 지시할 경우에만, 현재 프레임을 음성이 존재하는 프레임으로 판정할 수 있다.
수학식 11은 수학식 10을 이용하여 구한 유사도 파라미터 Λi(k)를 이용하여 단계 S34에서 스케일링 인자를 새롭게 정의하고 또한 R-UPR과 R-DNR을 업데이트하는 단계를 표현한 식의 일례이다. 수학식 11은 단순화된 휴리스틱(Heuristic) 가코드(Pseudo Code)이다.
Figure 112008007022856-PAT00018
수학식 11을 참조하면, 음성이 없는 노드, 즉 유사도 파라미터 Λi(k)가 0인 경우에 스케일링 인자 φi(k)를 새롭게 정의한다. 그리고 유사도 파라미터 Λi(k)가 0인 경우에는 기준비 R-UPR과 R-DNR도 업데이트한다. 그리고 음성이 있는 노드, 즉 Λi(k)가 1인 경우에는 스케일링 인자나 기준비의 어떤 것도 변경하거나 업데이트하지 않는다.
본 발명의 실시예에 따른 묵음 여부 감지 방법의 가장 큰 이점은, 인접한 노드 사이에서의 WPTC의 크기비를 비교하기 때문에, 진폭이 변하는 노이즈 신호의 경우에도 상당히 정확하게 묵음 프레임인지를 판정할 수 있다는 것이다. 따라서 본 발명의 실시예에 의하면, 종래의 VAD 알고리즘이나 또는 장기간의 노이즈 통계에 의존할 필요가 없으며, 보다 정확하게 묵음 프레임인지에 대한 판정이 가능하다. 그리고 본 발명의 실시예에 따라서 임의적으로 새롭게 정의된 스케일링 인자 φi(k)는 단계 S35의 노이즈 추정 절차에서 사용될 수 있으며, 업데이트된 R-UPR 및 R-DNR은 후속 절차에서 크기비를 비교하는데 이용될 수 있다.
계속해서 도 3을 참조하면, 단계 S33에서 묵음인 것으로 판정된 경우에는 스케일링 인자를 새롭게 정의하고 또한 필요한 경우에는 R-UPR과 R-DNR을 업데이트(S34)한 이후에, 그리고 단계 S33에서 음성이 있는 것으로 판정된 경우에는 곧바로 노이즈를 추정하는 단계(S35)를 수행한다. 본 발명의 실시예에 의하면, 노이즈 추정 단계는 추정되거나 또는 새롭게 정의된 스케일링 인자의 크기가 소정의 임계치(Threshold, θ)보다 큰지 여부에 따라서 서로 다른 방법을 적용한다. 여기서, 상기 임계치의 구체적인 값은 실험에 의하여 적절한 값으로 결정될 수 있다.
우선, 스케일링 인자 φi(k)가 소정의 임계치(θ)보다 작은 경우에 대하여 설명한다. 스케일링 인자 φi(k)가 소정의 임계치(θ)보다 작다는 것은 노이즈 도미넌트 프레임이 아니라는 것을 의미한다. 이와 같은 경우에, 일반적으로 현재 입력 신호는 노이즈와 음성이 모두 포함되어 있는 것으로 간주한다. 본 발명의 실시예에 의하면, 이와 같은 경우에는 노이즈를 추정함에 있어서 현재의 노이지 음성 신호의 크기만을 이용한다. 예를 들어, 추정된 노이즈
Figure 112008007022856-PAT00019
는 현재 노이지 음성 신호와 스케일링 인자 φi(k)의 곱으로 표현할 수 있다. 이 경우에 추정된 노이즈
Figure 112008007022856-PAT00020
는 현재의 노이지 음성 신호에 비례하므로, 입력된 노이지 음성 신호의 크기에 전적으로 의존한다.
따라서 이러한 본 발명의 실시예에 의하면, 음성이 섞여 있는 신호에서 노이즈가 과대 평가되는 것을 방지할 수가 있다. 반면, 수학식 5로 표현되는 종래의 방법에 의하면, 스케일링 인자 α가 작을 경우에 추정된 노이즈에서 입력 노이지 신호(Xi)로 인하여 노이즈 추정치
Figure 112008007022856-PAT00021
는 큰 값을 갖는다. 그리고 만일 이전 프레임에서의 추정된 노이즈가 무시할 수 없는 값을 갖는 경우라면, 노이즈가 지나치게 높게 추정될 염려가 있다.
그리고 본 발명의 실시예에 의하면, 추정된 스케일링 인자가 상기 임계치(θ) 이상인 경우에는, 현재의 입력 노이지 신호와 이전 프레임의 추정된 노이즈 모두를 이용하여 노이즈를 추정한다. 스케일링 인자가 임계치(θ) 이상인 경우는 노이즈 도미넌트 프레임도 포함한다. 이러한 본 발명의 실시예는 그 형식상 현재의 입력 노이지 신호와 이전 프레임 모두를 이용한다는 점에서 종래의 노이즈 추정 절차와 유사한 점이 있다.
그러나 본 발명의 실시예에서는 노이즈 도미넌트 프레임인 경우, 즉 스케일링 인자 φi(k)가 큰 값을 갖는 경우에는 추정된 노이즈의 크기는 그 대부분이 현재 프레임의 노이지 음성 신호에 의존하며, 이전 프레임의 추정된 노이즈 신호가 반영되는 비율은 아주 작게 되도록 한다. 예를 들어, 노이즈 추정치는 현재 프레임의 노이지 음성 신호와 스케일링 인자의 곱과 이전 프레임의 노이즈 추정치와 (1-스케일링 인자)의 곱의 합으로 구할 수 있다. 따라서 본 발명의 실시예에 의하면, 노이즈 도미넌트 프레임인 경우에도 추정된 노이즈는 현재 프레임의 입력 노이지 신호의 변동을 즉각적으로 추종하도록 할 수가 있다.
이와 같이, 본 발명의 실시예에 따른 노이즈 추정 절차에서는 스케일링 인자를 WPTC의 크기를 이용하여 정의하며, 또한 웨이블릿 패킷 변환 계수 도메인에서 새로운 RA 기반 방법을 이용하여 노이즈를 추정한다. 즉, 스케일링 인자가 소정의 임계치보다 작아서 음성과 노이즈가 섞여 있는 경우에는 현재의 입력 노이지 음성 신호의 일정 비율을 노이즈로 추정한다. 그리고 스케일링 인자가 소정의 임계치 이상이어서 노이즈 도미넌트 프레임인 경우에는 현재의 입력 노이지 신호와 이전 프레임에서 추정된 노이즈 신호 모두를 이용하여 노이즈를 추정하되, 전자에 보다 많은 가중치를 부여한다.
이러한 본 발명의 실시예에 따른 노이즈 추정 절차는 적어도 두 가지 이점이 있다. 우선, 노이즈가 많은 비율을 차지하는 경우에 이전 프레임의 노이즈 추정치가 아닌 현재의 입력 노이지 신호에 보다 많은 가중치를 부여하여 노이즈를 추정하기 때문에, 종래의 RA 기반 방법에서 나타났던 것과 같은 시간 지연 현상과 잔류 뮤지컬 노이즈의 발생을 방지할 수가 있다. 그리고 노이즈가 조금 섞여 있는 경우에는 현재 입력 노이지 신호만을 이용하여 노이즈를 추정하기 때문에, 노이즈에 대한 과대 평가를 방지할 수 있으며, 그 결과 음성 왜곡이 생기는 것을 방지할 수가 있다.
계속해서 도 1을 참조하면, 단계 S30의 결과로 출력되는 각 노드에 대한 노이즈 추정치
Figure 112008007022856-PAT00022
를 이용하여 스펙트럼 차감법을 수행한다(S40). 본 실시예의 일 측면에 의하면, 스펙트럼 차감법은, 다음의 수학식 12와 같이, 웨이블릿 패킷 변환 도메인에서의 변형된 스펙트럼 차감법이 이용될 수 있다. 수학식 12를 참조하면, 웨이블릿 패킷 변환 도메인에서 i번째 프레임의 추정된 음성 신호
Figure 112008007022856-PAT00023
는 입력 노이지 음성 신호 Yi,k(m)와 추정된 노이즈 신호
Figure 112008007022856-PAT00024
의 상대적인 크기에 따라서 달라진다. 즉, 입력 노이지 음성 신호 Yi,k(m)가 추정된 노이즈 신호
Figure 112008007022856-PAT00025
의 큰 경우에는 추정된 음성 신호
Figure 112008007022856-PAT00026
는 두 값의 차이가 되지만, 반대의 경우에는 추정된 음성 신호
Figure 112008007022856-PAT00027
는 0이 된다.
Figure 112008007022856-PAT00028
그리고 스펙트럼 차감법을 이용하여 구한 추정된 음성 신호
Figure 112008007022856-PAT00029
에 대하여 웨이블릿 패킷 역변환을 함으로써, 주파수 도메인에서 구한 개선된 음성 신호를 시간 도메인에서의 개선된 음성 신호로 변환을 한다(S50).
다음으로 본 발명의 다른 실시예에 대하여 설명한다. 본 발명의 다른 실시예는 전술한 본 발명의 실시예에 따른 노이지 음성 신호의 처리 절차에 따라서 입력 노이지 음성 신호를 처리하여 개선된 음성 신호를 출력하는 노이지 음성 신호의 처리 장치이다. 노이지 음성 신호의 처리 장치는 휴대폰 등과 같은 음성 기반 어플리케이션 장치에 내장되는 소프트웨어(Software)의 형태나 또는 보청기나 영상통화 시스템 등과 같은 음성 기반 어플리케이션 장치에 장착되는 칩의 형태 등과 같이 다양한 방법으로 구현될 수 있다.
도 5는 본 발명의 일 실시예에 따른 노이지 음성 신호의 처리 장치를 보여 주는 블록도이다. 도 5를 참조하면, 노이지 음성 신호의 처리 장치(100)는 균일 웨이블릿 패킷 변환 유닛(110), 스무딩 유닛(120), 노이즈 추정 유닛(130), 스펙트럼 차감 유닛(140), 및 균일 웨이블릿 패킷 역변환 유닛(150)을 포함한다. 본 발명의 실시예에 따른 노이지 음성 신호의 처리 장치(100)에 포함되는 각 구성 요소(110, 120, 130, 140, 및 150)의 기능은 전술한 노이지 음성 신호의 처리 절차를 구성하는 단계(S10, S20, S30, S40, 및 S50)에서의 기능과 각각 동일하므로, 이하 이에 대한 구체적인 설명은 생략한다. 이러한 본 발명의 실시예에 따른 노이지 음성 신호의 처리 장치(100)는 스피커폰이나 영상 통화용 통신 기기, 보청기 등과 같은 음성 기반 어플리케이션 장치에 구비되어, 노이지 음성 신호로부터 노이즈 신호를 제거하는데 이용될 수 있다.
도 6은 본 발명의 일 실시예에 따른 음성 기반 어플리케이션 장치의 구성을 보여 주는 블록도로서, 도 5에 도시된 노이지 음성 신호의 처리 장치(100)를 포함한다. 도 6을 참조하면, 음성 기반 어플리케이션 장치(200)는 노이지 음성 신호를 획득하기 위한 입력 수단, 예컨대 마이크(210), 상기 입력 수단을 통해 획득한 노이지 음성 신호를 처리하기 위한 노이지 음성 신호의 처리 장치(220), 및 상기 노이지 음성 신호의 처리 장치를 통해 생성된 개선된 음성 신호를 외부로 출력하기 위한 출력 장치, 예컨대 스피커(230)를 포함한다. 마이크(210)는 노이즈에 오염된 음성을 장치(200)로 입력하기 위한 수단이다. 노이지 음성 신호의 처리 장치(220)는 도 5에 도시된 장치(100)와 동일한 구성을 갖는 장치로서, 본 발명의 실시예에 따른 노이지 음성 신호의 처리 절차에 따라서 노이지 음성 신호를 처리하여 개선된 음성 신호를 출력한다. 그리고 스피커(230)는 개선된 음성 신호를 사람이 식별할 수 있는 개선된 음성으로 출력하기 위한 수단이다. 이와 같은 도 6에 도시된 음성 기반 어플리케이션 장치는 노이지 음성 신호의 처리 장치(100)에서 출력되는 개선된 음성 신호를 바로 출력하는 어플리케이션 장치, 예컨대 보청기 등일 수 있는데, 여기에만 한정되는 것은 아니다.
도 7은 본 발명의 다른 실시예에 따른 음성 기반 어플리케이션 장치의 구성을 보여 주는 블록도로서, 역시 도 5에 도시된 노이지 음성 신호의 처리 장치(100)를 포함한다. 도 7을 참조하면, 음성 기반 어플리케이션 장치(300)는 마이크(310), 노이지 음성 신호의 처리 장치(320), 및 전송 장치(330)를 포함한다. 마이크(310)는 노이즈에 오염된 음성을 장치(300)로 입력하기 위한 수단이다. 노이지 음성 신호의 처리 장치(320)는 도 5에 도시된 장치(100)와 동일한 구성을 갖는 장치로서, 본 발명의 실시예에 따른 노이지 음성 신호의 처리 절차에 따라서 노이지 음성 신호를 처리하여 개선된 음성 신호를 출력한다. 그리고 전송 장치(330)는 개선된 음성 신호를 유무선 통신 네트워크를 통해 전송하기 위한 수단이다. 전송 장치(330)는 기존의 아날로그 방식에 따라 개선된 음성 신호를 반송파에 그대로 실어서 전송하기 위한 장치이거나 또는 개선된 음성 신호를 소정의 압축 부호화 방식에 따라서 부호화를 수행한 후에 부호화된 음성 데이터를 반송파에 실어서 전송하기 위한 장치일 수 있다. 후자의 경우에, 상기 전송 장치(330)는 도면에 도시하지는 않았지만 음성 부호화 수단을 더 구비할 수도 있다. 이와 같은 도 7에 도시된 음성 기반 어플리케이션 장치는 노이지 음성 신호의 처리 장치(100)에서 출력되는 개선된 음성 신호를 통신 네트워크를 통해 다른 사람에게 전송하기 위한 어플리케이션 장치, 예컨대 스피커폰이나 영상 통화용 통화 기기 등일 수 있는데, 여기에만 한정되는 것은 아니다.
테스트 결과
본 발명에 따른 노이즈 추정 방법과 이를 이용하는 노이지 음성 신호의 처리 절차의 성능을 평가하기 위하여, 양적인 테스트는 물론 질적인 테스트도 함께 수행하였다. 여기서, 질적인 테스트란 비형식적이고 주관적인 듣기 테스트 및 스펙트럼 조사를 의미하고, 양적인 테스트는 부분 노이즈 추정 에러(Segmental Noise Estimation Error)를 측정하는 것을 의미한다. 주관적인 테스트 결과에 의하면, 본 발명의 실시예에 의할 경우에 잔류 뮤지컬 노이즈는 거의 관측이 되지 않았을 뿐만 아니라 개선된 음성 신호에서의 왜곡도 종래의 다른 방법에 비해서 상당히 줄어들었다는 것을 확인할 수 있었다. 여기서, 종래의 다른 방법이란 본 발명의 실시예에 따른 테스트 결과에 대한 성능 비교를 위하여 참조 기술로써 MS 방법(스펙트롤 플로링 인자(Spectral Flooring Factor, subf) = 0.01)과 WA 방법(스케일링 인자 α = 0.95, 임계치 β = 2)을 이용하였다. 이하에서 설명하는 바와 같이, 양적인 테스트에서 실험 결과는 상기한 질적인 테스트에서의 실험 결과를 뒷받침하는 것이었다.
양적인 테스트에서는, TIMIT 데이터베이스로부터 30초 길이의 음성 신호(이 중에서 15초는 남성의 음성 신호이고 나머지 15초는 여성의 음성 신호)가 선택되었는데, 그것의 지속 시간은 6초 이상이다. 그리고 네 가지 유형의 노이즈 신호가 사용되었는데, 그 중에서 세 가지 노이즈 신호는 NoiseX-92 데이터베이스에서 선택된 것으로서 각각 바블 노이즈(Babble Noise), F16 노이즈, 및 정적인 백색 가우시안 노이즈(SWGN)이다. 그리고 나머지 하나의 노이즈 신호는, 여러 가지 에너지 레벨과 약 0.7초의 간격으로 SWGN을 진폭 조정함으로써 획득한 변동하는 백색 가우시안 신호(FWGN)이다. 각 음성은 각 유형의 노이즈를 이용하여 SNR 0dB, 5dB, 및 10dB로 결합되었다. 모든 신호의 샘플링 주파수는 16kHz이고, 각 프레임은 50%의 오버랩핑을 갖는 512 샘플(32ms)로 구성되어 있다. 그리고 Daubechies Basis를 갖는 균일 웨이블릿 패킷 변환이 수행되었는데, 여기서 웨이블릿 패킷 트리 레벨 인덱스 j는 3으로 선택되었다. 그리고 본 발명의 실시예를 위해서는 다음과 같은 파라미터들이 선택되었다. 즉, 수학식 4에서의 스무딩 파라미터 αx는 0.5이고, 수학식 10에서 임계치 η는 0.85, 그리고 단계 S35에서의 임계치는 0.075이다.
원래의 노이즈 신호 n(l)와 추정된 노이즈 신호
Figure 112008007022856-PAT00030
사이의 추정 에러를 계산하기 위하여, 시간 도메인에서 다음의 수학식 13과 같은 부분 노이즈 추정 에러(Segmental Noise Estimation Error, Seg.NEE)를 계산하였다.
Figure 112008007022856-PAT00031
여기서, F 및 L은 각각 프레임의 총 개수와 프레임당 샘플의 개수를 나타낸다. 그리고 테스트에서는 개선된 부분 SNR(Improved Segmental SNR, Seg.SNRImp)도 평가하였는데, 수학식 14로 표시되는 것과 같은 SNR 개선 정도를 계산하기 위하여 널리 사용되는 방법을 이용하였다. 여기서, Seg.SNROutput과 Seg.SNRInput은 각각 개선 된 음성 신호의 부분 SNR과 노이지 음성 신호의 부분 SNR이다.
Seg.SNRImp = Seg.SNROutput - Seg.SNRInput
도 8에는 도 4의 (a)에 도시된 노이지 음성 신호(가는 실선), 도 4의 (d)에 도시된 노이즈 신호(점선), 및 본 발명의 실시예에 따라 추정된 노이즈 신호(굵은 실선)의 스무드된 WPTC의 크기의 일례가 도시되어 있다. 도 8을 참조하면, 비록 밸리 및 피크에서 노이즈에 대한 부분적인 과대 평가가 존재하고 또한 시간 지연도 완전히 해소하지는 못하였지만, 본 발명의 실시예에 의할 경우에는 과대 평가와 시간 지연의 정도가 상당히 완화되었으며, 노이즈에 대한 추정의 정확도를 상당히 향상시킬 수 있다는 것을 알 수 있다.
도 9는 본 발명의 실시예에 의할 경우에 노이즈의 변동을 상당히 정확하게 추적할 수 있다는 것을 보여 주기 위한 것으로서, 노이지 음성 신호의 평균 WPTC 곡선(Contour) 및 추정된 노이즈 신호의 평균 WPTC 곡선이 도시되어 있다. 여기서, 추정된 노이즈 신호는 본 발명의 실시예를 포함하여, 종래의 여러 가지 접근법(MA법 및 WA법)을 이용하여 구한 것이다. 그리고 노이지 음성 신호는 음성 신호와 약 0.4초에 SNR이 15dB에서 0dB로 변화하는 FWGN 신호를 혼합하여 생성한 것이다. 도 9를 참조하면, 본 발명의 실시예에 의할 경우에는 원래의 노이즈 신호를 상당히 잘 추적할 수 있지만, 종래의 WA법에 의할 경우에는 변동이 있는 경우에 추적을 잘하지 못하며, 종래의 MA법에 의할 경우에는 약 1.5초의 시간 지연이 발생한다는 것을 알 수 있다.
도 10과 도 11은 노이지 음성 신호와 본 발명의 실시예에 따라서 개선된 음성 신호의 파형 및 스펙트로그램을 보여 주는 것으로서, 도 10은 노이즈 신호로써 SNR 5dB의 바블 노이즈(Babble Noise)가 사용된 경우이고 도 11은 노이즈 신호로써 SNR 0dB의 정적인 백색 가우시안 노이즈가 사용된 경우이다. 도 10과 도 11에서 (a)와 (c)는 노이즈 음성 신호에 대한 것이고, (b)와 (d)는 본 발명의 실시예에 따라 개선된 음성 신호에 대한 것이다. 이러한 도 10과 도 11을 참조하면, 본 발명의 실시예에 따라 개선된 음성 신호에 잔류 뮤지컬 노이즈가 거의 관측되지 않는다는 것을 알 수 있다.
도 12 및 도 13은 각각 Seg.NEE와 Seg.SNRImp를 이용하여 본 발명의 실시예에 의한 경우와 종래의 MS 및 WA 방법에 의한 경우의 평균 성능을 비교하여 보여 주는 도면이다. 도 12 및 도 13에서 (a)는 바블 노이즈, (b)는 F16 노이즈, (c)는 변동하는 백색 가우시안 노이즈, 및 (d)는 정적 백색 가우시안 노이즈가 각각 노이즈 신호로써 사용된 경우이다. 도 12 및 도 13을 참조하면, 본 발명의 실시예에 의할 경우에는 종래의 WA 방법에 비하여 Seg.NEE (또는 Seg.SNRImp)의 전체 평균이 0.327(또는 3.68dB) 개선되었고, 종래의 MS 방법에 비하여 0.145 (또는 3.78dB) 개선되었다는 것을 알 수 있다. 그리고 도 12와 도 13의 그래프로부터, 종래의 MS 방법이나 WA 방법에 의할 경우에 비교하여 본 발명의 실시예에 의할 경우에 나타나는 성능 개선의 정도는, 입력 SNR이 작을수록 더 증가한다는 것을 알 수 있다. 또한, 변동하는 노이즈 신호(FWGN)의 경우에는 다른 노이즈 신호보다 성능 개선이 훨씬 더 크다는 것을 알 수 있는데, 이것의 주된 원인은 본 발명의 실시예에서는 묵음 프레임을 판정할 때 크기비를 이용하였기 때문이다.
도 1은 본 발명의 일 실시예에 따른 노이지 음성 신호의 처리 절차를 보여 주는 흐름도이다.
도 2는 균일 웨이블릿 패킷 변환의 구조를 보여 주는 다이어그램이다.
도 3은 도 1의 노이즈 추정 절차의 일례를 보여 주는 흐름도이다.
도 4는 본 발명의 실시예에 따라서 상방향 비(UPR)와 하방향 비(DNR)를 이용하여 묵음 여부를 판단하는 것이 효과적임을 설명하기 위한 도면으로서, (a)는 (d)의 노이즈 신호에 오염된 SNR 5dB에서의 노이지 음성 신호의 파형, (b)는 0-3kHz 주파수 범위에서의 노이지 음성 신호(a)의 스펙트로그램, (c)는 노드 인덱스 k=2에서의 노이지 음성 신호(a)의 UPR(점선)과 DNR(실선), (d)는 백색 가우시안 노이즈 신호의 파형, (e)는 0-3kHz 주파수 범위에서의 노이즈 신호(d)의 스펙트로그램, 및 (f)는 노드 인덱스 k=2에서의 노이즈 신호(d)의 UPR(점선)과 DNR(실선)이다.
도 5는 본 발명의 일 실시예에 따른 노이지 음성 신호의 처리 장치의 구성을 보여 주는 블록도이다.
도 6은 도 5의 노이지 음성 신호의 처리 장치를 포함하는 본 발명의 일 실시예에 따른 음성 기반 어플리케이션 장치의 구성을 보여 주는 블록도이다.
도 7은 도 5의 노이지 음성 신호의 처리 장치를 포함하는 본 발명의 다른 실시에에 따른 음성 기반 어플리케이션 장치의 구성을 보여 주는 블록도이다.
도 8은 도 4의 (a)에 도시된 노이지 음성 신호(가는 실선), 도 4의 (d)에 도시된 노이즈 신호(점선), 및 본 발명의 실시예에 따라 추정된 노이즈 신호(굵은 실 선)의 스무드된 WPTC의 크기의 일례가 도시되어 있다.
도 9는 노이지 음성 신호의 평균 WPTC 곡선(Contour) 및 본 발명의 실시예에 따라 추정된 노이즈 신호의 평균 WPTC 곡선이 도시되어 있다.
도 10과 도 11은 각각 노이지 음성 신호와 본 발명의 실시예에 따라서 개선된 음성 신호의 파형 및 스펙트로그램을 보여 주는 도면이다.
도 12와 도 13은 각각 Seg.NEE와 Seg.SNRImp를 이용하여 본 발명의 실시예에 의한 경우와 종래의 MS 및 WA 방법에 의한 경우의 평균 성능을 비교하여 보여 주는 도면으로서, (a)는 바블 노이즈, (b)는 F16 노이즈, (c)는 변동하는 백색 가우시안 노이즈, 및 (d)는 정적 백색 가우시안 노이즈가 각각 노이즈 신호로써 사용된 경우이다.

Claims (22)

  1. 현재 프레임의 입력 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 계수들로 이루어진 변환 신호를 생성하도록 고안된 변환 유닛;
    상기 변환 신호를 이용하여 노이즈를 추정하는 수단으로써, 만일 스케일링 인자가 소정의 임계치보다 작은 경우에는 상기 입력 노이지 음성 신호만을 이용하여 제1 노이즈를 추정하고, 만일 상기 스케일링 인자가 상기 임계치 이상인 경우에는 상기 입력 노이지 음성 신호와 이전 프레임의 노이즈 추정치를 모두 이용하되 상기 노이즈 추정치보다 상기 입력 노이지 음성 신호에 더 큰 가중치를 할당하여 제2 노이즈를 추정하도록 고안된 노이즈 추정 유닛;
    상기 변환 유닛으로부터 출력되는 변환 신호에서 상기 노이즈 추정 유닛으로부터 출력되는 추정된 노이즈 신호를 차감하여 개선된 음성 신호를 얻도록 고안된 스펙트럼 차감 유닛; 및
    상기 개선된 음성 신호를 시간 도메인으로 역변환하도록 고안된 역변환 유닛을 포함하는 노이지 음성 신호의 처리 장치.
  2. 제1항에 있어서, 상기 변환 유닛은 상기 입력 노이지 음성 신호에 대하여 균일 웨이블릿 패킷 변환을 수행하도록 고안되고, 상기 역변환 유닛은 상기 개선된 음성 신호에 대하여 균일 웨이블릿 패킷 역변환을 수행하도록 고안된 것을 특징으로 하는 노이지 음성 신호의 처리 장치.
  3. 제2항에 있어서, 이전 프레임의 스무드된 변환 신호와 현재 프레임의 임의의 고정된 웨이블릿 패킷 트리 레벨에서의 웨이블릿 패킷 변환 신호의 크기를 이용하여 상기 변환 신호를 스무딩하도록 고안된 스무딩 유닛을 더 포함하고, 상기 노이즈 추정 유닛은 스무드된 상기 변환 신호를 이용하여 노이즈를 추정하는 것을 특징으로 하는 노이지 음성 신호의 처리 장치.
  4. 제3항에 있어서, 상기 스무딩 유닛은 하기 식(E1)에 따라서 스무드된 변환 신호를 구하도록 고안된 것을 특징으로 하는 노이지 음성 신호의 처리 장치.
    Figure 112008007022856-PAT00032
    (E1)
    여기서, i는 프레임 인덱스, k는 노드 인덱스, m은 각 노드에서의 계수 빈 인덱스, αX는 스무딩 인자(0 <αX <1), Yi,k(m)은 임의의 고정된 웨이블릿 패킷 트리 레벨에서의 웨이블릿 패킷 변환 신호, 및 Xi,k(m)은 Yi,k(m)의 스무드된 웨이블릿 패킷 변환 신호.
  5. 제1항에 있어서, 상기 노이즈 추정 유닛은 현재 프레임에서 상기 노이지 음성 신호의 변환 계수의 크기의 합에 대한 이전 프레임에서 상기 추정된 노이즈 신호의 변환 계수의 크기의 합의 비를 이용하여 상기 스케일링 인자를 추정하되, 상기 합의 비가 1보다 큰 경우에는 상기 스케일링 인자를 1로 설정하도록 고안된 것 을 특징으로 하는 노이지 음성 신호의 처리 장치.
  6. 제5항에 있어서, 상기 노이즈 추정 유닛은 하기 식(E2)에 대한 하기 식(E3)의 비로 상기 합의 비를 구하도록 고안된 것을 특징으로 하는 노이지 음성 신호의 처리 장치.
    Figure 112008007022856-PAT00033
    (E2)
    Figure 112008007022856-PAT00034
    (E3)
    여기서, i는 프레임 인덱스, k는 노드 인덱스, m은 각 노드에서의 계수 빈 인덱스, Xi,k(m)은 주파수 도메인에서의 변환 신호, 및
    Figure 112008007022856-PAT00035
    은 추정된 노이즈 신호.
  7. 제1항에 있어서, 상기 노이즈 추정 유닛은 상기 스케일링 인자와 상기 입력 노이지 음성 신호의 곱으로 상기 추정된 제1 노이즈를 구하도록 고안된 것을 특징으로 하는 노이지 음성 신호의 처리 장치.
  8. 제1항에 있어서, 상기 노이즈 추정 유닛은 상기 스케일링 인자와 상기 입력 노이지 음성 신호의 곱의 합과 (1-상기 스케일링 인자)와 상기 이전 프레임의 노이즈 추정치의 곱의 합으로 상기 추정된 제2 노이즈를 구하도록 고안된 것을 특징으로 하는 노이지 음성 신호의 처리 장치.
  9. 제1항에 있어서, 상기 노이즈 추정 유닛은 인접한 노드 사이의 상기 변환 계수의 크기비를 이용하여 상기 현재 프레임이 묵음 프레임인지를 판정하는 기능을 더 수행하도록 고안된 것을 특징으로 하는 노이지 음성 신호의 처리 장치.
  10. 제9항에 있어서, 상기 노이즈 추정 유닛은 현재 프레임에서의 인접한 노드 사이의 변환 계수의 제1 크기비를 묵음 프레임인 기준 프레임에서의 인접한 노드 사이의 변환 계수의 제2 크기비를 비교하여 묵음 프레임인지를 판정하도록 고안된 것을 특징으로 하는 노이지 음성 신호의 처리 장치.
  11. 제10항에 있어서, 상기 노이즈 추정 유닛은 연속된 세 개 또는 그 이상의 노드에서 상기 제1 및 제2 크기비 사이의 비가 음성이 존재하는 프레임인 것으로 판정할 경우에만 상기 현재 프레임을 묵음 프레임이 아닌 것으로 판정하도록 고안된 것을 특징으로 하는 노이지 음성 신호의 처리 장치.
  12. 제9항에 있어서, 상기 노이즈 추정 유닛은 상기 현재 프레임이 묵음 프레임으로 판정되는 경우에는 상기 현재 프레임의 정보를 이용하여 상기 스케일링 인자를 업데이트한 후에 업데이트된 스케일링 인자를 이용하여 노이즈를 추정하고, 상기 현재 프레임이 묵음 프레임이 아닌 것으로 판정되는 경우에는 곧바로 노이즈를 추정하도록 고안된 것을 특징으로 하는 노이지 음성 신호의 처리 장치.
  13. 현재 프레임의 입력 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 계수들로 이루어진 변환 신호를 생성하도록 고안된 변환 유닛; 및
    소정 차수의 변환 레벨에서 상기 변환 유닛으로부터 출력되는 상기 변환 신호의 인접한 노드 사이의 상기 변환 계수의 크기비를 이용하여 현재 프레임이 묵음 프레임인지를 판정하도록 고안된 판정 유닛을 포함하는 노이지 음성 신호의 처리를 위한 묵음 프레임의 판정 장치.
  14. 제13항에 있어서, 상기 변환 유닛은 상기 입력 노이지 음성 신호에 대하여 균일 웨이블릿 패킷 변환을 수행하여 상기 변환 신호를 생성하도록 고안된 것을 특징으로 하는 노이지 음성 신호의 처리를 위한 묵음 프레임의 판정 장치.
  15. 제14항에 있어서, 상기 판정 유닛은 상기 현재 프레임에서의 인접한 노드 사이의 웨이블릿 패킷 변환 계수의 제1 크기비를 묵음 프레임인 기준 프레임에서의 인접한 노드 사이의 웨이블릿 패킷 변환 계수의 제2 크기비와 비교하여 묵음 프레임인지를 판정하도록 고안된 것을 특징으로 하는 노이지 음성 신호의 처리를 위한 묵음 프레임의 판정 장치.
  16. 제15항에 있어서, 상기 판정 유닛은 상기 제1 크기비와 상기 제2 크기비를 이용하여 정의된 하기 식(E4)의 유사도 파라미터와 하기 식(E5)에 정의된 알고리즘 에 따라서 묵음 프레임인지를 판정하도록 고안된 것을 특징으로 하는 노이지 음성 신호의 처리를 위한 묵음 프레임의 판정 장치.
    Figure 112008007022856-PAT00036
    (E4)
    Figure 112008007022856-PAT00037
    (E5)
    여기서, i는 프레임 인덱스, k는 노드 인덱스, K는 임의의 웨이블릿 패킷 변환 트리 레벨에서의 노드의 개수, γi UP(k)는 상방향 크기비로써 노드 k와 노드 (k+1)과의 WPTC의 크기비, γi DN(k)는 하방향 크기비로써 노드 k와 노드 (k-1)과의 WPTC의 크기비, λUP(k)는 기준 프레임에서의 상방향 크기비인 상방향 기준비, λDN(k)는 기준 프레임에서의 하방향 크기비인 하방향 기준비, 임계치 ζ는 실험에 의하여 얻어지는 소정의 값, 및 Λi(k)가 0인 경우는 묵음 프레임을 가리키고, 1인 경우는 음성이 존재하는 프레임을 가리킨다.
  17. 제16항에 있어서, 상기 판정 유닛은 연속된 세 개 또는 그 이상의 노드에서 상기 Λi(k)가 1인 경우에만 음성이 존재하는 것으로 판정하도록 고안된 것을 특징으로 하는 노이지 음성 신호의 처리를 위한 묵음 프레임의 판정 장치.
  18. 현재 프레임의 입력 노이지 음성 신호에 대하여 균일 웨이블릿 패킷 변환을 수행하여 변환 신호를 생성하도록 고안된 균일 웨이블릿 패킷 변환 유닛;
    이전 프레임의 스무드된 변환 신호와 상기 균일 웨이블릿 패킷 변환 유닛에서 생성된 현재 프레임의 임의의 고정된 웨이블릿 패킷 트리 레벨에서의 변환 신호의 크기를 이용하여, 상기 현재 프레임의 스무드된 변환 신호를 생성하도록 고안된 스무딩 유닛;
    상기 스무딩 유닛으로부터 생성된 상기 스무드된 변환 신호의 인접한 노드 사이의 웨이블릿 패킷 변환 계수의 크기비를 이용하여 현재 프레임이 묵음 프레임인지를 판정하고, 만일 상기 현재 프레임이 묵음 프레임인 경우에는 스케일링 인자를 업데이트한 후에 상기 스무드된 변환 신호를 이용하여 노이즈를 추정하고, 만일 상기 현재 프레임이 묵음 프레임이 아닌 경우에는 곧바로 상기 스무드된 변환 신호를 이용하여 노이즈를 추정하도록 고안된 노이즈 추정 유닛;
    상기 노이즈 추정 유닛에서 추정된 노이즈를 이용하여 스펙트럼 차감 과정을 수행하여 개선된 음성 신호를 구하도록 고안된 스펙트럼 차감 유닛; 및
    상기 스펙트럼 차감 유닛으로부터 구해진 개선된 음성 신호에 대하여 균일 웨이블릿 패킷 역변환을 수행하도록 고안된 균일 웨이블릿 패킷 역변환 유닛을 포함하는 노이지 음성 신호의 처리 장치.
  19. 제18항에 있어서, 상기 노이즈 추정 유닛은,
    만일 상기 스케일링 인자가 소정의 임계치보다 작은 경우에는 상기 입력 노 이지 음성 신호만을 이용하여 제1 노이즈를 추정하고, 만일 상기 스케일링 인자가 상기 임계치 이상인 경우에는 상기 입력 노이지 음성 신호와 이전 프레임의 노이즈 추정치를 모두 이용하되 상기 노이즈 추정치보다 상기 입력 노이지 음성 신호에 더 큰 가중치를 할당하여 제2 노이즈를 추정하도록 고안된 것을 특징으로 하는 노이지 음성 신호의 처리 장치.
  20. 제19항에 있어서, 상기 노이즈 추정 유닛은 현재 프레임에서의 상기 노이지 음성 신호의 웨이블릿 패킷 변환 계수의 크기의 합에 대한 이전 프레임에서의 상기 추정된 노이즈 신호의 웨이블릿 패킷 변환 계수의 크기의 합의 비를 이용하여 상기 스케일링 인자를 추정하되, 상기 합의 비가 1보다 큰 경우에는 상기 스케일링 인자를 1로 설정하도록 고안된 것을 특징으로 하는 노이지 음성 신호의 처리 장치.
  21. 노이지 음성 신호를 획득하도록 고안된 입력 장치;
    상기 입력 장치를 통해 획득한 노이지 음성 신호를 처리하여 개선된 음성 신호를 생성하도록 고안된 상기 제1항 또는 상기 제18항의 노이지 음성 신호의 처리 장치; 및
    상기 노이지 음성 신호의 처리 장치로부터 출력되는 개선된 음성 신호를 외부로 출력하도록 고안된 출력 수단을 포함하는 음성 기반 어플리케이션 장치.
  22. 노이지 음성 신호를 획득하도록 고안된 입력 장치;
    상기 입력 장치를 통해 획득한 노이지 음성 신호를 처리하여 개선된 음성 신호를 생성하도록 고안된 상기 제1항 또는 제18항의 노이지 음성 신호의 처리 장치; 및
    상기 노이지 음성 신호의 처리 장치로부터 출력되는 개선된 음성 신호를 전송 네트워크를 통해 전송하도록 고안된 전송 장치를 포함하는 음성 기반 어플리케이션 장치.
KR1020080008617A 2008-01-28 2008-01-28 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치 KR100931487B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080008617A KR100931487B1 (ko) 2008-01-28 2008-01-28 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080008617A KR100931487B1 (ko) 2008-01-28 2008-01-28 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치

Publications (2)

Publication Number Publication Date
KR20090082700A true KR20090082700A (ko) 2009-07-31
KR100931487B1 KR100931487B1 (ko) 2009-12-11

Family

ID=41293969

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080008617A KR100931487B1 (ko) 2008-01-28 2008-01-28 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치

Country Status (1)

Country Link
KR (1) KR100931487B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150021034A (ko) * 2012-06-08 2015-02-27 삼성전자주식회사 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
KR101993003B1 (ko) * 2018-01-24 2019-06-26 국방과학연구소 잡음 제거 장치 및 방법
WO2024080432A1 (ko) * 2022-10-14 2024-04-18 주식회사 헬스리안 심전도 신호의 노이즈 제거 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100655953B1 (ko) 2006-02-06 2006-12-11 한양대학교 산학협력단 웨이블릿 패킷 변환을 이용한 음성 처리 시스템 및 그 방법
KR100798056B1 (ko) 2006-10-24 2008-01-28 한양대학교 산학협력단 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법
KR100789084B1 (ko) 2006-11-21 2007-12-26 한양대학교 산학협력단 웨이블릿 패킷 영역에서 비선형 구조의 과중 이득에 의한음질 개선 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150021034A (ko) * 2012-06-08 2015-02-27 삼성전자주식회사 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
KR20200004917A (ko) * 2012-06-08 2020-01-14 삼성전자주식회사 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
US10714097B2 (en) 2012-06-08 2020-07-14 Samsung Electronics Co., Ltd. Method and apparatus for concealing frame error and method and apparatus for audio decoding
KR101993003B1 (ko) * 2018-01-24 2019-06-26 국방과학연구소 잡음 제거 장치 및 방법
WO2024080432A1 (ko) * 2022-10-14 2024-04-18 주식회사 헬스리안 심전도 신호의 노이즈 제거 방법

Also Published As

Publication number Publication date
KR100931487B1 (ko) 2009-12-11

Similar Documents

Publication Publication Date Title
US8521530B1 (en) System and method for enhancing a monaural audio signal
CN111554315B (zh) 单通道语音增强方法及装置、存储介质、终端
KR101260938B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
Soon et al. Low distortion speech enhancement
Udrea et al. An improved spectral subtraction method for speech enhancement using a perceptual weighting filter
KR101317813B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
JP2014122939A (ja) 音声処理装置および方法、並びにプログラム
Morales-Cordovilla et al. Feature extraction based on pitch-synchronous averaging for robust speech recognition
KR101335417B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
KR100931487B1 (ko) 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치
KR101295727B1 (ko) 적응적 잡음추정 장치 및 방법
WO2017128910A1 (zh) 一种语音出现概率的确定方法、装置及电子设备
Zhou et al. Non-intrusive speech quality objective evaluation in high-noise environments
Banchhor et al. GUI based performance analysis of speech enhancement techniques
KR100901367B1 (ko) 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법
KR100931181B1 (ko) 노이지 음성 신호의 처리 방법 및 이를 위한 컴퓨터 판독가능한 기록매체
Bao et al. A novel speech enhancement method using power spectra smooth in wiener filtering
Tiwari et al. Speech enhancement using noise estimation with dynamic quantile tracking
Asgari et al. Voice activity detection using entropy in spectrum domain
Yang et al. Environment-Aware Reconfigurable Noise Suppression
Xia et al. A modified spectral subtraction method for speech enhancement based on masking property of human auditory system
KR20180010115A (ko) 스피치를 향상하는 장치
Selvi et al. Efficient speech enhancement technique by exploiting the harmonic structure of voiced segments
Dhanaskodi et al. Speech enhancement algorithm using sub band two step decision directed approach with adaptive weighting factor and noise masking threshold
Verteletskaya et al. Speech distortion minimized noise reduction algorithm

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121011

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20131024

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20141014

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee