KR20120039918A

KR20120039918A - 음성통신 기반 잡음 제거 시스템 및 그 방법

Info

Publication number: KR20120039918A
Application number: KR1020100101372A
Authority: KR
Inventors: 박성수; 정성일; 하동경; 송재훈
Original assignee: 에스케이 텔레콤주식회사; (주)트란소노
Priority date: 2010-10-18
Filing date: 2010-10-18
Publication date: 2012-04-26
Also published as: CN103201793A; US20130226573A1; CN103201793B; KR101173980B1; WO2012053809A3; WO2012053809A2; US8935159B2

Abstract

본 발명은 음성통신 기반 잡음 제거 시스템 및 그 방법을 개시한다. 즉, 음성신호를 대상으로 이득함수(Gain Function)를 기반으로 한 스펙트럼 차감(SS, Spectral Subtraction)을 수행하는 스펙트럼차감장치; 및 상기 스펙트럼 차감이 수행된 음성신호에 대해 스펙트로그램(Spectrogram) 상에서 주파수 축으로 연속된 신호들간의 클러스터링(Clustering)을 수행하여 하나 이상의 클러스터를 지정하고, 상기 지정된 각각의 클러스터에 대한 주파수 축 및 시간 축 각각의 연속성을 판별하여 뮤지컬(Musical) 잡음을 추출하는 잡음제거장치를 포함함으로써, 잡음영역에서 뮤지컬 잡음의 잔재를 효과적으로 추출하여 자연스러운 청취 효과를 제공할 수 있으며, 음성영역에서 음성왜곡을 유발을 방지할 수 있으므로 음성 명도의 신뢰성을 보장할 수 있다. 또한, 음성영역에서 뮤지컬 잡음의 추출이 가능하므로 잡음의 발산을 효과적으로 감소시킬 수 있다.

Description

음성통신 기반 잡음 제거 시스템 및 그 방법{SYSTEM AND METHOD FOR SUPPRESSING NOISE IN VOICE TELECOMMUNICATION}

본 발명은 잡음 제거 방안에 관한 것으로, 더욱 상세하게는, 음성통신에서 잡음제거를 위한 스펙트럼 차감(SS, Spectral Subtraction)이 수행된 신호를 대상으로 스펙트로그램(Spectrogram) 상에서 주파수 축으로 신호들간의 묶음인 클러스터링(Clustering)을 수행하고, 이를 기반으로 음성과 뮤지컬(Musical) 잡음이 지닌 특성을 통해 뮤지컬 잡음만을 추출하는 음성통신 기반 잡음 제거 시스템 및 그 방법과, 잡음제거장치 및 잡음제거장치의 동작 방법에 관한 것이다.

실생활에서 배경잡음은 순수음성을 오염시키며 휴대전화, 음성인식, 음성코딩, 화자인식 등과 같은 음성통신 시스템의 성능을 저하시키게 된다. 따라서 잡음의 효과를 줄여 시스템의 성능을 향상시키고자 하는 음질개선에 대한 연구는 오래전부터 수행되어 왔으며, 최근에 그 중요성이 크게 부각되고 있다.

한편, 스펙트럼 차감(SS, Spectral Subtraction)은 여러 음질개선 방법 중에서 적은 계산비용과 용이한 구현 때문에 단일채널(Single channel)에서 널리 사용되는 전형적이 방법이다. 그러나 스펙트럼 차감 방법에 의해 개선된 음성에는 새로운 인공음(artifact)인 뮤지컬(Musical) 잡음이 잔재하게 되는 주요 단점을 갖고 있다.

이러한 뮤지컬 잡음은 추정된 잡음이 실제(Original) 잡음보다 낮게 평가되어 발생하는 임의의(Random) 주파수 성분을 나타내며, 나아가 스펙트로그램(Spectrogram) 상 시간과 주파수 축에서 뮤지컬 잡음의 잔재는 비연속적으로 전개하기 때문에 청자에게 지각적으로 성가시게 하는 음조이다.

이와 관련하여, 뮤지컬 잡음의 전재를 억제하기 위해 이득함수(Gain Function)를 기반으로 한 스펙트럼 차감 방법이 제안되었다. 예컨대, 'wiener filtering', 'nonlinear spectral subtraction with oversubtraction factor and spectral floor', 'minimum mean square error short-time spectral amplitude estimation or log spectral amplitude', 'oversubtraction based on masking properties of human auditory system', 및 'soft decision estimation, maximum likelihood, signal subspace' 등이 있다. 그러나 제시된 방법의 대부분은 낮은 신호대 잡음비(SNR) 잡음 환경에서 음질개선을 효율적으로 수행하지 못하는 것으로 알려져 있다.

다시 말해, 종래 제시된 방법에 의해 개선된 음성은 다음의 문제점을 수반한다. 즉, 실제잡음보다 높게 추정된 잡음(estimated noise), 과 평가된 이득함수를 이용하게 되면 뮤지컬 잡음의 잔재와 발산은 감소하지만 음성왜곡이 증가하게 되며, 반대로 실제잡음보다 낮게 추정된 잡음 또는 저 평가된 이득함수를 이용하게 되면 음성왜곡은 감소하지만 뮤지컬 잡음의 잔재와 발산이 증가하게 되는 문제가 있다.

본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명에서 도달하고자 하는 목적은, 스펙트럼차감장치가 음성신호를 대상으로 이득함수(Gain Function)를 기반으로 한 스펙트럼 차감(SS, Spectral Subtraction)을 수행하며, 상기 스펙트럼 차감이 수행된 음성신호에 대해 잡음제거장치가 스펙트로그램(Spectrogram) 상에서 주파수 축으로 연속된 신호들간의 클러스터링(Clustering)을 수행하여 하나 이상의 클러스터를 지정하고, 상기 지정된 각각의 클러스터에 대한 주파수 축 및 시간 축 각각의 연속성을 판별하여 뮤지컬(Musical) 잡음을 추출하는 음성통신 기반 잡음 제거 시스템 및 그 방법을 제공함으로써, 음성과 뮤지컬 잡음이 지닌 특성을 통해 뮤지컬 잡음만을 추출함에 있다.

본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명에서 도달하고자 하는 목적은, 이득함수(Gain Function)를 기반으로 한 스펙트럼 차감(SS, Spectral Subtraction)이 수행된 음성신호에 대해 스펙트로그램(Spectrogram) 상에서 주파수 축으로 신호들간의 클러스터링(Clustering)을 수행하여 하나 이상의 클러스터를 지정하고, 상기 지정된 각각의 클러스터에 대한 주파수 축으로의 연속성을 판별하여 뮤지컬(Musical) 잡음에 해당하는 클러스터를 추출하며, 잔여 클러스터 각각에 대해 시간 축으로 중복되는 클러스터 간 유사도 기반으로 뮤지컬 잡음에 해당하는 클러스터를 추출하는 잡음제거장치 및 그 동작 방법을 제공함으로써, 음성과 뮤지컬 잡음이 지닌 특성을 통해 뮤지컬 잡음만을 추출함에 있다.

상기 목적을 달성하기 위한 본 발명의 일면에 따라 음성통신 기반 잡음 제거 시스템이 제공되며: 이 시스템은, 음성신호를 대상으로 이득함수(Gain Function)를 기반으로 한 스펙트럼 차감(SS, Spectral Subtraction)을 수행하는 스펙트럼차감장치; 및 상기 스펙트럼 차감이 수행된 음성신호에 대해 스펙트로그램(Spectrogram) 상에서 주파수 축으로 연속된 신호들간의 클러스터링(Clustering)을 수행하여 하나 이상의 클러스터를 지정하고, 상기 지정된 각각의 클러스터에 대한 주파수 축 및 시간 축 각각의 연속성을 판별하여 뮤지컬(Musical) 잡음을 추출하는 잡음제거장치를 포함하는 것을 특징으로 한다.

바람직하게는, 상기 잡음제거장치는, 상기 지정된 각각의 클러스터에 대한 주파수 축으로의 연속된 길이를 임계치와 비교하여 뮤지컬 잡음에 해당하는 클러스터를 추출하며, 잔여 클러스터 각각에 대해 시간 축으로 중복되는 클러스터 간 유사도 기반으로 뮤지컬 잡음에 해당하는 클러스터를 추출하는 것을 특징으로 한다.

본 발명의 다른 일면에 따라 잡음제거장치가 제거되며: 이 장치는, 이득함수(Gain Function)를 기반으로 한 스펙트럼 차감(SS, Spectral Subtraction)이 수행된 음성신호에 대해 스펙트로그램(Spectrogram) 상에서 주파수 축으로 신호들간의 클러스터링(Clustering)을 수행하여 하나 이상의 클러스터를 지정하는 클러스터링부; 상기 지정된 각각의 클러스터에 대한 주파수 축으로의 연속성을 판별하여 뮤지컬(Musical) 잡음에 해당하는 클러스터를 추출하는 주파수 제1추출부; 및 잔여 클러스터 각각에 대해 시간 축으로 중복되는 클러스터 간 유사도 기반으로 뮤지컬 잡음에 해당하는 클러스터를 추출하는 주파수 제2추출부를 포함하는 것을 특징으로 한다.

바람직하게는, 상기 클러스터링부는, 스펙트로그램 상에서 주파수 축으로 연속된 신호들간의 클러스터링을 수행하여 하나 이상의 클러스터를 지정하는 것을 특징으로 한다.

바람직하게는, 상기 클러스터링부는, 상기 지정된 각각의 클러스터를 제외한 스펙트로그램 상의 잔여 신호를 제거하는 것을 특징으로 한다.

바람직하게는, 제1추출부는, 상기 지정된 각각의 클러스터에 대한 주파수 축으로의 연속된 길이를 임계치와 비교하여 뮤지컬 잡음에 해당하는 클러스터를 추출하는 것을 특징으로 한다.

바람직하게는, 상기 제1추출부는, 상기 스펙트로그램 상에서 시간 축으로 구분되는 각각의 프레임을 기 지정된 음성구간 추출방식을 통해 잡음유사프레임 및 음성유사프레임으로 구분하고, 상기 구분된 잡음유사프레임 또는 음성유사프레임 상에 각각 위치하는 클러스터의 길이를 임계치와 비교하는 것을 특징으로 한다.

바람직하게는, 상기 제2추출부는, 상기 잔여 클러스터 각각에 대해 시간 축으로 중복되는 클러스터 간 유사도 기반으로 뮤지컬 잡음에 해당하는 클러스터를 추출하는 것을 특징으로 한다.

바람직하게는, 상기 제2추출부는, 상기 잔여 클러스터 각각에 대해 시간 축으로 중복되는 영역 상의 클러스터 길이의 평균 또는 편차를 기반으로 유사도를 판별하여 뮤지컬 잡음에 해당하는 클러스터를 추출하는 것을 특징으로 한다.

본 발명의 다른 일면에 따라 음성통신 기반 잡음 제거 방법이 제공되며: 이 방법은, 스펙트럼차감장치가 음성신호를 대상으로 이득함수(Gain Function)를 기반으로 한 스펙트럼 차감(SS, Spectral Subtraction)을 수행하는 스펙트럼차감단계; 잡음제거장치가 상기 스펙트럼 차감이 수행된 음성신호에 대해 스펙트로그램(Spectrogram) 상에서 주파수 축으로 연속된 신호들간의 클러스터링(Clustering)을 수행하여 하나 이상의 클러스터를 지정하는 클러스터링단계; 상기 잡음제거장치가 상기 지정된 각각의 클러스터에 대한 주파수 축으로의 연속성을 판별하여 뮤지컬(Musical) 잡음에 해당하는 클러스터를 추출하는 제1추출단계; 및 상기 잡음제거장치가 잔여 클러스터 각각에 대해 시간 축으로 중복되는 클러스터 간 유사도 기반으로 뮤지컬 잡음에 해당하는 클러스터를 추출하는 주파수 제2추출단계를 포함하는 것을 특징으로 한다.

바람직하게는, 상기 제1추출단계는, 상기 지정된 각각의 클러스터에 대한 주파수 축으로의 연속된 길이를 임계치와 비교하여 뮤지컬 잡음에 해당하는 클러스터를 추출하는 것을 특징으로 한다.

바람직하게는, 상기 제2추출단계는, 상기 잔여 클러스터 각각에 대해 시간 축으로 중복되는 클러스터 간 유사도 기반으로 뮤지컬 잡음에 해당하는 클러스터를 추출하는 것을 특징으로 한다.

본 발명의 또 다른 일면에 따라 음성통신 기반 잡음 제거 방법이 제거되며: 이 방법은, 이득함수(Gain Function)를 기반으로 한 스펙트럼 차감(SS, Spectral Subtraction)이 수행된 음성신호에 대해 스펙트로그램(Spectrogram) 상에서 주파수 축으로 신호들간의 클러스터링(Clustering)을 수행하여 하나 이상의 클러스터를 지정하는 클러스터링단계; 상기 지정된 각각의 클러스터에 대한 주파수 축으로의 연속성을 판별하여 뮤지컬(Musical) 잡음에 해당하는 클러스터를 추출하는 제1추출단계; 및 잔여 클러스터 각각에 대해 시간 축으로 중복되는 클러스터 간 유사도 기반으로 뮤지컬 잡음에 해당하는 클러스터를 추출하는 제2추출단계를 포함하는 것을 특징으로 한다.

바람직하게는, 상기 클러스터링단계는, 스펙트로그램(Spectrogram) 상에서 주파수 축으로 연속된 신호들간의 클러스터링(Clustering)을 수행하여 하나 이상의 클러스터를 지정하는 것을 특징으로 한다.

바람직하게는, 상기 클러스터링단계는, 상기 지정된 각각의 클러스터를 제외한 스펙트로그램(Spectrogram) 상의 잔여 신호를 제거하는 것을 특징으로 한다.

바람직하게는, 상기 제1추출단계는, 상기 스펙트로그램 상에서 시간 축으로 구분되는 각각의 프레임을 기 지정된 음성구간 추출방식을 통해 잡음유사프레임 및 음성유사프레임으로 구분하는 프레임구분단계; 및 상기 구분된 잡음유사프레임 또는 음성유사프레임 상에 각각 위치하는 클러스터의 길이를 임계치와 비교하는 것을 특징으로 한다.

바람직하게는, 상기 제2추출단계는, 상기 잔여 클러스터 각각에 대해 시간 축으로 중복되는 영역 상의 클러스터 길이의 평균 또는 편차를 기반으로 유사도를 판별하여 뮤지컬 잡음에 해당하는 클러스터를 추출하는 것을 특징으로 한다.

본 발명에 따른 음성통신 기반 잡음 제거 시스템 및 그 방법에 따르면, 음성통신에서 잡음제거를 위한 스펙트럼 차감(SS, Spectral Subtraction)이 수행된 신호를 대상으로 시간 축과 주파수 축의 변화에 따른 진폭의 차이를 표시하는 스펙트로그램(Spectrogram) 상에서 주파수 축으로 신호들간의 묶음인 클러스터링(Clustering)을 수행하고, 이를 기반으로 음성과 뮤지컬(Musical) 잡음이 지닌 특성을 통해 뮤지컬 잡음만을 추출함으로써, 잡음영역에서 뮤지컬 잡음의 잔재를 효과적으로 추출하여 자연스러운 청취 효과를 제공할 수 있다. 또한, 음성영역에서 음성왜곡을 유발을 방지할 수 있으므로 음성 명도의 신뢰성을 보장할 수 있다. 또한, 음성영역에서 뮤지컬 잡음의 추출이 가능하므로 잡음의 발산을 효과적으로 감소시킬 수 있다.

도 1은 본 발명의 실시예에 따른 음성통신 기반 잡음 제거 시스템의 개략적인 구성도.
도 2는 본 발명의 실시예에 따른 스펙트로그램.
도 3은 본 발명의 실시예에 따른 잡음제거장치의 개략적인 구성도.
도 4 및 도 5는 본 발명의 실시예에 따른 음성통신 기반 잡음 제거 방법을 설명하기 위한 개략적인 순서도.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 설명한다.

도 1은 본 발명의 실시예에 따른 음성통신 기반 잡음 제거 시스템의 개략적인 구성도를 도시한다.

도 1에 도시된 바와 같이, 상기 시스템은 음성신호에 대한 스펙트럼 차감(SS, Spectral Subtraction)을 수행하는 스펙트럼차감장치(100) 및 상기 스펙트럼 차감이 수행된 음성신호에 대한 클러스터링을 수행하여 이를 기반으로 뮤지컬(Musical) 잡음을 추출하는 잡음제거장치(200)를 포함하는 구성을 갖는다. 여기서, 상기 음성신호는 실생활에서 배경잡음이 유입되어 순수음성이 오염될 수 있는 음성통신 환경에서의 수신신호를 지칭하는 것으로서, 예컨대, 휴대전화, 음성인식, 음성코딩, 화자인식 등과 같은 다양한 분야에서 사용될 수 있다.

상기 스펙트럼차감장치(100)는 음성통신 환경에서 수신되는 음성신호를 대상으로 음질을 개선하기 위해 이득함수(Gain Function)를 기반으로 한 스펙트럼 차감을 수행하며, 이러한 스펙트럼차감장치(100)의 스펙트럼 차감 동작을 [수식 1] 내지 [수식 4]를 통해 살펴보면 다음과 같다.

즉, 깨끗한 음성신호

에 가산잡음

으로부터 오염된 음성

은 아래 [수식 1]로 표현된다.

[수식 1]

여기서,

은 이산(Discrete) 시간 인덱스이며,

은 아래 [수식단구간 2]와 같이 푸리에(Fourier) 변환에 의한 푸리에 스펙트럼(FS, Fourier Spectrum)

로 근사화될 수 있다.

[수식 2]

여기서,

와

는 각각 프레임과 주파수 위치(bin) 인덱스이며,

는 깨끗한 음성의 FS이고,

는 잡음의 FS이다.

이와 관련하여, 뮤지컬 잡음의 잔재를 억제하기 위해 도입된 과중차감(Oversubtraction) 요소

가 포함된 이득함수

기반 스펙트럼 차감 방법은 아래 [수식 3] 및 [수식 4]와 같다.

[수식 3]

[수식 4]

여기서,

와

는 각각

의 푸리에 크기 스펙트럼(FMS, Fourier Magnitude Spectrum)과 추정된 잡음의 FMS이다. 또한,

는 추정된 잡음보다 많이 차감하여 잔재잡음의 피크 성분을 감쇠시키는 동시에 음성왜곡을 증가시키는 요인이다. 아울러,

는 잔재잡음을 마스킹(Masking)시키기 위한 스펙트럼 평활화 요소이며, 0에 근접한 수치를 통상적으로 사용한다. 또한,

는 차감 굽음의 형태를 결정하기 위한 멱지수(Exponent)이다.

상기 잡음제거장치(200)는 상기 스페트럼차감장치(100)에 의해 스펙트럼 차감이 수행된 음성신호에 잔재될 수 있는 뮤지컬 잡음을 제거하기 위해 스펙트로그램(Spectrogram) 상에서 주파수 축으로 클러스터링(Clustering)을 수행한다. 보다 구체적으로, 잡음제거장치(200)는 도 2에 도시된 바와 같은 스펙트로그램 상에서 주파수 축으로 연속된 신호들간의 클러스터링(Clustering)을 수행하여 하나 이상의 클러스터{cluster(i,j,f)}를 지정하며, 상기 지정된 각각의 클러스터를 제외한 스펙트로그램 상의 잔여 신호는 잡음으로 판단하여 제거한다. 여기서, 클러스터{cluster(i,j,f)}는 음성 또는 뮤지컬 잡음 묶음인지를 판별하기 위한 단위를 지칭하며, i,j,f는 각각 프레임, 클러스터와 주파수 인덱스를 지칭한다.

이를 기반으로, 잡음제거장치(200)는 지정된 각각의 클러스터에 대한 주파수 축으로의 연속성을 판별하여 뮤지컬(Musical) 잡음에 해당하는 클러스터를 추출한다. 보다 구체적으로, 잡음제거장치(200)는 상기 지정된 각각의 클러스터 길이{cluster_length(i,j)} 즉, 각각의 클러스터에 대한 주파수 축으로의 연속된 길이를 설정된 임계치와 비교함으로써, 뮤지컬 잡음에 해당하는 클러스터를 추출 제거한다. 이를 위해, 잡음제거장치(200)는 상기 스펙트로그램 상에서 시간 축으로 구분되는 각각의 프레임을 기 지정된 음성구간 추출방식 예컨대, 음성구간 추출기(Voice Activity Detector)를 통해 잡음유사(Noise-like)프레임 및 음성유사(Voice-like)프레임으로 구분한다. 아울러, 잡음제거장치(200)는 상기 구분된 잡음유사프레임 또는 음성유사프레임 상에 각각 위치하는 클러스터의 길이를 설정된 임계치와 비교함으로써 각각의 클러스터에 대한 뮤지컬 잡음 여부를 판별한다. 즉, 잡음제거장치(200)는 잡음유사프레임에서 클러스터 길이{cluster_length(i,j)}가 제1임계치(TH1)보다 작으면 해당 클러스터를 뮤지컬 잡음으로 판별하여 추출한다. 나아가, 잡음제거장치(200)는 음성유사프레임에서 클러스터 길이{cluster_length(i,j)}가 제2임계치(TH2)보다 작을 경우, 해당 클러스터를 뮤지컬 잡음으로 판별하여 추출하게 된다. 참고로, 상기 제2임계치(TH2)는 제1임계치(TH1)보다 큰 값을 갖는다.

나아가, 잡음제거장치(200)는 잔여 클러스터 각각에 대해 시간 축으로 중복되는 클러스터 간 유사도 기반으로 뮤지컬 잡음에 해당하는 클러스터를 추출한다. 보다 구체적으로, 잡음제거장치(200)는 잔여 클러스터 각각에 대해 시간 축으로 중복되는 영역 상의 클러스터 길이의 평균 또는 편차를 기반으로 유사도를 판별하여 뮤지컬 잡음에 해당하는 클러스터를 추출함으로써, 뮤지컬 잡음이 제거된 음성신호를 출력할 수 있다. 즉, 잡음제거장치(200)는 도 2에 도시한 바와 같이 시간 축에서 음성은 연속적인 반면 뮤지컬 잡음의 경우 비연속적으로 출현하는 특성을 이용하여 시간 축에서 cluster(i-k, ,f)에서 cluster(i, ,f)까지 신호가 연속적으로 존재하지 않은 경우 cluster(i, ,f)를 뮤지컬 잡음으로 판별하여 추출한다. 여기서, k는 과거프레임 상수를 지칭한다. 덧붙여, 잡음제거장치(200)는 음성이 뮤지컬 잡음에 비해 평균 또는 편차가 크다는 특성을 이용하여 시간축에서 cluster(i-k, ,f)에서 cluster(i, ,f)까지 평균 또는 편차와 cluster(i, ,f)를 비교함으로써, 취득한 유사 정도를 판별하여 cluster(i, ,f)를 뮤지컬 잡음으로 추출할 수 있다.

이하에서는 도 3을 참조하여, 본 발명의 실시예에 따른 잡음제거장치(200)의 보다 구체적인 구성을 설명하기로 한다.

즉, 음성신호에 대한 클러스터링을 수행하는 클러스터링부(210), 주파수 축을 기준으로 뮤지컬 잡음을 추출하는 제1추출부(220), 및 시간 축을 기준으로 뮤지컬 잡음을 추출하는 제2추출부(230)를 포함하는 구성을 갖는다.

상기 클러스터링부(210)는 이득함수(Gain Function)를 기반으로 한 스펙트럼 차감(SS, Spectral Subtraction)이 수행된 음성신호에 대해 스펙트로그램(Spectrogram) 상에서 주파수 축으로 신호들간의 클러스터링(Clustering)을 수행하여 하나 이상의 클러스터를 지정한다. 보다 구체적으로, 클러스터링부(210)는 도 2에 도시된 바와 같은 스펙트로그램 상에서 주파수 축으로 연속된 신호들간의 클러스터링(Clustering)을 수행하여 하나 이상의 클러스터{cluster(i,j,f)}를 지정하며, 상기 지정된 각각의 클러스터를 제외한 스펙트로그램 상의 잔여 신호는 잡음으로 판단하여 제거한다. 여기서, 클러스터{cluster(i,j,f)}는 음성 또는 뮤지컬 잡음 묶음인지를 판별하기 위한 단위를 지칭하며, i,j,f는 각각 프레임, 클러스터와 주파수 인덱스를 지칭한다.

상기 제1추출부(220)는 지정된 각각의 클러스터에 대한 주파수 축으로의 연속성을 판별하여 뮤지컬(Musical) 잡음에 해당하는 클러스터를 추출한다. 보다 구체적으로, 상기 제1추출부(220)는 상기 지정된 각각의 클러스터 길이{cluster_length(i,j)} 즉, 각각의 클러스터에 대한 주파수 축으로의 연속된 길이를 설정된 임계치와 비교함으로써, 뮤지컬 잡음에 해당하는 클러스터를 추출 제거한다. 이를 위해, 상기 제1추출부(220)는 상기 스펙트로그램 상에서 시간 축으로 구분되는 각각의 프레임을 기 지정된 음성구간 추출방식 예컨대, 음성구간 추출기(Voice Activity Detector)를 통해 잡음유사(Noise-like)프레임 및 음성유사(Voice-like)프레임으로 구분한다. 아울러, 제1추출부(220)는 상기 구분된 잡음유사프레임 또는 음성유사프레임 상에 각각 위치하는 클러스터의 길이를 설정된 임계치와 비교함으로써 각각의 클러스터에 대한 뮤지컬 잡음 여부를 판별한다. 즉, 제1추출부(220)는 도 2에 도시한 바와 같이 잡음유사프레임에서 클러스터 길이{cluster_length(i,j)}가 제1임계치(TH1)보다 작으면 해당 클러스터를 뮤지컬 잡음으로 판별하여 추출한다. 나아가, 제1추출부(220)는 음성유사프레임에서 클러스터 길이{cluster_length(i,j)}가 제2임계치(TH2)보다 작을 경우, 해당 클러스터를 뮤지컬 잡음으로 판별하여 추출하게 된다. 참고로, 상기 제2임계치(TH2)는 제1임계치(TH1)보다 큰 값을 갖는다.

상기 제2추출부(230)는 잔여 클러스터 각각에 대해 시간 축으로 중복되는 클러스터 간 유사도 기반으로 뮤지컬 잡음에 해당하는 클러스터를 추출한다. 보다 구체적으로, 제2추출부(230)는 잔여 클러스터 각각에 대해 시간 축으로 중복되는 영역 상의 클러스터 길이의 평균 또는 편차를 기반으로 유사도를 판별하여 뮤지컬 잡음에 해당하는 클러스터를 추출함으로써, 뮤지컬 잡음이 제거된 음성신호를 출력할 수 있다. 즉, 제2추출부(230)는 도 2에 도시한 바와 같이 시간 축에서 음성은 연속적인 반면 뮤지컬 잡음의 경우 비연속적으로 출현하는 특성을 이용하여 시간 축에서 cluster(i-k, ,f)에서 cluster(i, ,f)까지 신호가 연속적으로 존재하지 않은 경우 cluster(i, ,f)를 뮤지컬 잡음으로 판별하여 추출한다. 여기서, k는 과거프레임 상수를 지칭한다. 또한, 제2추출부(230)는 음성이 뮤지컬 잡음에 비해 평균 또는 편차가 크다는 특성을 이용하여 시간축에서 cluster(i-k, ,f)에서 cluster(i, ,f)까지 평균 또는 편차와 cluster(i, ,f)를 비교함으로써, 취득한 유사 정도를 판별하여 cluster(i, ,f)를 뮤지컬 잡음으로 추출할 수 있다.

이상에서 살펴본 바와 같이, 본 발명에 따른 음성통신 기반 잡음 제거 시스템에 따르면, 음성통신에서 잡음제거를 위한 스펙트럼 차감(SS, Spectral Subtraction)이 수행된 신호를 대상으로 시간 축과 주파수 축의 변화에 따른 진폭의 차이를 표시하는 스펙트로그램(Spectrogram) 상에서 주파수 축으로 신호들간의 묶음인 클러스터링(Clustering)을 수행하고, 이를 기반으로 음성과 뮤지컬(Musical) 잡음이 지닌 특성을 통해 뮤지컬 잡음만을 추출함으로써, 잡음영역에서 뮤지컬 잡음의 잔재를 효과적으로 추출하여 자연스러운 청취 효과를 제공할 수 있다. 또한, 음성영역에서 음성왜곡을 유발을 방지할 수 있으므로 음성 명도의 신뢰성을 보장할 수 있다. 또한, 음성영역에서 뮤지컬 잡음의 추출이 가능하므로 잡음의 발산을 효과적으로 감소시킬 수 있다.

이하에서는, 도 4 및 5를 참조하여, 본 발명의 실시예에 따른 음성통신 기반 잡음 제거 방법을 설명하기로 한다. 여기서, 설명의 편의를 위해 전술한 도 1 내지 도 3에 도시된 구성은 해당 참조번호를 언급하여 설명하기로 한다.

우선, 도 4를 참조하여 본 발명의 실시예에 따른 음성통신 기반 잡음 제거 시스템의 구동 방법을 설명하기로 한다.

먼저, 스펙트럼차감장치(100)가 음성통신 환경에서 수신되는 음성신호를 대상으로 음질을 개선하기 위해 이득함수(Gain Function)를 기반으로 한 스펙트럼 차감을 수행한다(S110-S130). 바람직하게는, 스펙트럼차감장치(100)의 스펙트럼 차감 동작은 [수식 1] 내지 [수식 4]를 통해 다음과 같이 설명될 수 있다.

즉, 깨끗한 음성신호

에 가산잡음

으로부터 오염된 음성

은 아래 [수식 1]로 표현된다.

[수식 1]

여기서,

은 이산(Discrete) 시간 인덱스이며,

로 근사화될 수 있다.

[수식 2]

여기서,

와

는 각각 프레임과 주파수 위치(bin) 인덱스이며,

는 깨끗한 음성의 FS이고,

는 잡음의 FS이다.

가 포함된 이득함수

[수식 3]

[수식 4]

여기서,

와

는 각각

는 차감 굽음의 형태를 결정하기 위한 멱지수(Exponent)이다.

그리고 나서, 잡음제거장치(200)가 상기 스페트럼차감장치(100)에 의해 스펙트럼 차감이 수행된 음성신호에 잔재될 수 있는 뮤지컬 잡음을 제거하기 위해 스펙트로그램(Spectrogram) 상에서 주파수 축으로 클러스터링(Clustering)을 수행한다(S140). 보다 구체적으로, 잡음제거장치(200)는 도 2에 도시된 바와 같은 스펙트로그램 상에서 주파수 축으로 연속된 신호들간의 클러스터링(Clustering)을 수행하여 하나 이상의 클러스터{cluster(i,j,f)}를 지정하며, 상기 지정된 각각의 클러스터를 제외한 스펙트로그램 상의 잔여 신호는 잡음으로 판단하여 제거한다. 여기서, 클러스터{cluster(i,j,f)}는 음성 또는 뮤지컬 잡음 묶음인지를 판별하기 위한 단위를 지칭하며, i,j,f는 각각 프레임, 클러스터와 주파수 인덱스를 지칭한다.

그런 다음, 잡음제거장치(200)가 지정된 각각의 클러스터에 대한 주파수 축으로의 연속성을 판별하여 뮤지컬(Musical) 잡음에 해당하는 클러스터를 추출한다(S150-S160). 보다 구체적으로, 잡음제거장치(200)는 상기 지정된 각각의 클러스터 길이{cluster_length(i,j)} 즉, 각각의 클러스터에 대한 주파수 축으로의 연속된 길이를 설정된 임계치와 비교함으로써, 뮤지컬 잡음에 해당하는 클러스터를 추출 제거한다. 이를 위해, 잡음제거장치(200)는 상기 스펙트로그램 상에서 시간 축으로 구분되는 각각의 프레임을 기 지정된 음성구간 추출방식 예컨대, 음성구간 추출기(Voice Activity Detector)를 통해 잡음유사(Noise-like)프레임 및 음성유사(Voice-like)프레임으로 구분한다. 아울러, 잡음제거장치(200)는 상기 구분된 잡음유사프레임 또는 음성유사프레임 상에 각각 위치하는 클러스터의 길이를 설정된 임계치와 비교함으로써 각각의 클러스터에 대한 뮤지컬 잡음 여부를 판별한다. 즉, 잡음제거장치(200)는 잡음유사프레임에서 클러스터 길이{cluster_length(i,j)}가 제1임계치(TH1)보다 작으면 해당 클러스터를 뮤지컬 잡음으로 판별하여 추출한다. 나아가, 잡음제거장치(200)는 음성유사프레임에서 클러스터 길이{cluster_length(i,j)}가 제2임계치(TH2)보다 작을 경우, 해당 클러스터를 뮤지컬 잡음으로 판별하여 추출하게 된다. 참고로, 상기 제2임계치(TH2)는 제1임계치(TH1)보다 큰 값을 갖는다.

이후, 잡음제거장치(200)가 잔여 클러스터 각각에 대해 시간 축으로 중복되는 클러스터 간 유사도 기반으로 뮤지컬 잡음에 해당하는 클러스터를 추출한다(S170-S190). 바람직하게는, 잡음제거장치(200)는 잔여 클러스터 각각에 대해 시간 축으로 중복되는 영역 상의 클러스터 길이의 평균 또는 편차를 기반으로 유사도를 판별하여 뮤지컬 잡음에 해당하는 클러스터를 추출함으로써, 뮤지컬 잡음이 제거된 음성신호를 출력할 수 있다. 즉, 잡음제거장치(200)는 도 2에 도시한 바와 같이 시간 축에서 음성은 연속적인 반면 뮤지컬 잡음의 경우 비연속적으로 출현하는 특성을 이용하여 시간 축에서 cluster(i-k, ,f)에서 cluster(i, ,f)까지 신호가 연속적으로 존재하지 않은 경우 cluster(i, ,f)를 뮤지컬 잡음으로 판별하여 추출한다. 여기서, k는 과거프레임 상수를 지칭한다. 덧붙여, 잡음제거장치(200)는 음성이 뮤지컬 잡음에 비해 평균 또는 편차가 크다는 특성을 이용하여 시간축에서 cluster(i-k, ,f)에서 cluster(i, ,f)까지 평균 또는 편차와 cluster(i, ,f)를 비교함으로써, 취득한 유사 정도를 판별하여 cluster(i, ,f)를 뮤지컬 잡음으로 추출할 수 있다.

이하에서는, 도 5를 참조하여 본 발명의 실시예에 따른 잡음제거장치(200)의 구동 방법을 살펴보기로 한다.

먼저, 클러스터링부(210)가 도 2에 도시된 바와 같은 스펙트로그램 상에서 주파수 축으로 연속된 신호들간의 클러스터링(Clustering)을 수행하여 하나 이상의 클러스터{cluster(i,j,f)}를 지정하며, 상기 지정된 각각의 클러스터를 제외한 스펙트로그램 상의 잔여 신호는 잡음으로 판단하여 제거한다(S210-S230). 여기서, 클러스터{cluster(i,j,f)}는 음성 또는 뮤지컬 잡음 묶음인지를 판별하기 위한 단위를 지칭하며, i,j,f는 각각 프레임, 클러스터와 주파수 인덱스를 지칭한다.

그리고 나서, 제1추출부(220)가 상기 스펙트로그램 상에서 시간 축으로 구분되는 각각의 프레임을 기 지정된 음성구간 추출방식 예컨대, 음성구간 추출기(Voice Activity Detector)를 통해 잡음유사(Noise-like)프레임 및 음성유사(Voice-like)프레임으로 구분한다(S240).

그런 다음, 제1추출부(220)가 도 2에 도시한 바와 같이 잡음유사프레임에서 클러스터 길이{cluster_length(i,j)}가 제1임계치(TH1)보다 작으면 해당 클러스터를 뮤지컬 잡음으로 판별하여 추출한다(S250-S260).

나아가, 제1추출부(220)가 음성유사프레임에서 클러스터 길이{cluster_length(i,j)}가 제2임계치(TH2)보다 작을 경우, 해당 클러스터를 뮤지컬 잡음으로 판별하여 추출하게 된다(S270-S280). 참고로, 상기 제2임계치(TH2)는 제1임계치(TH1)보다 큰 값을 갖는다.

이후, 제2추출부(230)는 잔여 클러스터 각각에 대해 시간 축으로 중복되는 영역 상의 클러스터 길이의 평균 또는 편차를 기반으로 유사도를 판별하여 뮤지컬 잡음에 해당하는 클러스터를 추출함으로써, 뮤지컬 잡음이 제거된 음성신호를 출력한다(S300-S320). 바람직하게는, 제2추출부(230)는 도 2에 도시한 바와 같이 시간 축에서 음성은 연속적인 반면 뮤지컬 잡음의 경우 비연속적으로 출현하는 특성을 이용하여 시간 축에서 cluster(i-k, ,f)에서 cluster(i, ,f)까지 신호가 연속적으로 존재하지 않은 경우 cluster(i, ,f)를 뮤지컬 잡음으로 판별하여 추출한다. 여기서, k는 과거프레임 상수를 지칭한다. 또한, 제2추출부(230)는 음성이 뮤지컬 잡음에 비해 평균 또는 편차가 크다는 특성을 이용하여 시간축에서 cluster(i-k, ,f)에서 cluster(i, ,f)까지 평균 또는 편차와 cluster(i, ,f)를 비교함으로써, 취득한 유사 정도를 판별하여 cluster(i, ,f)를 뮤지컬 잡음으로 추출할 수 있다.

이상에서 살펴본 바와 같이, 본 발명에 따른 음성통신 기반 잡음 제거 방법에 따르면, 음성통신에서 잡음제거를 위한 스펙트럼 차감(SS, Spectral Subtraction)이 수행된 신호를 대상으로 시간 축과 주파수 축의 변화에 따른 진폭의 차이를 표시하는 스펙트로그램(Spectrogram) 상에서 주파수 축으로 신호들간의 묶음인 클러스터링(Clustering)을 수행하고, 이를 기반으로 음성과 뮤지컬(Musical) 잡음이 지닌 특성을 통해 뮤지컬 잡음만을 추출함으로써, 잡음영역에서 뮤지컬 잡음의 잔재를 효과적으로 추출하여 자연스러운 청취 효과를 제공할 수 있다. 또한, 음성영역에서 음성왜곡을 유발을 방지할 수 있으므로 음성 명도의 신뢰성을 보장할 수 있다. 또한, 음성영역에서 뮤지컬 잡음의 추출이 가능하므로 잡음의 발산을 효과적으로 감소시킬 수 있다.

지금까지 본 발명을 바람직한 실시 예를 참조하여 상세히 설명하였지만, 본 발명이 상기한 실시 예에 한정되는 것은 아니며, 이하의 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 또는 수정이 가능한 범위까지 본 발명의 기술적 사상이 미친다 할 것이다.

본 발명에 따른 음성통신 기반 잡음 제거 시스템 및 그 방법에 따르면, 스펙트로그램(Spectrogram) 상 주파수 축으로 신호들간의 묶음인 클러스터링(Clustering)을 기반으로 음성과 뮤지컬(Musical) 잡음이 지닌 특성을 이용하여 뮤지컬 잡음만을 추출한다는 점에서 기존 기술의 한계를 뛰어 넘음에 따라 관련 기술에 대한 이용만이 아닌 적용되는 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.

100: 사용자단말기
110: 초기접속부 120: 정보수집부
130: 핸드오버수행부
200: 핸드오버관리서버
210: 단말접속부 220: 핸드오버제어부
230: 정보관리부

Claims

음성신호를 대상으로 이득함수(Gain Function)를 기반으로 한 스펙트럼 차감(SS, Spectral Subtraction)을 수행하는 스펙트럼차감장치; 및
상기 스펙트럼 차감이 수행된 음성신호에 대해 스펙트로그램(Spectrogram) 상에서 주파수 축으로 연속된 신호들간의 클러스터링(Clustering)을 수행하여 하나 이상의 클러스터를 지정하고, 상기 지정된 각각의 클러스터에 대한 주파수 축 및 시간 축 각각의 연속성을 판별하여 뮤지컬(Musical) 잡음을 추출하는 잡음제거장치를 포함하는 것을 특징으로 하는 음성통신 기반 잡음 제거 시스템.
제 1 항에 있어서,
상기 잡음제거장치는,
상기 지정된 각각의 클러스터에 대한 주파수 축으로의 연속된 길이를 임계치와 비교하여 뮤지컬 잡음에 해당하는 클러스터를 추출하며, 잔여 클러스터 각각에 대해 시간 축으로 중복되는 클러스터 간 유사도 기반으로 뮤지컬 잡음에 해당하는 클러스터를 추출하는 것을 특징으로 하는 음성통신 기반 잡음 제거 시스템.
이득함수(Gain Function)를 기반으로 한 스펙트럼 차감(SS, Spectral Subtraction)이 수행된 음성신호에 대해 스펙트로그램(Spectrogram) 상에서 주파수 축으로 신호들간의 클러스터링(Clustering)을 수행하여 하나 이상의 클러스터를 지정하는 클러스터링부;
상기 지정된 각각의 클러스터에 대한 주파수 축으로의 연속성을 판별하여 뮤지컬(Musical) 잡음에 해당하는 클러스터를 추출하는 제1추출부; 및
잔여 클러스터 각각에 대해 시간 축으로 중복되는 클러스터 간 유사도 기반으로 뮤지컬 잡음에 해당하는 클러스터를 추출하는 주파수 제2추출부를 포함하는 것을 특징으로 하는 잡음제거장치.
제 3 항에 있어서,
상기 클러스터링부는,
스펙트로그램 상에서 주파수 축으로 연속된 신호들간의 클러스터링(Clustering)을 수행하여 하나 이상의 클러스터를 지정하는 것을 특징으로 하는 잡음제거장치.
제 4 항에 있어서,
상기 클러스터링부는,
상기 지정된 각각의 클러스터를 제외한 스펙트로그램 상의 잔여 신호를 제거하는 것을 특징으로 하는 잡음제거장치.
제 3 항에 있어서,
상기 제1추출부는,
상기 지정된 각각의 클러스터에 대한 주파수 축으로의 연속된 길이를 임계치와 비교하여 뮤지컬 잡음에 해당하는 클러스터를 추출하는 것을 특징으로 하는 잡음제거장치.
제 6 항에 있어서,
상기 제1추출부는,
상기 스펙트로그램 상에서 시간 축으로 구분되는 각각의 프레임을 기 지정된 음성구간 추출방식을 통해 잡음유사프레임 및 음성유사프레임으로 구분하고, 상기 구분된 잡음유사프레임 또는 음성유사프레임 상에 각각 위치하는 클러스터의 길이를 임계치와 비교하는 것을 특징으로 하는 잡음제거장치.
제 3 항에 있어서,
상기 제2추출부는,
상기 잔여 클러스터 각각에 대해 시간 축으로 중복되는 클러스터 간 유사도 기반으로 뮤지컬 잡음에 해당하는 클러스터를 추출하는 것을 특징으로 하는 잡음제거장치.
제 8 항에 있어서,
상기 제2추출부는,
상기 잔여 클러스터 각각에 대해 시간 축으로 중복되는 영역 상의 클러스터 길이의 평균 또는 편차를 기반으로 유사도를 판별하여 뮤지컬 잡음에 해당하는 클러스터를 추출하는 것을 특징으로 하는 잡음제거장치.
스펙트럼차감장치가 음성신호를 대상으로 이득함수(Gain Function)를 기반으로 한 스펙트럼 차감(SS, Spectral Subtraction)을 수행하는 스펙트럼차감단계;
잡음제거장치가 상기 스펙트럼 차감이 수행된 음성신호에 대해 스펙트로그램(Spectrogram) 상에서 주파수 축으로 연속된 신호들간의 클러스터링(Clustering)을 수행하여 하나 이상의 클러스터를 지정하는 클러스터링단계;
상기 잡음제거장치가 상기 지정된 각각의 클러스터에 대한 주파수 축으로의 연속성을 판별하여 뮤지컬(Musical) 잡음에 해당하는 클러스터를 추출하는 제1추출단계; 및
상기 잡음제거장치가 잔여 클러스터 각각에 대해 시간 축으로 중복되는 클러스터 간 유사도 기반으로 뮤지컬 잡음에 해당하는 클러스터를 추출하는 주파수 제2추출단계를 포함하는 것을 특징으로 하는 음성통신 기반 잡음 제거 방법.
제 10 항에 있어서,
상기 제1추출단계는,
상기 지정된 각각의 클러스터에 대한 주파수 축으로의 연속된 길이를 임계치와 비교하여 뮤지컬 잡음에 해당하는 클러스터를 추출하는 것을 특징으로 하는 음성통신 기반 잡음 제거 방법.
제 10 항에 있어서,
상기 제2추출단계는,
상기 잔여 클러스터 각각에 대해 시간 축으로 중복되는 클러스터 간 유사도 기반으로 뮤지컬 잡음에 해당하는 클러스터를 추출하는 것을 특징으로 하는 음성통신 기반 잡음 제거 방법.
이득함수(Gain Function)를 기반으로 한 스펙트럼 차감(SS, Spectral Subtraction)이 수행된 음성신호에 대해 스펙트로그램(Spectrogram) 상에서 주파수 축으로 신호들간의 클러스터링(Clustering)을 수행하여 하나 이상의 클러스터를 지정하는 클러스터링단계;
상기 지정된 각각의 클러스터에 대한 주파수 축으로의 연속성을 판별하여 뮤지컬(Musical) 잡음에 해당하는 클러스터를 추출하는 제1추출단계; 및
잔여 클러스터 각각에 대해 시간 축으로 중복되는 클러스터 간 유사도 기반으로 뮤지컬 잡음에 해당하는 클러스터를 추출하는 제2추출단계를 포함하는 것을 특징으로 하는 음성통신 기반 잡음 제거 방법.
제 13 항에 있어서,
상기 클러스터링단계는,
상기 스펙트로그램 상에서 주파수 축으로 연속된 신호들간의 클러스터링을 수행하여 하나 이상의 클러스터를 지정하는 것을 특징으로 하는 음성통신 기반 잡음 제거 방법.
제 14 항에 있어서,
상기 클러스터링단계는,
상기 지정된 각각의 클러스터를 제외한 스펙트로그램 상의 잔여 신호를 제거하는 것을 특징으로 하는 음성통신 기반 잡음 제거 방법.
제 13 항에 있어서,
상기 제1추출단계는,
상기 지정된 각각의 클러스터에 대한 주파수 축으로의 연속된 길이를 임계치와 비교하여 뮤지컬 잡음에 해당하는 클러스터를 추출하는 것을 특징으로 하는 음성통신 기반 잡음 제거 방법.
제 16 항에 있어서,
상기 제1추출단계는,
상기 스펙트로그램 상에서 시간 축으로 구분되는 각각의 프레임을 기 지정된 음성구간 추출방식을 통해 잡음유사프레임 및 음성유사프레임으로 구분하는 프레임구분단계; 및
상기 구분된 잡음유사프레임 또는 음성유사프레임 상에 각각 위치하는 클러스터의 길이를 임계치와 비교하는 것을 특징으로 하는 음성통신 기반 잡음 제거 방법.
제 13 항에 있어서,
상기 제2추출단계는,
상기 잔여 클러스터 각각에 대해 시간 축으로 중복되는 클러스터 간 유사도 기반으로 뮤지컬 잡음에 해당하는 클러스터를 추출하는 것을 특징으로 하는 음성통신 기반 잡음 제거 방법.
제 18 항에 있어서,
상기 제2추출단계는,
상기 잔여 클러스터 각각에 대해 시간 축으로 중복되는 영역 상의 클러스터 길이의 평균 또는 편차를 기반으로 유사도를 판별하여 뮤지컬 잡음에 해당하는 클러스터를 추출하는 것을 특징으로 하는 음성통신 기반 잡음 제거 방법.