WO2018199367A1

WO2018199367A1 - 스테레오 채널 잡음 제거 장치 및 방법

Info

Publication number: WO2018199367A1
Application number: PCT/KR2017/004589
Authority: WO
Inventors: 정상배; 홍정표
Original assignee: 경상대학교 산학협력단
Priority date: 2017-04-27
Filing date: 2017-04-28
Publication date: 2018-11-01
Also published as: KR101811635B1

Abstract

스테레오 채널 잡음 제거 장치 및 방법이 개시된다. 스테레오 채널 잡음 제거 방법은 두 개의 채널을 통해 잡음 및 음성을 포함하는 오디오 신호를 입력받는 단계, 입력된 오디오 신호의 채널간 차감 신호의 평균 전력을 제귀적으로 산출하는 단계, 입력된 오디오 신호의 채널간 상관 관계 행렬을 산출하여 행렬식을 산출하는 단계, 산출된 채널간 차감 신호의 평균 전력 및 산출된 행렬식에 기초하여 입력된 오디오 신호의 전력을 산출하는 단계, 산출된 오디오 신호의 전력에 기초하여 음성 신호를 포함하는 구간 및 잡음 구간을 판단하는 단계, 판단된 음성 신호를 포함하는 구간 및 잡음 구간의 잡음 전력을 산출하는 단계, 산출된 오디오 신호 전력의 최소통계추정값을 산출하는 단계, 산출된 오디오 신호의 전력, 산출된 최소통계추정값 및 산출된 잡음 전력에 기초하여 SNR을 산출하는 단계 및 산출된 SNR을 기초로 오디오 신호를 필터링하는 단계를 포함한다.

Description

스테레오 채널 잡음 제거 장치 및 방법

본 개시는 스테레오 채널 잡음 제거 장치 및 방법에 관한 것으로, 더욱 상세하게는 음성 인식 성능을 향상시키고 음성 기반 통화 품질을 향상시키는 스테레오 채널 잡음 제거 장치 및 방법에 관한 것이다.

스테레오 채널의 잡음 제거를 위한 다양한 방식이 적용되고 있다. 예를 들어, 상호 스펙트럼 차감법(Cross-spectral subtraction(CSS) method)은 잡음의 상호 전력 스펙트럼 밀도를 과대평가추정(overestimation) 기법으로 측정하는 방식이다. 상호 스펙트럼 차감법은 필터 이득이 잡음 구간에서 0에 가까운 값을 가지고, 음성 구간에서 1에 가까운 값을 가지는 특징을 가진다.

그리고, 위상 오차 함수 기법(Phase-error function(PEF) method)은 잡음 구간에서는 위상차가 크게 발생하여 필터 이득이 작은 값을 가지고, 음성 구간에서는 위상차가 작게 발생하여 필터 이득이 1에 근접한 값을 가지는 특징을 가진다.

또한, 결정 지향성을 갖는 목표 대 비목표 방향성 신호비 기법(Target to non-target directional signal ratio with decision-directed(TNR-DD) method)은 지연-합 빔포밍(delay-and-sum beamforming(DSB))과 목표음성 차단행렬(blocking matrix(BM)) 출력의 비가 잡음 구간에서 최소값을 가지고, 음성 구간에서의 값이 잡음 구간에서의 값보다 매우 크다는 특징을 가진다.

일반적으로 잡음은 입력 신호에 이득을 곱한 크기만큼 제거될 수 있다. 기존의 스테레오 채널 잡음 제거 방법은 정성적인 개념을 이용하기 때문에 잡음 정도가 중간 정도일 때 정확한 이득을 구하기 어려운 점이 존재한다. 따라서, 기존의 스테레오 채널 잡음 제거 방법은 잡음 정도가 중간 정도일 때 잡음 제거 효율이 떨어지는 문제가 있다.

본 개시는 상술한 문제점을 해결하기 위한 것으로, 본 개시의 목적은 고성능의 음성 검출을 위한 새로온 특징 파라미터를 이용하여 잡음 제거의 신뢰도를 높일 수 있는 스테레오 채널 잡음 제거 장치 및 방법을 제공하는 것이다.

이상과 같은 목적을 달성하기 위한 본 개시의 일 실시 예에 따르면, 두 개의 채널을 통해 잡음 및 음성을 포함하는 오디오 신호를 입력받는 단계, 상기 입력된 오디오 신호의 채널간 차감 신호의 평균 전력을 제귀적으로 산출하는 단계, 상기 입력된 오디오 신호의 채널간 상관 관계 행렬을 산출하여 행렬식을 산출하는 단계, 상기 산출된 채널간 차감 신호의 평균 전력 및 상기 산출된 행렬식에 기초하여 입력된 오디오 신호의 전력을 산출하는 단계, 상기 산출된 오디오 신호의 전력에 기초하여 음성 신호를 포함하는 구간 및 잡음 구간을 판단하는 단계, 상기 판단된 음성 신호를 포함하는 구간 및 잡음 구간의 잡음 전력을 산출하는 단계, 상기 산출된 오디오 신호 전력의 최소통계추정값을 산출하는 단계, 상기 산출된 오디오 신호의 전력, 상기 산출된 최소통계추정값 및 상기 산출된 잡음 전력에 기초하여 SNR을 산출하는 단계 및 상기 산출된 SNR을 기초로 상기 오디오 신호를 필터링하는 단계를 포함하는 스테레오 채널 잡음 제거 방법을 제공한다.

그리고, 상기 채널간 차감 신호는 음성 신호가 차단된 신호일 수 있다.

한편, 입력된 오디오 신호의 전력을 산출하는 단계는 상기 산출된 행렬식을 상기 산출된 채널간 차감 신호의 평균 전력으로 나눈 파라미터를 사용할 수 있다.

그리고, 상기 SNR을 산출하는 단계는 상기 음성 신호를 포함하는 구간에서 상기 파라미터를 사용하여 산출된 오디오 신호 전력에서 상기 최소통계추정값을 감산한 후 상기 잡음 전력으로 나누어 상기 SNR을 산출할 수 있다.

또한, 상기 오디오 신호를 필터링하는 단계는 Wiener 필터를 사용할 수 있다.

또한, 상기 음성 신호를 포함하는 구간 및 잡음 구간을 판단하는 단계는 상기 입력된 오디오 신호를 기 설정된 시간의 구간으로 나누고, 각 구간의 오디오 신호의 전력이 임계값보다 작은 경우 상기 잡음 구간으로 판단하고, 각 구간의 오디오 신호의 전력이 임계값보다 큰 경우 상기 음성 신호를 포함하는 구간으로 판단할 수 있다.

한편, 상기 임계값은 잡음이 없는 기 설정된 시간 동안의 음성 신호의 평균값일 수 있다.

그리고, 상기 잡음 전력을 산출하는 단계는 상기 잡음 구간의 경우 상기 잡음 구간의 오디오 신호의 평균 전력을 상기 잡음 전력으로 산출하고, 상기 음성 신호를 포함하는 구간의 경우 이전 구간의 잡음 전력을 상기 잡음 전력으로 산출할 수 있다.

이상과 같은 목적을 달성하기 위한 본 개시의 일 실시 예에 따르면, 잡음 및 음성을 포함하는 오디오 신호를 입력받는 스테레오 마이크, 입력된 오디오 신호 중 잡음을 제거하는 프로세서 및 상기 잡음이 제거된 오디오 신호를 출력하는 스피커를 포함하고, 상기 프로세서는 상기 입력된 오디오 신호의 채널간 차감 신호의 평균 전력을 제귀적으로 산출하고, 상기 입력된 오디오 신호의 채널간 상관 관계 행렬을 산출하여 행렬식을 산출하며, 상기 산출된 채널간 차감 신호의 평균 전력 및 상기 산출된 행렬식에 기초하여 입력된 오디오 신호의 전력을 산출하고, 상기 산출된 오디오 신호의 전력에 기초하여 음성 신호를 포함하는 구간 및 잡음 구간을 판단하며, 상기 판단된 음성 신호를 포함하는 구간 및 잡음 구간의 잡음 전력을 산출하고, 상기 산출된 오디오 신호 전력의 최소통계추정값을 산출하며, 상기 산출된 오디오 신호의 전력과 상기 산출된 최소통계추정값 및 상기 산출된 잡음 전력에 기초하여 SNR을 산출하고, 상기 산출된 SNR을 기초로 상기 오디오 신호를 필터링하는 스테레오 채널 잡음 제거 장치를 제공한다.

이상 설명한 바와 같이, 본 개시의 다양한 실시 예에 따르면, 스테레오 채널 잡음 제거 장치 및 방법은 최적의 파라미터를 이용하여 고성능의 음성 검출을 할 수 있다.

그리고, 스테레오 채널 잡음 제거 장치 및 방법은 정밀한 목표 음성 신호의 전력을 추정할 수 잇다.

또한, 스테레오 채널 잡음 제거 장치 및 방법은 고성능의 음성 검출과 결합하여 정밀한 신호대 잡음비를 산출할 수 있고, 효과적으로 잡음을 제거할 수 있다.

도 1은 본 개시의 일 실시 예에 따른 스테레오 채널 잡음 제거 장치의 블록도이다.

도 2는 본 개시의 일 실시 예에 따른 프로세서에서 잡음을 제거하는 과정을 설명하는 도면이다.

도 3은 본 개시의 일 실시 예에 따른 스테레오 채널 잡음 제거 방법의 흐름도이다.

도 4는 본 개시의 일 실시 예에 따른 테스트 환경을 설명하는 도면이다.

도 5는 본 개시의 일 실시 예에 따른 음성 검출 성능을 나타내는 도면이다.

도 6 및 도 7은 본 개시의 일 실시 예에 따른 잡음 제거 성능의 측정 결과를 나타내는 도면이다.

이하에서는 첨부된 도면을 참조하여 다양한 실시 예를 보다 상세하게 설명한다. 본 명세서에 기재된 실시 예는 다양하게 변형될 수 있다. 특정한 실시 예가 도면에서 묘사되고 상세한 설명에서 자세하게 설명될 수 있다. 그러나, 첨부된 도면에 개시된 특정한 실시 예는 다양한 실시 예를 쉽게 이해하도록 하기 위한 것일 뿐이다. 따라서, 첨부된 도면에 개시된 특정 실시 예에 의해 기술적 사상이 제한되는 것은 아니며, 발명의 사상 및 기술 범위에 포함되는 모든 균등물 또는 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이러한 구성요소들은 상술한 용어에 의해 한정되지는 않는다. 상술한 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

본 명세서에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

한편, 본 명세서에서 사용되는 구성요소에 대한 "모듈" 또는 "부"는 적어도 하나의 기능 또는 동작을 수행한다. 그리고, "모듈" 또는 "부"는 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합에 의해 기능 또는 동작을 수행할 수 있다. 또한, 특정 하드웨어에서 수행되어야 하거나 적어도 하나의 프로세서에서 수행되는 "모듈" 또는 "부"를 제외한 복수의 "모듈들" 또는 복수의 "부들"은 적어도 하나의 모듈로 통합될 수도 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

그 밖에도, 본 발명을 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그에 대한 상세한 설명은 축약하거나 생략한다.

도 1을 참조하면, 스테레오 채널 잡음 제거 장치(100)는 마이크(110), 프로세서(120) 및 스피커(130)를 포함한다. 마이크(110)는 잡음 및 음성을 포함하는 오디오 신호를 입력받는다. 일 실시 예로서, 마이크(110)는 인접하게 배치된 스테레오 마이크일 수 있다. 본 개시에서 스테레오 마이크는 인접하게 배치되었기 때문에 스테레오 마이크 각각을 통해 입력된 음성 신호는 채널간 차이가 없다고 가정한다. 또한, 스테레오 마이크를 통해 음성을 입력하는 음원(목표 음성)은 정면에 위치한다고 가정한다.

프로세서(120)는 입력된 오디오 신호 중 잡음을 제거한다. 프로세서(120)는 입력된 오디오 신호의 채널간 차감 신호의 평균 전력을 제귀적으로 산출한다. 채널간 차감 신호는 음성 신호가 차단된 신호일 수 있다. 프로세서(120)는 입력된 오디오 신호의 채널간 상관 관계 행렬을 산출하여 행렬식을 산출한다. 프로세서(120)는 산출된 채널간 차감 신호의 평균 전력 및 산출된 행렬식에 기초하여 음성 신호를 포함하는 구간 및 잡음 구간을 판단한다.

그리고, 프로세서(120)는 판단된 음성 신호를 포함하는 구간 및 잡음 구간의 잡음 전력을 산출하고, 산출된 오디오 신호 전력의 최소통계추정값을 산출한다. 프로세서(120)는 산출된 오디오 신호의 전력, 산출된 최소통계추정값 및 산출된 잡음 전력에 기초하여 SNR(Signal to Noise Ratio)을 산출한다. 프로세서(120)는 산출된 SNR을 기초로 오디오 신호를 필터링한다. 예를 들어, 프로세서(120)는 범용 프로세서일 수 있고, DSP(Digital Signal Processor)와 같은 음성 처리 전용 프로세서일 수도 있다.

스피커(130)는 잡음이 제거된 오디오 신호를 출력한다.

예를 들어, 스테레오 채널 잡음 제거 장치는 두 개의 마이크를 포함하는 스마트 폰, 태블릿 PC, 노트북 컴퓨터, 데스크탑 컴퓨터, 디지털방송용 단말 장치, 디지털 TV, PDA, 네비게이션, 웨어러블 디바이스, 키오스크 등을 포함할 수 있다.

아래에서는 프로세서의 각 블록도를 중심으로 잡음 제거 과정을 구체적으로 설명한다.

도 2에는 SNR 평가(estimation)에 기초한 행렬식을 이용한 스테레오 채널 잡음 제거 시스템이 도시되어 있다. 스테레오 채널 잡음 제거 시스템은 예비적으로 제2 채널(제2 마이크)에 최적 등화 계수(optimal equalizing coefficients)를 적용하여 스테레오 마이크 입력 간의 목표 음성의 이득 및 위상차를 보상할 수도 있다. 스테레오 채널 잡음 제거 시스템은 재귀 평균, 상관 행렬의 행렬식 분석을 통해 목표 음성 차단 파워 스펙트럼 밀도(Power Spectral Density: PSD)(target blocked PSD)의 롱-텀(long-term) 평균으로 나눈 입력 상관 행렬의 행렬식을 추출하여 음성 구간 검출(Speech Activity Detection: SAD) 및 SNR(Signal to Noise Ratio) 추정에 사용한다. 마지막으로 추정된 SNR로 도출된 위너 필터(Wiener filter)를 적용하여 목표 음성을 획득한다.

음성 및 잡음을 포함하는 오디오 신호는 스테레오 마이크(듀얼 마이크) 각각을 통해 입력된다. 입력된 음성 및 잡음을 포함하는 오디오 신호를 시간 영역에서 나타내면 다음과 같다.

----- (1)

여기에서,

는 오디오 신호,

는 목표음성신호,

는 잡음을 의미한다.

스테레오 마이크 각각으로 입력된 오디오 신호는 각 채널별로 DFT(Discrete Fourier Transform)(11a, 11b) 과정을 통해 시간 영역에서 주파수 영역으로 변환될 수 있다. 주파수 영역으로 변환된 오디오 신호를 나타내면 다음과 같다.

----- (2)

주파수 영역을 벡터 형식으로 나타내면 다음과 같다.

----- (3)

여기에서 n은 오디오 신호의 프레임 표본 인덱스이고, k는 주파수 인덱스를 의미한다. 본 개시의 스테레오 채널 잡음 제거 방법은 목표 음성과 잡음은 통계적으로 독립적이고, 목표 음성은 정면에 위치하고 채널간 차이가 없다고 가정한다. 즉,

이라고 가정한다.

스테레오 채널 잡음 제거 시스템은 주파수 변환된 각 채널의 오디오 신호에 대해 제귀적 평균 계산(time-recursive averaging)(12) 과정을 수행한다. 즉, 스테레오 채널 잡음 제거 시스템은 채널간 차감 신호의 평균 전력을 제귀적으로 계산한다. 채널간 차감 신호는 목표 음성이 차단된 신호(target-blocked signal)를 의미할 수 있다.

제귀적 평균 계산을 하면

--- (4)

그리고, 채널간 차감 신호의 평균 전력 계산을 위한 제귀인자

이고, G(n-1, k)는 DFT 주파수에서의 Wiener 필터 이득을 의미한다.

여기에서,

인데, 목표 음원이 정면에 있다고 가정하면

가 0이 되므로,

이다.

또한, 스테레오 채널 잡음 제거 시스템은 채널로 입력된 오디오 신호를 이용하여 PSD 행렬을 추정(13)하고, 행렬식을 계산(14)한다.

스테레오 채널 잡음 제거 시스템은 입력 스펙트럼 터에 관한 PSD 행렬을 제귀적으로 추정할 수 있다.

--- (5)

여기에서,

로서, PSD 행렬 추정을 위한 제귀인자를 의미한다.

스테레오 채널 잡음 제거 시스템은 입력 스펙트럼 벡터로부터 추정한 PSD 행렬의 행렬식(determinant)을 계산한다.

추정된 입력 PSD 행렬이 다음과 같을 때,

--- (6)

행렬식을 계산하면,

--- (7)

행렬식을 수학적으로 분석하면,

=

--- (8)

여기서, 목표 음성과 잡음은 통계적으로 독립하다고 가정한다.

는 목표 신호 PSD의 롱-텀 평균,

및

는 제1 및 제2 채널에서 노이즈 PSD,

는 스테레오 마이크의 노이즈 스펙트럼의 교차 PSD를 의미한다.

행렬식을 구하면,

=

--- (9)

여기서

이고,

는 목표 음성이 차단된 롱-텀 평균이고,

는 잡음 상관 관계 행렬의 행렬식이다. 식 (9)는 스테레오 마이크 잡음 입력과 잡음 상관 관계 행렬의 행렬식을 뺀 것이 목표 음성 신호 PSD와 목표 음성이 차단된 PSD의 롱-텀 평균을 곱한 것과 동일하다는 것을 보여준다.

계산된 행렬식을 계산된 제귀적 평균으로 나누면 새로운 파라미터가 구해진다.

--- (10)

새로운 파라미터를 이용하면 잡음 구간의 정밀한 검출을 통해 잡음 전력이 산출될 수 있다.

스테레오 채널 잡음 제거 시스템은 파라미터를 이용하여 음성 검출(15)을 한다.

--- (11)

--- (12)

여기서,

는 잡음 구간을 의미하고,

은 음성을 포함하는 구간을 의미한다. 식 (10)을 이용하여

가 항상 단일 마이크 입력 PSD보다 작거나 같음을 알 수 있다.

식 (11), (12)에 기초하여 n번째 분석 프레임의 k번째 bin에서의 신호 유무는 다음과 같이 결정될 수 있다.

: 나머지

여기서,

는 DFT 주파수 k에서의

또는

의 판정을 위한 임계치를 의미한다.

이고,

는 초기 잡음 구간의 프레임 수를 의미하고, w는 1보다 큰 상수이다. 예를 들어, 임계치

는 약 200ms 동안 잡음이 없는 음성 신호의 전력 평균값으로 설정될 수 있다.

음성 구간을 검출한 뒤, 검출된 음성 구간에 기초하여 잡음 전력을 추정(16)할 수 있다.

잡음만이 존재하는 잡음 구간인

에서 잡음 전력은

--- (13)

으로 나타낼 수 있다. 여기서

는 잡음 전력의 제귀적 추정을 위한 제귀 인자를 의미한다.

그리고, 잡음과 음성이 함께 존재하는 음성 구간인

에서 잡음 전력은

--- (14)

으로 나타낼 수 있다. 즉, 잡음 구간에서는 이전 잡음 구간의 잡음을 이용하여 제귀적으로 잡음 전력이 산출되고, 음성 구간에서는 잡음 전력이 이전 잡음 구간의 잡음 전력과 동일한 것으로 간주될 수 있다.

한편, 음성 신호의 전력

를 구하기 위해, 오디오 신호의 전력은 모든 구간에서

의 낮은 궤적을 추적하여

를 추정할 수 있다. 즉, 스테레오 채널 잡음 제거 시스템은 최소통계추정(17) 과정을 수행할 수 있다.

r＾_v(n,k) = min{r_v(n,k), r_v(n-1, k), ..., r_v(n-N_min,k)} --- (15)

은 최소 통계 추정을 위한 윈도우의 길이를 나타낸다. 최소통계추정 과정에서

구간에서는 임의의 값을 산출하고,

구간에서는 음성 파워 값을 산출할 수 있다.

스테레오 채널 잡음 제거 시스템은 산출된 잡음 전력, 산출된 오디오 신호의 전력 및 산출된 최소통계추정값에 기초하여 SNR 추정(18) 과정을 수행할 수 있다. SNR 추정(18) 과정은 음성 구간인 H₁구간에 대해 수행될 수 있고, SNR은 목표 음성 신호의 전력을 잡음 전력으로 나누어 산출될 수 있다.

SNR(n,k) = φ_x(n,k)/φ_v(n,k) = (r_y(n,k) - r＾_v(n,k))/φ_v(n,k) --- (16)

스테레오 채널 잡음 제거 시스템은 Wiener 필터를 이용하여 오디오 신호를 필터링할 수 있다. 필터링의 이득은

--- (17)

과 같이 나타낼 수 있다. Wiener 필터 이득의 인자인 SNR은 오디오 신호의 전력에 영향을 받는데 상술한 바와 같이, 본 개시의 오디오 신호의 전력은 새로운 파라미터로 표시될 수 있다. 따라서, 본 개시의 스테레오 채널 잡음 제거 시스템은 효과적이고 확실한 잡음 제거 기능을 수행할 수 있다.

스테레오 채널 잡음 제거 장치는 두 개의 채널을 통해 잡음 및 음성을 포함하는 오디오 신호를 입력받는다(S310). 두 개의 채널은 스테레오 마이크를 의미한다. 두 개의 채널을 통해 입력된 오디오 신호는 각각 DFT 변환 과정을 통해 시간 대역에서 주파수 대역의 신호로 변환될 수 있다.

스테레오 채널 잡음 제거 장치는 입력된 오디오 신호의 채널간 차감 신호의 평균 전력을 제귀적으로 산출한다(S320). 채널간 차감 신호는 음성 신호가 차단된 신호일 수 있다.

입력된 오디오 신호의 채널간 상관 관계 행렬을 산출하여 행렬식을 산출한다(S330). 산출된 채널간 차감 신호의 평균 전력 및 산출된 행렬식에 기초하여 입력된 오디오 신호의 전력을 산출한다(S340). 즉, 스테레오 채널 잡음 제거 장치는 산출된 행렬식을 산출된 채널간 차감 신호의 평균 전력으로 나눈 파라미터를 오디오 신호의 전력으로 산출하여 잡음 제거에 이용함으로써 기존 스테레오 채널 잡음 제거 장치에 비해 잡음 제거를 효율적으로 수행할 수 있다.

산출된 오디오 신호의 전력에 기초하여 음성 신호를 포함하는 구간 및 잡음 구간을 판단한다(S350). 음성 신호를 포함하는 구간은 음성 구간이라고 할 수 있다. 그리고, 잡음 구간은 음성 신호 없이 잡음만이 포함된 구간을 의미한다. 스테레오 채널 잡음 제거 장치는 입력된 오디오 신호를 기 설정된 시간의 구간으로 나눈 후, 각 구간의 오디오 신호의 전력이 임계값보다 작은 경우 잡음 구간으로 판단하고, 임계값보다 큰 경우 음성 신호를 포함하는 구간으로 판단할 수 있다. 그리고, 임계값은 잡음이 없는 기 설정된 시간 동안의 음성 신호의 평균값일 수 있다.

판단된 음성 신호를 포함하는 구간 및 잡음 구간의 잡음 전력을 산출한다(S360). 잡음 구간의 잡음 전력은 이전 구간의 잡음 전력을 이용하여 제귀적으로 산출될 수 있다. 그리고, 음성 신호를 포함하는 구간, 즉, 음성 구간의 잡음 전력은 이전 구간의 잡음 전력과 동일한 것으로 간주할 수 있다.

산출된 오디오 신호 전력의 최소통계추정값을 산출한다(S370). 산출된 오디오 신호의 전력, 산출된 최소통계추정값 및 산출된 잡음 전력에 기초하여 SNR을 산출한다(S380). 스테레오 채널 잡음 제거 장치는 음성 신호를 포함하는 구간에서 산출된 파라미터를 사용하여 산출된 오디오 신호 전력에서 최소통계추정값을 감산한 후 잡음 전력으로 나누어 SNR을 산출할 수 있다.

산출된 SNR을 기초로 오디오 신호를 필터링한다(S390). 필터링은 Wiener 필터를 사용할 수 있다. 그리고, Wiener 필터의 이득에 사용하는 변수는 산출된 파라미터를 이용하여 산출된 SNR일 수 있다.

지금까지 스테레오 채널 잡음 제거 방법의 흐름도를 설명하였다. 아래에서는 본 개시의 스테레오 채널 잡음 제거 방법으로 테스트를 수행한 결과를 설명한다.

도 4(a)를 참조하면, 목표 음원에 해당하는 스피커(1)가 도시되어 있다. 그리고, 도 4(b)를 참조하면, 스테레오 채널에 해당하는 듀얼 마이크(2)를 포함하는 네비게이션이 도시되어 있다.

스피커(1)에서 출력되는 음원은 운전자의 음성 신호에 대응될 수 있다. 듀얼 마이크(2)는 스피커(1)에서 출력되는 음원을 입력받는다. 그리고, 네비게이션은 입력된 음원으로부터 상술한 과정을 통해 잡음을 제거할 수 있다.

실험을 위한 데이터베이스 조건은 아래와 같다.

	조 건
Case 1	SIR (음악): 5 dB, SAR: 5dB
Case 2	SIR (음악): 5 dB, SAR: 15dB
Case 3	SIR (음악): 15 dB, SAR: 5dB
Case 4	SIR (음악): 15 dB, SAR: 15dB
Case 5	SIR (토크쇼): 5 dB, SAR: 5dB
Case 6	SIR (토크쇼): 5 dB, SAR: 15dB
Case 7	SIR (토크쇼): 15 dB, SAR: 5dB
Case 8	SIR (토크쇼): 15 dB, SAR: 15dB

목표 음성은 IEEE sentence 30개이고, 잡음은 주행잡음(80~100km/h), 음악, 토크쇼이다. 목표 음성, 3 종류의 잡음은 각각 수집되었다. 그리고, SIR은 Signal-to-interface noise ratio이고, SAR은 Signal-to-ambient noise ratio이다. interface noise는 음악, 토크쇼이고, ambient noise는 주행잡음이다. 채널 보정을 통해 채널간 목표 음성은 차이가 없다.

도 5(a)는 상술한 Case 1 ~ Case 4 DB에 대한 테스트 결과이고, 도 5(b)는 Case 5 ~ Case 8 DB에 대한 테스트 결과이다. True acceptance rate은 음성 신호를 음성 신호로 판단하는 확률을 의미하고, False acceptance rate은 잡음 신호를 음성 신호로 판단하는 확률을 의미한다.

그리고, 실선은 본 개시의 특징 파라미터(ry(n, k))에 임계치를 적용한 결과이고, 대쉬선(dashed)은 결정 지향성을 갖는 목표 대 비목표 방향성 신호비 기법 (Target-to-Nontarget Directional Signal Ratio With Decision-Directed: TNR-DD)에서 음성 검출을 위한 통계적 확률비에 임계치를 적용한 결과이다. 또한, 대쉬-점선(dotted dashed)은 지연-합(delay-and-sum) 빔포밍 결과의 에너지에 임계치를 적용한 결과이고, 점선(dotted)은 제1 채널의 에너지에 임계치를 적용한 결과이다.

도 5(a) 및 도 5(b)에 도시된 바와 같이, 본 개시에서 설명한 방식이 다른 방식을 적용한 경우보다 음성 검출에 있어서 더 좋은 성능을 나타낸다.

도 6(a)에는 각 DB에 대한 Overall SNR 결과가 도시되어 있고, 도 6(b)에는 각 DB에 대한 Segmental SNR 결과가 도시되어 있다. 그리고, PEF는 위상오차함수 기법(Phase-Error Function method)을 의미하고, CSS는 상호스펙트럼 차감법(Cross-Spectral Subtraction method)을 의미한다. Proposed는 본 개시에 의한 방법을 의미한다. SNR은 신호 대 잡음비를 의미하며, 도 6(a) 및 도 6(b)에 도시된 바와 같이, 본 개시에 따른 방법이 다른 방법에 비해 좋은 결과를 보여준다.

도 7(a)에는 각 DB에 대한 Log Spectral Distnace 결과가 도시되어 있고, 도 7(b)에는 각 DB에 대한 PESQ 결과가 도시되어 있다.

Log Spectral Distnace는 잡음이 포함되지 않은 음성 신호와 신호 처리에 따라 잡음을 제거한 음성 신호 간의 차이를 의미한다. 따라서, Log Spectral Distnace가 작다는 것은 잡음이 포함되지 않은 음성 신호와 신호 처리에 따라 잡음을 제거한 음성 신호 간의 차이가 작다는 것을 의미한다.

그리고, PESQ(Perceptual Evaluation of Speech Quality)는 정성적인 음성 품질 측정 방식이다. 따라서, 높은 값을 가지는 케이스가 음성 품질이 좋다는 것을 의미한다. 따라서, 도 7(a) 및 도 7(b)에 도시된 바와 같이, 본 개시에 따른 방법이 다른 방법에 비해 좋은 결과를 보여준다.

상술한 다양한 실시 예에 따른 스테레오 채널 잡음 제거 장치의 잡음 제거 방법은 프로그램으로 구현되어 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 제공될 수 있다.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims

두 개의 채널을 통해 잡음 및 음성을 포함하는 오디오 신호를 입력받는 단계;

상기 입력된 오디오 신호의 채널간 차감 신호의 평균 전력을 제귀적으로 산출하는 단계;

상기 입력된 오디오 신호의 채널간 상관 관계 행렬을 산출하여 행렬식을 산출하는 단계;

상기 산출된 채널간 차감 신호의 평균 전력 및 상기 산출된 행렬식에 기초하여 입력된 오디오 신호의 전력을 산출하는 단계;

상기 산출된 오디오 신호의 전력에 기초하여 음성 신호를 포함하는 구간 및 잡음 구간을 판단하는 단계;

상기 판단된 음성 신호를 포함하는 구간 및 잡음 구간의 잡음 전력을 산출하는 단계;

상기 산출된 오디오 신호 전력의 최소통계추정값을 산출하는 단계;

상기 산출된 오디오 신호의 전력, 상기 산출된 최소통계추정값 및 상기 산출된 잡음 전력에 기초하여 SNR을 산출하는 단계; 및

상기 산출된 SNR을 기초로 상기 오디오 신호를 필터링하는 단계;를 포함하는 스테레오 채널 잡음 제거 방법.
제1항에 있어서,

상기 채널간 차감 신호는 음성 신호가 차단된 신호인 스테레오 채널 잡음 제거 방법.
제1항에 있어서,

입력된 오디오 신호의 전력을 산출하는 단계는,

상기 산출된 행렬식을 상기 산출된 채널간 차감 신호의 평균 전력으로 나눈 파라미터를 사용하는 스테레오 채널 잡음 제거 방법.
제3항에 있어서,

상기 SNR을 산출하는 단계는,

상기 음성 신호를 포함하는 구간에서 상기 파라미터를 사용하여 산출된 오디오 신호 전력에서 상기 최소통계추정값을 감산한 후 상기 잡음 전력으로 나누어 상기 SNR을 산출하는 스테레오 채널 잡음 제거 방법.
제4항에 있어서,

상기 오디오 신호를 필터링하는 단계는,

Wiener 필터를 사용하는 스테레오 채널 잡음 제거 방법.
제1항에 있어서,

상기 음성 신호를 포함하는 구간 및 잡음 구간을 판단하는 단계는,

상기 입력된 오디오 신호를 기 설정된 시간의 구간으로 나누고, 각 구간의 오디오 신호의 전력이 임계값보다 작은 경우 상기 잡음 구간으로 판단하고, 각 구간의 오디오 신호의 전력이 임계값보다 큰 경우 상기 음성 신호를 포함하는 구간으로 판단하는 스테레오 채널 잡음 제거 방법.
제6항에 있어서,

상기 임계값은 잡음이 없는 기 설정된 시간 동안의 음성 신호의 평균값인 스테레오 채널 잡음 제거 방법.
제1항에 있어서,

상기 잡음 전력을 산출하는 단계는,

상기 잡음 구간의 경우 상기 잡음 구간의 오디오 신호의 평균 전력을 상기 잡음 전력으로 산출하고, 상기 음성 신호를 포함하는 구간의 경우 이전 구간의 잡음 전력을 상기 잡음 전력으로 산출하는 스테레오 채널 잡음 제거 방법.
잡음 및 음성을 포함하는 오디오 신호를 입력받는 스테레오 마이크;

입력된 오디오 신호 중 잡음을 제거하는 프로세서; 및

상기 잡음이 제거된 오디오 신호를 출력하는 스피커;를 포함하고,

상기 프로세서는,

상기 입력된 오디오 신호의 채널간 차감 신호의 평균 전력을 제귀적으로 산출하고, 상기 입력된 오디오 신호의 채널간 상관 관계 행렬을 산출하여 행렬식을 산출하며, 상기 산출된 채널간 차감 신호의 평균 전력 및 상기 산출된 행렬식에 기초하여 입력된 오디오 신호의 전력을 산출하고, 상기 산출된 오디오 신호의 전력에 기초하여 음성 신호를 포함하는 구간 및 잡음 구간을 판단하며, 상기 판단된 음성 신호를 포함하는 구간 및 잡음 구간의 잡음 전력을 산출하고, 상기 산출된 오디오 신호 전력의 최소통계추정값을 산출하며, 상기 산출된 오디오 신호의 전력과 상기 산출된 최소통계추정값 및 상기 산출된 잡음 전력에 기초하여 SNR을 산출하고, 상기 산출된 SNR을 기초로 상기 오디오 신호를 필터링하는 스테레오 채널 잡음 제거 장치.