KR20060015389A

KR20060015389A - 교차채널 간섭을 제거하기 위한 후처리장치 및 방법과이를 이용한 다채널 음원 분리장치 및 방법

Info

Publication number: KR20060015389A
Application number: KR1020040064117A
Authority: KR
Inventors: 최창규; 장길진
Original assignee: 삼성전자주식회사
Priority date: 2004-08-14
Filing date: 2004-08-14
Publication date: 2006-02-17
Anticipated expiration: 2024-08-14
Also published as: KR100647286B1; US20060034361A1; US8200484B2

Abstract

교차채널 간섭을 제거하기 위한 후처리장치 및 방법과 이를 이용한 다채널 음원 분리장치 및 방법이 개시된다. 다채널 음원 분리장치는 다채널 음원신호를 포함하는 혼합신호로부터 상기 다채널 음원신호를 분리하는 음원분리부; 및 상기 분리된 다채널 음원신호 중 임의의 채널출력에 대하여 다른 채널출력간의 간섭정도에 따라서 결정된 간섭 소거계수를 이용하여 상기 임의의 채널출력으로부터 교차채널 간섭을 제거하는 후처리부를 포함한다.

Description

교차채널 간섭을 제거하기 위한 후처리장치 및 방법과 이를 이용한 다채널 음원 분리장치 및 방법{Postprocessing apparatus and method for removing cross-channel interference and apparatus and method for separating multi-channel sources employing the same}

도 1은 본 발명에 따른 음원분리의 원리를 설명하기 위한 도면,

도 2는 본 발명의 일실시예에 따른 다채널 음원분리장치의 구성을 나타내는 블럭도,

도 3은 본 발명의 다른 실시예에 따른 다채널 음원분리방법의 동작을 설명하는 흐름도,

도 4는 도 3에 있어서 간섭 소거계수 갱신단계를 세부적으로 나타낸 흐름도, 및

도 5는 본 발명에 따른 음원분리방법의 성능을 평가한 파형도이다.

본 발명은 음원분리에 관한 것으로서, 특히 교차채널 간섭을 제거하기 위한 후처리장치 및 방법과 이를 이용한 다채널 음원 분리장치 및 방법에 관한 것이다.

통신, 생체신호 처리 및 음성처리와 같은 다양한 분야에 있어서, 복수개의 센서들, 즉 마이크로폰들로 녹음되어 중첩된 신호로부터 각 음원의 신호를 분리하는 기술이 매우 중요하다. 음원신호 분리방법 중 BSS(Blind Source Separation) 방법은 다수의 마이크로폰으로부터 입력된 혼합신호가 주어질 때, 혼합신호에 포함된 음원들의 개수 이외의 다른 사전 정보가 제공되지 않더라도 각 마이크로폰의 입력신호들간의 차이를 이용하여 원래의 음원신호를 분리하는 방법이다. 일반적인 BSS 방법은 실험실에서 구축되는 시뮬레이션된 이상적 환경에서는 뛰어난 성능을 보이나, 실제 환경에서는 음원분리 성능이 만족스럽지 못하다. 왜냐하면, BSS 방법은 콘볼루션 혼합필터가 선형 유한임펄스응답 필터로서, 필터의 길이에 제한을 두는 것을 가정하고 있다. 그러나, 실제 환경은 예를 들어, 마이크로폰 신호를 수집하는 과정에서 전기적인 비선형 회로잡음이 첨가되거나, 음원들 자체가 움직이는 등 이러한 가정에 위배되기 때문이다.

이러한 문제를 해결하기 위하여 기존의 BSS 방법으로 완전히 분리되지 않은 나머지 크로스토크 신호를 제거하기 위한 후처리방법으로서 스펙트럼 차감법(spectral subtraction)을 사용하고 있다. 스펙트럼 차감법을 이용하면, 실제의 필터와 추정된 필터간의 미세한 불일치를 효율적으로 흡수함으로써 잡음이나 간섭이 제거된 깨끗한 신호를 생성할 수 있으나, 제로 이하의 스펙트럼 성분으로 인하여 뮤지컬 잡음이 포함되는 단점이 있다.

최근의 BSS 방법과 관련된 문헌으로는 미국특허번호 6,167,417호가 있으며, BSS 결과의 후처리방법과 관련된 문헌으로는 Erik Visser와 Te-Won Lee에 의한 "Application of blind source separation in speech processing for combined interference removal and robust speaker detection using a two-microphone setup" (USCD & Softmax, in Proceedings of ICA2003, pages 325-329), 및 Ryo Mukai et. al.에 의한 "Robust real-time blind source separation for moving speakers in a room" (NTT Corporation, Kyoto, Japan, in Proceedings of ICASSP2003, Vol.V, pages 469-472) 등이 있다.

본 발명이 이루고자 하는 기술적 과제는 음원부재확률에 따라 갱신되는 소거계수를 이용하여 교차채널 간섭을 제거하기 위한 후처리장치 및 방법을 제공하는데 있다.

본 발명이 이루고자 하는 다른 기술적 과제는 음원부재확률에 따라 갱신되는 소거계수를 이용하여 교차채널 간섭을 제거하면서 보다 깨끗하게 음원을 분리하기 위한 다채널 음원분리장치 및 방법을 제공하는데 있다.

상기 기술적 과제를 달성하기 위하여 본 발명에 따른 교차채널 간섭을 제거하기 위한 후처리장치는 임의의 채널출력의 현재 프레임에 대하여 음원부재확률을 추정하는 음원부재확률 추정부; 상기 음원부재확률을 이용하여, 상기 임의의 채널출력의 부신호와 다른 채널출력의 주신호를 일치시키기 위한 소거계수를 결정하는 소거계수 결정부; 과차감계수와 상기 간섭소거계수를 다른 채널 출력에 승산하여 간섭신호를 생성하는 간섭신호 생성부; 및 상기 간섭신호를 이용하여 상기 임의의 채널출력으로부터 교차채널 간섭을 제거하는 간섭제거부를 포함한다.

상기 기술적 과제를 달성하기 위하여 본 발명에 따른 교차채널 간섭을 제거하기 위한 후처리방법은 (a) 임의의 채널출력의 현재 프레임에 대하여 음원부재확률을 추정하는 단계; (b) 상기 음원부재확률을 이용하여, 상기 임의의 채널출력의 부신호와 다른 채널출력의 주신호를 일치시키기 위한 소거계수를 결정하는 단계; (c) 과차감계수와 상기 간섭소거계수를 다른 채널 출력에 승산하여 간섭신호를 생성하는 단계; 및 (d) 상기 간섭신호를 이용하여 상기 임의의 채널출력으로부터 교차채널 간섭을 제거하는 단계를 포함한다.

상기 다른 기술적 과제를 달성하기 위하여 본 발명에 따른 다채널 음원분리장치는 다채널 음원신호를 포함하는 혼합신호로부터 상기 다채널 음원신호를 분리하는 음원분리부; 및 상기 분리된 다채널 음원신호 중 임의의 채널출력에 대하여 다른 채널출력간의 간섭정도에 따라서 결정된 간섭 소거계수를 이용하여 상기 임의의 채널출력으로부터 교차채널 간섭을 제거하는 후처리부를 포함한다.

상기 다른 기술적 과제를 달성하기 위하여 본 발명에 따른 다채널 음원분리방법은 (a) 다채널 음원신호를 포함하는 혼합신호로부터 상기 다채널 음원신호를 분리하는 단계; 및 (b) 상기 분리된 다채널 음원신호 중 임의의 채널출력에 대하여 다른 채널출력간의 간섭정도에 따라서 결정된 간섭 소거계수를 이용하여 상기 임의의 채널출력으로부터 교차채널 간섭을 제거하는 단계를 포함한다.

상기 방법들은 바람직하게는 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체로 구현할 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세하게 설명하기로 한다.

도 1은 본 발명에 따른 음원분리의 원리를 설명하기 위한 도면으로서, 혼합된 음원신호가 2개, 즉 채널이 2개인 경우를 예를 들기로 한다. 도 1에 있어서, 원래의 음원신호를 S₁, S₂라 하고 두개의 마이크로폰을 사용하는 경우, 111 및 113은 각 마이크로폰에 입력된 혼합신호(S₁+S₂)를 나타내고, 131 및 133은 혼합신호에 대하여 BSS와 같은 음원분리 알고리즘을 적용한 결과 분리된 제1 및 제2 채널신호, 즉 S₁+s₂, s₁+S₂를 각각 나타낸다. 여기서, 대문자 표기는 주신호(primary source signal)를, 소문자 표기는 부신호(secondary source signal)를 각각 나타낸다. 한편, 제1 채널신호(131)에서 제1 영역(151)은 부신호 s₂만 존재하며, 제2 영역(153)은 주신호 S₁와 부신호 s₂가 모두 존재한다. 이와 같이 사용되는 음원분리 알고리즘에 기인하는 고유의 분리 에러로 인하여 각 분리된 신호에는 주신호 뿐만 아니라 부신호를 포함하게 된다.

본 발명에서는 각 채널별로 분리된 신호에 포함된 부신호를 적절히 제거하기 위하여 제1 채널신호(131)를 예로 들면, 제1 채널신호(131)에서 주신호(S₁)가 존재하지 않는 구간(151)과 주신호(S₁)가 존재하는 구간(153)을 구분하기 위한 음원부재확률에 기반하여 간섭 소거계수를 결정한다. 결정된 소거계수를 제2 채널신호(133)에 곱하고, 곱한 결과와 제1 채널신호(131)간의 스펙트럼 차감(spectral subtraction) 혹은 위너 필터링(Wiener filtering)에 의하여 제1 채널신호(131)에서 주신호(S₁)만 남게 된다.

도 2는 본 발명의 일실시예에 따른 음원 분리장치의 구성을 나타내는 블럭도로서, 크게 음원분리부(210) 및 후처리부(230)로 이루어진다. 후처리부(230)는 음원부재확률 산출부(251), 소거계수 결정부(253), 간섭신호 생성부(255), 간섭제거부(257)를 포함하여 이루어진다. 여기서, 설명의 편의를 위하여 후처리부(230)에서는 하나의 채널 출력에 대해서만 도시되어 있으며, 실제 각 채널 출력에 대하여 동일한 구성을 사용하여 구현할 수 있다.

도 2를 참조하면, 음원분리부(210)는 복수개의 마이크로폰에서 각각 관측되는 다채널 음원신호를 포함하는 혼합신호로부터 다채널 음원신호를 분리한다. 음원분리부(210)의 동작을 ICA 기반 CBSS(Convolutive Blind Source Separation based on Independent Component Analysis) 알고리즘을 일례로 들어 좀 더 세부적으로 설명하면 다음과 같다.

먼저, 복수개의 마이크로폰, 즉 복수개의 센서를 이용한 실제 녹음 환경에서, 각 음원신호는 전방향으로 전달되어 직접경로(direct paths) 및 반향경로(reverberant paths)를 통해 각 마이크로폰에 도달한다. j 번째 마이크로폰에서 관측되는 신호는 다음 수학식 1과 같이 표현될 수 있다.

여기서,

는 i번째 음원신호, N 는 음원들의 갯수,

는 관측된 신호,

는 음원 i 로부터 센서(즉, 마이크로폰) j 까지의 전달함수를 각각 나타낸다. *는 콘볼루션 연산자를 나타내고, 잡음항

는 녹음기기의 특성에 기인한 비선형 왜곡 성분 즉, 화이트 노이즈를 나타낸다.

한편, 시간영역에서 콘볼루션된 혼합신호(convolutive mixture)는 주파수영역에서 순간 혼합신호(instantaneous mixture)에 대응하므로 시간영역과 주파수영역간 변환은 용이하게 수행될 수 있다. 설명의 편의를 위하여 스테레오 입력, 스테레오 출력을 가정하기로 한다. 단구간 퓨리에 변환을 사용하면, 상기 수학식 1은 다음 수학식 2와 같이 나타낼 수 있다.

여기서, ω는 각주파수, n은 프레임 인덱스, X(ω,n)은 프레임 n의 주파수빈 ω에서의 관측신호, S(ω,n)은 프레임 n의 주파수빈 ω에서의 음원신호, H(ω)는 혼합행렬을 각각 나타낸다. X(ω,n)은

이다. 여기서

은

로서,

에서 시작하여 쉬프트 길이

로 사이즈가 T인 프레임을 이산 퓨리에 변환한 결과를 나타낸다.

은 플로링 연산자(flooring operator)를 나타낸다. 이와 같은 표현은 S(ω,n) 및 N(ω,n)에도 동일하게 적용된다.

상기 수학식 2와 같이 정의되는 관측신호 X(ω,n)로부터 원래의 음원신호 S(ω,n)를 분리하는 과정은 프레임 n의 각 주파수빈 ω에서 다음 수학식 3과 같이 나타낼 수 있다.

여기서, Y(ω,n)은 잡음항 N(ω,n)에 의한 영향을 무시한 경우 원래의 음원신호 S(ω,n)의 추정치이다. W(ω)는 분리행렬을 나타내며, Y_i(ω,n)과 Y _j(ω,n)이 서로 독립적이 되도록 결정되어진다.

분리행렬 W(ω)를 산출하기 위해서는 정보 최대화(information maximization) 이론에 근거한 최적화 알고리즘을 사용할 수 있다. 이에 따르면 분리행렬 W(ω)의 스텝간 증가분(ΔW)은 다음 수학식 4에 의해 나타낼 수 있다.

여기서, H는 에르미트 전치 연산자(Hermitian transpose operator),

는 극좌표 기반 비선형함수로서

로 정의된다.

후처리부(230)는 음원분리부(210)로부터 분리된 다채널 음원신호 중 현재 채널 출력에서 음원존재확률, 즉 주신호존재확률에 기반하여 결정된 소거계수를 이용하여 분리된 다채널 음원신호로부터 교차채널 간섭을 제거한다.

후처리부(230)에 있어서, 음원부재확률 추정부(251)는 현재 채널 출력에서 프레임 단위로 주신호가설과 부신호가설을 세우고, 이들 가설을 이용하여 주신호부재확률을 구하여 간섭 소거계수 결정에 사용한다.

주신호 존재확률은 현재 채널 출력에서 주신호가 존재하는 정도를 나타내며, 이는 Bayesian rule로 계산할 수 있다, 이에 대하여 좀 더 세부적으로 설명하기로 한다.

음원분리부(210)로부터 제공되는 i 번째 채널 출력의 각 프레임에 대하여, 프레임의 모든 주파수 빈들(Y_i(n))을

로 나타낼 수 있으며 가설

및

은 각각 주신호의 부재 및 존재를 나타내며, 다음 수학식 5와 같이 정의할 수 있다.

여기서,

는 음원신호 S_i를 필터링한 결과이다.

Bayes' rule과 복소 가우시안 분포를 사용하여 Y_i(n)에 대하여 가설들의 후험(posteriori) 확률을 다음 수학식 6에서와 같이 계산한다.

여기서, i는 음원 인덱스, 부신호 모델인 경우 m은 0이고, 주신호 모델인 경우 m은 1이다. p(H_i,0)은 음원신호 i 부재에 대한 선험(a priori) 확률, p(H_i,1)은 음원신호 i 존재에 대한 선험 확률을 각각 나타내며, 이때 p(H_i,1)= p(H_i,0) - 1 이다. 수학식 6에서,

은 i 번째 채널 출력의 프레임 n에서 부신호들만 존재할 확률 즉, 주신호 부재확률을 나타내고,

은 i 번째 채널 출력의 프레임 n에서 주신호, 즉 교차채널 간섭이 존재할 확률을 나타낸다.

각 주파수 빈들의 독립성을 가정하면 다음 수학식 7을 정의할 수 있다.

그 결과, 상기 수학식 6으로부터 주신호 부재확률

은 다음 수학식 8과 같이 나타낼 수 있고, 주신호 존재확률

은 다음 수학식 9와 같이 나타낼 수 있다.

음원부재확률 추정부(251)에서는 상기 수학식 8에 의해 산출되는 주신호 부재확률

을 음원분리부(210)의 i 번째 채널 출력의 프레임 n에서의 음원부재확률로 추정하여 출력한다. 음원존재확률은 수학식 9에서와 같이 음원부재확률의 값에 의해 결정되어진다.

소거계수 결정부(253)는 현재 채널(i)의 부신호의 크기와 다른 채널(j)의 주신호 크기를 일치시키기 위한 최적값으로서 간섭 소거계수(b_ij)를 결정한다. 이때, 간섭 소거계수(b_ij)의 초기값은 임의의 값을 쓰거나, 0 혹은 1을 사용할 수 있다. 본 발명에 적용된 알고리즘은 적응적 알고리즘이기 때문에 부정확한 초기값이라 하더라도 반복실행과정을 통하여 최적값에 수렴하게 된다.

간섭신호 생성부(255)는 과차감계수 및 소거계수 결정부(253)로부터 제공되는 i 번째 채널출력에서 j번째 채널출력에 대한 간섭 소거계수(b_ij)를 j 번째 채널출력에 승산하고, 그 결과 간섭신호를 생성하여 출력한다.

간섭제거부(257)는 승산부(255)로부터 제공되는 간섭신호를 이용하여, 현재 채널 출력으로부터 교차채널 간섭을 제거하여 깨끗하게 분리된 음원신호를 출력한다. 이때 스펙트럼 차감(spectral subtraction)이나 위너 필터링(Wiener filtering)에 의해 간섭을 제거할 수 있다. 먼저 스펙트럼 차감을 살펴보면 다음 수학식 10 과 같이 나타낼 수 있다.

여기서, a는 상수로서 통상 1 혹은 2의 값을 가진다. α_i는 과차감계수, b_ij는 i 번째 채널출력에서 j번째 채널출력에 대한 간섭 소거계수를 나타낸다.

와

는 각각 간섭제거부(257)에서 최종적으로 출력되는 음원신호의 진폭 및 위상을 나타낸다.

한편, f(˙)은 바운딩 함수(bounding function)로서, 다음 수학식 11과 같이 나타낼 수 있다.

상기 수학식 11에 따르면, 다채널 분리신호의 스펙트럼값에서 하한값이 양의 상수인 ε로 결정되어진다. 본 발명에서와 같이 스펙트럼 차감시, 다른 채널의 신호에 적절한 간섭 소거계수와 과차감계수를 곱하고, 곱한 결과를 현재 채널의 신호에서 차감함으로써 정적 잡음 뿐만 아니라 시간축에서 변하는 동적 잡음까지 제거할 수 있다.

한편, 위너 필터링을 살펴보면 다음 수학식 12와 같이 나타낼 수 있다.

수학식 12에 따르면, 위너 필터링은 스펙트럼 차감에서 감산 연산을 주파수 영역에서 승산 연산으로 표현함으로써 스펙트럼 차감과 동일한 효과를 낼 수 있다. 수학식 12에서 사용된 함수나 파라미터들은 수학식 10에서 사용된 것과 동일하다.

도 3은 본 발명의 다른 실시예에 따른 다채널 음원분리방법의 동작을 설명하는 흐름도이다.

도 3을 참조하면, 300 단계에서는 주파수영역으로 변환된 다채널 음원신호 중 현재 채널출력의 프레임(n)을 1로 초기화한다. 310 단계에서는 현재 채널 출력의 첫번째 프레임(n=1)에 대하여 간섭소거계수를 임의의 값으로 결정한다.

320 단계에서는 310 단계에서 결정된 간섭 소거계수 및 과차감계수를 다른 채널 출력에 승산하여 현재 채널 출력의 첫번째 프레임에 대하여 간섭신호를 생성한다. 330 단계에서는 상기 320 단계에서 생성된 간섭신호를 현재 채널 출력으로부터 스펙트럼 차감하여 교차채널 간섭을 제거한다. 이때, 전술한 바와 같이 스펙트럼 차감 대신 위너 필터링을 이용할 수 있다.

340 단계에서는 현재 프레임이 마지막 프레임인가를 판단하고, 마지막 프레임인 경우 본 흐름도를 종료하고, 마지막 프레임이 아닌 경우 350 단계에서 프레임(n)을 1 증가시킨다.

360 단계에서는 330 단계에서 교차채널 간섭이 제거되어 출력된 현재 프레임에 대하여, 스펙트럼 진폭, 적응 프레임레이트, 음원존재확률과 음원부재확률을 이용하여 다음 프레임의 주신호 분산과 부신호 분산을 갱신한다.

이를 좀 더 구체적으로 설명하면, 상기 수학식 10 혹은 12에 의하여 교차채널 간섭이 성공적으로 제거된 경우, 도 1의 구간(151)에서는 스펙트럼 진폭

이 제로가 된다. 각 가설에 대하여 Y_i(ω,n)의 후험 확률을

의 복소 가우시안 분포를 이용하여 다음 수학식 13과 같이 정의할 수 있다.

여기서,

은 간섭제거부(257)로부터 출력되는 현재 프레임의 분산을 나타내며, m이 1이면 주신호의 분산, m이 0이면 부신호의 분산을 나타낸다.

분산

은 매 프레임에서 다음 수학식 14에서와 같은 확률평균화 과정을 통해 갱신되어진다.

여기서, 양의 상수

는 적응 프레임 레이트(adaptation frame rate)를 나타낸다. 일반적으로 BSS 알고리즘에 의하여 주신호가 강조될 것으로 예상되기 때문에 각 채널 출력에서 주신호의 진폭이 부신호의 진폭보다 크게 된다.

370 단계에서는 360 단계에서 갱신된 주신호 분산과 부신호 분산을 비교하고, 부신호 분산이 주신호 분산보다 큰 경우 380 단계에서 전체 주파수 빈들의 복소 가우시안 모델의 분산값을 맞교환(swarping)한다.

이를 좀 더 세부적으로 살펴보면, 각 채널 출력과 관련하여, 매 프레임마다 분산

을 갱신하는 과정에서 주신호 분산

보다 부신호 분산

이 큰 경우가 발생하면 즉, 다음 수학식 15가 성립되면 전체 주파수 빈들의 복소 가우시안 모델의 분산값을 맞교환한다.

390 단계에서는 하기의 수학식 18에서와 같이 음원부재확률을 이용하여 간섭소거계수를 갱신한 다음, 320 내지 380 단계를 반복수행한다.

도 4는 도 3에 있어서 간섭 소거계수(b_ij)를 갱신하는 단계(390)를 세부적으로 나타낸 흐름도이다.

410 단계에서는 프레임 n의 매 주파수 빈 ω에서 Yi와 Yj의 스펙트럼 진폭 차(

)를 다음 수학식 16에서와 같이 산출한다.

420 단계에서는 스펙트럼 진폭차(

)의 ν번 거듭제곱(ν-norm)을 주신호 부재확률

과 승산하고, 승산결과를 비용함수(J(ω,n))로 결정한다. 비용함수(J(ω,n))는 다음 수학식 17에서와 같이 나타낼 수 있다.

여기서, 실수 ν의 값은 주신호 존재확률

의 경우 1보다 작은 값, 예를 들면 0.8로 설정하고, 주신호 부재확률

의 경우 1보다 큰 값, 예를 들면 1.5로 설정한다. 이와 같이 각 확률모델에 대하여 ν의 값을 다르게 설정함으로써 도 1의 구간(151)에서와 같이 부신호만 존재하는 경우 빈번하게 관측되는 뮤지컬 잡음의 분포에 적응되어 교차채널 간섭 뿐 아니라 공통채널 잡음도 제거할 수 있다.

430 단계에서는 프레임 n에서 비용함수(J(ω,n))를 간섭 소거계수(b_ij)로 편미분함으로써 갱신량(

)을 구하고, 이는 다음 수학식 18로 나타낼 수 있다.

따라서, 다음 프레임에서의 간섭 소거계수(b_ij)는 상기 수학식 18에 의해 결정되는 갱신량에 의해 갱신된다. 상기 수학식 18은 비용함수의 값의 극소점의 방향으로 갱신하는 경사하강추적법(gradient-descent method)라 할 수 있다.

본 발명에 의한 음원분리방법의 성능을 평가하기 위한 데이터는 일반 사무실에서 녹음되었다. 두개의 확성기를 각각의 음원으로 사용하였고, 두개의 무지향성 마이크로폰이 16kHz의 샘플링 주파수로 동시에 혼합신호를 녹음하였다. 제1 확성기로부터는 남성과 여성 음성신호 중 하나가 나오고, 제2 확성기로는 5 가지의 서로 다른 음악 사운드가 동시에 나오도록 설계하였다. 음성신호는 완전한 문장에 대한 일련의 발성음으로 이루어지고, 음악 사운드는 팝송, 보컬 사운드가 있는 록, 경음악 등으로 이루어져 있다. 마이크로폰들 간의 거리는 50 cm, 확성기들 간의 거리는 50 cm, 마이크로폰과 확성기 간의 거리는 100 cm이다. 사용되는 프레임 길이는 512 샘플이다.

음원분리 결과는 신호대 잡음비(SIR)를 이용하여 비교할 수 있으며, 신호대 잡음비는 다음 수학식 22에서와 같이 하나의 채널에서 주신호 파워와 부신호 파워 비의 로그값으로 정의된다.

여기서, E₁(u_i) 및 E₂(u_i)는 각각 신호 u_i에 포함된 주신호 및 부신호의 평균 파워를 나타내고, E₁₊₂(u_i)는 교차채널 간섭이 존재하는 경우 평균파워를 나타낸다. 두개의 음원이 상관관계가 없을 경우에는 E₁≒ E₁₊₂- E₂로 근사화시킬 수 있다.

한편, 신호파워를 평가하기 위해서는 다음 수학식 23에서와 같이 간섭 확률을 이용한다.

여기서,

는 프레임 n의 평균 샘플 에너지를 나타낸다.

다음 표 1은 마이크로폰 입력, BSS 출력, 및 본 발명에 의해 간섭제거된 결과의 SIR을 나타낸다. 이때, SIR은 음성신호 f1 및 m1이 주신호인 첫번째 채널에 대해서만 평가되었다. f1 및 f2는 여성 화자, m1 및 m2는 남성 화자, g1 내지 g3는 서로 다른 음악 사운드를 나타낸다. 각 스칼라 값들의 단위는 dB이다.

혼합신호	입력	BSS 출력	본 발명	혼합신호	입력	BSS 출력	본 발명
f1-g1 f1-g2 f1-g3 f1-f2 f1-m2	6.37 3.84 1.89 3.08 7.23	7.13 8.75 5.74 6.45 10.92	11.04 16.57 11.11 10.90 16.82	m1-g1 m1-g2 m1-g3 m1-f2 m1-m2	7.91 4.19 0.87 2.54 6.74	10.37 8.81 4.84 9.42 11.72	16.15 16.36 10.97 15.74 17.46
평균 증가분	4.48 -	7.80 +3.32	13.29 +5.49	평균 증가분	4.45 -	9.03 +4.58	15.34 +6.30

상기 표 1을 살펴보면, 마이크로폰 입력신호에 주파수 영역 BSS를 적용함으로써 약 4 dB 정도 개선되었고, BSS 출력에 본 발명에 따른 알고리즘을 적용함으로써 추가적으로 약 6 dB 정도 개선됨을 알 수 있다.

도 5를 참조하면, 511 내지 517는 첫번째 채널에 대한 과정을, 531 내지 537는 두번째 채널에 대한 과정을 나타낸다. 511 및 531은 각 마이크로폰에 입력되는 혼합신호, 513 및 533은 각 혼합신호에 대하여 주파수 영역 BSS을 수행한 결과를 각각 나타낸다. 515 및 535는 주신호존재확률을 나타내고, 517 및 537은 주신호존재확률에 기초하여 적응적으로 교차채널 간섭을 제거한 신호를 각각 나타낸다. 최종결과(517,537)를 살펴보면 BSS 출력에 남아 있던 교차채널 간섭이 대폭 제거되었음을 알 수 있다.

본 발명은 가정된 선형모델과 실제의 전달함수 간의 불일치로 인하여, 복수의 마이크로폰으로 입력되는 복수의 음원신호를 포함하는 혼합신호로부터 분리된 각 음원신호에 주신호 뿐만 아니라 다수의 부신호가 포함되는 경우에 적용될 수 있다. 예를 들면 시간 및 주파수 영역 CBSS(Convolutive BSS), 빔포밍방법, 혹은 단일지향성 마이크로폰들을 이용한 방법에 의해 분리되는 각 음원신호에 대한 후처리방법으로 사용함으로써 분리된 음원신호에 고유하게 포함되는 공통채널잡음 및 교차채널간섭을 제거할 수 있다. 또한, 본 발명은 음성인식시스템의 인식성능 향상, 휴대폰과 같은 음성통신시스템 및 보청기의 음질 개선 등과 같은 여러 분야에 널리 적용될 수 있다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

상술한 바와 같이 본 발명에 따르면, 각 프레임에 대하여 음원부재확률을 이용함으로써 간섭 소거계수를 결정함으로써 정적(stationary) 잡음환경 뿐만 아니라 동적(non-stationary) 잡음환경에서도 분리된 음원신호에 포함된 공통채널 잡음 및 교차채널 잡음을 대폭 제거할 수 있다.

본 발명에 대해 상기 실시예를 참고하여 설명하였으나, 이는 예시적인 것에 불과하며, 본 발명에 속하는 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발 명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

임의의 채널출력의 현재 프레임에 대하여 음원부재확률을 추정하는 음원부재확률 추정부;

상기 음원부재확률을 이용하여, 상기 임의의 채널출력의 부신호와 다른 채널출력의 주신호를 일치시키기 위한 소거계수를 결정하는 소거계수 결정부;

과차감계수와 상기 간섭소거계수를 다른 채널 출력에 승산하여 간섭신호를 생성하는 간섭신호 생성부; 및

상기 간섭신호를 이용하여 상기 임의의 채널출력으로부터 교차채널 간섭을 제거하는 간섭제거부를 포함하는 것을 특징으로 하는 교차채널 간섭을 제거하기 위한 후처리장치.
제1 항에 있어서, 상기 음원부재확률 추정부는 상기 간섭제거부로부터 간섭이 제거된 프레임의 스펙트럼 진폭, 음원존재확률과 음원부재확률로부터 갱신된 다음 프레임의 주신호 분산과 부신호 분산의 비교결과에 따라서 현재 복소 가우시안 분포의 분산의 맞교환 여부를 결정하고, 이에 따라서 상기 복소 가우시안 분포를 갱신하는 것을 특징으로 하는 교차채널 간섭을 제거하기 위한 후처리장치.
제1 항에 있어서, 상기 소거계수 결정부는 상기 임의의 채널출력과 상기 다른 채널출력에 상기 간섭 소거계수가 곱해진 값간의 스펙트럼 진폭차의 v번 거듭제곱한 값과 상기 음원부재확률을 승산한 결과를 상기 간섭소거계수로 편미분하여 다음 프레임에 대한 상기 간섭소거계수의 갱신량을 결정하는 것을 특징으로 하는 교차채널 간섭을 제거하기 위한 후처리장치.
제3 항에 있어서, 상기 v의 값은 음성에 대해서는 1 이하, 잡음에 대해서는 1 이상으로 설정되는 것을 특징으로 하는 교차채널 간섭을 제거하기 위한 후처리장치.
제1 항에 있어서, 상기 간섭제거부는 상기 임의의 채널출력과 상기 간섭신호간의 스펙트럼 차감에 의해 상기 교차채널 간섭을 제거하는 것을 특징으로 하는 교차채널 간섭을 제거하기 위한 후처리장치.
제1 항에 있어서, 상기 간섭제거부는 상기 임의의 채널출력과 상기 간섭신호간의 위너 필터링에 의해 상기 교차채널 간섭을 제거하는 것을 특징으로 하는 교차채널 간섭을 제거하기 위한 후처리장치.
(a) 임의의 채널출력의 현재 프레임에 대하여 음원부재확률을 추정하는 단계;

(b) 상기 음원부재확률을 이용하여, 상기 임의의 채널출력의 부신호와 다른 채널출력의 주신호를 일치시키기 위한 소거계수를 결정하는 단계;

(c) 과차감계수와 상기 간섭소거계수를 다른 채널 출력에 승산하여 간섭신호를 생성하는 단계; 및

(d) 상기 간섭신호를 이용하여 상기 임의의 채널출력으로부터 교차채널 간섭을 제거하는 단계를 포함하는 것을 특징으로 하는 교차채널 간섭을 제거하기 위한 후처리방법.
제7 항에 있어서, 상기 (a) 단계는

(a1) 상기 (d) 단계를 통해 간섭이 제거된 프레임의 스펙트럼 진폭, 음원존재확률과 음원부재확률로부터 다음 프레임의 주신호 분산과 부신호 분산을 갱신하는 단계;

(a2) 상기 갱신된 주신호 분산과 부신호 분산을 비교하는 단계; 및

(a3) 상기 (a2) 단계에서의 비교결과에 따라서 현재 복소 가우시안 분포의 분산의 맞교환 여부를 결정하고, 이에 따라서 상기 복소 가우시안 분포를 갱신하는 단계를 포함하는 것을 특징으로 하는 교차채널 간섭을 제거하기 위한 후처리방법.
제7 항에 있어서, 상기 (b) 단계는

(b1) 상기 임의의 채널출력과 상기 다른 채널출력에 상기 간섭 소거계수가 곱해진 값간의 스펙트럼 진폭차의 v 번 거듭제곱한 값과 상기 음원부재확률을 승산 하는 단계; 및

(b2) 상기 (b1) 단계에서의 승산 결과를 상기 간섭소거계수로 편미분하여 다음 프레임에 대한 상기 간섭소거계수의 갱신량을 결정하는 단계를 포함하는 것을 특징으로 하는 교차채널 간섭을 제거하기 위한 후처리방법.
제9 항에 있어서, 상기 v의 값은 음성에 대해서는 1 이하, 잡음에 대해서는 1 이상으로 설정되는 것을 특징으로 하는 교차채널 간섭을 제거하기 위한 후처리방법.
제7 항에 있어서, 상기 (d) 단계에서는 다음 수학식

(여기서, a는 상수, α_i는 과차감계수, b_ij는 i 번째 채널출력(Y_i)에서 j번째 채널출력(Y_j)에 대한 간섭 소거계수, ω는 주파수빈, n은 프레임 인덱스,
와
는 간섭이 제거된 프레임의 진폭 및 위상을 나타낸다.)

에 의하여, 상기 임의의 채널출력으로부터 상기 교차채널 간섭을 제거하는 것을 특징으로 하는 교차채널 간섭을 제거하기 위한 후처리방법.
제7 항에 있어서, 상기 (d) 단계에서는 다음 수학식

(여기서, a는 상수, α_i는 과차감계수, b_ij는 i 번째 채널출력(Y_i)에서 j번째 채널출력(Y_j)에 대한 간섭 소거계수, ω는 주파수빈, n은 프레임 인덱스,
와
는 간섭이 제거된 프레임의 진폭 및 위상을 나타낸다.)

에 의하여, 상기 임의의 채널출력으로부터 상기 교차채널 간섭을 제거하는 것을 특징으로 하는 교차채널 간섭을 제거하기 위한 후처리방법.
다채널 음원신호를 포함하는 혼합신호로부터 상기 다채널 음원신호를 분리하는 음원분리부; 및

상기 분리된 다채널 음원신호 중 임의의 채널출력에 대하여 다른 채널출력간의 간섭정도에 따라서 결정된 간섭 소거계수를 이용하여 상기 임의의 채널출력으로부터 교차채널 간섭을 제거하는 후처리부를 포함하는 것을 특징으로 하는 다채널 음원분리장치.
제13 항에 있어서, 상기 후처리부는

상기 임의의 채널출력의 현재 프레임에 대하여 음원부재확률을 추정하는 음원부재확률 추정부;

상기 음원부재확률을 이용하여, 상기 임의의 채널출력의 부신호와 다른 채널출력의 주신호를 일치시키기 위한 소거계수를 결정하는 소거계수 결정부;

과차감계수와 상기 간섭소거계수를 다른 채널 출력에 승산하여 간섭신호를 생성하는 간섭신호 생성부; 및

상기 간섭신호를 이용하여 상기 임의의 채널출력으로부터 교차채널 간섭을 제거하는 간섭제거부를 포함하는 것을 특징으로 하는 다채널 음원분리장치.
제13 항에 있어서, 상기 음원부재확률 추정부는 상기 간섭제거부로부터 간섭이 제거된 프레임의 스펙트럼 진폭, 음원존재확률과 음원부재확률로부터 갱신된 다음 프레임의 주신호 분산과 부신호 분산의 비교결과에 따라서 현재 복소 가우시안 분포의 분산의 맞교환 여부를 결정하고, 이에 따라서 상기 복소 가우시안 분포를 갱신하는 것을 특징으로 하는 다채널 음원분리장치.
제13 항에 있어서, 상기 소거계수 결정부는 상기 임의의 채널출력과 상기 다른 채널출력에 상기 간섭 소거계수가 곱해진 값간의 스펙트럼 진폭차의 v번 거듭제곱한 값과 상기 음원부재확률을 승산한 결과를 상기 간섭소거계수로 편미분하여 다음 프레임에 대한 상기 간섭소거계수의 갱신량을 결정하는 것을 특징으로 하는 다채널 음원분리장치.
제14 항에 있어서, 상기 v의 값은 음성에 대해서는 1 이하, 잡음에 대해서는 1 이상으로 설정되는 것을 특징으로 하는 다채널 음원분리장치.
제13 항에 있어서, 상기 간섭제거부는 상기 임의의 채널출력과 상기 간섭신호간의 스펙트럼 차감과 위너 필터링 중 어느 하나에 의해 상기 교차채널 간섭을 제거하는 것을 특징으로 하는 교차채널 간섭을 제거하기 위한 후처리장치.
(a) 다채널 음원신호를 포함하는 혼합신호로부터 상기 다채널 음원신호를 분리하는 단계; 및

(b) 상기 분리된 다채널 음원신호 중 임의의 채널출력에 대하여 다른 채널출력간의 간섭정도에 따라서 결정된 간섭 소거계수를 이용하여 상기 임의의 채널출력으로부터 교차채널 간섭을 제거하는 단계를 포함하는 것을 특징으로 하는 다채널 음원분리방법.
제19 항에 있어서, 상기 (b) 단계는

(b1) 상기 임의의 채널출력의 현재 프레임에 대하여 음원부재확률을 추정하는 단계;

(b2) 상기 음원부재확률을 이용하여, 상기 임의의 채널출력의 부신호와 다른 채널출력의 주신호를 일치시키기 위한 소거계수를 결정하는 단계;

(b3) 과차감계수와 상기 간섭소거계수를 다른 채널 출력에 승산하여 간섭신호를 생성하는 단계; 및

(b4) 상기 간섭신호를 이용하여 상기 임의의 채널출력으로부터 교차채널 간섭을 제거하는 간섭제거부를 포함하는 것을 특징으로 하는 다채널 음원분리방법.
제20 항에 있어서, 상기 (b1) 단계는

(b11) 상기 (b4) 단계를 통해 간섭이 제거된 프레임의 스펙트럼 진폭, 음원존재확률과 음원부재확률로부터 다음 프레임의 주신호 분산과 부신호 분산을 갱신하는 단계;

(b12) 상기 갱신된 주신호 분산과 부신호 분산을 비교하는 단계; 및

(b13) 상기 (b12) 단계에서의 비교결과에 따라서 현재 복소 가우시안 분포의 분산의 맞교환 여부를 결정하고, 이에 따라서 상기 복소 가우시안 분포를 갱신하는 단계를 포함하는 것을 특징으로 하는 다채널 음원분리방법.
제20 항에 있어서, 상기 (b2) 단계는

(b21) 상기 임의의 채널출력과 상기 다른 채널출력에 상기 간섭 소거계수가 곱해진 값간의 스펙트럼 진폭차의 v번 거듭제곱한 값과 상기 음원부재확률을 승산하는 단계; 및

(b22) 상기 (b1) 단계에서의 승산 결과를 상기 간섭소거계수로 편미분하여 다음 프레임에 대한 상기 간섭소거계수의 갱신량을 결정하는 단계를 포함하는 것을 특징으로 하는 다채널 음원분리방법.
제22 항에 있어서, 상기 v의 값은 음성에 대해서는 1 이하, 잡음에 대해서는 1 이상으로 설정되는 것을 특징으로 하는 다채널 음원분리방법.
제20 항에 있어서, 상기 (b4) 단계에서는 다음 수학식

(여기서, a는 상수, α_i는 과차감계수, b_ij는 i 번째 채널출력(Y_i)에서 j번째 채널출력(Y_j)에 대한 간섭 소거계수, ω는 주파수빈, n은 프레임 인덱스,
와
는 간섭이 제거된 프레임의 진폭 및 위상을 나타낸다.)

에 의하여, 상기 임의의 채널출력으로부터 상기 교차채널 간섭을 제거하는 것을 특징으로 하는 다채널 음원분리방법.
제20 항에 있어서, 상기 (b4) 단계에서는 다음 수학식

(여기서, a는 상수, α_i는 과차감계수, b_ij는 i 번째 채널출력(Y_i)에서 j번째 채널출력(Y_j)에 대한 간섭 소거계수, ω는 주파수빈, n은 프레임 인덱스,
와
는 간섭이 제거된 프레임의 진폭 및 위상을 나타낸다.)

에 의하여, 상기 임의의 채널출력으로부터 상기 교차채널 간섭을 제거하는 것을 특징으로 하는 다채널 음원분리방법.
(a) 임의의 채널출력의 현재 프레임에 대하여 음원부재확률을 추정하는 단계;

(b) 상기 음원부재확률을 이용하여, 상기 임의의 채널출력의 부신호와 다른 채널출력의 주신호를 일치시키기 위한 소거계수를 결정하는 단계;

(c) 과차감계수와 상기 간섭소거계수를 다른 채널 출력에 승산하여 간섭신호를 생성하는 단계; 및

(d) 상기 간섭신호를 이용하여 상기 임의의 채널출력으로부터 교차채널 간섭을 제거하는 간섭제거부를 포함하는 교차채널 간섭을 제거하기 위한 후처리방법을 실행할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
(a) 다채널 음원신호를 포함하는 혼합신호로부터 상기 다채널 음원신호를 분리하는 단계; 및

(b) 상기 분리된 다채널 음원신호 중 임의의 채널출력에 대하여 다른 채널출력간의 간섭정도에 따라서 결정된 간섭 소거계수를 이용하여 상기 임의의 채널출력으로부터 교차채널 간섭을 제거하는 단계를 포함하는 다채널 음원분리방법을 실행할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.