KR101197407B1

KR101197407B1 - 음성 신호 분리 장치 및 방법

Info

Publication number: KR101197407B1
Application number: KR1020060007616A
Authority: KR
Inventors: 아쯔오 히로에; 게이이찌 야마다; 헬멋 럭케
Original assignee: 소니 주식회사
Priority date: 2005-01-26
Filing date: 2006-01-25
Publication date: 2012-11-05
Also published as: CN1855227A; JP2006238409A; US8139788B2; CN1855227B; KR20060086303A; US20060206315A1; EP1686831A2; JP4449871B2; EP1686831A3

Abstract

본 발명은, 복수의 혼합된 신호를 독립 성분 분석을 이용하여 분리할 때의 치환(permutation)의 문제를 해소할 수 있는 음성 신호 분리 장치를 제공한다. 음성 신호를 포함하는 복수의 신호가 혼합된 시간 영역의 관측 신호를 독립 성분 분석을 이용하여 개별적인 신호로 분리하여, 분리 신호를 생성하는 음성 신호 분리 장치가 제공되며, 이 장치는 시간 영역의 관측 신호를 시간 주파수 영역의 관측 신호로 변환하는 제1 변환부와, 시간 주파수 영역의 관측 신호로부터 시간 주파수 영역의 분리 신호를 생성하는 분리부와, 시간 주파수 영역의 분리 신호를 시간 영역의 분리 신호로 변환하는 제2 변환부를 포함하고, 분리부는, 시간 주파수 영역의 관측 신호와 초기 값이 대입된 분리 행렬로부터 시간 주파수 영역의 분리 신호를 생성하고, 시간 주파수 영역의 분리 신호와 다차원 확률 밀도 함수를 이용한 스코어 함수와 분리 행렬을 이용하여 분리 행렬의 수정 값을 계산하고, 수정 값을 이용하여 분리 행렬이 대략 수렴될 때까지 분리 행렬을 수정하고, 대략 수렴된 분리 행렬을 이용하여 시간 주파수 영역의 분리 신호를 생성한다.

치환, 음성 신호 분리, 혼합 신호, 시간 영역, 시간 주파수 영역, 독립 성분 분석, 분리 행렬

Description

음성 신호 분리 장치 및 방법{APPARATUS AND METHOD FOR SEPARATING AUDIO SIGNALS}

도 1은 N개의 음원으로부터 출력된 원신호를 n개의 마이크로폰으로 관측하는 상황을 나타내는 도면.

도 2는 시간 주파수 영역에서의 종래의 독립 성분 분석의 개략을 나타내는 도면.

도 3의 (a) 내지 (d)는 관측 신호 및 그 스펙트로그램과 분리 신호 및 그 스펙트로그램을 나타내는 도면.

도 4는 주파수 bin에 주목한 경우의 관측 신호와 분리 신호를 나타내는 도면.

도 5는 종래의 엔트로피와 동시 엔트로피를 설명하는 도면.

도 6은 종래의 분리 처리의 상세 내용을 설명하는 플로우차트.

도 7은 1차원 확률 밀도 함수를 이용하여 신호를 분리한 결과를 나타내는 도면.

도 8은 주파수 커플링 및 1차원 확률 밀도 함수를 이용하여 신호를 분리한 결과를 나타내는 도면.

도 9는 다차원 확률 밀도 함수를 이용함으로써 치환의 문제가 해소되는 이론의 논리적 근거를 설명하는 도면.

도 10의 (a) 및 (b)는 치환의 발생의 유무에 의한 KL 정보량의 차이를 종래와 본 실시예에서 비교하는 도면.

도 11은 본 발명의 실시예에서의 엔트로피와 동시 엔트로피를 설명하는 도면.

도 12는 분리 행렬 W(ω)의 수정 값 ΔW(ω)의 행 벡터 ΔW_k(ω)를, 분리 행렬의 행 벡터 W_k(ω)에 직교하는 성분 ΔW_k(ω)[C]와 행 벡터 W_k(ω)에 평행한 성분 ΔW_k(ω)[P]로 분해한 모습을 나타내는 도면.

도 13은 본 발명에 따른 음성 신호 분리 장치의 실시예의 개략 구성을 나타내는 도면.

도 14는 음성 신호 분리 장치의 실시예의 처리 동작의 개략을 설명하는 플로우차트.

도 15는 배치(batch) 처리를 행하는 경우에서의 음성 신호 분리 장치의 실시예의 처리 동작의 상세 내용을 설명하는 플로우차트.

도 16은 온라인 처리를 행하는 경우에서의 음성 신호 분리 장치의 실시예의 처리 동작의 상세 내용을 설명하는 플로우차트.

도 17은 리스케일링 처리 시의 음성 신호 분리 장치의 실시예의 처리 동작의 상세 내용을 설명하는 플로우차트.

도 18은 구형 분포에 기초하는 다차원 확률 밀도 함수를 이용하여 신호를 분리한 결과를 나타내는 도면.

도 19의 (a) 및 (b)는 L_N 노옴(norm)에 기초하는 스코어 함수를 이용하여 신호를 분리한 결과를 나타내는 도면.

도 20은 Copula 모델에 기초하는 다차원 확률 밀도 함수를 이용하여 신호를 분리한 결과를 나타내는 도면.

도 21의 (a) 내지 (e)는 얻어진 분리 신호에 대하여 인공적으로 치환을 발생시킨 경우의 스펙트로그램의 변화를 나타내는 도면.

도 22는 얻어진 분리 신호에 대하여 인공적으로 치환을 발생시킨 경우의 KL 정보량의 변화를 나타내는 도면.

<도면의 주요 부분에 대한 부호의 설명>

1 : 음성 신호 분리 장치

10₁～10_n: 마이크로폰

11 : A/D 변환부

12 : 단시간 푸리에 변환부

13 : 신호 분리부

14 : 신호 모델 유지부

15 : 리스케일링부

16 : 역 푸리에 변환부

17 : D/A 변환부

18₁～18_n :스피커

[비특허 문헌1] 노보루 무라타 저, 「입문자를 위한 독립 성분 분석」, 도쿄 전기 대학 출판국

[특허 문헌 1] 일본 특개 2004-14517호 공보

[비특허 문헌 2] Mike Davies, "Audio Source Separation", Oxford University Press, 2002 (http://www. elec. qmul. ac. uk/staffinfo/miked/publications/IMA.ps)

[비특허 문헌 3] Nikolaos Mitianoudis and Mike Davies, "A fixed point solution for convolved audio source separation", IEEE WASPAA01, 2001(http://egnatia.ee.auth.gr/~mitia/pdf/waspaa01.pdf)

[관련 출원에 대한 상호 참조]
본 출원은 2005년 1월 26일자로 출원한 일본 특허 출원 제2005-018822호 및 2005년 9월 15일자로 출원한 일본 특허 출원 제2005-269128호에 관련된 요지를 포함하며, 그 전체 내용은 본 명세서에 참고로 원용된다.
본 발명은, 복수의 성분 신호가 혼합된 음성 신호의 성분 신호들을 독립 성분 분석(Independent Component Analysis; ICA)을 이용하여 분리하는 장치 및 방법에 관한 것이다.

복수의 원신호가 미지의 계수에 의해서 선형으로 혼합되어 있을 때에, 통계적 독립성만을 이용하여 그 원신호를 분리?복원한다고 하는 독립 성분 분석(ICA)의 기술이 신호 처리의 분야에서 주목받고 있다. 이 독립 성분 분석 기술을 응용함으로써, 화자와 마이크로폰이 서로 떨어져 있으며, 마이크로폰으로 화자의 음성 이외의 음을 취하게 되는 상황에서도, 음성 신호를 분리?복원하는 것이 가능하게 된다.

여기서, 시간 주파수 영역의 독립 성분 분석을 이용하여, 복수의 성분 신호가 혼합된 음성 신호의 성분 신호들을 분리 및 복원하는 방법에 대해 고려한다.

도 1에 도시한 바와 같이 N개의 음원으로부터 각각 상이한 N개의 음이 발생하고 있고, 이들을 n개의 마이크로폰으로 관측한다고 하는 상황을 상정한다. 음원이 발한 음(원신호)이 마이크로폰에 닿을 때까지는 시간 지연이나 반사 등이 있기 때문에, k 번째(1≤ k≤ n)의 마이크로폰에서 관측되는 신호(관측 신호) x_k(t)는, 하기 식 (1)과 같이, 원신호와 전달 함수와의 컨볼루션 연산을 총합한 식으로 나타낸다. 그 후, 모든 마이크로폰에 대한 관측 신호를 1개의 식으로 나타내면, 하기 식 (2)와 같이 된다. 이 식 (1), (2)에서, x(t) 및 s(t)는 각각 x_k(t), s_k(t)를 요소로 하는 열 벡터를 나타내며, A는 a_ij(t)를 요소로 하는 n행 N열의 행렬을 나타낸다. 또한, 이하에서는 N=n으로 한다.

<공식 1>

시간 주파수 영역의 독립 성분 분석에서는, A 및 s(t)을 직접 추정하는 것은 아니고, x(t)를 시간 주파수 영역의 신호로 변환하여, A 및 s(t)에 대응하는 신호를 시간 주파수 영역에서 추정한다. 이하, 그 방법에 대하여 설명한다.

신호 벡터 x(t), s(t)를 길이 L의 창에서 단시간 푸리에 변환한 것을 각각 X(ω, t), S(ω, t)로 한다. 행렬 A(t)을 마찬가지로 단시간 푸리에 변환한 것을 A(ω)로 한다. 그러면, 시간 영역의 상기 식 (2)는 시간 주파수 영역의 하기 식 (3)으로 나타낼 수 있다. 단, ω는 주파수 bin의 번호를 나타내며(1≤ω≤ M), t는 프레임 번호를 나타낸다(1≤ t≤ T). 시간 주파수 영역의 독립 성분 분석에서는, S(ω, t), A(ω)를 시간 주파수 영역에서 추정하게 된다.

<공식 2>

또한, 주파수 bin의 개수는, 본래는 창의 길이 L과 동일하며, 각 주파수 bin은, -R/2부터 R/2까지(R은 샘플링 주파수)를 L 등분한 각각의 주파수 성분을 나타낸다. 마이너스의 주파수 성분은 플러스의 주파수 성분의 공액 복소수이며, X(-ω)=conj(X(ω))(conj(?)는 공액 복소수)로서 구할 수 있기 때문에, 본 명세서에서는 0부터 R/2까지의 논 네가티브(non-negative)의 주파수 성분(주파수 bin의 개수는 L/2+ 1)만을 생각하고, 그 주파수 성분에 1부터 M(M= L/2+1)까지의 번호를 할당하고 있다.

시간 주파수 영역에서 S(ω,t), A(ω)를 추정할 때, 우선, 하기 식 (4)와 같은 식을 고려한다. 이 식 (4)에서, Y(ω, t)는 Y_k(t)을 길이 L의 창에서 단시간 푸리에 변환한 Y_k(ω, t)를 요소로 하는 열 벡터를 나타내며, W(ω)는 w_ij(ω)를 요소로 하는 n 행 n 열의 행렬(분리 행렬)을 나타낸다.

<공식 3>

다음으로, ω를 고정하고 t를 변화시켰을 때에 Y₁(ω,t)～Y_n(ω, t)가 통계적으로 독립으로 되도록(실제로는, 독립성이 최대로 되도록) 하는 W(ω)를 구한다. 후술하는 바와 같이, 시간 주파수 영역의 독립 성분 분석에서는 치환(permutation) 및 스케일링의 불안정으로 인해, W(ω)= A(ω)^-1이외에도 해가 존재할 수 있다. 통계적으로 독립적으로 되는 Y₁(ω,t)～Y_n(ω, t)가 모든 ω값에 대하여 얻어지면, 이들을 역 푸리에 변환함으로써, 분리 신호(성분 신호) y(t)를 얻을 수 있다.

시간 주파수 영역에서의 종래의 독립 성분 분석의 개략을 도 2를 이용하여 설명한다. n개의 음원이 발하는 상호 독립적인 원신호를 s₁～s_n으로 하고, 이들을 요소로 하는 벡터를 s로 한다. 각 마이크로폰으로 관측되는 관측 신호 x는, 상기 식 (2)의 컨볼루션?혼합 연산을 실시한 것이다. 마이크로폰의 수 n이 2일 때, 즉 채널 수가 2일 때의 관측 신호 x의 예를 도 3의 (a)에 도시한다. 다음으로, 관측 신호 x에 대하여 단시간 푸리에 변환을 실시하여 시간 주파수 영역의 신호 X를 얻는다. X의 요소를 X_k(ω, t)로 하면, X_k(ω, t)는 복소수값을 취한다. X_k(ω, t)의 절대값인 ｜X_k(ω, t)｜를 색의 농담으로 표현한 도면을 스펙트로그램(spectrogram)이라고 한다. 스펙트로그램의 예를 도 3의 (b)에 도시한다. 이 도면에서, 횡축은 t(프레임 번호)를 나타내며, 종축은 ω(주파수 bin 번호)를 나타낸다. 이하에서는 시간 주파수 영역의 신호 그 자체(절대값을 붙이기 전의 신호)도 "스펙트로그램"이라고 표현한다. 계속해서, 신호 X의 각 주파수 bin에 W(ω)를 승산함으로써, 도 3의 (c)에 도시한 바와 같은 분리 신호 Y를 얻는다. 그리고, 분리 신호 Y를 역 푸리에 변환함으로써, 도 3의 (d)에 도시한 바와 같은 시간 영역의 분리 신호 y를 얻는다.

독립성을 어떠한 척도로 표현하는지, 또한, 어떠한 알고리즘으로 독립성을 최대화하는지에 대해서는, 여러 가지의 변동이 존재한다. 본 명세서에서는, 일례로서, 독립성을 Kullback-Leibler 정보량(이하, "KL 정보량"이라고 함)으로 표현하고, 독립성을 최대화하는 알고리즘으로서 자연 구배법(natural gradient method)을 이용하는 경우에 대해 설명한다.

도 4와 같이, 임의의 주파수 bin을 취한다. Y_k(ω,t)의 프레임 번호 t를 1~T의 사이에서 변화시킨 것을 Y_k(ω)로 했을 때, 분리 신호 Y₁(ω)~Y_n(ω)를 나타내는 척도인 KL 정보량 I를 하기 식 (5)와 같이 정의한다. 즉, 각 채널에 대한 주파수 bin(=ω) 마다의 엔트로피 H(Y_k(ω))의 총합으로부터 전체 채널에 대한 주파수 bin(=ω) 마다의 동시 엔트로피 H(Y(ω))를 감산한 값을 KL 정보량 I로 정의한다. n=2일 때의 H(Y_k(ω))와 H(Y(ω))의 관계를 도 5에 나타낸다. 식 (5)에서, H(Y_k(ω))는 엔트로피의 정의에 따라 하기 식 (6)의 제1항과 같이 재기입되며, H(Y(ω))는 상기 식 (4)에 의해 식 (6)의 제2항 및 제3항과 같이 전개된다. 이 식 (6)에서, P_Yk(ω)(?)는 Y_k(ω,t)의 확률 밀도 함수를 나타내며, H(X(ω))는 관측 신호 X(ω)의 동시 엔트로피를 나타낸다.

<공식 4>

KL 정보량 I(Y(ω))는, Y₁(ω)~Y_n(ω)가 독립적인 경우에 최소(이상적으로는 0)로 된다. KL 정보량 I(Y(ω)를 최소로 하는 분리 행렬 W(ω)를 구하는 알고리즘으로서 자연 구배법을 이용한다. 자연 구배법은, I(Y(ω))를 최소화시키는 방향을 하기 식 (7)에서 구하고, W(ω)가 수렴할 때까지 하기 식 (9)와 같이 W(ω)를 그 방향으로 점진적으로 변화시키는 것이다. 이 식 (7)에서, W(ω)^T는 W(ω)의 전치 행렬을 나타낸다. 식 (9)에서, η는 학습 계수(플러스의 미소 값)를 나타낸다.

<공식 5>

상기 식 (7)은 상기 식 (8)과 같이 변형된다. 이 식 (8)에서, Et[?]은 시간 방향의 평균을 나타내며, φ(?)는 확률 밀도 함수의 대수를 미분한 것으로, 스코어 함수(또는, "활성화 함수")라 불리운다. 스코어 함수에는 Y_k(ω)의 확률 밀도 함수가 포함되어 있지만, KL 정보량의 최소값을 구하기 위해서는 실질 확률 밀도 함수를 이용할 필요는 없고, Y_k(ω)의 분포가 수퍼가우스(super-gaussian)인지 서브가우스(sub-gaussian)인지에 따라서, 표 1에 나타내는 바와 같은 두 가지의 서로 다른 유형의 확률 밀도 함수를 전환하면 되는 것이 알려져 있다.

Y_k(ω)의 분포	스코어 함수	확률 밀도 함수
수퍼가우스	-thna{Y_k(ω,t)}	h/cosh[Y_k(ω,t)]
서브가우스	-Y_k(ω,t)³	h exp[-Y_k(ω,t)⁴/4]

또한, extended infomax 법으로서, 표 2에 나타내는 바와 같은 두 가지의 확률 밀도 함수를 전환하여도 된다.

Y_k(ω)의 분포	스코어 함수	확률 밀도 함수
수퍼가우스	-[Y_k(ω,t)+tank{Y_k(ω,t)}]	h exp{-Y_k(ω,t)²/2}/ cosh{Y_k(ω,t)}
서브가우스	-[Y_k(ω,t)-tank{Y_k(ω,t)}]	h exp{-Y_k(ω,t)²/2}cosh{Y_k(ω,t)}

또한, 표 1, 2에서, h는 확률 밀도 함수를 -∞～+∞의 구간에서 적분한 값을 1로 하기 위한 상수이다. Y_k(ω)의 분포가 수퍼가우스인지 서브가우스인지는 4차의 큐뮬런트 κ₄(= E_t[Y_k(ω,t)⁴]-3E_t[Y_k(ω,t)²]²)의 값이 플러스인지 마이너스인지로 결정한다. κ₄가 플러스이면 수퍼가우스이고, 마이너스이면 서브가우스이다.

상기 식 (8), (9)를 이용한 분리 처리를, 도 6의 플로우차트로 나타낸다. 우선 스텝 S1O1에서, 주파수 bin 마다 분리 행렬 W(ω)를 준비하고, 초기 값(예를 들면 단위 행렬)을 대입해 둔다. 다음에 스텝 S102에서, 모든 주파수 bin에 대한 W(ω)가 수렴하였는지의 여부를 판별하여, 수렴하고 있는 경우에는 처리를 종료하고, 수렴하지 않은 경우에는 스텝 S103으로 진행한다. 스텝 S103에서는, 상기 식 (4)와 같은 Y(ω,t)를 정의하고, 스텝 S104에서는, KL 정보량 I(Y(ω))를 최소화시키는 방향을 상기 식 (8)에 따라서 구한다. 그리고, 다음 스텝, 즉 스텝 S105에서는, 상기 식 (9)에 따라 KL 정보량 I(Y(ω))를 최소화시키는 방향으로 W(ω)를 갱신하고, 스텝 S102로 되돌아간다. 스텝 S102～S105의 처리는, 각 주파수 bin에 대하여 Y(ω)의 독립성의 레벨이 충분히 높아지고, W(ω)가 대략 수렴할 때까지 반복된다.

그런데, 전술한 시간 주파수 영역의 독립 성분 분석에서는, 신호의 분리 처리를 주파수 bin마다 행하고 있으며, 주파수 bin 간의 관계는 고려하지 않는다. 그 때문에, 신호 분리는 성공해도, 주파수 bin 간의 스케일링 및 신호 분리처의 불균일이 발생할 수 있다. 스케일링의 불균일에 대한 문제는, 음원마다 관측 신호를 추정하는 방법에 의해 해결할 수 있다. 한편, 신호 분리처의 불균일이란, 예를 들면 ω= 1에서는 Y₁에 S₁ 유래의 신호가 나타나는 데 대하여 ω=2에서는 Y₁에 S₂ 유래의 신호가 나타난다고 하는 현상이며, 치환의 문제로 칭해진다.

치환이 발생하고 있는 예를 도 7에 도시한다. 이것은, WEB 페이지(http://www.ism.ac.jp/～shiro/research/blindsep.html)에 있는 "X_rsm2.wav"라고 하는 파일의 최초의 32,000개 샘플에 대하여 익스텐디드 인포맥스(extended infomax)법을 이용하여 시간 주파수 영역에서 분리를 시도한 결과이다. 원신호의 한 쪽은 “원, 투, 쓰리"라는 음성이며, 다른 쪽은 음악이다. 상단의 스펙트로그램을 시간 영역의 신호를 얻도록 역 푸리에 변환하면, 하단과 같이, 양 채널도 양방의 신호가 혼합된 파형으로 되어 버린다. 이와 같이, 주파수 bin 마다 분리를 행하면, 관측 신호의 종류 및 분리 행렬 W(ω)의 초기 값에 따라서는, 도 7과 같은 결과로 되어 버리는 것을 피할 수 없다.

종래, 이 치환의 문제를 해소하기 위해, 후처리로서 이용되도록 구성되는 교체 방법이 알려져 있다. 이 후처리에서는, 우선 주파수 bin 마다의 분리에 의해서 도 7과 같은 스펙트로그램을 얻고, 그 후, 소정의 기준 등에 따라 채널 사이에서 분리 신호의 교체를 행함으로써 치환이 발생하지 않은 스펙트로그램을 얻는다. 교체의 기준으로서는, (a) 엔벨로프의 유사성(비특허 문헌 1 참조), (b) 추정된 음원 방향(특허 문헌 1의 [종래의 기술] 참조), (c) (a)와 (b)와의 조합(특허 문헌1 참조)를 들 수 있다.

그러나, 상기 (a)는, 주파수 bin에 따라서 엔벨로프의 차이가 불명료할 때 교체 오류가 발생한다. 또한, 일단 교체 오류가 발생하면, 그 이후의 주파수 bin에서는 모두 분리처가 오류로 될 수 있다. 한편, 상기 (b)는, 방향 추정의 정밀도에 문제가 있고, 또한 마이크로폰의 위치 정보가 필요하다. 또한, 양자를 조합시킨 상기 (c)는, 교체의 정밀도는 향상하고 있지만, 상기 (b)와 마찬가지로 마이크로폰의 위치 정보가 필요하다. 또한, 전술한 어떠한 방법에 있어서도, 분리와 교체라고 하는 2개의 스텝을 거치기 때문에, 처리 시간이 길다고 하는 문제가 있다. 처리 시간의 관점에서는, 분리가 완료한 시점에 치환의 문제도 해소하고 있는 것이 바람직하지만, 후처리에 의한 방법에서는 그것이 어렵다.

따라서, 비특허 문헌 2, 3에서는, 주파수 bin 간의 관계를 분리 행렬 W의 갱신식에 반영시키는 주파수 커플링(frequency coupling)라고 불리는 방법이 제안되어 있다. 이 방법으로는, 하기 식 (10)과 같은 확률 밀도 함수와 하기 식 (11)과 같은 분리 행렬 W의 갱신식을 이용하고 있다(단, 변수의 표기법은 본 명세서와 일치시키고 있다). 이 식 (10), (11)에서, β_k(t)는 Y_k(ω,t)의 각 성분의 절대값들의 평균을 취한 값을 나타내며, β(t)는 β₁(t),???, β_n(t)를 대각 요소로 하는 대각 행렬을 나타낸다. 이 β_k(t)의 도입에 의해, 주파수 bin 간의 관계가 ΔW(ω)에 반영된다.

<공식 6>

그러나, 상기 식 (11)을 반복 적용하여 수렴시킨 분리 행렬 W에서는, 반드시 치환의 문제를 해소할 수 있는 것은 아니다. 즉, 치환이 발생하지 않을 때의 KL 정보량이 치환 발생 시의 KL 정보량보다 작아진다고 하는 보증이 없다. 실제로 전술한 "X_rsm2.wav"라고 하는 파일의 최초의 32,000개 샘플에 대하여 신호 분리를 시도한 결과를 도 8에 도시한다. 도 7과 마찬가지로 주파수 bin 마다의 분리는 성공하고 있으며, 치환도 도 7과 비교하여 개선되어 있지만, 여전히 치환이 발생하고 있다.

본 발명은, 이러한 종래의 실정을 감안하여 제안된 것으로, 복수의 신호가 혼합된 음성 신호를 독립 성분 분석을 이용하여 분리할 때에, 분리후의 후처리를 행하는 일없이 치환의 문제를 해소하는 것이 가능한 음성 신호 분리 장치 및 그 방법을 제공하는 것을 목적으로 한다.

본 발명에 따른 음성 신호 분리 장치는, 음성 신호를 포함하는 복수의 신호가 혼합된 시간 영역의 관측 신호를 독립 성분 분석을 이용하여 개별적인 신호로 분리하여, 분리 신호를 생성하는 음성 신호 분리 장치로서, 상기 시간 영역의 관측 신호를 시간 주파수 영역의 관측 신호로 변환하는 제1 변환 수단과, 상기 시간 주파수 영역의 관측 신호로부터 시간 주파수 영역의 분리 신호를 생성하는 분리 수단과, 상기 시간 주파수 영역의 분리 신호를 시간 영역의 분리 신호로 변환하는 제2 변환 수단을 포함하고, 상기 분리 수단은, 상기 시간 주파수 영역의 관측 신호와 초기값이 대입된 분리 행렬로부터 시간 주파수 영역의 분리 신호를 생성하고, 이 시간 주파수 영역의 분리 신호와 다차원 확률 밀도 함수를 이용한 스코어 함수와 상기 분리 행렬을 이용하여 해당 분리 행렬의 수정 값을 계산하고, 상기 수정 값을 이용하여, 상기 분리 행렬이 대략 수렴할 때까지 해당 분리 행렬을 수정하고, 대략 수렴된 분리 행렬을 이용하여 상기 시간 주파수 영역의 분리 신호를 생성하는 것을 특징으로 한다.

또한, 본 발명에 따른 음성 신호 분리 방법은, 음성 신호를 포함하는 복수의 신호가 혼합된 시간 영역의 관측 신호를 독립 성분 분석을 이용하여 개별적인 신호로 분리하여, 분리 신호를 생성하는 음성 신호 분리 방법으로서, 상기 시간 영역의 관측 신호를 시간 주파수 영역의 관측 신호로 변환하는 단계와, 상기 시간 주파수 영역의 관측 신호와 초기 값이 대입된 분리 행렬로부터 시간 주파수 영역의 분리 신호를 생성하는 단계와, 이 시간 주파수 영역의 분리 신호와 다차원 확률 밀도 함수를 이용한 스코어 함수와 상기 분리 행렬을 이용하여 해당 분리 행렬의 수정 값을 계산하는 단계와, 상기 수정 값을 이용하여, 상기 분리 행렬이 대략 수렴할 때까지 해당 분리 행렬을 수정하는 단계와, 대략 수렴한 분리 행렬을 이용하여 생성된 시간 주파수 영역의 분리 신호를 시간 영역의 분리 신호로 변환하는 단계를 갖는 것을 특징으로 한다.

이에 따라, 본 발명에 따른 음성 신호 분리 장치 및 방법에 따르면, 음성 신호를 포함하는 복수의 신호가 혼합된 시간 영역의 관측 신호를 독립 성분 분석을 이용하여 개별적인 신호로 분리하여, 분리 신호를 생성할 때에, 초기 값이 대입된 분리 행렬로부터 시간 주파수 영역의 분리 신호를 생성하고, 이 시간 주파수 영역의 분리 신호와 다차원 확률 밀도 함수를 이용한 스코어 함수와 상기 분리 행렬을 이용하여 해당 분리 행렬의 수정 값을 계산하고, 상기 수정 값을 이용하여, 상기 분리 행렬이 대략 수렴할 때까지 해당 분리 행렬을 수정하고, 대략 수렴한 분리 행렬을 이용하여 생성된 시간 주파수 영역의 분리 신호를 시간 영역의 분리 신호로 변환함으로써, 음성 신호의 분리 후의 후처리를 행하는 일없이 치환의 문제를 해소할 수 있다.

<실시예>

이하, 본 발명을 적용한 구체적인 실시예에 대하여, 도면을 참조하면서 상세히 설명한다. 이 실시예는, 본 발명을, 복수의 신호가 혼합된 음성 신호를 독립 성분 분석을 이용하여 개별적인 신호로 분리하는 음성 신호 분리 장치에 적용한 것이다. 특히, 본 실시예에 있어서의 음성 신호 분리 장치는, 종래와 같은 1차원 확률 밀도 함수를 이용하여 주파수 bin 마다의 엔트로피를 계산하는 대신에, 다차원 확률 밀도 함수를 이용하여 스펙트로그램의 엔트로피를 계산함으로써, 분리후의 후처리를 행하는 일없이 치환의 문제를 해소할 수 있다. 이하에서는, 우선, 다차원 확률 밀도 함수를 이용하는 것에 의해 치환의 문제를 해소하는 이론의 논리적 근거 및 구체적인 계산식에 대하여 설명하고, 다음으로, 본 실시예에 있어서의 음성 신호 분리 장치의 구체적 구성에 대하여 설명한다.

우선, 다차원 확률 밀도 함수를 이용하는 것에 의해 치환의 문제를 해소하는 이론의 논리적 근거에 대하여 도 9를 이용하여 설명한다. 또한, 도 9에서는 간단하게 하기 위해, 채널 수를 2(n= 2)로 하고, 주파수 bin의 총 수를 3(M= 3)으로 하고 있지만, 임의의 n, M에 대하여 마찬가지의 설명이 적용가능하다.

도 9에서, 주파수 bin 마다의 분리가 성공하고 치환이 발생하지 않은 경우를 케이스 1로 하고, 주파수 bin 마다의 분리는 성공했지만 ω= 2에서 치환이 발생하고 있는 경우를 케이스 2로 한다.

종래와 같이, 주파수 bin 마다 계산한 KL 정보량 I(Y(ω))를 최소화하는 경우, 케이스 2의 ω= 2에서 치환이 발생하고 있음에도 불구하고 케이스 1과 케이스 2에서 I(Y(2))가 동일한 값으로 되어 버린다. 종래 기술의 KL 정보량 I(Y(ω))와 분리 행렬 W(ω)와의 관계를 모식적으로 나타내면 도 10의 (a)와 같이 된다(단, 실제로는 W(ω)를 1개의 축으로 나타내는 것은 가능하지 않음). 케이스 1, 2의 어느쪽도 KL 정보량의 최소값을 취하기 때문에 양자를 구별할 수 없다. 이것이, 종래 방법에 의해 치환이 발생하는 본질적인 원인이다.

이에 반하여, 본 실시예에 있어서의 음성 신호 분리 장치에서는, 다차원 확률 밀도 함수를 이용하여 채널마다 엔트로피를 계산하고, 전체 채널에서 1개의 KL 정보량을 계산한다(식의 상세한 설명은 후술함). 이와 같이, 본 실시예에서는 전체 채널에서 1개의 KL 정보량이 계산되기 때문에, 케이스 1과 케이스 2에서 KL 정보량은 다른 값을 취한다. 적절한 다차원 확률 밀도 함수를 준비하면, 케이스 1의 KL 정보량을 케이스 2의 KL 정보량보다도 작게 할 수 있다. 본 실시예에서의 KL 정보량 I(Y)와 분리 행렬 W(ω)의 관계를 모식적으로 나타내면 도 10의 (b)와 같이 되어, 케이스 1과 케이스 2를 구별할 수 있게 된다. 따라서, 종래와 같은 후처리에 의한 교체를 행하지 않더라도, KL 정보량을 최소화하는 것만으로 신호를 분리함과 함께 치환의 발생도 방지할 수 있다.

본 실시예에 있어서도, 모든 주파수 bin에서 Y₁= S₂, Y₂= S₁와 같이 분리되는 경우(케이스 3로 함)와 케이스 1에서는 KL 정보량이 동일한 값으로 되기 때문에 케이스 1과 케이스 3을 구별할 수 없다. 그러나, 케이스 3에는 치환이 발생하지 않기 때문에, 분리 결과가 케이스 3이더라도 문제는 없다.

여기서, 시간 주파수 영역의 독립 성분 분석에 다차원 확률 밀도 함수를 도입하기 위해서는, (a) 분리 행렬을 어떠한 식으로 갱신할지, (b) 복소수에의 대응 방법, (c) 어떠한 다차원 확률 밀도 함수를 이용할지의 세 가지 점을 해결할 필요가 있다. 이하에서는, 상기 세 가지 점에 대하여 순서대로 설명함과 함께, (d) 변형예에 대해서도 더불어 설명한다.

(a) 분리 행렬 W의 갱신식

상기 식 (5)～(9)는 1차원 확률 밀도 함수를 이용한 식이기 때문에, 그대로는 다차원 확률 밀도 함수에 적용할 수 없다. 따라서, 본 실시예에서는, 이하의 수순으로, 다차원 확률 밀도 함수를 이용한 분리 행렬 W의 갱신식을 도출한다.

관측 신호 X와 분리 신호 Y와의 관계를 나타낸 상기 식 (4)를, 모든 ω(1≤ω≤ M)에 대하여 이용하여, 이들을 1개의 식으로 표현하면, 하기 식 (12) 또는 하기 식 (15)와 같이 된다(단, 이하에서는 식 (12)을 이용함). 식 (12)의 벡터 및 행렬을 각각 1개의 변수로 표기하면 하기 식 (13)과 같이 된다. 또한, 하기 식 (12)의 동일한 채널로부터 유래하는 벡터와 행렬을 각각 1개의 변수로 표기하면 하기 식 (14)와 같이 된다. 이 식 (14)에서, Y_k(t)는 스펙트로그램으로부터 1 프레임분을 잘라내어 만든 열 벡터를 나타내며, W_ij는 w_ij(1),???, w_ij(M)을 대각 요소로 하는 대각 행렬을 나타낸다.

<공식 7>

<공식 8>

본 실시예에서는, 상기 식 (12)～(l4)의 Y_k(t) 및 Y(t)를 이용하여, KL 정보량 I(Y)를 하기 식 (16)과 같이 정의한다. 이 식 (16)에서, H(Y_k)는 각 채널에 대한 스펙트로그램의 엔트로피를 나타내며, H(Y)는 전체 채널에 대한 스펙트로그램의 동시 엔트로피를 나타낸다. n= 2일 때의 H(Y_k)와 H(Y)의 관계를 도 11에 나타낸다. 식 (16)에서, H(Y_k)는 엔트로피의 정의에 따라 하기 식 (17)의 제1항과 같이 새로 기입된다. H(Y)는 상기 식 (13)에 의해 하기 식 (17)의 제2항 및 제3항과 같이 전개된다. 이 식 (17)에서, P_Yk(?)는 Y_k(1,t),???, Y_k(M,t)의 M 차원 확률 밀도 함수를 나타내며, H(x)는 관측 신호 X의 동시 엔트로피를 나타낸다.

<공식 9>

관측 신호 X를 분리하기 위해서는, KL 정보량 I(Y)를 최소로 하는 분리 행렬 W를 구하면 된다. 그와 같은 분리 행렬 W는, 하기 식 (18), (19)에 따라서 W를 조금씩 갱신함으로써 구할 수 있다.

<공식 10>

여기서, W의 갱신은 상기 식 (12)에서 비 제로(non-zero)의 요소에 대해서만 행하면 된다. 따라서, ΔW와 W로부터 주파수 bin=ω의 성분만을 취출한 행렬 ΔW(ω), W(ω)를 하기 식 (20), (21)과 같이 정의하여, 하기 식 (22)에 따라서 ΔW(ω)를 계산한다. 식 (22)를 모든 ω에 대하여 계산하면, ΔW의 모든 비 제로의 요소는 모두 계산될 수 있는 것으로 된다. 이 식 (22)에서, φ_ω(?)는 다차원 확률 밀도 함수에 대응한 스코어 함수를 나타내며, 하기 식 (23)을 거쳐 하기 식 (24)와 같이 계산된다. 즉, 스코어 함수는 다차원 확률 밀도 함수의 대수를 ω번째의 인수로 편미분함으로써 얻어진다.

<공식 11>

상기 식 (8)과 상기 식 (22)의 차이는, 스코어 함수의 인수에 있다. 상기 식 (8)의 φ(?)의 인수는 주파수 bin=ω의 성분만이기 때문에, 다른 주파수 bin과의 상관을 반영시킬 수 없다. 반면에, 상기 식 (22)의 φ_ω(?)의 인수는 모든 주파수 bin의 요소들을 포함하기 때문에, 다른 주파수 bin과의 상관을 반영시키는 것이 가능하게 된다.

자세히는 후술하지만, Y는 복소수의 신호이기 때문에, 실제로는 상기 식 (22) 대신에 복소수에 대응시킨 식을 이용한다.

여기서, 분리 행렬 W의 갱신을 반복하면, 이용하는 다차원 확률 밀도 함수의 종류에 따라서는, 요소의 값이 오버플로우되는 경우가 있다.

따라서, 상기 식 (22)에서의 ΔW의 식을 이하와 같이 변경하여, 분리 행렬 W의 요소 값의 오버플로우를 방지하도록 해도 된다.

상기 식 (20), (21)에 있어서의 행렬 ΔW(ω), W(ω)의 k 행째를 취출한 행 벡터 ΔW_k(ω), W_k(ω)를 하기 식 (25), (26)과 같이 정의한다.

<공식 12>

W_k(ω)는, 관측 신호 X의 ω번째의 주파수 bin으로부터 채널 k, 주파수 bin=ω의 분리 신호 Y를 생성하기 위한 벡터이지만, 신호가 분리되었는지의 여부는 W_k(ω)의 요소들 간의 비(관측 신호들 간의 비)로 결정하고, W_k(ω)의 크기와는 관계가 없다. 예를 들면, 관측 신호를 -1:2로 혼합하는 것도 -2:4로 혼합하는 것도, 신호의 분리라는 점에서는 동일한 것이다. 도 12에 도시한 바와 같이 ΔW_k(ω)를 W_k(ω)에 직교하는 성분 ΔW_k(ω)[C]와, W_k(ω)와 평행한 성분 ΔW_k(ω)[P]로 분해한 경우, ΔW_k(ω)[C]는 신호의 분리에 기여하지만, ΔW_k(ω)[P]는 W_k(ω)를 크게할 뿐이며, 신호의 분리에는 기여하지 않는다. 또한, W_k(ω)가 지나치게 크게 되면, 전술한 바와 같이, 오버플로우를 일으킬 가능성이 높게 된다.

따라서, ΔW_k(ω)를 이용하여 W_k(ω)를 갱신하는 대신에, ΔW_k(ω)[C]만을 이용하여 W_k(ω)를 갱신함으로써, 오버플로우를 방지하면서, 신호를 분리할 수 있도록 된다.

구체적으로는, 하기 식 (27)에 의해 ΔW_k(ω)[C]를 계산하고, 하기 식 (28)과 같이 ΔW_k(ω)[C]로 이루어지는 행렬 ΔW(ω)[C]을 이용하여 W(ω)를 갱신한다.

<공식 13>

물론, 하기 식 (29)와 같이, W에 직교하는 성분 ΔW[C]를 이용하여 W를 갱신하도록 해도 된다. 또한, W와 평행한 성분 ΔW[P]를 완전히 무시하지 않고, 하기 식 (3O)과 같이, ΔW[C], ΔW[P]에 대하여 각각 상이한 계수 η₁, η₂(η₁>η₂> O)을 곱하여, W를 갱신하도록 해도 된다.

<공식 14>

(b) 복소수에의 대응

시간 주파수 영역의 독립 성분 분석에서는 복소수의 신호를 취급하기 때문에, W의 갱신식을 복소수에 대응시킬 필요가 있다. 여기서, 종래의 1차원 확률 밀도 함수를 이용한 방법에서는, 전술한 식 (8)을 복소수에 대응시킨 하기 식 (31)이 제안되어 있다(일본 특개 2003-84793호 공보를 참조). 이 식 (31)에서, 위 첨자 문자의 "H"는 공액 전치(벡터를 전치함과 함께 요소를 공액 복소수로 치환함)를 나타낸다.

<공식 15>

그러나, 다차원 확률 밀도 함수를 이용한 방법에는 상기 식 (31)을 적용할 수 없다. 따라서, 본 실시예에서는, 하기 식 (32)를 새롭게 고안하여, 이 식 (32)에 기초하여 분리 행렬 W를 갱신한다. 하기 식 (33)의 φ_kω(?)는 M개의 인수를 취하는 함수로서 나타내고 있지만, 이것은 상기 식 (24)의 φ_kω(Y_k(t))(M 차원의 벡터를 인수로 하는 함수)와 등가이다. 식 (33)과 같이, 각 인수의 절대값을 대입하고, 함수의 리턴값(return value)에 ω 번째의 인수의 위상 성분 Y_k(ω,t)/｜Y_k(ω,t)｜를 곱함으로써, 스코어 함수를 복소수에 대응시키는 것이 가능하다.

<공식 16>

상기 식 (32)에 있어서도, 상기 식 (27)과 마찬가지로 W(ω)에 직교하는 성분 ΔW(ω)[C]을 계산하도록 해도 되는 것은 물론이다.

또한, 후술한 대로, 다차원 확률 밀도 함수 및 스코어 함수의 종류에 따라서는, 시작부터 복소수의 입력(인수)에 대응하고 있는 것도 있다. 그와 같은 함수에 대해서는 상기 식 (33)의 변형은 불필요하며, 그 경우, ^가 위에 있는 φ는 φ와 동일하게 간주한다.

(c) 이용하는 다차원 확률 밀도 함수

다차원 확률 밀도 함수로서 유명한 것으로 하기 식 (34)로 나타내는 다차원(다변량) 정규 분포가 있다. 이 식 (34)에서, x는 x₁,???, x_d의 열 벡터를 나타내며, μ는 x의 평균값 벡터를 나타내며, Σ는 x의 분산/공분산 행렬을 나타낸다.

<공식 17>

그러나, 독립 성분 분석에서는 정규 분포를 확률 밀도 함수로서 이용하면 신호를 분리할 수 없는 것이 알려져 있다. 따라서, 정규 분포 이외의 다차원 확률 밀도 함수를 이용할 필요가 있다. 따라서, 본 실시예에서는, 이하에 설명한 바와 같이, (i) 구형 분포, (ii) L_N 노옴(norm), (iii) 타원 분포, (iv) Copula 모델에 기초하여 다차원 확률 밀도 함수를 구축한다.

(i) 구형 분포

구형 분포란, 임의의 논 네가티브 함수 f(x)(x는 스칼라)에 벡터의 L2 노옴을 대입하여 다차원화한 확률 밀도 함수를 칭한다. L2 노옴이란, 요소의 절대값의 제곱을 총합하여, 그 결과의 제곱근을 취한 것이다. 본 실시예에서는, f(x)로서 주로 1차원 확률 밀도 함수(지수 분포나 1/cosh(x) 등)를 이용한다. 따라서, 구형 분포에 기초하는 확률 밀도 함수는 하기 식 (35)와 같이 나타낸다. 이 식 (35)에서, h는 전체 인수에 대하여 -∞～+∞의 구간에서 정적분한 결과를 조정하기 위한 상수이지만, 스코어 함수를 구할 때에 약분되어 소거되기 때문에, 구체적인 값을 구할 필요는 없다. 또한, 이하에서는 f(x)의 도함수를 f'(x)로 표기한다.

<공식 18>

상기 식 (35)의 확률 밀도 함수에 대응한 스코어 함수는, 이하의 수순으로 구할 수 있다. 확률 밀도 함수의 대수를 벡터 x로 편미분하면, 하기 식 (36)과 같은 함수 g(x)가 얻어진다(단, x는 벡터). g(x)에서의 x에 Y_k(t)를 대입한 g(Y_k(t))는, 모든 주파수 bin의 스코어 함수를 포함하고 있다. 즉, g(Y_k(t))=[φ_k1(Y_k(t)), ..., φ_kM(Y_k(t))]^T의 관계가 있다. 따라서, 하기 식 (37)과 같이 g(Y_k(t))로부터 ω행째의 요소를 추출함으로써, 스코어 함수 φ_kω(Y_k(t))가 얻어진다. 또한, 구 형상 분포는 요소의 절대값을 이용하고 있는 관계상, 시작부터 복소수의 입력에도 대응하고 있기 때문에, 상기 식 (33)의 변형은 불필요하다.

<공식 19>

f(x)의 x에 구체적인 수식을 대입한 예를 나타낸다.

f(x)가 하기 식 (38)과 같은 일차원의 지수 분포로 나타내는 것으로 한다. 이 식 (38)에서, K는 스칼라 변수 x의 분포의 정도에 대응한 상수이지만, K= 1로 해도 된다. 혹은, Y_k(t)의 L2 노옴 ?Y_k(t)?₂의 분포의 정도에 따라서 K의 값을 변경해도 된다. 이 식 (38)을 구형 분포로 다차원화하면, 하기 식 (39)과 같은 확률 밀도 함수가 얻어져, 대응하는 g(Y_k(t))는 하기 식 (40)으로 나타낸다.

<공식 20>

또한, f(x)가 하기 식 (41)로 나타내는 것으로 한다. 이 식 (41)에서, d는 플러스의 값이다. 이 식 (41)을 구형 분포로 다차원화하면, 하기 식 (42)와 같은 확률 밀도 함수가 얻어져, 대응하는 g(Y_k(t))는 하기 식 (43)으로 나타낸다.

<공식 21>

(ii) LN 노옴

상술한 임의의 논 네가티브 함수 f(x)(x는 스칼라)에 벡터의 L_N 노옴을 대입하여 다차원화함으로써, L_N 노옴에 기초한 다차원 확률 밀도 함수를 구축할 수 있다. L_N 노옴이란, 요소의 절대치의 N승을 총합하고, 그 결과의 N승근을 취한 것이다. Y_k(t)의 L_N 노옴 ?Y_k(t)?_N을 논 네가티브 함수 f(x)에 대입하여 다차원화하면, 하기 식 (44)와 같은 다차원 확률 밀도 함수가 얻어진다. 이 식 (44)에서, h는 전체 인수에 대하여 -∞～+∞의 구간에서 정적분한 결과를 조정하기 위한 상수이다. 그러나 이는 스코어 함수를 구할 때에 약분되어 소거되기 때문에, 구체적인 값을 구할 필요는 없다. 전술한 구형 분포는, 이 L_N 노옴에 기초하는 다차원 확률 밀도 함수에 있어서 N= 2로 한 경우에 상당한다.

<공식 22>

또한, 상기 식 (44)로부터 복소수에 대응한 스코어 함수를 도출하면, 하기 식 (45)가 얻어진다.

<공식 23>

상기 식 (45)에서, f(x)가 하기 식 (46)과 같은 1차원의 지수 분포로 나타내는 것으로 하면, 하기 식 (47)과 같은 스코어 함수가 도출된다. 한편, f(x)가 하기 식 (48)로 나타내는 것으로 하면, 하기 식 (49)과 같은 스코어 함수가 도출된다. 이 식 (46), (48)에서, K는 플러스의 실수이며, d, m은 자연수이다.

<공식 24>

상기 식 (47), (49)에 있어서 N=2, m=1라고 하면, 전술한 구형 분포인 경우와 동일한 스코어 함수가 얻어지며, 후술하는 바와 같이, 치환이 발생하지 않고 관측 신호를 분리할 수 있다. 그러나, 상기 식 (47), (49)에 있어서 N=1, m= 1라고 하면, 분리 결과에 치환이 발생한다. 이것은, 상기 식 (47), (49)의 ?Y_k(t)?_N ^(m-N)이라고 하는 항이 N=m인 경우에 소거되어 버리고, 주파수 bin 간의 상관이 ΔW(ω)에 그다지 반영되지 않게 되기 때문이다. 또한, N≠m이고, ?Y_k(t)?_N= 0인 경우, 즉 t 번째의 프레임에 신호가 존재하지 않은 경우에는, 연산 중에 0 제산이 발생한다.

이러한 문제점을 고려하여, 본 실시예에서는, 리턴값이 무차원량이며 또한 리턴값의 위상이 ω번째의 위상과 역 위상이라고 하는 조건을 충족시키도록, 스코어 함수 φ_kω(Y_k(t))의 식을 변경한다.

여기서, 스코어 함수 φ_kω(Y_k(t))의 리턴값이 무차원량이라 함은, Y_k(ω,t)의 단위를 [x]로 했을 때, 스코어 함수의 분자와 분모에서 [x]가 상쇄되어, 리턴값에는 [x]의 차원(n을 비 제로의 값으로 했을 때에 [xⁿ]으로 기술되는 단위)이 포함되지 않는 것을 나타낸다.

또한, 스코어 함수 φ_kω(Y_k(t))의 리턴값의 위상이 ω번째의 위상과 역위상이라 함은, arg{φ_kω(Y_k(t))}=-arg{Y_k(ω,t)}가 임의의 Y_k(ω,t)에 대하여 성립하는 것을 나타낸다. 단, arg{z}는 복소수 z의 위상 성분을 나타낸다. 예를 들면, 크기 r과 위상각 θ를 이용하여 z=r?exp(iθ)로 나타낸 경우, arg{z}=θ이다.

또한, 본 실시예에서는, 상기 식 (22), (32)와 같이, ΔW(ω)={I_n+ E_t[. . . ]} W(ω)로 하고 있기 때문에, 스코어 함수에 의해 충족되어야 하는 조건은, 리턴값의 위상이 ω번째의 위상과 "역위상"으로 되는 것이지만, ΔW(ω)={I_n-E_t[. . . ]} W(ω)로 한 경우에는, 스코어 함수의 부호가 반전하기 때문에, 스코어 함수에 의해 충족되어야 하는 조건은, 리턴값의 위상이 ω번째의 위상과 「동위상」으로 되는 것이다. 어느 경우에도, 스코어 함수는, 리턴값의 위상이 ω 번째의 위상에만 의존하는 것이면 된다.

전술한 스코어 함수의 리턴값이 무차원량이며, 또한, 리턴값의 위상이 ω번째의 위상과 역위상이라고 하는 조건은, 상기 식 (33)을 일반화한 것이기 때문에, 스코어 함수가 이들 조건을 충족시키고 있는 경우에는, 상기 식 (33)의 복소수 대책은 불필요하다.

이하, 구체예를 예를 들어 설명한다.

전술한 대로, 상기 식 (47), (49)는, L_N 노옴에 기초하는 다차원 확률 밀도 함수로부터 도출된 스코어 함수이다. 이들의 스코어 함수는, 리턴값이 무차원량(non-dimensional quantity)이며, 또한, 리턴값의 위상이 ω번째의 위상과 역 위상이라고 하는 조건을 충족시키고 있기 때문에, N≠m에서는 치환이 발생하지 않고 관측 신호를 분리할 수 있다. 그러나, 전술한 바와 같이, N=m에서는 ?Y_k(t)?_N ^(m-N)이라고 하는 항이 소거되기 때문에, 분리 결과에 치환이 발생할 수 있다. 또한, N≠m이어도 ?Y_k(t)?_N=0의 경우, 즉 t번째의 프레임에 신호가 존재하지 않는 경우에는, 연산중에 0 제산이 발생해 버린다.

따라서, N= m인 경우에도 리턴값이 무차원량이며, 또한, 리턴값의 위상이 ω번째의 위상과 역 위상이라고 하는 조건을 충족시키고, 또한 연산 중에 O 제산이 발생하지 않도록, 상기 식 (47), (49)를 각각 하기 식 (50), (51)과 같이 변경한다. 이 식 (50), (51)에서, L은 플러스의 상수이며, 예를 들면 L= 1로 한다. 또한, a는 0 제산을 방지하기 위한 논 네가티브 상수이다.

<공식 25>

상기 식 (50), (51)에서는, ?Y_k(t)?_N의 항이 N=m인 경우에도 남는다. 또한, ?Y_k(t)?_N=0인 경우에도 0 제산은 발생하지 않는다.

상기 식 (50), (51)에서, Y_k(ω, t)의 단위를 [x]로 하면, [x]를 갖는 양은 분자와 분모에서 동수(어느 쪽도 L+1회) 출현하기 때문에, 상쇄되어 스코어 함수 전체적으로는 무차원량으로 된다(tanh는 무차원량으로 봄). 또한, 이들 식의 리턴값의 위상은 -Y_k(ω,t)의 위상과 동일하기 때문에, 리턴값의 위상은 Y_k(ω,t)의 위상과 역위상으로 된다. 따라서, 상기 식 (50), (51)로 나타내는 스코어 함수는, 리턴값이 무차원량이며, 또한, 리턴값의 위상이 ω 번째의 위상과 역 위상이라고 하는 조건을 충족시킨다.

Y_k(t)의 L_N 노옴 ?Y_k(t)?_N을 계산할 때에는, 복소수의 절대값을 구할 필요가 있지만, 하기 식 (52), (53)에 나타낸 바와 같이 복소수의 절대값을 실수부 또는 허수부의 절대값으로 근사해도 되며, 하기 식 (54)에 나타낸 바와 같이 실수부의 절대값과 허수부의 절대값의 합으로 근사하여도 된다.

<공식 26>

여기서, 복소수를 실수부와 허수부로 분해하여 유지하고 있는 시스템에서, z= x+iy(x, y는 실수, i는 허수 단위)로 나타내는 복소수 z의 절대값은 하기 식 (55)와 같이 계산된다. 반면에, 실수부의 절대값 및 허수부의 절대값은, 하기 식 (56), (57)과 같이 계산되기 때문에 계산량이 삭감된다. 특히, L1 노옴인 경우에는, 제곱 및 루트를 이용하지 않고서, 실수부의 절대값과 합만으로 계산할 수 있기 때문에, 계산을 매우 간략화할 수 있다.

<공식 27>

또한, L_N 노옴의 값은, Y_k(t) 중에서 절대값이 큰 성분에 따라서 거의 결정되기 때문에, L_N 노옴의 계산 시에, Y_k(t)의 모든 성분을 이용하는 것은 아니고, 절대값이 큰 성분의 상위 x%만을 이용하도록 하여도 된다. 이 상위 x%는, 관측 신호의 스펙트로그램으로부터 사전에 구할 수 있다.

(iii) 타원 분포

타원 분포란, 하기 식 (58)에 나타낸 바와 같이, 열 벡터 x의 마하라노비스 거리(Mahalanobis distance) sqrt(x^TΣ^-1 x)를 임의의 논 네가티브 함수 f(x)(x는 스칼라)에 대입함으로써 생성되는 다차원 확률 밀도 함수를 가리킨다. Y_k(t)를 논 네가티브 함수 f(x)에 대입하여 다차원화하면, 하기 식 (59)와 같은 다차원 확률 밀도 함수가 얻어진다. 이 식 (59)에서, Σ_k는 Y_k(t)의 분산/공분산 행렬이다.

<공식 28>

또한, 상기 식 (59)로부터 스코어 함수를 도출하면, 하기 식 (60)이 얻어진다. 이 식 (60)에서, (?)_ω는 괄호 내의 벡터나 행렬의 ω 행째를 추출하는 것을 나타낸다. 또한, 타원 분포인 경우, Y_k(t)의 요소가 복소수를 포함하더라도 마하라비노스 거리는 논 네가티브의 실수만을 취하기 때문에, 상기 식 (33)의 복소수 대책은 불필요하다.

<공식 29>

상기 식 (60)에서, f(x)를 하기 식 (61)으로 나타내면, 하기 식 (62)와 같은 스코어 함수가 도출된다. 이 식 (61)에서, K은 플러스의 실수이며, d, m은 자연수이다.

<공식 30>

그러나, 상기 식 (62)를 이용하여 신호를 분리하려고 하면, 분리 행렬 W의 갱신 동작을 반복하는 중에 요소들 중 일부의 값이 오버플로우된다. 이것은, W←αW(α> 1)이라는 갱신 동작(새로운 W는 전회의 W의 스칼라 배)이 한번이라도 발생하면, 이후의 모든 W는 유사한 확대 밖에 발생하지 않게 되어, 컴퓨터로 다룰 수 있는 값의 범위를 넘어 버리기 때문이다.

이러한 문제점을 고려하여, 본 실시예에서는, 리턴값이 무차원량이며, 또한, 리턴값의 위상이 ω번째의 위상과 역 위상이라고 하는 조건을 만족시키도록, 스코어 함수 φ_kω(Y_k(t))의 식을 변경한다.

여기서, 상기 식 (62)로 나타내는 스코어 함수는, 리턴값이 무차원량이며, 또한, 리턴값의 위상이 ω 번째의 위상과 역 위상이라고 하는 조건을 충족시키고 있지 않다. 즉, Y_k(ω, t)의 단위를 [x]이라고 하면 분산/공분산 행렬 Σ_k의 단위는[x²]이기 때문에, 스코어 함수 전체로는 [1/x]의 차원을 갖는다. 또한, 분자에 나타나는 (Σ_k ^-1Y_k(t))ω의 연산에서는, Y_k(t) 중에서 Y_k(ω, t) 이외의 성분도 가산되기 때문에, 리턴값의 위상은 -Y_k(ω, t)와는 다른 것으로 된다.

따라서, 리턴값이 무차원량이며, 또한, 리턴값의 위상이 ω 번째의 위상과 역 위상이라고 하는 조건을 충족시키고, 또한 연산 중에 0 제산이 발생하지 않도록, 상기 식 (62)를 하기 식 (63)과 같이 변경한다. 이 식 (63)에서, L은 플러스의 상수 이며, 예를 들면 L= 1으로 한다. 또한, a는 O 제산을 방지하기 위한 상수이며, 값은 논 네가티브이다.

<공식 31>

특히, f(x)가 상기 식 (61)으로 나타내며, L= 1인 경우에 도출되는 스코어 함수를 하기 식 (64)에 나타낸다.

<공식 32>

또한, Y_k(t)의 분포에 따라서는, 분산/공분산 행렬 Σ_k의 역행렬이 존재하지 않는 경우가 있다. 따라서, Σ_k 대신에 diag(Σ_k)(Σ_k의 대각 요소로 이루어지는 행렬)을 이용하거나, 역행렬 Σ_k ^-1대신에 일반 역행렬(예를 들면, Moore-Penrose형 일반 역행렬)을 이용하여도 된다.

(iv) Copula 모델

Sklar의 정리에 의하면, 임의의 선택된 다차원 누적 분포 함수 F(x₁, ..., x_d)는, 임의의 성질을 갖는 d 인수 함수 C(x₁, ..., x_d)와, 각 인수의 주변 분포 함수 F_k(x_k)를 이용하여, 하기 식 (65)의 우변과 같이 변형하는 것이 가능하다. 이 C(x₁, ..., x_d)를 Copula라고 한다. 즉, Copula C(x₁, ..., x_d)와 임의의 주변 분포 함수 F_k(x_k)를 조합시킴으로써, 여러 다차원 누적 분포 함수를 구축할 수 있다. 또한, Copula에 대해서는, 예를 들면, 「"COPULAS" (http://gompertz.math.ualberta.ca/copula.pdf)」, 「"The Shape of Neural Dependence"(http:/wavelet.psych.wisc.edu/Jenison_Reale_Copula.pdf)」, 및 「"Estimation and Model Selection of Semiparametric Copula-Based Multivariate Dynamic Models Under Copula Misspecification" (http://www.nd.edu/~meg/MEG2004/Chen-Xiaohong.pdf)」 등의 문헌에 개시되어 있다.

<공식 33>

이하, Copula를 이용한 다차원 확률 밀도 함수의 구축법과, 분리 행렬 W의 갱신식에 대하여 설명한다.

누적 분포 함수(Cumulative Distribution Function ; CDF)의 상기 식 (65)을 모든 인수로 편미분하면, 하기 식 (66)과 같은 확률 밀도 함수가 얻어진다. 이 식 (66)에서, P_j(x_j)는 인수 x_j의 확률 밀도 함수이며, c'는 Copula를 전체 인수로 편미분한 것이다.

<공식 34>

이 확률 밀도 함수의 대수를 ω번째의 인수로 편미분하면, 하기 식 (67)과 같은 스코어 함수가 얻어진다. 이것이, Copula를 이용한 다차원 스코어 함수의 일반식이다. 이 식 (67)에서, F_Yk(ω)(?)는 Y_k(ω, t)의 누적 분포 함수이며, P_Yk(ω)(?)는 Y_k(ω, t)의 확률 밀도 함수이다. 이 식 (67)의 c'(?), F_Yk(ω)(?)와 P_Yk(ω)(?)에 구체적인 식을 대입함으로써, 여러 다차원 스코어 함수를 구축할 수 있다.

<공식 35>

예를 들면, Copula의 일종으로서 하기 식 (68)으로 나타내는 Clayton's copula가 있다. 이 식 (68)에서, α는 인수 간의 의존도를 나타내는 파라미터이다. 식 (68)을 전체 인수로 편미분하면 하기 식 (69)가 얻어지고, 그것을 상기 식 (67)에 대입하면, 스코어 함수인 하기 식 (70)이 얻어진다. 실제로는, 또한 상기 식 (33)을 적용함으로써, 복소수에 대응한 스코어 함수를 얻을 수 있다.

<공식 36>

F_Yk(ω)(?)와 P_Yk(ω)(?)에 구체적인 식을 대입한 예를 이하에 나타낸다.

각 주파수 bin의 분포를 지수 분포로 가정하면, 확률 밀도 함수는 하기 식 (71)과 같이 나타낼 수 있다. 이 식 (71)에서, K는 분포의 정도에 대응한 변수이지만, K=1로 하여도 된다. 지수 분포의 누적 분포 함수는 하기 식 (72)와 같이 나타낼 수 있다. 상기 식 (33)의 복소수 대책에 의해, 식 (72)의 인수는 논 네가티브이라고 해도 된다. 식(71)과 식(72)을 상기 식(70)의 관련된 요소들에 대입함으로써, 스코어 함수인 하기 식 (73)이 얻어진다.

<공식 37>

또한, Copula를 이용한 스코어 함수에서는, 구형 분포, L_N 노옴 또는, 타원 분포를 이용한 스코어 함수와 달리, 주파수 bin 마다 다른 분포를 적용하는 것도 가능하다. 예를 들면, 주파수 bin 내의 신호의 분포가 수퍼가우스인지 서브가우스인지에 따라서 확률 밀도 함수 및 누적 분포 함수를 전환하는 것도 가능하다. 이는, 전술한 extended infomax법으로 스코어 함수를 -[Y_k(ω,t) + tanh{Y_k(ω,t)}]와 -[Y_k(ω,t) - tanh{Y_k(ω,t)}] 사이에서 전환하는 것에 상당한다.

구체적으로는, 확률 밀도 함수로서 하기 식 (74)에 나타내는 지수 분포를 제공하고, 수퍼가우스 분포용 누적 분포 함수로서 하기 식 (75)을 준비한다. 한편, 확률 밀도 함수로서 하기 식 (76)을 제공하고, 서브가우스용 누적 분포 함수로서 Williams 근사라고 불리는 하기 식 (77)을 준비한다. 이에 따라, 주파수 bin의 분포가 수퍼가우스인 경우에는 식 (74)과 식 (76)을 이용하고, 서브가우스인 경우에는 식 (75)과 식 (77)을 이용한다.

<공식 38>

(d) 변형예

전술한 (c) (ii), (iii)에서는, L_N 노옴 또는 타원 분포에 기초하여 스코어 함수를 도출한 후, 리턴값이 무차원량이며, 또한, 리턴값의 위상이 ω번째의 위상과 역 위상이라고 하는 조건을 충족시키도록, 스코어 함수의 식을 변경했지만, 이 2개의 조건을 충족시키는 스코어 함수를 직접 구축해도 상관없다.

그와 같이 하여 구축한 스코어 함수를 하기 식 (78)에 나타낸다. 이 식 (78)에서, g(x)는 이하의 i)～iv)의 조건을 만족시키는 함수이다.

i) x≥ 0에 있어서 g(x)≥ 0

ii) x≥ 0에서, g(x)는 상수, 단조 증가 함수, 또는 단조 감소 함수

iii) g(x)가 단조 증가 또는 단조 감소인 경우, x→∞ 에서 g(x)는 플러스의 값에 수렴한다.

iv) g(x)는 x에 대하여 무차원량

<공식 39>

관측 신호의 분리에 성공하는 g(x)의 예를 하기 식 (79)～(83)에 나타낸다. 이 식 (79)～(83)에서, 상수항은 전술한 i)～iii)의 조건을 충족시키도록 정한다.

<공식 40>

더욱 일반화한 스코어 함수를 하기 식 (84)에 나타낸다. 이 스코어 함수는, 벡터 Y_k(t)를 인수로 하는 함수 f(Y_k(t))와, 스칼라 Y_k(ω, t)를 인수로 하는 함수 g(Y_k(ω, t))와, 리턴값의 위상을 결정하기 위한 항 -Y_k(ω, t)와의 곱으로 나타내는 함수이다. 단, f(Y_k(t)) 및 g(Y_k(ω, t))은, 양자의 곱이 임의의 Y_k(t) 및 Y_k(ω, t)에 대하여 이하의 v), vi)의 조건을 충족시키도록 각각 정한다.

v) f(Y_k(t)) 및 g(Y_k(ω, t))은 논 네가티브의 실수

vi) f(Y_k(t)) 및 g(Y_k(ω, t))의 차원은 [1/x](Y_k(ω, t)의 단위를 [x]로 한다)

<공식 41>

전술한 v)의 조건에 의해, 스코어 함수의 위상은 -Y_k(ω, t)과 동일하므로, 스코어 함수의 리턴값의 위상이 ω번째의 위상과 역 위상이라고 하는 조건이 만족된다. 또한, 전술한 vi)의 조건에 따라, 차원이 Y_k(ω, t)와 상쇄되어, 스코어 함수가 무차원량이라고 하는 조건이 만족된다.

이상, 다차원 확률 밀도 함수 및 스코어 함수의 구체적인 계산식에 대하여 설명했지만, 이하에서는 본 실시예에 있어서의 음성 신호 분리 장치의 구체적인 구성에 대하여 설명한다.

본 실시예에 있어서의 음성 신호 분리 장치의 개략 구성을 도 13에 도시한다. 이 음성 신호 분리 장치(1)에서, n개의 마이크로폰(1O₁～1O_n)은, n개의 음원이 발하는 독립적인 음을 관측하도록 구성되고, A/D(Analogue/Digital) 변환부(11)는, 이러한 독립적인 음의 신호를 A/D 변환하여 관측 신호를 얻는다. 단시간 푸리에 변환부(12)는, 관측 신호를 단시간 푸리에 변환하여 관측 신호의 스펙트로그램을 생성한다. 신호 분리부(13)는, 신호 모델 유지부(14)에 유지된 신호 모델을 이용하여, 관측 신호의 스펙트로그램을 독립적인 신호에 기초하는 스펙트로그램으로 분리한다. 신호 모델이란, 구체적으로는 전술한 다차원 확률 밀도 함수를 칭하며, 분리 처리에 있어서 각 분리 신호의 엔트로피를 계산하기 위해 이용된다. 단, 실제로는, 신호 모델 유지부(14)가 다차원 확률 밀도 함수를 유지할 필요는 없으며, 확률 밀도 함수의 대수를 각 인수로 편미분한 스코어 함수가 신호 모델 유지부(14)에 유지되어 있으면 된다.

리스케일링부(15)는, 분리 신호의 스펙트로그램의 각 주파수 bin에 대하여 균일화된 스케일을 제공한다. 분리 처리 전에 관측 신호에 대하여 표준화 처리(평균 및/또는 분산의 조정)를 실시하고 있었던 경우에는 원래대로 복귀하는 처리를 행한다. 역 푸리에 변환부(16)는, 역 푸리에 변환에 의해서 분리 신호의 스펙트로그램을 시간 영역의 분리 신호로 변환한다. D/A 변환부(17)는, 시간 영역의 분리 신호를 D/A 변환하고, n개의 스피커(18₁～18_n)는, 각각 독립적으로 음을 재생한다.

이 음성 신호 분리 장치(1)는, n개의 스피커(18₁～18_n)를 통하여 음을 재생하도록 구성되지만, 분리 신호를 출력하여, 음성 인식 등에 이용하도록 하는 것도 가능하다. 이 경우에는, 역 푸리에 변환 처리를 적절하게 생략해도 된다.

이 음성 신호 분리 장치의 처리의 개략을 도 14의 플로우차트를 이용하여 설명한다. 우선 스텝 S1에서, 마이크로폰을 통하여 음성 신호를 관측하고, 스텝 S2에서, 관측 신호를 단시간 푸리에 변환하여 스펙트로그램을 얻는다. 다음에 스텝 S3에서, 관측 신호의 스펙트로그램에 대하여 각 채널의 주파수 bin마다 표준화를 행한다. 이 표준화란, 각 주파수 bin의 평균을 O로, 표준 편차를 1로 정리하는 조작이다. 주파수 bin마다 평균값을 감산함으로써 평균을 0로 하고, 또한 그 평균값을 표준 편차로 제산함으로써 표준 편차를 1로 할 수 있다. 다차원 확률 밀도 함수로서 구형 분포를 이용하는 경우에는, 다른 방법에 의한 표준화도 가능하다. 즉, 주파수 bin마다 평균을 O로 한 후, 벡터의 노옴 ?Y_k(t)?의 1≤ t≤ T 에서의 표준 편차를 구하고, Y_k를 그 구한 값으로 나눔으로써, 표준화를 행할 수 있다. 표준화 후의 관측 신호를 X'이라고 하면, 어느 표준화도 X'= P(X-μ)로 나타낼 수 있다. 여기서, P는 표준 편차의 역수로 이루어지는 대각 행렬을 나타내며, μ는 주파수 bin마다의 평균값으로 이루어지는 벡터를 나타낸다.

계속해서 스텝 S4에서, 표준화된 관측 신호에 대하여 분리 처리를 행한다. 구체적으로는, 분리 행렬 W와 분리 신호 Y를 구한다. 이 스텝 S4에 있어서의 처리의 상세 내용은 후술한다. 스텝 S4에서 얻어진 분리 신호 Y는, 치환은 발생하지 않지만, 주파수 bin마다 스케일이 상이하다. 그래서 스텝 S5에서는, 리스케일링 처리를 행하여, 스케일들을 균일화하여 주파수 bin에 균일화된 스케일을 제공한다. 여기서는, 표준화 처리에서 변경한 평균과 표준 편차를 원래대로 복귀하는 처리도 행한다. 스텝 S5에 있어서의 처리의 상세 내용은 후술한다. 리스케일링 처리에 이어서, 분리 신호를 역 푸리에 변환에 의해서 시간 영역의 분리 신호로 변환하여, 스텝 S7에 있어서 스피커로부터 재생한다.

전술한 스텝 S4(도 14)에 있어서의 분리 처리의 상세 내용을 도 15 및 도 16을 이용하여 설명한다. 도 15는 배치 처리, 도 16은 온라인 처리를 행하는 경우에 있어서의 플로우차트를 나타낸 것이다. 여기서, 배치 처리에서는, 신호 전체를 모아 처리하는 반면, 1 샘플(시간 주파수 영역의 독립 성분 분석에서는 1 프레임)은 순차적으로 입력될 때마다 처리된다. 도 15, 도 16에 있어서의 X(t)는 표준화된 관측 신호이며, 도 14의 X'(t)에 상당한다.

처음에, 도 15의 배치 처리를 행하는 경우에 있어서의 분리 처리에 대하여 설명한다. 우선 스텝 S11에 있어서 분리 행렬 W에 초기 값을 대입해 둔다. 초기 값으로서는, 예를 들면 단위 행렬을 대입하도록 해도 되며, 상기 식 (21)의 모든 W(ω)에 공통의 행렬을 대입하도록 해도 된다. 다음에 스텝 S12에 있어서 W가 수렴되었는지 여부를 판별하여, 수렴하고 있는 경우에는 처리를 종료하고, 수렴하지 않은 경우에는 스텝 S13으로 진행한다.

계속해서 스텝 S13에 있어서 그 시점에서의 분리 신호 Y를 계산하고, 스텝 S14에 있어서 상기 식 (32)에 따라서 ΔW를 계산한다. 이 ΔW는 주파수 bin 마다 계산되기 때문에, ω의 루프를 돌리고, 각각의 ω에 대하여 상기 식 (32)를 적용한다. ΔW를 구한 후, 스텝 S15에 있어서 W를 갱신하고, 스텝 S12로 되돌아간다.

또한, 도 15에서는 스텝 S13, S15가 주파수 bin 루프의 외측에 있는 경우에 대하여 설명했지만, 이들의 처리를 주파수 bin 루프의 내측으로 옮겨, 전술한 도 6의 스텝 S103, S105와 같이 계산해도 된다. 도 15에서는 W가 수렴할 때까지 W의 갱신 처리를 행하는 것으로서 설명했지만, 충분히 큰 소정 횟수 동안 반복하도록 해도 상관없다.

다음으로, 도 16의 온라인 처리를 행하는 경우에 있어서의 분리 처리에 대하여 설명한다. 배치 처리와의 차이는, 1 샘플 공급될 때마다 ΔW를 계산하는 것, 및 ΔW의 갱신식으로부터 평균 조작 Et[?]이 소거되어 있는 것이다. 즉, 우선 스텝 S21에서, 분리 행렬 W에 초기 값을 대입해 둔다. 다음에 스텝 S22에 있어서 W가 수렴하였는지의 여부를 판별하고, 수렴하고 있는 경우에는 처리를 종료하고, 수렴하지 않은 경우에는 스텝 S23으로 진행한다.

계속해서 스텝 S23에 있어서 그 시점에서의 분리 신호 Y를 계산하고, 스텝 S24에 있어서 ΔW를 계산한다. 전술한 바와 같이, 이 ΔW의 갱신식으로부터는 평균 조작 Et[?]이 소거되어 있다. ΔW를 구하면, 스텝 S25에 있어서 W를 갱신한다. 스텝 S22～S25의 처리는, 각 프레임에 대하여 ω의 루프를 돌리면서 모든 프레임에 대하여 반복된다.

스텝 S24에 있어서의 η는 고정치(예를 들면 0.1)이어도 된다. 이와 달리, 프레임 번호 t가 커짐에 따라서 작아지도록 조정하여도 된다. 후자의 경우, 시작 쪽의 프레임에서는 η를 크게(예를 들면 1) 하여 W의 수렴을 빠르게 하고, 끝쪽의 프레임에서는 η를 작게 하여 분리 신호의 급한 변동을 방지하도록 하는 것이 바람직하다.

다음으로, 전술한 스텝 S5(도 14)에 있어서의 리스케일링 처리의 상세 내용을 도 17을 이용하여 설명한다. 종래, 이 리스케일링 처리도 주파수 bin마다 행하고 있었지만, 본 실시예에서는, 상기 식 (13)의 W, X, Y 등을 이용하여 모든 주파수 bin에 대하여 리스케일링 처리를 행하고 있다.

전술한 스텝 S4(도 14)의 분리 처리가 종료한 시점에 분리 행렬 W가 구해져 있다. 그래서 스텝 S31에서는, 이 W에 관측 신호 X'(t)를 곱하는 것에 의해 분리 신호 Y'(t)를 얻는다. 스텝 S31에 있어서의 P는 분산 표준화 행렬이다. X'(t)에 Pμ를 덧붙이고 있는 것은, 스텝 S3(도 14)에서 평균을 0로 한 관측 신호를 원래대로 복귀시키기 위해서이다. 이 단계에서는, 아직 스케일링의 문제가 해소되어 있지 않다.

다음에 스텝 S32에서, 분리 신호로부터 음원마다의 관측 신호를 추정함으로써 스케일링 문제를 해결한다. 이하, 그 원리를 설명한다.

전술한 도 1과 같은 상황에서, 음원 k만이 음(원 신호 k)을 출력하고 있는 것으로 한다. 각 마이크로폰으로 관측되는 신호(음원마다의 관측 신호)는, 음원 k의 신호에 대하여 각 마이크로폰까지의 전달 함수를 컨볼루션 처리함으로써 얻어진다. 여기서, 원신호의 추정과는 달리, 음원마다의 관측 신호에는 스케일링의 부정성(indefiniteness)이 없다. 원신호의 추정에서는, 원래 작은 원신호가 감쇠하지 않고서 마이크로폰에 도달한 경우와 큰 원신호가 마이크로폰에 도달하기까지 감쇠한 경우가 구별될 수 없지만, 음원마다의 관측 신호에서는 양자를 구별할 필요가 없다.

추정된 원신호에서도 분리 신호 Y'로부터 음원마다의 관측 신호를 추정하는 수순은 이하와 같다. 우선, 상기 식 (14)의 좌변과 같이 Y'를 채널마다의 벡터 Y₁(t)~Y_n(t)를 이용하여 표현한다. 다음에, Y' 중의 Y_k(t) 이외를 0 벡터로 치환한 벡터를 만들고, Y_Yk(t)로 한다. Y_Yk(t)는 도 1에서 음원 k만이 소리내고 있는 상황에 상당한다. 음원마다의 관측 신호는 X_Yk(t)=(WP)^-1Y_Yk(t)를 계산함으로써 얻어진다. 이 계산은 전체 채널에 대하여 반복하여 행해진다. X_Yk(t)는 상기 식 (14)의 우변 제2항과 마찬가지로, 모든 마이크로폰에 대한 관측 신호를 포함하고 있다.

후단의 처리에서는, X_Yk(t)를 그대로 사용해도 되며, 혹은 특정한 마이크로폰(예를 들면 첫 번째의 마이크로폰)의 관측 신호만을 추출하여도 된다. 또한, 마이크로폰마다 신호의 파워를 계산하고, 파워가 최대인 신호를 추출해도 된다. 이러한 모든 동작은, 음원에 가장 가까운 마이크로폰으로 관측된 신호를 채용하는 것에 거의 상당한다.

이상 상세히 설명한 바와 같이, 본 실시예에 있어서의 음성 신호 분리 장치(1)에 따르면, 종래와 같은 1차원 확률 밀도 함수를 이용하여 주파수 bin마다의 엔트로피를 계산하는 대신에, 다차원 확률 밀도 함수를 이용하여 스펙트로그램 1매분의 엔트로피를 계산함으로써, 분리후의 후처리를 행하는 일없이 치환의 문제를 해소할 수 있다.

이하, 구체적인 분리 결과를 나타낸다.

구형 분포에 기초하는 다차원 확률 밀도 함수인 상기 식 (42)에 있어서 K= π/2, d=1, h= 1로 하여 분리한 결과를 도 18에 도시한다. 관측 신호는 전술한 "X_rsm2.wav"라고 하는 파일의 최초의 32,000개 샘플이며, 샘플링 주파수는 16 kHz이다. 또한, 단시간 푸리에 변환에서는, 길이 1,024의 해닝 창(Hanning window)을 시프트 폭 128로 사용하고 있다. 따라서, 주파수 bin의 개수 M은 1024/2+1= 513이며, 프레임의 총수 T는 (32,000-1024)/128+1=243이다. 종래의 extended infomax법을 이용하여 분리한 결과인 도 7에서는 치환이 발생하고 있는 반면에, 도 18에서는 후처리를 하지 않음에도 불구하고 치환이 거의 발생하지 않는다.

L_N 노옴에 기초하는 스코어 함수인 상기 식 (49)에 있어서 N= K= d= m= 1로서 분리한 결과를 도 19의 (a)에 도시하며, 상기 식 (51)에 있어서 N= K= d= m= 1로서 분리한 결과를 도 19의 (b)에 도시한다. 관측 신호는 전술한 "X_rsm2.wav"라고 하는 파일의 최초의 40,000개 샘플이며, 샘플링 주파수는 16 kHz이다. 또한, 단시간 푸리에 변환에서는, 길이 512의 해닝 창을 시프트 폭 128로 사용하고 있다. 리턴값이 무차원량이며, 또한, 리턴값의 위상이 ω번째의 위상과 역 위상이라고 하는 조건을 충족시키고 있지 않은 상기 식 (49)를 이용한 경우에는, 도 19의 (a)에서 화살표로 나타낸 바와 같이 분리 결과에 치환이 발생하고 있지만, 이 2개의 조건을 충족시킨 상기 식 (51)을 이용한 경우에는, 도 19의 (b)에 도시한 바와 같이, 후처리를 하지 않음에도 불구하고 치환은 거의 발생하지 않는다.

Copula 모델에 기초하는 다차원 확률 밀도 함수인 상기 식 (73)에 있어서 K=1, α= 1로서 분리한 결과를 도 20에 도시한다. 관측 신호, 샘플링 주파수 및 기타 조건은 도 18과 마찬가지이다. 이 경우에도, 후처리를 하지 않음에도 불구하고 치환은 거의 발생하지 않는다.

다음으로, 전술한 다차원 확률 밀도 함수와 관측 신호의 분리 결과를 이용하여, 도 9, 10과 같은 상태가 실현되고 있는지의 여부를 검증한 결과를 나타낸다. 즉, 이 검증 처리에서는, 치환이 발생하고 있는 상태와 발생하고 있지 않은 상태를 비교했을 때에, 후자쪽이 KL 정보량이 작아지고 있는지 여부를 검증한 결과를 나타낸다.

수순은 이하와 같다. 즉, 우선 도 18에 도시하는 스펙트로그램을 준비하고, 이 상태의 KL 정보량을 상기 식 (17)에 따라서 계산한다. 또한, 이 실험에 있어서는 상기 식 (17)의 제2항과 제3항은 상수라고 볼 수 있고, 이에 따라 치환의 유무에는 영향받지 않기 때문에, 이 실험에서는 O으로 해도 된다. 다음으로, 주파수 bin을 임의로 선택하여, 채널 간에 그 주파수 bin의 데이터를 교환한다. 즉, 인공적으로 치환을 발생시킨다. 데이터를 교환했으면, 상기 식 (17)에 따라서 KL 정보량을 계산한다. 주파수 bin의 중복없이 이 조작을 주파수 bin의 총 수와 동일한 횟수만큼 반복하면, 최종적으로는 채널 간에 모든 신호가 교체된다. 그 과정을 5 단계에서 나타낸 것이 도 21의 (a)～(e)이다. 또한, 도 21의 (a)～(e)는 주파수 bin의 데이터를 각각 0%, 25%, 50%, 75%, 100% 치환한 것이다.

이 조작 후, 종축을 KL 정보량, 횡축을 조작의 횟수, 즉 교환한 주파수 bin의 개수로 하여 표시하면, 도 22와 같은 그래프가 얻어진다. 단, 주파수 bin을 선택하는 순서에는 임의성이 있기 때문에, (a) 신호 성분이 큰 순으로 선택, (b) ω= 1부터 순서대로 선택, (c) (d) 랜덤하게 선택이라고 하는 4가지에 의해 실험하고 있다. (a)의 「신호 성분의 크기 순」이란, 하기 식 (85)에 의해 주파수 bin 마다(ω마다) 계산되는 값 D(ω)의 크기 순이며, 도 21도 이 척도에 따른 것이다.

<공식 42>

도 22의 그래프에서는, 4개의 플롯은 어느 쪽도 양단이 최소값으로 되어 있다. 즉, 본 실시예와 같이 다차원 확률 밀도 함수를 이용하여 신호를 분리함으로써, 치환이 발생하지 않은 경우(양단)의 KL 정보량이 치환이 발생하고 있는 어떠한 경우의 KL 정보량보다도 작은 값을 취하는 것이 실제의 데이터로부터도 뒷받침되었다.

즉, 치환의 정도와, 다차원 확률 밀도 함수를 이용하여 계산되는 KL 정보량 간의 관계를 표시했을 때에, 양단(즉, 치환이 발생하고 있지 않은 상태)이 KL 정보량의 최소값으로 되면, 그 확률 밀도 함수(혹은 그 확률 밀도 함수에 대응한 스코어 함수)를 이용함으로써 치환을 발생시키지 않게 관측 신호를 분리할 수 있다.

본 발명은 전술한 실시예에만 한정되는 것이 아니라, 본 발명의 요지를 일탈하지 않은 범위에서 여러가지의 변경이 가능한 것은 물론이다.

예를 들면, 전체 채널에 걸쳐 신호가 거의 존재하지 않는(0에 가까운 성분밖에 존재하지 않는) 주파수 bin은, 분리가 성공해도 혹은 성공하지 않더라도 시간 영역에서의 신호 분리에는 거의 영향을 주지 않기 때문에, 그와 같은 주파수 bin을 생략하여 스펙트로그램의 데이터의 크기를 축소시킴으로써, 계산량을 삭감하여, 분리 처리를 고속화할 수 있다.

스펙트로그램의 데이터의 크기를 축소시키는 일례로서는, 관측 신호의 스펙트로그램을 생성한 후, 주파수 bin마다 각 신호의 절대값이 소정의 임계치를 상회하고 있는지의 여부의 판정을 행하여, 전체 프레임과 전체 채널에서 임계치를 하회하고 있는 임의의 주파수 bin을, 신호가 존재하지 않는다고 판정하고 스펙트로그램으로부터 제거하는 방법을 들 수 있다. 단, 필요시 복원하기 위해 몇 번째의 주파수 bin을 제거하였는지를 모두 기록해 둔다. 신호가 존재하지 않는 주파수 bin이 m개 있는 것으로 하면, 제거후의 스펙트로그램은 M-m 개의 주파수 bin을 갖는다.

스펙트로그램의 데이터의 크기를 축소시키는 다른 예로서는, 주파수 bin마다 예를 들면 상기 식 (59)에 따라서 신호의 강도를 계산하여, 가장 강력한 상위 M-m개의 주파수 bin을 채용하는(그리고 약한 하위 m개의 주파수 bin을 제거하는) 방법을 들 수 있다.

스펙트로그램의 데이터의 크기를 축소시키면, 이 축소후의 스펙트로그램에 대하여, 표준화, 분리 처리, 리스케일링 처리를 행한다. 제거한 주파수 bin을 다시 삽입한다. 제거한 신호 대신에 모든 성분이 0라는 벡터를 삽입하여도 된다. 이 신호를 역 푸리에 변환함으로써, 시간 영역의 분리 신호를 얻을 수 있다.

전술한 실시예에서는, 마이크로폰의 수와 음원 수가 일치하는 것으로서 설명했지만, 마이크로폰의 수가 음원 수보다도 많은 경우에도 적용가능하다. 이 경우에는, 예를 들면 주성분 분석(Principal Component Analysis; PCA)을 이용함으로써 마이크로폰의 수를 음원 수까지 줄이는 것이 가능하다.

전술한 실시예에서는, 분리 행렬의 수정 값 ΔW(ω)를 구하는 알고리즘으로서 자연 구배법을 이용했지만, 본 발명의 목적을 위해 논-홀로노옴(non-holonomic) 알고리즘에 기초하여 ΔW(ω)를 구하도록 해도 된다. ΔW(ω)를 계산하는 공식은 ΔW(ω)=B?W로 써서 나타낼 수 있으며, B는 적절한 정방 행렬이다. B의 대각 성분이 항상 0으로 되는 식을 이용하고 있는 경우, 그 식을 이용한 갱신식을 비 홀로노옴 알고리즘을 부른다. 또한, 논-홀로노옴에 대해서는, 「이와나미 쇼튼의 『통계 과학의 프론티어5 다변량 해석의 전개』」등에 기재되어 있다.

논-홀로노옴 알고리즘에 기초하는 ΔW(ω)의 갱신식을 하기 식 (86)에 나타낸다. 이 논-홀로노옴 알고리즘을 이용함으로써 W는 직교 방향으로만 변화하도록 되기 때문에, W의 연산 중의 오버플로우를 방지할 수 있다.

<공식 43>

당업자라면, 첨부된 특허청구범위 또는 그 등가물의 범주 내에 있는 한 설계 요건 및 그 밖의 요인에 따라 여러 변경, 결합, 세부 결합 및 수정을 행할 수 있음을 알 것이다.

본 발명에 따른 음성 신호 분리 장치 및 그 방법에 따르면, 음성 신호를 포함하는 복수의 신호가 혼합된 시간 영역의 관측 신호를 독립 성분 분석을 이용하여 개별적인 신호로 분리하여, 분리 신호를 생성할 때에, 초기 값이 대입된 분리 행렬로부터 시간 주파수 영역의 분리 신호를 생성하고, 이 시간 주파수 영역의 분리 신호와 다차원 확률 밀도 함수를 이용한 스코어 함수와 상기 분리 행렬을 이용하여 해당 분리 행렬의 수정 값을 계산하고, 상기 수정 값을 이용하여, 상기 분리 행렬이 대략 수렴할 때까지 해당 분리 행렬을 수정하고, 대략 수렴한 분리 행렬을 이용하여 생성된 시간 주파수 영역의 분리 신호를 시간 영역의 분리 신호로 변환함으로써, 음성 신호의 분리 후의 후처리를 행하는 일없이 치환의 문제를 해소할 수 있다.

Claims

음성 신호를 포함하는 복수의 신호가 혼합된 시간 영역의 관측 신호를 독립 성분 분석을 이용하여 개별적인 신호로 분리하여, 분리 신호를 생성하는 음성 신호 분리 장치로서,

상기 시간 영역의 관측 신호를 시간 주파수 영역의 관측 신호로 변환하는 제1 변환 수단과,

상기 시간 주파수 영역의 관측 신호로부터 시간 주파수 영역의 분리 신호를 생성하는 분리 수단과,

상기 시간 주파수 영역의 분리 신호를 시간 영역의 분리 신호로 변환하는 제2 변환 수단

을 포함하고,

상기 분리 수단은, 상기 시간 주파수 영역의 관측 신호와 초기 값이 대입된 분리 행렬로부터 시간 주파수 영역의 분리 신호를 생성하고, 상기 시간 주파수 영역의 분리 신호와 다차원 확률 밀도 함수를 이용한 스코어 함수와 상기 분리 행렬을 이용하여 상기 분리 행렬의 수정 값을 계산하고, 상기 수정 값을 이용하여 상기 분리 행렬이 수렴될 때까지 상기 분리 행렬을 수정하고, 수렴된 상기 분리 행렬을 이용하여 상기 시간 주파수 영역의 분리 신호를 생성하도록 구성되는, 음성 신호 분리 장치.
제1항에 있어서,

상기 시간 주파수 영역의 분리 신호는 복소 신호이며,

상기 스코어 함수로서, 리턴값(return value)의 위상 성분을 1개의 인수로부터 계산하고, 상기 리턴값의 절대값을 1개 이상의 인수로부터 계산하도록 구성된 스코어 함수를 이용하는, 음성 신호 분리 장치.
제1항에 있어서,

상기 스코어 함수는, 그 리턴값이 무차원량(non-dimensional quantity)이며 상기 리턴값의 위상이 1개의 인수에만 의존하는, 음성 신호 분리 장치.
음성 신호를 포함하는 복수의 신호가 혼합된 시간 영역의 관측 신호를 독립 성분 분석을 이용하여 개별적인 신호로 분리하여, 분리 신호를 생성하는 음성 신호 분리 방법으로서,

상기 시간 영역의 관측 신호를 시간 주파수 영역의 관측 신호로 변환하는 단계와,

상기 시간 주파수 영역의 관측 신호와 초기 값이 대입된 분리 행렬로부터 시간 주파수 영역의 분리 신호를 생성하는 단계와,

상기 시간 주파수 영역의 분리 신호와 다차원 확률 밀도 함수를 이용한 스코어 함수와 상기 분리 행렬을 이용하여 상기 분리 행렬의 수정 값을 계산하는 단계와,

상기 수정 값을 이용하여, 상기 분리 행렬이 수렴될 때까지 상기 분리 행렬을 수정하는 단계와,

수렴된 상기 분리 행렬을 이용하여 생성된 상기 시간 주파수 영역의 분리 신호를 시간 영역의 분리 신호로 변환하는 단계

를 포함하는, 음성 신호 분리 방법.
제4항에 있어서,

상기 시간 주파수 영역의 분리 신호는 복소 신호이며,

상기 스코어 함수로서, 리턴값의 위상 성분을 1개의 인수로부터 계산하고, 상기 리턴값의 절대값을 1개 이상의 인수로부터 계산하도록 구성된 스코어 함수를 이용하는, 음성 신호 분리 방법.
제4항에 있어서,

상기 스코어 함수는, 그 리턴값이 무차원량이며 상기 리턴값의 위상이 1개의 인수에만 의존하는, 음성 신호 분리 방법.
음성 신호를 포함하는 복수의 신호가 혼합된 시간 영역의 관측 신호를 독립 성분 분석을 이용하여 개별적인 신호로 분리하여, 분리 신호를 생성하는 음성 신호 분리 장치로서,

상기 시간 영역의 관측 신호를 시간 주파수 영역의 관측 신호로 변환하는 제1 변환부와,

상기 시간 주파수 영역의 관측 신호로부터 시간 주파수 영역의 분리 신호를 생성하는 분리부와,

상기 시간 주파수 영역의 분리 신호를 시간 영역의 분리 신호로 변환하는 제2 변환부

를 포함하고,

상기 분리부는, 상기 시간 주파수 영역의 관측 신호와 초기 값이 대입된 분리 행렬로부터 시간 주파수 영역의 분리 신호를 생성하고, 상기 시간 주파수 영역의 분리 신호와 다차원 확률 밀도 함수를 이용한 스코어 함수와 상기 분리 행렬을 이용하여 상기 분리 행렬의 수정 값을 계산하고, 상기 수정 값을 이용하여 상기 분리 행렬이 수렴될 때까지 상기 분리 행렬을 수정하고, 수렴된 상기 분리 행렬을 이용하여 상기 시간 주파수 영역의 분리 신호를 생성하도록 구성되는, 음성 신호 분리 장치.