KR20060126391A - 음성 신호 분리 장치 및 방법 - Google Patents

음성 신호 분리 장치 및 방법 Download PDF

Info

Publication number
KR20060126391A
KR20060126391A KR1020060049780A KR20060049780A KR20060126391A KR 20060126391 A KR20060126391 A KR 20060126391A KR 1020060049780 A KR1020060049780 A KR 1020060049780A KR 20060049780 A KR20060049780 A KR 20060049780A KR 20060126391 A KR20060126391 A KR 20060126391A
Authority
KR
South Korea
Prior art keywords
signal
spectrogram
permutation
channels
permutation problem
Prior art date
Application number
KR1020060049780A
Other languages
English (en)
Other versions
KR101241683B1 (ko
Inventor
아쯔오 히로에
게이이찌 야마다
Original Assignee
소니 가부시끼 가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 가부시끼 가이샤 filed Critical 소니 가부시끼 가이샤
Publication of KR20060126391A publication Critical patent/KR20060126391A/ko
Application granted granted Critical
Publication of KR101241683B1 publication Critical patent/KR101241683B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

복수의 신호가 혼합된 음성 신호를 독립 성분 분석을 이용하여 신호마다 분리할 때에, 원신호에 대한 지식이나 마이크로폰의 위치 등에 대한 정보를 이용하지 않고 높은 정밀도로 퍼뮤테이션 문제를 해소한다. 단시간 푸리에 변환부는, 시간 영역의 관측 신호로부터 관측 신호의 스펙트로그램을 생성한다. 신호 분리부는, 관측 신호의 스펙트로그램을 신호마다 분리하여, 분리 신호의 스펙트로그램을 생성한다. 퍼뮤테이션 문제 해소부는, 퍼뮤테이션의 정도에 대응한 척도, 예를 들면 다차원 확률 밀도 함수를 이용하여 계산되는 Kullback-Leiblar 정보량, 또는 다차원의 첨도를 분리 신호의 스펙트로그램의 대략 전체로부터 계산한다. 해당 척도에 기초하여 분리 신호의 스펙트로그램의 각 주파수 bin의 신호를 채널간에 교체함으로써 퍼뮤테이션 문제를 해소한다.
음성 신호, 독립 성분 분석, 퍼뮤테이션, 스펙트로그램, 다차원 확률 밀도 함수

Description

음성 신호 분리 장치 및 방법{AUDIO SIGNAL SEPARATION DEVICE AND METHOD THEREOF}
도 1은 시간 주파수 영역에서의 종래의 독립 성분 분석의 개략을 설명하는 도면.
도 2는 관측 신호 및 그 스펙트로그램과, 분리 신호, 그 스펙트로그램, 및 퍼뮤테이션 문제 해소후의 스펙트로그램을 나타내는 도면.
도 3은 본 실시예에 따른 스펙트로그램의 일례를 도시하는 도면.
도 4는 채널 수=2일 때의, 각 채널의 엔트로피 H(Yk)와 전체 채널의 동시 엔트로피 H(Y)와의 관계를 나타내는 도면.
도 5는 채널 수=2일 때에 주파수 bin을 랜덤하게 선택하여 교체한 경우의 스펙트로그램의 상태를 나타내는 도면.
도 6은 채널 수=2일 때의, 주파수 bin의 교체의 개수(횡축)와 KL 정보량(종축)과의 관계를 나타내는 그래프.
도 7은 채널 수=2일 때의, 주파수 bin의 교체의 개수(횡축)와 KL 정보량(종축)과의 관계를 나타내는 그래프.
도 8은 채널 수=2일 때의, 주파수 bin의 교체의 개수(횡축)와 KL 정보량(종 축)과의 관계를 나타내는 그래프.
도 9는 채널 수=3일 때에 주파수 bin을 랜덤하게 선택하여 교체한 경우의 스펙트로그램의 상태를 나타내는 도면.
도 10은 채널 수=3일 때의, 주파수 bin의 교체의 개수(횡축)와 KL 정보량(종축)과의 관계를 나타내는 그래프.
도 11은 채널 수=3일 때의, 주파수 bin의 교체의 개수(횡축)와 KL 정보량(종축)과의 관계를 나타내는 그래프.
도 12는 채널 수=3일 때의, 주파수 bin의 교체의 개수(횡축)와 KL 정보량(종축)과의 관계를 나타내는 그래프.
도 13은 채널 수=2, f(x)=exp(-|x|)일 때의, 주파수 bin의 교체의 개수(횡축)와 KL 정보량(종축)과의 관계를 나타내는 그래프.
도 14는 채널 수=2 및 3일 때의, 주파수 bin의 교체의 개수(횡축)와 전체의 첨도(kurtosis)(종축)와의 관계를 나타내는 그래프.
도 15는 본 실시예에 따른 음성 신호 분리 장치의 개략 구성을 나타내는 도면.
도 16은 상기한 음성 신호 분리 장치의 처리의 개략을 설명하는 플로우차트.
도 17은 퍼뮤테이션 문제 해소 처리의 일례를 상세히 설명하는 플로우차트.
도 18은 기존의 방법으로 분리 처리를 행한 결과를 나타내는 도면.
도 19는 도 18의 스펙트로그램에 대하여, 본 실시예의 방법으로 퍼뮤테이션 문제를 해소한 결과를 나타내는 도면.
도 20은 채널 수=2일 때에 약 33%의 주파수 bin의 신호를 교체한 경우의 스펙토그램을 나타내는 도면.
도 21은 도 20의 스펙트로그램에 대하여, 본 실시예의 방법으로 퍼뮤테이션 문제를 해소한 결과를 나타내는 도면.
도 22는 채널 수=2일 때에 약 50%의 주파수 bin의 신호를 교체한 경우의 스펙트로그램을 나타내는 도면.
도 23은 도 22의 스펙트로그램에 대하여, 본 실시예의 방법으로 퍼뮤테이션 문제를 해소한 결과를 나타내는 도면.
도 24는 채널 수=3일 때에 약 33%의 주파수 bin의 신호를 교체한 경우의 스펙트로그램을 나타내는 도면.
도 25는 도 24의 스펙트로그램에 대하여, 본 실시예의 방법으로 퍼뮤테이션 문제를 해소한 결과를 나타내는 도면.
도 26은 채널 수=3일 때에 모든 주파수 bin의 신호를 교체한 경우의 스펙트로그램을 나타내는 도면.
도 27은 도 26의 스펙트로그램에 대하여, 본 실시예의 방법으로 퍼뮤테이션 문제를 해소한 결과를 나타내는 도면.
도 28은 채널 수=4일 때에 약 66%의 주파수 bin의 신호를 교체한 경우의 스펙트로그램을 나타내는 도면.
도 29는 도 28의 스펙트로그램에 대하여, 본 실시예의 방법으로 퍼뮤테이션 문제를 해소한 결과를 나타내는 도면.
도 30은 채널 수=4일 때에 모든 주파수 bin의 신호를 교체한 경우의 스펙트로그램을 나타내는 도면.
도 31은 도 30의 스펙트로그램에 대하여, 본 실시예의 방법으로 퍼뮤테이션 문제를 해소한 결과를 나타내는 도면.
도 32는 퍼뮤테이션 문제 해소 처리의 다른 예를 상세히 설명하는 플로우차트.
도 33은 유전적 알고리즘을 이용한 퍼뮤테이션 문제 해소 처리의 예를 상세히 설명하는 플로우차트.
도 34는 유전적 알고리즘에 따른 염색체의 예를 도시하는 도면.
도 35는 유전적 알고리즘에 따른 교차(cross-over)의 예를 도시하는 도면.
도 36은 유전적 알고리즘에 따른 돌연 변이의 예를 도시하는 도면.
도 37은 유전적 알고리즘에 따른 염색체내 교체의 예를 도시하는 도면.
도 38은 선택 조작의 일례를 상세히 설명하는 플로우차트.
도 39a 및 도 39b는 선택 조작에서 이용하는 생존 확률의 함수의 일례를 도시하는 도면.
<도면의 주요 부분에 대한 부호의 설명>
1 : 음성 신호 분리 장치
101∼10n : 마이크로폰
11 : A/D 변환부
12 : 단시간 푸리에 변환부
13 : 신호 분리부
14 : 리스케일링부
15 : 퍼뮤테이션 문제 해소부
16 : 역 푸리에 변환부
17 : D/A 변환부
181∼18n : 스피커
<비특허 문헌> 무라타 노보루저, 「입문· 독립 성분 분석」, 도쿄 전기 대학 출판국
<특허 문헌 1> 일본 특개 2004-145172호 공보
<특허 문헌 2> 일본 특개 2004-126198호 공보
<관련 출원에 대한 상호 참조>
본 발명은 2005년 6월 3일에 일본 특허청에 출원된 일본 특허 출원 JP 2005-164463에 관련된 요지를 포함하고 있으며, 그 전체 내용은 참조로 본 명세서에 포함된다.
본 발명은, 복수의 신호가 혼합된 음성 신호를 독립 성분 분석(Independent Component Analysis; ICA)을 이용하여 신호마다 분리하는 음성 신호 분리 장치 및 그 방법에 관한 것이다.
복수의 원신호가 미지의 계수에 의해서 선형으로 혼합되어 있을 때에, 원신호를 분리 및 복원하는 독립 성분 분석의 방법이 신호 처리의 분야에서 주목받고 있다. 이 독립 성분 분석을 음성 신호에 응용함으로써, 예를 들면 복수의 화자가 동시에 발성한 음성을 복수의 마이크로폰으로 관측하여, 관측된 음성을 화자별로 분리하거나, 화자의 음성과 노이즈로 분리하거나 하는 것이 가능하게 된다.
시간 주파수 영역의 독립 성분 분석을 이용하여, 복수의 신호가 혼합된 음성 신호를 신호마다 분리하는 경우에 대해, 도 1을 이용하여 설명한다. 시간 주파수 영역의 독립 성분 분석이란, 복수의 마이크로폰으로 관측된 신호를, 단시간 푸리에 변환에 의해서 시간 주파수 영역의 신호(스펙트로그램)로 변환하여, 시간 주파수 영역에서 분리를 행하는 방식의 것이다(비특허 문헌 1 참조).
n개의 음원이 발하는 상호 독립인 원신호를 s1∼sn으로 하고, 이들을 요소로 하는 벡터를 s로 한다. 각 마이크로폰으로 관측되는 관측 신호는, 복수의 원신호가 혼합된 것이다. n개의 마이크로폰으로 관측된 신호를 x1∼xn으로 하고, 이들을 요소로 하는 벡터를 x로 한다. 마이크로폰의 수 n이 2일 때, 즉 채널 수가 2일 때의 관측 신호 x의 예를 도 2의 (A)에 도시한다. 다음으로, 관측 신호 x에 대하여 단시간 푸리에 변환을 실시하여, 시간 주파수 영역의 관측 신호 X를 얻는다. X의 요소를 Xk(ω,t)로 하면, Xk(ω,t)는 복소수값을 취한다. Xk(ω,t)의 절대값인 |Xk(ω,t)|를 색의 농담으로 표현한 그래프를 스펙트로그램이라 한다. 관측 신호 X의 스펙트로그램의 예를 도 2의 (B)에 도시한다. 이 도면에서, t는 프레임 번호(1≤t≤T)를 나타내며, ω는 주파수 bin 번호(1≤ω≤M)를 나타낸다. 계속해서, 신호 X의 각 주파수 bin에 분리 행렬 W(ω)를 승산함으로써 분리 신호 Y'를 얻는다. 분리 신호 Y'의 스펙트로그램의 예를 도 2의 (C)에 도시한다.
전술한 시간 주파수 영역의 독립 성분 분석에서는, 신호의 분리 처리를 주파수 bin 마다 행하고 있으며, 주파수 bin 간의 관계는 고려하고 있지 않다. 그 때문에, 분리 자체는 성공해도, 주파수 bin 간에 분리처가 통일되지 않는 일이 발생하는 경우가 많다. 이 분리처가 통일되지 않는 것이란, 예를 들면 ω=1에서는 Y1에 s1 유래의 신호가 나타나는 데 대하여 ω=2에서는 Y1에 s2 유래의 신호가 나타난다고 하는 현상의 것으로, 퍼뮤테이션(permutation) 문제로도 불리우고 있다.
후처리로서 주파수 bin마다 신호를 교체하여, 분리처를 일치시킴으로써, 퍼뮤테이션 문제를 해소한다. 퍼뮤테이션 문제가 해소된 분리 신호 Y의 스펙트로그램의 예를 도 2의 (D)에 도시한다. 마지막으로, 분리 신호 Y에 역 푸리에 변환을 실시함으로써, 도 2의 (E)에 도시하는 것과 같은 시간 영역의 분리 신호 y를 얻는다.
전술된 바와 같이, 퍼뮤테이션 문제를 해소하기 위해서는, 후처리에 의한 교 체가 행해진다. 이 후처리에서는, 우선 주파수 bin 마다의 분리에 의해서 도 2의 (C)와 같은 스펙트로그램을 얻고, 그 후, 소정의 기준에 따라서 채널 간에 분리 신호의 교체를 행함으로써 도 2의 (D)와 같은 스펙트로그램을 얻는다. 교체의 기준으로서는, (a) 엔벨로프들 간의 유사성(비특허 문헌 1 참조)를 이용하는 것, (b) 추정된 음원 방향을 이용하는 것(특허 문헌 1 참조), (c) (a)와 (b)의 조합, 또는 (d) 뉴럴 네트워크를 이용하는 것(특허 문헌 2 참조)을 들 수있다.
그러나, 상기 (a)는, 주파수 bin에 따라서는 엔벨로프들 간의 차이가 불명료한 경우가 있으며, 그와 같은 경우에는 신호의 교체 오류가 발생할 수 있다. 교체를 한번 잘못하면, 그 이후의 주파수 bin에서는 모두 분리처를 잘못하여 버리는 것으로 된다. 상기 (b)는, 방향 추정의 정밀도에 문제가 있고, 또한 마이크로폰의 위치·방향·간격 등의 정보가 필요하다. (a) 및 (b)를 조합시킨 상기 (c)는, 교체의 정밀도는 향상하고 있지만, 상기 (b)와 마찬가지로 마이크로폰의 위치 정보 등이 필요하다. 상기 (d)는, 사전에 뉴럴 네트워크를 구축해 놓을 필요가 있으며, 원신호에 대한 소정의 지식을 필요로 한다.
이와 같이, 종래에는, 원신호에 대한 지식이나 마이크로폰의 위치 등에 대한 정보를 이용하지 않고 높은 정밀도로 퍼뮤테이션 문제를 해소하는 방법이 존재하지 않았다.
본 발명은, 이러한 종래의 실정을 감안하여 제안된 것으로, 복수의 신호가 혼합된 음성 신호를 독립 성분 분석을 이용하여 신호마다 분리할 때에, 원신호에 대한 지식이나 마이크로폰의 위치 등에 대한 정보를 이용하지 않고 높은 정밀도로 퍼뮤테이션 문제를 해소하는 것이 가능한 음성 신호 분리 장치 및 그 방법을 제공하는 것을 목적으로 한다.
본 발명에 따른 음성 신호 분리 장치는, 복수의 신호가 혼합된 복수 채널의 시간 영역의 관측 신호를 독립 성분 분석을 이용하여 신호마다 분리하여 분리 신호를 생성하는 음성 신호 분리 장치로서, 상기 시간 영역의 관측 신호를 시간 주파수 영역으로 변환하여, 관측 신호의 스펙트로그램을 생성하는 변환 수단과, 상기 관측 신호의 스펙트로그램으로부터 분리 신호의 스펙트로그램을 생성하는 분리 수단과, 상기 분리 신호의 스펙트로그램의 퍼뮤테이션 문제를 해소하는 퍼뮤테이션 문제 해소 수단을 구비하고,상기 퍼뮤테이션 문제 해소 수단은, 퍼뮤테이션의 정도에 대응한 척도를 상기 분리 신호의 스펙트로그램의 대략 전체로부터 계산하여, 계산된 척도에 따라 상기 분리 신호의 스펙트로그램의 각 주파수 bin의 신호를 채널 간에 교체함으로써 퍼뮤테이션 문제를 해소하는 것을 특징으로 한다.
또한, 본 발명에 따른 음성 신호 분리 방법은, 복수의 신호가 혼합된 복수 채널의 시간 영역의 관측 신호를 독립 성분 분석을 이용하여 신호마다 분리하여 분리 신호를 생성하는 음성 신호 분리 방법으로서, 상기 시간 영역의 관측 신호를 시간 주파수 영역으로 변환하여, 관측 신호의 스펙트로그램을 생성하는 변환 단계와, 상기 관측 신호의 스펙트로그램로부터 분리 신호의 스펙트로그램을 생성하는 분리 단계와, 상기 분리 신호의 스펙트로그램의 퍼뮤테이션 문제를 해소하는 퍼뮤테이션 문제 해소 단계를 갖고, 상기 퍼뮤테이션 문제 해소 단계에서는, 퍼뮤테이션의 정 도에 대응한 척도를 상기 분리 신호의 스펙트로그램의 대략 전체로부터 계산하여, 계산된 척도에 따라 상기 분리 신호의 스펙트로그램의 각 주파수 bin의 신호를 채널 간에 교체함으로써 퍼뮤테이션 문제를 해소하는 것을 특징으로 한다.
본 발명에 따른 음성 신호 분리 장치 및 그 방법에 따르면, 복수의 신호가 혼합된 음성 신호를 독립 성분 분석을 이용하여 분리할 때에, 원신호에 대한 지식이나 마이크로폰의 위치 등에 대한 정보를 이용하지 않고 높은 정밀도로 퍼뮤테이션 문제를 해소할 수 있다.
<발명의 실시예>
이하, 본 발명을 적용한 구체적인 실시예에 대하여, 도면을 참조하면서 상세히 설명한다. 이 실시예는, 본 발명을, 복수의 신호가 혼합된 음성 신호를 독립 성분 분석을 이용하여 신호마다 분리하는 음성 신호 분리 장치에 적용한 것이다. 특히, 본 실시예에 있어서의 음성 신호 분리 장치는, 퍼뮤테이션의 정도를 측정하는 척도로서, 다차원 확률 밀도 함수를 이용하여 계산되는 Ku1lback-Leiblar 정보량(이하, 「KL 정보량」이라 함), 또는 다차원의 첨도를 스펙트로그램 전체(혹은 대략 전체)로부터 계산하여, 퍼뮤테이션의 정도가 최소로 되도록 주파수 bin 마다의 신호를 교체한다.
본 실시예에 따른 스펙트로그램의 일례를 도 3에 도시한다. 도 3은, 채널 k(1≤ k≤n)의 스펙트로그램 Yk을 나타낸 것이다. 본 명세서에서는, 이 스펙트로그램 Yk로부터 프레임 번호 t(1≤t≤T)의 부분을 잘라낸 벡터를 Yk(t)로 하고, 주파수 bin 번호 ω(1≤ω≤M)의 부분을 잘라낸 벡터를 Yk(ω)로 한다. 스펙트로그램 Yk의 각 요소를 Yk(ω, t)로 한다. Y1(ω)~Yn(ω)를 요소로 하는 벡터를 Y(ω)로 하고, Y1~Yn을 요소로 하는 벡터를 Y로 한다. 이들 벡터, Y, Y(ω), Yk(t), Yk(ω)를 하기 수학식 1~4로 나타낸다.
Figure 112006039179155-PAT00001
Figure 112006039179155-PAT00002
Figure 112006039179155-PAT00003
Figure 112006039179155-PAT00004
이하에서는 우선, 다차원 확률 밀도 함수를 이용하여 계산되는 KL 정보량과 다차원의 첨도가 퍼뮤테이션의 정도를 측정하는 척도로서 이용될 수 있는 점에 대하여 설명하고, 다음으로, 본 실시예에 따른 음성 신호 분리 장치의 구체적 구성에 대하여 설명한다.
(다차원 확률 밀도 함수를 이용하여 계산되는 KL 정보량)
KL 정보량이란, 복수의 신호 사이의 독립성을 나타내는 척도로서, 하기 수학식 5와 같이 정의된다. 이 수학식 5에서, H(Yk)은 채널 k의 스펙트로그램 Yk로부터 계산되는 엔트로피이며, H(Y)는 전체 채널의 스펙트로그램 Y로부터 계산되는 동시엔트로피이다. 채널 수=2일 때의 H(Yk)와 H(Y)와의 관계를 도 4에 도시한다.
Figure 112006039179155-PAT00005
Figure 112006039179155-PAT00006
Figure 112006039179155-PAT00007
수학식 5에서 정의되는 KL 정보량은 스펙트로그램 전체로부터 계산되는 양이기 때문에, 스펙트로그램에 퍼뮤테이션이 발생하고 있는지의 여부에 따라 값이 달라진다. 이하, 보다 상세히 설명한다.
분리 직후의 퍼뮤테이션이 발생하고 있는 스펙트로그램을 Y', 퍼뮤테이션 문제의 해소 후의 스펙트로그램을 Y로 하고, 퍼뮤테이션 문제를 해소하는 조작(즉, 동일한 주파수 bin의 채널 간에 신호를 교체하는 조작)을 나타내는 행렬을 P로 하면, Y= PY'이라고 쓸 수 있다. 따라서, 상기 수학식 5는 상기 수하식 6과 같이 변 형될 수 있다. 수학식 6의 첫 번째 항목은 엔트로피의 정의식에 기초한 것이며, 두 번째 항목 및 세 번째 항목은 Y=PY'로부터 H(Y)=log|det(P)|+ H(Y')라는 관계가 도출되는 것에 기초한다. 행렬 P는 단위 행렬의 행을 교체한 것이기 때문에 det(P)=±1이며, H(Y')는 퍼뮤테이션 문제를 해소하는 데에 있어서는 상수라고 볼 수 있기 때문에, 상기 수학식 6은 상기 수학식 7과 같이 변형될 수 있다. KL 정보량의 크기는, 모든 채널의 엔트로피 H(Yk)의 총합으로 결정되고, 전체 채널의 동시 엔트로피 H(Y)에 의존하지 않는다.
채널 k의 엔트로피 H(Yk)를 구할 때는, 스펙트로그램 Yk로부터 프레임 번호 t의 부분을 잘라낸 벡터 Yk(t)를, Yk의 확률 밀도 함수(PDF)인 PYk()에 대입함으로써 벡터의 발생 확률을 구한다. H(Yk)는 그 발생 확률의 대수값에 마이너스를 붙여, 그것을 전체 시각으로 평균한 것으로서 계산된다. Et[]는 시간 방향의 평균을 나타낸다.
Yk(t)를 PYk()에 대입하여 발생 확률을 구할 때, 반드시 Yk(t)의 전체 요소를 사용할 필요는 없다. 예를 들면, 주파수 bin마다(ω마다)의 파워 D(ω)를 하기 수학식 9에 따라 계산하여, 파워의 상위 L개의 주파수 bin에 해당하는 요소만을 사용하도록 해도 된다.
Figure 112006039179155-PAT00008
KL 정보량의 크기와 퍼뮤테이션의 정도에는 소정의 관계가 있으며, 확률 밀도 함수 PYk()의 설정에 따라, 퍼뮤테이션이 발생하지 않은 경우를 KL 정보량의 최대값 또는 최소값으로 설정할 수 있다.
일례로서, 스펙트로그램 Yk의 확률 밀도 함수를 하기 수학식 9로 정의한다. 즉, 스칼라 값을 인수로 하는 임의의 논 네가티브 함수 f()에 대하여 Yk(t)의 L-N 노옴을 대입한 것을 확률 밀도 함수로서 이용한다. L-N 노옴이란, 하기 수학식 10에 나타내는 바와 같이 벡터의 요소의 절대값을 n승하고 나서 총합하고, 마지막으로 n승근을 취한 것이다. 수학식 9에 있어서의 h는, PYk(Yk(t))의 각 인수에 대하여 -∞∼+∞의 범위에서 적분한 값을 1로 조정하기 위해, 즉 발생 확률의 총합을 1로 조정하기 위한 상수이다. 그러나, 퍼뮤테이션 문제를 해소하는 데에 있어서는 KL 정보량의 크기만이 중요하기 때문에, 플러스의 값이면 h는 어떠한 값이라도 상관없다. 이하에서는 h= 1으로 한다.
Figure 112006039179155-PAT00009
Figure 112006039179155-PAT00010
상기 수학식 9에 있어서의 함수 f()로서는 여러가지 것이 사용가능하다. f()의 예와, 그 때의 logPYk(Yk(t))를 하기 수학식 11∼20으로 나타낸다. 수학식 15에 있어서의 f(x)=1/|x|m을 이용한 PYk(Yk(t))는 적분값이 발산하기 때문에 확률 밀도 함수의 성질을 만족시키지 않지만, 엔트로피 자체는 계산가능하기 때문에, 본 명세서에서는, 확률 밀도 함수의 일례로서 예를 들고 있다.
Figure 112006039179155-PAT00011
Figure 112006039179155-PAT00012
Figure 112006039179155-PAT00013
Figure 112006039179155-PAT00014
Figure 112006039179155-PAT00015
Figure 112006039179155-PAT00016
Figure 112006039179155-PAT00017
Figure 112006039179155-PAT00018
Figure 112006039179155-PAT00019
Figure 112006039179155-PAT00020
이하, KL 정보량이 최대값 또는 최소값을 취하는 것은 퍼뮤테이션이 발생하지 않은 경우에 한정되는 것을 검증한 실험에 대하여 설명한다. 이 실험에서는, 퍼뮤테이션이 발생하지 않은 2매의 스펙트로그램에 대하여 인공적으로 퍼뮤테이션을 발생시키고, 퍼뮤테이션의 정도와 KL 정보량과의 관계를 플롯하여, KL 정보량이 최대값 또는 최소값을 취하는 것은 퍼뮤테이션이 발생하지 않은 경우에 한정되는 것을 검증하였다.
우선, 채널 수=2인 경우에 대하여 설명한다.
이 실험에서는, 우선, 웹 사이트(http:www.kecl.ntt.co.jp/icl/signal/mukai/demo/hscma2005/)에서 공개되어 있는 「s1.wav」 및 「s2.wav」라고 하는 파일(샘플링 주파수 16kHz)로부터 각각 선두의 4만 샘플을 취출하여, 이 시간 영역의 신호에 대하여 단시간 푸리에 변환(창 길이=512, 시프트 폭=128)을 실시하여, 퍼뮤테이션이 발생하지 않은 2매의 스펙트로그램(주파수 bin 수=257, 프레임 수= 497)를 생성하였다. 이 2매의 스펙트로그램에 대하여, 소정의 기준에 따라서 주파수 bin을 1개 선택하여, 그 주파수 bin의 신호를 교체하여 인공적으로 퍼뮤테이션을 발생시켰다. 주파수 bin의 선택 기준으로서는, (a) 파워가 큰 주파수 bin으로부터 선택, (b)ω= 1로부터 선택, (c) (d) 랜덤하게 선택의 4가지를 시험하고, 어느 것이나 이미 선택된 주파수 bin은 선택하지 않는 것으로 하였다.
주파수 bin을 랜덤하게 선택하여 교체한 경우의 스펙트로그램의 상태를 도 5에 도시한다. 도 5의 (A)∼(D)는, 원래의 스펙트로그램의 주파수 bin을 각각 0%(0개), 33%(85개), 67%(171개), 100%(257개) 교체한 것이다. 주파수 bin을 1 OO% 교체한 것은 스펙트로그램 자체를 교체한 것과 동일하기 때문에, 퍼뮤테이션은 발생하지 않는다.
주파수 bin의 신호를 교체할 때마다 KL 정보량을 계산하여, 교체의 개수(횡 축)와 KL 정보량(종축)과의 관계를 플롯한 결과를 도 6∼도 8에 도시한다. 그래프가 위로 볼록으로 되는지 아래로 볼록으로 되는지는, f() 및 N의 값에 따라서 상이하지만, 어떠한 경우에도 그래프의 양단, 즉 퍼뮤테이션이 발생하지 않은 상태에서, KL 정보량이 최소값(그래프가 위로 볼록한 경우) 또는 최대값(그래프가 아래로 볼록한 경우)으로 되어 있다. 즉, KL 정보량은 퍼뮤테이션의 정도를 측정하는 척도가 될 수 있는 것이 실험적으로 확인되었다.
도 6∼도 8에 도시하고 있지 않은 함수에 대한 결과를 이하의 표 1에 나타낸다. 이 표 1에서,「∩」는 위로 볼록한 그래프(양단이 최소값)를 나타내며, 「U」는 아래로 볼록한 그래프(양단이 최대값)를 나타내며, 「일정」은 퍼뮤테이션의 정도에 상관없이 일정 값으로 되는 것을 나타내고 있다. 또한, 공란은 계산이 발산하여 값을 계산할 수 없는 것을 나타낸다.
Figure 112006039179155-PAT00021
위로 볼록으로 되는 함수를 이용한 경우에는, KL 정보량이 감소하도록 주파수 bin의 신호를 교체함으로써 퍼뮤테이션 문제를 해소할 수가 있으며, 아래로 볼록으로 되는 함수를 이용한 경우에는, KL 정보량이 증대하도록 주파수 bin의 신호를 교체함으로써 퍼뮤테이션 문제를 해소할 수 있다.
KL 정보량의 그래프가 위로 볼록으로 되는지 아래로 볼록으로 되는지는, f()를 일차원의 확률 밀도 함수로 보았을 때에, 분포가 수퍼가우스(super-gaussian)인지 서브가우스(sub-gaussian)인지에 따라 달라진다. 수퍼가우스란, 정규 분포(gaussian)와 비교하여 평균값 부근의 분포가 뾰족한 한쪽에서 주변의 분포가 완만한 모양(엣지 범위가 넓음)인 것을 나타낸다. 한편, 서브가우스란, 평균값 부근의 분포는 넓지만 주변의 분포는 적은 것을 나타낸다.
다음으로, 채널 수=3인 경우에 대하여 설명한다.
이 실험에 있어서도, 우선, 웹 사이트(http://www.kecl.ntt.co.jp/ic1/signa1/mukai/demo/hscma2005/)에서 공개되어 있는 「s1.wav」,「s2.wav」 및「s3.wav」라고 하는 파일(샘플링 주파수 16kHz)로부터 각각 선두의 4만 샘플을 취출하여, 이 시간 영역의 신호에 대하여 단시간 푸리에 변환(창 길이=512, 시프트 폭= 128)을 실시하여, 퍼뮤테이션이 발생하지 않은 3매의 스펙트로그램(주파수 bin 수=257, 프레임 수= 497)를 생성하였다. 이 3매의 스펙트로그램에 대하여, 전술한 (a)∼(d)의 기준에 따라서 주파수 bin을 1개 선택하여, 그 주파수 bin의 신호를 교체하여 인공적으로 퍼뮤테이션을 발생시켰다.
주파수 bin을 랜덤하게 선택하여 교체한 경우의 스펙트로그램의 상태를 도 9에 도시한다. 도 9의 (A)∼(D)는, 원래의 스펙트로그램의 주파수 bin을 각각 0%(0개), 33%(85개), 67%(171개), 100%(257개) 교체한 것이다. 채널 수=3이기 때문에, 주파수 bin을 100% 교체한 경우에도 퍼뮤테이션은 발생하고 있다.
주파수 bin의 신호를 교체할 때마다 KL 정보량을 계산하여, 교체의 개수(횡축)와 KL 정보량(종축)과의 관계를 플롯한 결과를 도 10∼도 12에 도시한다. 그래프가 위로 볼록으로 될지 아래로 볼록으로 될지는, f() 및 N의 값에 따라서 달라지지만, 어떠한 경우에도 그래프의 좌단, 즉 퍼뮤테이션이 발생하지 않은 상태에서, KL 정보량이 최소값(그래프가 위로 볼록한 경우) 또는 최대값(그래프가 아래로 볼록한 경우)으로 되어 있다. 즉, KL 정보량은 퍼뮤테이션의 정도를 측정하는 척도가 될 수 있는 것이 실험적으로 확인되었다.
이상, 일례로서 L-N 노옴에 기초하는 다차원 확률 밀도 함수를 이용한 경우에 대해 설명했지만, 다른 다차원 확률 밀도 함수도 사용가능하다.
예를 들면, 상기 수학식 9에 있어서 f()에 대입하고 있는 값을 L-N 노옴으로부터 마하라노비스(Mahalanobis) 거리(Yk(t)HK -1Yk(t)의 평방근)로 치환하면, 하기 수학식 21이 얻어진다. 이 수학식 21에서 부여되는 확률 밀도 함수는 타원 분포라 불린다. 본 실시예에서는, 이 타원 분포에 기초하는 확률 밀도 함수도 사용가능하다. 이 수학식 21에서 Yk(t)H는 Yk(t)의 에르미트 전치(Hermitian transposition)(요소를 공역 복소수로 치환하고, 벡터나 행렬을 전치함)이다. 또한, ∑K는 Yk(t)의 분산 공분산 행렬이고, 하기 수학식 22에 따라 계산된다.
Figure 112006039179155-PAT00022
Figure 112006039179155-PAT00023
채널 수=2, f(x)= exp(-|x|)인 경우에, 주파수 bin의 교체의 개수(횡축)와 KL 정보량(종축)과의 관계를 플롯한 결과를 도 13의 (A)에 도시한다. 그래프가 위로 볼록으로 될지 아래로 볼록으로 될지는 f()에 의해서 결정되며, 그 경향은, L-N 노옴을 이용한 경우의 N=2와 마찬가지이다. 그러나, 분산 공분산 행렬 Σk의 역행렬을 곱함으로써, 주파수 bin마다의 파워에는 의존하지 않고, 대략 중간에서 극대(또는 극소)로 되는 매끄러운 그래프가 얻어진다. 전술한 도 6∼도 8에 도시한 바와 같이 L-N 노옴을 이용하여 계산한 KL 정보량의 그래프에는 국소적인 역전, 예를 들면, 기본적으로는 위로 볼록한 그래프이지만, 퍼뮤테이션의 정도가 증대하는 데에도 관계되지 않고 KL 정보량이 감소하는 개소가 포함되는 경우가 있어, 퍼뮤테이션 문제의 해소가 실패하는 원인으로도 될 수 있지만, 타원 분포를 이용하여 KL 정보량을 계산한 경우에는 그 가능성이 적다.
주파수 bin의 신호를 교체할 때마다 분산 공분산 행렬을 계산하는 것은 시간이 걸리기 때문에, 분산 공분산 행렬의 대각 요소만을 사용하도록 하여도 된다. 그 경우에도 도 13의 (B)에 도시한 바와 같이 대략 동일한 특성을 갖는 그래프가 얻어진다.
본 실시예에서는, 또다른 다차원 확률 밀도 함수로서, 코퓰러(Copula) 모델에 기초하는 확률 밀도 함수도 사용가능하다. 코퓰러 모델에 기초하는 다차원 확률 밀도 함수에 대해서는, 본건 출원인이 먼저 제안한 일본 특원 2005-18822의 명세서 및 도면에 기재되어 있다.
(다차원의 첨도)
첨도(kurtosis)란, 4차의 큐뮬런트(cumulant)로도 칭해지며, 신호의 분포가 정규 분포로부터 어느 정도 떨어져 있는지를 측정하는 척도로서 이용된다.
다차원량(주파수 bin 수= M의 스펙트로그램을 이용하기 때문에, 차원 수는 M)의 첨도는, 하기 수학식 23으로 정의된다. 첨도는, 벡터 Yk(t)의 분포가 정규 분포(다변량 정규 분포)일 때에 0, 수퍼가우스일 때에 플러스의 값, 서브가우스일 때에 마이너스의 값을 취한다.
Figure 112006039179155-PAT00024
퍼뮤테이션이 발생하지 않은 상태의 스펙트로그램이 정규 분포 이외의 분포인 것으로 가정한다. 일반적으로, 단속적으로 발생하는 음(음성 등)은 분포가 수퍼가우스가 되기 쉽고, 연속적으로 발생하는 음(음악 등)은 분포가 서브가우스가 되기 쉽다. 한편, 퍼뮤테이션이 발생하면, 복수의 신호를 혼합하게 되기 때문에, 분포가 정규 분포에 접근한다. 즉, 각 채널의 첨도를 계산했을 때, 퍼뮤테이션의 정도가 클수록 0에 가까운 값을 취한다. 따라서, 하기 수학식 24와 같은 각 채널의 첨도의 절대값을 총합한 것(이하, 「전체의 첨도」라고 함)을, 퍼뮤테이션의 정도를 측정하는 척도로서 이용할 수 있다. 덧붙여서, 퍼뮤테이션의 정도가 작을 수 록 전체의 첨도는 커진다.
Figure 112006039179155-PAT00025
전술한「s1.wav」 및 「s2.wav」라고 하는 파일로부터 얻어진 2매의 스펙트로그램에 대하여, 전술한 (a)∼(d)의 기준에 따라서 주파수 bin을 1개 선택하여, 그 주파수 bin의 신호를 교체할 때마다 전체의 첨도를 계산했을 때의, 교체의 개수(횡축)와 전체의 첨도(종축)와의 관계를 플롯한 결과를 도 14의 (A)에 도시한다. 또한, 전술한 「s1.wav」, 「s2.wav」 및 「s3.wav」라고 하는 파일로부터 얻어진 3매의 스펙트로그램에 대하여, 전술한 (a)∼(d)의 기준에 따라서 주파수 bin을 1개 선택하여, 그 주파수 bin의 신호를 교체할 때마다 전체의 첨도를 계산했을 때의, 교체의 개수(횡축)와 전체의 첨도(종축)와의 관계를 플롯한 결과를 도 14의 (B)에 도시한다. 어느 쪽 경우도, 퍼뮤테이션이 발생하지 않은 상태(도 14의 (A)에서는 양단, 도 14의 (B)에서는 좌단)에서 전체의 첨도가 최대값으로 되어 있다. 따라서, 퍼뮤테이션의 정도를 측정하는 척도로서 전체의 첨도를 이용한 경우에는, 전체의 첨도가 증대하도록 주파수 bin의 신호를 채널 간에 교체함으로써 퍼뮤테이션 문제를 해소할 수 있다.
첨도를 이용하는 경우에도, 타원 분포인 경우와 마찬가지로, 분산 공분산 행렬의 전체 요소를 계산하는 대신에, 분산 공분산 행렬의 대각 요소만을 사용하도록 해도 된다.
또한, 반드시 Yk(t)의 전체 요소를 사용할 필요는 없다. 예를 들면, 주파수 bin 마다(ω 마다)의 파워 D(ω)를 상기 수학식 8에 따라서 계산하여, 파워의 상위 L 개의 주파수 bin에 해당하는 요소만을 사용하도록 해도 된다.
(음성 신호 분리 장치의 구체적인 구성)
이상, 다차원 확률 밀도 함수를 이용하여 계산되는 KL 정보량과 다차원의 첨도가 퍼뮤테이션의 정도를 측정하는 척도로서 이용될 수 있는 점에 대하여 설명했지만, 이하에서는 본 실시예에 있어서의 음성 신호 분리 장치의 구체적인 구성에 대하여 설명한다.
본 실시예에 따른 음성 신호 분리 장치의 개략 구성을 도 15에 도시한다. 이 음성 신호 분리 장치(1)에서, n개의 마이크로폰(1O1∼1On)은, n개의 음원이 발하는 독립적인 음을 관측하고, A/D(Analogue/Digital) 변환부(11)는, 이 신호를 A/D 변환하여 관측 신호를 얻는다. 단시간 푸리에 변환부(12)는, 관측 신호에 대하여 단시간 푸리에 변환을 실시하여 관측 신호의 스펙트로그램을 생성한다. 신호 분리부(13)는, 관측 신호의 스펙트로그램에 대하여 주파수 bin 마다 분리 처리를 행하여, 분리 신호의 스펙트로그램을 생성한다.
리스케일링부(14)는, 분리 신호의 스펙트로그램의 각 주파수 bin에 대하여 스케일을 정렬하는 처리를 행한다. 리스케일링부(14)는, 분리 처리전에 관측 신호에 대하여 표준화 처리(평균이나 분산의 조정)를 실시하고 있었던 경우에는 원래대로 복귀하는 처리를 행한다. 퍼뮤테이션 문제 해소부(15)는, 퍼뮤테이션이 발생하 고 있는 분리 신호의 스펙트로그램에 대하여, 다차원 확률 밀도 함수를 이용하여 계산되는 KL 정보량 또는 다차원의 첨도에 기초하여 주파수 bin 마다의 신호를 교체하여, 퍼뮤테이션 문제를 해소한다. 역 푸리에 변환부(16)는, 퍼뮤테이션 문제가 해소된 분리 신호의 스펙트로그램에 대하여 역 푸리에 변환을 실시하여, 시간 영역의 분리 신호를 생성한다. D/A 변환부(17)는, 시간 영역의 분리 신호를 D/A 변환하고, n개의 스피커(181∼18n)는, 각각 독립의 음을 재생한다.
이 음성 신호 분리 장치(1)에서는, n개의 스피커(181∼18n)를 통하여 음을 재생하는 것으로 했지만, 분리 신호를 출력하여, 음성 인식 등에 이용하도록하는 것도 가능하다. 이 경우에는, 역 푸리에 변환 처리를 적절하게 생략해도 된다.
이 음성 신호 분리 장치의 처리의 개략을 도 16의 플로우차트를 이용하여 설명한다. 우선 스텝 S1에서, 마이크로폰을 통하여 음성 신호를 관측하고, 스텝 S2에서, 관측 신호에 대하여 단시간 푸리에 변환을 실시하여 스펙트로그램을 생성한다. 다음에 스텝 S3에서, 관측 신호의 스펙트로그램에 대하여 주파수 bin 마다 분리 처리를 행하여, 분리 신호의 스펙트로그램을 생성한다. 이 분리 처리에는, extended infomax법, Fast ICA, JADE 등, 기존의 독립 성분 분석의 방법을 이용할 수 있다.
이 스텝 S3에서 얻어진 분리 신호는, 퍼뮤테이션이 발생하고 있으며, 또한, 주파수 bin 마다 스케일이 상이하다. 그래서 스텝 S4에서는, 리스케일링 처리를 행하여, 주파수 bin 간의 스케일을 정렬시킨다. 여기서는, 표준화 처리에서 변경 한 평균과 표준 편차를 원래대로 복귀하는 처리도 행한다. 계속해서 스텝 S5에서, 퍼뮤테이션이 발생하고 있는 분리 신호의 스펙트로그램에 대하여, 다차원 확률 밀도 함수를 이용하여 계산되는 KL 정보량 또는 다차원의 첨도에 기초하여 주파수 bin 마다의 신호를 교체하여, 퍼뮤테이션 문제를 해소한다. 이 스텝 S5에 있어서의 처리의 상세 내용은 후술한다. 계속해서 스텝 S6에서, 퍼뮤테이션 문제가 해소된 분리 신호의 스펙트로그램에 대하여 역 푸리에 변환을 실시하여 시간 영역의 분리 신호를 생성하고, 스텝 S7에서, 이 분리 신호를 스피커로부터 재생한다.
전술한 스텝 S5에 있어서의 퍼뮤테이션 문제 해소 처리의 상세 내용을 도 17를 이용하여 설명한다. 채널 수를 n이라고 하면, 퍼뮤테이션의 조합은 주파수 bin 마다 n! 종류 있다. 주파수 bin의 개수를 M이라고 하면, 전체의 조합은 (n!)M이라고 하는 막대한 수로 된다. 따라서, 모든 조합을 검증하는 것은 실질적으로 불가능하기 때문에, 도 17의 플로우차트에서는, 이하의 알고리즘에 의해서, n!×M의 오더로 최적에 가까운 조합을 검색하고 있다.
우선 스텝 S11에서, 주파수 bin의 번호를 포함하는 퍼뮤테이션을 생성한다. 즉, 주파수 bin의 개수를 M으로 했을 때, 1부터 M까지의 숫자가 1회씩 출현하는 퍼뮤테이션을 생성한다. 이후의 처리에서는, 이 퍼뮤테이션에 따라서 주파수 bin이 선택된다. 이 퍼뮤테이션으로서는, 예를 들면, (a) ω=1부터 ω=M의 순으로 배열된 퍼뮤테이션, (b) ω= M부터 ω=1의 순으로 배열된 퍼뮤테이션, (c) 파워가 큰 주파수 bin부터 배열된 퍼뮤테이션, (d) 랜덤하게 배열된 퍼뮤테이션 중 어느 하나 를 이용한다. (c)의 퍼뮤테이션에 대해서는, 상기 수학식 8에 따라서 주파수 bin 마다의 파워를 구하여, 그것을 내림차순으로 소트함으로써 생성할 수 있다. 이하, 이와 같이 하여 생성된 퍼뮤테이션을 [bin(1),···, bin(M)]으로 나타낸다.
다음에 스텝 S12에서, 채널 번호를 포함하는 퍼뮤테이션을 모두 생성한다. 이들 퍼뮤테이션은, 주파수 bin 마다의 신호를 채널 간에 교체할 때의 채널 간의 조합을 나타낸 것으로, 채널 수를 n이라고 하면 n! 종류의 조합이 있다. 생성된 퍼뮤테이션을 [a1, ···, ak, ···, an]으로 나타내면, ak는 교체 후의 채널 k의 신호는, 교체 전의 채널 ak와 동일하다는 것을 의미하고 있다. 예를 들면 n= 2인 경우, 퍼뮤테이션은 [1,2]와 [2,1]의 2가지이며, 각각 「아무것도 치환하지 않는다」는 것, 「채널 1과 2를 교체한다」는 것을 의미하고 있다. n= 3인 경우, 퍼뮤테이션은 [1,2,3]부터[3,2,1]까지의 6가지가 있으며, 예를 들면 그 중 [2,1,3]은, 「채널 1과 2를 교체하고, 채널 3은 그대로」인 것을 뜻하고 있다. 이후에서는, 이들 퍼뮤테이션을 p(1), p(2),···, p(n!)이라는 변수로 나타낸다. p(1)는 [1,2,···, n], 즉 「어떤 채널도 치환하지 않는다」는 것을 의미하고 있는 것으로 한다.
계속해서 스텝 S13에서, Y에 Y'를 대입한다. 이 Y는, 주파수 bin의 신호를 교체한 후의 스펙트로그램을 저장하는 변수이며, Y'는, 분리 직후의 퍼뮤테이션이 발생하고 있는 스펙트로그램이다.
스텝 S14∼S24는 외측의 루프를 구성하고 있으며, 후술하는 횟수만큼 반복된 다. 이 외측의 루프의 의미에 대해서는 후술한다. 스텝 S15∼S23은 주파수 bin에 대한 루프를 구성하고 있다. 이 루프에서는, 스텝 S11에서 생성한 퍼뮤테이션([bin(1),···, bin(M)])에 따라서 주파수 bin을 선택하여, 그 선택된 주파수 bin의 신호를 채널 간에 교체한다. 이후에서는 ω번째의 주파수 bin의 신호를 반복하여 사용하기 때문에, 스텝 S16에서는, ω번째의 주파수 bin의 신호를 Ytmp라고 하는 변수로 저장하여 둔다. Ytmp는 Y(ω)와 동일한 차원, 즉 n개의 행 벡터 Ytmp1~Ytmpn으로 이루어지는 행렬이다. 스텝 S17~S20은 채널 번호의 퍼뮤테이션에 대한 루프를 구성하고 있다. 이 루프에서는, 스텝 S12에서 생성한 n! 종류의 퍼뮤테이션(p(1), p(2),···, p(n!))에 대하여 루프를 돌려, 각 퍼뮤테이션에 따라서 주파수 bin의 신호를 채널 간에 교체한다.
구체적으로, 스텝 S18에서는, Ytmp에 대하여 p(j)에 따른 교체를 행한 것을 Y(ω)에 대입한다. 예를 들면, n=3이고 p(j)=[2,1,3]인 경우, Y1(ω)=Ytmp2, Y2(ω)=Ytmp1, Y3(ω)=Ytmp3로 된다.
계속해서 스텝 S19에서는, Y 전체의 KL 정보량 또는 다차원의 첨도를 계산한다. 여기서, Y(ω)뿐만 아니라 Y 전체(혹은, 대략 전체)를 사용하고 있기 때문에,만약 특정한 주파수 bin에서 교체 잘못이 발생해도, 이후의 주파수 bin에서 모두 교체 잘못이 발생한다고 하는 위험성은 없다.
스텝 S18, S19의 처리를 채널 번호의 모든 퍼뮤테이션에 대하여 행하여, KL 정보량 또는 다차원의 첨도를 계산하면, 스텝 S21에서는, 이들의 최대값 또는 최소값에 대응한 인덱스를 구한다. 구한 인덱스를 j'이라고 하면, j'에 대응한 교체의 조합 p(j')가, ω 번째의 주파수 bin의 퍼뮤테이션 문제를 해소하는 교체 방법일 가능성이 높다. 따라서, 스텝 S22에서는, Ytmp에 대하여 p(j')에 따른 교체를 행한 것을 Y(ω)에 대입한다. 이 스텝 S16∼S22의 처리를 모든 주파수 bin에 대하여 행한다.
스텝 S15∼S23의 처리는, 1주 뿐만 아니라 2주·3주로 반복함으로써 퍼뮤테이션 문제의 해소의 정도가 증가할 수 있다. 즉, 1주째에서는 퍼뮤테이션 문제가 해소되지 않은 주파수 bin이 남아 있더라도, 2주째 이후에 해소되는 경우가 있다. 따라서, 스텝 S15∼S23의 외측에서도 루프를 돌린다. 외측의 루프의 반복 횟수로서는, 고정된 횟수(예를 들면 3회)로 해도 되며, 스텝 S22에 있어서 퍼뮤테이션이 발생한, 즉 j'≠1로 된 주파수 bin의 개수가 일정수(예를 들면 10개) 이하, 혹은 일정 비율(예를 들면 5%) 이하로 될 때까지로 해도 된다.
이 외측 루프를 뺀 단계에서, 변수 Y에는 퍼뮤테이션 문제가 해소된 스펙트로그램이 저장되어 있다.
전술한 플로우차트에서는, 스텝 S11에서 생성된 주파수 bin의 번호를 포함하는 퍼뮤테이션을 계속해서 사용하는 것으로 하여 설명했지만, 이 스텝 S11을 외측의 루프의 내부로 이동하여, 외측의 루프를 반복할 때마다 서로 다른 퍼뮤테이션을 사용하도록 해도 된다. 예를 들면, 1주째는 「파워가 큰 주파수 bin으로부터 배열 한 퍼뮤테이션」을 사용하고, 2주째는 「ω=1부터 ω=M의 순으로 배열한 퍼뮤테이션」을 사용하도록 해도 된다.
(퍼뮤테이션 문제 해소 결과의 구체예)
이하, 퍼뮤테이션 문제 해소 결과의 구체예를 나타낸다. 이하에서는, 상기 수학식 9의 L-N 노옴에 기초하는 다차원 확률 밀도 함수에 있어서 f(x)= 1/|x|m, 또한 L= 1로 하여 KL 정보량을 계산하고, 이 KL 정보량에 기초하여 퍼뮤테이션 문제를 해소하였다. 사용한 관측 신호의 샘플링 주파수는 16kHz이며, 단시간 푸리에 변환에서는, 창 길이 512(주파수 bin의 개수는 257)의 하닝 창을 시프트 폭 128로 사용하였다. 또한, 도 17의 플로우차트에 있어서의 외측 루프는 3회 반복하고, 도 15의 스텝 S11에서 생성되는 주파수 bin의 번호로 이루어지는 퍼뮤테이션은, 파워가 큰 주파수 bin부터 배열한 퍼뮤테이션으로 하였다.
우선, 웹 사이트(http://www.ism.ac.jp/∼shiro/research/blindsep.html)에서 공개되어 있는 「X_rsm2.wav」라고 하는 파일(샘플링 주파수 16kHz)의 선두 4만 샘플에 대하여, 기존의 독립 성분 분석의 방법, 구체적으로는 프리 화이트닝(pre-whitening)을 갖는 extended infomax법으로 분리 처리를 실시한 결과(Y'에 상당)를 도 18에 도시한다. 도 18로부터 알 수 있는 바와 같이, 화살표로 나타낸 주파수 bin에서 띠 형상으로 퍼뮤테이션이 발생하고 있다.
이 스펙트로그램에 대하여 본 실시예의 방법에 따라 퍼뮤테이션 문제 해소 처리를 행한 결과(Y에 상당)를 도 19에 도시한다. 도 19로부터 알 수 있는 바와 같이, 퍼뮤테이션 문제가 거의 해소되어 있다. Y1은 "원, 투, 쓰리, 포"라고 하는 음성에 대응한 스펙트로그램이며, Y2는 음악에 대응한 스펙트로그램이다.
다음으로, 인공적으로 발생시킨 퍼뮤테이션에 대하여 본 실시예의 방법으로 퍼뮤테이션 문제 해소 처리를 행한 결과에 대하여 설명한다.
우선, 채널 수=2인 경우에 대하여 2가지 예를 나타낸다.
도 5의 (A)의 스펙트로그램의 약 33%의 주파수 bin에 대하여 퍼뮤테이션을 발생시킨 것을 도 20의 (A)에 도시한다. 도 20의 (A) 중, 퍼뮤테이션이 발생하고 있는 주파수 bin을 흑선으로 나타내면 도 20의 (B)와 같이 된다. 전체적으로 514개(257×2)의 주파수 bin 중 퍼뮤테이션이 발생하고 있는 주파수 bin의 개수는, Y1, Y2 함께 84개, 전체적으로 168개(32.68%)이다. 이 도 20의 (A)의 스펙트로그램에 대하여 본 실시예의 방법으로 퍼뮤테이션 문제 해소 처리를 행한 결과를 도 21에 도시한다. 이 도 21에 도시하는 스펙트로그램에 있어서 퍼뮤테이션이 발생하고 있는 주파수 bin의 개수는 O개이며, 이에 따라 퍼뮤테이션 문제가 완전하게 해소되어 있다.
마찬가지로, 2매의 스펙트로그램의 약 50%의 주파수 bin에 대하여 퍼뮤테이션을 발생시킨 것을 도 22의 (A), (B)에 도시한다. 전체적으로 514개의 주파수 bin 중 퍼뮤테이션이 발생하고 있는 주파수 bin의 개수는, Y1, Y2 함께 128개, 전체적으로 256개(49.81%)이다. 이 도 22의 (A)의 스펙트로그램에 대하여 본 실시예의 방법으로 퍼뮤테이션 문제 해소 처리를 행한 결과를 도 23에 도시한다. 이 도 23 에 도시하는 스펙트로그램에 있어서 퍼뮤테이션이 발생하고 있는 주파수 bin의 개수는 O 개이며, 이에 따라 퍼뮤테이션 문제가 완전하게 해소되어 있다.
다음으로, 채널 수=3인 경우에 대하여 2가지 예를 나타낸다.
도 9의 (A)의 스펙트로그램의 약 33%의 주파수 bin에 대하여 퍼뮤테이션을 발생시킨 것을 도 24의 (A), (B)에 도시한다. 전체적으로 711개(257×3)의 주파수 bin 중 퍼뮤테이션이 발생하고 있는 주파수 bin의 개수는, Y1이 71개, Y2가 72개, Y3가 71개, 전체적으로 214개(27.76%)이다. 이 도 24의 (A)의 스펙트로그램에 대하여 본 실시예의 방법으로 퍼뮤테이션 문제 해소 처리를 행한 결과를 도 25에 도시한다. 이 도 25에 도시하는 스펙트로그램에 있어서 퍼뮤테이션이 발생하고 있는 주파수 bin의 개수는 O개이며, 이에 따라 퍼뮤테이션 문제가 완전하게 해소되어 있다.
마찬가지로, 3매의 스펙트로그램의 모든 주파수 bin에 대하여 퍼뮤테이션을 발생시킨 것을 도 26의 (A), (B)에 도시한다. 전체적으로 711개의 주파수 bin 중 퍼뮤테이션이 발생하고 있는 주파수 bin의 개수는, Y1이 134개, Y2가 154개, Y3가 149개, 전체적으로 437개(56.68%)이다. 이 도 26의 (A)의 스펙트로그램에 대하여 본 실시예의 방법으로 퍼뮤테이션 문제 해소 처리를 행한 결과를 도 27에 도시한다. 이 도 27에 도시하는 스펙트로그램에 있어서 퍼뮤테이션이 발생하고 있는 주파수 bin의 개수는 O개이며, 이에 따라 퍼뮤테이션 문제가 완전하게 해소되어 있다.
마지막으로, 채널 수=4인 경우에 대하여 나타낸다.
도 9의 (A)의 스펙트로그램에, 동일한 웹 사이트에서 공개되어 있는 「s4.wav」라고 하는 파일로부터 얻어진 스펙트로그램을 추가하여, 약 66%의 주파수 bin에 대하여 퍼뮤테이션을 발생시킨 것을 도 28의 (A), (B)에 도시한다. 전체적으로 1028개(257×4)의 주파수 bin 중 퍼뮤테이션이 발생하고 있는 주파수 bin의 개수는, Y1이 132개, Y2가 136개, Y3가 134개, Y4가 144개, 전체적으로 546 개(53.11%)이다. 이 도 28의 (A)의 스펙트로그램에 대하여 본 실시예의 방법으로 퍼뮤테이션 문제 해소 처리를 행한 결과를 도 29의 (A)에 도시한다. 도 29의 (A) 중, 퍼뮤테이션이 발생하고 있는 주파수 bin을 흑선으로 나타내면 도 29의 (B)와 같이 된다. 이 도 29의 (A)에 도시하는 스펙트로그램에 있어서 퍼뮤테이션이 발생하고 있는 주파수 bin의 개수는, Y2가 1개, Y3가 1개, Y4가 2개, 전체적으로 4개(0.39%)이며, 이에 따라 퍼뮤테이션 문제가 대폭 해소되어 있다.
마찬가지로, 4매의 스펙트로그램의 모든 주파수 bin에 대하여 퍼뮤테이션을 발생시킨 것을 도 30의 (A), (B)에 도시한다. 전체적으로 1028 개의 주파수 bin 중 퍼뮤테이션이 발생하고 있는 주파수 bin의 개수는, Y1이 171개, Y2가 187개, Y3가 177개, Y4가 178개, 전체적으로 713개(69.36%)이다. 이 도 30의 (A)의 스펙트로그램에 대하여 본 실시예의 방법으로 퍼뮤테이션 문제 해소 처리를 행한 결과를 도 31의 (A), (B)에 도시한다. 이 도 30의 (A)에 도시하는 스펙트로그램에 있어서 퍼 뮤테이션이 발생하고 있는 주파수 bin의 개수는, Y1이 1개, Y2가 2개, Y4가 1개, 전체적으로 4개(0.39%)이며, 이에 따라 퍼뮤테이션 문제가 대폭 해소되어 있다.
이상과 같이, 본 실시예에 있어서의 음성 신호 분리 장치(1)에 따르면, 복수의 신호가 혼합된 음성 신호를 독립 성분 분석을 이용하여 신호마다 분리할 수가 있으며, 또한, 다차원 확률 밀도 함수를 이용하여 계산되는 KL 정보량 또는 다차원의 첨도를 퍼뮤테이션의 정도를 측정하는 척도로서 이용함으로써, 원신호의 특징이나 마이크로폰의 위치 등의 정보를 이용하는 일없이, 높은 정밀도로 분리 신호의 퍼뮤테이션 문제를 해소할 수 있다.
(제1 변형예)
도 17에 알고리즘을 나타내는 퍼뮤테이션 문제 해소 처리에서는, n!M의 오더의 계산량이 필요하게 되기 때문에, 채널 수 n이 커지면 처리 시간이 길어져 버린다. 따라서, 이하에 설명한 바와 같이, 채널마다 주파수 bin의 신호의 교체 방법을 결정함으로써, 계산량을 n2M의 오더로 억제할 수 있다. 이 퍼뮤테이션 문제 해소 처리의 상세 내용을 도 32를 이용하여 설명한다.
우선 스텝 S31에서, 주파수 bin의 번호를 포함하는 퍼뮤테이션[bin(1),···, bin(M)]을 생성하여, 스텝 S32에서, Y에 Y'를 대입한다. 이 Y는, 주파수 bin의 신호를 교체한 후의 스펙트로그램을 저장하는 변수이며, Y'는, 분리 직후의 퍼뮤테이션이 발생하고 있는 스펙트로그램이다.
스텝 S33∼S47은 제1 외측의 루프를 구성하고 있다. 이 루프는, 반복함으로 써 퍼뮤테이션 문제의 해소의 정도를 올리기 위한 것이다. 스텝 S34∼S46는 제1 채널 루프를 구성하고 있으며, 스텝 S35∼S45에서는 k 번째의 채널의 스펙트로그램에 대하여, 주파수 bin의 신호의 교체 방법이 결정된다. n-1개의 채널에 대하여 주파수 bin의 신호의 교체 방법이 결정되면 나머지 1 채널의 교체 방법도 자동적으로 결정되기 때문에, 루프는 채널 1부터 채널(n-1)까지만을 다루어야 한다.
스텝 S35∼S45는 제2 외측의 루프를 구성하고 있다. 이 루프도, 반복함으로써 퍼뮤테이션 문제의 해소의 정도를 올리기 위한 것이다. 스텝 S36∼S44에서는, k 번째의 채널에 대하여, 주파수 bin의 신호의 교체 방법을 결정한다. 이 목적을 위하여, 처리 결과를 저장하는 변수를 Ytmp로 하고, 초기값으로서 Yk를 대입해 둔다. 스텝 S37∼S44는 주파수 bin에 대한 루프를 구성하고 있다. 이 루프에서는, 스텝 S31에서 생성한 퍼뮤테이션([bin(1),···, bin(M)])에 따라서 주파수 bin을 선택하여, 선택한 ω번째의 주파수 bin의 신호를 채널 j(j= k, k+1,···n) 사이에서 교체하여, 채널 k의 엔트로피 H(Yk)가 최대 또는 최소로 되거나, 또는 첨도가 최대로 되는(이하, 「엔트로피 또는 첨도가 최적으로 되는」이라고 함) 교체 방법을 찾아내기 시작한다. 채널 1부터 채널(k-1)까지 대해서는, 이미 퍼뮤테이션 문제가 해소되어 있기 때문에, 주파수 bin의 신호를 교체할 필요는 없다.
스텝 S38∼S41은 제2 채널 루프를 구성하고 있다. 이 루프에서는, k로부터 n의 순으로 선택된 채널 j의 주파수 bin의 신호와 채널 k의 주파수 bin의 신호가 교체되고, 교체 후의 엔트로피 또는 첨도가 계산된다. 구체적으로 스텝 S39에서 는, 채널 j의 ω 번째의 주파수 bin의 신호 Yj(ω)와 Ytmp의 ω 번째의 주파수 bin의 신호 Ytmp(ω)가 교체되며, 스텝 S40에서는, Ytmp의 엔트로피 또는 첨도가 Score(j)에 대입된다. 채널 k로부터 채널 n까지의 Score(j)가 얻어지면, 스텝 S42에서는, 이들의 최대값 또는 최소값에 대응한 인덱스를 구한다. 구한 인덱스를 j'이라고 하면, j'에 대응한 교체가, ω 번째의 주파수 bin의 퍼뮤테이션 문제를 해소하는 교체 방법일 가능성이 높다. 따라서, 스텝 S43에서는, 채널 k의 ω번째의 주파수 bin의 신호 Yk(ω)와 채널 j'의 ω번째의 주파수 bin의 신호 Yj'(ω)를 교체시킴과 동시에, 채널 j'의 ω번째의 주파수 bin의 신호 Yj'(ω)를 Ytmp의 ω번째의 주파수 bin의 신호 Ytmp(ω)로서 대입한다. 이 스텝 S38~S43의 처리를 모든 주파수 bin에 대하여 행하면, 채널 k의 엔트로피 또는 첨도는 최적으로 되어, 퍼뮤테이션 문제가 해소된다. 이 처리를 전체 채널에 대하여 행하면, 전체 채널의 퍼뮤테이션 문제가 해소된다.
(제2 변형예)
전술한 바와 같이, 도 17에 알고리즘을 나타내는 퍼뮤테이션 문제 해소 처리에서는, n!M의 오더의 계산량이 필요하게 되기 때문에, 채널 수 n이 커지면 처리 시간이 길어져 버린다. 따라서, 이하에 설명하는 바와 같이 유전적 알고리즘을 이용함으로써도, 계산량을 삭감할 수 있다. 이 방법에서는, 유전자로서 치환열([1,3,2] 등)을, 염색체로서 치환 열로 이루어지는 열을 이용하여, 각 염색체의 우열을 측정하는 척도로서 다차원 확률 밀도 함수를 이용하여 계산되는 KL 정보량이나 다차원의 첨도를 이용한다. 이 퍼뮤테이션 문제 해소 처리의 상세 내용을 도 33을 이용하여 설명한다.
우선 스텝 S51에서, 초기 개체군으로서, 랜덤하게 생성한 치환 열로 이루어지는 염색체를 임의의 개수만큼 생성한다. 염색체의 형식을 도 34에 도시한다. 이와 같이, 주파수 bin 마다의 치환 열을 주파수 bin의 개수만큼 세로로 배열한 것을 염색체로서 이용한다.
다음에 스텝 S52에서, 종료 조건을 충족시키는지 여부를 판별한다. 종료 조건으로서는, 스텝 S53∼S55의 처리를 소정 횟수만큼 반복한 것이나, 개체군이 수속한, 즉 최적 해가 변화하지 않는 것 등을 들 수 있다. 종료 조건을 충족시키고 있지 않은 경우에는 스텝 S53으로 진행한다.
계속해서 스텝 S53에서, 개체군에 대하여 교차(crossing-over)를 적용한다. 교차란, 개체군 중에서 염색체를 2개 이상 골라 내어, 이들 사이에서 유전자(치환 열)를 교환하는 것이다. 이것을 임의의 횟수 반복한다. 교차에는 도 35의 (A)에 도시하는 1점 교차나 도 35의 (B)에 도시하는 2점 교차나, 도 35의 (C)에 도시하는 다점 교차 등 여러가지 변형이 있지만, 어느 것을 이용해도 관계없다. 또한, 랜덤하게 ω를 선택하여, ω번째의 치환 열을 교환하여도 된다. ω를 랜덤하게 선택하는 대신에, 도 17의 스텝 S11과 마찬가지의 기준에 따라 ω를 결정하여도 된다.
계속해서 스텝 S54에서는, 이와 같이 하여 생성된 새로운 염색체 및 이전의 염색체에 대하여, 소정의 확률에 기초하여 돌연 변이 또는 염색체내 교체를 적용한 다. 돌연 변이란, 도 36에 도시한 바와 같이 염색체를 임의로 1개 추출하여, 임의의 개소의 유전자(치환 열)를 다른 유전자와 바꾸는 것이다. 한편, 염색체내 교체란, 도 37에 도시한 바와 같이 1개의 염색체 내에서 치환 열을 교환하는 것이다. 이와 같이 돌연 변이 또는 염색체내 교체를 적용함으로써, 교차만으로는 생성할 수 없는 염색체를 생성할 수 있다.
계속해서 스텝 S55에서는, 이와 같이 하여 생성된 각 염색체에 대하여, 선택을 행하여, 차세대의 개체군을 결정한다. 이 선택 처리의 상세에 대해서는 후술한다. 선택 처리가 종료하면 스텝 S52로 되돌아간다. 종료 조건이 만족되기까지 스텝 S53∼S55의 처리를 반복한다.
전술한 스텝 S55에 있어서의 선택 처리의 상세에 대하여, 도 38의 플로우차트를 이용하여 설명한다.
우선 스텝 S61에서, 변수 S를 다음 세대에 남기는 개체(염색체)로 이루어지는 집합으로 하여, 초기 값으로서 공집합을 대입해 둔다.
스텝 S62∼S69는 개체에 대한 루프를 구성하고 있다. 이 루프에서는, 교차·돌연 변이·염색체내 교체라고 하는 조작에 의해 생성된 새로운 염색체(및, 필요에 따라 조작전의 염색체) 각각에 대하여 스텝 S63∼S68의 처리를 행한다.
스텝 S63에서는, k 번째의 염색체에 대응한 스펙트로그램을 구한다. 즉, 분리 처리 후의 스펙트로그램 Y'의 각 주파수 bin에 대하여, k 번째의 염색체가 나타내는 교체 방법을 적용함으로써, 새로운 스펙트로그램을 생성한다. 스텝 S64에서는, 생성한 스펙트로그램에 대하여, KL 정보량 및 첨도를 계산한다.
계속해서 스텝 S65에서, KL 정보량 또는 첨도의 값에 따라서, 그 개체의 생존 확률을 계산한다. 첨도를 이용하는 경우, 첨도는 값이 클수록 퍼뮤테이션의 정도가 작기 때문에, 값이 클수록 생존 확률이 높게 되도록, 도 39a에 도시하는 것과 같은 아래로 볼록한 함수를 이용하여 생존 확률을 계산한다. 한편, KL 정보량을 이용하는 경우, 전술한 표 1에서 「U」라고 되어 있는 확률 밀도 함수에서는 도 39a에 도시하는 것과 같은 함수를 이용하여 생존 확률을 계산하고, 「∩」라고 되어 있는 확률 밀도 함수에서는 도 39b에 도시하는 것과 같은 함수를 이용하여 생존 확률을 계산한다.
생존 확률을 계산하였으면, 스텝 S66∼S68에서는, 그 값에 기초하여 각 유전자를 남기는지 여부를 결정한다. 구체적으로, 스텝 S66에서는, 난수로서 0∼1의 사이의 값을 발생시키고, 스텝 S67에서는, 생존 확률의 값이 그 난수 값보다도 큰지 여부를 판별한다. 생존 확률의 값이 난수 값 이하인 경우에는 그 개체를 소멸시키고, 생존 확률의 값이 난수 값보다도 큰 경우에는, 그 개체를 차세대에 남기기 위해서, 스텝 S68에서 그 개체를 집합 S에 추가한다.
스텝 S63∼S68의 처리를 각 개체에 대하여 행함으로써, 차세대의 개체가 생성된다. 그 후, 스텝 S70에서는, 개체의 수를 제한한다. 즉, 생존 확률이 큰 순으로 상위 L 개의 개체만을 남긴다.
이상, 본 발명을 실시하기 위한 최량의 형태에 대하여 설명했지만, 본 발명은 전술한 실시예에만 한정되는 것이 아니라, 본 발명의 요지를 일탈하지 않는 범위에서 여러가지의 변경이 가능한 것은 물론이다.
당업자라면, 첨부된 특허청구범위 또는 그 등가물의 범위 내에 있는 한 여러 변경, 조합, 세부 조합 등이 설계 요건 및 그 밖의 요인들에 따라 행해짐을 알 것이다.
본 발명에 따른 음성 신호 분리 장치 및 그 방법에 따르면, 복수의 신호가 혼합된 음성 신호를 독립 성분 분석을 이용하여 분리할 때에, 원신호에 대한 지식이나 마이크로폰의 위치 등에 대한 정보를 이용하지 않고 높은 정밀도로 퍼뮤테이션 문제를 해소할 수 있다.

Claims (5)

  1. 복수의 신호가 혼합된 복수 채널의 시간 영역의 관측 신호를 독립 성분 분석을 이용하여 신호마다 분리하여 분리 신호를 생성하는 음성 신호 분리 장치로서,
    상기 시간 영역의 관측 신호를 시간 주파수 영역으로 변환하여, 관측 신호의 스펙트로그램을 생성하는 변환 수단과,
    상기 관측 신호의 스펙트로그램으로부터 상기 분리 신호의 스펙트로그램을 생성하는 분리 수단과,
    상기 분리 신호의 스펙트로그램의 퍼뮤테이션 문제를 해소하는 퍼뮤테이션 문제 해소 수단
    을 포함하며,
    상기 퍼뮤테이션 문제 해소 수단은, 퍼뮤테이션의 정도에 대응한 척도를, 상기 분리 신호의 스펙트로그램의 대략 전체로부터 계산하고, 상기 계산된 척도에 따라 상기 분리 신호의 스펙트로그램의 각 주파수 bin의 신호를 채널들 간에 교체하여, 상기 퍼뮤테이션 문제를 해소하는 것을 특징으로 하는 음성 신호 분리 장치.
  2. 제1항에 있어서,
    상기 퍼뮤테이션의 정도에 대응한 척도는, 다차원 확률 밀도 함수를 이용하여 계산되는 Ku1lback-Leiblar 정보량, 또는 다차원의 첨도(kurtosis)인 것을 특징으로 하는 음성 신호 분리 장치.
  3. 제2항에 있어서,
    상기 다차원 확률 밀도 함수는, L-N 노옴 또는 타원 분포에 기초하는 것을 특징으로 하는 음성 신호 분리 장치.
  4. 복수의 신호가 혼합된 복수 채널의 시간 영역의 관측 신호를 독립 성분 분석을 이용하여 신호마다 분리하여 분리 신호를 생성하는 음성 신호 분리 방법으로서,
    상기 시간 영역의 관측 신호를 시간 주파수 영역으로 변환하여, 관측 신호의 스펙트로그램을 생성하는 변환 단계와,
    상기 관측 신호의 스펙트로그램으로부터 상기 분리 신호의 스펙트로그램을 생성하는 분리 단계와,
    상기 분리 신호의 스펙트로그램의 퍼뮤테이션 문제를 해소하는 퍼뮤테이션 문제 해소 단계
    를 포함하며,
    상기 퍼뮤테이션 문제 해소 단계에서는, 퍼뮤테이션의 정도에 대응한 척도를, 상기 분리 신호의 스펙트로그램의 대략 전체로부터 계산하고, 상기 계산된 척도에 따라 상기 분리 신호의 스펙트로그램의 각 주파수 bin의 신호를 채널들 간에 교체하여, 상기 퍼뮤테이션 문제를 해소하는 것을 특징으로 하는 음성 신호 분리 방법.
  5. 복수의 신호가 혼합된 복수 채널의 시간 영역의 관측 신호를 독립 성분 분석을 이용하여 신호마다 분리하여 분리 신호를 생성하는 음성 신호 분리 장치로서,
    상기 시간 영역의 관측 신호를 시간 주파수 영역으로 변환하여, 관측 신호의 스펙트로그램을 생성하는 변환부와,
    상기 관측 신호의 스펙트로그램으로부터 상기 분리 신호의 스펙트로그램을 생성하는 분리부와,
    상기 분리 신호의 스펙트로그램의 퍼뮤테이션 문제를 해소하는 퍼뮤테이션 문제 해소부
    를 포함하며,
    상기 퍼뮤테이션 문제 해소부는, 퍼뮤테이션의 정도에 대응한 척도를, 상기 분리 신호의 스펙트로그램의 대략 전체로부터 계산하고, 상기 계산된 척도에 따라 상기 분리 신호의 스펙트로그램의 각 주파수 bin의 신호를 채널들 간에 교체하여, 상기 퍼뮤테이션 문제를 해소하는 것을 특징으로 하는 음성 신호 분리 장치.
KR1020060049780A 2005-06-03 2006-06-02 음성 신호 분리 장치 및 방법 KR101241683B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JPJP-P-2005-00164463 2005-06-03
JP2005164463A JP2006337851A (ja) 2005-06-03 2005-06-03 音声信号分離装置及び方法

Publications (2)

Publication Number Publication Date
KR20060126391A true KR20060126391A (ko) 2006-12-07
KR101241683B1 KR101241683B1 (ko) 2013-03-08

Family

ID=37495245

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060049780A KR101241683B1 (ko) 2005-06-03 2006-06-02 음성 신호 분리 장치 및 방법

Country Status (4)

Country Link
US (1) US7809146B2 (ko)
JP (1) JP2006337851A (ko)
KR (1) KR101241683B1 (ko)
CN (1) CN1897113B (ko)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4239109B2 (ja) * 2006-10-20 2009-03-18 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
JP4403436B2 (ja) * 2007-02-21 2010-01-27 ソニー株式会社 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
US20080228470A1 (en) * 2007-02-21 2008-09-18 Atsuo Hiroe Signal separating device, signal separating method, and computer program
KR100922897B1 (ko) * 2007-12-11 2009-10-20 한국전자통신연구원 Mdct 영역에서 음질 향상을 위한 후처리 필터장치 및필터방법
JP5294300B2 (ja) * 2008-03-05 2013-09-18 国立大学法人 東京大学 音信号の分離方法
KR101178801B1 (ko) * 2008-12-09 2012-08-31 한국전자통신연구원 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법
US20110078224A1 (en) * 2009-09-30 2011-03-31 Wilson Kevin W Nonlinear Dimensionality Reduction of Spectrograms
US9111526B2 (en) 2010-10-25 2015-08-18 Qualcomm Incorporated Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
CN102081928B (zh) * 2010-11-24 2013-03-06 南京邮电大学 基于压缩感知和k-svd的单通道混合语音分离方法
US20130294611A1 (en) * 2012-05-04 2013-11-07 Sony Computer Entertainment Inc. Source separation by independent component analysis in conjuction with optimization of acoustic echo cancellation
US8886526B2 (en) * 2012-05-04 2014-11-11 Sony Computer Entertainment Inc. Source separation using independent component analysis with mixed multi-variate probability density function
KR101356039B1 (ko) * 2012-05-08 2014-01-29 한국과학기술원 하모닉 주파수 사이의 종속관계를 이용한 암묵 신호 분리 방법 및 이를 위한 디믹싱 시스템
US9460732B2 (en) 2013-02-13 2016-10-04 Analog Devices, Inc. Signal source separation
JP2014219467A (ja) * 2013-05-02 2014-11-20 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
US9420368B2 (en) * 2013-09-24 2016-08-16 Analog Devices, Inc. Time-frequency directional processing of audio signals
WO2017094862A1 (ja) * 2015-12-02 2017-06-08 日本電信電話株式会社 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム
JP6535112B2 (ja) * 2016-02-16 2019-06-26 日本電信電話株式会社 マスク推定装置、マスク推定方法及びマスク推定プログラム
US11373672B2 (en) 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
JP6345327B1 (ja) * 2017-09-07 2018-06-20 ヤフー株式会社 音声抽出装置、音声抽出方法および音声抽出プログラム
JP6992873B2 (ja) * 2018-03-06 2022-01-13 日本電気株式会社 音源分離装置、音源分離方法およびプログラム
US10529349B2 (en) * 2018-04-16 2020-01-07 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for end-to-end speech separation with unfolded iterative phase reconstruction
KR101939344B1 (ko) 2018-06-14 2019-01-16 전길자 환자용 휠체어
JP7245669B2 (ja) * 2019-02-27 2023-03-24 本田技研工業株式会社 音源分離装置、音源分離方法、およびプログラム
CN111326143B (zh) * 2020-02-28 2022-09-06 科大讯飞股份有限公司 语音处理方法、装置、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2418722C (en) * 2000-08-16 2012-02-07 Dolby Laboratories Licensing Corporation Modulating one or more parameters of an audio or video perceptual coding system in response to supplemental information
JP4364493B2 (ja) 2002-10-02 2009-11-18 独立行政法人理化学研究所 信号抽出システム、信号抽出方法および信号抽出プログラム
JP3975153B2 (ja) 2002-10-28 2007-09-12 日本電信電話株式会社 ブラインド信号分離方法及び装置、ブラインド信号分離プログラム並びにそのプログラムを記録した記録媒体
JP4496378B2 (ja) * 2003-09-05 2010-07-07 財団法人北九州産業学術推進機構 定常雑音下における音声区間検出に基づく目的音声の復元方法
KR100600313B1 (ko) * 2004-02-26 2006-07-14 남승현 다중경로 다채널 혼합신호의 주파수 영역 블라인드 분리를 위한 방법 및 그 장치
JP4406428B2 (ja) * 2005-02-08 2010-01-27 日本電信電話株式会社 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体
WO2007100330A1 (en) * 2006-03-01 2007-09-07 The Regents Of The University Of California Systems and methods for blind source signal separation

Also Published As

Publication number Publication date
KR101241683B1 (ko) 2013-03-08
US20060277035A1 (en) 2006-12-07
JP2006337851A (ja) 2006-12-14
US7809146B2 (en) 2010-10-05
CN1897113B (zh) 2011-03-16
CN1897113A (zh) 2007-01-17

Similar Documents

Publication Publication Date Title
KR101241683B1 (ko) 음성 신호 분리 장치 및 방법
Christensen et al. Multi-pitch estimation
JP4556875B2 (ja) 音声信号分離装置及び方法
EP4004916B1 (en) System and method for hierarchical audio source separation
Nakano et al. Bayesian nonparametric spectrogram modeling based on infinite factorial infinite hidden Markov model
Vijayasenan et al. An information theoretic combination of MFCC and TDOA features for speaker diarization
Rigaud et al. A parametric model and estimation techniques for the inharmonicity and tuning of the piano
Cho Improved techniques for automatic chord recognition from music audio signals
Silva et al. Spoken digit recognition in portuguese using line spectral frequencies
Elvander et al. An adaptive penalty multi-pitch estimator with self-regularization
Wang et al. Investigating single-channel audio source separation methods based on non-negative matrix factorization
Kim et al. Monaural music source separation: Nonnegativity, sparseness, and shift-invariance
Duong et al. Gaussian modeling-based multichannel audio source separation exploiting generic source spectral model
Cwitkowitz Jr End-to-end music transcription using fine-tuned variable-Q filterbanks
Anantapadmanabhan et al. Tonic-independent stroke transcription of the mridangam
O'Hanlon et al. Improved template based chord recognition using the CRP feature
Ichita et al. Audio source separation based on nonnegative matrix factorization with graph harmonic structure
Yuen et al. Hybrid Sampling-Wavetable Synthesis with Genetic Algorithms (P)
Kostek et al. Statistical analysis of musical sound features derived from wavelet representation
KR100802984B1 (ko) 기준 모델을 이용하여 미확인 신호를 판별하는 방법 및장치
Vatolkin et al. Performance of specific vs. generic feature sets in polyphonic music instrument recognition
Kathiresan et al. Highly spectrally undersampled vowels can be classified by machines without supervision
Kareer et al. Musical polyphony estimation
Asaei et al. Phonetic and phonological posterior search space hashing exploiting class-specific sparsity structures
Subramani et al. Rethinking Non-Negative Matrix Factorization with Implicit Neural Representations

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee