KR20110057525A - 음원 분리 방법 및 장치 - Google Patents
음원 분리 방법 및 장치 Download PDFInfo
- Publication number
- KR20110057525A KR20110057525A KR1020090113966A KR20090113966A KR20110057525A KR 20110057525 A KR20110057525 A KR 20110057525A KR 1020090113966 A KR1020090113966 A KR 1020090113966A KR 20090113966 A KR20090113966 A KR 20090113966A KR 20110057525 A KR20110057525 A KR 20110057525A
- Authority
- KR
- South Korea
- Prior art keywords
- phase difference
- sound source
- frequency
- sound
- signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000000926 separation method Methods 0.000 title claims description 45
- 238000012545 processing Methods 0.000 claims abstract description 18
- 229910052709 silver Inorganic materials 0.000 claims description 4
- 239000004332 silver Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 8
- 238000012880 independent component analysis Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 102100026436 Regulator of MON1-CCZ1 complex Human genes 0.000 description 1
- 101710180672 Regulator of MON1-CCZ1 complex Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
음원 분리 방법 및 장치를 제공한다. 음원 분리 방법은 제공된 입력 신호를 주파수 영역으로 변환하는 단계, 변환된 신호를 주파수 대역 단위로 음원 분리하는 단계, 음원의 혼합을 위한 혼합 필터의 위상차를 이용하여 주파수 대역 단위로 분리된 음원을 정렬하는 단계 및 정렬된 음원을 시간 영역으로 변환하는 단계를 포함하여 구성될 수 있다. 따라서, 여러 가지 음원이 동시에 존재하는 환경에서 원하는 음원의 신호만을 분리하여 그 소리를 효과적으로 처리하도록 해준다. 특히, 회의장과 같이 많은 사람들이 동시에 발성하는 환경 또는 공연장과 같이 다양한 음원이 동시에 존재하는 환경 또는 TV 등이 켜져 있는 잡음 환경에서의 음성의 녹음, 전송 및 인식에서 원하는 음원의 소리만을 골라서 처리할 수 있게 된다.
음원, 분리, 주파수 영역, 시간 영역, 푸리에 변환, 역푸리에 변환, 혼합 필터, 위상차, 목표 위상차, 실제 위상차
Description
본 발명은 음원 분리 방법 및 장치에 관한 것으로, 더욱 상세하게는 고음질의 음원을 추출하기 위한 음원 분리 방법 및 장치에 관한 것이다.
본 발명은 지식경제부의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다 [과제관리번호: 2006-S-036-04, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].
일반적으로, 암묵 신호 분리 기술은 두 개 이상의 마이크로폰으로부터 채집된 신호를 음원의 통계적 특성에 따라 신호를 분리하는 기술로 크게 시간 영역에서의 분리 방법과 주파수 영역에서의 분리 방법으로 구분된다. 시간 영역에서의 분리 방법은 이론적으로는 주파수 영역에서의 방법보다 우수한 성능을 보이나, 실제 적용했을 경우 화자의 위치 및 환경의 영향을 많이 받고, 알고리즘이 복잡하고, 계산량이 많다는 단점이 있다. 이에 반하여 주파수 영역에서의 분리 방법은 알고리즘이 직관적이며 구현이 간단하나 본질적으로 뒤섞임 문제가 수반되며 이를 해결하기가 쉽지 않다는 단점이 있다. 주파수 영역에서의 독립 요소 분석 기법을 이용한 음원 분리 기술에 대하여 살펴보도록 하면, 암묵 신호 분리 방법에서 마이크 입력 신 호는 몇 개의 음원이 콘볼루션 형태로 혼합된 신호라고 가정한다. 즉,
여기에서, N은 음원 신호의 개수, M은 마이크로폰의 개수, 는 j번째 음원 신호, 는 i번째 마이크로폰에서 채집된 입력 신호, 는 j번째 음원 신호와, i번째 마이크로폰 사이의 임펄스 반응을 의미한다. 여기에서, 음원 신호의 개수 N은 일반적으로 미리 알 수 없으며, 보통 마이크로폰의 개수 M과 같거나 보다 작다고 가정한다.
암묵 신호 분리의 목적은 마이크로폰의 입력 신호로부터 각각의 음원 신호를 추정하고자 하는 것이며 아래의 수학식 2와 같은 방법으로 계산된다.
수학식 1 및 수학식 2를 각각 주파수 영역에서 표현하면 아래와 같다.
주파수 영역에서의 암묵 신호 분리 문제는 각 주파수 대역 별로 수학식 4에 나타난 분리 필터 계수 를 구하는 문제이며 이는 단순 합산 신호의 독립 요소 분석 기법의 문제와 동치로 비교적 쉽게 구해질 수 있다. 하지만 이렇게 구해진 분리 필터 계수에는 뒤섞임 문제가 포함되어 있다.
일반적으로 독립 요소 분석 기법에 의한 음원 분리의 경우 출력 신호의 순서는 상관없이 두 신호의 상대적인 관계만을 고려하게 된다. 예를 들어 두 개의 음원 신호 와 두 개의 마이크로폰 입력 신호 및 이를 이용하여 분리된 신호 가 있다고 가정했을 때, 분리된 신호 가 어떤 경우에는 순서대로 에 해당하는 신호일 수 있지만, 또 다른 경우에는 순서가 바뀌어서 에 해당하는 신호일 수도 있게 된다.
이러한 신호의 뒤섞임 문제는 시간 영역에서의 경우 분리된 신호가 각각 다른 채널에 출력되는 문제에 지나지 않는다. 하지만 각 주파수 대역이 독립적으로 분리한 후, 신호 복원 과정에서 다시 모든 주파수 대역 신호를 모아서 시간 영역 신호로 복원하는 주파수 영역 암묵 신호 분리 방법에 있어서 채널 뒤섞임 문제는 분리된 신호에 심각한 왜곡을 가져오게 된다. 따라서 시간 영역으로 신호를 복원하기 전에 이러한 뒤섞임 문제를 해결해 주어야 한다.
이와는 달리 뒤섞임 문제를 회피하기 위하여 전체 주파수 대역을 하나의 벡터로 취급하여 분리하는 독립 벡터 해석(Independent Vector Analysis) 방법이 제안되었으나 이 방법은 계산량이 많고 수렴속도가 늦다는 단점이 있다.
본 발명의 목적은 고음질의 음원을 추출하기 위한 음원 분리 방법을 제공하는 것이다.
본 발명의 다른 목적은 고음질의 음원을 추출하기 위한 음원 분리 장치를 제공하는 것이다.
상술한 본 발명의 목적을 달성하기 위한 음원 분리 방법은 제공된 입력 신호를 주파수 영역으로 변환하는 단계, 상기 변환된 신호를 주파수 대역 단위로 음원 분리하는 단계, 음원의 혼합을 위한 혼합 필터의 위상차를 이용하여 상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계 및 상기 정렬된 음원을 시간 영역으로 변환하는 단계를 포함하여 구성될 수 있다.
여기에서, 상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계는 제1 정렬기준을 지정하고, 상기 제1 정렬기준에 따라 상기 비례상수()를 추정하는 단계 및 상기 추정된 비례상수()를 이용하여 계산한 목표 위상차와 실제 위상차 간의 오차를 이용하여 제2 정렬기준을 계산하는 단계를 포함하는 것일 수 있다.
여기에서, 상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계에서, 상기 계산된 제2 정렬기준을 제1 정렬기준으로 보고, 상기 제1 정렬기준에 따라 상기 비례상수()를 추정하는 단계 및 상기 추정된 비례상수()를 이용하여 계산한 목표 위상차와 실제 위상차 간의 오차를 이용하여 제2 정렬기준을 계산하는 단계를 반복하되, 상기 제1 정렬기준에 의하여 추정된 비례상수와 이전의 비례상수의 차이가 미리 정해진 값보다 작으면 반복을 중지하는 것일 수 있다.
여기에서, 상기 제2 정렬기준을 계산하는 것은 상기 추정된 비례상수를 이용하여 계산한 목표 위상차()가 일 때, 상기 제2 정렬기준()은 (여기에서, 는 실제 위상차, 는 비례상수, 는 주파수)인 것일 수 있다.
상술한 본 발명의 다른 목적을 달성하기 위한 음원 분리 장치는 제공된 신호를 입력받아 주파수 영역으로 변환하는 입력부, 상기 입력부로부터 변환된 신호를 제공받아 주파수 대역 단위로 음원을 분리하고, 음원의 혼합을 위한 혼합 필터의 위상차를 이용하여 상기 주파수 대역 단위로 분리된 음원을 정렬하는 프로세싱부, 상기 프로세싱부로부터 정렬된 음원을 제공받아 시간 영역으로 변환하여 출력하는 출력부 및 상기 입력부, 프로세싱부 및 출력부의 동작을 제어하는 제어부를 포함하여 구성될 수 있다.
상기와 같은 음성 분리 방법 및 장치에 따르면, 음성을 비롯한 소리를 입력으로 하는 기기의 사용에 있어서, 여러 가지 음원이 동시에 존재하는 환경에서 원하는 음원의 신호만을 분리하여 그 소리를 효과적으로 처리하도록 해준다. 따라서, 회의장과 같이 많은 사람들이 동시에 발성하는 환경 또는 공연장과 같이 다양한 음원이 동시에 존재하는 환경 또는 TV 등이 켜져 있는 잡음 환경에서의 음성의 녹음, 전송 및 인식에서 원하는 음원의 소리만을 골라서 처리할 수 있게 된다. 종래의 암묵 신호 처리 기법과 비교하여 간단한 선형 회귀 분석 방식의 채널 뒤섞임 해결 방법을 사용함으로써 적은 계산량으로 채널 뒤섞임 문제를 해결할 수 있으며 동시에 수렴 속도를 빠르게 할 수 있다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치 하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명의 일 실시예에 따른 음원 분리 방법을 설명하기 위한 흐름도이다. 도 2는 본 발명의 일 실시예에 따른 음원 분리 방법을 설명하기 위한 개념도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 음원 분리 방법은 제공된 입력 신호를 주파수 영역으로 변환하는 단계(단계 110), 상기 변환된 신호를 주파수 대역 단위로 음원 분리하는 단계(단계 120), 음원의 혼합을 위한 혼합 필터의 위상차를 이용하여 상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계(단계 130) 및 상기 정렬된 음원을 시간 영역으로 변환하는 단계(단계 140)를 포함하여 구성될 수 있다.
먼저, 제공된 입력 신호를 주파수 영역으로 변환하는 단계(단계 110)는 제공된 입력신호를 각 채널 별로 주파수 영역으로 변환하는 것이다. 이것은 일반적인 음성 신호 처리 방법과 마찬가지로 푸리에 변환(Fourier Transform)을 사용할 수 있다.
도 2를 참조하면, 및 의 음원 소스(Source)로부터 발생한 소리는 mic1 및 mic2의 마이크로폰을 통하여 입력되고, 상기 입력 신호를 제공받아 각각 푸리에 변환을 통하여 주파수 영역의 신호로 변환하는 것(단계 210)일 수 있다.
즉, 음원 신호가 2개이고, 마이크로폰이 2개인 환경에서, mic 1으로 및 의 혼합신호가 입력되고, mic 2에도 및 의 혼합신호가 각각 입력되고, 각각의 혼합신호를 주파수 영역에서의 분리를 위하여 각각 푸리에 변환을 이용하여 변환하는 것일 수 있다.
다음으로, 상기 변환된 신호를 주파수 대역 단위로 음원 분리하는 단계(단계 120)는 기존의 독립 요소 분석 기법(ICA: Independent Component Analysis) 등을 이용하여 각 주파수 대역별로 음원을 분리하는 것일 수 있다.
예를 들면, 각 주파수 대역별로 독립 요소 분석 기법을 적용하여 음원을 분리하는 것으로, 각각 단순한 M X N 혼합행렬의 역행렬을 추정하는 것을 통하여 비교적 간단하게 음원의 분리가 가능하다. 또한, 이 과정에는 종래의 다른 방법을 적용할 수도 있을 것이다.
도 2를 참조하면, 독립 요소 분석 기법(ICA: Independent Component Analysis)을 이용하여 각각의 주파수 대역인 Freq 1, Freq 2, Freq 3 내지 Freq n 마다 및 의 혼합신호를 각각 분리하는 것(단계 220)일 수 있다. 각각의 신호를 실선과 점선으로 나타내고 있는 것을 고려하면 쉽게 이해할 수 있다.
다만, 상기의 독립 요소 분석 기법(ICA: Independent Component Analysis) 을 이용하여 분리된 신호는 각각의 순서가 뒤섞인 신호로서, 각각 및 신호로의 분리하기 위해서는 추가적인 정렬이 필요할 것이다.
다음으로, 음원의 혼합을 위한 혼합 필터의 위상차를 이용하여 상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계(단계 130)는 상기 혼합 필터의 위상차를 비례상수()와 주파수()의 곱으로 표현되도록 모델링하는 것을 이용하여 상기 주파수 대역 단위로 분리된 음원을 정렬하는 것일 수 있다.
즉, 각 주파수 대역별로 독립적으로 분리된 추정 음원에 대하여 채널 뒤섞임 문제를 해결한 후, 같은 음원에 해당하는 성분끼리 취합하는 것일 수 있다. 종래의 방법으로 상관관계(correlation) 계산을 통한 인접 주파수 대역과의 유사도를 측정하여 해결하는 방법과 입력 신호의 방향 차이로부터 유도되는 분리 행렬의 위상차를 이용하는 방법 등이 있다. 여기에서는 분리 행렬의 위상차를 이용하는 방법을 사용할 수 있을 것이다.
도 2를 참조하면, 상기 주파수 대역 단위로 분리된 음원에 대한 정렬 과정을 통하여 각각의 주파수마다 순서를 지정하고, 각각의 순서에 따라 또는 신호로 분리가 가능한 상태로 정렬(단계 230)됨을 알 수 있다.
도 1 및 도 2를 다시 병행하여 참조하면, 본 발명의 일 실시예에 따른 음원 분리 방법에서 음원의 혼합을 위한 혼합 필터의 위상차를 이용하여 상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계(단계 130)는 상기 혼합 필터의 위상차를 비례상수()와 주파수()의 곱으로 표현되도록 모델링하는 것에서 나아가 제1 정 렬기준을 지정하고, 상기 제1 정렬기준에 따라 상기 비례상수()를 추정하는 단계(단계 131) 및 상기 추정된 비례상수()를 이용하여 계산한 목표 위상차와 실제 위상차 간의 오차를 이용하여 제2 정렬기준을 계산하는 단계(단계 132)를 포함하는 것일 수 있다.
계산의 간략화 및 이해를 위하여 마이크의 개수와 음원의 개수가 모두 2인 경우에 한하여 설명한다. 다만, 실제 개수가 3개 이상인 경우에도 동일한 방법으로 적용될 수 있을 것이다.
상기 수학식 4를 행렬 형태로 표현하면 수학식 5와 같다.
여기에서, 는 채널 뒤섞임 결과에 따라 시간 영역 신호 또는 의 f번째 주파수 성분을 의미하게 된다. 즉, 각각의 주파수 대역에 대하여 와 가 각각 어떤 음원에 해당하는 성분인지를 결정해주어야 한다. 이러한 과정을 수학식으로 표현하면 수학식 6과 같다.
채널의 뒤섞임 문제를 해결하기 위해서는 각각 다른 주파수 성분에 대해서 가 모두 같은 음원에 해당하도록 새로운 정렬 기준 를 찾는 문제이다. 즉, 수학식 6과 같은 정렬 기준 을 모든 j 및 f에 대하여 구하는 문제이다.
상기의 과정을 각 신호가 2개의 주파수 성분을 갖는 경우를 가정하여 예를 들어 설명하도록 한다. 2개의 음원 신호는 주파수 영역에서 각각 및 로 표현된다. 또한 분리된 신호는 및 로 가정할 수 있다. 앞서 설명한 바와 같이 주파수 영역 암묵 신호 분리 방법에서는 각 주파수 대역 별로 독립적으로 분리 필터가 학습되어 분리된 신호가 출력되므로, 1번 대역에서는 뒤섞임이 발생하지 않고, 2번 대역에서만 뒤섞임이 발생했다고 가정하면 은 에 대응되고, 는 신호에 대응된다. 이 경우에는 과 를 묶어서 시간 영역 신호로 변환해 주어야 한다. 따라서 = 0, = 1, = 1, = 0의 값을 갖도록 뒤섞임 정렬 기준 를 구하여야 한다.
상술한 정렬 기준 를 자동으로 찾기 위하여 분리 필터 또는 혼합 필터의 위상(phase) 차이를 이용할 수 있다. 분리 필터 는 혼합필터 의 역필터이다. 혼합 필터는 i번째 음원과 j번째 마이크로폰 간의 임펄스 응답을 나타낸다. 즉,
채널 뒤섞임 문제가 없다고 가정했을 때 와 의 위상 차이는 j번째 음원의 상대적 위치, 즉 각도에 차이에 의해 결정되며 이 값은 주파수에 비례하는 성질을 갖는다. 즉, 수학식 9와 같으며,
다음으로, 상기 정렬된 음원을 시간 영역으로 변환하는 단계(단계 140)는 통합된 주파수 영역의 신호를 분리된 스펙트럼을 이용하여 역푸리에 변환을 통하여 다시 시간영역의 신호로 복원하는 것일 수 있다.
도 3은 본 발명의 일 실시예에 따른 음원 분리 방법에서 혼합 필터의 위상차를 설명하기 위한 예시도이다. 도 4는 본 발명의 일 실시예에 따른 음원 분리 방법에서 혼합 필터의 위상차를 설명하기 위해 단순하게 표현한 예시도이다.
도 3 및 도 4를 병행하여 참조하면, 실제 혼합 신호로부터 학습된 혼합 필터의 위상 차이를 도시하고 있음을 알 수 있다. 도 3은 뒤섞임 문제를 해결하기 이전의 각 주파수 대역별로 수학식 9에 나타난 위상차를 두 개의 음원에 대해서 같이 도시한 것이다. 도 3 및 도 4에 나타난 바와 같이, 위상차는 대략적으로 주파수에 비례하는 것을 알 수 있으며, 뒤섞임 문제에 따라 해당 음원이 반대로 나타나는 경우가 있음을 알 수 있다. 본 발명에서는 이러한 뒤섞임 문제를 수학식 9의 비례상수 를 추정하고, 추정된 기울기로부터 구해진 목표 위상 차와 실제 위상차간의 오차가 최소가 되도록 채널 뒤섞임을 결정하여 정렬하는 방법을 사용하도록 한다. 보다 구체적으로는 아래의 두 가지 단계를 반복적으로 수행함으로써 정렬 기준을 구한다.
수학식 11과 같으며, 이 때 추정된 위상차와 실제 위상차간의 오차는 수학식 12 및 13과 같다.
이 과정은 단순한 선형 회귀 분석과 동일한 방법이다. 하지만 일반적인 선형회귀 분석법과 본 발명에서 해결하고자 하는 문제와는 두 가지 측면에서 차이점을 갖는다.
상기 두 가지 측면의 차이점 중 한 가지는 위상은 사이의 값을 갖는다는 점이다. 즉, 수학식 11에 의해 계산된 목표 위상이 범위에 있지 않은 경우 실제 목표 위상차는 이 값에서 의 정수배만큼을 빼거나 더해준 값이 목표 위상차가 된다. 이는 도 4에서 점선으로 구성된 직선에 의해 표시된 목표 위상차가 불연속으로 표현되는 이유이다. 이에 따라 수학식 11은 아래와 같이 수정된다.
도 1 및 도 2를 다시 병행하여 참조하면, 상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계(단계 130)에서 상기 목표 위상차와 실제 위상차 간의 오차는 주기의 주파수 천이를 고려하여 계산되는 것일 수 있다.
상기 두 가지 측면의 차이점 중 두 번째 차이점은 위상값은 를 주기로 반복된다는 점이다. 이에 따라 두 위상의 차이도 단순한 차이를 계산하는 것이 아니라, 를 주기로 한 주파수 천이도 함께 고려해야 한다.
도 5는 본 발명의 일 실시예에 따른 음원 분리 방법에서 상기 목표 위상차와 실제 위상차 간의 오차를 설명하기 위한 예시도이다.
따라서 수학식 13은 아래와 같이 수정되어야 한다.
상기 두 가지 문제점은 비록 그 원인이 다른 문제점이지만 아래와 같은 하나의 방법으로 모두 해결할 수 있다. 즉, 수학식 16을 수학식 17에 대입하면 위상차의 오차 는 수학식 18 및 19와 같이 계산될 수 있다.
도 1 및 도 2를 다시 병행하여 참조하면, 상기 제1 정렬기준에 따라 상기 비례상수()를 추정하는 단계(단계 131)에서, 상기 추정된 비례상수()는 (여기에서, 는 주파수, 는 실제 위상차, 는 주파수 천이를 고려했을 때 오차가 최소가 되도록 하는 정수값)인 것일 수 있다.
두 번째 과정은 추정된 비례상수로부터 각각의 음원에 대해서 오차가 최소 가 되도록 뒤섞임 정렬을 다시 한다. 이 과정은 아래와 같은 방법으로 수행된다.
도 1 및 도 2를 다시 병행하여 참조하면, 상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계(단계 130)에서 상기 제2 정렬기준을 계산하는 것은 상기 추정된 비례상수를 이용하여 계산한 목표 위상차()가 일 때, 상기 제2 정렬기준()은 (여기에서, 는 실제 위상차, 는 비례상수, 는 주파수)인 것일 수 있다.
도 1 및 도 2를 다시 병행하여 참조하면, 상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계(단계 130)에서, 상기 계산된 제2 정렬기준을 제1 정렬기준으로 보고, 상기 제1 정렬기준에 따라 상기 비례상수()를 추정하는 단계 및 상기 추정된 비례상수()를 이용하여 계산한 목표 위상차와 실제 위상차 간의 오차를 이용하여 제2 정렬기준을 계산하는 단계를 반복하되, 상기 제1 정렬기준에 의하여 추정된 비례상수와 이전의 비례상수의 차이가 미리 정해진 값보다 작으면 반복을 중지하는 것일 수 있다.
즉, 모든 조합에 대해서 현재 추정된 기울기로 위상차를 모델링했을때 오차가 최소가 되는 정렬을 새로운 정렬로 간주한다. 이 과정에서 정렬 기준이 달라짐에 따라 다시 첫 번째 스텝으로 돌아가 새로운 기울기를 계산하는 과정을 반복하고, 새로운 기울기로 다시 두 번째 과정을 반복하게 된다.
여기서 새로운 기울기와 이전의 기울기와의 차이가 정해진 기준치보다 작으면 반복을 중단하게 된다.
도 6은 본 발명의 일 실시예에 따른 음원 분리 장치를 설명하기 위한 블록도이다.
도 6을 참조하면, 본 발명의 일 실시예에 따른 음원 분리 장치(600)는 제공된 신호를 입력받아 주파수 영역으로 변환하는 입력부(610), 상기 입력부로부터 변환된 신호를 제공받아 주파수 대역 단위로 음원을 분리하고, 음원의 혼합을 위한 혼합 필터의 위상차를 이용하여 상기 주파수 대역 단위로 분리된 음원을 정렬하는 프로세싱부(620), 상기 프로세싱부로부터 정렬된 음원을 제공받아 시간 영역으로 변환하여 출력하는 출력부(630) 및 상기 입력부, 프로세싱부 및 출력부의 동작을 제어하는 제어부(640)를 포함하여 구성될 수 있다.
여기에서, 상기 프로세싱부(630)에서 상기 주파수 대역 단위로 분리된 음원을 정렬하는 것은 상기 혼합 필터의 위상차를 비례상수()와 주파수()의 곱으로 표현되도록 모델링하는 것일 수 있다.
먼저, 입력부(610)는 입력받은 신호를 각 채널 별로 주파수 영역으로 변환하는 것이다. 일반적인 음성 신호 처리 방법과 마찬가지로 푸리에 변환(Fourier Transform)을 사용할 수 있을 것이다.
다음으로, 프로세싱부(620)는 기존의 독립 요소 분석 기법(ICA: Independent Component Analysis)을 이용하여 상기 주파수 영역으로 변환된 신호에 대하여 각 주파수 대역별로 음원을 분리하는 것일 수 있다.
예를 들면, 각 주파수 대역별로 독립 요소 분석 기법을 적용하여 음원을 분리하는 것으로, 각각 단순한 M X N 혼합행렬의 역행렬을 추정하는 것을 통하여 음원의 분리가 가능할 것이다.
추가적으로, 상기 혼합 필터의 위상차를 비례상수()와 주파수()의 곱으로 표현되도록 모델링하고, 나아가 제1 정렬기준에 따라 상기 비례상수()를 추정하고, 상기 추정된 비례상수()를 이용하여 계산한 목표 위상차와 실제 위상차 간의 오차를 이용하여 제2 정렬기준을 계산하는 것을 포함하는 것일 수 있다. 상기 음원 분리 방법에서 상술하였으므로 자세한 설명은 생략한다.
다음으로, 출력부(630)는 통합된 주파수 영역의 신호를 분리된 스펙트럼을 이용하여 역푸리에 변환을 통하여 다시 시간영역의 신호로 복원하는 것일 수 있다.
다음으로, 제어부(640)는 상기 입력부, 프로세싱부 및 출력부의 동작을 제어하는 것일 수 있으며, 필요에 따라 메모리를 추가적으로 포함하여 구성되는 것일 수 있을 것이다.
이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 음원 분리 방법을 설명하기 위한 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 음원 분리 방법을 설명하기 위한 개념도이다.
도 3은 본 발명의 일 실시예에 따른 음원 분리 방법에서 혼합 필터의 위상차를 설명하기 위한 예시도이다.
도 4는 본 발명의 일 실시예에 따른 음원 분리 방법에서 혼합 필터의 위상차를 설명하기 위해 단순하게 표현한 예시도이다.
도 5는 본 발명의 일 실시예에 따른 음원 분리 방법에서 상기 목표 위상차와 실제 위상차 간의 오차를 설명하기 위한 예시도이다.
도 6은 본 발명의 일 실시예에 따른 음원 분리 장치를 설명하기 위한 블록도이다.
< 도면의 주요부분에 대한 부호의 설명 >
600: 음원 분리 장치 610: 입력부
620: 프로세싱부 630: 출력부
640: 제어부
Claims (10)
- 제공된 입력 신호를 주파수 영역으로 변환하는 단계;상기 변환된 신호를 주파수 대역 단위로 음원 분리하는 단계;음원의 혼합을 위한 혼합 필터의 위상차를 이용하여 상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계; 및상기 정렬된 음원을 시간 영역으로 변환하는 단계를 포함하여 구성되는 음원 분리 방법.
- 제공된 신호를 입력받아 주파수 영역으로 변환하는 입력부;상기 입력부로부터 변환된 신호를 제공받아 주파수 대역 단위로 음원을 분리하고, 음원의 혼합을 위한 혼합 필터의 위상차를 이용하여 상기 주파수 대역 단 위로 분리된 음원을 정렬하는 프로세싱부;상기 프로세싱부로부터 정렬된 음원을 제공받아 시간 영역으로 변환하여 출력하는 출력부; 및상기 입력부, 프로세싱부 및 출력부의 동작을 제어하는 제어부를 포함하여 구성되는 음원 분리 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090113966A KR20110057525A (ko) | 2009-11-24 | 2009-11-24 | 음원 분리 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090113966A KR20110057525A (ko) | 2009-11-24 | 2009-11-24 | 음원 분리 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20110057525A true KR20110057525A (ko) | 2011-06-01 |
Family
ID=44393144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090113966A KR20110057525A (ko) | 2009-11-24 | 2009-11-24 | 음원 분리 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20110057525A (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101421793B1 (ko) * | 2012-06-29 | 2014-07-24 | 인텔렉추얼디스커버리 주식회사 | 하이브리드 음원 서비스 장치 및 방법 |
US10455342B2 (en) | 2013-06-05 | 2019-10-22 | Samsung Electronics Co., Ltd. | Sound event detecting apparatus and operation method thereof |
-
2009
- 2009-11-24 KR KR1020090113966A patent/KR20110057525A/ko not_active Application Discontinuation
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101421793B1 (ko) * | 2012-06-29 | 2014-07-24 | 인텔렉추얼디스커버리 주식회사 | 하이브리드 음원 서비스 장치 및 방법 |
US10455342B2 (en) | 2013-06-05 | 2019-10-22 | Samsung Electronics Co., Ltd. | Sound event detecting apparatus and operation method thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101280253B1 (ko) | 음원 분리 방법 및 그 장치 | |
CN109661705B (zh) | 声源分离装置和方法以及程序 | |
Grais et al. | Raw multi-channel audio source separation using multi-resolution convolutional auto-encoders | |
CN101816191B (zh) | 用于提取环境信号的装置和方法 | |
CN102074230B (zh) | 语音识别装置、语音识别方法和程序 | |
JP4689625B2 (ja) | 信号解析及び合成のための適応型混合変換 | |
JP5195979B2 (ja) | 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム | |
JP5375400B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
KR101670313B1 (ko) | 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법 | |
WO2016063794A1 (en) | Method for transforming a noisy audio signal to an enhanced audio signal | |
US20200075030A1 (en) | Methods and systems for processing and mixing signals using signal decomposition | |
CA2656867A1 (en) | Apparatus and method for combining multiple parametrically coded audio sources | |
Mimilakis et al. | A recurrent encoder-decoder approach with skip-filtering connections for monaural singing voice separation | |
JPWO2006090589A1 (ja) | 音分離装置、音分離方法、音分離プログラムおよびコンピュータに読み取り可能な記録媒体 | |
JP7176627B2 (ja) | 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム | |
Grais et al. | Multi-resolution fully convolutional neural networks for monaural audio source separation | |
CN103875197A (zh) | 直接-发散分解 | |
JP2006154314A (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
Noh et al. | Three-stage approach for sound event localization and detection | |
KR20110057525A (ko) | 음원 분리 방법 및 장치 | |
WO2012105386A1 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
KR20130006857A (ko) | 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법 | |
Chen et al. | On Synthesis for Supervised Monaural Speech Separation in Time Domain. | |
Grais et al. | Referenceless performance evaluation of audio source separation using deep neural networks | |
JP6973254B2 (ja) | 信号分析装置、信号分析方法および信号分析プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Withdrawal due to no request for examination |