KR20110057525A - 음원 분리 방법 및 장치 - Google Patents

음원 분리 방법 및 장치 Download PDF

Info

Publication number
KR20110057525A
KR20110057525A KR1020090113966A KR20090113966A KR20110057525A KR 20110057525 A KR20110057525 A KR 20110057525A KR 1020090113966 A KR1020090113966 A KR 1020090113966A KR 20090113966 A KR20090113966 A KR 20090113966A KR 20110057525 A KR20110057525 A KR 20110057525A
Authority
KR
South Korea
Prior art keywords
phase difference
sound source
frequency
sound
signal
Prior art date
Application number
KR1020090113966A
Other languages
English (en)
Inventor
박기영
정호영
이성주
강병옥
이윤근
박전규
정훈
강점자
정의석
왕지현
전형배
김종진
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020090113966A priority Critical patent/KR20110057525A/ko
Publication of KR20110057525A publication Critical patent/KR20110057525A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

음원 분리 방법 및 장치를 제공한다. 음원 분리 방법은 제공된 입력 신호를 주파수 영역으로 변환하는 단계, 변환된 신호를 주파수 대역 단위로 음원 분리하는 단계, 음원의 혼합을 위한 혼합 필터의 위상차를 이용하여 주파수 대역 단위로 분리된 음원을 정렬하는 단계 및 정렬된 음원을 시간 영역으로 변환하는 단계를 포함하여 구성될 수 있다. 따라서, 여러 가지 음원이 동시에 존재하는 환경에서 원하는 음원의 신호만을 분리하여 그 소리를 효과적으로 처리하도록 해준다. 특히, 회의장과 같이 많은 사람들이 동시에 발성하는 환경 또는 공연장과 같이 다양한 음원이 동시에 존재하는 환경 또는 TV 등이 켜져 있는 잡음 환경에서의 음성의 녹음, 전송 및 인식에서 원하는 음원의 소리만을 골라서 처리할 수 있게 된다.
음원, 분리, 주파수 영역, 시간 영역, 푸리에 변환, 역푸리에 변환, 혼합 필터, 위상차, 목표 위상차, 실제 위상차

Description

음원 분리 방법 및 장치{Method and Apparatus for Separation of Sound}
본 발명은 음원 분리 방법 및 장치에 관한 것으로, 더욱 상세하게는 고음질의 음원을 추출하기 위한 음원 분리 방법 및 장치에 관한 것이다.
본 발명은 지식경제부의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다 [과제관리번호: 2006-S-036-04, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].
일반적으로, 암묵 신호 분리 기술은 두 개 이상의 마이크로폰으로부터 채집된 신호를 음원의 통계적 특성에 따라 신호를 분리하는 기술로 크게 시간 영역에서의 분리 방법과 주파수 영역에서의 분리 방법으로 구분된다. 시간 영역에서의 분리 방법은 이론적으로는 주파수 영역에서의 방법보다 우수한 성능을 보이나, 실제 적용했을 경우 화자의 위치 및 환경의 영향을 많이 받고, 알고리즘이 복잡하고, 계산량이 많다는 단점이 있다. 이에 반하여 주파수 영역에서의 분리 방법은 알고리즘이 직관적이며 구현이 간단하나 본질적으로 뒤섞임 문제가 수반되며 이를 해결하기가 쉽지 않다는 단점이 있다. 주파수 영역에서의 독립 요소 분석 기법을 이용한 음원 분리 기술에 대하여 살펴보도록 하면, 암묵 신호 분리 방법에서 마이크 입력 신 호는 몇 개의 음원이 콘볼루션 형태로 혼합된 신호라고 가정한다. 즉,
Figure 112009072178110-PAT00001
여기에서, N은 음원 신호의 개수, M은 마이크로폰의 개수,
Figure 112009072178110-PAT00002
는 j번째 음원 신호,
Figure 112009072178110-PAT00003
는 i번째 마이크로폰에서 채집된 입력 신호,
Figure 112009072178110-PAT00004
는 j번째 음원 신호와, i번째 마이크로폰 사이의 임펄스 반응을 의미한다. 여기에서, 음원 신호의 개수 N은 일반적으로 미리 알 수 없으며, 보통 마이크로폰의 개수 M과 같거나 보다 작다고 가정한다.
암묵 신호 분리의 목적은 마이크로폰의 입력 신호로부터 각각의 음원 신호를 추정하고자 하는 것이며 아래의 수학식 2와 같은 방법으로 계산된다.
Figure 112009072178110-PAT00005
여기에서,
Figure 112009072178110-PAT00006
는 추정된 음원 신호이고
Figure 112009072178110-PAT00007
는 i번째 마이크 입력 신호로부터 j번째 음원 신호를 추정하기 위한 가중치 값으로 수학식 1의 역필터(inverse filter)에 해당한다.
수학식 1 및 수학식 2를 각각 주파수 영역에서 표현하면 아래와 같다.
Figure 112009072178110-PAT00008
Figure 112009072178110-PAT00009
주파수 영역에서의 암묵 신호 분리 문제는 각 주파수 대역 별로 수학식 4에 나타난 분리 필터 계수
Figure 112009072178110-PAT00010
를 구하는 문제이며 이는 단순 합산 신호의 독립 요소 분석 기법의 문제와 동치로 비교적 쉽게 구해질 수 있다. 하지만 이렇게 구해진 분리 필터 계수에는 뒤섞임 문제가 포함되어 있다.
일반적으로 독립 요소 분석 기법에 의한 음원 분리의 경우 출력 신호의 순서는 상관없이 두 신호의 상대적인 관계만을 고려하게 된다. 예를 들어 두 개의 음원 신호
Figure 112009072178110-PAT00011
와 두 개의 마이크로폰 입력 신호
Figure 112009072178110-PAT00012
및 이를 이용하여 분리된 신호
Figure 112009072178110-PAT00013
가 있다고 가정했을 때, 분리된 신호
Figure 112009072178110-PAT00014
가 어떤 경우에는 순서대로
Figure 112009072178110-PAT00015
에 해당하는 신호일 수 있지만, 또 다른 경우에는 순서가 바뀌어서
Figure 112009072178110-PAT00016
에 해당하는 신호일 수도 있게 된다.
이러한 신호의 뒤섞임 문제는 시간 영역에서의 경우 분리된 신호가 각각 다른 채널에 출력되는 문제에 지나지 않는다. 하지만 각 주파수 대역이 독립적으로 분리한 후, 신호 복원 과정에서 다시 모든 주파수 대역 신호를 모아서 시간 영역 신호로 복원하는 주파수 영역 암묵 신호 분리 방법에 있어서 채널 뒤섞임 문제는 분리된 신호에 심각한 왜곡을 가져오게 된다. 따라서 시간 영역으로 신호를 복원하기 전에 이러한 뒤섞임 문제를 해결해 주어야 한다.
이와는 달리 뒤섞임 문제를 회피하기 위하여 전체 주파수 대역을 하나의 벡터로 취급하여 분리하는 독립 벡터 해석(Independent Vector Analysis) 방법이 제안되었으나 이 방법은 계산량이 많고 수렴속도가 늦다는 단점이 있다.
본 발명의 목적은 고음질의 음원을 추출하기 위한 음원 분리 방법을 제공하는 것이다.
본 발명의 다른 목적은 고음질의 음원을 추출하기 위한 음원 분리 장치를 제공하는 것이다.
상술한 본 발명의 목적을 달성하기 위한 음원 분리 방법은 제공된 입력 신호를 주파수 영역으로 변환하는 단계, 상기 변환된 신호를 주파수 대역 단위로 음원 분리하는 단계, 음원의 혼합을 위한 혼합 필터의 위상차를 이용하여 상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계 및 상기 정렬된 음원을 시간 영역으로 변환하는 단계를 포함하여 구성될 수 있다.
여기에서, 상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계는 상기 혼합 필터의 위상차를 비례상수(
Figure 112009072178110-PAT00017
)와 주파수(
Figure 112009072178110-PAT00018
)의 곱으로 표현되도록 모델링하는 것일 수 있다.
여기에서, 상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계는 제1 정렬기준을 지정하고, 상기 제1 정렬기준에 따라 상기 비례상수(
Figure 112009072178110-PAT00019
)를 추정하는 단계 및 상기 추정된 비례상수(
Figure 112009072178110-PAT00020
)를 이용하여 계산한 목표 위상차와 실제 위상차 간의 오차를 이용하여 제2 정렬기준을 계산하는 단계를 포함하는 것일 수 있다.
여기에서, 상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계에서, 상기 계산된 제2 정렬기준을 제1 정렬기준으로 보고, 상기 제1 정렬기준에 따라 상기 비례상수(
Figure 112009072178110-PAT00021
)를 추정하는 단계 및 상기 추정된 비례상수(
Figure 112009072178110-PAT00022
)를 이용하여 계산한 목표 위상차와 실제 위상차 간의 오차를 이용하여 제2 정렬기준을 계산하는 단계를 반복하되, 상기 제1 정렬기준에 의하여 추정된 비례상수와 이전의 비례상수의 차이가 미리 정해진 값보다 작으면 반복을 중지하는 것일 수 있다.
여기에서, 상기 추정된 비례상수(
Figure 112009072178110-PAT00023
)는
Figure 112009072178110-PAT00024
(여기에서,
Figure 112009072178110-PAT00025
는 주파수,
Figure 112009072178110-PAT00026
는 실제 위상차,
Figure 112009072178110-PAT00027
는 주파수 천이를 고려했을 때 오차가 최소가 되도록 하는 정수값)인 것일 수 있다.
여기에서, 상기 목표 위상차는
Figure 112009072178110-PAT00028
범위 이내의 값인 것일 수 있다.
여기에서, 상기 목표 위상차와 실제 위상차 간의 오차는
Figure 112009072178110-PAT00029
주기의 주파수 천이를 고려하여 계산되는 것일 수 있다.
여기에서, 상기 제2 정렬기준을 계산하는 것은 상기 추정된 비례상수를 이용하여 계산한 목표 위상차(
Figure 112009072178110-PAT00030
)가
Figure 112009072178110-PAT00031
일 때, 상기 제2 정렬기준(
Figure 112009072178110-PAT00032
)은
Figure 112009072178110-PAT00033
(여기에서,
Figure 112009072178110-PAT00034
는 실제 위상차,
Figure 112009072178110-PAT00035
는 비례상수,
Figure 112009072178110-PAT00036
는 주파수)인 것일 수 있다.
상술한 본 발명의 다른 목적을 달성하기 위한 음원 분리 장치는 제공된 신호를 입력받아 주파수 영역으로 변환하는 입력부, 상기 입력부로부터 변환된 신호를 제공받아 주파수 대역 단위로 음원을 분리하고, 음원의 혼합을 위한 혼합 필터의 위상차를 이용하여 상기 주파수 대역 단위로 분리된 음원을 정렬하는 프로세싱부, 상기 프로세싱부로부터 정렬된 음원을 제공받아 시간 영역으로 변환하여 출력하는 출력부 및 상기 입력부, 프로세싱부 및 출력부의 동작을 제어하는 제어부를 포함하여 구성될 수 있다.
여기에서, 상기 프로세싱부에서 상기 주파수 대역 단위로 분리된 음원을 정렬하는 것은 상기 혼합 필터의 위상차를 비례상수(
Figure 112009072178110-PAT00037
)와 주파수(
Figure 112009072178110-PAT00038
)의 곱으로 표현되도록 모델링하는 것일 수 있다.
상기와 같은 음성 분리 방법 및 장치에 따르면, 음성을 비롯한 소리를 입력으로 하는 기기의 사용에 있어서, 여러 가지 음원이 동시에 존재하는 환경에서 원하는 음원의 신호만을 분리하여 그 소리를 효과적으로 처리하도록 해준다. 따라서, 회의장과 같이 많은 사람들이 동시에 발성하는 환경 또는 공연장과 같이 다양한 음원이 동시에 존재하는 환경 또는 TV 등이 켜져 있는 잡음 환경에서의 음성의 녹음, 전송 및 인식에서 원하는 음원의 소리만을 골라서 처리할 수 있게 된다. 종래의 암묵 신호 처리 기법과 비교하여 간단한 선형 회귀 분석 방식의 채널 뒤섞임 해결 방법을 사용함으로써 적은 계산량으로 채널 뒤섞임 문제를 해결할 수 있으며 동시에 수렴 속도를 빠르게 할 수 있다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치 하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명의 일 실시예에 따른 음원 분리 방법을 설명하기 위한 흐름도이다. 도 2는 본 발명의 일 실시예에 따른 음원 분리 방법을 설명하기 위한 개념도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 음원 분리 방법은 제공된 입력 신호를 주파수 영역으로 변환하는 단계(단계 110), 상기 변환된 신호를 주파수 대역 단위로 음원 분리하는 단계(단계 120), 음원의 혼합을 위한 혼합 필터의 위상차를 이용하여 상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계(단계 130) 및 상기 정렬된 음원을 시간 영역으로 변환하는 단계(단계 140)를 포함하여 구성될 수 있다.
먼저, 제공된 입력 신호를 주파수 영역으로 변환하는 단계(단계 110)는 제공된 입력신호를 각 채널 별로 주파수 영역으로 변환하는 것이다. 이것은 일반적인 음성 신호 처리 방법과 마찬가지로 푸리에 변환(Fourier Transform)을 사용할 수 있다.
도 2를 참조하면,
Figure 112009072178110-PAT00039
Figure 112009072178110-PAT00040
의 음원 소스(Source)로부터 발생한 소리는 mic1 및 mic2의 마이크로폰을 통하여 입력되고, 상기 입력 신호를 제공받아 각각 푸리에 변환을 통하여 주파수 영역의 신호로 변환하는 것(단계 210)일 수 있다.
즉, 음원 신호가 2개이고, 마이크로폰이 2개인 환경에서, mic 1으로
Figure 112009072178110-PAT00041
Figure 112009072178110-PAT00042
의 혼합신호가 입력되고, mic 2에도
Figure 112009072178110-PAT00043
Figure 112009072178110-PAT00044
의 혼합신호가 각각 입력되고, 각각의 혼합신호를 주파수 영역에서의 분리를 위하여 각각 푸리에 변환을 이용하여 변환하는 것일 수 있다.
다음으로, 상기 변환된 신호를 주파수 대역 단위로 음원 분리하는 단계(단계 120)는 기존의 독립 요소 분석 기법(ICA: Independent Component Analysis) 등을 이용하여 각 주파수 대역별로 음원을 분리하는 것일 수 있다.
예를 들면, 각 주파수 대역별로 독립 요소 분석 기법을 적용하여 음원을 분리하는 것으로, 각각 단순한 M X N 혼합행렬의 역행렬을 추정하는 것을 통하여 비교적 간단하게 음원의 분리가 가능하다. 또한, 이 과정에는 종래의 다른 방법을 적용할 수도 있을 것이다.
도 2를 참조하면, 독립 요소 분석 기법(ICA: Independent Component Analysis)을 이용하여 각각의 주파수 대역인 Freq 1, Freq 2, Freq 3 내지 Freq n 마다
Figure 112009072178110-PAT00045
Figure 112009072178110-PAT00046
의 혼합신호를 각각 분리하는 것(단계 220)일 수 있다. 각각의 신호를 실선과 점선으로 나타내고 있는 것을 고려하면 쉽게 이해할 수 있다.
다만, 상기의 독립 요소 분석 기법(ICA: Independent Component Analysis) 을 이용하여 분리된 신호는 각각의 순서가 뒤섞인 신호로서, 각각
Figure 112009072178110-PAT00047
Figure 112009072178110-PAT00048
신호로의 분리하기 위해서는 추가적인 정렬이 필요할 것이다.
다음으로, 음원의 혼합을 위한 혼합 필터의 위상차를 이용하여 상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계(단계 130)는 상기 혼합 필터의 위상차를 비례상수(
Figure 112009072178110-PAT00049
)와 주파수(
Figure 112009072178110-PAT00050
)의 곱으로 표현되도록 모델링하는 것을 이용하여 상기 주파수 대역 단위로 분리된 음원을 정렬하는 것일 수 있다.
즉, 각 주파수 대역별로 독립적으로 분리된 추정 음원에 대하여 채널 뒤섞임 문제를 해결한 후, 같은 음원에 해당하는 성분끼리 취합하는 것일 수 있다. 종래의 방법으로 상관관계(correlation) 계산을 통한 인접 주파수 대역과의 유사도를 측정하여 해결하는 방법과 입력 신호의 방향 차이로부터 유도되는 분리 행렬의 위상차를 이용하는 방법 등이 있다. 여기에서는 분리 행렬의 위상차를 이용하는 방법을 사용할 수 있을 것이다.
도 2를 참조하면, 상기 주파수 대역 단위로 분리된 음원에 대한 정렬 과정을 통하여 각각의 주파수마다 순서를 지정하고, 각각의 순서에 따라
Figure 112009072178110-PAT00051
또는
Figure 112009072178110-PAT00052
신호로 분리가 가능한 상태로 정렬(단계 230)됨을 알 수 있다.
도 1 및 도 2를 다시 병행하여 참조하면, 본 발명의 일 실시예에 따른 음원 분리 방법에서 음원의 혼합을 위한 혼합 필터의 위상차를 이용하여 상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계(단계 130)는 상기 혼합 필터의 위상차를 비례상수(
Figure 112009072178110-PAT00053
)와 주파수(
Figure 112009072178110-PAT00054
)의 곱으로 표현되도록 모델링하는 것에서 나아가 제1 정 렬기준을 지정하고, 상기 제1 정렬기준에 따라 상기 비례상수(
Figure 112009072178110-PAT00055
)를 추정하는 단계(단계 131) 및 상기 추정된 비례상수(
Figure 112009072178110-PAT00056
)를 이용하여 계산한 목표 위상차와 실제 위상차 간의 오차를 이용하여 제2 정렬기준을 계산하는 단계(단계 132)를 포함하는 것일 수 있다.
계산의 간략화 및 이해를 위하여 마이크의 개수와 음원의 개수가 모두 2인 경우에 한하여 설명한다. 다만, 실제 개수가 3개 이상인 경우에도 동일한 방법으로 적용될 수 있을 것이다.
상기 수학식 4를 행렬 형태로 표현하면 수학식 5와 같다.
Figure 112009072178110-PAT00057
여기에서,
Figure 112009072178110-PAT00058
는 채널 뒤섞임 결과에 따라 시간 영역 신호
Figure 112009072178110-PAT00059
또는
Figure 112009072178110-PAT00060
의 f번째 주파수 성분을 의미하게 된다. 즉, 각각의 주파수 대역에 대하여
Figure 112009072178110-PAT00061
Figure 112009072178110-PAT00062
가 각각 어떤 음원에 해당하는 성분인지를 결정해주어야 한다. 이러한 과정을 수학식으로 표현하면 수학식 6과 같다.
Figure 112009072178110-PAT00063
채널의 뒤섞임 문제를 해결하기 위해서는 각각 다른 주파수 성분에 대해서
Figure 112009072178110-PAT00064
가 모두 같은 음원에 해당하도록 새로운 정렬 기준
Figure 112009072178110-PAT00065
를 찾는 문제이다. 즉, 수학식 6과 같은 정렬 기준
Figure 112009072178110-PAT00066
을 모든 j 및 f에 대하여 구하는 문제이다.
Figure 112009072178110-PAT00067
상기의 과정을 각 신호가 2개의 주파수 성분을 갖는 경우를 가정하여 예를 들어 설명하도록 한다. 2개의 음원 신호는 주파수 영역에서 각각
Figure 112009072178110-PAT00068
Figure 112009072178110-PAT00069
로 표현된다. 또한 분리된 신호는
Figure 112009072178110-PAT00070
Figure 112009072178110-PAT00071
로 가정할 수 있다. 앞서 설명한 바와 같이 주파수 영역 암묵 신호 분리 방법에서는 각 주파수 대역 별로 독립적으로 분리 필터가 학습되어 분리된 신호가 출력되므로, 1번 대역에서는 뒤섞임이 발생하지 않고, 2번 대역에서만 뒤섞임이 발생했다고 가정하면
Figure 112009072178110-PAT00072
Figure 112009072178110-PAT00073
에 대응되고,
Figure 112009072178110-PAT00074
Figure 112009072178110-PAT00075
신호에 대응된다. 이 경우에는
Figure 112009072178110-PAT00076
Figure 112009072178110-PAT00077
를 묶어서 시간 영역 신호로 변환해 주어야 한다. 따라서
Figure 112009072178110-PAT00078
= 0,
Figure 112009072178110-PAT00079
= 1,
Figure 112009072178110-PAT00080
= 1,
Figure 112009072178110-PAT00081
= 0의 값을 갖도록 뒤섞임 정렬 기준
Figure 112009072178110-PAT00082
를 구하여야 한다.
상술한 정렬 기준
Figure 112009072178110-PAT00083
를 자동으로 찾기 위하여 분리 필터 또는 혼합 필터의 위상(phase) 차이를 이용할 수 있다. 분리 필터
Figure 112009072178110-PAT00084
는 혼합필터
Figure 112009072178110-PAT00085
의 역필터이다. 혼합 필터
Figure 112009072178110-PAT00086
는 i번째 음원과 j번째 마이크로폰 간의 임펄스 응답을 나타낸다. 즉,
Figure 112009072178110-PAT00087
채널 뒤섞임 문제가 없다고 가정했을 때
Figure 112009072178110-PAT00088
Figure 112009072178110-PAT00089
의 위상 차이는 j번째 음원의 상대적 위치, 즉 각도에 차이에 의해 결정되며 이 값은 주파수에 비례하는 성질을 갖는다. 즉, 수학식 9와 같으며,
Figure 112009072178110-PAT00090
이때
Figure 112009072178110-PAT00091
는 주파수,
Figure 112009072178110-PAT00092
는 비례 상수이다. 이러한 선형관계는 혼합필터의 역필터인 분리 필터에 대해서도 동일할 것이다.
다음으로, 상기 정렬된 음원을 시간 영역으로 변환하는 단계(단계 140)는 통합된 주파수 영역의 신호를 분리된 스펙트럼을 이용하여 역푸리에 변환을 통하여 다시 시간영역의 신호로 복원하는 것일 수 있다.
도 2를 참조하면, 상기 정렬된 음원을 시간 영역으로 역푸리에 변환을 통하여 원래의 시간 영역 신호인
Figure 112009072178110-PAT00093
Figure 112009072178110-PAT00094
신호를 복원하는 것(단계 240)임을 알 수 있다.
도 3은 본 발명의 일 실시예에 따른 음원 분리 방법에서 혼합 필터의 위상차를 설명하기 위한 예시도이다. 도 4는 본 발명의 일 실시예에 따른 음원 분리 방법에서 혼합 필터의 위상차를 설명하기 위해 단순하게 표현한 예시도이다.
도 3 및 도 4를 병행하여 참조하면, 실제 혼합 신호로부터 학습된 혼합 필터의 위상 차이를 도시하고 있음을 알 수 있다. 도 3은 뒤섞임 문제를 해결하기 이전의 각 주파수 대역별로 수학식 9에 나타난 위상차를 두 개의 음원에 대해서 같이 도시한 것이다. 도 3 및 도 4에 나타난 바와 같이, 위상차는 대략적으로 주파수에 비례하는 것을 알 수 있으며, 뒤섞임 문제에 따라 해당 음원이 반대로 나타나는 경우가 있음을 알 수 있다. 본 발명에서는 이러한 뒤섞임 문제를 수학식 9의 비례상수
Figure 112009072178110-PAT00095
를 추정하고, 추정된 기울기로부터 구해진 목표 위상 차와 실제 위상차간의 오차가 최소가 되도록 채널 뒤섞임을 결정하여 정렬하는 방법을 사용하도록 한다. 보다 구체적으로는 아래의 두 가지 단계를 반복적으로 수행함으로써 정렬 기준을 구한다.
먼저, 현재 채널 정렬 기준
Figure 112009072178110-PAT00096
으로부터 정해진 j번째 음원에 해당하는 분리필터에 대하여 위상차를 계산한다.
Figure 112009072178110-PAT00097
또한, 주파수 대역별로 추정된 목표 위상차를
Figure 112009072178110-PAT00098
라 하면,
Figure 112009072178110-PAT00099
수학식 11과 같으며, 이 때 추정된 위상차와 실제 위상차간의 오차는 수학식 12 및 13과 같다.
Figure 112009072178110-PAT00100
Figure 112009072178110-PAT00101
수학식 13의 오차를 최소화하는 기울기 상수
Figure 112009072178110-PAT00102
는 여러 가지 방법으로 추정될 수 있으며, 예를 들어 아래와 같이 오차의 제곱의 합을 최소로 하는 최소자승법을 통하여 구할 수 있다.
Figure 112009072178110-PAT00103
위 수학식 14는
Figure 112009072178110-PAT00104
에 대한 2차식이며 미분을 통하여 쉽게 최적해를 구할 수 있다.
Figure 112009072178110-PAT00105
이 과정은 단순한 선형 회귀 분석과 동일한 방법이다. 하지만 일반적인 선형회귀 분석법과 본 발명에서 해결하고자 하는 문제와는 두 가지 측면에서 차이점을 갖는다.
도 1 및 도 2를 다시 병행하여 참조하면, 상기 제1 정렬기준에 따라 상기 비례상수(
Figure 112009072178110-PAT00106
)를 추정하는 단계(단계 131)에서 상기 목표 위상차는
Figure 112009072178110-PAT00107
범위 이내의 값인 것일 수 있다.
상기 두 가지 측면의 차이점 중 한 가지는 위상은
Figure 112009072178110-PAT00108
사이의 값을 갖는다는 점이다. 즉, 수학식 11에 의해 계산된 목표 위상이
Figure 112009072178110-PAT00109
범위에 있지 않은 경우 실제 목표 위상차는 이 값에서
Figure 112009072178110-PAT00110
의 정수배만큼을 빼거나 더해준 값이 목표 위상차가 된다. 이는 도 4에서 점선으로 구성된 직선에 의해 표시된 목표 위상차가 불연속으로 표현되는 이유이다. 이에 따라 수학식 11은 아래와 같이 수정된다.
Figure 112009072178110-PAT00111
여기에서, n은
Figure 112009072178110-PAT00112
의 값이
Figure 112009072178110-PAT00113
구간에 포함되도록 하는 정수값으로 유일하게 결정된다.
도 1 및 도 2를 다시 병행하여 참조하면, 상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계(단계 130)에서 상기 목표 위상차와 실제 위상차 간의 오차는
Figure 112009072178110-PAT00114
주기의 주파수 천이를 고려하여 계산되는 것일 수 있다.
상기 두 가지 측면의 차이점 중 두 번째 차이점은 위상값은
Figure 112009072178110-PAT00115
를 주기로 반복된다는 점이다. 이에 따라 두 위상의 차이도 단순한 차이를 계산하는 것이 아니라,
Figure 112009072178110-PAT00116
를 주기로 한 주파수 천이도 함께 고려해야 한다.
도 5는 본 발명의 일 실시예에 따른 음원 분리 방법에서 상기 목표 위상차와 실제 위상차 간의 오차를 설명하기 위한 예시도이다.
도 5를 참조하면,
Figure 112009072178110-PAT00117
은 두 위상의 차이를 나타내는 것으로, 중앙의
Figure 112009072178110-PAT00118
과 우측의
Figure 112009072178110-PAT00119
을 비교하면,
Figure 112009072178110-PAT00120
주기를 고려하여 두 위상의 차이를 고려하고 있음을 알 수 있다.
따라서 수학식 13은 아래와 같이 수정되어야 한다.
Figure 112009072178110-PAT00121
여기에서, m은
Figure 112009072178110-PAT00122
Figure 112009072178110-PAT00123
가 주어졌을 때,
Figure 112009072178110-PAT00124
를 최소로 하는 유일한 정수값으로
Figure 112009072178110-PAT00125
중 하나의 값을 갖는다.
상기 두 가지 문제점은 비록 그 원인이 다른 문제점이지만 아래와 같은 하나의 방법으로 모두 해결할 수 있다. 즉, 수학식 16을 수학식 17에 대입하면 위상차의 오차
Figure 112009072178110-PAT00126
는 수학식 18 및 19와 같이 계산될 수 있다.
Figure 112009072178110-PAT00127
Figure 112009072178110-PAT00128
도 1 및 도 2를 다시 병행하여 참조하면, 상기 제1 정렬기준에 따라 상기 비례상수(
Figure 112009072178110-PAT00129
)를 추정하는 단계(단계 131)에서, 상기 추정된 비례상수(
Figure 112009072178110-PAT00130
)는
Figure 112009072178110-PAT00131
(여기에서,
Figure 112009072178110-PAT00132
는 주파수,
Figure 112009072178110-PAT00133
는 실제 위상차,
Figure 112009072178110-PAT00134
는 주파수 천이를 고려했을 때 오차가 최소가 되도록 하는 정수값)인 것일 수 있다.
상기 수학식 19와 같이 오차를 정의하게 되면 수학식 14를 최소로 하는 기울기
Figure 112009072178110-PAT00135
는 수학식 20으로 구할 수 있다.
Figure 112009072178110-PAT00136
여기서
Figure 112009072178110-PAT00137
는 주파수 천이를 고려했을 때 오차가 최소가 되도록 하는 정수값으로 아래의 수학식 21로 표현된다.
Figure 112009072178110-PAT00138
두 번째 과정은 추정된 비례상수로부터 각각의 음원에 대해서 오차가 최소 가 되도록 뒤섞임 정렬을 다시 한다. 이 과정은 아래와 같은 방법으로 수행된다.
도 1 및 도 2를 다시 병행하여 참조하면, 상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계(단계 130)에서 상기 제2 정렬기준을 계산하는 것은 상기 추정된 비례상수를 이용하여 계산한 목표 위상차(
Figure 112009072178110-PAT00139
)가
Figure 112009072178110-PAT00140
일 때, 상기 제2 정렬기준(
Figure 112009072178110-PAT00141
)은
Figure 112009072178110-PAT00142
(여기에서,
Figure 112009072178110-PAT00143
는 실제 위상차,
Figure 112009072178110-PAT00144
는 비례상수,
Figure 112009072178110-PAT00145
는 주파수)인 것일 수 있다.
먼저 첫 번째 단계에서 구해진
Figure 112009072178110-PAT00146
을 이용하여 각 주파수 별로 목표 위상차를 구한다. 이 값을
Figure 112009072178110-PAT00147
라고 한다.
Figure 112009072178110-PAT00148
이제 각 주파수 별로 목표 위상차와 실제 위상차가 최소가 되도록 새로운 정렬
Figure 112009072178110-PAT00149
을 구한다.
Figure 112009072178110-PAT00150
여기서
Figure 112009072178110-PAT00151
는 수학식 10에서 정의된 값이다.
도 1 및 도 2를 다시 병행하여 참조하면, 상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계(단계 130)에서, 상기 계산된 제2 정렬기준을 제1 정렬기준으로 보고, 상기 제1 정렬기준에 따라 상기 비례상수(
Figure 112009072178110-PAT00152
)를 추정하는 단계 및 상기 추정된 비례상수(
Figure 112009072178110-PAT00153
)를 이용하여 계산한 목표 위상차와 실제 위상차 간의 오차를 이용하여 제2 정렬기준을 계산하는 단계를 반복하되, 상기 제1 정렬기준에 의하여 추정된 비례상수와 이전의 비례상수의 차이가 미리 정해진 값보다 작으면 반복을 중지하는 것일 수 있다.
즉, 모든 조합에 대해서 현재 추정된 기울기로 위상차를 모델링했을때 오차가 최소가 되는 정렬을 새로운 정렬로 간주한다. 이 과정에서 정렬 기준이 달라짐에 따라 다시 첫 번째 스텝으로 돌아가 새로운 기울기를 계산하는 과정을 반복하고, 새로운 기울기로 다시 두 번째 과정을 반복하게 된다.
여기서 새로운 기울기와 이전의 기울기와의 차이가 정해진 기준치보다 작으면 반복을 중단하게 된다.
도 6은 본 발명의 일 실시예에 따른 음원 분리 장치를 설명하기 위한 블록도이다.
도 6을 참조하면, 본 발명의 일 실시예에 따른 음원 분리 장치(600)는 제공된 신호를 입력받아 주파수 영역으로 변환하는 입력부(610), 상기 입력부로부터 변환된 신호를 제공받아 주파수 대역 단위로 음원을 분리하고, 음원의 혼합을 위한 혼합 필터의 위상차를 이용하여 상기 주파수 대역 단위로 분리된 음원을 정렬하는 프로세싱부(620), 상기 프로세싱부로부터 정렬된 음원을 제공받아 시간 영역으로 변환하여 출력하는 출력부(630) 및 상기 입력부, 프로세싱부 및 출력부의 동작을 제어하는 제어부(640)를 포함하여 구성될 수 있다.
여기에서, 상기 프로세싱부(630)에서 상기 주파수 대역 단위로 분리된 음원을 정렬하는 것은 상기 혼합 필터의 위상차를 비례상수(
Figure 112009072178110-PAT00154
)와 주파수(
Figure 112009072178110-PAT00155
)의 곱으로 표현되도록 모델링하는 것일 수 있다.
먼저, 입력부(610)는 입력받은 신호를 각 채널 별로 주파수 영역으로 변환하는 것이다. 일반적인 음성 신호 처리 방법과 마찬가지로 푸리에 변환(Fourier Transform)을 사용할 수 있을 것이다.
다음으로, 프로세싱부(620)는 기존의 독립 요소 분석 기법(ICA: Independent Component Analysis)을 이용하여 상기 주파수 영역으로 변환된 신호에 대하여 각 주파수 대역별로 음원을 분리하는 것일 수 있다.
예를 들면, 각 주파수 대역별로 독립 요소 분석 기법을 적용하여 음원을 분리하는 것으로, 각각 단순한 M X N 혼합행렬의 역행렬을 추정하는 것을 통하여 음원의 분리가 가능할 것이다.
추가적으로, 상기 혼합 필터의 위상차를 비례상수(
Figure 112009072178110-PAT00156
)와 주파수(
Figure 112009072178110-PAT00157
)의 곱으로 표현되도록 모델링하고, 나아가 제1 정렬기준에 따라 상기 비례상수(
Figure 112009072178110-PAT00158
)를 추정하고, 상기 추정된 비례상수()를 이용하여 계산한 목표 위상차와 실제 위상차 간의 오차를 이용하여 제2 정렬기준을 계산하는 것을 포함하는 것일 수 있다. 상기 음원 분리 방법에서 상술하였으므로 자세한 설명은 생략한다.
다음으로, 출력부(630)는 통합된 주파수 영역의 신호를 분리된 스펙트럼을 이용하여 역푸리에 변환을 통하여 다시 시간영역의 신호로 복원하는 것일 수 있다.
다음으로, 제어부(640)는 상기 입력부, 프로세싱부 및 출력부의 동작을 제어하는 것일 수 있으며, 필요에 따라 메모리를 추가적으로 포함하여 구성되는 것일 수 있을 것이다.
이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 음원 분리 방법을 설명하기 위한 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 음원 분리 방법을 설명하기 위한 개념도이다.
도 3은 본 발명의 일 실시예에 따른 음원 분리 방법에서 혼합 필터의 위상차를 설명하기 위한 예시도이다.
도 4는 본 발명의 일 실시예에 따른 음원 분리 방법에서 혼합 필터의 위상차를 설명하기 위해 단순하게 표현한 예시도이다.
도 5는 본 발명의 일 실시예에 따른 음원 분리 방법에서 상기 목표 위상차와 실제 위상차 간의 오차를 설명하기 위한 예시도이다.
도 6은 본 발명의 일 실시예에 따른 음원 분리 장치를 설명하기 위한 블록도이다.
< 도면의 주요부분에 대한 부호의 설명 >
600: 음원 분리 장치 610: 입력부
620: 프로세싱부 630: 출력부
640: 제어부

Claims (10)

  1. 제공된 입력 신호를 주파수 영역으로 변환하는 단계;
    상기 변환된 신호를 주파수 대역 단위로 음원 분리하는 단계;
    음원의 혼합을 위한 혼합 필터의 위상차를 이용하여 상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계; 및
    상기 정렬된 음원을 시간 영역으로 변환하는 단계를 포함하여 구성되는 음원 분리 방법.
  2. 제1항에 있어서,
    상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계는 상기 혼합 필터의 위상차를 비례상수(
    Figure 112009072178110-PAT00160
    )와 주파수(
    Figure 112009072178110-PAT00161
    )의 곱으로 표현되도록 모델링하는 것을 특징으로 하는 음원 분리 방법.
  3. 제2항에 있어서,
    상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계는
    제1 정렬기준을 지정하고,
    상기 제1 정렬기준에 따라 상기 비례상수(
    Figure 112009072178110-PAT00162
    )를 추정하는 단계; 및
    상기 추정된 비례상수(
    Figure 112009072178110-PAT00163
    )를 이용하여 계산한 목표 위상차와 실제 위상차 간의 오차를 이용하여 제2 정렬기준을 계산하는 단계를 포함하는 것을 특징으로 하는 음원 분리 방법.
  4. 제3항에 있어서,
    상기 주파수 대역 단위로 분리된 음원을 정렬하는 단계에서,
    상기 계산된 제2 정렬기준을 제1 정렬기준으로 보고,
    상기 제1 정렬기준에 따라 상기 비례상수(
    Figure 112009072178110-PAT00164
    )를 추정하는 단계; 및
    상기 추정된 비례상수(
    Figure 112009072178110-PAT00165
    )를 이용하여 계산한 목표 위상차와 실제 위상차 간의 오차를 이용하여 제2 정렬기준을 계산하는 단계를 반복하되, 상기 제1 정렬기준에 의하여 추정된 비례상수와 이전의 비례상수의 차이가 미리 정해진 값보다 작으면 반복을 중지하는 것을 특징으로 하는 음원 분리 방법.
  5. 제3항에 있어서,
    상기 추정된 비례상수(
    Figure 112009072178110-PAT00166
    )는
    Figure 112009072178110-PAT00167
    (여기에서,
    Figure 112009072178110-PAT00168
    는 주파수,
    Figure 112009072178110-PAT00169
    는 실제 위상차,
    Figure 112009072178110-PAT00170
    는 주파수 천이를 고려했을 때 오차가 최소가 되도록 하는 정수값)인 것을 특징으로 하는 음원 분리 방법.
  6. 제3항에 있어서,
    상기 목표 위상차는
    Figure 112009072178110-PAT00171
    범위 이내의 값인 것을 특징으로 하는 음원 분리 방법.
  7. 제3항에 있어서,
    상기 목표 위상차와 실제 위상차 간의 오차는
    Figure 112009072178110-PAT00172
    주기의 주파수 천이를 고려하여 계산되는 것을 특징으로 하는 음원 분리 방법.
  8. 제3항에 있어서,
    상기 제2 정렬기준을 계산하는 것은 상기 추정된 비례상수를 이용하여 계산한 목표 위상차(
    Figure 112009072178110-PAT00173
    )가
    Figure 112009072178110-PAT00174
    일 때, 상기 제2 정렬기준(
    Figure 112009072178110-PAT00175
    )은
    Figure 112009072178110-PAT00176
    (여기에서,
    Figure 112009072178110-PAT00177
    는 실제 위상차,
    Figure 112009072178110-PAT00178
    는 비례상수,
    Figure 112009072178110-PAT00179
    는 주파수)인 것을 특징으로 하는 음원 분리 방법.
  9. 제공된 신호를 입력받아 주파수 영역으로 변환하는 입력부;
    상기 입력부로부터 변환된 신호를 제공받아 주파수 대역 단위로 음원을 분리하고, 음원의 혼합을 위한 혼합 필터의 위상차를 이용하여 상기 주파수 대역 단 위로 분리된 음원을 정렬하는 프로세싱부;
    상기 프로세싱부로부터 정렬된 음원을 제공받아 시간 영역으로 변환하여 출력하는 출력부; 및
    상기 입력부, 프로세싱부 및 출력부의 동작을 제어하는 제어부를 포함하여 구성되는 음원 분리 장치.
  10. 제9항에 있어서,
    상기 프로세싱부에서 상기 주파수 대역 단위로 분리된 음원을 정렬하는 것은 상기 혼합 필터의 위상차를 비례상수()와 주파수(
    Figure 112009072178110-PAT00181
    )의 곱으로 표현되도록 모델링하는 것을 특징으로 하는 음원 분리 장치.
KR1020090113966A 2009-11-24 2009-11-24 음원 분리 방법 및 장치 KR20110057525A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090113966A KR20110057525A (ko) 2009-11-24 2009-11-24 음원 분리 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090113966A KR20110057525A (ko) 2009-11-24 2009-11-24 음원 분리 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20110057525A true KR20110057525A (ko) 2011-06-01

Family

ID=44393144

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090113966A KR20110057525A (ko) 2009-11-24 2009-11-24 음원 분리 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20110057525A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101421793B1 (ko) * 2012-06-29 2014-07-24 인텔렉추얼디스커버리 주식회사 하이브리드 음원 서비스 장치 및 방법
US10455342B2 (en) 2013-06-05 2019-10-22 Samsung Electronics Co., Ltd. Sound event detecting apparatus and operation method thereof

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101421793B1 (ko) * 2012-06-29 2014-07-24 인텔렉추얼디스커버리 주식회사 하이브리드 음원 서비스 장치 및 방법
US10455342B2 (en) 2013-06-05 2019-10-22 Samsung Electronics Co., Ltd. Sound event detecting apparatus and operation method thereof

Similar Documents

Publication Publication Date Title
KR101280253B1 (ko) 음원 분리 방법 및 그 장치
CN109661705B (zh) 声源分离装置和方法以及程序
Grais et al. Raw multi-channel audio source separation using multi-resolution convolutional auto-encoders
CN101816191B (zh) 用于提取环境信号的装置和方法
CN102074230B (zh) 语音识别装置、语音识别方法和程序
JP4689625B2 (ja) 信号解析及び合成のための適応型混合変換
JP5195979B2 (ja) 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
JP5375400B2 (ja) 音声処理装置、音声処理方法およびプログラム
KR101670313B1 (ko) 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
WO2016063794A1 (en) Method for transforming a noisy audio signal to an enhanced audio signal
US20200075030A1 (en) Methods and systems for processing and mixing signals using signal decomposition
CA2656867A1 (en) Apparatus and method for combining multiple parametrically coded audio sources
Mimilakis et al. A recurrent encoder-decoder approach with skip-filtering connections for monaural singing voice separation
JPWO2006090589A1 (ja) 音分離装置、音分離方法、音分離プログラムおよびコンピュータに読み取り可能な記録媒体
JP7176627B2 (ja) 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム
Grais et al. Multi-resolution fully convolutional neural networks for monaural audio source separation
CN103875197A (zh) 直接-发散分解
JP2006154314A (ja) 音源分離装置,音源分離プログラム及び音源分離方法
Noh et al. Three-stage approach for sound event localization and detection
KR20110057525A (ko) 음원 분리 방법 및 장치
WO2012105386A1 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
KR20130006857A (ko) 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법
Chen et al. On Synthesis for Supervised Monaural Speech Separation in Time Domain.
Grais et al. Referenceless performance evaluation of audio source separation using deep neural networks
JP6973254B2 (ja) 信号分析装置、信号分析方法および信号分析プログラム

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination