KR101527441B1 - 음원 분리 장치 및 그 방법 - Google Patents

음원 분리 장치 및 그 방법 Download PDF

Info

Publication number
KR101527441B1
KR101527441B1 KR1020110017283A KR20110017283A KR101527441B1 KR 101527441 B1 KR101527441 B1 KR 101527441B1 KR 1020110017283 A KR1020110017283 A KR 1020110017283A KR 20110017283 A KR20110017283 A KR 20110017283A KR 101527441 B1 KR101527441 B1 KR 101527441B1
Authority
KR
South Korea
Prior art keywords
value
sound source
parameter
channel
probability
Prior art date
Application number
KR1020110017283A
Other languages
English (en)
Other versions
KR20120040637A (ko
Inventor
김민제
백승권
장인선
이태진
강경옥
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US13/276,974 priority Critical patent/US9049532B2/en
Publication of KR20120040637A publication Critical patent/KR20120040637A/ko
Application granted granted Critical
Publication of KR101527441B1 publication Critical patent/KR101527441B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

복수의 채널을 통해 공간감을 제공하는 오디오 신호에서 특정한 음원이 채널 사이의 관계 파라미터를 기준으로 특정한 분포를 가진다는 가정을 기반으로 해당 음원의 분포를 학습하여 혼합 신호로부터 해당 음원의 에너지 기여도만큼의 분량을 분리할 수 있는 음원 분리 장치 및 방법이 개시된다. 본 발명에 따르면, 특정 음원의 일반적인 채널 분포 정보를 대략적으로 모델링한 상황에서 입력 혼합 신호에 포함되어 있는 특정 음원의 채널 분포를 보다 정밀하게 예측할 수 있으며, 기존의 채널 기반 음원 분리 방식보다 정교한 분리가 가능하다.

Description

음원 분리 장치 및 그 방법 {Apparatus and method for separating sound source}
본 발명은 음원을 분리하는 장치 및 방법에 관한 것이다. 보다 상세하게는, 복수의 채널을 통해 제공되는 오디오 신호로부터 목표 음원 신호를 분리하는 장치 및 방법에 관한 것이다.
기술의 발달로 다양한 음원이 함께 녹음된 복수개의 채널로 제공되는 혼합 신호에서 특정 음원을 분리하는 방법이 개발되었다.
그러나, 종래의 채널 정보 기반 음원 분리 기술은 분리 대상 음원의 채널 분포 정보가 명확하지 않은 상황에서 경험적으로 선정된 특정값을 기준으로 혼합 신호의 일부 구간 전체를 특정 음원으로 간주하거나 특정 음원이 아닌 것으로 간주하기 때문에, 급격한 신호 변화에 따른 잡음이 발생하고 분리 정도가 좋지 않은 단점이 있었다. 그래서, 복수 채널 혼합 신호에서 특정 음원의 채널 정보를 보다 정교하게 판단하고, 이를 기반으로 혼합 신호의 특정 구간에서 특정 비율만큼의 에너지를 취함으로써 보다 부드러운 음질과 높은 분리도를 보이는 방법이 필요한 실정이다.
본 발명은 상기한 문제점을 해결하기 위해 안출된 것으로서, 특정한 음원이 채널 사이의 관계 파라미터를 기준으로 특정한 분포를 가진다는 가정을 기반으로 해당 음원의 분포를 학습하여 복수의 채널을 통해서 제공되는 혼합 신호로부터 목표하는 음원 신호를 분리하는 음원 분리 장치 및 방법을 제공함을 목적으로 한다.
본 발명은 상기한 목적을 달성하기 위해 안출된 것으로서, 수신 멀티 채널 오디오 신호에 포함된 음원들 각각에 대하여 채널 간 관계와 관련된 파라미터를 결정하는 파라미터 결정부; 파라미터에 의한 각 음원의 채널 분포값을 이용하여 적어도 하나의 혼합 모델(Mixture Model)을 추정하며, 추정된 혼합 모델로부터 음원마다 모델별 소속 확률을 계산하는 음원값 계산부; 및 상기 계산에 의한 음원의 모델별 소속 확률을 기초로 멀티 채널 오디오 신호로부터 음원들을 분리시키는 음원 분리부를 포함하는 것을 특징으로 하는 음원 분리 장치를 제안한다.
바람직하게는, 음원 분리 장치는 미리 정해진 음원에 대하여 파라미터를 획득하는 파라미터 획득부; 획득된 파라미터를 이용하여 해당 음원의 채널 분포값을 추정하는 음원값 추정부; 및 추정된 채널 분포값을 혼합 모델을 추정할 때와 모델별 소속 확률을 계산할 때에 반영시키는 음원값 반영부를 더욱 포함한다.
바람직하게는, 음원값 계산부는 혼합 모델로 가우시안 혼합 모델(Gaussian Mixture Model)을 추정하여 기대치 최대화(Expectation Maximization)에 따라 모델별 소속 확률을 계산한다. 더 바람직하게는, A는 선택된 파라미터와 관련된 제1 혼합 모델이 모든 혼합 모델들에 기여하는 기여도 확률이고, B는 선택된 데이터 샘플이 제1 혼합 모델에 의해 발생될 확률이며, C는 혼합 모델이 적어도 두개일 때 각각의 혼합 모델을 제1 혼합 모델로 하는 A와 B의 곱셈값에 대한 시그마 연산값일 때, 음원값 계산부는 A와 B의 곱셈값을 C로 나눈 값을 기대치로 계산한다. 더더욱 바람직하게는, 음원값 계산부는 계산된 기대치가 반영된 각 데이터 샘플에 대한 평균값, 및 계산된 기대치와 평균값이 반영된 모든 데이터 샘플들에 대한 분산값으로 기대치 최대화를 수행하여 모델별 소속 확률을 계산한다. 더더욱더 바람직하게는, 음원값 계산부는 평균값과 분산값에 의한 분포 함수가 수렴할 때까지 기대치 최대화를 반복 수행한다.
바람직하게는, 파라미터 결정부는, 멀티 채널 오디오 신호에 대하여 시간 영역을 주파수 영역으로 변환하여 미리 정해진 음원들이 포함된 신호를 추출하거나, 멀티 채널 오디오 신호를 필터링시켜 미리 정해진 음원들이 포함된 신호를 추출하는 신호 추출부; 및 추출된 신호를 스펙트로그램 행렬로 구성하고, 특정된 프레임이나 주파수 값을 가지는 요소에 대하여 스펙트로그램 행렬을 계산하여 파라미터를 결정하는 행렬 계산부를 포함한다.
바람직하게는, 음원 분리부는 채널 분포값을 기초로 멀티 채널 오디오 신호로부터 음원들을 분리시킨다.
바람직하게는, 음원값 추정부는, 획득된 파라미터들에 의해 예측된 정규 분포 상에서 각 파라미터의 평균값을 계산하고, 각 파라미터의 분산값이나 표준편차값을 계산하는 파라미터 계산부; 및 상기 계산에 의해 각 파라미터마다 얻은 값으로 해당 음원의 채널 분포값을 추정하는 채널 분포값 추정부를 포함한다.
바람직하게는, 음원값 반영부는 추정된 채널 분포값이 없을 때에 미리 저장된 채널 분포값을 반영시킨다.
또한, 본 발명은 수신 멀티 채널 오디오 신호에 포함된 음원들 각각에 대하여 채널 간 관계와 관련된 파라미터를 결정하는 파라미터 결정 단계; 파라미터에 의한 각 음원의 채널 분포값을 이용하여 적어도 하나의 혼합 모델(Mixture Model)을 추정하며, 추정된 혼합 모델로부터 음원마다 모델별 소속 확률을 계산하는 음원값 계산 단계; 및 상기 계산에 의한 음원의 모델별 소속 확률을 기초로 멀티 채널 오디오 신호로부터 음원들을 분리시키는 음원 분리 단계를 포함하는 것을 특징으로 하는 음원 분리 방법을 제안한다.
바람직하게는, 파라미터 획득 단계 이전에, 미리 정해진 음원에 대하여 파라미터를 획득하는 파라미터 획득 단계; 획득된 파라미터를 이용하여 해당 음원의 채널 분포값을 추정하는 음원값 추정 단계; 및 추정된 채널 분포값을 혼합 모델을 추정할 때와 모델별 소속 확률을 계산할 때에 반영시키는 음원값 반영 단계를 더욱 수행할 수 있다.
바람직하게는, 음원값 계산 단계는 혼합 모델로 가우시안 혼합 모델(Gaussian Mixture Model)을 추정하여 기대치 최대화(Expectation Maximization)에 따라 모델별 소속 확률을 계산한다. 더 바람직하게는, A는 선택된 파라미터와 관련된 제1 혼합 모델이 모든 혼합 모델들에 기여하는 기여도 확률이고, B는 선택된 데이터 샘플이 제1 혼합 모델에 의해 발생될 확률이며, C는 혼합 모델이 적어도 두개일 때 각각의 혼합 모델을 제1 혼합 모델로 하는 A와 B의 곱셈값에 대한 시그마 연산값일 때, 음원값 계산 단계는 A와 B의 곱셈값을 C로 나눈 값을 기대치로 계산한다. 더더욱 바람직하게는, 음원값 계산 단계는 계산된 기대치가 반영된 각 데이터 샘플에 대한 평균값, 및 계산된 기대치와 평균값이 반영된 모든 데이터 샘플들에 대한 분산값으로 기대치 최대화를 수행하여 모델별 소속 확률을 계산한다. 더더욱더 바람직하게는, 음원값 계산 단계는 평균값과 분산값에 의한 분포 함수가 수렴할 때까지 기대치 최대화를 반복 수행한다.
바람직하게는, 파라미터 결정 단계는, 멀티 채널 오디오 신호에 대하여 시간 영역을 주파수 영역으로 변환하여 미리 정해진 음원들이 포함된 신호를 추출하거나, 멀티 채널 오디오 신호를 필터링시켜 미리 정해진 음원들이 포함된 신호를 추출하는 신호 추출 단계; 및 추출된 신호를 스펙트로그램 행렬로 구성하고, 특정된 프레임이나 주파수 값을 가지는 요소에 대하여 스펙트로그램 행렬을 계산하여 파라미터를 결정하는 행렬 계산 단계를 포함한다.
바람직하게는, 음원 분리 단계는 채널 분포값을 기초로 멀티 채널 오디오 신호로부터 음원들을 분리시킨다.
바람직하게는, 음원값 추정 단계는, 획득된 파라미터들에 의해 예측된 정규 분포 상에서 각 파라미터의 평균값을 계산하고, 각 파라미터의 분산값이나 표준편차값을 계산하는 파라미터 계산 단계; 및 상기 계산에 의해 각 파라미터마다 얻은 값으로 해당 음원의 채널 분포값을 추정하는 채널 분포값 추정 단계를 포함한다.
바람직하게는, 음원값 반영 단계는 추정된 채널 분포값이 없을 때에 미리 저장된 채널 분포값을 반영시킨다.
본 발명은 특정 음원의 일반적인 채널 분포 정보를 대략적으로 모델링한 상황에서 입력 혼합 신호에 포함되어 있는 특정 음원의 채널 분포를 보다 정밀하게 예측함으로써, 기존의 채널 기반 음원 분리 방법보다 정교한 분리가 가능해지며, 고품질의 결과를 사용자에게 제공할 수 있다.
도 1은 본 발명의 바람직한 실시예에 따른 음원 분리 장치를 개략적으로 도시한 블록도이다.
도 2는 본 실시예에 따른 음원 분리 장치의 내부 구성과 추가 구성을 개략적으로 도시한 블록도이다.
도 3은 음원 분리 장치의 일실시 예시도이다.
도 4는 본 발명의 바람직한 실시예에 따른 음원 분리 방법을 도시한 흐름도이다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.
도 1은 본 발명의 바람직한 실시예에 따른 음원 분리 장치를 개략적으로 도시한 블록도이다. 도 2는 본 실시예에 따른 음원 분리 장치의 내부 구성과 추가 구성을 개략적으로 도시한 블록도이다. 이하 설명은 도 1과 도 2를 참조한다.
도 1에 따르면, 음원 분리 장치(100)는 파라미터 결정부(110), 음원값 계산부(120), 음원 분리부(130), 전원부(140) 및 주제어부(150)를 포함한다.
음원 분리 장치(100)는 복수 채널 혼합 신호에서 특정 음원만으로 이루어진 신호를 분리하는 것을 목표로 한다. 이를 위해 활용될 수 있는 다양한 방법 중, 특정 음원이 여러 채널에 걸쳐 존재할 때 그 분포 범위를 입력 혼합 신호에 따라 적응적으로 예측함으로써, 특정 음원을 보다 정밀하게 분리한다.
파라미터 결정부(110)는 수신 멀티 채널 오디오 신호에 포함된 음원들 각각에 대하여 채널 간 관계와 관련된 파라미터를 결정하는 기능을 수행한다. 파라미터 결정부(110)는 복수 채널 간의 관계 정보를 나타내는 파라미터로 채널간 레벨 차이(ILD; Interchannel Level Difference) 또는 채널간 위상 차이(IPD; Interchannel Phase Difference)를 얻을 수 있다. 파라미터 결정부(110)는 도 3의 혼합 신호 채널 관계 파라미터 획득부(340)와 동일한 개념이다.
파라미터 결정부(110)는 도 2의 (a)에 도시된 바와 같이 신호 추출부(111)와 행렬 계산부(112)를 포함할 수 있다.
신호 추출부(111)는 멀티 채널 오디오 신호에 대하여 시간 영역을 주파수 영역으로 변환하여 미리 정해진 음원들이 포함된 신호를 추출하거나, 멀티 채널 오디오 신호를 필터링시켜 미리 정해진 음원들이 포함된 신호를 추출하는 기능을 수행한다.
신호 추출부(111)는 시간 영역을 주파수 영역으로 변환할 때 퓨리에 변환(FT; Fourier Transform), 특히 단구간 퓨리에 변환(STFT; Short Time Fourier Transform)을 이용할 수 있다. 또한, 신호 추출부(111)는 오디오 신호를 필터링시킬 때에 서브밴드 신호를 얻을 수 있게 대역 통과 필터(BPF; Band Pass Filter)를 이용할 수 있다.
행렬 계산부(112)는 추출된 신호를 스펙트로그램 행렬로 구성하고, 특정된 프레임이나 주파수 값을 가지는 요소에 대하여 스펙트로그램 행렬을 계산하여 파라미터를 결정하는 기능을 수행한다.
음원값 계산부(120)는 파라미터에 의한 각 음원의 채널 분포값을 이용하여 적어도 하나의 혼합 모델(Mixture Model)을 추정하며, 추정된 혼합 모델로부터 음원마다 모델별 소속 확률을 계산하는 기능을 수행한다. 음원값 계산부(120)는 도 3의 혼합 분포 모델 학습부(350)와 동일한 개념이다.
음원값 계산부(120)는 혼합 모델로 가우시안 혼합 모델(Gaussian Mixture Model)을 추정하여 기대치 최대화(Expectation Maximization)에 따라 모델별 소속 확률을 계산한다.
음원값 계산부(120)는 A와 B의 곱셈값을 C로 나눈 값을 기대치로 계산한다. 상기에서, A는 선택된 파라미터와 관련된 제1 혼합 모델이 모든 혼합 모델들에 기여하는 기여도 확률이고, B는 선택된 데이터 샘플이 제1 혼합 모델에 의해 발생될 확률이며, C는 혼합 모델이 적어도 두개일 때 각각의 혼합 모델을 제1 혼합 모델로 하는 A와 B의 곱셈값에 대한 시그마 연산값이다. 음원값 계산부(120)의 이러한 기능은 수학식 1을 참조하여 보다 자세하게 후술한다. 데이터 샘플에 대한 정의도 마찬가지이다.
음원값 계산부(120)는 계산된 기대치가 반영된 각 데이터 샘플에 대한 평균값, 및 계산된 기대치와 평균값이 반영된 모든 데이터 샘플들에 대한 분산값으로 기대치 최대화를 수행하여 모델별 소속 확률을 계산한다. 바람직하게는, 음원값 계산부(120)는 평균값과 분산값에 의한 분포 함수가 수렴할 때까지 기대치 최대화를 반복 수행한다. 음원값 계산부(120)의 이러한 기능은 수학식 2를 참조하여 보다 자세하게 후술한다.
음원 분리부(130)는 계산에 의한 음원의 모델별 소속 확률을 기초로 멀티 채널 오디오 신호로부터 음원들을 분리시키는 기능을 수행한다. 음원 분리부(130)는 도 3의 대상 음원 분리부(360)와 동일한 개념이다.
한편, 음원 분리부(130)는 채널 분포값을 기초로 멀티 채널 오디오 신호로부터 음원들을 분리시킬 수 있다. 이때의 음원 분리부(130)는 후술하는 보조 분리부와 동일한 개념이다.
전원부(140)는 음원 분리 장치(100)를 구성하는 각 부에 전원을 공급하는 기능을 수행한다.
주제어부(150)는 음원 분리 장치(100)를 구성하는 각 부의 전체 작동을 제어하는 기능을 수행한다.
음원 분리 장치(100)는 도 2의 (b)에 도시된 바와 같이 파라미터 획득부(160), 음원값 추정부(170) 및 음원값 반영부(180)를 더욱 포함할 수 있다.
파라미터 획득부(160)는 미리 정해진 음원에 대하여 파라미터를 획득하는 기능을 수행한다. 음원 분리 장치(100)는 혼합 신호로부터 목표하는 음원을 효율적으로 분리하기 위한 것이다. 따라서, 파라미터 획득부(160)가 파라미터를 획득할 때 이용하는 미리 정해진 음원은 목표 음원을 의미한다. 파라미터 획득부(160)는 도 3의 대상 음원 채널 관계 파라미터 획득부(310)와 동일한 개념이다.
음원값 추정부(170)는 획득된 파라미터를 이용하여 해당 음원의 채널 분포값을 추정하는 기능을 수행한다. 음원값 추정부(170)는 도 3의 대상 음원 채널 관계 파라미터 분포 학습부(320)와 동일한 개념이다.
음원값 추정부(170)는 도 2의 (c)에 도시된 바와 같이 파라미터 계산부(171)와 채널 분포값 추정부(172)를 포함할 수 있다.
파라미터 계산부(171)는 획득된 파라미터들에 의해 예측된 정규 분포 상에서 각 파라미터의 평균값을 계산하고, 각 파라미터의 분산값이나 표준편차값을 계산하는 기능을 수행한다.
채널 분포값 추정부(172)는 계산에 의해 각 파라미터마다 얻은 값으로 해당 음원의 채널 분포값을 추정하는 기능을 수행한다. 상기에서, 각 파라미터마다 얻은 값은 각 파라미터의 평균값과 분산값을 의미하거나, 각 파라미터의 평균값과 표준편차값을 의미한다.
한편, 파라미터 계산부(171)는 파라미터마다 정규 분포별 혼합 신호 기여 확률, 즉 각각의 분포가 음원의 혼합에 기여하는 정도를 측정할 수 있다. 물론, 이 값도 채널 분포값 추정부(172)가 음원의 채널 분포값을 추정할 때에 이용될 수 있다.
음원값 반영부(180)는 추정된 채널 분포값을 혼합 모델을 추정할 때와 모델별 소속 확률을 계산할 때에 반영시키는 기능을 수행한다. 음원값 반영부(180)는 추정된 채널 분포값이 없을 때에 미리 저장된 채널 분포값을 반영시킬 수 있다. 음원값 반영부(180)는 도 3의 혼합 분포 모델 초기화부(330)와 동일한 개념이다.
다음으로, 음원 분리 장치(100)를 일실시예를 들어 설명한다. 도 3은 음원 분리 장치(100)의 일실시 예시도이다. 이하 설명은 도 3을 참조한다.
본 실시예에서 음원 분리 장치는 복수의 채널을 통해 공간감을 제공하는 오디오 신호에서 특정한 음원이 채널 사이의 관계 파라미터를 기준으로 특정한 분포를 가진다는 가정을 기반으로 해당 음원의 분포를 학습하여 혼합 신호로부터 해당 음원의 에너지 기여도만큼의 분량을 분리할 수 있는 장치이다. 음원의 채널 분포를 이용하는 이러한 음원 분리 장치는 대상 음원 채널 관계 파라미터 획득부(310), 대상 음원 채널 관계 파라미터 분포 학습부(320), 혼합 분포 모델 초기화부(330), 혼합 신호 채널 관계 파라미터 획득부(340), 혼합 분포 모델 학습부(350) 및 대상 음원 분리부(360)를 포함할 수 있다. 이하 설명에서는 대상 음원 채널 관계 파라미터 획득부(310), 대상 음원 채널 관계 파라미터 분포 학습부(320), 혼합 분포 모델 초기화부(330), 혼합 신호 채널 관계 파라미터 획득부(340), 혼합 분포 모델 학습부(350) 및 대상 음원 분리부(360)를 각각 제1 파라미터 획득부(310), 제1 학습부(320), 초기화부(330), 제2 파라미터 획득부(340), 제2 학습부(350) 및 분리부(360)로 약칭한다.
제1 파라미터 획득부(310)는 분리 대상 음원의 일반적인 채널 관계 파라미터를 획득하는 기능을 수행한다. 제1 학습부(320)는 획득된 채널 관계 파라미터의 분포를 학습하는 기능을 수행한다. 제2 파라미터 획득부(340)는 혼합 신호의 채널 관계 파라미터를 획득하는 기능을 수행한다. 초기화부(330)는 제1 학습부(320)에서 미리 학습된 일반적인 음원의 채널 분포값을 활용하여 혼합 분포 모델 학습의 성능을 높이는 기능을 수행한다. 제2 학습부(350)는 혼합 신호의 채널 관계 파라미터를 혼합 분포 모델로 표현하는 기능을 수행한다. 분리부(360)는 학습된 혼합 분포 모델의 모델별 소속 확률을 성분비로 삼아서 혼합 신호 내 특정 음원을 분리하는 기능을 수행한다. 한편, 음원 분리 장치는 보조 분리부를 더욱 포함할 수 있다. 보조 분리부는 학습된 일반적인 특정 음원의 분포를 그대로 이용하여 혼합 신호 내 특정 음원을 분리하는 기능을 수행한다.
도 3에 따른 본 발명의 일실시예는 먼저 단구간 퓨리에 변환(STFT; Short Time Fourier Transform) 등의 시간-주파수 영역 변환 과정을 거친 2종류의 스테레오 음원 V와 H가 각각 다른 채널 파라미터 분포를 가지고 있다고 가정한다. 그러나, 서로 다른 분포를 가지는 음원의 종류는 더 많을 수 있으며, 스테레오 채널보다 더 많은 멀티 채널의 입력 신호에 대해서도 본 발명의 효과는 그대로 적용될 수 있다. 또한, 학습용 대상 음원인 V와 H는 보다 정밀한 분포 도출을 위해 밴드 통과 필터(BPF; Band Pass Filter)를 거친 서브 밴드 신호일 수 있다. 이 경우 도 3에 따른 일실시예는 서브 밴드 신호별로 적용되며, 그 결과물 역시 해당 서브 밴드 내에서의 음원 분리 결과이다. 이러한 기능은 도 2 (a)의 신호 추출부(111)가 수행할 수 있다.
도 3에 따른 일실시예에서 제1 파라미터 획득부(310)는 복수 채널 간의 관계 파라미터로 채널간 레벨 차이(ILD) 정보와 채널간 위상 차이(IPD) 정보를 활용한다고 가정한다. 경우에 따라 채널 간 상호 연관성(ICC; Interchannel Correlation) 정보 등 채널 간의 정보를 표현하는 데 사용될 수 있는 다양한 파라미터가 활용될 수 있다. 채널간 관계 파라미터는 STFT된 신호 V 또는 H를 복소수 스펙트로그램(spectrogram) 행렬로 보았을 때 특정 프레임 및 주파수 값을 가지는 하나의 요소(element)에 대해 각각 계산된다. 이러한 기능은 도 2 (a)의 행렬 계산부(112)가 수행할 수 있다.
획득된 채널 간 관계 파라미터 행렬 ILDV, IPDV, ILDH, IPDH의 각 요소는 특정한 분포를 가지는 확률 변수의 한 샘플일 수 있다. 예를 들어, 음원 V에 대한 다변량 확률 변수 XV는 2가지의 스칼라 확률 변수 XILDv와 XIPDv를 요소로 갖는 2차원 다변량 확률 변수이고, 평균이 μV이고 표준편차는 σV 값을 갖는 정규 분포를 따를 수 있다. 마찬가지로, 음원 H에 대한 다변량 확률 변수 XH는 2가지의 스칼라 확률 변수 XILDh와 XIPDh를 요소로 갖는 2차원 다변량 확률 변수이고, 평균이 μH이고 표준편차는 σH 값을 갖는 정규 분포를 따를 수 있다. 이때, XV와 XH가 서로 다른 형태의 분포를 따르거나, 같은 종류의 분포이더라도 서로 평균 또는 표준편차가 다른 경우, 해당하는 2개의 음원은 서로 다른 채널 간 파라미터 분포를 가진다고 가정할 수 있다.
제1 학습부(320)는 각각의 음원에 대해서 획득된 채널 관계 파라미터 값을 이용하여 미리 정의되어 있는 예측 모델을 확정한다. 예를 들어, ILDV, IPDV의 각 요소가 다변량 정규 분포를 따른다고 예측되는 경우, 해당 샘플의 샘플 평균과 샘플 분산(표준편차)를 구함으로써, 해당 음원의 채널 관계 파라미터 분포를 확정할 수 있다. 또한, 각각의 분포가 음원의 혼합에 기여하는 정도를 측정함으로써, 분포별 혼합 신호 기여 확률 pV, pH를 미리 구할 수 있다.
초기화부(330)는 상기와 같은 방식으로 얻은 각 음원의 분포 정의 파라미터, 예컨대 평균, 표준편차, 기여 확률 등을 이용하여 혼합 신호 내에 포함된 음원별 분포를 예측할 때의 초기값으로 활용할 수 있다. 또한, 경우에 따라 학습용 음원별 신호가 확보되어 있지 않은 경우, 경험적인 값에 의거하여 초기화할 수도 있다. 추가적으로, 무작위 값을 이용하여 초기화하는 경우에도 본 발명의 제2 학습부(350)는 어느 정도의 성능을 발휘하며 음원 분리를 수행할 수 있다.
제2 파라미터 획득부(340)는 혼합 신호로부터 기정의된 채널간 파라미터를 획득하는 단계를 의미한다. 이때 혼합 신호는 음원 분리가 수행되어 있지 않은 상태이므로, 혼합 신호 스펙트로그램 행렬의 각 요소별 파라미터를 획득하는 것이 가능하다. 또한, 혼합 신호 입력 역시 정밀한 분포 도출을 위해 밴드 통과 필터(BPF)를 거친 서브 밴드 신호일 수 있다. 이 경우 도 3에 도시된 일실시예는 서브 밴드 신호별로 적용되며, 그 결과물 역시 해당 서브 밴드 내에서의 음원 분리 결과이다. 추가적으로 혼합 신호 입력 ML, MR은 원 신호의 일부 시간 구간만으로 이루어진 세그먼트 신호일 수 있다.
획득된 혼합 신호의 채널 간 관계 파라미터는 초기화부(330)에서 초기화된 바와 같은 분포 정의 파라미터를 활용하여 초기화된 2개 이상의 분포가 혼합된 형태라고 가정할 수 있다. 제2 학습부(350)는 2개 이상의 혼합 분포 모델(Mixture Model)이 있다고 가정할 때, 데이터 샘플로부터 분포 모델 정의 파라미터를 학습하는 기대치 최대화 방식(Expectation Maximization)을 통해 각각의 샘플이 가정된 각각의 분포 모델에 속할 확률을 구할 수 있다. 예를 들어, 복수의 정규 분포가 혼합되어 있는 상황에서의 데이터 샘플의 확률을 구하기 위해서는 혼합 정규 분포(GMM; Gaussian Mixture Model) 방식을 통해서 기대치 최대화 방식을 적용할 수 있다.
제2 학습부(350)는 혼합 정규 분포가 기본 모델이라고 가정했을 때 다음과 같은 기대치 최대화 방식을 통해 업데이트될 수 있다. 먼저 기대치를 구하는 과정은 수학식 1과 같이 표현될 수 있다.
Figure 112011014011564-pat00001
수학식 1에서 p(j)는 j번째 정규 분포가 전체 혼합 분포에 기여하는 혼합 기여도 확률을 의미한다. 확률 p(xt|j)는 j번째 정규 분포의 확률 분포 함수를 고려했을 때, t번째 데이터 샘플 xt가 j번째 정규 분포에 의해 발생했을 확률을 의미한다. 따라서, rjt는 특정 데이터 샘플 xt가 j번째 정규 분포에서 비롯되었을 확률을 의미한다. 이때 ILD와 IPD를 활용하는 일실시예의 경우, t번째 입력 샘플 xt는 벡터화된 혼합 신호의 ILD 행렬 ILDM과 IPD 행렬 IPDM 의의 t번째 입력 샘플의 쌍으로 이루어진 벡터 xt=[ILDM ,t, IPDM ,t]로 정의될 수 있다.
최대화 과정은 수학식 2와 같이 표현될 수 있다.
Figure 112011014011564-pat00002
최대화 과정은 수학식 1을 통해 얻은 각 샘플별 모델 소속 확률 rjt를 기반으로 M개의 정규 분포 각각의 분포 파라미터인 평균과 분산을 새롭게 업데이트함으로써, 혼합 분포가 데이터 샘플을 보다 잘 표현할 수 있도록 한다. 먼저 기존의 j번째 정규 분포의 새로운 평균값 μj new는 새로운 소속 확률 rjt이 반영된 각 데이터 샘플의 평균값이며, 새로운 분산값 σj 2 new 역시 새로운 소속 확률 rjt와 새로운 평균값 μj new 를 기반으로 하여 업데이트된다. 마지막으로, 혼합 기여도 확률 pnew(j)은 데이터 샘플별 특정 모델 소속 확률의 기대치를 통해 업데이트한다. 기대값 최대화 과정을 반복적으로 수행하여 분포 함수가 일정 형태로 수렴하면, 각 입력 샘플 rjt의 모델별 소속 정도를 확보할 수 있다. 한편, 상기에서 ∑t는 분산 행렬을 의미하며, T는 매트릭스 트랜스포져를 의미한다. N은 데이터 개수를 의미한다.
이러한 제2 학습부(350)의 결과를 바탕으로, 분리부(360)는 혼합 신호 스펙트로그램의 특정 프레임 및 주파수 값을 가지는 데이터 샘플에 대해 분포별 소속 정도를 기반으로 하는 음원 분리를 수행할 수 있다. 예를 들어, i번째 프레임의 f번째 주파수 값을 가지는 혼합 신호의 복소수 스펙트로그램 샘플 ML(i,f), MR(i,f)에 대해, 해당 위치의 ILD와 IPD로 이루어진 샘플이 음원 V와 같은 종류의 분포 모델을 따를 확률이 rV(i,f)라고 하면, ML(i,f), MR(i,f)는 각각 다음과 같이 혼합 신호 내 음원 V의 좌 우 채널 ML V’, MR V’을 복원한다.
ML V’(i,f) = rV(i,f) * ML(i,f)
MR V’(i,f) = rV(i,f) * MR(i,f)
마찬가지로, 음원 H와 같은 종류의 음원은 소속 확률값 rV(i,f)+rH(i,f)=1이라는 조건을 이용하여 다음과 같은 방법으로 복원할 수 있다.
ML H’(i,f) = rH(i,f) * ML(i,f)
MR H’(i,f) = rH(i,f) * MR(i,f)
경우에 따라 혼합 신호 입력이 일부 구간만으로 이루어진 연속적인 세그먼트로 구성되는 경우, 이전 세그먼트에서의 제2 학습부(350)의 결과는 그 다음 세그먼트의 제2 학습부(350) 작동시의 초기화 값으로 활용됨으로써, 혼합 정규 분포 모델 학습의 업데이트 과정을 단축시킬 수 있다.
다음으로, 음원 분리 장치(100)의 음원 분리 방법에 대해서 설명한다. 도 4는 본 발명의 바람직한 실시예에 따른 음원 분리 방법을 도시한 흐름도이다. 이하 설명은 도 4를 참조한다.
먼저, 수신 멀티 채널 오디오 신호에 포함된 음원들 각각에 대하여 채널 간 관계와 관련된 파라미터를 결정한다(파라미터 결정 단계, S400).
파라미터 결정 단계(S400)는 신호 추출 단계와 행렬 계산 단계로 구성될 수 있다. 신호 추출 단계에서는 멀티 채널 오디오 신호에 대하여 시간 영역을 주파수 영역으로 변환하여 미리 정해진 음원들이 포함된 신호를 추출하거나, 멀티 채널 오디오 신호를 필터링시켜 미리 정해진 음원들이 포함된 신호를 추출한다. 행렬 계산 단계에서는 추출된 신호를 스펙트로그램 행렬로 구성하고, 특정된 프레임이나 주파수 값을 가지는 요소에 대하여 스펙트로그램 행렬을 계산하여 파라미터를 결정한다.
파라미터 결정 단계(S400) 이후, 파라미터에 의한 각 음원의 채널 분포값을 이용하여 적어도 하나의 혼합 모델(Mixture Model)을 추정하며, 추정된 혼합 모델로부터 음원마다 모델별 소속 확률을 계산한다(음원값 계산 단계, S410).
음원값 계산 단계(S410)에서는 혼합 모델로 가우시안 혼합 모델(Gaussian Mixture Model)을 추정하여 기대치 최대화(Expectation Maximization)에 따라 모델별 소속 확률을 계산한다.
음원값 계산 단계(S410)에서는 A와 B의 곱셈값을 C로 나눈 값을 기대치로 계산한다. 이때, A는 선택된 파라미터와 관련된 제1 혼합 모델이 모든 혼합 모델들에 기여하는 기여도 확률이고, B는 선택된 데이터 샘플이 제1 혼합 모델에 의해 발생될 확률이며, C는 혼합 모델이 적어도 두개일 때 각각의 혼합 모델을 제1 혼합 모델로 하는 A와 B의 곱셈값에 대한 시그마 연산값이다.
음원값 계산 단계(S410)에서는 계산된 기대치가 반영된 각 데이터 샘플에 대한 평균값, 및 계산된 기대치와 평균값이 반영된 모든 데이터 샘플들에 대한 분산값으로 기대치 최대화를 수행하여 모델별 소속 확률을 계산한다. 바람직하게는, 음원값 계산 단계(S410)에서는 평균값과 분산값에 의한 분포 함수가 수렴할 때까지 기대치 최대화를 반복 수행한다.
음원값 계산 단계(S410) 이후, 상기 계산에 의한 음원의 모델별 소속 확률을 기초로 멀티 채널 오디오 신호로부터 음원들을 분리시킨다(음원 분리 단계, S420). 한편, 음원 분리 단계(S420)에서는 채널 분포값을 기초로 멀티 채널 오디오 신호로부터 음원들을 분리시키는 것도 가능하다.
본 실시예에서, 파라미터 결정 단계(S400) 이전에 파라미터 획득 단계, 음원값 추정 단계 및 음원값 반영 단계를 수행할 수 있다. 파라미터 획득 단계에서는 미리 정해진 음원에 대하여 파라미터를 획득한다. 음원값 추정 단계에서는 획득된 파라미터를 이용하여 해당 음원의 채널 분포값을 추정한다. 음원값 반영 단계에서는 추정된 채널 분포값을 혼합 모델을 추정할 때와 모델별 소속 확률을 계산할 때에 반영시킨다.
음원값 추정 단계는 파라미터 계산 단계와 채널 분포값 추정 단계로 구성될 수 있다. 파라미터 계산 단계에서는 획득된 파라미터들에 의해 예측된 정규 분포 상에서 각 파라미터의 평균값을 계산하고, 각 파라미터의 분산값이나 표준편차값을 계산한다. 채널 분포값 추정 단계에서는 상기 계산에 의해 각 파라미터마다 얻은 값으로 해당 음원의 채널 분포값을 추정한다.
음원값 반영 단계에서는 추정된 채널 분포값이 없을 때에 미리 저장된 채널 분포값을 반영시킬 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.
본 발명은 음원의 채널 분포를 이용한 음원 분리 장치 및 방법에 관한 것으로서, 음악 콘텐츠 서비스 분야에 적용될 수 있다.
100 : 음원 분리 장치 110 : 파라미터 결정부
111 : 신호 추출부 112 : 행렬 계산부
120 : 음원값 계산부 130 : 음원 분리부
140 : 전원부 150 : 주제어부
160 : 파라미터 획득부 170 : 음원값 추정부
171 : 파라미터 계산부 172 : 채널 분포값 추정부
180 : 음원값 반영부

Claims (20)

  1. 수신 멀티 채널 오디오 신호에 포함된 음원들 각각에 대하여 채널 간 관계와 관련된 파라미터를 결정하는 파라미터 결정부;
    상기 파라미터에 의한 각 음원의 채널 분포값을 이용하여 적어도 하나의 혼합 모델(Mixture Model)을 추정하며, 추정된 혼합 모델로부터 음원마다 모델별 소속 확률을 계산하는 음원값 계산부; 및
    상기 계산에 의한 음원의 모델별 소속 확률을 기초로 상기 멀티 채널 오디오 신호로부터 상기 음원들을 분리시키는 음원 분리부
    를 포함하는 것을 특징으로 하는 음원 분리 장치.
  2. 제 1 항에 있어서,
    미리 정해진 음원에 대하여 상기 파라미터를 획득하는 파라미터 획득부;
    획득된 파라미터를 이용하여 해당 음원의 채널 분포값을 추정하는 음원값 추정부; 및
    추정된 채널 분포값을 상기 혼합 모델을 추정할 때와 상기 확률을 계산할 때에 반영시키는 음원값 반영부
    를 더욱 포함하는 것을 특징으로 하는 음원 분리 장치.
  3. 제 1 항에 있어서,
    상기 음원값 계산부는 상기 혼합 모델로 가우시안 혼합 모델(Gaussian Mixture Model)을 추정하여 기대치 최대화(Expectation Maximization)에 따라 상기 확률을 계산하는 것을 특징으로 하는 음원 분리 장치.
  4. 제 3 항에 있어서,
    A는 선택된 파라미터와 관련된 제1 혼합 모델이 모든 혼합 모델들에 기여하는 기여도 확률이고,
    B는 선택된 데이터 샘플이 상기 제1 혼합 모델에 의해 발생될 확률이며,
    C는 혼합 모델이 적어도 두개일 때 각각의 혼합 모델을 상기 제1 혼합 모델로 하는 상기 A와 상기 B의 곱셈값에 대한 시그마 연산값일 때,
    상기 음원값 계산부는 상기 A와 상기 B의 곱셈값을 상기 C로 나눈 값을 상기 기대치로 계산하는 것을 특징으로 하는 음원 분리 장치.
  5. 제 4 항에 있어서,
    상기 음원값 계산부는 계산된 기대치가 반영된 각 데이터 샘플에 대한 평균값, 및 계산된 기대치와 상기 평균값이 반영된 모든 데이터 샘플들에 대한 분산값으로 상기 기대치 최대화를 수행하여 상기 확률을 계산하는 것을 특징으로 하는 음원 분리 장치.
  6. 제 5 항에 있어서,
    상기 음원값 계산부는 상기 평균값과 상기 분산값에 의한 분포 함수가 수렴할 때까지 상기 기대치 최대화를 반복 수행하는 것을 특징으로 하는 음원 분리 장치.
  7. 제 1 항에 있어서,
    상기 파라미터 결정부는,
    상기 멀티 채널 오디오 신호에 대하여 시간 영역을 주파수 영역으로 변환하여 미리 정해진 음원들이 포함된 신호를 추출하거나, 상기 멀티 채널 오디오 신호를 필터링시켜 미리 정해진 음원들이 포함된 신호를 추출하는 신호 추출부; 및
    추출된 신호를 스펙트로그램 행렬로 구성하고, 특정된 프레임이나 주파수 값을 가지는 요소에 대하여 상기 스펙트로그램 행렬을 계산하여 상기 파라미터를 결정하는 행렬 계산부
    를 포함하는 것을 특징으로 하는 음원 분리 장치.
  8. 제 1 항에 있어서,
    상기 음원 분리부는 상기 채널 분포값을 기초로 상기 멀티 채널 오디오 신호로부터 상기 음원들을 분리시키는 것을 특징으로 하는 음원 분리 장치.
  9. 제 2 항에 있어서,
    상기 음원값 추정부는,
    획득된 파라미터들에 의해 예측된 정규 분포 상에서 각 파라미터의 평균값을 계산하고, 각 파라미터의 분산값이나 표준편차값을 계산하는 파라미터 계산부; 및
    상기 계산에 의해 각 파라미터마다 얻은 값으로 해당 음원의 채널 분포값을 추정하는 채널 분포값 추정부
    를 포함하는 것을 특징으로 하는 음원 분리 장치.
  10. 제 2 항에 있어서,
    상기 음원값 반영부는 추정된 채널 분포값이 없을 때에 미리 저장된 채널 분포값을 반영시키는 것을 특징으로 하는 음원 분리 장치.
  11. 수신 멀티 채널 오디오 신호에 포함된 음원들 각각에 대하여 채널 간 관계와 관련된 파라미터를 결정하는 파라미터 결정 단계;
    상기 파라미터에 의한 각 음원의 채널 분포값을 이용하여 적어도 하나의 혼합 모델(Mixture Model)을 추정하며, 추정된 혼합 모델로부터 음원마다 모델별 소속 확률을 계산하는 음원값 계산 단계; 및
    상기 계산에 의한 음원의 모델별 소속 확률을 기초로 상기 멀티 채널 오디오 신호로부터 상기 음원들을 분리시키는 음원 분리 단계
    를 포함하는 것을 특징으로 하는 음원 분리 방법.
  12. 제 11 항에 있어서,
    미리 정해진 음원에 대하여 상기 파라미터를 획득하는 파라미터 획득 단계;
    획득된 파라미터를 이용하여 해당 음원의 채널 분포값을 추정하는 음원값 추정 단계; 및
    추정된 채널 분포값을 상기 혼합 모델을 추정할 때와 상기 확률을 계산할 때에 반영시키는 음원값 반영 단계
    를 더욱 포함하는 것을 특징으로 하는 음원 분리 방법.
  13. 제 11 항에 있어서,
    상기 음원값 계산 단계는 상기 혼합 모델로 가우시안 혼합 모델(Gaussian Mixture Model)을 추정하여 기대치 최대화(Expectation Maximization)에 따라 상기 확률을 계산하는 것을 특징으로 하는 음원 분리 방법.
  14. 제 13 항에 있어서,
    A는 선택된 파라미터와 관련된 제1 혼합 모델이 모든 혼합 모델들에 기여하는 기여도 확률이고,
    B는 선택된 데이터 샘플이 상기 제1 혼합 모델에 의해 발생될 확률이며,
    C는 혼합 모델이 적어도 두개일 때 각각의 혼합 모델을 상기 제1 혼합 모델로 하는 상기 A와 상기 B의 곱셈값에 대한 시그마 연산값일 때,
    상기 음원값 계산 단계는 상기 A와 상기 B의 곱셈값을 상기 C로 나눈 값을 상기 기대치로 계산하는 것을 특징으로 하는 음원 분리 방법.
  15. 제 14 항에 있어서,
    상기 음원값 계산 단계는 계산된 기대치가 반영된 각 데이터 샘플에 대한 평균값, 및 계산된 기대치와 상기 평균값이 반영된 모든 데이터 샘플들에 대한 분산값으로 상기 기대치 최대화를 수행하여 상기 확률을 계산하는 것을 특징으로 하는 음원 분리 방법.
  16. 제 15 항에 있어서,
    상기 음원값 계산 단계는 상기 평균값과 상기 분산값에 의한 분포 함수가 수렴할 때까지 상기 기대치 최대화를 반복 수행하는 것을 특징으로 하는 음원 분리 방법.
  17. 제 11 항에 있어서,
    상기 파라미터 결정 단계는,
    상기 멀티 채널 오디오 신호에 대하여 시간 영역을 주파수 영역으로 변환하여 미리 정해진 음원들이 포함된 신호를 추출하거나, 상기 멀티 채널 오디오 신호를 필터링시켜 미리 정해진 음원들이 포함된 신호를 추출하는 신호 추출 단계; 및
    추출된 신호를 스펙트로그램 행렬로 구성하고, 특정된 프레임이나 주파수 값을 가지는 요소에 대하여 상기 스펙트로그램 행렬을 계산하여 상기 파라미터를 결정하는 행렬 계산 단계
    를 포함하는 것을 특징으로 하는 음원 분리 방법.
  18. 제 11 항에 있어서,
    상기 음원 분리 단계는 상기 채널 분포값을 기초로 상기 멀티 채널 오디오 신호로부터 상기 음원들을 분리시키는 것을 특징으로 하는 음원 분리 방법.
  19. 제 12 항에 있어서,
    상기 음원값 추정 단계는,
    획득된 파라미터들에 의해 예측된 정규 분포 상에서 각 파라미터의 평균값을 계산하고, 각 파라미터의 분산값이나 표준편차값을 계산하는 파라미터 계산 단계; 및
    상기 계산에 의해 각 파라미터마다 얻은 값으로 해당 음원의 채널 분포값을 추정하는 채널 분포값 추정 단계
    를 포함하는 것을 특징으로 하는 음원 분리 방법.
  20. 제 12 항에 있어서,
    상기 음원값 반영 단계는 추정된 채널 분포값이 없을 때에 미리 저장된 채널 분포값을 반영시키는 것을 특징으로 하는 음원 분리 방법.
KR1020110017283A 2010-10-19 2011-02-25 음원 분리 장치 및 그 방법 KR101527441B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US13/276,974 US9049532B2 (en) 2010-10-19 2011-10-19 Apparatus and method for separating sound source

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20100102119 2010-10-19
KR1020100102119 2010-10-19

Publications (2)

Publication Number Publication Date
KR20120040637A KR20120040637A (ko) 2012-04-27
KR101527441B1 true KR101527441B1 (ko) 2015-06-11

Family

ID=46140499

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110017283A KR101527441B1 (ko) 2010-10-19 2011-02-25 음원 분리 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101527441B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101779584B1 (ko) 2016-04-29 2017-09-18 경희대학교 산학협력단 복잡도 감소에 기반한 ds-cdma 시스템에서의 원신호 복원 방법
CN111370019B (zh) * 2020-03-02 2023-08-29 字节跳动有限公司 声源分离方法及装置、神经网络的模型训练方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060029043A (ko) * 2004-09-30 2006-04-04 삼성전자주식회사 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법
EP1643769A1 (en) * 2004-09-30 2006-04-05 Samsung Electronics Co., Ltd. Apparatus and method performing audio-video sensor fusion for object localization, tracking and separation
JP2007010897A (ja) * 2005-06-29 2007-01-18 Toshiba Corp 音響信号処理方法、装置及びプログラム
JP2008311866A (ja) * 2007-06-13 2008-12-25 Toshiba Corp 音響信号処理方法及び装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060029043A (ko) * 2004-09-30 2006-04-04 삼성전자주식회사 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법
EP1643769A1 (en) * 2004-09-30 2006-04-05 Samsung Electronics Co., Ltd. Apparatus and method performing audio-video sensor fusion for object localization, tracking and separation
JP2007010897A (ja) * 2005-06-29 2007-01-18 Toshiba Corp 音響信号処理方法、装置及びプログラム
JP2008311866A (ja) * 2007-06-13 2008-12-25 Toshiba Corp 音響信号処理方法及び装置

Also Published As

Publication number Publication date
KR20120040637A (ko) 2012-04-27

Similar Documents

Publication Publication Date Title
US9049532B2 (en) Apparatus and method for separating sound source
CN103348703B (zh) 用以利用预先算出的参考曲线来分解输入信号的装置和方法
Enzinger et al. A demonstration of the application of the new paradigm for the evaluation of forensic evidence under conditions reflecting those of a real forensic-voice-comparison case
EP3257044B1 (en) Audio source separation
CN103477386B (zh) 音频编解码器中的噪声产生
CN103339670B (zh) 确定多通道音频信号的通道间时间差
CN103650537B (zh) 采用分解器产生输出信号的装置和方法
CN103460282A (zh) 用于利用传送的相位信息产生去相关信号的装置
CN103534754A (zh) 在不活动阶段期间利用噪声合成的音频编解码器
CN102770913B (zh) 稀疏音频
WO2016011048A1 (en) Decomposing audio signals
CN110024421A (zh) 用于自适应控制去相关滤波器的方法和装置
US9767846B2 (en) Systems and methods for analyzing audio characteristics and generating a uniform soundtrack from multiple sources
RU2670843C9 (ru) Способ и устройство для определения параметра межканальной временной разности
CN101138021B (zh) 使用虚拟源位置信息的多声道音频压缩和解压缩方法
KR101527441B1 (ko) 음원 분리 장치 및 그 방법
EP3618069B1 (en) Audio coding method and related apparatus
EP3293735A1 (en) Method for encoding signals, method for separating signals in a mixture, corresponding computer program products, devices and bitstream
RU2682026C1 (ru) Способ и устройство для определения параметра межканальной разности времени
KR102427874B1 (ko) 학습 모델 기반의 인공 대역 변환장치 및 방법
Venkatesan et al. Deep recurrent neural networks based binaural speech segregation for the selection of closest target of interest
Plaja-Roglans et al. A diffusion-inspired training strategy for singing voice extraction in the waveform domain
Zhang et al. Use of relevant data, quantitative measurements, and statistical models to calculate a likelihood ratio for a Chinese forensic voice comparison case involving two sisters
Gorlow et al. Informed separation of spatial images of stereo music recordings using second-order statistics
Kırbız et al. Perceptual coding-based informed source separation

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180529

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190527

Year of fee payment: 5