KR20120031854A - 시간 및 주파수 특징을 이용하는 음악 음원 분리 장치 및 방법 - Google Patents

시간 및 주파수 특징을 이용하는 음악 음원 분리 장치 및 방법 Download PDF

Info

Publication number
KR20120031854A
KR20120031854A KR1020100130223A KR20100130223A KR20120031854A KR 20120031854 A KR20120031854 A KR 20120031854A KR 1020100130223 A KR1020100130223 A KR 1020100130223A KR 20100130223 A KR20100130223 A KR 20100130223A KR 20120031854 A KR20120031854 A KR 20120031854A
Authority
KR
South Korea
Prior art keywords
signal
segment
sound source
time
information
Prior art date
Application number
KR1020100130223A
Other languages
English (en)
Inventor
김민제
장인선
강경옥
최승진
유지호
김진웅
Original Assignee
한국전자통신연구원
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원, 포항공과대학교 산학협력단 filed Critical 한국전자통신연구원
Priority to US13/076,630 priority Critical patent/US8563842B2/en
Publication of KR20120031854A publication Critical patent/KR20120031854A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]

Abstract

본 발명은 혼합 음악 신호에서 주요한 음원들을 분리 및 추출하는 통합적인 방법 및 시스템이 개시된다. 음악 음원 분리 시스템은 특정 음원의 특징을 포함하는 사전 정보 신호를 압축하는 사전 정보 신호 압축부; 복수의 음원을 포함하는 혼합 신호를 복수의 세그먼트로 분할하는 혼합 신호 분할부; 복수의 세그먼트로 분할된 혼합 신호와 상기 사전 정보 신호에 NMPCF 알고리즘을 사용하여 상기 세그먼트들 간에 공유하는 정보인 공유 정보를 획득하는 NMPCF 분석부; 및 상기 공유 정보를 기초로 상기 혼합 신호에서 상기 특정 음원에 대응하는 대상 악기 신호를 분리하는 대상 악기 신호 분리부를 포함한다.

Description

시간 및 주파수 특징을 이용하는 음악 음원 분리 장치 및 방법 {METHOD AND SYSTEM FOR SEPARATING MUSIC SOUND SOURCE USING TIME AND FREQUENCY CHARACTERISTICS}
본 발명은 음악 음원 분리 방법에 관한 것으로서, 구체적으로는 목표로 하는 음원의 시간적인 특성과 주파수적인 특성을 동시에 이용하여 혼합 신호로부터 목표 음원의 신호 만을 효율적으로 분리하는 장치 및 방법에 관한 것이다.
기술의 발달로 다양한 음원이 함께 녹음된 혼합 신호에서 특정 음원을 분리하는 방법이 개발되었다.
그러나, 종래의 음원 분리 기술은 신호가 혼합되는 환경의 모델에 기반하여 음원의 통계적 특성을 활용하여 음원을 분리하므로, 분리하고자 하는 음원 개수에 대응하는 개수의 혼합 신호를 필요로 하였다.
따라서, 획득할 수 있는 혼합 신호의 개수보다 포함된 음원의 개수가 많은 음악 신호에서도 특정 음원을 분리할 수 있으며, 위치 정보를 사용하여 음원을 분리하는 경우에도 다른 음원의 정보가 혼재되지 않도록 하는 방법이 필요한 실정이다.
본 발명의 일실시예는 특정 악기만으로 연주된 음원 정보가 있는 경우에 혼합 신호에 포함된 대상 음원을 나머지 음원들로부터 분리하는 것과, 대상 음원의 특징을 혼합신호로부터 도출하여 대상 음원을 재구성하는 과정을 동시 통합적으로 수행함으로써, 혼합 신호에 포함되어 있는 음원을 보다 효율적으로 분리할 수 있는 음악 음원 분리 장치를 제공한다.
또한, 본 발명의 일실시예는 음원 분리 과정에 중첩 윈도우를 적용함으로써, 분리된 대상 음원이 세그먼트별로 상이한 오차 신호를 포함할 경우, 사용자가 대상 음원의 재생 중에 세그먼트 간의 이질감을 느끼는 것을 방지 할 수 있는 음악 음원 분리 장치를 제공한다.
본 발명의 일실시예에 따른 음악 음원 분리 시스템은 특정 음원의 특징을 포함하는 사전 정보 신호를 압축하는 사전 정보 신호 압축부; 복수의 음원을 포함하는 혼합 신호를 복수의 세그먼트로 분할하는 혼합 신호 분할부; 복수의 세그먼트로 분할된 혼합 신호와 상기 사전 정보 신호에 NMPCF(Nonnegative Matrix Co-Factorization) 알고리즘을 사용하여 상기 세그먼트들 간에 공유하는 정보인 공유 정보를 획득하는 NMPCF 분석부; 및 상기 공유 정보를 기초로 상기 혼합 신호에서 상기 특정 음원에 대응하는 대상 악기 신호를 분리하는 대상 악기 신호 분리부를 포함한다.
본 발명의 일실시예에 따른 음악 음원 분리 시스템의 혼합 신호 분할부는, 혼합 신호를 복수의 세그먼트로 분할하는 세그먼트 분할부; 복수의 세그먼트로 분할된 혼합 신호에 중첩 윈도우를 적용하는 윈도우 적용부 및 복수의 세그먼트로 분할된 혼합 신호를 시간-주파수 영역의 신호로 변환하여 NMPCF 분석부에 제공하는 혼합 신호의 시간-주파수 영역 변환부를 포함할 수 있다.
본 발명의 일실시예에 따른 음악 음원 분리 시스템의 세그먼트 분할부는, 각각의 세그먼트가 다른 세그먼트의 영역과 일부 중첩되도록 혼합 신호를 분할할 수 있다.
본 발명의 일실시예에 따른 음악 음원 분리 시스템의 윈도우 적용부는, 각각의 세그먼트가 다른 세그먼트의 영역과 일부 중첩되는 영역에 적용하는 윈도우의 합이 1이 되도록 상기 중첩 윈도우의 형태를 선택할 수 있다.
본 발명의 일실시예에 따른 음악 음원 분리 방법은 특정 음원의 특징을 포함하는 사전 정보 신호를 압축하는 단계; 복수의 음원을 포함하는 혼합 신호를 복수의 세그먼트로 분할하는 단계; 복수의 세그먼트로 분할된 혼합 신호와 상기 사전 정보 신호에 NMPCF(Nonnegative Matrix Co-Factorization) 알고리즘을 사용하여 상기 세그먼트들 간에 공유하는 정보인 공유 정보를 획득하는 단계; 및 상기 공유 정보를 기초로 상기 혼합 신호에서 상기 특정 음원에 대응하는 대상 악기 신호를 분리하는 단계를 포함한다.
본 발명의 일실시예에 따르면, 특정 음원만으로 구성된 음원 정보가 있는 경우에 음원 정보를 직접적으로 이용하는 동시에, 시간 측면에서 반복되는 음원의 특성을 이용하여 혼합 신호를 대상 음원과 나머지 음원들로 재구성함으로써, 혼합 신호에 포함되어 있는 음원을 보다 효율적으로 분리할 수 있다.
또한, 본 발명의 일실시예에 따르면, 음원 분리 과정에 중첩 윈도우를 적용함으로써, 분리된 대상 음원이 세그먼트별로 상이한 오차 신호를 포함할 경우, 사용자가 대상 음원의 재생 중에 세그먼트 간의 이질감을 느끼는 것을 방지 할 수 있다.
도 1은 본 발명에 따른 음악 음원 분리 시스템의 구성을 도시한 도면이다.
도 2는 본 발명에 따른 사전 정보 신호 압축부의 구성을 도시한 도면이다.
도 3은 본 발명에 따른 혼합 신호 분할부의 구성을 도시한 도면이다.
도 4는 본 발명에 따른 윈도우 적용부가 실행되지 않는 경우 NMPCF 분석부에 입력되는 세그먼트의 일례이다.
도 5는 본 발명에 따른 혼합 신호 분할부의 윈도우 적용부가 실행된 경우 NMPCF 분석부에 입력되는 세그먼트의 일례이다.
도 6은 본 발명에 따른 음악 음원 분리 방법의 일례를 도시한 순서도이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명에 따른 음악 음원 분리 시스템의 구성을 도시한 도면이다.
도 1을 참고하면, 음악 음원 분리 시스템은 사전 정보 신호 압축부(110), 혼합 신호 분할부(120), NMPCF 분석부(130), 대상 악기 신호 분리부(140), 시간영역 신호 변환부(150); 윈도우 적용부(160) 및 신호 결합부(170)로 구성된다.
사전 정보 신호 압축부(110)는 특정 음원의 특징을 포함하는 사전 정보 신호를 압축하여 NMPCF 분석부(130)로 전송할 수 있다.
이때, 사전 정보 신호는 특정 음원의 다양한 특징을 모두 포함하므로 데이터의 양이 매우 클 수 있다. 따라서, 사전 정보 신호 압축부(110)는 사전 정보를 압축하여 축소함으로써 음원 분리에 사용되는 신호의 데이터 량을 감소 시킬 수 있다.
또한, 사전 정보 신호 압축부(110)는 특정 음원의 분리에 필요한 특징들이 압축 후에도 남아 있을 도록 사전 정보 신호를 압축할 수 있다.
사전 정보 신호 압축부(110)의 구성 및 상세 동작은 이하 도 2를 참조하여 상세히 설명한다.
혼합 신호 분할부(120)는 복수의 음원을 포함하는 혼합 신호를 복수의 세그먼트로 분할하여 NMPCF 분석부(130)로 전송할 수 있다.
혼합 신호 분할부(120)의 구성 및 상세 동작은 이하 도 3을 참조하여 상세히 설명한다.
NMPCF 분석부(130)는 혼합 신호 분할부(120)에서 복수의 세그먼트로 분할된 혼합 신호와 사전 정보 신호 압축부(110)가 압축한 사전 정보 신호에 NMPCF(Nonnegative Matrix Co-Factorization) 알고리즘을 사용하여 상기 세그먼트들 간에 공유하는 정보인 공유 정보를 획득할 수 있다. 이때, 공유 정보는 복수의 엔티티(entity) 행렬들일 수 있다.
구체적으로 NMPCF 분석부(130)는 혼합 신호 중 하나의 세그먼트 또는 사전정보 신호 X(i,j)X(1)를 엔티티 행렬 U(i)A(l)와 U(j)S(l) 또는 ADB와 SDB의 릴레이션쉽(relationship)으로 설정하여 엔티티 행렬 U(i)A(l)와 U(j)S(l)의 곱으로 표현할 수 있다.
이때, 단일 세그먼트를 분해한 엔티티 행렬 U(i)A(l)는 복수의 입력 행렬이 공통적으로 사용하는 요소 Ac와 각각의 입력 행렬에만 존재하는 요소 AI (l)로 분리될 수 있다. 이때, 특정한 세그먼트 X(i,j)X(l)에 독자적으로 존재하는 요소가 없는 경우에 해당 U(i)A(l) = Ac 가 될 수 있다. 또한, 사전정보 신호 X(1)를 분해한 엔티티 행렬 A(1)이 분리 대상 음원만으로 이루어진 경우, 엔티티 행렬 A(1)는 복수의 입력 행렬이 공통적으로 사용하는 요소 Ac로만 구성되므로 A(1)= Ac일 수 있다.
그리고, NMPCF 분석부(130)는 하기된 수학식 1을 최적화 대상 함수로 사용하여 세그먼트 X(i,j)X(l)를 표현할 수 있다.
Figure pat00001
이때, L은 사전 정보 입력 행렬 X(1)을 포함한 입력 행렬의 개수이고,
Figure pat00002
는 특정한 입력 행렬의 복원이 최적화 대상 함수에 영향을 미치는 정도이며,
Figure pat00003
는 정규화(regularization)의 정도를 조정하는 파라미터일 수 있다. 또한, Ac는 모든 세그먼트가 공통으로 공유하는 주파수 성분의 행렬이고, AI (l)는 각 세그먼트 별로 다른 주파수 성분의 행렬이며, SC (l)는 AC에 대응하는 시간 측면의 정보 행렬이고, SI (l)는 AI (l)에 대응하는 시간 측면의 정보 행렬일 수 있다.
이 때 사전정보 신호 X(1)를 분해한 엔티티 행렬 A(1)이 분리 대상 음원만으로 이루어진 경우, AI (1)와 SI (1)는 각각 모두 공행렬일 수 있다.
또한, NMPCF 분석부(130)는 NMPCF 알고리즘에 따라 Ac, AI (l), SI (l)를 하기된 수학식 2에 적용하여 업데이트함으로써, 상기 수학식 1의 최적화 대상 함수를 최소화시키는 엔티티 행렬들 Ac, AI (l), SC (l), SI (l)U(i)를 획득할 수 있다.
Figure pat00004
이때,
Figure pat00005
는 값이 0과 1사이로 한정된 행렬의 요소단위 제곱이며 업데이트의 속도를 조절하는 파라미터일 수 있다.
즉, NMPCF 분석부(130)는 NMPCF 알고리즘에 따라 Ac, AI (l), SC (l), SI (l)를 음이 아닌 실수로 초기화한 다음에 상기 수학식 2에 따라 일정 값으로 수렴될 때까지 업데이트할 수 있다.
이때, 상기 수학식 2의 멀티플리케이티브(multiplicative) 특성은 상기 엔티티 행렬에 포함된 원소들의 부호를 변화시키지 않을 수 있다.
NMPCF 분석부(130)는 상기 과정과 같이 NMPCF 알고리즘에 따라 세그먼트들 간에 공유하는 정보를 획득할 수 있다. 이때, 상기 공유 정보는 X(2) … X(L)의 혼합 신호 세그먼트들에 걸쳐서 나타나는 음원들 중 주파수 특성이 변하지 않으면서 반복적으로 나타나는 대상 음원의 정보에 해당할 수 있다. 또한, 사전정보 X(1)과 비슷한 주파수 특성을 가지는 음원의 정보에 해당할 수 있다.
대상 악기 신호 분리부(140)는 NMPCF 분석부(130)가 획득한 공유 정보를 기초로 상기 혼합 신호에서 상기 특정 음원에 대응하는 대상 악기 신호를 분리할 수 있다. 이때, 대상 악기 신호 분리부(140)가 분리한 대상 악기 신호는 시간-주파수 영역일 수 있다.
구체적으로 대상 악기 신호 분리부(140)는 공유 정보에 해당하는 엔티티 행렬간 내적을 계산하여 혼합 신호에서 특정 음원에 대응하는 대상 악기 신호를 분리할 수 있다. 이때, 상기 대상 악기 신호는 사전정보 입력 신호와 주파수 특징이 비슷한 동시에 여러 세그먼트에 걸쳐서 반복적으로 나타나는 음원이 포함된 신호일 수 있다.
일례로, 대상 악기 신호 분리부(140)는 엔티티 행렬 AC와 엔티티 행렬 SC (l)간 내적을 계산하여 세그먼트 별로 분할된 혼합 신호에서 대상 악기 신호를 분리하고, 분리한 상기 대상 악기 신호를 시간-주파수 영역에서의 매그니튜드 표현의 근사 신호 ACSC (l)로 도출할 수 있다. 이 때, 대상 악기 신호 분리부(140)는 세그먼트의 인덱스인 l가 1인 근사 신호 ACSC (1)를 다시 복원할 필요가 없는 사전정보 입력 신호로 판단하여 매그니튜드 표현의 근사 신호 ACSC (l)에 포함하지 않을 수 있다.
시간영역 신호 변환부(150)는 대상 악기 신호 분리부(140)가 분리한 대상 악기 신호를 시간 영역으로 변환하여 세그먼트별 시간 영역의 분리 추정 신호를 생성할 수 있다.
일례로, 시간 영역 신호 변환부 (150)은 세그먼트별로 획득된 대상 음원의 분리 결과 추정 신호인 ACSC (l)을 세그먼트별로 다시 시간 영역으로 변환하여 세그먼트별 시간 영역의 분리 추정 신호 y2,…,yL를 도출할 수 있다. 이 때 시간 영역 신호 변환부(150)은 혼합 신호 분할부(120)를 통해서 도출된 세그먼트별 위상 정보 Φ2, Φ3, …, ΦL를 활용할 수 있다.
윈도우 적용부(160)는 시간영역 신호 변환부(150)에서 생성된 세그먼트별 시간 영역의 분리 추정 신호에 중첩 윈도우를 적용할 수 있다. 이때, 윈도우 적용부(160)는 세그먼트별 시간 영역의 분리 추정 신호에 중첩 윈도우를 적용함으로써 세그먼트별로 상이한 오차 신호를 보정할 수 있다. 또한, 실시예에 따라 윈도우 적용부(160)는 동작하지 않을 수도 있다. 이 경우 시간영역 신호 변환부(150)에서 생성된 세그먼트별 시간 영역의 분리 추정 신호는 신호 결합부(170)로 바로 전송될 수 있다.
신호 결합부(170)는 시간영역 신호 변환부(150)가 생성한 세그먼트별 시간 영역의 분리 추정 신호, 또는 윈도우 적용부(160)에서 중첩 윈도우가 적용된 세그먼트별 시간 영역의 분리 추정 신호를 결합하여 분리 추정 신호를 생성할 수 있다.
구체적으로 신호 결합부(170)는 세그먼트별 시간 영역의 복원 신호를 연결하여 전체 길이의 분리 추정 신호 y를 생성할 수 있다. 이때, 신호 결합부(170)는 윈도우 적용부(160)의 적용 여부에 따라, 중첩을 통한 세그먼트 연결을 수행함으로써, 세그먼트 별 상이한 오차 신호를 보정할 수 있다.
도 2는 본 발명에 따른 사전 정보 신호 압축부의 구성을 도시한 도면이다.
본 발명에 따른 사전 정보 신호 압축부(110)는 도 2에 도시된 바와 같이 시간 영역 신호 압축부(210), 사전 정보 신호의 시간-주파수 영역 변환부(220), 및 시간-주파수 영역 신호 압축부(230)를 포함할 수 있다.
시간 영역 신호 압축부(210)는 시간 영역의 사전 정보 신호를 압축할 수 있다. 구체적으로 시간 영역 신호 압축부(210)은 분리 대상이 되는 특정 음원으로만 이루어진 시간 영역의 사전 정보 신호 x1를 음원 분리를 위한 특징을 최대한 보존하면서 압축하여 압축된 시간 영역의 사전정보 신호 x1'를 생성할 수 있다.
사전 정보 신호의 시간-주파수 영역 변환부(220)는 시간 영역 신호 압축부(210)에서 압축된 시간 영역의 사전 정보 신호를 시간-주파수 영역의 사전 정보 신호로 변환할 수 있다. 구체적으로 사전정보 신호의 시간-주파수 영역 변환부(220)는 단구간 퓨리에 변환(Short Time Fourier Transform)과 같이 다양한 시간-주파수 영역 변환 방식을 사용하여 압축된 시간 영역의 사전정보 신호 x1'를 시간-주파수 영역의 신호 X1로 변환할 수 있다.
시간-주파수 영역 신호 압축부(230)는 사전 정보 신호의 시간-주파수 영역 변환부(220)에서 변환된 시간-주파수 영역의 사전 정보 신호를 압축하여 NMPCF 분석부(130에 제공할 수 있다. 구체적으로 시간-주파수 영역 신호 압축부(230)는 시간-주파수 영역의 신호 X1를 음원 분리를 위한 특징을 최대한 보존하면서 압축하여 압축된 시간-주파수 영역 신호 X1'를 생성할 수 있다.
이때, 시간 영역 신호 압축부(210)와 시간-주파수 영역 신호 압축부(230)는 실시예에 따라 사용되지 않을 수도 있다.
도 3은 본 발명에 따른 혼합 신호 분할부의 구성을 도시한 도면이다.
본 발명에 따른 혼합 신호 분할부(120)는 세그먼트 분할부(310), 윈도우 적용부(320), 및 혼합 신호의 시간-주파수 영역 변환부(330)를 포함할 수 있다.
세그먼트 분할부(310)는 혼합 신호를 복수의 세그먼트로 분할할 수 있다. 구체적으로 세그먼트 분할부(310)는 혼합 신호 x를 미리 정의된 길이의 복수의 세그먼트 x2~ xL로 분할할 수 있다. 이때, 세그먼트 분할부(310)는 윈도우 적용부(160)나 윈도우 적용부(320)의 사용 여부에 따라 각각의 세그먼트가 다른 세그먼트의 영역과 일부 중첩되도록 혼합 신호를 분할할 수도 있다.
윈도우 적용부(320)는 세그먼트 분할부(310)가 복수의 세그먼트로 분할한 혼합 신호에 중첩 윈도우를 적용할 수 있다.
이때, 윈도우 적용부(320)과 윈도우 적용부(160)는 대상 악기 신호 분리부(140)에서 분리된 대상 악기 신호가 세그먼트별로 상이한 오차 신호를 포함할 경우, 사용자가 신호 결합부(170)에서 결합된 추정 신호의 재생 중에 세그먼트 간의 이질감을 느끼는 것을 방지하기 위하여 중첩 윈도우를 적용하는 구성이다.
이때, 윈도우 적용부(320)과 윈도우 적용부(160)는 실시예 따라 하나의 구성만 실행될 수도 있다. 단, 윈도우 적용부(320)과 윈도우 적용부(160)는, 각각의 세그먼트가 다른 세그먼트의 영역과 일부 중첩되는 영역에 적용하는 윈도우의 합이 1이 되도록 중첩 윈도우의 형태를 선택해야 한다.
혼합 신호의 시간-주파수 영역 변환부(330)는 복수의 세그먼트로 분할된 혼합 신호를 시간-주파수 영역의 신호로 변환하여 NMPCF 분석부(130)에 제공할 수 있다.
구체적으로 혼합 신호의 시간-주파수 영역 변환부(330)는 세그먼트 분할과 윈도우 적용을 거친 혼합 신호를 시간-주파수 영역의 신호 X(2) 내지 X(L)으로 각기 변환할 수 있다. 이때, 혼합 신호의 시간-주파수 영역 변환부(330)는 다양한 시간-주파수 영역 변환 방식 중 하나를 사용하여 혼합 신호를 시간-주파수 영역의 신호로 변환할 수 있다. 또한, 혼합 신호의 시간-주파수 영역 변환부(330)는 혼합 신호의 세그먼트 x2 내지 xL로부터 위상 정보 Φ2, Φ3, … , ΦL를 추출하여 시간 영역 신호 변환부(150)로 전송할 수 있다.
도 4는 본 발명에 따른 윈도우 적용부가 실행되지 않는 경우 NMPCF 분석부에 입력되는 세그먼트의 일례이다.
또한, 도 4는 혼합 신호가 2개의 세그먼트(X(2), X(3))로 분할되는 경우의 일실시예이다.
이때, NMPCF 분석부(130)가 입력받은 첫 번째 세그먼트 X(1)(410)은 사전 정보 신호 압축부(100)에서 입력 받은 사전 정보 신호의 시간-주파수 영역 절대값일 수 있다. 이때, 첫 번째 세그먼트 X(1)(410)은 도 4에 도시된 바와 같이 공통 주파수 행렬 AC(411)과, 상기 AC(411)에 대응하는 시간 측면의 정보 행렬인 SC (l)(412)의 행렬 내적으로 변환될 수 있다. 이때, 공통 주파수 행렬 AC(411)는 첫 번째 세그먼트 X(1)(410)와 두 번째 세그먼트 X(2)(420) 및 세 번째 세그먼트 X(3)(430)가 공통으로 공유하는 주파수 성분의 행렬이다.
또한, NMPCF 분석부(130)가 입력받은 두 번째 세그먼트 X(2)(420)와 세 번째 세그먼트 X(3)(430)는 혼합 신호가 분할된 세그먼트로서 공유 성분과 세그먼트별 비대상 음원 정보를 포함할 수 있다.
구체적으로 두 번째 세그먼트 X(2)(420)의 공유 성분은 공통 주파수 행렬 AC(411)와 상기 AC(411)에 대응하는 시간 측면의 정보 행렬인 SC (2)(423)의 행렬간 내적으로 변환될 수 있다. 또한, 두 번째 세그먼트 X(2)(420)에만 포함된 세그먼트별 비대상 음원 정보는 두 번째 세그먼트 X(2)(420)만의 고유 주파수 성분의 행렬인 AI (2)(421), 및 상기 AI (2)(421)에 대응하는 시간 측면의 정보 행렬인 SI (2)(424)의 행렬간 내적으로 변환될 수 있다.
그리고, 세 번째 세그먼트 X(3)(430)의 공유 성분은 공통 주파수 행렬인 AC(411)와 상기 AC(411)에 대응하는 시간 측면의 정보 행렬인 SC (3)(432)의 행렬간 내적으로 변환될 수 있다. 또한, 세 번째 세그먼트 X(3)(430)에만 포함된 세그먼트별 비대상 음원 정보는 세 번째 세그먼트 X(3)(430)만의 고유 주파수 성분의 행렬인 AI (3)(431)과, 상기 AI (3)(431)에 대응하는 시간 측면의 정보 행렬인 SI (3)(433)의 행렬간 내적으로 변환될 수 있다.
도 5는 본 발명에 따른 혼합 신호 분할부의 윈도우 적용부가 실행된 경우 NMPCF 분석부에 입력되는 세그먼트의 일례이다.
이때, 세그먼트 분할부(310)는 윈도우 적용부(320)를 통한 중첩을 고려하여 각 세그먼트의 앞부분 신호가 그 이전 세그먼트의 뒷부분 신호와 겹치도록 분할할 수 있다.
일례로, 세그먼트 분할부(310)는 l 번째 세그먼트를 x(t+1)에서 x(t+2T)까지의 시간 영역 샘플을 분할하여 생성하는 경우, l+1 번째 세그먼트는 x(t+T+1)에서 x(t+3T)까지의 시간 영역 샘플을 분할해서 생성함으로써, 510에 도시된 바와 같이 x(t+T+1)에서 x(t+2T)사이의 영역이 서로 중첩될 수 있도록 할 수 있다.
이때, 윈도우 적용부(320)가 시간 영역의 혼합 신호 입력(520)의 l번째 세그먼트에 적용하는 윈도우(530)는 여러 가지 형태가 될 수 있다. 단, l번째 윈도우의 뒷(오른쪽)부분과 l+1번째 윈도우(530)의 앞(왼쪽)부분의 합이 1이 되어야 한다.
그리고, 윈도우 적용부(160)이 추가적으로 실행될 경우, 윈도우 적용부(320)의 l번째 윈도우와 윈도우 적용부(160)의 l번째 윈도우의 각각의 샘플을 서로 곱하여 l번째 통합 윈도우를 생성할 수 있다. 이때, l번째 통합 윈도우의 뒷 부분과 l+1번째 통합 윈도우의 앞 부분의 합은 1이 되어야 한다.
도 6은 본 발명에 따른 음악 음원 분리 방법의 일례를 도시한 순서도이다.
단계(S610)에서 사전 정보 신호 압축부(110)는 특정 음원의 특징을 포함하는 사전 정보 신호를 압축하여 NMPCF 분석부(130)에 제공할 수 있다. 이때, 사전 정보 신호 압축부(110)는 특정 음원의 분리에 필요한 특징들이 압축 후에도 남아 있을 도록 사전 정보 신호를 압축할 수 있다.
단계(S620)에서 혼합 신호 분할부(120)는 복수의 음원을 포함하는 혼합 신호를 복수의 세그먼트로 분할할 수 있다. 이때, 혼합 신호 분할부(120)는 대상 악기 신호 분리부(140)가 분리한 대상 악기 신호가 세그먼트별로 상이한 오차 신호를 포함할 경우 사용자가 세그먼트 간의 이질감을 느끼는 것을 방지하기 위하여 분할된 세그먼트들에 중첩 윈도우를 적용할 수 있다.
또한, 단계(S610)와 단계(S620)는 병렬으로 처리되므로 단계(S620)가 단계(S610)보다 먼저 수행되거나 동시에 수행될 수 있다.
단계(S630)에서 NMPCF 분석부(130)는 단계(S620)에서 복수의 세그먼트로 분할된 혼합 신호와 단계(S610)에서 압축된 사전 정보 신호에 NMPCF 알고리즘을 사용하여 세그먼트들 간에 공유하는 정보인 공유 정보를 획득할 수 있다.
단계(S640)에서 대상 악기 신호 분리부(140)는 단계(S630)에서 획득한 공유 정보를 기초로 혼합 신호에서 특정 음원에 대응하는 대상 악기 신호를 분리할 수 있다.
단계(S650)에서 시간영역 신호 변환부(150)는 단계(S640)에서 분리된 대상 악기 신호를 시간 영역으로 변환하여 세그먼트별 시간 영역의 분리 추정 신호를 생성할 수 있다.
단계(S660)에서 윈도우 적용부(160)는 단계(S650)에서 생성된 세그먼트별 시간 영역의 분리 추정 신호에 중첩 윈도우를 적용할 수 있다. 이때, 윈도우 적용부(160)는 세그먼트별 시간 영역의 분리 추정 신호에 중첩 윈도우를 적용함으로써 세그먼트별로 상이한 오차 신호를 보정할 수 있다.
단계(S670)에서 신호 결합부(170)는 단계(S660)에서 중첩 윈도우가 적용된 세그먼트별 시간 영역의 분리 추정 신호를 결합하여 분리 추정 신호를 생성할 수 있다.
본 발명은 특정 음원만으로 구성된 음원 정보가 있는 경우에 음원 정보를 직접적으로 이용하는 동시에, 시간 측면에서 반복되는 음원의 특성을 이용하여 혼합 신호를 대상 음원과 나머지 음원들로 재구성함으로써, 혼합 신호에 포함되어 있는 음원을 보다 효율적으로 분리할 수 있다. 또한, 음원 분리 과정에 중첩 윈도우를 적용함으로써, 분리된 대상 음원이 세그먼트별로 상이한 오차 신호를 포함할 경우, 사용자가 대상 음원의 재생 중에 세그먼트 간의 이질감을 느끼는 것을 방지 할 수도 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
110: 사전 정보 신호 압축부
120: 혼합 신호 분할부
130: NMPCF 분석부
160: 윈도우 적용부

Claims (18)

  1. 특정 음원의 특징을 포함하는 사전 정보 신호를 압축하는 사전 정보 신호 압축부;
    복수의 음원을 포함하는 혼합 신호를 복수의 세그먼트로 분할하는 혼합 신호 분할부;
    복수의 세그먼트로 분할된 혼합 신호와 상기 사전 정보 신호에 NMPCF(Nonnegative Matrix Co-Factorization) 알고리즘을 사용하여 상기 세그먼트들 간에 공유하는 정보인 공유 정보를 획득하는 NMPCF 분석부; 및
    상기 공유 정보를 기초로 상기 혼합 신호에서 상기 특정 음원에 대응하는 대상 악기 신호를 분리하는 대상 악기 신호 분리부
    를 포함하는 음악 음원 분리 장치.
  2. 제1항에 있어서,
    상기 사전 정보 신호 압축부는,
    시간 영역의 사전 정보 신호를 압축하는 시간 영역 신호 압축부;
    압축된 시간 영역의 사전 정보 신호를 시간-주파수 영역의 사전 정보 신호로 변환하는 사전 정보 신호의 시간-주파수 영역 변환부; 및
    시간-주파수 영역의 사전 정보 신호를 압축하여 상기 NMPCF 분석부에 제공하는 시간-주파수 영역 신호 압축부
    를 포함하는 음악 음원 분리 장치.
  3. 제1항에 있어서,
    상기 혼합 신호 분할부는,
    상기 혼합 신호를 복수의 세그먼트로 분할하는 세그먼트 분할부; 및
    복수의 세그먼트로 분할된 혼합 신호를 시간-주파수 영역의 신호로 변환하여 상기 NMPCF 분석부에 제공하는 혼합 신호의 시간-주파수 영역 변환부
    를 포함하는 음악 음원 분리 장치.
  4. 제3항에 있어서,
    상기 혼합 신호 분할부는,
    복수의 세그먼트로 분할된 혼합 신호에 중첩 윈도우를 적용하는 윈도우 적용부를 더 포함하는 음악 음원 분리 장치.
  5. 제4항에 있어서,
    상기 세그먼트 분할부는,
    각각의 세그먼트가 다른 세그먼트의 영역과 일부 중첩되도록 상기 혼합 신호를 분할하는 것을 특징으로 하는 음악 음원 분리 장치.
  6. 제5항에 있어서,
    상기 윈도우 적용부는,
    각각의 세그먼트가 다른 세그먼트의 영역과 일부 중첩되는 영역에 적용하는 윈도우의 합이 1이 되도록 상기 중첩 윈도우의 형태를 선택하는 것을 특징으로 하는 음악 음원 분리 장치.
  7. 제1항에 있어서,
    시간-주파수 영역인 상기 대상 악기 신호를 시간 영역으로 변환하여 세그먼트별 시간 영역의 분리 추정 신호를 생성하는 시간영역 신호 변환부; 및
    상기 세그먼트별 시간 영역의 분리 추정 신호를 결합하여 분리 추정 신호를 생성하는 신호 결합부
    를 더 포함하는 음악 음원 분리 장치.
  8. 제7항에 있어서,
    상기 세그먼트별 시간 영역의 분리 추정 신호에 중첩 윈도우를 적용하는 윈도우 적용부를 더 포함하는 음악 음원 분리 장치.
  9. 제1항에 있어서,
    상기 대상 악기 신호 분리부는,
    상기 공유 정보에 해당하는 엔티티 행렬간 내적을 계산하여 상기 혼합 신호에서 상기 대상 악기 신호를 분리하는 것을 특징으로 하는 음악 음원 분리 장치.
  10. 특정 음원의 특징을 포함하는 사전 정보 신호를 압축하는 단계;
    복수의 음원을 포함하는 혼합 신호를 복수의 세그먼트로 분할하는 단계;
    복수의 세그먼트로 분할된 혼합 신호와 상기 사전 정보 신호에 NMPCF(Nonnegative Matrix Co-Factorization) 알고리즘을 사용하여 상기 세그먼트들 간에 공유하는 정보인 공유 정보를 획득하는 단계; 및
    상기 공유 정보를 기초로 상기 혼합 신호에서 상기 특정 음원에 대응하는 대상 악기 신호를 분리하는 단계
    를 포함하는 음악 음원 분리 방법.
  11. 제10항에 있어서,
    상기 압축하는 단계는,
    시간 영역의 사전 정보 신호를 압축하는 단계;
    압축된 시간 영역의 사전 정보 신호를 시간-주파수 영역의 사전 정보 신호로 변환하는 단계; 및
    시간-주파수 영역의 사전 정보 신호를 압축하여 상기 NMPCF 분석부에 제공하는 단계
    를 포함하는 음악 음원 분리 방법.
  12. 제10항에 있어서,
    상기 분할하는 단계는,
    상기 혼합 신호를 복수의 세그먼트로 분할하는 단계; 및
    복수의 세그먼트로 분할된 혼합 신호를 시간-주파수 영역의 신호로 변환하여 상기 NMPCF 분석부에 제공하는 단계
    를 포함하는 음악 음원 분리 방법.
  13. 제12항에 있어서,
    상기 분할하는 단계는,
    복수의 세그먼트로 분할된 혼합 신호에 중첩 윈도우를 적용하는 단계를 더 포함하는 음악 음원 분리 방법.
  14. 제13항에 있어서,
    상기 혼합 신호를 복수의 세그먼트로 분할하는 단계는,
    각각의 세그먼트가 다른 세그먼트의 영역과 일부 중첩되도록 상기 혼합 신호를 분할하는 것을 특징으로 하는 음악 음원 분리 방법.
  15. 제14항에 있어서,
    상기 중첩 윈도우를 적용하는 단계는,
    각각의 세그먼트가 다른 세그먼트의 영역과 일부 중첩되는 영역에 적용하는 윈도우의 합이 1이 되도록 상기 중첩 윈도우의 형태를 선택하는 것을 특징으로 하는 음악 음원 분리 방법.
  16. 제10항에 있어서,
    시간-주파수 영역인 상기 대상 악기 신호를 시간 영역으로 변환하여 세그먼트별 시간 영역의 분리 추정 신호를 생성하는 단계; 및
    상기 세그먼트별 시간 영역의 분리 추정 신호를 결합하여 분리 추정 신호를 생성하는 단계
    를 더 포함하는 음악 음원 분리 방법.
  17. 제16항에 있어서,
    상기 세그먼트별 시간 영역의 분리 추정 신호에 중첩 윈도우를 적용하는 단계를 더 포함하는 음악 음원 분리 방법.
  18. 제10항에 있어서,
    상기 대상 악기 신호를 분리하는 단계는,
    상기 공유 정보에 해당하는 엔티티 행렬간 내적을 계산하여 상기 혼합 신호에서 상기 대상 악기 신호를 분리하는 것을 특징으로 하는 음악 음원 분리 방법.
KR1020100130223A 2010-09-27 2010-12-17 시간 및 주파수 특징을 이용하는 음악 음원 분리 장치 및 방법 KR20120031854A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US13/076,630 US8563842B2 (en) 2010-09-27 2011-03-31 Method and apparatus for separating musical sound source using time and frequency characteristics

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020100093443 2010-09-27
KR20100093443 2010-09-27

Publications (1)

Publication Number Publication Date
KR20120031854A true KR20120031854A (ko) 2012-04-04

Family

ID=46135199

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100130223A KR20120031854A (ko) 2010-09-27 2010-12-17 시간 및 주파수 특징을 이용하는 음악 음원 분리 장치 및 방법

Country Status (2)

Country Link
US (1) US8563842B2 (ko)
KR (1) KR20120031854A (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120031854A (ko) * 2010-09-27 2012-04-04 한국전자통신연구원 시간 및 주파수 특징을 이용하는 음악 음원 분리 장치 및 방법
US20120095729A1 (en) * 2010-10-14 2012-04-19 Electronics And Telecommunications Research Institute Known information compression apparatus and method for separating sound source
US9093056B2 (en) * 2011-09-13 2015-07-28 Northwestern University Audio separation system and method
EP3005363A1 (en) * 2013-06-05 2016-04-13 Thomson Licensing Method of audio source separation and corresponding apparatus
EP3201917B1 (en) 2014-10-02 2021-11-03 Sony Group Corporation Method, apparatus and system for blind source separation

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7672834B2 (en) * 2003-07-23 2010-03-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting and temporally relating components in non-stationary signals
US7415392B2 (en) * 2004-03-12 2008-08-19 Mitsubishi Electric Research Laboratories, Inc. System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution
US7698143B2 (en) * 2005-05-17 2010-04-13 Mitsubishi Electric Research Laboratories, Inc. Constructing broad-band acoustic signals from lower-band acoustic signals
WO2007018293A1 (ja) * 2005-08-11 2007-02-15 Asahi Kasei Kabushiki Kaisha 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム
JP4556875B2 (ja) * 2006-01-18 2010-10-06 ソニー株式会社 音声信号分離装置及び方法
JP4952979B2 (ja) * 2006-04-27 2012-06-13 独立行政法人理化学研究所 信号分離装置、信号分離方法、ならびに、プログラム
KR100826659B1 (ko) 2006-10-12 2008-05-28 티제이사이언스주식회사 음악파일의 특정 연주부분을 소거 또는 선택하여 청취하는방법
EP2658309A3 (en) 2007-02-02 2014-02-19 InterDigital Technology Corporation Cell update while in an enhanced cell_fach state
UA101950C2 (ru) 2007-03-01 2013-05-27 Новартис Аг Соль присоединения с кислотами, гидрат и полиморфная форма этиламида 5-(2,4-дигидрокси-5-изопропилфенил)-4-(4-морфолин-4-илметилфенил)-изоксазол-3-карбоновой кислоты и композиция, которая содержит эти формы (варианты)
US8015003B2 (en) * 2007-11-19 2011-09-06 Mitsubishi Electric Research Laboratories, Inc. Denoising acoustic signals using constrained non-negative matrix factorization
JP5294300B2 (ja) * 2008-03-05 2013-09-18 国立大学法人 東京大学 音信号の分離方法
US8340943B2 (en) * 2009-08-28 2012-12-25 Electronics And Telecommunications Research Institute Method and system for separating musical sound source
US8080724B2 (en) * 2009-09-14 2011-12-20 Electronics And Telecommunications Research Institute Method and system for separating musical sound source without using sound source database
KR101375432B1 (ko) * 2010-06-21 2014-03-17 한국전자통신연구원 통합 음원 분리 방법 및 장치
KR20120031854A (ko) * 2010-09-27 2012-04-04 한국전자통신연구원 시간 및 주파수 특징을 이용하는 음악 음원 분리 장치 및 방법
US20120095729A1 (en) * 2010-10-14 2012-04-19 Electronics And Telecommunications Research Institute Known information compression apparatus and method for separating sound source

Also Published As

Publication number Publication date
US8563842B2 (en) 2013-10-22
US20120291611A1 (en) 2012-11-22

Similar Documents

Publication Publication Date Title
EP3598779B1 (en) Method and apparatus for decompressing a higher order ambisonics representation
CN101578658B (zh) 音频译码器
KR101086347B1 (ko) 부가정보 비트스트림 변환을 포함하는 다양한 채널로구성된 다객체 오디오 신호의 부호화 및 복호화 장치 및방법
RU2639952C2 (ru) Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием
KR20120031854A (ko) 시간 및 주파수 특징을 이용하는 음악 음원 분리 장치 및 방법
EP3127115B1 (en) Method and apparatus for generating audio content
JP6054142B2 (ja) 信号処理装置、方法およびプログラム
KR100745688B1 (ko) 다채널 오디오 신호 부호화/복호화 방법 및 장치
WO2009046225A2 (en) Correlation-based method for ambience extraction from two-channel audio signals
KR20100073167A (ko) 음원 분리 방법 및 그 장치
CN103811023A (zh) 音频处理装置以及音频处理方法
US7580833B2 (en) Constant pitch variable speed audio decoding
Sahai et al. Spectrogram feature losses for music source separation
WO2018066383A1 (ja) 情報処理装置および方法、並びにプログラム
EP3809240A1 (en) Information processing device, information processing method, and program
KR101225932B1 (ko) 음악 음원 분리 방법 및 장치
US20030105539A1 (en) Time scaling of stereo audio
US9881633B2 (en) Audio signal processing device, audio signal processing method, and audio signal processing program
JP2017151228A (ja) 信号処理方法および音信号処理装置
KR101272972B1 (ko) 음원 데이터베이스를 사용하지 않는 음악 음원 분리 방법 및 장치
US9837085B2 (en) Audio encoding device and audio coding method
KR20120040637A (ko) 음원 분리 장치 및 그 방법
KR20090066186A (ko) 음원 간 상호상관을 이용한 멀티트랙 다운믹싱 장치 및 그방법
Puigt et al. Effects of audio coding on ICA performance: An experimental study
US20150170656A1 (en) Audio encoding device, audio coding method, and audio decoding device

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid