KR20180079975A - 음원의 공간적 위치 및 비음수 행렬 분해를 이용한 음원 분리 방법 및 장치 - Google Patents

음원의 공간적 위치 및 비음수 행렬 분해를 이용한 음원 분리 방법 및 장치 Download PDF

Info

Publication number
KR20180079975A
KR20180079975A KR1020170000783A KR20170000783A KR20180079975A KR 20180079975 A KR20180079975 A KR 20180079975A KR 1020170000783 A KR1020170000783 A KR 1020170000783A KR 20170000783 A KR20170000783 A KR 20170000783A KR 20180079975 A KR20180079975 A KR 20180079975A
Authority
KR
South Korea
Prior art keywords
sound source
sound sources
separated
sound
stereo signal
Prior art date
Application number
KR1020170000783A
Other languages
English (en)
Other versions
KR102590887B1 (ko
Inventor
정영호
이태진
장대영
최진수
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020170000783A priority Critical patent/KR102590887B1/ko
Publication of KR20180079975A publication Critical patent/KR20180079975A/ko
Application granted granted Critical
Publication of KR102590887B1 publication Critical patent/KR102590887B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/055Filters for musical processing or musical effects; Filter responses, filter architecture, filter coefficients or control parameters therefor

Abstract

본 발명이 제공하는 음원 분리 장치 또는 음원 분리 방법은 스테레오 신호에 혼합된 음원들 각각의 방위각을 이용하여, 스테레오 신호로부터 음원을 분리할 수 있다. 방위각을 이용하여 분리된 음원들은 나머지 음원들을 일부 포함할 수 있다. 음원 분리 장치 또는 음원 분리 방법은 비음수 행렬 분해를 분리된 음원에 적용함으로써, 분리된 음원들 각각에 포함된 나머지 음원들의 성분을 제거할 수 있다.

Description

음원의 공간적 위치 및 비음수 행렬 분해를 이용한 음원 분리 방법 및 장치{SOUND SOURCE SEPARATION METHOD USING SPATIAL POSITION OF THE SOUND SOURCE AND NON-NEGATIVE MATRIX FACTORIZATION AND APPARATUS PERFORMING THE METHOD}
본 발명은 스테레오 신호에 혼합된 음원을 스테레오 신호로부터 분리하는 방법 및 장치에 관한 것이다.
현재 유통되는 오디오 콘텐츠는 좌 채널 신호 및 우 채널 신호를 포함하는 스테레오 신호이다. 스테레오 신호에 하나 이상의 음원이 혼합될 수 있으며, 스테레오 신호로부터 음원을 분리하는 기술은 객체 기반 오디오 서비스, 음악 정보 검색 서비스, 멀티채널 업믹싱 등 다양한 응용 분야에서 활용될 수 있다.
스테레오 신호로부터 음원을 분리하는 기술의 대표적인 예로써, EADRess(Enhanced Azimuth Discrimination and Resynthesis) 알고리즘 및 DUET(Degenerate Unmixing Estimation Technique) 알고리즘이 있다. EADRess 알고리즘 및 DUET 알고리즘은 좌/우 귀에 입력되는 오디오 신호 간의 강도 차이(IID: Inter-aural Intensity Difference)를 기반으로 음원의 위치를 인지하는 인간의 청각 특성을 이용한다. 그러나 EADRess 알고리즘 또는 DUET 알고리즘은 스테레오 오디오 신호로부터 모든 음원을 완벽하게 분리할 수 없다. 더 나아가서, 스테레오 신호에 혼합된 음원의 수가 많을수록, 혼합된 음원들 간의 방위각 차이가 적을 수록, EADRess 알고리즘 또는 DUET 알고리즘에 의한 음원 분리 성능은 저하될 수 있다.
본 발명은 스테레오 신호에 혼합된 음원을 스테레오 신호로부터 보다 정밀하게 분리하기 위하여, 부분기반 표현(parts-based representation)을 바탕으로 객체를 인식하는 뇌의 인지 특성을 활용하는 음원 분리 방법 및 장치를 제안한다.
본 발명은 비음수 행렬 분해를 이용한 마스킹 필터 행렬을, IID를 이용하여 분리된 음원에 적용함으로써 스테레오 신호로부터 음원을 보다 정밀하게 분리할 수 있다.
본 발명의 일실시예에 따르면, 스테레오 신호에 대한 음원 분리 방법에 있어서, 시간 영역의 상기 스테레오 신호를 주파수 영역으로 변환하는 단계, 상기 주파수 영역으로 변환된 스테레오 신호에서 분리하고자 하는 복수의 음원들에 대한 방위각을 식별하는 단계, 상기 식별된 방위각에 기초하여 상기 주파수 영역으로 변환된 스테레오 신호로부터 상기 복수의 음원들을 분리하는 단계, 상기 분리된 복수의 음원들에 비음수 행렬 분해를 적용하여, 상기 분리된 복수의 음원들 각각에 대응하는 부호화 행렬들을 최적화하는 단계, 상기 최적화된 부호화 행렬들과 상기 분리된 복수의 음원들에 대한 스펙트로그램 성분을 포함하는 스펙트럼 행렬들을 이용하여 상기 분리된 복수의 음원들 각각에 대응하는 마스크 필터 행렬들을 결정하는 단계 및 상기 분리된 복수의 음원들에 마스크 필터 행렬들을 적용하여 상기 분리된 복수의 음원들을 필터링하는 단계를 포함하는 음원 분리 방법이 제공된다.
일실시예에 따르면, 상기 최적화하는 단계는, 상기 분리된 복수의 음원들 각각의 정보에 기초하여, 상기 분리된 복수의 음원들 각각에 대응하여 결정된 기저 벡터를 이용하여 상기 부호화 행렬들을 최적화하는 단계를 포함하는 음원 분리 방법이 제공된다.
일실시예에 따르면, 상기 결정하는 단계는, 상기 결정된 기저 벡터를 이용하여 상기 마스크 필터 행렬을 결정하는 음원 분리 방법이 제공된다.
일실시예에 따르면, 상기 필터링 하는 단계는, 상기 분리된 복수의 음원들의 원소에 대응하는 상기 마스크 필터 행렬들의 원소를 적용하여, 상기 분리된 복수의 음원들을 필터링하는 음원 분리 방법이 제공된다.
일실시예에 따르면, 상기 주파수 영역의 필터링된 복수의 음원들을 시간 영역으로 변환하는 단계 및 상기 시간 영역으로 변환된 분리 음원을 시간에 따라 오버랩-애드(overlap-add) 하는 단계를 더 포함하는 음원 분리 방법이 제공된다.
일실시예에 따르면, 상기 식별하는 단계는, 상기 주파수 영역으로 변환된 스테레오 신호의 좌 채널 신호의 강도(intensity) 및 상기 우 채널 신호의 강도 간의 비율에 기초하여, 상기 스테레오 신호의 주파수 성분의 에너지 분포를 방위각에 따라 나타낸 주파수-방위각 평면을 생성하는 단계, 상기 좌 채널 신호 및 상기 우 채널 신호간의 차이를 최소로 하는 상기 비율을 결정하는 단계 및 상기 결정된 비율에 기초하여, 상기 복수의 음원들에 대한 방위각을 식별하는 단계를 포함하는 음원 분리 방법이 제공된다.
일실시예에 따르면, 상기 분리하는 단계는, 상기 식별된 방위각에 대응하는 상기 비율을 이용하여 가우시안 윈도우를 결정하는 단계 및 상기 결정된 가우시안 윈도우를 상기 좌 채널 신호 또는 상기 우 채널 신호에 적용함으로써, 상기 복수의 분리 음원들을 분리하는 단계를 포함하는 분리 음원 생성 방법이 제공된다.
일실시예에 따르면, 상기 비율을 결정하는 단계는, 상기 비율에 따른 방위각을 90도와 비교하여 상기 비율을 결정하는 분리 음원 생성 방법이 제공된다.
본 발명의 일실시예에 따르면, 스테레오 신호에 대한 음원 분리 방법에 있어서, 주파수 영역의 상기 스테레오 신호의 좌 채널 신호의 강도 및 우 채널 신호의 강도 간의 차이를 이용하여, 상기 스테레오 신호에서 복수의 음원들을 분리하는 단계, 상기 분리된 복수의 음원들을, 기저 벡터를 포함하는 기저 행렬 및 상기 기저 벡터와 관련된 계수를 포함하는 부호화 행렬로 비음수 행렬 분해하는 단계, 상기 기저 행렬 및 상기 부호화 행렬을 이용하여 상기 분리된 복수의 음원들을 필터링하는 단계를 포함하는 분리 음원 생성 방법이 제공된다.
일실시예에 따르면, 상기 분리된 복수의 음원의 정보를 이용하여 상기 기저 행렬을 생성하는 단계를 더 포함하는 분리 음원 생성 방법이 제공된다.
본 발명의 일실시예에 따르면, 스테레오 신호에 대한 음원 분리 장치에 있어서, 상기 스테레오 신호가 저장되는 메모리 및 프로세서를 포함하고, 상기 프로세서는, 시간 영역의 상기 스테레오 신호를 주파수 영역으로 변환하고, 상기 주파수 영역으로 변환된 스테레오 신호에서 분리하고자 하는 복수의 음원들에 대한 방위각을 식별하고, 상기 식별된 방위각에 기초하여 상기 주파수 영역으로 변환된 스테레오 신호로부터 상기 복수의 음원들을 분리하고, 상기 분리된 복수의 음원들에 비음수 행렬 분해를 적용하여, 상기 분리된 복수의 음원들 각각에 대응하는 부호화 행렬들을 최적화하고, 상기 최적화된 부호화 행렬들과 상기 분리된 복수의 음원들에 대한 스펙트로그램 성분을 포함하는 스펙트럼 행렬들을 이용하여 상기 분리된 복수의 음원들 각각에 대응하는 마스크 필터 행렬들을 결정하고, 상기 분리된 복수의 음원들에 마스크 필터 행렬들을 적용하여 상기 분리된 복수의 음원들을 필터링하는 음원 분리 장치가 제공된다.
일실시예에 따르면, 상기 프로세서는, 상기 주파수 영역의 필터링된 복수의 음원들을 시간 영역으로 변환하고, 상기 시간 영역으로 변환된 분리 음원을 시간에 따라 오버랩-애드(overlap-add) 하고, 상기 오버랩-애드된 분리 음원을 상기 메모리에 저장하는 음원 분리 장치가 제공된다.
본 발명은 부분기반 표현(parts-based representation)을 바탕으로 객체를 인식하는 뇌의 인지 특성을 활용함으로써, 스테레오 신호에 혼합된 음원을 스테레오 신호로부터 보다 정밀하게 분리할 수 있다.
본 발명은 비음수 행렬 분해를 이용한 마스킹 필터 행렬을, IID를 이용하여 분리된 음원에 적용함으로써 스테레오 신호로부터 음원을 보다 정밀하게 분리할 수 있다.
도 1은 본 발명의 일실시예에 따른 음원 분리 장치에 입력되는 스테레오 신호에 혼합된 음원들의 방위각을 설명하기 위한 예시적인 도면이다.
도 2는 본 발명의 일실시예에 따른 음원 분리 장치의 구조를 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 음원 분리 장치가 스테레오 신호의 프레임으로부터 음원을 분리하는 동작을 설명하기 위한 흐름도이다.
도 4는 본 발명의 일실시예에 따른 음원 분리 장치가 분리된 복수의 음원들에 비음수 행렬 분해를 적용하는 동작을 설명하기 위한 흐름도이다.
본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.
본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 “직접 연결되어” 있다거나 “직접 접속되어” 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 “~사이에”와 “바로~사이에” 또는 “~에 직접 이웃하는” 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, “포함하다” 또는 “가지다” 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 일실시예에 따른 음원 분리 장치에 입력되는 스테레오 신호에 혼합된 음원들의 방위각을 설명하기 위한 예시적인 도면이다.
도 1을 참고하면, 스테레오 신호의 좌채널 신호를 녹음할 수 있는 좌채널 마이크(101) 및 스테레오 신호의 우채널 신호를 녹음할 수 있는 우채널 마이크(102)가 도시된다. 좌채널 마이크(101) 및 우채널 마이크(102)는 스테레오 마이크(stereo microphone)에 포함될 수 있다.
도 1을 참고하면, 소리를 생성하는 음원1(111), 음원2(112) 및 음원3(113)이 서로 다른 곳에 배치될 수 있다. 좌채널 마이크(101) 및 우채널 마이크(102)는 음원1(111), 음원2(112) 및 음원3(113)이 동시에 생성한 소리를 녹음할 수 있다. 이로써, 음원1(111), 음원2(112) 및 음원3(113)은 하나의 스테레오 신호에 혼합될 수 있다.
본 발명의 일실시예에 따른 음원 분리 장치는 스테레오 신호의 좌채널 신호 및 우채널 신호의 차이에 기초하여 음원을 스테레오 신호로부터 분리할 수 있다. 음원 분리 장치는 스테레오 신호로부터 음원의 공간 정보를 획득할 수 있다. 음원 분리 장치는 획득한 공간 정보에 기초하여, 음원을 스테레오 신호로부터 분리할 수 있다.
도 1을 참고하면, 좌채널 마이크(101) 및 우채널 마이크(102)가 배치된 기준 축(120)을 기준으로, 서로 다른 방위각(azimuth)을 가질 수 있다. 도 1을 참고하면, 음원1(111)의 방위각 a가 가장 작고, 음원 3(113)의 방위각 c가 가장 크다는 것을 알 수 있다. 또한, 방위각이 작을수록, 음원 및 좌채널 마이크(101) 간의 거리 보다 음원 및 우채널 마이크(102) 간의 거리가 더 길다는 것을 알 수 있다.
소리는 음원간의 거리에 비례하여 감쇄된다. 따라서, 음원이 좌채널 마이크(101)및 우채널 마이크(102)와 서로 다른 거리를 가지는 경우, 좌채널 마이크(101)에서 녹음된 좌채널 신호와 우채널 마이크(102)에서 녹음된 우채널 신호간에 크기의 차이가 발생할 수 있다. 도 1을 참고하면, 좌채널 마이크(101)는 우채널 마이크(102) 보다 음원1(111)에 가까이 있으므로, 음원1(111)에 대한 좌채널 신호의 크기는 음원1(111)에 대한 우채널 신호의 크기보다 크다. 또 다른 예로써, 좌채널 마이크(101)는 우채널 마이크(102) 보다 음원3(113)에 멀리 떨어져 있으므로, 음원3(113)에 대한 좌채널 신호의 크기는 음원3(113)에 대한 우채널 신호의 크기보다 작다.
본 발명의 일실시예에 따르면, 음원 분리 장치는 좌채널 신호의 주파수 성분 및 우채널 신호의 주파수 성분 간의 크기 차이에 기초하여, 음원의 방위각을 식별할 수 있다. 음원 분리 장치는 상기 음원의 식별된 방위각에 기초하여, 스테레오 신호로부터 상기 음원에 대한 분리 음원을 합성할 수 있다.
더 나아가서, 음원 분리 장치는 부분기반 표현을 바탕으로 객체를 인식하는 뇌의 인지 특성을 활용할 수 있다. 보다 구체적으로, 음원 분리 장치는 부분 기반 표현을 특징으로 한 비음수 행렬 분해를, 공간 정보에 기초하여 분리된 음원에 적용할 수 있다. 일실시예에 따른 음원 분리 장치가 음원의 공간 정보 및 비음수 행렬 분해(Non-negative Matrix Factorization: NMF)를 결합함으로써, 음원 분리 장치의 음원 분리 성능이 개선될 수 있다.
도 2는 본 발명의 일실시예에 따른 음원 분리 장치(210)의 구조를 도시한 도면이다.
도 2를 참고하면, 스테레오 신호(200)는 좌 채널 신호(201) 및 우 채널 신호(202)를 포함한다. 일실시예에 따른 음원 분리 장치(210)는 스테레오 신호(200)에 혼합된 음원의 공간 정보를 생성할 수 있다.
또한, 음원 분리 장치(210)는 음원의 공간 정보에 기초하여, 스테레오 신호(200)로부터 음원을 분리할 수 있다. 네 개의 음원이 스테레오 신호(200)에 혼합된 것으로 가정하자. 이 경우 도 2를 참고하면, 음원 분리 장치(210)는 각 음원의 공간 정보 및 비음수 행렬 분해를 이용하여, 스테레오 신호(200)로부터 음원 S1(221), 음원 S2(222), 음원 S3(223) 및 음원 S4(224)를 분리할 수 있다.
도 2를 참고하면, 일실시예에 따른 음원 분리 장치(210)는 스테레오 신호가 저장되는 메모리(211) 및 프로세서(212)를 포함할 수 있다.
프로세서(212)가 음원을 분리하는 방법은 음원의 공간 정보를 이용하여 음원을 분리하는 제1 단계 및 비음수 행렬 분해를 이용하여 분리된 음원에 잔류하는 혼합 성분을 제거하는 제2 단계로 구분할 수 있다. 혼합 성분은 분리된 음원에 혼합된 다른 음원을 포함할 수 있다.
제1 단계에서, 프로세서(212)는 스테레오 신호(200)에 대한 주파수-방위각(frequency-azimuth) 평면을 생성할 수 있다. 프로세서(212)는 생성된 주파수-방위각 평면으로부터 음원의 방위각을 식별할 수 있다. 프로세서(212)는 식별된 방위각에 대응하는 신호 강도비에 따라 결정되는 확률밀도함수를 이용하여 음원을 분리할 수 있다.
분리된 음원은 다른 음원의 일부를 포함할 수 있다. 이하에서는 분리된 음원에 혼합된 나머지 음원을 혼합 성분이라 한다. 도 2를 참고하면, 프로세서(212)가 제1 단계를 이용하여 음원 S1(221)을 분리할 때, 음원 S2(222) 내지 음원 S4(224)가 음원 S1(221)에 혼합될 수 있다. 이 경우, 음원 S2(222) 내지 음원 S4(224)는 음원 S1(221)에 혼합 성분으로써 포함될 수 있다. 마찬가지로, 프로세서(212)가 제1 단계를 이용하여 분리한 음원 S2(222)는 음원 S1(221) 및 음원 S3(223) 내지 음원 S4(224)를 혼합 성분으로써 포함할 수 있다.
제2 단계에서, 프로세서(212)는 분리된 음원들 각각에 대하여, 비음수 행렬 분해를 적용할 수 있다. 프로세서(212)는 비음수 행렬 분해를 통하여, 음원들 각각에 대한 마스크 필터 행렬을 결정할 수 있다. 특히, 마스크 필터 행렬은 Wiener 필터에 기초하여 결정될 수 있다. 프로세서(212)는 결정된 마스크 필터 행렬을 이용하여 분리된 음원들을 필터링하여, 분리된 음원들 각각의 혼합 성분을 제거할 수 있다. 따라서, 프로세서(212)는 스테레오 신호(200)로부터 음원 S1(221), 음원 S2(222), 음원 S3(223) 및 음원 S4(224)를 보다 정밀하게 분리할 수 있다.
일실시예에 따르면, 음원 분리 장치(210)는 상술한 제1 단계 및 제2 단계를 프레임(230) 단위로 수행할 수 있다. 이하에서는 음원 분리 장치(210)가 프레임(230) 단위로 음원을 분리하는 동작을 구체적으로 설명한다.
도 3은 본 발명의 일실시예에 따른 음원 분리 장치가 스테레오 신호의 프레임으로부터 음원을 분리하는 동작을 설명하기 위한 흐름도이다. 일실시예에 따른 음원 분리 방법을 실행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체가 제공될 수 있다. 상기 프로그램은 음원 분리 방법을 저장한 응용 프로그램, 디바이스 드라이버, 펌웨어, 미들웨어, 동적 링크 라이브러리(DLL) 및 애플릿 중 적어도 하나를 포함할 수 있다. 본 발명의 일실시예에 따르면, 음원 분리 장치에 포함된 프로세서는 음원 분리 방법이 기록된 기록 매체를 판독함으로써, 음원 분리 방법을 수행할 수 있다.
도 3을 참고하면, 단계(310)에서, 일실시예에 따른 음원 분리 장치는 스테레오 신호의 좌 채널 신호의 강도 및 우 채널 신호의 강도 간의 차이를 이용하여, 스테레오 신호로부터 복수의 음원들을 분리할 수 있다. 복수의 음원들이 스테레오 신호에 혼합될 수 있고, 복수의 음원들의 방위각은 서로 다를 수 있다.
도 3을 참고하면, 단계(311)에서, 일실시예에 따른 음원 분리 장치는 시간 영역의 스테레오 신호를 주파수 영역으로 변환할 수 있다. 음원 분리 장치는 스테레오 신호를 구분하는 프레임 별로 STFT(Short-Time Fourier Transform)를 적용할 수 있다. 음원 분리 장치는 프레임 별로 구분된 주파수 영역의 스테레오 신호를 얻을 수 있다.
도 3을 참고하면, 단계(312)에서, 일실시예에 따른 음원 분리 장치는 주파수 영역으로 변환된 스테레오 신호에서 분리하고자 하는 복수의 음원들에 대한 방위각을 식별할 수 있다.
보다 구체적으로, 음원 분리 장치는 주파수 영역으로 변환된 스테레오 신호의 좌 채널 신호의 강도(intensity) 및 우 채널 신호의 강도 간의 비율에 기초하여, 스테레오 신호의 주파수 성분의 에너지 분포를 방위각에 따라 나타낸 주파수-방위각 평면을 생성할 수 있다. 음원 분리 장치는 수학식 1에 기초하여 주파수-방위각 평면을 생성할 수 있다.
Figure pat00001
수학식 1을 참고하면, 주파수 해상도 N에 대하여, k는 0≤k≤N를 만족한다. m번째 프레임에 대하여, Xl(k,m) 및 Xr(k,m) 각각은 좌 채널 신호 및 우 채널 신호의 k번째 주파수 성분을 의미한다. β는 방위각 해상도를 의미한다. 음원 분리 장치는 수학식 1에 기초하여 (N+1) × (β+1) 배열의 주파수-방위각 평면을 생성할 수 있다.
수학식 1의 g(i)는 좌 채널 신호의 강도 및 우 채널 신호의 강도 간의 비율(이하, 신호 강도비)이다. 음원 분리 장치는 수학식 2에 기초하여 g(i)를 결정할 수 있다. 음원 분리 장치는 Sinusoidal energy-preserving panning law에 기초하여 g(i)를 결정할 수 있다.
Figure pat00002
수학식 2를 참고하면, i는 0≤i≤β에서 결정되고, i와 β는 정수이다. β 값이 커질수록 방위각 해상도는 증가할 수 있다. β 값이 커질수록 계산량이 증가할 수 있다. 음원 분리 장치는 β 값에 따른 계산량을 고려하여 β 값을 결정할 수 있다. 신호 강도비는 0과 1사이의 값을 가질수 있다. i 및 β에 대하여, 방위각은 180(i/β)으로 표현될 수 있다.
일실시예에 따른 음원 분리 장치는 좌 채널 신호 및 상기 우 채널 신호간의 차이를 최소로 하는 신호 강도비를 결정할 수 있다. 좌 채널 신호 및 상기 우 채널 신호간의 차이가 최소인 신호 강도비에서, 수학식 1의
Figure pat00003
는 최소가 될 수 있다. 음원 분리 장치는 수학식 3에 기초하여, 결정된 신호 강도비에서 스테레오 신호의 음원 에너지를 결정할 수 있다.
Figure pat00004
k번째 주파수 성분에 대한 방위각 축에서, 수학식 3의 max 및 min은
Figure pat00005
의 최대값 및 최소값을 의미한다. 음원 분리 장치는 모든 주파수 성분에 대하여 수학식 3을 적용함으로써, 주파수 성분 별 음원 에너지를 방위각에 따라 누적할 수 있다. 음원 분리 장치는 누적된
Figure pat00006
값으로부터, 누적된
Figure pat00007
값이 peak인 방위각을 식별할 수 있다. 즉, 음원 에너지는 식별된 방위각에서 극대가 될 수 있다. 음원 분리 장치는 식별된 방위각을 음원의 방위각으로 결정할 수 있다. 이하에서는 j번째 음원의 방위각을
Figure pat00008
라 한다.
도 3을 참고하면, 단계(313)에서, 일실시예에 따른 음원 분리 장치는 식별된 방위각에 기초하여 주파수 영역으로 변환된 스테레오 신호로부터 복수의 음원들을 분리할 수 있다.
수학식 2의 신호 강도비 g(i)는 방위각 90도를 중심으로 좌우 대칭일 수 있다. 음원 분리 장치는 신호 강도비 g(i)의 좌우 대칭성에 따른 왜곡을 방지하기 위하여, 식별된 방위각을 90도와 비교할 수 있다. 음원 분리 장치는 식별된 방위각을 90도와 비교하여 음원들을 분리하기 위해 사용할 신호 강도비
Figure pat00009
를 수학식 4와 같이 결정할 수 있다.
Figure pat00010
수학식 4의 신호 강도비
Figure pat00011
를 사용함으로써, 음원 분리 장치는 수학식 2의 신호 강도비 g(i)의 패닝 모호성을 해결할 수 있다.
음원 분리 장치는 식별된 방위각에 대응하는 신호 강도비
Figure pat00012
를 이용하여, 스테레오 신호에 적용할 확률 밀도 함수를 결정할 수 있다. 음원 분리 장치가 결정하는 확률 밀도 함수는 수학식 5의 가우시안 윈도우일 수 있다.
Figure pat00013
수학식 5를 참고하면, 음원 분리 장치는
Figure pat00014
를 이용하여 가우시안 윈도우의 폭을 결정할 수 있다. 수학식 5의
Figure pat00015
Figure pat00016
번째 주파수 성분에서
Figure pat00017
을 갖는 인덱스
Figure pat00018
값으로, 수학식 6에 따라 결정될 수 있다.
Figure pat00019
음원 분리 장치는 확률 밀도 함수를 스테레오 신호의 좌 채널 신호 또는 우 채널 신호에 적용할 수 있다. 보다 구체적으로, 음원 분리 장치는 수학식 5의 가우시안 윈도우를, 수학식 7에 따라 스테레오 신호의 좌 채널 신호 또는 우 채널 신호에 적용할 수 있다. 음원 분리 장치는 가우시안 윈도우를 스테레오 신호의 좌 채널 신호 또는 우 채널 신호에 적용함으로써, 주파수 영역에서 음원을 스테레오 신호로부터 분리할 수 있다.
Figure pat00020
본 발명의 일실시예에 따르면, 음원 분리 장치는 DUET 알고리즘 또는 EADRess 알고리즘 중 적어도 하나에 기초하여 스테레오 신호로부터 복수의 음원들을 분리할 수 있다. 음원 분리 장치가 DUET 알고리즘을 이용하는 경우, 대칭 감쇠(symmetric attenuation) 및 딜레이에 대한 2차원 히스토그램을 결정할 수 있다. 음원 분리 장치는 결정된 2차원 히스토그램의 피크(peak)에 대응하는 대칭 감쇠 및 딜레이 값을 이용하여, 스테레오 신호를 시간-주파수 영역에서 마스킹할 수 있다. 음원 분리 장치는 스테레오 신호를 시간-주파수 영역에서 마스킹함으로써, 주파수 영역에서의 j번째 음원 Yj를 결정할 수 있다.
본 발명의 일실시예에 따르면, 음원 분리 장치는 부분 기반 표현을 바탕으로 객체를 인식하는 뇌의 인지 특성을 활용하기 위하여, 비음수 행렬 분해를 분리된 음원에 적용할 수 있다. 도 3을 참고하면, 단계(320)에서, 음원 분리 장치는 비음수 행렬 분해를 분리된 음원에 적용함으로써, 분리된 음원들의 혼합 성분을 제거할 수 있다.
도 3을 참고하면, 단계(321)에서, 일실시예에 따른 음원 분리 장치는 분리된 복수의 음원들에 비음수 행렬 분해를 적용하여, 분리된 복수의 음원들 각각에 대응하는 부호화 행렬들을 최적화할 수 있다. 도 4는 본 발명의 일실시예에 따른 음원 분리 장치가 분리된 복수의 음원들에 비음수 행렬 분해를 적용하는 동작을 설명하기 위한 흐름도이다. 분석하고자 하는 데이터 행렬을 V라 할 때, 비음수 행렬 분해는 행렬 V를 원소가 비음수인 두 개의 행렬로 분해하는 것을 의미한다. 음원 분리 장치는 수학식 8을 이용하여 비음수 행렬 분해를 수행할 수 있다.
Figure pat00021
수학식 8을 참고하면, 행렬 V는 분리된 음원에 대응하는 행렬로써, (n × m) 크기를 가지는 것으로 가정한다. 즉, 음원 분리 장치는 수학식 7에 기초하여 분리한 주파수 영역의 j번째 음원 Yj를 수학식 8의 행렬 V로 사용할 수 있다. 행렬 W는 r개의 기저 벡터로 구성된 기저 행렬이다. 기저 벡터(또는 특징 벡터)는 분리하고자 하는 음원들 각각의 주파수 성분에 기초하여 결정될 수 있다. 스테레오 신호에 총 r 개의 음원이 혼합된 경우, r 개의 기저 벡터가 결정될 수 있다. r 개의 기저 벡터들을 각각 W1, W2 내지 Wr라 할 때에, 기저 행렬 W=[W1, W2 ... Wr]로 결정될 수 있다. 행렬 H는 기저 벡터의 선형 조합 계수를 포함하는 부호화 행렬이다. 부호화 행렬은 특징 벡터에 대한 시간 영역에서의 가중치를 포함할 수 있다. 행렬 W의 크기가 (n × r)인 경우, 행렬 H의 크기는 (r × m)일 수 있다. 행렬 V, W 및 H의 비음수일 수 있다.
도 4를 참고하면, 단계(410)에서, 일실시예에 따른 음원 분리 장치는 부호화 행렬 H를 초기화할 수 있다. 기저 행렬 W는 r 개의 음원에 대하여, 사전 학습 과정을 통해 결정된 r 개의 기저 벡터를 원소로 포함할 수 있다. 음원 분리 장치는 임의의 양수 값을 원소로 가지는 부호화 행렬 H를 생성할 수 있다. 음원 분리 장치의 기저 벡터의 개수(즉, 인수분해 차수) r은, 기저 행렬 W의 크기 (n × r) 및 부호화 행렬 H의 크기 (r × m)에 대하여,
Figure pat00022
의 부등식을 만족할 수 있다.
도 4를 참고하면, 단계(420)에서, 일실시예에 따른 음원 분리 장치는 부호화 행렬 H의 원소를 업데이트할 수 있다. 즉, 음원 분리 장치는 기저 행렬 W를 부호화 행렬 H에 적용하였을 때에, 그 결과가 행렬 V(즉, 분리된 음원)에 수렴하도록 부호화 행렬 H의 원소를 변경할 수 있다. 1≤i≤n, 1≤μ≤m에 대하여, 음원 분리 장치는 행렬 V의 i행 μ열의 원소
Figure pat00023
에 대응하는
Figure pat00024
의 원소
Figure pat00025
를 포와송 분포(Poisson distribution)를 이용하여 계산할 수 있다. 포와송 분포에 따르면,
Figure pat00026
에 의해 행렬
Figure pat00027
가 발생할 포와송 가능도(Poisson likelihood)는
Figure pat00028
Figure pat00029
에 대해
Figure pat00030
값들을 더하여 결정될 수 있다.
부호화 행렬 H를 최적화하는 것은 기저 행렬 W를 부호화 행렬 H에 적용하였을 때, 그 결과가 행렬 V에 수렴하도록 부호화 행렬 H의 원소를 업데이트하는 것을 의미한다. 음원 분리 장치는 부호화 행렬 H를 최적화하는 규칙을 찾을 수 있다. 음원 분리 장치는 수학식 9의 목적함수 D를 이용하여 부호화 행렬 H를 최적화하는 규칙을 찾을 수 있다.
Figure pat00031
수학식 9를 참고하면, 음원 분리 장치는 상수항을 제거하여 목적함수 D를 결정할 수 있다. 음원 분리 장치는 간략화된 Kullback-Leibler divergence의 부호를 반대로 전환하여 목적함수 D를 결정할 수 있다. 수학식 9의
Figure pat00032
는 수학식 10에 기초하여 결정될 수 있다.
Figure pat00033
음원 분리 장치는 목적함수 D를 극대(local maximum)로 수렴시키는 업데이트 규칙을 찾을 수 있다. 음원 분리 장치는 목적함수 D를 극대(local maximum)로 수렴시키는 업데이트 규칙을 찾기 위하여, 수학식 11과 같이 목적함수 D를 부호화 행렬 H에 대해 편미분할 수 있다.
Figure pat00034
부호화 행렬 H를 최적화하기 위하여, 음원 분리 장치는 수학식 12의 gradient ascent 방식을 수학식 11의
Figure pat00035
에 적용할 수 있다.
Figure pat00036
수학식 12를 참고하면,
Figure pat00037
는 수렴속도를 조절하는 step size 값으로, 수학식 13에 따라 결정될 수 있다.
Figure pat00038
음원 분리 장치는 수학식 12 내지 수학식 13로부터,
Figure pat00039
에 대한 multiplicative update rule을 수학식 14와 같이 결정할 수 있다.
Figure pat00040
도 4를 참고하면, 단계(430)에서, 일실시예에 따른 음원 분리 장치는 기저 행렬 W를 부호화 행렬 H에 적용한 결과가 행렬 V(즉, 분리된 음원)에 수렴하는 지 결정할 수 있다. 앞서 설명한 바와 같이, 장치는 기저 행렬 W를 부호화 행렬 H에 적용한 결과가 행렬 V에 수렴하는 속도는 수학식 13에 따라 결정될 수 있다. 음원 분리 장치는 행렬 V에 수렴하는 기저 행렬 W 및 부호화 행렬 H를, 행렬 V를 비음수 분해한 결과로 결정할 수 있다.
요약하면, 음원 분리 장치는 j번째 음원에 대한 기저 행렬 Wj를 j번째 음원의 정보를 이용한 사전 학습 과정을 통해 결정할 수 있다. 음원 분리 장치는 기저 행렬 Wj를 사전 학습 과정을 통해 결정함으로써, 기저 벡터의 순열 모호성(permutation ambiguity)으로 인한 그룹화 어려움을 해결할 수 있다. 이 경우, 음원 분리 장치는 결정된 Wj를 이용하여 부호화 행렬 Hj를 최적화할 수 있다. 즉, 스테레오 신호에 혼합된 음원들 각각에 대한 부호화 행렬들이 최적화될 수 있다.
다시 도 3을 참고하면, 단계(321)에서, 음원 분리 장치는 도 4에서 설명한 동작을 기반으로 사전 학습 과정을 통해 결정된 기저 행렬 W를 이용하여 분리된 음원 각각에 대한 부호화 행렬 H를 최적화할 수 있다. 즉, j번째 음원에 대한 기저 행렬을 Wj라 하고, j번째 음원에 대한 부호화 행렬을 Hj라 하면, 최적화된 기저 행렬 Wj 및 부호화 행렬 Hj의 행렬 곱은 j번째 음원에 대한 행렬에 수렴할 수 있다.
도 3을 참고하면, 단계(322)에서, 음원 분리 장치는 분리된 복수의 음원들에 마스크 필터 행렬들을 적용하여 분리된 복수의 음원들을 필터링할 수 있다. 복수의 음원들 각각에 대응하는 마스크 필터 행렬들은 복수의 음원들 각각의 부호화 행렬들과 복수의 음원들에 대한 스펙트로그램 성분을 포함하는 스펙트럼 행렬들을 이용하여 결정될 수 있다. 음원 분리 장치는 노이즈를 제거하기 위하여 사용되는 위너 필터(Wiener filter)에 기초하여, 마스크 필터 행렬들을 수학식 15에 따라 결정할 수 있다.
Figure pat00041
수학식 15을 참고하면,
Figure pat00042
는 j번째 음원에 대한 스펙트럼 행렬로써, j번째 음원에 대한 스펙트로그램 성분을 원소로 포함할 수 있다. 즉, 스펙트럼 행렬은 음원에 대한 주파수 성분을 포함할 수 있다.
Figure pat00043
는 j번 째 음원에 대하여 도 4의 최적화 과정을 통해 결정된 부호화 행렬일 수 있다. 수학식 15의 나누기는 원소 별로 적용되는 연산일 수 있다(element-wise).
음원 분리 장치는 수학식 15에 따라 결정된 j번째 음원에 대한 마스크 필터 행렬 Mj를 j번째 음원에 대한 행렬에 적용할 수 있다. j번째 음원에 대한 행렬을 Yj라 할 때, 음원 분리 장치는 수학식 16에 따라 마스크 필터 행렬 Mj를 j번째 음원에 대한 행렬 Yj에 적용할 수 있다.
Figure pat00044
수학식 16을 참고하면, Sj는 j번째 음원에 대한 행렬로써, 필터링된 결과 행렬을 의미한다. Sj는 필터링된 음원의 주파수 성분을 원소로 포함할 수 있다. 연산자
Figure pat00045
는 Hadamard product 연산으로써, 원소 별로 적용되는 곱셈 연산일 수 있다(element-wise product).
도 3을 참고하면, 단계(323)에서, 일실시예에 따른 음원 분리 장치는 필터링된 음원을 주파수-시간 영역으로 변환할 수 있다. 보다 구체적으로, 음원 분리 장치는 상술한 Sj에 ISTFT(Inverse Short-Time Fourier Transform)를 적용함으로써, 프레임 별로 시간 영역에서의 음원
Figure pat00046
를 결정할 수 있다. 음원 분리 장치는 프레임 별 시간 영역의 음원
Figure pat00047
를 오버랩 애드(overlap-add) 방법을 이용하여 결합할 수 있다. 음원
Figure pat00048
를 오버랩 애드(overlap-add) 방법을 이용하여 결합함으로써, 음원 분리 장치는 스테레오 신호로부터 혼합 성분이 제거된 음원을 출력할 수 있다.
결론적으로, 일실시예에 따른 음원 분리 장치는 각 음원의 방위각을 이용하여 주파수 영역의 스테레오 신호로부터 주파수 영역의 음원을 분리할 수 있다. 분리된 주파수 영역의 음원에 대하여, 음원 분리 장치는 비음수 행렬 분해에 기초한 필터링을 수행할 수 있다. 음원 분리 장치는 음원의 방위각을 이용하여 분리된 음원에 필터링을 수행함으로써, 분리된 음원들 각각에 포함된 혼합 성분을 제거할 수 있다. 앞서 설명한 바와 같이, 혼합 성분은 분리하고자 하는 특정 음원을 제외한 나머지 음원이 방위각을 이용하여 특정 음원을 분리하는 과정에서 특정 음원에 혼합되어 생성될 수 있다. 음원 분리 장치가 혼합 성분을 제거함으로써, 음원 분리 장치는 방위각 만을 이용하여 스테레오 신호로부터 음원을 분리할 때보다 정밀하게 음원을 분리할 수 있다.
특히, 방위각 만을 이용하여 스테레오 신호로부터 음원을 분리하는 경우, 음원들 간의 방위각의 차이가 적을수록, 혼합 성분의 크기가 증가할 수 있다. 음원 분리 장치는 분리된 음원에 비음수 행렬 분해에 기초한 필터링을 적용함으로써, 음원들 간의 방위각의 차이가 적음에도 불구하고 스테레오 신호로부터 음원을 정밀하게 분리할 수 있다.
실시예들에서 설명된 구성요소들은 하나 이상의 DSP (Digital Signal Processor), 프로세서 (Processor), 컨트롤러 (Controller), ASIC (Application Specific Integrated Circuit), FPGA (Field Programmable Gate Array)와 같은 프로그래머블 논리 소자 (Programmable Logic Element), 다른 전자 기기들 및 이것들의 조합 중 하나 이상을 포함하는 하드웨어 구성 요소들(hardware componests)에 의해 구현될 수 있다. 실시예들에서 설명된 기능들(functions) 또는 프로세스들(processes) 중 적어도 일부는 소프트웨어(software)에 의해 구현될 수 있고, 해당 소프트웨어는 기록 매체(recording medium)에 기록될 수 있다. 실시예들에서 설명된 구성요소들, 기능들 및 프로세스들은 하드웨어와 소프트웨어의 조합에 의해 구현될 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
200: 스테레오 신호
201: 좌 채널 신호
202: 우 채널 신호
203: 프레임
210: 음원 분리 장치
211: 메모리
212: 프로세서
221: 음원 S1
222: 음원 S2
223: 음원 S3
224: 음원 S4

Claims (12)

  1. 스테레오 신호에 대한 음원 분리 방법에 있어서,
    시간 영역의 상기 스테레오 신호를 주파수 영역으로 변환하는 단계;
    상기 주파수 영역으로 변환된 스테레오 신호에서 분리하고자 하는 복수의 음원들에 대한 방위각을 식별하는 단계;
    상기 식별된 방위각에 기초하여 상기 주파수 영역으로 변환된 스테레오 신호로부터 상기 복수의 음원들을 분리하는 단계;
    상기 분리된 복수의 음원들에 비음수 행렬 분해를 적용하여, 상기 분리된 복수의 음원들 각각에 대응하는 부호화 행렬들을 최적화하는 단계;
    상기 최적화된 부호화 행렬들과 상기 분리된 복수의 음원들에 대한 스펙트로그램 성분을 포함하는 스펙트럼 행렬들을 이용하여 상기 분리된 복수의 음원들 각각에 대응하는 마스크 필터 행렬들을 결정하는 단계; 및
    상기 분리된 복수의 음원들에 마스크 필터 행렬들을 적용하여 상기 분리된 복수의 음원들을 필터링하는 단계
    를 포함하는 음원 분리 방법.
  2. 제1항에 있어서,
    상기 최적화하는 단계는,
    상기 분리된 복수의 음원들 각각의 정보에 기초하여, 상기 분리된 복수의 음원들 각각에 대응하여 결정된 기저 벡터를 이용하여 상기 부호화 행렬들을 최적화하는 음원 분리 방법.
  3. 제2항에 있어서,
    상기 결정하는 단계는,
    상기 결정된 기저 벡터를 이용하여 상기 마스크 필터 행렬을 결정하는 음원 분리 방법.
  4. 제1항에 있어서,
    상기 필터링 하는 단계는,
    상기 분리된 복수의 음원들의 원소에 대응하는 상기 마스크 필터 행렬들의 원소를 적용하여, 상기 분리된 복수의 음원들을 필터링하는 음원 분리 방법.
  5. 제1항에 있어서,
    상기 주파수 영역의 필터링된 복수의 음원들을 시간 영역으로 변환하는 단계; 및
    상기 시간 영역으로 변환된 분리 음원을 시간에 따라 오버랩-애드(overlap-add) 하는 단계
    를 더 포함하는 음원 분리 방법.
  6. 제1항에 있어서,
    상기 식별하는 단계는,
    상기 주파수 영역으로 변환된 스테레오 신호의 좌 채널 신호의 강도(intensity) 및 우 채널 신호의 강도 간의 비율에 기초하여, 상기 스테레오 신호의 주파수 성분의 에너지 분포를 방위각에 따라 나타낸 주파수-방위각 평면을 생성하는 단계;
    상기 좌 채널 신호 및 상기 우 채널 신호간의 차이를 최소로 하는 상기 비율을 결정하는 단계; 및
    상기 결정된 비율에 기초하여, 상기 복수의 음원들에 대한 방위각을 식별하는 단계
    를 포함하는 음원 분리 방법.
  7. 제6항에 있어서,
    상기 분리하는 단계는,
    상기 식별된 방위각에 대응하는 상기 비율을 이용하여 가우시안 윈도우를 결정하는 단계; 및
    상기 결정된 가우시안 윈도우를 상기 좌 채널 신호 또는 상기 우 채널 신호에 적용함으로써, 상기 복수의 분리 음원들을 분리하는 단계
    를 포함하는 분리 음원 생성 방법.
  8. 제6항에 있어서,
    상기 비율을 결정하는 단계는,
    상기 비율에 따른 방위각을 90도와 비교하여 상기 비율을 결정하는 분리 음원 생성 방법.
  9. 스테레오 신호에 대한 음원 분리 방법에 있어서,
    주파수 영역의 상기 스테레오 신호의 좌 채널 신호의 강도 및 우 채널 신호의 강도 간의 차이를 이용하여, 상기 스테레오 신호에서 복수의 음원들을 분리하는 단계;
    상기 분리된 복수의 음원들을, 기저 벡터를 포함하는 기저 행렬 및 상기 기저 벡터와 관련된 계수를 포함하는 부호화 행렬로 비음수 행렬 분해하는 단계; 및
    상기 기저 행렬 및 상기 부호화 행렬을 이용하여 상기 분리된 복수의 음원들을 필터링하는 단계
    를 포함하는 분리 음원 생성 방법.
  10. 제9항에 있어서,
    상기 분리된 복수의 음원의 정보를 이용하여 상기 기저 행렬을 생성하는 단계
    를 더 포함하는 분리 음원 생성 방법.
  11. 스테레오 신호에 대한 음원 분리 장치에 있어서,
    상기 스테레오 신호가 저장되는 메모리; 및
    프로세서
    를 포함하고,
    상기 프로세서는,
    시간 영역의 상기 스테레오 신호를 주파수 영역으로 변환하고,
    상기 주파수 영역으로 변환된 스테레오 신호에서 분리하고자 하는 복수의 음원들에 대한 방위각을 식별하고,
    상기 식별된 방위각에 기초하여 상기 주파수 영역으로 변환된 스테레오 신호로부터 상기 복수의 음원들을 분리하고,
    상기 분리된 복수의 음원들에 비음수 행렬 분해를 적용하여, 상기 분리된 복수의 음원들 각각에 대응하는 부호화 행렬들을 최적화하고,
    상기 최적화된 부호화 행렬들과 상기 분리된 복수의 음원들에 대한 스펙트로그램 성분을 포함하는 스펙트럼 행렬들을 이용하여 상기 분리된 복수의 음원들 각각에 대응하는 마스크 필터 행렬들을 결정하고,
    상기 분리된 복수의 음원들에 마스크 필터 행렬들을 적용하여 상기 분리된 복수의 음원들을 필터링하는 음원 분리 장치.
  12. 제11항에 있어서,
    상기 프로세서는,
    상기 주파수 영역의 필터링된 복수의 음원들을 시간 영역으로 변환하고,
    상기 시간 영역으로 변환된 분리 음원을 시간에 따라 오버랩-애드(overlap-add) 하고,
    상기 오버랩-애드된 분리 음원을 상기 메모리에 저장하는 음원 분리 장치.
KR1020170000783A 2017-01-03 2017-01-03 음원의 공간적 위치 및 비음수 행렬 분해를 이용한 음원 분리 방법 및 장치 KR102590887B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170000783A KR102590887B1 (ko) 2017-01-03 2017-01-03 음원의 공간적 위치 및 비음수 행렬 분해를 이용한 음원 분리 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170000783A KR102590887B1 (ko) 2017-01-03 2017-01-03 음원의 공간적 위치 및 비음수 행렬 분해를 이용한 음원 분리 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20180079975A true KR20180079975A (ko) 2018-07-11
KR102590887B1 KR102590887B1 (ko) 2023-10-19

Family

ID=62917967

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170000783A KR102590887B1 (ko) 2017-01-03 2017-01-03 음원의 공간적 위치 및 비음수 행렬 분해를 이용한 음원 분리 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102590887B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10750281B2 (en) 2018-12-03 2020-08-18 Samsung Electronics Co., Ltd. Sound source separation apparatus and sound source separation method
KR102153491B1 (ko) * 2020-03-31 2020-09-08 한국건설기술연구원 음원 도래각 추정 장치 및 방법
CN113782047A (zh) * 2021-09-06 2021-12-10 云知声智能科技股份有限公司 语音分离方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110089782A (ko) * 2010-02-01 2011-08-09 서강대학교산학협력단 Duet 를 기반으로 한 관심 음원 향상 방법
KR20120130908A (ko) * 2011-05-24 2012-12-04 한국전자통신연구원 음성 신호 분리 장치
KR20130014895A (ko) * 2011-08-01 2013-02-12 한국전자통신연구원 음원 분리 기준 결정 장치와 방법 및 음원 분리 장치와 방법
KR101620866B1 (ko) * 2014-12-17 2016-05-13 서울대학교산학협력단 학습 기법을 적용한 사전 학습 알고리즘 기반의 음원 분리 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110089782A (ko) * 2010-02-01 2011-08-09 서강대학교산학협력단 Duet 를 기반으로 한 관심 음원 향상 방법
KR20120130908A (ko) * 2011-05-24 2012-12-04 한국전자통신연구원 음성 신호 분리 장치
KR20130014895A (ko) * 2011-08-01 2013-02-12 한국전자통신연구원 음원 분리 기준 결정 장치와 방법 및 음원 분리 장치와 방법
KR101620866B1 (ko) * 2014-12-17 2016-05-13 서울대학교산학협력단 학습 기법을 적용한 사전 학습 알고리즘 기반의 음원 분리 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10750281B2 (en) 2018-12-03 2020-08-18 Samsung Electronics Co., Ltd. Sound source separation apparatus and sound source separation method
KR102153491B1 (ko) * 2020-03-31 2020-09-08 한국건설기술연구원 음원 도래각 추정 장치 및 방법
CN113782047A (zh) * 2021-09-06 2021-12-10 云知声智能科技股份有限公司 语音分离方法、装置、设备和存储介质
CN113782047B (zh) * 2021-09-06 2024-03-08 云知声智能科技股份有限公司 语音分离方法、装置、设备和存储介质

Also Published As

Publication number Publication date
KR102590887B1 (ko) 2023-10-19

Similar Documents

Publication Publication Date Title
EP3259755B1 (en) Separating audio sources
KR102635469B1 (ko) 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법 및 장치
Ozerov et al. Multichannel nonnegative tensor factorization with structured constraints for user-guided audio source separation
EP2731359B1 (en) Audio processing device, method and program
WO2016152511A1 (ja) 音源分離装置および方法、並びにプログラム
Erdogan et al. Deep recurrent networks for separation and recognition of single-channel speech in nonstationary background audio
Abouzid et al. Signal speech reconstruction and noise removal using convolutional denoising audioencoders with neural deep learning
CA2763312A1 (en) Audio signal processing device, audio signal processing method, and program
US9966081B2 (en) Method and apparatus for synthesizing separated sound source
KR102590887B1 (ko) 음원의 공간적 위치 및 비음수 행렬 분해를 이용한 음원 분리 방법 및 장치
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
GB2510650A (en) Sound source separation based on a Binary Activation model
WO2021161543A1 (ja) 信号処理装置、信号処理方法、および、信号処理プログラム
Sheeja et al. Speech dereverberation and source separation using DNN-WPE and LWPR-PCA
Parathai et al. Single-channel signal separation using spectral basis correlation with sparse nonnegative tensor factorization
Sivasankaran et al. Explaining deep learning models for speech enhancement
Taherian et al. Multi-resolution location-based training for multi-channel continuous speech separation
Casebeer et al. Deep tensor factorization for spatially-aware scene decomposition
KR20150025852A (ko) 멀티채널 오디오 분리 장치 및 방법
Shukla et al. A subspace projection approach for analysis of speech under stressed condition
Duong et al. Multichannel audio source separation exploiting NMF-based generic source spectral model in Gaussian modeling framework
US11297418B2 (en) Acoustic signal separation apparatus, learning apparatus, method, and program thereof
Čmejla et al. Independent vector analysis exploiting pre-learned banks of relative transfer functions for assumed target’s positions
Pham et al. End-to-end Visual-guided Audio Source Separation with Enhanced Losses
Muñoz-Montoro et al. Efficient parallel kernel based on Cholesky decomposition to accelerate multichannel nonnegative matrix factorization

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right