KR20100073167A - 음원 분리 방법 및 그 장치 - Google Patents

음원 분리 방법 및 그 장치 Download PDF

Info

Publication number
KR20100073167A
KR20100073167A KR1020080131761A KR20080131761A KR20100073167A KR 20100073167 A KR20100073167 A KR 20100073167A KR 1020080131761 A KR1020080131761 A KR 1020080131761A KR 20080131761 A KR20080131761 A KR 20080131761A KR 20100073167 A KR20100073167 A KR 20100073167A
Authority
KR
South Korea
Prior art keywords
cluster
signal
sound source
frequency
frequency domain
Prior art date
Application number
KR1020080131761A
Other languages
English (en)
Other versions
KR101280253B1 (ko
Inventor
박기영
정호영
이윤근
박전규
강점자
정훈
이성주
강병옥
왕지현
정의석
전형배
김종진
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020080131761A priority Critical patent/KR101280253B1/ko
Priority to US12/488,215 priority patent/US8364483B2/en
Publication of KR20100073167A publication Critical patent/KR20100073167A/ko
Application granted granted Critical
Publication of KR101280253B1 publication Critical patent/KR101280253B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems

Abstract

본 발명은 음원 분리 방법 및 그 장치에 관한 것으로, 한 개의 클러스터를 처리하기 위하여 해당 클러스터가 포함하는 주파수 성분의 신호 특성에 적합한 확률 분포 함수를 분리 알고리즘에 적용함으로써 클러스터별로 높은 분리 성능을 얻을 수 있다. 또한, 본 발명은 통합된 주파수 영역의 신호를 역 푸리에 변환을 통하여 다시 시간영역의 신호로 복원할 수 있고, 독립적으로 처리된 클러스터를 통합하기 위하여 분리 과정에서 본질적으로 생기는 채널 뒤섞임 문제와 스케일링 문제를 해결할 수 있다.
주파수, 분리, 암묵 신호 분리, 채널, 푸리에

Description

음원 분리 방법 및 그 장치{METHOD FOR SEPARATING SOURCE SIGNALS AND ITS APPARATUS}
본 발명은 음원 분리 방법 및 그 장치에 관한 것으로, 보다 상세하게 설명하면 두 개 이상의 음원이 존재하는 환경에서 두 개 이상의 마이크로폰을 이용하여 녹음된 혼합 신호로부터 각각의 음원 신호를 분리할 수 있는 방법 및 그 장치에 관한 것이다.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-03, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성 인터페이스 기술 개발].
주지된 바와 같이, 암묵 신호 분리(Blind Source Separation) 기술은 두 개 이상의 마이크로폰으로부터 채집된 신호를 음원의 통계적 특성에 따라 신호를 분리하는 기술로 크게 시간 영역에서의 분리 방법과 주파수 영역에서의 분리방법으로 구분된다.
또한, 암묵 신호 분리 기술은 일반적으로 ICA(independent component analysis) 방법에 의하여 학습된다. 이러한 ICA 방법은 음성신호 및 잡음신호들이 혼합되어 입력되는 입력신호들 즉, 각 신호원 사이에 독립적인 특성이 존재한다는 가정 하에 마이크로폰 어레이 시스템을 이용하여 이전사실에 대한 정보 없이 입력신호들로부터 음성신호를 분리할 수 있도록 하는 알고리즘이다.
즉, ICA 방법은 음성신호 분리를 위해 필요한 분리 매트릭스를 구하기 위해 혼합 매트릭스의 역행렬을 찾는 것을 그 목적으로 하며, 이 경우 입력되는 음원의 수가 혼합 매트릭스의 수와 같아야만 그 역행렬 계산이 가능하다.
이와 같이, 암묵적 신호분리를 이용하여 잡음을 제거하기 위해 음성신호 또는 잡음신호들이 혼합되어 들어오는 입력신호들로부터 상호 독립적인 신호들을 추출하는 방식으로 혼합되기 전의 신호들을 분리한다. 다시 말하여, 다수의 입력된 음성신호와 잡음신호의 혼합신호들이 입력되고, 이 입력신호로부터 잡음신호와 음성신호를 분리하여 출력함으로써 잡음이 분리된 음성신호만을 사용하여 음성인식을 수행하게 된다.
그러나, 상술한 바와 같은 종래 기술에 따른 시간 영역에서의 분리 방법은 주파수 영역에서의 분리 방법보다 우수한 성능을 보이나, 화자의 위치 및 환경의 영향을 많이 받는 단점이 있고, 3개 이상의 신호를 분리하는 경우 알고리즘이 복잡하며 계산량이 많아지게 되는 단점이 있는 반면에, 주파수 영역에서의 분리 방법은 알고리즘이 직관적이며 구현이 간단하나 본질적으로 뒤섞임 문제가 수반되며 이를 해결하기가 쉽지 않다는 단점이 있다.
이에 뒤섞임 문제를 해결하기 위하여 전체 주파수 대역을 하나의 벡터로 취급하여 분리하는 독립 벡터 해석(independent vector analysis) 방법이 제안되었으나 이 방법은 계산량이 많고 수렴속도가 늦다는 단점이 있다.
또한, 종래 기술에서와 같이 ICA 방법을 이용할 경우, 혼합되기 전 신호원의 수가 혼합된 후 입력장치를 통해 입력되는 신호의 수와 같아야 하는 단점이 있고, 또한 이 경우 분리되는 신호의 수는 신호원의 수와 같으며, 분리된 신호들 중 어느 것이 어떤 신호원에 해당하는지를 알 수 없다는 문제점이 있다.
이에, 본 발명의 기술적 과제는 상술한 문제점을 해결하기 위해 안출한 것으로서, 두 개 이상의 음원이 존재하는 환경, 즉 소리 신호의 녹음 및 전송, 인식 등의 소리를 입력으로 이용하는 장치에서 여러 개의 음원 및 잡음 신호가 섞여서 인가되는 경우 이 혼합된 신호로부터 원하는 음원의 신호를 분리하여 녹음 및 전송, 인식 성능을 높일 수 있는 음원 분리 방법 및 그 장치를 제공한다.
본 발명의 일 관점에 따른 음원 분리 방법은, 혼합 신호를 채널 별 주파수 영역으로 변환하는 단계와, 채널별 주파수 영역에서 각 채널별 신호에 대한 주파수 클러스터를 구성하는 단계와, 주파수 클러스터를 입력으로 하는 각 클러스터 별 주파수 영역에 대하여 암묵 신호 분리 기술을 적용하여 분리하는 단계와, 각 클러스 터 별 주파수 영역으로 분리된 신호를 시간 영역의 신호로 복원하는 단계를 포함하는 것을 특징으로 한다.
또한, 본 발명의 다른 관점에 따른 음원 분리 장치는, 혼합 신호를 채널 별 주파수 영역으로 변환하는 변환부와, 채널별 주파수 영역에서 각 채널별 신호에 대한 주파수 클러스터를 구성하는 주파수 대역 분할부와, 주파수 클러스터를 입력으로 하는 각 클러스터 별 주파수 영역에 대하여 암묵 신호 분리 기술을 적용하여 분리하는 주파수 영역 신호 분리부와, 각 클러스터 별 주파수 영역으로 분리된 신호를 시간 영역의 신호로 복원하는 역변환부를 포함하는 것을 특징으로 한다.
본 발명은 음성을 비롯한 다양한 소리를 입력으로 하는 기기를 사용함에 있어서 다수의 음원이 동시에 존재하는 환경에서 원하는 음원의 신호만을 분리하여 녹음 및 전송, 인식 성능을 효과적으로 처리할 수 있다.
또한, 본 발명은 회의장과 같이 많은 사람들이 동시에 발성하는 환경 또는 공연장과 같이 다양한 음원이 동시에 존재하는 환경, 또는 TV 등이 켜져 있는 잡음 환경에서 음성의 녹음, 전송 및 인식에서 원하는 음원의 목소리만을 골라서 처리할 수 있다.
또한, 본 발명은 주파수 대역에서의 클러스터링을 사용함으로서 클러스터별로 정교한 분리가 가능하게 되어 분리 성능을 높일 수 있으며, 입력 데이터의 차원(dimension)을 줄임으로써 적은 계산량으로 높은 분리 성능을 얻을 수 있고 소렴 속도를 빠르게 할 수 있다.
또한, 본 발명은 한 개의 클러스터를 처리하기 위하여 해당 클러스터가 포함하는 주파수 성분의 신호 특성에 적합한 확률 분포 함수를 분리 알고리즘에 적용함으로써 클러스터별로 높은 분리 성능을 얻을 수 있다.
또한, 본 발명은 통합된 주파수 영역의 신호를 역 푸리에 변환을 통하여 다시 시간영역의 신호로 복원할 수 있고, 독립적으로 처리된 클러스터를 통합하기 위하여 분리 과정에서 본질적으로 생기는 채널 뒤섞임 문제와 스케일링 문제를 해결할 수 있는 이점이 있다.
이하, 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 음원 분리 장치에 대한 블록 구성도로서, 푸리에 변환부(10)와 주파수 대역 분할부(20)와 주파수 영역 신호 분리부(30) 와 역푸리에 변환부(40)를 포함할 수 있다.
푸리에 변환부(10)는 두 개 이상의 음원이 존재하는 환경, 즉 소리 신호의 녹음 및 전송, 인식 등의 소리를 입력으로 이용하는 장치에서 여러 개의 음원 및 잡음 신호가 섞여서 인가되는 경우 이 혼합된 입력 신호(S1)를 푸리에 변환을 사용하여 채널 별 주파수 영역으로 변환하여 주파수 대역 분할부(20)에 제공할 수 있다.
주파수 대역 분할부(20)는 푸리에 변환부(10)로부터 입력되는 채널별 주파수 영역에서 각 채널별 신호에 대해서 몇 개의 주파수 대역을 묶어서 주파수 클러스터를 구성하는데, 주파수 대역에서의 신호 특성이 특정한 확률 분포 함수로 잘 표현될 수 있도록 주파수 클러스터를 구성하여 주파수 영역 신호 분리부(30)에 제공할 수 있다.
주파수 영역 신호 분리부(30)는 주파수 대역 분할부(20)로부터 입력되는 주파수 클러스터가 M차원의 벡터이므로, 이 벡터를 입력으로 하는 각 클러스터 별 주파수 영역에 대하여 신호 분리 기법으로서 암묵 신호 분리 기술을 적용할 수 있다.
즉, 각 클러스터 별 주파수 영역에 대한 암묵 신호 분리 기술은 신호간의 통계적 유사성을 측정하는 함수로서 벡터를 입력으로 하는 함수인 독립 벡터 해석(Independent Vector Analysis, 이하 IVA라 함) 기술을 사용할 수 있다.
다시 말하여, 주파수 영역 신호 분리부(30)는 주파수 대역 분할부(20)로부터 입력되는 주파수 클러스터에서 각 클러스터 별로 분할된 주파수 영역에 대하여 각각의 분리 필터를 이용하여 학습할 수 있다. 이 때 사용하는 확률 분포 함수는 각 클러스터별로 상이하게 설정하여 각 클러스터의 특성을 반영할 수 있도록 한다.
예컨대, i번째 채널의 신호 si의 f라는 주파수 성분을 s_i^f 라고 할 경우, 신호 si의 통계적 특성(fsi(si))은 수학식 1
Figure 112008088114183-PAT00001
(여기서, σ는 신호 분산을 의미한다.)
에 의해 확률 분포 함수를 계산할 수 있다.
이제 각 클러스터별로 구분하여 암묵 신호 분리 기술을 적용할 경우 각 클러스터에 해당하는 신호의 확률 분포 함수는 수학식 2
Figure 112008088114183-PAT00002
(여기서, c는 클러스터 인덱스를 의미하고, Fmin ,c는 클러스터 c에 포함되는 최소 주파수 인덱스를 의미하며, Fmax ,c는 최대 주파수 인덱스를 의미하며, σc는 클러스터 c의 분산을 의미하며, σc는 분리하고자 하는 음원의 특성에 따라 클러스터별로 상이하게 설정(예컨대, 도 3에 도시된 바와 같이 클러스트1,2,3)할 수 있으며, 음성 신호의 경우 낮은 주파수 대역을 포함하는 클러스터에 대해서는 낮은 값(클러스트1)을, 높은 주파수 대역을 포함하는 클러스터에 대해서는 높은 값(클러스트3)을 설정하는데, 이 과정은 도 3에 도시되어 있다.)
에 의해 계산될 수 있다.
이어서, 주파수 영역 신호 분리부(30)는 각 클러스터 별 주파수 영역에 대하여 암묵 신호 분리 기술이 적용될 경우, 각 클러스터 별 주파수 영역의 신호는 각 채널 별로 하나의 음원만을 표현하는 분리된 신호의 스펙트럼이지만, 암묵 신호 분리 기술의 고유한 제한에 따라 채널의 크기가 원래의 음원과는 상이하게 되어 발생되는 채널 뒤섞임과 각 클러스터마다 다르게 적용되는 스케일링을 해결하여 역푸리에 변환부(40)에 제공할 수 있다.
즉, 각 클러스터 별 주파수 영역에 대하여 암묵 신호 분리 기술이 독립적으로 적용될 경우 암묵 신호 분리 기술의 기본적인 제한에 따라 발생되는 채널 뒤섞임에 대하여 여러 개의 클러스터가 독립적으로 분리된 이후 다시 통합하는 과정에서 각 클러스터가 어느 음원의 성분인지를 알고 있어야 하는데, 이를 해결하기 위하여 클러스터 분할 과정에서 생성된 중복 구간 정보를 활용한다. 즉 두 클러스터가 같은 음원의 정보를 갖는 경우 중복 구간의 주파수 특성은 같아야한다는 점을 이용하여 각 클러스터에서 중복 구간에 해당하는 부분의 주파수 특성을 비교하여 중복 구간의 유사성이 높은 두 클러스터를 하나의 음원으로 간주하여 도 4에 도시된 바와 같이 통합할 수 있으며, 채널 뒤섞임을 도 5와 같이 해결할 수 있다.
그리고, 각 클러스터 별 주파수 영역에 대하여 암묵 신호 분리 기술이 독립 적으로 적용될 경우 암묵 신호 분리 기술의 기본적인 제한에 따라 발생되는 각 클러스터마다 다르게 적용되는 스케일링에 대하여 중복 구간의 크기 정보를 이용한다. 즉 두 클러스터간에 일정 정도의 중복 구간을 두어 중복 구간의 에너지가 같아지도록 두 클러스터의 스케일링을 도 4에 도시된 바와 같이 통합 조정하며, 다르게 적용되는 스케일링을 도 5와 같이 해결할 수 있다.
역푸리에 변환부(40)는 주파수 영역 신호 분리부(30)로부터 입력되는 각 채널 별로 하나의 음원만을 표현하는 분리된 신호의 스펙트럼에 대하여 역푸리에 변환으로 통합하여 시간 영역에서의 음성 신호(S2)로 복원할 수 있다.
따라서, 본 발명은 음성을 비롯한 다양한 소리를 입력으로 하는 기기를 사용함에 있어서 다수의 음원이 동시에 존재하는 환경에서 원하는 음원의 신호만을 분리하여 녹음 및 전송, 인식 성능을 효과적으로 처리할 수 있으며, 회의장과 같이 많은 사람들이 동시에 발성하는 환경 또는 공연장과 같이 다양한 음원이 동시에 존재하는 환경, 또는 TV 등이 켜져 있는 잡음 환경에서 음성의 녹음, 전송 및 인식에서 원하는 음원의 목소리만을 골라서 처리할 수 있다.
다음에, 상술한 바와 같은 구성을 갖는 본 발명의 일 실시예에서 음원 분리 과정에 대하여 설명한다.
도 6은 본 발명의 일 실시예에 따른 음원 분리 방법에 대하여 순차적으로 도시한 흐름도이다.
먼저, 두 개 이상의 음원이 존재하는 환경, 즉 소리 신호의 녹음 및 전송, 인식 등의 소리를 입력으로 이용하는 장치에서 여러 개의 음원 및 잡음 신호가 섞 인 혼합된 신호가 푸리에 변환부(10)에 인가(S601)될 수 있다.
이와 같이 혼합된 신호가 인가될 경우, 푸리에 변환부(10)에서는 외부로부터 입력되는 혼합된 입력 신호(S1)를 푸리에 변환을 사용하여 채널 별 주파수 영역으로 변환(S603)하여 주파수 대역 분할부(20)에 제공할 수 있다.
그러면, 주파수 대역 분할부(20)에서는 푸리에 변환부(10)로부터 입력되는 채널별 주파수 영역에서 각 채널별 신호에 대해서 몇 개의 주파수 대역을 묶어서 주파수 클러스터를 구성할 수 있는데, 즉 주파수 대역에서의 신호 특성이 특정하게 확률 분포 함수로 잘 표현될 수 있도록 주파수 클러스터를 구성(S605)하여 주파수 영역 신호 분리부(30)에 제공할 수 있다. 여기서, 클러스터를 구성할 경우 각 클러스터별로 약간의 중복 구간을 둘 수도 있으며, 이 중복 구간(예컨대, 도 2에 도시된 클러스터 1,2,3,4의 중복 구간)은 신호 분리 이후 신호 복원 단계에서 스케일링 문제를 해결하는데 이용되며, 이 과정은 도 2에 도시되어 있다.
예컨대, 음성 인식의 전처리 과정에서 널리 사용되는 멜 스케일의 클러스터링을 적용할 수 있으며 클러스터의 개수는 사용자가 임의로 선택할 수 있다. 즉 멜 스케일은 낮은 주파수 대역에서는 좁은 구간을, 높은 주파수 대역에서는 넓은 구간을 포함하는 비선형 스케일로 일반적인 음성 신호 처리 기법에서 널리 사용된다.
주파수 영역 신호 분리부(30)는 주파수 대역 분할부(20)로부터 입력되는 주파수 클러스터가 M차원의 벡터이므로, 이 벡터를 입력으로 하는 각 클러스터 별 주파수 영역에 대하여 신호 분리 기법으로서 암묵 신호 분리 기술을 적용(S607)할 수 있다. 즉, 각 클러스터 별 주파수 영역에 대한 암묵 신호 분리 기술은 신호간의 통 계적 유사성을 측정하는 함수로서 벡터를 입력으로 하는 함수인 IVA 기술을 사용할 수 있다. 여기서, IVA 기술은 음원 신호의 전체 주파수 성분을 표현하는 벡터가 각 음원별로 독립이라고 가정하고 분리된 신호가 각각의 확률 분포 함수로 독립적으로 표현될 수 있도록 분리 필터를 학습할 수 있는 것이다.
다시 말하여, 주파수 영역 신호 분리부(30)는 주파수 대역 분할부(20)로부터 입력되는 주파수 클러스터에서 각 클러스터 별로 분할된 주파수 영역에 대하여 각각의 분리 필터를 이용하여 학습할 수 있다. 이 때 사용하는 확률 분포 함수는 각 클러스터별로 상이하게 설정하여 각 클러스터의 특성을 반영할 수 있도록 한다.
이어서, 주파수 영역 신호 분리부(30)는 각 클러스터 별 주파수 영역에 대하여 암묵 신호 분리 기술이 적용될 경우, 각 클러스터 별 주파수 영역의 신호는 각 채널 별로 하나의 음원만을 표현하는 분리된 신호의 스펙트럼이지만, 암묵 신호 분리 기술의 고유한 제한에 따라 채널의 크기가 원래의 음원과는 상이하게 되어 채널 뒤섞임이 발생되는지 아니면 뒤섞임과 중복해서 스케일링이 발생되는지를 판단(S609)한다.
상기 판단(S609)결과, 채널 뒤섞임이 발생(S611)될 경우 클러스터 분할 과정에서 생성된 중복 구간 정보를 활용(S613)한다. 즉 두 클러스터가 같은 음원의 정보를 갖는 경우 중복 구간의 주파수 특성은 같아야한다는 점을 이용하여 각 클러스터에서 중복 구간에 해당하는 부분의 주파수 특성을 비교하여 중복 구간의 유사성이 높은 두 클러스터를 하나의 음원으로 간주하여 통합하여 도 4에 도시된 바와 같이 채널 뒤섞임을 해결하여 역푸리에 변환부(40)에 제공할 수 있다. 여기서, 중복 구간의 유사성은 스펙트럼의 모양으로 비교할 수 있으며 예컨대, 각 클러스트의 출력을 규격화한 후 유클리디안 거리(euclidean distance)를 측정함으로써 거리가 짧을수록 유사성이 높다고 판단할 수 있다.
상기 판단(S609)결과, 뒤섞임과 중복해서 스케일링이 발생 스케일링이 발생(S615)될 경우 중복 구간의 크기 정보를 이용(S617)한다. 즉 두 클러스터간에 일정 정도의 중복 구간을 두어 중복 구간의 에너지가 같아지도록 두 클러스터의 스케일링을 조정하여 도 5에 도시된 바와 같이 다르게 적용되는 스케일링을 해결하여 역푸리에 변환부(40)에 제공할 수 있다.
그러면, 역푸리에 변환부(40)는 주파수 영역 신호 분리부(30)로부터 입력되는 각 채널 별로 하나의 음원만을 표현하는 분리된 신호의 스펙트럼에 대하여 역푸리에 변환으로 통합(S619)하여 시간 영역에서의 음성 신호(S2)로 복원(S621)할 수 있다.
이상 설명한 바와 같이, 본 발명은 주파수 대역에서의 클러스터링을 사용함으로서 클러스터별로 정교한 분리가 가능하게 되어 분리 성능을 높일 수 있으며, 입력 데이터의 차원을 줄임으로써 적은 계산량으로 높은 분리 성능을 얻을 수 있고 소렴 속도를 빠르게 할 수 있으며, 한 개의 클러스터를 처리하기 위하여 해당 클러스터가 포함하는 주파수 성분의 신호 특성에 적합한 확률 분포 함수를 분리 알고리즘에 적용함으로써 클러스터별로 높은 분리 성능을 얻을 수 있다. 또한, 본 발명은 통합된 주파수 영역의 신호를 역푸리에 변환을 통하여 다시 시간영역의 신호로 복원할 수 있고, 독립적으로 처리된 클러스터를 통합하기 위하여 분리 과정에서 본질 적으로 생기는 채널 뒤섞임 문제와 스케일링 문제를 해결할 수 있다.
한편, 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되지 않으며, 후술되는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
도 1은 본 발명의 일 실시예에 따른 음원 분리 장치에 대한 블록 구성도,
도 2는 본 발명의 일 실시예에 따른 주파수 영역을 클러스터로 중복 구간을 두어 분할하는 예시도,
도 3은 본 발명의 일 실시예에 따른 각각의 클러스터에 대하여 독립적으로 암묵 신호 분리 기법을 적용하기 위한 예시도,
도 4는 본 발명의 일 실시예에 따른 분할된 클러스터에 대하여 독립적으로 암묵 신호 분리 기법을 적용한 후 분리된 신호를 통합하기 위한 예시도,
도 5는 본 발명의 일 실시예에 따른 분리된 신호의 통합 과정에서 중복 구간의 정보를 이용하여 채널 뒤섞임 문제 및 스케일링 문제를 해결하기 위한 예시도,
도 6은 본 발명의 일 실시예에 따른 음원 분리 방법에 대하여 순차적으로 도시한 흐름도.
<도면의 주요부분에 대한 부호의 설명>
10 : 푸리에 변환부 20 : 주파수 대역 분할부
30 : 주파수 영역 신호 분리부 40 : 역푸리에 변환부

Claims (21)

  1. 혼합 신호를 채널 별 주파수 영역으로 변환하는 단계와,
    상기 채널별 주파수 영역에서 각 채널별 신호에 대한 주파수 클러스터를 구성하는 단계와,
    상기 주파수 클러스터를 입력으로 하는 각 클러스터 별 주파수 영역에 대하여 암묵 신호 분리 기술을 적용하여 분리하는 단계와,
    상기 각 클러스터 별 주파수 영역으로 분리된 신호를 시간 영역의 신호로 복원하는 단계
    를 포함하는 음원 분리 방법.
  2. 제 1 항에 있어서,
    상기 분리하는 단계는,
    상기 각 클러스터 별 주파수 영역에서 채널 뒤섞임 및 스케일링 발생 유무를 판단하는 단계와,
    상기 채널 뒤섞임이 발생되는 경우 클러스터 분할 과정에서 각 클러스터에서 중복 구간 부분의 주파수 특성을 비교하여 상기 중복 구간의 유사성이 상대적으로 높은 두 클러스터를 하나의 음원으로 간주하여 통합함으로써 상기 발생된 채널 뒤섞임을 삭제하는 단계와,
    상기 스케일링이 발생되는 경우 클러스터 분할 과정에서 두 클러스터간에 중복 구간을 두고 상기 중복 구간의 에너지가 같아지도록 상기 두 클러스터의 스케일링을 조정하여 상기 발생된 스케일링을 삭제하는 단계
    를 포함하는 음원 분리 방법.
  3. 제 2 항에 있어서,
    상기 중복 구간의 유사성은, 상기 각 클러스트의 출력을 규격화한 후 유클리디안 거리(euclidean distance)를 측정하여 거리가 상대적으로 짧을수록 유사성이 높은 것으로 결정하는 음원 분리 방법.
  4. 제 1 항에 있어서,
    상기 암묵 신호 분리 기술은, 벡터를 입력으로 하는 함수인 IVA 기술을 사용하는 음원 분리 방법.
  5. 제 4 항에 있어서,
    상기 IVA 기술은, 음원 신호의 전체 주파수 성분에 대하여 벡터가 각 음원별로 독립적일 경우 분리된 신호가 독립적 확률 분포 함수로 표현되도록 분리 필터를 학습하는 음원 분리 방법.
  6. 제 5 항에 있어서,
    상기 확률 분포 함수는, 각 클러스터별로 상이하게 설정하여 상기 각 클러스터의 특성을 반영하는 음원 분리 방법.
  7. 제 5 항에 있어서,
    상기 확률 분포 함수의 통계적 특성(fsi(si))은,
    수학식
    Figure 112009014267508-PAT00009
    (여기서, σ는 신호 분산을 의미하고, si는 i번째 채널의 신호를 의미하며,
    Figure 112009014267508-PAT00010
    는 si의 f라는 주파수 성분을 의미한다.)
    에 의해 계산되는 음원 분리 방법.
  8. 제 5 항에 있어서,
    상기 확률 분포 함수는, 각 클러스터에 해당하는 신호에 암묵 신호 분리 기술이 적용될 경우,
    수학식
    Figure 112009014267508-PAT00011
    (여기서, c는 클러스터 인덱스를 의미하고, Fmin,c는 클러스터 c에 포함되는 최소 주파수 인덱스를 의미하며, Fmax,c는 최대 주파수 인덱스를 의미하며, σc는 클러스터 c의 분산을 의미하며, σc는 분리하고자 하는 음원의 특성에 따라 클러스터별로 상이하게 설정하는 것을 의미한다.)
    에 의해 계산되는 음원 분리 방법.
  9. 제 1 항에 있어서,
    상기 각 채널별 신호에 대한 주파수 클러스터는, 멜 스케일의 클러스터링을 적용하여 구성하는 음원 분리 방법.
  10. 제 9 항에 있어서,
    상기 멜 스케일은, 상대적으로 낮은 주파수 대역에서는 상대적으로 좁은 구간을, 상대적으로 높은 주파수 대역에서는 상대적으로 넓은 구간을 갖는 비선형 스케일인 음원 분리 방법.
  11. 제 1 항에 있어서,
    상기 채널 별 주파수 영역으로의 변환은, 푸리에 변환을 이용하는 음원 분리 방법.
  12. 제 1 항에 있어서,
    상기 시간 영역의 신호로의 복원은, 역푸리에 변환을 이용하는 음원 분리 방법.
  13. 혼합 신호를 채널 별 주파수 영역으로 변환하는 변환부와,
    상기 채널별 주파수 영역에서 각 채널별 신호에 대한 주파수 클러스터를 구성하는 주파수 대역 분할부와,
    상기 주파수 클러스터를 입력으로 하는 각 클러스터 별 주파수 영역에 대하여 암묵 신호 분리 기술을 적용하여 분리하는 주파수 영역 신호 분리부와,
    상기 각 클러스터 별 주파수 영역으로 분리된 신호를 시간 영역의 신호로 복원하는 역변환부
    를 포함하는 음원 분리 장치.
  14. 제 13 항에 있어서,
    상기 주파수 영역 신호 분리부는,
    상기 각 클러스터 별 주파수 영역에서 채널 뒤섞임이 발생되는 경우 클러스터 분할 과정에서 각 클러스터에서 중복 구간 부분의 주파수 특성을 비교하여 상기 중복 구간의 유사성이 상대적으로 높은 두 클러스터를 하나의 음원으로 간주하여 통합함으로써 상기 발생된 채널 뒤섞임을 삭제하는 음원 분리 장치.
  15. 제 14 항에 있어서,
    상기 중복 구간의 유사성은, 상기 각 클러스트의 출력을 규격화한 후 유클리디안 거리를 측정하여 거리가 상대적으로 짧을수록 유사성이 높은 것으로 결정하는 음원 분리 장치.
  16. 제 13 항에 있어서,
    상기 암묵 신호 분리 기술은, 벡터를 입력으로 하는 함수인 IVA 기술을 사용하는 음원 분리 장치.
  17. 제 16 항에 있어서,
    상기 IVA 기술은, 음원 신호의 전체 주파수 성분에 대하여 벡터가 각 음원별로 독립적일 경우 분리된 신호가 독립적 확률 분포 함수로 표현되도록 분리 필터를 학습하는 음원 분리 장치.
  18. 제 17 항에 있어서,
    상기 확률 분포 함수는, 각 클러스터별로 상이하게 설정하여 상기 각 클러스터의 특성을 반영하는 음원 분리 장치.
  19. 제 13 항에 있어서,
    상기 각 채널별 신호에 대한 주파수 클러스터는, 멜 스케일의 클러스터링을 적용하여 구성하는 음원 분리 장치.
  20. 제 19 항에 있어서,
    상기 멜 스케일은, 상대적으로 낮은 주파수 대역에서는 상대적으로 좁은 구간을, 상대적으로 높은 주파수 대역에서는 상대적으로 넓은 구간을 갖는 비선형 스케일인 음원 분리 장치.
  21. 제 13 항에 있어서,
    상기 주파수 영역 신호 분리부는,
    상기 각 클러스터 별 주파수 영역에서 스케일링이 발생되는 경우 클러스터 분할 과정에서 두 클러스터간에 중복 구간을 두고 상기 중복 구간의 에너지가 같아지도록 상기 두 클러스터의 스케일링을 조정하여 상기 발생된 스케일링을 삭제하는 음원 분리 장치.
KR1020080131761A 2008-12-22 2008-12-22 음원 분리 방법 및 그 장치 KR101280253B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020080131761A KR101280253B1 (ko) 2008-12-22 2008-12-22 음원 분리 방법 및 그 장치
US12/488,215 US8364483B2 (en) 2008-12-22 2009-06-19 Method for separating source signals and apparatus thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080131761A KR101280253B1 (ko) 2008-12-22 2008-12-22 음원 분리 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20100073167A true KR20100073167A (ko) 2010-07-01
KR101280253B1 KR101280253B1 (ko) 2013-07-05

Family

ID=42266146

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080131761A KR101280253B1 (ko) 2008-12-22 2008-12-22 음원 분리 방법 및 그 장치

Country Status (2)

Country Link
US (1) US8364483B2 (ko)
KR (1) KR101280253B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827849A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 数据建库的人声分离方法、装置、终端及可读存储介质
CN113362831A (zh) * 2021-07-12 2021-09-07 科大讯飞股份有限公司 一种说话人分离方法及其相关设备

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5375400B2 (ja) * 2009-07-22 2013-12-25 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
US9049532B2 (en) 2010-10-19 2015-06-02 Electronics And Telecommunications Research Instittute Apparatus and method for separating sound source
KR101356039B1 (ko) * 2012-05-08 2014-01-29 한국과학기술원 하모닉 주파수 사이의 종속관계를 이용한 암묵 신호 분리 방법 및 이를 위한 디믹싱 시스템
KR101474321B1 (ko) * 2012-06-29 2014-12-30 한국과학기술원 암묵신호 분리에서의 순열/비례 문제 해결장치 및 그 방법
US9466310B2 (en) 2013-12-20 2016-10-11 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Compensating for identifiable background content in a speech recognition device
CN104463197B (zh) * 2014-11-19 2017-07-28 天津大学 基于频谱校正与逆向组合的欠定盲信号分离方法及其装置
US10712425B1 (en) 2015-03-19 2020-07-14 Hrl Laboratories, Llc Cognitive denoising of nonstationary signals using time varying reservoir computer
US10404299B1 (en) 2016-03-07 2019-09-03 Hrl Laboratories, Llc System for parallelized cognitive signal denoising
US10380062B1 (en) 2015-03-19 2019-08-13 Hrl Laboratories, Llc Efficient cognitive signal denoising with sparse output layers
US10720949B1 (en) 2015-03-19 2020-07-21 Hrl Laboratories, Llc Real-time time-difference-of-arrival (TDOA) estimation via multi-input cognitive signal processor
US10128820B2 (en) 2015-03-19 2018-11-13 Hrl Laboratories, Llc Cognitive signal processor for simultaneous denoising and blind source separation
WO2018136144A1 (en) * 2017-01-18 2018-07-26 Hrl Laboratories, Llc Cognitive signal processor for simultaneous denoising and blind source separation
CN111429933B (zh) * 2020-03-06 2022-09-30 北京小米松果电子有限公司 音频信号的处理方法及装置、存储介质
US11863221B1 (en) 2020-07-14 2024-01-02 Hrl Laboratories, Llc Low size, weight and power (swap) efficient hardware implementation of a wide instantaneous bandwidth neuromorphic adaptive core (NeurACore)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1570464A4 (en) * 2002-12-11 2006-01-18 Softmax Inc SYSTEM AND METHOD FOR LANGUAGE PROCESSING USING AN INDEPENDENT COMPONENT ANALYSIS UNDER STABILITY RESTRICTIONS
US7454333B2 (en) * 2004-09-13 2008-11-18 Mitsubishi Electric Research Lab, Inc. Separating multiple audio signals recorded as a single mixed signal
EP1752969A4 (en) * 2005-02-08 2007-07-11 Nippon Telegraph & Telephone SIGNAL SEPARATION DEVICE, SIGNAL SEPARATION METHOD, SIGNAL SEPARATION PROGRAM, AND RECORDING MEDIUM
KR100653173B1 (ko) 2005-11-01 2006-12-05 한국전자통신연구원 다중경로 혼합신호 분리계수의 교환 모호성을 해소하는방법 및 그 장치
US8874439B2 (en) 2006-03-01 2014-10-28 The Regents Of The University Of California Systems and methods for blind source signal separation
KR101184394B1 (ko) * 2006-05-10 2012-09-20 에이펫(주) 윈도우 분리 직교 모델을 이용한 잡음신호 분리방법
KR100875264B1 (ko) 2006-08-29 2008-12-22 학교법인 동의학원 암묵신호분리를 위한 후처리 방법
KR100863184B1 (ko) 2006-12-27 2008-10-13 충북대학교 산학협력단 간섭 및 반향신호 제거를 위한 다단계 암묵 디콘볼루션방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827849A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 数据建库的人声分离方法、装置、终端及可读存储介质
CN113362831A (zh) * 2021-07-12 2021-09-07 科大讯飞股份有限公司 一种说话人分离方法及其相关设备

Also Published As

Publication number Publication date
US8364483B2 (en) 2013-01-29
KR101280253B1 (ko) 2013-07-05
US20100158271A1 (en) 2010-06-24

Similar Documents

Publication Publication Date Title
KR101280253B1 (ko) 음원 분리 방법 및 그 장치
US20210089967A1 (en) Data training in multi-sensor setups
CN111133511B (zh) 声源分离系统
JP4810109B2 (ja) 別個の信号の成分を分離する方法およびシステム
TW200529548A (en) Adaptive hybrid transform for signal analysis and synthesis
KR20190069198A (ko) 다채널 오디오 신호에서 음원을 추출하는 장치 및 그 방법
CN103811023A (zh) 音频处理装置以及音频处理方法
JP2014215461A (ja) 音声処理装置および方法、並びにプログラム
KR20080091099A (ko) 채널간 진폭 스펙트럼을 이용한 오디오 채널 추출
US20110194709A1 (en) Automatic source separation via joint use of segmental information and spatial diversity
GB2548325A (en) Acoustic source seperation systems
EP2940687A1 (en) Methods and systems for processing and mixing signals using signal decomposition
JP2011215649A (ja) 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
TW202135047A (zh) 電子裝置、方法和電腦程式
CN110544482A (zh) 一种单通道语音分离系统
Jiang et al. Acoustic scene classification using ensembles of convolutional neural networks and spectrogram decompositions
Quan et al. Multi-channel narrow-band deep speech separation with full-band permutation invariant training
KR20110138530A (ko) 통합 음원 분리 방법 및 장치
WO2023226572A1 (zh) 特征表示的提取方法、装置、设备、介质及程序产品
CN109036455B (zh) 直达声与背景声提取方法、扬声器系统及其声重放方法
JP4849404B2 (ja) 信号処理装置、信号処理方法およびプログラム
JP6285855B2 (ja) フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム
JP2003271168A (ja) 信号抽出方法および信号抽出装置、信号抽出プログラムとそのプログラムを記録した記録媒体
CN113345465A (zh) 语音分离方法、装置、设备及计算机可读存储介质
JP2008278406A (ja) 音源分離装置,音源分離プログラム及び音源分離方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170529

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee