KR101593672B1 - 음향 분리 방법 및 장치 - Google Patents

음향 분리 방법 및 장치 Download PDF

Info

Publication number
KR101593672B1
KR101593672B1 KR1020140148099A KR20140148099A KR101593672B1 KR 101593672 B1 KR101593672 B1 KR 101593672B1 KR 1020140148099 A KR1020140148099 A KR 1020140148099A KR 20140148099 A KR20140148099 A KR 20140148099A KR 101593672 B1 KR101593672 B1 KR 101593672B1
Authority
KR
South Korea
Prior art keywords
acoustic
value
dictionary
representative
category
Prior art date
Application number
KR1020140148099A
Other languages
English (en)
Inventor
고한석
금민석
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020140148099A priority Critical patent/KR101593672B1/ko
Application granted granted Critical
Publication of KR101593672B1 publication Critical patent/KR101593672B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Abstract

음향 분리 방법이 개시된다. 본 발명의 일 실시예에 따른 음향 분리 방법은 임의의 음향 정보를 카테고리별로 구분하여 음향 신호를 생성하고, 그 카테고리별 음향 신호 각각을 소정 길이의 복수의 프레임으로 분할하고, 그 복수의 프레임을 주파수 영역으로 변환하여 복수의 프레임 스펙트럼을 생성하고, 그 생성된 복수의 프레임 스펙트럼에 대한 복수개의 대표 값으로 구성되는 음향 사전을 생성한 후, 복수개의 카테고리의 음향이 혼합된 혼합 음향 신호가 입력되면 그 음향 사전을 이용하여 각 카테고리별로 음향을 분리한다.

Description

음향 분리 방법 및 장치{Acoustic separation method and apparatus}
본 발명의 일 실시예는 음향 분리 방법에 관한 것으로, 단일 음향으로부터 만들어진 음향 사전을 기초로 혼합 음향의 음원을 분리하는 방법에 관한 것이다.
기존의 음향신호 개선의 경우 많은 경우 음성을 대상으로 음성 이외의 음향은 잡음으로 간주하여 이를 제거하는 잡음제거/잡음감쇄가 있다. 기존의 음향분리를 위한 대표적인 방법은 빔포밍(beamforming) 또는 독립신호분석(Independent Component Analysis, ICA)이 있다. 빔포밍의 경우 2개 이상의 마이크로 구성된 마이크 배열(microphone array)을 이용하여 하나의 음원이 각 마이크에 도달하는 시간지연 정보를 사용하며, 독립신호분석 방식의 경우 마이크 배열에 들어오는 입력의 크기차이를 활용한다. 빔포밍 방식의 경우 대상 음원이 마이크배열을 기준으로 미리 설정된 위치에 있는 것을 가정하므로 활용성이 떨어지는 문제가 있다. 독립신호분석 방식의 경우 이러한 제약조건이 완화될 수 있지만, 2개 이상 다수의 마이크를 사용해야 한다는 제약조건이 있으며, 부품비의 증가로 제품단가가 증가하는 단점이 있다.
기존의 음향이벤트 검출을 위한 방법은 크게 특징추출, 이벤트 훈련 및 검출 3개의 과정으로 구성된다. 대표적인 특징추출 방법으로 크게 스펙트럼의 형태에 기반한 Mel frequency Cepstral Coefficient (MFCC), Linear Prediction Coding (LPC), Perceptual Linear Prediction (PLP) 또는 리듬, 음색, 강세 등의 심리적 음향특징이 활용된다. 이벤트 훈련 및 인식에는 대표적으로 Gaussian Mixture Model (GMM), Hidden Markov Model (HMM), Artificial Neural Network (ANN), Support Vector machine (SVM), K-Nearest Neighbor (KNN) 등의 방법이 활용된다. 기존 음향이벤트 검출 방식은 대부분 하나의 주요한(dominant) 음향이 발생하는 것을 가정하며, 2개 이상의 음향이 동시에 발생하는 경우는 대처하지 못하는 문제가 있다.
본 발명의 일 실시예의 목적은 단일 음향에서 만들어진 음향 사전을 참조하여, 혼합 음향을 구성하는 각각의 음향을 분리하는 방법을 제공하는 것이다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 음향 분리 방법은 임의의 음향 정보를 카테고리별로 구분하여 음향 신호를 생성하는 단계; 상기 카테고리별 음향 신호 각각을 소정 길이의 복수의 프레임으로 분할하는 단계; 복수의 프레임을 주파수 영역으로 변환하여 복수의 프레임 스펙트럼을 생성하고, 상기 생성된 복수의 프레임 스펙트럼에 대한 복수개의 대표 값으로 구성되는 음향 사전을 생성하는 단계; 및 복수개의 카테고리의 음향 신호가 혼합된 혼합 음향 신호가 입력되면 상기 음향 사전을 이용하여 상기 카테고리별로 음향 신호를 분리하는 단계를 포함한다.
바람직하게는, 상기 음향 사전을 생성하는 단계는 상기 복수의 프레임 스펙트럼에서 복수의 초기 대표 값을 카테고리별로 무작위로 생성하는 초기화 단계; 상기 프레임 스펙트럼들 각각에서 선정된 복수의 샘플 값을 가장 유사한 초기 대표 값으로 할당하는 군집화 단계; 상기 대표 값들 각각에 할당된 상기 복수의 샘플들의 평균값을 이용하여 초기 대표 값을 갱신하는 대표 값 갱신 단계; 상기 군집화 단계 및 대표 값 갱신 단계를 미리 설정된 최대 반복 횟수만큼 반복해서 최종 대표 값을 산출하는 대표 값 결정 단계; 및 최종 대표 값을 이용하여 음향 사전을 생성하는 단계를 포함할 수 있다.
바람직하게는, 상기 군집화 단계는 상기 샘플 값들 각각을 상기 복수의 대표 값과 비교하는 단계; 상기 비교 결과에 기초하여 상기 각각의 샘플 값들과 상기 각각의 대표 값들의 유사한 정도를 산출하는 단계; 및 상기 유사한 정도가 가장 큰 상기 대표 값에 상기 샘플 값을 할당하는 단계를 포함할 수 있다.
바람직하게는, 상기 유사한 정도를 산출하는 단계는 상기 샘플 값들 각각과 상기 최종 대표 값들 각각의 코사인 유사도를 기초로 수행될 수 있다.
바람직하게는, 상기 음향 사전을 이용하여 상기 카테고리별로 음향을 분리하는 단계는 입력된 혼합 음향 신호를 주파수 영역으로 변환하여 혼합 음향 스펙트럼을 생성하는 단계; 상기 혼합 음향 스펙트럼 각각의 최초 음향크기 값을 무작위로 생성하는 단계; 상기 음향 사전 및 상기 혼합 음향 스펙트럼에 기초하여 상기 최초 음향크기 값을 갱신하는 단계; 상기 최초 음향크기 값을 갱신하는 단계를 미리 설정된 최대 반복 횟수만큼 반복해서 최종 음향크기 값을 산출하는 단계; 및 상기 음향 사전 및 상기 최종 음향크기 값에 기초하여 상기 카테고리별로 음향 신호를 분리하는 단계를 포함할 수 있다.
또한, 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 음향 분리 장치는 음향 정보를 미리 설정된 카테고리별로 구분하여 음향 신호를 생성하는 음향 생성부; 상기 카테고리별 음향 신호 각각을 소정 길이의 복수의 프레임으로 분할하는 음향 분할부; 복수의 프레임을 주파수 영역으로 변환하여 복수의 프레임 스펙트럼을 생성하고, 상기 생성된 복수의 프레임 스펙트럼에 대한 복수개의 대표 값으로 구성되는 음향 사전을 생성하는 사전 생성부; 및 복수개의 카테고리의 음향이 혼합된 혼합 음향 신호가 입력되면 상기 음향 사전을 이용하여 상기 카테고리별로 음향 신호를 분리하는 음향 분리부를 포함한다.
본 발명의 일 실시예에 따르면, 복수개의 카테고리의 음향 신호가 혼합된 혼합 음향 신호로부터 카테고리별 음향 신호를 정확하게 분리할 수 있는 효과가 있다.
또한, 본 발명의 일 실시예는 기존의 기술이 추출하고자 하는 음향을 제외한 나머지 음향을 잡음으로 간주하여 제거하는 방식을 지양하고, 각 음원을 개별적인 대상으로 취급하여 효율성이 높다.
또한, 기존의 기술과는 달리 복수의 마이크가 필요 없고, 단일 마이크의 경우에도 사용 가능하며 음원이 특정 위치에 있을 것을 요구하지 않아 활용성이 높다.
도 1은 본 발명의 일 실시예에 따른 음향 분리 방법을 설명하기 위하여 도시한 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 음향 사전을 생성하는 방법을 설명하기 위하여 도시한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 혼합음향으로부터 각 카테고리에 해당하는 음향을 분리하는 방법을 설명하기 위하여 도시한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 혼합 음향 신호로부터 각 카테고리에 해당하는 음향을 분리하는 방법을 설명하기 위하여 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 음향 분리 장치를 설명하기 위하여 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 음향 분리 방법을 설명하기 위하여 도시한 흐름도이다.
단계 110에서는, 음향 분리 장치가 임의의 음향 정보를 카테고리별로 구분하여 음향 신호를 생성한다.
여기서 음향 정보는 어떤 음향에 관한 정보라도 가능하다. 주어진 음향 정보를 카테고리별로 구분하여 음향 사전을 생성하려는 목적이기에, 구분하고자 하는 카테고리에 해당하는 음향 요소가 포함된 음향 정보라면 어떤 음향도 가능하다.
또한, 카테고리는 사람의 음성, 차량 엔진, 웅성거림, 사이렌, 전화벨, 노크 소리 등과 같이 사용자가 대상으로 하는 임의의 명칭으로 구성된다. 즉, 혼합 음향 신호에서 분리하고자 하는 종류의 음향 신호를 사용자가 선택한다.
그리고 카테고리의 종류는 각 음향이 발생할 수 있는 여러 가지 변이방식을 최대한 반영할 수 있도록 많은 분량의 데이터베이스를 구축하는 것이 최종 음원 분리 및 검출 성능의 향상에 도움이 된다.
여기에서 카테고리에 따라 구분된 음향 신호는 끊어진 부분을 모두 이어 붙여서 하나의 신호를 구성하도록 한다. 시간적 끊김이 있는 음향 신호의 경우 후술하게 될 주파수 영역으로의 변환 과정에서 문제가 발생하게 된다.
단계 120에서는, 음향 분리 장치가 카테고리별 음향 신호 각각을 소정 길이의 복수의 프레임으로 분할한다.
본 발명의 일 실시예는 카테고리별로 구분된 음향 신호를 일정 길이의 시간 단위의 프레임들로 분할한다.
이렇게 프레임으로 분할하는 이유는 상기 음향 신호를 주파수 영역의 신호로 변환하여 처리하게 되는데, 전체 신호에 대해서 변환을 하게 되면 시간에 따른 신호의 변화 특성이 소실되기 때문에 짧은 시간 단위로 신호를 분할하여 변환한다.
여기서의 소정 시간의 길이는, 본 발명의 일 실시예는 20ms 단위의 시간으로 음향신호를 분할할 수 있고, 음향 신호의 카테고리 또는 종류에 따라 다른 단위 시간으로 분할 할 수도 있다.
단계 130에서는, 음향 분리 장치가 그 복수의 프레임을 주파수 영역으로 변환하여 복수의 프레임 스펙트럼을 생성하고, 그 생성된 복수의 프레임 스펙트럼에 대한 복수개의 대표 값으로 구성되는 음향 사전을 생성한다.
음향 분리 장치가 시간 영역의 음향 신호를 주파수 영역의 신호로 변환할 때에는 고속 푸리에 변환(Fast Fourier Transform, FFT)을 이용하여 주파수 영역으로 변환할 수 있는데, 본 발명의 일 실시예에 따른 음향 신호의 주파수 영역으로의 변환은 단시간 푸리에 변환(Short Time Fourier Transform, STFT)을 이용하여 주파수 영역으로 변환한다.
전체 음향 신호에 대해서 FFT를 적용하게 되면 시간에 따른 신호의 변화특성이 소실될 수 있다. 따라서, 본 실시예에서는 전체 신호가 20ms 정도의 짧은 길이로 분할된 경우를 가정하여, 하기의 수학식 1에서와 같이 짧은 길이로 분할한 프레임에 적용하는 STFT 를 시간 영역의 음향 신호에 적용하여 주파수 영역의 음향 신호를 산출하게 된다.
[수학식 1]
Figure 112014103960132-pat00001
여기서, STFT는 단시간 푸리에 변환을 나타내고, m은 시간축 인덱스를 나타내고, w는 주파수축 인덱스를 나타낸다.
이때, STFT는 10ms 단위로 수행하여 결과적으로 프레임간 50%씩 중첩되도록 한다.
한편, 프레임에 대한 FFT 결과로 인한 스펙트럼은 각 주파수 성분의 크기와 위상이 고려된 복소수 형태의 요소로 구성되며, 음향 사전 구축 단계에서는 이 중에서 주파수 성분의 크기만 사용한다. 이를 위하여 하기의 수학식 2에서와 같이 복소수의 절대값을 구하는 abs 연산을 통하여 음향 신호의 주파수 성분의 크기를 획득한다.
[수학식 2]
Figure 112014103960132-pat00002
여기서, abs는 복소수의 크기를 획득하는 연산을 나타내고, Re는 실수 성분, Im은 허수 성분을 나타낸다.
그 분할된 프레임들을 기초로 하여 신호를 변환하고 음향 사전을 생성한다. 시간 영역의 신호를 주파수 영역의 신호로 변경하여 해당 신호의 구성 성분의 나열인 스펙트럼을 얻게 된다. 그 프레임들을 주파수 영역의 신호로 변경하여 프레임들의 스펙트럼을 생성하게 된다.
음향 사전을 생성하는 과정에 대해서는 도 2를 참조하여 후술한다.
단계 140에서는, 음향 분리 장치가 복수개의 카테고리의 음향이 혼합된 혼합 음향 신호가 입력되면 그 음향 사전을 이용하여 카테고리별로 음향 신호를 분리한다.
그 생성된 음향 사전을 참조하여 혼합 음향 신호에서 음향 사전에 정의된 카테고리에 해당하는 음향 신호를 분리한다. 음향을 분리하는 과정에 대해서는 도 3을 참조하여 후술한다.
도 2는 본 발명의 일 실시예에 따른 음향 사전을 생성하는 방법을 설명하기 위하여 도시한 흐름도이다. 즉, 도 2는 음향 사전을 구성하는 최종 대표 값을 획득하여 음향 사전을 생성하는 방법을 도시하고 있는데, 음향 사전은 음향 정보의 카테고리별로 생성된다.
최종 대표 값의 역할은 음향 사전의 구성성분이 되는 것이다. 대표 값은 생성된 프레임들의 스펙트럼에서 무작위로 생성한 값을 기초로 산출되고, 이런 과정을 이용한 알고리즘을 SKM(Spherical K-means clustering) 방법 이라 하는데 도 2는 이 방법을 도시하고 있다.
SKM 방법은 NMF(Nonnegative Matrix Factorization) 방법에 비하여 음원의 구성성분이 주파수 영역에서 파편화 되는 현상이 발생 하지 않는다. 즉, 서로 다른 음원 간에 공통적인 구성성분으로 인한 각 음원의 고유한 특성을 훼손시키는 것을 방지한다.
단계 210에서는, 음향 분리 장치가 그 복수의 프레임 스펙트럼에서 복수의 초기 대표 값을 무작위로 생성하는 초기화 과정을 수행한다.
프레임 스펙트럼은 그 프레임들을 주파수 영역으로 변환하여 생성된다.
스펙트럼이 생성된 후, 생성된 프레임들의 스펙트럼에서 복수개의 대표 값을 획득한다.
위 생성된 프레임들의 스펙트럼의 구성 요소에서 K개의 대표 값을 획득한다. 이때, 대표 값은 무작위로 생성한다.
후술하듯이, 무작위로 생성된 대표 값에 대하여 SKM clustering 알고리즘을 반복하여 최종 대표 값을 산출 즉, 음향 사전을 생성한다.
음향 사전은 다양한 카테고리의 음향으로 구성되는 혼합 음향 신호에서 카테고리별로 음향 신호를 구분하기 위하여 미리 생성해둔다.
단계 220에서는, 음향 분리 장치가 프레임 스펙트럼들 각각에서 선정된 샘플 값을 가장 유사한 초기 대표 값으로 할당하는 군집화 과정을 수행한다.
본 단계는 군집화 단계로 명명할 수도 있는데, 본 단계에서 샘플 값은 프레임들의 스펙트럼에서 임의로 선정되고, 모든 프레임들에 대해서 선정된 복수의 샘플 값들 각각은 가장 유사한 초기 대표 값에 할당 된다. 군집화 단계는 다시 세 가지 단계로 구성되는데, 그 첫 번째 단계는, 그 샘플 값들 각각을 복수의 대표 값과 비교한다.
두 번째 단계는, 그 비교 결과에 기초하여 각각의 샘플 값들과 각각의 대표 값들의 유사한 정도를 산출한다.
유사한 정도의 표현 방법은 본 발명의 일 실시예는 샘플 값과 대표 값의 코사인 유사도(Cosine Similarity)를 사용한다.
코사인 유사도란 두 벡터간 각도의 코사인 값을 이용하여 측정된 벡터간의 유사한 정도를 의미하는 것으로서, 수학식 3과 같이 표현된다.
[수학식 3]
Figure 112014103960132-pat00003
여기서 ·은 내적을 나타내고, ∥∥는 유클리디안 거리를 나타내고, Yj 는 음향 신호의 샘플 값의 주파수 성분의 크기 행렬, Ci는 대표값 행렬을 나타낸다.
코사인 유사도는 0에서 1사이의 값을 갖고, 1에 가까울수록 유사한 정도가 크다.
세 번째 단계는, 유사한 정도가 가장 큰 대표 값에 그 샘플 값을 할당한다.
모든 샘플 값을 모든 대표 값과 비교하여 유사도를 산출하고, 코사인 유사도가 가장 큰 대표 값에 샘플 값을 할당한다. 코사인 유사도가 가장 크다는 것은 유사한 정도가 가장 크다는 뜻으로, 대표 값과 가장 가까운 값에 해당한다는 의미이다.
단계 230에서는, 음향 분리 장치가 대표 값들 각각에 할당된 복수의 샘플의 평균값을 이용하여 초기 대표값을 갱신하는 대표 값 갱신 과정을 수행한다.
이와 같은 대표값 갱신을 통해 초기에 랜덤하게 생성된 초기 대표 값으로부터 시작하여 실제 프레임 스펙트럼을 대표하는 대표 값에 가장 근접한 값으로 수정해 가게 된다.
단계 240에서는, 음향 분리 장치가 군집화 과정 및 대표 값 갱신 과정을 미리 설정된 최대 반복 횟수만큼 반복해서 최종 대표 값을 산출한다.
이때, 최대 반복 횟수 K는 사용자가 임의로 설정할 수도 있고, 수학식 4와 같은 수렴조건에 의하여 설정될 수도 있다.
[수학식 4]
Figure 112014103960132-pat00004
여기서, K는 최대 반복 횟수를 나타내고, Yj 는 음향 신호의 샘플 값의 주파수 성분의 크기 행렬, Ci는 대표값 행렬을 나타낸다.
단계 250에서는, 음향 분리 장치가 최종 대표 값을 이용하여 음향 사전을 생성한다.
이때, 음향 사전은 카테고리별로 생성되는데 음향 정보가 N개의 카테고리로 구분된다면 음향사전은 수학식 5와 같이 생성될 수 있다.
[수학식 5]
Wi = [C1 C2 ... CK], 1≤i≤N
즉, N개의 음향 정보 카테고리별로 N개의 음향 사전 W1, W2, …. , WN이 생성될 것이고, 각각의 음향 사전에는 K개의 최종 대표 값들이 포함된다.
도 3은 본 발명의 일 실시예에 따른 혼합 음향 신호로부터 각 카테고리에 해당하는 음향 신호를 분리하는 방법을 설명하기 위하여 도시한 흐름도이다.
단계 310에서는, 음향 분리 장치가 입력된 혼합 음향 신호를 주파수 영역으로 변환하여 혼합 음향 스펙트럼을 생성한다.
음향 사전을 생성할 때와 마찬가지로 음향을 주파수 영역으로 변환하여 혼합 음향의 스펙트럼을 생성한다. 변환은 전술한 바와 같이 STFT를 사용하여 변환한다.
본 발명의 일 실시예는 주파수 영역으로 변환 후 NMF 방식을 사용하여, 주파수 영역에서 변환된 혼합 음향 신호를 각 카테고리별 구성성분과 크기 성분으로 분리하게 된다. 단계 320과 단계 330은 NMF 방식에 의한 주파수 영역으로의 변환 과정을 나타낸다.
단계 320에서는, 음향 분리 장치가 혼합 음향 스펙트럼 각각의 최초 음향크기 값을 카테고리별로 무작위로 생성한다.
단계 330에서는, 음향 분리 장치가 음향 사전 및 혼합 음향 스펙트럼에 기초하여 최초 음향크기 값을 갱신한다.
음향 크기 값은 수학식 2와 같이 abs 수학식을 이용하여 산출한다. 또한 산출된 음향 크기값은 음향 사전 및 주파수 영역으로 변환된 혼합 음향 신호에 기초하여 갱신된다. 이를 수학식 6과 같이 나타낼 수 있다.
즉, 수학식 6에서는 현재의 음향이벤트의 크기 성분으로 구성된 Hs-1행렬과 혼합 음향 신호의 스펙트럼 크기 및 음향 사전을 기초로 하여 새롭게 갱신된 Hs 행렬간의 관계가 정의되어 있다.
[수학식 6]
Figure 112014103960132-pat00005
여기서, ⊙는 요소단위 곱을 나타내고, H는 카테고리별 모든 음향 신호의 음향 크기 값(행렬)의 집합 행렬을 나타내고, V는 혼합 음향 신호의 스펙트럼의 크기 값에 대한 행렬을 나타내고, W는 음향 사전을 열 단위로 이어 붙인 행렬을 나타낸다.
보다 구체적으로는, H는 수학식 7과 같이 표시될 수 있고, W는 수학식 8과 같이 표시될 수 있다.
[수학식 7]
H = [H1; H2; ... ; HN]
Hi = [h1; h2; ... ; hK], 1≤i≤N
여기서, Hi는 임의의 카테고리에 속하는 음향 신호의 음향 크기 값(행렬)을 나타내고, H는 N개의 카테고리에 대응하여 N개의 음향 크기 값(행렬)을 구성요소로 하는 음향 크기 값(행렬)의 집합 행렬을 나타낸다.
또한, ';'의 의미는 각 행렬이 행 단위로 연결되어 있음을 나타낸다. 즉, H 행렬은 H1 행렬과 H2 행렬,...., HN 행렬이 각각 1행, 2행, .... N번째 행이 되어 H행렬을 구성하고, Hi 행렬은 하나의 열로 이루어진 행렬로서, h1이 1열의 첫번째 행, h2가 1열의 두번째 행, .... hK가 1열의 K번째 행을 구성한다.
이때, 음향 크기 행렬 Hi는 K개의 구성 요소로 구성되고, H는 N개의 구성요소로 구성된다.
[수학식 8]
W = [W1 |W2 |...| WN]
수학식 8에서는 N개의 음향 사전이 결합된 것으로 표시되어 있다.
여기서, '|'의 의미는 각 행렬이 열 단위로 연결되어 있음을 의미한다. 즉, W 행렬은 W1 행렬과 W2 행렬,....., WN 행렬이 각각 1열, 2열, .... N번째 열이 되어 W 행렬을 구성한다.
이와 같이, 최초 음향크기 값 갱신을 통해서 초기에 랜덤하게 생성된 초기 음향크기 값으로부터 시작하여 실제 카테고리별 음향 신호의 음향 크기 값에 가장 근접한 값으로 수정해 가게 된다.
단계 340에서는, 음향 분리 장치가 최초 음향크기 값을 갱신하는 과정을 미리 설정된 최대 반복 횟수만큼 반복해서 최종 음향크기 값을 산출한다.
예컨대, 수학식 6에서 반복 최대 반복 횟수가 100번이라고 하면 수학식 6의 갱신 과정을 100회 수행하여 최종적으로 결정된 H100이 최종 음향크기 값이 된다. 이때, 최종 음향크기 값은 행렬로 표시될 수 있다.
단계 350은, 음향 분리 장치가 음향 사전 및 최종 음향크기 값에 기초하여 카테고리별로 음향 신호를 분리한다.
보다 구체적으로는, 카테고리별 음향 신호 분리는 하기의 수학식 9와 같이 해당 카테고리의 음향 사전과 해당 카테고리의 최종 음향크기 값을 곱하여 수행될 수 있다.
[수학식 9]
Vn = WnHn, 1≤n≤N
여기서, Vn은 n번째 카테고리에 해당하는 음향 신호의 스펙트럼의 크기 값을 나타내고, Wn은 n번째 카테고리에 해당하는 음향 사전을 나타내고, Hn은 n번째 카테고리에 해당하는 최종 음향 크기 값(행렬)을 나타낸다.
예컨대, 첫번째 카테고리에 속하는 음향 신호의 스펙트럼의 크기 V1를 분리하기 위해서는 첫번째 카테고리에 속하는 음향 사전 W1과 첫번째 카테고리의 최종 음향크기 값 H1을 곱하게 된다.
도 4는 본 발명의 일 실시예에 따른 혼합 음향 신호로부터 각 카테고리에 해당하는 음향을 분리하는 방법을 설명하기 위하여 도시한 도면이다.
도 4를 참조하면, 카테고리에 따른 개별 음향의 스펙트럼의 크기를 나타내는 V행렬은 도면 좌측과 같이 시간과 주파수 축으로 나타낼 수 있는데, 이는 3개의 카테고리에 대한 음향 사전 W와 3개의 최종 음향 크기 값(행렬)간의 Product 연산으로 산출할 수 있음을 알 수 있다.
이 경우 더 나아가 해당 음향만을 역 고속 푸리에 변환(Inverse Fast Fourier Transform, IFFT)을 이용하여 해당 카테고리의 신호를 사람이 들을 수 있는 가청 신호로 전환할 수도 있다.
도 5는 본 발명의 일 실시예에 따른 음향 분리 장치를 설명하기 위하여 도시한 도면이다.
도 5를 참조하면, 본 발명의 일 실시예에 따른 음향 분리 장치는 음향 생성부(510), 음향 분할부(520), 사전 생성부(530) 및 음향 분리부(540)를 포함한다.
음향 생성부(510)는 음향 정보를 미리 설정된 카테고리별로 구분하여 음향 신호를 생성한다.
여기서, 카테고리별로 생성된 음향 신호가 음향 사전 생성의 기초 신호가 된다.
음향 분할부(520)는 카테고리별 음향 신호 각각을 소정 길이의 프레임들로 분할한다.
사전 생성부(530)는 복수의 프레임을 주파수 영역으로 변환하여 복수의 프레임 스펙트럼을 생성하고, 상기 생성된 복수의 프레임 스펙트럼에 대한 복수개의 대표 값으로 구성되는 음향 사전을 생성한다. 여기서, 생성된 음향 사전이 혼합 음향 신호에서 각 카테고리에 따른 음향 신호를 분리하는 기준이 된다.
음향 분리부(540)는 복수개의 카테고리의 음향이 혼합된 혼합 음향 신호가 입력되면 음향 사전을 이용하여 카테고리별로 음향 신호를 분리한다.
더 나아가, 다른 실시예에서는 분리된 음향을 사람이 들을 수 있는 가청 신호로 전환할 수도 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (6)

  1. 임의의 음향 정보를 카테고리별로 구분하여 음향 신호를 생성하는 단계;
    상기 카테고리별 음향 신호 각각을 소정 길이의 복수의 프레임으로 분할하는 단계;
    상기 복수의 프레임을 주파수 영역으로 변환하여 복수의 프레임 스펙트럼을 생성하고, 상기 생성된 복수의 프레임 스펙트럼에 대한 복수개의 대표 값으로 구성되는 음향 사전을 생성하는 단계; 및
    복수개의 카테고리의 음향이 혼합된 혼합 음향 신호가 입력되면 상기 음향 사전을 이용하여 상기 카테고리별로 음향 신호를 분리하는 단계를 포함하고,
    상기 음향 사전을 생성하는 단계는
    상기 복수의 프레임 스펙트럼에서 복수의 초기 대표 값을 카테고리별로 무작위로 생성하는 초기화 단계;
    상기 프레임 스펙트럼들 각각에서 선정된 복수의 샘플 값을 가장 유사한 초기 대표 값으로 할당하는 군집화 단계;
    상기 대표 값들 각각에 할당된 상기 복수의 샘플들의 평균값을 이용하여 초기 대표 값을 갱신하는 대표 값 갱신 단계;
    상기 군집화 단계 및 대표 값 갱신 단계를 미리 설정된 최대 반복 횟수만큼 반복해서 최종 대표 값을 산출하는 대표 값 결정 단계; 및
    상기 최종 대표 값을 이용하여 음향 사전을 생성하는 단계를 포함하는 음향 분리 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 군집화 단계는
    상기 샘플 값들 각각을 상기 복수의 대표 값과 비교하는 단계;
    상기 비교 결과에 기초하여 상기 각각의 샘플 값들과 상기 각각의 대표 값들의 유사한 정도를 산출하는 단계; 및
    상기 유사한 정도가 가장 큰 상기 대표 값에 상기 샘플 값을 할당하는 단계를 포함하는 음향 분리 방법.
  4. 제3항에 있어서,
    상기 유사한 정도를 산출하는 단계는
    상기 샘플 값들 각각과 상기 최종 대표 값들 각각의 코사인 유사도를 기초로 수행되는 음향 분리 방법.
  5. 제1항에 있어서,
    상기 음향 사전을 이용하여 상기 카테고리별로 음향을 분리하는 단계는
    입력된 혼합 음향 신호를 주파수 영역으로 변환하여 혼합 음향 스펙트럼을 생성하는 단계;
    상기 혼합 음향 스펙트럼 각각의 최초 음향크기 값을 무작위로 생성하는 단계;
    상기 음향 사전 및 상기 혼합 음향 스펙트럼에 기초하여 상기 최초 음향크기 값을 갱신하는 단계;
    상기 최초 음향크기 값을 갱신하는 단계를 미리 설정된 최대 반복 횟수만큼 반복해서 최종 음향크기 값을 산출하는 단계; 및
    상기 음향 사전 및 상기 최종 음향크기 값에 기초하여 상기 카테고리별로 음향 신호를 분리하는 단계를 포함하는 음향 분리 방법.
  6. 음향 정보를 미리 설정된 카테고리별로 구분하여 음향 신호를 생성하는 음향 생성부;
    상기 카테고리별 음향 신호 각각을 소정 길이의 복수의 프레임으로 분할하는 음향 분할부;
    복수의 프레임을 주파수 영역으로 변환하여 복수의 프레임 스펙트럼을 생성하고, 상기 생성된 복수의 프레임 스펙트럼에 대한 복수개의 대표 값으로 구성되는 음향 사전을 생성하는 사전 생성부; 및
    복수개의 카테고리의 음향이 혼합된 혼합 음향 신호가 입력되면 상기 음향 사전을 이용하여 상기 카테고리별로 음향 신호를 분리하는 음향 분리부를 포함하고,
    상기 사전 생성부는
    상기 복수의 프레임 스펙트럼에서 복수의 초기 대표 값을 카테고리별로 무작위로 생성하고,
    상기 프레임 스펙트럼들 각각에서 선정된 복수의 샘플 값을 가장 유사한 초기 대표 값으로 할당하고,
    상기 대표 값들 각각에 할당된 상기 복수의 샘플들의 평균값을 이용하여 초기 대표 값을 갱신하고,
    상기 프레임 스펙트럼들 각각에서 선정된 복수의 샘플 값을 가장 유사한 초기 대표 값으로 할당하는 과정 및 상기 대표 값들 각각에 할당된 상기 복수의 샘플들의 평균값을 이용하여 초기 대표 값을 갱신하는 과정을 미리 설정된 최대 반복 횟수만큼 반복해서 최종 대표 값을 산출한 후,
    상기 최종 대표 값을 이용하여 음향 사전을 생성하는 음향 분리 장치.
KR1020140148099A 2014-10-29 2014-10-29 음향 분리 방법 및 장치 KR101593672B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140148099A KR101593672B1 (ko) 2014-10-29 2014-10-29 음향 분리 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140148099A KR101593672B1 (ko) 2014-10-29 2014-10-29 음향 분리 방법 및 장치

Publications (1)

Publication Number Publication Date
KR101593672B1 true KR101593672B1 (ko) 2016-02-15

Family

ID=55357456

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140148099A KR101593672B1 (ko) 2014-10-29 2014-10-29 음향 분리 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101593672B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194176A (zh) * 2017-05-23 2017-09-22 复旦大学 一种残疾人智能操作的数据填补与行为预测的方法
CN111883165A (zh) * 2020-07-02 2020-11-03 中移(杭州)信息技术有限公司 说话人语音切分方法、装置、电子设备及存储介质
KR102438701B1 (ko) * 2021-04-12 2022-09-01 한국표준과학연구원 마이크로폰 어레이를 이용한 음성신호 제거방법 및 제거장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jort F. Gemmeke et al., ‘An exemplar-based NMF approach to audio event detection’, 2013 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, October 2013.*

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194176A (zh) * 2017-05-23 2017-09-22 复旦大学 一种残疾人智能操作的数据填补与行为预测的方法
CN107194176B (zh) * 2017-05-23 2020-07-28 复旦大学 一种残疾人智能操作的数据填补与行为预测的方法
CN111883165A (zh) * 2020-07-02 2020-11-03 中移(杭州)信息技术有限公司 说话人语音切分方法、装置、电子设备及存储介质
KR102438701B1 (ko) * 2021-04-12 2022-09-01 한국표준과학연구원 마이크로폰 어레이를 이용한 음성신호 제거방법 및 제거장치

Similar Documents

Publication Publication Date Title
EP3707716B1 (en) Multi-channel speech separation
Nugraha et al. Multichannel audio source separation with deep neural networks
JP6092293B2 (ja) テキスト読み上げシステム
JP5768093B2 (ja) 音声処理システム
Hoshen et al. Speech acoustic modeling from raw multichannel waveforms
US8438026B2 (en) Method and system for generating training data for an automatic speech recognizer
Thakur et al. Speech recognition using euclidean distance
JP6437581B2 (ja) 話者適応型の音声認識
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP2016066088A (ja) 音声合成方法、装置及びプログラム
CN109427328A (zh) 一种基于滤波网络声学模型的多通道语音识别方法
WO2013030134A1 (en) Method and apparatus for acoustic source separation
Waghmare et al. Emotion recognition system from artificial marathi speech using MFCC and LDA techniques
Ohtani et al. Non-parallel training for many-to-many eigenvoice conversion
KR101593672B1 (ko) 음향 분리 방법 및 장치
Nanavare et al. Recognition of human emotions from speech processing
CN108369803B (zh) 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法
JP2010049249A (ja) 音声認識装置及び音声認識装置のマスク生成方法
JP6349112B2 (ja) サウンドマスキング装置、方法及びプログラム
JP2015018080A (ja) 音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラム
CN111696573A (zh) 声源信号处理方法及装置、电子设备和存储介质
JP2020034870A (ja) 信号解析装置、方法、及びプログラム
Dong et al. Mapping frames with DNN-HMM recognizer for non-parallel voice conversion
Mandel et al. Learning a concatenative resynthesis system for noise suppression
GB2546325A (en) Speaker-adaptive speech recognition

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190201

Year of fee payment: 4