KR101081050B1 - 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법 및 시스템 - Google Patents

비음수 행렬 인수분해에 기초한 목표 신호 검출 방법 및 시스템 Download PDF

Info

Publication number
KR101081050B1
KR101081050B1 KR1020100040367A KR20100040367A KR101081050B1 KR 101081050 B1 KR101081050 B1 KR 101081050B1 KR 1020100040367 A KR1020100040367 A KR 1020100040367A KR 20100040367 A KR20100040367 A KR 20100040367A KR 101081050 B1 KR101081050 B1 KR 101081050B1
Authority
KR
South Korea
Prior art keywords
target
target signal
signal
projection error
subspace
Prior art date
Application number
KR1020100040367A
Other languages
English (en)
Other versions
KR20110120788A (ko
Inventor
김남수
진유광
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020100040367A priority Critical patent/KR101081050B1/ko
Publication of KR20110120788A publication Critical patent/KR20110120788A/ko
Application granted granted Critical
Publication of KR101081050B1 publication Critical patent/KR101081050B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Abstract

본 발명은 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법 및 시스템에 관한 것으로서, 보다 구체적으로는 (1) 목표 신호의 주파수 특성을 비음수 행렬 인수분해 함으로써 목표 기초 벡터를 추출하고, 추출된 상기 목표 기초 벡터를 이용하여 목표 부분 공간을 구성하는 단계; (2) 수신된 입력 신호를 상기 구성된 목표 부분 공간에 투영함으로써 투영 오차를 계산하는 단계; 및 (3) 상기 계산된 투영 오차에 기초하여 목표 신호의 존재 여부를 판단하는 단계를 포함하는 목표 신호 검출 방법 및 이를 구현한 목표 신호 검출 시스템을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법 및 시스템에 따르면, 종래 기술인 음성 활성화 검출 기법이 음성에만 특화되어 있다는 단점을 극복하여, 다양한 신호가 섞여 있는 환경에서 일반적인 신호를 검출하는 용도에 사용할 수 있다. 특히, 본 발명은 비음수 행렬 인수분해 기법에 기초하여 사용자가 검출하기를 원하는 특정한 목표 신호에 대하여 입력 신호 중 해당 목표 신호가 존재하는 구간을 검출함으로써, 정확도가 높고 안정적인 결과를 얻을 수 있다.

Description

비음수 행렬 인수분해에 기초한 목표 신호 검출 방법 및 시스템{A METHOD AND A SYSTEM FOR DETECTING THE TARGET SIGNAL BASED ON NON-NEGATIVE MATRIX FACTORIZATION}
본 발명은 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법 및 시스템에 관한 것으로서, 특히 사용자가 검출하기를 원하는 특정한 목표 신호에 대하여 입력 신호 중 해당 목표 신호가 존재하는 구간을 검출하기 위한 새로운 개념의 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법 및 시스템에 관한 것이다.
일반적으로 수신 입력 신호에는 사람이 관심 있게 듣고자 하는 소리 이외에 다양한 신호 및 잡음이 함께 존재한다. 이와 같이 다양한 신호가 혼재할 경우 사람이 본래 듣고자 하는 소리를 인지하는 데에 방해가 되어 가해성과 명료성이 떨어지게 된다. 만약 목표 신호 성분이 존재하는 구간을 검출할 수 있다면, 해당 신호의 특성을 더욱 정확히 분석할 수 있으며 다양한 신호 처리 기법이 폭넓게 적용될 수 있다. 특히 사용자가 원하는 특정 목표 신호 성분만을 검출하여 제거하거나 혹은 보존하기 위해서는 입력 신호 중 목표 신호를 검출하는 기술이 반드시 요구된다.
이러한 문제를 해결하기 위하여 종래에는 음성 활성화 검출(Voice Activity Detection, VAD) 방법이 사용되었다. 이 방법은 음성 통신에서 매우 유용하게 사용되는 기술로서, 입력 신호 중에서 음성이 활성화 된 구간을 검출하는 방법이다. 이를 통하여 잡음이 섞인 신호에서 음성 신호를 검출하는 것이 가능하지만, 음성 활성화 검출 방법은 음성에만 특화되어 있어 다양한 신호가 섞여 있는 환경에서 일반적인 신호를 검출하는 용도에는 적용될 수 없다.
비음수 행렬 인수분해(Nonnegative Matrix Factorization) 기법은, 하나의 행렬을 두 행렬의 곱 형태로 분해하여 표현하는 기법 중 하나이다. 일반적으로 행렬을 분해하는 방법은 유일하지 않으며, 서로 다른 제약 조건 하에서 다양한 인수분해 기법들이 연구되어 왔다. 비음수 행렬 인수분해 기법이 여타 기법들과 차이를 보이는 점은, 분해된 두 행렬의 원소들이 모두 비음수 조건을 만족하도록 인수분해 한다는 것이다. 즉 비음수 행렬 인수분해 기법은 하나의 행렬을 두 행렬의 곱으로 분해하여 표현할 때 두 행렬의 원소들 각각이 0 또는 0보다 큰 양의 값을 지니도록 분해한다.
하나의 행렬을 두 행렬의 곱으로 분해한다는 것은, 하나의 벡터를 여러 벡터의 선형 결합(Linear Combination)으로 표현한다는 것과 같다. 또한, 이것을 신호 공간(Signal Space)의 차원에서 정의하면, 선형 결합을 이루는 여러 벡터를 기초로 부분 공간(Subspace)을 구성하고, 하나의 벡터를 이 부분 공간에 투영(Projection)하여 나타내는 것을 의미한다. 이러한 투영 과정에는 필연적으로 투영 오차가 존재하며, 이는 하나의 벡터와 부분 공간 사이의 거리를 정의하는 척도로 작용한다. 따라서 입력 신호를 하나의 기초 벡터들의 선형 결합으로 표현한다면, 즉 입력 신호를 하나의 부분 공간에 투영한다면 그 투영 오차의 크기로부터 입력 신호와 특정 기초 벡터들 간의 유사도를 판단할 수 있다.
본 발명에서는, 사용자가 검출하기를 원하는 특정한 목표 신호에 대하여 입력 신호 중 해당 목표 신호가 존재하는 구간을 검출하기 위한 방법으로서, 상기 언급한 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법 및 시스템을 제안한다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 종래 기술인 음성 활성화 검출 기법이 음성에만 특화되어 있다는 단점을 극복하여, 다양한 신호가 섞여 있는 환경에서 일반적인 신호를 검출하는 용도에 사용할 수 있는 새로운 개념의 목표 신호 검출 방법 및 시스템을 제공하는 것을 그 목적으로 한다.
특히, 본 발명은 비음수 행렬 인수분해 기법에 기초하여 사용자가 검출하기를 원하는 특정한 목표 신호에 대하여 입력 신호 중 해당 목표 신호가 존재하는 구간을 검출함으로써, 정확도가 높고 안정적인 결과를 얻을 수 있는 목표 신호 검출 방법 및 시스템을 제공하는 것을 또 다른 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른, 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법은,
(1) 목표 신호의 주파수 특성을 비음수 행렬 인수분해 함으로써 목표 기초 벡터를 추출하고, 추출된 상기 목표 기초 벡터를 이용하여 목표 부분 공간을 구성하는 단계;
(2) 수신된 입력 신호를 상기 구성된 목표 부분 공간에 투영함으로써 투영 오차를 계산하는 단계; 및
(3) 상기 계산된 투영 오차에 기초하여 목표 신호의 존재 여부를 판단하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는,
상기 단계 (2)에서 계산된 상기 투영 오차의 시간에 따른 변화를 분석하여 최적 문턱 값을 결정하는 단계를 더 포함하되,
상기 단계 (3)에서, 상기 결정된 최적 문턱 값을 상기 계산된 투영 오차와 비교함으로써 목표 신호의 존재 여부를 판단할 수 있다.
더욱 바람직하게는, 최적 문턱 값을 결정하는 상기 단계는,
상기 단계 (2)에서 계산된 투영 오차에 대하여 시간에 따른 변화 히스토그램을 구성하는 단계;
상기 구성된 변화 히스토그램을 가우시안 혼합모델로 근사화하는 단계; 및
상기 근사화된 가우시안 혼합모델의 낮은 위치에서부터의 처음 두 봉우리의 평균과 표준편차로부터 최적 문턱 값을 결정하는 단계를 포함하여 구성될 수 있다.
더더욱 바람직하게는,
상기 목표 기초 벡터를 5개 내지 15개 추출할 수 있다.
상기한 목적을 달성하기 위한 본 발명의 또 다른 특징에 따른, 비음수 행렬 인수분해에 기초한 목표 신호 검출 시스템은,
(a) 목표 신호의 주파수 특성을 비음수 행렬 인수분해 함으로써 목표 기초 벡터를 추출하고, 추출된 상기 목표 기초 벡터를 이용하여 목표 부분 공간을 구성하는 목표 부분 공간 구성 모듈;
(b) 수신된 입력 신호를 상기 목표 부분 공간 구성 모듈에서 구성한 목표 부분 공간에 투영함으로써 투영 오차를 계산하는 투영 오차 계산 모듈; 및
(c) 상기 투영 오차 계산 모듈에서 계산된 투영 오차에 기초하여 목표 신호의 존재 여부를 판단하는 목표 신호 존재 여부 판단 모듈을 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는,
상기 투영 오차 계산 모듈에서 계산된 투영 오차의 시간에 따른 변화를 분석하여 최적 문턱 값을 결정하는 최적 문턱 값 결정 모듈을 더 포함하되,
상기 목표 신호 존재 여부 판단 모듈은, 상기 최적 문턱 값 결정 모듈에서 결정된 최적 문턱 값과 상기 투영 오차 계산 모듈에서 계산된 투영 오차를 비교함으로써 목표 신호의 존재 여부를 판단할 수 있다.
본 발명에서 제안하고 있는 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법 및 시스템에 따르면, 종래 기술인 음성 활성화 검출 기법이 음성에만 특화되어 있다는 단점을 극복하여, 다양한 신호가 섞여 있는 환경에서 일반적인 신호를 검출하는 용도에 사용할 수 있다.
특히, 본 발명은 비음수 행렬 인수분해 기법에 기초하여 사용자가 검출하기를 원하는 특정한 목표 신호에 대하여 입력 신호 중 해당 목표 신호가 존재하는 구간을 검출함으로써, 정확도가 높고 안정적인 결과를 얻을 수 있다.
도 1은 본 발명의 일 실시예에 따른 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법의 구성을 나타내는 도면.
도 2는 본 발명의 일 실시예에 따른 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법의 시간에 따른 입력 신호의 투영 오차를 분석하여 최적 문턱 값을 결정하는 단계(S600)를 나타내는 도면.
도 3은 본 발명의 일 실시예에 따른 비음수 행렬 인수분해에 기초한 목표 신호 검출 시스템의 구성을 나타내는 도면.
도 4는 본 발명의 일 실시예에 따른 비음수 행렬 인수분해에 기초한 목표 신호 검출 시스템의 구성을 나타내는 도면.
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 본 발명의 일 실시예에 따른 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법의 구성을 나타내는 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법은, 검출하고자 하는 목표 신호로부터 목표 신호 스펙트럼을 구하는 단계(S100), 단계 S100에서 구해진 목표 신호 스펙트럼으로부터 비음수 행렬 인수분해에 기초하여 목표 기초 벡터를 추출하는 단계(S200), 단계 S200에서 추출된 목표 기초 벡터로부터 목표 부분 공간을 구성하는 단계(S300), 수신된 입력 신호로부터 입력 신호 스펙트럼을 구하는 단계(S400), 단계 S400에서 구해진 입력 신호 스펙트럼을 단계 S300에서 구성한 목표 부분 공간에 투영하고, 그 투영 오차를 계산하는 단계(S500), 단계 S500에서 계산된 시간에 따른 입력 신호의 투영 오차를 분석하여 최적 문턱 값을 결정하는 단계(S600), 및 단계 S600에서 결정된 최적 문턱 값을 기준으로 각 시간에서의 투영 오차 크기의 대소를 비교하여 목표 신호 존재 여부를 판단하는 단계(S700)를 포함하여 구성될 수 있다.
단계 S100에서는, 목표 신호를 주파수 변환하여 목표 신호 스펙트럼을 구한다. 단계 S100에서 구해진 목표 신호 스펙트럼은, 비음수 행렬 인수분해에 기초하여 목표 기초 벡터를 추출하는 단계 S200에 대입되어 사용된다.
단계 S200에서는, 단계 S100에서 구한 목표 신호 스펙트럼을 이용하여, 비음수 행렬 인수분해(Nonnegative Matrix Factorization) 기법에 기초하여 목표 기초 벡터를 추출한다. 비음수 행렬 인수분해 기법은 하나의 행렬을 두 행렬의 곱 형태로 분해하여 표현하는 기법 중 하나로서, 분해된 두 행렬의 원소들이 모두 비음수 조건을 만족하도록 인수분해 한다. 따라서 하나의 행렬 V를 다음 수학식 1과 같이 행렬 W와 H의 곱으로 표현할 수 있다.
Figure 112010027986412-pat00001
여기서, V는 n×m 행렬, W는 n×r 행렬, H는 r×m 행렬이다. 또한, r은 행렬 분해의 크기를 결정하는 상수로서, 사용자가 결정할 수 있다.
일반적으로 행렬의 비음수 행렬 인수분해 과정은 성분 값 갱신을 반복하며 행렬 V와 WH 간의 거리를 최소화하는 방향으로 근사한다. 따라서 어떠한 거리 함수를 적용할 것인가에 따라 성분 값 갱신 식이 달라진다. 일반적으로 널리 사용되는 Euclidean distance는 다음 수학식 2 와 같다.
Figure 112010027986412-pat00002
상기 수학식 2로 표시된 Euclidean distance를 최소화하는 성분 값 갱신 식은 다음 수학식 3과 같은 형태로 유도된다.
Figure 112010027986412-pat00003
본 발명에서는 사용자가 검출하기를 원하는 목표 신호를 주파수 변환하여 목표 신호 스펙트럼을 구한 후, 시간에 따른 목표 신호 스펙트럼을 행렬 V로 두어 수학식 3에 의해 행렬 W와 H로 분리한다. 이 중 W의 각 열(column)은 목표 기초 벡터가 되어 사용자가 검출하고자 하는 목표 신호의 특성을 대표한다.
위와 같이 목표 기초 벡터를 추출하는 과정에 있어서, 목표 기초 벡터는 2개 내지 10개를 추출할 수 있다. 이에 따른 효과는 이하 실험 결과를 통하여 자세히 설명하도록 한다.
단계 S300에서는, 목표 기초 벡터로부터 목표 부분 공간을 구성하게 된다. 단계 S200에서 하나의 행렬을 두 행렬의 곱으로 분해하는 것은, 하나의 벡터를 여러 벡터의 선형 결합으로 표현하는 것과 동일하다. 또한, 이것을 신호 공간의 차원에서 정의하면, 선형 결합을 이루는 여러 벡터에 기초하여 부분 공간을 구성하고, 하나의 벡터를 이 부분 공간에 투영하여 나타내는 것을 의미한다. 그러므로 이러한 과정을 통하여 목표 기초 벡터로부터 목표 부분 공간을 구성할 수 있다.
단계 S400에서는, 수신된 입력신호를 주파수 변환하여 입력 신호 스펙트럼을 구한다. 단계 S400에서 구해진 입력 신호 스펙트럼은, 입력 신호 스펙트럼을 목표 부분 공간에 투영하고, 그 투영 오차를 계산하는 단계 S500에 대입되어 사용된다.
단계 S500에서는, 입력 신호의 스펙트럼을 단계 S200에서 구한 목표 기초 벡터들의 선형 결합으로 표현함으로써 목표 부분 공간에 투영한다. 투영 과정에는 필연적으로 투영 오차가 존재하며, 이는 하나의 벡터와 부분 공간 사이의 거리를 정의하는 척도로 작용한다. 따라서 입력 신호를 특정한 기초 벡터들의 선형 결합으로 표현한다면, 즉 입력 신호를 특정한 부분 공간에 투영한다면 그 투영 오차의 크기로부터 입력 신호와 특정 기초 벡터들 간의 유사도를 판단할 수 있다. 일 실시예로 입력 벡터 X와 특정 기초 벡터 W1, W2, …, Wr로 구성된 부분 공간 사이의 거리를 Euclidean distance로 정의한다면 입력 벡터의 크기에 대해 정규화된 투영 오차는 다음 수학식 4와 같이 계산된다.
Figure 112010027986412-pat00004
수학식 4에 의해 계산되는 정규화 된 투영 오차는 입력 신호와 부분 공간 사이의 유사도를 의미한다. 따라서 앞서 구성한 사용자가 검출하고자 하는 목표 신호의 목표 부분 공간에 입력 수신 신호의 스펙트럼을 투영한 투영 오차로부터 입력 신호와 목표 신호의 유사도를 구할 수 있다. 목표 신호와 비슷한 특성을 지닌 입력 신호의 경우 투영 오차가 상대적으로 작으며, 반대로 목표 신호와 전혀 다른 입력 신호의 경우 상대적으로 큰 투영 오차 값을 지닌다. 따라서 본 발명에서는 시간에 따른 투영 오차의 크기를 분석하고 일정 문턱 값을 기준으로 문턱 값보다 작은 투영 오차를 지닌 구간을 목표 신호 존재 구간으로 검출한다.
본 발명에서 제안한 투영 오차에 기초한 목표 신호 검출 방법에서 무엇보다 중요한 것은, 신호의 크기나 잡음의 여부에 강인하다는 면이다. 우선 수학식 4에서 투영 오차를 입력 신호의 크기로 정규화하기 때문에, 동일한 특성을 지닌 신호가 다양한 크기로 변조되어 입력될지라도 동일한 크기의 정규화 된 투영 오차 값을 얻는다. 따라서 다음 단계에서 투영 오차의 대소를 비교할 때에도 입력 신호의 크기에 무관하게 신호 특성만을 비교할 수 있다는 장점이 있다. 또한 본 발명에서 제안한 방법은 입력 신호 스펙트럼을 목표 부분 공간에 투영하여 투영 오차를 구하고 그 크기 대소로부터 구간을 검출하기 때문에, 목표 신호와 다른 신호가 섞여 입력되는 경우 원칙적으로 목표 신호 성분은 그 크기에 관계없이 모두 부분 공간에 오차 없이 투영되고 다른 신호 성분의 영향만이 남게 된다. 이러한 특성을 이용하여 배경 잡음으로 부분 공간을 구성하고 입력 신호를 투영할 경우, 잡음의 크기에 관계없이 배경 잡음 성분은 모두 깨끗하게 투영되고 남은 신호 성분만이 검출된다. 따라서 이러한 특성을 잡음이 섞인 음성 신호의 음성 활성화 검출 등에 응용하면 우수한 성능을 기대할 수 있다.
단계 S600에서는, 시간에 따른 입력 신호의 투영 오차를 분석하여, 최적 문턱 값을 결정한다. 입력 신호 중 목표 신호 존재 구간을 정확히 검출하기 위해서는 최적의 문턱 값을 결정해야 한다. 이를 위하여, 단계 S600은, 투영 오차로 시간에 따른 변화 히스토그램을 구성하는 단계(S610), 히스토그램을 가우시안 혼합 모델로 근사화하는 단계(S630), 및 가우시안 혼합 모델의 낮은 위치에서부터의 처음 두 봉우리의 평균과 표준편차로부터 최적 문턱 값을 결정하는 단계(S650)로 구성될 수 있다.
단계 S610에서는, 최적 문턱 값을 결정하기 위해 시간에 따른 투영 오차 값을 분석하여 히스토그램을 구성하고 그 결과를 바탕으로 문턱 값을 결정한다. 목표 신호와 유사한 신호의 투영 오차는 상대적으로 크기가 작고, 목표 신호와 전혀 다른 특성을 지닌 신호의 투영 오차는 상대적으로 매우 크다. 또한 서로 비슷한 특성의 두 신호의 경우에는 그 투영 오차 역시 유사한 값을 지닌다. 따라서 몇 가지의 서로 다른 종류의 신호들이 섞여서 입력될 경우 그 투영 오차 값의 분포는 신호의 종류 개수만큼의 봉우리 형태로 근사할 수 있다. 이러한 특징에 의거하여 본 발명에서는 일정 수준 이하의 투영 오차 범위 내에서 투영 오차 값의 분포가 가장 밀집된 구간이 목표 신호의 투영 오차 평균에 근사한다고 가정하여 최적 문턱 값을 결정한다. 히스토그램의 구간 경계 값은 다음 수학식 5를 통해 결정한다.
Figure 112010027986412-pat00005
여기서, E는 시간에 따른 투영 오차 값을 나타내며, N은 전체 투영 오차 값을 구분 짓는 구간의 개수로 실험적으로 결정한다.
단계 S630에서는, 상기 수학식 5로 결정한 s[i]를 히스토그램의 구간 경계 값으로 하여 투영 오차 값이 s[i]와 s[i+1] 사이에 속하는 프레임(frame)의 개수를 누적 계산하고, 이 중 낮은 위치에서부터 첫 번째 봉우리와 두 번째 봉우리를 찾는다. 동일한 종류의 신호는 비슷한 투영 오차 값을 지니므로 히스토그램 분포 상에서 좁은 구역에 모여 봉우리를 이루고 있으며, 따라서 다양한 특성의 신호가 섞여있을 경우에는 신호의 종류 숫자만큼 서로 다른 위치에서 봉우리들을 형성하게 된다. 그리고 목표 신호의 경우는 자신의 부분공간에 투영된 것이므로 그 투영 오차가 가장 작다. 따라서 낮은 위치에서부터의 첫 번째 봉우리 분포가 사용자가 검출하고자 하는 목표 신호이며, 그들을 분리하기 위해서는 다음 두 번째 봉우리와의 사이에서 문턱 값(threshold)을 결정해야 한다. 본 발명에서는 투영 오차 값의 히스토그램 분포를 가우시안 혼합 모델(Gaussian Mixture Model)로 근사화하게 된다.
단계 S650에서는, 근사화된 가우시안 혼합 모델을 바탕으로 첫 번째 봉우리의 위치 P1과 두 번째 봉우리의 위치 P2, 첫 번째 봉우리의 표준편차 σ1과 두 번째 봉우리의 표준편차 σ2를 추정한 후, 일 실시예로 문턱 값을 다음 수학식 6과 같이 결정한다.
Figure 112010027986412-pat00006
여기서, β와 γ1, γ2는 실험 결과에 기초한 상수 값들이다.
단계 S700에서는, 최적 문턱 값을 기준으로 각 시간에서의 투영 오차 크기의 대소를 비교하여 목표 신호의 존재 여부를 판단한다. 본 단계는, 시간에 따른 입력 신호의 투영 오차 E(t)와 수학식 6으로부터 계산된 최적 문턱 값(threshold)의 크기를 비교하여 매 프레임마다 목표 신호의 존재 여부를 판단한 후, 다음 수학식 7과 같이 결과 S(t)을 출력하는 과정으로 이루어진다.
Figure 112010027986412-pat00007
도 1에 도시된 본 발명의 일 실시예에 따른 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법은, 다음과 같은 목표 신호 검출 시스템으로 구현될 수 있다. 도 2 및 도 3은 본 발명의 일 실시예에 따른 비음수 행렬 인수분해에 기초한 목표 신호 검출 시스템의 구성을 나타내는 도면이다.
도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 비음수 행렬 인수분해에 기초한 목표 신호 검출 시스템(10)은, 목표 신호의 주파수 특성을 비음수 행렬 인수분해 함으로써 목표 기초 벡터를 추출하고, 추출된 목표 기초 벡터를 이용하여 목표 부분 공간을 구성하는 목표 부분 공간 구성 모듈(100), 수신된 입력 신호를 목표 부분 공간 구성 모듈에서 구성한 목표 부분 공간에 투영함으로써 투영 오차를 계산하는 투영 오차 계산 모듈(200), 및 투영 오차 계산 모듈(200)에서 계산된 투영 오차에 기초하여 목표 신호의 존재 여부를 판단하는 목표 신호 존재 여부 판단 모듈(300)을 포함하여 구성될 수 있다.
목표 부분 공간 구성 모듈(100)은, 검출하고자 하는 목표 신호로부터 목표 신호 스펙트럼을 구하고, 구해진 목표 신호 스펙트럼으로부터 비음수 행렬 인수분해에 기초하여 목표 기초 벡터를 추출한다. 다음으로 목표 기초 벡터로부터 목표 부분 공간을 구성한다.
투영 오차 계산 모듈(200)은, 수신된 입력 신호로부터 입력 신호 스펙트럼을 구하고, 구해진 입력 신호 스펙트럼을 목표 부분 공간에 투영하여 그 투영 오차를 계산한다. 또한, 시간에 따른 입력 신호의 투영 오차를 분석하고 최적 문턱 값을 결정한다.
목표 신호 존재 여부 판단 모듈(300)은, 최적 문턱 값을 기준으로 각 시간에서의 투영 오차 크기의 대소를 비교하고 그 비교 결과를 분석하여 목표 신호 존재 여부를 판단한다.
도 3을 참고하면, 본 발명의 일 실시예에 따른 목표 신호 검출 시스템(10)에서, 목표 부분 공간 구성 모듈(100)은, 목표 신호 주파수를 목표 신호 스펙트럼으로 변환하는 목표 주파수 변환부(110)와, 목표 신호 스펙트럼으로부터 비음수 행렬 인수분해에 기초하여 목표 기초 벡터를 추출하는 목표 기초 벡터 추출부(130), 및 목표 기초 벡터로부터 목표 부분 공간을 구성하는 목표 부분 공간 구성부(150)를 포함할 수 있다. 목표 주파수 변환부(110), 목표 기초 벡터 추출부(130) 및 목표 부분 공간 구성부(150)는, 각각 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법의 단계 S100, S200, S300에서의 일련의 과정과 동일한 과정을 수행하는 부분이므로 자세한 설명은 생략한다.
또한, 본 발명의 일 실시예에 따른 목표 신호 검출 시스템(20)에서, 투영 오차 계산 모듈(200)은, 수신 입력 신호를 입력 신호 스펙트럼으로 변환하는 수신 주파수 변환부(210), 입력 신호 스펙트럼을 목표 부분 공간에 투영하고, 그 투영 오차를 계산하는 목표 부분 공간 투영부(230), 및 시간에 따른 입력 신호의 투영 오차를 분석하고 최적 문턱 값을 결정하는 최적 문턱값 결정 모듈(250)을 포함할 수 있다. 수신 주파수 변환부(210), 목표 부분 공간 투영부(230) 및 최적 문턱 값 결정부(250)는, 각각 비음수 행렬 인수분해 기반의 목표 신호 검출 기법의 단계 S400, S500, S600에서의 일련의 과정과 동일한 과정을 수행하는 부분이므로 자세한 설명은 생략한다.
또한 본 발명의 일 실시예에 따른 목표 신호 검출 시스템(20)에서, 목표 신호 검출 모듈(300)은, 최적 문턱 값을 기준으로 각 시간에서의 투영 오차 크기의 대소를 비교하는 투영 오차의 크기 대소 비교부(310)와, 결정된 최적 문턱 값과 비교하여 목표 신호의 존재 여부를 판단하는 목표 신호 존재 여부 판단부(330)를 포함할 수 있다. 투영 오차의 크기 대소 비교부(310)와 목표 신호 존재 여부 판단부(330)는, 비음수 행렬 인수분해 기반의 목표 신호 검출 기법의 단계 S700에서의 일련의 과정과 동일한 과정을 수행하는 부분이므로 자세한 설명은 생략한다.
실험 결과
본 발명에서 제안한 목표 신호 검출 방법의 유용성을 확인하기 위해 목표 기초 벡터의 수에 따른 목표 신호 추출 테스트를 수행하였다. 목표 신호를 추출하는 테스트는 여러 가지 r(목표 기초 벡터)에 대하여 수행되었다. 이 시험은 목표 신호 발견 확률 Pd와 목표 기초 벡터 수 사이의 관계를 조사하기 위하여 실행되었다. 이 테스트에 관해서, 4개의 신호, 즉, HF channel noise, Car interior noise, Destroyer operations room noise 및 Jet cockpit noise 1이 적용되었다. 그리고 white noise는 배경 소리로서 사용되었다. 각 테스트 파일은 40초 길이이며, 2초 길이의 목표 신호를 5번 삽입하였다. 신호대 잡음비(SNR)가 0㏈로 유지되는 동안, 목표 신호의 데이터에 따른 목표 기초 벡터의 수는 1에서 30까지 변화시켰다.
도 5는 본 발명에서 제안하고 있는 목표 신호 검출 방법에 있어서, 목표 기초 벡터의 수와 목표 신호 검출 확률의 관계를 나타내는 그래프이다. 도 5에서 확인할 수 있는 바와 같이, 목표 기초 벡터의 수가 10개 이하일 경우, 각각의 목표 신호는 불안정하고 불규칙적인 변화를 보여주는 것을 볼 수 있다. 한편, 목표 기초 벡터의 수가 10을 초과할 경우에는 목표 신호 발견 확률 Pd가 일정하게 얻어지는 것을 확인할 수 있다. 이와 같은 결과를 참조할 때, 너무 적은 개수의 목표 기초 벡터로는 목표 신호를 다른 신호로부터 효율적으로 분리할 수 없음을 확인할 수 있다. 또한, 매우 많은 목표 기초 벡터를 사용할 경우에는 목표하지 않은 신호가 부분 공간의 차원이 증가함에 따라 적은 투영 오차를 가지므로 인하여 결과의 신뢰도가 하락한다. 따라서 너무 많은 목표 기초 벡터의 사용도 바람직하지 않다.
또한 본 발명에서 제안한 목표 신호 검출 기법의 유용성을 확인하기 위해 신호 검출 테스트를 수행하였다. 실제 신호 수신 환경을 시뮬레이션하는 대신에, 기존에 존재하는 다양한 특성의 잡음 신호를 시간에 따라 교대로 혹은 동시에 배치하고 각각의 잡음을 목표 신호로 하여 목표 신호를 검출하는 테스트를 수행하였다. 테스트에 사용된 잡음 파일은 NOISEX-92 잡음 데이터베이스를 사용하였으며, 각 잡음 파일은 8㎑로 샘플링되었다.
먼저, 다양한 특성의 신호가 번갈아가며 배치된 상황에서 사용자가 검출하고자 하는 목표 신호가 존재하는 구간을 검출하는 테스트를 수행하였다. 이 실험은 본 발명에서 제안하고 있는 목표 신호 검출 기법이 다양한 신호 종류에 대해서 얼마나 정확하게 목표 신호를 검출할 수 있는지를 확인하기 위해 구상되었다. 실험에 사용된 신호는 White noise, HF channel noise, Car interior noise, Destroyer operations room noise 및 Jet cockpit noise 1로서, 5종류의 잡음을 각각 8초 길이로 차례로 배치하여 총 40초 길이의 파일을 실험에 사용하였다. 각각의 신호 크기는 사전에 동일하게 조정되었으며, 목표 신호 부분 공간을 구성하기 위하여 사전에 16초 길이의 잡음 데이터로부터 신호 기초 벡터를 추출하였다. 각각의 신호에 대하여 목표 신호 검출 실험을 수행하였으며, 검출 정확도(accuracy)와 오경보(false alarm), 누락(missing) 비율을 계산하였다. 검출 정확도는 전체 결과에서 목표 신호의 존재 여부를 얼마나 정확하게 검출하였는지를 의미하며, 오경보 비율은 목표 신호가 존재하지 않는 구간에서 목표 신호가 존재한다고 잘못 검출한 비율을, 누락은 반대로 목표 신호가 존재하는 구간에서 목표 신호를 검출하지 못한 비율을 의미한다. 이 결과들은 다음 표 1에 요약되어 있다.
신호 종류 정확도 (%) 오경보 (%) 누락 (%)
White noise 99.84 0.00 0.80
HF channel noise 99.44 0.00 2.80
Car interior noise 99.72 0.35 0.00
Destroyer operations room
noise
99.64 0.15 1.20
Jet cockpit noise 1 99.96 0.00 0.20
평균 99.72 0.10 1.00
상기 표 1에서 확인할 수 있듯이, 서로 다른 특성의 신호들이 번갈아 출현하는 상황에서 사용자가 검출하고자 목표하는 신호를 검출하는 실험의 정확도는 99.7% 이상의 높은 수치를 나타내었으며, 이는 신호 구간 경계에서 발생 가능한 미세한 오차를 감안하면 매우 높은 수준의 정확도임을 확인할 수 있다. 상대적으로 오경보는 0.1%, 누락은 1%의 매우 낮은 수준으로, 본 발명에서 제안한 목표 신호 검출 시스템이 상당히 안정적임을 확인할 수 있다. 상기 결과로부터, 본 발명에서 제안한 목표 신호 검출 방법이 서로 다른 특성의 신호들이 번갈아 출현하는 상황에서 사용자가 검출하고자 하는 목표 신호를 정확하게 검출한다고 결론지을 수 있다.
다음으로, 배경 잡음이 목표 신호와 동시에 섞여 있는 잡음 환경에서 해당 목표 신호를 검출하는 테스트를 수행하였다. 배경 잡음은 White noise를 사용하였으며, 목표 신호는 HF channel noise, Car interior noise, Destroyer operations room noise 및 Jet cockpit noise 1에 대하여 실험하였다. 40초 길이의 배경 잡음 위에 2초 길이의 목표 신호를 5번 삽입하였으며, 배경 잡음의 크기를 조절하며 -5, 0, 5, 10, 15㏈의 신호대 잡음비(SNR, Signal-to-Noise Ratio) 환경에서 각각의 목표 신호에 대한 검출 테스트를 수행하고 검출 정확도를 조사하였다. 이 결과들은 다음 표 2에 요약되어 있다.
신호 종류 -5㏈ 0㏈ 5㏈ 10㏈ 15㏈
HF channel noise 97.56 97.96 97.84 97.80 97.88
Car interior noise 97.96 98.04 97.88 97.72 97.68
Destroyer operations room
noise
98.68 98.28 97.84 97.96 98.12
Jet cockpit noise 1 97.92 98.20 97.92 98.00 97.96
평균 98.03 98.12 97.87 97.87 97.91
상기 표 2에서, 다양한 신호 종류에 대해 여러 SNR 수준의 잡음 환경에서 실험한 결과 98% 내외의 우수한 검출 정확도를 보였으며, 특히 열악한 SNR 환경에서도 큰 차이 없이 정확히 목표 신호를 검출하였다. 다양한 목표 신호에 대해서 고른 성능을 보였으며 배경 잡음인 White noise의 크기에 강인하고 안정적인 성능을 확인할 수 있다. 표 2의 결과의 일부 낮은 SNR 항목에서 오히려 더 높은 검출 결과가 발견되었는데, 현 실험 환경에서의 0.1% 검출 정확도는 40㎳ 시간의 구간에 해당하며 실험에서 발견된 수준의 미세한 역전 현상은 목표 신호 존재 구간의 경계 부분에서 충분히 발생할 수 있는 검출 오차 범위 내로 판단된다. 상기 결과로부터, 본 발명에서 제안한 목표 신호 검출 기법이 잡음 환경에서 목표 신호를 정확히 검출한다고 결론지을 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
S100: 검출하고자 하는 목표 신호로부터 목표 신호 스펙트럼을 구하는 단계
S200: 목표 신호 스펙트럼으로부터 비음수 행렬 인수분해에 기초한 목표 기초 벡터를 추출하는 단계
S300: 목표 기초 벡터로부터 목표 부분 공간을 구성하는 단계
S400: 수신된 입력 신호로부터 입력 신호 스펙트럼을 구하는 단계
S500: 입력 신호 스펙트럼을 목표 부분 공간에 투영하고, 그 투영 오차를 계산하는 단계
S600: 시간에 따른 입력 신호의 투영 오차를 분석하고, 최적 문턱 값을 결정하는 단계
S610: 투영오차로 시간에 따른 변화 히스토그램을 구성하는 단계
S630: 히스토그램을 가우시안 혼합모델로 근사화하는 단계
S650: 가우시안 혼합모델의 낮은 위치에서부터 처음 두 봉우리의 평균과 표준편차로부터 최적 문턱 값을 결정하는 단계
S700: 최적 문턱 값을 기준으로 각 시간에서의 투영 오차 크기의 대소를 비교하여 목표 신호 존재 여부를 판단하는 단계
10: 본 발명의 일 실시예에 따른 목표 신호 검출 시스템
100: 목표 부분 공간 구성 모듈
110: 목표 신호 주파수 변환부
130: 목표 기초 벡터 추출부
150: 목표 부분 공간 구성부
200: 투영 오차 계산 모듈
210: 수신 입력 신호 주파수 변환부
230: 목표 부분 공간 투영부
250: 최적 문턱 값 결정 모듈
300: 목표 신호 존재 여부 판단 모듈
310: 투영 오차의 크기 대소 비교부
330: 목표 신호 존재 여부 판단부

Claims (6)

  1. 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법으로서,
    (1) 목표 신호의 주파수 특성을 비음수 행렬 인수분해 함으로써 목표 기초 벡터를 추출하고, 추출된 상기 목표 기초 벡터를 이용하여 목표 부분 공간을 구성하는 단계;
    (2) 수신된 입력 신호를 상기 구성된 목표 부분 공간에 투영함으로써 투영 오차를 계산하는 단계; 및
    (3) 상기 계산된 투영 오차에 기초하여 목표 신호의 존재 여부를 판단하는 단계를 포함하여 구성되고,
    상기 단계 (2)에서 계산된 상기 투영 오차의 시간에 따른 변화를 분석하여 최적 문턱 값을 결정하는 단계를 더 포함하되,
    상기 단계 (3)에서, 상기 결정된 최적 문턱 값을 상기 계산된 투영 오차와 비교함으로써 목표 신호의 존재 여부를 판단하며,
    최적 문턱 값을 결정하는 상기 단계는,
    상기 단계 (2)에서 계산된 투영 오차에 대하여 시간에 따른 변화 히스토그램을 구성하는 단계;
    상기 구성된 변화 히스토그램을 가우시안 혼합모델로 근사화하는 단계; 및
    상기 근사화된 가우시안 혼합모델의 낮은 위치에서부터의 처음 두 봉우리의 평균과 표준편차로부터 최적 문턱 값을 결정하는 단계를 포함하여 구성되는 것을 특징으로 하는, 비음수 행렬 인수분해 기반 목표 신호 검출 방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 목표 기초 벡터를 5개 내지 15개 추출하는 것을 특징으로 하는, 비음수 행렬 인수분해 기반 목표 신호 검출 방법.
  5. 삭제
  6. 삭제
KR1020100040367A 2010-04-29 2010-04-29 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법 및 시스템 KR101081050B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100040367A KR101081050B1 (ko) 2010-04-29 2010-04-29 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100040367A KR101081050B1 (ko) 2010-04-29 2010-04-29 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20110120788A KR20110120788A (ko) 2011-11-04
KR101081050B1 true KR101081050B1 (ko) 2011-11-09

Family

ID=45397338

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100040367A KR101081050B1 (ko) 2010-04-29 2010-04-29 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR101081050B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10235126B2 (en) 2014-05-15 2019-03-19 Interdigital Ce Patent Holdings Method and system of on-the-fly audio source separation

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10014003B2 (en) 2015-10-12 2018-07-03 Gwangju Institute Of Science And Technology Sound detection method for recognizing hazard situation
CN116982112A (zh) * 2021-12-20 2023-10-31 深圳市韶音科技有限公司 语音活动检测方法、系统、语音增强方法以及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
진유광 외 3명, ‘비음수 행렬 인수분해의 정규화된 투영 오차를 이용한 목표 음향 신호 검출 기법’, 대한전자공학회 2009년 정기총회 및 추계종합학술대회, pp.233-234, 2009년 11월.*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10235126B2 (en) 2014-05-15 2019-03-19 Interdigital Ce Patent Holdings Method and system of on-the-fly audio source separation

Also Published As

Publication number Publication date
KR20110120788A (ko) 2011-11-04

Similar Documents

Publication Publication Date Title
Ratnam et al. Blind estimation of reverberation time
US8065115B2 (en) Method and system for identifying audible noise as wind noise in a hearing aid apparatus
EP1780704B1 (en) Voice signal detection system and method
KR100677396B1 (ko) 음성인식장치의 음성구간 검출방법
US20060155537A1 (en) Method and apparatus for discriminating between voice and non-voice using sound model
US9786275B2 (en) System and method for anomaly detection and extraction
US9520141B2 (en) Keyboard typing detection and suppression
US20180286423A1 (en) Audio processing device, audio processing method, and program
US10453464B2 (en) Decomposing audio signals
US10021483B2 (en) Sound capture apparatus, control method therefor, and computer-readable storage medium
US10078785B2 (en) Video-based sound source separation
US8520861B2 (en) Signal processing system for tonal noise robustness
EP2927906B1 (en) Method and apparatus for detecting voice signal
KR101081050B1 (ko) 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법 및 시스템
US7860708B2 (en) Apparatus and method for extracting pitch information from speech signal
KR20040056977A (ko) 복소수 라플라시안 통계모델을 이용한 음성 검출기 및음성 검출 방법
JP2010112995A (ja) 通話音声処理装置、通話音声処理方法およびプログラム
US10276191B2 (en) Speech section detection device, voice processing system, speech section detection method, and computer program product
CN111108551A (zh) 一种声纹鉴定方法和相关装置
US8935168B2 (en) State detecting device and storage medium storing a state detecting program
US20070038448A1 (en) Objection detection by robot using sound localization and sound based object classification bayesian network
US9704504B2 (en) Voice analysis device and voice analysis system
Savchenko Criterion for minimum of mean information deviation for distinguishing random signals with similar characteristics
CN106599765B (zh) 基于对象连续发音的视-音频判断活体的方法及系统
EP3438980B1 (en) Utterance impression determination program, method for determining utterance impression, and utterance impression determination device

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20141112

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151028

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160219

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20171023

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20181101

Year of fee payment: 8