KR101976443B1

KR101976443B1 - 음성 데이터 감시 시스템 및 방법

Info

Publication number: KR101976443B1
Application number: KR1020120126292A
Authority: KR
Inventors: 수지트 라만
Original assignee: 한화테크윈 주식회사
Priority date: 2012-11-08
Filing date: 2012-11-08
Publication date: 2019-05-09
Also published as: KR20140059636A

Abstract

음성 데이터 감시 시스템이 개시된다. 본 발명의 일 실시예에 따른 음성 데이터 감시 시스템은, 음성 데이터를 수집하는 수집부, 상기 음성 데이터를 학습 또는 분류할 수 있는 형태로 변환하는 변환부, 상기 음성 데이터를 저장하는 저장부, 및 분류기를 통해 상기 변환된 음성 데이터를 학습 또는 분류하는 분류부를 포함하고, 상기 음성 데이터는 감시 대상 구역에서 발생하는 일상 음향으로 구성되는 제1 샘플 음성 데이터 또는 이상 음향으로 구성되는 제2 샘플 음성 데이터를 포함하고, 상기 분류부는 상기 제1 샘플 음성 데이터 또는 상기 제2 샘플 음성 데이터를 학습하고, 상기 분류부는 상기 제1 샘플 음성 데이터 또는 상기 제2 샘플 음성 데이터를 기초로, 상기 감시 대상 구역에서 수집된 감시 음성 데이터의 유사도를 판단한다.

Description

음성 데이터 감시 시스템 및 방법{SYSTEM AND METHOD FOR DETECTING AUDIO DATA}

본 발명은 음성 데이터 감시 시스템 및 방법에 관한 것으로, 더욱 구체적으로는 감시 구역 내에서 수집된 음성 데이터로부터 이상 상황을 검출할 수 있는 음성 데이터 감시 시스템 및 방법에 관한 것이다.

카메라는 다양한 분야에서 활용되고 있으며, 기술이 발전함에 따라서 데이터의 밀도 내지 집적도가 크게 증가하고 있다. 저장장치에 저장할 수 있는 용량은 지속적으로 증가하고 있으며, 디지털 영상 또는 디지털 변환 영상의 경우에는 전체 영상의 초당 프레임수(FPS)가 증가하고 있으며 각각의 프레임을 구성하는 해상도도 마찬가지로 점점 증가하고 있는 추세이다.

카메라에 의해 획득된 영상 및 음성 데이터는 정보 전달 목적으로 사용될 뿐만 아니라, 보안 내지 방범 등의 목적으로 사용될 수 있는데, 특히 보안 등의 목적으로 동일한 장소 내지 대상물을 지속적으로 촬영하여 획득한 데이터로부터 이상 상황을 검출하여 대응책을 마련할 수 있다.

국내특허공개공보 제2011-0025886호 국내특허공개공보 제2011-0095113호

방대한 양의 영상 데이터 중에서 원하는 장면 또는 이상 상황을 추출하는 방법과 관련하여 다양한 알고리즘이 제안된 바 있는 반면, 음성 데이터 중에서 이상 상황을 검출하는 방법에 대해서는 활발히 연구되고 있지 않은 실정이다.

음성 데이터는 영상 데이터 못지 않게 이상 상황을 검출하는데 중요한 정보를 포함하고 있으며, 영상 데이터로부터 추출하지 못하는 이상 상황을 검출할 수 있다.

특히 자동차의 접촉 사고가 많은 주차장, 교통사고가 많은 도로 구간 등에서 특정 사고의 소리가 발생한 영상 위치를 검색하여 기존의 영상 데이터 검색에서 놓친 많은 정보를 보다 정밀하게 관찰 및 분석할 필요성이 있다.

본 발명은 이와 같은 점으로부터 착안된 것으로, 본 발명이 해결하고자 하는 과제는 방대한 양의 음성 데이터 중에서 원하는 구간 즉, 이상 상황을 용이하게 감지하고 해당 구간을 추출할 수 있는 음성 데이터 감시 시스템 및 방법을 제공하고자 하는 것이다.

본 발명이 해결하려는 과제들은 이상에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 음성 데이터 감시 시스템은, 음성 데이터를 수집하는 수집부, 상기 음성 데이터를 학습 또는 분류할 수 있는 형태로 변환하는 변환부, 상기 음성 데이터를 저장하는 저장부, 및 분류기를 통해 상기 변환된 음성 데이터를 학습 또는 분류하는 분류부를 포함하고, 상기 음성 데이터는 감시 대상 구역에서 발생하는 일상 음향으로 구성되는 제1 샘플 음성 데이터 또는 이상 음향으로 구성되는 제2 샘플 음성 데이터를 포함하고, 상기 분류부는 상기 제1 샘플 음성 데이터 또는 상기 제2 샘플 음성 데이터를 학습하고, 상기 분류부는 상기 제1 샘플 음성 데이터 또는 상기 제2 샘플 음성 데이터를 기초로, 상기 감시 대상 구역에서 수집된 감시 음성 데이터의 유사도를 판단한다.

본 발명의 일 실시예에 따른 음성 데이터 감시 방법은, 샘플 음성 데이터를 수집하는 단계, 상기 샘플 음성 데이터를 변환하는 단계, 상기 변환된 샘플 음성 데이터를 음성 데이터 분류기에 제공하여 학습하는 단계, 감시 음성 데이터를 수집하는 단계, 상기 감시 음성 데이터를 변환하는 단계, 및 상기 변환된 감시 음성 데이터를 상기 음성 데이터 분류기에 제공하여 유사도가 임계값을 초과하는지 판단하는 단계를 포함한다.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

도 1은 본 발명의 일 실시예에 따른 음성 데이터 감시 시스템을 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 음성 데이터 감시 방법을 설명하기 위한 순서도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 도면에서 층 및 영역들의 크기 및 상대적인 크기는 설명의 명료성을 위해 과장된 것일 수 있다.

본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "이루어지다(made of)"는 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

공간적으로 상대적인 용어인 "아래(below)", "아래(beneath)", "하부(lower)", "위(above)", "상부(upper)" 등은 도면에 도시되어 있는 바와 같이 구성 요소들 상호 간의 상관관계를 용이하게 기술하기 위해 사용될 수 있다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

이하, 도 1을 참조하여 본 발명의 일 실시예에 따른 음성 데이터 감시 시스템에 대해 설명한다. 도 1은 본 발명의 일 실시예에 따른 음성 데이터 감시 시스템의 구성을 나타내는 블록도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 음성 데이터 감시 시스템은, 수집부(110), 변환부(120), 분류부(130), 및 저장부(140)를 포함할 수 있다.

수집부(110)는 감시하고자 하는 영역 내에서 발생한 음성을 추출하는 역할을 수행한다. 수집부(110)는 음성 데이터를 수신하기 위한 다양한 종류의 마이크 장치가 사용될 수 있다. 예를 들어, 마이크 구조에 따라 다이나믹 마이크, 콘덴서 마이크, 리본 마이크가 사용될 수 있으며, 지향성에 따라 지향성 마이크, 무지향성 마이크(Non-directional microphone), 단일 지향성 마이크(Uni-directional microphone), 초지향성 마이크(Super cardioid, Hyper cardioid) 등이 모두 사용될 수 있다.

몇몇 실시예에서는, 울림과 하울링을 억제하고 먼 거리에서 발생하는 소리를 안정적으로 수집할 수 있도록 하기 위하여 지향성 마이크가 사용되며, 설치된 지역에서 발생되는 다양한 형태의 소리를 수집하여 음성 데이터(200)를 변환부(120)로 제공한다.

또한, 수집부(110)는 카메라와 개별적으로 구비될 수 있으며, 카메라 등과 같은 영상획득부 내에 내장된 내장 마이크의 형태일 수도 있다. 감시 대상 장소에 적어도 하나 이상의 개수로 설치되어 주변에서 발생되는 소리를 수집할 수 있다.

변환부(120)는 수집된 음성 데이터(200)를 분류부(130)에서 학습하거나 식별(분류)할 수 있는 형태로 변환한다. 변환부(120)는 하아그 변환(Haar Transform) 또는 이산 푸리에 변환(Discrete Fourier Transform; DFT)을 수행할 수 있다. 후술하는 바와 같이, 수집된 음성 데이터(200)는 학습 목적의 샘플 음성 데이터일 수도 있으며, 분류 목적의 감시 음성 데이터일 수 있는데, 변환부(120)는 이와 같은 모든 종류의 음성 데이터를 변환할 수 있으며, 설정에 따라 음성 데이터의 종류 별로 다른 변환을 수행할 수도 있다.

예를 들어, 입력된 음성 데이터(200)를 추출하여 이산 푸리에 변환이 수행되면, 푸리에 변환 신호를 분석하여 주파수 스펙트럼을 구한 후 주파수 성분의 크기와 분포에 기반한 특성함수를 바탕으로 특성값을 추출하여 변환을 수행할 수 있다.

상기 특성값은, 신호의 기본주파수를 지칭하는 영교차율, 한정된 데이터 집합을 이용한 평균과 분산, 신호의 피크레벨의 평균값으로 일정한 임계값을 초과하는 신호는 피크로 간주하고 피크의 빈도와 세기를 측정하는 평균피크값(Average peak level), 및 학습데이터로 인한 소속된 범주를 지칭하는 군들 중 적어도 어느 하나 이상을 포함할 수 있다.

변환부(120)는 수집된 음성 데이터(200) 중 필요한 음성 구간을 검색 및/또는 추출하는 모듈을 더 포함할 수 있다. 예를 들어, 음성 데이터(200) 중 소정 이상의 주파수, 파장 또는 음역을 가지는 음성을 추출하여 이를 변환할 수 있다.

구체적으로 예를 들어, 변환부(120)는 수집된 음성 데이터(200)를 변환하여 소정의 임계값을 초과하는 고주파 음역을 제거한 나머지 음성 데이터를 분류부(130)에 제공할 수 있다.

이와 같은 경우, 이상 상황을 식별하는데 필요한 음역은 주로 저주파 음역대 이므로, 기계음 또는 불필요한 잡음이 혼합되어 생성된 고주파 음역을 제어함으로써 분류부(130)에서 이상 상황의 인식률을 높일 수 있다.

분류부(130)는 변환부(120)에 의해 변환된 음성 데이터를 제공받으며, 지도학습(Supervised Learning) 또는 자율학습(Unsupervised Learning)에 따라 음성 데이터를 분류할 수 있다. 지도학습에 대한 데이터 분류는 학습(훈련) 단계와, 분류(시험) 단계로 나뉠 수 있으며, 이에 따라 본 실시예에 따른 분류부(130)도 지도학습에 따라 음성 데이터를 분류하는 경우, 학습 상태인 제1 모드와 식별 상태인 제2 모드에 따라 서로 다른 기능을 수행할 수 있다.

분류부(130)는 커널 매트릭스-의사역 분류기(Kernel Matrix Pseudo inverse classifier), 베이즈 분류기(Bayes classifier), 피어슨 상관계수(Pearson correlation coefficient)에 기초한 제1 분류기, 또는 카이제곱검정(chi square test)에 기초한 제2 분류기 중 하나를 포함할 수 있으나, 이에 한정되는 것은 아니며, 주어진 입력값 벡터가 어떤 종류의 값인지 표식하는 분류(Classification)가 가능하며, 훈련 데이터로부터 주어진 데이터에 대해 예측하고자 하는 값을 정밀도 높게 추측할 수 있고, 기존의 훈련 데이터로부터 나타나지 않던 상황을 일반화하여 처리할 수 있는 분류기이면 다른 종류의 분류기도 사용될 수 있다.

분류부(130)가 제1 모드인 경우에는, 변환부(120)에 의해 변환된 샘플 음성 데이터를 학습하게 된다. 샘플 음성 데이터는 마이크와 같은 수집부(110)가 설치된 감시 대상 구역에서 발생하는 일상 음향으로 구성되는 제1 샘플 음성 데이터를 포함할 수 있으며, 감시 대상 구역에서 발생하는 이상 음향으로 구성되는 제2 샘플 음성 데이터를 포함할 수 있다.

제1 샘플 음성 데이터는 비상 상황이 발생하지 않은 일상 상황에서 발생하는 일상 음향을 구성될 수 있다. 예를 들어, 관리자가 분류부(130)를 제1 모드로 설정하면, 수집부(110)에서 감시 대상 구역 내의 음향을 수집하게 되고, 이와 같은 제1 샘플 음성 데이터가 분류부(130)로 전달되면, 분류부(130)는 이를 학습하게 된다. 이를 위해 분류부(130)는 소정의 음성 데이터를 별도로 저장부(140)에 저장할 수 있다.

분류부(130)는 이와 같이 학습된 제1 샘플 음성 데이터를 참조하여, 추후에 수신된 음성 데이터가 일상 음향 또는 이상 음향을 포함하는지 판단할 수 있다.

제2 샘플 음성 데이터는 이상 음향일 수 있으며, 예를 들어 소정 주파수 또는 소정 데시벨 이상의 파열음 또는 비명음 중 하나를 포함할 수 있으나 이에 한정되는 것은 아니다. 즉, 분류부(130)의 학습을 위해 제공되는 제2 샘플 음성 데이터는 감시 대상 구역의 종류에 따라 달라질 수 있다.

예를 들어 감시 대상 구역이 주차장인 경우 제2 샘플 음성 데이터는 자동차 간의 충돌음 또는 도난경보음 등일 수 있으며, 감시 대상 구역이 범죄 발생 예상 구역인 경우에는 소정음 이상의 비명소리 등이 이에 해당할 수 있다. 이와 같은, 제2 샘플 음성 데이터를 구성하는 이상 음향은 소정 주파수 이상을 가지는 것일 수 있다.

앞서 설명한 바와 같이, 변환된 샘플 음성 데이터는 고주파 음역을 제거한 나머지 임계값 이하의 저주파 음역을 가질 수 있다.

분류부(130)로 전달되는 학습 샘플 음성 데이터는 복수로 제공될 수 있으며, 샘플의 수가 많을수록 분류부(130)의 학습능력 및 분류 정밀도가 높아질 수 있다.

분류부(130)가 커널 매트릭스-의사역 분류기(Kernel Matrix Pseudo inverse classifier)인 경우, n개의 특징벡터(feature vectors)와 c개의 분류(classes)에 기초하여, 프로젝션 매트릭스를 결정한 후 프로젝션 메트릭스를 이용하여 학습 샘플 음성 데이터가 어느 클래스에 속하는지 결정할 수 있다.

커널 매트릭스-의사역 분류기(Kernel Matrix Pseudo inverse classifier)를 따를 때, 구체적으로 행렬 X와 행렬 D를 기초로 직교행렬(orthogonal matrix) T를 계산하게 된다. 행렬 X는 p행 n열 행렬로서, n개의 특징벡터인 x_i가 열을 이룬다. x_i는 실수 범위의 p차원의 벡터 공간에 속한다. 행렬 D는 n행 n열 행렬로서, x_i와 x_j가 동일한 분류(class)에 속할 경우 행렬 D의 i행 j열은 0으로 정의되며, 그 외의 경우는 1로 정의된다. 행렬 T는 n행 n열 행렬로서 하기의 식 1이 최소값을 가질 때의 행렬값으로 결정될 수 있다.

상기 식 1에서 행렬 TK는 n행 n열 행렬로서, 변형된 특징벡터 y_i가 열을 이룬다. 행렬 K는 n행 n열 행렬로서, 하기의 수식을 만족한다.

즉, 행렬 K의 i행 j열은 특징벡터 x_i와 x_j의 p차원 공간 상의 거리의 음의 값으로 표시된다.

위와 같은 수식을 이용하여 행렬 X와 행렬 D로부터 행렬 T 및 행렬 TK를 결정할 수 있다.

결정된 행렬 T는 투영변환행렬(projection matrix)로 사용되어, 복수의 분류(classes) 중에서 각 분류까지의 거리를 결정할 수 있으며, 이를 기초로 학습한 음성 데이터를 분류할 수 있다.

분류부(130)가 제2 모드로 설정되는 경우에는, 위의 학습 단계에서 학습한 음성 데이터를 기초로 분류의 대상이 되는 감시 음성 데이터를 수신하게 된다. 감시 음성 데이터는 실제 감시 대상 구역을 감시하는 과정에서 수집한 음성 데이터이며, 실시간으로 수집된 음성 데이터가 수집부(110), 변환부(120)를 거쳐서 분류부(130)로 지속적으로 수신될 수 있으며, 분류부(130)는 연속적으로 수신된 음성 데이터 중에서 이상 상황을 감지하여 이를 시스템 및/또는 관리자에게 통지할 수 있다.

분류부(130)는 앞서 예시한 분류기를 이용하여 감시 음성 데이터를 분류하여 상기 샘플 음성 데이터와의 유사도(우도, Likelihood)를 계산하게 된다. 감시 음성 데이터와 샘플 음성 데이터와의 우도가 소정 임계값을 초과하게 되면, 감시 음성 데이터와 샘플 음성 데이터가 상이한 것으로 판단한다.

분류부(130)는 샘플 음성 데이터의 분류에 따른 점수를 측정할 수 있으며, 측정된 점수는 저장부(140)에 저장될 수 있다. 분류부(130)는 감시 음성 데이터의 점수를 측정하고, 샘플 음성 데이터와의 점수를 비교할 수 있다.

앞서 설명한 바와 같이, 정상 상태를 나타내는 제1 샘플 음성 데이터를 학습한 후, 감시 대상 구역에서 수집된 음성이 임계값을 초과한 경우, 정상 상태를 벗어나는 음성 데이터가 수집된 것이므로 현재 감시 음성 데이터는 이상 상황을 나타내는 것으로 판단할 수 있다.

반대로, 이상 상태를 나타내는 제2 샘플 음성 데이터를 학습한 후, 감시 대상 구역에서 수집된 음성이 임계값을 초과한 경우, 정상 상태를 벗어나는 음성 데이터가 수집된 것이므로 현재 감시 음성 데이터는 이상 상황을 나타내는 것으로 판단할 수 있다.

몇몇 실시예에서, 분류부(130)는 제2 샘플 음성 데이터를 기초로, 구체적인 이벤트를 사용자 또는 관리자에게 통지할 수 있다. 분류부(130)에서 감시 음성 데이터의 유사도를 측정하여 복수의 제2 샘플 음성 데이터 중 대응되는 제2 샘플 음성 데이터가 존재하는 경우 사용자 또는 관리자에게 상기 제2 샘플 음성 데이터와 대응되는 이벤트를 통지할 수 있다.

예를 들어, 감시 음성 데이터와 도난방지음이 소정 범위 내의 유사도를 가지는 경우, 분류부(130)는 현재 수집된 감시 음성 데이터에 의해 감지된 이벤트가 "차량 도난 상태"인 것으로 판단할 수 있다. 이로 인해 관리자는 구체적인 이상 상황의 종류까지 판단할 수 있게 된다.

또한, 몇몇 실시예에서 분류부(130)는, 감시 음성 데이터의 분류 및 이상 상황 판단 과정에서 영상 데이터를 참고할 수도 있다. 즉, 앞서 설명한 바와 같이, 본 실시예에 따른 수집부(110)가 네트워크 감시 카메라에 연결된 또는 내장된 마이크인 경우, 카메라 유닛 등을 통해 촬영된 영상 데이터는 별도의 이미지 프로세싱 과정을 통해 처리될 수 있으며, 반복된 이미지에서 변화된 이미지 및 변화율 등을 종합적으로 고려하여 이상 상황을 인식할 수 있다. 영상 데이터를 검색하는 과정은 예를 들어 복수의 프레임의 동일 위치에 존재하는 픽셀 간의 픽셀값 변화량을 기초로 동일 픽셀인지 결정하는 방법이 사용될 수 있으나, 이에 한정되는 것은 아니며, 이미지를 검출하기 위한 다양한 알고리즘이 사용될 수 있다.

분류부(130)는 상기 영상 데이터의 판단 결과를 가중치로 반영하여 감시 음성 데이터의 분류에 반영할 수 있다. 이를 위해, 분류부(130)는 음성 데이터의 프로그레스 정보 및 이와 대응되는 영상 데이터의 프로그레스 정보를 획득할 수 있으며, 이상 상황으로 감지된 영상 데이터와 시간상 대응되는 음성 데이터 구간을 검색하여 영상 데이터의 판단 결과를 반영시킬 수 있다.

즉, 동일한 감시 음성 데이터가 감지된 경우에도, 음성 데이터에 대응되는 영상 데이터의 이미지 검출 결과에 따라 이상 상황 또는 정상 상황으로 판단될 수 있다.

저장부(140)는 앞서 설명한 로우(raw) 형태의 음성 데이터(200) 및/또는 변환부(120)에 의해 변환된 음성 데이터를 저장하며, 분류부(130)와 연결되어 분류부(130)가 학습한 샘플 음성 데이터에 관한 자료를 저장 및 조회할 수 있다. 또한, 저장부(140)는 수집된 음성 데이터의 로그 정보를 저장할 수도 있다.

저장부(140)는 롬(Read Only Memory: ROM), 피롬(Programable ROM: PROM), 이피롬(Erasable Programmable ROM: EPROM), 이이피롬(Electrically Erasable Programmable ROM: EEPROM), 플래쉬 메모리(Flash memory)와 같은 비휘발성 메모리 소자 또는 램(Random Access Memory: RAM)과 같은 휘발성 메모리 소자 또는 하드디스크 드라이브(Hard Disk Drive; HDD)와 같은 저장 매체 중 적어도 하나로 구현될 수 있으나 이에 한정되지는 않는다.

이와 같이, 본 실시예에 따른 음성 데이터 감시 시스템은 지도학습(Supervised Learning)에 따른 분류기를 이용하여 샘플 음성 데이터를 학습한 상태에서, 실제 감지 음성 데이터가 임계값 이내인지를 판단하여 샘플 음성 데이터와의 유사도를 검출할 수 있으며, 이를 바탕으로 이상 상황과 정상 상황을 분류할 수 있다.

이하, 도 2를 참조하여 본 실시예에 따른 음성 데이터 감시 방법에 대해 설명한다. 본 실시예에 따른 음성 데이터 감시 방법은, 샘플 음성 데이터를 수집하는 단계, 상기 샘플 음성 데이터를 변환하는 단계, 상기 변환된 샘플 음성 데이터를 음성 데이터 분류기에 제공하여 학습하는 단계, 감시 음성 데이터를 수집하는 단계, 상기 감시 음성 데이터를 변환하는 단계, 및 상기 변환된 감시 음성 데이터를 상기 음성 데이터 분류기에 제공하여 유사도가 임계값을 초과하는지 판단하는 단계를 포함한다.

먼저, 음성 데이터를 수집한다(S102). 분류기가 학습 모드인 경우 음성 데이터는 관리자 등이 제공한 샘플 음성 데이터일 수 있으며, 감시 모드인 경우 음성 데이터는 실제 감시 대상 영역에서 수집한 감시 음성 데이터일 수 있다.

이어서, 음성 데이터를 변환한다(S104). 앞서 설명한 바와 같이, 음성 데이터를 변환하기 위해, 하아그 변환(Haar Transform) 또는 이산 푸리에 변환(Discrete Fourier Transform; DFT)이 수행될 수 있다.

음성 데이터를 변환하는 단계는, 임계값을 초과하는 고주파 음역을 제거하는 단계를 포함할 수 있으며, 변환된 음성 데이터는 상기 임계값 이하의 저주파 음역을 가질 수 있다.

이어서, 현재 분류기가 학습 모드인지 확인하고(S106), 학습 모드인 경우, 수신된 샘플 음성 데이터를 학습하기 위한 추가 변환 과정이 수행될 수도 있다(S108). 본 추가 변환 과정은 경우에 따라 생략될 수도 있다.

이어서, 샘플 음성 데이터를 분류기에 제공하여(S110), 샘플 음성 데이터를 학습할 수 있다(S112). 상기 샘플 음성 데이터는 감시 대상 구역에서 발생하는 일상 음향으로 구성되는 제1 샘플 음성 데이터, 및 이상 음향으로 구성되는 제2 샘플 음성 데이터를 포함할 수 있다.

관리자는 분류기의 학습도 및 분류 정밀도를 향상시키기 위해 상기 학습 과정을 반복하여 수행할 수 있다.

반면, 현재 분류기가 학습 모드가 아닌 감시 모드인 경우(S106), 감시 음성 데이터를 필요에 따라 변환할 수 있으며(S114), 변환된 감시 음성 데이터를 분류기에 제공할 수 있다(S116). 분류기가 수신된 감시 음성 데이터를 분류할 수 있는 경우, 추가 변환 과정은 생략될 수 있다.

분류기는 이미 학습된 데이터를 바탕으로 현재 수신된 감시 음성 데이터와의 유사도를 판단하며(S118), 유사도가 임계값을 초과하는 경우 이상 상황으로 인식하여, 외부에 통지하는 등의 대응 과정을 수행하게 된다(S120).

이외에 본 실시예에 따른 음성 데이터의 학습 및 분류 방법은 앞서 설명한 실시예에서와 동일하므로 설명을 생략한다.

이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

110: 수집부
120: 변환부
130: 분류부
140: 저장부
200: 음성 데이터

Claims

음성 데이터를 수집하는 수집부;
상기 음성 데이터를 학습 또는 분류할 수 있는 형태로 변환하는 변환부;
상기 음성 데이터를 저장하는 저장부; 및
분류기를 통해 상기 변환된 음성 데이터를 학습 또는 분류하는 분류부를 포함하고,
상기 음성 데이터는 감시 대상 구역에서 발생하는 일상 음향으로 구성되는 제1 샘플 음성 데이터 또는 이상 음향으로 구성되는 제2 샘플 음성 데이터를 포함하고,
상기 분류부는 상기 제1 샘플 음성 데이터 또는 상기 제2 샘플 음성 데이터를 학습하고,
상기 분류부는 상기 제1 샘플 음성 데이터 또는 상기 제2 샘플 음성 데이터를 기초로, 상기 감시 대상 구역에서 수집된 감시 음성 데이터의 유사도를 판단하되,
상기 변환부는 상기 변환된 음성데이터 중에서 고주파 음역을 제거하고,
상기 고주파 음역이 제거된 음성 데이터에 포함되는 피크레벨의 평균값으로 임계값을 설정하고, 상기 임계값을 초과하는 음성 데이터의 빈도와 세기를 측정하여, 상기 학습 또는 상기 분류를 위한 상기 음성데이터의 특성값을 추출하는, 음성 데이터 감시 시스템.
제1항에 있어서,
상기 변환부는, 하아그 변환 또는 이산 푸리에 변환을 수행하는, 음성 데이터 감시 시스템.
제1항에 있어서,
상기 분류기는, 베이즈 분류기, 피어슨 상관계수에 기초한 제1 분류기, 카이제곱검정에 기초한 제2 분류기, 또는 커널 매트릭스-의사역 분류기(Kernel Matrix Pseudo inverse classifier)인 제3 분류기 중 하나를 포함하는, 음성 데이터 감시 시스템.
제1항에 있어서,
상기 수집부는 영상 데이터를 촬영하여 카메라 유닛을 포함하고,
상기 분류부는, 상기 영상 데이터의 판단결과를 가중치로 반영하여 상기 감시 음성 데이터의 유사도를 판단하는, 음성 데이터 감시 시스템.
제1항에 있어서,
상기 분류부는, 상기 감시 음성 데이터와 상기 제2 샘플 음성 데이터가 소정 범위의 유사도를 가지는 경우, 상기 제2 샘플 음성 데이터와 대응되는 이벤트를 통지하는, 음성 데이터 감시 시스템.
샘플 음성 데이터를 수집하는 단계;
상기 샘플 음성 데이터를 변환하는 단계;
상기 변환된 샘플 음성 데이터를 음성 데이터 분류기에 제공하여 학습하는 단계;
감시 음성 데이터를 수집하는 단계;
상기 감시 음성 데이터를 변환하는 단계; 및
상기 변환된 감시 음성 데이터를 상기 음성 데이터 분류기에 제공하여 유사도가 임계값을 초과하는지 판단하는 단계를 포함하되,
상기 감시 음성 데이터를 변환하는 단계는,
상기 변환된 음성데이터 중에서 고주파 음역을 제거하는 단계와,
상기 고주파 음역이 제거된 음성 데이터에 포함되는 피크레벨의 평균값으로 임계값을 설정하고, 상기 임계값을 초과하는 음성 데이터의 빈도와 세기를 측정하여, 상기 학습 또는 상기 분류를 위한 상기 음성데이터의 특성값을 추출하는 단계를 포함하는, 음성 데이터 감시 방법.
삭제
제6항에 있어서,
상기 샘플 음성 데이터는 감시 대상 구역에서 발생하는 일상 음향으로 구성되는 제1 샘플 음성 데이터 또는 이상 음향으로 구성되는 제2 샘플 음성 데이터를 포함하는, 음성 데이터 감시 방법.
제6항에 있어서,
상기 음성 데이터 분류기는, 베이즈 분류기, 피어슨 상관계수에 기초한 제1 분류기, 카이제곱검정에 기초한 제2 분류기, 또는 커널 매트릭스-의사역 분류기(Kernel Matrix Pseudo inverse classifier)인 제3 분류기 중 하나를 포함하는, 음성 데이터 감시 방법.