KR20120092762A

KR20120092762A - 카메라 환경에서의 비정상 소리 탐지 및 식별 시스템

Info

Publication number: KR20120092762A
Application number: KR1020110002335A
Authority: KR
Inventors: 박대희; 오승근; 박승진; 강봉수
Original assignee: 고려대학교 산학협력단
Priority date: 2011-01-10
Filing date: 2011-01-10
Publication date: 2012-08-22
Also published as: KR101242733B1

Abstract

오디오 데이터 분류 장치는 오디오 데이터를 정상 소리와 비정상 소리로 식별하는 단일 클래스 SVDD(Support Vector Data Description)를 위한 학습 데이터를 생성하는 SVDD 학습부, 비정상 소리로 식별된 오디오 데이터를 유형별로 분류하는 SRC(Sparse Representation Classifier)를 위한 학습 데이터를 생성하는 SRC 학습부, 단일 클래스 SVDD를 위한 학습 데이터에 기초하여, 오디오 데이터를 정상 소리 또는 비정상 소리로 식별하는 오디오 데이터 식별부 및 SRC를 위한 학습 데이터에 기초하여, 오디오 데이터 식별부에 의해 비정상 소리로 식별된 오디오 데이터를 유형별로 분류하는 오디오 데이터 분류부를 포함한다.

Description

카메라 환경에서의 비정상 소리 탐지 및 식별 시스템{ABNORMAL SOUND DETECTION AND IDENTIFICATION SYSTEM IN CAMERA ENVIRONMENT}

본 발명은 카메라 환경에서의 비정상 소리 탐지 및 식별 시스템에 관한 것이다.

최근 음성, 음향, 음악 등의 오디오 데이터로부터 비정상 상황을 인식하는 연구들이 활발하게 진행되고 있다. 예를 들어, 기존에 건물, 가정집 등에 설치된 방범 시스템은 CCTV와 같은 감시 카메라를 통해 외부 침입자를 감시하고, 외부 침입이 발생하였을 경우 이를 감시자에게 알려주어 외부 침입에 따른 조치를 취할 수 있도록 한다.

그러나, 감시 카메라의 경우 동작 반경이 제한되어 있고, 감시자가 자리를 비웠을 때 비상 상황이 발생했을 경우에는 적절한 상황 조치를 취할 수 없는 한계가 있다. 따라서, 감시 카메라로 촬영된 영상 데이터를 통해 비정상 상황 인식하는 방법의 한계를 벗어나서 오디오 데이터를 통해 비정상 소리를 감지하여 감시자에게 알려줌으로써 보다 효과적으로 해당 상황에 따른 조치를 취하는 방안이 제안되었다.

즉 오디오 데이터로부터 비정상 상황을 인식하는 시스템을 통해 평상시와 다른 소리가 감지되었을 경우 이를 비정상 상황으로 인식하여 감시자에게 알려줌으로써 그에 따른 조치를 취할 수 있도록 한다.

특히, 최근에는 GMM(Gaussian Mixture Model)과 같은 확률론적 패턴인식 방식을 벗어나 패턴분류(Pattern classification) 및 함수 근사(Function approximation) 등의 문제에서 우수한 성능을 보이는 SVM(Support Vector Machine)을 오디오 데이터 기반의 시스템에 적용하고자 하는 연구들이 진행되고 있다. 예컨대, 오디오 데이터로부터 정상 소리와 ‘crying’, ‘groan’, ‘gun shooting’ 등과 같은 비정상 소리를 이진 분류하는 목적으로 SVM이 사용된바 있다.

그러나, 이러한 이진 분류기(Binary Classifier)인 SVM을 이용하여 정상 소리 혹은 비정상 소리를 분류할 경우, 관측되지 않은 영역을 포함하여 결정 경계면을 생성하기 때문에 새로운 오디오 데이터에 대해서 오분류(misclassification)를 할 가능성이 높은 취약점이 있다.

따라서, 정상 소리 또는 비정상 소리를 보다 효과적으로 식별하여 비정상 상황 발생시 이에 대한 조치를 신속하게 취할 수 있도록 할 필요성이 제기된다.

본 발명의 일 실시예는 단일 클래스 SVDD(Support Vector Data Description) 및 SRC(Sparse Representation Classifier)를 이용하여 실시간으로 유입되는 오디오 데이터를 정상 소리 또는 비정상 소리로 효과적으로 식별하고, 비정상 소리로 식별된 오디오 데이터를 세분화하여 유형별로 분류시키는 카메라 환경에서의 비정상 소리 탐지 및 식별 시스템을 제공하는 데에 그 목적이 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예에 따른 오디오 데이터 분류 장치는 오디오 데이터를 정상 소리와 비정상 소리로 식별하는 단일 클래스 SVDD(Support Vector Data Description)를 위한 학습 데이터를 생성하는 SVDD 학습부, 비정상 소리로 식별된 오디오 데이터를 유형별로 분류하는 SRC(Sparse Representation Classifier)를 위한 학습 데이터를 생성하는 SRC 학습부, 단일 클래스 SVDD를 위한 학습 데이터에 기초하여, 오디오 데이터를 정상 소리 또는 비정상 소리로 식별하는 오디오 데이터 식별부 및 SRC를 위한 학습 데이터에 기초하여, 오디오 데이터 식별부에 의해 비정상 소리로 식별된 오디오 데이터를 유형별로 분류하는 오디오 데이터 분류부를 포함한다.

또한, 본 발명의 일 실시예에 따른 오디오 데이터 분류 장치를 이용한 오디오 데이터 분류 방법은 (a) 오디오 데이터를 정상 소리와 비정상 소리로 식별하는 단일 클래스 SVDD(Support Vector Data Description)를 위한 학습 데이터와, 비정상 소리로 식별된 오디오 데이터를 유형별로 분류하는 SRC(Sparse Representation Classifier)를 위한 학습 데이터를 생성하는 단계, (b) 단일 클래스 SVDD를 위한 학습 데이터에 기초하여, 입력된 오디오 데이터를 정상 소리 또는 비정상 소리로 식별하는 단계 및 (c) SRC를 위한 학습 데이터에 기초하여, 비정상 소리로 식별된 오디오 데이터를 유형별로 분류하는 단계를 포함하되, 단일 클래스 SVDD를 위한 학습 데이터는 정상 소리에 대해서 학습을 실시한 데이터이고, SRC를 위한 학습 데이터는 비정상 소리에 대해서 유형별로 학습을 실시한 데이터이고, (b) 단계는 오디오 데이터가 단일 클래스 SVDD를 위한 학습 데이터에 포함되지 않은 경우, 해당 오디오 데이터를 비정상 소리로 식별한다.

또한, 본 발명의 일 실시예에 따른 오디오 데이터 분류를 이용한 방범 시스템은 오디오 데이터를 감지하는 오디오 데이터 수신부, 감지된 오디오 데이터에서 잡음 성분을 제거하는 필터링부, 단일 클래스 SVDD를 위한 학습 데이터에 기초하여, 잡음 성분이 제거된 오디오 데이터를 정상 소리 또는 비정상 소리로 식별하는 오디오 데이터 식별부, 오디오 데이터가 비정상 소리로 식별된 경우, SRC(Sparse Representation Classifier)를 위한 학습 데이터에 기초하여 비정상 소리로 식별된 오디오 데이터를 유형별로 분류하는 오디오 데이터 분류부 및 오디오 데이터가 비정상 소리로 식별된 경우 및 비정상 소리로 식별된 오디오 데이터에 대한 유형별 분류가 완료된 경우 중 하나 이상의 경우에 대해 외부 장치로 해당 상황을 알리는 통지 메시지를 전달하는 통지부를 포함하되, 단일 클래스 SVDD를 위한 학습 데이터는 정상 소리에 대해서 학습을 실시한 데이터이고, SRC를 위한 학습 데이터는 비정상 소리에 대해서 유형별로 학습을 실시한 데이터인 것을 특징으로 한다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 단일 클래스 SVDD(Support Vector Data Description) 및 SRC를 이용하여 실시간으로 유입되는 오디오 데이터를 정상 소리 또는 비정상 소리로 효과적으로 식별하고, 비정상 소리로 식별된 오디오 데이터를 세분화하여 유형별로 분류시킬 수 있다.

또한, 전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 단일 클래스 SVDD를 위한 학습 데이터를 정상 소리만으로 생성하고, 입력된 오디오 데이터가 단일 클래스 SVDD를 위한 학습 데이터에 포함되지 않은 경우 해당 오디오 데이터를 비정상 소리로 식별함으로써, 학습을 위한 별도의 비정상 소리를 준비할 필요가 없이 오디오 데이터를 정상 소리 또는 비정상 소리로 효과적으로 식별할 수 있다.

또한, 전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 비정상 소리에 대해서 유형별로 학습을 실시한 데이터인 SRC를 위한 학습 데이터에 기초하여 비정상 소리로 식별된 오디오 데이터를 유형별로 세분화하여 관리자에게 전달함으로써, 관리자의 위기 상황 대처를 효과적으로 도울 수 있다.

또한, 전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 새로운 비정상 소리에 대한 추가가 수행될 때 전체 시스템을 재학습 시키지 않고 새로운 비정상 소리 클래스만을 추가 학습시킴으로써, 점증적 갱신(Incremental updating) 및 확장을 할 수 있게 되어 효과적인 시스템의 성능 유지 및 관리를 수행할 수 있다.

도 1은 본 발명의 일 실시예에 따른 오디오 데이터 분류 장치의 블록도이다.
도 2는 본 발명의 일 실시예에 따른 오디오 데이터 분류 방법의 순서도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

도 1은 본 발명의 일 실시예에 따른 오디오 데이터 분류 장치의 블록도이다.

도 1에 도시된 바와 같이, 오디오 데이터 분류 장치(100)는 오디오 데이터 수신부(110), 필터링부(120), 특징 벡터 추출부(130), 학습 데이터 생성부(140), 오디오 데이터 식별부(150), 오디오 데이터 분류부(160) 및 통지부(170)를 포함한다. 이하에서는, 감시 카메라 환경에서 실시간으로 입력된 오디오 데이터를 정상 소리와 비정상적인 상황에서 발생하는 비정상 소리로 식별하는 것을 예로 들어 설명하기로 한다. 여기서, 정상 소리 및 비정상 소리는 임의적으로 구별된 소리로서, 예컨대, 비정상적인 상황에서 발생하는 비명(scream), 사이렌(siren), 총 소리(gun) 등은 비정상 소리로 구별될 수 있고, 일반적인 사람의 목소리, 음악 소리 등은 정상 소리로 구별될 수 있다.

오디오 데이터 수신부(110)는 예컨대 감시카메라가 설치된 감시 환경에서 오디오 데이터를 감지하여 필터링부(120)로 전달한다. 이때, 오디오 데이터 수신부(110)는 오디오 데이터를 감지하기 위한 센서를 포함할 수 있으며, 오디오 데이터는 음성을 비롯하여 음악, 음향 등의 각종 소리를 포함할 수 있다.

필터링부(120)는 오디오 데이터에서 잡음 성분을 제거한다. 여기서, 필터링부(120)는 ETSI 표준인 워너(Wiener) 필터, 또는 칼만(Kalman) 필터 등으로 구현될 수 있다.

특징 벡터 추출부(130)는 MFCC(Mel-Frequency Cepstral Coefficient), LPCC(Linear Prediction Cepstrum Coefficient), PLP(Perceptual Linear Prediction), 및 LDA(Linear Discriminative Analysis) 중 어느 하나를 이용하여 오디오 데이터에서 특징 벡터를 추출한다.

예를 들어, 특징 벡터 추출부(130)는 사람이 인지할 수 있는 소리 영역 내에서, 입력된 오디오 데이터가 정상 소리 또는 비정상 소리인지에 대한 식별이 이루어지도록 MFCC를 이용하여 오디오 데이터로부터 특징 벡터를 추출할 수 있다.

구체적으로 특징 벡터 추출부(130)는 입력된 오디오 데이터에서 음이 시작되는 시작점을 탐색하고, 탐색한 시작점 이후의 데이터를 처리하여 특징 벡터를 추출할 수 있다. 후술될 오디오 데이터 식별부(150)는 이러한 오디오 데이터의 특징 벡터와 SVM(Support Vector Machine)의 대표적 모델인 단일 클래스 SVDD(Support Vector Data Description)를 위한 학습 데이터를 비교하여, 해당 오디오 데이터가 정상 소리 또는 비정상 소리인지에 대한 식별을 수행하게 된다.

학습 데이터 생성부(140)는 SVDD 학습부(142) 및 SRC 학습부(144)를 포함한다. SVDD 학습부(142)는 오디오 데이터를 정상 소리와 비정상 소리로 식별하는 단일 클래스 SVDD를 위한 학습 데이터를 생성한다. 여기서, 단일 클래스 SVDD를 위한 학습 데이터는 정상 소리에 대해서 학습을 실시한 데이터이다.

SRC 학습부(144)는 비정상 소리로 식별된 오디오 데이터를 유형별로 분류하는 SRC(Sparse Representation Classifier)를 위한 학습 데이터를 생성한다. 여기서, SRC를 위한 학습 데이터는 비정상 소리에 대해서 유형별로 학습을 실시한 데이터이다.

그리고, SRC 학습부(144)는 새로운 비정상 소리가 추가될 경우, 해당 비정상 소리 클래스에 대해서만 추가로 학습 데이터를 생성할 수 있다. 따라서, 새로운 비정상 소리에 대한 추가가 수행되더라도 전체 시스템을 재학습 시키지 않고도 새로운 비정상 소리 클래스만을 추가 학습시킴으로써, 점증적 갱신(Incremental updating) 및 확장을 할 수 있게 되어 효과적인 시스템의 성능 유지 및 관리를 수행할 수 있게 된다.

한편, 기존에는 이진 분류기인 SVM을 이용하여 다중 클래스 SVM을 설계할 경우, 각 SVM은 관측되지 않은 영역을 포함하여 결정 경계면을 생성함으로써 새로운 데이터에 대하여 오분류(misclassification) 할 가능성이 높았다. 그러나, 본 발명의 실시예에서는 단일 클래스 SVM의 대표적 모델인 SVDD 및 SRC를 계층적으로 구성하여, 실시간으로 유입되는 오디오 데이터를 식별하고, 비정상 소리에 대해서는 유형별로 분류할 수 있도록 한다.

이하에서는 이러한 계층적인 구성에 있어서, 먼저 SVDD를 위한 학습 데이터를 생성하는 과정에 대해 보다 구체적으로 설명하기로 한다.

먼저, d-차원의 입력공간상에 존재하는 K-개의 데이터 집합

이 주어졌을 경우, 각각의 클래스를 분류하기 위한 분류기는 각 클래스의 학습 데이터를 최대한 많이 포함하면서 동시에 체적을 최소화하는 구체(Sphere)를 구하는 문제로 정의되며, 수학식 1의 최적화 문제를 통하여 수식화될 수 있다.

수학식 1에 관한 쌍대 문제를 구하기 위하여 라그랑제 함수(Largrange function) ? 을 도입한다.

단, 수학식 2는 변수(

)에 대해서는 최소값을, 변수(

)에 대해서는 최대값을 가져야 하므로, 아래의 수학식 3을 만족해야 한다.

수학식 3을 라그랑제 함수에 대입하면, 다음의 쌍대 문제를 얻는다.

입력 공간 위에서 정의되는 구체는 매우 간단한 형태의 영역만을 나타낼 수 있다. 이러한 한계를 극복하기 위하여 커널 함수(Kernel fuction) k를 통하여 정의되는 고차원의 특징 공간(Feature space)위에서 정의되는 구체를 사용하는 방향으로 확장될 수 있다. 각각의 클래스는 각자의 특징공간에서 자신의 경계를 보다 정확하게 표현할 수 있으므로, 시스템의 학습은 각각의 클래스들이 매핑되는 특징 공간의 독립성을 고려하여 아래의 컨벡스 쿼드릭(Convex quadratic)문제의 해답을 얻음으로써 이루어진다.

특히, 가우시안 커널(Gaussian kernel)을 사용할 경우, k(x,x)=1이 성립하므로, 수학식 5는 수학식 6과 같이 단순화된다.

학습 종료 후 오디오 데이터를 분류하는 동작에 적용하면, 각 클래스의 결정함수는 수학식 7과 같이 정의된다.

서로 다른 특징 공간상에서 정의되는 단일 SVM의 출력 값은 각 클래스의 특징 공간상의 경계로부터 해당 오디오 데이터와의 절대 거리를 의미하므로, 서로 다른 특징 공간상의 절대거리를 비교하여 소속 클래스를 결정하는 것은 바람직하지 않다.

따라서 특징 공간상의 절대거리(

)를 특징 공간상에서 정의되는 구형체의 반경(

)으로 나눔으로서 상대적 거리(

)를 계산하고, 상대거리가 가장 큰 클래스를 입력 데이터 x의 소속 클래스로 결정한다.

여기서, 수학식 7 및 수학식 8은 오디오 데이터를 분류하는 데에 이용될 수 있다.

다음으로, SRC를 위한 학습 데이터를 생성하는 과정에 대해 보다 구체적으로 설명하기로 한다.

오디오 데이터를 SRC에 적용하게 되면, 입력된 오디오 데이터가 속하는 클래스에서만 상대적으로 높은 소속값을 가질 수 있으며, 오디오 데이터가 속하지 않는 클래스에서는 대부분 0(zero) 값을 갖거나 낮은 값을 갖는다. 이때 0 값을 갖는 클래스들의 수가 매우 많으므로 이를 SR(Sparse Representation)이라고 한다.

SR 기반의 비정상 소리의 유형별 분류식은 하기 수학식 9와 같이 정의될 수 있다.

일반적으로 차원(

)을 가지는 고차원 데이터 행렬(

)은 데이터 포인트들의 집합(

)으로 정의된다.

에 속하는 한 점(

)은 그 점과 이웃한 점들과의 선형 조합(linear combination)으로 표현된다. 임의의 클래스에 속하는 데이터 포인트들의 집합(

)이 주어졌다면, 같은 클래스에 속하는 새로운 데이터 포인트(

)는

의 선형 조합으로 표현된다.

수학식 9에 있어서,

개의 학습 샘플(

)이 주어졌을 때, 선형 조합은 선형 부분 공간(linear subspace)(

)을 생성(span)하며, 새로운 데이터 포인트(

)는 포인트가 속하는 클래스에 가장 근사한 부분 공간에 놓이게 된다.

는 하기 수학식 10과 같이 정의될 수 있다.

수학식 10에 있어서,

개의 클래스를 갖는 학습 샘플이 주어졌다면, 패턴 인식의 기본 방법론은 새로운 테스트 샘플을 학습 샘플 클래스를 이용하여 이에 상응하는 클래스로 정확하게 분류한다.

번째 클래스에 속하는 학습 샘플들(

)은 행렬(

)의 열로 정렬이 되며, 이것은 각각의 학습 샘플 집합 행렬(

)로 표현된다. 선형 표현 가설(assumption)하에서, 테스트 샘플(

)은 학습 샘플들에 의해 생성된 선형 부분 공간에서 근사가 된다. 이것은 하기 수학식 11과 같은 행렬식으로 정의될 수 있다.

수학식 11에 있어서,

는 계수 벡터(coefficient vector)이다. 클래스(

)에 속하는 샘플(

)의 계수 벡터(

)는

와 관련된 학습 데이터 값을 제외하고는 0을 갖고, 하기 수학식 12와 같이 정의될 수 있다.

수학식 12에 있어서, 선형시스템의 방정식(

)을 풀어 값(

)을 얻을 수 있으며, 하기 수학식 13과 같이 정의되는

의 최적해(optimization solution)를 구하는 문제로 변경할 수 있다.

수학식 13을 이용하여 해를 찾는 것은 “NP-hard” 문제이다. 그러나 만약

의 해가 충분히 희박(sparse)하다면,

-노름(norm) 최소화 문제 수학식 13은 하기 수학식 14의 “convex relaxed optimization” 문제를 이용하여, 근사해인

-노름 최소화 문제로 풀 수 있다.

이와 같이, 본 발명의 실시예를 통해 생성된 학습 데이터를 통해, 예컨대 감시 카메라 환경에서 비정상 소리를 빠르게 식별 및 분류할 수 있다. 이때, 첫 번째 계층의 단일 클래스 SVDD를 이용하여 감시 카메라 환경에서 실시간으로 취득된 소리가 비정상 소리인지를 신속하게 판단할 수 있다. 두 번째 계층의 SRC로는 비정상 소리로 판단된 소리를 ‘gun’, ‘scream’, ‘siren’, ‘bomb’, ‘crash’ 소리 등과 같이 세분화하여 분류할 수 있다

또한, 클래스 별로 계층화된 SVDD 및 SRC를 이용하여 오디오 데이터를 분류하는 방법은 새로운 비정상 소리가 추가될 때, 전체 시스템의 재학습이 아닌 해당 비정상 소리의 클래스에 해당하는 모듈만을 추가 학습하는 점증적 갱신을 가능하게 한다.

예를 들어, 분류하고자 하는 클래스의 개수가 n 개이고, 이에 대하여 n 개의 SVDD를 위한 학습 데이터 생성이 완료되었다고 가정한다. 만약, 분류하고자 하는 클래스의 개수를 하나 더 추가하려면, 총 n+1 개의 클래스에 대해서 다시 학습 데이터를 생성해야 한다. 그러나 본 발명은 새로운 비정상 소리 클래스의 추가가 요구되더라도 전체 시스템을 재학습시킬 필요 없이 상술한 SRC 학습부(144)를 통해 새로운 비정상 소리 클래스만을 추가 학습함으로써 시스템 자원의 소모를 최소화할 수 있다.

오디오 데이터 식별부(150)는 단일 클래스 SVDD를 위한 학습 데이터에 기초하여, 입력된 오디오 데이터가 정상 소리 또는 비정상 소리인지 여부를 식별한다. 여기서, 첫 번째 계층의 단일 클래스 SVDD를 위한 학습 데이터는 정상 소리만으로 학습된 데이터이다. 따라서, 오디오 데이터 식별부(150)는 입력된 오디오 데이터가 단일 클래스 SVDD를 위한 학습 데이터인 정상 소리에 포함되지 않은 경우, 해당 오디오 데이터를 비정상 소리로 판단할 수 있다.

이때, 오디오 데이터 식별부(150)는 특징 벡터 추출부(130)를 통해 추출된 오디오 데이터의 특징 벡터와 단일 클래스 SVDD를 위한 학습 데이터에 포함된 정상 소리를 비교하여, 해당 오디오 데이터가 정상 소리 또는 비정상 소리인지에 대한 식별을 수행할 수 있다. 이와 같이, 단일 클래스 SVDD를 위한 학습 데이터를 정상 소리만으로 생성하고, 이를 통해 비정상 소리를 식별함으로써, 학습을 위한 별도의 비정상 소리를 준비할 필요가 없다.

오디오 데이터 분류부(160)는 입력된 오디오 데이터가 비정상 소리로 판단된 경우, SRC를 위한 학습 데이터에 기초하여 해당 비정상 소리를 세분화하여 유형별로 분류한다. 예컨대, 오디오 데이터 분류부(160)는 SRC를 이용하여 비정상 소리를 ‘gun’, ‘scream’, ‘siren’ 등과 같이 각각의 유형별로 분류할 수 있다.

통지부(170)는 오디오 데이터 식별부(150)를 통해 입력된 오디오 데이터가 비정상 소리로 식별된 경우 및 오디오 데이터 분류부(160)를 통해 비정상 소리로 식별된 오디오 데이터에 대한 유형별 분류가 완료된 경우 중 하나 이상의 경우에 대해 외부 장치로 해당 상황을 알리는 통지 메시지를 전달한다.

예컨대, 통지부(170)는 비정상 소리로 식별되어 오디오 데이터 분류부(160)를 통해 유형별로 분류된 오디오 데이터에 대한 통지 메시지를 관리자의 단말기로 전달할 수 있다. 이와 같이, 두 번째 계층의 SRC를 통하여 비정상 소리를 구체적으로 식별하여 관리자에게 보고함으로써, 관리자의 위기 상황 대처를 보다 효과적으로 도울 수 있는 추가 정보를 제공할 수 있게 된다.

도 2는 본 발명의 일 실시예에 따른 오디오 데이터 분류 방법의 순서도이다.

도 2에 도시된 바와 같이, 오디오 데이터를 정상 소리와 비정상 소리로 식별하는 단일 클래스 SVDD를 위한 학습 데이터와, 비정상 소리로 식별된 오디오 데이터를 유형별로 분류하는 SRC를 위한 학습 데이터를 생성한다(S201). 이때, 단일 클래스 SVDD를 위한 학습 데이터는 정상 소리에 대해서 학습을 실시한 데이터이고, SRC를 위한 학습 데이터는 유형별로 비정상 소리에 대해서 학습을 실시한 데이터이다.

예컨대, 정상 소리목록으로 구성된 정상 소리만을 사용하여 특징 공간에서 정상 소리들만 포함하는 구체(Sphere)가 되도록 단일 클래스 SVDD를 위한 데이터 학습이 이루어질 수 있다.

다음으로, 단일 클래스 SVDD를 위한 학습 데이터에 기초하여, 입력된 오디오 데이터를 정상 소리 또는 비정상 소리로 식별한다(S202). 여기서, 오디오 데이터 식별부(150)는 입력된 오디오 데이터가 상술된 구체 안에 포함되면 정상 소리로 판단하고, 구체 안에 포함되지 않으면 비정상 소리로 판단할 수 있다.

이때, 본 단계(S202)에 앞서서, 입력된 오디오 데이터의 잡음 성분에 대해 필터링부(120)를 통한 필터링이 이루어질 수 있으며, 특징 벡터 추출부(130)가 사람이 인지할 수 있는 소리 영역 내에서 입력된 오디오 데이터가 식별될 수 있도록, MFCC 등을 이용하여 입력된 오디오 데이터에서 특징 벡터를 추출할 수 있다. 그리고, 오디오 데이터 식별부(150)는 추출된 특징 벡터와 단일 클래스 SVDD를 위한 학습 데이터에 포함된 정상 소리와의 비교를 통해 해당 오디오 데이터에 대한 식별 작업을 수행할 수 있다.

다음으로, 입력된 오디오 데이터가 비정상 소리로 식별된 경우, SRC를 위한 학습 데이터에 기초하여, 해당 비정상 소리를 유형별로 분류한다(S203). 예컨대, SRC를 이용하여 비정상 소리를 ‘gun’, ‘scream’, ‘siren’ 등과 같이 유형별로 분류하고, 이를 관리자의 단말기로 전송할 수 있다. 만약, 이후 새로운 비정상 소리가 추가될 경우에는, 해당 비정상 소리 클래스에 대해서만 추가로 학습 데이터가 생성될 수 있다.

이와 같이, 첫 번째 계층의 단일 클래스 SVDD를 기초로 입력된 오디오 데이터에서 비정상 소리를 빠르게 탐지할 수 있다. 또한, 첫 번째 계층의 단일 클래스 SVDD를 위한 학습 데이터에 생성함에 있어서, 정상 소리만으로 학습 데이터를 생성하고 이를 이용하여 비정상 소리를 식별함으로써, 학습을 위한 별도의 비정상 소리를 준비할 필요가 없게 된다.

또한, 두 번째 계층의 SRC를 통하여 식별된 비정상 소리를 세분화하여 분류하고, 이를 관리자에게 보고함으로써 관리자의 위기 상황 대처를 효과적으로 도울 수 있게 된다.

상술된 관리자 단말기(미도시) 및 오디오 데이터 분류 장치(100)간의 연결 네트워크는 근거리 통신망(LAN, Local Area Network), 광역 통신망(WAN, Wide Area Network) 또는 부가가치 통신망(VAN, Value Added Network) 등과 같은 유선 네트워크나 3G, WIFI 등의 이동 통신망(mobile radio communication network) 또는 위성 통신망 등과 같은 모든 종류의 무선 네트워크로 구현될 수 있다.

또한 관리자 단말기는 네트워크를 통해 오디오 데이터 분류 장치(100)에 접속할 수 있는 컴퓨터나 휴대용 단말기로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop) 등을 포함하고, 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 스마트폰, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

또한, 도 1에서 도시된 각각의 구성요소는 일종의 '모듈'로 구성될 수 있다. 상기 '모듈'은 소프트웨어 또는 Field Programmable Gate Array(FPGA) 또는 주문형 반도체(ASIC, Application Specific Integrated Circuit)과 같은 하드웨어 구성요소를 의미하며, 모듈은 어떤 역할들을 수행한다. 그렇지만 모듈은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. 모듈은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 구성요소들과 모듈들에서 제공되는 기능은 더 작은 수의 구성요소들 및 모듈들로 결합되거나 추가적인 구성요소들과 모듈들로 더 분리될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

110: 오디오 데이터 수신부
120: 필터링부
130: 특징 벡터 추출부
140: 학습 데이터 생성부
142: SVDD 학습부
144: SRC 학습부
150: 오디오 데이터 식별부
160: 오디오 데이터 분류부
170: 통지부

Claims

오디오 데이터 분류 장치에 있어서,
오디오 데이터를 정상 소리와 비정상 소리로 식별하는 단일 클래스 SVDD(Support Vector Data Description)를 위한 학습 데이터를 생성하는 SVDD 학습부,
비정상 소리로 식별된 오디오 데이터를 유형별로 분류하는 SRC(Sparse Representation Classifier)를 위한 학습 데이터를 생성하는 SRC 학습부,
상기 단일 클래스 SVDD를 위한 학습 데이터에 기초하여, 오디오 데이터를 정상 소리 또는 비정상 소리로 식별하는 오디오 데이터 식별부 및
상기 SRC를 위한 학습 데이터에 기초하여, 상기 오디오 데이터 식별부에 의해 비정상 소리로 식별된 오디오 데이터를 유형별로 분류하는 오디오 데이터 분류부를 포함하는
오디오 데이터 분류 장치.
제 1 항에 있어서,
상기 단일 클래스 SVDD를 위한 학습 데이터는 정상 소리에 대해서 학습을 실시한 데이터이고,
상기 SRC를 위한 학습 데이터는 비정상 소리에 대해서 유형별로 학습을 실시한 데이터인 것을 특징으로 하는 오디오 데이터 분류 장치.
제 2 항에 있어서,
상기 오디오 데이터 식별부는
오디오 데이터가 상기 단일 클래스 SVDD를 위한 학습 데이터에 포함되지 않은 경우, 상기 오디오 데이터를 비정상 소리로 식별하는 것인 오디오 데이터 분류 장치.
제 3 항에 있어서,
MFCC(Mel-Frequency Cepstral Coefficient), LPCC(Linear Prediction Cepstrum Coefficient), PLP(Perceptual Linear Prediction), 및 LDA(Linear Discriminative Analysis) 중 어느 하나를 이용하여 상기 오디오 데이터에서 특징 벡터를 추출하여, 상기 추출된 특징 벡터와 상기 단일 클래스 SVDD를 위한 학습 데이터에 포함된 정상 소리와의 비교를 통해, 상기 오디오 데이터가 정상 소리 또는 비정상 소리인지에 대한 식별이 이루어지도록 하는 특징 벡터 추출부를 더 포함하는 오디오 데이터 분류 장치.
제 1 항에 있어서,
상기 SRC 학습부는
새로운 비정상 소리가 추가될 경우, 해당 비정상 소리 클래스에 대해서만 추가로 학습 데이터를 생성하는 것인 오디오 데이터 분류 장치.
오디오 데이터 분류 장치를 이용한 오디오 데이터 분류 방법에 있어서,
(a) 오디오 데이터를 정상 소리와 비정상 소리로 식별하는 단일 클래스 SVDD(Support Vector Data Description)를 위한 학습 데이터와, 비정상 소리로 식별된 오디오 데이터를 유형별로 분류하는 SRC(Sparse Representation Classifier)를 위한 학습 데이터를 생성하는 단계,
(b) 상기 단일 클래스 SVDD를 위한 학습 데이터에 기초하여, 입력된 오디오 데이터를 정상 소리 또는 비정상 소리로 식별하는 단계 및
(c) 상기 SRC를 위한 학습 데이터에 기초하여, 상기 비정상 소리로 식별된 오디오 데이터를 유형별로 분류하는 단계를 포함하되,
상기 단일 클래스 SVDD를 위한 학습 데이터는 정상 소리에 대해서 학습을 실시한 데이터이고, 상기 SRC를 위한 학습 데이터는 비정상 소리에 대해서 유형별로 학습을 실시한 데이터이고,
상기 (b) 단계는
상기 오디오 데이터가 상기 단일 클래스 SVDD를 위한 학습 데이터에 포함되지 않은 경우, 해당 오디오 데이터를 상기 비정상 소리로 식별하는 것인
오디오 데이터 분류 방법.
제 6 항에 있어서,
상기 (b) 단계는
MFCC(Mel-Frequency Cepstral Coefficient), LPCC(Linear Prediction Cepstrum Coefficient), PLP(Perceptual Linear Prediction), 및 LDA(Linear Discriminative Analysis) 중 어느 하나를 이용하여 상기 오디오 데이터에서 특징 벡터를 추출하여, 상기 추출된 특징 벡터와 상기 단일 클래스 SVDD를 위한 학습 데이터에 포함된 정상 소리와의 비교를 통해, 상기 오디오 데이터가 정상 소리 또는 비정상 소리인지에 대한 식별이 이루어지도록 하는 것인 오디오 데이터 분류 방법.
제 6 항에 있어서,
상기 (a) 단계는
새로운 비정상 소리가 추가될 경우, 해당 비정상 소리 클래스에 대해서만 추가로 학습 데이터를 생성하는 단계를 포함하는 오디오 데이터 분류 방법.
오디오 데이터 분류를 이용한 방범 시스템에 있어서,
오디오 데이터를 감지하는 오디오 데이터 수신부,
상기 감지된 오디오 데이터에서 잡음 성분을 제거하는 필터링부,
단일 클래스 SVDD를 위한 학습 데이터에 기초하여, 잡음 성분이 제거된 오디오 데이터를 정상 소리 또는 비정상 소리로 식별하는 오디오 데이터 식별부,
상기 오디오 데이터가 비정상 소리로 식별된 경우, SRC(Sparse Representation Classifier)를 위한 학습 데이터에 기초하여 상기 비정상 소리로 식별된 오디오 데이터를 유형별로 분류하는 오디오 데이터 분류부 및
상기 오디오 데이터가 비정상 소리로 식별된 경우 및 상기 비정상 소리로 식별된 오디오 데이터에 대한 유형별 분류가 완료된 경우 중 하나 이상의 경우에 대해 외부 장치로 해당 상황을 알리는 통지 메시지를 전달하는 통지부를 포함하되,
상기 단일 클래스 SVDD를 위한 학습 데이터는 정상 소리에 대해서 학습을 실시한 데이터이고, 상기 SRC를 위한 학습 데이터는 비정상 소리에 대해서 유형별로 학습을 실시한 데이터인 것을 특징으로 하는
오디오 데이터 분류를 이용한 방범 시스템.
제 9 항에 있어서,
상기 오디오 데이터 식별부는
상기 오디오 데이터가 상기 단일 클래스 SVDD를 위한 학습 데이터에 포함되지 않은 경우, 상기 오디오 데이터를 상기 비정상 소리로 식별하는 것인 오디오 데이터 분류를 이용한 방범 시스템.