KR101976443B1 - 음성 데이터 감시 시스템 및 방법 - Google Patents

음성 데이터 감시 시스템 및 방법 Download PDF

Info

Publication number
KR101976443B1
KR101976443B1 KR1020120126292A KR20120126292A KR101976443B1 KR 101976443 B1 KR101976443 B1 KR 101976443B1 KR 1020120126292 A KR1020120126292 A KR 1020120126292A KR 20120126292 A KR20120126292 A KR 20120126292A KR 101976443 B1 KR101976443 B1 KR 101976443B1
Authority
KR
South Korea
Prior art keywords
voice data
data
classifier
sample
voice
Prior art date
Application number
KR1020120126292A
Other languages
English (en)
Other versions
KR20140059636A (ko
Inventor
수지트 라만
Original Assignee
한화테크윈 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한화테크윈 주식회사 filed Critical 한화테크윈 주식회사
Priority to KR1020120126292A priority Critical patent/KR101976443B1/ko
Publication of KR20140059636A publication Critical patent/KR20140059636A/ko
Application granted granted Critical
Publication of KR101976443B1 publication Critical patent/KR101976443B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Alarm Systems (AREA)

Abstract

음성 데이터 감시 시스템이 개시된다. 본 발명의 일 실시예에 따른 음성 데이터 감시 시스템은, 음성 데이터를 수집하는 수집부, 상기 음성 데이터를 학습 또는 분류할 수 있는 형태로 변환하는 변환부, 상기 음성 데이터를 저장하는 저장부, 및 분류기를 통해 상기 변환된 음성 데이터를 학습 또는 분류하는 분류부를 포함하고, 상기 음성 데이터는 감시 대상 구역에서 발생하는 일상 음향으로 구성되는 제1 샘플 음성 데이터 또는 이상 음향으로 구성되는 제2 샘플 음성 데이터를 포함하고, 상기 분류부는 상기 제1 샘플 음성 데이터 또는 상기 제2 샘플 음성 데이터를 학습하고, 상기 분류부는 상기 제1 샘플 음성 데이터 또는 상기 제2 샘플 음성 데이터를 기초로, 상기 감시 대상 구역에서 수집된 감시 음성 데이터의 유사도를 판단한다.

Description

음성 데이터 감시 시스템 및 방법{SYSTEM AND METHOD FOR DETECTING AUDIO DATA}
본 발명은 음성 데이터 감시 시스템 및 방법에 관한 것으로, 더욱 구체적으로는 감시 구역 내에서 수집된 음성 데이터로부터 이상 상황을 검출할 수 있는 음성 데이터 감시 시스템 및 방법에 관한 것이다.
카메라는 다양한 분야에서 활용되고 있으며, 기술이 발전함에 따라서 데이터의 밀도 내지 집적도가 크게 증가하고 있다. 저장장치에 저장할 수 있는 용량은 지속적으로 증가하고 있으며, 디지털 영상 또는 디지털 변환 영상의 경우에는 전체 영상의 초당 프레임수(FPS)가 증가하고 있으며 각각의 프레임을 구성하는 해상도도 마찬가지로 점점 증가하고 있는 추세이다.
카메라에 의해 획득된 영상 및 음성 데이터는 정보 전달 목적으로 사용될 뿐만 아니라, 보안 내지 방범 등의 목적으로 사용될 수 있는데, 특히 보안 등의 목적으로 동일한 장소 내지 대상물을 지속적으로 촬영하여 획득한 데이터로부터 이상 상황을 검출하여 대응책을 마련할 수 있다.
국내특허공개공보 제2011-0025886호 국내특허공개공보 제2011-0095113호
방대한 양의 영상 데이터 중에서 원하는 장면 또는 이상 상황을 추출하는 방법과 관련하여 다양한 알고리즘이 제안된 바 있는 반면, 음성 데이터 중에서 이상 상황을 검출하는 방법에 대해서는 활발히 연구되고 있지 않은 실정이다.
음성 데이터는 영상 데이터 못지 않게 이상 상황을 검출하는데 중요한 정보를 포함하고 있으며, 영상 데이터로부터 추출하지 못하는 이상 상황을 검출할 수 있다.
특히 자동차의 접촉 사고가 많은 주차장, 교통사고가 많은 도로 구간 등에서 특정 사고의 소리가 발생한 영상 위치를 검색하여 기존의 영상 데이터 검색에서 놓친 많은 정보를 보다 정밀하게 관찰 및 분석할 필요성이 있다.
본 발명은 이와 같은 점으로부터 착안된 것으로, 본 발명이 해결하고자 하는 과제는 방대한 양의 음성 데이터 중에서 원하는 구간 즉, 이상 상황을 용이하게 감지하고 해당 구간을 추출할 수 있는 음성 데이터 감시 시스템 및 방법을 제공하고자 하는 것이다.
본 발명이 해결하려는 과제들은 이상에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 음성 데이터 감시 시스템은, 음성 데이터를 수집하는 수집부, 상기 음성 데이터를 학습 또는 분류할 수 있는 형태로 변환하는 변환부, 상기 음성 데이터를 저장하는 저장부, 및 분류기를 통해 상기 변환된 음성 데이터를 학습 또는 분류하는 분류부를 포함하고, 상기 음성 데이터는 감시 대상 구역에서 발생하는 일상 음향으로 구성되는 제1 샘플 음성 데이터 또는 이상 음향으로 구성되는 제2 샘플 음성 데이터를 포함하고, 상기 분류부는 상기 제1 샘플 음성 데이터 또는 상기 제2 샘플 음성 데이터를 학습하고, 상기 분류부는 상기 제1 샘플 음성 데이터 또는 상기 제2 샘플 음성 데이터를 기초로, 상기 감시 대상 구역에서 수집된 감시 음성 데이터의 유사도를 판단한다.
본 발명의 일 실시예에 따른 음성 데이터 감시 방법은, 샘플 음성 데이터를 수집하는 단계, 상기 샘플 음성 데이터를 변환하는 단계, 상기 변환된 샘플 음성 데이터를 음성 데이터 분류기에 제공하여 학습하는 단계, 감시 음성 데이터를 수집하는 단계, 상기 감시 음성 데이터를 변환하는 단계, 및 상기 변환된 감시 음성 데이터를 상기 음성 데이터 분류기에 제공하여 유사도가 임계값을 초과하는지 판단하는 단계를 포함한다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
도 1은 본 발명의 일 실시예에 따른 음성 데이터 감시 시스템을 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 음성 데이터 감시 방법을 설명하기 위한 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 도면에서 층 및 영역들의 크기 및 상대적인 크기는 설명의 명료성을 위해 과장된 것일 수 있다.
본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "이루어지다(made of)"는 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
공간적으로 상대적인 용어인 "아래(below)", "아래(beneath)", "하부(lower)", "위(above)", "상부(upper)" 등은 도면에 도시되어 있는 바와 같이 구성 요소들 상호 간의 상관관계를 용이하게 기술하기 위해 사용될 수 있다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
이하, 도 1을 참조하여 본 발명의 일 실시예에 따른 음성 데이터 감시 시스템에 대해 설명한다. 도 1은 본 발명의 일 실시예에 따른 음성 데이터 감시 시스템의 구성을 나타내는 블록도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 음성 데이터 감시 시스템은, 수집부(110), 변환부(120), 분류부(130), 및 저장부(140)를 포함할 수 있다.
수집부(110)는 감시하고자 하는 영역 내에서 발생한 음성을 추출하는 역할을 수행한다. 수집부(110)는 음성 데이터를 수신하기 위한 다양한 종류의 마이크 장치가 사용될 수 있다. 예를 들어, 마이크 구조에 따라 다이나믹 마이크, 콘덴서 마이크, 리본 마이크가 사용될 수 있으며, 지향성에 따라 지향성 마이크, 무지향성 마이크(Non-directional microphone), 단일 지향성 마이크(Uni-directional microphone), 초지향성 마이크(Super cardioid, Hyper cardioid) 등이 모두 사용될 수 있다.
몇몇 실시예에서는, 울림과 하울링을 억제하고 먼 거리에서 발생하는 소리를 안정적으로 수집할 수 있도록 하기 위하여 지향성 마이크가 사용되며, 설치된 지역에서 발생되는 다양한 형태의 소리를 수집하여 음성 데이터(200)를 변환부(120)로 제공한다.
또한, 수집부(110)는 카메라와 개별적으로 구비될 수 있으며, 카메라 등과 같은 영상획득부 내에 내장된 내장 마이크의 형태일 수도 있다. 감시 대상 장소에 적어도 하나 이상의 개수로 설치되어 주변에서 발생되는 소리를 수집할 수 있다.
변환부(120)는 수집된 음성 데이터(200)를 분류부(130)에서 학습하거나 식별(분류)할 수 있는 형태로 변환한다. 변환부(120)는 하아그 변환(Haar Transform) 또는 이산 푸리에 변환(Discrete Fourier Transform; DFT)을 수행할 수 있다. 후술하는 바와 같이, 수집된 음성 데이터(200)는 학습 목적의 샘플 음성 데이터일 수도 있으며, 분류 목적의 감시 음성 데이터일 수 있는데, 변환부(120)는 이와 같은 모든 종류의 음성 데이터를 변환할 수 있으며, 설정에 따라 음성 데이터의 종류 별로 다른 변환을 수행할 수도 있다.
예를 들어, 입력된 음성 데이터(200)를 추출하여 이산 푸리에 변환이 수행되면, 푸리에 변환 신호를 분석하여 주파수 스펙트럼을 구한 후 주파수 성분의 크기와 분포에 기반한 특성함수를 바탕으로 특성값을 추출하여 변환을 수행할 수 있다.
상기 특성값은, 신호의 기본주파수를 지칭하는 영교차율, 한정된 데이터 집합을 이용한 평균과 분산, 신호의 피크레벨의 평균값으로 일정한 임계값을 초과하는 신호는 피크로 간주하고 피크의 빈도와 세기를 측정하는 평균피크값(Average peak level), 및 학습데이터로 인한 소속된 범주를 지칭하는 군들 중 적어도 어느 하나 이상을 포함할 수 있다.
변환부(120)는 수집된 음성 데이터(200) 중 필요한 음성 구간을 검색 및/또는 추출하는 모듈을 더 포함할 수 있다. 예를 들어, 음성 데이터(200) 중 소정 이상의 주파수, 파장 또는 음역을 가지는 음성을 추출하여 이를 변환할 수 있다.
구체적으로 예를 들어, 변환부(120)는 수집된 음성 데이터(200)를 변환하여 소정의 임계값을 초과하는 고주파 음역을 제거한 나머지 음성 데이터를 분류부(130)에 제공할 수 있다.
이와 같은 경우, 이상 상황을 식별하는데 필요한 음역은 주로 저주파 음역대 이므로, 기계음 또는 불필요한 잡음이 혼합되어 생성된 고주파 음역을 제어함으로써 분류부(130)에서 이상 상황의 인식률을 높일 수 있다.
분류부(130)는 변환부(120)에 의해 변환된 음성 데이터를 제공받으며, 지도학습(Supervised Learning) 또는 자율학습(Unsupervised Learning)에 따라 음성 데이터를 분류할 수 있다. 지도학습에 대한 데이터 분류는 학습(훈련) 단계와, 분류(시험) 단계로 나뉠 수 있으며, 이에 따라 본 실시예에 따른 분류부(130)도 지도학습에 따라 음성 데이터를 분류하는 경우, 학습 상태인 제1 모드와 식별 상태인 제2 모드에 따라 서로 다른 기능을 수행할 수 있다.
분류부(130)는 커널 매트릭스-의사역 분류기(Kernel Matrix Pseudo inverse classifier), 베이즈 분류기(Bayes classifier), 피어슨 상관계수(Pearson correlation coefficient)에 기초한 제1 분류기, 또는 카이제곱검정(chi square test)에 기초한 제2 분류기 중 하나를 포함할 수 있으나, 이에 한정되는 것은 아니며, 주어진 입력값 벡터가 어떤 종류의 값인지 표식하는 분류(Classification)가 가능하며, 훈련 데이터로부터 주어진 데이터에 대해 예측하고자 하는 값을 정밀도 높게 추측할 수 있고, 기존의 훈련 데이터로부터 나타나지 않던 상황을 일반화하여 처리할 수 있는 분류기이면 다른 종류의 분류기도 사용될 수 있다.
분류부(130)가 제1 모드인 경우에는, 변환부(120)에 의해 변환된 샘플 음성 데이터를 학습하게 된다. 샘플 음성 데이터는 마이크와 같은 수집부(110)가 설치된 감시 대상 구역에서 발생하는 일상 음향으로 구성되는 제1 샘플 음성 데이터를 포함할 수 있으며, 감시 대상 구역에서 발생하는 이상 음향으로 구성되는 제2 샘플 음성 데이터를 포함할 수 있다.
제1 샘플 음성 데이터는 비상 상황이 발생하지 않은 일상 상황에서 발생하는 일상 음향을 구성될 수 있다. 예를 들어, 관리자가 분류부(130)를 제1 모드로 설정하면, 수집부(110)에서 감시 대상 구역 내의 음향을 수집하게 되고, 이와 같은 제1 샘플 음성 데이터가 분류부(130)로 전달되면, 분류부(130)는 이를 학습하게 된다. 이를 위해 분류부(130)는 소정의 음성 데이터를 별도로 저장부(140)에 저장할 수 있다.
분류부(130)는 이와 같이 학습된 제1 샘플 음성 데이터를 참조하여, 추후에 수신된 음성 데이터가 일상 음향 또는 이상 음향을 포함하는지 판단할 수 있다.
제2 샘플 음성 데이터는 이상 음향일 수 있으며, 예를 들어 소정 주파수 또는 소정 데시벨 이상의 파열음 또는 비명음 중 하나를 포함할 수 있으나 이에 한정되는 것은 아니다. 즉, 분류부(130)의 학습을 위해 제공되는 제2 샘플 음성 데이터는 감시 대상 구역의 종류에 따라 달라질 수 있다.
예를 들어 감시 대상 구역이 주차장인 경우 제2 샘플 음성 데이터는 자동차 간의 충돌음 또는 도난경보음 등일 수 있으며, 감시 대상 구역이 범죄 발생 예상 구역인 경우에는 소정음 이상의 비명소리 등이 이에 해당할 수 있다. 이와 같은, 제2 샘플 음성 데이터를 구성하는 이상 음향은 소정 주파수 이상을 가지는 것일 수 있다.
앞서 설명한 바와 같이, 변환된 샘플 음성 데이터는 고주파 음역을 제거한 나머지 임계값 이하의 저주파 음역을 가질 수 있다.
분류부(130)로 전달되는 학습 샘플 음성 데이터는 복수로 제공될 수 있으며, 샘플의 수가 많을수록 분류부(130)의 학습능력 및 분류 정밀도가 높아질 수 있다.
분류부(130)가 커널 매트릭스-의사역 분류기(Kernel Matrix Pseudo inverse classifier)인 경우, n개의 특징벡터(feature vectors)와 c개의 분류(classes)에 기초하여, 프로젝션 매트릭스를 결정한 후 프로젝션 메트릭스를 이용하여 학습 샘플 음성 데이터가 어느 클래스에 속하는지 결정할 수 있다.
커널 매트릭스-의사역 분류기(Kernel Matrix Pseudo inverse classifier)를 따를 때, 구체적으로 행렬 X와 행렬 D를 기초로 직교행렬(orthogonal matrix) T를 계산하게 된다. 행렬 X는 p행 n열 행렬로서, n개의 특징벡터인 xi가 열을 이룬다. xi는 실수 범위의 p차원의 벡터 공간에 속한다. 행렬 D는 n행 n열 행렬로서, xi와 xj가 동일한 분류(class)에 속할 경우 행렬 D의 i행 j열은 0으로 정의되며, 그 외의 경우는 1로 정의된다. 행렬 T는 n행 n열 행렬로서 하기의 식 1이 최소값을 가질 때의 행렬값으로 결정될 수 있다.
Figure 112012091991039-pat00001
상기 식 1에서 행렬 TK는 n행 n열 행렬로서, 변형된 특징벡터 yi가 열을 이룬다. 행렬 K는 n행 n열 행렬로서, 하기의 수식을 만족한다.
Figure 112012091991039-pat00002
즉, 행렬 K의 i행 j열은 특징벡터 xi와 xj의 p차원 공간 상의 거리의 음의 값으로 표시된다.
위와 같은 수식을 이용하여 행렬 X와 행렬 D로부터 행렬 T 및 행렬 TK를 결정할 수 있다.
결정된 행렬 T는 투영변환행렬(projection matrix)로 사용되어, 복수의 분류(classes) 중에서 각 분류까지의 거리를 결정할 수 있으며, 이를 기초로 학습한 음성 데이터를 분류할 수 있다.
분류부(130)가 제2 모드로 설정되는 경우에는, 위의 학습 단계에서 학습한 음성 데이터를 기초로 분류의 대상이 되는 감시 음성 데이터를 수신하게 된다. 감시 음성 데이터는 실제 감시 대상 구역을 감시하는 과정에서 수집한 음성 데이터이며, 실시간으로 수집된 음성 데이터가 수집부(110), 변환부(120)를 거쳐서 분류부(130)로 지속적으로 수신될 수 있으며, 분류부(130)는 연속적으로 수신된 음성 데이터 중에서 이상 상황을 감지하여 이를 시스템 및/또는 관리자에게 통지할 수 있다.
분류부(130)는 앞서 예시한 분류기를 이용하여 감시 음성 데이터를 분류하여 상기 샘플 음성 데이터와의 유사도(우도, Likelihood)를 계산하게 된다. 감시 음성 데이터와 샘플 음성 데이터와의 우도가 소정 임계값을 초과하게 되면, 감시 음성 데이터와 샘플 음성 데이터가 상이한 것으로 판단한다.
분류부(130)는 샘플 음성 데이터의 분류에 따른 점수를 측정할 수 있으며, 측정된 점수는 저장부(140)에 저장될 수 있다. 분류부(130)는 감시 음성 데이터의 점수를 측정하고, 샘플 음성 데이터와의 점수를 비교할 수 있다.
앞서 설명한 바와 같이, 정상 상태를 나타내는 제1 샘플 음성 데이터를 학습한 후, 감시 대상 구역에서 수집된 음성이 임계값을 초과한 경우, 정상 상태를 벗어나는 음성 데이터가 수집된 것이므로 현재 감시 음성 데이터는 이상 상황을 나타내는 것으로 판단할 수 있다.
반대로, 이상 상태를 나타내는 제2 샘플 음성 데이터를 학습한 후, 감시 대상 구역에서 수집된 음성이 임계값을 초과한 경우, 정상 상태를 벗어나는 음성 데이터가 수집된 것이므로 현재 감시 음성 데이터는 이상 상황을 나타내는 것으로 판단할 수 있다.
몇몇 실시예에서, 분류부(130)는 제2 샘플 음성 데이터를 기초로, 구체적인 이벤트를 사용자 또는 관리자에게 통지할 수 있다. 분류부(130)에서 감시 음성 데이터의 유사도를 측정하여 복수의 제2 샘플 음성 데이터 중 대응되는 제2 샘플 음성 데이터가 존재하는 경우 사용자 또는 관리자에게 상기 제2 샘플 음성 데이터와 대응되는 이벤트를 통지할 수 있다.
예를 들어, 감시 음성 데이터와 도난방지음이 소정 범위 내의 유사도를 가지는 경우, 분류부(130)는 현재 수집된 감시 음성 데이터에 의해 감지된 이벤트가 "차량 도난 상태"인 것으로 판단할 수 있다. 이로 인해 관리자는 구체적인 이상 상황의 종류까지 판단할 수 있게 된다.
또한, 몇몇 실시예에서 분류부(130)는, 감시 음성 데이터의 분류 및 이상 상황 판단 과정에서 영상 데이터를 참고할 수도 있다. 즉, 앞서 설명한 바와 같이, 본 실시예에 따른 수집부(110)가 네트워크 감시 카메라에 연결된 또는 내장된 마이크인 경우, 카메라 유닛 등을 통해 촬영된 영상 데이터는 별도의 이미지 프로세싱 과정을 통해 처리될 수 있으며, 반복된 이미지에서 변화된 이미지 및 변화율 등을 종합적으로 고려하여 이상 상황을 인식할 수 있다. 영상 데이터를 검색하는 과정은 예를 들어 복수의 프레임의 동일 위치에 존재하는 픽셀 간의 픽셀값 변화량을 기초로 동일 픽셀인지 결정하는 방법이 사용될 수 있으나, 이에 한정되는 것은 아니며, 이미지를 검출하기 위한 다양한 알고리즘이 사용될 수 있다.
분류부(130)는 상기 영상 데이터의 판단 결과를 가중치로 반영하여 감시 음성 데이터의 분류에 반영할 수 있다. 이를 위해, 분류부(130)는 음성 데이터의 프로그레스 정보 및 이와 대응되는 영상 데이터의 프로그레스 정보를 획득할 수 있으며, 이상 상황으로 감지된 영상 데이터와 시간상 대응되는 음성 데이터 구간을 검색하여 영상 데이터의 판단 결과를 반영시킬 수 있다.
즉, 동일한 감시 음성 데이터가 감지된 경우에도, 음성 데이터에 대응되는 영상 데이터의 이미지 검출 결과에 따라 이상 상황 또는 정상 상황으로 판단될 수 있다.
저장부(140)는 앞서 설명한 로우(raw) 형태의 음성 데이터(200) 및/또는 변환부(120)에 의해 변환된 음성 데이터를 저장하며, 분류부(130)와 연결되어 분류부(130)가 학습한 샘플 음성 데이터에 관한 자료를 저장 및 조회할 수 있다. 또한, 저장부(140)는 수집된 음성 데이터의 로그 정보를 저장할 수도 있다.
저장부(140)는 롬(Read Only Memory: ROM), 피롬(Programable ROM: PROM), 이피롬(Erasable Programmable ROM: EPROM), 이이피롬(Electrically Erasable Programmable ROM: EEPROM), 플래쉬 메모리(Flash memory)와 같은 비휘발성 메모리 소자 또는 램(Random Access Memory: RAM)과 같은 휘발성 메모리 소자 또는 하드디스크 드라이브(Hard Disk Drive; HDD)와 같은 저장 매체 중 적어도 하나로 구현될 수 있으나 이에 한정되지는 않는다.
이와 같이, 본 실시예에 따른 음성 데이터 감시 시스템은 지도학습(Supervised Learning)에 따른 분류기를 이용하여 샘플 음성 데이터를 학습한 상태에서, 실제 감지 음성 데이터가 임계값 이내인지를 판단하여 샘플 음성 데이터와의 유사도를 검출할 수 있으며, 이를 바탕으로 이상 상황과 정상 상황을 분류할 수 있다.
이하, 도 2를 참조하여 본 실시예에 따른 음성 데이터 감시 방법에 대해 설명한다. 본 실시예에 따른 음성 데이터 감시 방법은, 샘플 음성 데이터를 수집하는 단계, 상기 샘플 음성 데이터를 변환하는 단계, 상기 변환된 샘플 음성 데이터를 음성 데이터 분류기에 제공하여 학습하는 단계, 감시 음성 데이터를 수집하는 단계, 상기 감시 음성 데이터를 변환하는 단계, 및 상기 변환된 감시 음성 데이터를 상기 음성 데이터 분류기에 제공하여 유사도가 임계값을 초과하는지 판단하는 단계를 포함한다.
먼저, 음성 데이터를 수집한다(S102). 분류기가 학습 모드인 경우 음성 데이터는 관리자 등이 제공한 샘플 음성 데이터일 수 있으며, 감시 모드인 경우 음성 데이터는 실제 감시 대상 영역에서 수집한 감시 음성 데이터일 수 있다.
이어서, 음성 데이터를 변환한다(S104). 앞서 설명한 바와 같이, 음성 데이터를 변환하기 위해, 하아그 변환(Haar Transform) 또는 이산 푸리에 변환(Discrete Fourier Transform; DFT)이 수행될 수 있다.
음성 데이터를 변환하는 단계는, 임계값을 초과하는 고주파 음역을 제거하는 단계를 포함할 수 있으며, 변환된 음성 데이터는 상기 임계값 이하의 저주파 음역을 가질 수 있다.
이어서, 현재 분류기가 학습 모드인지 확인하고(S106), 학습 모드인 경우, 수신된 샘플 음성 데이터를 학습하기 위한 추가 변환 과정이 수행될 수도 있다(S108). 본 추가 변환 과정은 경우에 따라 생략될 수도 있다.
이어서, 샘플 음성 데이터를 분류기에 제공하여(S110), 샘플 음성 데이터를 학습할 수 있다(S112). 상기 샘플 음성 데이터는 감시 대상 구역에서 발생하는 일상 음향으로 구성되는 제1 샘플 음성 데이터, 및 이상 음향으로 구성되는 제2 샘플 음성 데이터를 포함할 수 있다.
관리자는 분류기의 학습도 및 분류 정밀도를 향상시키기 위해 상기 학습 과정을 반복하여 수행할 수 있다.
반면, 현재 분류기가 학습 모드가 아닌 감시 모드인 경우(S106), 감시 음성 데이터를 필요에 따라 변환할 수 있으며(S114), 변환된 감시 음성 데이터를 분류기에 제공할 수 있다(S116). 분류기가 수신된 감시 음성 데이터를 분류할 수 있는 경우, 추가 변환 과정은 생략될 수 있다.
분류기는 이미 학습된 데이터를 바탕으로 현재 수신된 감시 음성 데이터와의 유사도를 판단하며(S118), 유사도가 임계값을 초과하는 경우 이상 상황으로 인식하여, 외부에 통지하는 등의 대응 과정을 수행하게 된다(S120).
이외에 본 실시예에 따른 음성 데이터의 학습 및 분류 방법은 앞서 설명한 실시예에서와 동일하므로 설명을 생략한다.
이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
110: 수집부
120: 변환부
130: 분류부
140: 저장부
200: 음성 데이터

Claims (9)

  1. 음성 데이터를 수집하는 수집부;
    상기 음성 데이터를 학습 또는 분류할 수 있는 형태로 변환하는 변환부;
    상기 음성 데이터를 저장하는 저장부; 및
    분류기를 통해 상기 변환된 음성 데이터를 학습 또는 분류하는 분류부를 포함하고,
    상기 음성 데이터는 감시 대상 구역에서 발생하는 일상 음향으로 구성되는 제1 샘플 음성 데이터 또는 이상 음향으로 구성되는 제2 샘플 음성 데이터를 포함하고,
    상기 분류부는 상기 제1 샘플 음성 데이터 또는 상기 제2 샘플 음성 데이터를 학습하고,
    상기 분류부는 상기 제1 샘플 음성 데이터 또는 상기 제2 샘플 음성 데이터를 기초로, 상기 감시 대상 구역에서 수집된 감시 음성 데이터의 유사도를 판단하되,
    상기 변환부는 상기 변환된 음성데이터 중에서 고주파 음역을 제거하고,
    상기 고주파 음역이 제거된 음성 데이터에 포함되는 피크레벨의 평균값으로 임계값을 설정하고, 상기 임계값을 초과하는 음성 데이터의 빈도와 세기를 측정하여, 상기 학습 또는 상기 분류를 위한 상기 음성데이터의 특성값을 추출하는, 음성 데이터 감시 시스템.
  2. 제1항에 있어서,
    상기 변환부는, 하아그 변환 또는 이산 푸리에 변환을 수행하는, 음성 데이터 감시 시스템.
  3. 제1항에 있어서,
    상기 분류기는, 베이즈 분류기, 피어슨 상관계수에 기초한 제1 분류기, 카이제곱검정에 기초한 제2 분류기, 또는 커널 매트릭스-의사역 분류기(Kernel Matrix Pseudo inverse classifier)인 제3 분류기 중 하나를 포함하는, 음성 데이터 감시 시스템.
  4. 제1항에 있어서,
    상기 수집부는 영상 데이터를 촬영하여 카메라 유닛을 포함하고,
    상기 분류부는, 상기 영상 데이터의 판단결과를 가중치로 반영하여 상기 감시 음성 데이터의 유사도를 판단하는, 음성 데이터 감시 시스템.
  5. 제1항에 있어서,
    상기 분류부는, 상기 감시 음성 데이터와 상기 제2 샘플 음성 데이터가 소정 범위의 유사도를 가지는 경우, 상기 제2 샘플 음성 데이터와 대응되는 이벤트를 통지하는, 음성 데이터 감시 시스템.
  6. 샘플 음성 데이터를 수집하는 단계;
    상기 샘플 음성 데이터를 변환하는 단계;
    상기 변환된 샘플 음성 데이터를 음성 데이터 분류기에 제공하여 학습하는 단계;
    감시 음성 데이터를 수집하는 단계;
    상기 감시 음성 데이터를 변환하는 단계; 및
    상기 변환된 감시 음성 데이터를 상기 음성 데이터 분류기에 제공하여 유사도가 임계값을 초과하는지 판단하는 단계를 포함하되,
    상기 감시 음성 데이터를 변환하는 단계는,
    상기 변환된 음성데이터 중에서 고주파 음역을 제거하는 단계와,
    상기 고주파 음역이 제거된 음성 데이터에 포함되는 피크레벨의 평균값으로 임계값을 설정하고, 상기 임계값을 초과하는 음성 데이터의 빈도와 세기를 측정하여, 상기 학습 또는 상기 분류를 위한 상기 음성데이터의 특성값을 추출하는 단계를 포함하는, 음성 데이터 감시 방법.
  7. 삭제
  8. 제6항에 있어서,
    상기 샘플 음성 데이터는 감시 대상 구역에서 발생하는 일상 음향으로 구성되는 제1 샘플 음성 데이터 또는 이상 음향으로 구성되는 제2 샘플 음성 데이터를 포함하는, 음성 데이터 감시 방법.
  9. 제6항에 있어서,
    상기 음성 데이터 분류기는, 베이즈 분류기, 피어슨 상관계수에 기초한 제1 분류기, 카이제곱검정에 기초한 제2 분류기, 또는 커널 매트릭스-의사역 분류기(Kernel Matrix Pseudo inverse classifier)인 제3 분류기 중 하나를 포함하는, 음성 데이터 감시 방법.
KR1020120126292A 2012-11-08 2012-11-08 음성 데이터 감시 시스템 및 방법 KR101976443B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120126292A KR101976443B1 (ko) 2012-11-08 2012-11-08 음성 데이터 감시 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120126292A KR101976443B1 (ko) 2012-11-08 2012-11-08 음성 데이터 감시 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20140059636A KR20140059636A (ko) 2014-05-16
KR101976443B1 true KR101976443B1 (ko) 2019-05-09

Family

ID=50889409

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120126292A KR101976443B1 (ko) 2012-11-08 2012-11-08 음성 데이터 감시 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101976443B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102580554B1 (ko) * 2020-02-27 2023-09-21 한국전자통신연구원 기계학습 기반의 일상신호 제거 필터를 이용한 이상신호 탐지 장치
JP7337172B2 (ja) * 2020-05-27 2023-09-01 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声パケット推薦方法、装置、電子機器およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011025085A1 (en) 2009-08-25 2011-03-03 Axium Technologies, Inc. Method and system for combined audio-visual surveillance cross-reference to related applications
KR20110095113A (ko) 2010-02-16 2011-08-24 윤재민 음장인식 디지털 비디오 레코더 시스템 및 그것의 운용 방법
KR101283965B1 (ko) * 2010-12-23 2013-07-09 전자부품연구원 적응적 사고 검출 시스템 및 사고 검출 방법
KR101242733B1 (ko) * 2011-01-10 2013-03-12 고려대학교 산학협력단 카메라 환경에서의 비정상 소리 탐지 및 식별 시스템

Also Published As

Publication number Publication date
KR20140059636A (ko) 2014-05-16

Similar Documents

Publication Publication Date Title
CN105787437B (zh) 一种基于级联集成分类器的车辆品牌类型识别方法
US9008365B2 (en) Systems and methods for pedestrian detection in images
KR101116273B1 (ko) 교통사고 인식장치 및 그 방법
KR101588995B1 (ko) 대상 검출 장치 및 대상 검출 방법
US9761248B2 (en) Action analysis device, action analysis method, and action analysis program
KR102217253B1 (ko) 행동패턴 분석 장치 및 방법
EP3147902B1 (en) Sound processing apparatus, sound processing method, and computer program
KR102356666B1 (ko) 다중로그 데이터 기반의 공공안전 위험상황 감지, 예측, 대응 방법 및 장치
CN102164270A (zh) 具有异常事件发掘功能的智能视频监控方法及系统
Doshi et al. An efficient approach for anomaly detection in traffic videos
JP2012033152A (ja) ビデオ監視時に移動物体を分類するシステムおよび方法
KR101976443B1 (ko) 음성 데이터 감시 시스템 및 방법
KR102518615B1 (ko) 이상 음원을 판단하는 복합 감시 장치 및 방법
Kandpal et al. Classification of ground vehicles using acoustic signal processing and neural network classifier
KR101547255B1 (ko) 지능형 감시 시스템의 객체기반 검색방법
Zhao et al. Event classification for living environment surveillance using audio sensor networks
Wang et al. Multimodal and multi-task audio-visual vehicle detection and classification
CN113362851A (zh) 基于深度学习交通场景声音分类的方法及系统
Kaur et al. Traffic state detection using smartphone based acoustic sensing
Siddique et al. Analysis of Real-Time Hostile Activitiy Detection from Spatiotemporal Features Using Time Distributed Deep CNNs, RNNs and Attention-Based Mechanisms
CN114511978B (zh) 一种入侵预警方法、装置、车辆和计算机可读存储介质
Jiang et al. Abnormal event detection based on trajectory clustering by 2-depth greedy search
Shamnath et al. Human Suspicious Activity Detection Using Ensemble Machine Learning Techniques
Muhamad et al. Machine Learning Combined with Thresholding-A Blended Approach to Potholes Detection
WO2018105195A1 (ja) 映像障害検知装置、映像障害検知方法、及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant