KR101578108B1 - 오디오 데이터 기반의 감시 시스템을 위한 비명 검출 장치 및 그 방법 - Google Patents

오디오 데이터 기반의 감시 시스템을 위한 비명 검출 장치 및 그 방법 Download PDF

Info

Publication number
KR101578108B1
KR101578108B1 KR1020140115495A KR20140115495A KR101578108B1 KR 101578108 B1 KR101578108 B1 KR 101578108B1 KR 1020140115495 A KR1020140115495 A KR 1020140115495A KR 20140115495 A KR20140115495 A KR 20140115495A KR 101578108 B1 KR101578108 B1 KR 101578108B1
Authority
KR
South Korea
Prior art keywords
boundary value
screaming
audio data
point
value
Prior art date
Application number
KR1020140115495A
Other languages
English (en)
Inventor
이석필
서지훈
Original Assignee
상명대학교서울산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 상명대학교서울산학협력단 filed Critical 상명대학교서울산학협력단
Priority to KR1020140115495A priority Critical patent/KR101578108B1/ko
Application granted granted Critical
Publication of KR101578108B1 publication Critical patent/KR101578108B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Alarm Systems (AREA)
  • Burglar Alarm Systems (AREA)

Abstract

본 발명은 비명 검출 장치 및 방법으로, 외부로부터 오디오 데이터를 획득하고, 획득한 오디오 데이터의 특정 주파수 대역을 비명 주파수 대역으로 선택하며, 선택한 비명 주파수 대역을 분석하여 오디오 데이터의 에너지를 추출한 후, 추출한 에너지를 기초로 환경에 따라 가변하는 경계값을 설정하고, 설정된 경계값과 경계값이 설정된 이후에 획득한 오디오 데이터를 토대로 비명을 검출하는 것을 그 요지로 한다.

Description

오디오 데이터 기반의 감시 시스템을 위한 비명 검출 장치 및 그 방법 {Scream detecting device for surveillance systems based on audio data and, the method thereof}
본 발명은 비명 검출 장치 및 방법에 관한 것으로서, 더 구체적으로는 오디오 데이터 기반의 감시 시스템에서 비명을 효율적으로 검출하기 위해 비명 주파수 대역에서 오디오 데이터의 에너지를 추출하여 비명을 찾고, 관리자에게 즉각적인 알람을 전달하는 비명 검출 장치 및 그 방법에 관한 것이다.
최근 범죄율의 증가로 보안은 큰 이슈로 떠오르고 있다. 그에 따라 감시 시스템에 대한 연구가 계속되고 있으며, CCTV나 블랙박스 등 영상 기반 감시 시스템은 많이 상용화되어져 있다.
우리 주변의 감시 시스템은 CCTV, 블랙박스 등 영상 기반 감시 시스템이 주를 이루고 있다. 예를 들어, 건물, 가정집 등에 설치된 감시 시스템은 CCTV와 같은 감시 카메라를 통해 외부 침입자를 감시하고, 외부 침입이 발생한 경우 이를 관리자에게 알려주어, 관리자가 외부 침입에 따른 조치를 취할 수 있게 한다.
그러나, 감시 카메라의 경우 동작 반경이 제한되어 있고, 관리자가 잠시 자리를 비웠을 때 비상 상황이 발생한 경우에는 적절한 조치를 취할 수 없는 한계가 있다. 따라서, 관리자가 계속해서 감시 카메라를 모니터링을 해야 하고, 사건이 발생하였을 때 관리자에게 이를 즉각적으로 알려주기가 어렵다. 그리고, 감시 카메라 특성상 빛에 민감하고 동작 반경의 제한으로 사각지대가 존재하고 투입되는 인적, 물적 자원에 비하여 범죄 예방 효율이 떨어지는 문제점이 있었다.
본 발명은 관리자가 지속적으로 감시 카메라를 모니터링을 해야 하고 사각지대가 존재하는 종래의 영상 기반 감시 시스템의 문제를 해결하고, 오디오 데이터를 기초로 실시간으로 비명을 검출하여 관리자에게 즉각적인 알람을 전달해주어 관리자가 적절한 조치를 취할 수 있는 비명 검출 장치 및 방법을 제공하는 것을 목적으로 한다.
본 발명의 일면에 따른, 비명 검출 장치는 외부로부터 오디오 데이터를 획득하는 오디오 데이터 획득부; 획득한 상기 오디오 데이터의 특정 주파수 대역을 비명 주파수 대역으로 선택하고, 선택한 상기 비명 주파수 대역을 분석하여 상기 오디오 데이터의 에너지를 추출하고, 추출한 상기 에너지를 기초로 환경에 따라 가변하는 경계값을 설정하는 경계값 설정부; 및 설정된 상기 경계값과 상기 경계값이 설정된 이후에 획득한 상기 오디오 데이터를 기초로 비명을 검출하는 비명 검출부를 포함한다.
본 발명의 다른 면에 따른 비명 검출 방법은 외부로부터 오디오 데이터를 획득하는 단계; 획득한 상기 오디오 데이터의 특정 주파수 대역을 비명 주파수 대역으로 선택하는 단계; 선택한 상기 비명 주파수 대역을 분석하여 상기 오디오 데이터의 에너지를 추출하는 단계; 추출한 상기 에너지를 기초로 환경에 따라 가변하는 경계값을 설정하는 단계; 및 설정된 상기 경계값과 상기 경계값이 설정된 이후에 획득한 상기 오디오 데이터를 토대로 비명을 검출하는 단계를 포함한다.
본 발명에 따르면, 감시 시스템에서 오디오 데이터를 취득하고, 비명 주파수 대역에서 비명이 발생하였을 때, 비명을 효과적으로 검출할 수 있어 범죄 예방 효과가 인정되고, 검출한 비명 구간을 범죄 사건 해결의 증거물로 활용할 수 있어 사용자 편의성이 향상된다.
다음으로, 비명에 대한 학습 없이 소정 시간 동안 훈련과정을 거치고, 비명 주파수 대역에서의 오디오 데이터의 에너지를 이용한 환경에 따라 가변하는 경계값 설정을 통하여 비명 구간을 검출할 수 있으므로, 주변 환경에 따라 비명 구간의 시작점과 끝점이 변하게 된다. 따라서, 주변 환경에 최적화된 비명 구간을 검출할 수 있어, 비명 구간 검출시 정확성을 향상시킬 수 있다.
이어, 전 주파수 대역을 분석하는 것이 아니라 비명 주파수 대역에서 오디오 데이터 에너지의 크기를 이용하여 분석하므로 비명 검출부의 연산량을 감소시킬 수 있다.
또한, 상호상관 계수를 이용하여 경적과 같이 좁은 주파수 대역에서 큰 에너지를 포함하는 음향을 비명으로 오검출되는 것을 방지할 수 있다.
도 1은 본 발명의 실시 예에 따른 비명 검출 장치를 도시한 구성도.
도 2는 본 발명의 실시 예에 따른 비명 검출 방법을 도시한 순서도.
도 3(A), (B), (C)는 본 발명의 실시 예에 따른 번화가, 골목길, 차도에서 경계값을 설정할 때 에너지값 가중치에 따른 정확도와 오검출율을 도시한 도면.
도 4는 본 발명의 실시 예에 따른 시작점 경계값과 끝점 경계값을 시간 영역에서 설정하는 것을 도시한 도면.
도 5는 본 발명의 실시 예에 따라 시간 영역에서 시작점과 끝점을 기초로 비명 구간을 검출하는 것을 도시한 도면.
도 6은 본 발명의 실시 예에 따라 경적과 비명의 차이를 도시한 도면.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술 되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 기재에 의해 정의된다. 한편, 본 명세서에서 사용된 용어는 실시 예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 첨부된 도면을 참조하여 본 발명의 실시 예를 상세히 설명하기로 한다.
도 1은 본 발명의 실시 예에 따른 비명 검출 장치를 도시한 구성도이다.
도 1에 도시한 바와 같이 비명 검출 장치(100)는 오디오 데이터 획득부(110), 필터링부(120), 경계값 설정부(130), 비명 검출부(140) 및 경고부(150)를 포함한다.
오디오 데이터 획득부(110)는 외부로부터 오디오 데이터를 획득한다.
필터링부(120)는 획득한 오디오 데이터의 잡음 성분을 제거한다.
필터링부(120)는 위너 필터, 칼만 필터 등으로 구현될 수 있다.
경계값 설정부(130)는 획득한 오디오 데이터의 특정 주파수 대역을 비명 주파수 대역으로 선택하고, 선택한 비명 주파수 대역을 분석하여 획득한 오디오 데이터의 에너지를 추출한다.
일반적으로, 사람의 가청 주파수 대역은 20 ~ 20,000 Hz 이고, 사람 목소리의 주파수 대역은 300 ~ 3,400 Hz이다. 본 발명에서 비명 주파수 대역은 625 ~ 2,030 Hz으로 정하였다. 비명 주파수 대역은 실험에 의해 얻어진 결과값으로 비명에서 임계값보다 큰 에너지가 주로 포함되는 대역이다.
비명 주파수 대역을 선택하는 것은 모든 주파수 대역을 분석하는 것이 아니고, 특정 주파수 대역만 분석을 수행함으로써 수행 속도를 더욱 향상시키고 효율적으로 오디오 데이터의 에너지를 추출하기 위함이다.
비명은 일이 매우 위급하거나 몹시 두려움을 느낄 때 지르는 외마디 소리를 말한다. 비명의 특징은 높은 주파수 대역을 포함하고 그 대역에서 오디오 데이터의 에너지의 크기가 임계값보다 크며, 그 대역에서 오디오 데이터의 진폭의 크기가 임계값보다 큰 것이다. 비명 구간은 시간 영역에서 비명이 연속적으로 계속되는 구간이다. 비명 구간은 비명 시작점과 비명 끝점을 포함한다.
본 발명에서는 먼저 비명을 검출하는 것을 목표로 하고, 다음으로 비명의 시작점과 끝점을 포함하는 비명 구간을 검출하는 것을 목표로 한다. 따라서, 본 발명의 실시 예를 1)비명이 검출되는 경우와 2)비명 구간이 검출되는 경우로 나눌 수 있다.
경계값 설정부(130)는 추출한 오디오 데이터의 에너지를 기초로 환경에 따른 경계값을 설정한다. 즉, 경계값 설정부(130)는 추출한 에너지를 기초로 환경에 따른 경계값을 설정하는데, 이 과정을 훈련과정이라고 한다. 즉, 훈련과정은 주변 오디오 데이터를 획득하여 환경에 따라 가변적인 경계값을 설정하는 과정이다.
여기서, 경계값은 시작점 경계값과 끝점 경계값을 포함한다.
경계값 설정부(130)는 시작점 경계값을 설정할 때 비명 주파수 대역의 에너지값 평균에 에너지값 가중치 값을 곱해서 시작점 경계값을 설정한다.
경계값 설정부(130)는 끝점 경계값을 설정할 때 비명 주파수 대역의 에너지값 평균에 에너지값 가중치를 곱한 것과 비명 주파수 대역의 최대 에너지와 비명 주파수 대역의 에너지값 평균의 차이를 제곱한 것을 더해서 끝점 경계값을 설정한다.
구체적으로, 훈련과정에서는 비명 주파수 대역에서의 에너지값의 평균과 최대 에너지값, 상호상관계수 평균과 최대 상호상관계수 값을 구한다.
구체적으로, AVRband은 훈련과정 에너지 평균값이다. AVRcross는 훈련과정 상호상관계수 평균값이다. Emax는 훈련과정 최대 에너지값이다. XCorrmax는 훈련과정 최대상호 상관 계수이다.
시작점 경계값을 구하는 식은 다음과 같다. 훈련과정에서 구한 값들에 대한 가중치를 구하여 경계값을 계산한다.
Wband는 에너지값 가중치이고, Wcross는 상호상관계수 가중치이다. 본 발명에서는 에너지값 가중치는 실험에 따라 가장 최적 조건으로 인정된 3으로 설정하고, 상호상관계수 가중치는 0.8로 설정하였다.
상호상관계수 가중치는 0 ~ 1이 될 수 있다. 상호상관계수 가중치가 1에 근접할수록 비명 검출 장치에 기저장된 기준 비명과 유사성이 크게 되고 가중치가 0에 근접할수록 기준 비명과 유사성이 작게 된다.
시작점 경계값과 끝점 경계값은 수학식 1, 2에 따라 구한다.
Figure 112014083417349-pat00001
Figure 112014083417349-pat00002
본 발명의 실시 예에 따르면, 시작점 경계값과 끝점 경계값은 표 1과 같다.
SNR 지점 골목길 차도 번화가
4 dB 시작점 75 (dB) 76 80
끝점 85 86 90
10 dB 시작점 67 67 70
끝점 77 77 80
여기서, 경계값은 에너지를 나타내며 단위는 dB이 된다. 끝점 경계값은 비명 구간의 중복 검출을 방지하기 위해서 시작점 경계값보다 조금 더 높게 설정된다.
표 1을 참조하면, 골목길에서 신호대 잡음비가 4 dB인 경우와 10 dB 인 경우, 4 dB이 더 시끄러운 경우에 해당하고 10 dB이 더 조용한 경우에 해당한다. 따라서, 4 dB인 경우에는 비명 구간의 시작점과 끝점이 75 dB, 85 dB이 되고, 10 dB인 경우에는 비명 구간의 시작점과 끝점이 67 dB, 77 dB이 된다.
즉, 실시 예에 따르면, 시끄러운 곳에서는 주변 환경의 소음 영향을 많이 받기 때문에 비명 구간의 경계값이 높은 곳에서 설정되고, 조용한 곳에서는 주변 환경의 소음 영향을 적게 받기 때문에 비명 구간의 경계값이 낮은 곳에서 설정된다.
또한, 차도와 번화가의 경우에도 비명 구간의 경계값이 4 dB인 경우에는 높은 곳에서 설정되고, 10 dB인 경우에는 낮은 곳에서 설정된다. 따라서, 본 발명에 따르면, 비명 구간의 경계값은 고정된 것이 아니라, 주변 환경의 소음을 고려하여 경계값을 능동적으로 변화시켜, 보다 정확한 비명 구간을 검출할 수 있다.
경계값 설정부(130)는 상호상관 시작점 경계값을 설정할 때 비명 주파수 대역의 상호상관 계수 평균에 상호상관계수 가중치를 곱해서 상호상관 시작점 경계값을 설정한다.
경계값 설정부(130)는 상호상관 끝점 경계값을 설정할 때 비명 주파수 대역의 상호상관 계수 평균에 상호상관계수 가중치를 곱한 것과 비명 주파수 대역의 상호상관 계수 평균과 비명 주파수 대역의 최대 상호상관 계수의 차이를 제곱한 것을 더해서 상호상관 끝점 경계값을 설정한다.
구체적으로, 상호상관 시작점 경계값과 상호상관 끝점 경계값은 수학식 3, 4에 따라 구한다. 상호상관계수는 비명과 경적을 구분할 때 의미가 있다. 이에 대한 상세한 설명은 도 6에서 후술한다.
Figure 112014083417349-pat00003
Figure 112014083417349-pat00004
본 발명의 실시 예에 따르면, 상호상관 시작점 경계값과 상호상관 끝점 경계값은 표 2와 같다.
지점 골목길 차도 번화가
시작점 0.21 (단위 없음) 0.21 0.24
끝점 0.26 0.25 0.27
상호상관 시작점 경계값과 끝점 경계값은 상호상관계수가 SNR과 관계없는 계수이므로 SNR이 4 dB 인 경우와 10 dB인 경우가 모두 동일하게 측정되며, 상호상관계수 가중치는 0.8로 설정하였다.
여기서, 끝점 경계값은 비명 구간의 중복 검출을 방지하기 위해서 시작점 경계값보다 조금 더 높게 설정된다. 표 2에 대한 시작점, 끝점에 대한 자세한 설명은 표 1과 동일하게 적용된다.
본 발명의 일 실시 예에 따르면, 비명 검출부(140)가 비명을 검출하는 것을 살펴본다.
비명 검출부(140)는 경계값과 경계값이 설정된 이후에 획득한 오디오 데이터를 기초로 비명을 검출한다. 구체적으로 비명 검출부(140)는 오디오 데이터의 에너지가 경계값 이상이고 경계값 이상인 연속된 프레임 개수가 소정 개수 이상이면, 그 오디오 데이터를 비명으로 검출한다.
예컨대, 비명 검출부(140)는 SNR이 10 dB인 골목길 환경에서의 시간 영역에서 오디오 데이터의 에너지가 67 dB이고, 67 dB 이상인 연속된 프레임의 개수가 10개 이상이면 오디오 데이터를 비명으로 검출한다.
본 발명의 다른 실시 예에 따르면, 비명 검출부(140)가 비명 구간을 검출하는 것을 살펴본다.
비명 검출부(140)는 설정된 경계값과 경계값이 설정된 이후에 획득한 오디오 데이터를 토대로 비명 구간의 시작점과 끝점을 결정하고, 결정된 시작점과 끝점을 기초로 비명 구간을 검출한다.
비명 검출부(140)는 시간 영역에서 시작점 경계값 이상인 연속된 프레임의 개수가 소정 개수 이상이면 시작점 경계값이 나타나는 최초 시점을 시작점으로 설정하고, 끝점 경계값 이하인 연속된 프레임의 개수가 소정 개수 이상이면 끝점 경계값이 나타나는 최초 시점을 끝점으로 설정하여 시작점과 끝점을 결정한다.
예컨대, 비명 검출부(140)는 SNR이 10 dB인 골목길 환경에서의 시간 영역에서 시작점 경계값(예컨대, 67 dB) 이상인 연속된 프레임의 개수가 10개 이상이면 시작점 경계값이 나타나는 최초 시점을 시작점으로 설정하고, 끝점 경계값(예컨대, 77 dB) 이하인 연속된 프레임이 개수가 20개 이상이면 끝점 경계값이 나타나는 최초 시점을 끝점으로 설정하여 시작점과 끝점을 결정한다.
여기서, 시작점 경계값 이상인 연속된 프레임의 개수와 끝점 경계값 이하인 연속된 프레임 개수는 서로 상이하다. 이러한 이유는 끝점 경계값이 시작점 경계값보다 높은 것과 같이 비명 구간의 중복 검출을 방지하기 위함이다.
비명 검출부(140)는 시간 영역에서, 에너지의 크기가 시작점 경계값보다 큰 시간이 소정 시간 이상 지속되면 시작점 경계값이 나타나는 최초 시점을 시작점으로 설정하고, 에너지의 크기가 끝점 경계값보다 작은 시간이 소정 시간 이상 지속되면 끝점 경계값이 나타나는 최초 시점을 끝점으로 설정한다.
예컨대, 비명 검출부(140)는 SNR이 4 dB인 번화가 환경에서의 시간 영역에서 기설정된 시작점 경계값(예컨대, 80 dB) 보다 큰 시간이 소정 시간(예컨대, 0.1초)이상 지속되면 시작점 경계값이 나타나는 최초 시점을 시작점으로 설정하고, 에너지의 크기가 끝점 경계값(예컨대, 90 dB) 보다 작은 시간이 소정 시간(예컨대, 0.2초) 이상 지속되면 끝점 경계값이 나타나는 최초 시점을 끝점으로 설정한다.
물론, 본 실시 예에서도 시작점 경계값 이상인 연속된 프레임의 개수와 끝점 경계값 이하인 연속된 프레임 개수는 서로 상이하다.
경고부(150)는 비명 검출부(140)가 비명 또는 비명 구간을 검출하면, 경보를 관리자에게 전달하여 관리자는 즉각적으로 조치를 취할 수 있다.
경고부(150)는 경고음, 점멸등, 경고 메시지와 같은 경보를 관리자에게 전달한다.
도 2는 본 발명의 실시 예에 따른 비명 검출 방법을 도시한 순서도이다.
도 2에 도시한 바와 같이, 먼저 외부로부터 오디오 데이터를 획득한다(S210).
다음으로, 획득한 오디오 데이터의 특정 주파수 대역을 비명 주파수 대역으로 선택한다(S220).
이어, 선택한 비명 주파수 대역을 분석하여 오디오 데이터의 에너지를 추출한다(S230).
경계값 설정부(130)는 비명 주파수 대역에서 오디오 데이터의 에너지를 추출한다.
추출한 비명의 특징을 기초로 환경에 따른 경계값을 설정한다(S240). 여기서, 경계값은 상호상관 시작점 경계값과 상호상관 끝점 경계값을 포함한다.
경계값 설정부(130)는 상호상관 시작점 경계값을 설정할 때 비명 주파수 대역의 상호상관계수 평균에 상호상관계수 가중치를 곱해서 상호상관 시작 경계값을 설정한다.
경계값 설정부(130)는 상호상관 끝점 경계값을 설정할 때 비명 주파수 대역의 상호상관 계수 평균에 상호상관계수 가중치를 곱한 것과 비명 주파수 대역의 상호상관 계수 평균과 비명 주파수 대역의 최대 상호상관 계수의 차이를 제곱한 것을 더해서 상호상관 끝점 경계값을 설정한다. 본 발명의 실시에 따르면 상호상관계수 가중치는 0.8일 때 최적의 조건을 갖는다.
즉, 경계값 설정하는 단계까지가 훈련과정에 해당한다. 훈련과정에서는 비명인지 아닌지 판단을 하지 않고, 주변 환경으로부터 오디오 데이터 신호만 취득해서 환경에 따른 경계값을 설정한다.
설정된 경계값과 경계값이 설정된 이후에 획득한 오디오 데이터를 토대로 비명을 검출한다(S250).
본 발명의 일 실시 예에 따르면, 비명 검출부(140)가 비명을 검출하는 것을 살펴본다.
비명 검출부(140)는 경계값과 경계값이 설정된 이후에 획득한 오디오 데이터를 기초로 비명을 검출한다. 구체적으로 비명 검출부(140)는 오디오 데이터의 에너지가 경계값 이상이고, 경계값 이상인 연속된 프레임 개수가 소정 개수 이상이면 오디오 데이터를 비명으로 검출한다.
본 발명의 다른 실시 예에 따르면, 비명 검출부(140)가 비명 구간을 검출하는 것을 살펴본다.
설정된 경계값과 경계값이 설정된 이후에 획득한 오디오 데이터를 토대로 비명 구간의 시작점과 끝점을 결정한다(S250).
비명 검출부(140)는 시간 영역에서 시작점 경계값 이상인 연속된 프레임의 개수가 소정 개수 이상이면 시작점 경계값이 나타나는 최초 시점을 시작점으로 설정하고, 끝점 경계값 이하인 연속된 프레임의 개수가 소정 개수 이상이면 상기 끝점 경계값이 나타나는 최초 시점을 끝점으로 설정하여 시작점과 끝점을 결정한다. 여기서, 끝점 경계값은 시작점 경계값에 비하여 소정 크기만큼 크게 설정하여 시작점과 끝점을 결정한다.
끝으로, 결정된 시작점과 끝점을 기초로 비명 구간을 검출한다(S260).
도 3(A)는 본 발명의 실시 예에 따른 번화가에서 경계값을 설정할 때 에너지값 가중치에 따른 정확도와 오검출율을 도시한 도면이다.
도 3(A)에 도시한 바와 같이, 신호대 잡음비(SNR, 'Signal to noise ratio')가 10 dB인 번화가와 신호대 잡음비가 4 dB인 번화가가 있다. 여기서 신호는 비명이 되고, 노이즈는 주변의 환경 소음이 된다. 따라서, 10 dB인 번화가는 비명이 더 큰 값을 가지므로 4 dB인 번화가에 비하여 조용한 곳이 된다. 즉 10 dB인 번화가가 적게 시끄러운 곳이 되고, 4 dB인 번화가가 많이 시끄러운 곳이 된다.
도 3(A)는 비명 구간의 경계값의 정확성을 측정할 때, xy평면에서 x축은 가중치가 되고, y축은 정확성의 비율이 된다.
가중치가 1인 의미는 훈련과정에서 들어온 에너지가 100% 그대로 사용된다는 의미이고, 가중치가 5인 의미는 훈련과정에서 들어온 에너지의 5배가 경계값을 설정하는데 사용된다는 의미이다.
도 3(A)를 참조하면, 4 dB 번화가, 10 dB 번화가의 경우 모두 에너지값 가중치가 3일 때 가장 최적화된 조건임을 알 수 있다.
도 3(B)는 본 발명의 실시 예에 따른 골목길에서 경계값을 설정할 때 에너지값 가중치에 따른 정확도와 오검출율을 도시한 도면이다.
도 3(B)에 도시한 바와 같이, 4 dB 골목길, 10 dB 골목길의 경우 모두 에너지값 가중치가 3일 때 가장 최적화된 조건임을 알 수 있다.
도 3(C)는 본 발명의 실시 예에 따른 차도에서 경계값을 설정할 때 에너지값 가중치에 따른 정확도와 오검출율을 도시한 도면이다.
도 3(C)에 도시한 바와 같이, 4 dB 차도, 10 dB 차도의 경우 모두 에너지값 가중치가 3일 때 가장 최적화된 조건임을 알 수 있다.
상호상관계수 가중치는 0 ~ 1의 값을 가지며, 도 3(A), 3(B), 3(C)의 경우와 유사한 그래프를 가지며, 본 발명의 실시에 따르면, 상호상관계수 가중치가 0.8 일 때 가장 최적화된 조건이다.
도 4는 본 발명의 실시 예에 따른 시작점 경계값과 끝점 경계값을 시간 영역에서 설정하는 것을 도시한 도면이다.
도 4에 도시한 바와 같이, xy평면에서 x축은 시간 축(t)이고 y축은 에너지(dB)를 나타낸다. 도 4를 참조하면, 경계값 설정시 끝점 경계값의 크기가 시작점 경계값의 크기보다 크게 설정되는데 이는 비명 구간의 중복 검출을 방지하기 위함이다.
그리고, 상호상관 시작점 경계값과 상호상관 끝점 경계값에 대한 상세한 설명도 위의 경우와 동일하게 적용된다.
도 5는 본 발명의 실시 예에 따라 시간 영역에서 시작점과 끝점을 기초로 비명 구간을 검출하는 것을 도시한 도면이다.
도 5에서는 비명을 담은 오디오 파일을 특정 소프트웨어(Goldwave 5.67)를 실행시켜 시간 영역에서 도시하였다. xy평면에서 x축은 시간축이고 y축은 에너지의 크기를 나타낸다. y축이 진폭의 크기인 경우에도 이와 유사한 그래프 개형이 나타난다.
오디오 데이터가 비명으로 검출되기 위해서는, 1)오디오 데이터의 에너지가 경계값 이상이고(시작점 경계값), 2)에너지의 크기가 경계값 이상인 연속된 프레임 수가 소정 개수 이상인 조건을 충족해야 한다. 단순히 오디오 데이터의 에너지의 크기가 경계값 이상인 경우에는 좁은 대역에서 높은 에너지를 가진 형태의 그래프가 나온다. 오디오 데이터의 진폭을 기준으로 삼은 경우에도 위의 경우와 유사하게 적용된다.
도 5에서는, 26초 시점을 기준으로 좌측은 오디오 데이터의 잡음 성분을 나타내고, 우측은 비명 구간이 발생한 것을 도시하였다. 좌측의 그래프에도 y축의 값이 큰 성분도 있는 경우도 구간의 폭이 우측에 비하여 좁게 나타난다. 이는 단순히 오디오 데이터의 에너지가 경계값 이상인 것만 나타낼 뿐이다.
우측의 그래프에서는 세 개의 비명 구간이 나타난다. 우측의 그래프에는 y축의 값이 경계값 이상이고 구간의 폭이 우측에 비하여 넓게 나타난다. 따라서, 1)오디오 데이터의 에너지의 크기가 경계값 이상이고, 2) 에너지의 크기가 경계값 이상인 연속된 프레임 수가 소정 개수 이상이므로, 우측의 그래프에 비명 구간이 나타남을 알 수 있다.
구체적으로, 31.15초에서 비명이 검출되고, 31.92초에서 비명 검출이 종료된다. 따라서, 비명 구간은 31.15 ~ 31.92초, 41.17 ~ 41.92초, 51.14 ~ 52.42초가 검출된다.
도 6은 본 발명의 실시 예에 따라 경적과 비명의 차이를 도시한 도면이다.
경적이 소정 시간 울리면, 비명 구간 검출 장치가 경적을 비명으로 판단하여 오작동하는 문제가 생길 수 있다.
도 6에 도시한 바와 같이, 경적과 비명은 그래프의 모양에서 차이가 난다. 구체적으로, 비명은 하모닉 구조를 포함하고 있어서 넓은 대역에서 에너지를 나타내나, 경적은 고주파수 대역의 좁은 구간에서 에너지를 나타낸다. 주파수 분석을 실행하면 경적은 주로 2,500 Hz 이상의 고주파수 대역에서 에너지를 나타낸다.
하모닉 구조는 원천주파수의 배수 주파수 성분을 말한다. 예컨대, 1.2 GHz의 하모닉 주파수는 2.4 GHz, 3.6 GHz, 4.8 GHz 등이 된다. 따라서, 비명은 하모닉 구조를 포함하므로 넓은 주파수 대역에 분포한다.
본 발명에서 비명의 특징으로 임계값 이상의 에너지를 추출하는 것(상호상관 계수만 관련된 것)으로만 한 경우, 비명 주파수 대역에서 큰 에너지가 추출되면 비명으로 오동작할 수 있다.
따라서, 시간 영역과 주파수 영역에서 상호상관 계수뿐만 아니라, 경계값을 초과하는 연속된 프레임의 개수를 구하여 경적과 같이 좁은 대역에서 큰 에너지를 나타내는 음향을 비명으로 검출되는 것을 방지하고자 한다.
즉, 비명으로 검출되기 위해서는 1) 비명 주파수 대역에서 경계값을 초과하는 연속된 프레임의 개수가 소정 개수 이상이고, 2) 상호상관계수 경계값을 초과하여야 한다.
예컨대, 비명 주파수 대역에서 상호상관 시작점 경계값 0.21을 초과하는 연속된 프레임의 계수가 10개 이상이고, 상호상관계수 경계값 0.21을 초과해야 비명으로 검출된다.
즉, 오디오 데이터를 분석했을 때 단순히 상호상관계수 경계값만 만족하면, 단순히 좁은 대역에서 큰 에너지를 나타내는 음향(예컨대, 경적)에 해당하므로, 비명에 해당하지 않는다. 따라서, 본 발명은 비명과 경적의 차이를 구별할 수 있다.
본 발명에 따르면, 감시 시스템에서 오디오 데이터를 취득하고, 비명 주파수 대역에서 비명이 발생하였을 때, 비명을 효과적으로 검출할 수 있어 범죄 예방 효과가 인정되고, 검출한 비명 구간을 범죄 사건 해결의 증거물로 활용할 수 있어 사용자 편의성이 향상된다.
다음으로, 비명에 대한 학습 없이 소정 시간 동안 훈련과정을 거치고, 비명 주파수 대역에서의 오디오 데이터의 에너지를 이용한 환경에 따라 가변하는 경계값 설정을 통하여 비명 구간을 검출할 수 있으므로, 주변 환경에 따라 비명 구간의 시작점과 끝점이 변하게 된다. 따라서, 주변 환경에 최적화된 비명 구간을 검출할 수 있어, 비명 구간 검출시 정확성을 향상시킬 수 있다.
이어, 전 주파수 대역을 분석하는 것이 아니라 비명 주파수 대역에서 오디오 데이터 에너지의 크기를 이용하여 분석하므로 비명 검출부의 연산량을 감소시킬 수 있다.
또한, 상호상관 계수를 이용하여 경적과 같이 좁은 주파수 대역에서 큰 에너지를 포함하는 음향을 비명으로 오검출되는 것을 방지할 수 있다.
이상의 설명은 본 발명의 기술적 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면, 본 발명의 본질적 특성을 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능하다. 따라서, 본 발명에 표현된 실시 예들은 본 발명의 기술적 사상을 한정하는 것이 아니라, 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 권리범위가 한정되는 것은 아니다. 본 발명의 보호범위는 아래의 특허청구범위에 의하여 해석되어야 하고, 그와 동등하거나, 균등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100 : 비명 검출 장치
110 : 오디오 데이터 획득부 120 : 필터링부
130 : 경계값 설정부 140 : 비명 검출부
150 : 경고부

Claims (13)

  1. 외부로부터 오디오 데이터를 획득하는 오디오 데이터 획득부;
    획득한 상기 오디오 데이터의 특정 주파수 대역을 비명 주파수 대역으로 선택하고, 선택한 상기 비명 주파수 대역을 분석하여 상기 오디오 데이터의 에너지를 추출하고, 추출한 상기 에너지를 기초로 환경에 따라 가변하는 경계값을 설정하는 경계값 설정부; 및
    설정된 상기 경계값과 상기 경계값이 설정된 이후에 획득한 상기 오디오 데이터를 기초로 비명을 검출하는 비명 검출부를 포함하되
    상기 경계값은 시작점 경계값과 끝점 경계값을 포함하고,
    상기 경계값 설정부는 시작점 경계값을 설정할 때 비명 주파수 대역의 에너지값 평균에 에너지값 가중치 값을 곱해서 시작점 경계값을 설정하고, 끝점 경계값을 설정할 때 비명 주파수 대역의 에너지값 평균에 에너지값 가중치를 곱한 것과 비명 주파수 대역의 최대 에너지와 비명 주파수 대역의 에너지값 평균의 차이를 제곱한 것을 더해서 끝점 경계값을 설정하는 것
    인 비명 검출 장치.
  2. 제1항에 있어서, 상기 비명 검출부는
    상기 오디오 데이터의 에너지의 크기가 상기 경계값 이상이고, 상기 경계값을 초과하는 연속된 프레임 개수가 소정 개수 이상이면 상기 오디오 데이터를 비명으로 검출하는 것
    인 비명 검출장치.
  3. 제1항에 있어서, 상기 비명 검출부는
    설정된 상기 경계값과 상기 경계값이 설정된 이후에 획득한 상기 오디오 데이터를 기초로 비명 구간의 시작점과 끝점을 결정하고, 결정된 상기 시작점과 끝점을 기초로 상기 비명 구간을 검출하는 것
    인 비명 검출 장치.
  4. 제3항에 있어서, 상기 비명 검출부는
    시간 영역에서 시작점 경계값 이상인 연속된 프레임의 개수가 소정 개수 이상이면 상기 시작점 경계값이 나타나는 최초 시점을 시작점으로 설정하고, 끝점 경계값 이하인 연속된 프레임의 개수가 소정 개수 이상이면 상기 끝점 경계값이 나타나는 최초 시점을 끝점으로 설정하여 시작점과 끝점을 결정하는 것
    인 비명 검출 장치.
  5. 제4항에 있어서,
    상기 시작점 경계값 이상인 연속된 프레임의 개수와 상기 끝점 경계값 이하인 연속된 프레임 개수는 서로 상이한 것
    인 비명 검출 장치.
  6. 삭제
  7. 제3항에 있어서, 상기 비명 검출부는
    시간 영역에서, 에너지의 크기가 시작점 경계값보다 큰 시간이 소정 시간 이상 지속되면 상기 시작점 경계값이 나타나는 최초 시점을 시작점으로 설정하고, 에너지의 크기가 끝점 경계값보다 작은 시간이 소정 시간 이상 지속되면 상기 끝점 경계값이 나타나는 최초 시점을 끝점으로 설정하는 것
    인 비명 검출 장치.
  8. 제1항에 있어서,
    획득한 상기 오디오 데이터의 잡음 성분을 제거하는 필터링부를 더 포함하는 것
    인 비명 검출 장치.
  9. 외부로부터 오디오 데이터를 획득하는 단계;
    획득한 상기 오디오 데이터의 특정 주파수 대역을 비명 주파수 대역으로 선택하는 단계;
    선택한 상기 비명 주파수 대역을 분석하여 상기 오디오 데이터의 에너지를 추출하는 단계;
    추출한 상기 에너지를 기초로 환경에 따라 가변하는 경계값을 설정하는 단계; 및
    설정된 상기 경계값과 상기 경계값이 설정된 이후에 획득한 상기 오디오 데이터를 토대로 비명을 검출하는 단계를 포함하되
    상기 경계값을 설정하는 단계는
    상기 경계값은 상호상관 시작점 경계값과 상호상관 끝점 경계값을 포함하고,
    상호상관 시작점 경계값을 설정할 때 비명 주파수 대역의 상호상관 계수 평균에 상호상관계수 가중치를 곱해서 상호상관 시작점 경계값을 설정하고, 상호상관 끝점 경계값을 설정할 때 비명 주파수 대역의 상호상관 계수 평균에 상호상관계수 가중치를 곱한 것과 비명 주파수 대역의 상호상관 계수 평균과 비명 주파수 대역의 최대 상호상관 계수의 차이를 제곱한 것을 더해서 상호상관 끝점 경계값을 설정하는 단계를 포함하는 것
    인 비명 검출 방법.
  10. 제9항에 있어서, 상기 비명을 검출하는 단계는
    비명 구간의 시작점과 끝점을 결정하는 단계; 및
    결정된 상기 시작점과 끝점을 기초로 상기 비명 구간을 검출하는 단계를 포함하는 것
    인 비명 검출 방법.
  11. 삭제
  12. 제10항에 있어서, 상기 시작점과 끝점을 결정하는 단계는
    시간 영역에서 시작점 경계값 이상인 연속된 프레임의 개수가 소정 개수 이상이면 상기 시작점 경계값이 나타나는 최초 시점을 시작점으로 설정하고, 끝점 경계값 이하인 연속된 프레임의 개수가 소정 개수 이상이면 상기 끝점 경계값이 나타나는 최초 시점을 끝점으로 설정하여 시작점과 끝점을 결정하는 것
    인 비명 검출 방법.
  13. 제10항에 있어서, 상기 시작점과 끝점을 결정하는 단계는
    상기 끝점 경계값은 상기 시작점 경계값에 비하여 소정 크기만큼 크게 설정하여 시작점과 끝점을 결정하는 것
    인 비명 검출 방법.
KR1020140115495A 2014-09-01 2014-09-01 오디오 데이터 기반의 감시 시스템을 위한 비명 검출 장치 및 그 방법 KR101578108B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140115495A KR101578108B1 (ko) 2014-09-01 2014-09-01 오디오 데이터 기반의 감시 시스템을 위한 비명 검출 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140115495A KR101578108B1 (ko) 2014-09-01 2014-09-01 오디오 데이터 기반의 감시 시스템을 위한 비명 검출 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR101578108B1 true KR101578108B1 (ko) 2015-12-16

Family

ID=55080790

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140115495A KR101578108B1 (ko) 2014-09-01 2014-09-01 오디오 데이터 기반의 감시 시스템을 위한 비명 검출 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101578108B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017135507A1 (ko) * 2016-02-03 2017-08-10 이선정 비명 검출 방법 및 이를 위한 장치
CN111613250A (zh) * 2020-07-06 2020-09-01 泰康保险集团股份有限公司 长语音端点检测方法与装置、存储介质、电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012048173A (ja) * 2010-08-30 2012-03-08 Secom Co Ltd 悲鳴検知装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012048173A (ja) * 2010-08-30 2012-03-08 Secom Co Ltd 悲鳴検知装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
서지훈 외 3명, ‘가중치 값에 따른 비명검출 성능 연구’, 2014년 한국방송공학회 하계학술대회, pp.197~200, 2014년 6월.* *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017135507A1 (ko) * 2016-02-03 2017-08-10 이선정 비명 검출 방법 및 이를 위한 장치
KR101800425B1 (ko) * 2016-02-03 2017-12-20 세이퍼웨이 모바일, 인코퍼레이트 비명 검출 방법 및 이를 위한 장치
US10468049B2 (en) 2016-02-03 2019-11-05 Saferway Mobile, Inc Scream detection method and apparatus therefor
CN111613250A (zh) * 2020-07-06 2020-09-01 泰康保险集团股份有限公司 长语音端点检测方法与装置、存储介质、电子设备

Similar Documents

Publication Publication Date Title
AU2014101406A4 (en) A portable alerting system and a method thereof
JP4569190B2 (ja) 不審者対策システム及び不審者検出装置
CN108073577A (zh) 一种基于人脸识别的报警方法和系统
CN109672862B (zh) 图像处理方法、装置、介质及电子设备
KR101384781B1 (ko) 이상 음원 탐지 장치 및 방법
KR20080054330A (ko) 연기 검출 방법 및 장치
US20160078883A1 (en) Action analysis device, action analysis method, and action analysis program
Andersson et al. Fusion of acoustic and optical sensor data for automatic fight detection in urban environments
KR101899436B1 (ko) 비명인식 기반 안전감지센서
WO2014190851A1 (zh) 一种视频监控方法、装置及系统
CN112327288B (zh) 雷达人体动作识别方法、装置、电子设备和存储介质
KR101321447B1 (ko) 네트워크를 통한 현장 모니터링 방법, 및 이에 사용되는 관리 서버
EP2000998B1 (en) Flame detecting method and device
KR101578108B1 (ko) 오디오 데이터 기반의 감시 시스템을 위한 비명 검출 장치 및 그 방법
US20170221503A1 (en) Audio processing apparatus and audio processing method
GB2413231A (en) Surveillance apparatus identifying objects becoming stationary after moving
Zieger et al. Acoustic based surveillance system for intrusion detection
CN111653067A (zh) 智能家居设备及基于音频的报警方法
DE60212991D1 (de) Sicherheitssystem und warnmethode mit randerkennung eines bildsignals
KR20140108789A (ko) 영상 감시 장치 및 영상 감시 방법
JP5752977B2 (ja) 画像監視装置
JP5627962B2 (ja) 異常検知装置
CN109345771A (zh) 一种检测人体跌倒的方法及系统
KR20150100704A (ko) 바람 소음 제거를 통한 음원 위치 추적 장치 및 그 방법
KR20180044641A (ko) 영상 및 음성 복합 상황 판별 장치 및 방법

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181031

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20200122

Year of fee payment: 5