KR20180122171A - 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치 - Google Patents

심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치 Download PDF

Info

Publication number
KR20180122171A
KR20180122171A KR1020170056345A KR20170056345A KR20180122171A KR 20180122171 A KR20180122171 A KR 20180122171A KR 1020170056345 A KR1020170056345 A KR 1020170056345A KR 20170056345 A KR20170056345 A KR 20170056345A KR 20180122171 A KR20180122171 A KR 20180122171A
Authority
KR
South Korea
Prior art keywords
data
audio signal
neural network
event
noises
Prior art date
Application number
KR1020170056345A
Other languages
English (en)
Other versions
KR101969504B1 (ko
Inventor
박형민
김영만
Original Assignee
서강대학교산학협력단
블루카이트주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교산학협력단, 블루카이트주식회사 filed Critical 서강대학교산학협력단
Priority to KR1020170056345A priority Critical patent/KR101969504B1/ko
Publication of KR20180122171A publication Critical patent/KR20180122171A/ko
Application granted granted Critical
Publication of KR101969504B1 publication Critical patent/KR101969504B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

본 발명은 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치에 관한 것이다. 상기 사운드 이벤트 검출 방법은, (a) 학습 단계 및 (b) 이벤트 검출 단계 를 구비하고, 상기 (a) 학습 단계는, 각 훈련 데이터들로부터 특징(feature) 데이터들 및 예제 노이즈들(Noise Exemplars)을 추출하고, 상기 예제 노이즈들을 부가 입력으로 하여 사다리 네트워크를 학습하는 것을 특징으로 하며,
상기 (b) 이벤트 검출 단계는, 입력된 테스트용 오디오 신호로부터 특징 데이터를 추출하고, 상기 학습된 사다리 네트워크 및 예제 노이즈들을 이용하여, 상기 테스트용 오디오 신호에 대한 이벤트 종류를 검출하고, 검출 결과에 대하여 메디안 필터(Median Filter)를 이용하여 후처리하여 이벤트 종류를 최종적으로 분류하는 것을 특징으로 한다.

Description

심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치{Sound event detection method using deep neural network and device using the method}
본 발명은 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치에 관한 것으로서, 더욱 구체적으로는 훈련 데이터들로부터 예제 노이즈들을 추출하고, 추출된 예제 노이즈들을 부가 입력으로 하여 심층 신경망을 학습시킨 후, 테스트용 오디오 신호와 예제 노이즈들을 입력 데이터로 하여 상기 학습된 심층 신경망을 이용하여 보다 정확하게 사운드 이벤트 종류를 검출하는 방법 및 장치에 관한 것이다.
CCTV 등과 같은 보안 감시 시스템은 많은 분야에서 사용되고 있으며, 최근 그 적용 분야 및 활용 범위도 크게 증대되고 있다. 특히, 도로 교통 모니터링을 위한 감시 시스템은 매우 중요한 과제로 대두되고 있는 실정이다. 도로 교통 모니터링을 위한 감시 시스템은 차량 충돌(car crashing)이나 타이어 스키딩(tire skidding)과 같은 비정상적이거나 위험한 교통 상황이나 교통 사고가 발생되는 경우 추가적인 사고가 발생되는 것을 방지하고 신속한 처리를 위하여, 이러한 비정상적이거나 위험한 교통 상황이나 교통 사고가 발생되는 것을 신속하게 자동으로 판단하는 기능이 요구되고 있다.
이에 따라, 영상 정보들을 이용하여 전술한 교통 사고나 비정상적이거나 위험한 교통 상황이 발생된 것을 확인할 수도 있지만, 교통사고시에 주로 발생되는 차량 충돌이나 타이어 스키딩 현상은 독특한 소리를 수반하게 되므로 이러한 독특한 사운드에 대한 음향 분석을 통해 특정 이벤트들을 신속하게 자동으로 판별해 내는 것이 더욱 효과적일 수 있다.
이러한 이유로, 종래에는 사운드 이벤트 검출(Sound Event Detection; 'SED')이 다양하게 제안되었다. 제안된 방법들 중 하나인, 종래의 패턴 인식 기술(Pattern recognition technique)은 학습에 의해 일련의 특징들을 추출하고, 추출된 특징들(features)을 이용하여 이벤트 종류를 검출하는 방법이다.
하지만, 차량 충돌이나 타이어 스키딩과 같은 교통 사고 또는 비정상적인 교통 상황을 나타내는 사운드 신호는 백색 잡음 뿐만 아니라 도로의 일반적인 사운드 신호와 함께 캡쳐됨에 따라, 종래의 음향 분석 기술들로는 정확하게 전술한 이벤트 종류를 검출하기가 용이하지 않다.
따라서, 본 발명은 도로 교통 감시 시스템 등에서 차량 충돌이나 타이어 스키딩과 같은 비정상적이거나 위험한 교통 상황을 보다 신속하고 정확하게 감지하기 위하여 사용될 수 있는 사운드 이벤트 검출 방법 및 장치를 제안하고자 한다.
한국등록특허공보 제 10-1544671호 한국공개특허공보 제 10-2011-0025886호
전술한 문제점을 해결하기 위한 본 발명의 목적은 심층 신경망을 이용하여 차량 충돌이나 타이어 스키딩과 같은 비정상적이거나 위험한 교통 상황을 보다 신속하고 정확하게 감지하기 위하여 사용될 수 있는 사운드 이벤트 검출 방법 및 장치를 제공하는 것이다.
본 발명의 다른 목적은 오디오 신호로부터 추출된 특징 데이터와 예제 노이즈들을 결합하여 입력 데이터로 하여 심층 신경망을 이용하여 차량 충돌이나 타이어 스키딩과 같은 비정상적이거나 위험한 교통 상황을 보다 신속하고 정확하게 감지하기 위하여 사용될 수 있는 사운드 이벤트 검출 방법 및 장치를 제공하는 것이다.
전술한 기술적 과제를 달성하기 위한 본 발명의 제1 특징에 따른 사운드 이벤트 검출 방법은, (a) 오디오 신호와 이에 대응되는 이벤트 종류를 포함하는 훈련 데이터들을 이용하여 심층 신경망(Deep neural-Network)을 학습하는 단계; 및 (b) 테스트하기 위하여 입력된 테스트용 오디오 신호에 대하여 상기 학습된 심층 신경망을 이용하여 이벤트 종류를 검출하는 단계; 를 구비하고,
상기 (a) 학습 단계는, (a1) 각 훈련 데이터를 구성하는 오디오 신호들에 대한 특징(feature) 데이터들을 추출하는 단계; (a2) 상기 추출된 특징 데이터들로부터 예제 노이즈들(Noise Exemplars)을 추출하는 단계; (a3) 각 오디오 신호에 대한 특징 데이터를 포함하는 스펙트럴 벡터(spectral vector)와 상기 예제 노이즈들을 결합하여, 훈련용 결합 데이터들을 생성하는 단계; 및 (a4) 상기 훈련용 결합 데이터들을 이용하여 심층 신경망을 학습하는 단계;를 구비하고,
상기 (b) 이벤트 검출 단계는, (b1) 테스트용 오디오 신호를 입력받는 단계; (b2) 상기 입력된 테스트용 오디오 신호로부터 특징 데이터를 추출하는 단계; (b3) 상기 추출된 특징 데이터와 상기 예제 노이즈들을 결합하여 테스트용 결합 데이터를 생성하는 단계; (b4) 상기 테스트용 결합 데이터를 상기 학습된 신경망에 입력하여 이벤트 종류를 검출하는 단계; 및 (b5) 상기 (b4) 단계의 검출 결과에 대하여 메디안 필터(Median Filter)를 이용하여 후처리하여, 이벤트 종류를 최종적으로 분류하는 단계;를 구비하여, 예제 노이즈들을 부가 입력으로 하여 학습된 심층 신경망을 이용하여 테스트용 오디오 신호로부터 이벤트 종류를 검출한다.
전술한 제1 특징에 따른 상기 사운드 이벤트 검출 방법에 있어서, 상기 (b5) 단계의 메디안 필터는 (b4) 단계에서의 검출 결과에 대하여 서로 인접한 두 개의 세그먼트들의 일부를 중첩시키는(half overlapping) 것이 바람직하다.
전술한 제1 특징에 따른 상기 사운드 이벤트 검출 방법에 있어서, 상기 심층 신경망은 사다리 네트워크(Ladder Network)이며,
상기 사다리 네트워크는 적층된 디노이징 오토인코더(Denoising autoencoder;DAE)의 비지도 재구성 성분(unsupervised reconstruction component)를 피드포워드 심층 신경망(feedforward Deep-neural network;FFNN)의 지도 학습(supervised learning)에 추가하는 것이 바람직하다.
전술한 제1 특징에 따른 상기 사운드 이벤트 검출 방법에 있어서, 상기 오디오 신호로부터 추출하는 특징 데이터는 로그-파워 스펙트럴 계수들(Logarithmic linear-frequency power spectral coefficients)인 것이 바람직하다.
전술한 제1 특징에 따른 상기 사운드 이벤트 검출 방법에 있어서, 상기 예제 노이즈들은 예제 노이즈 후보들로부터 무작위로 선택되거나 k-means clustering algorithm을 적용하여 선택되며,
상기 예제 노이즈 후보들은 훈련 데이터를 구성하는 오디오 신호들에 대한 특징 데이터들로부터 얻는 스펙트럴 벡터들(spectral vectors) 중 사전 설정된 하위 범위에 해당하는 L1 노름(norm)을 갖는 벡터들로 선택된 것이 바람직하다.
전술한 제1 특징에 따른 상기 사운드 이벤트 검출 방법에 있어서, 상기 이벤트는 차량 충격(car crashing) 또는 타이어 스키딩(tire skidding)인 것이 바람직하다.
본 발명의 제2 특징에 따른 심층 신경망을 이용하여 오디오 신호로부터 이벤트 종류를 검출하여 제공하는 사운드 이벤트 검출 장치는, 오디오 신호와 이에 대응되는 이벤트 종류를 포함하는 훈련 데이터를 이용하여 심층 신경망을 학습하는 학습 모듈; 및 입력된 오디오 신호에 대하여 상기 학습된 심층 신경망과 예제 노이즈들을 이용하여 이벤트 종류를 검출하는 이벤트 검출 모듈; 을 구비하고,
상기 학습 모듈은, 오디오 신호 및 오디오 신호에 대응되는 이벤트 종류를 포함하는 다수 개의 훈련 데이터들을 저장한 데이터 저장부; 데이터 저장부에 저장된 각 훈련 데이터들을 구성하는 오디오 신호들에 대한 특징 데이터들을 추출하는 제1 특징 추출부; 상기 특징 추출부에 의해 추출된 특징 데이터들로부터 예제 노이즈들(Noise Exemplars)을 추출하는 예제 노이즈 추출부; 훈련 데이터를 구성하는 각 오디오 신호에 대한 특징 데이터를 포함하는 스펙트럴 벡터들과 상기 예제 노이즈들을 결합하여, 훈련용 결합 데이터들을 생성하는 제1 데이터 결합부; 및 제1 데이터 결합부에 의해 생성된 상기 훈련용 결합 데이터들을 이용하여 심층 신경망을 학습하는 신경망 학습부;를 구비하고,
상기 이벤트 검출 모듈은, 외부로부터 테스트용 오디오 신호를 입력받는 오디오 신호 입력부; 상기 입력된 테스트용 오디오 신호로부터 특징 데이터를 추출하는 제2 특징 추출부; 상기 학습 모듈로부터 예제 노이즈들을 제공받고, 상기 제2 특징 추출부에 의해 추출된 특징 데이터를 포함하는 스펙트럴 벡터와 상기 예제 노이즈들을 결합하여 테스트용 결합 데이터를 생성하는 제2 데이터 결합부; 상기 테스트용 결합 데이터를 상기 학습된 신경망에 입력하여 이벤트 종류를 검출하는 이벤트 검출부; 및 상기 이벤트 검출부의 검출 결과에 대하여 메디안 필터(Median Filter)를 이용하여 후처리하여, 이벤트 종류를 최종적으로 분류하는 후처리부;를 구비하여, 학습된 신경망과 예제 노이즈들을 이용하여 오디오 신호로부터 이벤트 종류를 검출한다.
전술한 제2 특징에 따른 사운드 이벤트 검출 장치에 있어서, 상기 심층 신경망은 사다리 네트워크(Ladder Network)이며,
상기 사다리 네트워크는 적층된 디노이징 오토인코더(Denoising autoencoder;DAE)의 비지도 재구성 성분(unsupervised reconstruction component)를 피드포워드 심층 신경망(feedforward Deep-neural network;FFNN)의 지도 학습(supervised learning)에 추가하는 것이 바람직하다.
전술한 제2 특징에 따른 사운드 이벤트 검출 장치에 있어서, 상기 오디오 신호로부터 추출하는 특징 데이터는 로그-파워 스펙트럴 계수(Logarithmic linear-frequency power spectral coefficients)인 것이 바람직하다.
전술한 제2 특징에 따른 사운드 이벤트 검출 장치에 있어서, 상기 예제 노이즈들은 예제 노이즈 후보들로부터 무작위로 선택되거나 k-means clustering algorithm을 적용하여 선택되며,
상기 예제 노이즈 후보들은 훈련 데이터를 구성하는 오디오 신호들에 대한 특징 데이터들로부터 얻는 스펙트럴 벡터들(spectral vectors) 중 사전 설정된 하위 범위에 해당하는 L1 노름(norm)을 갖는 벡터들로 선택된 것이 바람직하다.
본 발명에 따른 사운드 이벤트 검출 방법 및 장치는 분류기로서 Ladder Network(LN)을 사용함으로써, 훈련 데이터들의 개수가 작더라도 분류 성능을 향상시킬 수 있게 된다.
또한, 본 발명에 따른 사운드 이벤트 검출 방법 및 장치는 훈련 데이터들을 구성하는 오디오 신호로부터 추출된 특징 벡터들로부터 예제 노이즈들을 추출하고, 예제 노이즈들을 LN의 부가 입력으로 사용함으로써, 노이즈 강인함(Noise Robustness)을 구현할 수 있게 된다.
또한, 본 발명에 따른 사운드 이벤트 검출 방법 및 장치는 LN에 의한 분류이후에 메디안 필터를 이용한 후처리를 함으로써, 분류 성능을 보다 향상시킬 수 있게 된다.
본 발명에 따른 사운드 이벤트 검출 방법의 성능을 입증하기 위하여, http://mivia.unisa.it 에 공개된 데이터세트를 이용하여 종래 기술들과 대비하여 사운드 이벤트 검출을 수행하였다. 상기 데이터세트는 도로 감시 응용을 위하여 400개의 비정상적이거나 위험한 도로 이벤트들의 2개 클래스들, 즉 200개의 차량 충돌 및 200개의 타이어 스키딩 이벤트들을 포함한다. 이벤트 발생을 시뮬레이션하기 위하여, 매우 조용한 배경부터 매우 시끄러운 잡음이 많은 교통 상황과 고속도로까지 모두 포함하는 다양한 환경에서 일련의 이벤트들이 배경 사운드에 중첩되어 있다.
표 1은 종래의 다양한 방법에 따른 검출 결과와 본 발명에 따른 검출 결과를 나타낸 표이다.
Figure pat00001
Figure pat00002
표 1 및 표 2에 있어서, 방법 1은 비디오 스트림 프로세싱을 통한 검출 방법이며, 방법 2는 종래의 Feedforward DNN(FFNN)만을 적용한 검출 방법이며, 방법 3은 Ladder Network(LN) 만을 적용한 검출 방법이며, 방법 4는 Ladder Network을 적용하면서 매칭된 예제 노이즈를 직접 감쇄시키는 방법(Noise Reduction)을 적용한 검출 방법이며, 방법 5는 Ladder Network를 적용하면서 예제 노이즈들을 부가 입력으로 사용한 검출 방법이며, 방법 6은 본 발명에 따라 Ladder Network를 적용하면서 예제 노이즈를 부가 입력으로 사용하고 후처리하여 최종적으로 검출하는 검출 방법이다.
표 1에서, F-score 는 모든 테스트에 대해 수학식 2와 같이 구할 수 있으며, 여기서 P 및 R은 각각 정확성(precision)과 리콜(recall)로서 수학식 3과 4로 나타낼 수 있다.
Figure pat00003
Figure pat00004
Figure pat00005
여기서, TP는 true-positive-detection counts로서, 이벤트가 있는 세그먼트가 올바르게 분류될때마다 카운트되는 횟수이며, FP는 false-positive-detection counts로서, 이벤트없는 세그먼트가 잘못 분류되었을 때 마다 카운트되는 횟수이며, FN은 false-negative-detection counts로서 이벤트가 있는 세그먼트가 이벤트 없는 세그먼트로 분류될 때마다 카운드되는 횟수이다.
에러율(error rate)은 수학식 5에 의해 얻을 수 있으며, 여기서 S, D, I, N은 각각 substituted, deleted, inserted errors, 이벤트를 갖는 세그먼트의 개수를 나타낸다. substitution error 는 차량 충돌이 있는 세그먼트가 타이어 스키딩으로 잘못 분류되는 케이스를 말하며, deletion error 또는 insertion error는 각각 non-substitution error 세그먼트에 대하여 false negative 검출 또는 false positive 검출에 대응된다.
Figure pat00006
표 1 및 표 2를 통해, 본 발명에 따른 검출 방법은 재구성률(Rec.rate) 및 F-score가 가장 우수하며 Miss rate, FPR 및 Error rate가 가장 낮음을 파악할 수 있으며, 이로부터 본 발명에 따른 검출 방법이 가장 분류 성능이 우수함을 쉽게 파악할 수 있다.
도 1은 본 발명의 바람직한 실시예에 따른 사운드 이벤트 검출 방법을 전체적으로 도시한 흐름도이다.
도 2는 본 발명의 바람직한 실시예에 따른 사운드 이벤트 검출 방법을 구현한 사운드 이벤트 검출 장치를 개략적으로 도시한 블록도이다.
본 발명에 따른 사운드 이벤트 검출 방법 및 장치는, 훈련 데이터들의 오디오 신호들로부터 추출된 특징 데이터들을 포함한 스펙트럴 벡터들과 예제 노이즈들을 결합하여 생성된 훈련용 결합 데이터들을 이용하여 사다리 네트워크를 학습하고, 학습된 사다리 네트워크 및 예제 노이즈들을 이용하여 테스트용 오디오 신호로부터 이벤트 종류를 검출하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 따른 사운드 이벤트 검출 방법 및 장치에 대하여 구체적으로 설명한다.
< 사운드 이벤트 검출 방법 >
도 1을 참조하여 본 발명의 제1 실시예에 따른 사운드 이벤트 검출 방법에 대하여 구체적으로 설명한다. 도 1은 본 발명의 바람직한 제1 실시예에 따른 사운드 이벤트 검출 방법을 순차적으로 도시한 흐름도이다.
도 1을 참조하면, 본 발명의 제1 실시예에 따른 사운드 이벤트 검출 방법은, 크게 학습 단계와 이벤트 검출 단계로 이루어진다.
상기 학습 단계는 사전 준비된 훈련 데이터를 이용하여 심층 신경망(Deep Neral-Network)을 학습하는 단계이며, 상기 이벤트 검출 단계는 상기 학습 단계에 의해 학습된 심층 신경망을 이용하여 오디오 신호로부터 사전 설정된 이벤트 종류를 검출하는 단계이다.
먼저, 학습 단계(Training phase)에 대하여 보다 구체적으로 설명한다.
상기 학습 단계는, 먼저 오디오 신호들 및 이들에 대응되는 사전 설정된 이벤트 종류를 포함하는 훈련 데이터(training data)를 준비한다(단계 10).
각 훈련 데이터들을 구성하는 오디오 신호들에 대한 특징(Feature) 데이터들을 추출한다(단계 100). 상기 오디오 신호로부터 추출하는 특징 데이터는 로그-파워 스펙트럴 계수(Logarithmic linear-frequency power spectral coefficients)인 것이 바람직하다. 일반적으로, 음성 인식(Speech Recognition)을 위한 음향 모델들의 DNN(Deep Neural-Network) 기반의 학습과 마찬가지로, 본 발명에서도 오디오 신호로부터 주파수 분석된 입력신호들(frequency-analyzed inputs)을 추출하고 심층 신경망 분류기(DNN classifier)로 제공한다. 고정된 길이를 갖는 입력 오디오 스트림은 해밍 윈도우(Hamming window)에 의해 프레임되고, 그 프레임에 short-time Fourier transform(STFT)를 적용하여 이에 대한 스펙트럼을 얻게 된다. 프레임 사이즈보다 작은 일정한 타입 갭(constant time gap)을 갖는 인접한 스펙트럴 벡터들(spectral vectors)을 얻게 된다. magnitude-squared STFT outputs의 logrithm에 의해 a vector of logarithmic linear-frequency power spectral coefficients 이 계산되어지며, 일련의 상기 벡터들이 DNN 분류기의 입력으로 사용된다. 그 결과 DNN은 동시에 시간축과 주파수축을 따라 음향 정보를 획득할 수 있게 된다.
다음, 상기 추출된 특징 데이터들로부터 예제 노이즈들(Noise Exemplars)을 추출한다(단계 110). 본 발명에 따른 사운드 이벤트 검출 방법은, 상기 추출된 예제 노이즈들을 사다리 네트워크의 부가적인 입력 신호로서 사용하여 사다리 네트워크를 학습함으로써, 노이즈 강인함을 갖게 된다. 이하, 예제 노이즈들에 대하여 보다 구체적으로 설명한다.
일반적으로, DNN을 기반으로 한 분류기들이 분류 성능이 우수할지라도, 훈련 조건들과 매칭되지 않는 노이즈들에 의해 입력 데이터들이 왜곡되는 보이지않는 노이즈 환경에서는 그 성능이 감소될 수 밖에 없다. 따라서, 훈련용 데이터 세트에 다양한 종류의 노이즈 형태들을 포함시키게 된다. 더 나은 노이즈 강인함(noise robustness)을 얻기 위하여, 종래의 노이즈 인지 훈련(Noise-Aware Training; NAT)은 DNN 입력에 추정된 노이즈 정보를 포함하며, 종래의 노이즈 감쇄(Noise reduction)에 근거한 방법은 입력된 스펙트럴 벡터들에서 매칭된 예제 노이즈를 직접 제거한다.
한편, 본 발명에서는, 예제 노이즈들(Noise Exemplars)을 설정하기 위하여, 먼저 예제 노이즈들의 후보들을 모든 프레임에서 얻는 입력 벡터들 중 하위 30%에 해당하는 L1 norm을 갖는 벡터들로 선택한다. 다음, 이렇게 선택된 예제 노이즈들의 후보들로부터, 예제 노이즈들은 무작위로 선택되거나 k-means clustering algorithm에 의해 선택될 수 있다.
입력 벡터에 대하여, 매칭된 예제 노이즈가 선택되어 감쇄시킴으로써, 수학식 1에 의해 정의되는 노이즈 추정 에러(Noise estimation error)를 최소화시키게 된다.
Figure pat00007
여기서, X t , N k α는 각각 프레임 t 에서의 입력 벡터, k 번째 예제 노이즈, 및 under-estimation error 와 over-estimation error의 비율을 결정하는 상수이다.
NAT 방법에서는 노이즈가 묵음 구간(non-speech period)로부터 추정되지만, 사운드 이벤트 검출에서는 노이즈 추정을 위한 LN 분류 이전에 이벤트가 없는 세그먼트를 검출하기가 어렵다. 반면에, 매칭된 예제 노이즈가 왜곡과는 많이 상이한 경우, 노이즈 감쇄 방법은 입력 스펙트럴 벡터의 왜곡을 제거하는 것이 효율적이지 못하다. 이 경우, 오히려 직접적인 감쇄는 일부 스펙트럴 성분이 왜곡을 증가시키게 된다. 따라서, 본 발명에서는 예제 노이즈들을 분류기의 부가적인 입력으로 사용하는 것을 특징으로 한다. 특히, 본 발명에서는 매칭되는 예제 노이즈를 선택하지 않고 모든 예제 노이즈들을 부가 입력으로 추가함으로써, LN이 예제 노이즈들로 이루어진 "noise dictionary"를 인지할 수 있는 입력의 강인한 분류를 학습할 수 있게 된다. LN의 일련의 입력 벡터들은 효율적인 학습을 위하여 정규화된다.
다음, 훈련 데이터들을 구성하는 각 오디오 신호들에 대한 특징 데이터들을 포함하는 스펙트럴 벡터들과 상기 예제 노이즈들을 결합하여, 훈련용 결합 데이터들을 생성한다(단계 112).
다음, 상기 훈련용 결합 데이터들을 이용하여 심층 신경망을 학습한다(단계 114). 본 발명에 따른 사운드 이벤트 검출 방법에서 분류기(Classifier)로 사용되는 상기 심층 신경망은 사다리 네트워크(Ladder Network; LN)인 것이 바람직하다. 이하, 분류기로 사용되는 사다리 네트워크(Ladder Network)에 대하여 보다 구체적으로 설명한다.
사다리 네트워크는 적층된 디노이징 오토인코더(denoising autoencoder; DAE)의 비지도 재구성 성분(unsupervised reconstruction component)을 종래의 피드포워드 심층 신경망(Feedforward Deep-Neural Network;FFNN)의 지도 학습에 더함으로써, 한정된 fully-labelled data의 분류 성능을 향상시킬 수 있도록 한 것을 특징으로 한다.
사다리 네트워크는 3개의 경로로 이루어지는데, 첫번째 및 두번째 경로는 각각 stacked DAE에서의 인코더와 디코더에 대응되며, 세번째 경로는 테스트를 위해 사용된다. 상기 사다리 네트워크의 목적 함수는 첫번째 경로의 출력을 위한 지도 교차 엔트로피 비용(the supervised cross-entropy cost)과 두번째 및 세번째 경로의 모든 층에서의 출력들간의 squared errors를 최소화시키는 비지도 재구성 비용(the unsupervised reconstruction cost)의 가중된 합계(a weighted sum)이다.
상기 사다리 네트워크는 A. Rasmus, H. Valpola, M. Honkala, M. Berglund, and T. Raiko, "Semi-supervised learning with ladder networks," in Advances in Neural Information Processing Systems, Dec. 2015, pp. 3546-3554. 및 M. Pezeshki, L. Fan, P. Brakel, A. Courville, and Y. Bengio, "Deconstructing the ladder network architecture," in Proc . International Conference on Machine Learning, Jun. 2016, pp. 2368-2376. 에 게재된 공지 기술로서, 본 명세서에서는 이에 대한 자세한 설명은 생략한다.
이하, 테스트 단계(Test phase)인 이벤트 검출 단계를 구체적으로 설명한다.
전술한 바와 같이, 학습 단계(Training phase)를 통해 예제 노이즈들을 추출하고, 예제 노이즈들을 부가 입력으로 하여 사다리 네트워크(Ladder Network;LN)를 학습시키게 되며, 학습 단계의 결과들을 이용하여 이벤트 검출 과정을 통해 테스트용 오디오 신호로부터 이벤트 종류를 검출하게 된다. 이하, 이벤트 검출 단계에 대하여 구체적으로 설명한다.
상기 이벤트 검출 단계는, 먼저 마이크로폰 등을 통해 외부로부터 테스트할 오디오 신호를 입력받는다(단계 120).
다음, 상기 입력된 테스트용 오디오 신호로부터 특징(Feature) 데이터를 추출한다(단계 122). 상기 오디오 신호로부터 추출하는 특징 데이터는 로그-파워 스펙트럴 계수(Logarithmic linear-frequency power spectral coefficients)인 것이 바람직하다.
다음, 상기 추출된 특징 데이터를 포함하는 스펙트럴 벡터와 상기 예제 노이즈들(Noise Exemplars)을 결합하여 테스트용 결합 데이터를 생성한다(단계 124). 상기 예제 노이즈들은 학습 단계에서, 훈련 데이터들을 구성하는 오디오 신호들에 대한 특징 데이터들로부터 추출된 예제 노이즈들이다.
다음, 상기 테스트용 결합 데이터를 상기 학습된 심층 신경망에 입력하여 이벤트 종류를 검출한다(단계 126). 상기 심층 신경망은 전술한 사다리 네트워크를 사용한다.
다음, 신경망을 이용한 검출 결과에 대하여 메디안 필터(Median Filter)를 이용하여 후처리하여, 이벤트를 최종적으로 분류한다(단계 128). 이벤트는 보통 짧은 시간동안 유지되므로, 세그먼트에서의 일시적인 분류 변화는 잘못 분류될 수 있다. 그러므로, 분류의 신뢰성을 향상시키기 위하여, 최종 분류는 3개의 연속되는 세그먼트들에서의 LN 분류의 결과에 대해 메디안 필터를 적용시킬 수 있다. 그런데, 차량 충돌 등과 같은 이벤트는 순간적이면서 예외적인 이벤트로서, 이들은 한 개의 세그먼트보다 더 많이 경과되지 않게 된다. 이 경우, 연속되는 세그먼트들이 중첩되지 않는다면, 후처리는 올바른 검출 결과를 내지 못하게 될 것이다. 따라서, 본 발명에 따른 메디안 필터는 두개의 인접한 세그먼트들의 절반을 중첩(half overlap)시키는 것을 특징으로 하며, 이러한 메디안 필터를 사용한 후처리를 함으로써, 전술한 문제점들을 완화시키도록 하는 것이 더욱 바람직하다.
상기 이벤트는 차량 충격(car crashing) 또는 타이어 스키딩(tire skidding)이며, 본 발명에 따른 사운드 이벤트 검출 방법은 도로 감시 시스템 등에서 도로 등에서 발생되는 이벤트를 자동으로 검출하기 위하여 사용될 수 있다. .
< 사운드 이벤트 검출 장치 >
도 2를 참조하여 본 발명의 제2 실시예에 따른 사운드 이벤트 검출 장치에 대하여 구체적으로 설명한다. 도 2는 본 발명의 제2 실시예에 따른 사운드 이벤트 검출 장치를 도시한 블록도이다.
도 2를 참조하면, 신경망을 이용하여 오디오 신호로부터 이벤트 종류를 검출하여 제공하는 사운드 이벤트 검출 장치(2)는 학습 모듈(20) 및 이벤트 검출 모듈(30)을 구비한다. 상기 학습 모듈(20)은 오디오 신호와 이에 대응되는 이벤트 종류를 포함하는 훈련 데이터들을 이용하여 신경망을 학습하는 모듈이며, 상기 이벤트 검출 모듈(30)은 마이크로폰 등을 통해 외부로부터 입력된 테스트용 오디오 신호에 대하여 상기 학습된 신경망과 예제 노이즈들을 이용하여 이벤트 종류를 검출하는 모듈이다.
상기 학습 모듈(20)은, 데이터 저장부(200), 제1 특징 추출부(210), 예제 노이즈 추출부(220), 제1 데이터 결합부(230) 및 신경망 학습부(240)를 구비하며, 상기 학습 모듈은 신호 처리 및 데이터 처리가 가능한 컴퓨터 등으로 구성될 수 있다.
상기 데이터 저장부(205)는 다수 개의 훈련 데이터들을 저장 및 관리하며, 상기 훈련 데이터는 학습을 위하여 사전 준비된 데이터로서, 오디오 신호 및 상기 오디오 신호에 대응되는 이벤트 종류를 포함한다.
상기 제1 특징 추출부(210)는 각 훈련 데이터들을 구성하는 오디오 신호들에 대한 특징 데이터들을 추출한다.
상기 예제 노이즈 추출부(220)는 상기 제1 특징 추출부에 의해 추출된 훈련 데이터들의 오디오 신호들에 대한 특징 데이터들로부터 예제 노이즈들(Noise Exemplars)을 추출한다. 상기 특징 데이터 및 예제 노이즈에 대한 구체적인 설명은 제1 실시예의 그것들과 동일하므로, 중복되는 설명은 생략한다.
상기 제1 데이터 결합부(230)는 훈련 데이터를 구성하는 각 오디오 신호에 대한 특징 데이터들을 포함하는 스펙트럴 벡터들(spectral vectors)과 상기 예제 노이즈들을 결합하여, 훈련용 결합 데이터들을 생성하여 제공한다.
상기 신경망 학습부(240)는 제1 데이터 결합부에 의해 생성되어 제공된 상기 훈련용 결합 데이터들을 이용하여 신경망을 학습한다.
상기 이벤트 검출 모듈(30)은, 오디오 신호 입력부(300), 제2 특징 추출부(310), 제2 데이터 결합부(320), 이벤트 검출부(330) 및 후처리부(340)를 구비하며, 상기 이벤트 검출 모듈은 신호 처리 및 데이터 처리가 가능한 컴퓨터 등으로 구성될 수 있다.
상기 오디오 신호 입력부(300)는 마이크로폰 등을 통해 외부로부터 테스트할 테스트용 오디오 신호를 입력받는다. 상기 제2 특징 추출부(310)는 상기 오디오 신호 입력부로부터 제공된 오디오 신호로부터 특징 데이터를 추출한다. 상기 제2 데이터 결합부(320)는 상기 학습 모듈로부터 예제 노이즈들을 제공받고, 상기 제2 특징 추출부에 의해 추출된 특징 데이터를 포함하는 스펙트럴 벡터와 상기 예제 노이즈들을 결합하여 테스트용 결합 데이터를 생성하여 제공한다.
상기 이벤트 검출부(330)는 상기 테스트용 결합 데이터를 상기 학습된 신경망에 입력하여 이벤트 종류를 검출한다. 상기 후처리부(340)는 상기 이벤트 검출부의 검출 결과에 대하여 메디안 필터(Median Filter)를 이용하여 후처리(postprocessing)하여, 이벤트를 최종적으로 분류한다.
상기 신경망은 사다리 네트워크(Ladder Network)인 것이 바람직하다. 상기 오디오 신호로부터 추출하는 특징 데이터는 로그-파워 스펙트럴 계수(Logarithmic linear-frequency power spectral coefficients)인 것이 바람직하다. 상기 이벤트는 차량 충격(car crashing) 또는 타이어 스키딩(tire skidding)으로서, 본 발명에 따른 사운드 이벤트 검출 장치는 도로 감시 시스템 등에서 도로의 상태를 자동으로 파악하기 위하여 사용될 수 있다.
이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 그리고, 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
2 : 사운드 이벤트 검출 장치
20 : 학습 모듈
200 : 데이터 저장부
210 : 제1 특징 추출부
220 : 예제 노이즈 추출부
230 : 제1 데이터 결합부
240 : 신경망 학습부
30 : 이벤트 검출 모듈
300 : 오디오 신호 입력부
310 : 제2 특징 추출부
320 : 제2 데이터 결합부
330 : 이벤트 검출부
340 : 후처리부

Claims (16)

  1. (a) 오디오 신호와 이에 대응되는 이벤트 종류를 포함하는 훈련 데이터들을 이용하여 심층 신경망(Deep neural-Network)을 학습하는 단계; 및
    (b) 테스트하기 위하여 입력된 테스트용 오디오 신호에 대하여 상기 학습된 심층 신경망을 이용하여 이벤트 종류를 검출하는 단계; 를 구비하고,
    상기 (a) 학습 단계는,
    (a1) 각 훈련 데이터를 구성하는 오디오 신호들에 대한 특징(feature) 데이터들을 추출하는 단계;
    (a2) 상기 추출된 특징 데이터들로부터 예제 노이즈들(Noise Exemplars)을 추출하는 단계;
    (a3) 각 오디오 신호에 대한 특징 데이터를 포함하는 스펙트럴 벡터(spectral vector)와 상기 예제 노이즈들을 결합하여, 훈련용 결합 데이터들을 생성하는 단계; 및
    (a4) 상기 훈련용 결합 데이터들을 이용하여 심층 신경망을 학습하는 단계;를 구비하고,
    상기 (b) 단계는
    (b1) 테스트용 오디오 신호를 입력받는 단계;
    (b2) 상기 입력된 테스트용 오디오 신호로부터 특징 데이터를 추출하는 단계;
    (b3) 상기 추출된 특징 데이터와 상기 예제 노이즈들을 결합하여 테스트용 결합 데이터를 생성하는 단계; 및
    (b4) 상기 테스트용 결합 데이터를 상기 학습된 신경망에 입력하여 이벤트 종류를 검출하는 단계;
    를 구비하여, 예제 노이즈들을 부가 입력으로 하여 학습된 심층 신경망을 이용하여 테스트용 오디오 신호로부터 이벤트 종류를 검출하는 것을 특징으로 하는 사운드 이벤트 검출 방법.
  2. (a1) 오디오 신호 및 각 오디오 신호에 대응되는 이벤트 종류를 포함하는 다수 개의 훈련 데이터들을 제공받는 단계;
    (a2) 각 훈련 데이터를 구성하는 오디오 신호들에 대한 특징 데이터들을 추출하는 단계;
    (a3) 상기 추출된 특징 데이터들로부터 예제 노이즈들(Noise Exemplars)을 추출하는 단계;
    (a4) 훈련 데이터들을 구성하는 각 오디오 신호에 대한 특징 데이터를 포함하는 스펙트럴 벡터와 상기 예제 노이즈들을 결합하여, 훈련용 결합 데이터들을 생성하는 단계; 및
    (a5) 상기 훈련용 결합 데이터들을 이용하여 심층 신경망을 학습하는 단계;
    를 구비하여, 예제 노이즈들을 부가 입력으로 하여, 오디오 신호로부터 이벤트 종류를 검출하기 위한 심층 신경망을 학습하는 것을 특징으로 하는 사운드 이벤트 검출 방법.
  3. (b1) 이벤트 종류를 검출하고자 하는 테스트용 오디오 신호를 입력받는 단계;
    (b2) 상기 입력된 테스트용 오디오 신호로부터 특징 데이터를 추출하는 단계;
    (b3) 훈련 데이터들을 이용하여 사전 학습된 심층 신경망과 상기 훈련 데이터들로부터 추출된 예제 노이즈들(Noise Exemplars)을 입력받는 단계;
    (b4) 상기 추출된 특징 데이터를 포함하는 스펙트럴 벡터와 상기 입력된 예제 노이즈들을 결합하여 테스트용 결합 데이터를 생성하는 단계; 및
    (b5) 상기 테스트용 결합 데이터를 상기 학습된 심층 신경망에 입력하여 이벤트 종류를 검출하는 단계;
    를 구비하여, 사전 학습된 심층 신경망 및 예제 노이즈들을 이용하여 오디오 신호로부터 이벤트 종류를 검출하는 것을 특징으로 하는 사운드 이벤트 검출 방법.
  4. 제1항 및 제3항 중 어느 한 항에 있어서, 상기 사운드 이벤트 검출 방법은 (b5) 상기 (b4) 단계의 검출 결과에 대하여 메디안 필터(Median Filter)를 이용하여 후처리하여, 이벤트 종류를 최종적으로 분류하는 단계;를 더 구비하는 것을 특징으로 하는 사운드 이벤트 검출 방법.
  5. 제4항에 있어서, 상기 (b5) 단계의 메디안 필터는 (b4) 단계에서의 검출 결과에 대하여 서로 인접한 두 개의 세그먼트들의 일부를 중첩시키는(half overlapping) 것을 특징으로 하는 사운드 이벤트 검출 방법.
  6. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 심층 신경망은 사다리 네트워크(Ladder Network)이며,
    상기 사다리 네트워크는 적층된 디노이징 오토인코더(Denoising autoencoder;DAE)의 비지도 재구성 성분(unsupervised reconstruction component)를 피드포워드 심층 신경망(feedforward Deep-neural network;FFNN)의 지도 학습(supervised learning)에 추가하는 것을 특징으로 하는 사운드 이벤트 검출 방법.
  7. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 오디오 신호로부터 추출하는 특징 데이터는 로그-파워 스펙트럴 계수들(Logarithmic linear-frequency power spectral coefficients)인 것을 특징으로 하는 사운드 이벤트 검출 방법.
  8. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 예제 노이즈들은 예제 노이즈 후보들로부터 무작위로 선택되거나 k-means clustering algorithm을 적용하여 선택되며,
    상기 예제 노이즈 후보들은 훈련 데이터를 구성하는 오디오 신호들에 대한 특징 데이터들로부터 얻는 스펙트럴 벡터들(spectral vectors) 중 사전 설정된 하위 범위에 해당하는 L1 노름(norm)을 갖는 벡터들로 선택된 것을 특징으로 하는 사운드 이벤트 검출 방법.
  9. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 이벤트는 차량 충격(car crashing) 또는 타이어 스키딩(tire skidding)인 것을 특징으로 하는 사운드 이벤트 검출 방법.
  10. 심층 신경망을 이용하여 오디오 신호로부터 이벤트 종류를 검출하여 제공하는 사운드 이벤트 검출 장치에 있어서,
    오디오 신호와 이에 대응되는 이벤트 종류를 포함하는 훈련 데이터를 이용하여 심층 신경망을 학습하는 학습 모듈; 및
    입력된 오디오 신호에 대하여 상기 학습된 심층 신경망과 예제 노이즈들을 이용하여 이벤트 종류를 검출하는 이벤트 검출 모듈; 을 구비하고,
    상기 학습 모듈은,
    오디오 신호 및 오디오 신호에 대응되는 이벤트 종류를 포함하는 다수 개의 훈련 데이터들을 저장한 데이터 저장부;
    데이터 저장부에 저장된 각 훈련 데이터들을 구성하는 오디오 신호들에 대한 특징 데이터들을 추출하는 제1 특징 추출부;
    상기 특징 추출부에 의해 추출된 특징 데이터들로부터 예제 노이즈들(Noise Exemplars)을 추출하는 예제 노이즈 추출부;
    훈련 데이터를 구성하는 각 오디오 신호에 대한 특징 데이터를 포함하는 스펙트럴 벡터들과 상기 예제 노이즈들을 결합하여, 훈련용 결합 데이터들을 생성하는 제1 데이터 결합부; 및
    제1 데이터 결합부에 의해 생성된 상기 훈련용 결합 데이터들을 이용하여 심층 신경망을 학습하는 신경망 학습부;를 구비하고,
    상기 이벤트 검출 모듈은,
    외부로부터 테스트용 오디오 신호를 입력받는 오디오 신호 입력부;
    상기 입력된 테스트용 오디오 신호로부터 특징 데이터를 추출하는 제2 특징 추출부;
    상기 학습 모듈로부터 예제 노이즈들을 제공받고, 상기 제2 특징 추출부에 의해 추출된 특징 데이터를 포함하는 스펙트럴 벡터와 상기 예제 노이즈들을 결합하여 테스트용 결합 데이터를 생성하는 제2 데이터 결합부; 및
    상기 테스트용 결합 데이터를 상기 학습된 신경망에 입력하여 이벤트 종류를 검출하는 이벤트 검출부;
    를 구비하여, 학습된 신경망과 예제 노이즈들을 이용하여 오디오 신호로부터 이벤트 종류를 검출하는 것을 특징으로 하는 사운드 이벤트 검출 장치.
  11. 학습 모듈과 이벤트 검출 모듈을 구비하여 오디오 신호로부터 이벤트 종류를 검출하여 제공하는 사운드 이벤트 검출 장치에 있어서, 오디오 신호로부터 이벤트 종류를 검출하기 위한 심층 신경망을 학습하는 학습 모듈은,
    오디오 신호와 이에 대응되는 이벤트 종류를 포함하는 다수 개의 훈련 데이터들이 저장된 데이터 저장부;
    상기 데이터 저장부에 저장된 각 훈련 데이터들을 구성하는 오디오 신호들에 대한 특징 데이터들을 추출하는 제1 특징 추출부;
    상기 제1 특징 추출부에 의해 추출된 특징 데이터들로부터 예제 노이즈들(Noise Exemplars)을 추출하는 예제 노이즈 추출부;
    상기 훈련 데이터들을 구성하는 각 오디오 신호에 대한 특징 데이터들을 포함하는 스펙트럴 벡터들과 상기 예제 노이즈들을 결합하여, 훈련용 결합 데이터들을 생성하는 제1 데이터 결합부; 및
    제1 데이터 결합부에 의해 생성된 상기 훈련용 결합 데이터들을 이용하여 신경망을 학습하는 신경망 학습부;
    를 구비하여, 훈련 데이터들로부터 추출된 예제 노이즈들을 부가 입력으로 하여, 오디오 신호로부터 이벤트 종류를 검출하기 위한 심층 신경망을 학습하는 것을 특징으로 하는 사운드 이벤트 검출 장치.
  12. 학습 모듈과 이벤트 검출 모듈을 구비하여 오디오 신호로부터 이벤트 종류를 검출하여 제공하는 사운드 이벤트 검출 장치에 있어서, 학습된 심층 신경망 및 예제 노이즈들을 이용하여 오디오 신호로부터 이벤트 종류를 검출하는 이벤트 검출 모듈은,
    외부로부터 테스트용 오디오 신호를 입력받는 오디오 신호 입력부;
    상기 입력된 테스트용 오디오 신호로부터 특징 데이터를 추출하는 제2 특징 추출부;
    상기 학습 모듈로부터 예제 노이즈들을 제공받고, 상기 제2 특징 추출부에 의해 추출된 특징 데이터를 포함하는 스펙트럴 벡터와 상기 예제 노이즈들을 결합하여 테스트용 결합 데이터를 생성하는 제2 데이터 결합부; 및
    상기 테스트용 결합 데이터를 상기 학습 모듈에 의해 사전 학습된 심층 신경망에 입력하여 이벤트 종류를 검출하는 이벤트 검출부;
    를 구비하여, 학습된 심층 신경망 및 예제 노이즈들을 이용하여 오디오 신호로부터 이벤트 종류를 검출하는 것을 특징으로 하는 사운드 이벤트 검출 장치.
  13. 제10항 및 제12항 중 어느 한 항에 있어서, 상기 이벤트 검출 모듈은,
    상기 이벤트 검출부의 검출 결과에 대하여 메디안 필터(Median Filter)를 이용하여 후처리하여, 이벤트 종류를 최종적으로 분류하는 후처리부;를 더 구비하는 것을 특징으로 하는 사운드 이벤트 검출 장치.
  14. 제10항 내지 제12항 중 어느 한 항에 있어서, 상기 심층 신경망은 사다리 네트워크(Ladder Network)이며,
    상기 사다리 네트워크는 적층된 디노이징 오토인코더(Denoising autoencoder;DAE)의 비지도 재구성 성분(unsupervised reconstruction component)를 피드포워드 심층 신경망(feedforward Deep-neural network;FFNN)의 지도 학습(supervised learning)에 추가하는 것을 특징으로 하는 사운드 이벤트 검출 장치.
  15. 제10항 내지 제12항 중 어느 한 항에 있어서, 상기 오디오 신호로부터 추출하는 특징 데이터는 로그-파워 스펙트럴 계수(Logarithmic linear-frequency power spectral coefficients)인 것을 특징으로 하는 사운드 이벤트 검출 장치.
  16. 제10항 내지 제12항 중 어느 한 항에 있어서, 상기 예제 노이즈들은 예제 노이즈 후보들로부터 무작위로 선택되거나 k-means clustering algorithm을 적용하여 선택되며,
    상기 예제 노이즈 후보들은 훈련 데이터를 구성하는 오디오 신호들에 대한 특징 데이터들로부터 얻는 스펙트럴 벡터들(spectral vectors) 중 사전 설정된 하위 범위에 해당하는 L1 노름(norm)을 갖는 벡터들로 선택된 것을 특징으로 하는 사운드 이벤트 검출 장치.

KR1020170056345A 2017-05-02 2017-05-02 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치 KR101969504B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170056345A KR101969504B1 (ko) 2017-05-02 2017-05-02 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170056345A KR101969504B1 (ko) 2017-05-02 2017-05-02 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치

Publications (2)

Publication Number Publication Date
KR20180122171A true KR20180122171A (ko) 2018-11-12
KR101969504B1 KR101969504B1 (ko) 2019-04-16

Family

ID=64397958

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170056345A KR101969504B1 (ko) 2017-05-02 2017-05-02 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치

Country Status (1)

Country Link
KR (1) KR101969504B1 (ko)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120230A (zh) * 2019-01-08 2019-08-13 国家计算机网络与信息安全管理中心 一种声学事件检测方法及装置
KR102025652B1 (ko) * 2019-01-21 2019-09-27 휴멜로 주식회사 사운드 이벤트 탐지 모델 학습 방법
KR102062034B1 (ko) * 2019-03-22 2020-01-03 안태업 자동차 부속품 출하를 위한 이동단말기 및 이를 포함하는 자동차 부속품 출하 시스템
CN111161715A (zh) * 2019-12-25 2020-05-15 福州大学 一种基于序列分类的特定声音事件检索与定位的方法
KR20200090601A (ko) * 2019-09-20 2020-07-29 휴멜로 주식회사 사운드 이벤트 탐지 모델 학습 방법
CN111524536A (zh) * 2019-02-01 2020-08-11 富士通株式会社 信号处理方法和信息处理设备
KR20200119414A (ko) * 2019-03-29 2020-10-20 한국전자통신연구원 음향 이벤트 별로 특성을 고려한 음향 이벤트 검출 방법 및 장치
KR20200126951A (ko) * 2019-09-20 2020-11-09 휴멜로 주식회사 사운드 이벤트 탐지 모델 학습 방법
WO2021021038A1 (en) 2019-07-30 2021-02-04 Aselsan Elektroni̇k Sanayi̇ Ve Ti̇caret Anoni̇m Şi̇rketi̇ Multi-channel acoustic event detection and classification method
CN112349298A (zh) * 2019-08-09 2021-02-09 阿里巴巴集团控股有限公司 声音事件识别方法、装置、设备和存储介质
KR20210110081A (ko) * 2020-02-28 2021-09-07 광주과학기술원 심층 신경망 기반의 방향각 추정 방법
US11205442B2 (en) 2019-03-18 2021-12-21 Electronics And Telecommunications Research Institute Method and apparatus for recognition of sound events based on convolutional neural network
WO2022177143A1 (ko) * 2021-02-22 2022-08-25 삼성전자 주식회사 데이터를 생성하는 전자 장치 및 그 동작 방법
CN115273819A (zh) * 2022-09-28 2022-11-01 深圳比特微电子科技有限公司 声音事件检测模型建立方法、装置及可读存储介质
CN117690451A (zh) * 2024-01-29 2024-03-12 杭州爱华仪器有限公司 一种基于集成学习的神经网络噪声源分类的方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220135736A (ko) 2021-03-31 2022-10-07 주식회사 케이티 사운드 데이터를 이용하여 이상을 탐지하는 서버, 방법 및 컴퓨터 프로그램
KR20220170144A (ko) 2021-06-22 2022-12-29 주식회사 케이티 이상 탐지 서버, 방법 및 컴퓨터 프로그램

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110025886A (ko) 2009-08-25 2011-03-14 엑시움 테크놀러지스, 아이엔씨 오디오 및 비디오 감시가 결합된 방법 및 시스템
KR101544671B1 (ko) 2014-04-09 2015-08-18 재단법인 다차원 스마트 아이티 융합시스템 연구단 소리 기반 저전력 전단 이벤트 감지 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110025886A (ko) 2009-08-25 2011-03-14 엑시움 테크놀러지스, 아이엔씨 오디오 및 비디오 감시가 결합된 방법 및 시스템
KR101544671B1 (ko) 2014-04-09 2015-08-18 재단법인 다차원 스마트 아이티 융합시스템 연구단 소리 기반 저전력 전단 이벤트 감지 방법 및 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Inkyu Choi et al., ‘DNN-based sound event detection with exemplar-based approach for noise reduction’, Detection and Classification of Acoustic Scenes and Events, September 2016.* *
Michael L. Seltzer et al., ‘An investigation od deep neural networks for noise robust speech recognition’, ICASSP2013, pp.7398~7402, 2013.* *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120230A (zh) * 2019-01-08 2019-08-13 国家计算机网络与信息安全管理中心 一种声学事件检测方法及装置
KR102025652B1 (ko) * 2019-01-21 2019-09-27 휴멜로 주식회사 사운드 이벤트 탐지 모델 학습 방법
WO2020153572A1 (ko) * 2019-01-21 2020-07-30 휴멜로 주식회사 사운드 이벤트 탐지 모델 학습 방법
CN111524536B (zh) * 2019-02-01 2023-09-08 富士通株式会社 信号处理方法和信息处理设备
CN111524536A (zh) * 2019-02-01 2020-08-11 富士通株式会社 信号处理方法和信息处理设备
US11205442B2 (en) 2019-03-18 2021-12-21 Electronics And Telecommunications Research Institute Method and apparatus for recognition of sound events based on convolutional neural network
KR102062034B1 (ko) * 2019-03-22 2020-01-03 안태업 자동차 부속품 출하를 위한 이동단말기 및 이를 포함하는 자동차 부속품 출하 시스템
KR20200119414A (ko) * 2019-03-29 2020-10-20 한국전자통신연구원 음향 이벤트 별로 특성을 고려한 음향 이벤트 검출 방법 및 장치
US11830519B2 (en) 2019-07-30 2023-11-28 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Multi-channel acoustic event detection and classification method
WO2021021038A1 (en) 2019-07-30 2021-02-04 Aselsan Elektroni̇k Sanayi̇ Ve Ti̇caret Anoni̇m Şi̇rketi̇ Multi-channel acoustic event detection and classification method
CN112349298A (zh) * 2019-08-09 2021-02-09 阿里巴巴集团控股有限公司 声音事件识别方法、装置、设备和存储介质
KR20200126951A (ko) * 2019-09-20 2020-11-09 휴멜로 주식회사 사운드 이벤트 탐지 모델 학습 방법
KR20200090601A (ko) * 2019-09-20 2020-07-29 휴멜로 주식회사 사운드 이벤트 탐지 모델 학습 방법
CN111161715B (zh) * 2019-12-25 2022-06-14 福州大学 一种基于序列分类的特定声音事件检索与定位的方法
CN111161715A (zh) * 2019-12-25 2020-05-15 福州大学 一种基于序列分类的特定声音事件检索与定位的方法
KR20210110081A (ko) * 2020-02-28 2021-09-07 광주과학기술원 심층 신경망 기반의 방향각 추정 방법
WO2022177143A1 (ko) * 2021-02-22 2022-08-25 삼성전자 주식회사 데이터를 생성하는 전자 장치 및 그 동작 방법
CN115273819A (zh) * 2022-09-28 2022-11-01 深圳比特微电子科技有限公司 声音事件检测模型建立方法、装置及可读存储介质
CN117690451A (zh) * 2024-01-29 2024-03-12 杭州爱华仪器有限公司 一种基于集成学习的神经网络噪声源分类的方法及装置
CN117690451B (zh) * 2024-01-29 2024-04-16 杭州爱华仪器有限公司 一种基于集成学习的神经网络噪声源分类的方法及装置

Also Published As

Publication number Publication date
KR101969504B1 (ko) 2019-04-16

Similar Documents

Publication Publication Date Title
KR101969504B1 (ko) 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치
Foggia et al. Reliable detection of audio events in highly noisy environments
Gomez-Alanis et al. A gated recurrent convolutional neural network for robust spoofing detection
Conte et al. An ensemble of rejecting classifiers for anomaly detection of audio events
JP2015057630A (ja) 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム
CN111429935A (zh) 一种语音话者分离方法和装置
Droghini et al. A combined one‐class SVM and template‐matching approach for user‐aided human fall detection by means of floor acoustic features
Foggia et al. Cascade classifiers trained on gammatonegrams for reliably detecting audio events
CN110751955B (zh) 基于时频矩阵动态选择的声音事件分类方法及系统
AU2013223662A1 (en) Modified mel filter bank structure using spectral characteristics for sound analysis
Foggia et al. Car crashes detection by audio analysis in crowded roads
Saggese et al. Time-frequency analysis for audio event detection in real scenarios
Colangelo et al. Enhancing audio surveillance with hierarchical recurrent neural networks
KR102066718B1 (ko) 음향기반 터널 사고 검지 시스템
Rahman et al. Hybrid system for automatic detection of gunshots in indoor environment
Perez-Castanos et al. Anomalous sound detection using unsupervised and semi-supervised autoencoders and gammatone audio representation
US11776532B2 (en) Audio processing apparatus and method for audio scene classification
Soares-Filho et al. Principal component analysis for classifying passive sonar signals
Potharaju et al. Classification of ontological violence content detection through audio features and supervised learning
Dennis et al. Combining robust spike coding with spiking neural networks for sound event classification
Dadula et al. Neural network classification for detecting abnormal events in a public transport vehicle
Arslan A new approach to real time impulsive sound detection for surveillance applications
Dedeoglu et al. Surveillance using both video and audio
Kovalenko et al. Analysis of the sound event detection methods and systems
Koerich et al. Cross-representation transferability of adversarial perturbations: From spectrograms to audio waveforms

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant