KR20220074630A

KR20220074630A - 음향 이벤트 검출 장치 및 방법

Info

Publication number: KR20220074630A
Application number: KR1020200163346A
Authority: KR
Inventors: 박진수; 임정은; 박지현; 김홍국; 이건우
Original assignee: 한화테크윈 주식회사; 광주과학기술원
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2022-06-03

Abstract

본 발명의 일 실시예는, 입력되는 음향 신호로부터 제1 시간 단위로 음향 특징을 추출하는 특징 추출부; 및 상기 제1 시간 단위로 추출된 음향 특징을 제2 시간 단위로 복수의 서브 음향 특징들로 분할하고, 인공 신경망을 이용하여 상기 복수의 서브 음향 특징들 각각으로부터, 상기 복수의 서브 음향 특징들 간의 시간적 상관관계가 생성된 출력데이터를 생성하고, 상기 시간적 상관관계가 생성된 출력데이터들로부터 상기 음향 신호의 이벤트를 검출하는 이벤트 검출부;를 포함하는 음향 이벤트 검출 장치를 개시한다.

Description

음향 이벤트 검출 장치 및 방법{Acoustic event detecting apparatus and method}

본 발명의 실시예들은 음향 이벤트 검출 장치 및 방법에 관한 것이다.

최근 일상 생활 환경에서 발생하는 상황을 인지하기 위한 다양한 기술이 개발되고 있다. 일반적으로 CCTV 카메라 등이, 위협적인 사건을 검출하여 사용자에게 사전 위협 알림을 통한 대체 능력 강화 및 사건 발생 신고 등의 목적으로 사용될 수 있다. 카메라 센서 위주의 이벤트 검출 기술은 제한된 화각 내에서 사건 탐지가 가능하므로 기술적 한계가 존재한다. 이를 해결하기 위한 방법으로 카메라 화각 제한이 없는 마이크 센서를 통한 음향 이벤트 검출 기술들이 개발되고 있다.

본 발명의 실시예는 저사양의 하드웨어 환경에서도 사용자에게 신뢰성이 높은 음향 이벤트 검출이 가능한 음향 이벤트 검출 장치 및 방법을 제공하는 것이다.

본 발명의 일 실시예에 따른 음향 이벤트 검출 장치는, 입력되는 음향 신호로부터 제1 시간 단위로 음향 특징을 추출하는 특징 추출부; 및 인공 신경망을 이용하여, 상기 제1 시간 단위로 추출된 음향 특징이 제2 시간 단위로 분할된 복수의 서브 음향 특징들 각각으로부터, 상기 복수의 서브 음향 특징들 간의 시간적 상관관계가 생성된 출력데이터를 생성하고, 상기 시간적 상관관계가 생성된 출력데이터들로부터 상기 음향 신호의 이벤트를 검출하는 이벤트 검출부;를 포함한다.

상기 이벤트 검출부는, 상기 복수의 서브 음향 특징들 각각에 대응하게 구비되고, 각각이 입력되는 서브 음향 특징으로부터 상기 서브 음향 특징들 간의 시간적 상관관계가 생성된 출력데이터를 생성하는 복수의 인셉션 모듈들; 및 상기 복수의 인셉션 모듈들로부터의 출력데이터들로부터 상기 음향 신호의 이벤트 확률을 산출하는 심층 신경망(Deep Neural Network, DNN);을 포함할 수 있다.

상기 복수의 인셉션 모듈들 간에 파라미터가 공유될 수 있다.

본 발명의 일 실시예에 따른 음향 이벤트 검출 장치의 음향 이벤트 검출 방법은, 입력되는 음향 신호로부터 제1 시간 단위로 음향 특징을 추출하는 단계; 및 인공 신경망을 이용하여, 상기 제1 시간 단위로 추출된 음향 특징이 제2 시간 단위로 분할된 복수의 서브 음향 특징들 각각으로부터, 상기 복수의 서브 음향 특징들 간의 시간적 상관관계가 생성된 출력데이터를 생성하고, 상기 시간적 상관관계가 생성된 출력데이터로부터 상기 음향 신호의 이벤트를 검출하는 단계;를 포함한다.

상기 이벤트 검출 단계는, 상기 복수의 서브 음향 특징들 각각에 대응하게 구비된 복수의 인셉션 모듈들 각각이 입력되는 서브 음향 특징으로부터 상기 서브 음향 특징들 간의 시간적 상관관계가 생성된 출력데이터를 생성하는 단계; 및 심층 신경망(Deep Neural Network, DNN)이 상기 복수의 인셉션 모듈들로부터의 출력데이터들로부터 상기 음향 신호의 이벤트 확률을 산출하는 단계;를 포함할 수 있다.

본 발명의 실시예에 따른 음향 이벤트 검출 장치 및 방법은 저사양의 하드웨어 환경에서도 사용자에게 신뢰성이 높은 음향 이벤트 검출을 제공할 수 있다.

도 1은 일 실시예에 따른 음향 이벤트 검출 시스템의 구성을 개략적으로 도시한 도면이다.
도 2는 일 실시예에 따른 음향 이벤트 검출 장치의 구성을 개략적으로 나타낸 도면이다.
도 3은 일 실시예에 따른 제어부의 구성을 개략적으로 나타낸 도면이다.
도 4는 도 3의 이벤트 검출부의 구성을 개략적으로 나타낸 도면이다.
도 5는 도 4의 인셉션 모듈의 구성을 개략적으로 나타낸 도면이다.
도 6은 일 실시예에 따른 음향 이벤트 검출 장치에 의해 수행되는 음향 이벤트 검출 방법을 개략적으로 나타낸 흐름도이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다. 이하의 실시예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 이하의 실시예에서, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다. 도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 형태는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.

도 1은 일 실시예에 따른 음향 이벤트 검출 시스템의 구성을 개략적으로 도시한 도면이다.

도 1을 참조하면, 일 실시예에 따른 음향 이벤트 검출 시스템은 서버(100) 및 사용자 단말(200)을 포함할 수 있다.

사용자 단말(200)은 서버(100)와 데이터를 송수신할 수 있는 다양한 장치를 의미할 수 있다. 사용자 단말(200)은 서버(100)에 음향 신호를 전송하고, 서버(100)로부터 음향 이벤트 검출 결과를 수신할 수 있다.

사용자 단말(200)은 다양한 형태의 장치일 수 있다. 예컨대, 도 1에 도시된 바와 같이 사용자 단말(200)은 스마트폰(201), PDA(202), 태블릿 PC(203), 컴퓨터(204), 카메라(205) 등일 수 있다. 카메라(205)는 디지털 및 아날로그 방식의 카메라로, 정해진 영역의 영상을 촬영할 수 있다. 도 1에 도시된 사용자 단말(200)의 형태는 예시적인것으로 본 발명의 사상이 이에 한정되는 것이 아니다.

도 1에 도시되지는 않았지만, 사용자 단말(200)은 사용자에게 신호의 수신 여부 및/또는 신호의 내용을 표시하기 위한 표시수단 및 사용자의 입력을 획득하기 위한 입력수단을 구비할 수 있다. 또한 사용자 단말(200)은 음향 신호를 소리로 출력하기 위한 음향 출력 수단 및 주변의 음향을 감지하여 신호의 형태로 변환하는 음향 감지 수단을 더 포함할 수 있다. 음향 감지 수단은 마이크로폰과 같은 음향센서일 수 있다. 음향 감지 수단은 사용자 단말(200)과 독립적으로 사용자 단말(200) 주변에 하나 이상의 개수로 분산 배치되고 사용자 단말(200)에 유선 및/또는 무선으로 연결되거나, 사용자 단말(200)에 내장되어 구비될 수 있다.

서버(100)는 음향 신호로부터 음향 이벤트를 검출할 수 있다. 이를 위해 본 발명의 일 실시예에 따른 서버(100)는 도 2에 도시된 바와 같은 음향 이벤트 검출 장치(110)를 포함할 수 있다.

본 발명의 다른 실시예에서, 음향 이벤트 검출 장치(110)는 사용자 단말(200)에 포함될 수도 있다. 이러한 경우 사용자 단말(200)은 서버(100)와의 데이터 송수신 없이 자체적으로 음향 신호에서 음향 이벤트를 검출할 수 있다. 다만 이하에서는 설명의 편의를 위하여 음향 이벤트 검출 장치(110)가 서버(100)에 구비됨을 전제로 설명한다.

서버(100) 및 사용자 단말(300)은 통신 네트워크를 통해 연결될 수 있다. 통신 네트워크는 LANs(Local Area Networks), WANs(Wide Area Networks), MANs(Metropolitan Area Networks), ISDNs(Integrated Service Digital Networks) 등의 유선 네트워크와, 3G, 4G(LTE), 5G, 와이파이(WiFi), 와이브로(Wibro), 와이맥스(Wimax) 등과 같은 무선 인터넷 및 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(IrDA, infrared Data Association), UWB(Ultra Wideband), 지그비(ZigBee), NFC(Near Field Communication) 등의 근거리 통신을 포함하는 무선 네트워크를 포함할 수 있다. 무선 이동 통신의 경우, 통신 네트워크는 기지국(BTS), 이동교환국(MSC), 홈 위치 등록기(HLR), 무선 패킷 데이터의 송수신을 가능하게 하는 액세스 게이트웨이(Access Gateway), PDSN(Packet Data Serving Node) 등과 같은 구성 요소를 추가로 포함할 수 있다. 본 발명의 범위가 이에 한정되는 것은 아니다.

도 2는 일 실시예에 따른 음향 이벤트 검출 장치의 구성을 개략적으로 나타낸 도면이다.

일 실시예에 따른 음향 이벤트 검출 장치(110)는 음향 신호로부터 제1 시간 단위로 음향 특징을 추출할 수 있다. 음향 이벤트 검출 장치(110)는 제1 시간 단위로 추출된 음향 특징이 제2 시간 단위로 분할된 복수의 서브 음향 특징들 각각으로부터, 복수의 서브 음향 특징들 간의 시간적 상관관계가 반영된 출력데이터를 생성할 수 있다. 음향 이벤트 검출 장치(110)는 시간적 상관관계가 반영된 출력데이터로부터 음향 신호의 이벤트를 검출할 수 있다.

도 2를 참조하면, 일 실시예에 따른 음향 이벤트 검출 장치(110)는 통신부(111), 제어부(112) 및 메모리(113)를 포함할 수 있다. 도면에는 도시되지 않았으나, 일 실시예에 따른 음향 이벤트 검출 장치(110)는 입/출력부, 프로그램 저장부 등을 더 포함할 수 있다.

통신부(111)는 음향 이벤트 검출 장치(110)가 사용자 단말(200) 및/또는 외부장치와 같은 다른 네트워크 장치와 유무선 연결을 통해 음향 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다.

제어부(112)는 프로세서(Processor)와 같이 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 여기서, '프로세서(Processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(Microprocessor), 중앙처리장치(Central Processing Unit: CPU), 프로세서 코어(Processor Core), 멀티프로세서(Multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

제어부(112)는 입력되는 음향 신호로부터 음향 이벤트를 검출할 수 있다. 제어부(112)는 인공 신경망(Artficial Neural Network, ANN)을 이용하여 음향 신호로부터 음향 이벤트를 검출할 수 있다. 제어부(112)는 인공 신경망(Artficial Neural Network, ANN)을 이용하여 음향 신호로부터 추출된 음향 특징과 음향 이벤트 발생 여부 간의 상관관계 및 음향 특징과 음향 이벤트 종류 간의 상관관계를 생성하여 출력할 수 있다. 제어부(112)는 인공 신경망(Artficial Neural Network, ANN)을 이용하여 음향 특징을 복수로 분할한 서브 음향 특징들 각각을 학습하여 서브 음향 특징들 간의 상관관계를 생성하고, 이를 이용하여 음향 특징과 음향 이벤트 발생 여부 간의 상관관계 및 음향 특징과 음향 이벤트 종류 간의 상관관계를 생성하여 출력할 수 있다.

본 발명의 실시예는 높은 처리 능력을 요구하는 순환 신경망(Recurrent Neural Network, RNN) 또는 장단기메모리(LSTM) 기반의 딥러닝(Deep Learning) 대신 심층 신경망(Deep Neural Network, DNN) 및 합성곱 신경망(Convolution Neural Network, CNN) 기반의 인셉션 모듈(inception module)을 활용하여 인공 신경망(ANN)을 구성하고 음향 이벤트를 검출할 수 있다. 이로써 저사양 하드웨어 환경에서 정확한 음향 이벤트를 검출할 수 있다.

음향 이벤트는 대화(converstion), 비명(scream), 울음(crying), 고함(shout) 등의 사용자가 특정한 음향 신호의 발생, 발걸음(footsteps), 알람(alarm), 충돌(crash), 자동차 타이어 마찰음(skid), 유리 깨지는 소리 등의 비정상적 음향 신호의 발생, 임계값 이상의 음성이 발생한 경우 등과 같이 사용자에 의해 설정된 이벤트를 포함할 수 있다. 음향 이벤트는 전술된 종류에 한정되지 않고, 감시 영역 및 시스템 설계에 따라 다양하게 설정될 수 있음은 물론이다.

메모리(113)는 음향 이벤트 검출 장치(110)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행한다. 메모리는 자기 저장 매체(Magnetic Storage Media) 또는 플래시 저장 매체(Flash Storage Media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

제어부(112)는 음향 신호를 획득할 수 있다. 제어부(112)는 사용자 단말(200) 및/또는 외부장치로부터 음향 신호를 수신하는 방식으로 음향 신호를 획득할 수 있다. 또한 제어부(112)는 메모리(113)로부터 기 저장된 음향 신호를 독출하는 방식으로 음향 신호를 획득할 수도 있다. 전술한 방식들은 예시적인 것으로 본 발명의 사상이 이에 한정되는 것은 아니다.

제어부(112)는 아날로그 신호로 입력되는 음향 신호를 디지털 신호로 변환할 수 있다. 제어부(112)는 디지털 신호로 변환된 음향 신호를 소정 시간 단위로 음향 특징을 추출하고, 추출된 음향 특징을 분할하여 분할된 서브 음향 특징들 간의 상관관계를 학습하여 음향 이벤트 여부 및 음향 이벤트 종류를 검출할 수 있다.

제어부(112)는 검출된 음향 이벤트 정보, 예컨대 음향 이벤트 여부 및 음향 이벤트 종류를 사용자 단말(200) 및/또는 외부장치에 제공할 수 있다.

도 3은 일 실시예에 따른 제어부의 구성을 개략적으로 나타낸 도면이다. 도 4는 도 3의 이벤트 검출부의 구성을 개략적으로 나타낸 도면이다. 도 5는 도 4의 인셉션 모듈의 구성을 개략적으로 나타낸 도면이다.

도 3을 참조하면, 일 실시예에 따른 제어부(112)는 특징 추출부(122) 및 이벤트 검출부(124)를 포함할 수 있다.

특징 추출부(122)는 디지털 신호의 형태로 입력되는 음향 신호로부터 음향 특징을 추출할 수 있다. 특징 추출부(122)는 음향 신호로부터 제1 시간 단위로 음향 특징을 추출하고, 제1 시간 단위로 추출된 음향 특징을 제2 시간 단위로 복수의 서브 음향 특징들로 분할할 수 있다.

일 실시예에서, 특징 추출부(122)는 디지털 신호의 시간-주파수 특성을 반영하는 스펙트로그램에 멜-필터를 적용한 Mel 스펙트로그램을 음향 특징을 추출할 수 있다. 본 발명의 실시예는 전술된 음향 특징 외에 MFCC(Mel-frequency cepstral coefficient) 등의 공지된 다양한 음향 특징 추출 알고리즘을 이용하여 음향 특징을 추출할 수 있다. Mel 스펙트로그램 추출, MFCC 추출은 음성인식 기술 분야에서 통상적으로 사용되는 것이므로 구체적인 설명은 생략한다.

특징 추출부(122)는 음향 신호로부터 제1 시간 단위(간격)로 음향 특징을 추출할 수 있다. 예컨대, 제1 시간 단위(간격)는 수 밀리초(msec) 내지 수 초(sec)일 수 있다.

특징 추출부(122)는 추출된 제1 시간 단위의 음향 신호에 대한 음향 특징을 제2 시간 단위로 분할할 수 있다. 즉, n개의 제2 시간 단위의 음향 신호들에 대한 음향 특징들(이하, 서브 음향 특징들(sf1 내지 sfn))이 생성될 수 있다. 특징 추출부(122)는 n개의 서브 음향 특징들(sf1 내지 sfn)을 이벤트 검출부(124)로 입력할 수 있다. 제2 시간 단위는 제1 시간 단위보다 짧은 시간 단위이다.

이벤트 검출부(124)는 음향 신호의 음향 특징에 인공 신경망(ANN)을 적용하여 복수의 음향 이벤트들 중 하나로 분류할 수 있다. 이벤트 검출부(124)는 인공 신경망(Artficial Neural Network, ANN)을 이용하여 음향 신호로부터 추출된 음향 특징과 음향 이벤트 발생 여부 간의 상관관계 및 음향 특징과 음향 이벤트 종류 간의 상관관계를 생성하여 출력할 수 있다. 이벤트 검출부(124)는 인공 신경망(Artficial Neural Network, ANN)을 이용하여 음향 특징을 복수로 분할한 서브 음향 특징들 각각을 학습하여 서브 음향 특징들 간의 상관관계를 생성하고, 이를 이용하여 음향 특징과 음향 이벤트 발생 여부 간의 상관관계 및 음향 특징과 음향 이벤트 종류 간의 상관관계를 생성하여 출력할 수 있다.

도 4를 참조하면, 이벤트 검출부(124)는 인셉션 모듈부(132), DNN(Deep Neural Network)부(134) 및 분류부(136)를 포함할 수 있다.

인셉션 모듈부(132)는 음향 특징들 간의 상관관계를 학습하는 신경망일 수 있다. 인셉션 모듈부(132)는 복수의 제1 내지 제n 인셉션 모듈들(ICM1 내지 ICMn)을 포함할 수 있다. 인셉션 모듈부(132)를 구성하는 인셉션 모듈의 개수는 음향 특징의 분할 개수와 동일할 수 있다. 예컨대, 제1 시간 길이의 음향 신호에 대한 서브 음향 특징의 개수와 인셉션 모듈의 개수는 1:1일 수 있다. 즉, n개의 제1 내지 제n 인셉션 모듈들(ICM1 내지 ICMn) 각각은 n개의 서브 음향 특징들(sf1 내지 sfn) 각각에 대응하게 구비될 수 있다.

제1 내지 제n 인셉션 모듈들(ICM1 내지 ICMn) 각각은 입력되는 서브 음향 특징을 학습한 결과를 출력데이터로서 출력할 수 있다. 제1 내지 제n 인셉션 모듈들(ICM1 내지 ICMn) 각각의 출력데이터는 n개의 서브 음향 특징들 간의 시간적 상관관계가 생성된 데이터일 수 있다.

제1 내지 제n 인셉션 모듈들(ICM1 내지 ICMn) 각각은 도 5에 도시된 바와 같이, 입력되는 서브 음향 특징에 4가지 종류의 컨벌루션(AxA CON, BxB CON, CxC CON, DxD CON) 연산, 4개의 연산 결과 접합(계층접합), 풀링(Pooling)을 수행하고, 그 결과를 DNN부(134)로 출력할 수 있다. 각 인셉션 모듈의 동작은 공지된 구성이므로 상세한 설명은 생략한다.

일 실시예에서, 인셉션 모듈부(132)는 CNN의 가중치 공유(파라미터 공유) 기법을 적용하여 제1 내지 제n 인셉션 모듈들(ICM1 내지 ICMn) 간에도 파라미터를 공유할 수 있다.

인셉션 모듈부(132)는 n개의 서브 음향 특징들(sf1 내지 sfn)을 제1 내지 제n 인셉션 모듈들(ICM1 내지 ICMn)을 이용함으로써, n개의 서브 음향 특징들 간의 상관관계가 생성된 출력데이터를 생성할 수 있다. 여기서, 상관관계는 n개의 서브 음향 특징들 간의 시간적 상관관계를 포함할 수 있다.

중요한 은닉 변수로 활용될 수 있는 시간 정보 누락은 음향 이벤트 검출의 성능을 저하를 유발할 수 있다. 본 발명의 실시예는 시간 블록 단위의 복수의 인셉션 모듈들의 결합을 통해서 시간 정보의 활용이 가능한 인공 신경망 구성이 가능하다.

DNN부(134)는 제1 내지 제n 인셉션 모듈들(ICM1 내지 ICMn) 각각으로부터 출력데이터를 수신하고, 출력데이터들로부터 제1 시간 단위의 음향 신호에 대응하는 음향 이벤트에 대한 확률 값(Pe)을 산출할 수 있다.

분류부(136)는 DNN부(134)로부터 출력되는 확률 값(Pe)을 기초로 제1 시간 단위의 음향 신호에 대한 음향 이벤트 발생 여부 및 음향 이벤트의 종류를 판단하여 출력할 수 있다.

도 6은 일 실시예에 따른 음향 이벤트 검출 장치에 의해 수행되는 음향 이벤트 검출 방법을 개략적으로 나타낸 흐름도이다. 이하에서는 도 1 내지 도 5에서 설명한 내용과 중복되는 내용의 설명은 생략하되, 도 1 내지 도 5를 함께 참조하여 설명한다.

도 6을 참조하면, 일 실시예에 따른 음향 이벤트 검출 장치(110)는 음향 신호를 획득할 수 있다(S61). 음향 이벤트 검출 장치(110)는 사용자 단말(200) 및/또는 외부장치로부터 음향 신호를 수신하거나, 메모리(113)로부터 기 저장된 음향 신호를 독출하는 방식으로 음향 신호를 획득할 수 있다. 음향 이벤트 검출 장치(110)는 아날로그 신호로 입력되는 음향 신호를 디지털 신호로 변환할 수 있다.

음향 이벤트 검출 장치(110)는 디지털 신호 형태의 음향 신호로부터 음향 특징을 추출할 수 있다(S63). 음향 이벤트 검출 장치(110)는 스펙트로그램을 이용하여 음향 특징을 추출할 수 있다. 예컨대, 음향 이벤트 검출 장치(110)는 Mel 스펙트로그램을 음향 특징으로 추출할 수 있다. 음향 이벤트 검출 장치(110)는 음향 신호로부터 제1 시간 단위로 음향 특징을 추출할 수 있다. 음향 이벤트 검출 장치(110)는 추출된 제1 시간 단위의 음향 신호에 대한 음향 특징을 제2 시간 단위로 분할할 수 있다. 즉, n개의 제2 시간 단위의 음향 신호들에 대한 음향 특징들(n개의 서브 음향 특징들)이 생성될 수 있다.

음향 이벤트 검출 장치(110)는 추출된 음향 특징에 인공 신경망(ANN)을 적용하여 음향 이벤트를 검출할 수 있다(S65). 음향 이벤트 검출 장치(110)는 음향 특징을 복수의 음향 이벤트들 중 하나로 분류함으로써 음향 이벤트를 검출할 수 있다.

음향 이벤트 검출 장치(110)는 도 4 및 도 5에 도시된 바와 같이 CNN 기반의 복수의 제1 내지 제n 인셉션 모듈들(ICM1 내지 ICMn) 및 DNN을 이용한 인공 신경망(ANN)을 통해 음향 이벤트를 검출할 수 있다.

복수의 제1 내지 제n 인셉션 모듈들(ICM1 내지 ICMn) 각각은 입력되는 서브 음향 특징으로부터 n개의 서브 음향 특징들 간의 시간적 상관관계가 생성된 출력데이터를 생성할 수 있다. 제1 내지 제n 인셉션 모듈들(ICM1 내지 ICMn) 간에 파라미터가 공유될 수 있다. 음향 특징이 소정 시간 단위로 분할되어 복수의 인셉션 모듈들에서 학습됨으로써 분할된 음향 특징들 간의 시간적 상관관계가 생성된 출력데이터가 생성될 수 있다.

음향 이벤트 검출 장치(110)는 제1 내지 제n 인셉션 모듈들(ICM1 내지 ICMn) 각각으로부터 출력데이터를 수신하고, 출력데이터들로부터 제1 시간 단위의 음향 신호에 대응하는 음향 이벤트에 대한 확률 값(Pe)을 산출할 수 있다.

음향 이벤트 검출에 있어 이벤트 미탐지 또는 오탐지는 사용자에게 혼란을 야기할 수 있으므로 정확한 탐지 성능을 가진 음향 이벤트 검출 기술이 요구되고 있다. 종래에는 기계 학습(machine learning) 기반의 음향 이벤트 검출 기술들이 개발되었으나, 최근에는 음향 이벤트 검출 기술의 성능 향상 등을 목표로 다양한 심층 학습(deep learning) 기법들이 적용되고 있다. 심층 학습 기반의 음향 이벤트 검출 기술인 순환 신경망(recurrent neural network, RNN), 장단기메모리(long-short term memory) 기반의 음향 이벤트 검출 기술들은 고사양의 하드웨어를 요구하여, 일반적인 환경에 적용의 어려움이 존재한다.

본 발명의 실시예는 높은 처리 능력을 요구하는 순환 신경망 또는 장단기메모리 기반의 심층 학습 대신 심층 신경망(deep neural network, DNN) 및 합성곱 신경망(convolutional neural network, CNN) 구조만을 이용한 인셉션 모듈(inception module)를 활용하여 인공 신경망(artificial neural network, ANN)을 구성한다. 이를 통해 음향 이벤트를 검출함으로써, 저사양 하드웨어 환경에서 정확한 음향 이벤트 검출 성능을 나타낼 수 있다.

본 발명의 실시예에 따른 인공 신경망은 인셉션 모듈을 이용함으로써 RNN 또는 LSTM 등의 신경망에 비해, 적은 양의 매개변수를 요구하여 저사양의 하드웨어에서 저지연 및 실시간 구현이 가능하다. 또한 본 발명의 실시예에 따른 인공 신경망은 복수의 인셉션 모듈들의 결합으로 구성함으로써 음향 특징들 간의 시간적 상관도가 생성되어 음향 이벤트 검출 시 시간 정보를 활용할 수 있어, 음향 이벤트 검출의 성능을 높일 수 있다. 단일 인셉션 모듈의 경우 음향 특징들 간의 시간 정보를 고려하지 않고 음향 특징을 학습하기 때문에 음향 이벤트 검출 성능이 낮다.

하기 표는 합성곱 신경망-장단기메모리(CNN-LSTM) 기반의 음향 이벤트 검출 성능과 본 발명의 실시예에 따른 CNN만을 이용한 인셉션 모듈과 DNN으로 구성된 인공 신경망을 이용한 음향 이벤트 검출 성능을 비교한다. 각 기술들의 인공 신경망 학습을 위해서 시중에 제공되고 있는 카메라를 이용하여 음원을 수집하였다. 하기 표 1에서 확인할 수 있듯이, 본 발명의 실시예에 따른 음향 이벤트 검출 방법은 종래의 인공신경망보다 매개변수의 수가 약 1.8배 작으며, 검출 정확도는 상대적으로 8% 개선됨을 확인할 수 있다.

	인공 신경망 매개변수 크기	검출 정확도
CNN-LSTM	8.5MB	85%
CNN 기반 복수의 인셉션 모듈	4.7MB	92%

본 발명의 실시예에 따른 음향 이벤트 검출 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽힐 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

본 발명은 첨부된 도면에 도시된 일 실시예를 참고로 설명되었으나, 이는 예시적인 것에 불과하며, 당해 기술분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 수 있을 것이다.

Claims

입력되는 음향 신호로부터 제1 시간 단위로 음향 특징을 추출하고, 는 특징 추출부; 및
인공 신경망을 이용하여, 상기 제1 시간 단위로 추출된 음향 특징이 제2 시간 단위로 분할된 복수의 서브 음향 특징들 각각으로부터, 상기 복수의 서브 음향 특징들 간의 시간적 상관관계가 생성된 출력데이터를 생성하고, 상기 시간적 상관관계가 생성된 출력데이터들로부터 상기 음향 신호의 이벤트를 검출하는 이벤트 검출부;를 포함하는 음향 이벤트 검출 장치.
제1항에 있어서, 상기 이벤트 검출부는,
상기 복수의 서브 음향 특징들 각각에 대응하게 구비되고, 각각이 입력되는 서브 음향 특징으로부터 상기 서브 음향 특징들 간의 시간적 상관관계가 생성된 출력데이터를 생성하는 복수의 인셉션 모듈들; 및
상기 복수의 인셉션 모듈들로부터의 출력데이터들로부터 상기 음향 신호의 이벤트 확률을 산출하는 심층 신경망(Deep Neural Network, DNN);을 포함하는 음향 이벤트 검출 장치.
제2항에 있어서,
상기 복수의 인셉션 모듈들 간에 파라미터가 공유되는, 음향 이벤트 검출 장치.
입력되는 음향 신호로부터 제1 시간 단위로 음향 특징을 추출하는 단계; 및
인공 신경망을 이용하여, 상기 제1 시간 단위로 추출된 음향 특징이 제2 시간 단위로 분할된 복수의 서브 음향 특징들 각각으로부터, 상기 복수의 서브 음향 특징들 간의 시간적 상관관계가 생성된 출력데이터를 생성하고, 상기 시간적 상관관계가 생성된 출력데이터로부터 상기 음향 신호의 이벤트를 검출하는 단계;를 포함하는 음향 이벤트 검출 장치의 음향 이벤트 검출 방법.
제4항에 있어서, 상기 이벤트 검출 단계는,
상기 복수의 서브 음향 특징들 각각에 대응하게 구비된 복수의 인셉션 모듈들 각각이 입력되는 서브 음향 특징으로부터 상기 서브 음향 특징들 간의 시간적 상관관계가 생성된 출력데이터를 생성하는 단계; 및
심층 신경망(Deep Neural Network, DNN)이 상기 복수의 인셉션 모듈들로부터의 출력데이터들로부터 상기 음향 신호의 이벤트 확률을 산출하는 단계;를 포함하는 음향 이벤트 검출 장치의 음향 이벤트 검출 방법..
제5항에 있어서,
상기 복수의 인셉션 모듈들 간에 파라미터가 공유되는, 음향 이벤트 검출 장치의 음향 이벤트 검출 방법.