KR102444411B1

KR102444411B1 - 음향 이벤트 별로 특성을 고려한 음향 이벤트 검출 방법 및 장치

Info

Publication number: KR102444411B1
Application number: KR1020190036972A
Authority: KR
Inventors: 임우택; 서상원; 정영호
Original assignee: 한국전자통신연구원
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2022-09-20
Also published as: KR20200119414A; US20200312350A1

Abstract

음향 이벤트 검출 방법은 음향 신호를 수신하고, 수신한 음향 신호에 학습된 뉴럴 네트워크를 적용하여, 음향 신호에 음향 이벤트의 존재 여부를 결정하여 출력하는 단계; 및 상기 결정의 오차를 줄이기 위해, 상기 출력을 후처리(post-processing)하는 단계를 포함하고, 상기 뉴럴 네트워크는, 전처리된 음향 신호에 존재하는 적어도 하나의 음향 이벤트 별로 서로 다른 임계값(threshold)에 기초하여 최적의 에폭(epoch)에서 조기 종료(early stopping)되도록 학습하는, 음향 이벤트 검출 방법일 수 있다. 즉, 각각의 음향 이벤트 별로 다른 특성을 적용하여 학습을 중단하는 최적의 에폭(epoch)를 찾고, 이에 기초하여 음향 이벤트 검출 성능을 향상시킬 수 있다.

Description

음향 이벤트 별로 특성을 고려한 음향 이벤트 검출 방법 및 장치{METHOD AND APPARATUS FOR DETECTING SOUND EVENT CONSIDERING THE CHARACTERISTICS OF EACH SOUND EVENT}

아래 설명들은 음향 이벤트 별로 특성을 고려한 음향 이벤트 검출 방법 및 장치에 관한 것으로, 구체적으로 각각의 음향 이벤트의 특성을 적용하여 학습을 중단하는 최적의 에폭(epoch)을 찾고, 이에 기초하여 음향 이벤트 검출 성능을 향상시키는 기술에 관한 것이다.

뉴럴 네트워크는, 선형 피팅(linear fitting), 비선형 변환, 활성화 등의 반복을 통한 학습의 결과를 통해 인풋 데이터를 분류하고 인식할 수 있다. 이러한 뉴럴 네트워크는 최적화의 어려움 등을 이유로 오랜 기간 동안 연구가 발전되지 못했으나 최근 전처리 과정, 최적화 방법, 과적합(overfitting) 등의 문제를 해결할 수 있는 다양한 알고리즘이 연구되고 있고, 빅데이터, GPU 연산의 등장으로 인해 활발히 연구가 진행되고 있다.

현재 이용되고 있는 음향 이벤트 인식 기술은, 음향 신호로부터 MFCC(Mel-Frequency Cepstral Coefficient), energy, spectral flux, zero crossing rate 등 다양한 특징 값을 추출하여 우수한 특징을 검증하는 연구와 Gaussian mixture model 또는 rule 기반의 분류 방법 등에 대한 연구가 주를 이루었다. 최근, 이와 같은 방법들을 개선하기 위해 뉴럴 네트워크 기반의 음향 이벤트 검출 기술이 필요하다.

일 실시예에 따르면, 각각의 음향 이벤트 별로 다른 기준(예를 들면, 임계치)를 적용하여 손실(loss) 또는 정확도(accuracy) 또는 F-score를 모니터링함으로써 조기 종료(early stopping)되는 최적의 에폭(epoch)까지 뉴럴 네트워크를 학습하는, 음향 이벤트 검출 방법일 수 있다.

일 실시예에 따르면, 음향 신호를 수신하고, 상기 수신한 음향 신호에 학습된 뉴럴 네트워크를 적용하여, 상기 음향 신호에 음향 이벤트의 존재 여부를 결정하여 출력하는 단계; 및 상기 결정의 오차를 줄이기 위해, 상기 출력을 후처리(post-processing)하는 단계를 포함하고, 상기 뉴럴 네트워크는, 전처리된 음향 신호에 존재하는 적어도 하나의 음향 이벤트 별로 서로 다른 임계값(threshold)에 기초하여 최적의 에폭(epoch)에서 조기 종료(early stopping)되도록 학습하는, 음향 이벤트 검출 방법일 수 있다.

상기 서로 다른 임계값은, 온셋(onset) 또는 오프셋(offset)이 존재하는 강한 라벨(strong label)이 존재하는 경우, 상기 강한 라벨(strong label)의 길이에 기초하여 상기 강한 라벨(strong label)이 존재하는 구간을 분석함으로써 결정되는, 음향 이벤트 검출 방법일 수 있다.

상기 뉴럴 네트워크는, 상기 각각의 음향 이벤트에 따라 서로 다른 임계값에 기초하여, 정확도(accuracy) 또는 손실(loss) 또는 F-score를 모니터링하면서 결정된 최적의 에폭(epoch)에서 조기 종료되도록 학습되는, 음향 이벤트 검출 방법일 수 있다.

상기 전처리는, 상기 음향 신호를 업 샘플링, 다운 샘플링, 채널 수 변환을 수행하는, 음향 이벤트 검출 방법일 수 있다.

상기 후처리하는 단계는, 시계열 데이터를 모델링하거나 또는 스무딩(smoothing)을 위한 필터링을 적용하는, 음향 이벤트 검출 방법일 수 있다.

일 실시예에 따르면, 음향 신호를 전처리(pre-processing)하는 단계; 및 상기 전처리된 음향 신호에 존재하는 적어도 하나의 음향 이벤트 별로 서로 다른 임계값(threshold)에 기초하여, 최적의 에폭(epoch)에서 조기 종료(early stopping)되도록 뉴럴 네트워크를 학습하는 단계를 포함하는, 뉴럴 네트워크의 학습 방법일 수 있다.

상기 서로 다른 임계값은, 온셋(onset) 또는 오프셋(offset)이 존재하는 강한 라벨(strong label)이 존재하는 경우, 상기 강한 라벨(strong label)의 길이에 기초하여 상기 강한 라벨(strong label)이 존재하는 구간을 분석함으로써 결정되는, 뉴럴 네트워크의 학습 방법일 수 있다.

상기 뉴럴 네트워크는, 상기 각각의 음향 이벤트에 따라 서로 다른 임계값에 기초하여, 정확도(accuracy) 또는 손실(loss) 또는 F-score를 모니터링하면서 결정된 최적의 에폭(epoch)에서 조기 종료되도록 학습되는, 뉴럴 네트워크의 학습 방법일 수 있다.

상기 전처리는, 상기 음향 신호를 업 샘플링, 다운 샘플링, 채널 수 변환을 수행하는, 뉴럴 네트워크의 학습 방법일 수 있다.

일 실시예에 따르면, 음향 이벤트 검출 장치는 프로세서 및 컴퓨터에서 읽을 수 있는 명령어를 포함하는 메모리를 포함하고, 상기 명령어가 상기 프로세서에서 실행되면, 상기 프로세서는, 수신한 음향 신호에 학습된 뉴럴 네트워크를 적용하여 상기 음향 신호에 음향 이벤트의 존재 여부를 결정하여 출력하고, 상기 결정의 오차를 줄이기 위해 상기 출력을 후처리(post-processing)하고, 상기 뉴럴 네트워크는, 전처리된 음향 신호에 존재하는 적어도 하나의 음향 이벤트 별로 서로 다른 임계값(threshold)에 기초하여 최적의 에폭(epoch)에서 조기 종료(early stopping)되도록 학습하는, 음향 이벤트 검출 장치일 수 있다.

상기 서로 다른 임계값은, 온셋(onset) 또는 오프셋(offset)이 존재하는 강한 라벨(strong label)이 존재하는 경우, 상기 강한 라벨(strong label)의 길이에 기초하여 상기 강한 라벨(strong label)이 존재하는 구간을 분석함으로써 결정되는, 음향 이벤트 검출 장치일 수 있다.

상기 뉴럴 네트워크는, 상기 각각의 음향 이벤트에 따라 서로 다른 임계값에 기초하여, 정확도(accuracy) 또는 손실(loss) 또는 F-score를 모니터링하면서 결정된 최적의 에폭(epoch)에서 조기 종료되도록 학습되는, 음향 이벤트 검출 장치일 수 있다.

상기 전처리는, 상기 음향 신호를 업 샘플링, 다운 샘플링, 채널 수 변환을 수행하는, 음향 이벤트 검출 장치일 수 있다.

상기 후처리하는 단계는, 시계열 데이터를 모델링하거나 또는 스무딩(smoothing)을 위한 필터링을 적용하는, 음향 이벤트 검출 장치일 수 있다.

일 실시예에 따르면, 학습 장치는 프로세서 및 컴퓨터에서 읽을 수 있는 명령어를 포함하는 메모리를 포함하고, 상기 명령어가 상기 프로세서에서 실행되면, 상기 프로세서는, 음향 신호를 전처리(pre-processing)하고, 상기 전처리된 음향 신호에 존재하는 적어도 하나의 음향 이벤트 별로 서로 다른 임계값(threshold)에 기초하여, 최적의 에폭(epoch)에서 조기 종료(early stopping)되도록 뉴럴 네트워크를 학습하는, 뉴럴 네트워크의 학습 장치일 수 있다.

상기 서로 다른 임계값은, 온셋(onset) 또는 오프셋(offset)이 존재하는 강한 라벨(strong label)이 존재하는 경우, 상기 강한 라벨(strong label)의 길이에 기초하여 상기 강한 라벨(strong label)이 존재하는 구간을 분석함으로써 결정되는, 뉴럴 네트워크의 학습 장치일 수 있다.

상기 뉴럴 네트워크는, 상기 각각의 음향 이벤트에 따라 서로 다른 임계값에 기초하여, 정확도(accuracy) 또는 손실(loss) 또는 F-score를 모니터링하면서 결정된 최적의 에폭(epoch)에서 조기 종료되도록 학습되는, 뉴럴 네트워크의 학습 장치일 수 있다.

상기 전처리는, 상기 음향 신호를 업 샘플링, 다운 샘플링, 채널 수 변환을 수행하는, 뉴럴 네트워크의 학습 장치일 수 있다.

본 발명의 일 실시예에 따르면, 음향 이벤트 검출 방법은 각각의 음향 이벤트 별로 다른 기준(예를 들면, 임계치)를 적용하여 손실(loss) 또는 정확도(accuracy) 또는 F-score를 모니터링함으로써 조기 종료(early stopping)되는 최적의 에폭(epoch)까지 학습된 뉴럴 네트워크를 이용할 수 있다. 따라서, 학습된 뉴럴 네트워크를 적용하여 음향 신호에 포함된 적어도 하나의 음향 이벤트 검출 성능은 향상될 수 있다.

도 1은 일 실시예에 따른, 음향 이벤트를 검출하는 음향 이벤트 검출 장치를 나타낸 도면이다.
도 2는 일 실시예에 따른, 학습의 조기 종료(early stopping)를 나타낸 도면이다.
도 3은 일 실시예에 따른, 음향 이벤트 검출 장치가 수행하는 음향 이벤트 검출 방법을 나타낸 도면이다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

아래 설명하는 실시예들에는 다양한 변경이 가해질 수 있다. 아래 설명하는 실시예들은 실시 형태에 대해 한정하려는 것이 아니며, 이들에 대한 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1 또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 이해되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수 개의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 일 실시예에 따른, 음향 이벤트를 검출하는 음향 이벤트 검출 장치를 나타낸 도면이다.

일 실시예에 따르면, 음향 이벤트를 검출하고 인식하는 기술은 실생활에서 환경 컨텍스트(context) 인식, 위험 상황 인식, 미디어 콘텐츠 인식, 유무선 통신 상의 상황 분석 등 다양한 분야에 응용 가능한 기술에 해당한다.

음향 신호로부터 음향 이벤트를 검출하는 음향 이벤트 검출 장치(120)는 프로세서(121) 및 메모리(123)를 포함할 수 있다. 메모리(123)는 컴퓨터에서 읽을 수 있는 명령어를 포함할 수 있고, 명령어가 프로세서(121)에서 실행되면, 프로세서(121)는 학습된 뉴럴 네트워크(Neural Network)를 적용하여 음향 신호로부터 음향 이벤트를 검출할 수 있다.

음향 이벤트 검출 장치(120)은 음향 신호(110)를 수신할 수 있고, 결과(130)를 표시할 수 있다. 이때, 결과(130)는 음향 신호에 음향 이벤트가 존재하는지 여부를 나타낼 수 있다.

음향 이벤트 검출 장치(120)은 학습된 뉴럴 네트워크를 적용하여 수신한 음향 신호에 음향 이벤트의 존재 여부를 검출할 수 있다. 여기서, 뉴럴 네트워크는 전처리된 음향 신호를 이용하여 학습될 수 있고, 전처리는 음향 신호의 업 샘플링, 다운 샘플링, 채널 수 변환 중에서 적어도 하나를 포함할 수 있다.

또한, 뉴럴 네트워크는 SVM(support vector machine) 뿐만 아니라, DNN(deep neural network), CNN(convolution neural network), RNN(recurrent neural network)를 이용하여 학습될 수 있다. 이때, 뉴럴 네트워크는 적어도 하나의 레이어를 포함할 수 있고, 구체적으로 컨볼루션(convolution), 풀링(pooling), 활성화(activation), 드랍아웃(dropout), 소프트맥스(softmax)와 같은 다양한 레이어를 포함할 수 있다.

보다 구체적으로, 뉴럴 네트워크는 음향 이벤트 인식을 위한 주 신경망과 음향 이벤트의 존재 여부를 판단하는 보조 신경망으로 구성될 수 있다. 이때, 주 신경망은 3개의 컨볼루션 레이어와 2개의 완전 결합층(fully-connected layer)로 구성될 수 있고, 각각의 컨볼루션 레이어는 3*3 크기의 컨볼루션 필터로 이루어진 64개의 노드로 구성될 수 있으며, 활성화 함수로 ReLU를 이용할 수 있다. 또한, 2개의 완전 결합층은 각각 128개의 노드로 구성될 수 있으며, 활성화 함수로 ReLU와 sigmoid가 이용될 수 있다. 또한, 보조 신경망은 3개의 컨볼루션 레이어와 하나의 시간 축 완전 결합층으로 구성될 수 있고, 각각의 컨볼루션 레이어는 3*3 크기의 컨볼루션 필터로 이루어진 32개의 노드로 구성될 수 있고, 활성화 함수로 ReLU를 이용할 수 있다. 보조 신경망의 컨볼루션 레이어에서 각각의 프레임별 음향 이벤트 존재 여부에 대한 결과를 얻기 위해 시간 축의 정보는 보존한 상태로 주파수 축에 대해 풀링이 수행될 수 있다.

여기서, 뉴럴 네트워크가 에폭(epoch)에 따라 학습될 때 과적합(overfitting)을 방지하기 위해 학습이 조기 종료(early stopping)될 수 있다. 여기서, 에폭(epoch)은 뉴럴 네트워크의 가중치를 조정하는 주기를 나타낼 수 있다. 이때, 학습이 조기 종료될 때, 어느 에폭(epoch)에서 뉴럴 네트워크의 학습을 조기 종료(early stopping)할 지를 결정할 필요가 있다. 각각의 음향 이벤트 별로 다른 특성(예를 들면, 음향 이벤트의 길이, 크기, 주파수, 에너지, 임계값등)을 적용하여 손실(loss) 또는 정확도(accuracy) 또는 F-score를 모니터링함으로써, 종기 종료(early stopping)될 최적의 에폭(epoch)이 결정될 수 있다. 이때, 최적의 에폭(epoch)은 학습 데이터(training data) 이외에 검증 데이터(validation data)를 이용하여 모니터링되는 손실(loss) 또는 정확도(accuracy) 또는 F-score의 성능 향상이 없는 경우의 에폭일 수 있다. 각각 음향 이벤트 별로 다른 특성을 반영하지 않고 동일한 조건을 이용해서 뉴럴 네트워크를 학습하는 것이 아닌, 각각 다른 특성에 기초하여 뉴럴 네트워크가 학습될 수 있다. 따라서, 최적의 에폭(epoch)에서 조기 종료(early stopping)되도록 학습된 뉴럴 네트워크를 통해 음향 이벤트 검출 성능은 향상될 수 있다.

예를 들면, 음향 이벤트 1은 큰 에너지 특성을 가지고 있고 음향 이벤트 2는 상대적으로 작은 에너지 특성을 가지고 있는 경우, 음향 이벤트 1에 대응하는 임계값은 높고 음향 이벤트 2에 대응하는 임계값은 상대적으로 낮을 수 있다. 여기서, 임계값은 대응하는 음향 이벤트가 존재하는지 여부를 판단하는 기준으로서, 임계값 이상인 경우 음향 이벤트가 존재함을 나타낼 수 있고, 임계값 이하인 경우 음향 이벤트가 존재하지 않음을 나타낼 수 있다. 따라서, 각각의 음향 이벤트의 특성에 적합하도록 결정된 서로 다른 임계값에 기초하여 최적의 에폭(epoch)에서 학습이 조기 종료(early stopping)될 경우, 학습된 뉴럴 네트워크의 음향 이벤트 검출 성능은 향상될 수 있다.

일 실시예에 따르면, 온셋(onset) 또는 오프셋(offset)이 존재하는 강한 라벨(strong label)이 존재하는 경우, 강한 레벨(strong label)의 길이에 기초하여 강한 라벨(strong label)이 존재하는 구간이 분석될 수 있고, 분석 결과에 기초하여 각각 음향 이벤트 별로 서로 다른 특성(예를 들면, 임계치)이 적용될 수 있다. 여기서, 온셋(onset)은 시계열 데이터인 오디오 신호에 존재하는 음향 이벤트가 시작하는 시간을 나타내며, 오프셋(offset)은 음향 이벤트가 끝나는 시간을 나타낼 수 있다. 또한, 강한 라벨(strong label)은 오디오 신호에 존재하는 음향 이벤트에 대응하는 온셋과 오프셋이 태깅된 데이터로서, 강한 라벨의 길이는 온셋과 오프셋 간의 간격을 나타낼 수 있다. 반대로, 약한 라벨(weak label)은 오디오 신호에 존재하는 음향 이벤트에 대응하는 온셋과 오프셋이 태깅되지 않은 데이터로서, 음향 이벤트의 존재는 나타내지만 음향 이벤트의 시작 시간과 끝 시간을 알 수 없는 데이터를 나타낸다.

이때, 각 클래스 별 다른 임계 값 기준을 정해진 값에 대해 모든 음향 이벤트별로 모두 수행(예를 들어 0.1, 0.2, ?? , 0.9 와 같이)하며 각 음향 이벤트 별 최적의 결과를 보이는 임계 값을 설정하고, 이때 손실(loss) 또는 F-score가 가장 높은 에폭(epoch) 에서 조기 종료(early stopping)가 수행될 수 있다. 구체적으로, 임계값 이상인 경우 음향 이벤트가 존재하고, 임계값 미만인 경우 음향 이벤트가 존재하지 않는다고 판단될 수 있다. 이때, 임계값은 획일적으로 설정되는 것이 아니라, 음향 이벤트의 종류에 따라 서로 다른 임계값이 적용될 수 있다. 예를 들면, 자동차 지나가는 소리는 임계값이 0.5로 설정될 수 있고, 물건 떨어지는 소리는 임계값이 0.7로 설정될 수 있으며, 사람 말소리는 임계값이 0.3으로 설정될 수 있다. 각각의 음향 이벤트 별로 설정된 임계값을 뉴럴 네트워크의 학습에 적용하고, 최적의 결과(예를 들면, 가장 높은 정확도)를 나타내는 임계이 결정될 수 있다.

이때, 임계값 적용을 효율적으로 하기 위해 epoch가 진행되면서 임계 값을 변화시켜보는 범위나 rate, momentum 정도를 하이퍼 파라미터로 조절하며 수행할 수도 있다. 구체적으로, 임계값을 설정하고 업데이트하는 것은 에폭(epoch) 또는 사용자가 설정한 체크 포인트(check point)마다 수행될 수 있다. 뉴럴 네트워크 학습에서 가중치를 업데이트 할 때 rate 또는 momentum 등의 하이퍼 파라미터를 통해 loss 값의 변동 폭을 줄이는 것과 같이, 음향 이벤트 유무를 판단하는 임계값도 에폭 또는 체크 포인트 마다 rate 나 momentum 을 통해 변동 폭을 줄일 수 있다. 예를 들면, 5번째 체크 포인트에서 음향 이벤트 A에 대한 임계값이 0.4일 때 가장 높은 정확도를 나타냈고, 6번째 체크 포인트에서 음향 이벤트 A에 대한 임계값이 0.7일 때 가장 높은 정확도를 나타낸 경우, 체크 포인트 마다 임계값 변동 폭이 큰 것은 바람직 하지 않을 수 있다. 따라서, 임계값의 차이(0.7-0.4=0.3)에 rate 0.33을 적용할 경우, 5번재 체크 포인트에서 결정된 임계값 0.4에 약 0.1(0.3*0.33=0.1)만을 반영하여, 6번째 체크 포인트에서 음향 이벤트 A에 대한 임계값을 0.7이 아닌 0.5(0.4+0.1)로 결정할 수 있다.

뿐만 아니라, 강한 라벨이 존재하는 경우, labeling 정보에 기초하여 각 음향 이벤트의 평균 길이 등 특성이 식별될 수 있고, 또한 음향 이벤트가 존재하는 구간과 존재하지 않는 구간으로부터 다른 특성 값(예를 들면, 에너지, 멜 계수 등)을 추출할 수 있으므로, 각각 음향 이벤트 별 서로 다른 특성에 기초하여 임계값이 결정될 수 있다.

다른 일 실시예에 따르면, 음향 이벤트의 weakly labeled(onset/offset에 대한 레이블이 없는) 데이터를 이용해 strong label 음향 이벤트 인식을 하는 시스템의 경우에는 전체 오디오 프레임에 이벤트가 있다고 가정을 하고 음향 이벤트 인식 모델을 학습한다. 여기서, 일반적으로 오디오 신호에 약한 라벨(weak label)은 많이 포함되어 있지만, 강한 라벨은 상대적으로 적은 수만 포함되어 있을 수 있다. 따라서, 약한 라벨을 이용하여 강한 라벨을 추정하는 것이 필요하며, 이를 위해 모든 시간 프레임에 대해 음향 이벤트가 존재한다고 가정하고 학습이 수행될 수 있다. 예를 들면, 10초의 오디오 신호에 대해 20ms 단위로 프레임을 분석할 경우, 500개의 프레임으로 구분될 수 있다. 10초의 오디오 신호에 음향 이벤트 A가 존재한다는 약한 라벨(weak label)만 태깅된 경우, 0~10초까지의 모든 프레임에 대해 음향 이벤트 A가 존재한다는 가상의 pseudo strong label을 프레임 전체에 1로 할당한 이후 학습이 수행될 수 있다.

그러나 오디오 입력에서 각 음향 이벤트가 존재하는 길이가 다를 수 있고, 길이가 길게 나타나는 이벤트와 짧게 나타나는 이벤트가 존재하기 때문에, 출력 결과를 모니터링을 하면서 임계 값 결정에 반영할 수 있다. 여기서 길이는 특성의 일례에 불과하고, 에너지 또한 특성에 포함될 수 있다. 이 때 임계 값 적용을 효율적으로 하기 위해 epoch가 진행되면서 임계 값을 변화시켜보는 범위나 rate, momentum 정도를 하이퍼 파라미터로 조절하며 수행할 수도 있다.

Pseudo strong label을 500개 프레임 전체에 할당한 후 전체 프레임에 대해 동일한 임계값을 적용하여 학습이 수행되면, 오류가 발생될 수 있다. 따라서, 음향 이벤트 별로 특성(예를 들면, 길이)을 반영할 경우, 보다 나은 출력 결과를 획득할 수 있다. 구체적으로, 음향 이벤트 별로 서로 다른 특성을 반영하여 임계값이 결정될 수 있고, 이를 반영할 경우 보다 나은 출력 결과를 획득할 수 있다. 예를 들면, 음향 이벤트 A의 길이는 1초 이하이고 음향 이벤트 B의 길이는 상대적으로 긴 5초 이상인 경우, 서로 다른 특성을 반영하여 음향 이벤트 A에 대응하는 임계값은 낮을 수 있고, 음향 이벤트 B에 대응하는 임계값은 상대적으로 높을 수 있다. 길이뿐만 아니라 에너지 또한 임계값 결정에 활용되는 특성일 수 있다. 다른 예를 들면, 후처리로 스무딩을 위한 필터를 적용할 때, 특성을 반영하여 음향 이벤트 A에 대해 필터 길이는 짧을 수 있고, 음향 이벤트 B에 대응하는 필터 길이는 상대적으로 길 수 있다.

음향 이벤트 검출 장치(120)는 학습된 뉴럴 네트워크를 적용하여 음향 신호의 각각 프레임 또는 세그먼트에 음향 이벤트가 존재하는지 여부를 판단할 수 있다. 또한, 음향 이벤트 검출 장치(120)는 음향 이벤트가 존재하는지 여부를 판단한 결과에 대한 오차를 줄이기 위해 오차 제거를 위한 후처리(post-processing)를 수행할 수 있다. 구체적으로, 음향 이벤트 검출 장치(120)는 시계열 데이터를 모델링하거나 또는 스무딩(smoothing)을 위한 필터링을 적용하여 오차를 제거할 수 있다.

도 2는 일 실시예에 따른, 학습의 조기 종료(early stopping)를 나타낸 도면이다. 뉴럴 네트워크의 학습에 이용되는 데이터는 학습 데이터(training data), 학습된 뉴럴 네트워크를 검증하는 검증 데이터(validation data)를 포함할 수 있다. 검증 데이터(validation data)는 조기 종료(early stopping)되는 최적의 에폭(epoch)를 찾는데 이용될 수 있다.

에폭(epoch)는 뉴럴 네트워크의 가중치를 조정하는 주기를 나타낼 수 있다. 도 2의 X축은 에폭(epoch)의 반복 횟수로서, 뉴럴 네트워크가 학습된 횟수를 나타낸다. 따라서, 도 2와 같이, 학습 데이터(training data)를 통해 학습된 뉴럴 네트워크는 반복될수록 에러(Y축)가 감소될 수 있다. 다만, 도 2와 같이, 학습 데이터를 통해 학습된 뉴럴 네트워크에 검증 데이터(validation data)를 적용할 경우, 조기 종료 포인트(210)(early stopping point)가 변곡점으로서 조기 종료 포인트(210)을 전후하여 에러(Y축)가 다시 증가할 수 있다. 이때, 변곡점인 조기 종료 포인트(210)는 과적합(overfitting)이 시작되는 에폭(epoch)를 나타낼 수 있다. 따라서, 조기 종료 포인트(210)에 대응하는 에폭(epoch)까지 학습된 뉴럴 네트워크를 통한 음향 이벤트 검출 성능은 향상될 수 있다.

일 실시예에 따르면, 각각의 음향 이벤트 별로 다른 특성을 적용하여, 에러(error) 또는 손실(loss) 또는 정확도(accuracy) 또는 F-score를 모니터링하면서 조기 종료 포인트(210)는 결정될 수 있다. 조기 종료 포인트(210)에 대응하는 에폭(epoch)까지 학습된 뉴럴 네트워크를 통한 음향 이벤트 검출 성능은 향상될 수 있다.

도 3은 일 실시예에 따른, 음향 이벤트 검출 장치가 수행하는 음향 이벤트 검출 방법을 나타낸 도면이다.

단계(310)에서, 음향 이벤트 검출 장치는 음향 신호를 수신하고, 수신한 음향 신호에 학습된 뉴럴 네트워크를 적용하여, 음향 신호에 음향 이벤트의 존재 여부를 결정하여 출력할 수 있다.

이때, 학습 장치는 전처리된 음향 신호에 존재하는 적어도 하나의 음향 이벤트 별로 서로 다른 임계값(threshold)에 기초하여 최적의 에폭(epoch)에서 조기 종료(early stopping)되도록 뉴럴 네트워크를 학습할 수 있다. 학습 장치는 음향 이벤트 검출 장치의 내부에 존재하거나 외부에 존재할 수 있다.

일 실시예에 따르면, 온셋(onset) 또는 오프셋(offset)이 존재하는 강한 라벨(strong label)이 존재하는 경우, 강한 레벨(strong label)의 길이에 기초하여 강한 라벨(strong label)이 존재하는 구간이 분석될 수 있고, 분석 결과에 기초하여 각각 음향 이벤트 별로 서로 다른 특성(예를 들면, 임계치)이 적용될 수 있다.

예를 들어 각 클래스 별 다른 임계 값 기준을 정해진 값에 대해 모든 클래스 별로 모두 수행(예를 들어 0.1, 0.2, ?? , 0.9 와 같이)하며 각 클래스 별 최적의 결과를 보이는 임계 값을 설정하고, 이때 손실(loss) 또는 F-score가 가장 높은 에폭(epoch) 에서 조기 종료(early stopping)가 수행될 수 있다. 이때, 임계값 적용을 효율적으로 하기 위해 epoch가 진행되면서 임계 값을 변화시켜보는 범위나 rate, momentum 정도를 하이퍼 파라미터로 조절하며 수행할 수도 있다.

다른 일 실시예에 따르면, 음향 이벤트의 weakly labeled(onset/offset에 대한 레이블이 없는) 데이터를 이용해 strong label 음향 이벤트 인식을 하는 시스템의 경우에는 전체 오디오 프레임에 이벤트가 있다고 가정을 하고 음향 이벤트 인식 모델을 학습한다. 그러나 오디오 입력에서 각 음향 이벤트가 존재하는 길이가 다르고, 음향 특성이 길게 나타나는 이벤트와 짧게 나타나는 이벤트가 존재하기 때문에, 출력 결과를 모니터링을 하면서 임계 값 결정에 반영할 수 있다. 이 때 임계 값 적용을 효율적으로 하기 위해 epoch가 진행되면서 임계 값을 변화시켜보는 범위나 rate, momentum 정도를 하이퍼 파라미터로 조절하며 수행할 수도 있다.

단계(320)에서, 음향 이벤트 검출 장치는 결정의 오차를 줄이기 위해, 출력을 후처리(post-processing)할 수 있다. 이대, 후처리는 시계열 데이터를 모델링하거나 또는 스무딩(smoothing)을 위한 필터링을 적용하는 것을 포함할 수 있다.

일 실시예에 따르면, 각각의 음향 이벤트 별로 다른 기준(예를 들면, 임계치)를 적용하여 손실(loss) 또는 정확도(accuracy) 또는 F-score를 모니터링함으로써 조기 종료(early stopping)되는 최적의 에폭(epoch)까지 뉴럴 네트워크를 학습할 수 있다. 따라서, 학습된 뉴럴 네트워크를 적용하여 음향 신호에 포함된 적어도 하나의 음향 이벤트 검출 성능은 향상될 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims

음향 신호를 수신하고, 상기 수신한 음향 신호에 학습된 뉴럴 네트워크를 적용하여, 상기 음향 신호에 음향 이벤트의 존재 여부를 결정하여 출력하는 단계; 및
상기 결정의 오차를 줄이기 위해, 상기 출력을 후처리(post-processing)하는 단계
를 포함하고,
상기 뉴럴 네트워크는, 전처리된 음향 신호에 존재하는 적어도 하나의 음향 이벤트 별로 상기 음향 이벤트의 특성에 따라 결정되는 서로 다른 임계값(threshold)에 기초하여 최적의 에폭(epoch)에서 조기 종료(early stopping)되도록 학습하는,
음향 이벤트 검출 방법.
제1항에 있어서,
상기 서로 다른 임계값은,
온셋(onset) 또는 오프셋(offset)이 존재하는 강한 라벨(strong label)이 존재하는 경우, 상기 강한 라벨(strong label)의 길이에 기초하여 상기 강한 라벨(strong label)이 존재하는 구간을 분석함으로써 결정되는,
음향 이벤트 검출 방법.
제1항에 있어서,
상기 뉴럴 네트워크는,
상기 각각의 음향 이벤트에 따라 서로 다른 임계값에 기초하여, 정확도(accuracy) 또는 손실(loss) 또는 F-score를 모니터링하면서 결정된 최적의 에폭(epoch)에서 조기 종료되도록 학습되는,
음향 이벤트 검출 방법.
제1항에 있어서,
상기 전처리는,
상기 음향 신호를 업 샘플링, 다운 샘플링, 채널 수 변환을 수행하는,
음향 이벤트 검출 방법.
제1항에 있어서,
상기 후처리하는 단계는,
시계열 데이터를 모델링하거나 또는 스무딩(smoothing)을 위한 필터링을 적용하는,
음향 이벤트 검출 방법.
음향 신호를 전처리(pre-processing)하는 단계; 및
상기 전처리된 음향 신호에 존재하는 적어도 하나의 음향 이벤트 별로 상기 음향 이벤트의 특성에 따라 결정되는 서로 다른 임계값(threshold)에 기초하여, 최적의 에폭(epoch)에서 조기 종료(early stopping)되도록 뉴럴 네트워크를 학습하는 단계
를 포함하는,
뉴럴 네트워크의 학습 방법.
제6항에 있어서,
상기 서로 다른 임계값은,
온셋(onset) 또는 오프셋(offset)이 존재하는 강한 라벨(strong label)이 존재하는 경우, 상기 강한 라벨(strong label)의 길이에 기초하여 상기 강한 라벨(strong label)이 존재하는 구간을 분석함으로써 결정되는,
뉴럴 네트워크의 학습 방법.
제6항에 있어서,
상기 뉴럴 네트워크는,
상기 각각의 음향 이벤트에 따라 서로 다른 임계값에 기초하여, 정확도(accuracy) 또는 손실(loss) 또는 F-score를 모니터링하면서 결정된 최적의 에폭(epoch)에서 조기 종료되도록 학습되는,
뉴럴 네트워크의 학습 방법.
제6항에 있어서,
상기 전처리는,
상기 음향 신호를 업 샘플링, 다운 샘플링, 채널 수 변환을 수행하는,
뉴럴 네트워크의 학습 방법.
하드웨어와 결합되어 제1항 내지 제9항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
음향 이벤트 검출 장치는 프로세서 및 컴퓨터에서 읽을 수 있는 명령어를 포함하는 메모리를 포함하고,
상기 명령어가 상기 프로세서에서 실행되면,
상기 프로세서는,
수신한 음향 신호에 학습된 뉴럴 네트워크를 적용하여 상기 음향 신호에 음향 이벤트의 존재 여부를 결정하여 출력하고, 상기 결정의 오차를 줄이기 위해 상기 출력을 후처리(post-processing)하고,
상기 뉴럴 네트워크는, 전처리된 음향 신호에 존재하는 적어도 하나의 음향 이벤트 별로 상기 음향 이벤트의 특성에 따라 결정되는 서로 다른 임계값(threshold)에 기초하여 최적의 에폭(epoch)에서 조기 종료(early stopping)되도록 학습하는,
음향 이벤트 검출 장치.
제11항에 있어서,
상기 서로 다른 임계값은,
온셋(onset) 또는 오프셋(offset)이 존재하는 강한 라벨(strong label)이 존재하는 경우, 상기 강한 라벨(strong label)의 길이에 기초하여 상기 강한 라벨(strong label)이 존재하는 구간을 분석함으로써 결정되는,
음향 이벤트 검출 장치.
제11항에 있어서,
상기 뉴럴 네트워크는,
상기 각각의 음향 이벤트에 따라 서로 다른 임계값에 기초하여, 정확도(accuracy) 또는 손실(loss) 또는 F-score를 모니터링하면서 결정된 최적의 에폭(epoch)에서 조기 종료되도록 학습되는,
음향 이벤트 검출 장치.
제11항에 있어서,
상기 전처리는,
상기 음향 신호를 업 샘플링, 다운 샘플링, 채널 수 변환을 수행하는,
음향 이벤트 검출 장치.
제11항에 있어서,
상기 후처리하는 단계는,
시계열 데이터를 모델링하거나 또는 스무딩(smoothing)을 위한 필터링을 적용하는,
음향 이벤트 검출 장치.
학습 장치는 프로세서 및 컴퓨터에서 읽을 수 있는 명령어를 포함하는 메모리를 포함하고,
상기 명령어가 상기 프로세서에서 실행되면,
상기 프로세서는,
음향 신호를 전처리(pre-processing)하고,
상기 전처리된 음향 신호에 존재하는 적어도 하나의 음향 이벤트 별로 상기 음향 이벤트의 특성에 따라 결정되는 서로 다른 임계값(threshold)에 기초하여, 최적의 에폭(epoch)에서 조기 종료(early stopping)되도록 뉴럴 네트워크를 학습하는,
뉴럴 네트워크의 학습 장치.
제16항에 있어서,
상기 서로 다른 임계값은,
온셋(onset) 또는 오프셋(offset)이 존재하는 강한 라벨(strong label)이 존재하는 경우, 상기 강한 라벨(strong label)의 길이에 기초하여 상기 강한 라벨(strong label)이 존재하는 구간을 분석함으로써 결정되는,
뉴럴 네트워크의 학습 장치.
제16항에 있어서,
상기 뉴럴 네트워크는,
상기 각각의 음향 이벤트에 따라 서로 다른 임계값에 기초하여, 정확도(accuracy) 또는 손실(loss) 또는 F-score를 모니터링하면서 결정된 최적의 에폭(epoch)에서 조기 종료되도록 학습되는,
뉴럴 네트워크의 학습 장치.
제16항에 있어서,
상기 전처리는,
상기 음향 신호를 업 샘플링, 다운 샘플링, 채널 수 변환을 수행하는,
뉴럴 네트워크의 학습 장치.