KR20210046416A

KR20210046416A - 파형 음원 신호를 분석하는 신경망 모델에 기반한 음원 분류 방법 및 분석장치

Info

Publication number: KR20210046416A
Application number: KR1020190130087A
Authority: KR
Inventors: 남주한; 이종필; 김태준
Original assignee: 한국과학기술원
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2021-04-28
Also published as: KR102281676B1

Abstract

파형 음원 신호를 분석하는 신경망 모델에 기반한 음원 분류 방법은 분석장치가 파형 형태의 음원 신호를 입력받는 단계, 상기 분석장치가 상기 음원 신호를 신경망 모델에 입력하는 단계 및 상기 분석장치가 상기 신경망 모델이 출력하는 정보를 기준으로 상기 음원 신호를 분류하는 단계를 포함한다. 상기 신경망 모델은 복수의 컨볼루션(convolution) 블록을 포함하고, 상기 컨볼루션 블록은 1차원 컨볼루션 계층 및 풀링 계층을 포함하고, 상기 컨볼루션 계층에서 필터의 크기는 2 샘플 또는 3 샘플 크기이다.

Description

파형 음원 신호를 분석하는 신경망 모델에 기반한 음원 분류 방법 및 분석장치{AUDIO CLASSIFICATION METHOD BASED ON NEURAL NETWORK FOR WAVEFORM INPUT AND ANALYZING APPARATUS}

이하 설명하는 기술은 파형 음원 신호를 직접 분류하는 기술에 관한 것이다.

음악 정보 검색(music information retrieval, MIR)은 음원(음악) 신호에서 일정한 정보를 추출하고, 분석하는 기술 분야이다. MIR 시스템은 통상적으로 시간 도메인 신호인 음원 신호를 주파수 도메인 신호를 변경하고, 주파수 도메인 신호를 분석한다. 예컨대, MIR 시스템은 음원 신호를 주파수 영역의 로그값 표현인 멜-스펙트로그램(mel-spectrograms)과 같은 신호로 변경하여 분석할 수 있다. 한편, 최근 인공신경망 모델을 이용한 음원 신호 분석 기법이 활발하게 연구되고 있다.

S. Dieleman and B. Schrauwen, "End-to-end learning for music audio," in Proc. Int. Conf. Acoust., Speech, Signal Process., 2014, pp. 6964-6968.

인공신경망 모델은 대부분 주파수 도메인의 음원 신호를 분석하여, 음원을 분류한다. 따라서, 종래 기술은 최초 음원을 주파수 도메인으로 변경하는 과정이 필수적이다. 이하 설명하는 기술은 음원 신호의 원시적인 파형 신호(raw waveform)를 직접 분석하여 음원을 분류하는 기법을 제공하고자 한다.

파형 음원 신호를 분석하는 신경망 모델을 이용하는 음원 분석장치는 파형 형태의 음원 신호를 입력받는 입력장치, 음원 신호를 분석하는 신경망 모델을 저장하는 저장장치 및 상기 음원 신호를 상기 신경망 모델에 입력하고, 상기 신경망 모델이 출력하는 정보를 기준으로 상기 음원 신호를 분류하는 연산장치를 포함한다. 상기 신경망 모델은 복수의 컨볼루션(convolution) 블록을 포함하고, 상기 컨볼루션 블록은 1차원 컨볼루션 계층 및 풀링 계층을 포함하고, 상기 컨볼루션 계층에서 필터의 크기는 2 샘플 또는 3 샘플 크기이다.

이하 설명하는 기술은 짧은 샘플을 처리하는 신경망 모델을 이용하여, 파형 음원 신호를 효과적으로 분류한다. 나아가, 이하 설명하는 기술은 효과적인 구조를 보강한 확장된 신경망 모델을 사용하여 음원 신호를 분류한다.

도 1은 음원 분류 시스템에 대한 예이다.
도 2는 일반적인 CNN에 대한 예이다.
도 3은 음원을 분류하는 신경망 모델에 대한 예이다.
도 4는 샘플 CNN의 입력단 영역의 구조에 대한 예이다.
도 5는 음원 분류하는 신경망 모델의 블록에 대한 예이다.
도 6은 스펙트로그램 기반 CNN과 샘플 CNN의 성능을 비교한 결과이다.
도 7은 컨볼루션 블록에 대한 성능 평가 결과이다.
도 8은 음원 분석장치에 대한 예이다.

이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.

도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.

또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.

이하 설명하는 기술은 음원을 분류하는 기술이다.

음원 또는 음원 신호는 기본적으로 파형 신호를 의미한다. 이하 설명하는 기술은 파형 형태의 음원 신호 자체를 분석한다. 음원은 다양한 형태의 소리 데이터이다. 예컨대, 음원은 음악(music), 음성(speech) 및 음향 장면 사운드(acoustic scene sound) 등을 포함하는 의미이다.

분류는 음원의 특징을 기준으로 음원의 내용을 인식하거나, 음원의 종류를 결정하는 과정을 의미한다. 예컨대, 음원 분류는 음악의 장르 결정, 사람의 발성에서 특정 키워드 검색, 특정 소리가 발생하는 환경 분류, 음원에서 특정 이벤트 발생 인지 등과 같은 작업 중 어느 하나를 의미할 수 있다.

이하 설명하는 기계 학습 모델로 음원을 분류하는 기술이다.

기계 학습(machine learning)은 인공 지능의 한 분야로, 컴퓨터가 학습할 수 있도록 알고리즘을 개발하는 분야를 의미한다. 기계학습모델 또는 학습모델은 컴퓨터가 학습할 수 있도록 개발된 모델을 의미한다. 학습모델은 접근 방법에 따라 인공신경망, 결정 트리 등과 같은 다양한 유형의 모델이 있다.

이하 설명하는 기술은 신경망 모델을 이용하여 음원을 분류한다. 신경망 모델은 RNN(Recurrent Neural Networks), FFNN(feedforward neural network), CNN(convolutional neural network) 등 다양한 모델이 사용될 수 있다. 음원을 분류하는 신경망은 다양한 유형 중 하나일 수도 있다. 다만, 이하 설명의 편의를 위하여 CNN 모델을 중심으로 설명하고자 한다.

분석장치 내지 음원 분석장치는 음원을 분석하고 분류하는 장치이다. 분석장치는 일정한 데이터처리가 가능한 컴퓨팅 장치를 의미한다. 분석장치는 PC, 스마트 기기, 네트워크의 서버, 음원 처리 전용 칩셋 등 다양한 형태로 구현될 수 있다.

도 1은 음원 분류 시스템에 대한 예이다. 도 1은 3가지 유형의 시스템 내지 장치를 도시한다. 분석장치가 음원을 분류하는 주체이다. 분석장치는 파형 음원 신호를 기준으로 해당 음원을 분류한다. 도 1에서 분석장치는 분석 서버(110, 210) 및 스마트 기기(300)의 형태로 도시하였다.

도 1(A)는 분석 서버(110) 및 음원 데이터베이스(120)를 포함하는 시스템(100)에 대한 예이다. 음원 데이터베이스(120)는 파형 형태의 음원 원시 파일을 저장한다. 분석 서버(110)는 음원 베이스(120)로부터 특정 음원을 수신하고, 수신한 음원을 분류한다. 분석 서버(110)는 신경망 모델을 이용하여 음원을 분류한다. 사용자 단말(10)은 분석 서버(110)에 음원 분류를 요청할 수 있다. 사용자 단말(10)은 분석 서버(110)로부터 음원 분류 결과를 수신할 수 있다.

도 2(B)는 분석 서버(210)를 포함하는 시스템(200)에 대한 예이다. 사용자 단말(20)은 파형 형태 음원 신호를 분석 서버(210)에 전달한다. 분석 서버(110)는 수신한 음원을 분류한다. 분석 서버(110)는 신경망 모델을 이용하여 음원을 분류한다. 사용자 단말(10)은 분석 서버(110)로부터 음원 분류 결과를 수신할 수 있다.

도 2(C)는 스마트 기기(310) 형태의 분석장치에 대한 예이다. 스마트 기기(310)는 음원을 마이크로 직접 입력받을 수 있다. 스마트 기기(310)는 입력받은 음원을 분류한다. 스마트 기기(310)는 신경망 모델을 이용하여 음원을 분류한다. 스마트 기기(310)는 분류한 결과를 출력하여 사용자에게 전달할 수 있다.

도 2(C)와 달리 스마트 기기(310) 또는 컴퓨터 단말은 저장 매체(USB, SD 카드, 하드 디스크 등)에 저장된 음원에 접근할 수 있다. 스마트 기기(310) 또는 컴퓨터 단말은 저장 매체에 저장된 음원을 신경망 모델을 이용하여 분류할 수 있다.

도 2는 일반적인 CNN에 대한 예이다. 도 2는 CNN 모델의 일반적인 구조 및 동작을 설명하기 위한 것이다.

CNN은 컨볼루션 계층 (convolution layer, Conv), 풀링 계층 (pooling layer, Pool) 및 전연결 계층(fully connected layer)을 포함한다. 컨볼루션 계층 및 풀링 계층은 반복적으로 다수가 배치될 수 있다. 도 2의 CNN은 5개의 컨볼루션 계층, 2개의 풀링 계층, 2개의 전연결 계층(Fully connected layer) 구조를 가질 수 있다.

컨볼루션 계층은 입력 데이터에 대한 컨볼루션 연산을 통해 특징맵(feature map)을 출력한다. 이때 컨볼루션 연산을 수행하는 필터(filter)를 커널(kernel) 이라고도 부른다. 필터의 크기를 필터 크기 또는 커널 크기라고 한다. 커널을 구성하는 연산 파라미터(parameter)를 커널 파라미터(kernel parameter), 필터 파라미터(filter parameter), 또는 가중치(weight)라고 한다.

컨볼루션 계층은 컨볼루션 연산과 비선형 연산을 수행한다. 컨볼루션 계층은 출력데이터를 정규화하는 배치 표준화 계층(batch normalization layer)을 포함할 수도 있다.

컨볼루션 연산은 일정한 크기의 윈도우에서 수행된다. 윈도우는 2차원 입력 데이터의 좌측 상단에서 우측 하단까지 한 칸씩 이동할 수 있고, 한 번에 이동하는 이동 크기를 조절할 수 있다. 이동 크기를 스트라이드(stride)라고 한다. 컨볼루션 계층은 입력 데이터에서 윈도우를 이동하면서 입력 데이터의 모든 영역에 대하여 컨볼루션 연산을 수행한다. 컨볼루션 계층은 입력 데이터의 가장 자리에 패딩(padding)을 하여 컨볼루션 연산 후 입력 입력 데이터의 차원을 유지할 수 있다.

이때 컨볼루셔널 연산을 수행하는 필터(filter)를 커널(kernel) 이라고도 부른다. 필터의 크기를 필터 크기 또는 커널 크기라고 한다. 커널을 구성하는 연산 파라미터(parameter)를 커널 파라미터(kernel parameter), 필터 파라미터(filter parameter), 또는 가중치(weight)라고 한다. 컨볼루셔널 계층에서는 하나의 입력에 서로 다른 종류의 필터를 사용할 수 있다.

비선형 연산 계층(nonlinear operation layer)은 뉴런(노드)에서 출력값을 결정하는 계층이다. 비선형 연산 계층은 전달 함수(transfer function)를 사용한다. 전달 함수는 Relu, sigmoid 함수 등이 있다.

풀링 계층(pooling layer)은 컨볼루션 계층에서의 연산 결과로 얻은 특징맵을 서브 샘플링(sub sampling)한다. 풀링 연산은 최대 풀링(max pooling)과 평균 풀링(average pooling) 등이 있다. 최대 풀링은 윈도우 내에서 가장 큰 샘플 값을 선택한다. 평균 풀링은 윈도우에 포함된 값의 평균 값으로 샘플링한다.

전연결 계층은 최종적으로 입력 데이터를 분류한다. 전연결 계층은 이전 컨볼루션 계층에서 출력하는 값을 모두 입력받아 최종적인 분류를 한다. 도 2에서 전연결 계층은 소프트맥스(softmax) 함수를 사용하여 분류 결과를 출력한다.

도 3은 음원을 분류하는 신경망 모델(400)에 대한 예이다. 도 3은 CNN 기반의 신경망 모델에 대한 예이다. 도 3은 CNN 모델은 프레임 수준의 샘플(예컨대, 256 또는 512개 샘플)을 처리하지 않고, 매우 적은 수의 샘플을 첫 번째 컨볼루션 계층에서 처리한다. 이와 같은 구조의 CNN 모델을 샘플 CNN(Sample CNN)이라고 명명한다.

입력 데이터는 파형 형태 음원 신호이다.

샘플 CNN(400)은 복수의 컨볼루션 계층과 풀링 계층을 포함한다. 컨볼루션 계층과 풀링 계층은 1차원(one-dimension) 형태이다. 모든 계층에서 필터의 크기가 2 또는 3 샘플들로 매우 작은 크기이다. 작은 크기의 필터는 입력 신호가 시간 도메인에서 서로 다른 위상인데 동일한 필터 형태로 학습될 가능성을 줄여준다.

샘플 CNN(400)은 컨볼루션-스트라이드 계층(410), 복수의 컨볼루션 블록(420) 및 전연결계층(fully connected layer, FC, 430)을 포함한다.

도 3은 하나의 컨볼루션-스트라이드 계층(410)과 9개의 컨볼루션 블록(420)을 도시한 예이다.

컨볼루션-스트라이드 계층(conv-stride)은 스트라이드 컨볼루션 연산을 수행한다. 컨볼루션-스트라이드 계층(conv-stride)도 하나의 컨볼루션 블록으로 볼 수도 있다. 컨볼루션-스트라이드 계층(conv-stride)은 3개의 샘플 크기를 갖는 필터를 갖는 컨볼루션 연산을 수행할 수 있다. 또 컨볼루션-스트라이드 계층(conv-stride)은 1차원에서 3 크기의 스트라이드를 수행할 수 있다.

컨볼루션 블록은 컨볼루션 계층과 풀링 계층을 포함한다. 풀링은 최대 풀링(max pooling)을 사용할 수 있다. 풀링 계층은 3개의 샘플 크기 단위로 최대 풀링을 할 수 있다.

전연결 계층(430)은 두 개의 연속된 전연결 계층을 포함할 수 있다. 전연결 계층(430)는 컨볼루션 블록이 출력하는 정보를 기준으로 음원을 분류한다.

한편, 샘플 CNN은 도 3과는 다른 구조를 가질 수도 있다. (1) 복수의 컨볼루션 블록의 개수는 다양할 수 있다. 컨볼루션 블록은 9개보다 작거나, 9개보다 클수도 있다. (2) 컨볼루션-스트라이드 계층(conv-stride)은 없을 수도 있다. 나아가, 컨볼루션-스트라이드 계층(conv-stride)은 스트라이드 컨볼루션을 수행하는 복수의 계층으로 구성될 수 있다. 예컨대, 컨볼루션-스트라이드 계층(conv-stride)은 2개의 스트라이드 컨볼루션 계층을 포함할 수 있다.

도 4는 샘플 CNN의 입력단 영역의 구조에 대한 예이다. 도 4는 샘플 CNN에서 파형 음원 신호가 입력되어 처리되는 전단부의 구조에 대한 예이다. 설명의 편의를 위하여 전단부를 입력단 영역이라고 명명한다. 입력단 영역은 전술한 (i) 컨볼루션-스트라이드 계층, (ii) 컨볼루션-스트라이드 계층 및 컨볼루션 블록 또는 (iii) 복수의 컨볼루션 블록으로 구성될 수 있다. 입력단 영역에 속한 계층은 작은 크기(2~3 샘플 크기)의 필터로 구성된다. 입력단 영역에 속한 계층은 작은 크기의 필터를 적층한 구조를 갖는다. 도 4에서 conv3은 필터 크기가 3인 컨볼루션 계층을 의미하고, max3은 필터 크기가 3인 풀링 계층을 의미하고, strided conv3는 필터 크기가 3인 컨볼루션-스트라이드 계층을 의미한다. 즉, 도 4는 필터 크기가 3인 계층으로 구성된 입력단 영역의 예이다.

도 4(A)는 컨볼루션-스트라이드 계층이 없는 입력단 영역에 대한 예이다. 도 4(A)의 입력단 영역은 제1 컨볼루션 계층(conv3_1), 제1 최대 풀링 계층(max3_1), 제2 컨볼루션 계층(conv3_2) 및 제2 최대 풀링 계층(max3_2)을 포함한다. 물론, 컨볼루션 계층과 풀링 계층 사이에 데이터 정규화를 위한 계층이 배치될 수 있다. 제2 컨볼루션 계층(conv3_2)은 제1 최대 풀링 계층(max3_1)에서 샘플링한 정보를 입력받는다.

도 4(B)는 하나의 컨볼루션-스트라이드 계층과 컨볼루션 블록으로 구성된 입력단 영역에 대한 예이다. 도 4(B)의 입력단 영역은 제1 컨볼루션-스트라이드 계층(strided conv3_1), 제1 컨볼루션 계층(conv3_1) 및 제1 최대 풀링 계층을 포함한다. 물론, 컨볼루션 계층과 풀링 계층 사이에 데이터 정규화를 위한 계층이 배치될 수 있다. 제1 컨볼루션-스트라이드 계층(strided conv3_1)은 3개의 필터로 스트라이드 컨볼루션을 수행하고, 제1 컨볼루션 계층(conv3_1)은 제1 컨볼루션-스트라이드 계층(strided conv3_1)이 출력한 값을 입력받는다.

도 4(C)는 두 개의 컨볼루션-스트라이드 계층으로 구성된 입력단 영역에 대한 예이다. 도 4(B)의 입력단 영역은 제1 컨볼루션-스트라이드 계층(strided conv3_1) 및 제2 컨볼루션-스트라이드 계층(strided conv3_2)을 포함한다.

제1 컨볼루션-스트라이드 계층(strided conv3_1)은 3개의 필터로 스트라이드 컨볼루션을 수행하고, 제2 컨볼루션-스트라이드 계층(strided conv3_2))은 제1 컨볼루션-스트라이드 계층(strided conv3_1)이 출력한 값을 입력받는다. 제2 컨볼루션-스트라이드 계층(strided conv3_2)은 3개의 필터로 스트라이드 컨볼루션을 수행하고, 출력을 다음에 배치된 컨볼루션 블록에 전달한다.

샘플 CNN은 전체 계층에서 작은 크기의 필터를 사용할 수도 있다. 또는 샘플 CNN은 도 4에서 도시한 입력단 영역에서만 작은 크기의 필터를 사용하여 파형 음원 신호를 처리할 수도 있다. 나아가, 샘플 CNN은 복수의 계층에서 서로 다른 크기의 필터를 사용하여 신호를 처리할 수도 있다.

도 5는 음원 분류하는 신경망 모델의 블록에 대한 예이다. 도 5는 도 3에서 설명한 컨볼루션 블록의 구조에 대한 예이다. 따라서, 샘플 CNN(400)은 적어도 하나의 컨볼루션 블록이 도 5에서 도시한 블록 중 어느 하나일 수 있다. 샘플 CNN(400)은 동일한 종류의 컨볼루션 블록으로 구성될 수 있다. 경우에 따라서, 샘플 CNN(400)은 서로 다른 종류의 컨볼루션 블록이 조합된 형태로 구성될 수도 있다.

도 5(A)는 기본 블록의 구조(500)에 대한 예이다. 기본 블록(500)은 1차원 컨볼루션 계층(Conv1D, 511), 배치 표준화 계층(BatchNorm, 512) 및 최대 풀링 계층(MaxPool, 513)을 포함한다. 컨볼루션 계층(511) 및 풀링 계층(513_은 각각 전술한 기능을 수행한다. 배치 정규화 계층(512)은 미니 배치 단위로 출력을 정규화한다. 배치 정규화 계층(512)은 각 계층에서 활성화값이 적당하게 분포되게 한다. 배치 정규화 계층은 선택적 (optional) 구성일 수 있다.

도 5(B)는 레지듀얼(residual, Res-n) 블록(600)의 구조에 대한 예이다. 레지듀얼-n 블록(600)은 도 5(A)의 기본 블록(500)에 하나의 추가 경로(skip connection)가 부가된 블록이라고 정의한다. 레지듀얼 블록(600)은 추가 경로를 이용하여 그래디언트가 잘 전파될 수 있다.

레지듀얼-n 블록은 컨볼루션 계층이 n 개인 레지듀얼 블록을 의미한다. 음원 분류에 사용되는 레지듀얼 블록은 n = 1 또는 2인 블록이다.

도 5(B)는 n = 2인 레지듀얼 블록의 예이다. 도 5(B)의 레지듀얼 블록은 크게 두 개의 계층으로 구성된다. 제1 계층은 제1 컨볼루션 계층(Conv1D, 611), 제1 배치 표준화 계층(BatchNorm, 612) 및 드롭 아웃(dropout, 613) 계층을 포함한다. 제1 계층은 점선 박스로 표시하였다.

드롭 아웃 계층(613)은 전통적으로 오버피팅(over-fit)을 방지하기 위하여 전연결 계층에서 학습 중 랜덤하게 뉴런을 꺼서 학습이 훈련용 데이타에 치우치는 현상을 막는다. 레지듀얼 블록은 제1 계층의 출력이 랜덤하게 손실되게 한다. 손실율(drop ratio)은 설정할 수 있다. 예컨대, 손실율은 0.2로 설정될 수 있다. 제2 계층은 제2 컨볼루션 계층(Conv1D, 621), 제2 배치 표준화 계층(BatchNorm, 622) 및 최대 풀링 계층(MaxPool, 623)을 포함한다. 최대 풀링 계층 전(623)에 입력 데이터가 입력되는 추가 경로가 있다. 이와 같이 레지듀얼 블록은 이전 계층에 입력된 값이 이후 계층에도 입력되어 그레디언트가 잘 전달된다.

참고로, n = 1인 레지듀얼 블록은 도 5(B)에서 점선 박스 부분(제1 계층)이 없는 구조를 갖는다.

도 5(C)는 추출/재조정(squeeze and excitation, SE) 블록(700)의 구조에 대한 예이다. SE 블록(700)은 1차원 컨볼루션 계층(Conv1D, 711), 배치 표준화 계층(BatchNorm, 712) 및 최대 풀링 계층(MaxPool, 713), 추출/재조정 계층(720)을 포함한다. SE 블록은 도 5(A)의 기본 블록에 실선 박스로 표시한 추출 및 재조정 계층이 추가된 구조이다.

필터들은 각각 필터가 적용되는 지역적 영역에서 동작하기 때문에, 다른 영역에 대한 정보를 이용할 수 없다. 채널마다 중요도가 다를 수 있는데, 일반적인 CNN 구조는 이를 고려하기 어렵다.

추출/재조정 계층(720)은 특징맵을 채널별로 중요도에 따라 스케일(scale)하는 구성이다. 결국, 추출/재조정 계층(720)은 특징을 재조절(recalibration)한다. 추출/재조정 계층(720)은 채널별 특징을 추출하는 동작(squeeze)와 채널간 관계(dependency)를 고려하여 추출한 특징을 재조정하는 동작(excitation)으로 구성된다.

추출(squeeze) 계층(721)은 각 채널에 대하여 통계 정보(statistics)를 추출하는 동작을 수행한다. 추출 계층(721)은 일정 시간동안 채널별로 전역 평균 풀링(global average pooling)을 수행하여, 채널별 통계 정보(channel-wise statistics)를 획득한다. 추출 계층(721)은 각 채널에 대하여 채널을 대표하는 스칼라값을 추출한다. 도 5(D) 우측에 도시한 바와 같이, 전역 평균 풀링을 통해 C × T 특징맵이 C × 1 채널별 통계 정보로 축소된다. C는 필터 채널을 의미하고, T는 시간에서 차원수(dimensionality)를 의미한다.

재조정(excitation) 계층은 추출 계층의 출력을 입력값으로 받는다. 재조정 계층은 각 채널에 대한 가중치를 연산한다. 가중치는 두 개의 전연결계층(FC, 722, 723)을 통해 학습된다. 제1 전연결 계층(722)은 추출 계층의 출력을 입력값으로 받아, ReLu 함수 연산을 하고, 제2 전연결 계층(723)은 제1 전연결 계층(721)의 출력을 입력갑으로 받아, sigmoid 연산을 한다. 두 개의 전열결 졔층 사이의 차원수은 하이퍼파라미터 α에 의해 조절될 수도 있다. 음원 분류를 위한 CNN에 대한 실험 결과, α는 1보다 작은 값을 갖는 것이 바람직하다고 밝혀졌다.

마지막으로, 각 채널에 각각 C × 1 크기의 재조정된 채널별 통계 정보를 곱하여, 특징맵이 재조정(rescaling, 724) 된다. 도 5(D) 우측은 각 채널에 대한 재조정된 특징(통계 정보)을 색상으로 표현하였다.

도 5(D)는 레지듀얼 및 추출/재조정(ReSE-n) 블록(800)의 구조에 대한 예이다. ReSE-n 블록(800)은 도 5(B)의 레지듀얼 블록과 도 5(C)의 추출/재조정 블록의 구조가 병합된 형태이다.

ReSE-n 블록(800)은 컨볼루션 연산을 수행하는 계층을 기준으로 구분하면, 2개의 계층(제1 계층 및 제2 계층)으로 구분할 수 있다.

제1 계층은 제1 컨볼루션 계층(Conv1D, 811), 제1 배치 표준화 계층(BatchNorm, 812) 및 드롭 아웃 계층(dropout, 813)을 포함한다. 제2 계층(820)은 제2 컨볼루션 계층(Conv1D, 821), 제2 배치 표준화 계층(BatchNorm, 822), 추출/재조정 계층 및 최대 풀링 계층(MaxPool, 827)을 포함한다. 최대 풀링 계층 전에 입력 데이터가 입력되는 추가 경로가 있다. 추출/재조정 계층은 도 5(C)에서 설명한 구성과 동일하다.

추출/재조정 계층은 추출 계층(823) 및 재조정 계층(824,825,826)을 포함한다. 추출 계층(823)은 일정 시간동안 채널별로 전역 평균 풀링(global average pooling)을 수행하여, 채널별 통계 정보(channel-wise statistics)를 획득한다. 추출 계층(823)은 각 채널에 대하여 채널을 대표하는 스칼라값을 추출한다. 도 5(D) 우측에 도시한 바와 같이, 전역 평균 풀링을 통해 C × T 특징맵이 C × 1 채널별 통계 정보로 축소된다.

재조정(excitation) 계층은 추출 계층의 출력을 입력값으로 받는다. 재조정 계층은 각 채널에 대한 가중치를 연산한다. 가중치는 두 개의 전연결계층(FC, 824, 825)을 통해 학습된다. 제1 전연결 계층(824)은 추출 계층의 출력을 입력값으로 받아, ReLu 함수 연산을 하고, 제2 전연결 계층(825)은 제1 전연결 계층(824)의 출력을 입력갑으로 받아, sigmoid 연산을 한다. 두 개의 전열결 졔층 사이의 차원수은 하이퍼파라미터 α에 의해 조절될 수도 있다. 음원 분류를 위한 CNN에 대한 실험 결과, α는 1보다 작은 값을 갖는 것이 바람직하다고 밝혀졌다.

마지막으로, 각 채널에 각각 C × 1 크기의 재조정된 채널별 통계 정보를 곱하여, 특징맵이 재조정(rescaling, 826) 된다. 도 5(C) 우측은 각 채널에 대한 재조정된 특징(통계 정보)을 색상으로 표현하였다.

최대 풀링 계층(827)은 추출/재조정 계층이 출력하는 값과 제1 컨볼루션 계층(811)에 입력되는 값이 합산된 값이 입력된다.

이하 음원 분류를 위한 샘플 CNN에 대한 효과를 검증하는 실험을 설명한다. 3가지 서로 다른 도메인의 음원에 대한 효과를 실험하였다. 3가지 도메인은 음악, 음성 및 음향 장면 사운드이다. 실험을 위한 데이터 세트와 훈련한 모델 구조는 아래 표 1과 같다.

음악 자동 태깅(music auto-tagging)은 음원에 대한 다중 분류 작업이다. 예컨대, 음악 분류는 장르, 무드(mood), 악기, 보컬 수준 등과 같은 기준으로 분류될 수 있다. 실험에서는 MIR에 자주 사용되는 MTT(MagnaTagATun) 데이터 세트를 이용하였다. 평가 기준은 분류된 음악의 순위 정확도를 기준으로 하였다. 분류 정확도는 ROC-AUC(area under receiver operating characteristic)으로 평가하였다. ROC-AUC 점수는 모든 태그에 대하여 연산하여 평균한 값을 점수로 삼았다. 음원 클립(clip)은 적어도 하나의 양성 라벨을 갖고, 길이가 29.1초 이상인 음원을 사용하였다. 한편, 다른 기술과 비교를 위하여 Last.FM 태그를 갖는 MSD(Million Song Dataset) 데이터 세트를 이용하였다. MTT와 MDS는 동일한 방식으로 전처리하여 평가하였다.

핵심어 검출(Keyword Spotting)은 음성 신호에 대한 다중 분류 작업에 해당한다. 핵심어 검출은 AI 스피커에서 많이 사용되는 짧은 문장의 인식에 주로 사용된다. TensorFlow 커뮤니티에서 최근 음성 명령 인식을 위한 음성 데이터 세트를 공개하였다. 본 실험에서는 35개의 일반 명령을 포함하는 데이터 세트를 사용하였다. 즉, 35개의 가능한 명령 중 하나를 정확하게 특정하는지를 평가하였다.

음향 장면 태깅(acoustic scene tagging)은 음원에 대한 다중 분류 작업이다. DCASE(Detection and Classification of Acoustic Scenes and Events)에서 2017년에 공개한 데이터 세트를 이용하였다. 본 실험에서는 타임스탬프 없는 버전(audio tagging)의 데이터 세트를 사용하였다. 평가는 인스턴스 기반 F-점수를 이용하였다. 테스트용 데이터 세트의 오디오 클립의 평균 F-점수를 사용하였다.

테스트를 위한 모든 CNN 모델은 배치 크기가 23이고, 네스테로프 모멘텀(Nesterov momentum) 0.9의 경사하강법으로 학습하였다. 학습율은 최초 0.01로 설정하였고, 2개의 에폭(epoch)에서 유효성 손실이 감소하지 않으면, 학습율을 5로 나누었다. CNN 모델 마지막 전연결 계층 전에 손실율 0.5의 드룹 아웃 계층을 삽입되었다. 훈련 과정에서 각 세그먼트에 대하여 예측을 수행하였고, 세그먼트들의 예측을 평균하여 각 오디오 클립에 대한 최종 예측을 하였다.

도 6은 스펙트로그램 기반 CNN과 샘플 CNN의 성능을 비교한 결과이다. 도 6(A)는 음악 자동 태깅에 대한 결과이고, 도 6(B)는 핵심어 검출에 대한 결과이고, 도 6(C)는 음향 장면 태깅에 대한 결과이다.

스펙트로그램 기반 CNN은 멜-스펙트로그램을 입력받아 음원을 분류하는 전통적인 모델이다. 샘플 CNN과의 정확한 비교를 위하여, 스펙트로그램 기반 CNN은 최대한 실험에서 사용한 샘플 CNN과 유사한 구조를 갖도록 하였다. 샘플 CNN은 필터와 최대 풀림/스트라이딩이 모두 3개의 크기를 갖는 모델을 사용하였다.

도 6의 하단에는 멜-스펙트로그램의 윈도우 및 홉(hop) 크기를 표시하였고, 대응되게 샘플 CNN의 첫 번째 컨볼루션 계층에서 사용된 필터와 홉 크기를 표시하였다. 예컨대, 도 6에서 윈도우/필터 크기가 729(3⁶)이면 홉/스트라이드 크기도 829이다. 윈도우와 필터 크기를 줄여가면서, 모델의 정확도를 평가하였다. 다만, 스펙트로그램 기반 CNN에 대해서는 크기가 너무 작아지면 주파수 도메인에서 표현이 어렵기 때문에, 윈도우/홉 크기가 81에 도달하면, 더 이상 크기를 줄이지 않았다.

도 6를 살펴보면, 기본적으로 스펙트로그램 기반 CNN보다 샘플 CNN이 우수한 성능을 보인다. 또한, 스펙트로그램 기반 CNN은 윈도우 및 홉 크기가 줄어들면서 일정한 수준으로 결과가 수렴하지만, 샘플 CNN은 필터 및 스트라이드 크기가 줄어들수록 좋은 성능을 보인다. 샘플 CNN은 필터 및 스트라이드 크기가 가장 작은 경우에 최대 성능을 보였다.

또한, 두 개의 컨볼루션 블록에 대하여 평가를 하였다. 기본 블록과 SE 블록을 갖는 모델을 각각 평가하였다. 샘플 CNN은 일관되게 SE 블록을 갖는 모델이 기본 블록을 갖는 모델보다 성능이 우수하였다.

샘플 CNN은 모델의 깊이가 깊어질수록 모델 파라미터가 증가하였다. 따라서, 성능 향상은 모델 크기의 증가에 따른 것으로 볼 수 있다. 이를 검증하기 위하여 샘플 CNN에 대한 추가적인 실험을 하였다. 기본 블록을 갖는 샘플 CNN을 대상으로, 필터의 개수를 조정하여 파라미터 개수를 고정하였다. 아래, 표 2는 실험 결과를 정리한 것이다.

표 2를 살펴보면, 샘플 CNN의 성능 향상은 구조(깊이)에 기인한 것임을 알 수 있다.

도 5에서 샘플 CNN을 구성하는 컨볼루션 블록을 설명하였다. 샘플 CNN을 구성할 수 있는 서로 다른 종류의 컨볼루션 블록들에 대한 성능을 평가하였다. 도 7은 컨볼루션 블록에 대한 성능 평가 결과이다. 도 7은 각각 기본 블록, SE 블록, Res-1 블록, Res-2 블록, ReSE-1 블록 및 RESE-2 블록으로 구성된 6개의 샘플 CNN에 대한 성능 평가 결과이다. 도 7은 각 모델의 성능에 대한 평균과 표준 편차를 도시하였다. 도 7(A)는 음악 자동 태깅에 대한 평가 결과이고, 도 7(B)는 음악 자동 태깅에 대한 PR(Precision Recall)-AUC에 대한 평가 결과이다. 도 7(C)는 핵심어 검출에 대한 평가 결과이다. 도 7(D)는 음향 장면 태깅에 대한 평가 결과이다.

도 7을 살펴보면, 전반적으로 SE 블록 기반 모델(SE), Res-2 블록 기반 모델(Res-2) 및 ReSE-2 블록 기반 모델(RsSE-2)들이 다른 모델에 비하여 우수한 효과를 보인다. 다만, 특정 모델이 3가지 도메인에 대하여 모두 성능이 우월하지는 않았다.

도 8은 음원 분석장치에 대한 예이다. 분석장치(900)는 도 1의 분석장치(110, 210 또는 310)에 해당하는 장치이다.

분석장치(900)는 전술한 신경망 모델(샘플 CNN)을 이용하여 음원을 분류한다. 분석장치(900)는 물리적으로 다양한 형태로 구현될 수 있다. 예컨대, 분석장치(900)는 PC와 같은 컴퓨터 장치, 네트워크의 서버, 음원 처리 전용 칩셋 등의 형태를 가질 수 있다. 컴퓨터 장치는 스마트 기기 등과 같은 모바일 기기를 포함할 수 있다.

분석장치(900)는 저장장치(910), 메모리(920), 연산장치(930), 인터페이스 장치(940), 통신장치(950) 및 출력장치(960)를 포함한다.

저장장치(910)는 음원 신호를 분석하는 신경망 모델(샘플 CNN)을 저장한다. 신경망 모델는 사전에 학습되어야 한다. 나아가 저장장치(910)는 데이터 처리에 필요한 다른 프로그램 내지 소스 코드 등을 저장할 수 있다. 저장장치(910)는 입력되는 음원 파일 내지 음원 데이터를 저장할 수 있다.

메모리(920)는 분석장치(900)가 수신한 데이터를 분석하는 과정에서 생성되는 데이터 및 정보 등을 저장할 수 있다.

인터페이스 장치(940)는 외부로부터 일정한 명령 및 데이터를 입력받는 장치이다. 인터페이스 장치(940)는 물리적으로 연결된 입력 장치 또는 외부 저장장치로부터 음원 데이터를 입력받을 수 있다. 인터페이스 장치(940)는 음원 분석을 위한 학습모델을 입력받을 수 있다. 인터페이스 장치(940)는 학습모델 훈련을 위한 학습데이터, 정보 및 파라미터값을 입력받을 수도 있다.

나아가 인터페이스 장치(940)는 현장의 소리를 직접 입력받는 마이크 장치일 수도 있다.

통신장치(950)는 유선 또는 무선 네트워크를 통해 일정한 정보를 수신하고 전송하는 구성을 의미한다. 통신장치(950)는 외부 객체로부터 음원 데이터를 수신할 수 있다. 통신장치(950)는 모델 학습을 위한 데이터도 수신할 수 있다. 통신장치(950)는 음원에 대한 분석 결과를 외부 객체로 송신할 수 있다.

통신장치(950) 내지 인터페이스 장치(940)는 외부로부터 일정한 데이터 내지 명령을 전달받는 장치이다. 통신장치(950) 내지 인터페이스 장치(940)를 입력장치라고 명명할 수 있다.

입력 장치는 분석 대상인 음원 데이터를 입력 내지 수신받을 수 있다. 예컨대, 입력 장치는 외부 서버나 DB로부터 음원 데이터를 수신할 수 있다. 입력 장치는 현장에서 발생하는 음원을 수집할 수도 있다. 입력 장치는 저장 매체로부터 직접 음원 데이터를 입력받을 수도 있다.

출력장치(960)는 일정한 정보를 출력하는 장치이다. 출력장치(960)는 데이터 처리 과정에 필요한 인터페이스, 분석 결과 등을 출력할 수 있다.

연산 장치(930)는 저장장치(910)에 저장된 신경망 모델 내지 프로그램을 이용하여 음원 분류를 할 수 있다. 연산 장치(930)는 신경망 모델이 출력하는 값을 기준으로 음원을 분류할 수 있다. 신경망 모델이 출력하는 값은 다중 분류 중 어느 하나의 값일 수 있다. 연산 장치(930)는 신경망 모델의 출력값을 직접 이용하여 음원을 분류할 수 있다. 나아가, 연산 장치(930)는 신경망 모델의 출력값을 가공하거나, 추가로 분석하여 음원을 분류할 수도 있다.

한편, 연산 장치(930)는 주어진 훈련 데이터를 이용하여 음원을 분류하는 학습모델을 훈련할 수도 있다.

연산 장치(930)는 데이터를 처리하고, 일정한 연산을 처리하는 프로세서, AP, 프로그램이 임베디드된 칩과 같은 장치일 수 있다.

또한, 상술한 바와 같은 음원 분류 방법 및 샘플 CNN은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.

Claims

분석장치가 파형 형태의 음원 신호를 입력받는 단계;
상기 분석장치가 상기 음원 신호를 신경망 모델에 입력하는 단계; 및
상기 분석장치가 상기 신경망 모델이 출력하는 정보를 기준으로 상기 음원 신호를 분류하는 단계를 포함하되,
상기 신경망 모델은 복수의 컨볼루션(convolution) 블록을 포함하고, 상기 컨볼루션 블록은 1차원 컨볼루션 계층 및 풀링 계층을 포함하고, 상기 컨볼루션 계층에서 필터의 크기는 2 샘플 또는 3 샘플 크기인 파형 음원 신호를 분석하는 신경망 모델에 기반한 음원 분류 방법.
제1항에 있어서,
상기 신경망 모델은 상기 복수의 컨볼루션 블록 앞에 1차원에서 스트라이드(strided) 컨볼루션을 수행하는 스트라이드 컨볼루션 계층을 더 포함하고,
상기 스트라이드 컨볼루션 계층은 스트라이드 컨볼루션을 수행하는 계층이 하나이거나, 두 개가 연속된 계층인 파형 음원 신호를 분석하는 신경망 모델에 기반한 음원 분류 방법.
제1항에 있어서,
상기 복수의 컨볼루션 블록 중 적어도 하나의 블록은 레지듀얼(residual) 블록이고,
상기 레지듀얼 블록은 1차원인 제1 컨볼루션 계층, 상기 제1 컨볼루션 계층 다음에 배치되는 1차원인 제2 컨볼루션 계층, 상기 제1 컨볼루션 계층과 상기 제2 컨볼루션 계층 사이에 배치되며 특정 손실율을 갖는 드롭 아웃(drop out) 계층 및 상기 제2 컨볼루션 계층에서 출력되는 정보와 상기 제1 컨볼루션 계층에 입력되는 정보가 합산된 정보를 최대 풀링하는 풀링 계층을 포함하는 파형 음원 신호를 분석하는 신경망 모델에 기반한 음원 분류 방법.
제1항에 있어서,
상기 복수의 컨볼루션 블록 중 적어도 하나의 블록은 추출 및 재조정(squeeze and excitation) 블록이고,
상기 추출 및 재조정 블록은 1차원인 제1 컨볼루션 계층, 상기 제1 컨볼루션 계층의 출력을 최대 풀링하는 풀링 계층 및 추출/재조정 계층을 포함하고,
상기 추출/재조정 계층은 전역 평균 풀링을 수행하여 채널별 통계 정보를 추출하는 추출 계층 및 상기 통계 정보를 재조정하는 가중치를 결정하는 두 개의 전연결 계층으로 구성되는 재조정 계층을 포함하는 파형 음원 신호를 분석하는 신경망 모델에 기반한 음원 분류 방법
제4항에 있어서,
상기 두 개의 전연결 계층 사이의 차원수는 1보다 작은 값을 갖는 하이퍼파라미터로 조절되는 파형 음원 신호를 분석하는 신경망 모델에 기반한 음원 분류 방법.
제1항에 있어서,
상기 복수의 컨볼루션 블록 중 적어도 하나의 블록은 레지듀얼(residual) 및 추출/재조정(squeeze and excitation) 블록이고,
상기 레지듀얼 및 추출/재조정 블록은 1차원인 제1 컨볼루션 계층, 상기 제1 컨볼루션 계층 다음에 배치되는 1차원인 제2 컨볼루션 계층, 상기 제1 컨볼루션 계층과 상기 제2 컨볼루션 계층 사이에 배치되며 특정 손실율을 갖는 드롭 아웃(drop out) 계층, 상기 제2 컨볼루션 계층의 출력을 입력받아 채널별 특성을 반영하는 추출/재조정 계층 및 상기 추출/재조정 계층에서 출력되는 정보와 상기 제1 컨볼루션 계층에 입력되는 정보가 합산된 정보를 최대 풀링하는 풀링 계층을 포함하고,
상기 추출/재조정 계층은 전역 평균 풀링을 수행하여 채널별 통계 정보를 추출하는 추출 계층 및 상기 통계 정보를 재조정하는 가중치를 결정하는 두 개의 전연결 계층으로 구성되는 재조정 계층을 포함하는 파형 음원 신호를 분석하는 신경망 모델에 기반한 음원 분류 방법.
컴퓨터에서 제1항 내지 제6항 중 어느 하나의 항에 기재된 파형 음원 신호를 분석하는 신경망 모델에 기반한 음원 분류 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
파형 형태의 음원 신호를 입력받는 입력장치;
음원 신호를 분석하는 신경망 모델을 저장하는 저장장치 및
상기 음원 신호를 상기 신경망 모델에 입력하고, 상기 신경망 모델이 출력하는 정보를 기준으로 상기 음원 신호를 분류하는 연산장치를 포함하되,
상기 신경망 모델은 복수의 컨볼루션(convolution) 블록을 포함하고, 상기 컨볼루션 블록은 1차원 컨볼루션 계층 및 풀링 계층을 포함하고, 상기 컨볼루션 계층에서 필터의 크기는 2 샘플 또는 3 샘플 크기인 파형 음원 신호를 분석하는 신경망 모델을 이용하는 음원 분석장치.
제8항에 있어서,
상기 신경망 모델은 상기 복수의 컨볼루션 블록 앞에 1차원에서 스트라이드(strided) 컨볼루션을 수행하는 스트라이드 컨볼루션 계층을 더 포함하고,
상기 스트라이드 컨볼루션 계층은 스트라이드 컨볼루션을 수행하는 계층이 하나이거나, 두 개가 연속된 계층인 파형 음원 신호를 분석하는 신경망 모델을 이용하는 음원 분석장치.
제8항에 있어서,
상기 복수의 컨볼루션 블록 중 적어도 하나의 블록은 레지듀얼(residual) 블록이고,
상기 레지듀얼 블록은 1차원인 제1 컨볼루션 계층, 상기 제1 컨볼루션 계층 다음에 배치되는 1차원인 제2 컨볼루션 계층, 상기 제1 컨볼루션 계층과 상기 제2 컨볼루션 계층 사이에 배치되며 특정 손실율을 갖는 드롭 아웃(drop out) 계층 및 상기 제2 컨볼루션 계층에서 출력되는 정보와 상기 제1 컨볼루션 계층에 입력되는 정보가 합산된 정보를 최대 풀링하는 풀링 계층을 포함하는 파형 음원 신호를 분석하는 신경망 모델을 이용하는 음원 분석장치.
제8항에 있어서,
상기 복수의 컨볼루션 블록 중 적어도 하나의 블록은 추출 및 재조정(squeeze and excitation) 블록이고,
상기 추출 및 재조정 블록은 1차원인 제1 컨볼루션 계층, 상기 제1 컨볼루션 계층의 출력을 최대 풀링하는 풀링 계층 및 추출/재조정 계층을 포함하고,
상기 추출/재조정 계층은 전역 평균 풀링을 수행하여 채널별 통계 정보를 추출하는 추출 계층 및 상기 통계 정보를 재조정하는 가중치를 결정하는 두 개의 전연결 계층으로 구성되는 재조정 계층을 포함하는 파형 음원 신호를 분석하는 신경망 모델을 이용하는 음원 분석장치.
제11항에 있어서,
상기 두 개의 전연결 계층 사이의 차원수는 1보다 작은 값을 갖는 하이퍼파라미터로 조절되는 파형 음원 신호를 분석하는 신경망 모델을 이용하는 음원 분석장치.
제8항에 있어서,
상기 복수의 컨볼루션 블록 중 적어도 하나의 블록은 레지듀얼(residual) 및 추출/재조정(squeeze and excitation) 블록이고,
상기 레지듀얼 및 추출/재조정 블록은 1차원인 제1 컨볼루션 계층, 상기 제1 컨볼루션 계층 다음에 배치되는 1차원인 제2 컨볼루션 계층, 상기 제1 컨볼루션 계층과 상기 제2 컨볼루션 계층 사이에 배치되며 특정 손실율을 갖는 드롭 아웃(drop out) 계층, 상기 제2 컨볼루션 계층의 출력을 입력받아 채널별 특성을 반영하는 추출/재조정 계층 및 상기 추출/재조정 계층에서 출력되는 정보와 상기 제1 컨볼루션 계층에 입력되는 정보가 합산된 정보를 최대 풀링하는 풀링 계층을 포함하고,
상기 추출/재조정 계층은 전역 평균 풀링을 수행하여 채널별 통계 정보를 추출하는 추출 계층 및 상기 통계 정보를 재조정하는 가중치를 결정하는 두 개의 전연결 계층으로 구성되는 재조정 계층을 포함하는 파형 음원 신호를 분석하는 신경망 모델을 이용하는 음원 분석장치.