KR102062454B1

KR102062454B1 - 음악 장르 분류 장치 및 방법

Info

Publication number: KR102062454B1
Application number: KR1020180067731A
Authority: KR
Inventors: 박호종; 신성현
Original assignee: 광운대학교 산학협력단
Priority date: 2018-06-12
Filing date: 2018-06-12
Publication date: 2020-01-03
Also published as: KR20190140780A

Abstract

오디오 신호를 획득하는 수신부, 상기 오디오 신호로부터 상기 오디오 신호를 시간 위치 별로 복수의 서로 다른 중심 주파수 성분으로 분할하여 상기 오디오 신호의 특성을 나타내는 스파이크 코드를 획득하고, 상기 스파이크 코드로부터 특성 파라미터를 추출하고, 상기 특성 파라미터를 기초로 상기 오디오 신호의 음악 장르를 결정하는 프로세서 및 상기 결정된 음악 장르를 기초로 출력 정보를 출력하는 출력부를 포함하는 음악 장르 분류 장치가 개시된다.

Description

음악 장르 분류 장치 및 방법 {MUSIC GENRE CLASSIFICATION APPARATUS AND METHOD}

본 개시는 오디오 신호의 음악 장르를 분류하는 음악 장르 분류 장치 및 방법에 관한 것이다. 구체적으로 오디오 신호의 스파이크 코드를 기반으로 획득한 특성 파라미터를 기초로 오디오 신호의 음악 장르를 결정하는 장치 및 방법에 관한 것이다.

최근 디지털 미디어에 대한 접근이 용이해지면서 사용자에게 제공되는 디지털 컨텐츠의 양이 증가하고 있다. 이에 따라, 컨텐츠 검색 서비스뿐만 아니라 컨텐츠 특성 기반의 특화된 서비스에 대한 요구가 발생하고 있다. 예를 들어, 오디오 컨텐츠 제공 시스템은 컨텐츠를 사용하는 사용자에게 사용자의 음악 취향 및 청취 환경을 기초로 결정된 오디오 컨텐츠를 추천하거나 제공할 수 있다. 또한, 시스템 추천에 의하거나 사용자에 의해 선택된 컨텐츠 재생 시 컨텐츠에 따라 차별적으로 이퀄라이저(equalizer)를 적용해 주는 서비스가 요구될 수 있다. 이 경우, 컨텐츠의 음향학적 특징(acoustic feature)을 기초로 컨텐츠 별 특화된 서비스를 제공하기 위한 기술이 필요하다.

한편, 컨텐츠를 기초로 컨텐츠에 대응하는 음향학적 특징(acoustic feature)을 인식하는 방법과 관련하여 다양한 방법이 제안되고 있다. 예를 들어, 스펙트로그램(spectrogram), MFCC(Mel-frequency cepstral coefficients)와 크로마 주파수(chroma frequency), MFCC와 음색(timbre) 특성을 사용하여 음향학적 특징을 인식할 수 있다. 그러나 이러한 방법은 인간의 청각 시스템의 동작을 모델링하지 못하기 때문에 인간이 인지하는 오디오 신호의 특성과 관련된 서비스를 제공하는데 한계를 가진다. 이에 따라, 인간의 청각 시스템 동작을 기반으로 분석된 결과를 이용하여 더 높은 품질의 서비스를 제공하는 기술이 요구되고 있다.

본 개시의 일 실시예는 오디오 신호의 음악 장르를 분류하는 음악 장르 분류 장치 및 음악 장르 분류 장치의 동작 방법으로 제공하는 것을 목적으로 한다.

본 개시의 일 실시예에 따른 음악 장르 분류 장치는, 오디오 신호를 획득하는 수신부, 상기 오디오 신호로부터 상기 오디오 신호를 시간 위치 별로 복수의 서로 다른 중심 주파수 성분으로 분할하여 상기 오디오 신호의 특성을 나타내는 스파이크 코드를 획득하고, 상기 스파이크 코드로부터 특성 파라미터를 추출하고, 상기 특성 파라미터를 기초로 상기 오디오 신호의 음악 장르를 결정하는 프로세서 및 상기 결정된 음악 장르를 기초로 출력 정보를 출력하는 출력부를 포함한다. 이때, 상기 시간 위치는 상기 오디오 신호를 구성하는 복수의 샘플 중에서 어느 하나의 시간적 순서를 나타낼 수 있다.

상기 프로세서는, 상기 중심 주파수 각각에 대응하는 복수의 필터와 상기 오디오 신호 사이의 상관관계를 기초로 상기 오디오 신호에 대응하는 상기 스파이크 코드를 획득할 수 있다.

상기 프로세서는, 상기 스파이크 코드를 기초로 상기 오디오 신호에 대한 복원 신호(reconstruction signal)를 생성할 수 있다. 이때, 상기 특성 파라미터는 상기 오디오 신호와 상기 복원 신호 사이의 복원 정확도(reconstruction accuracy)를 포함할 수 있다. 상기 스파이크 코드는 상기 중심 주파수 각각에 대응하는 시간 위치 별 필터 크기를 포함할 수 있다. 이때, 상기 특성 파라미터는 스파이크 코드가 포함하는 스파이크의 개수 별 복원 정확도를 포함할 수 있다. 여기에서, 상기 스파이크의 개수는 상기 필터 크기 중에서 논-제로(non-zero) 필터 크기의 개수를 나타낼 수 있다. 또한, 상기 프로세서는, 상기 오디오 신호와 상기 복원 신호 사이의 차이 및 상기 오디오 신호 사이의 비율을 기초로 상기 복원 정확도를 결정할 수 있다.

상기 스파이크 코드는 상기 중심 주파수 각각에 대응하는 시간 위치 별 필터 크기를 포함할 수 있다. 이때, 상기 특성 파라미터는, 상기 복수의 샘플을 포함하는 프레임에 포함되는 상기 필터 크기의 중심 주파수 별 합을 포함할 수 있다.

상기 프로세서는, 상기 스파이크 코드를 기초로, 상기 복수의 필터 각각에 대해 상기 프레임 내에서 활성화된 횟수를 나타내는 필터 별 활성화 빈도수를 산출할 수 있다. 이때, 상기 특성 파라미터는 상기 중심 주파수 별 활성화 빈도수를 포함할 수 있다.

상기 특성 파라미터는, 상기 시간 위치 각각에 대하여, 상기 시간 위치 각각에서 상기 복수의 필터 중에서 적어도 하나의 필터가 활성화 되었는지를 나타내는 시간 기반 파라미터를 포함할 수 있다. 또한, 상기 특성 파라미터는 적어도 하나의 필터가 활성화된 시간 위치 중에서 어느 둘 사이의 간격을 포함할 수 있다.

상기 오디오 신호는 복수의 프레임으로 구성되고, 상기 프레임은 상기 복수의 샘플을 포함하는 처리 단위를 나타낼 수 있다. 이때, 상기 프로세서는, 상기 복수의 프레임 별로 추출된 특성 파라미터를 기초로 상기 복수의 프레임 각각에 대응하는 음악 장르 별 확률값을 산출하고, 상기 복수의 프레임 각각에 대응하는 음악 장르 별 확률값에 대한, 상기 복수의 프레임을 포함하는 기 설정된 시간 구간에서의 음악 장르 별 평균에 기초하여 상기 오디오 신호의 음악 장르를 결정할 수 있다.

상기 복수의 필터는 상기 중심 주파수 별로 필터의 주파수 영역 파형이 서로 다른 것을 특징으로 할 수 있다. 또한, 상기 중심 주파수는 주파수가 높아질수록 넓은 간격으로 설정된 청각 척도에 기초하여 결정되는 것을 특징으로 할 수 있다.

본 개시의 다른 실시예에 따른 오디오 신호의 음악 장르를 분류하는 방법은, 상기 오디오 신호를 획득하는 단계, 상기 오디오 신호로부터 상기 오디오 신호를 시간 위치 별로 복수의 서로 다른 중심 주파수 성분으로 분할하여 상기 오디오 신호의 특성을 나타내는 스파이크 코드를 획득하는 단계, 상기 스파이크 코드로부터 특성 파라미터를 추출하는 단계, 상기 특성 파라미터를 기초로 상기 오디오 신호의 음악 장르를 결정하는 단계 및 상기 결정된 음악 장르를 기초로 출력 정보를 출력하는 단계를 포함할 수 있다.

또 다른 측면에 따른 전자 장치로 읽을 수 있는 기록매체는 상술한 방법을 전자 장치에서 실행시키기 위한 프로그램을 기록한 기록매체를 포함한다.

본 개시의 일 실시예에 따르면 오디오 신호에 대한 음악 장르 분류 성능을 향상시킬 수 있다. 구체적으로, 본 개시의 일 실시예에 따르면, 오디오 신호의 음악 장르 분류에 관한 정확도를 증가시킬 수 있다. 또한, 본 개시의 일 실시예에 따르면, 기존의 스펙트럼 기반 분석을 통한 특성 파라미터 추출 방법에 비해, 다양한 특성 파라미터를 오디오 신호로부터 추출할 수 있다. 본 개시의 일 실시예에 따르면, 인간의 청각 시스템의 동작과 유사한 방법으로 오디오 신호의 음악 장르를 분류할 수 있다.

도 1은 본 개시의 일 실시예에 따른 음악 장르 분류 장치의 구성을 나타내는 블록도이다.
도 2는 본 개시의 일 실시예에 따른 스파이크 코드를 나타내는 도면이다.
도 3은 본 개시의 일 실시예에 따른 음악 장르 별 오디오 신호와 스파이크 코드를 기초로 복원된 복원 신호를 나타내는 도면이다.
도 4는 본 개시의 일 실시예에 따라 스파이크 코드가 포함하는 스파이크의 개수에 따라 복원 정확도가 변화되는 것을 나타내는 도면이다.
도 5 는 본 개시의 일 실시예에 따른 음악 장르 분류 장치가 스파이크 코드로부터 주파수 기반 특성 파라미터를 추출하는 방법을 나타내는 도면이다.
도 6은 본 개시의 일 실시예에 따른 음악 장르 분류 장치가 시간 기반 특성 파라미터를 추출하는 방법을 나타내는 도면이다.
도 7은 본 개시의 일 실시예에 따른 음악 장르 분류 장치가 추출된 특성 파라미터를 기초로 오디오 신호의 음악 장르를 결정하는 방법을 나타내는 흐름도이다.
도 8은 본 개시의 일 실시예에 따른 음악 장르 분류 장치의 동작을 나타내는 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우만이 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 개시는, 오디오 신호로부터 음향학적 특징을 획득하고 이를 기초로 오디오 신호의 음악 장르를 분류하는 방법에 관한 것이다. 구체적으로, 본 개시의 일 실시예는 오디오 신호로부터 청각 스파이크 코드(Auditory spike code, 이하 '스파이크 코드')를 획득하고 이로부터 추출된 특성 파라미터에 기초하여 오디오 신호의 음악 장르를 분류할 수 있다. 본 개시의 일 실시예에 따르면, 오디오 신호의 음악 장르 분류에 대한 정확도를 증가시킬 수 있다. 본 개시의 일 실시예에 따른, 음악 장르 분류 장치 및 방법은 오디오 신호에 대응하는 스파이크 코드를 사용하여 오디오 신호의 음악 장르를 결정할 수 있다. 본 개시에서 스파이크 코드는 인간의 청각 시스템 동작을 기반으로 오디오 신호를 부호화한 코드를 의미할 수 있다. 구체적으로, 스파이크 코드는 오디오 신호를 시간 위치 별로 복수의 서로 다른 중심 주파수 성분으로 분리하여 나타내는 코드일 수 있다.

인간의 청각 시스템은 오디오 신호 전체가 아닌 특정 주파수 대역의 가중 합으로 오디오 신호의 특성을 인지한다. 구체적으로, 인간의 청각 시스템은 특정 주파수를 포함하는 신호에 반응하는 신경 세포를 통해 오디오 신호를 인식할 수 있다. 달팽이관의 기저막에 위치한 신경 세포는 특정 시간에 특정 주파수가 감지 될 때 활성화된다. 활성화된 신경 세포는 특정 주파수에 대응하는 특정 파형의 신호를 발생시킨다. 뇌에서는 활성화된 신경 세포에 의해 발생된 특정 파형의 신호를 기초로 오디오 신호를 인식하게 된다. 이때, 활성화된 신경 세포를 제외한 신경 세포는 아무런 동작을 수행하지 않는다. 전술한 바와 같이, 청각 시스템에서 인간이 받는 자극은 스파스(sparse)하다. 인간의 청각 시스템은 효율적으로 오디오 신호의 특성을 분석할 수 있다. 인간의 청각 시스템은 최대한의 정보를 최소한의 에너지와 신경자원으로 오디오 신호를 전달하기 때문이다.

본 개시의 일 실시예에 따른 음악 장르 분류 장치는 전술한 청각 시스템의 동작을 모델링하는 방법으로 오디오 신호를 분석할 수 있다. 음악 장르 분류 장치는 전술한 청각 세포의 스파스한 성질을 모델링하여 오디오 신호를 분석할 수 있다. 음악 장르 분류 장치는 오디오 신호를 시간 별 활성화된 중심 주파수로 분류하는 청각 스파이크 코드로 부호화할 수 있다. 본 개시에서 음악의 장르는 음악의 종류를 분류하는 기준을 의미할 수 있다. 예를 들어, 오디오 신호는 클래식, 메탈, 디스코, 힙합, 재즈, 락 중 하나의 음악 장르에 포함될 수 있으며, 본 개시에서 음악의 장르가 이에 제한 되는 것은 아니다.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명한다.

도 1은 본 개시의 일 실시예에 따른 음악 장르 분류 장치(100)의 구성을 나타내는 블록도이다. 본 개시의 일 실시예에 따른 음악 장르 분류 장치(100)는 수신부(110), 프로세서(120) 및 출력부(130)를 포함할 수 있다. 그러나 도 1에 도시된 구성 요소의 일부는 생략될 수 있으며, 음악 장르 분류 장치(100)는 도 1에 도시되지 않은 구성 요소를 추가로 포함할 수 있다. 또한, 음악 장르 분류 장치(100)는 적어도 둘 이상의 서로 다른 구성요소를 일체로서 구비할 수도 있다. 일 실시예에 따라, 음악 장르 분류 장치(100)는 하나의 반도체 칩(chip)으로 구현될 수도 있다.

수신부(110)는 오디오 신호를 수신할 수 있다. 수신부(110)는 음악 장르 분류 장치(100)로 입력되는 입력 오디오 신호를 수신할 수 있다. 수신부(110)는 프로세서(120)에 의한 음악 장르 분류의 대상이 되는 입력 오디오 신호를 수신할 수 있다. 여기에서, 오디오 신호는 복수의 음악 장르 중 어느 하나에 해당하는 음악을 나타내는 오디오 신호일 수 있다. 일 실시예에 따라, 음악 장르 분류 장치(100)가 별도의 복호화부(decoder)를 포함하는 경우, 수신부(110)는 오디오 신호의 부호화된 비트 스트림을 수신할 수도 있다. 일 실시예에 따라, 수신부(110)는 오디오 신호를 수신하기 위한 수신 수단을 구비할 수 있다. 예를 들어, 수신부(110)는 유/무선 오디오 수신 모듈을 포함할 수 있다. 수신부(110)는 오디오 신호 입력 단자를 포함할 수 있다. 수신부(110)는 블루투스(bluetooth) 또는 와이파이(Wi-Fi) 통신 방법을 이용하여 무선으로 전송되는 오디오 신호를 수신할 수 있다. 수신부(110)는 오디오 신호에 대응하는 음향을 수집하는 마이크를 포함할 수도 있다.

프로세서(120)는 음악 장르 분류 장치(100)의 전반적인 동작을 제어할 수 있다. 프로세서(120)는 음악 장르 분류 장치(100)의 각 구성 요소를 제어할 수 있다. 프로세서(120)는 각종 데이터와 신호의 연산 및 처리를 수행할 수 있다. 프로세서(120)는 반도체 칩 또는 전자 회로 형태의 하드웨어로 구현되거나 하드웨어를 제어하는 소프트웨어로 구현될 수 있다. 프로세서(120)는 하드웨어와 상기 소프트웨어가 결합된 형태로 구현될 수도 있다. 예를 들어, 프로세서(120)는 소프트웨어가 포함하는 적어도 하나의 프로그램을 실행함으로써, 수신부(110) 및 출력부(130)의 동작을 제어할 수 있다. 또한, 프로세서(120)는 적어도 하나의 프로그램을 실행하여 후술할 도 2 내지 도 8을 통해 설명되는 음악 장르 분류 장치(100)의 동작을 수행할 수 있다.

일 실시예에 따라, 프로세서(120)는 수신부(110)를 통해 수신된 오디오 신호의 음악 장르를 결정할 수 있다. 프로세서(120)는 오디오 신호로부터 특성 파라미터를 추출하는 추출부 및 추출한 특성 파라미터를 기초로 오디오 신호의 음악 장르를 분류하는 분류부(classifier)를 포함할 수 있다. 이때, 분류부는 기 설정된 개수의 은닉층(hidden layer) 및 기 설정된 개수의 뉴런을 포함하는 심층 신경망을 포함할 수 있다. 구체적으로, 프로세서(120)는 특성 파라미터를 기초로 수신된 오디오 신호의 음악 장르를 결정할 수 있다. 또한, 프로세서(120)는 오디오 신호의 음악 장르를 기초로 출력 정보를 생성할 수 있다. 예를 들어, 출력 정보는 결정된 음악 장르를 나타내는 정보일 수 있다. 또한, 프로세서(120)는 후술할 출력부(130)를 통해 생성된 출력 정보를 출력할 수 있다.

한편, 일 실시예에 따라, 프로세서(120)는 오디오 신호의 음악 장르를 기초로 오디오 신호에 대한 포스트 프로세싱을 수행할 수 있다. 이 경우, 출력 정보는 수신된 오디오 신호에 대해 포스트 프로세싱이 적용된 출력 오디오 신호일 수 있다. 실시예에 따라, 프로세서(120)는 오디오 신호의 음악 장르를 기초로 오디오 신호에 대한 포스트 프로세싱을 수행할 수 있다. 또한, 프로세서(120)는 오디오 신호의 음악 장르를 기초로 포스트 프로세싱이 적용된 출력 오디오 신호를 생성할 수 있다. 이 경우, 출력 정보는 입력 오디오 신호에 대해 포스트 프로세싱이 적용된 출력 오디오 신호일 수 있다. 또한, 프로세서(120)는 후술할 출력부(130)를 통해 오디오 신호의 음악 장르를 기초로 생성된 출력 오디오 신호를 출력할 수 있다.

예를 들어, 프로세서(120)는 오디오 신호의 음악 장르에 따라 서로 다른 이퀄라이저(equalizer)를 오디오 신호에 적용할 수 있다. 이때, 서로 다른 이퀄라이저는 음악 장르 별로 기 설정된 음향 효과를 나타낼 수 있다. 구체적으로, 제1 오디오 신호의 음악 장르가 클래식 음악 장르인 경우, 프로세서(120)는 클래식 음악 장르에 대응하는 제1 이퀄라이저를 제1 오디오 신호에 적용할 수 있다. 또한, 프로세서(120)는 출력부(130)를 통해 제1 이퀄라이저가 적용된 제1 오디오 신호를 출력할 수 있다. 또한, 제2 오디오 신호의 음악 장르가 메탈 음악 장르인 경우, 프로세서(120)는 메탈 음악 장르에 대응하는 제2 이퀄라이저를 기초로 제2 오디오 신호를 출력할 수 있다. 이때, 제2 이퀄라이저는 제1 이퀄라이저에 비해, 오디오 신호의 고음 부분을 강조하는 이퀄라이저일 수 있다.

또한, 프로세서(120)는 결정된 음악 장르에 기초하여 오디오 신호에 적용되는 포스트 프로세싱을 조절할 수 있다. 프로세서(120)의 포스트 프로세싱에는 크로스톡 제거, DRC(Dynamic Range Control), 음량 정규화, 피크 제한 등이 포함될 수 있다. 음악 장르 분류 장치(100)는 포스트 프로세싱을 수행하는 별도의 포스트 프로세싱부를 포함할 수 있으며, 다른 실시예에 따라 포스트 프로세싱부는 프로세서(120)에 포함될 수도 있다.

출력부(130)는 출력 정보를 출력할 수 있다. 출력부(130)는 프로세서(120)에 의해 생성된 출력 정보를 출력할 수 있다. 예를 들어, 출력부(130)는 프로세서(120)에 의해 결정된 오디오 신호의 음악 장르를 나타내는 정보를 출력할 수 있다. 이때, 오디오 신호의 음악 장르를 나타내는 정보는 결정된 음악 장르를 나타내는 텍스트 또는 이미지 정보일 수 있다. 출력부(130)는 빛, 소리, 진동과 같은 형태로 변환된 출력 정보를 출력할 수 있다. 일 실시예에 따라, 출력부(130)는 스피커, 디스플레이, LED를 포함하는 각종 광원 및 모니터 중 적어도 하나일 수 있으나 이에 한정되지 않는다. 예를 들어, 출력부(130)는 수신된 오디오 신호의 음악 장르를 나타내는 정보를 출력할 수 있다.

이때, 출력부(130)는 오디오 신호를 외부로 출력하는 출력 단자를 포함할 수 있다. 음악 장르 결정 장치(100)는 출력 단자에 연결된 외부 장치로 오디오 신호를 출력할 수도 있다. 또는 출력부(130)는 오디오 신호를 외부로 출력하는 무선 오디오 송신 모듈을 포함할 수 있다. 이 경우, 출력부(130)는 블루투스 또는 와이파이와 같은 무선 통신 방법을 이용하여 외부 장치로 출력 오디오 신호를 출력할 수 있다. 또는 출력부(130)는 스피커를 포함할 수 있다. 또한, 출력부(130)는 디지털 오디오 신호를 아날로그 오디오 신호로 변환하는 컨버터(예를 들어, digital-to-analog converter, DAC)를 추가적으로 포함할 수 있다.

본 개시의 일 실시예에 따라, 음악 장르 분류 장치(100)는 특성 파라미터를 기초로 수신된 오디오 신호의 음악 장르를 결정할 수 있다. 음악 장르 분류 장치(100)는 기계 학습된 분류부를 사용하여, 오디오 신호의 특성 파라미터를 기초로 오디오 신호의 음악 장르를 결정할 수 있다. 이때, 음악 장르 분류 장치(100)는 오디오 신호의 특성 파라미터와 동일한 포맷의 훈련 데이터 셋(set)을 기초로 기계 학습된 알고리즘을 이용할 수 있다. 예를 들어, 음악 장르 분류 장치(100)는 복수의 오디오 신호로부터 획득된 특성 파라미터를 기초로 학습된 심층 신경망을 이용하여 오디오 신호의 음악 장르를 결정할 수 있다. 오디오 신호는 오디오 신호가 해당하는 음악 장르에 따라, 동일한 음악 장르에 해당하는 다른 오디오 신호와 유사한 특성 파라미터를 포함할 수 있기 때문이다. 이에 대해서는 도 7을 통해 상세히 설명한다. 또한, 음악 장르 분류 장치(100)는 수신된 오디오 신호로부터 오디오 신호에 대응하는 스파이크 코드를 획득할 수 있다. 음악 장르 분류 장치(100)가 스파이크 코드를 획득하는 방법에 대해서는 도 2를 통해 상세히 설명하도록 한다. 또한, 음악 장르 분류 장치(100)는 획득된 스파이크 코드를 기초로 특성 파라미터를 획득할 수 있다. 이에 대해서는 도 3 내지 도 6을 통해 상세히 설명한다. 또한, 음악 장르 분류 장치(100)는 추출된 특성 파라미터를 기초로 오디오 신호의 음악 장르를 결정할 수 있다.

이하에서는, 본 개시의 일 실시예에 따른 음악 장르 분류 장치(100)가 오디오 신호로부터 스파이크 코드를 획득하는 방법에 관하여 도 2를 참조하여 설명한다. 도 2는 본 개시의 일 실시예에 따른 스파이크 코드를 나타내는 도면이다. 도 2의 (a)는 시간-주파수 도메인에서 오디오 신호로부터 획득된 스파이크 코드를 나타내는 예시이다. 도 2의 (a)에서 가로 축은 시간 위치(temporal position)를 나타내고, 세로 축은 중심 주파수를 나타낼 수 있다. 본 개시에서, 시간 위치는 오디오 신호를 구성하는 복수의 샘플 중 어느 하나의 시간적 순서를 나타낼 수 있다. 구체적으로, 시간 위치는 복수의 샘플 중 어느 하나가 복수의 샘플 중에서 시간적으로 몇 번째에 위치하는 샘플인지를 나타낼 수 있다. 이때, 복수의 샘플 각각은 기 설정된 샘플링 주파수를 기초로 오디오 신호로부터 추출될 수 있다.

도 2의 (a)에서 각각의 점은 스파이크 코드가 포함하는 하나의 스파이크를 나타낼 수 있다. 여기에서, 스파이크는 특정 시간 위치에서 활성화된 특정 중심 주파수를 나타낼 수 있다. 또한, 스파이크 코드는 각각의 스파이크에 대응하는 시간 위치와 중심 주파수를 나타내는 정보를 포함할 수 있다. 이 경우, 스파이크 코드가 포함하는 시간 위치 별 복수의 중심 주파수 각각에 대응하는 크기는 '0' 또는 '0'이 아닌 값으로 정의될 수 있다. 스파이크는 특정 시간 위치에서 '0'이 아닌 크기를 가지는 중심 주파수를 나타낼 수 있다.

도 2의 (b)는 스파이크 코드를 나타내는 또 다른 방법의 예시이다. 도 2의 (b)에서, 스파이크 코드(S)는 시간 위치 별로 복수의 중심 주파수 각각에 대응하는 크기를 포함하는 행렬 형태로 표현될 수 있다. 도 2의 (b)에서0~ 63은 각각 64개의 중심 주파수 중 어느 하나를 나타낸다. 예를 들어, 스파이크 코드(S)에서, Sm,n은 시간 위치 n에서 중심 주파수m에 대응하는 크기를 나타낼 수 있다. 또한, 시간 위치 n에서 중심 주파수 m에 대응하는 크기가 '0'이 아닌 경우, 중심 주파수 m은 시간 위치 n에서 활성화된 중심 주파수일 수 있다. 도 2의 (b) 실시예는, 오디오 신호가 포함하는 전체 구간 중에서 일부 시간 구간에 대응하는 스파이크 코드를 나타낸다. 본 개시에서, 오디오 신호를 구성하는 전체 시간 구간 중에서 일부 시간 구간은 프레임으로 지칭될 수 있다. 일 실시예에 따라, 오디오 신호는 적어도 하나의 프레임으로 구성될 수 있다. 프레임은 복수의 샘플을 포함하는 오디오 신호 처리(process) 단위를 나타낼 수 있다. 예를 들어, 음악 장르 분류 장치(100)는 수신된 오디오 신호를 프레임 단위로 분석할 수 있다. 또한, 프레임은 복수의 샘플을 포함할 수 있다. 예를 들어, 도 2의 (b)에서 하나의 프레임은 N개의 샘플로 구성될 수 있다. 또한, 하나의 프레임은 N개의 시간 위치를 포함할 수 있다.

일 실시예에 따라, 음악 장르 분류 장치(100)는 오디오 신호를 특정 시간 위치에 특정한 크기를 가지는 적어도 하나의 중심 주파수 성분으로 분할하여 오디오 신호의 특성을 나타내는 스파이크 코드를 획득할 수 있다. 예를 들어, 음악 장르 분류 장치(100)는 중심 주파수가 서로 다른 복수의 필터를 사용하여 오디오 신호로부터 스파이크 코드를 획득할 수 있다. 본 개시에서 필터는 필터 뱅크에 포함된 복수의 필터 중 어느 하나를 의미할 수 있다. 예를 들어, 필터 뱅크는 복수의 서로 다른 중심 주파수 각각에 대응하는 복수의 필터를 포함할 수 있다. 또한, 필터 뱅크는 특정 중심 주파수를 중심으로 특정 파형의 신호를 생성하는 청각 세포를 모델링한 필터 세트일 수 있다. 예를 들어, 필터 뱅크는 64개의 감마톤 필터를 포함하는 감마톤 필터 뱅크(gammatone filter bank)일 수 있다. 여기에서, 감마톤 필터 뱅크는 청각 필터를 모델링한 필터일 수 있다. 또한, 복수의 필터는 중심 주파수 별로 주파수 영역 파형이 서로 다른 필터일 수 있다. 또한, 중심 주파수는 청각 척도에 기초하여 결정될 수 있다. 예를 들어, 음악 장르 분류 장치(100)는 주파수가 높아질수록 넓은 간격으로 설정되는 청각 척도를 기초로 중심 주파수를 설정할 수 있다. 구체적으로, 청각 척도는 바크 단위(bark scale)를 나타낼 수 있다. 바크 단위는 인간의 청각 기관의 동작에서 주파수 영역 분할을 모델링 하는 단위를 나타낼 수 있다.

예를 들어, 음악 장르 분류 장치(100)는 서로 다른 중심 주파수 각각에 대응하는 복수의 필터와 수신된 오디오 신호 사이의 상관관계를 기초로 오디오 신호에 대응하는 스파이크 코드를 추출할 수 있다. 예를 들어, 음악 장르 분류 장치(100)는 MP(matching pursuit) 알고리즘을 이용하여 오디오 신호로부터 스파이크 코드를 추출할 수 있다. 이때, 스파이크 코드는 복수의 필터 각각에 대응하는 시간 별 필터 크기를 포함할 수 있다. 예를 들어, 스파이크 코드는 복수의 필터 각각에 대응하는 시간 위치 별 필터 크기를 엘리먼트(element)로 하는 행렬을 포함할 수 있다. 또한, 음악 장르 분류 장치(100)는 오디오 신호로부터 복수의 스파이크를 포함하는 스파이크 코드를 획득할 수 있다. 음악 장르 분류 장치(100)는 오디오 신호로부터 적어도 하나의 스파이크를 추출할 수 있다. 스파이크 코드는 하나의 중심 주파수에 대응하는 복수의 스파이크를 포함할 수 있다. 이때, 복수의 스파이크 각각에 대응하는 시간 위치는 서로 다를 수 있다. 또한, 스파이크 코드는 하나의 시간 위치에 대응하는 복수의 스파이크를 포함할 수 있다. 이때, 복수의 스파이크 각각에 대응하는 중심 주파수는 서로 다를 수 있다.

구체적으로, 음악 장르 분류 장치(100)는 필터 뱅크가 포함하는 모든 필터가 모든 시간 위치에 위치된 신호 집합 Φ을 설정할 수 있다. 또한, 음악 장르 분류 장치(100)는 신호 집합 Φ가 포함하는 각각의 필터 요소와 오디오 신호 사이의 상관관계를 기초로, 필터 요소 중에서 상관관계가 가장 큰 필터 요소를 결정할 수 있다. 음악 장르 분류 장치(100)는 오디오 신호의 특정 시간의 특정 중심 주파수 성분에 대응하는 제1 필터 요소를 결정할 수 있다. 음악 장르 분류 장치(100)는 결정된 제1 필터 요소에 대응하는 중심 주파수 및 시간 위치 정보를 획득할 수 있다. 이때, 획득된 중심 주파수 및 시간 위치는 스파이크 코드가 포함하는 제1 스파이크에 관한 정보일 수 있다. 다음으로, 음악 장르 분류 장치(100)는 오디오 신호에서 제1 필터 요소에 대응하는 성분을 제거한 잔여 신호로부터, 전술한 방법을 통해 제2 스파이크를 추출할 수 있다. 음악 장르 분류 장치(100)는 기 설정된 개수의 스파이크를 추출할 때까지 전술한 동작을 반복할 수 있다. 또한, 음악 장르 분류 장치(100)는 기 설정된 개수의 추출된 스파이크에 관한 정보를 기초로 스파이크 코드를 생성할 수 있다. 이때, 기 설정된 개수는 사용자에 의해 결정된 개수일 수 있다. 또는 음악 장르 분류 장치(100)는 시스템 환경을 기초로 설정된 개수의 스파이크를 포함하는 스파이크 코드를 생성할 수 있다.

한편, 음악 장르 분류 장치(100)는 전술한 스파이크 코드로부터 오디오 신호의 특성 파라미터를 추출할 수 있다. 스파이크 코드 자체로는 오디오 신호의 음악 장르를 나타내는 정보를 파악하기 어렵기 때문이다. 일 실시예에 따라, 특성 파라미터는 스파이크 코드를 기초로 복원된 복원 신호(reconstruction signal)와 수신된 오디오 신호 사이의 복원 정확도를 포함할 수 있다. 예를 들어, 오디오 신호의 음악 장르에 따라 청각 세포에 의해 인지되는 오디오 신호의 청각 인지 특성이 달라질 수 있다. 또한, 오디오 신호가 포함하는 청각 인지 특성에 따라, 오디오 신호가 스파이크 코드로 부호화되면서 사라지는 신호 성분의 주파수 또는 시간 영역 특성이 달라질 수 있다. 또한, 오디오 신호가 포함하는 청각 인지 특성에 따라, 오디오 신호가 스파이크 코드로 부호화되면서 신호 성분이 사라지는 정도(degree)가 달라질 수 있다. 이에 따라, 음악 장르 분류 장치(100)는 오디오 신호의 음악 장르에 따라 다른 복원 정확도를 이용하여 오디오 신호의 음악 장르를 결정할 수 있다. 이하에서는, 본 개시의 일 실시예에 따라 음악 장르 결정 장치(100)가 스파이크 코드로부터 획득된 복원 정확도를 기초로 오디오 신호의 음악 장르를 결정하는 방법에 대하여 도 3 내지 도 4를 참조하여 설명한다.

도 3은 본 개시의 일 실시예에 따른 음악 장르 별로 오디오 신호와 스파이크 코드를 기초로 복원된 복원 신호를 나타내는 도면이다. 일 실시예에 따라, 음악 장르 분류 장치(100)는 복원 정확도를 기초로 오디오 신호의 음악 장르를 결정할 수 있다. 도 3의 (a)는 제1 오디오 신호가 클래식 음악(classical music) 장르인 경우, 제1 오디오 신호와 제1 오디오 신호에 대응하는 제1 스파이크 코드를 기초로 복원된 제1 복원 신호를 나타낸다. 도 3의 (b)는 제2 오디오 신호가 메탈 음악(metal music) 장르인 경우, 제2 오디오 신호와 제2 오디오 신호에 대응하는 제2 스파이크 코드를 기초로 복원된 제2 복원 신호를 나타낸다. 도 3의 (a) 및 (b)에 도시된 바와 같이, 제1 오디오 신호와 제1 복원 신호 사이의 차이는 제2 오디오 신호와 제2 복원 신호 사이의 차이에 비해 작다. 즉, 오디오 신호가 클래식 음악 장르인 경우 메탈 음악 장르에 비해 복원 정확도가 더 높을 수 있다. 음악 장르 분류 장치(100)는 오디오 신호로부터 획득한 스파이크 코드를 기초로 복원 정확도를 추출할 수 있다.

예를 들어, 음악 장르 분류 장치(100)는 스파이크 코드를 기초로 오디오 신호에 대한 복원 신호를 생성할 수 있다. 구체적으로, 음악 장르 분류 장치(100)는 스파이크 코드가 포함하는 필터 크기를 기초로 복원 신호를 생성할 수 있다. 또한, 음악 장르 분류 장치(100)는 스파이크 코드 생성에 사용된 필터 뱅크를 기초로 복원 신호를 생성할 수 있다. 예를 들어, 음악 장르 분류 장치(100)는 중심 주파수가 서로 다른 복수의 필터를 가중합하여 복원 신호를 생성할 수 있다. 이때, 음악 장르 분류 장치(100)는 복수의 필터 각각에 대응하는 필터 크기를 기초로 복수의 필터를 가중합할 수 있다. 구체적으로, 음악 장르 분류 장치(100)는 수학식 1의 우변과 같은 연산을 통해 복원 신호를 생성할 수 있다. 수학식 1은 오디오 신호 x(t)(좌변)와 복원 신호(우변) 사이의 관계를 나타낸다. 수학식 1에서

는 중심 주파수 m에 대응하는 파형을 나타내는 커널 함수일 수 있다. 본 개시에서 커널(kernel) 함수는 특정 중심 주파수에 대응하는 파형을 나타내는 필터로 지칭될 수 있다. 수학식 1에서,

은 i번째 스파이크에 대응하는 필터의 필터 크기를 나타낼 수 있다. 또한, 수학식 1에서

은 i번째 스파이크에 대응하는 필터

의 시간 위치를 나타낼 수 있다.

[수학식 1]

또한, 음악 장르 분류 장치(100)는 복원 신호와 오디오 신호 사이의 관계를 기초로 복원 정확도를 산출할 수 있다. 예를 들어, 음악 장르 분류 장치(100)는 오디오 신호와 복원 신호 사이의 차이를 기초로 복원 정확도를 결정할 수 있다. 음악 장르 분류 장치(100)는 오디오 신호와 복원 신호 사이의 차이 및 오디오 신호 사이의 비율을 기초로 복원 정확도를 결정할 수 있다. 구체적으로, 복원 정확도는 오디오 신호와 복원 신호 사이의 SNR(signal-to-noise ratio)을 포함할 수 있다. 음악 장르 분류 장치(100)는 오디오 신호에 대응하는 복원 정확도를 기초로 오디오 신호의 음악 장르를 결정할 수 있다. 음악 장르 분류 장치(100)는 복원 정확도를 특성 파라미터로 이용하여 오디오 신호의 음악 장르를 결정할 수 있다. 구체적으로, 음악 장르 분류 장치(100)는 기계 학습된 알고리즘에 따라, 제1 오디오 신호에 대응하는 제1 복원 정확도를 기초로 제1 오디오 신호에 대응하는 음악 장르를 결정할 수 있다. 이때, 기계 학습된 알고리즘은 제1 오디오 신호 이외의 다른 복수의 오디오 신호 각각에 대응하는 복원 정확도를 기초로 학습된 심층 신경망을 포함할 수 있다. 기계 학습된 알고리즘에 관해서는 도 7을 통해 상세히 설명하도록 한다.

한편, 일 실시예에 따라, 음악 장르 분류 장치(100)는 스파이크 코드가 포함하는 스파이크의 개수 별 복원 정확도를 기초로 오디오 신호의 음악 장르를 결정할 수 있다. 음악 장르에 따라, 동일한 스파이크 개수를 포함하는 스파이크 코드를 기초로 획득된 특성 파라미터를 이용하여 오디오 신호를 특정 음악 장르로 분류하기 어려울 수 있기 때문이다. 또한, 스파이크의 개수에 따라 복원 정확도가 증가하는 비율이 오디오 신호의 음악 장르에 따라 달라질 수 있다. 도 4는 본 개시의 일 실시예에 따라 스파이크 코드가 포함하는 스파이크의 개수에 따라 복원 정확도가 변화되는 것을 나타내는 도면이다. 도 4에서 가로축은 스파이크 코드가 포함하는 스파이크의 개수, 세로축은 제1 오디오 신호(classical) 및 제2 오디오 신호(metal) 각각에 대응하는 복원 정확도(SNR)를 나타낸다. 도 4를 참조하면, 클래식 음악 장르에 해당하는 제1 오디오 신호의 경우, 메탈 음악 장르에 해당하는 제2 오디오 신호에 비해, 스파이크 코드가 포함하는 스파이크의 개수에 따라 복원 정확도가 크게 증가한다. 또한, 스파이크 코드가 포함하는 스파이크의 개수가 1000개인 경우, 제1 오디오 신호 및 제2 오디오 신호 각각에 대응하는 복원 정확도가 유사하다. 반면, 스파이크의 개수가 19000개인 경우, 제1 오디오 신호 및 제2 오디오 신호 각각에 대응하는 복원 정확도 사이에 상대적으로 큰 차이가 있다.

전술한 바와 같이, 특성 파라미터는 스파이크 코드가 포함하는 스파이크의 개수 별 복원 정확도를 포함할 수 있다. 이때, 스파이크의 개수는 필터 크기 중에서 논-제로(non-zero)인 필터 크기의 개수를 나타낼 수 있다. 구체적으로, 음악 장르 분류 장치(100)는, 도 2를 통해 전술한 방법으로, 기 설정된 개수의 스파이크를 포함하는 스파이크 코드를 획득할 수 있다. 음악 장르 분류 장치(100)는 스파이크의 개수를 조절하여 스파이크 개수 별 스파이크 코드를 획득할 수 있다. 또한, 음악 장르 분류 장치(100)는 스파이크 개수 별 스파이크 코드를 기초로, 오디오 신호에 대응하는 스파이크 개수 별 복원 정확도를 획득할 수 있다. 음악 장르 분류 장치(100)는 스파이크 개수 별 복원 정확도를 기초로 오디오 신호의 음악 장르를 결정할 수 있다. 이를 통해, 음악 장르 분류 장치(100)는 오디오 신호의 음악 장르 분류에 관한 정확도를 증가시킬 수 있다.

본 개시의 일 실시예에 따라, 전술한 특성 파라미터는 주파수 기반 특성 파라미터를 포함할 수 있다. 예를 들어, 오디오 신호의 음악 장르에 따라 오디오 신호가 주로 포함하는 주파수 대역이 다를 수 있다. 또한, 오디오 신호의 음악 장르에 따라 오디오 신호가 포함하는 주파수 성분의 중심 주파수 별 비율이 다를 수 있다. 이에 따라, 음악 장르 분류 장치(100)는 오디오 신호가 포함하는 중심 주파수 별 필터 크기 특성을 이용하여 오디오 신호의 음악 장르를 결정할 수 있다. 이하에서는, 본 개시의 일 실시예에 따라 음악 장르 결정 장치(100)가 스파이크 코드로부터 획득된 주파수 기반 특성 파라미터를 기초로 오디오 신호의 음악 장르를 결정하는 방법에 대하여 도 5를 참조하여 설명한다. 도 5 는 본 개시의 일 실시예에 따른 음악 장르 분류 장치(100)가 스파이크 코드로부터 주파수 기반 특성 파라미터를 추출하는 방법을 나타내는 도면이다.

일 실시예에 따라, 주파수 기반 특성 파라미터는 복수의 샘플을 포함하는 프레임에 포함되는 필터 크기의 중심 주파수 별 합을 포함할 수 있다. 예를 들어, 음악 장르 분류 장치(100)는 스파이크 코드(S)로부터 프레임에 포함되는 필터 크기의 필터 별 합(G)을 산출할 수 있다. 도 5에서, g0, …g63은 64개의 중심 주파수 별 필터 크기의 합을 나타낸다. 음악 장르 분류 장치(100)는 중심 주파수 별 필터 크기의 합을 기초로 오디오 신호의 음악 장르를 결정할 수 있다. 음악 장르 분류 장치(100)는 특정 중심 주파수에 대응하는 필터 크기의 합을 특성 파라미터로 이용하여 오디오 신호의 음악 장르를 결정할 수 있다.

또한, 일 실시예에 따라, 주파수 기반 특성 파라미터는 필터 별 활성화 빈도수를 포함할 수 있다. 이때, 필터 별 활성화 빈도수는 복수의 필터 각각이 프레임 내에서 활성화된 횟수를 나타낼 수 있다. 필터가 활성화된 횟수는 프레임 내에서 해당 필터의 필터 크기가 '0'이 아닌 시간 위치의 개수를 나타낼 수 있다. 도 5에서 c0, …c63은 64개의 중심 주파수 별 활성화 빈도수를 나타낸다. 예를 들어, 음악 장르 분류 장치(100)는 스파이크 코드(S)를 기초로, 프레임 내에서 중심 주파수 별로 해당 중심 주파수의 필터 크기가 '0'이 아닌 시간 위치의 개수를 산출할 수 있다. 음악 장르 분류 장치(100)는 스파이크 코드(S)로부터 논-제로 필터 크기의 개수를 나타내는 스파이크의 개수를 중심 주파수 별로 산출할 수 있다. 또한, 음악 장르 분류 장치(100)는 산출된 중심 주파수 별 활성화 빈도수를 기초로 오디오 신호의 음악 장르를 결정할 수 있다. 이를 통해, 음악 장르 분류 장치(100)는 기존의 방법에 비해 상대적으로 단순한 연산을 통해 오디오 신호의 음악 장르 분류 정확도를 증가시킬 수 있다.

본 개시의 일 실시예에 따라, 전술한 특성 파라미터는 시간(temporal) 기반 특성 파라미터를 포함할 수 있다. 오디오 신호의 음악 장르에 따라, 오디오 신호가 다수의 논-제로 필터 크기를 포함하는 시간이 다를 수 있다. 또한, 오디오 신호의 음악 장르에 따라, 오디오 신호가 포함하는 복수의 논-제로 필터 크기 사이의 시간 간격이 다를 수 있다. 이와 같이, 오디오 신호의 음악 장르에 따라, 오디오 신호가 포함하는 시간 별 필터 크기의 특성이 달라질 수 있기 때문이다. 이하에서는, 본 개시의 일 실시예에 따라 음악 장르 결정 장치(100)가 스파이크 코드로부터 획득된 시간 기반 특성 파라미터를 기초로 오디오 신호의 음악 장르를 결정하는 방법에 대하여 도 6을 참조하여 설명한다. 도 6은 본 개시의 일 실시예에 따른 음악 장르 분류 장치(100)가 시간 기반 특성 파라미터를 추출하는 방법을 나타내는 도면이다.

일 실시예에 따라, 특성 파라미터는 시간 위치 각각에서 복수의 필터 중에서 적어도 하나의 필터가 활성화 되었는지를 나타내는 시간 기반 파라미터를 포함할 수 있다. 도 6에서, p0, …pN-1은 N개의 시간 위치 각각에서의 필터 활성화 여부를 나타낸다. 예를 들어, 음악 장르 분류 장치(100)는 스파이크 코드(S)를 기초로, 적어도 하나의 논-제로 필터 크기를 포함하는 시간 위치를 선별할 수 있다. 적어도 하나의 논-제로 필터 크기를 포함하는 시간 위치는, 중심 주파수 각각에 대응하는 필터 크기 중 적어도 하나가 '0'이 아닌 필터 크기를 포함하는 시간 위치일 수 있다. 음악 장르 분류 장치(100)는 중심 주파수 각각에 대응하는 필터 크기 중 적어도 하나가 '0'이 아닌 경우 해당 시간 위치에 대응하는 pn 값을 '1'로 할당할 수 있다. 또한, 음악 장르 분류 장치(100)는 중심 주파수 각각에 대응하는 필터 크기 중 '0'이 아닌 필터 크기가 없는 경우, 해당 시간 위치에 대응하는 pn 값을 '0'으로 할당할 수 있다. 또한, 음악 장르 분류 장치(100)는 시간 기반 파라미터를 기초로 오디오 신호의 음악 장르를 결정할 수 있다.

또한, 일 실시예에 따라, 특성 파라미터는 적어도 하나의 필터가 활성화된 시간 위치 중에서 어느 둘 사이의 간격을 포함할 수 있다. 오디오 신호의 음악 장르에 따라, 오디오 신호에 대응하는 스파이크 코드가 시간 축에서 논-제로 필터 크기를 포함하는 밀도가 달라질 수 있기 때문이다. 예를 들어, 음악 장르 분류 장치(100)는 적어도 하나의 필터가 활성화된 제1 시간 위치와 제2 시간 위치 사이의 간격을 기초로 오디오 신호의 음악 장르를 결정할 수 있다. 이때, 제2 시간 위치는 제1 시간 위치에 후속하는 시간 위치일 수 있다. 또한, 제1 시간 위치와 제2 시간 위치 사이에 적어도 하나의 논-제로 필터 크기를 포함하는 시간 위치가 없을 수 있다. 즉, 제2 시간 위치는 적어도 하나의 논-제로 필터 크기를 포함하는 복수의 시간 위치 중에서 제1 시간 위치에 연속하는 시간 위치일 수 있다. 또한, 음악 장르 분류 장치(100)는 적어도 하나의 필터가 활성화된 시간 위치 중에서 적어도 둘 사이의 간격을 기초로 오디오 신호의 음악 장르를 결정할 수 있다.

이를 통해, 음악 장르 분류 장치(100)는 오디오 신호로부터 음향학적 자극을 기초로 하는 시간 기반 특성 파라미터를 추출할 수 있다. 음악 장르 분류 장치(100)는 특정 중심 주파수가 활성화된 정확한 시간적 위치를 이용하여 특성 파라미터를 추출할 수 있다. 또한, 음악 장르 분류 장치(100)는 기존의 스펙트럼 기반 분석을 통한 특성 파라미터 추출 방법(예를 들어, MFCC(Mel-frequency cepstral coefficient))에 비해, 다양한 특성 파라미터를 오디오 신호로부터 추출할 수 있다.

본 개시의 일 실시예에 따른 음악 장르 분류 장치(100)는 기계 학습된 알고리즘에 따라 오디오 신호의 음악 장르를 결정할 수 있다. 구체적으로, 도 3 내지 도 6을 통해 전술한 실시예에 따라 추출된 특성 파라미터와 동일한 포맷의 데이터 셋에 따라 기계 학습된 알고리즘을 사용하여 오디오 신호의 음악 장르를 결정할 수 있다. 도 7은 본 개시의 일 실시예에 따른 음악 장르 분류 장치(100)가 추출된 특성 파라미터를 기초로 오디오 신호의 음악 장르를 결정하는 방법을 나타내는 흐름도이다.

단계 S702에서, 음악 장르 분류 장치(100)는 복수의 오디오 신호로부터 획득된 특성 파라미터를 기초로 기계 학습된 알고리즘을 획득할 수 있다. 여기에서, 복수의 오디오 신호는 각각 복수의 음악 장르에 대응하는 오디오 신호일 수 있다. 또한, 각각의 특성 파라미터는 전술한 특성 파라미터와 동일한 방법으로 추출된 데이터 셋일 수 있다. 또한, 각각의 특성 파라미터는 전술한 특성 파라미터와 동일한 포맷의 데이터 셋일 수 있다. 예를 들어, 음악 장르 분류 장치(100)는 오디오 신호의 특성 파라미터와 동일한 포맷의 훈련 데이터 셋(set)을 기초로 기계 학습된 알고리즘을 획득할 수 있다. 이때, 기계 학습된 알고리즘은 오디오 신호로부터 획득된 특성 파라미터를 입력으로 하는 심층 신경망일 수 있다. 또한, 기계 학습된 알고리즘은 입력된 특성 파라미터를 기초로 오디오 신호에 대한 복수의 음악 장르 각각에 대응하는 확률 값을 출력하는 심층 신경망일 수 있다. 음악 장르 분류 장치(100)는 외부 저장 장치(미도시)를 통해, 복수의 오디오 신호로부터 획득된 특성 파라미터를 수신할 수 있다. 예를 들어, 외부 저장 장치는 오디오 신호로부터 추출된 특성 파라미터를 저장하는 서버일 수 있다. 이 경우, 음악 장르 분류 장치(100)는 수신된 특성 파라미터를 기초로 음악 장르 분류를 위한 기계 학습을 수행할 수 있다. 또는 음악 장르 분류 장치(100)는 외부 서버로부터 기계 학습된 알고리즘을 획득할 수도 있다.

단계 S704에서, 음악 장르 분류 장치(100)는 기계 학습된 알고리즘에 따라, 특성 파라미터를 기초로 제1 오디오 신호의 음악 장르 별 확률값을 산출할 수 있다. 이때, 특성 파라미터는 음악 장르 분류의 대상이 되는 제1 오디오 신호로부터 추출된 특성 파라미터일 수 있다. 음악 장르 별 확률값은 오디오 신호의 음향학적 특징이 음악 장르 각각에 해당하는 음악의 음향학적 특징과 유사한 정도를 나타내는 값일 수 있다. 또한, 특성 파라미터는 도 3 내지 도 6을 통해 설명한 특성 파라미터 중 적어도 하나를 포함할 수 있다. 이때, 음악 장르 분류 장치(100)는 제1 오디오 신호로부터 획득된 특성 파라미터를 기계 학습된 알고리즘에 입력할 수 있다. 또한, 음악 장르 분류 장치(100)는 기계 학습된 알고리즘에 따라 입력된 특성 파라미터를 기초로 제1 오디오 신호에 대한 복수의 음악 장르 각각에 대응하는 확률 값을 출력할 수 있다. 구체적으로, 음악 장르 분류 장치(100)는 제1 오디오 신호의 프레임 단위 특성 파라미터를 기초로 오디오 신호의 음악 장르를 결정할 수 있다. 음악 장르 분류 장치(100)는 제1 오디오 신호의 프레임 단위로 각각의 프레임에 대응하는 음악 장르 별 확률값을 산출할 수 있다.

단계 S706에서, 음악 장르 분류 장치(100)는 단계 S704에서 산출된 음악 장르 별 확률값에 기초하여 제1 오디오 신호의 음악 장르를 결정할 수 있다. 예를 들어, 음악 장르 분류 장치(100)는 프레임 각각에 대응하는 음악 장르 별 확률값에 기초하여 제1 오디오 신호의 음악 장르를 결정할 수 있다. 음악 장르 분류 장치(100)는 각각의 음악 장르 별로 프레임 각각에 대응하는 확률 값의 평균을 산출할 수 있다. 음악 장르 분류 장치(100)는 프레임 각각에 대응하는 음악 장르 별 확률 값을 산출할 수 있다. 또한, 음악 장르 분류 장치(100)는 산출된 확률 값을 기초로 음악 장르 별 평균을 산출할 수 있다. 또한, 음악 장르 분류 장치(100)는 산출된 음악 장르 별 평균에 기초하여 제1 오디오 신호의 음악 장르를 결정할 수 있다. 예를 들어, 음악 장르 분류 장치(100)는 음악 장르 별 평균 중에서 가장 높은 값을 가지는 장르를 오디오 신호의 음악 장르로 결정할 수 있다. 클래식 음악 장르에 대응하는 평균 값이 '0.8'이고, 메탈 음악 장르에 대응하는 평균 값이 '0.3'인 경우, 음악 장르 분류 장치(100)는 오디오 신호의 음악 장르를 클래식 음악으로 결정할 수 있다.

도 8은 본 개시의 일 실시예에 따른 음악 장르 분류 장치(100)의 동작을 나타내는 흐름도이다. 단계 S802에서, 음악 장르 분류 장치(100)는 오디오 신호를 획득할 수 있다. 구체적으로, 음악 장르 분류 장치(100)는 특정 음악 장르에 대응하는 오디오 신호를 획득할 수 있다. 단계 S804에서, 음악 장르 분류 장치(100)는 오디오 신호로부터 오디오 신호의 특성을 나타내는 스파이크 코드를 획득할 수 있다. 구체적으로, 음악 장르 분류 장치(100)는 오디오 신호로부터 스파이크 코드를 획득할 수 있다. 음악 장르 분류 장치(100)는 도 2를 통해 전술한 바와 같이, 복수의 필터와 수신된 오디오 신호 사이의 상관관계를 기초로 오디오 신호에 대응하는 스파이크 코드를 획득할 수 있다.

단계 S806에서, 음악 장르 분류 장치(100)는 오디오 신호에 대응하는 스파이크 코드로부터 특성 파라미터를 추출할 수 있다. 도 2 내지 도 6을 통해 전술한 바와 같이, 음악 장르 분류 장치(100)는 스파이크 코드를 기초로 복원 정확도, 주파수 기반 특성 파라미터 및 시간 기반 특성 파라미터 중 적어도 하나를 추출할 수 있다. 또한, 음악 장르 분류 장치(100)는 스파이크 코드로부터 오디오 신호에 대응하는 특성 파라미터를 추출할 수 있다. 또한, 음악 장르 분류 장치(100)는 오디오 신호의 프레임 단위로 오디오 신호의 특성 파라미터를 추출할 수 있다.

단계 S808에서, 음악 장르 분류 장치(100)는 단계 S806에서 추출된 특성 파라미터를 기초로 오디오 신호의 음악 장르를 결정할 수 있다. 예를 들어, 음악 장르 분류 장치(100)는 추출된 특성 파라미터와 동일한 포맷의 훈련 데이터 셋을 기초로 기계 학습된 알고리즘을 획득할 수 있다. 또한, 음악 장르 분류 장치(100)는 기계 학습된 알고리즘에 따라, 추출된 특성 파라미터를 기초로 오디오 신호의 음악 장르를 결정할 수 있다. 음악 장르 분류 장치(100)는 특성 파라미터를 기초로 음악 장르 별 확률값을 산출할 수 있다. 이때, 음악 장르 별 확률값은 오디오 신호가 음악 장르 각각에 해당하는 음악과 유사한 정도를 나타내는 값일 수 있다. 음악 장르 분류 장치(100)는 음악 장르 별 확률값에 기초하여 오디오 신호의 음악 장르를 결정할 수 있다. 또한, 음악 장르 분류 장치(100)는 전술한 동작을 프레임 단위로 수행할 수 있다. 예를 들어, 음악 장르 분류 장치(100)는 오디오 신호로부터 추출된 프레임 단위 특성 파라미터를 기초로 프레임 단위 음악 장르 별 확률값을 산출할 수 있다. 또한, 음악 장르 분류 장치(100)는 프레임 단위 음악 장르 별 확률값에 대한 음악 장르 별 평균에 기초하여 오디오 신호의 음악 장르를 결정할 수 있다.

단계 S810에서, 음악 장르 분류 장치(100)는 단계 S808에서 결정된 오디오 신호의 음악 장르를 기초로 출력 정보를 출력할 수 있다. 예를 들어, 음악 장르 분류 장치(100)는 오디오 신호의 음악 장르를 나타내는 정보를 생성 및 출력할 수 있다. 또한, 음악 장르 분류 장치(100)는 오디오 신호의 음악 장르를 기초로 수신된 오디오 신호를 전술한 포스트 프로세싱 방법으로 처리하여 출력할 수도 있다. 이때, 출력 정보는 포스트 프로세싱된 출력 오디오 신호일 수 있다. 예를 들어, 음악 장르 분류 장치(100)는 음악 장르 별로 기 설정된 이퀄라이저를 오디오 신호에 적용할 수 있다. 제1 오디오 신호의 음악 장르가 클래식 음악 장르인 경우, 음악 장르 분류 장치(100)는 클래식 음악 장르에 대응하는 제1 이퀄라이저를 제1 오디오 신호에 적용할 수 있다. 또한, 음악 장르 분류 장치(100)는 제1 이퀄라이저가 적용된 제1 오디오 신호를 출력할 수 있다.

일부 실시예는 전자 장치에 의해 실행되는 프로그램 모듈과 같은 전자 장치에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 전자 장치 판독 가능 매체는 전자 장치에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 또한, 전자 장치 판독가능 매체는 저장 매체를 포함할 수 있다. 저장 매체는 전자 장치 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다.

또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.

전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 개시의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함되는 것으로 해석되어야 한다.

Claims

오디오 신호의 음악 장르를 분류하는 음악 장르 분류 장치에 있어서,
상기 오디오 신호를 획득하는 수신부;
상기 오디오 신호로부터 상기 오디오 신호를 시간 위치 별로 복수의 서로 다른 중심 주파수 성분으로 분할하여 상기 오디오 신호의 특성을 나타내는 스파이크 코드(spike code)를 획득하고, 상기 스파이크 코드로부터 특성 파라미터를 추출하고, 상기 특성 파라미터를 기초로 상기 오디오 신호의 음악 장르를 결정하는 프로세서; 및
상기 결정된 음악 장르를 기초로 출력 정보를 출력하는 출력부를 포함하고,
상기 시간 위치는 상기 오디오 신호를 구성하는 복수의 샘플 중 어느 하나의 시간적 순서를 나타내는 것인, 음악 장르 분류 장치.
제1 항에 있어서,
상기 프로세서는,
상기 중심 주파수 각각에 대응하는 복수의 필터와 상기 오디오 신호 사이의 상관관계를 기초로 상기 오디오 신호에 대응하는 상기 스파이크 코드를 획득하는, 음악 장르 분류 장치.
제 2항에 있어서,
상기 프로세서는,
상기 스파이크 코드를 기초로 상기 오디오 신호에 대한 복원 신호(reconstruction signal)를 생성하고,
상기 특성 파라미터는 상기 오디오 신호와 상기 복원 신호 사이의 복원 정확도(reconstruction accuracy)를 포함하는, 음악 장르 분류 장치.
제 3항에 있어서,
상기 스파이크 코드는 상기 중심 주파수 각각에 대응하는 시간 위치 별 필터 크기를 포함하고,
상기 특성 파라미터는 스파이크 코드가 포함하는 스파이크의 개수 별 복원 정확도를 포함하고,
상기 스파이크의 개수는 상기 필터 크기 중에서 논-제로(non-zero) 필터 크기의 개수를 나타내는, 음악 장르 분류 장치.
제 3항에 있어서,
상기 프로세서는,
상기 오디오 신호와 상기 복원 신호 사이의 차이 및 상기 오디오 신호 사이의 비율을 기초로 상기 복원 정확도를 결정하는, 음악 장르 분류 장치.
제 2 항에 있어서,
상기 스파이크 코드는 상기 중심 주파수 각각에 대응하는 시간 위치 별 필터 크기를 포함하고,
상기 특성 파라미터는, 상기 복수의 샘플을 포함하는 프레임에 포함되는 상기 필터 크기의 중심 주파수 별 합을 포함하는, 음악 장르 분류 장치.
제 6 항에 있어서,
상기 프로세서는,
상기 스파이크 코드를 기초로, 상기 복수의 필터 각각에 대해 상기 프레임 내에서 활성화된 횟수를 나타내는 필터 별 활성화 빈도수를 산출하고,
상기 특성 파라미터는 상기 필터 별 활성화 빈도수를 포함하는, 음악 장르 분류 장치.
제 2 항에 있어서,
상기 특성 파라미터는, 상기 시간 위치 각각에 대하여, 상기 시간 위치 각각에서 상기 복수의 필터 중에서 적어도 하나의 필터가 활성화 되었는지를 나타내는 시간 기반 파라미터를 포함하는, 음악 장르 분류 장치.
제 8 항에 있어서,
상기 특성 파라미터는 적어도 하나의 필터가 활성화된 시간 위치 중에서 어느 둘 사이의 간격을 포함하는, 음악 장르 분류 장치.
제 2 항에 있어서,
상기 오디오 신호는 복수의 프레임으로 구성되고,
상기 프레임은 상기 복수의 샘플을 포함하는 처리 단위를 나타내고,
상기 프로세서는,
상기 복수의 프레임 별로 추출된 특성 파라미터를 기초로 상기 복수의 프레임 각각에 대응하는 음악 장르 별 확률값을 산출하고,
상기 복수의 프레임 각각에 대응하는 음악 장르 별 확률값에 대한, 상기 복수의 프레임을 포함하는 기 설정된 시간 구간에서의 음악 장르 별 평균에 기초하여, 상기 오디오 신호의 음악 장르를 결정하는, 음악 장르 분류 장치.
제 2 항에 있어서,
상기 복수의 필터는 상기 중심 주파수 별로 필터의 주파수 영역 파형이 서로 다른 것을 특징으로 하는, 음악 장르 분류 장치.
제 1 항에 있어서,
상기 중심 주파수는 주파수가 높아질수록 넓은 간격으로 설정된 청각 척도에 기초하여 결정되는 것을 특징으로 하는, 음악 장르 분류 장치.
오디오 신호의 음악 장르를 분류하는 방법에 있어서,
상기 오디오 신호를 획득하는 단계;
상기 오디오 신호로부터 상기 오디오 신호를 시간 위치 별로 복수의 서로 다른 중심 주파수 성분으로 분할하여 상기 오디오 신호의 특성을 나타내는 스파이크 코드를 획득하는 단계;
상기 스파이크 코드로부터 특성 파라미터를 추출하는 단계;
상기 특성 파라미터를 기초로 상기 오디오 신호의 음악 장르를 결정하는 단계; 및
상기 결정된 음악 장르를 기초로 출력 정보를 출력하는 단계를 포함하고,
상기 시간 위치는 상기 오디오 신호를 구성하는 복수의 샘플 중에서 어느 하나의 시간적 순서를 나타내는 것인, 음악 장르 분류 방법.
제 13항의 방법을 전자 장치에서 실행하기 위한 프로그램을 기록한 전자 장치로 읽을 수 있는 기록매체.