KR102241436B1 - 임의의 오디오에 사용된 악기를 판단하고 분류하기 위한 학습 방법 및 테스트 방법, 이를 이용한 학습 장치 및 테스트 장치 - Google Patents

임의의 오디오에 사용된 악기를 판단하고 분류하기 위한 학습 방법 및 테스트 방법, 이를 이용한 학습 장치 및 테스트 장치 Download PDF

Info

Publication number
KR102241436B1
KR102241436B1 KR1020190063493A KR20190063493A KR102241436B1 KR 102241436 B1 KR102241436 B1 KR 102241436B1 KR 1020190063493 A KR1020190063493 A KR 1020190063493A KR 20190063493 A KR20190063493 A KR 20190063493A KR 102241436 B1 KR102241436 B1 KR 102241436B1
Authority
KR
South Korea
Prior art keywords
frequency
learning
data
instrument
matrix data
Prior art date
Application number
KR1020190063493A
Other languages
English (en)
Other versions
KR20200137329A (ko
Inventor
이진우
심은아
최한용
김상훈
Original Assignee
주식회사 시스원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 시스원 filed Critical 주식회사 시스원
Priority to KR1020190063493A priority Critical patent/KR102241436B1/ko
Publication of KR20200137329A publication Critical patent/KR20200137329A/ko
Application granted granted Critical
Publication of KR102241436B1 publication Critical patent/KR102241436B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/071Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for rhythm pattern analysis or rhythm style recognition

Abstract

본 발명에 따르면, 임의의 오디오에 사용된 악기의 음색을 판단하고 분류하기 위한 학습 방법으로서, (a) 특정 악기에 대응되는 악기오디오가 입력되면, 학습 장치가, 상기 악기오디오를 분석하여 기준시각 - 상기 기준시각은 상기 악기오디오의 전체 재생시간 중 복수개의 소정의 시점 각각에 대응되는 시각임 - 및 상기 기준시각 각각에 대응되는 소리세기에 대한 정보를 주파수별 소리세기 궤적 데이터로서 획득하는 단계; (b) 상기 학습 장치가, (i) 상기 주파수별 소리세기 궤적 데이터를 참조로 하여 주파수별로 시각 및 소리세기 각각을 변수로 하는 주파수별 행렬 데이터를 생성하는 프로세스, 및 (ii) 상기 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부에 대하여 소정의 연산을 수행함으로써 상기 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부를 변환하여 주파수별 보정 행렬 데이터를 생성하는 프로세스를 수행하는 단계; 및 (c) 상기 학습 장치가, 상기 주파수별 보정 행렬 데이터를 학습 데이터로서 학습 모델에 입력하여 학습을 수행하여, 상기 학습 모델에 포함된 복수의 파라미터를 조정하는 단계; 를 포함하는, 악기 음색 판단 및 분류를 위한 학습 방법이 제공된다.

Description

임의의 오디오에 사용된 악기를 판단하고 분류하기 위한 학습 방법 및 테스트 방법, 이를 이용한 학습 장치 및 테스트 장치 {LEARNING METHOD AND TESTING METHOD FOR FIGURING OUT AND CLASSIFYING MUSICAL INSTRUMENT USED IN CERTAIN AUDIO, AND LEARNING DEVICE AND TESTING DEVICE USING THE SAME}
본 발명은 임의의 오디오에 사용된 악기를 판단하고 분류하기 위한 학습 방법 및 테스트 방법, 이를 이용한 학습 장치 및 테스트 장치에 관한 것이다.
하나의 오디오에 포함된 여러 음원을 각각 분리하는 기술은 예전부터 지금까지 많은 관심과 연구의 대상이 되고 있는 기술이다. 그리고, 최근의 컴퓨터의 성능 발전과 함께 부각되고 있는 딥러닝 기술은 이러한 음원 분리 기술의 연구에 있어 큰 영향을 미치고 있다. 인터넷 블로그에 포스팅된 글("음악에서 사람 목소리를 구분하는 인공신경망", Jae Rhee, 2015년 12월 10일, http://jaeroom.blogspot.com/2015/12/blog-post_9.html)에서, 배경음악에서 특정 악기 또는 사람의 목소리를 추출해내는 문제를 해결하기 위하여 인공신경망을 사용하여 딥러닝을 수행한 영국 서레이 대학교 연구진의 연구 내용을 확인할 수 있다. 하지만, 시계열적이고 유동적인 특성을 가지는 음향 분야에서 이러한 딥러닝 기술을 적용하기 위해서는 보다 효율적인 학습 데이터를 생성하여 이를 기반으로 학습을 수행해야 할 필요가 있었다.
따라서, 본 발명은, 임의의 오디오에 사용된 악기의 종류를 판단하고 분류하기 위한 효과적인 학습이 이루어질 수 있는 학습 데이터를 생성할 수 있도록 하는 것을 그 목적으로 한다.
또한, 본 발명은, 임의의 오디오에서 사용된 악기의 종류를 판단하고 분류하기 위한 학습 방법 및 테스트 방법을 제공함으로서, 효과적으로 임의의 오디오에 사용된 악기의 종류에 대한 정보를 파악하여 사용자에게 제공하는 것을 다른 목적으로 한다.
또한, 본 발명은, 임의의 오디오에서 사용된 악기의 종류를 판단하고 분류하기 위한 학습 방법 및 테스트 방법을 제공함으로서, 사용자로 하여금 오디오에서 특정 악기에 해당되는 음원만을 제어할 수 있도록 지원하는 것을 다른 목적으로 한다.
상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한, 본 발명의 특징적인 구성은 하기와 같다.
본 발명의 일 태양에 따르면, 임의의 오디오에 사용된 악기의 음색을 판단하고 분류하기 위한 학습 방법으로서, (a) 특정 악기에 대응되는 악기오디오가 입력되면, 학습 장치가, 상기 악기오디오를 분석하여 기준시각 - 상기 기준시각은 상기 악기오디오의 전체 재생시간 중 복수개의 소정의 시점 각각에 대응되는 시각임 - 및 상기 기준시각 각각에 대응되는 소리세기에 대한 정보를 주파수별 소리세기 궤적 데이터로서 획득하는 단계; (b) 상기 학습 장치가, (i) 상기 주파수별 소리세기 궤적 데이터를 참조로 하여 주파수별로 시각 및 소리세기 각각을 변수로 하는 주파수별 행렬 데이터를 생성하는 프로세스, 및 (ii) 상기 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부에 대하여 소정의 연산을 수행함으로써 상기 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부를 변환하여 주파수별 보정 행렬 데이터를 생성하는 프로세스를 수행하는 단계; 및 (c) 상기 학습 장치가, 상기 주파수별 보정 행렬 데이터를 학습 데이터로서 학습 모델에 입력하여 학습을 수행하여, 상기 학습 모델에 포함된 복수의 파라미터를 조정하는 단계; 를 포함하는, 악기 음색 판단 및 분류를 위한 학습 방법이 제공된다.
일례로서, 상기 (b) 단계에서, 상기 학습 장치가, 상기 주파수별 소리세기 궤적 데이터의 좌표 각각을 기준좌표로 하여, 상기 기준좌표로부터 소정의 거리 이내로 이웃한 좌표 각각에 대응되는 상기 주파수별 행렬 데이터의 원소값 중 적어도 일부를 상기 기준좌표 각각에 대응되는 원소값에 상기 소정의 거리에 대응되는 가중치를 반영한 값으로 결정하여 상기 주파수별 보정 행렬 데이터를 생성하는 것을 특징으로 하는, 악기 음색 판단 및 분류를 위한 학습 방법이 제공된다.
일례로서, 상기 (c) 단계에서, 상기 학습 모델은, 인공신경망(Artificial Neural Network)인 것을 특징으로 하고, 상기 학습 데이터가 입력되면, 상기 학습 장치가, (i) 상기 특정 악기를 포함한 복수개의 악기 각각에 대응되는 클래스 각각으로 추정되는 추정 확률값을 획득하는 프로세스, (ii) 상기 추정 확률값 및 이에 대응되는 GT(Ground Truth)를 참조하여 상기 학습 데이터에 대응되는 로스값을 산출하는 프로세스, 및 (iii) 상기 로스값을 참조로 하여 백프로파게이션(backpropagation)을 수행하여 상기 학습 모델에 포함된 복수의 파라미터를 조정하는 것을 특징으로 하는, 악기 음색 판단 및 분류를 위한 학습 방법이 제공된다.
일례로서, 상기 (b) 단계는, (iii) 상기 주파수별 보정 행렬 데이터에 포함된 원소값 중 0보다 큰 유효원소값 각각을 상기 유효원소값 중 가장 큰 값으로 나누는 정규화 연산을 통해, 주파수별 정규화 보정 행렬 데이터를 생성하는 프로세스를 더 수행하는 것을 특징으로 하고, 상기 (c) 단계는, 상기 학습 장치가, 상기 주파수별 정규화 보정 행렬 데이터를 상기 학습 데이터로서 상기 학습 모델에 입력하여 학습을 수행하여, 상기 학습 모델에 포함된 상기 복수의 파라미터를 조정하는 것을 특징으로 하는; 악기 음색 판단 및 분류를 위한 학습 방법이 제공된다.
일례로서, 상기 (a) 단계에서, 상기 기준시각 각각에 대응되는 상기 소리세기에 대한 정보는, 기음에 대응되는 기준주파수 및 상기 기준주파수의 k배 - 상기 k는 정수값이며, 2 이상임 - 인 배음주파수 각각에 대해서만 획득되는 것을 특징으로 하는, 악기 음색 판단 및 분류를 위한 학습 방법이 제공된다.
또한, 본 발명의 다른 태양에 따르면, 임의의 오디오에 사용된 악기의 음색을 판단하고 분류하기 위한 테스트 방법으로서, (a) 학습 장치에 의해서, (1) 특정 악기에 대응되는 학습용 악기오디오가 입력되면, 상기 학습용 악기오디오를 분석하여 기준시각 - 상기 기준시각은 상기 학습용 악기오디오의 전체 재생시간 중 복수개의 소정의 시점 각각에 대응되는 시각임 - 및 상기 기준시각 각각에 대응되는 학습용 소리세기에 대한 정보를 학습용 주파수별 소리세기 궤적 데이터로서 획득하는 프로세스; (2) (i) 상기 학습용 주파수별 소리세기 궤적 데이터를 참조로 하여 주파수별로 시각 및 소리세기 각각을 변수로 하는 학습용 주파수별 행렬 데이터를 생성하는 프로세스, 및 (ii) 상기 학습용 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부에 대하여 소정의 연산을 수행함으로써 상기 학습용 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부를 변환하여 학습용 주파수별 보정 행렬 데이터를 생성하는 프로세스; (3) 상기 학습용 주파수별 보정 행렬 데이터를 학습 데이터로서 학습 모델에 입력하여 학습을 수행하여, 상기 학습 모델에 포함된 복수의 파라미터를 조정하는 프로세스가 수행된 상태에서, 테스트 장치가, 소정 악기에 대응되는 테스트용 악기오디오를 입력 받는 단계; 및 (b) 상기 테스트 장치가, 상기 조정된 파라미터를 이용하여 상기 테스트용 악기오디오를 분석하여, 상기 소정 악기를 포함한 상기 복수개의 악기 각각에 대응되는 상기 클래스 각각으로 추정되는 추정 확률값을 획득하는 단계; 를 포함하는, 악기 음색 판단 및 분류를 위한 테스트 방법이 제공된다.
또한, 본 발명의 다른 태양에 따르면, 임의의 오디오에 사용된 악기의 음색을 판단하고 분류하기 위한 학습 장치로서, 인스트럭션들을 저장하는 적어도 하나의 메모리; 및 상기 인스트럭션들을 실행하기 위해 구성된 적어도 하나의 프로세서; 를 포함하고, 상기 프로세서가, (I) 특정 악기에 대응되는 악기오디오가 입력되면, 상기 악기오디오를 분석하여 기준시각 - 상기 기준시각은 상기 악기오디오의 전체 재생시간 중 복수개의 소정의 시점 각각에 대응되는 시각임 - 및 상기 기준시각 각각에 대응되는 소리세기에 대한 정보를 주파수별 소리세기 궤적 데이터로서 획득하는 프로세스; (II) (i) 상기 주파수별 소리세기 궤적 데이터를 참조로 하여 주파수별로 시각 및 소리세기 각각을 변수로 하는 주파수별 행렬 데이터를 생성하는 프로세스 및 (ii) 상기 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부에 대하여 소정의 연산을 수행함으로써 상기 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부를 변환하여 주파수별 보정 행렬 데이터를 생성하는 프로세스; 및 (III) 상기 주파수별 보정 행렬 데이터를 학습 데이터로서 학습 모델에 입력하여 학습을 수행하여, 상기 학습 모델에 포함된 복수의 파라미터를 조정하는 프로세스; 를 수행하는, 악기 음색 판단 및 분류를 위한 학습 장치가 제공된다.
일례로서, 상기 (II) 프로세스에서, 상기 프로세서가, 상기 주파수별 소리세기 궤적 데이터의 좌표 각각을 기준좌표로 하여, 상기 기준좌표로부터 소정의 거리 이내로 이웃한 좌표 각각에 대응되는 상기 주파수별 행렬 데이터의 원소값 중 적어도 일부를 상기 기준좌표 각각에 대응되는 원소값에 상기 소정의 거리에 대응되는 가중치를 반영한 값으로 결정하여 상기 주파수별 보정 행렬 데이터를 생성하는 것을 특징으로 하는, 악기 음색 판단 및 분류를 위한 학습 장치가 제공된다.
일례로서, 상기 (III) 프로세스에서, 상기 학습 모델은, 인공신경망(Artificial Neural Network)인 것을 특징으로 하고, 상기 학습 데이터가 입력되면, 상기 프로세서가, (i) 상기 특정 악기를 포함한 복수개의 악기 각각에 대응되는 클래스 각각으로 추정되는 추정 확률값을 획득하는 프로세스, (ii) 상기 추정 확률값 및 이에 대응되는 GT(Ground Truth)를 참조하여 상기 학습 데이터에 대응되는 로스값을 산출하는 프로세스, 및 (iii) 상기 로스값을 참조로 하여 백프로파게이션(backpropagation)을 수행하여 상기 학습 모델에 포함된 복수의 파라미터를 조정하는 프로세스를 수행하는 것을 특징으로 하는, 악기 음색 판단 및 분류를 위한 학습 장치가 제공된다.
일례로서, 상기 (II) 프로세스는, (iii) 상기 주파수별 보정 행렬 데이터에 포함된 원소값 중 0보다 큰 유효원소값 각각을 상기 유효원소값 중 가장 큰 값으로 나누는 정규화 연산을 통해, 주파수별 정규화 보정 행렬 데이터를 생성하는 프로세스를 더 수행하는 것을 특징으로 하고, 상기 (III) 프로세스는, 상기 프로세서가, 상기 주파수별 정규화 보정 행렬 데이터를 상기 학습 데이터로서 상기 학습 모델에 입력하여 학습을 수행하여, 상기 학습 모델에 포함된 상기 복수의 파라미터를 조정하는 것을 특징으로 하는; 악기 음색 판단 및 분류를 위한 학습 장치가 제공된다.
일례로서, 상기 (I) 프로세스에서, 상기 기준시각 각각에 대응되는 상기 소리세기에 대한 정보는, 기음에 대응되는 기준주파수 및 상기 기준주파수의 k배 - 상기 k는 정수값이며, 2 이상임 - 인 배음주파수 각각에 대해서만 획득되는 것을 특징으로 하는, 악기 음색 판단 및 분류를 위한 학습 장치가 제공된다.
또한, 본 발명의 다른 태양에 따르면, 임의의 오디오에 사용된 악기의 음색을 판단하고 분류하기 위한 테스트 장치로서, 인스트럭션들을 저장하는 적어도 하나의 메모리; 및 상기 인스트럭션들을 실행하기 위해 구성된 적어도 하나의 프로세서; 를 포함하고, 상기 프로세서가, (I) 학습 장치에 의해서, (1) 특정 악기에 대응되는 학습용 악기오디오가 입력되면, 상기 학습용 악기오디오를 분석하여 기준시각 - 상기 기준시각은 상기 학습용 악기오디오의 전체 재생시간 중 복수개의 소정의 시점 각각에 대응되는 시각임 - 및 상기 기준시각 각각에 대응되는 학습용 소리세기에 대한 정보를 학습용 주파수별 소리세기 궤적 데이터로서 획득하는 프로세스; (2) (i) 상기 학습용 주파수별 소리세기 궤적 데이터를 참조로 하여 주파수별로 시각 및 소리세기 각각을 변수로 하는 학습용 주파수별 행렬 데이터를 생성하는 프로세스, 및 (ii) 상기 학습용 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부에 대하여 소정의 연산을 수행함으로써 상기 학습용 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부를 변환하여 학습용 주파수별 보정 행렬 데이터를 생성하는 프로세스; (3) 상기 학습용 주파수별 보정 행렬 데이터를 학습 데이터로서 학습 모델에 입력하여 학습을 수행하여, 상기 학습 모델에 포함된 복수의 파라미터를 조정하는 프로세스가 수행된 상태에서, 소정 악기에 대응되는 테스트용 악기오디오를 입력 받는 프로세스; 및 (II) 상기 조정된 파라미터를 이용하여 상기 테스트용 악기오디오를 분석하여, 상기 소정 악기를 포함한 상기 복수개의 악기 각각에 대응되는 상기 클래스 각각으로 추정되는 추정 확률값을 획득하는 프로세스; 를 수행하는, 악기 음색 판단 및 분류를 위한 테스트 장치가 제공된다.
본 발명에 의하면, 다음과 같은 효과가 있다.
본 발명은, 임의의 오디오에 사용된 악기의 종류를 판단하고 분류하기 위한 효과적인 학습이 이루어질 수 있는 학습 데이터를 생성할 수 있도록 하는 효과가 있다.
또한, 본 발명은, 임의의 오디오에서 사용된 악기의 종류를 판단하고 분류하기 위한 학습 방법 및 테스트 방법을 제공함으로서, 효과적으로 임의의 오디오에 사용된 악기의 종류에 대한 정보를 파악하여 사용자에게 제공할 수 있는 효과가 있다.
또한, 본 발명은, 임의의 오디오에서 사용된 악기의 종류를 판단하고 분류하기 위한 학습 방법 및 테스트 방법을 제공함으로서, 사용자로 하여금 오디오에서 특정 악기에 해당되는 음원만을 제어할 수 있도록 할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른, 임의의 오디오에 사용된 악기 종류를 판단하고 분류하기 위한 학습 장치를 개략적으로 나타내는 도면이다.
도 2a 내지 도 2c는 본 발명의 일 실시예에 따른, 임의의 오디오에 사용된 악기의 종류를 판단하고 분류하기 위한 학습 과정에서 사용될 학습 데이터를 예시적으로 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른, 임의의 오디오에 사용된 악기 종류를 판단하고 분류하기 위한 학습을 수행하는 과정을 개략적으로 나타낸 흐름도이다.
도 4는 본 발명의 일 실시예에 따른, 임의의 오디오에 사용된 악기 종류를 판단하고 분류하기 위한 테스트를 수행하는 과정을 개략적으로 나타낸 흐름도이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다.
또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른, 임의의 오디오에 사용된 악기 종류를 판단하고 분류하기 위한 학습 장치를 개략적으로 나타내는 도면이다.
도 1을 참조하면, 임의의 오디오에 사용된 악기 종류를 판단하고 분류하는 학습 장치(100)는 메모리(110) 및 프로세서(120)를 포함할 수 있다. 이 때, 메모리(110)는, 프로세서(120)의 인스트럭션들을 저장할 수 있는데, 구체적으로, 인스트럭션들은 학습 장치(100)로 하여금 특정의 방식으로 기능하게 하기 위한 목적으로 생성되는 코드로서, 컴퓨터 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장될 수 있다. 인스트럭션들은 본 발명의 명세서에서 설명되는 기능들을 실행하기 위한 프로세스들을 수행할 수 있다.
그리고, 프로세서(120)는, MPU(Micro Processing Unit) 또는 CPU(Central Processing Unit), 캐쉬 메모리(Cache Memory), 데이터 버스(Data Bus) 등의 하드웨어 구성을 포함할 수 있다. 또한, 운영체제, 특정 목적을 수행하는 애플리케이션의 소프트웨어 구성을 포함할 수 있다.
다음으로, 학습 장치(100)는 데이터베이스(미도시)를 포함할 수 있다. 이 때, 데이터베이스는 임의의 오디오에 사용된 악기 종류의 판단 및 분류를 위한 각종 데이터를 저장하는 매체로서, 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(ReadOnly Memory, ROM), EEPROM(Electrically Erasable Programmable ReadOnly Memory), PROM(Programmable ReadOnly Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있으며, 이에 한정되지 않고 데이터를 저장할 수 있는 모든 매체를 포함할 수 있다. 또한, 데이터베이스는 학습 장치(100)의 내부에 설치되어 데이터를 전송하거나 수신되는 데이터를 기록할 수도 있으며, 도시된 바와 달리 둘 이상으로 분리되어 구현될 수도 있다.
그러므로, 학습 장치(100)는 도 1의 구성에 한정되는 것은 아니며, 데이터베이스가 내장된 독자적인 단말 또는 외부 컴퓨팅 장치와 연결된 서버일 수도 있을 것이다.
도 2a 내지 도 2c는 본 발명의 일 실시예에 따른, 임의의 오디오에 사용된 악기의 종류를 판단하고 분류하기 위한 학습 과정에 사용되기 위한 학습 데이터를 예시적으로 나타낸 도면이다.
특정 악기에 대응되는 악기오디오가 입력되면, 학습 장치(100)의 프로세서(120)는 입력된 악기오디오를 분석하여, 악기오디오의 전체 재생시간 중 복수개의 소정의 시점 각각에 대응되는 시각인 기준시각 각각에 대응되는 소리세기에 대한 정보를 주파수별로 획득할 수 있는데, 이를 주파수별 소리세기 궤적 데이터로 정의할 수 있다.
도 2a 및 도 2b를 보면, 440Hz의 주파수에 대응되는 소리세기 궤적 데이터(210)가 시간축 및 소리세기축으로 구성된 좌표평면상에 나타나 있다. 이 때, 본 발명의 실시 과정에서 프로세서(120)가 획득하는 소리세기 데이터는, 프로세서(120)가 배음 단위의 주파수에 대해서만 그에 대응되는 소리세기 궤적 데이터를 획득할 수도 있지만, 도 2c에서와 같이 소정 기준으로 정해진 주파수 각각에 대응되는 소리세기 궤적 데이터를 획득할 수도 있다.
주파수별 소리세기 궤적 데이터가 획득되면, 프로세서(120)는 이를 참조로 하여 시각 및 소리세기 각각을 변수로 하는 주파수별 행렬 데이터를 생성할 수 있다. 이 때, 상기 주파수별 행렬 데이터에 포함되는 원소의 원소값 각각은 상기 주파수별 소리세기 궤적 데이터의 좌표 각각에 대응되도록 결정될 수 있는데, 도 2a에 도시된 바와 같이, 440Hz의 주파수에 대응되는 소리세기 궤적 데이터(210)의 좌표 각각에 대응되는 행렬 데이터의 원소의 원소값을 모두 1의 값으로 결정할 수 있으나, 이에 한정되는 것은 아니며 발명의 실시 조건에 따라 1 이외의 실수값으로 결정될 수도 있고, 각각의 좌표별로 다른 값으로 결정될 수도 있다.
다른 예로서, 프로세서(120)는 주파수별 소리세기 궤적 데이터에 대응되어 결정된 주파수별 행렬 데이터의 원소의 원소값 각각에 대하여 소정의 연산을 수행하여, 주파수별 행렬 데이터의 전체 원소의 원소값 중 적어도 일부를 변환할 수 있다. 이 때, 소정의 연산을 수행하는 대상은, 주파수별 소리세기 궤적 데이터의 좌표 각각을 기준좌표로 하여, 기준좌표로부터 소정의 거리 이내로 이웃한 좌표 각각에 대응되는 주파수별 행렬 데이터의 원소의 원소값일 수 있고, 소정의 연산 방법은 기준좌표 각각에 대응되는 원소의 원소값에 상기 소정의 거리에 대응되는 가중치를 반영하는 것일 수 있다.
도 2b를 보면, 440Hz의 주파수에 대응되는 소리세기 궤적 데이터(210)와 함께 그에 대응되는 행렬 데이터(200)가 도시되어 있는데, 이는 프로세서(120)가 소리세기 궤적 데이터(210)의 좌표 각각에 대응되는 행렬 데이터의 원소의 원소값을 1 로 결정하고, 소리세기 궤적 데이터(210)의 좌표 각각을 기준좌표로 하여 소정의 거리에 대응되는 가중치 0.8을 상기 기준좌표에 대응되는 행렬 원소의 원소값 1에 반영하여, 상기 기준좌표로부터 소정의 거리 이내(211)의 좌표 각각에 대응되는 행렬 데이터의 원소 각각의 원소값을 변환함으로써 생성된 행렬 데이터이다. 이는 보정 행렬 데이터로 정의될 수 있으며, 위와 같은 과정을 프로세서(120)가 주파수별 소리세기 궤적 데이터 각각에 대하여 수행함으로써 주파수별 보정 행렬 데이터가 각각 생성될 수 있다. 이 때, 상기 소정의 거리 및 그에 대응되는 가중치 값 각각은 발명의 실시 조건에 따라 다르게 설정될 수 있다.
도 2c를 참조하면, 본 발명의 일 실시예에 따라, 임의의 오디오에 사용된 악기의 종류를 판단하고 분류하기 위한 학습 데이터로서 사용되는 주파수별 보정 행렬 데이터는, 주파수별로 각각 생성된 보정 행렬 데이터(200,201,202,203)를 포함하는, 시각, 소리세기 및 주파수 각각을 변수로 하는 데이터 세트일 수 있다.
위와 같은 주파수별 보정 행렬 데이터 전체를 프로세서(120)가 획득하면, 프로세서(120)는 이를 학습 데이터로서 학습 모델에 입력하여 학습을 수행함으로써, 상기 학습 모델에 포함된 복수의 파라미터를 조정하여 최적화된 파라미터를 결정할 수 있다. 이 때, 발명의 다른 예로서, 프로세서(120)는 주파수별 보정 행렬 데이터에 대하여 소정의 정규화 연산을 더 수행하고, 그 결과로서 생성되는 주파수별 정규화 보정 행렬 데이터를 학습 데이터로서 사용할 수도 있다.
이 때, 상기 정규화 연산은, 보정 행렬 데이터의 원소 중 0보다 큰 유효원소값을 가지는 원소 각각의 원소값을 유효원소값 중 가장 큰 값으로 나눔으로써 0보다 크고 1 이하인 범위 이내로 정규화하는 것일 수도 있으나, 발명의 실시 조건에 따라 다른 연산식이 적용될 수도 있고 그에 따라 결과범위도 달라질 수 있을 것이다.
도 3은 본 발명의 일 실시예에 따른, 임의의 오디오에 사용된 악기 종류를 판단하고 분류하기 위한 학습을 수행하는 과정을 개략적으로 나타낸 흐름도이다.
도 3을 참조하면, 본 발명의 일 실시예에 따라, 임의의 오디오에 사용된 악기 종류를 판단하고 분류하기 위한 학습을 수행하는 과정은 학습 장치(100)에 특정 악기에 대응되는 악기오디오가 입력(S301)되는 것으로 시작된다.
그리고 나서, 학습 장치(100)의 프로세서(120)는, 입력된 악기오디오를 분석하여, 주파수별 소리세기 궤적 데이터를 획득(S302)할 수 있다. 이 때, 주파수별 소리세기 궤적 데이터는 기준시각 및 기준시각 각각에 대응되는 소리세기에 대한 정보에 대한 데이터일 수 있다.
다음으로, 프로세서(120)는 상기 주파수별 소리세기 궤적 데이터를 참조로 하여 주파수별 행렬 데이터를 생성(S303)할 수 있다. 이 때, 주파수별 행렬 데이터는 시각 및 소리세기 각각을 변수로 하는 행렬 데이터일 수 있다.
주파수별 행렬 데이터가 생성되면, 프로세서(120)는 주파수별 행렬 데이터의 원소값 중 적어도 일부에 대하여 소정의 연산을 수행(S304)하여 주파수별 보정 행렬 데이터를 생성(S305)할 수 있다. 이 때, 상기 소정의 연산은 상기 주파수별 소리세기 궤적 데이터의 좌표 각각을 기준좌표로 하여, 기준좌표로부터 소정의 거리 이내로 이웃한 좌표 각각에 대응되는 주파수별 행렬 데이터의 원소값 중 적어도 일부를 기준좌표 각각에 대응되는 원소값에 상기 기준좌표로부터의 거리에 대응되는 가중치를 반영하여 결정하는 것일 수 있다.
그리고 나서, 프로세서(120)는 주파수별 보정 행렬 데이터를 학습데이터로서 학습 모델에 입력하여 학습을 수행(S306)할 수 있다. 이 때, 발명의 다른 예로서, 프로세서(120)가 상기 주파수별 보정 행렬 데이터에 추가적인 정규화 연산을 수행하여 주파수별 정규화 보정 행렬 데이터를 생성하여, 이를 학습 데이터로서 학습 모델에 입력하여 학습을 수행할 수도 있는데, 상기 정규화 연산은 주파수별 보정 행렬 데이터의 원소의 원소값 중 0보다 큰 유효원소값 각각을 유효원소값 중 가장 큰 값으로 나누어 0보다 크고 1 이하의 범위로 유효원소값 각각을 변환하는 것일 수 있다.
위 과정에서, 학습 모델은 인공신경망(Artificial Neural Network)일 수 있으며, 복수의 파라미터를 포함하는 것일 수 있다. 이러한 학습 모델에 주파수별 보정 행렬 데이터 또는 주파수별 정규화 보정 행렬 데이터가 학습 데이터로서 입력되면, 프로세서(120)가 그 결과로서 상기 특정 악기를 포함한 복수개의 악기 각각에 대응되는 클래스 각각으로 추정되는 추정 확률값을 획득하고, 이를 GT와 비교하여 로스값을 산출(S307)할 수 있다.
로스값이 산출되면, 프로세서(120)는 산출된 로스값을 참조로 하여 로스값이 최소화되도록 백프로파게이션(backpropagation)을 수행할 수 있고, 그 결과 상기 학습 모델에 포함된 복수개의 파라미터 중 적어도 일부가 조정될 수 있다.
위와 같은 학습 과정을 복수개의 학습 데이터를 사용하여 반복적으로 수행함으로써, 학습 모델에 포함된 파라미터들을 최적화 할 수 있다.
도 4는 본 발명의 일 실시예에 따른, 임의의 오디오에 사용된 악기 종류를 판단하고 분류하기 위한 테스트를 수행하는 과정을 개략적으로 나타낸 흐름도이다.
도 4를 참조로 하면, 본 발명의 일 실시예에 따라, 임의의 오디오에 사용된 악기 종류를 판단하고 분류하기 위한 테스트 방법은, 학습 장치의 프로세서가 특정 악기에 대응되는 학습용 악기오디오를 분석하여 학습 데이터를 생성하고, 이를 사용하여 학습 과정을 수행함으로서 학습 모델에 포함된 복수개의 파라미터를 조정한 상태에서, 소정의 악기에 대응되는 테스트용 악기오디오가 테스팅 장치에 입력(S401)되는 것으로 시작된다.
소정의 악기에 대응되는 테스트용 악기오디오가 입력되면, 테스트 장치의 프로세서가 조정된 상기 파라미터를 사용하여 테스트 결과값을 획득(S401)할 수 있고, 상기 테스트 결과값은 소정 악기를 포함한 복수개의 악기 각각에 대응되는 클래스를 출력할 수 있다.
이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magnetooptical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 컴퓨팅 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 컴퓨팅 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.
100 : 학습 장치
110 : 메모리 120 : 프로세서
200 : 440Hz에 대응되는 보정 행렬 데이터
201,202,203 : 440Hz의 배음에 대응되는 보정 행렬 데이터
210 : 소리세기 궤적 데이터 211 : 소정의 거리 이내 범위
220 : 학습 데이터로서의 주파수별 보정 행렬 데이터

Claims (12)

  1. 임의의 오디오에 사용된 악기의 음색을 판단하고 분류하기 위한 학습 방법으로서,
    (a) 특정 악기에 대응되는 악기오디오가 입력되면, 학습 장치가, 상기 악기오디오를 분석하여 기준시각 - 상기 기준시각은 상기 악기오디오의 전체 재생시간 중 복수개의 소정의 시점 각각에 대응되는 시각임 - 및 상기 기준시각 각각에 대응되는 소리세기에 대한 정보를 주파수별 소리세기 궤적 데이터로서 획득하는 단계;
    (b) 상기 학습 장치가, (i) 상기 주파수별 소리세기 궤적 데이터를 참조로 하여 주파수별로 시각 및 소리세기 각각을 변수로 하는 주파수별 행렬 데이터를 생성하는 프로세스, 및 (ii) 상기 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부에 대하여 소정의 연산을 수행함으로써 상기 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부를 변환하여 주파수별 보정 행렬 데이터를 생성하는 프로세스를 수행하는 단계; 및
    (c) 상기 학습 장치가, 상기 주파수별 보정 행렬 데이터를 학습 데이터로서 학습 모델에 입력하여 학습을 수행하여, 상기 학습 모델에 포함된 복수의 파라미터를 조정하는 단계;
    를 포함하되,
    상기 (b) 단계에서,
    상기 학습 장치가, 상기 주파수별 소리세기 궤적 데이터의 좌표 각각을 기준좌표로 하여, 상기 기준좌표로부터 소정의 거리 이내로 이웃한 좌표 각각에 대응되는 상기 주파수별 행렬 데이터의 원소값 중 적어도 일부를 상기 기준좌표 각각에 대응되는 원소값에 상기 소정의 거리에 대응되는 가중치를 반영한 값으로 결정하여 상기 주파수별 보정 행렬 데이터를 생성하는 것을 특징으로 하는, 악기 음색 판단 및 분류를 위한 학습 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 (c) 단계에서,
    상기 학습 모델은, 인공신경망(Artificial Neural Network)인 것을 특징으로 하고,
    상기 학습 데이터가 입력되면, 상기 학습 장치가, (i) 상기 특정 악기를 포함한 복수개의 악기 각각에 대응되는 클래스 각각으로 추정되는 추정 확률값을 획득하는 프로세스, (ii) 상기 추정 확률값 및 이에 대응되는 GT(Ground Truth)를 참조하여 상기 학습 데이터에 대응되는 로스값을 산출하는 프로세스, 및 (iii) 상기 로스값을 참조로 하여 백프로파게이션(backpropagation)을 수행하여 상기 학습 모델에 포함된 복수의 파라미터를 조정하는 것을 특징으로 하는, 악기 음색 판단 및 분류를 위한 학습 방법.
  4. 임의의 오디오에 사용된 악기의 음색을 판단하고 분류하기 위한 학습 방법으로서,
    (a) 특정 악기에 대응되는 악기오디오가 입력되면, 학습 장치가, 상기 악기오디오를 분석하여 기준시각 - 상기 기준시각은 상기 악기오디오의 전체 재생시간 중 복수개의 소정의 시점 각각에 대응되는 시각임 - 및 상기 기준시각 각각에 대응되는 소리세기에 대한 정보를 주파수별 소리세기 궤적 데이터로서 획득하는 단계;
    (b) 상기 학습 장치가, (i) 상기 주파수별 소리세기 궤적 데이터를 참조로 하여 주파수별로 시각 및 소리세기 각각을 변수로 하는 주파수별 행렬 데이터를 생성하는 프로세스, 및 (ii) 상기 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부에 대하여 소정의 연산을 수행함으로써 상기 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부를 변환하여 주파수별 보정 행렬 데이터를 생성하는 프로세스를 수행하는 단계; 및
    (c) 상기 학습 장치가, 상기 주파수별 보정 행렬 데이터를 학습 데이터로서 학습 모델에 입력하여 학습을 수행하여, 상기 학습 모델에 포함된 복수의 파라미터를 조정하는 단계;
    를 포함하되,
    상기 (b) 단계는,
    (iii) 상기 주파수별 보정 행렬 데이터에 포함된 원소값 중 0보다 큰 유효원소값 각각을 상기 유효원소값 중 가장 큰 값으로 나누는 정규화 연산을 통해, 주파수별 정규화 보정 행렬 데이터를 생성하는 프로세스를 더 수행하는 것을 특징으로 하고,
    상기 (c) 단계는,
    상기 학습 장치가, 상기 주파수별 정규화 보정 행렬 데이터를 상기 학습 데이터로서 상기 학습 모델에 입력하여 학습을 수행하여, 상기 학습 모델에 포함된 상기 복수의 파라미터를 조정하는 것을 특징으로 하는; 악기 음색 판단 및 분류를 위한 학습 방법.
  5. 임의의 오디오에 사용된 악기의 음색을 판단하고 분류하기 위한 학습 방법으로서,
    (a) 특정 악기에 대응되는 악기오디오가 입력되면, 학습 장치가, 상기 악기오디오를 분석하여 기준시각 - 상기 기준시각은 상기 악기오디오의 전체 재생시간 중 복수개의 소정의 시점 각각에 대응되는 시각임 - 및 상기 기준시각 각각에 대응되는 소리세기에 대한 정보를 주파수별 소리세기 궤적 데이터로서 획득하는 단계;
    (b) 상기 학습 장치가, (i) 상기 주파수별 소리세기 궤적 데이터를 참조로 하여 주파수별로 시각 및 소리세기 각각을 변수로 하는 주파수별 행렬 데이터를 생성하는 프로세스, 및 (ii) 상기 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부에 대하여 소정의 연산을 수행함으로써 상기 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부를 변환하여 주파수별 보정 행렬 데이터를 생성하는 프로세스를 수행하는 단계; 및
    (c) 상기 학습 장치가, 상기 주파수별 보정 행렬 데이터를 학습 데이터로서 학습 모델에 입력하여 학습을 수행하여, 상기 학습 모델에 포함된 복수의 파라미터를 조정하는 단계;
    를 포함하되,
    상기 (a) 단계에서,
    상기 기준시각 각각에 대응되는 상기 소리세기에 대한 정보는, 기음에 대응되는 기준주파수 및 상기 기준주파수의 k배 - 상기 k는 정수값이며, 2 이상임 - 인 배음주파수 각각에 대해서만 획득되는 것을 특징으로 하는, 악기 음색 판단 및 분류를 위한 학습 방법.
  6. 임의의 오디오에 사용된 악기의 음색을 판단하고 분류하기 위한 테스트 방법으로서,
    (a) 학습 장치에 의해서, (1) 특정 악기에 대응되는 학습용 악기오디오가 입력되면, 상기 학습용 악기오디오를 분석하여 기준시각 - 상기 기준시각은 상기 학습용 악기오디오의 전체 재생시간 중 복수개의 소정의 시점 각각에 대응되는 시각임 - 및 상기 기준시각 각각에 대응되는 학습용 소리세기에 대한 정보를 학습용 주파수별 소리세기 궤적 데이터로서 획득하는 프로세스; (2) (i) 상기 학습용 주파수별 소리세기 궤적 데이터를 참조로 하여 주파수별로 시각 및 소리세기 각각을 변수로 하는 학습용 주파수별 행렬 데이터를 생성하는 프로세스, 및 (ii) 상기 학습용 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부에 대하여 소정의 연산을 수행함으로써 상기 학습용 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부를 변환하여 학습용 주파수별 보정 행렬 데이터를 생성하는 프로세스; (3) 상기 학습용 주파수별 보정 행렬 데이터를 학습 데이터로서 학습 모델에 입력하여 학습을 수행하여, 상기 학습 모델에 포함된 복수의 파라미터를 조정하는 프로세스가 수행된 상태 - 상기 (2) 프로세스는, 상기 주파수별 소리세기 궤적 데이터의 좌표 각각을 기준좌표로 하여, 상기 기준좌표로부터 소정의 거리 이내로 이웃한 좌표 각각에 대응되는 상기 주파수별 행렬 데이터의 원소값 중 적어도 일부를 상기 기준좌표 각각에 대응되는 원소값에 상기 소정의 거리에 대응되는 가중치를 반영한 값으로 결정하여 상기 주파수별 보정 행렬 데이터를 생성하는 것을 특징으로 함 - 에서, 테스트 장치가, 소정 악기에 대응되는 테스트용 악기오디오를 입력 받는 단계; 및
    (b) 상기 테스트 장치가, 상기 조정된 파라미터를 이용하여 상기 테스트용 악기오디오를 분석하여, 상기 소정 악기를 포함한 상기 복수개의 악기 각각에 대응되는 클래스 각각으로 추정되는 추정 확률값을 획득하는 단계;
    를 포함하는, 악기 음색 판단 및 분류를 위한 테스트 방법.
  7. 임의의 오디오에 사용된 악기의 음색을 판단하고 분류하기 위한 학습 장치로서,
    인스트럭션들을 저장하는 적어도 하나의 메모리; 및
    상기 인스트럭션들을 실행하기 위해 구성된 적어도 하나의 프로세서; 를 포함하고,
    상기 프로세서가,
    (I) 특정 악기에 대응되는 악기오디오가 입력되면, 상기 악기오디오를 분석하여 기준시각 - 상기 기준시각은 상기 악기오디오의 전체 재생시간 중 복수개의 소정의 시점 각각에 대응되는 시각임 - 및 상기 기준시각 각각에 대응되는 소리세기에 대한 정보를 주파수별 소리세기 궤적 데이터로서 획득하는 프로세스; (II) (i) 상기 주파수별 소리세기 궤적 데이터를 참조로 하여 주파수별로 시각 및 소리세기 각각을 변수로 하는 주파수별 행렬 데이터를 생성하는 프로세스 및 (ii) 상기 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부에 대하여 소정의 연산을 수행함으로써 상기 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부를 변환하여 주파수별 보정 행렬 데이터를 생성하는 프로세스; 및 (III) 상기 주파수별 보정 행렬 데이터를 학습 데이터로서 학습 모델에 입력하여 학습을 수행하여, 상기 학습 모델에 포함된 복수의 파라미터를 조정하는 프로세스; 를 수행하되,
    상기 (II) 프로세스에서,
    상기 프로세서가, 상기 주파수별 소리세기 궤적 데이터의 좌표 각각을 기준좌표로 하여, 상기 기준좌표로부터 소정의 거리 이내로 이웃한 좌표 각각에 대응되는 상기 주파수별 행렬 데이터의 원소값 중 적어도 일부를 상기 기준좌표 각각에 대응되는 원소값에 상기 소정의 거리에 대응되는 가중치를 반영한 값으로 결정하여 상기 주파수별 보정 행렬 데이터를 생성하는 것을 특징으로 하는, 악기 음색 판단 및 분류를 위한 학습 장치.
  8. 삭제
  9. 제7항에 있어서,
    상기 (III) 프로세스에서,
    상기 학습 모델은, 인공신경망(Artificial Neural Network)인 것을 특징으로 하고,
    상기 학습 데이터가 입력되면, 상기 프로세서가, (i) 상기 특정 악기를 포함한 복수개의 악기 각각에 대응되는 클래스 각각으로 추정되는 추정 확률값을 획득하는 프로세스, (ii) 상기 추정 확률값 및 이에 대응되는 GT(Ground Truth)를 참조하여 상기 학습 데이터에 대응되는 로스값을 산출하는 프로세스, 및 (iii) 상기 로스값을 참조로 하여 백프로파게이션(backpropagation)을 수행하여 상기 학습 모델에 포함된 복수의 파라미터를 조정하는 프로세스를 수행하는 것을 특징으로 하는, 악기 음색 판단 및 분류를 위한 학습 장치.
  10. 임의의 오디오에 사용된 악기의 음색을 판단하고 분류하기 위한 학습 장치로서,
    인스트럭션들을 저장하는 적어도 하나의 메모리; 및
    상기 인스트럭션들을 실행하기 위해 구성된 적어도 하나의 프로세서; 를 포함하고,
    상기 프로세서가,
    (I) 특정 악기에 대응되는 악기오디오가 입력되면, 상기 악기오디오를 분석하여 기준시각 - 상기 기준시각은 상기 악기오디오의 전체 재생시간 중 복수개의 소정의 시점 각각에 대응되는 시각임 - 및 상기 기준시각 각각에 대응되는 소리세기에 대한 정보를 주파수별 소리세기 궤적 데이터로서 획득하는 프로세스; (II) (i) 상기 주파수별 소리세기 궤적 데이터를 참조로 하여 주파수별로 시각 및 소리세기 각각을 변수로 하는 주파수별 행렬 데이터를 생성하는 프로세스 및 (ii) 상기 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부에 대하여 소정의 연산을 수행함으로써 상기 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부를 변환하여 주파수별 보정 행렬 데이터를 생성하는 프로세스; 및 (III) 상기 주파수별 보정 행렬 데이터를 학습 데이터로서 학습 모델에 입력하여 학습을 수행하여, 상기 학습 모델에 포함된 복수의 파라미터를 조정하는 프로세스; 를 수행하되,
    상기 (II) 프로세스는,
    (iii) 상기 주파수별 보정 행렬 데이터에 포함된 원소값 중 0보다 큰 유효원소값 각각을 상기 유효원소값 중 가장 큰 값으로 나누는 정규화 연산을 통해, 주파수별 정규화 보정 행렬 데이터를 생성하는 프로세스를 더 수행하는 것을 특징으로 하고,
    상기 (III) 프로세스는,
    상기 프로세서가, 상기 주파수별 정규화 보정 행렬 데이터를 상기 학습 데이터로서 상기 학습 모델에 입력하여 학습을 수행하여, 상기 학습 모델에 포함된 상기 복수의 파라미터를 조정하는 것을 특징으로 하는; 악기 음색 판단 및 분류를 위한 학습 장치.
  11. 임의의 오디오에 사용된 악기의 음색을 판단하고 분류하기 위한 학습 장치로서,
    인스트럭션들을 저장하는 적어도 하나의 메모리; 및
    상기 인스트럭션들을 실행하기 위해 구성된 적어도 하나의 프로세서; 를 포함하고,
    상기 프로세서가,
    (I) 특정 악기에 대응되는 악기오디오가 입력되면, 상기 악기오디오를 분석하여 기준시각 - 상기 기준시각은 상기 악기오디오의 전체 재생시간 중 복수개의 소정의 시점 각각에 대응되는 시각임 - 및 상기 기준시각 각각에 대응되는 소리세기에 대한 정보를 주파수별 소리세기 궤적 데이터로서 획득하는 프로세스; (II) (i) 상기 주파수별 소리세기 궤적 데이터를 참조로 하여 주파수별로 시각 및 소리세기 각각을 변수로 하는 주파수별 행렬 데이터를 생성하는 프로세스 및 (ii) 상기 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부에 대하여 소정의 연산을 수행함으로써 상기 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부를 변환하여 주파수별 보정 행렬 데이터를 생성하는 프로세스; 및 (III) 상기 주파수별 보정 행렬 데이터를 학습 데이터로서 학습 모델에 입력하여 학습을 수행하여, 상기 학습 모델에 포함된 복수의 파라미터를 조정하는 프로세스; 를 수행하되,
    상기 (I) 프로세스에서,
    상기 기준시각 각각에 대응되는 상기 소리세기에 대한 정보는, 기음에 대응되는 기준주파수 및 상기 기준주파수의 k배 - 상기 k는 정수값이며, 2 이상임 - 인 배음주파수 각각에 대해서만 획득되는 것을 특징으로 하는, 악기 음색 판단 및 분류를 위한 학습 장치.
  12. 임의의 오디오에 사용된 악기의 음색을 판단하고 분류하기 위한 테스트 장치로서,
    인스트럭션들을 저장하는 적어도 하나의 메모리; 및
    상기 인스트럭션들을 실행하기 위해 구성된 적어도 하나의 프로세서; 를 포함하고,
    상기 프로세서가,
    (I) 학습 장치에 의해서, (1) 특정 악기에 대응되는 학습용 악기오디오가 입력되면, 상기 학습용 악기오디오를 분석하여 기준시각 - 상기 기준시각은 상기 학습용 악기오디오의 전체 재생시간 중 복수개의 소정의 시점 각각에 대응되는 시각임 - 및 상기 기준시각 각각에 대응되는 학습용 소리세기에 대한 정보를 학습용 주파수별 소리세기 궤적 데이터로서 획득하는 프로세스; (2) (i) 상기 학습용 주파수별 소리세기 궤적 데이터를 참조로 하여 주파수별로 시각 및 소리세기 각각을 변수로 하는 학습용 주파수별 행렬 데이터를 생성하는 프로세스, 및 (ii) 상기 학습용 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부에 대하여 소정의 연산을 수행함으로써 상기 학습용 주파수별 행렬 데이터에 포함된 원소값 중 적어도 일부를 변환하여 학습용 주파수별 보정 행렬 데이터를 생성하는 프로세스; (3) 상기 학습용 주파수별 보정 행렬 데이터를 학습 데이터로서 학습 모델에 입력하여 학습을 수행하여, 상기 학습 모델에 포함된 복수의 파라미터를 조정하는 프로세스가 수행된 상태 - 상기 (2) 프로세스는, 상기 주파수별 소리세기 궤적 데이터의 좌표 각각을 기준좌표로 하여, 상기 기준좌표로부터 소정의 거리 이내로 이웃한 좌표 각각에 대응되는 상기 주파수별 행렬 데이터의 원소값 중 적어도 일부를 상기 기준좌표 각각에 대응되는 원소값에 상기 소정의 거리에 대응되는 가중치를 반영한 값으로 결정하여 상기 주파수별 보정 행렬 데이터를 생성하는 것을 특징으로 함 - 에서, 소정 악기에 대응되는 테스트용 악기오디오를 입력 받는 프로세스; 및 (II) 상기 조정된 파라미터를 이용하여 상기 테스트용 악기오디오를 분석하여, 상기 소정 악기를 포함한 상기 복수개의 악기 각각에 대응되는 클래스 각각으로 추정되는 추정 확률값을 획득하는 프로세스; 를 수행하는, 악기 음색 판단 및 분류를 위한 테스트 장치.
KR1020190063493A 2019-05-29 2019-05-29 임의의 오디오에 사용된 악기를 판단하고 분류하기 위한 학습 방법 및 테스트 방법, 이를 이용한 학습 장치 및 테스트 장치 KR102241436B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190063493A KR102241436B1 (ko) 2019-05-29 2019-05-29 임의의 오디오에 사용된 악기를 판단하고 분류하기 위한 학습 방법 및 테스트 방법, 이를 이용한 학습 장치 및 테스트 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190063493A KR102241436B1 (ko) 2019-05-29 2019-05-29 임의의 오디오에 사용된 악기를 판단하고 분류하기 위한 학습 방법 및 테스트 방법, 이를 이용한 학습 장치 및 테스트 장치

Publications (2)

Publication Number Publication Date
KR20200137329A KR20200137329A (ko) 2020-12-09
KR102241436B1 true KR102241436B1 (ko) 2021-04-19

Family

ID=73787237

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190063493A KR102241436B1 (ko) 2019-05-29 2019-05-29 임의의 오디오에 사용된 악기를 판단하고 분류하기 위한 학습 방법 및 테스트 방법, 이를 이용한 학습 장치 및 테스트 장치

Country Status (1)

Country Link
KR (1) KR102241436B1 (ko)

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CHANDNA Pritish, et al, "A VOCODER BASED METHOD FOR SINGING VOICE EXTRACTION", IEEE(2019)
DENG JD. et al, "A study on feature analysis for musical instrument classification", IEEE(2008)
ERONEN A, et al, "MUSICAL INSTRUMENT RECOGNITION USING CEPSTRAL COEFFICIENTS AND TEMPORAL FEATURES", pp 753-756, IEEE(2000)
JODER Cyril, et al, "Temporal Integration for Audio Classification With Application to Musical Instrument Classification", pp174-186, IEEE(2009)
Musical Instrument Recognition Using Cepstral Coefficients and Temporal Features. Antti Eronen and Anssi Klapuri. IEEE(2000).*
SIMPSON Andrew, J.R., "Deep Karaoke: Extracting Vocals from Musical Mixtures Using a Convolutional Deep Neural Network", 17 Apr 2015
소순원, "자유 발화 데이터를 사용한 심층 인공 신경망 기반 화자 정보 분류 모델 개발", 한양대학교 석사학위논문 (2019.2.)

Also Published As

Publication number Publication date
KR20200137329A (ko) 2020-12-09

Similar Documents

Publication Publication Date Title
Reimao et al. For: A dataset for synthetic speech detection
US10832685B2 (en) Speech processing device, speech processing method, and computer program product
US20200066260A1 (en) Signal generation device, signal generation system, signal generation method, and computer program product
Pishdadian et al. Finding strength in weakness: Learning to separate sounds with weak supervision
CN109308903B (zh) 语音模仿方法、终端设备及计算机可读存储介质
Farrokhmanesh et al. A novel method for malware detection using audio signal processing techniques
Aravind et al. Audio spoofing verification using deep convolutional neural networks by transfer learning
Toghiani-Rizi et al. Musical instrument recognition using their distinctive characteristics in artificial neural networks
CN111428078B (zh) 音频指纹编码方法、装置、计算机设备及存储介质
WO2022111177A1 (zh) 一种音频检测方法、装置、计算机设备和可读存储介质
Tarwireyi et al. Using multi-audio feature fusion for android malware detection
KR102241436B1 (ko) 임의의 오디오에 사용된 악기를 판단하고 분류하기 위한 학습 방법 및 테스트 방법, 이를 이용한 학습 장치 및 테스트 장치
JP6784255B2 (ja) 音声処理装置、音声処理システム、音声処理方法、およびプログラム
Al-Hassani et al. Development of high accuracy classifier for the speaker recognition system
Yang et al. Sound event detection in real-life audio using joint spectral and temporal features
Maximos et al. Real-time drums transcription with characteristic bandpass filtering
Rodriguez et al. Prediction of inter-personal trust and team familiarity from speech: A double transfer learning approach
KR101092228B1 (ko) 음원 분류를 위한 악기 인식 시스템 및 방법
Hajipour et al. Listening to sounds of silence for audio replay attack detection
Senan et al. Feature extraction for traditional malay musical instruments classification system
JP6726082B2 (ja) 防犯に関わる音の判定方法及び情報処理装置
KR20210054174A (ko) 음성 데이터의 주기 성분을 이용하여 화자를 분류하는 장치, 방법 및 컴퓨터 프로그램
Anderson Musical instrument classification utilizing a neural network
Xie et al. Acoustic features for multi-level classification of Australian frogs
Iwok et al. Evaluation of Machine Learning Algorithms using Combined Feature Extraction Techniques for Speaker Identification

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant