KR102128153B1 - 기계 학습을 이용한 음악 소스 검색 장치 및 그 방법 - Google Patents

기계 학습을 이용한 음악 소스 검색 장치 및 그 방법 Download PDF

Info

Publication number
KR102128153B1
KR102128153B1 KR1020170182881A KR20170182881A KR102128153B1 KR 102128153 B1 KR102128153 B1 KR 102128153B1 KR 1020170182881 A KR1020170182881 A KR 1020170182881A KR 20170182881 A KR20170182881 A KR 20170182881A KR 102128153 B1 KR102128153 B1 KR 102128153B1
Authority
KR
South Korea
Prior art keywords
music
source
music source
instrument
training data
Prior art date
Application number
KR1020170182881A
Other languages
English (en)
Other versions
KR20190080437A (ko
Inventor
김종우
임근원
김기태
오원석
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020170182881A priority Critical patent/KR102128153B1/ko
Publication of KR20190080437A publication Critical patent/KR20190080437A/ko
Application granted granted Critical
Publication of KR102128153B1 publication Critical patent/KR102128153B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

기계 학습을 이용한 음악 소스 검색 장치 및 그 방법이 개시된다. 기계 학습을 이용한 음악 소스 검색 장치는 검색 대상 악기를 설정받고, 다양한 소리를 포함하는 음악 중 적어도 일부를 클리핑한 음원을 입력받는 입력부; 및 상기 클리핑한 음원을 캡스트럼 변환하여 특징값을 추출한 후, 상기 음원의 특징값을 학습된 음악 소스 추정 모델에 적용하여 상기 음원의 특징값과 유사한 특징값을 가지는 상기 검색 대상 악기의 음악 소스를 출력하는 검색부를 포함한다.

Description

기계 학습을 이용한 음악 소스 검색 장치 및 그 방법{Apparatus and method for searching music source using machine learning}
본 발명은 기계 학습을 이용한 음악 소스 검색 장치 및 그 방법에 관한 것이다.
기존의 작곡 지원 시스템은 작곡을 해본 적 없는 비전문가가 작곡에 입문하는 것을 도와주는 것에는 효과적이나, 이를 통해 전문적인 작곡을 하기는 쉽지 않다. 기존의 작곡 지원 시스템이 대부분 전문적인 음악 장비나 지식 없이도, 누구나 익숙한 기기로 자기만의 멜로디를 구현할 수 있도록 도와주는 것에 집중하고 있기 때문이다. 전문적인 작곡을 하기 위해서는 멜로디 구현 뿐 아니라 다양한 추가 작업이 필요한데, 그 대표적인 예로 화성 구현과 음악 소스를 적절하게 선택하는 것 등이 있다. 화성 구현의 경우 화성 지식이 없어도 작곡가가 고급스러운 화성을 표현할 수 있도록 도와주는 기존 연구가 존재하지만, 효율적으로 음악 소스를 검색할 수 있는 방법에 대한 연구는 찾아볼 수 없다. 여기에서 음악 소스란 음악을 이루는 모든 소리를 말하는데, 예를 들어 멜로디를 표현하는 피아노 소리, 저음부를 담당하는 베이스 소리, 리듬을 담당하는 드럼 소리 등이 있다. 음악 소스들은 같은 악기로 분류되더라도 각각의 음색이 다르기 때문에 작곡가가 어떤 음악 소스를 쓰느냐에 따라 전체 음악의 질감이 달라진다. 예를 들어 여러 음악 소스가 모두 피아노 소리라고 하더라도 각각 다른 음색을 갖고, 음색에 따라 전체 음악의 느낌이 달라진다. 그래서 작곡가는 구상한 대로 음악을 표현하기 위해 음악 소스 데이터베이스에서 좋은 음악 소스를 찾아야 하는데, 데이터베이스에 많은 음악 소스를 보유하고 있을수록 비례해서 많은 시간을 투자해야 한다는 문제가 존재한다.
본 발명은 기계 학습을 이용한 음악 소스 검색 장치 및 그 방법을 제공하기 위한 것이다.
또한, 본 발명은 여러 음악 소스가 섞여 있는 오디오를 입력하고 원하는 음악 소스의 악기를 설정하면, 입력된 오디오에 섞여 있는 여러 음악 소스 중에서 설정한 악기에 속하는 음악 소스와 가장 유사한 음악 소스를 준비된 음악 소스 데이터베이스 내에서 출력할 수 있는 기계 학습을 이용한 음악 소스 검색 장치 및 그 방법을 제공할 수 있다.
본 발명의 일 측면에 따르면, 기계 학습을 이용한 음악 소스 검색 방법이 제공된다.
본 발명의 일 실시예에 따르면, (a) 검색 대상 악기를 설정받는 단계; (b) 다양한 소리를 포함하는 음악 중 적어도 일부를 클리핑한 음원을 입력받는 단계; (c) 상기 클리핑한 음원을 캡스트럼 변환하고, 분석하여 특징값을 추출하는 단계; 및 (d) 상기 음원의 특징값을 학습된 음악 소스 추정 모델에 적용하여 상기 음원의 특징값과 유사한 특징값을 가지는 상기 검색 대상 악기의 음악 소스를 출력하는 단계를 포함하는 음악 소스 검색 방법이 제공될 수 있다.
상기 (a) 단계 이전에, 각 악기별 음악 소스 각각에 대해 파형, 주파수 및 소리 크기 중 적어도 하나를 변화시켜 복수의 웨이브 파일을 생성하는 단계; 각 음악 소스와 각각의 웨이브 파일을 합하여 훈련 데이터를 각각 생성하는 단계; 상기 훈련 데이터를 캡스트럼으로 변환하는 단계; 및 상기 음악 소스 추정 모델에 상기 변환된 훈련 데이터를 입력하고, 상기 변환된 훈련 데이터의 음악 소스를 라벨링하여 상기 음악 소스 추정 모델을 훈련하는 단계를 더 포함할 수 있다.
상기 파형은 sine파 및 square파를 포함하며,
상기 주파수는 1옥타브의 도 음부터 8옥타브의 시 음의 주파수를 포함할 수 있다.
상기 출력되는 음악 소스는 상기 검색 대상 악기의 음원 이외의 다른 음원을 포함하지 않을 수 있다.
상기 (c) 단계는, 상기 훈련 데이터를 고속 푸리에 변환(FFT)하여 스펙트럼을 구한 후 역방향 고속 푸리에 변환(Inverse FFT)하여 도출한 캡스트럼을 분석하여 특징값을 추출할 수 있다.
본 발명의 다른 측면에 따르면, 기계 학습을 이용한 음악 소스 검색 장치가 제공된다.
본 발명의 일 실시예에 따르면, 검색 대상 악기를 설정받고, 다양한 소리를 포함하는 음악 중 적어도 일부를 클리핑한 음원을 입력받는 입력부; 및 상기 클리핑한 음원을 캡스트럼 변환하여 특징값을 추출한 후, 상기 음원의 특징값을 학습된 음악 소스 추정 모델에 적용하여 상기 음원의 특징값과 유사한 특징값을 가지는 상기 검색 대상 악기의 음악 소스를 출력하는 검색부를 포함하는 음악 소스 검색 장치가 제공될 수 있다.
악기별 음악 소스를 저장하는 음악 소스 데이터베이스; 각 악기별 음악 소스 각각에 대해 파형, 주파수 및 소리 크기 중 적어도 하나를 변화시켜 복수의 웨이브 파일을 생성하고, 각 음악 소스와 각각의 웨이브 파일을 합하여 훈련 데이터를 각각 생성한 후 상기 훈련 데이터를 캡스트럼으로 변환하는 훈련 데이터 생성부; 및 상기 음악 소스 추정 모델에 상기 변환된 훈련 데이터를 입력하고, 상기 변환된 훈련 데이터의 음악 소스를 라벨링하여 상기 음악 소스 추정 모델을 훈련하는 학습부를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 기계 학습을 이용한 음악 소스 검색 장치 및 그 방법을 제공함으로써, 여러 음악 소스가 섞여 있는 오디오를 입력하고 원하는 음악 소스의 악기를 설정하면, 입력된 오디오에 섞여 있는 여러 음악 소스 중에서 설정한 악기에 속하는 음악 소스와 가장 유사한 음악 소스를 준비된 음악 소스 데이터베이스 내에서 출력할 수 있다.
도 1은 본 발명의 일 실시예에 따른 음악 소스 검색 방법을 나타낸 순서도.
도 2는 본 발명의 일 실시예에 따른 음계에 따른 주파수 정보를 예시한 도면.
도 3은 본 발명의 일 실시예에 따른 훈련 데이터 생성을 설명하기 위해 도시한 도면.
도 4는 본 발명의 일 실시예에 따른 캡스트럼 변환을 설명하기 위해 도시한 도면.
도 5는 본 발명의 일 실시예에 따른 음악 소스 추정 모델을 설명하기 위해 도시한 도면.
도 6은 본 발명의 일 실시예에 따른 음악 소스 검색 장치의 내부 구성을 개략적으로 도시한 블록도.
본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 음악 소스 검색 방법을 나타낸 순서도이며, 도 2는 본 발명의 일 실시예에 따른 음계에 따른 주파수 정보를 예시한 도면이고, 도 3은 본 발명의 일 실시예에 따른 훈련 데이터 생성을 설명하기 위해 도시한 도면이고, 도 4는 본 발명의 일 실시예에 따른 캡스트럼 변환을 설명하기 위해 도시한 도면이며, 도 5는 본 발명의 일 실시예에 따른 음악 소스 추정 모델을 설명하기 위해 도시한 도면이다. 본 발명의 일 실시예에 따른 음악 소스 검색 장치(100)는 딥 러닝에 기반한 음악 소스 추정 모델을 학습한 후 학습된 음악 소스 추정 모델을 통해 다양한 소리를 포함하는 음악 중 일부의 특징과 유사한 설정된 악기(검색 대상 악기)의 음악 소스를 검색할 수 있는 것을 주요 특징으로 한다. 이에 대해 보다 상세히 설명하기로 한다.
따라서, 이해와 설명의 편의를 도모하기 위해, 우선 음악 소스 DB에 저장된 음악 소스를 기반으로 딥 러닝 모델인 음악 소스 추정 모델을 학습하는 방법에 대해 우선 설명한 후 학습된 음악 소스 추정 모델을 통해 음원의 특징값과 유사한 검색 대상 악기의 음악 소스를 검색하는 방법에 대해 설명하기로 한다.
단계 110에서 음악 소스 검색 장치(100)는 음악 소스 DB에 저장된 각각의 음악 소스를 기반으로 훈련 데이터를 생성한다.
음악 소스 DB는 각 악기별 음악 소스들이 저장되어 있다. 예를 들어, 음악 소스 DB는 각각의 악기별로 별도의 카테고리(폴더)로 구분되며, 각각의 카테고리(폴더)에 해당 악기에 대한 다양한 음악 소스들이 저장되어 있을 수 있다.
음악 소스 검색 장치(100)는 음악 소스 DB에 저장된 악기별 음악 소스를 딥 러닝 기반의 음악 소스 추정 모델을 통해 학습하기 위해 학습에 적합한 훈련 데이터로 변환하는 과정을 거친다.
이를 위해, 음악 소스 검색 장치(100)는 각각의 악기별 음악 소스에 대해 웨이브 파일을 생성한다. 각 악기별 음악 소스에 대해 웨이브 파일을 생성함에 있어, 음악 소스 검색 장치(100)는 각 음악 소스마다 다양한 파형, 주파수 및 소리 크기 중 적어도 하나를 포함하도록 웨이브 파일을 생성할 수 있다. 예를 들어, 파형은 sine파와 square파를 포함할 수 있다. 또한, 주파수는 모든 음계(예를 들어, 1옥타브의 도 음부터 8 옥타브의 시 음)에 대한 주파수를 포함하도록 웨이브 파일을 생성할 수 있다. 그리고, 소리 크기 또한, 0.5, 0.6, 0.7, 0.8 등과 같이 각각 달리하여 웨이브 파일을 생성할 수 있다. 이와 같이, 음악 소스 검색 장치(100)는 하나의 음악 소스에 대해 파형, 주파수 및 소리 크기 중 적어도 하나를 변화하여 복수의 웨이브 파일을 생성할 수 있다. 도 2에는 음계에 따른 주파수 정보가 예시되어 있다.
예를 들어, 음악 소스 검색 장치(100)는 하나의 음악 소스에 대해 파형, 주파수 및 소리 크기 중 적어도 하나를 변화시켜 768개의 웨이브 파일을 생성할 수 있다.
이와 같이, 하나의 음악 소스에 대해 각각 파형, 주파수 및 소리 크기 중 적어도 하나를 각각 달리하여 복수의 웨이브 파일이 생성되면, 음악 소스 검색 장치(100)는 음악 소스와 생성된 복수의 웨이브 파일을 각각 합하여 훈련 데이터를 생성한다. 예를 들어, 하나의 음악 소스에 대해 768개의 웨이브 파일이 생성되는 경우, 훈련 데이터 또한 768개가 생성될 수 있다.
이 과정을 도식화한 도면이 도 3에 도시되어 있다.
도 3에서 보여지는 바와 같이, 하나의 음악 소스에 대해 파형, 주파수 및 소리 크기를 각각 달리하면서 복수의 웨이브 파일이 형성되면, 각각 생성된 웨이브 파일과 원 음악 소스를 합하여 최종적으로 훈련 데이터가 생성되게 된다.
단계 115에서 음악 소스 검색 장치(100)는 각 훈련 데이터들의 특징값을 추출한다.
이때, 음악 소스 검색 장치(100)는 각 훈련 데이터들의 특징값을 추출하기 위해 각 훈련 데이터를 캡스트럼(cepstrum) 분석을 통해 특징값을 추출할 수 있다.
예를 들어, 음악 소스 검색 장치(100)는 각 훈련 데이터들을 고속 푸리에 변환한 후 역방향 고속 푸리에 변환하여 얻은 각 훈련 데이터의 특징값을 가진 캡스트럼을 분석함으로써 각 훈련 데이터에 대한 특징값을 추출할 수 있다.
도 4에는 캡스트럼 변환된 훈련 데이터의 일 예가 도시되어 있다.
단계 120에서 음악 소스 검색 장치(100)는 각 훈련 데이터의 특징값을 이용하여 딥 러닝 모델인 음악 소스 추정 모델을 학습한다.
각 훈련 데이터의 특징값과 이에 대한 정답 라벨링(즉, 음원 소스 라벨링)을 음악 소스 추정 모델에 적용하여 딥 러닝 모델인 음악 소스 추정 모델을 학습할 수 있다. 음악 소스 추정 모델의 학습시, 입력된 훈련 데이터의 특징값에 대한 결과(음악 소스 라벨)를 음악 소스 추정 모델에 라벨링하는 과정을 수행함으로써 음악 소스 추정 모델을 학습할 수 있다. 즉, 훈련 데이터의 특징값에 대한 결과(음악 소스 라벨링)을 음악 소스 추정 모델에 알려줌으로써 해당 음악 소스 추정 모델을 학습할 수 있다.
본 발명의 일 실시예에 따른 음악 소스 추정 모델은 딥 러닝 모델로써 CNN(Convolutional neural network)를 기반으로 한다. 음악 소스 추정 모델은 도 5에 도시된 바와 같이 Convolutional layer와 Fully Connected Layer를 포함할 수 있다.
CNN 모델의 각각의 Layer에 대한 구성 및 그 기능은 이미 공지된 기술로 당업자에게는 자명한 사항이므로 이에 대한 별도의 설명은 생략하기로 한다.
즉, 본 발명의 일 실시예에 따른 음악 소스 추정 모델은 각각 캡스트럼 변환된 훈련 데이터를 각각 입력받은 후 이에 대한 음악 소스를 라벨링하는 과정을 반복하여 수행함으로써 트레이닝(훈련)될 수 있다. 이를 통해, 음악 소스 추정 모델은 각 음악 소스에 대한 특징값(즉, 캡스트럼에 따른 음량 및 주파수 특징)을 추출하여 훈련할 수 있다.
이와 같은 음악 소스 추정 모델에 대한 훈련 과정이 완료되면, 그 이후 훈련된 음악 소스 검색 장치에 다양한 소리를 포함하는 음악 중 일부를 입력함으로써 검색하고자 하는 타겟 악기에 대한 음악 소스에 대한 결과를 출력받을 수 있다.
이하, 이에 대해 보다 상세히 설명하기로 한다.
단계 125에서 음악 소스 검색 장치(100)는 검색하고자 하는 악기를 설정받는다. 이에서는 이해와 설명의 편의를 도모하기 위해 설정된 악기를 검색 대상 악기라 칭하기로 한다.
단계 130에서 음악 소스 검색 장치(100)는 다양한 소리를 포함하는 음악 중 적어도 일부를 클리핑한 음원을 입력받는다.
예를 들어, 사용자는 노래를 듣던 중 일부 구간에 포함된 유사한 드럼 소리를 검색하고자 하는 경우, 노래 중 일부 구간을 클리핑한 음원(오디오)를 입력할 수 있다.
이를 통해, 단계 135에서 음악 소스 검색 장치(100)는 클리핑된 음원(오디오)을 캡스트럼 변환, 분석하여 특징값을 추출한다.
이어, 단계 140에서 음악 소스 검색 장치(100)는 클리핑된 음원의 특징값을 학습된 음악 소스 추정 모델에 적용하여 해당 음원의 특징값과 유사한 특징값을 가지는 검색 대상 악기의 음악 소스를 출력한다.
예를 들어, 사용자가 노래, 멜로디, 피아노, 드럼 등 다양한 소리가 섞여 있는 음악 중 일부 구간을 차용하여 해당 구간에 포함된 드럼 소리와 유사한 드럼 음악 소스를 검색하고자 하는 경우를 가정하기로 한다.
음악 소스 검색 장치(100)는 다양한 소리가 포함된 음원을 캡스트럼 변환하여 이미지화하고, 이를 음악 소스 추정 모델에 입력한 후 해당 음원에 대한 특징값을 추출하여 검색 대상 악기의 음악 소스들 중 음원의 특징값과 유사한 음악 소스를 출력할 수 있다.
보다 상세하게, 음악 소스 추정 모델을 통해 캡스트럼 변환된 음원의 특징값을 추출함으로써 해당 음원의 특징값과 검색 대상 악기의 음악 소스의 특징값을 비교하여 유사한 검색 대상 악기의 음악 소스에 대한 라벨정보가 출력될 수 있다. 이를 통해, 음악 소스 검색 장치(100)는 해당 라벨 정보에 해당하는 검색 대상 악기의 음악 소스를 음악 소스 DB에서 추출하여 출력할 수 있다. 이때, 음악 소스 검색 장치(100)는 출력된 복수의 음악 소스에 대한 유사도를 함께 출력할 수 있다.
이와 같이, 본 발명의 일 실시예에 따른 음악 소스 검색 장치(100)는 클리핑된 음원을 캡스트럼 변환한 후 이를 이용함으로써 단순히 멜로디 기반으로 유사한 음악 소스를 검색하는 것이 아니라 음량이나 음색을 고려하여 검색 대상 악기의 음악 소스에서 유사한 음악 소스를 검색하여 제공할 수 있는 이점이 있다.
도 6은 본 발명의 일 실시예에 따른 음악 소스 검색 장치의 내부 구성을 개략적으로 도시한 블록도이다.
도 6을 참조하면, 본 발명의 일 실시예에 따른 음악 소스 검색 장치(100)는 훈련 데이터 생성부(610), 학습부(615), 입력부(620), 검색부(625), 메모리(630) 및 프로세서(635)를 포함하여 구성된다.
훈련 데이터 생성부(610)는 음악 소스 DB에 저장된 각 악기별 음악 소스에 대해 파형, 주파수 및 소리 크기 중 적어도 하나를 변화시켜 복수의 웨이브 파일을 생성한 후 이를 각 음악 소스와 합하여 훈련 데이터를 생성한다.
훈련 데이터는 캡스트럼 변환됨으로써 각 훈련 데이터의 특징값을 포함하는 형태로 변환될 수 있다.
이는 도 1에서 상세히 설명한 바와 동일하므로 중복되는 설명은 생략하기로 한다.
학습부(615)는 캡스트럼 변환된 훈련 데이터를 음악 소스 추정 모델에 입력하고, 그에 따른 음원 소스를 각각 라벨링하여 음악 소스 추정 모델을 학습하기 위한 수단이다.
학습부(615)는 각각 캡스트럼 변환된 훈련 데이터(즉, 훈련 데이터의 특징값)에 대한 결과(음원 소스 라벨링)을 음악 소스 추정 모델에 알려주는 과정을 반복 수행함으로써 해당 음악 소스 추정 모델을 학습할 수 있다.
입력부(620)는 검색 대상 악기를 설정받고, 다양한 소리를 포함하는 음악 중 적어도 일부를 클리핑한 음원을 입력받기 위한 수단이다.
검색부(625)는 클리핑한 음원을 캡스트럼 변환하여 학습된 음악 소스 추정 모델에 입력한 후 특징값을 추출하여 해당 음원의 특징값과 유사한 특징값을 가지는 검색 대상 악기의 음악 소스를 출력한다.
검색부(625)는 음악 소스 추정 모델을 통해 검색 대상 악기의 음악 소스의 특징값 중 클리핑된 음원의 특징값과 비교하여 가장 유사한 특징값을 가지는 검색 대상 악기의 음악 소스를 출력할 수 있다. 물론, 구현방법에 따라 검색 대상 악기의 특징값과 클리핑된 음원의 특징값을 비교하여 유사도가 높은 순으로 복수의 검색 대상 악기의 음악 소스를 출력할 수도 있다.
메모리(630)는 본 발명의 일 실시예에 따른 음악 소스 검색 방법을 수행하기 위해 필요한 다양한 알고리즘, 이과정에서 파생되는 다양한 데이터들을 저장하기 위한 수단이다.
프로세서(635)는 본 발명의 일 실시예에 따른 음악 소스 검색 장치(100)의 내부 구성 요소들(예를 들어, 훈련 데이터 생성부(610), 학습부(615), 검색부(625), 메모리(630) 등)을 제어하기 위한 수단이다.
또한, 본 발명의 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 일 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
100: 음악 소스 검색 장치
610: 훈련 데이터 생성부
615: 학습부
620: 입력부
625: 검색부
630: 메모리
635: 프로세서

Claims (8)

  1. 악기별 다양한 음악 소스를 음악 소스 데이터베이스에 저장하는 단계;
    각 악기별 음악 소스 각각에 대해 파형, 주파수 및 소리 크기를 변화시켜 음량과 음색이 다른 복수의 웨이브 파일을 생성하고, 각각의 웨이브 파일과 해당하는 음원 소스를 더하여 훈련 데이터를 각각 생성하는 단계-상기 파형은 sine파 및 square파를 포함하며, 상기 주파수는 음계에 대한 주파수이며, 상기 음계는 1옥타브의 도 음에서 8옥타브의 시음을 포함함;
    상기 훈련 데이터를 캡스트럼 변환하여 이미지화하는 단계;
    상기 이미지화된 훈련 데이터를 이용하여 음악 소스 추정 모델을 학습하되, 상기 이미지화된 훈련 데이터에 대한 음악 소스 라벨을 결과로서 상기 음악 소스 추정 모델에 라벨링함으로써 상기 음악 소스 추정 모델이 악기별 각각의 음악 소스에 대한 특징값을 추출하여 학습하는 단계;
    검색 대상 악기를 설정받는 단계;
    다양한 소리를 포함하는 음악 중 적어도 일부를 클리핑한 음원을 입력받는 단계;
    상기 클리핑한 음원을 고속 푸리에 변환(FFT)하여 스펙트럼을 구한 후 역방향 고속 푸리에 변환(Inverse FFT)하여 캡스트럼 변환한 후 이미지화하는 단계; 및
    상기 이미지화된 클리핑한 음원을 상기 학습된 음악 소스 추정 모델에 적용하여 상기 검색 대상 악기에 대한 복수의 음악 소스들 중 상기 이미지화된 클리핑한 음원과 유사한 검색 대상 악기의 음악 소스 라벨 정보를 유사도가 높은 순으로 복수개 출력하는 단계; 및
    상기 출력된 복수의 음악 소스 라벨 정보에 해당하는 검색 대상 악기의 음악 소스를 상기 음악 소스 데이터베이스로부터 각각 추출하여 출력하는 단계를 포함하되,
    상기 출력되는 음악 소스는 상기 검색 대상 악기의 음원 이외의 다른 음원을 포함하지 않는 것을 특징으로 하는 음악 소스 검색 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제1 항에 따른 방법을 수행하기 위한 프로그램 코드를 기록한 컴퓨터로 판독 가능한 기록매체.
  7. 악기별 음악 소스를 저장하는 음악 소스 데이터베이스;
    각 악기별 음악 소스를 이용하여 훈련 데이터를 생성함에 있어, 상기 음악 소스 각각에 대해 파형, 주파수 및 소리 크기를 변화시켜 음량과 음색이 다른 복수의 웨이브 파일을 각각 생성하고, 각각의 웨이브 파일과 해당하는 음원 소스를 더하여 훈련 데이터를 각각 생성하는 훈련 데이터 생성부- 상기 파형은 sine파 및 square파를 포함하며, 상기 주파수는 음계에 대한 주파수이며, 상기 음계는 1옥타브의 도 음에서 8옥타브의 시음을 포함하고, 상기 훈련 데이터는 캡스트럼 변환됨으로써 상기 훈련 데이터의 특징값을 포함하는 형태로 변환되어 이미지화됨; 및
    상기 이미지화된 훈련 데이터를 이용하여 음악 소스 추정 모델을 학습하되, 상기 이미지화된 훈련 데이터에 대한 음악 소스 라벨을 결과로서 상기 음악 소스 추정 모델에 라벨링함으로써 상기 음악 소스 추정 모델이 악기별 각각의 음악 소스에 대한 특징값을 추출하여 학습하는 학습부;
    검색 대상 악기를 설정받고, 다양한 소리를 포함하는 음악 중 적어도 일부를 클리핑한 음원을 입력받는 입력부; 및
    상기 클리핑한 음원을 캡스트럼 변환한 후 이미지화하고, 상기 이미지화된 클리핑한 음원을 상기 학습된 음악 소스 추정 모델에 적용하여 상기 검색 대상 악기에 대한 복수의 음악 소스들 중 상기 이미지화된 클리핑한 음원과 유사한 검색 대상 악기의 음악 소스 라벨 정보를 유사도가 높은 순으로 복수개 출력하고, 상기 출력된 복수의 음악 소스 라벨 정보에 해당하는 검색 대상 악기의 음악 소스를 상기 음악 소스 데이터베이스로부터 각각 추출하여 출력하는 검색부를 포함하되,
    상기 클리핑한 음원의 이미지화는,
    상기 클리핑한 음원을 고속 푸리에 변환(FFT)하여 스펙트럼을 구한 후 역방향 고속 푸리에 변환(Inverse FFT)하여 캡스트럼 변환하여 이미지화하되,
    상기 출력되는 음악 소스는 상기 검색 대상 악기의 음원 이외의 다른 음원을 포함하지 않는 것을 특징으로 하는 음악 소스 검색 장치.

  8. 삭제
KR1020170182881A 2017-12-28 2017-12-28 기계 학습을 이용한 음악 소스 검색 장치 및 그 방법 KR102128153B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170182881A KR102128153B1 (ko) 2017-12-28 2017-12-28 기계 학습을 이용한 음악 소스 검색 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170182881A KR102128153B1 (ko) 2017-12-28 2017-12-28 기계 학습을 이용한 음악 소스 검색 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20190080437A KR20190080437A (ko) 2019-07-08
KR102128153B1 true KR102128153B1 (ko) 2020-06-29

Family

ID=67256830

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170182881A KR102128153B1 (ko) 2017-12-28 2017-12-28 기계 학습을 이용한 음악 소스 검색 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR102128153B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102584712B1 (ko) 2022-09-20 2023-10-05 주식회사 제주바이오테크 인공지능을 기반으로 한 음원 유사 판단 및 블록체인을 기반으로 한 음원 인덱싱 정보 저장 및 관리 방법, 장치 및 시스템

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102273907B1 (ko) * 2019-08-08 2021-07-06 주식회사 인에이블파인드 주파수 분석을 통한 소리 정보 판단 장치 및 그 방법
KR102285883B1 (ko) * 2019-12-24 2021-08-05 주식회사 이엠텍 스테레오 음원 분석 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070083365A1 (en) * 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102584712B1 (ko) 2022-09-20 2023-10-05 주식회사 제주바이오테크 인공지능을 기반으로 한 음원 유사 판단 및 블록체인을 기반으로 한 음원 인덱싱 정보 저장 및 관리 방법, 장치 및 시스템

Also Published As

Publication number Publication date
KR20190080437A (ko) 2019-07-08

Similar Documents

Publication Publication Date Title
CN111785261B (zh) 基于解纠缠和解释性表征的跨语种语音转换方法及系统
Benetos et al. Automatic music transcription: challenges and future directions
Klapuri et al. Signal processing methods for music transcription
JP4274221B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
KR102128153B1 (ko) 기계 학습을 이용한 음악 소스 검색 장치 및 그 방법
Cogliati et al. Piano music transcription with fast convolutional sparse coding
KR20180066472A (ko) 기계 학습을 이용한 음악 신호의 처리 방법
Nadar et al. Towards CNN-based acoustic modeling of seventh chords for automatic chord recognition
Lerch Audio content analysis
JP2020140244A (ja) データ変換学習装置、データ変換装置、方法、及びプログラム
Abeßer et al. Deep learning for jazz walking bass transcription
Benetos et al. Multiple-F0 estimation and note tracking for Mirex 2015 using a sound state-based spectrogram factorization model
KR101621718B1 (ko) 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법
Anantapadmanabhan et al. Tonic-independent stroke transcription of the mridangam
JP5879813B2 (ja) 複数音源の識別装置および複数音源に連動する情報処理装置
CN115004294A (zh) 编曲生成方法、编曲生成装置以及生成程序
Anderson Musical instrument classification utilizing a neural network
Tardón et al. Music learning: Automatic music composition and singing voice assessment
Brink Dissection of a generative network for music composition
CN116189636B (zh) 基于电子乐器的伴奏生成方法、装置、设备及存储介质
Figueiredo Efficient adaptive multiresolution representation of music signals
Paterna Timbre modification using deep learning
KR102227415B1 (ko) 복선율 음악 생성 방법, 장치, 및 시스템
WO2024048492A1 (ja) 楽器識別方法、楽器識別装置、および、楽器識別プログラム
Kelz et al. Learning to Transcribe by Ear

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant