KR102367772B1

KR102367772B1 - 딥러닝 기반 음악 생성장치 및 방법

Info

Publication number: KR102367772B1
Application number: KR1020210094999A
Authority: KR
Inventors: 조남규; 김창현; 정원진
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2019-10-10
Filing date: 2021-07-20
Publication date: 2022-02-24
Also published as: KR20210042637A; KR20210093223A; KR102282698B1

Abstract

딥러닝 기반 음악 생성장치 및 방법을 개시한다.
본 실시예는, 음악의 구조 정보 및 멜로디를 포함하는 미디(MIDI) 정보를 인코딩하여, 음악의 구조 및 미디 각각을 생성하는 과정에서 상호 참조하는 딥러닝 기반의 구조 및 미디 추론 모델을 제안한다. 또한 제안된 구조 및 미디 추론 모델을 이용하여, 구조적 특성이 유지되는 음악을 무한한 길이로 생성하는 것이 가능한 음악 생성장치 및 방법을 제공하는 데 목적이 있다.

Description

딥러닝 기반 음악 생성장치 및 방법{Method and Apparatus for Generating Music Based on Deep Learning}

본 발명은 딥러닝 기반 음악 생성장치 및 방법에 관한 것이다.

이하에 기술되는 내용은 단순히 본 발명과 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.

음악 생성기술은 음원, 미디(MIDI: Musical Instrument Digital Interface), 또는 코드(chord) 등 다양한 형태의 사용자 입력을 기반으로 입력된 정보와 유사한 스타일의 음악을 생성한다. 이러한 음악 생성기술은 다양한 방식으로 응용이 가능하다. 예컨대, 사용자의 음성 또는 생성하려는 음악과 유사한 느낌을 가진 곡을 이용하여 사용자가 원하는 멜로디를 음악 생성기술에 적용하여 음악을 자동으로 생성하면, 사용자는 생성된 음악을 감상하는 것이 가능하다. 또 다른 예에서는, 음악 생성기술을 이용하여 모티프(motif)를 기반으로 작곡가가 다양한 형태의 음악을 자동으로 생성한 후, 생성한 음악을 전곡의 작곡에 보조적으로 이용하는 것이 가능하다.

악기 별로 반복되는 패턴을 데이터베이스화하여, 정해진 패턴에 맞게 음악을 재생하는 방식이 기존에 알려져 있으나, 정해진 패턴에 기반하므로 생성된 음악이 다양하지 못하다는 한계가 있다. 다른 예로는, 입력된 참조 음원으로부터 구조 정보를 이용하여 딥러닝을 기반으로 음악을 생성하는 기술이 알려져 있다(특허문헌 1 참조). 그러나, 이 기술은 생성 엔진으로 사용된 딥러닝 모델이 긴 길이(long play, 예컨대 1분 이상)의 음악을 생성하기에는 구조적인 한계가 있다(비특허문헌 1 및 2 참조). 다른 예에서, 이러한 구조적 한계의 극복한 채로, 긴 길이의 음악(예컨대, 미디 형태)을 생성할 수 있는 기술이 제시된 바 있다(비특허문헌 2 참조). 그러나 이 기술은 음악을 생성하는 과정에서, 코드 전개 등과 같은, 음악 자체가 보유하고 있는 구조 정보를 고려하지 못했다는 한계가 있다.

따라서, 음악을 생성하는 과정에서 음악 자체가 보유하고 있는 구조 정보까지 고려된, 긴 길이의 음악을 생성하는 것이 가능한 음악 생성기술이 요구된다.

특허문헌 1: 주식회사 마인드셋, 인공지능을 이용한 음악 생성 장치 및 방법, 출원번호 10-2017-0092475, 2017.

비특허문헌 1: A. Vaswani et al., "Attention Is All You Need," arXiv: 1706.03762, 2017. 비특허문헌 2: A. Huang et al., "Music Transformer: Generating Music with Long-Term Structure," arXiv: 1809.04281, 2018.

본 개시는, 음악의 구조 정보 및 멜로디를 포함하는 미디(MIDI) 정보를 인코딩하여, 음악의 구조 및 미디 각각을 생성하는 과정에서 상호 참조하는 딥러닝 기반의 구조 및 미디 추론 모델을 제안한다. 또한, 제안된 구조 및 미디 추론 모델을 이용하여, 구조적 특성이 유지되는 음악을 무한한 길이로 생성하는 것이 가능한 음악 생성장치 및 방법을 제공하는 데 주된 목적이 있다.

본 발명의 실시예에 따르면, 음악의 구조를 표현하는 구조 임베딩(embedding)의 시계열 형태의 입력 구조 데이터 및 미디(MIDI)를 표현하는 미디 임베딩의 시계열 형태의 입력 미디 데이터를 획득하는 입력부; 상기 입력 구조 데이터를 사전에 트레이닝된 구조 추론 모델에 입력하여 중간 구조 데이터를 생성하고 결과 구조 데이터를 추론하며, 상기 입력 미디 데이터를 사전에 트레이닝된 미디 추론 모델에 입력하여 중간 미디 데이터를 생성하고 결과 미디 데이터를 추론하는 데이터생성부; 및 상기 결과 구조 데이터 및 상기 결과 미디 데이터를 출력하는 출력부를 포함하되, 상기 구조 추론 모델 및 상기 미디 추론 모델 각각은 구조 데이터 융합층(fusion layer) 및 미디 데이터 융합층을 포함한 채로 상호 결합하여 동작하는 것을 특징으로 하는 음악 생성장치를 제공한다.

본 발명의 다른 실시예에 따르면, 음악 생성장치의 음악 생성방법에 있어서, 음악의 구조를 표현하는 구조 임베딩(embedding)의 시계열 형태의 입력 구조 데이터 및 미디(MIDI)를 표현하는 미디 임베딩의 시계열 형태의 입력 미디 데이터를 획득하는 과정; 상기 입력 구조 데이터를 사전에 트레이닝된 구조 추론 모델에 입력하여 결과 구조 데이터를 추론하는 과정; 상기 입력 미디 데이터를 사전에 트레이닝된 미디 추론 모델에 입력하여 결과 미디 데이터를 추론하는 과정; 및 상기 결과 구조 데이터 및 상기 결과 미디 데이터를 출력하는 과정을 포함하되, 상기 구조 추론 모델과 상기 미디 추론 모델은 구조 데이터 융합(fusion) 및 미디 데이터 융합을 이용하여 상호 결합하여 동작하는 것을 특징으로 하는 음악 생성방법을 제공한다.

본 발명의 다른 실시예에 따르면, 음악 생성장치에 이용되는 학습장치에 있어서, 학습용 원시(primitive) 데이터로부터 생성된 입력 구조 데이터를 딥러닝 기반 구조 추론 모델에 입력하여 결과 구조 데이터를 추론하며, 상기 학습용 원시 데이터로부터 생성된 입력 미디 데이터를 딥러닝 기반 미디 추론 모델에 입력하여 결과 미디 데이터를 추론하는 데이터생성부; 및 상기 결과 구조 데이터와 타겟 구조 데이터 간의 메트릭(metric), 및 상기 결과 미디 데이터와 타겟 미디 데이터 간의 메트릭이 가중합된 메트릭을 기반으로 상기 구조 추론 모델 및 미디 추론 모델의 파라미터를 업데이트하는 트레이닝부를 포함하되, 상기 구조 추론 모델은, 상기 미디 추론 모델이 생성하는 중간 미디 데이터를 입력으로 받아들이는 구조 데이터 융합층을 포함하고, 상기 미디 추론 모델은, 상기 구조 추론 모델의 결과 구조 데이터를 입력으로 받아들이는 미디 데이터 융합층을 포함하는 것을 특징으로 하는 학습장치를 제공한다.

본 발명의 다른 실시예에 따르면, 컴퓨팅 장치가 수행하는 학습방법에 있어서,

학습용 원시(primitive) 데이터로부터 생성된 입력 구조 데이터를 딥러닝 기반 구조 추론 모델에 입력하여 결과 구조 데이터를 추론하는 과정; 상기 학습용 원시 데이터로부터 생성된 입력 미디 데이터를 딥러닝 기반 미디 추론 모델에 입력하여 결과 미디 데이터를 추론하는 과정; 및 상기 결과 구조 데이터와 타겟 구조 데이터 간의 메트릭(metric), 및 상기 결과 미디 데이터와 타겟 미디 데이터 간의 메트릭이 가중합된 메트릭을 기반으로 상기 구조 추론 모델 및 미디 추론 모델의 파라미터를 업데이트하는 과정을 포함하되, 상기 구조 추론 모델은, 상기 미디 추론 모델이 생성하는 중간 미디 데이터를 입력으로 받아들이는 구조 데이터 융합층을 포함하고, 상기 미디 추론 모델은, 상기 구조 추론 모델의 결과 구조 데이터를 입력으로 받아들이는 미디 데이터 융합층을 포함하는 것을 특징으로 하는 학습방법을 제공한다.

본 발명의 다른 실시예에 따르면, 음악 생성방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램을 제공한다.

본 발명의 다른 실시예에 따르면, 컴퓨팅 장치가 수행하는 학습방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램을 제공한다.

이상에서 설명한 바와 같이 본 실시예에 따르면, 사용자가 입력한 데이터에 담긴 음악의 특성(구조, 악기의 구성, 멜로디 등)을 분석하여 유사한 특성을 갖는 음악을 무한히 생성하는 것이 가능한 음악 생성장치 및 방법을 제공함으로써, 사용자가 원하는 시간 동안 음악 감상이 가능해지는 효과가 있다. 여기서 사용자의 입력은 참조 음원, 직접 음성으로 녹음한 멜로디, MIDI 및 사용자가 원하는 형태의 구조 정보(예컨대 코드(chord)) 등이 될 수 있다.

또한 본 실시예에 따르면, 작곡가의 입력을 바탕으로 전개될 수 있는 다양한 형태의 음악을 자동으로 생성하는 것이 가능한 음악 생성장치 및 방법을 제공함으로써, 작곡가가 작곡할 때 보조를 받는 것이 가능해지는 효과가 있다. 여기서, 작곡가의 입력은 음원, 음성, 미디 및 구조 정보 등이 될 수 있다.

또한 본 실시예에 따르면, 음악 스트리밍 서비스를 이용하는 도중에 사용자가 청취 중인 노래를 분석하는 것이 가능한 음악 생성장치 및 방법을 제공함으로써, 분석한 결과를 이용하여 생성된 음악을 감상하는 것이 가능해지는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 음악 생성장치에 대한 구성도이다.
도 2는 본 발명의 일 실시예에 따른 데이터추출부에 대한 구성도이다.
도 3은 본 발명의 일 실시예에 따른 데이터생성부에 대한 구성도이다.
도 4는 본 발명의 일 실시예에 따른 구조 추론 모델 및 미디 추론 모델에 대한 구성도이다.
도 5는 본 발명의 일 실시예에 따른 음악 생성방법에 대한 순서도이다.

이하, 본 발명의 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 실시예들의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

또한, 본 실시예들의 구성요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다.

본 실시예는 딥러닝 기반 음악 생성장치 및 방법에 대한 내용을 개시한다. 보다 자세하게는, 음악의 구조 정보 및 멜로디를 포함하는 미디(MIDI: Musical Instrument Digital Interface) 정보 각각을 이용하는 구조 및 미디 추론 모델을 기반으로, 구조적 특성이 유지되는 음악을 무한한 길이로 생성하는 것이 가능한 음악 생성장치 및 방법을 제안한다.

본 실시예에서, 음악은 미디 포맷으로 표현되는 것으로 가정한다. 미디 포맷은 신디사이저(synthesizer) 또는 시퀀서(sequencer) 등의 하드웨어 혹은 소프트웨어가 음악을 재생하기 위해 사용하는 명령 순서에 대한 규칙이다. 미디 포맷을 사용하는 경우, 컴퓨터를 이용해서 연주 악기를 바꾸거나 음악을 구성하는 음표를 조정하는 것이 용이해진다. 미디 관련된 규칙은 미디 제작자 협회(MIDI Manufacturers Association)에서 규정한다.

본 실시예에서, 음악의 구조(structure, 이하 '구조')는 코드(chord)로 표현되는 것으로 가정한다. 음악은 고유의 계층 형태의 구조 특성을 갖는다. 음표(beat)가 모여 마디(measure)가 되고, 마디가 모여 절(phrase)을 생성하고, 절이 모여 하나의 곡이 완성된다. 예컨대, 대중음악의 경우 일반적으로 전주(intro)-절(verse)-후렴(chorus) 등의 패턴으로 구성된다. 대중음악의 패턴은 작곡가의 의도에 따라 다양한 변형이 가능하기 때문에 정형화된 표현이 어렵다. 따라서 본 실시예에서는, 음악의 구조 정보를 마디 단위에서 대표할 수 있는 코드를 이용하여 음악의 구조를 표현하는 것으로 가정한다.

도 1은 본 발명의 일 실시예에 따른 음악 생성장치에 대한 구성도이다.

본 발명에 따른 실시예에 있어서, 음악 생성장치(100)는 음악과 관련된 다양한 형태의 원시(primitive) 데이터를 획득하여 구조 및 미디 데이터를 추출하고, 추출한 데이터를 딥러닝(deep learning) 기반의 구조 및 미디 추론 모델(inference model)에 입력하여 구조적 특성이 유지되는 미디를 다양한 길이로 생성한다.

음악 생성장치(100)는 입력부(110), 데이터추출부(120), 데이터생성부(130) 및 출력부(140)의 전부 또는 일부를 포함한다.

여기서, 본 실시예에 따른 음악 생성장치(100)에 포함되는 구성요소가 반드시 이에 한정하는 것은 아니다. 예컨대, 음악 생성장치(100) 상에 추론 모델의 트레이닝을 위한 트레이닝부(training unit, 미도시)를 추가로 구비하거나, 외부의 트레이닝부와 연동되는 형태로 구현될 수 있다.

도 1의 도시는 본 실시예에 따른 예시적인 구성이며, 입력의 형태, 구조 및 미디 추출 방법 및 구조 및 미디 추론 모델의 형태에 따라 다른 구성요소 또는 구성요소 간의 다른 연결을 포함하는 구현이 가능하다.

입력부(110)는 음원(sound source), 음성(voice), 미디 및 구조 중 적어도 하나 이상의 원시(primitive) 데이터를 획득한다. 원시 데이터는 미디 및 구조의 추출이 가능한 음악과 관련된 어느 데이터든 포함할 수 있다.

데이터추출부(120)는 원시 데이터를 기반으로 입력 구조 데이터 및 입력 미디 데이터를 추출한다. 데이터추출부(120)는 내부에 구조 추출 모듈(121) 및 미디 추출 모듈(122)을 포함할 수 있다.

데이터추출부(120)는 원시 데이터 각각의 형태에 적합한 파이프라인(pipeline)을 이용하여 원시 데이터로부터 입력 구조 데이터 및 입력 미디 데이터를 추출한다.

데이터생성부(130)는 입력 구조 데이터 및 입력 미디 데이터를 이용하여 결과 구조 데이터 및 결과 미디 데이터를 원하는 길이만큼 추론한다. 데이터생성부(130)는 구조 추론 모델(131) 및 미디 추론 모델(132)을 포함할 수 있다.

구조 추론 모델(131) 및 미디 추론 모델(132)은 결과 구조 데이터 및 결과 미디 데이터를 추론하기 위하여 트레이닝부에 의하여 기 학습된 신경회로망(Neural Network) 기반의 딥러닝(deep learning) 모델을 이용할 수 있다. 딥러닝 모델의 구조 및 딥러닝 모델의 트레이닝 과정은 추후에 설명하기로 한다.

데이터추출부(120) 및 데이터생성부(130)의 구조 및 동작은 추후에 설명하기로 한다.

출력부(140)는 생성된 결과 구조 데이터 및 결과 미디 데이터를 출력한다.

이하 도 2를 참조하여, 데이터추출부(120)에 대하여 설명한다.

도 2는 본 발명의 일 실시예에 따른 데이터추출부에 대한 구성도이다. 데이터추출부(120)는 내부에 구조 추출 모듈(121) 및 미디 추출 모듈(122)을 포함할 수 있다.

본 실시예에 따른 구조 추출 모듈(121)은 원시 데이터로부터 음악의 구조 정보를 표현하는 코드를 추출하여 구조 추론 모델(131)에 적합하도록 구조 임베딩(embedding) 형태의 입력 구조 데이터를 생성한다. 도 2에 도시된 바와 같이, 구조를 추출하기 위해 구조 추출 모듈(121)은 음원, 음성, 미디 및 구조 중 적어도 하나의 원시 데이터를 이용할 수 있다.

원시 데이터가 코드로 표현된 구조인 경우, 입력 구조 데이터는 코드에 해당하는 구조 임베딩일 수 있다. 원시 데이터가 음원, 음성 또는 미디 중 하나인 경우, 복수의 방법으로 구조, 즉 코드를 추출하는 것이 가능하다. 본 실시예에서는, 추출용 프로그램을 이용하여 입력 구조 데이터를 추출하는 것으로 가정한다. 본 발명의 다른 실시예에서는, AI(Artificial Intelligence) 기반(예컨대, 머신 러닝(machine learning) 또는 딥러닝(deep learning))으로 입력 구조 데이터를 추출할 수 있다.

본 실시예에 따른 미디 추출 모듈(122)은 원시 데이터로부터 미디를 추출하여 미디 추론 모델(132)에 적합하도록 미디 임베딩 형태의 입력 미디 데이터를 생성한다. 도 2에 도시된 바와 같이, 미디를 추출하기 위해 미디 추출 모듈(122)은 음원, 음성 및 미디 중 적어도 하나의 원시 데이터를 이용할 수 있다.

원시 데이터가 미디로 표현된 경우, 입력 미디 데이터는 원시 데이터의 미디를 미디 임베딩 형태로 변환하여 생성할 수 있다. 원시 데이터가 음원 또는 음성 중 하나인 경우, 복수의 방법으로 미디를 추출하는 것이 가능하다. 본 실시예에서는, 추출용 프로그램을 이용하여 입력 미디 데이터를 추출하는 것으로 가정한다. 본 발명의 다른 실시예에서는, AI 기반(예컨대, 머신 러닝(machine learning) 또는 딥러닝(deep learning))으로 입력 미디 데이터를 추출할 수 있다.

단지 구조만이 원시 데이터로 획득되었을 때는, 미디 임베딩이 속하는 범위에 포함되는 값을 이용하여 입력 미디 데이터를 랜덤(random)하게 설정한다. 따라서, 미디에 대한 원시 데이터가 없는 경우에도 음악 생성장치(100)는 구조 데이터의 특성을 유지하는 미디를 생성하는 것이 가능하다.

본 실시예에 따른 구조 데이터에 대한 구조 임베딩은, 구조를 구성하는 코드 각각을 원핫인코딩(one-hot encoding) 벡터로 표현한 것이다.

본 실시예에 따른 미디 데이터에 대한 미디 임베딩을 표현하는 일 예는 다음과 같다. 미디 포맷에 따르면, 피아노 악기(#1 Acoustic Grand Piano)의 C3(#28), D3(#30), E3(#32) 음을 20의 세기(VELOCITY, 미디 포맷에서는 음의 세기를 VELOCITY로 표기한다)로 동시에 각각 50 ms, 100 ms, 200 ms 동안 누르는 동작은 [20 VELOCIY, 28 NOTE_ON, 30 NOTE_ON, 32 NOTE_ON, 50 TIME_SHIFT, 32 NOTE_OFF, 50 TIME_SHIFT, 28 NOTE_OFF, 100 TIME_SHIFT, 30 NOTE OFF]로 표현된다.

이 표현을 숫자로 표기하기 위해 NOTE_ON을 88 개, NOTE_OFF를 88 개, TIME_SHIFT를 100 개, VELOCITY를 32 개로 구분하고, 여기에 2 개의 EOS(End of Sequence)를 추가하여 총 310 개의 숫자가 정의될 수 있다(비특허문헌 2 참조). 정의된 숫자에 의거하여, 앞에 언급한 피아노에 대한 동작은 정수열 [297, 29, 31, 33, 227, 121, 227, 117, 277, 119]로 표기된다. 미디 임베딩은 정수열을 구성하는 정수 각각을 원핫인코딩 벡터로 표현한 것이다.

본 발명의 다른 실시예에서는, 구조 임베딩 및 미디 임베딩이 워드임베딩(word-embedding) 벡터와 같은 다른 방식으로 표현될 수 있다.

본 실시예에 따른 입력 구조 데이터 및 입력 미디 데이터는 임베딩의 시계열 형태로 구성된다. 입력 구조 데이터는 마디 단위의 코드에 대한 구조 임베딩의 시계열이고, 입력 미디 데이터는 음(또는 음표)에 대한 미디 임베딩의 시계열이다. 따라서, 여러 음으로 구성되는 마디 구간의 경우, 마디 내의 음 각각의 미디 데이터에 대하여 동일한 구조 데이터가 대응될 수 있다.

이하 도 3을 참조하여, 데이터생성부(130)에 대하여 설명한다.

도 3은 본 발명의 일 실시예에 따른 데이터생성부에 대한 구성도이다. 데이터생성부(130)는 구조 추론 모델(131) 및 미디 추론 모델(132)을 포함할 수 있다. 구조 추론 모델(131)은 입력 구조 데이터를 기반으로 결과 구조 데이터를 원하는 길이만큼 추론하여 생성한다. 한편, 미디 추론 모델(132)은 입력 미디 데이터를 기반으로 결과 미디 데이터를 원하는 길이만큼 추론하여 생성한다.

구조 추론 모델(131)은 구조 인코더(301) 및 구조 디코더(302)를 포함할 수 있다. 한편, 미디 추론 모델(132)은 미디 인코더(303) 및 미디 디코더(304)를 포함할 수 있다.

본 실시예에 따른 구조 인코더(301)는 입력 구조 데이터를 인코딩하여 중간(intermediate) 구조 데이터를 생성한다. 한편, 미디 인코더(303)는 입력 미디 데이터를 인코딩하여 중간 미디 데이터를 생성한다.

본 실시예에 따른 구조 디코더(302)는 중간 구조 데이터 및 중간 미디 데이터를 결합하는 구조 데이터 융합(fusion) 기술에 기반하여 결과 구조 데이터를 생성한다. 한편 미디 디코더(302)는 중간 미디 데이터 및 결과 구조 데이터를 결합하는 미디 데이터 융합 기술에 기반하여 결과 미디 데이터를 생성한다. 전술한 바와 같이, 구조 데이터 융합 및 미디 데이터 융합 기술을 이용하여 구조 추론 모델(131) 및 미디 추론 모델(132)은 상호 결합한 상태로 동작한다.

단지 구조만이 원시 데이터로 획득되었을 때는, 랜덤하게 설정된 입력 미디 데이터를 이용하므로, 정규화에 의하여 -1에서 1 사이의 랜덤값으로 생성된 중간 미디 데이터가 미디 디코더(304)와 구조 디코더(302)로 전달된다.

본 실시예에 따른 구조 추론 모델(131)은 시계열 형태의 입력 구조 데이터를 기반으로 구조 임베딩 하나만큼 시간적으로 이동된(time-shifted) 시계열 형태의 결과 구조 데이터를 추론한다. 미디 추론 모델(132)은 시계열 형태의 입력 미디 데이터를 기반으로 미디 임베딩 하나만큼 시간적으로 이동된 시계열 형태의 결과 미디 데이터를 추론한다. 구조 추론 모델(131) 및 미디 추론 모델(132)은 시간적으로 미래의 결과 데이터를 추론하나, 필요한 경우에는 시간 회귀적으로 결과 데이터를 추론하도록 동작할 수 있다.

이상에서 설명한 바와 같이 본 실시예에 따르면, 사용자가 입력한 원시 데이터에 담긴 음악의 특성(구조, 악기의 구성, 멜로디 등)을 분석하여 유사한 특성을 갖는 음악을 무한히 생성함으로써, 사용자가 원하는 시간 동안 음악 감상이 가능해지는 효과가 있다.

또한 본 실시예에 따르면, 작곡가가 입력한 원시 데이터를 바탕으로 전개될 수 있는, 다양한 형태의 음악을 생성하는 것이 가능한 음악 생성장치를 제공함으로써, 작곡가가 작곡할 때 보조를 받는 것이 가능해지는 효과가 있다.

또한 본 실시예에 따르면, 음악 스트리밍 서비스를 이용하는 도중에 사용자가 청취 중인 노래를 원시 데이터로 이용하여 분석하는 것이 가능한 음악 생성장치를 제공함으로써, 분석한 결과를 이용하여 생성된 음악을 사용자가 감상하는 것이 가능해지는 효과가 있다.

전술한 바와 같이 본 실시예에 따른 구조 추론 모델(131) 및 미디 추론 모델(132)은 딥러닝(deep learning) 모델을 이용할 수 있다. 이하 도 4를 참조하여 딥러닝 모델을 설명한다.

도 4는 본 발명의 일 실시예에 따른 구조 추론 모델 및 미디 추론 모델에 대한 구성도이다.

딥러닝 모델은 인코더-디코더 구조를 보유하는 어느 모델이든 될 수 있다. 예컨대, CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), 트랜스포머망(Transformer Network) 등이 사용될 수 있다. 본 실시예는, 도 4에 도시된 바대로, 트랜스포머망에 기반하는 것을 가정한다. 트랜스포머망은 시계열 입력 데이터 간 어텐션(attention)을 이용하여 시계열 출력을 추론하는 데 탁월한 성능을 보이는 딥러닝 모델로서, 자연어처리(Natural Language Processing: NLP) 분야에 널리 이용된다.

전술한 구조 데이터 융합 및 미디 데이터 융합 기술의 적용 때문에, 본 실시예에 따른 구조 추론 모델(131) 및 미디 추론 모델(132)은 동일한 구조의 트랜스포머망을 이용한다. 이하 하나의 트랜스포머망의 구조 및 동작에 대하여 설명하기로 한다.

도 4에 도시된 바대로, 구조 인코더(301) 및 미디 인코더(303)는 각각 N(N은 자연수) 개의 인코딩 모듈이 중첩된 구조이고, 구조 디코더(302) 및 미디 디코더(304)는 각각 N 개의 디코딩 모듈이 중첩된 구조일 수 있다. 트랜스포머망 및 트랜스포머망에 포함되는 인코딩 모듈 및 디코딩 모듈의 구조는 본 실시예에서 이용될 뿐이므로, 더 이상의 자세한 설명은 생략한다(비특허문헌 1 참조).

전술한 바와 같이 본 실시예에서는, 구조 추론 모델(131) 및 미디 추론 모델(132)을 상호 결합하기 위한 데이터 융합 부분을 종래의 트랜스포머망에 추가한다. 도 4에 도시된 바와 같이 인코딩 모듈의 출력 데이터는 다른 인코딩 또는 디코딩 모듈의 출력과 융합층(fusion layer)에서 결합된 후, 디코딩 모듈의 셀프어텐션 레이어(self-attention layer)에 입력된다.

즉, 구조 데이터 융합층(401)은 피드포워드층(feed forward layer)으로서, 미디 인코더(303)가 생성한 중간 미디 데이터와 구조 인코더(301)가 생성한 중간 구조 데이터를 결합하여 구조 디코더(302)에 제공한다. 미디 데이터 융합층(402)은 피드포워드층으로서, 미디 인코더(301)가 생성한 중간 미디 데이터와 구조 디코더(302)가 생성한 결과 구조 데이터를 결합하여 미디 디코더(304)에 제공한다.

도 4에 예시된 바와 같이, 구조 디코더(302)와 미디 디코더(304) 각각의 두 번째 셀프어텐션 레이어는 융합층의 출력과 이전 레이어의 출력을 기반으로 출력을 생성할 수 있다. 잘 알려진 바와 같이, 셀프어텐션 레이어는 Q(Query), K(Key) 및 V(value)의 입력을 기반으로 출력을 생성한다(비특허문헌 1의 그림 2). 따라서, 구조 데이터 융합층(401)과 이전 레이어의 출력은 구조 디코더(302)의 두 번째 셀프어텐션 레이어의 Q/K/V에 입력될 수 있고, 미디 데이터 융합층(402)과 이전 레이어의 출력은 미디 디코더(304)의 두 번째 셀프어텐션 레이어의 Q/K/V에 입력될 수 있다.

이하 본 실시예에 따른 구조 추론 모델(131) 및 미디 추론 모델(132)의 트레이닝 과정에 대하여 설명한다.

본 발명의 실시예에 있어서, 트레이닝부는 학습용 원시 데이터를 획득한다. 학습용 원시 데이터는 시계열 형태의 구조 벡터 및 미디 벡터 등이다. 여기서 구조 벡터 및 미디 벡터 각각은 일정 시간 구간(time interval)에 해당하는 구조 임베딩 및 미디 임베딩을 포함한다.

트레이닝부는 이전 시간 구간의 벡터를 입력 구조 데이터 및 입력 미디 데이터로 이용하고, 이어지는 시간 구간의 벡터를 타겟 구조 데이터 및 타겟 미디 데이터로 선정하여 입력 데이터에 대한 라벨(label)로 이용한다.

트레이닝부는 입력 구조 데이터를 구조 추론 모델(131)에 입력하여 결과 구조 데이터를 추론한다. 또한 입력 미디 데이터를 미디 추론 모델(132)에 입력하여 결과 미디 데이터를 추론한다.

본 실시예에 따른 트레이닝부는 추론한 결과 구조 데이터와 타겟 구조 데이터 간의 거리 메트릭(distance metric)

및 추론한 결과 미디 데이터와 타겟 미디 데이터 간의 거리 메트릭

의 가중합

에 기반하여 구조 추론 모델(131) 및 미디 추론 모델(132)의 파라미터를 업데이트한다.

여기서 가중합은 수학식 1로 표현한다.

거리 메트릭은 L1 및 L2 메트릭 등, 두 비교 대상 간의 메트릭 차이를 표현할 수 있는 것이면 어느 것이든 이용이 가능하다.

본 실시예에 따른 음악 생성장치(100)가 탑재되는 디바이스(미도시)는 프로그램가능 컴퓨터일 수 있으며, 서버(미도시)와 연결이 가능한 적어도 한 개의 통신 인터페이스를 포함한다.

전술한 바와 같은 구조 추론 모델(131) 및 미디 추론 모델(132)에 대한 트레이닝은, 음악 생성장치(100)가 탑재되는 디바이스의 컴퓨팅 파워에 의거하여 디바이스에서 진행될 수 있다.

전술한 바와 같은 구조 추론 모델(131) 및 미디 추론 모델(132)에 대한 트레이닝은 서버에서 진행될 수 있다. 디바이스 상에 탑재된 음악 생성장치(100)의 구성요소인 구조 추론 모델(131) 및 미디 추론 모델(132)과 동일한 구조의 딥러닝 모델에 대하여 서버의 트레이닝부는 트레이닝을 수행할 수 있다. 디바이스와 연결되는 통신 인터페이스를 이용하여 서버는 트레이닝된 파라미터를 디바이스로 전달하고, 전달받은 파라미터를 이용하여 음악 생성장치(100)는 구조 추론 모델(131) 및 미디 추론 모델(132)의 파라미터를 업데이트할 수 있다. 또한 디바이스 출하 시점 또는 음악 생성장치(100)가 디바이스에 탑재되는 시점에, 구조 추론 모델(131) 및 미디 추론 모델(132)의 파라미터가 설정될 수 있다.

도 5는 본 발명의 일 실시예에 따른 음악 생성방법에 대한 순서도이다.

도 5에 도시된 순서도는, 본 실시예에 따른 음악 생성장치(100)가 수행하는 음악 생성방법을 나타낸다.

음악 생성장치(100)는 미디 또는 음악 구조를 포함하는 원시 데이터를 획득한다(S501). 원시 데이터는 음원, 음성, 미디 및 구조 중 적어도 하나 이상을 포함한다.

음악 생성장치(100)는 원시 데이터를 기반으로 입력 구조 데이터 및 입력 미디 데이터를 추출한다(S502). 음악 생성장치(100)는 원시 데이터로부터 음악의 구조 정보를 표현하는 코드를 추출하여 구조 추론 모델(131)에 적합하도록 구조 임베딩(embedding) 형태로 변환된 입력 구조 데이터를 생성한다. 또한 음악 생성장치(100)는 원시 데이터로부터 미디를 추출하여 미디 추론 모델(132)에 적합하도록 미디 임베딩 형태로 변환된 입력 미디 데이터를 생성한다.

단지 구조만이 원시 데이터로 획득되었을 때는, 미디 임베딩이 속하는 범위에 포함되는 값을 이용하여 입력 미디 데이터를 랜덤하게 설정한다.

음악 생성장치(100)는 입력 구조 데이터를 사전에 트레이닝된 구조 추론 모델(131)에 입력하여 원하는 길이만큼 결과 구조 데이터를 추론한다(S503).

음악 생성장치(100)는 입력 미디 데이터를 사전에 트레이닝된 미디 추론 모델(132)에 입력하여 원하는 길이만큼 결과 미디 데이터를 추론하여 생성한다(S504). 구조 데이터 융합 및 미디 데이터 융합 기술을 이용하여 구조 추론 모델(131) 및 미디 추론 모델(132)은 상호 결합한 상태로 동작한다.

구조 추론 모델(131)은 시계열 형태의 입력 구조 데이터를 기반으로 구조 임베딩 하나만큼 시간적으로 이동된 시계열 형태의 결과 구조 데이터를 추론한다. 미디 추론 모델(132)은 시계열 형태의 입력 미디 데이터를 기반으로 미디 임베딩 하나만큼 시간적으로 이동된 시계열 형태의 결과 미디 데이터를 추론한다.

음악 생성장치(100)는 생성된 결과 구조 데이터 및 결과 미디 데이터를 출력한다(S505).

본 실시예에 따른 각 순서도에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 순서도에 기재된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것이 적용 가능할 것이므로, 순서도는 시계열적인 순서로 한정되는 것은 아니다.

본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적 회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터-판독가능 매체"에 저장된다.

컴퓨터-판독가능 매체는, 명령어들 및/또는 데이터를 프로그래밍가능 프로세서에게 제공하기 위해 사용되는, 임의의 컴퓨터 프로그램 제품, 장치, 및/또는 디바이스(예를 들어, CD-ROM, ROM, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등의 비휘발성 또는 비일시적인 기록매체)를 나타낸다.

본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 프로그램가능 컴퓨터에 의하여 구현될 수 있다. 여기서, 컴퓨터는 프로그램가능 프로세서, 데이터 저장 시스템(휘발성 메모리, 비휘발성 메모리, 또는 다른 종류의 저장 시스템이거나 이들의 조합을 포함함) 및 적어도 한 개의 커뮤니케이션 인터페이스를 포함한다. 예컨대, 프로그램가능 컴퓨터는 서버, 네트워크 기기, 셋탑 박스, 내장형 장치, 컴퓨터 확장 모듈, 개인용 컴퓨터, 랩탑, PDA(Personal Data Assistant), 클라우드 컴퓨팅 시스템 또는 모바일 장치 중 하나일 수 있다.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 음악 생성장치 110: 입력부
120: 데이터추출부 121: 구조 추출 모듈
122: 미디 추출 모듈 130: 데이터생성부
131: 구조 추론 모델 132: 미디 추론 모델
140: 출력부

Claims

음악 생성장치에 이용되는 학습장치에 있어서,
학습용 원시(primitive) 데이터로부터 생성된 입력 구조 데이터를 딥러닝 기반 구조 추론 모델에 입력하여 결과 구조 데이터를 추론하며, 상기 학습용 원시 데이터로부터 생성된 입력 미디 데이터를 딥러닝 기반 미디 추론 모델에 입력하여 결과 미디 데이터를 추론하는 데이터생성부; 및
상기 결과 구조 데이터와 타겟 구조 데이터 간의 메트릭(metric), 및 상기 결과 미디 데이터와 타겟 미디 데이터 간의 메트릭이 가중합된 메트릭을 기반으로 상기 구조 추론 모델 및 미디 추론 모델의 파라미터를 업데이트하는 트레이닝부
를 포함하되,
상기 구조 추론 모델은, 상기 미디 추론 모델이 생성하는 중간 미디 데이터를 입력으로 받아들이는 구조 데이터 융합층을 포함하고,
상기 미디 추론 모델은, 상기 구조 추론 모델의 결과 구조 데이터를 입력으로 받아들이는 미디 데이터 융합층을 포함하는 것을 특징으로 하는 학습장치.
제1항에 있어서,
상기 학습용 원시 데이터는,
시계열 형태의 구조 벡터 및 미디 벡터를 나타내고, 상기 구조 벡터는 일정 시간 구간에 해당하는, 음악의 구조를 표현하는 구조 임베딩(embedding)을 포함하고, 상기 미디 벡터는 상기 일정 시간 구간에 해당하는, 미디(MIDI)를 표현하는 미디 임베딩을 포함하는 것을 특징으로 하는 학습장치.
제2항에 있어서,
이전 시간 구간의 구조 벡터를 상기 입력 구조 데이터로 이용하고, 이어지는 시간 구간의 구조 벡터를 상기 타겟 구조 데이터로 선정하여 상기 구조 추론 모델을 트레이닝하기 위한 레이블로 이용하는 것을 특징으로 하는 학습장치.
제2항에 있어서,
이전 시간 구간의 미디 벡터를 상기 입력 미디 데이터로 이용하고, 이어지는 시간 구간의 미디 벡터를 상기 타겟 미디 데이터로 선정하여 상기 미디 추론 모델을 트레이닝하기 위한 레이블로 이용하는 것을 특징으로 하는 학습장치.
제2항에 있어서,
상기 구조 추론 모델은 상기 시계열 형태의 입력 구조 데이터를 기반으로, 상기 구조 임베딩 하나만큼 시간적으로 이동된(time-shifted) 시계열 형태의 결과 구조 데이터를 추론하고, 상기 미디 추론 모델은 상기 시계열 형태의 입력 미디 데이터를 기반으로, 상기 미디 임베딩 하나만큼 시간적으로 이동된 시계열 형태의 결과 미디 데이터를 추론하는 것을 특징으로 하는 학습장치.
컴퓨팅 장치가 수행하는 학습방법에 있어서,
학습용 원시(primitive) 데이터로부터 생성된 입력 구조 데이터를 딥러닝 기반 구조 추론 모델에 입력하여 결과 구조 데이터를 추론하는 과정;
상기 학습용 원시 데이터로부터 생성된 입력 미디 데이터를 딥러닝 기반 미디 추론 모델에 입력하여 결과 미디 데이터를 추론하는 과정; 및
상기 결과 구조 데이터와 타겟 구조 데이터 간의 메트릭(metric), 및 상기 결과 미디 데이터와 타겟 미디 데이터 간의 메트릭이 가중합된 메트릭을 기반으로 상기 구조 추론 모델 및 미디 추론 모델의 파라미터를 업데이트하는 과정
을 포함하되,
상기 구조 추론 모델은, 상기 미디 추론 모델이 생성하는 중간 미디 데이터를 입력으로 받아들이는 구조 데이터 융합층을 포함하고,
상기 미디 추론 모델은, 상기 구조 추론 모델의 결과 구조 데이터를 입력으로 받아들이는 미디 데이터 융합층을 포함하는 것을 특징으로 하는 학습방법.
제6항에 있어서,
상기 학습용 원시 데이터는,
시계열 형태의 구조 벡터 및 미디 벡터를 나타내고, 상기 구조 벡터는 일정 시간 구간에 해당하는, 음악의 구조를 표현하는 구조 임베딩(embedding)을 포함하고, 상기 미디 벡터는 상기 일정 시간 구간에 해당하는, 미디(MIDI)를 표현하는 미디 임베딩을 포함하는 것을 특징으로 하는 학습방법.
제7항에 있어서,
이전 시간 구간의 구조 벡터를 상기 입력 구조 데이터로 이용하고, 이어지는 시간 구간의 구조 벡터를 상기 타겟 구조 데이터로 선정하여 상기 구조 추론 모델을 트레이닝하기 위한 레이블로 이용하는 것을 특징으로 하는 학습방법.
제7항에 있어서,
이전 시간 구간의 미디 벡터를 상기 입력 미디 데이터로 이용하고, 이어지는 시간 구간의 미디 벡터를 상기 타겟 미디 데이터로 선정하여 상기 미디 추론 모델을 트레이닝하기 위한 레이블로 이용하는 것을 특징으로 하는 학습방법.
제7항에 있어서,
상기 구조 추론 모델은 상기 시계열 형태의 입력 구조 데이터를 기반으로, 상기 구조 임베딩 하나만큼 시간적으로 이동된(time-shifted) 시계열 형태의 결과 구조 데이터를 추론하고, 상기 미디 추론 모델은 상기 시계열 형태의 입력 미디 데이터를 기반으로, 상기 미디 임베딩 하나만큼 시간적으로 이동된 시계열 형태의 결과 미디 데이터를 추론하는 것을 특징으로 하는 학습방법.
제6항 내지 제10항 중 어느 한 항에 따른 컴퓨팅 장치가 수행하는 학습방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램.