KR102576606B1

KR102576606B1 - 음색 임베딩 모델 학습 장치 및 방법

Info

Publication number: KR102576606B1
Application number: KR1020210039659A
Authority: KR
Inventors: 최정; 장성원; 정세희; 조현석
Original assignee: 주식회사 엔씨소프트
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2023-09-08
Also published as: KR20220134247A

Abstract

음색 임베딩 모델 학습 장치 및 방법이 개시된다. 일 실시예에 따른 음색 임베딩 모델 학습 방법은, 하나 이상의 프로세서, 및 상기 하나 이상의 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 제1 음원 데이터, 상기 제1 음원 데이터와 음색이 동일한 제1 긍정 샘플 음원 데이터 및 상기 제1 음원 데이터와 음색이 상이한 제1 부정 샘플 음원 데이터 각각에 대해 음색(Timbre) 인코더가 생성한 음색 임베딩 벡터에 기초하여 상기 음색 인코더를 학습시키는 제1 학습 동작; 및 제2 음원 데이터, 상기 제2 음원 데이터와 음색이 동일한 제2 긍정 샘플 음원 데이터 및 상기 제2 음원 데이터와 음색이 상이한 제2 부정 샘플 음원 데이터 각각에 대해 상기 학습된 음색 인코더가 생성한 음색 임베딩 벡터, 상기 제2 음원 데이터에 대한 음색 임베딩 벡터에 기초하여 디코더가 생성한 상기 제2 음원 데이터에 대한 재구성 음원 데이터 및 상기 재구성 음원 데이터에 대해 상기 학습된 음색 인코더가 생성한 음색 임베딩 벡터에 기초하여 상기 학습된 음색 인코더 및 상기 디코더를 학습시키는 제2 학습 동작을 포함한다.

Description

음색 임베딩 모델 학습 장치 및 방법{APPARATUS AND METHOD FOR TIMBRE EMBEDDING MODEL LEARNING}

개시되는 실시예들은 음색 임베딩 모델 학습 기술과 관련된다.

협업 필터링(CF; Collaborative Filtering)은 사용자들로부터 기호에 관련된 정보를 획득하여 사용자들의 관심사를 자동으로 예측하는 방법으로, 영화, 음악, 게임 등 다양한 아이템을 사용자들에게 추천함에 있어 각광받는 기술이다.

사용자들의 음악적 취향과 관련된 정보를 획득하여 협업 필터링을 위한 모델을 학습함으로써, 사용자들의 취향에 따라 추천 음악을 예측하고 음악을 자동으로 추천하는 기술은 개시되어 있다.

그러나, 기존의 협업 필터링을 위한 모델은 사용자의 명시적인 감상기록(explicit feedback) 또는 추천되었으나 감상하지 않는 사용자의 내재적 반응(implicit feedback) 등을 활용하여 사용자의 취향을 파악하기 때문에, 사용자 기록이 존재하는 경우에만 정확한 추천을 제공하는 한계가 있었다.

Lee, K., & Nam, J. (2019). "Learning a joint embedding space of monophonic and mixed music signals for singing voice." in Proc. The 20th International Society for Music Information Retrieval (ISMIR)

개시되는 실시예들은 음색 임베딩 모델 학습 수단을 제공하기 위한 것이다.

개시되는 일 실시예에 따른 음색 임베딩 모델 학습 방법은, 하나 이상의 프로세서, 및 상기 하나 이상의 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 제1 음원 데이터, 상기 제1 음원 데이터와 음색이 동일한 제1 긍정 샘플 음원 데이터 및 상기 제1 음원 데이터와 음색이 상이한 제1 부정 샘플 음원 데이터 각각에 대해 음색(Timbre) 인코더가 생성한 음색 임베딩 벡터에 기초하여 상기 음색 인코더를 학습시키는 제1 학습 동작; 및 제2 음원 데이터, 상기 제2 음원 데이터와 음색이 동일한 제2 긍정 샘플 음원 데이터 및 상기 제2 음원 데이터와 음색이 상이한 제2 부정 샘플 음원 데이터 각각에 대해 상기 학습된 음색 인코더가 생성한 음색 임베딩 벡터, 상기 제2 음원 데이터에 대한 음색 임베딩 벡터에 기초하여 디코더가 생성한 상기 제2 음원 데이터에 대한 재구성 음원 데이터 및 상기 재구성 음원 데이터에 대해 상기 학습된 음색 인코더가 생성한 음색 임베딩 벡터에 기초하여 상기 학습된 음색 인코더 및 상기 디코더를 학습시키는 제2 학습 동작을 포함한다.

상기 제1 학습 동작은, 상기 제1 음원 데이터에 대한 음색 임베딩 벡터와 상기 제1 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터가 유사해지고, 상기 제1 음원 데이터에 대한 음색 임베딩 벡터와 상기 제1 부정 샘플 음원 데이터에 대한 음색 임베딩 벡터가 비유사해지는 방향으로 상기 음색 인코더를 학습시킬 수 있다.

상기 제1 학습 동작은, 상기 제1 음원 데이터에 대한 음색 임베딩 벡터와 상기 제1 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터 사이의 차이 및 상기 제1 음원 데이터에 대한 음색 임베딩 벡터와 상기 제1 부정 샘플 음원 데이터 사이의 차이에 기초한 제1 손실을 이용하여 상기 음색 인코더를 학습시킬 수 있다.

상기 재구성 음원 데이터는, 상기 제2 음원 데이터에 기초하여 피치(Pitch) 인코더가 생성한 피치 임베딩 벡터 및 상기 제2 음원 데이터에 대한 음색 임베딩 벡터에 기초하여 생성된 벡터를 상기 디코더의 입력 벡터로 이용하여 생성될 수 있다.

상기 제2 학습 동작은, 상기 제2 음원 데이터에 대한 음색 임베딩 벡터가 상기 제2 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터 및 상기 재구성 음원 데이터에 대한 음색 임베딩 벡터와 유사해지고, 상기 제2 음원 데이터에 대한 음색 임베딩 벡터는 상기 제2 부정 샘플 음원 데이터에 대한 음색 임베딩 벡터와 비유사해지며, 상기 제2 음원 데이터와 상기 재구성 음원 데이터는 유사해지도록 상기 학습된 음색 인코더 및 상기 디코더를 학습시킬 수 있다.

상기 제2 학습 동작은, 상기 제2 음원 데이터에 대한 음색 임베딩 벡터와 상기 제2 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터 사이의 차이 및 상기 제2 음원 데이터에 대한 음색 임베딩 벡터와 상기 제2 부정 샘플 음원 데이터에 대한 음색 임베딩 벡터 사이의 차이에 기초한 제1 손실, 상기 제2 음원 데이터와 상기 재구성 음원 데이터 사이의 차이에 기초한 제2 손실 및 상기 재구성 음원 데이터에 대한 음색 임베딩 벡터와 상기 제2 음원 데이터에 대한 음색 임베딩 벡터 사이의 차이에 기초한 제3 손실을 가중합하여 생성한 총 손실을 기초로 상기 학습된 음색 인코더 및 상기 디코더를 학습시킬 수 있다.

일 실시예에 따른 음색 임베딩 모델 학습 장치는, 제1 음원 데이터, 상기 제1 음원 데이터와 음색이 동일한 제1 긍정 샘플 음원 데이터 및 상기 제1 음원 데이터와 음색이 상이한 제1 부정 샘플 음원 데이터 각각에 대해 음색(Timbre) 인코더가 생성한 음색 임베딩 벡터에 기초하여 상기 음색 인코더를 학습시키는 제1 학습부; 및 제2 음원 데이터, 상기 제2 음원 데이터와 음색이 동일한 제2 긍정 샘플 음원 데이터 및 상기 제2 음원 데이터와 음색이 상이한 제2 부정 샘플 음원 데이터 각각에 대해 상기 학습된 음색 인코더가 생성한 음색 임베딩 벡터, 상기 제2 음원 데이터에 대한 음색 임베딩 벡터에 기초하여 디코더가 생성한 상기 제2 음원 데이터에 대한 재구성 음원 데이터 및 상기 재구성 음원 데이터에 대해 상기 학습된 음색 인코더가 생성한 음색 임베딩 벡터에 기초하여 상기 학습된 음색 인코더 및 상기 디코더를 학습시키는 제2 학습부를 포함한다.

상기 제1 학습부는, 상기 제1 음원 데이터에 대한 음색 임베딩 벡터와 상기 제1 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터가 유사해지고, 상기 제1 음원 데이터에 대한 음색 임베딩 벡터와 상기 제1 부정 샘플 음원 데이터에 대한 음색 임베딩 벡터가 비유사해지는 방향으로 상기 음색 인코더를 학습시킬 수 있다.

상기 제1 학습부는, 상기 제1 음원 데이터에 대한 음색 임베딩 벡터와 상기 제1 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터 사이의 차이 및 상기 제1 음원 데이터에 대한 음색 임베딩 벡터와 상기 제1 부정 샘플 음원 데이터 사이의 차이에 기초한 제1 손실을 이용하여 상기 음색 인코더를 학습시킬 수 있다.

상기 제2 학습부는, 상기 제2 음원 데이터에 대한 음색 임베딩 벡터가 상기 제2 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터 및 상기 재구성 데이터에 대한 음색 임베딩 벡터와 유사해지고, 상기 제2 음원 데이터에 대한 음색 임베딩 벡터는 상기 제2 부정 샘플 음원 데이터에 대한 음색 임베딩 벡터와 비유사해지며, 상기 제2 음원 데이터와 상기 재구성 음원 데이터가 유사해지도록 상기 학습된 음색 인코더 및 상기 디코더를 학습시킬 수 있다.

상기 제2 학습부는, 상기 제2 음원 데이터에 대한 음색 임베딩 벡터와 상기 제2 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터 사이의 거리 및 상기 제2 음원 데이터에 대한 음색 임베딩 벡터와 상기 제2 부정 샘플 음원 데이터에 대한 음색 임베딩 벡터 사이의 거리에 기초한 제1 손실, 상기 제2 음원 데이터와 상기 재구성 음원 데이터의 차이에 기초하여 생성된 제2 손실 및 상기 재구성 음원 데이터에 대한 음색 임베딩 벡터와 상기 제2 음원 데이터에 대한 음색 임베딩 벡터의 차이에 기초하여 생성된 제3 손실을 가중합하여 생성한 총 손실을 기초로 상기 학습된 음색 인코더 학습시킬 수 있다.

개시되는 실시예들에 따르면, 스템 단위의 음원들 사이의 유사도를 비교하기 위한 음색 임베딩 벡터를 생성할 수 있다. 또한 개시되는 실시예들에 따르면, 멜로디(Melody), 구조 분석(Structure analysis), 템포(Tempo), 리듬(Rhythm), 하모니(Harmony)와 같은 곡의 구성(Song Form)의 유사성, 또는 음색(Timbre), 장르(Genre), 분위기(Mood) 등을 포함하는 추상적 레벨에서의 음악의 유사성을 이용하는 내용기반(content-based) 추천에 활용될 수 있는 음색 임베딩 벡터를 음악 오디오로부터 추출해 낼 수 있다.

또한 개시되는 실시예들에 따르면, 음색 임베딩 벡터에 기초하여 스템 단위의 음원의 유사도를 음색을 기준으로 비교하여 사용자들에게 제공함으로써 음원의 유사도 정보에 기초하여 개인 스스로 복수의 스템 단위의 음원을 조합하여 홈레코딩 작업을 수행할 수 있다.

도 1은 일 실시예에 따른 음색 임베딩 모델 학습 장치의 블록도
도 2는 일 실시예에 따른 제1 학습부(110)에 의해 수행되는 학습 과정을 예시적으로 설명하기 위한 흐름도
도 3은 일 실시예에 따른 일 실시예에 따른 제2 학습부(120)에 의해 수행되는 학습 과정을 예시적으로 설명하기 위한 흐름도
도 4는 일 실시예에 따른 피치 임베딩 벡터를 고려하여 제2 학습부(120)에 의해 수행되는 학습 과정을 예시적으로 설명하기 위한 블록도
도 5은 일 실시예에 따른 음색 임베딩 모델 학습 방법의 흐름도
도 6은 일 실시예에 따른 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도

이하, 도면을 참조하여 구체적인 실시 형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 개시되는 실시예들은 이에 제한되지 않는다.

실시예들을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 개시되는 실시예들의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 개시되는 실시예들에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.

도 1은 일 실시예에 따른 음색 임베딩 모델 학습 장치의 블록도이다.

도시된 바와 같이, 일 실시예에 따른 음색 임베딩 모델 학습 장치(100)는 제1 학습부(110) 및 제2 학습부(120)를 포함한다.

일 실시예에서 제1 학습부(110) 및 제2 학습부(120)는 물리적으로 구분된 하나 이상의 장치를 이용하여 구현되거나, 하나 이상의 프로세서 또는 하나 이상의 프로세서 및 소프트웨어의 결합에 의해 구현될 수 있으며, 도시된 예와 달리 구체적 동작에 있어 명확히 구분되지 않을 수 있다.

이하의 실시예들에서, 음색(Timbre)이란 소리의 높이, 크기, 리듬 등과 상관없이 소리를 발생하는 사람이나 악기에 따라 소리가 구분되어 들리게 하는 소리의 특징을 의미한다.

음색 임베딩 모델 학습 장치(100)는 입력된 음원 데이터의 음색에 대응되는 음색 임베딩 벡터를 생성하도록 음색 임베딩 모델을 학습시키는 장치이다. 이때, 음색 임베딩 벡터는 음원 데이터가 가지고 있는 음색을 벡터로 수치화하여 표현한 것을 의미할 수 있다.

제1 학습부(110)는 제1 음원 데이터, 제1 음원 데이터와 음색이 동일한 제1 긍정 샘플 음원 데이터 및 제1 음원 데이터와 음색이 상이한 제1 부정 샘플 음원 데이터 각각에 대해 음색(Timbre) 인코더가 생성한 음색 임베딩 벡터에 기초하여 음색 인코더를 학습시킨다.

이때, 음색 인코더(Timbre Encoder)는 입력되는 음원 데이터에 대응되는 음색 임베딩 벡터를 생성하기 위한 것으로, 예를 들어, RNN(Recurrent Neural Network), CNN(Convolutional Neural Network) 등과 같은 인공 신경망으로 구성될 수 있다.

한편, 일 실시예에 따르면, 제1 음원 데이터는 스템(stem) 단위의 음원 데이터일 수 있다. 스템 단위의 음원 데이터는 원곡 음원에서 반주를 이루는 악기와 보컬 각각에 대응되는 음원을 분리함으로써 생성된 음원 데이터를 의미한다.

도 2는 일 실시예에 따른 제1 학습부(110)에 의해 수행되는 학습 과정을 예시적으로 설명하기 위한 도면이다.

도 2를 참조하면, 제1 학습부(110)는 제1 음원 데이터(220), 제1 음원 데이터(220)와 음색이 동일한 제1 긍정 샘플 음원 데이터(230) 및 제1 음원 데이터와 음색이 상이한 제1 부정 샘플 음원 데이터(240) 각각을 음색 인코더(210)로 입력하여, 제1 음원 데이터(220), 제1 긍정 샘플 음원 데이터(230), 제1 부정 샘플 음원 데이터(240) 각각 대한 음색 임베딩 벡터(250, 260, 270)를 생성할 수 있다.

이때, 일 실시예에 따르면, 제1 긍정 샘플 음원 데이터(230)는 제1 음원 데이터(220)와 곡 구성(Song Form)은 상이하나 음색은 동일한 음원 데이터일 수 있다. 예를 들어, 제1 긍정 샘플 음원 데이터(230)는 음원 데이터와 곡의 구성이 상이한 부분을 동일한 악기로 연주된 음원을 포함할 수 있다.

또한, 제1 부정 샘플 음원 데이터(240)는 제1 음원 데이터(220)와 곡 구성은 동일하나 음색은 상이한 음원 데이터일 수 있다. 예를 들어, 제1 부정 샘플 음원 데이터(240)는 음원 데이터와 곡의 구성이 동일한 부분을 상이한 악기로 연주된 음원을 포함할 수 있다.

이후, 제1 학습부(110)는 제1 음원 데이터에 대한 음색 임베딩 벡터(250)와 제1 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터(260)가 유사해지고, 제1 음원 데이터에 대한 음색 임베딩 벡터(250)와 제1 부정 샘플 음원 데이터에 대한 음색 임베딩 벡터(270)가 비유사해지는 방향으로 음색 인코더(210)를 학습시킨다.

구체적으로, 제1 학습부(110)는 제1 음원 데이터에 대한 음색 임베딩 벡터(250)와 제1 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터(260) 사이의 차이 및 제1 음원 데이터에 대한 음색 임베딩 벡터(250)와 제1 부정 샘플 음원 데이터에 대한 음색 임베딩 벡터(270) 사이의 차이에 기초한 제1 손실을 이용하여 음색 인코더(210)를 학습시킨다.

이때, 일 실시예 따르면, 제1 학습부(110)는 역전파 (backpropagation) 알고리즘을 이용하여 제1 손실 함수(loss function)가 최소화되도록 음색 인코더(210)의 하나 이상의 학습 파라미터를 갱신할 수 있다. 예를 들어, 제1 손실 함수는 대조적 예측 코딩(CPC, Contrastive Predictive Coding) 기법에 사용되는 InfoNCE 손실 함수일 수 있으나, 반드시 이에 한정되는 것은 아니다.

구체적으로, 제1 학습부(110)는 제1 음원 데이터에 대한 음색 임베딩 벡터(250)와 제1 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터(260) 사이의 차이는 작아지고, 제1 음원 데이터에 대한 음색 임베딩 벡터(250)와 제1 부정 샘플 음원 데이터에 대한 음색 임베딩 벡터(270) 사이의 차이는 커지도록 음색 인코더(210)의 학습 파라미터를 갱신할 수 있다.

다시 도 1을 참조하면, 제2 학습부(120)는 제2 음원 데이터, 제2 음원 데이터와 음색이 동일한 제2 긍정 샘플 음원 데이터 및 제2 음원 데이터와 음색이 상이한 제2 부정 샘플 음원 데이터 각각에 대해 제1 학습부(110)에 의해 학습된 음색 인코더(이하, 학습된 음색 인코더)가 생성한 음색 임베딩 벡터, 제2 음원 데이터에 대한 음색 임베딩 벡터에 기초하여 디코더(Decoder)가 생성한 제2 음원 데이터에 대한 재구성 음원 데이터 및 재구성 제2 음원 데이터에 대해 학습된 음색 인코더가 생성한 음색 임베딩 벡터에 기초하여 학습된 음색 인코더 및 디코더를 학습시킨다.

이때, 일 실시예에 따르면, 제2 음원 데이터는 스템 단위의 음원 데이터일 수 있으며, 제1 음원 데이터와 동일하거나 상이한 음원 데이터일 수 있다.

또한, 일 실시예에 따르면, 디코더는 음색 인코더에 의해 생성된 음색 임베딩 벡터에 기초하여, 음색 임베딩 벡터를 생성하기 위해 음색 인코더로 입력된 음원 데이터를 복원한 재구성 음원 데이터를 생성하기 위한 것으로, 예를 들어, RNN, CNN 등과 같은 인공 신경망으로 구성될 수 있다.

도 3은 일 실시예에 따른 제2 학습부(120)에 의해 수행되는 학습 과정을 예시적으로 설명하기 위한 도면이다.

도 3에서 음색 인코더(310)는 제1 학습부(110)에 의해 학습된 음색 인코더를 나타낸다.

도 3을 참조하면, 제2 학습부(120)는 제2 음원 데이터(320), 제2 음원 데이터와 음색이 동일한 제2 긍정 샘플 음원 데이터(330) 및 제2 음원 데이터와 음색이 상이한 제2 부정 샘플 음원 데이터(340) 각각을 음색 인코더(310)로 입력하여 제2 음원 데이터(320), 제2 긍정 샘플 음원 데이터(330) 및 제2 부정 샘플 음원 데이터(340) 각각에 대한 음색 임베딩 벡터(350, 360, 370)를 생성할 수 있다.

또한, 제2 학습부(120)는 제2 음원 데이터(320)에 대한 음색 임베딩 벡터(350)를 디코더(380)로 입력하여 제2 음원 데이터(320)에 대한 재구성 음원 데이터(390)를 생성할 수 있다.

또한, 제2 학습부(120)는 음색 인코더(310)에 재구성 음원 데이터(390)를 입력하여 재구성 음원 데이터에 대한 음색 임베딩 벡터(391)를 생성할 수 있다.

이후, 제2 학습부는(120)는 제2 음원 데이터에 대한 음색 임베딩 벡터(350)와 제2 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터(360) 사이의 차이 및 제2 음원 데이터에 대한 음색 임베딩 벡터(350)와 제2 부정 샘플 음원 데이터에 대한 음색 임베딩 벡터(370) 사이의 차이에 기초한 제1 손실, 제2 음원 데이터(320)와 재구성 음원 데이터(390) 사이의 차이에 기초한 제2 손실 및 재구성 음원 데이터에 대한 음색 임베딩 벡터(391)와 제2 음원 데이터에 대한 음색 임베딩 벡터(350) 사이의 차이에 기초한 제3 손실을 가중합하여 생성한 총 손실을 기초로 음색 인코더(310) 및 디코더(380)를 학습시킬 수 있다.

이때, 일 실시예에 따르면, 제1 손실은 제2 음원 데이터에 대한 음색 임베딩 벡터(350)와 제2 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터(360) 사이의 차이가 작아지도록 제2 음원 데이터에 대한 음색 임베딩 벡터(350)와 제2 부정 샘플 음원 데이터에 대한 음색 임베딩 벡터(370) 사이의 차이에 기초하여 계산될 수 있다. 예를 들어, 제1 손실은 InfoNCE 손실 함수에 기초하여 계산될 수 있으나, 반드시 이에 한정되는 것은 아니다.

또한, 일 실시예에 따르면, 제2 손실은 제2 음원 데이터(320)를 재구성한 재구성 음원 데이터(390)와 제2 음원 데이터(320)를 비교하여 계산될 수 있다. 예를 들어, 제2 손실은 재구성 손실(Reconstruction loss)일 수 있으나, 반드시 이에 한정되는 것은 아니다.

또한, 일 실시예에 따르면, 제3 손실은 재구성 음원 데이터(390)에 대한 음색 임베딩 벡터(391)와 제2 음원 데이터(320)에 대한 음색 임베딩 벡터(350)를 비교하여 계산될 수 있다. 예를 들어, 제3 손실은 순환 손실(Cyclic loss)일 수 있으나, 반드시 이에 한정되는 것은 아니다.

이때, 일 실시예 따르면, 제2 학습부(120)는 역전파 알고리즘을 이용하여 총 손실이 최소화되도록 음색 인코더(310) 및 디코더(390)에 포함된 하나 이상의 학습 파라미터를 갱신할 수 있다.

일 실시예 따르면, 제2 학습부(120)는, 총 손실에 기초하여 제2 음원 데이터에 대한 음색 임베딩 벡터(350)가 제2 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터(360) 및 재구성 데이터에 대한 음색 임베딩 벡터(391)와 유사해지고, 제2 음원 데이터에 대한 음색 임베딩 벡터(350)는 부정 샘플 음원 데이터에 대한 음색 임베딩 벡터(370)와 비유사해지며, 제2 음원 데이터(320)와 재구성 음원 데이터(390)는 유사해지도록 음색 인코더(310) 및 디코더(380)를 학습시킬 수 있다.

도 4는 일 실시예에 따른 피치 임베딩 벡터를 고려하여 제2 학습부(120)에 의해 수행되는 학습 과정을 예시적으로 설명하기 위한 도면이다.

도 4에서 음색 인코더(410)는 제1 학습부(110)에 의해 학습된 음색 인코더를 나타낸다.

도 4를 참조하면, 제2 학습부(120)는 제2 음원 데이터(420), 제2 음원 데이터와 음색이 동일한 제2 긍정 샘플 음원 데이터(421) 및 제2 음원 데이터와 음색이 상이한 제2 부정 샘플 음원 데이터(422) 각각을 음색 인코더(410)로 입력하여 제2 음원 데이터(420), 제2 긍정 샘플 음원 데이터(421) 및 제2 부정 샘플 음원 데이터(422) 각각에 대한 음색 임베딩 벡터(423, 424, 425)를 생성할 수 있다.

일 실시예에 따라 제2 학습부(120)는 제2 음원 데이터에 대한 음색 임베딩 벡터(423)와 제2 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터(424) 사이의 차이가 작아지도록 제2 음원 데이터에 대한 음색 임베딩 벡터(423)와 제2 부정 샘플 음원 데이터에 대한 음색 임베딩 벡터(425) 사이의 차이에 기초하여 제1 손실을 계산할 수 있다.

일 실시예에 따라 디코더(450)는 제2 음원 데이터(420)에 기초하여 피치 인코더(480)가 생성한 피치 임베딩 벡터(430) 및 제2 음원 데이터(420)에 대한 음색 임베딩 벡터(423)에 기초하여 생성된 입력 벡터(440)에 기초하여 재구성 음원 데이터(460)를 생성할 수 있다.

일 실시예에 따라 재구성 음원 데이터(460)는 제2 음원 데이터(420)에 기초하여 피치 인코더(480)가 생성한 피치 임베딩 벡터(430) 및 제2 음원 데이터(420)에 대한 음색 임베딩 벡터(423)에 기초하여 생성된 벡터(440)를 디코더(450)에 입력 벡터로 이용하여 생성될 수 있다.

한편, 피치(Pitch)는 음향의 높이를 나타내는 용어로서, 소리의 3 요소(소리의 세기, 소리의 맵시, 소리의 높낮이) 중 소리의 높낮이를 결정지어 주는 요소를 의미한다.

일 실시예에 따라 피치 인코더(480)는 피치 평가 알고리즘(pitch estimation algorithm)에 기초하여 제2 음원 데이터(420)에 대한 피치 시퀀스(pith sequence)를 획득하고, 피치 시퀀스를 1D convolution 네트워크를 통과시켜 인코딩 함으로써 피치 임베딩 벡터(430)를 생성할 수 있다.

일 실시예에 따라 디코더(450)에 입력될 입력 벡터(440)는 제2 음원 데이터에 대한 음원 임베딩 벡터(423)에 피치 임베딩 벡터를 결합(430)하여 생성될 수 있다.

일 실시예에 따라 제2 학습부(120)는 입력 벡터(440)에 기초하여 재구성 음원 데이터(460)를 생성하고, 재구성 음원 데이터(460)와 제2 음원 데이터(420)를 비교하여 제2 손실을 계산할 수 있다.

일 실시예에 따르면, 제2 학습부(120)는 재구성 음원 데이터(460)에 대한 음색 임베딩 벡터(461)와 제2 음원 데이터(420)에 대한 음색 임베딩 벡터(423)를 비교하여 제3 손실을 계산할 수 있다.

일 실시예에 따라 제2 학습부는(120)는 제2 음원 데이터에 대한 음색 임베딩 벡터(423)와 제2 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터(424) 사이의 차이 및 제2 음원 데이터에 대한 음색 임베딩 벡터(423)와 제2 부정 샘플 음원 데이터에 대한 음색 임베딩 벡터(425) 사이의 차이에 기초한 제1 손실, 제2 음원 데이터(420)와 재구성 음원 데이터(460) 사이의 차이에 기초한 제2 손실 및 재구성 음원 데이터에 대한 음색 임베딩 벡터(461)와 제2 음원 데이터에 대한 음색 임베딩 벡터 (423)사이의 차이에 기초한 제3 손실을 가중합하여 생성한 총 손실을 기초로 음색 인코더(410) 및 디코더(450)를 학습시킬 수 있다.

일 실시예 따르면, 제2 학습부(120)는, 총 손실에 기초하여 제2 음원 데이터에 대한 음색 임베딩 벡터(423)가 제2 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터(424) 및 재구성 데이터에 대한 음색 임베딩 벡터(461)와 유사해지고, 제2 음원 데이터에 대한 음색 임베딩 벡터(423)는 부정 샘플 음원 데이터에 대한 음색 임베딩 벡터(425)와 비유사해지며, 상기 제2 음원 데이터(420)와 상기 재구성 음원 데이터(460)는 유사해지도록 음색 인코더(410) 및 디코더(450)를 학습시킬 수 있다.

한편, 일 실시예에 따르면, 제2 학습부(120)에 의해 학습된 음색 인코더는 임의의 음원 데이터에 대한 음색 임베딩 벡터를 생성하기 위한 음색 임베딩 모델로 이용될 수 있다. 이때, 음색 임베딩 모델은 예를 들어, 음원 추천 서비스 등에 이용될 수 있다.

예를 들어, 음원 추천 서비스는 음색 임베딩 모델을 이용하여 사용자가 감상한 음원 데이터와 사용자가 감상하지 않은 음원 데이터 각각에 대한 음색 임베딩 벡터를 생성한 후, 생성된 음색 임베딩 벡터 사이의 유사도에 기초하여 사용자가 감상한 음원 데이터와 유사한 음색을 가진 음원 데이터를 사용자에게 추천할 수 있다.

도 5은 일 실시예에 따른 음색 임베딩 방법을 설명하기 위한 흐름도이다.

도 5에 도시된 방법은 예를 들어, 상술한 음색 임베딩 모델 학습 장치(100)에 의해 수행될 수 있다.

510 동작에서, 음색 임베딩 모델 학습 장치(100)는 제1 음원 데이터, 제1 음원 데이터와 음색이 동일한 제1 긍정 샘플 음원 데이터 및 제1 음원 데이터와 음색이 상이한 제2 부정 샘플 음원 데이터 각각에 대해 음색 인코더가 생성한 음색 임베딩 벡터에 기초하여 음색 인코더를 학습시킨다.

520 동작에서, 음색 임베딩 모델 학습 장치(100)는 제2 음원 데이터와 음색이 동일한 제2 긍정 샘플 음원 데이터 및 제2 음원 데이터와 음색이 상이한 제2 부정 샘플 음원 데이터 각각에 대해 학습된 음색 인코더가 생성한 음색 임베딩 벡터에 기초하여 디코더가 생성한 제2 음원 데이터에 대한 재구성 음원 데이터 및 재구성 음원 데이터에 대해 학습된 음색 인코더가 생성한 음색 임베딩 벡터에 기초하여 학습된 음색 인코더 및 디코더를 학습시킨다.

상기 도시된 도 6에서는 상기 방법을 복수 개의 동작으로 나누어 기재하였으나, 적어도 일부의 동작들은 순서를 바꾸어 수행되거나, 다른 동작과 결합되어 함께 수행되거나, 생략되거나, 세부 동작들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 동작이 부가되어 수행될 수 있다.

도 6는 일 실시예에 따른 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.

도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 도 1에 도시된 음색 임베딩 모델 학습 장치(100)일 수 있다.

컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.

컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.

한편, 본 발명의 실시예는 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램, 및 상기 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나, 또는 컴퓨터 소프트웨어 분야에서 통상적으로 사용 가능한 것일 수 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 프로그램의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 청구범위뿐만 아니라 이 청구범위와 균등한 것들에 의해 정해져야 한다.

10: 컴퓨팅 환경
12: 컴퓨팅 장치
14: 프로세서
16: 컴퓨터 판독 가능 저장 매체
18: 통신 버스
20: 프로그램
22: 입출력 인터페이스
24: 입출력 장치
26: 네트워크 통신 인터페이스
100: 음색 임베딩 장치
110: 제1 학습부
120: 제2 학습부
210, 310, 410: 음색 인코더
380, 450: 디코더
480: 피치 인코더

Claims

하나 이상의 프로세서, 및
상기 하나 이상의 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서,
제1 음원 데이터, 상기 제1 음원 데이터와 음색이 동일한 제1 긍정 샘플 음원 데이터 및 상기 제1 음원 데이터와 음색이 상이한 제1 부정 샘플 음원 데이터 각각에 대해 음색(Timbre) 인코더가 생성한 음색 임베딩 벡터에 기초하여 상기 음색 인코더를 학습시키는 제1 학습 동작; 및
제2 음원 데이터, 상기 제2 음원 데이터와 음색이 동일한 제2 긍정 샘플 음원 데이터 및 상기 제2 음원 데이터와 음색이 상이한 제2 부정 샘플 음원 데이터 각각에 대해 상기 학습된 음색 인코더가 생성한 음색 임베딩 벡터, 상기 제2 음원 데이터에 대한 음색 임베딩 벡터에 기초하여 디코더가 생성한 상기 제2 음원 데이터에 대한 재구성 음원 데이터 및 상기 재구성 음원 데이터에 대해 상기 학습된 음색 인코더가 생성한 음색 임베딩 벡터에 기초하여 상기 학습된 음색 인코더 및 상기 디코더를 학습시키는 제2 학습 동작을 포함하는, 음색 임베딩 모델 학습 방법.
청구항 1에 있어서,
상기 제1 학습 동작은, 상기 제1 음원 데이터에 대한 음색 임베딩 벡터와 상기 제1 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터가 유사해지고, 상기 제1 음원 데이터에 대한 음색 임베딩 벡터와 상기 제1 부정 샘플 음원 데이터에 대한 음색 임베딩 벡터가 비유사해지는 방향으로 상기 음색 인코더를 학습시키는, 음색 임베딩 모델 학습 방법.
청구항 1에 있어서,
상기 제1 학습 동작은, 상기 제1 음원 데이터에 대한 음색 임베딩 벡터와 상기 제1 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터 사이의 차이 및 상기 제1 음원 데이터에 대한 음색 임베딩 벡터와 상기 제1 부정 샘플 음원 데이터 사이의 차이에 기초한 제1 손실을 이용하여 상기 음색 인코더를 학습시키는, 음색 임베딩 모델 학습 방법.
청구항 1에 있어서,
상기 재구성 음원 데이터는, 상기 제2 음원 데이터에 기초하여 피치(Pitch) 인코더가 생성한 피치 임베딩 벡터 및 상기 제2 음원 데이터에 대한 음색 임베딩 벡터에 기초하여 생성된 벡터를 상기 디코더의 입력 벡터로 이용하여 생성되는, 음색 임베딩 모델 학습 방법.
청구항 1에 있어서,
상기 제2 학습 동작은, 상기 제2 음원 데이터에 대한 음색 임베딩 벡터가 상기 제2 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터 및 상기 재구성 음원 데이터에 대한 음색 임베딩 벡터와 유사해지고, 상기 제2 음원 데이터에 대한 음색 임베딩 벡터는 상기 제2 부정 샘플 음원 데이터에 대한 음색 임베딩 벡터와 비유사해지며, 상기 제2 음원 데이터와 상기 재구성 음원 데이터는 유사해지도록 상기 학습된 음색 인코더 및 상기 디코더를 학습시키는, 음색 임베딩 모델 학습 방법.
청구항 1항에 있어서,
상기 제2 학습 동작은,
상기 제2 음원 데이터에 대한 음색 임베딩 벡터와 상기 제2 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터 사이의 차이 및 상기 제2 음원 데이터에 대한 음색 임베딩 벡터와 상기 제2 부정 샘플 음원 데이터에 대한 음색 임베딩 벡터 사이의 차이에 기초한 제1 손실,
상기 제2 음원 데이터와 상기 재구성 음원 데이터 사이의 차이에 기초한 제2 손실 및
상기 재구성 음원 데이터에 대한 음색 임베딩 벡터와 상기 제2 음원 데이터에 대한 음색 임베딩 벡터 사이의 차이에 기초한 제3 손실을 가중합하여 생성한 총 손실을 기초로 상기 학습된 음색 인코더 및 상기 디코더를 학습시키는, 음색 임베딩 모델 학습 방법.
제1 음원 데이터, 상기 제1 음원 데이터와 음색이 동일한 제1 긍정 샘플 음원 데이터 및 상기 제1 음원 데이터와 음색이 상이한 제1 부정 샘플 음원 데이터 각각에 대해 음색(Timbre) 인코더가 생성한 음색 임베딩 벡터에 기초하여 상기 음색 인코더를 학습시키는 제1 학습부; 및
제2 음원 데이터, 상기 제2 음원 데이터와 음색이 동일한 제2 긍정 샘플 음원 데이터 및 상기 제2 음원 데이터와 음색이 상이한 제2 부정 샘플 음원 데이터 각각에 대해 상기 학습된 음색 인코더가 생성한 음색 임베딩 벡터, 상기 제2 음원 데이터에 대한 음색 임베딩 벡터에 기초하여 디코더가 생성한 상기 제2 음원 데이터에 대한 재구성 음원 데이터 및 상기 재구성 음원 데이터에 대해 상기 학습된 음색 인코더가 생성한 음색 임베딩 벡터에 기초하여 상기 학습된 음색 인코더 및 상기 디코더를 학습시키는 제2 학습부를 포함하는, 음색 임베딩 모델 학습 장치.
청구항 7에 있어서,
상기 제1 학습부는, 상기 제1 음원 데이터에 대한 음색 임베딩 벡터와 상기 제1 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터가 유사해지고, 상기 제1 음원 데이터에 대한 음색 임베딩 벡터와 상기 제1 부정 샘플 음원 데이터에 대한 음색 임베딩 벡터가 비유사해지는 방향으로 상기 음색 인코더를 학습시키는, 음색 임베딩 모델 학습 장치.
청구항 7에 있어서,
상기 제1 학습부는, 상기 제1 음원 데이터에 대한 음색 임베딩 벡터와 상기 제1 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터 사이의 차이 및 상기 제1 음원 데이터에 대한 음색 임베딩 벡터와 상기 제1 부정 샘플 음원 데이터 사이의 차이에 기초한 제1 손실을 이용하여 상기 음색 인코더를 학습시키는, 음색 임베딩 모델 학습 장치.
청구항 7에 있어서,
상기 재구성 음원 데이터는, 상기 제2 음원 데이터에 기초하여 피치(Pitch) 인코더가 생성한 피치 임베딩 벡터 및 상기 제2 음원 데이터에 대한 음색 임베딩 벡터에 기초하여 생성된 벡터를 상기 디코더의 입력 벡터로 이용하여 생성되는, 음색 임베딩 모델 학습 장치.
청구항 7에 있어서,
상기 제2 학습부는, 상기 제2 음원 데이터에 대한 음색 임베딩 벡터가 상기 제2 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터 및 상기 재구성 음원 데이터에 대한 음색 임베딩 벡터와 유사해지고, 상기 제2 음원 데이터에 대한 음색 임베딩 벡터는 상기 제2 부정 샘플 음원 데이터에 대한 음색 임베딩 벡터와 비유사해지며, 상기 제2 음원 데이터와 상기 재구성 음원 데이터가 유사해지도록 상기 학습된 음색 인코더 및 상기 디코더를 학습시키는, 음색 임베딩 모델 학습 장치.
청구항 7에 있어서,
상기 제2 학습부는, 상기 제2 음원 데이터에 대한 음색 임베딩 벡터와 상기 제2 긍정 샘플 음원 데이터에 대한 음색 임베딩 벡터 사이의 거리 및 상기 제2 음원 데이터에 대한 음색 임베딩 벡터와 상기 제2 부정 샘플 음원 데이터에 대한 음색 임베딩 벡터 사이의 거리에 기초한 제1 손실,
상기 제2 음원 데이터와 상기 재구성 음원 데이터의 차이에 기초하여 생성된 제2 손실 및
상기 재구성 음원 데이터에 대한 음색 임베딩 벡터와 상기 제2 음원 데이터에 대한 음색 임베딩 벡터의 차이에 기초하여 생성된 제3 손실을 가중합하여 생성한 총 손실을 기초로 상기 학습된 음색 인코더 학습시키는, 음색 임베딩 모델 학습 장치.