KR20220032322A

KR20220032322A - 음악지문 생성을 위한 장치 및 방법

Info

Publication number: KR20220032322A
Application number: KR1020200113961A
Authority: KR
Inventors: 고가람; 이승진; 장성균; 한윤창; 이수빈; 이돈문; 박정수; 정일영; 임현기
Original assignee: 에스케이텔레콤 주식회사; 주식회사 코클
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2022-03-15

Abstract

음악 지문(music fingerprint) 생성을 위한 장치 및 방법을 개시한다.
본 실시예는, 음악지문 생성모델을 이용하여 음원 조각을 포함하는 쿼리(query)에 대응하는 음악을 식별(identification)하는 음악지문 검색을 위한 장치에 있어서, 음원 조각이 포함할 수 있는 노이즈(noise)에 대한 강인함(robustness)을 증대시키고, 학습용 데이터의 생성에 따른 제약을 감소시키며, 음악지문을 표현하는 데이터양을 감소시키기 위해, 학습용 데이터의 증강처리(augmentation processing)에 기반하는 자기지도학습(self-supervised learning)을 이용하여 딥러닝(deep learning) 기반 음악지문 생성모델을 트레이닝시키기 위한 방법 및 장치를 제공한다.

Description

음악지문 생성을 위한 장치 및 방법{Method and Apparatus for Generating Music Fingerprint}

본 개시는 음악 지문(music fingerprint) 생성을 위한 장치 및 방법에 관한 것이다. 더욱 상세하게는, 음원 조각으로 구성된 쿼리(query)에 대하여 딥러닝(deep learning) 기반 음악지문 생성모델을 이용하여 음원 조각이 포함된 음악의 식별(identification)에 이용되는 음악지문 생성을 위한 장치 및 방법에 대한 것이다. 또한, 학습용 데이터의 증강처리(augmentation processing)에 기반하는 자기지도학습(self-supervised learning)을 이용하여 음악지문 생성모델을 트레이닝시키기 위한 방법 및 장치에 대한 것이다.

이하에 기술되는 내용은 단순히 본 발명과 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.

음악지문(music fingerprint) 검색(또는 음악식별(music identification))은 음원 조각으로 구성된 쿼리(query)에 대하여 그 음원 조각이 포함된 음악을 찾아주는 서비스이다. 재생되는 노래가 어떤 노래인지 궁금할 때, 콘텐츠에 사용된 음원에 대한 저작권을 확인하고 싶을 때 등 다양한 상황에서 음악지문 검색이 이용될 수 있다. 이 서비스의 성능은, 쿼리에 포함된 노이즈(noise)에 대해 얼마나 강인(robust)한 검색이 가능한지의 여부, 및 쿼리의 길이가 짧더라도 신속, 정확한 음악 정보의 검색이 가능한지의 여부에 따라 결정될 수 있다.

음악식별 서비스를 위한 종래의 기술로, 음악을 표현하는 신호에 STFT(Short Time Fourier Transform)를 적용하여 스펙트로그램(spectrogram)을 생성하고, 기 정해진 규칙에 따라 스펙트로그램으로부터 노이즈에 강한 특징 지점(통상의 인간 지문 검색에서 이용되는 성상점(constellation point) 형태)을 선별하여, 이를 음악지문으로 이용하는 방법이 존재한다(비특허문헌 1 참조). 성상점의 활용, 음악지문이 저장된 데이터베이스의 생성 시 해싱(hashing)의 적용 등, 통상의 인간 지문 생성 및 검색에 이용되는 방법을 차용하고 있으나, 이 방식은 쿼리에 포함된 음원 조각에 대한 의존성이 크고, 음악지문이 저장된 데이터베이스의 크기가 방대해질 수 있다는 문제를 갖는다.

한편, 최근 각광을 받는 딥러닝(deep learning) 모델에 기반하는 음악인식 기술이 존재한다(비특허문헌 2). 이 방법은 모바일 단말 상에서 동작하고 서버와 독립적인 음악식별 서비스가 가능하다는 장점을 제공한다. 그러나, 트리플렛 손실(triplet loss)에 기반하는 학습 방법을 이용하여 딥러닝 모델을 트레이닝하므로, 학습용 데이터의 생성에 제약이 따르고 검색한도가 모바일 단말 상에 위치하는 데이터베이스의 크기에 의존한다는 문제가 있다.

통상 딥러닝 모델의 트레이닝에 있어서, 정답(label)을 이용하는 지도학습(supervised learning)이 정답 없이 진행되는 비지도학습(unsupervised learning)에 비해 우수한 성능을 보인다. 그러나, 지도학습을 위해서는 정답 셋(label set)이 제공되어야 하기 때문에 학습용 데이터의 생성에 의존한다는 단점이 존재하고, 트리플렛 손실 기반의 메트릭 학습(metric learning)을 이용하는 경우와 같이 특정 과제들은 정답 셋을 만들기가 어렵다는 문제도 존재한다.

한편, 학습용 데이터의 생성에 따른 제약을 해결하기 위해 정답 셋이 없이 학습 가능하면서 학습에 따른 성능은 지도학습(supervised learning)에 근접하는 자기지도학습(self-supervised learning) 기법이 존재한다(비특허문헌 3 참조). 자기지도학습은 이미지 인식, 화자(speaker) 인식 등의 분야에서 널리 이용되고 있으며, 음악지문 검색 분야에서도 열린 선택권이 될 수 있다.

따라서, 자기지도학습을 이용하여 딥러닝(deep learning) 기반 음악지문 생성모델을 트레이닝하고, 트레이닝된 음악지문 생성모델을 기반으로 음원 조각으로 구성된 쿼리로부터 음악지문을 생성하는 방법에 대한 고려가 필요하다.

비특허문헌 1: A. Wang et al. An industrial strength audio search algorithm. In Ismir, volume 2003, pages 7-13. Washington, DC, 2003. 비특허문헌 2: Now Playing: Continuous low-power music recognition, Blaise Aguera y Arcas et. al. https://arxiv.org/abs/1711.10958. 비특허문헌 3: A Simple Framework for Contrastive Learning of Visual Representations, Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton, https://arxiv.org/abs/2002.05709.

본 개시에 따른 실시예들은, 음악지문 생성모델을 이용하여 음원 조각을 포함하는 쿼리(query)에 대응하는 음악을 식별(identification)하는 음악지문 검색을 위한 장치에 있어서, 음원 조각이 포함할 수 있는 노이즈(noise)에 대한 강인함(robustness)을 증대시키고, 학습용 데이터의 생성에 따른 제약을 감소시키며, 음악지문을 표현하는 데이터양을 감소시키기 위해, 학습용 데이터의 증강처리(augmentation processing)에 기반하는 자기지도학습(self-supervised learning)을 이용하여 딥러닝(deep learning) 기반 음악지문 생성모델을 트레이닝시키기 위한 방법 및 장치를 제공하는 데 주된 목적이 있다.

본 개시의 실시예에 따르면, 음악지문(music fingerprint) 생성모델에 대한 학습방법에 있어서, N(N은 자연수) 개의 음원 신호를 획득하는 과정; 상기 N 개의 음원 신호 각각에 대한 오리지널 스펙트로그램(original spectrogram)을 생성하고, 상기 음원 신호 및/또는 오리지널 스펙트로그램에 적어도 하나의 증강(augmentation) 기법을 적용하여 상기 N 개의 음원 신호 각각에 대한 증강 스펙트로그램(augmented spectrogram)을 생성하는 과정; 상기 오리지널 스펙트로그램과 증강 스펙트로그램을 기반으로 긍정 페어(positive pair)와 부정 페어(negative pair)를 생성하는 과정; 심층신경망(deep neural network) 기반의 음악지문 생성모델을 이용하여 상기 오리지널 스펙트로그램과 증강 스펙트로그램으로부터 특성 데이터를 추출하는 과정; 및 심층신경망 기반의 프로젝션 모델(projection model)을 이용하여 상기 특성 데이터로부터 출력 데이터를 생성하는 과정을 포함하는 것을 특징으로 하는 학습방법을 제공한다.

본 개시의 다른 실시예에 따르면, 상기 긍정 페어에 대응되는 출력 데이터 간의 유사도(similarity) 및 상기 부정 페어에 대응되는 출력 데이터 간의 유사도를 기반으로 손실함수(loss function)를 산정하는 과정; 및 상기 손실함수를 기반으로 상기 음악지문 생성모델 및 프로젝션 모델의 파라미터를 업데이트하는 과정을 더 포함하는 것을 특징으로 하는 학습방법을 제공한다.

본 개시의 다른 실시예에 따르면, 음악지문 생성모델에 대한 트레이닝을 수행하는 학습장치에 있어서, N(N은 자연수) 개의 음원 신호를 획득하고, 상기 N 개의 음원 신호 각각에 대한 오리지널 스펙트로그램(original spectrogram)을 생성하고, 상기 음원 신호 또는 오리지널 스펙트로그램에 적어도 하나의 증강(augmentation) 기법을 적용하여 상기 N 개의 음원 신호 각각에 대한 증강 스펙트로그램(augmented spectrogram)을 생성하며, 상기 오리지널 스펙트로그램과 증강 스펙트로그램을 기반으로 긍정 페어(positive pair)와 부정 페어(negative pair)를 생성하는 신호증강부; 상기 오리지널 스펙트로그램과 증강 스펙트로그램으로부터 특성 데이터를 추출하는 심층신경망(deep neural network) 기반의 음악지문 생성모델; 및 상기 특성 데이터로부터 출력 데이터를 생성하는 심층신경망 기반의 프로젝션 모델(projection model)을 포함하는 것을 특징으로 하는 학습장치를 제공한다.

본 개시의 다른 실시예에 따르면, 상기 긍정 페어에 대응되는 출력 데이터 간의 유사도(similarity) 및 상기 부정 페어에 대응되는 출력 데이터 간의 유사도를 기반으로 산정된 손실함수(loss function)를 감소시키는 방향으로 상기 음악지문 생성모델 및 프로젝션 모델의 파라미터가 업데이트되는 것을 특징으로 하는 학습장치를 제공한다.

본 개시의 다른 실시예에 따르면, 상기 학습방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램을 제공한다.

이상에서 설명한 바와 같이 본 실시예에 따르면, 음악지문 생성모델을 이용하여 음원 조각을 포함하는 쿼리에 대응하는 음악을 식별(identification)하는 음악지문 검색을 위한 장치에 있어서, 학습용 데이터의 증강처리에 기반하는 자기지도학습을 이용하여 딥러닝 기반 음악지문 생성모델을 트레이닝시키기 위한 방법 및 장치를 제공함으로써, 음원 조각이 포함할 수 있는 노이즈(noise)에 대한 강인함(robustness)을 증대시키고, 학습용 데이터의 생성에 따른 제약을 감소시키며, 음악지문을 표현하는 데이터양을 감소시키는 것이 가능해지는 효과가 있다.

도 1은 음악지문 검색을 위한 장치에 대한 개략적인 블록도이다.
도 2는 본 개시의 일 실시예에 따른 음악지문 생성모델을 트레이닝시키기 위한 학습 모델에 대한 개략적인 블록도이다.
도 3은 본 개시의 일 실시예에 따른 학습용 데이터를 나타내는 예시도이다.
도 4는 본 개시의 일 실시예에 따른 시간 축으로 이동하는 증강 기법을 개념적으로 나타낸 예시도이다.
도 5는 본 개시의 일 실시예에 따른 시간 축으로 이동하는 증강 기법을 나타낸 예시도이다.
도 6은 본 개시의 일 실시예에 따른 증강 스펙트로그램에 적용하기 위한 증강 기법을 나타낸 예시도이다.
도 7은 본 개시의 일 실시예에 따른 복수의 증강 기법의 적용에 대한 예시도이다.
도 8은 본 개시의 일 실시예에 따른 음악지문 생성모델을 트레이닝시키기 위한 방법의 흐름도이다.

이하, 본 발명의 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 실시예들의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

또한, 본 실시예들의 구성요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다.

본 실시예는 음악 지문(music fingerprint) 생성을 위한 장치 및 방법에 대한 내용을 개시한다. 보다 자세하게는, 음원 조각으로 구성된 쿼리(query)에 대하여 딥러닝(deep learning) 기반 음악지문 생성모델을 이용하여 음원 조각이 포함된 음악의 식별(identification)에 이용되는 음악지문 생성을 위한 장치 및 방법에 대한 것이다. 또한, 학습용 데이터의 증강처리(augmentation processing)에 기반하는 자기지도학습(self-supervised learning)을 이용하여 음악지문 생성모델을 트레이닝시키기 위한 방법 및 장치에 대한 것이다.

도 1은 음악지문 검색을 위한 장치에 대한 개략적인 블록도이다.

본 개시에 따른 음악지문 검색을 위한 장치(100, 이하 ‘음악지문 검색장치’)는 사전에 트레이닝된 음악지문 생성모델을 이용하여 쿼리의 음원이 포함된 음악을 식별한다. 음악지문 검색장치(100)는 입력부(102), 음악지문 생성부(104), 음악검색부(106) 및 데이터베이스(108)의 전부 또는 일부를 포함할 수 있다. 여기서, 본 실시예에 따른 음악지문 검색장치(100)에 포함되는 구성요소가 반드시 이에 한정되는 것은 아니다. 예컨대, 음악지문 검색장치(100)는 음악지문 생성모델의 트레이닝을 위한 학습 모델 및 트레이닝부(미도시)를 추가로 구비하거나, 외부의 트레이닝부와 연동되는 형태로 구현될 수 있다.

입력부(102)는 음원 조각을 포함한 쿼리로부터 스펙트로그램을 생성한다. 기 자료화된 음악의 경우 제목이 알려져 있거나, 제목을 식별하기 용이한 경우가 대부분이다. 쿼리는 기 자료화된 음악 파일의 일부일 수도 있으나, 본 개시에서는 사용자가 마이크를 포함하는 녹음장치(예컨대, 다양한 종류의 모바일 단말)를 이용하여 녹음한 음원 조각으로서 식별을 원하는 음악의 구성요소일 수 있다.

쿼리는 일정 길이(예컨대, 수 초 정도)를 갖는 것으로 가정한다. 쿼리는 음원 조각을 생성한 장비, 음원 조각이 생성된 환경 등에 따른 노이즈를 포함할 수 있다. 또한, 데이터베이스(108)에 저장된 음악의 구간 시작 시점과 쿼리에 포함된 음원 조각의 시작 시점 간의 불일치에 따른 문제도 고려되어야 한다. 따라서, 음원 조각의 길이가 너무 짧은 경우, 음악지문 생성모델이 생성하는 음악지문의 노이즈에 강인성이 감소할 수 있다.

한편, 스펙트로그램은 음악지문 생성모델이 필요로 하는 형식을 만족하여야 한다. 쿼리에 포함된 음원 조각으로부터 스펙트로그램을 생성하는 과정은 음악지문 생성모델을 트레이닝시키기 위한 학습용 데이터의 스펙트로그램을 생성하는 과정과 동일하며, 추후에 설명하기로 한다.

음악지문 생성부(104)는 딥러닝 기반의 음악지문 생성모델을 이용하여 스펙트로그램으로부터 음악 조각 고유의 특성 데이터인 음악지문을 생성한다.

음악지문을 생성하기 위해 음악지문 생성부(104)는 트레이닝부에 의하여 사전에 트레이닝된 심층신경망(deep neural network) 기반의 음악지문 생성모델을 이용한다. 음악지문 생성모델의 형태 및 그에 대한 트레이닝 과정은 추후에 설명하기로 한다.

음악검색부(106)는, 데이터베이스(108)에 저장된 복수의 음악에 대한 음악지문을 기반으로 음악지문 생성부(104)로부터 전달된 음악지문과 매칭되는 음악지문을 포함하는 음악을 식별한다.

데이터베이스(108)는 복수의 음악에 대한 음악지문을 저장한다. 저장된 음악지문은, 음악지문 생성모델이 수행하는 것과 동일한 과정을 복수의 음악 각각에 적용하여 사전에 생성될 수 있다.

음악에 대한 검색 과정을 수행하기 위해 음악검색부(106)는, 예를 들어, 클러스터(cluster) 기반의 KNN(K-Nearest Neighbor) 검색, 클러스터 기반의 ANN(Approximate Nearest Neighbor) 검색 알고리즘 등과 같은 기존의 검색 방법을 이용할 수 있다. 검색 과정에 대한 기술은 본 개시의 범위를 벗어나므로 더 이상의 자세한 설명은 생략한다.

전술한 바와 같이 본 실시예에 따른 음악지문 검색장치(100)는 심층신경망 기반의 학습 모델과 트레이닝부를 구비하고, 구비된 학습 모델과 트레이닝부를 이용하여 음악지문 생성모델에 대한 트레이닝 과정을 수행할 수 있다.

이하 도 2 및 도 3을 참조하여, 학습 모델의 트레이닝 과정에 대해 설명하도록 한다.

도 2는 본 개시의 일 실시예에 따른 음악지문 생성모델을 트레이닝시키기 위한 학습 모델에 대한 개략적인 블록도이다.

본 개시에 따른 학습 모델은 자기지도학습을 위한 심층신경망(204) 및 트레이닝부(미도시)의 전부 또는 일부를 포함한다. 학습 모델의 심층신경망(204)은 음악지문 생성모델 및 프로젝션(projection) 모델을 포함한다. 또한 학습 모델은 신호증강부(202)를 추가적으로 포함하는데, 트레이닝부는 신호증강부(202)를 이용하여 학습 모델의 심층신경망(204)에 대한 트레이닝을 위한 학습용 데이터를 생성할 수 있다. 도 2의 도시는 본 실시예에 따른 예시적인 구성이며, 신호증강부의 구조와 동작, 음악지문 생성모델의 구조와 동작, 및 프로젝션 모델의 구조와 동작, 트레이닝부의 제어 방법에 따라 다른 구성요소 또는 구성요소 간의 다른 연결을 포함하는 다양한 구현이 가능하다.

이하, 트레이닝부가 신호증강부(202)를 이용하여 학습용 데이터를 생성하는 과정을 설명한다.

신호증강부(202)는 학습용 음원 신호로부터 오리지널(original) 스펙트로그램을 생성한다. 신호증강부(202)는 겹침(overlapping)을 허용한 채로, 음원 신호를 일정 구간(segment)으로 분할한다. 예컨대, 1 초 단위의 구간으로 분할하되, 50 %의 구간이 겹치도록 함으로써, 학습 모델에서 사용한 음원의 구간 시작 시점과 사용자가 제공하는 쿼리에 포함된 음원 조각의 시작 시점 간의 불일치에서 파생되는 음악지문 검색 과정에서의 문제가 일차적으로 완화될 수 있다.

음원 신호의 각 구간에 STFT(Short Term Fourier Transform)를 적용하여 스펙트로그램이 생성될 수 있다. 예컨대, 음원 신호의 1 초 단위 구간을 8,000 샘플로 나타낸 후 1,024 샘플단위 STFT를 적용하되, 홉(hop) 간격은 256 샘플을 적용하여 스펙트로그램이 생성될 수 있다. 또한, 음원 신호의 저주파 대역 특성을 표현하기에 적합하도록 로그(log) 함수를 적용한 멜 스펙트로그램(Mel spectrogram)이 이용될 수 있다.

시계열(time sequence) 신호인 음원 신호를 2차원(시간 및 주파수 축으로 형성) 데이터인 스펙트로그램으로 변환하는 이유는, 음원 신호에 대한 시간/주파수 영역 상의 정보를 동시에 이용하고, 2차원 신호(예컨대 영상 신호)의 처리에 탁월한 성능을 보이는 것으로 알려진 CNN(Convolutional Neural Network) 형태의 심층신경망을 음악지문 생성모델로 사용할 수 있기 때문이다.

한편, 학습용 음원 신호(궁극적으로, 음악지문 검색장치(100)의 데이터베이스에 저장되는 음악 지문의 생성에 이용되는 음악 신호)와 쿼리에 포함된 음원 조각 간에는 몇 가지 차이점이 존재할 수 있다. 전술한 바와 같이, 학습용 음원 신호가 분할된 구간의 시작 시점과 쿼리에 포함된 음원 조각의 시작 시점 간에 불일치가 존재할 수 있다. 또한 같은 음악이어도, 학습용 음원 신호가 제작된 환경, 제작 장비 등은 쿼리와 상이할 수 있다. 이하 이러한 상이함을 통칭하여 본 개시에서는 노이즈로 표현한다.

이러한 노이즈의 특성을 학습용 데이터에 반영함으로써, 지문인식 생성모델의 노이즈에 대한 강인성을 증대시키기 위해, 음원 신호에 증강 기법을 적용하여 증강(augmented) 음원 신호를 생성한 후 이를 이용하여 증강 스펙트로그램을 생성하거나, 오리지널 스펙트로그램에 증강 기법을 적용하여 증강 스펙트로그램을 생성할 수 있다.

본 개시에 따른 증강 기법은 학습 모델에 대한 트레이닝 목적과도 상호 연관이 있으므로, 추후에 설명하기로 한다.

자기지도학습을 수행하기 위해, 트레이닝부는 복수의 음원 신호에 대한 오리지널 스펙트로그램 및 증강 스펙트로그램을 기반으로 학습용 데이터를 생성한다. 지도학습에서 이용되는 레이블 대신, 본 개시에 따른 자기지도학습의 경우, 학습용 데이터는 긍정 페어(positive pair) 및 부정 페어(negative pair)를 포함한다(비특허문헌 3 참조).

학습에 이용되는 음원의 수가 방대할 수 있으므로 일정 크기를 갖는 배치(batch) 단위로 트레이닝을 진행하는 것으로 가정한다. 도 3에 도시된 바와 같이 하나의 배치에 포함된 음원 신호의 개수를 N(N은 자연수)으로 가정하면, N 개의 음원 신호 각각에 대하여 N 개의 오리지널 스펙트로그램, 및 N 개의 증강 스펙트로그램이 학습용 데이터의 생성에 이용될 수 있다. 여기서, 증강 스펙트로그램의 생성에 적용된 증강 기법은 이후에 설명될 다양한 증강 기법 중 하나 이상의 결합일 수 있다. 도 3의 도시에서, 동일한 번호의 원과 마름모는 하나의 음원으로부터 생성된 오리지널 스펙트로그램 및 증강 스펙트로그램을 나타낸다.

트레이닝부는 배치에 포함된 하나의 음원 신호에 대한 오리지널 스펙트로그램 및 증강 스펙트로그램을 결합하여 긍정 페어를 생성한다. 따라서, N 개의 음원 신호에 대하여, 트레이닝부는 N 개의 긍정 페어를 생성할 수 있다. 도 3의 도시에서 실선 연결로 나타낸 바와 같이, 동일한 번호를 갖는 스펙트로그램과 증강 스펙트로그램은 긍정 페어를 생성할 수 있다.

또한, 트레이닝부는 배치에 포함된 하나의 음원 신호에 대한 오리지널 스펙트로그램(또는 대응되는 증강 스펙트로그램)과 나머지 N-1 개의 음원 신호 각각의 오리지널 스펙트로그램 또는 이들에 대한 증강 스펙트로그램 중의 하나를 결합하여 부정 페어를 생성한다. 하나의 음원 신호에 대하여, 트레이닝부는 2(N-1) 개의 부정 페어를 생성할 수 있다. 따라서, N 개의 음원 신호 전체에 대하여 2N(N-1) 개의 부정 페어가 고려될 수 있다. 도 3의 도시에서 점선 연결로 나타낸 바와 같이, 상이한 번호를 갖는 두 스펙트로그램은 부정 페어를 생성할 수 있다.

각 배치에 포함되는 음원 신호 및/또는 음원 신호별 증강 스펙트로그램을 생성하기 위한 증강 기법의 다양한 결합을 이용하여 트레이닝부는 학습용 데이터를 구성하는 배치의 수를 증가시킬 수 있다. 예컨대, 동일한 N 개의 음원 신호에 대하여, N 개의 증강 스펙트로그램을 생성하기 위해 상이한 증강 기법이 이용된 경우, 상이한 두 개의 배치가 생성될 수 있다.

한편, 학습용 데이터를 생성하는 과정이 별도의 과정인 것처럼 설명되었으나, 학습 모델에 대한 트레이닝 과정의 전처리(pre-processing) 단계일 수 있다. 따라서, 학습용 데이터의 생성과 이를 이용한 트레이닝이 연속적으로 수행될 수 있다.

이하, 트레이닝부가 수행하는 트레이닝 과정을 설명한다.

딥러닝 기반의 음악지문 생성모델은 스펙트로그램으로부터 음원 고유의 특성 데이터를 생성한다. 트레이닝부는 학습용 데이터를 음악지문 생성모델에 적용하여 음원 고유의 특성 데이터를 생성하는데, 특성 데이터는 M(M은 자연수) 차원의 벡터일 수 있다. 트레이닝이 완료된 후, 특성 데이터는 음악지문 검색장치(100)에서 음악지문으로 이용될 수 있다. 이와 같이 음악지문을 M 차원의 벡터로 함축하여 표현함으로써, 종래의 방법(비특허문헌 1 참조)과 비교하여 음악지문을 표현하는 데이터양을 감소시키는 것이 가능해지는 효과가 있다.

음악지문 생성모델은 CNN 형태의 심층신경망으로 구현되되, 특성 데이터의 생성에 문제가 없다면 콘볼루션 레이어(convolution layer)의 개수, 콘볼루션 레이어 당 특성 맵(feature map)의 개수, 콘볼루션 커널(kernel)의 크기 등에 의존하는 CNN의 구조에 대한 한정을 두지 않는 것으로 가정한다.

한편, 2차원 신호 처리에 대한 용이성을 이용하기 위해 CNN을 이용하는 것으로 가정하였으나 반드시 이에 한정하는 것은 아니며, 스펙트로그램으로부터 음원에 대한 임베딩 특성을 추출하는 것이 가능한 다른 유형의 심층신경망도 음악지문 생성모델로서 이용될 수 있다.

딥러닝 기반의 프로젝션 모델은 특성 데이터로부터 자기지도학습의 수행에 이용하기 위한 출력 데이터를 생성한다. 프로젝션 모델은 은닉 레이어(hidden layer)를 포함하는 MLP(Multilayer Perceptron) 형태로 구현될 수 있으나 반드시 이에 한정하는 것은 아니며, 특성 데이터를 손실함수의 산정에 적합한 출력 데이터로 투사(projection)시킬 수 있는 어느 심층신경망이든 이용될 수 있다.

하나의 배치에 해당하는 N 개의 오리지널 스펙트로그램 및 대응되는 N 개의 증강 스펙트로그램에 각각에 대한 프로젝션 모델의 출력을 기반으로, 하나의 배치에 대한 손실함수는 수학식 1과 같이 나타낼 수 있다.

여기서 1 ≤ i,j ≤ 2N이고, 편의상 하나의 음원 신호에 대한 오리지널 스펙트로그램, 증강 스펙트로그램 순으로 형성되는 긍정 페어에 대한 인덱스는 (2k-1, 2k), 1 ≤ k ≤ N을 만족하여, 긍정 페어를 구성하는 두 개의 스펙트로그램이 상호 이웃하여 위치하는 것으로 가정한다. 이러한 인덱싱에 근거하여, 수학식 1에 나타낸 바와 같은 손실함수의 산정 과정에서 긍정 페어와 부정 페어의 결합이 암묵적으로(implicitly) 적용될 수 있다. 또한, τ는 트레이닝 과정에 도움을 주기 위해 이용되는 하이퍼파라미터이다.

한편, s_i,j는 크로스 엔트로피(cross entropy)를 나타내는 페어 간 유사도(pairwise similarity)로서, 본 개시에서는 코사인 유사도(cosine similarity)를 이용하는데, 프로젝션 모델의 출력 데이터 z_i와z_j를 이용하여 수학식 2와 같이 나타낼 수 있다.

여기서, 분자는 두 출력 데이터 z_i와z_j간의 내적이고, 분모는 두 출력 데이터의 크기 간의 곱을 나타낸다. 페어 간 유사도를 나타내기 위해 본 개시에서는 코사인 유사도가 이용되었으나, 반드시 이에 한정하는 것은 아니며, 크로스 엔트로피를 표현할 수 있는 어느 척도이든 이용될 수 있다.

수학식 1에 나타낸 바에 따라, 하나의 음원 신호에 대하여 개별 손실함수 l_i,j는 긍정 페어의 유사도와 ‘긍정 페어의 유사도 + 부정 페어들의 유사도’ 간의 비율에 의존한다. 긍정 페어의 유사도가 1에 근접하고, 부정 페어들의 유사도가 0에 근접할수록 l_i,j의 크기가 감소할 수 있다.

N 개의 음원 신호에 대한 개별 손실함수를 평균하여 하나의 배치에 대한 손실 함수 L이 산정된다. 여기서, 손실 함수 L에 포함된 l_2k-1,2k와 l_2k,2k-1은, 하나의 음원에 대한 오리지널 스펙트로그램과의 결합에 따른 부정 페어에 기반하는 개별 손실 함수, 및 하나의 음원에 대한 증강 스펙트로그램과의 결합에 따른 부정 페어에 기반하는 개별 손실 함수를 나타낸다.

트레이닝부는 수학식 1에 나타낸 것과 같은 손실함수가 감소되는 방향으로 음악지문 생성모델 및 프로젝션 모델의 파라미터에 대한 업데이트를 수행함으로써, 음악지문 생성모델을 트레이닝시킬 수 있다. 지도학습에 따른 레이블을 직접 이용하지는 않으나, 긍정 페어 간의 유사도를 증가시키고 부정 페어 간의 유사도를 감소시키는 방향으로 학습을 진행함으로써 트레이닝부는 지도학습에서 분류를 위한 이진 레이블을 사용하는 것과 유사한 효과를 낼 수 있다.

이러한 트레이닝에 기반하여 음악지문 생성모델은 하나의 음원 신호가 다른 N-1 개의 음원 신호와 구별될 수 있는 특성 데이터를 생성할 수 있다. 또한, 음악지문 생성모델은 긍정 페어에 대하여 유사한 특성 데이터를 생성하도록 트레이닝됨으로써, 노이즈에 대한 강인함을 증대시킬 수 있다.

학습이 종료된 후, 학습 모델의 구성요소 중 음악지문 생성모델은 특성 데이터를 음악지문으로 제공하기 위해, 음악지문 검색장치(100)의 구성요소로서 포함될 수 있다. 또한 음악지문 생성모델을 기반으로 복수의 음악에 대한 음악지문이 생성된 후 음악지문 검색장치(100)의 데이터베이스(108)에 저장될 수 있다. 저장된 음악지문은, 추후 검색 과정에서 음악지문 검색장치(100)가 쿼리의 음원 조각과의 비교에 이용될 수 있다.

이하, 학습용 데이터의 생성 시 음원 신호 또는 오리지널 스펙트로그램에 적용되기 위한, 본 개시에 따른 증강 기법들을 설명한다. 음원 신호 및 오리지널 스펙트로그램이 갖는 시계열 신호의 특성, 및 쿼리가 획득되는 환경 등을 참고하여, 신호증강부(202)는 다음과 같은 증강 기법을 적용하여 증강 스펙트로그램을 생성한다.

먼저, 시간 축으로 이동하는 증강 기법은, 음원 신호를 시간 축으로 임의로 일정 시간만큼 이동하여 증강 음원 신호를 생성하는 방법이다. 예컨대, 도 4에 도시된 바와 같이, 0.5 초 단위의 겹쳐진 상태에서 1 초 단위의 구간으로 분할된 음원 신호에 대하여 임의로 0.1, 0.2 또는 0.3 초를 시간 축으로 이동하여 증강 음원 신호를 생성할 수 있다. 음원 신호의 분할 구간의 겹침, 및 시간 축으로 이동된 증강 음원 신호를 기반으로 원래의 음원 신호에 대하여 0.X 초 단위의 시간 이동이 거의 반영될 수 있다. 이러한 증강 기법을 이용하여, 학습용 음원 신호가 분할된 구간의 시작 시점과 쿼리에 포함된 음원 조각의 시작 시점 간에 불일치에서 파생되는 음악지문 검색 과정에서의 문제가 추가적으로 완화될 수 있다.

한편, 도 4의 예시에서는, 이동 후의 증강 음원 신호의 분할 구간의 후단은 이동 전의 음원 신호의 분할 구간의 후단과 일치하지 않는다. 도 5의 도시는 이러한 상황에 대처하기 위한 증강 기법을 나타낸다. 도 5의 도시에서는, 1.2 초 단위의 슬라이스 윈도우(slice window)를 도입함으로써, 시간 축으로 이동에 따른 증강 음원 구간의 길이가 1 초가 유지될 수 있는데, 이때, 시간 축으로 이동할 수 있는 최대 간격은 200 msec이다. 또한, 도 5의 도시에서 슬라이스 간의 간격(hop)을 500 msec로 설정시 연속되는 음원 구간(또는 증강 음원 구간) 간의 겹침은 최대 700 msec일 수 있다. 또한, 오프셋은 음원 신호 별로 적용되는 임의의 설정값으로서, 예를 들어 0 또는 0.25 초로 설정될 수 있다.

다음 증강 기법은, 도 6에 도시된 바와 같이, 오리지널 스펙트로그램의 일부를 삭제하는 증강 기법이다. 도 6의 사각형 ①과 같이 시간 축을 기준으로 삭제하는 것은　시간 축으로 이동하는 증강 기법이 동시에 적용되는 경우 정보의 손실이 클 수 있으므로, 이용되지 않거나 매우 짧은 시간 구간 동안에 적용될 수 있다. 반면에, 도 6의 사각형 ②와 같이 주파수 축을 기준으로 가로로 긴 직사각형의 형태로 삭제하는 것은 스펙트로그램을 이용하여 특성 데이터를 추출하는 것을 학습하기에 매우 적합한 증강 기법일 수 있다. 일부 영역의 삭제가 포함된 증강 스펙트로그램을 기반으로 음악지문 생성모델은 음원의 임베딩 특성을 추출하기 위해 필요한 전체적인 맥락, 및 지워진 영역과 지워지지 않은 영역 간의 관련성을 동시에 효율적으로 학습할 수 있다. 한편, 삭제된 영역은　영(zero) 또는 노이즈와 같은 랜덤값(random value)으로 채워질 수 있다. 삭제되는 사각형의 크기와 위치는 기 설정된 범위 안에서 임의로 결정될 수 있으며, 이는 트레이닝 과정에서 이 증강 기법에 대한 제어 파라미터로 이용될 수 있다.

다음, 주변 환경 노이즈를 혼합(mixing)하는 증강 기법은, 기 설정된 SNR(Signal-to-noise Ratio) 값을 갖도록 사전에 녹음된 환경 소음과 학습용 음원 신호를 혼합하는 방법이다. 여기서 실험적으로 도출된 혼합을 위한 SNR의 범위는 5 내지 15 dB이다. 이러한 주변 환경 노이즈가 반영된 증강 음원 신호를 이용함으로써, 쿼리의 음원 조각에 포함된 소음에 보다 강인해지도록 음성지문 생성모델이 트레이닝될 수 있다.

다음, 실내 잔향(indoor echo)을 혼합하는 증강 기법은, 사전에 시뮬레이션된 실내 잔향을 나타내는 IR(Impulse Response)을 학습용 음원 신호와 혼합하는 방법이다. 쿼리의 음원 조각은 녹음장비(예컨대, 다양한 종류의 모바일 단말)에 부착된 마이크를 이용하여 녹음될 수 있고, 특별한 소음이 없는 환경에서의 녹음을 가정하더라도 실내 공간에 발생할 수 있는 잔향으로 인하여 음원 조각이 왜곡될 수 있다. 따라서, 실내 잔향이 혼합된 증강 음원 신호를 이용함으로써, 쿼리의 음원 조각에 포함될 수 있는 잔향에 더욱 강인해지도록 음성지문 생성모델이 트레이닝될 수 있다.

한편, 시뮬레이션 잔향은 스튜디오 부스, 사무실, 회의실, 강의실 등 다양한 특성을 갖는 실내 공간을 다양한 크기로 재현하여 생성될 수 있다.

다음, 특정 마이크의 IR을 혼합하는 증강 기법은, 사전에 시뮬레이션된 녹음장비에 따른 IR을 학습용 음원 신호와 혼합하는 방법이다. 쿼리의 음원 조각은 마이크를 이용하여 녹음될 수 있고, 마이크를 포함하는 녹음장비의 특성에 따라 음원 조각이 왜곡될 수 있다. 따라서, 실제로 사용되는 다양한 녹음장비의 IR이 혼합된 증강 음원 신호를 이용함으로써, 쿼리의 음원 조각에 포함될 수 있는 녹음장비 특성에 더욱 강인해지도록 음성지문 생성모델이 트레이닝될 수 있다.

다음, 다운샘플링(down-sampling)에 기반하는 증강 기법은, 예컨대, 음원 신호를 다운샘플링하여 엘리어싱(aliasing) 노이즈를 추가한 후 다시 업샘플링(up-sampling)하는 방법이다. 쿼리의 음원 조각은 학습용 음원 신호보다 낮은 샘플링 레이트(sampling rate)로 녹음될 수 있으므로, 이에 대처하기 위해 이러한 증강 기법이 이용될 수 있다. 다운샘플링 시의 샘플링 레이트는 임의로 선택 가능하며, 음원 신호에 대하여 통상 0.5 내지 0.8 정도로 설정될 수 있다. 또한, 업샘플링을 위한 방법으로는 최근접(nearest), 바이큐빅(bicubic), 이중선형(bilinear), 가우시안(gaussian) 알고리즘 등이 사용될 수 있다.

다음, 클리핑(clipping)에 기반하는 증강 기법은, 음원 신호에 인위적으로 클리핑 노이즈를 삽입하는 방법이다. 마이크의 동작 레벨이 지나치게 높게 설정되어 있거나, 마이크의 입력 신호가 허용치보다 큰 경우, 쿼리의 음원 조각에 클리핑이 포함될 수 있다. 클리핑은, 음원 신호를 정규화(normalization)한 후, 무작위로 선정된 배수(예컨대 1 내지 12 배)를 이용하여 정규화된 신호를 증폭함으로써 수행될 수 있다. 클리핑이 포함된 학습용 음원 신호를 이용함으로써 쿼리의 음원 조각에 포함될 수 있는 클리핑에 더욱 강인해지도록 음성지문 생성모델이 트레이닝될 수 있다.

한편, 증강 스펙트로그램을 생성하기 위해 하나의 음원 신호에 복수의 증강 기법이 적용될 수 있다. 예컨대, 도 7에 예시된 바와 같이 하나의 증강 음원 신호를 생성하기 위해 체인 규칙(chain rule)에 따라 복수의 증강 기법이 적용될 수 있다. 체인 규칙의 적용시, 증강 기법 각각에 대한 적용 확률과 증강 기법 별로 필요한 제어 파라미터들이 입력으로 이용될 수 있다. 또한, 일부 증강 기법의 경우 배치 단위로 동일한 값이 적용되고(예를 들어, 오리지널 스펙트로그램의 일부를 삭제하는 방법), 일부 증강 기법의 경우 음원 신호의 매 샘플마다 임의로 적용될 수도 있다.

이하, 음악지문 생성모델을 트레이닝하기 위한 방법을 설명한다.

도 8은 본 개시의 일 실시예에 따른 음악지문 생성모델을 트레이닝시키기 위한 방법의 흐름도이다.

도 2에 도시된 학습 모델을 기반으로 트레이닝부는 음악지문 생성모델에 대한 자기지도학습을 수행할 수 있다. 학습에 이용되는 음원의 수가 방대할 수 있으므로 일정 크기를 갖는 배치(batch) 단위로 트레이닝을 진행하는 것으로 가정하고, 하나의 배치에 포함된 복수의 음원 신호의 개수를 N(N은 자연수)으로 설정한다.

트레이닝부는 N(N은 자연수) 개의 음원 신호를 획득한다(S800).

트레이닝부는 N 개의 음원 신호 각각에 대한 오리지널 스펙트로그램을 생성하고, 음원 신호 및/또는 오리지널 스펙트로그램에 증강 기법을 적용하여 N 개의 음원 신호 각각에 대한 증강 스펙트로그램을 생성한다(S802).

오리지널 스펙트로그램의 예시 및 증강 기법을 이용한 증강 스펙트로그램의 생성에 대해서는 이미 기술되었으므로 더 이상의 설명은 생략한다.

트레이닝부는 오리지널 스펙트로그램과 증강 스펙트로그램을 기반으로 긍정 페어와 부정 페어를 생성한다(S804).

트레이닝부는 배치에 포함된 하나의 음원 신호에 대한 오리지널 스펙트로그램, 및 증강 스펙트로그램을 결합하여 긍정 페어를 생성한다. 또한, 트레이닝부는 배치에 포함된 하나의 음원 신호에 대한 오리지널 스펙트로그램(또는 대응되는 증강 스펙트로그램)과 나머지 N-1 개의 음원 신호 각각의 오리지널 스펙트로그램 또는 이들에 대한 증강 스펙트로그램 중의 하나를 결합하여 부정 페어를 생성한다.

트레이닝부는 심층신경망 기반의 음악지문 생성모델을 이용하여 오리지널 스펙트로그램과 증강 스펙트로그램으로부터 특성 데이터를 추출한다(S806).

트레이닝부는 긍정 페어와 부정 페어를 포함하는 학습용 데이터를 음악지문 생성모델에 적용하여 음원 고유의 특성 데이터를 생성하는데, 트레이닝이 완료된 후, 이러한 특성 데이터는 음악지문 검색장치(100)에서 음악지문으로 이용될 수 있다.

음악지문 생성모델은 CNN 형태의 심층신경망으로 구현되나, 반드시 이에 한정하는 것은 아니며, 스펙트로그램으로부터 음원에 대한 임베딩 특성을 추출하는 것이 가능한 다른 유형의 심층신경망도 음악지문 생성모델로서 이용될 수 있다.

트레이닝부는 심층신경망 기반의 프로젝션 모델(projection model)을 이용하여 상기 특성 데이터로부터 출력 데이터를 생성한다(S808).

프로젝션 모델은 은닉 레이어를 포함하는 MLP 형태로 구현될 수 있으나 반드시 이에 한정하는 것은 아니며, 특성 데이터를 손실함수의 산정에 적합한 출력 데이터로 투사(projection)시킬 수 있는 어느 심층신경망이든 이용될 수 있다.

트레이닝부는 긍정 페어에 대응되는 출력 데이터 간의 유사도(similarity) 및 상기 부정 페어에 대응되는 출력 데이터 간의 유사도를 기반으로 손실함수(loss function)를 산정한다(S810).

트레이닝부는 손실함수를 감소시키는 방향으로 음악지문 생성모델 및 프로젝션 모델의 파라미터를 업데이트한다(S812).

긍정 페어에 대응되는 출력 데이터 간의 유사도를 증가시키고, 부정 페어에 대응되는 출력 데이터 간의 유사도를 감소시킴으로써 트레이닝부는 손실함수를 감소시킬 수 있다.

이러한 트레이닝에 기반하여 음악지문 생성모델은 긍정 페어에 대하여 유사한 특성 데이터를 생성함으로써, 노이즈에 대한 강인함을 증대시킬 수 있다. 학습이 종료된 후, 음악지문 생성모델은 특성 데이터를 음악지문으로 제공하기 위해, 음악지문 검색장치(100)의 구성요소로서 포함될 수 있다.

본 실시예에 따른 음악지문 생성모델을 포함하는 음악지문 검색장치(100)는 서버(미도시) 또는 서버에 준하는 연산 능력을 보유하는 프로그램가능 시스템에 탑재될 수 있다. 음악지문 검색장치(100) 측으로 쿼리를 전달하기 위한 앱(application)이 탑재되는 디바이스(미도시)는 모바일 단말을 포함하는 프로그램가능 컴퓨터일 수 있으며, 서버와 연결이 가능한 적어도 한 개의 통신 인터페이스를 포함한다. 이때, 음악지문 생성모델에 대한 트레이닝은 서버의 트레이닝부에 의하여 수행될 수 있다.

본 실시예에 따른 각 순서도에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 순서도에 기재된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것이 적용 가능할 것이므로, 순서도는 시계열적인 순서로 한정되는 것은 아니다.

본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적 회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터가 읽을 수 있는　기록매체"에 저장된다.

컴퓨터가 읽을 수 있는　기록매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는　기록매체는 ROM, CD-ROM, 자기 테이프, 플로피디스크, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등의 비휘발성(non-volatile) 또는 비일시적인(non-transitory) 매체일 수 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송) 및 데이터 전송 매체(data transmission medium)와 같은 일시적인(transitory) 매체를 더 포함할 수도 있다. 또한 컴퓨터가 읽을 수 있는　기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.

본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 프로그램가능 컴퓨터에 의하여 구현될 수 있다. 여기서, 컴퓨터는 프로그램가능 프로세서, 데이터 저장 시스템(휘발성 메모리, 비휘발성 메모리, 또는 다른 종류의 저장 시스템이거나 이들의 조합을 포함함) 및 적어도 한 개의 커뮤니케이션 인터페이스를 포함한다. 예컨대, 프로그램가능 컴퓨터는 서버, 네트워크 기기, 셋탑 박스, 내장형 장치, 컴퓨터 확장 모듈, 개인용 컴퓨터, 랩탑, PDA(Personal Data Assistant), 클라우드 컴퓨팅 시스템 또는 모바일 장치 중 하나일 수 있다.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 음악지문 검색장치
102: 입력부 104: 음악지문 생성부
106: 음악검색부 108: 데이터베이스
203: 신호증강부
204: 학습 모델의 심층신경망

Claims

음악지문(music fingerprint) 생성모델에 대한 학습방법에 있어서,
N(N은 자연수) 개의 음원 신호를 획득하는 과정;
상기 N 개의 음원 신호 각각에 대한 오리지널 스펙트로그램(original spectrogram)을 생성하고, 상기 음원 신호 및/또는 오리지널 스펙트로그램에 적어도 하나의 증강(augmentation) 기법을 적용하여 상기 N 개의 음원 신호 각각에 대한 증강 스펙트로그램(augmented spectrogram)을 생성하는 과정;
상기 오리지널 스펙트로그램과 증강 스펙트로그램을 기반으로 긍정 페어(positive pair)와 부정 페어(negative pair)를 생성하는 과정;
심층신경망(deep neural network) 기반의 음악지문 생성모델을 이용하여 상기 오리지널 스펙트로그램과 증강 스펙트로그램으로부터 특성 데이터를 추출하는 과정; 및
심층신경망 기반의 프로젝션 모델(projection model)을 이용하여 상기 특성 데이터로부터 출력 데이터를 생성하는 과정
을 포함하는 것을 특징으로 하는 학습방법.
제1항에 있어서,
상기 긍정 페어는,
상기 N 개의 음원 신호에 대하여, 상기 음원 신호 별 오리지널 스펙트로그램과 증강 스펙트로그램을 결합하여 생성되는 것을 특징으로 하는 학습방법.
제1항에 있어서,
상기 부정 페어는,
상기 N 개의 음원 신호에 대하여, 상기 하나의 음원 신호에 대한 오리지널 스펙트로그램 또는 대응되는 증강 스펙트로그램과 나머지 N-1 개의 음원 신호 각각의 오리지널 스펙트로그램 또는 증강 스펙트로그램 중 하나를 결합하여 생성되는 것을 특징으로 하는 학습방법.
제1항에 있어서,
상기 긍정 페어에 대응되는 출력 데이터 간의 유사도(similarity) 및 상기 부정 페어에 대응되는 출력 데이터 간의 유사도를 기반으로 손실함수(loss function)를 산정하는 과정; 및
상기 손실함수를 기반으로 상기 음악지문 생성모델 및 프로젝션 모델의 파라미터를 업데이트하는 과정
을 더 포함하는 것을 특징으로 하는 학습방법.
제4항에 있어서,
상기 긍정 페어에 대응되는 출력 데이터 간의 유사도를 증가시키고, 상기 부정 페어에 대응되는 출력 데이터 간의 유사도를 감소시킴으로써 상기 손실함수를 감소시키는 방향으로 상기 파라미터를 업데이트하는 것을 특징으로 하는 학습방법.
제2항에 있어서,
상기 음악지문 생성모델은 상기 음원 신호에 대한 임베딩(embedding) 특성인 특성 데이터를 추출하고, 상기 프로젝션 모델은 상기 특성 데이터를 상기 손실함수의 산정에 적합한 형태로 변환하는 것을 특징으로 하는 학습방법.
제1항에 있어서,
상기 음원 신호에 적용되는 증강 기법은,
시간 축으로 임의의 시간 이동, 주변 환경 노이즈의 혼합(mixing), 실내 잔향(indoor echo)의 혼합, 마이크의 IR(Impulse Response)의 혼합, 다운샘플링에 기반하는 엘리어싱(aliasing) 노이즈의 추가, 및 클리핑(clipping) 적용인 것을 특징으로 하는 학습방법.
제7항에 있어서,
상기 하나의 음원 신호에 상기 적어도 하나의 증강 기법이 적용되는 경우, 체인 규칙(chain rule)을 따르는 것을 특징으로 하는 학습방법.
제1항에 있어서,
상기 오리지널 스펙트로그램에 적용되는 증강 기법은, 상기 오리지널 스펙트로그램의 일부를 영(zero) 또는 랜덤값(random value)으로 채우는 것을 특징으로 하는 학습방법.
음악지문 생성모델에 대한 트레이닝을 수행하는 학습장치에 있어서,
N(N은 자연수) 개의 음원 신호를 획득하고, 상기 N 개의 음원 신호 각각에 대한 오리지널 스펙트로그램(original spectrogram)을 생성하고, 상기 음원 신호 또는 오리지널 스펙트로그램에 적어도 하나의 증강(augmentation) 기법을 적용하여 상기 N 개의 음원 신호 각각에 대한 증강 스펙트로그램(augmented spectrogram)을 생성하며, 상기 오리지널 스펙트로그램과 증강 스펙트로그램을 기반으로 긍정 페어(positive pair)와 부정 페어(negative pair)를 생성하는 신호증강부;
상기 오리지널 스펙트로그램과 증강 스펙트로그램으로부터 특성 데이터를 추출하는 심층신경망(deep neural network) 기반의 음악지문 생성모델; 및
상기 특성 데이터로부터 출력 데이터를 생성하는 심층신경망 기반의 프로젝션 모델(projection model)
을 포함하는 것을 특징으로 하는 학습장치.
제10항에 있어서,
상기 긍정 페어는,
상기 N 개의 음원 신호에 대하여, 상기 음원 신호 별 오리지널 스펙트로그램과 증강 스펙트로그램을 결합하여 생성되는 것을 특징으로 하는 학습장치.
제10항에 있어서,
상기 부정 페어는,
상기 N 개의 음원 신호에 대하여, 상기 하나의 음원 신호에 대한 오리지널 스펙트로그램 또는 대응되는 증강 스펙트로그램과 나머지 N-1 개의 음원 신호 각각의 오리지널 스펙트로그램 또는 증강 스펙트로그램 중에 하나를 결합하여 생성되는 것을 특징으로 하는 학습장치.
제10항에 있어서,
상기 긍정 페어에 대응되는 출력 데이터 간의 유사도(similarity) 및 상기 부정 페어에 대응되는 출력 데이터 간의 유사도를 기반으로 산정된 손실함수(loss function)를 감소시키는 방향으로 상기 음악지문 생성모델 및 프로젝션 모델의 파라미터가 업데이트되는 것을 특징으로 하는 학습장치.
제1항 내지 제9항 중 어느 한 항에 따른 학습방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램.