KR20220124004A

KR20220124004A - 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 방법, 이를 수행하기 위한 기록 매체 및 장치

Info

Publication number: KR20220124004A
Application number: KR1020210027652A
Authority: KR
Inventors: 이수원; 김태진
Original assignee: 숭실대학교산학협력단
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2022-09-13

Abstract

음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 방법은, 음악 및 사용자에 관한 정보가 노드이고, 방향성 엣지로 노드 간의 관계를 나타내는 음악 메타 데이터와 사용자의 선호 정보를 그래프로 표현하는 단계; 그래프의 음악 노드에서 인터랙션(Interaction)이 있는 다른 음악 노드로 도달하는 경로(Path)로 연결될 수 있는 음악의 쌍(Pair)인 포지티브 쌍(Positive Pair)을 설정하는 단계; 포지티브 쌍을 연결하는 제한된 길이를 갖는 포지티브 경로(Positive Path)를 모두 추출하는 단계; 포지티브 쌍을 제외한 음악의 쌍에서 추출되는 네거티브 경로(Negative Path)를 추출하는 단계; 및 포지티브 경로 및 네거티브 경로를 딥러닝 학습하여 음악의 쌍 별로 유사도 점수를 계산하는 단계;를 포함한다. 이에 따라, 소리 데이터와 사용자 선호 정보를 모두 이용하여 선호 음악 예측의 성능을 높일 수 있다.

Description

음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 방법, 이를 수행하기 위한 기록 매체 및 장치{METHOD FOR PREDICTING PREFERRED MUSIC USING AUTOMATIC MUSIC CLASSIFICATION AND GRAPH EMBEDDING, RECORDING MEDIUM AND DEVICE FOR PERFORMING THE METHOD}

본 발명은 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것으로서, 더욱 상세하게는 음악 자동 분류를 통해 소리 데이터와 사용자 선호 정보를 모두 이용한 음악 추천 방법에 관한 것이다.

음악 산업의 꾸준한 성장을 통해 사람들은 언제 어디서든 원하는 다양한 음악을 들을 수 있다. 다양한 음악들 중에서 인기가 많은 음악은 접근성이 좋지만 숨겨진 좋은 음악을 찾는 것은 어렵다.

이러한 어려움을 극복하기 위해 음악 추천에 대한 다양한 연구들의 필요성이 증가했다. 기존의 그래프 임베딩을 이용한 추천 시스템은 음악의 주요 요인인 음향을 사용하지 않았다는 한계점을 가지고 있다.

음악 산업의 규모는 점점 증가하고 있다. 규모가 큰 음악 산업 회사들이 제작한 음악은 많은 투자와 홍보를 통해 접근성이 좋지만 많은 투자가 불가능한 회사들은 좋은 음악을 생산해도 많은 사람들에게 소개할 기회가 적다. 음악 추천 시스템이 숨겨진 좋은 음악들을 추천해 준다면 음악을 생산하는 사람은 좋은 음악을 생산하는데 집중할 수 있고 음악을 소비하는 사람으로서는 좋은 음악을 많이 접할 수 있다.

최근 여러 메타 정보를 사용하기 위해 그래프 임베딩을 사용해 음악 추천 시스템을 구축한 기술과 음향 데이터를 통해 유사한 음악을 분류하기 위해서 Music Auto Tagging을 이용한 연구들이 등장하였다.

하지만, 기존의 그래프 임베딩을 이용한 추천 시스템은 음향 데이터를 사용하지 않는다는 단점이 존재한다. 그리고, Music Auto Tagging 만을 이용한 음악 추천은 사용자의 선호 정보를 이용 못하는 단점이 존재한다.

구체적으로, CF(Collaborative Filtering)는 추천 시스템에서 대표적인 방법이다. CF는 User-based CF, Itembased CF, Latent Factor CF 등으로 구분된다.

User-based CF는 User-Item Rating Matrix에서 사용자 간의 유사도를 계산하여 사용자의 아이템에 대한 평점을 예측하고 예측 평점을 기반으로 추천을 하는 방법이다. 유사도는 평가 점수를 벡터로 표현한 후 코사인 유사도, 피어슨 유사도를 사용해 도출된다.

Item-based CF는 User-based CF와 달리 아이템 간의 유사도를 기준으로 사용자의 아이템에 대한 평점을 예측하고 평점을 기반으로 추천을 하는 방법이다.

마지막으로, Latent Factor CF는 User-Item Rating Matrix에서 Matrix Factorization를 통해 유저나 상품의 정보를 분해하거나 축소해 잠재 요인을 찾아내는 방법이다.

CF에서는 SVD(Singular Value Decomposition)와 같은 방법으로 차원 축소를 사용한다. 하지만, SVD는 데이터가 선형적인(Linear) 상황에서만 정상적으로 동작한다는 단점이 있기 때문에 이를 해결하기 위한 방법 중 하나가 딥러닝 기반의 차원 축소이다.

딥러닝 기반의 차원 축소 방법 중 오토인코더를 이용해 음악 추천 시스템을 제안한 기술이 있다. 오토인코더는 높은 차원의 데이터를 저 차원으로 축소하고 다시 높은 차원으로 복원시키는 과정에서 잠재 요인을 학습하는 방법이다. 하지만, 오토인코더 기반 음악 추천 시스템은 메타 데이터 사용이 어렵다는 단점이 있다.

또한, 그래프 임베딩을 통해 음악 추천 시스템을 제시한 기술이 있으나, 많은 메모리가 필요하다는 단점이 있다.

KR 10-2190304 B1 KR 10-2020-0070732 A

이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 방법을 제공하는 것이다.

본 발명의 다른 목적은 상기 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.

본 발명의 또 다른 목적은 상기 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 방법을 수행하기 위한 장치를 제공하는 것이다.

상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 방법은, 음악 및 사용자에 관한 정보가 노드이고, 방향성 엣지로 노드 간의 관계를 나타내는 음악 메타 데이터와 사용자의 선호 정보를 그래프로 표현하는 단계; 그래프의 음악 노드에서 인터랙션(Interaction)이 있는 다른 음악 노드로 도달하는 경로(Path)로 연결될 수 있는 음악의 쌍(Pair)인 포지티브 쌍(Positive Pair)을 설정하는 단계; 포지티브 쌍을 연결하는 제한된 길이를 갖는 포지티브 경로(Positive Path)를 모두 추출하는 단계; 포지티브 쌍을 제외한 음악의 쌍에서 추출되는 네거티브 경로(Negative Path)를 추출하는 단계; 및 포지티브 경로 및 네거티브 경로를 딥러닝 학습하여 음악의 쌍 별로 유사도 점수를 계산하는 단계;를 포함한다.

본 발명의 실시예에서, 상기 네거티브 경로를 추출하는 단계는, 미리 설정된 수만큼의 네거티브 경로를 선택하는 네거티브 샘플링(Negative Sampling) 단계;를 더 포함할 수 있다.

본 발명의 실시예에서, 상기 포지티브 경로 및 네거티브 경로를 딥러닝 학습하여 음악의 쌍 별로 유사도 점수를 계산하는 단계는, 포지티브 경로의 음악의 쌍에 대해서는 네거티브 경로의 음악의 쌍에 비해 상대적으로 유사도 점수를 높게 부여할 수 있다.

본 발명의 실시예에서, 상기 포지티브 경로 및 네거티브 경로를 딥러닝 학습하여 음악의 쌍 별로 유사도 점수를 계산하는 단계는, 유사도 점수가 높을수록 유사한 음악의 쌍이라고 판단하는 단계;를 더 포함할 수 있다.

본 발명의 실시예에서, 상기 포지티브 경로 및 네거티브 경로를 딥러닝 학습하여 음악의 쌍 별로 유사도 점수를 계산하는 단계는, 가중치 풀링(Weighted Pooling) 연산을 한 경로들의 점수를 통합하여 음악의 쌍의 유사도 점수를 계산할 수 있다.

상기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 상기 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.

상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 장치는, 음악 및 사용자에 관한 정보가 노드이고, 방향성 엣지로 노드 간의 관계를 나타내는 음악 메타 데이터와 사용자의 선호 정보를 그래프로 표현하는 그래프 생성부; 그래프의 음악 노드에서 인터랙션(Interaction)이 있는 다른 음악 노드로 도달하는 경로(Path)로 연결될 수 있는 음악의 쌍(Pair)인 포지티브 쌍(Positive Pair)을 설정하는 포지티브 쌍 설정부; 포지티브 쌍을 연결하는 제한된 길이를 갖는 포지티브 경로(Positive Path)를 모두 추출하는 포지티브 경로 추출부; 포지티브 쌍을 제외한 음악의 쌍에서 추출되는 네거티브 경로(Negative Path)를 추출하는 네거티브 경로 추출부; 및 포지티브 경로 및 네거티브 경로를 딥러닝 학습하여 음악의 쌍 별로 유사도 점수를 계산하는 유사도 계산부;를 포함한다.

본 발명의 실시예에서, 상기 네거티브 경로 추출부는, 미리 설정된 수만큼의 네거티브 경로를 선택하는 네거티브 샘플링(Negative Sampling)할 수 있다.

본 발명의 실시예에서, 상기 유사도 계산부는, 포지티브 경로의 음악의 쌍에 대해서는 네거티브 경로의 음악의 쌍에 비해 상대적으로 유사도 점수를 높게 부여할 수 있다.

본 발명의 실시예에서, 상기 유사도 계산부는, 유사도 점수가 높을수록 유사한 음악의 쌍이라고 판단할 수 있다.

본 발명의 실시예에서, 상기 유사도 계산부는, 가중치 풀링(Weighted Pooling) 연산을 한 경로들의 점수를 통합하여 음악의 쌍의 유사도 점수를 계산할 수 있다.

이와 같은 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 방법에 따르면, 소리 데이터와 사용자 선호 정보를 모두 이용한 음악 자동 분류를 통해 선호 음악 예측의 성능을 높일 수 있다.

도 1은 본 발명에 따른 선호 음악 예측 시스템의 개념도이다.
도 2는 본 발명의 일 실시예에 따른 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 장치의 블록도이다.
도 3은 도 2의 선호 음악 예측 장치에서 생성하는 그래프를 설명하기 위한 도면이다.
도 4는 도 3의 사용자 선호 정보 및 음악 메타 데이터로 생성되는 그래프의 예시 도면이다.
도 5는 도 2의 선호 음악 예측 장치에서 생성하는 포지티브 경로의 예시 도면이다.
도 6은 본 발명의 일 실시예에 따른 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 방법의 흐름도이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

도 1은 본 발명에 따른 선호 음악 예측 시스템의 개념도이다. 도 2는 본 발명의 일 실시예에 따른 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 장치의 블록도이다.

도 1을 참조하면, 본 발명은 사용자 선호 정보와 소리 데이터를 같이 이용하여 음악 추천 시스템을 구축하기 위하여 KPRN(Knowledge aware Path Recurrent Network)과 음악 자동 분류를 이용한다.

또한, Music Auto Tagging을 이용해서 그래프 임베딩 기반 추천 시스템에 음향 데이터를 사용한다. KPRN는 범주형 데이터를 기반으로 설계되었으므로 소리 데이터를 이용하기 위해서는 이를 범주화하여야 한다. 본 발명은 음악 자동 분류를 이용하여 이 작업을 실행한다.

본 발명에서 일 예로 카카오아레나 데이터를 기반으로 제안모델을 설명한다. 카카오아레나 데이터는 각각의 사용자의 플레이리스트 데이터와 플레이리스트에 들어가 있는 음악 목록을 알 수 있는 데이터이다. 카카오아레나 데이터는 115,071명의 플레이리스트와 707,989곡에 대한 데이터로 구성되어 있다. 아래의 표 1은 카카오아레나 플레이리스트 데이터의 특징(Feature)이고, 표 2는 음악 데이터의 특징이다.

No.	Feature	Explanation
1	User Id	사용자를 구분하기 위한 인덱스
2	Playlist Title	해당 플레이리스트의 제목
3	Tag List	해당 플레이리스트에 어울리는 단어들의 목록
4	Music List	플레이리스트에 포함된 음악 목록
5	Like count	해당 플레이리스트를 다른 사용자가 좋다고 평가한 횟수

No.	Feature	Explanation
1	Music Id	음악을 구분하기 위한 인덱스
2	Song Name	해당 인덱스의 음악 제목
3	Artist	해당 인덱스 음악을 부른 가수
4	Album	해당 인덱스 음악이 속한 앨범
5	Genre	해당 인덱스 음악이 속한 장르
6	Spectrogram	해당 인덱스 음악의 음향 데이터

Music Auto Tagging은 음향 데이터를 통해 해당 음악과 어울리는 단어를 Tagging하는 작업이다. 본 발명에서 음향 데이터는 표 2의 Spectrogram을 이용하고, 단어는 표 1의 Tag List를 사용했다. Tagging을 위해 우선 Music Auto Tagging에 사용할 단어 목록인 태그를 선정한다.

일 실시예에서, 선정한 태그는 "발라드, 감성, 트랩, 붐뱁, 멈블, 발라드 랩, 레게, 고요한, CCM, 종교 음악, 뉴에이지, 알앤비, 기분 전환, 국내 OST, 해외 OST, 포크록, 사이키델릭, 하드 록, 프로그레시브, 글램 록, 헤비메탈, 얼터너티브, 여자 아이돌, 남자 아이돌, 댄스, EDM, 사랑, 설렘, JPOP, 비 오는 날, 봄, 여름, 가을, 겨울, 피아노, 트로트, 블루스, 뮤지컬, 재즈, 국악, 크리스마스, 태교, 인디, 동요, 이별"이다.

그 이후 태그에 해당하는 음악은 CNN(convolutional neural network)을 통해 High Level Feature가 되고, Music Auto Tagging은 High Level Feature가 해당하는 태그에 어울린다고 학습된다. 학습을 바탕으로 음악이 어떤 태그에 어울리는지 판단하는 것이 Music Auto Tagging이다.

본 발명에 따른 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 장치(10, 이하 장치)는 음악 자동 분류를 이용하여 소리 데이터와 사용자 선호 정보를 모두 이용한 음악 추천을 제안한다.

본 발명은 그래프 임베딩 기반 추천 시스템인 KPRN(Knowledgeaware Path Recurrent Network)을 기반으로 한다. KPRN은 음악에 대한 정보와 사용자의 선호 정보를 그래프로 표현한 후 그래프 임베딩을 이용해 학습을 진행한다. 그래프에서 노드는 음악의 정보가 된다. 학습 과정은 다음과 같다.

첫 번째는 포지티브 쌍(Positive Pair)을 설정한다. 여기서, 포지티브 쌍은 그래프에서 음악과 음악이 경로(Path)로 연결될 수 있는 음악의 쌍을 말한다. 경로는 음악에서 인터랙션(Interaction)이 있는 노드를 거쳐 다른 음악으로 도달하는 경로를 말한다.

그리고, 두 번째는 포지티브 경로들(Positive Paths)을 전부 추출한다. 포지티브 경로는 그래프에서 포지티브 쌍 간 연결할 수 있는 모든 경로이다.

세 번째는 인터랙션이 없었던 쌍(Pair)을 추출하는 네거티브 샘플링(Negative Sampling)을 진행한다.

마지막으로, 포지티브 경로와 네거티브 경로를 비교해서 학습을 진행한다. 학습이 끝난 후 모델은 전체 쌍(Pair) 별로 스코어(Score)를 계산하고, 스코어가 높은 것을 추천한다.

도 2를 참조하면, 본 발명에 따른 장치(10)는 그래프 생성부(110), 포지티브 쌍 설정부(130), 포지티브 경로 추출부(150), 네거티브 경로 추출부(170) 및 유사도 계산부(190)를 포함한다.

본 발명의 상기 장치(10)는 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측을 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 상기 그래프 생성부(110), 상기 포지티브 쌍 설정부(130), 상기 포지티브 경로 추출부(150), 상기 네거티브 경로 추출부(170) 및 상기 유사도 계산부(190)의 구성은 상기 장치(10)에서 실행되는 상기 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측을 수행하기 위한 소프트웨어에 의해 제어될 수 있다.

상기 장치(10)는 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다. 또한, 상기 그래프 생성부(110), 상기 포지티브 쌍 설정부(130), 상기 포지티브 경로 추출부(150), 상기 네거티브 경로 추출부(170) 및 상기 유사도 계산부(190)의 구성은 통합 모듈로 형성되거나, 하나 이상의 모듈로 이루어 질 수 있다. 그러나, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.

상기 장치(10)는 이동성을 갖거나 고정될 수 있다. 상기 장치(10)는, 서버(server) 또는 엔진(engine) 형태일 수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station), 무선기기(wireless device), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.

상기 장치(10)는 운영체제(Operation System; OS), 즉 시스템을 기반으로 다양한 소프트웨어를 실행하거나 제작할 수 있다. 상기 운영체제는 소프트웨어가 장치의 하드웨어를 사용할 수 있도록 하기 위한 시스템 프로그램으로서, 안드로이드 OS, iOS, 윈도우 모바일 OS, 바다 OS, 심비안 OS, 블랙베리 OS 등 모바일 컴퓨터 운영체제 및 윈도우 계열, 리눅스 계열, 유닉스 계열, MAC, AIX, HP-UX 등 컴퓨터 운영체제를 모두 포함할 수 있다.

상기 그래프 생성부(110)는 음악 및 사용자에 관한 정보가 노드이고, 방향성 엣지로 노드 간의 관계를 설명하는 음악 메타 데이터와 사용자의 선호 정보를 그래프로 표현한다.

KPRN(Knowledge-aware Path Recurrent Network)은 도 3과 같이 음악 메타 데이터와 사용자의 선호 정보를 도 4와 같은 그래프로 표현한 후 그래프 임베딩을 이용하여 학습을 수행한다. KPRN의 그래프에서 노드는 음악에 관한 정보와 사용자이며 방향성 엣지가 노드 간의 관계를 설명한다.

상기 포지티브 쌍 설정부(130)는 그래프에서 음악 노드에서 인터랙션(Interaction)이 있는 다른 음악 노드로 도달하는 경로(Path)로 연결될 수 있는 음악의 쌍(Pair)인 포지티브 쌍(Positive Pair)을 설정한다.

여기서, 포지티브 쌍은 그래프에서 음악과 음악이 제한된 경로(Path) 길이에서 연결될 수 있는 음악의 쌍을 말한다. 경로는 음악 노드에서 다른 음악 노드로 도달하는 그래프 상의 경로를 말한다. 예를 들어, 인터랙션은 동일한 가수이거나, 동일한 장르일 수 있다.

경로는 길이를 제한하지 않는다면 모든 음악이 서로 연결이 가능하기 때문에 포지티브 쌍을 추출할 때 경로의 길이를 제한한다. 예를 들어, 경로의 최대 길이는 6으로 설정할 수 있다. 도 5의 (“Shape of you”, “Castle on the Hill”) 그리고 (“Shape of you”, “I See Fire”)는 포지티브 쌍의 예시이다.

상기 포지티브 경로 추출부(150)는 포지티브 쌍을 연결하는 제한된 길이를 갖는 포지티브 경로(Positive Path)를 모두 추출한다. 포지티브 경로는 포지티브 쌍 간 연결할 수 있는 경로이다.

상기 네거티브 경로 추출부(170)는 포지티브 쌍을 제외한 음악의 쌍에서 추출되는 네거티브 경로(Negative Path)를 추출한다.

포지티브 경로가 아닌 쌍에서 만들어진 경로를 네거티브 경로라고 한다. 이 경우, 미리 설정된 수만큼의 네거티브 경로를 선택하는 네거티브 샘플링(Negative Sampling)을 진행할 수 있다. 예를 들어, 네거티브 샘플링은 4개로 설정할 수 있다.

상기 유사도 계산부(190)는 포지티브 경로 및 네거티브 경로를 딥러닝 학습하여 음악의 쌍 별로 유사도 점수를 계산한다.

포지티브 경로 및 네거티브 경로를 LSTM의 입력으로 하여 학습을 진행한다. LSTM은 포지티브 경로를 통하여 만들어진 유사도 점수는 높게 네거티브 경로를 통하여 만들어진 유사도 점수는 낮게 학습을 진행할 수 있다. 학습이 끝난 후 KPRN은 전체 음악의 쌍 별로 유사도 점수를 계산하고, 유사도 점수가 높을수록 유사한 음악의 쌍이라 판단한다.

아래의 수학식 1은 KPRN에서 사용되는 풀링(Pooling) 함수를 정의한다.

[수학식 1]

KPRN의 Pooling 함수는 모든 경로들의 점수를 합하는 가중치 풀링(Weighted Pooling) 연산으로 설계되어 있다.

는 path _i 에 대한 점수이며, 가중치를 결정하기 위한 파라미터는

로 표현된다.

가중치 풀링(Weighted Pooling)이란 풀링 값에 가중치를 적용하는 것이다.

는 0부터 1 사이의 값을 가지는 파라미터(

)를 통하여 가중치가 적용된다.

의 값이 작을수록 큰 값의 영향력이 커지는 Max Pooling 효과를 얻는다. 반대로,

의 값이 클수록 Min Pooling 효과를 얻는다. 본 발명에서는 일 실시예로서

를 1로 설정하고 실험을 진행하였다.

아래의 수학식 2는 음악의 쌍의 유사도 점수를 계산하는 식이다.

[수학식 2]

음악의 쌍의 유사도 점수(

)는 가중치 풀링(Weighted Pooling) 연산을 한 경로들의 점수를 통합(

)하여 계산된다.

이하에서는, 본 발명의 성능을 검증하기 위해 본 발명에서 제안한 모델과 종래 비교 모델의 비교실험 결과를 설명한다.

아래의 표 3은 본 발명의 제안 모델과 종래 모델 별 사용 특징(Feature)과 NDCG 결과이다.

Model	Feature	NDCG@10
User - based CF	Music List	0.0124
Item - basedCF	Music List	0.0078
Autoencoder	Music list, Artist	0.3047
KPRN-Artist	Music list, Artist	0.4382
KPRN-Artist & Album	Music list, Artist, Album	0.4622
KPRN-Artist & Album& Genre	Music list, Artist, Album, Genre	0.4295
KPRN-Artist & Album & Tag	Music list, Artist, Album, Tagging	0.4762

결과인 NDCG는 10곡의 음악을 추천했을 때 점수이다. NDCG는 랭킹이 낮아짐에 따라 중요도가 감소하는 것을 Log Normalization으로 완화하는 평가 방법이다.

본 발명의 제안 모델인 KPRN-Artist & Album & Tag는 0.4762로 가장 좋은 수치를 보인다. KPRN을 이용한 모델들은 Autoencoder를 이용한 모델보다 더 좋은 성능을 보였다.

그리고, KPRN-Artist & Album과 KPRN-Artist & Album& Genre의 NDCG 결과에서 KPRN-Artist & Album& Genre는 Genre Feature를 더 이용했지만 오히려 수치가 약 0.0327정도 떨어졌다. 즉, Genre Feature를 이용하는 것보다 Music Auto Tagging의 Tagging Feature를 사용하는 것이 더 좋은 수치를 보인 것을 확인할 수 있다.

본 발명에서는 그래프 임베딩, Music Auto Tagging을 이용하여 음악 선호를 예측하였다. 실험을 통해 기존의 카카오 아레나의 Genre Feature를 이용하는 것보다 Music Auto Tagging을 이용하는 것이 KPRN에서 더 좋은 수치를 보이는 것을 확인하였다.

도 6은 본 발명의 일 실시예에 따른 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 방법의 흐름도이다.

본 실시예에 따른 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 방법은, 도 2의 장치(10)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 2의 장치(10)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다.

또한, 본 실시예에 따른 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 방법은 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측을 수행하기 위한 소프트웨어(애플리케이션)에 의해 실행될 수 있다.

본 발명은 사용자 선호 정보와 소리 데이터를 같이 이용하여 음악 추천 시스템을 구축하기 위하여 KPRN(Knowledge aware Path Recurrent Network)과 음악 자동 분류를 이용한다.

도 6을 참조하면, 본 실시예에 따른 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 방법은, 음악 및 사용자에 관한 정보가 노드이고, 방향성 엣지로 노드 간의 관계를 나타내는 음악 메타 데이터와 사용자의 선호 정보를 그래프로 표현한다(단계 S10).

그래프의 음악 노드에서 인터랙션(Interaction)이 있는 다른 음악 노드로 도달하는 경로(Path)로 연결될 수 있는 음악의 쌍(Pair)인 포지티브 쌍(Positive Pair)을 설정한다(단계 S30).

경로는 길이를 제한하지 않는다면 모든 음악이 서로 연결이 가능하기 때문에 포지티브 쌍을 추출할 때 경로의 길이를 제한한다. 예를 들어, 경로의 최대 길이는 6으로 설정할 수 있다.

포지티브 쌍을 연결하는 제한된 길이를 갖는 포지티브 경로(Positive Path)를 모두 추출한다(단계 S30). 포지티브 경로는 포지티브 쌍 간 연결할 수 있는 경로이다.

포지티브 쌍을 제외한 음악의 쌍에서 추출되는 네거티브 경로(Negative Path)를 추출한다(단계 S40). 포지티브 경로가 아닌 쌍에서 만들어진 경로를 네거티브 경로라고 한다.

상기 네거티브 경로를 추출하는 단계(단계 S40)는, 미리 설정된 수만큼의 네거티브 경로를 선택하는 네거티브 샘플링(Negative Sampling) 단계를 더 포함할 수 있다. 예를 들어, 네거티브 샘플링은 4개로 설정할 수 있다.

포지티브 경로 및 네거티브 경로를 딥러닝 학습하여 음악의 쌍 별로 유사도 점수를 계산한다(단계 S50).

상기 유사도 점수를 계산하는 단계(단계 S50)는, 포지티브 경로의 음악의 쌍에 대해서는 네거티브 경로의 음악의 쌍에 비해 상대적으로 유사도 점수를 높게 부여할 수 있다. 또한, 유사도 점수가 높을수록 유사한 음악의 쌍이라고 판단할 수 있다.

이 경우, 가중치 풀링(Weighted Pooling) 연산을 한 경로들의 점수를 통합하여 음악의 쌍의 유사도 점수를 계산할 수 있다.

이와 같은, 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

본 발명은 추천 시스템에 있어서 메타 데이터를 효과적으로 사용할 수 있는 방법이므로, 아이템이 많이 존재하는 다른 도메인인 영화나 음식에 관련된 추천 시스템에도 사용이 가능하다.

10: 선호 음악 예측 장치
110: 그래프 생성부
130: 포지티브 쌍 설정부
150: 포지티브 경로 추출부
170: 네거티브 경로 추출부
190: 유사도 계산부

Claims

음악 및 사용자에 관한 정보가 노드이고, 방향성 엣지로 노드 간의 관계를 나타내는 음악 메타 데이터와 사용자의 선호 정보를 그래프로 표현하는 단계;
그래프의 음악 노드에서 인터랙션(Interaction)이 있는 다른 음악 노드로 도달하는 경로(Path)로 연결될 수 있는 음악의 쌍(Pair)인 포지티브 쌍(Positive Pair)을 설정하는 단계;
포지티브 쌍을 연결하는 제한된 길이를 갖는 포지티브 경로(Positive Path)를 모두 추출하는 단계;
포지티브 쌍을 제외한 음악의 쌍에서 추출되는 네거티브 경로(Negative Path)를 추출하는 단계; 및
포지티브 경로 및 네거티브 경로를 딥러닝 학습하여 음악의 쌍 별로 유사도 점수를 계산하는 단계;를 포함하는, 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 방법.
제1항에 있어서, 상기 네거티브 경로를 추출하는 단계는,
미리 설정된 수만큼의 네거티브 경로를 선택하는 네거티브 샘플링(Negative Sampling) 단계;를 더 포함하는, 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 방법.
제1항에 있어서, 상기 포지티브 경로 및 네거티브 경로를 딥러닝 학습하여 음악의 쌍 별로 유사도 점수를 계산하는 단계는,
포지티브 경로의 음악의 쌍에 대해서는 네거티브 경로의 음악의 쌍에 비해 상대적으로 유사도 점수를 높게 부여하는, 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 방법.
제1항에 있어서, 상기 포지티브 경로 및 네거티브 경로를 딥러닝 학습하여 음악의 쌍 별로 유사도 점수를 계산하는 단계는,
유사도 점수가 높을수록 유사한 음악의 쌍이라고 판단하는 단계;를 더 포함하는, 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 방법.
제1항에 있어서, 상기 포지티브 경로 및 네거티브 경로를 딥러닝 학습하여 음악의 쌍 별로 유사도 점수를 계산하는 단계는,
가중치 풀링(Weighted Pooling) 연산을 한 경로들의 점수를 통합하여 음악의 쌍의 유사도 점수를 계산하는, 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 방법.
제1항에 따른 상기 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 저장 매체.
음악 및 사용자에 관한 정보가 노드이고, 방향성 엣지로 노드 간의 관계를 나타내는 음악 메타 데이터와 사용자의 선호 정보를 그래프로 표현하는 그래프 생성부;
그래프의 음악 노드에서 인터랙션(Interaction)이 있는 다른 음악 노드로 도달하는 경로(Path)로 연결될 수 있는 음악의 쌍(Pair)인 포지티브 쌍(Positive Pair)을 설정하는 포지티브 쌍 설정부;
포지티브 쌍을 연결하는 제한된 길이를 갖는 포지티브 경로(Positive Path)를 모두 추출하는 포지티브 경로 추출부;
포지티브 쌍을 제외한 음악의 쌍에서 추출되는 네거티브 경로(Negative Path)를 추출하는 네거티브 경로 추출부; 및
포지티브 경로 및 네거티브 경로를 딥러닝 학습하여 음악의 쌍 별로 유사도 점수를 계산하는 유사도 계산부;를 포함하는, 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 장치.
제7항에 있어서, 상기 네거티브 경로 추출부는,
미리 설정된 수만큼의 네거티브 경로를 선택하는 네거티브 샘플링(Negative Sampling)하는, 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 장치.
제7항에 있어서, 상기 유사도 계산부는,
포지티브 경로의 음악의 쌍에 대해서는 네거티브 경로의 음악의 쌍에 비해 상대적으로 유사도 점수를 높게 부여하는, 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 장치.
제7항에 있어서, 상기 유사도 계산부는,
유사도 점수가 높을수록 유사한 음악의 쌍이라고 판단하는, 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 장치.
제7항에 있어서, 상기 유사도 계산부는,
가중치 풀링(Weighted Pooling) 연산을 한 경로들의 점수를 통합하여 음악의 쌍의 유사도 점수를 계산하는, 음악 자동 분류와 그래프 임베딩을 이용한 선호 음악 예측 장치.