KR102511598B1 - 인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 방법 및 장치 - Google Patents

인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 방법 및 장치 Download PDF

Info

Publication number
KR102511598B1
KR102511598B1 KR1020220054802A KR20220054802A KR102511598B1 KR 102511598 B1 KR102511598 B1 KR 102511598B1 KR 1020220054802 A KR1020220054802 A KR 1020220054802A KR 20220054802 A KR20220054802 A KR 20220054802A KR 102511598 B1 KR102511598 B1 KR 102511598B1
Authority
KR
South Korea
Prior art keywords
audio data
output information
neural network
artificial neural
information
Prior art date
Application number
KR1020220054802A
Other languages
English (en)
Inventor
김근형
이종필
금상은
Original Assignee
뉴튠(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 뉴튠(주) filed Critical 뉴튠(주)
Priority to KR1020220054802A priority Critical patent/KR102511598B1/ko
Application granted granted Critical
Publication of KR102511598B1 publication Critical patent/KR102511598B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Abstract

일 실시예에 따른 인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 장치는, 복수의 오디오 데이터에 대한 임베딩(embedding) 벡터가 저장되어 있는 메모리 모듈, 제1오디오 데이터를 입력 정보로 입력 받아, 상기 제1오디오 데이터 중 미리 설정된 항목에 대한 제1항목 데이터를 출력 정보로 출력하는 전처리 모듈, 상기 제1항목 데이터를 제1-1입력 정보로 하고, 상기 제1항목 데이터에 대한 임베딩 벡터인 제1-1벡터를 제1-1출력 정보로 출력하는 제1인공신경망, 상기 제1오디오 데이터를 제2-1입력 정보로 하고, 상기 제1오디오 데이터에 대한 임베딩 벡터인 제2-1벡터를 제2-1출력 정보로 출력하는 제2인공신경망 및 상기 제1-1 벡터 및 상기 제2-1벡터 중 적어도 하나와 상기 메모리 모듈에 저장되어 있는 다른 임베딩 벡터들과의 유사도를 계산하는 유사도 계산 모듈을 포함할 수 있다.

Description

인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 방법 및 장치{Music property analysis method and apparatus for analyzing music characteristics using artificial neural network}
본 발명은 인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 방법 및 장치에 관한 발명으로서, 보다 상세하게는 인공신경망을 이용하여 입력된 오디오 정보 또는 보컬 정보 등을 이용하여 음악의 특성을 효율적으로 분석하고 비교할 수 있는 기술에 관한 발명이다.
현재까지 제안되어 있는 음악 검색 형태를 보면 5가지 (텍스트 질의(query-by-text), 허밍 질의(query-by-humming), 부분 질의(query-by-part), 예시 질의(query-by-example), 클래스 질의(query-by-class)) 정도로 요약할 수 있을 것이다.
텍스트 질의 검색 방식은 음악정보 데이터베이스에 저장한 서지 정보(작가, 곡명, 장르 등)를 기반으로 기존의 정보검색 시스템의 질의(query) 처리 방식대로 처리한다.
허밍 질의 방식은 사용자가 허밍(humming)을 입력하면 이것을 질의로서 인식하고 이와 유사한 멜로디를 갖는 곡들을 찾아주는 방식을 의미한다.
부분 질의 방식은 사용자가 레스토랑에서 나오는 음악을 듣다가 곡이 좋아 이 곡이 현재 본인 단말기에 저장되어 있는지 알고 싶지만 곡명이나 멜로디를 모를 경우, 흘러나오는 음악을 입력으로 유사한 곡들을 찾아주는 방식이다.
예시 질의 방식은 사용자가 특정 곡을 선택하면 유사한 곡들을 찾아주는 방식으로 부분 질의 방식과 비슷하나 예시 질의에서는 곡 전체를 입력으로 하지만 부분 질의는 곡의 일부분만 입력으로 이용한다. 또한, 예시 질의에서는 실제 음악 대신에 곡명을 입력으로 하지만 부분 질의는 실제 음악을 입력으로 한다. 클래스 질의 방식은 사전에 음악을 장르나 분위기에 따라 분류를 해 놓고 택소노미 (taxonomy)에 따라 선택해 나가는 방식이다.
5가지 검색 방법 중 허밍 질의, 부분 질의, 예시 질의는 일반적인 검색 방법이 아니고 특수한 상황에서 사용 가능한 방법이고 가장 보편적으로 이루어지는 방법은 텍스트 질의나 클래스 질의 형태일 것이다. 하지만 이 두 방법 모두 전문가나 운영자의 개입을 요구한다. 즉, 새로운 음악이 나왔을 경우, 필요한 서지정보를 입력하거나 택소노미에 따라 어떤 분류에 속하는지를 결정해야 한다. 요즘처럼 새로운 음악이 계속 쏟아지는 상황에서는 이러한 방식은 더욱 더 문제가 된다.
이러한 문제를 해결할 수 있는 해결책 중의 하나는 택소노미에 따라 자동으로 태깅하는 방법을 사용하는 것이다. 자동으로 분류하여 그 분류에 해당하는 서지정보를 자동 입력하거나 분류코드를 할당하는 것이다. 하지만 택소노미에 따른 분류는 사서나 운영자 등과 같이 사이트를 관리하는 일부 특정계층이 직접 분류하는 방법이고, 특정 체계의 지식이 필요함으로 새로운 아이템이 추가될 경우 확장이 결여될 수 있는 문제점이 존재한다.
한국공개특허 제10-2015-0084133호 (2015.07.22. 공개) - '음의 간섭현상을 이용한 음정인식 및 이를 이용한 음계채보 방법' 한국등록특허 제 10-1696555호 (2019.06.05.) - '영상 또는 지리 정보에서 음성 인식을 통한 텍스트 위치 탐색 시스템 및 그 방법'
따라서, 일 실시예에 따른 인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 방법 및 장치는 상기 설명한 문제점을 해결하기 위해 고안된 발명으로서, 음악의 특성을 인공신경망 모듈을 이용하여 용이하게 분석할 수 있는 방법 및 장치를 제공하는데 그 목적이 있다.
보다 구체적으로 일 실시예에 따른 인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 방법 및 장치는, 서로 다른 특징을 가지고 있는 3개의 학습 데이터를 기초로 상호 보완적인 학습방법을 통해 음악의 특성을 정확하게 추출할 수 있는 방법을 제공하는데 목적이 있으며, 더 나아가 추출된 데이터를 기초로 가수 식별 서비스. 유사 음악 서비스 등 다양한 서비스를 제공할 수 있도록 하는데 그 목적이 존재한다.
일 실시예에 따른 인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 장치는, 복수의 오디오 데이터에 대한 임베딩(embedding) 벡터가 저장되어 있는 메모리 모듈, 제1오디오 데이터를 입력 정보로 입력 받아, 상기 제1오디오 데이터 중 미리 설정된 항목에 대한 제1항목 데이터를 출력 정보로 출력하는 전처리 모듈, 상기 제1항목 데이터를 제1-1입력 정보로 하고, 상기 제1항목 데이터에 대한 임베딩 벡터인 제1-1벡터를 제1-1출력 정보로 출력하는 제1인공신경망, 상기 제1오디오 데이터를 제2-1입력 정보로 하고, 상기 제1오디오 데이터에 대한 임베딩 벡터인 제2-1벡터를 제2-1출력 정보로 출력하는 제2인공신경망 및 상기 제1-1 벡터 및 상기 제2-1벡터 중 적어도 하나와 상기 메모리 모듈에 저장되어 있는 다른 임베딩 벡터들과의 유사도를 계산하는 유사도 계산 모듈을 포함할 수 있다
상기 항목은, 보컬, 드럼, 베이스, 기타 및 반주 중 적어도 하나를 포함할 수 있다.
상기 음악 특성 분석 장치는, 유사도 계산 모듈이 계산한 결과를 기초로, 상기 메모리 모듈에서 상기 제1오디오 데이터의 보컬 정보를 찾아 출력하는 서비스 제공 모듈을 더 포함하고, 상기 보컬 정보는, 상기 제1오디오 데이터에 포함되어 있는 노래를 부른 가수에 대한 정보 및 상기 가수가 부른 다른 노래 정보 중 적어도 하나를 포함할 수 있다.
상기 프로세서는, 상기 제1-1출력 정보와 상기 제2-1출력 정보를 각각 입력 정보로 입력 받아 상기 제1오디오 데이터에 대한 보컬의 태킹(tagging) 정보를 출력 정보로 출력하는 제1완전연결계층(FCL, fully connected layer)을 더 포함할 수 있다.
상기 전처리 모듈은, 제2오디오 데이터 및 제3오디오 데이터를 입력 받아, 상기 항목에 대한 제2항목 데이터 및 제3항목 데이터를 출력하고, 상기 제1인공신경망은, 상기 제2항목 데이터를 제1-2입력 정보로 하고, 상기 제2항목 데이터에 대한 임베딩 벡터인 제1-2벡터를 제1-2출력 정보로 출력하며, 상기 제2인공신경망은, 상기 제2오디오 데이터를 제2-2입력 정보로 하고, 상기 제2오디오 데이터에 대한 임베딩 벡터인 제2-2벡터를 제2-2출력 정보로 출력하고, 상기 제2오디오 데이터는, 상기 제1오디오 데이터와 동일한 클래스를 가지는 다른 종류의 오디오 데이터이며, 상기 제1인공신경망 및 상기 제2인공신경망은, 상기 제1-1출력 정보, 상기 제1-2출력 정보, 상기 제2-1출력 정보 및 상기 제2-2출력 정보들 사이의 관계를 이용하여 학습을 수행할 수 있다.
상기 제1인공신경망은, 상기 제3항목 데이터를 제1-3입력 정보로 하고, 상기 제3항목 데이터에 대한 임베딩 벡터인 제1-3벡터를 제1-3출력 정보로 출력하고, 상기 제2인공신경망은, 상기 제3오디오 데이터를 제2-3입력 정보로 하고, 상기 제3오디오 데이터에 대한 임베딩 벡터인 제2-3벡터를 제2-3출력 정보로 출력하며,상기 제3오디오 데이터는, 상기 제1오디오 데이터와 다른 클래스를 가지는 오디오 데이터이며, 상기 제1인공신경망 및 상기 제2인공신경망은, 상기 제1-1출력 정보, 상기 제1-2출력 정보, 상기 제1-3출력 정보, 상기 제2-1출력 정보, 상기 2-2출력 정보 및 상기2-3출력 정보들 사이의 관계를 이용하여 학습을 수행할 수 있다.
일 실시예에 따른 인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 방법은 하나 이상의 프로세스를 이용한 음악 특성 분석 방법에 있어서, 복수의 오디오 데이터에 대한 임베딩(embedding) 벡터를 메모리 모듈에 저장하는 데이터 저장 단계, 제1오디오 데이터를 입력 정보로 입력 받아, 상기 제1오디오 데이터 중 미리 설정된 항목에 대한 제1항목 데이터를 출력 정보로 출력하는 전처리 데이터 출력 단계, 상기 제1항목 데이터를 제1-1입력 정보로 하고, 상기 제1항목 데이터에 대한 임베딩 벡터인 제1-1벡터를 제1-1출력 정보로 출력하는 기 학습된 제1인공신경망을 이용하여 상기 제1-1출력 정보를 출력하는 제1-1출력 정보 출력 단계, 상기 제1오디오 데이터를 입력 정보로 하고, 상기 제1오디오 데이터에 대한 임베딩 벡터인 제1-2벡터를 제1-2출력 정보로 출력하는 기 학습된 제2인공신경망을 이용하여 상기 제1-2출력 정보를 출력하는 제1-2출력 정보 출력 단계 및 상기 제1-1 벡터 및 상기 제1-2벡터 중 적어도 하나와 상기 메모리 모듈에 저장되어 있는 다른 임베딩 벡터들과의 유사도를 계산하는 유사도 계산 단계를 포함할 수 있다.
일 실시예에 따른 인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 방법 및 장치는 음악의 특성을 반영한 임베딩 벡터를 생성함에 있어서, 동일한 성격을 가지는 데이터와 다른 성격을 가지는 데이터를 기초로 상호 보완적인 학습을 진행하므로, 보다 음악의 특성을 정확하게 반영할 수 있는 임베딩 벡터를 생성할 수 있는 장점이 존재한다.
일 실시예에 따른 인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 방법 및 장치는 서로 다른 오디오 데이터를 활용하여 학습을 수행할 뿐 만 아니라, 전체 오디오에 대한 임베딩 벡터와, 전체 오디오 데이터에서 특정 항목만을 분리한 항목 데이터를 혼합하여 학습을 수행하므로, 데이터들의 다양한 특징을 반영할 수 있어, 보다 음악의 특성을 정확히 반영한 임베딩 벡터를 출력할 수 있는 장점이 존재한다.
이에 따라, 생성된 임베딩 데이터를 기초로 가수 식별 서비스. 유사 음악 서비스 등 다양한 서비스를 제공할 수 있으며, 서비스의 정확도 또한 같이 상승할 수 있는 장점 또한 존재한다.
도 1은 본 발명의 일 실시예에 따른 음악 특성 분석 장치의 일부 구성 요소를 시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 프로세서의 구성 및 입력 정보와 출력 정보를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 제1인공신경망에 입력되는 입력 정보와 출력되는 출력 정보를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 제2인공신경망에 입력되는 입력 정보와 출력되는 출력 정보를 도시한 도면이다.
도 5는 은 본 발명의 일 실시예에 따른 음악 특성 분석 장치가 제공하는 유사 음악 검색 서비스를 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 음악 특성 분석 장치가 제공하는 보컬 태킹 서비스를 설명하기 위한 도면이다
도 7은 본 발명의 일 실시예에 따라 학습 데이터를 생성하기 위해 인공신경망에 입력되는 서로 다른 종류의 입력 정보 및 이에 따른 출력 정보를 도시한 도면이다.
도 8은 본 발명의 일 실시예에 따른 제1손실함수를 기초로 학습을 수행하는 방법을 설명하기 위한 도면이다.
도 9는 본 발명의 일 실시예에 따른 제2손실함수를 기초로 학습을 수행하는 방법을 설명하기 위한 도면이다.
도 10은 본 발명의 일 실시예에 따른 제3손실함수를 기초로 학습을 수행하는 방법을 설명하기 위한 도면이다.
도 11은 본 발명의 일 실시예에 따른 제4손실함수를 기초로 학습을 수행하는 방법을 설명하기 위한 도면이다.
도 12는 본 발명의 일 실시예에 따른 제5손실함수를 기초로 학습을 수행하는 방법을 설명하기 위한 도면이다.
이하, 본 발명에 따른 실시 예들은 첨부된 도면들을 참조하여 설명한다. 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시 예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 실시 예들을 설명할 것이나, 본 발명의 기술적 사상은 이에 한정되거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있다.
또한, 본 명세서에서 사용한 용어는 실시 예를 설명하기 위해 사용된 것으로, 개시된 발명을 제한 및/또는 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 명세서에서, "포함하다", "구비하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는다.
또한, 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함하며, 본 명세서에서 사용한 "제 1", "제 2" 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되지는 않는다.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.
한편 본 발명의 명칭은 '인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 장치'로 기재하였으나, 이하 설명의 편의를 위해 '인공신경망을 이용하여 음악의 특성을 분석하는 음악 속성 분석 장치'는 '음악 특성 분석 장치'로 축약하여 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른 음악 특성 분석 장치의 일부 구성 요소를 시한 블록도이다.
도 1을 참조하면, 일 실시예에 따른 음악 특성 분석 장치(100)는 프로세서(200), 메모리 모듈(300), 유사도 계산 모듈(400) 및 서비스 제공 모듈(500)을 포함할 수 있다.
프로세서(200)는 도 2에 도시된 바와 같이 복수 개의 인공신경망 모듈을 포함할 수 있으며, 입력되는 오디오 데이터를 기준으로, 전체 오디오 데이터에 대한 특징 벡터를 포함하고 있는 임베딩 벡터 및 입력되는 오디오 데이터에서 미리 설정된 항목(예를 들어, 보컬, 반주. 드럼 등)에 대한 데이터에 대해 특징 벡터를 산출한 후, 산출된 특징 벡터에 기초한 임베딩 벡터를 출력 정보를 출력하고, 출력된 정보들을 메모리 모듈(300)로 송신할 수 있다. 인공신경망 모듈에 대한 자세한 구조는 후술하도록 한다.
메모리 모듈(300)은 음악 분석 장치(100)를 실시하기 위해 필요한 각종 데이터 등이 저장될 수 있는데, 일 예로 음악 데이터와, 음악 데이터에서 특정 항목에 대한 데이터만이 추출된 항목 데이터, 프로세서(200)가 생성한 임베딩 벡터 등이 저장될 수 있다.
여기서 의미하는 음악 데이터는, 우리가 일반적으로 청취하는 노래와 반주 등이 모두 포함되어 있는 음악 데이터를 의미하고, 항목 데이터는 상기 음악 데이터에서 특정 항목만을 분리한 데이터를 의미한다. 일 예로, 항목이 보컬(vocal)인 경우 상기 음악 데이터에서 보컬 만을 추출하여 따로 저장된 데이터를 의미할 수 있다.
상기 항목은 음악의 특성을 고려하여, 보컬 항목, 반주 항목, 드럼 항목, 베이스 항목, 기타 항목, MID 항목, 리듬 항목 등이 이에 포함될 수 있다.
메모리 모듈(300)에 저장되는 데이터들은 단순히 파일로 저장되어 있는 것이 아니라, 프로세서(200)의 인공신경망 모듈들에 의해 생성된 임베딩 벡터를 포함하고 있는 정보로 변환되어 저장되어 있을 수 있다. 임베딩 벡터는 특징 벡터를 포함하고 있기 때문에, 각각의 임베딩 벡터는 음악 데이터 또는 항목 데이터에 대한 특징을 벡터 형식으로 표현할 수 있다.
따라서, 본 발명은 이러한 벡터들을 기준으로 상호간의 유사성을 판단하여, 특정 노래를 찾거나 유사한 노래들을 분류하는 작업 등이 다양한 서비스가 수행될 수 있다. 상호 유사성을 판단하는 방법은 유사도 계산 모듈(400)에서 설명하고, 다양한 서비스 작업에 대해서는 서비스 제공 모듈(500)에서 자세히 설명하도록 한다.
한편, 메모리 모듈(300)에서 단순히 산발적으로 임베딩 벡터 정보들이 저장되어 있는 것이 아니라, 일정한 기준에 따라 임베딩 벡터들에 대한 정보들이 그룹화 되어 있을 수 있다. 일 예로, 동일한 가수에 대한 임베딩 벡터들이 그룹화되어 있을 수 있고, 같은 장르의 노래들에 대한 임베딩 벡터들이 그룹화되어 있을 수 있다.
따라서, 메모리 모듈(300)은 앞서 설명한 데이터들을 저장하기 위해 캐쉬, ROM(Read Only Memory), PROM(Programmable ROM), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 및 플래쉬 메모리(Flash memory)와 같은 비휘발성 메모리 소자 또는 RAM(Random Access Memory)과 같은 휘발성 메모리 소자 또는 하드디스크 드라이브(HDD, Hard Disk Drive), CD-ROM과 같은 저장 매체의 집합체로 구현될 수 있다.
한편, 도 1에서는 메모리 모듈(300)과 프로세서(200) 및 유사도 계산 모듈(400)을 별도의 구성 요소로 기재하였으나, 본 발명의 실시예가 이로 한정되는 것은 아니고, 프로세서(200)가 메모리 모듈(300)과 유사도 계산 모듈(400)의 역할을 동시에 수행할 수 도 있다.
유사도 계산 모듈(400)은 메모리 모듈(300)에 저장되어 있는 임베딩 벡터의 형식의 가지고 있는 데이터들에 대한 상호 유사도를 판단할 수 있다. 즉, 임베딩 벡터들 끼리 아래 수학식 (1)과 같은 코사인 시미러리(cosine similarly)를 이용하여 상호 유사도 여부를 판단할 수 있다.
(수학식 1)
Figure 112022047439500-pat00001
일 예로, 비교 기준이 되는 임베팅 벡터 중 하나를 x라 하고 다른 하나를 y라 하는 경우 상기 수학식을 이용하여 연산을 수행하여 값이 높게 나오는 경우 비례하여 x와 y가 상대적으로 유사하다고 판단할 수 있다. 이와 반대로 연산 수행 값이 작게 나오는 경우 x와 y는 비유사성이 상대적으로 강하다고 판단할 수 있다. 따라서, 이러한 값을 기초로 데이터들의 상호 유사도를 효과적으로 판단할 수 있다.
서비스 모듈(500)은 유사도 계산 모듈(400)이 수행한 결과에 기초하여 각종 서비스를 제공할 수 있다.
구체적으로, 서비스 모듈(500)은 메모리 모듈(300)에 저장되어 있는 각종 음악 데이터 및 특정 항목에 대한 데이터 등을 서로 비교하고 분류하고 분석하여 사용자의 요구에 맞는 각종 서비스를 제공할 수 있다. 일 예로 서비스 모듈(500)은 가수 식별 서비스, 유사 음악 검색 서비스, 특정 항목을 기초로 한 유사 음악 검색 서비스, 보컬 태깅 서비스, 멜로디 추출 서비스, 허밍-쿼리 서비스 등을 제공해줄 수 있다.
지금까지 본 발명에 따른 음악 특성 분석 장치(100)의 구성 요소에 대해 알아보았다. 이하 본 발명에 따른 프로세서(200)의 구성 및 효과에 대해 자세히 알아보도록 한다.
도 2는 본 발명의 일 실시예에 따른 프로세서의 구성 및 입력 정보와 출력 정보를 도시한 도면이며, 도 3은 본 발명의 일 실시예에 따른 제1인공신경망에 입력되는 입력 정보와 출력되는 출력 정보를 도시한 도면이고, 도 4는 본 발명의 일 실시예에 따른 제2인공신경망에 입력되는 입력 정보와 출력되는 출력 정보를 도시한 도면이다.
도 2를 참조하면, 프로세서(200)는 제1인공신경망(210) 및 제2인공신경망(220)과 전처리 모듈(230) 등을 포함할 수 있다. 도면에서는 설명의 편의를 위해 제1인공신경망(210)과 제2인공신경망(220)을 독립된 구성으로 표시하였지만, 하나의 인공신경망에서 제1인공신경망(210) 네트워크와 병렬적으로 제2인공신경망(220)이 구성될 수 있다.
본 발명에 따른 제1인공신경망(210)과 제2인공신경망(220)은 공지되어 있는 여러 종류의 인공신경망 네트워크가 사용할 수 있는데 대표적으로 CNN(Convolutional Neural Network)이 사용될 수 있다.
구체적으로, 본 발명에 따른 CNN 모델은, 128개의 3x3 필터가 있는 8개의 컨볼루션 레이어로 구성되며, 첫 번째 레이어에는 64개의 필터가 있고 마지막 레이어에는 256개의 필터로 구성될 수 있으며, 각각의 컨볼루션 레이어 다음에는 배치 정규화(batch normalization), ReLU 및 2x2 맥스 풀링(max pooling) 레이어가 적용될 수 있으며, 마지막 컨볼루션 레이어의 풀링 레이어는 GAP(global average pooling) 레이어가 적용될 수 있다.
그리고, 네트워크는 1,024개 윈도우 샘플과 512개의 홉 사이즈의 샘플을 사용하여, 단시간 푸리에 변환을 적용한 후 각 오디오 클립에서 128개의 멜 빈으로 멜 스펙트로그램을 가져오며, CNN 네터워크의 인코더의에 입력되는 입력의 사이즈는 129프레임으로 22,050Hz의 샘플링 속도에서 3초 길이의 세그먼트에 해당한다.
한편, 후술하겠지만 본 발명에 따른 제1인공신경망(210)과 제2인공신경망(220)은 학습을 수행함에 있어서, 출력 정보와 레퍼런스 데이터를 비교함으로써 학습을 수행할 수 있으나, 서로 다른 종류의 입력 정보를 이용하여 학습을 수행할 수 있다.
구체적으로, 제1오디오 데이터(11)를 기초로 출력된 제1-1출력 정보(31) 및 제2-1출력 정보(41)와, 제1오디오 데이터(11)를 동일한 클래스를 가지는 다른 종류의 오디오 데이터인 제2오디오 데이터(12)를 기초로 출력된 제1-2출력 정보(32) 및 제2-2출력 정보(42) 및, 제3오디오 데이터(13)를 기초로 출력된 제1-3출력 정보(33) 및 제2-3출력 정보(43)들의 상관 관계를 기초로 학습을 수행할 수 있다.
즉, 제1인공신경망(210)과 제2인공신경망(220)은 출력한 정보들의 서로 공유함으로써 학습을 수행하므로 학습을 수행함에 있어서, 제1인공신경망(210)과 제2인공신경망(220)은 서로의 파라미터를 공유하는 방법으로 학습을 수행할 수 있다. 즉, 이에 따라 제1인공신경망(210)과 제2인공신경망(220)에 입력 정보로 입력되는 데이터의 클래스는 다르나, 인공신경망 구조의 레이어는 서로 동일한 레이어로 구성될 수 있다.
전처리 모듈(230)은 제2입력 정보(20)를 입력 받은 후, 입력 되는 오디오 데이터에 대해 특정 항목에 대한 데이터만을 분리한 항목 데이터를 출력 정보를 출력할 수 있다.
구체적으로, 전처리 모듈(230) 및 제2인공신경망(220)에 입력되는 오디오 데이터는 보컬과 반주 등이 혼합되어 있는 일반적인 오디오를 포함하고 있는 오디오 데이터를 의미하며, 항목 데이터는 전처리 모듈(230)이 입력된 오디오 데이터에서 미리 설정된 항목 중 적어도 하나의 항목에 대한 데이터만을 추출하여 출력 정보를 출력한 데이터를 의미한다.
상기 항목은 앞서 설명한 바와 같이 보컬 항목, 반주 항목, 드럼 항목, 베이스 항목, 기타 항목, MID 항목, 리듬 항목 등이 이에 포함될 수 있는데, 이하 설명의 편의를 위해 보컬 항목을 기준으로 설명하도록 한다.
한편, 전처리 모듈(230)이 수행하는 입력되는 오디오 데이터에 대해 특정 항목에 대해 정보를 출력하는 방법은 종래 공지되어 있는 여러 방법 중 적어도 하나 이상이 차용할 수 있다.
도 3 및 도 4를 참조하여 제1인공신경망(210)과 제2인공신경망(220)에 대해 설명하면, 제1인공신경망(210)은 전처리 모듈(230)이 제1오디오 데이터(11)를 기초로 출력한 제1항목 데이터(21) 제1-1입력 정보로 하고, 상기 제1항목 데이터에 대한 특징 벡터를 출력한 후, 추출된 특징 벡터를 기초로 생성된 임베딩 벡터(embedding vector)인 제1-1벡터를 제1-1출력 정보(31)로 출력하는 기 학습된 인공신경망을 의미할 수 있다.
따라서, 제1인공신경망(210)은 상기 제1-1입력 정보를 기초로 상기 제1-1출력 정보(31)를 출력하는 학습 세션(미도시)과, 상기 제1-1입력 정보를 기초로 상기 제1-1출력 정보(31)를 추론하는 추론 세션(미도시)을 포함할 수 있다.
제1인공신경망(210)은 학습을 수행함에 있어서, 제1-1출력 정보(31), 제1-1레퍼런스 정보(51) 및 제1-2 레퍼런스 정보(52)를 기초로 학습을 수행할 수 있다. 여기서 제1-1레퍼런스 정보(51)와 상기 제1-2레퍼런스 정보(52)는 인위적으로 생성된 레퍼런스 데이터가 될 수 도 있지만, 제1-1레퍼런스 정보(51)는 프로세서(200)가 제2오디오 데이터(12) 또는 제3오디오 데이터(13)를 입력 데이터로 입력 받았을 때, 제1인공신경망(210) 및 제2인공신경망(220)이 각각 출력한 정보가 될 수 있다. 이에 대한 자세한 설명은 후술하도록 한다.
제2인공신경망(220)은 전처리 모듈(230)을 거치지 않은 제1오디오 데이터(11)를 제2-1입력 정보로 하고, 상기 제1오디오 데이터(11)에 대한 특징 벡터를 추출한 후, 추출된 특징 벡터를 기초로 생성된 임베딩 벡터(embedding vector)인 제2-1벡터를 제2-1출력 정보(41)로 출력하는 기 학습된 인공신경망을 의미할 수 있다.
따라서, 제2인공신경망(220)은 상기 제1-2입력 정보를 기초로 상기 제2-1출력 정보(41)를 출력하는 학습 세션(미도시)과, 상기 제1-2입력 정보를 기초로 상기 제2-1출력 정보(41)를 추론하는 추론 세션(미도시)을 포함할 수 있다.
제2인공신경망(220)은 학습을 수행함에 있어서, 제1-1출력 정보(31), 제2-1레퍼런스 정보(61) 및 제2-2 레퍼런스 정보(62)를 기초로 학습을 수행할 수 있다. 여기서 제2-1레퍼런스 정보(61)와 상기 제2-2레퍼런스 정보(62)는 인위적으로 생성된 레퍼런스 데이터가 될 수 도 있지만, 제2-1레퍼런스 정보(61)는 프로세서(200)가 제2오디오 데이터(12) 또는 제3오디오 데이터(13)를 입력 데이터로 입력 받았을 때, 제1인공신경망(210) 및 제2인공신경망(220)이 각각 출력한 정보가 될 수 있다. 이에 대한 자세한 설명은 후술하도록 한다.
한편, 후술하겠지만 제1인공신경망(210)과 제2인공신경망(220)에 제1항목 데이터(21)와 제1오디오 데이터(11)만이 입력되는 것이 아니라, 제2오디오 데이터(12) 및 제2오디오 데이터(12)에서 추출된 제2항목 데이터(22)가 입력될 수 있으며, 이러한 경우 제1인공신경망(210)은 제1-2출력 정보(32)를 출력 정보로 출력하고, 제2인공신경망(220)은 제2-2출력 정보(42)를 출력 정보로 출력할 수 있다.
또한, 제1인공신경망(210)과 제2인공신경망(220)에는 제3오디오 데이터(13) 및 제3오디오 데이터(13)에서 추출된 제3항목 데이터(23)가 입력될 수 있으며, 이러한 경우 제1인공신경망(210)은 제1-3출력 정보(33)를 출력 정보로 출력하고, 제2인공신경망(220)은 제2-3출력 정보(43)를 출력 정보로 출력할 수 있다.
한편, 제1오디오 데이터(11)와 제2오디오 데이터(12)는 같은 종류의 클래스를 가지는 오디오 데이터 파일일 수 있다. 같은 종류의 클래스란, 가수가 동일하거나, 노래 장르 등이 동일한 경우를 의미한다. 따라서, 제2오디오 데이터(12)는 제1오디오 데이터(11)를 기준으로 positive data라 지칭될 수 있다. 즉, 제1오디오 데이터(11)와 제2오디오 데이터(21)는 동일한 특징을 가지고 있는 데이트를 의미할 수 있다.
반대로, 제3오디오 데이터(13)는 제1오디오 데이터(11) 및 제2오디오 데이터(21)와 다른 종류의 클래스를 가지는 오디오 데이터를 의미한다. 즉, 제1오디오 데이터(11) 및 제2오디오 데이터(12)의 노래의 가수가 상이하거나, 노래 장르 등이 상이한 데이터를 의미한다. 이에 따라 제1오디오 데이터(11)를 기준으로 제3오디오 데이터(13)는 negative data라 지칭될 수 있다. 각각의 데이터를 이용한 학습 방법에 대해서는 후술하도록 한다.
도 5는 은 본 발명의 일 실시예에 따른 음악 특성 분석 장치가 제공하는 유사 음악 검색 서비스를 설명하기 위한 도면이다.
도 5를 참조하면, 앞서 설명하였던 바와 같이 제1-1출력 정보(31)와 제2-1출력 정보(41)는 제1오디오 데이터(11)에 대한 특징 벡터 정보가 포함되어 있는 임베딩 벡터를 포함하고 있으므로, 제1오디오 데이터(11)에 포함되어 있는 각종 항목에 대한 특징 정보를 포함하고 있다.
구체적으로, 제1-1출력 정보(31)는 제1오디오 데이터(11)에 포함되어 있는 특정 항목(예를 들어, 보컬)에 임베딩 벡터를 포함하고 있고, 제2-1출력 정보(41)는 제1오디오 데이터(11) 자체에 대한 임베딩 벡터를 포함하고 있다. 따라서, 프로세서(200)를 통과한 제1오디오 데이터(11)는 두 종류의 임베팅 벡터로 변환되며, 이렇게 변환된 임베딩 벡터들은 메모리 모듈(300)에 저장될 수 있다.
메모리 모듈(300)에는 곡을 기준으로 임베딩 벡터가 유사한 벡터들끼리 그룹화가 되어 있거나 가수를 기준으로 임베딩 벡터들이 그룹화 되어 있을 수 있다. 가수를 기준으로 그룹화 되어 있는 경우에는, 임베딩 벡터들의 평균을 구해, 평균 임베딩 벡터의 값을 그룹화되어 있는 가수의 대표 임베딩이라 결정할 수 있다.
메모리 모듈(300)에 임베딩 벡터들이 저장되어 있는 상태에서, 또 다른 제1오디오 데이터(11)가 프로세서(200)에 입력되면, 입력된 제1오디오 데이터(11)를 인공신경망에 통과시켜 제1-1출력 정보(31)와 제2-1출력 정보를 생성하고, 이렇게 생성된 출력 정보들과 메모리 모듈(300)에 저장되어 있는 다른 임베딩 벡터와의 유사도를 앞서 설명한 방식에 따라 계산한 후, 계산된 결과를 활용하여 다양한 서비스 정보를 출력할 수 있다.
일 예로, 본 발명에 따른 음악 특성 분석 장치(100)는 입력된 노래에 대한 가수 검색 서비스(제1서비스)를 제공할 수 있다.
구체적으로, 제1서비스에 따른 노래 검색 서비스는 입력된 곡을 부른 가수가 누구인지를 찾는 서비스로서, 입력된 제1오디오 데이터(11)에 기초하여 생성된 제1-1출력 정보(31 및 제2-1출력 정보(41) 중 적어도 하나를 메모리 모듈(300)에 저장되어 있는 다른 임베딩 벡터와 비교한 후, 비교 값 중 가장 유사도가 높은 임베딩 벡터를 기초로 입력된 노래를 부른 가수에 대한 정보를 생성할 수 있다.
한편, 가수를 찾음에 있어서, 메모리 모듈(200)에 저장되어 있는 모든 임베딩 벡터들과 비교하여 찾을 수 있지만, 앞서 설명한 가수의 대표 임베딩을 기준으로 대표 임베딩끼리만 비교하여 가수를 찾을 수 있다. 이러한 경우 연산시간이 줄어드는 효과가 존재한다.
한편, 다른 임베딩 벡터와 유사도를 비교함에 있어서, 제1-1출력 정보(31)만을 이용하여 비교하여 유사도 결과를 출력하거나, 제2-1출력 정보(41)만을 이용하여 비교하여 유사도 결과를 출력하거나, 아니면 제1-1출력 정보(31) 및 제2-1출력 정보(41) 모두를 비교해 본 후, 평균값을 이용하여 유사도 결과를 출력할 수 도 있다.
다른 서비스로, 본 발명에 따른 음악 특성 분석 장치(100)는 입력된 가수가 부른 다른 노래 검색 서비스(제2서비스)를 제공할 수 있다.
구체적으로, 제1오디오 데이터(11)를 기초로 생성된 1-1출력 정보(31) 및 제2-1출력 정보(41)를 이용하여 가수를 먼저 찾은 후에, 검색된 가수를 기준으로 그룹화되어 있는 임베딩 벡터들을 이용하여 검색된 가수가 부른 다른 노래를 리스트 정보로 만들어 출력할 수 있다. 이 때, 리스트의 정렬 순서는 입력된 제1오디오 데이터(11)를 기준으로 가장 유사도가 높은 노래들로 리스트를 정렬할 수 있다.
한편, 가수를 찾음에 있어서, 메모리 모듈(200)에 저장되어 있는 모든 임베딩 벡터들과 비교하여 찾을 수 있지만, 앞서 설명한 가수의 대표 임베딩을 기준으로 대표 임베딩끼리만 비교하여 가수를 찾을 수 있다. 이러한 경우 연산시간이 줄어드는 효과가 존재한다.
또한, 제2서비스의 경우 입력된 제1오디오 데이터(11)에 포함되어 있는 노래를 부른 가수의 다른 노래 뿐만 아니라, 노래를 부른 가수와 유사한 가수를 검색한 후, 유사한 가수가 부른 노래들에 정보를 제공해줄 수 도 있다. 이 경우 메모리 모듈(300)에 저장되어 있는 대표 임베딩끼리 비교하여 가수의 유사성을 판단할 수도 있다.
도 6 은 본 발명의 일 실시예에 따른 음악 특성 분석 장치가 제공하는 보컬 태그 기반의 노래 검색 서비스 또는 가수 검색 서비스(제3서비스)를 설명하기 위한 도면이다
도 6을 참고하면, 도 6에 따른 음악 특성 분석 장치(100)의 기본적인 구조는 앞서 설명한 도 2 내지 도 5와 동일하나, 프로세서(200)는 제1인공신경망(210)과 제2인공신경망(220)에서 출력한 정보들을 입력 정보들을 기초로 학습을 수행하는 레이어인, 제1완전연결계층(Fully-connected layer)과 제2완전연결계층을 각각 구비할 수 있다.
제1완전연결계층(211)과 제2완전연결계층(212)은 도 6에 도시된 바와 같이 보컬(vocal)의 다양한 정보를 포함하고 있는 보컬 태깅(tagging) 정보를 출력하도록 구성되고 학습되어 질 수 있다.
구체적으로, 제1완전연결계층(211)과 제2완전연결계층(221)은 도 5에서 설명하였던 제1-1출력 정보(31)와 제2-1출력 정보(41)를 입력 정보로 입력 받은 후, 입력된 정보에서 보컬 정보를 추출한 후, 보컬이 가지고 있는 다양한 속성에 대한 정보인 보컬 태깅 정보를 출력하도록 레이어를 구성하고, 이를 기초로 학습을 수행하도록 구성되어 질 수 있다. 도 6에서는 일 실시예로 완전연결계층이 2개(211,221) 있는 것으로 도시하였지만 본 발명의 실시예가 이로 한정되는 것은 아니고, 완전연결계층은 1 개 또는 3개 이상으로 구성될 수도 있다.
보컬의 태깅 정보는 도 6에 도시된 바와 같이, 보컬이 가지고 있는 특징 , 예를 들어charismatic, rich, energetic 등 보컬과 관련된 다양한 특징 항목에 대한 정보를 포함할 수 있으며, 제1완전연결계층(211)과 제2완전연결계층(212)은 복수 개의 레이어를 포함하고 있어, 이러한 특징 항목을 출력하도록 학습될 수 있다.
제1완결연결계층(211) 및 제2완전연결계층(211)을 통과한 보컬의 태깅 정보는 메모리 모듈(300)에 저장될 수 있으며, 메모리 모듈(300)에 저장된 태깅 정보는 유사한 특징을 가지는 곡별로 그룹화가 되어 있거나, 가수별로 그룹화가 되어 있을 수 있다.
제 3서비스의 경우 입력된 음악에 대해 보컬의 특징을 태그로 표현하는 것이 가능하기 때문에, 보컬-태그로 이루어진 데이터를 생성한 후, 이를 기초로 태그 단위의 노래 검색 서비스를 제공할 수 있다. 예를 들어, 보컬의 여러 특징 중 rich한 보컬 특징을 가지는 노래 또는 가수를 검색해주는 서비스를 제공해줄 수 있다.
한편, 본 발명에 따른 음악 특성 분석 장치(100)는 도 6에서 설명하였던 원리를 적용하여 가수명 검색 서비스(제4서비스)를 제공할 수도 있다.
구체적으로, 도 6에서 설명하였던 제1완전연결계층(211)과 제2완결연결계층(221)이 제1-1출력 정보(31)와 제2-1출력 정보(41)를 입력 정보로 입력 받은 후, 입력된 정보를 기초로 가수 이름 정보를 출력하도록, 레이어를 구성하고 이를 기초로 학습을 수행하도록 구성될 수 있다.
예를 들어, 제4서비스의 경우, A라는 가수의 노래가 입력된 경우, 프로세스(200)는 입력된 노래를 분석하여, 입력된 노래가 A라는 가수의 노래임에 해당한다는 정보를 출력 정보로 출력할 수 있다. 제4서비스의 경우, 제1~3 서비스와 다르게 임베딩 벡터 정보를 사용하지 않고 서비스 정보를 출력하기 때문에, 서비스 정보를 출력함에 있어서 메모리 모듈(300)에 저장되어 있는 임베딩 벡터 정보를 활용할 필요가 없다. 따라서, 다른 서비스보다 비교적 빠른 서비스를 제공할 수 있는 장점이 존재한다.
지금까지 본 발명에 따른 음악 분석 장치(100)의 구성 요소 및 이를 이용한 서비스 방법에 대해 자세히 알아보았다. 이하, 본 발명에 따른 인공신경망의 학습 방법을 통해 대해 도 7 내지 도 12를 통해 자세히 설명하도록 한다.
도 7은 본 발명의 일 실시예에 따라 학습 데이터를 생성하기 위해 인공신경망에 입력되는 서로 다른 종류의 입력 정보 및 이에 따른 출력 정보를 도시한 도면이다.
도 7을 참조하면, 앞서 설명한 바와 같이 본 발명에 따른 프로세서(200)에는 총 3가지의 오디오 데이터인 제1오디오 데이터(11), 제2오디오 데이터(12) 및 제3오디오 데이터(13)가 입력될 수 있으며, 전처리 모듈(230)에 의해 제1오디오 데이터(11)는 제1항목 데이터(21)가 변환될 수 있고, 제2오디오 데이터(12)는 제2항목 데이터(22)로 변환될 수 있으며, 제3오디오 데이터(13)는 제3항목 데이터(23)로 변환될 수 있다.
따라서, 프로세서(200)에 제1오디오 데이터(11)가 입력되는 경우 제1인공신경망(210)에는 제1항목 데이터(21)가 입력되고, 제2인공신경망(220)에는 제1오디오 데이터(11)가 입력되어 각각 제1-1출력 정보(31)와 제2-1출력 정보(41)가 출력 될 수 있다.
프로세서(200)에 제2오디오 데이터(12)가 입력되는 경우 제1인공신경망(210)에는 제2항목 데이터(22)가 입력되고, 제2인공신경망(220)에는 제2오디오 데이터(12)가 입력되어 각각 제1-2출력 정보(32)와 제2-2출력 정보(42)가 출력 될 수 있다.
프로세서(200)에 제3오디오 데이터(13)가 입력되는 경우 제1인공신경망(210)에는 제3항목 데이터(23)가 입력되고, 제2인공신경망(220)에는 제3오디오 데이터(13)가 입력되어 각각 제1-3출력 정보(33)와 제2-3출력 정보(43)가 출력 될 수 있다.
그리고 이렇게 생성된 6개의 출력 정보(31, 32, 33, 41, 42, 43)은 제1인공신경망(210)과 제2인공신경망(220)이 학습을 수행하는데 레퍼런스 데이터로 활용될 수 있다.
구체적으로, 제1-1출력 정보(31), 제1-2출력 정보(32), 제2-1출력 정보(41) 및 제2-2출력 정보(42)는 입력되는 데이터가 제1오디오 데이터(11)와 제2오디오 데이터(12)에 해당하는데, 앞서 설명한 바와 같이 제1오디오 데이터(11)와 제2오디오 데이터(12)는 동일한 클래스를 가지는 오디오 데이터라는 점에서 동일한 오디오 데이터라는 특징을 공유하게 된다.
따라서 제1-1출력 정보(31), 제1-2출력 정보(32), 제2-1출력 정보(41) 및 제2-2출력 정보(42)들은 동일한 특징을 가지는 정보가 출력될 가능성이 높으므로, 이러한 유사성을 관계를 기초로 학습을 수행하면 학습의 효율성을 높일 수 있다.
이와 반대로 제1-3 출력 정보(33)와 제2-3출력 정보(43)의 경우 입력되는 데이터가 제1오디오 데이터(11) 및 제2오디오 데이터(12)와 다른 클래스를 가지는 제3오디오 데이터(13)라는 점에서, 공유되는 오디오 특징이 상대적으로 작다.
따라서, 제3오디오 데이터(13)를 기초로 출력되는 제1-3출력 정보(33)와 제2-3출력 정보(43)는 제1-1출력 정보(31), 제1-2출력 정보(32), 제2-1출력 정보(41) 및 제2-2출력 정보(42)와 서로 다른 특징을 가지는 정보가 출력될 가능성이 높으므로, 이러한 비유사성을 기초로 학습을 수행하면 상대적으로 학습의 효율성을 높일 수 있다. 이하 도면을 통해 학습 방법에 대해 구체적으로 알아본다.
도 8은 본 발명의 일 실시예에 따른 제1손실함수를 기초로 학습을 수행하는 방법을 설명하기 위한 도면이고, 도 9는 본 발명의 일 실시예에 따른 제2손실함수를 기초로 학습을 수행하는 방법을 설명하기 위한 도면이며, 도 10은 본 발명의 일 실시예에 따른 제3손실함수를 기초로 학습을 수행하는 방법을 설명하기 위한 도면이고, 도 11은 본 발명의 일 실시예에 따른 제4손실함수를 기초로 학습을 수행하는 방법을 설명하기 위한 도면이며, 도 12는 본 발명의 일 실시예에 따른 제5손실함수를 기초로 학습을 수행하는 방법을 설명하기 위한 도면이다.
도 8을 기초로 제1손실함수(L1)에 설명하면, 제1손실함수는 제1-1손실함수와 제1-2손실함수의 합으로 구성될 수 있다.
구체적으로 제1-1손실함수는 제1-1출력 정보(31)와 제1-2출력 정보(32)와의 사이의 차이 값을 의미하고, 제1-2손실함수는 제1-1출력 정보(31)와 제1-3출력 정보(33)와의 사이의 차이 값을 의미한다.
따라서, 제1인공신경망(210)과 제2인공신경망(220)은 제1-1손실함수의 값을 감소시키고, 제1-2손실함수의 값을 증가시키는 방향으로 학습을 수행하고, 이를 기초로 상기 제1인공신경망(210)과 제2인공신경망(220)의 각각의 인공신경망 모듈의 파라미터를 업데이트 할 수 있다. 그리고 이를 수학식으로 표현하면 아래 수학식 (2)와 같이 표현할 수 있다.
(수학식 2)
Figure 112022047439500-pat00002
수학식에서 d는 두 벡터 사이의 거리를 의미하며 계산은 앞서 설명한 수학식 (1)에 의해 이루어질 수 있다. 그리고 ma는 제1-1출력 정보(31)를 가리키고, va는 제2-1출력 정보(41)를 가리키고, mp는 제1-2출력 정보(32)를 가리키고, vp는 제2-2출력 정보(42)를 가리키며, mn은 제1-3출력 정보(33)를 가리키고, mnj는 제2-3출력 정보(43)를 가리킨다. 그리고. 앞서 설명한 바와 같이 제1-3출력 정보(33)와 제2-3출력 정보(43)는 제3오디오 데이터(13)가 입력되었을 때 출력되는 정보이고, 제3오디오 데이터(13)가 제1오디오 데이터(11) 및 제2오디오 데이터(12)와 다르게 복수개의 데이터 정보가 입력될 수 있으므로 그 데이터의 수가 j를 의미하게 된다.
제1-1출력 정보(31)와 제1-2출력 정보(32)는 입력되는 데이터가 제1오디오 데이터(11)와 제2오디오 데이터(12)인데 앞서 설명한 바와 같이 제1오디오 데이터(11)와 제2오디오 데이터(12)는 동일한 클래스를 가지는 오디오 데이터라는 점에서 동일한 오디오 데이터의 특징을 공유하게 되므로, 제1-1출력 정보(31)와 제1-2출력 정보(32)의 유사성은 상대적으로 크다.
이와 반대로 제1-3 출력 정보(33)의 경우 입력되는 데이터가 제1오디오 데이터(11) 및 제2오디오 데이터(12)와 다른 클래스를 가지는 제3오디오 데이터(13)라는 점에서, 제3오디오 데이터(13)를 기초로 출력되는 제1-3출력 정보(33)는 제1-1출력 정보(31) 및 제1-2출력 정보(32)와 다른 특징을 가지는 정보가 출력되므로, 제1-1출력 정보(31)를 기준으로 제1-3출력 정보는 유사성이 상대적으로 낮아지게 된다.
따라서, 본 발명의 경우 제1-1손실함수는 제1-1출력 정보(31)와 제1-2출력 정보(32)와의 사이의 차이 값으로 정의하고, 1-2손실함수는 제1-1출력 정보(31)와 제1-3출력 정보(33)와의 사이의 차이 값으로 정의한 후, 유사성이 강한 제1-1손실함수의 값은 그 값이 작아지는 방향으로 학습을 수행하고, 유사성이 약한 제1-2손실함수의 값은 그 값은 커지는 방향으로 학습을 수행함으로써, 인공신경망이 출력하는 정보의 정확성을 증가시킬 수 있는 효과가 존재한다.
다른 실시예로, 제2손실함수(L2)에 대해 도 9를 기초로 설명을 하면, 제2손실함수는 제2-1손실함수와 제2-2손실함수의 합으로 구성될 수 있으며, 구체적으로 제2-1손실함수는 제2-1출력 정보(41)와 제1-2출력 정보(32)와의 사이의 차이 값을 의미하고, 제2-2손실함수는 제2-1출력 정보(41)와 제1-3출력 정보(33)와의 사이의 차이 값을 의미한다.
앞서 설명한 바와 같이, 제2-1출력 정보(41)와 제1-2출력 정보(32)는 유사성이 상대적으로 강하고, 제2-1출력 정보(41)와 제1-3출력 정보(33) 유사성이 상대적으로 약하므로, 유사성이 강한 제2-1손실함수의 값은 그 값이 작아지는 방향으로 학습을 수행하고, 유사성이 약한 제2-2손실함수의 값은 그 값은 커지는 방향으로 학습을 수행하고 인공신경망이 출력하는 정보의 정확성을 증가시킬 수 있는 효과가 존재한다.
이를 수학식으로 표현하면 아래 수학식 (3)과 같이 표현할 수 있다. 그리고 수학식 (3)에서의 식들의 의미는 수학식 (2)에서 설명한 바와 동일하다.
(수학식 3)
Figure 112022047439500-pat00003
다른 실시예로, 제3손실함수(L3)에 대해 도 10을 기초로 설명을 하면, 제3손실함수는 제3-1손실함수와 제3-2손실함수의 합으로 구성될 수 있으며, 구체적으로 제3-1손실함수는 제1-1출력 정보(31)와 제2-2출력 정보(42)와의 사이의 차이 값을 의미하고, 제3-2손실함수는 제1-1출력 정보(31)와 제2-2출력 정보(42)와의 사이의 차이 값을 의미한다.
앞서 설명한 바와 같이, 제1-1출력 정보(31)와 제2-2출력 정보(42)는 유사성이 상대적으로 강하고, 제1-1출력 정보(31)와 제2-3출력 정보(43) 유사성이 상대적으로 약하므로, 유사성이 강한 제3-1손실함수의 값은 그 값이 작아지는 방향으로 학습을 수행하고, 유사성이 약한 제3-2손실함수의 값은 그 값은 커지는 방향으로 학습을 수행하고 인공신경망이 출력하는 정보의 정확성을 증가시킬 수 있는 효과가 존재한다.
이를 수학식으로 표현하면 아래 수학식 (4)과 같이 표현할 수 있으며, 수학식 (4)에서의 식들은 수학식 (2)에서 설명한 바와 동일하다.
(수학식 4)
Figure 112022047439500-pat00004
다른 실시예로, 제4손실함수(L4)에 대해 도 11을 기준으로 설명을 하면, 제4손실함수는 제4-1손실함수와 제4-2손실함수의 합으로 구성될 수 있으며, 구체적으로 제4-1손실함수는 제2-1출력 정보(41)와 제2-2출력 정보(42)와의 사이의 차이 값을 의미하고, 제4-2손실함수는 제2-1출력 정보(41)와 제2-3출력 정보(43)와의 사이의 차이 값을 의미한다.
앞서 설명한 바와 같이, 제2-1출력 정보(41)와 제2-2출력 정보(42)는 유사성이 상대적으로 강하고, 제2-1출력 정보(41)와 제2-3출력 정보(43) 유사성이 상대적으로 약하므로, 유사성이 강한 제4-1손실함수의 값은 그 값이 작아지는 방향으로 학습을 수행하고, 유사성이 약한 제4-2손실함수의 값은 그 값은 커지는 방향으로 학습을 수행하고 인공신경망이 출력하는 정보의 정확성을 증가시킬 수 있는 효과가 존재한다.
이를 수학식으로 표현하면 아래 수학식 (5)과 같이 표현할 수 있으며, 수학식 (5)에서의 식들은 수학식 (2)에서 설명한 바와 동일하다.
(수학식 5)
Figure 112022047439500-pat00005
한편, 도 6 내지 도 9에서는 제1손실함수, 제2손실함수, 제3손실함수 및 제4손실함수를 각각 분리된 손실함수로 설명하였지만, 본 발명의 실시예는 상기 설명한 4가지 중에서 2개 이상을 혼합하여 손실함수를 구성하여 학습을 수행할 수 도 있다.
일 예로 도 12에서 도시된 바와 같이 제1손실함수(L1), 제2손실함수(L2), 제3손실함수(L3) 및 제4손실함수(L4)를 모두 더한 값을 제5손실함수(L5)로 하여, 이렇게 결정된 제5 손실함수를 기초로 학습을 수행할 수 있다.
지금까지 본 발명에 따른 인공신경망 모듈의 구성 및 입력 정보와 출력 정보에 대해 알아보았다.
일 실시예에 따른 인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 방법 및 장치는 음악의 특성을 반영한 임베딩 벡터를 생성함에 있어서, 동일한 성격을 가지는 데이터와 다른 성격을 가지는 데이터를 기초로 상호 보완적인 학습을 진행하므로, 보다 음악의 특성을 정확하게 반영할 수 있는 임베딩 벡터를 생성할 수 있는 장점이 존재한다.
일 실시예에 따른 인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 방법 및 장치는 서로 다른 오디오 데이터를 활용하여 학습을 수행할 뿐 만 아니라, 전체 오디오에 대한 임베딩 벡터와, 전체 오디오 데이터에서 특정 항목만을 분리한 항목 데이터를 혼합하여 학습을 수행하므로, 데이터들의 다양한 특징을 반영할 수 있어, 보다 음악의 특성을 정확히 반영한 임베딩 벡터를 출력할 수 있는 장점이 존재한다.
이에 따라, 생성된 임베딩 데이터를 기초로 가수 식별 서비스. 유사 음악 서비스 등 다양한 서비스를 제공할 수 있으며, 서비스의 정확도 또한 같이 상승할 수 있는 장점 또한 존재한다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
100: 음악 특성 분석 장치
200: 프로세서 210: 제1인공신경망
220: 제2인공신경망
300: 메모리 모듈
400: 유사도 계산 모듈
500: 서비스 제공 모듈

Claims (7)

  1. 복수의 오디오 데이터에 대한 임베딩(embedding) 벡터가 저장되어 있는 메모리 모듈;
    제1오디오 데이터를 입력 정보로 입력 받아, 상기 제1오디오 데이터 중 미리 설정된 항목에 대한 제1항목 데이터를 출력 정보로 출력하는 전처리 모듈;
    상기 제1항목 데이터를 제1-1입력 정보로 하고, 상기 제1항목 데이터에 대한 임베딩 벡터인 제1-1벡터를 제1-1출력 정보로 출력하는 제1인공신경망;
    상기 제1오디오 데이터를 제2-1입력 정보로 하고, 상기 제1오디오 데이터에 대한 임베딩 벡터인 제2-1벡터를 제2-1출력 정보로 출력하는 제2인공신경망; 및
    상기 제1-1 벡터 및 상기 제2-1벡터 중 적어도 하나와 상기 메모리 모듈에 저장되어 있는 다른 임베딩 벡터들과의 유사도를 계산하는 유사도 계산 모듈;을 포함하고
    상기 항목은,
    보컬, 드럼, 베이스, 기타 및 반주 중 적어도 하나를 포함하고,
    상기 전처리 모듈은, 제2오디오 데이터 및 제3오디오 데이터를 입력 받아, 상기 항목에 대한 제2항목 데이터 및 제3항목 데이터를 출력하고,
    상기 제1인공신경망은, 상기 제2항목 데이터를 제1-2입력 정보로 하고, 상기 제2항목 데이터에 대한 임베딩 벡터인 제1-2벡터를 제1-2출력 정보로 출력하며,
    상기 제2인공신경망은, 상기 제2오디오 데이터를 제2-2입력 정보로 하고, 상기 제2오디오 데이터에 대한 임베딩 벡터인 제2-2벡터를 제2-2출력 정보로 출력하고,
    상기 제2오디오 데이터는, 상기 제1오디오 데이터와 동일한 클래스를 가지는 다른 종류의 오디오 데이터이며,
    상기 제1인공신경망 및 상기 제2인공신경망은, 상기 제1-1출력 정보, 상기 제1-2출력 정보, 상기 제2-1출력 정보 및 상기 제2-2출력 정보들 사이의 관계를 이용하여 학습을 수행하는 것을 특징으로 하는,
    인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 유사도 계산 모듈이 계산한 결과를 기초로, 상기 메모리 모듈에서 상기 제1오디오 데이터의 보컬 정보를 찾아 출력하는 서비스 제공 모듈;을 더 포함하고,
    상기 보컬 정보는, 상기 제1오디오 데이터에 포함되어 있는 노래를 부른 가수에 대한 정보 및 상기 가수가 부른 다른 노래 정보 중 적어도 하나를 포함하는,
    인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 장치.
  4. 제1항에 있어서,
    상기 제1-1출력 정보와 상기 제2-1출력 정보를 입력 정보로 입력 받아 상기 제1오디오 데이터에 대한 보컬의 태킹(tagging) 정보를 출력 정보로 출력하는 제1완전연결계층(FCL, fully connected layer)을 더 포함하는,
    인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 장치.
  5. 삭제
  6. 제4항에 있어서,
    상기 제1인공신경망은, 상기 제3항목 데이터를 제1-3입력 정보로 하고, 상기 제3항목 데이터에 대한 임베딩 벡터인 제1-3벡터를 제1-3출력 정보로 출력하고,
    상기 제2인공신경망은, 상기 제3오디오 데이터를 제2-3입력 정보로 하고, 상기 제3오디오 데이터에 대한 임베딩 벡터인 제2-3벡터를 제2-3출력 정보로 출력하며,
    상기 제3오디오 데이터는, 상기 제1오디오 데이터와 다른 클래스를 가지는 오디오 데이터이며,
    상기 제1인공신경망 및 상기 제2인공신경망은,
    상기 제1-1출력 정보, 상기 제1-2출력 정보, 상기 제1-3출력 정보, 상기 제2-1출력 정보, 상기 제2-2출력 정보 및 상기 제2-3출력 정보들 사이의 관계를 이용하여 학습을 수행하는 것을 특징으로 하는,
    인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 장치.
  7. 하나 이상의 프로세스를 이용한 음악 특성 분석 방법에 있어서,
    복수의 오디오 데이터에 대한 임베딩(embedding) 벡터를 메모리 모듈에 저장하는 데이터 저장 단계;
    제1오디오 데이터를 입력 정보로 입력 받아, 상기 제1오디오 데이터 중 미리 설정된 항목에 대한 제1항목 데이터를 출력 정보로 출력하는 전처리 데이터 출력 단계;
    상기 제1항목 데이터를 제1-1입력 정보로 하고, 상기 제1항목 데이터에 대한 임베딩 벡터인 제1-1벡터를 제1-1출력 정보로 출력하는 기 학습된 제1인공신경망을 이용하여 상기 제1-1출력 정보를 출력하는 제1-1출력 정보 출력 단계;
    상기 제1오디오 데이터를 제2-1입력 정보로 하고, 상기 제1오디오 데이터에 대한 임베딩 벡터인 제2-1벡터를 제2-1출력 정보로 출력하는 기 학습된 제2인공신경망을 이용하여 상기 제2-1출력 정보를 출력하는 제2-1출력 정보 출력 단계; 및
    상기 제1-1 벡터 및 상기 제2-1벡터 중 적어도 하나와 상기 메모리 모듈에 저장되어 있는 다른 임베딩 벡터들과의 유사도를 계산하는 유사도 계산 단계;를 포함하고
    상기 항목은,
    보컬, 드럼, 베이스, 기타 및 반주 중 적어도 하나를 포함하며
    상기 전처리 데이터 출력 단계는, 제2오디오 데이터 및 제3오디오 데이터를 입력 받아, 상기 항목에 대한 제2항목 데이터 및 제3항목 데이터를 출력하는 단계를 포함하고,
    상기 제1인공신경망은, 상기 제2항목 데이터를 제1-2입력 정보로 하고, 상기 제2항목 데이터에 대한 임베딩 벡터인 제1-2벡터를 제1-2출력 정보로 출력하며,
    상기 제2인공신경망은, 상기 제2오디오 데이터를 제2-2입력 정보로 하고, 상기 제2오디오 데이터에 대한 임베딩 벡터인 제2-2벡터를 제2-2출력 정보로 출력하고,
    상기 제2오디오 데이터는, 상기 제1오디오 데이터와 동일한 클래스를 가지는 다른 종류의 오디오 데이터이며,
    상기 제1인공신경망 및 상기 제2인공신경망은, 상기 제1-1출력 정보, 상기 제1-2출력 정보, 상기 제2-1출력 정보 및 상기 제2-2출력 정보들 사이의 관계를 이용하여 학습을 수행하는 것을 특징으로 하는,
    인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 방법.
KR1020220054802A 2022-05-03 2022-05-03 인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 방법 및 장치 KR102511598B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220054802A KR102511598B1 (ko) 2022-05-03 2022-05-03 인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220054802A KR102511598B1 (ko) 2022-05-03 2022-05-03 인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102511598B1 true KR102511598B1 (ko) 2023-03-21

Family

ID=85801472

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220054802A KR102511598B1 (ko) 2022-05-03 2022-05-03 인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102511598B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150084133A (ko) 2014-01-13 2015-07-22 엘지전자 주식회사 이동단말기 및 그 제어방법
KR101696555B1 (ko) 2015-10-06 2017-02-02 서울시립대학교 산학협력단 영상 또는 지리 정보에서 음성 인식을 통한 텍스트 위치 탐색 시스템 및 그 방법
KR20210046416A (ko) * 2019-10-18 2021-04-28 한국과학기술원 파형 음원 신호를 분석하는 신경망 모델에 기반한 음원 분류 방법 및 분석장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150084133A (ko) 2014-01-13 2015-07-22 엘지전자 주식회사 이동단말기 및 그 제어방법
KR101696555B1 (ko) 2015-10-06 2017-02-02 서울시립대학교 산학협력단 영상 또는 지리 정보에서 음성 인식을 통한 텍스트 위치 탐색 시스템 및 그 방법
KR20210046416A (ko) * 2019-10-18 2021-04-28 한국과학기술원 파형 음원 신호를 분석하는 신경망 모델에 기반한 음원 분류 방법 및 분석장치

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Taejin Park, 'MUSICAL INSTRUMENT SOUND CLASSIFICATION WITH DEEP CONVOLUTIONAL NEURAL NETWORK USING FEATURE FUSION APPROACH', ETRI, 2015. *
김선훈 외, '멀티모달 딥러닝을 이용한 음악 장르 분류', Proceedings of HCI Korea 2016, 2016. *
송민균 외, '장르 분류 체계에 따른 음악 장르 자동 판별 성능분석', 정보과학회논문지, 2012.03. *

Similar Documents

Publication Publication Date Title
Tzanetakis et al. Marsyas: A framework for audio analysis
Chen et al. Fusing similarity functions for cover song identification
Tzanetakis Marsyas submissions to MIREX 2007
US20050004690A1 (en) Audio summary based audio processing
Murthy et al. Classification of vocal and non-vocal segments in audio clips using genetic algorithm based feature selection (GAFS)
AU2006288921A1 (en) Music analysis
You et al. Comparative study of singing voice detection based on deep neural networks and ensemble learning
Hargreaves et al. Structural segmentation of multitrack audio
US11568886B2 (en) Audio stem identification systems and methods
KR101942459B1 (ko) 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템
Tzanetakis et al. A framework for audio analysis based on classification and temporal segmentation
West et al. A model-based approach to constructing music similarity functions
Shen et al. A novel framework for efficient automated singer identification in large music databases
You et al. Comparative study of singing voice detection methods
Biswas et al. Speaker recognition: an enhanced approach to identify singer voice using neural network
Shakya et al. Music classification based on genre and mood
Blaß et al. Content-based music retrieval and visualization system for ethnomusicological music archives
KR102511598B1 (ko) 인공신경망을 이용하여 음악의 특성을 분석하는 음악 특성 분석 방법 및 장치
US20210090536A1 (en) Audio stem identification systems and methods
Senan et al. Rough set approach for attributes selection of traditional Malay musical instruments sounds classification
Nagavi et al. Content based audio retrieval with MFCC feature extraction, clustering and sort-merge techniques
KR102538680B1 (ko) 인공신경망을 이용하여 음악의 속성에 기반한 유사 음악 검색 방법 및 장치
JP7428182B2 (ja) 情報処理装置および方法、並びにプログラム
Yeh et al. Improving music auto-tagging by intra-song instance bagging
Nuttall et al. The matrix profile for motif discovery in audio-an example application in carnatic music

Legal Events

Date Code Title Description
AMND Amendment
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant