KR101891778B1

KR101891778B1 - 음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램

Info

Publication number: KR101891778B1
Application number: KR1020170045391A
Authority: KR
Inventors: 하정우; 김정명; 박장연; 김찬주; 김동원
Original assignee: 네이버 주식회사; 라인 가부시키가이샤
Priority date: 2017-04-07
Filing date: 2017-04-07
Publication date: 2018-08-24
Also published as: JP2020516004A; US20200035225A1; US11462210B2; JP6998449B2; WO2018186708A1

Abstract

본 발명의 일 실시예는 프로세서를 이용하여 음원의 하이라이트 구간을 결정하는 방법에 있어서, 상기 방법은, 음원 및 상기 음원에 대한 분류 정보를 획득하는 단계; 상기 음원 및 상기 분류 정보를 이용하여, 상기 음원을 시간 축으로 분할한 복수의 구간 각각의 특징값에 대응되는 노드를 포함하는 입력 레이어, 상기 분류 정보에 대응되는 노드를 포함하는 출력 레이어, 상기 입력 레이어와 상기 출력 레이어의 사이에 정의되는 히든 레이어, 상기 입력 레이어와 상기 히든 레이어 간의 제1 함수 및 상기 히든 레이어와 상기 출력 레이어 간의 제2 함수를 포함하는 신경망을 학습하고, 상기 제1 함수는 상기 각 구간의 특징값의 가중치 합을 계산하는 어텐션(attention) 모델을 포함하는, 신경망 학습 단계; 및 상기 학습된 제1 함수에 포함된 상기 각 구간의 특징값 노드의 가중치 정보에 기초하여, 상기 음원의 하이라이트 구간을 결정하는 단계;를 포함하는 음원의 하이라이트 구간 결정 방법을 개시한다.

Description

음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램{Method and Apparatus for determining highlight section of a sound source, and computer program for executing the method}

본 발명의 실시예들은 음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램에 관한 것이다.

음원 파일에 대한 수요가 증가하면서, 사용자는 전자 장치에 다양한 음원 파일을 저장하여 언제 어디서든 해당 음원 파일을 재생시킬 수 있어 사용자의 편의성을 향상시켜 주고 있다. 다만 음원을 제공하는 상황에 따라 음원의 전체 구간이 아닌 일부의 하이라이트 구간을 제공하여야 하는 수요가 발생한다.

본 발명의 실시예들은 음원과 분류정보의 관계를 학습하는 신경망을 이용하여 음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램을 제공한다.

본 실시예에 있어서, 상기 히든 레이어는, 상기 제1 함수에 따라 상기 각 구간의 특징값으로부터 획득되는 상기 음원에 대한 통합 특징값에 대응되는 노드를 포함할 수 있다.

본 실시예에 있어서, 상기 제1 함수는, 상기 어텐션 모델의 출력값과 순환 신경망(Recurrent Neural Network; RNN) 모델의 출력값의 유사도를 계산하는 제1-1 함수를 더 포함하고, 상기 히든 레이어는 상기 유사도의 노드를 포함할 수 있다.

본 실시예에 있어서, 상기 획득하는 단계 이후에, 시간 축에 대한 소리 데이터를 포함하는 상기 음원을 시간 축에 대한 에너지 데이터를 포함하도록 변환하는 단계;를 더 포함하고, 상기 복수의 구간은 상기 변환된 음원을 시간 축으로 분할한 것을 특징으로 할 수 있다.

본 실시예에 있어서, 상기 결정하는 단계는, 상기 각 구간의 특징값 노드의 가중치 정보, 및 상기 각 구간의 에너지 데이터에 기초하여, 상기 하이라이트 구간을 결정할 수 있다.

본 실시예에 있어서, 상기 결정하는 단계는, 상기 각 구간의 특징값 노드의 가중치 정보에 기초하여 중요 구간을 결정하고, 상기 중요 구간의 전후로 기설정된 범위의 구간 이내의 에너지 데이터를 참조하여, 상기 음원의 전체 구간 중 상기 하이라이트 구간을 결정할 수 있다.

본 실시예에 있어서, 상기 결정하는 단계는 상기 기설정된 범위의 구간 내에서 상기 에너지 데이터의 모멘텀이 가장 큰 시점에 대응하여 상기 하이라이트 구간을 결정할 수 있다.

본 발명의 다른 실시예는 컴퓨터를 이용하여 전술한 어느 한 방법을 실행하기 위하여 매체에 저장된 컴퓨터 프로그램을 개시한다.

본 발명의 다른 실시예는 음원 및 상기 음원에 대한 분류 정보를 획득하는 음원 획득부; 상기 음원 및 상기 분류 정보를 이용하여, 상기 음원을 시간 축으로 분할한 복수의 구간 각각의 특징값에 대응되는 노드를 포함하는 입력 레이어, 상기 분류 정보에 대응되는 노드를 포함하는 출력 레이어, 상기 입력 레이어와 상기 출력 레이어의 사이에 정의되는 히든 레이어, 상기 입력 레이어와 상기 히든 레이어 간의 제1 함수 및 상기 히든 레이어와 상기 출력 레이어 간의 제2 함수를 포함하는 신경망을 학습하고, 상기 제1 함수는 상기 각 구간의 특징값의 가중치 합을 계산하는 어텐션(attention) 모델을 포함하는, 신경망 처리부; 및 상기 학습된 제1 함수에 포함된 상기 각 구간의 특징값 노드의 가중치 정보에 기초하여, 상기 음원의 하이라이트 구간을 결정하는 하이라이트 결정부;를 포함하는 음원의 하이라이트 구간 결정 장치를 개시한다.

전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.

이러한 일반적이고 구체적인 측면이 시스템, 방법, 컴퓨터 프로그램, 또는 어떠한 시스템, 방법, 컴퓨터 프로그램의 조합을 사용하여 실시될 수 있다.

본 발명의 실시예들에 관한 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램은, 음원과 분류 정보의 관계를 학습하는 신경망을 이용하여 음원의 하이라이트 구간을 결정함으로써, 음원의 분류 정보가 고려된 하이라이트 구간을 결정할 수 있게 되고, 이에 따라 하이라이트 구간 결정 성능이 향상된다.

본 발명의 실시예들에 관한 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램은, 음원의 구간 별로 가중치를 부여하는 어텐션 모델을 포함하는 신경망을 이용하여, 음원의 복수 구간 중 가장 중요한 역할을 하는 구간을 기반으로 음원의 하이라이트 구간을 결정함으로써 하이라이트 구간 결정 성능이 향상된다.

도 1은 본 발명의 일 실시예에 따른 음원 분석 시스템의 구성을 나타낸 도면이다.
도 2a 및 도 2b는 본 발명의 일 실시예에 따른 음원 하이라이트 구간 결정 방법의 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 신경망의 예를 도시한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 신경망을 다른 관점에서 도시한 것이다.
도 5는 본 발명의 일 실시예에 따라 하이라이트 구간을 추출하는 방법의 예를 도시한 것이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다. 이하의 실시예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 이하의 실시예에서, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다. 도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.

도 1은 본 발명의 일 실시예에 따른 음원 분석 시스템의 구성을 나타낸 도면이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 음원 분석 시스템은 프로세서(10) 및 메모리(20)를 포함한다. 본 발명의 일 실시예에 따라 제공되는 음원 분석 시스템은, 메모리(20)에 저장된 신경망을 이용하여, 프로세서(10)에 입력되는 음원의 하이라이트 구간을 결정할 수 있다. 신경망은 복수의 음원 및 각 음원의 분류 정보를 학습하여 음원과 분류 정보의 관계를 정의하도록 구축된 것일 수 있다. 분류 정보는, 음원에 대하여 라벨링된 일종의 태그 정보일 수 있다. 예를 들어 분류 정보는 음원의 장르, 무드, 선호 연령대, 주제, 분위기 중 하나 이상을 포함할 수 있다. 분류 정보가 장르인 경우, 분류 정보는 힙합, 락, 발라드, 알앤비 등 복수의 음악 장르 중 하나 이상의 장르 값을 포함할 수 있다. 분류 정보는 각 분류에 해당할 확률을 나타내는 벡터 형태로 표현될 수 있다.

예를 들어, 장르를 나타내는 분류 정보는 [힙합, 락, 발라드, 알앤비]의 4가지 장르에 대한 확률을 포함하는 벡터로 표현될 수 있다. "힙합"으로 라벨링된 분류 정보는 [1, 0, 0, 0]의 벡터로 표현될 수 있다. "힙합" 및 "락"으로 라벨링된 분류 정보는 [0.5, 0.5, 0, 0]의 벡터로 표현될 수 있다.

신경망 학습에는 하나 이상의 머신러닝 알고리즘이 사용될 수 있다. 예를 들어, 음원의 특징값을 벡터 형태로 추출하기 위해 콘볼루션 신경망(Convolution neural network) 알고리즘이 사용될 수 있다.

도 1의 프로세서(10)는 데이터를 처리할 수 있는 모든 종류의 장치에 해당할 수 있다. 프로세서(10)(processor)는, 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 프로세서(10)는 하나 이상의 처리장치에 해당하거나, 하나 이상의 처리장치를 포함할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다. 이에 따라, 프로세서(10)는 마이크로 프로세서나 범용 컴퓨터 시스템과 같은 다른 하드웨어 장치에 포함된 형태로 구동될 수 있다.

메모리(20)는, 프로세서(10)와 통신 가능한 저장 장치로서, 프로세서(10)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행한다. 메모리(20)와 프로세서(10)는 하나의 장치 내에 구비되어 직접 연결되거나, 별도의 장치에 각각 구비되어 유선 또는 무선 통신에 의해 연결될 수 있다. 메모리(20)는 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

도 1에 도시된 음원 분석 시스템은, 본 실시예의 특징이 흐려지는 것을 방지하기 위하여 본 실시예와 관련된 구성요소들만을 도시한 것이다. 따라서, 도 1에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음을 본 실시예와 관련된 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.

본 발명의 일 실시예에 따른 프로세서(10)는 음원 획득부(11), 신경망 처리부(12) 및 하이라이트 결정부(13)를 포함한다.

본 발명의 일 실시예에 따른 음원 획득부(11)는 음원 및 음원에 대한 분류 정보를 획득한다. 음원 및 음원에 대한 분류 정보는, 사용자에 의해 입력되거나, 서버에 의해 입력되거나, 다른 장치에 의해 입력되거나, 메모리(20)로부터 독출되거나, 프로세서(10) 내에 포함되었으나 도 1에 도시되지 않은 다른 유닛에 의해 입력되는 것일 수 있으며, 입력 주체는 한정되지 않는다.

본 발명의 일 실시예에 따른 신경망 처리부(12)는 음원 획득부(11)가 획득한 음원 및 분류 정보를 이용하여, 메모리(20)에 저장된 신경망을 학습한다. 신경망은 기계학습에 의해 학습되는 인공신경망을 의미한다. 인공신경망은 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜 문제 해결 능력을 학습시키는 모델을 의미한다. 본 발명의 일 실시예에 따른 신경망은, 분류 정보가 라벨링된 음원을 포함하는 트레이닝 데이터를 이용하여 음원과 분류 정보의 관계를 학습하는 신경망이다. 신경망은, 입력 객체와 출력 객체의 속성을 벡터 형태로 포함할 수 있다.

본 발명의 일 실시예에 따른 신경망은 입력 레이어, 히든 레이어 및 출력 레이어를 포함하고, 각 레이어 간의 관계 함수를 포함할 수 있다. 예를 들어, 입력 레이어와 히든 레이어 간의 제1 함수 및 히든 레이어와 출력 레이어 간의 제2 함수를 포함한다. 입력 레이어는 음원을 시간 축으로 분할한 복수의 구간 각각의 특징값에 대응되는 노드를 포함할 수 있다. 히든 레이어는 입력 레이어와 출력 레이어의 사이에 정의되며, 하나 이상의 레이어로 구성될 수 있다. 출력 레이어는 음원의 분류 정보에 대응되는 노드를 포함할 수 있다.

히든 레이어는 입력 레이어에 포함된 각 구간의 특징값의 노드로부터 제1 함수에 따라 획득되는 통합 특징값 노드를 포함할 수 있다. 통합 특징값은 음원 전체에 대한 특징값일 수 있다.

제1 함수는 입력 레이어에 포함된 음원의 구간별 특징값의 노드를 히든 레이어에 연결하는 함수이며, 구간 별 특징값의 가중치 합(weighted sum)을 계산하는 어텐션(attention) 모델을 포함한다. 신경망 처리부(12)는 어텐션 모델을 이용함에 따라, 음원의 분류 정보를 추측하는 데에 각 구간이 기여하는 정도를 나타내는 가중치 정보를 획득할 수 있다.

제1 함수는, 각 구간의 특징값의 시퀀스(sequence)로부터 결과물을 출력하는 순환 신경망(recurrent neural network; RNN) 모델을 포함할 수 있다. 제1 함수는, 어텐션 모델에 의해 획득되는 가중치 합(weighted sum)과 순환 신경망 모델의 출력값의 유사도를 계산하는 제1-1 함수를 더 포함할 수 있고, 제1-1 함수의 출력값은 히든 레이어의 노드가 될 수 있다. 즉, 히든 레이어는 제1-1 함수에 의해 출력되는 유사도의 노드를 포함할 수 있고, 이에 따라 신경망은 제1-1 함수에 의해 출력되는 유사도를 분류 정보를 추측하기 위한 변수로써 고려할 수 있다.

본 발명의 일 실시예에 따른 신경망 처리부(12)는 음원 획득부(11)가 획득한 음원을 시간 축으로 분할한 복수의 구간 각각에 대하여 콘볼루션 신경망(convolution neural network; CNN)을 적용하여, 각 구간의 특징값을 획득할 수 있다. 각 구간의 특징값은 콘볼루션 신경망의 파라미터에 따라 결정되는 N차원의 벡터로 표현될 수 있고, 구간 별 특징값은 본 발명의 일 실시예에 따른 신경망의 입력 레이어의 노드 값으로 사용될 수 있다. 즉, 본 발명의 일 실시예에 따른 신경망은 음원 데이터로부터 입력 레이어를 계산할 수 있고, 이 과정에서 콘볼루션 신경망을 적용할 수 있다. 이 과정은 음원 데이터를 신경망에서 사용되는 벡터 형태로 인코딩(encoding)하는 과정일 수 있다.

본 발명의 일 실시예에 따른 하이라이트 결정부(13)는 신경망 처리부(12)에 의해 학습된 제1 함수에 포함된 각 구간의 특징값 노드에 대한 가중치 정보에 기초하여, 음원의 하이라이트 구간을 결정한다. 본 발명의 일 실시예에 따른 하이라이트 결정부(13)는 음원의 분류 정보를 결정하는 데에 기여하는 정도를 나타내는 구간 별 가중치 정보에 따라 하이라이트 구간을 결정하므로, 음원의 분류 정보를 고려하는 하이라이트 구간 결정 매카니즘을 제공할 수 있다. 예를 들어, 하이라이트 결정부(13)는 음원의 전체 구간 중에서 분류 정보를 결정하는 데에 가장 중요한 역할을 하는 구간이 어디인지를 학습하고 해당 구간을 기초로 하이라이트 구간을 추출할 수 있으며, 결과적으로 하이라이트 결정부(13)는 음원의 분류 정보를 떠올릴 수 있게 하는 특징적인 시그니쳐 구간을 하이라이트 구간으로 결정할 수 있다.

하이라이트 결정부(13)는 신경망 처리부(12)에 의해 학습된 음원 구간 별 가중치 정보에 따라 중요 구간을 결정하고, 결정된 중요 구간에 기초하여 하이라이트 구간을 결정할 수 있다. 예를 들어, 하이라이트 결정부(13)는 중요 구간과 동일한 구간을 하이라이트 구간으로 결정하거나, 중요 구간의 적어도 일부를 포함하는 하이라이트 구간을 새로 정의할 수 있다. 중요 구간은 음원의 분류 정보를 추측하기 위한 가중치가 가장 높은 구간일 수 있다.

하이라이트 결정부(13)는 각 구간의 가중치와 각 구간의 음원 데이터를 함께 고려하여 중요 구간을 결정할 수 있다. 예를 들어, 각 구간의 가중치와 각 구간의 음원 데이터를 이용하여 기설정된 방법으로 산출되는 스코어가 가장 높은 구간을 중요 구간으로 결정하고, 결정된 중요 구간에 기초하여 하이라이트 구간을 결정할 수 있다. 예를 들어, 하이라이트 결정부(13)는 각 구간의 가중치와 각 구간의 음원 데이터로부터 추출된 주파수별 에너지나 피치(pitch) 정보 등을 동시에 고려하여 스코어를 산출하고, 스코어가 가장 높은 구간을 중요 구간으로 결정한다. 하이라이트 결정부(13)는 가중치가 높을수록 스코어를 높게 산출하고, 음원 데이터의 추출정보 값이 클수록 스코어를 높게 산출할 수 있다.

본 발명의 일 실시예에 따르면, 프로세서(10)는 각 구간 별 가중치와 각 구간 별 에너지 데이터를 이용하여 음원의 하이라이트 구간을 결정할 수 있다. 본 실시예에서 음원 획득부(11)는 시간 축에 대한 소리 데이터를 포함하는 음원 및 음원에 대한 분류 정보를 획득할 수 있다. 본 실시예에서 신경망 처리부(12)는 시간 축에 대한 소리 데이터를 포함하는 음원을 시간 축에 대한 에너지 데이터를 포함하도록 변환하여 사용할 수 있다. 에너지 데이터는 하나 이상의 주파수 채널에 대한 값을 포함할 수 있다. 신경망 처리부(12)는 음원의 에너지 데이터를 시간 축으로 분할한 복수의 구간에 대하여 특징값을 계산하여 입력 레이어의 노드로 사용할 수 있다.

본 실시예에서 신경망 처리부(12)는 FFT 알고리즘을 이용하여 음원 데이터를 변환할 수 있다. 변환된 음원 데이터는 시간 축에 대하여 복수의 주파수 채널 각각에 대한 에너지 값을 포함할 수 있다. 본 실시예에서 신경망 처리부(12)는 음원 데이터를 멜스펙트로그램(Mel-spectrogram) 변환하여, 시간과 주파수에 대한 에너지로 표현되는 음원 데이터로 변환할 수 있다. 음원 변환 알고리즘은 전술한 예시에 한정되지 않는다.

본 실시예에서 하이라이트 결정부(13)는 각 구간의 특징값 노드에 대한 가중치 정보와 각 구간의 에너지 혹은 피치(pitch) 등 다른 형태의 음원 인자 데이터에 기초하여 중요 구간을 결정할 수 있다. 예를 들어, 하이라이트 결정부(13)는 각 구간의 가중치와 각 구간의 에너지 합를 이용하여 기설정된 방법으로 산출되는 스코어가 가장 높은 구간을 중요 구간으로 결정하고, 결정된 중요 구간에 기초하여 하이라이트 구간을 결정할 수 있다. 예를 들어, 하이라이트 결정부(13)는 각 구간의 가중치와 각 구간의 에너지 합을 동시에 고려하여 스코어를 산출하고, 스코어가 가장 높은 구간을 중요 구간을 결정한다. 하이라이트 결정부(13)는 가중치가 높을수록 스코어를 높게 산출하고, 에너지 합이 클수록 스코어를 높게 산출할 수 있다.

이에 따르면 아무리 가중치가 높은 구간이어도 다른 구간들에 비해 에너지 합이 낮으면 중요 구간으로 결정되지 않을 수 있으며, 분류 정보를 결정하는 데에 기여하는 정도를 나타내는 가중치 정보와 실제 구간의 에너지를 모두 고려하여 중요 구간이 결정될 수 있다.

일 예에 따르면, 하이라이트 결정부(13)는 중요 구간의 에너지 데이터를 참조하여 하이라이트 구간을 결정할 수 있다. 예를 들어, 하이라이트 결정부(13)는 중요 구간의 특정 시점을 전후로 기설정된 범위 이내의 구간의 에너지 데이터를 참조하여, 음원의 전체 구간 중 일부 구간인 하이라이트 구간을 결정할 수 있다.

예를 들어, 하이라이트 결정부(13)는 중요 구간의 특정 시점을 전후로 기설정된 범위 이내의 구간에서 에너지 데이터의 값, 또는 모멘텀이 가장 큰 시점에 대응하여 하이라이트 구간을 결정할 수 있다. 예를 들어, 하이라이트 결정부(13)는 에너지 데이터의 시간에 대한 1차 미분값 또는 2차 미분값이 가장 큰 시점에 대응하여 하이라이트 구간을 결정할 수 있다. 하이라이트 결정부(13)는 에너지 데이터의 값 또는 모멘텀이 가장 큰 시점을 하이라이트 구간의 시작 시점으로 결정하고, 기설정된 길이를 갖는 하이라이트 구간을 결정할 수 있다.

한편, 도 1에 도시되지 않았으나, 본 발명의 일 실시예에 따른 프로세서(10)는 하이라이트 결정부(13)에 의해 결정된 하이라이트 구간을 이용하여 서비스를 제공하는 유닛을 더 포함할 수 있다. 예를 들어, 프로세서(10)는 1분길이의 하이라이트 구간을 이용하여 음원 미리듣기 서비스를 제공하는 서비스 제공부(미도시)를 더 포함할 수 있다. 또한 추천곡의 구성을 빠르게 확인하거나 사용자의 곡 취향을 빠르게 확인하기 위한 서비스를 포함할 수 있다.

도 2a 및 도 2b는 본 발명의 일 실시예에 따른 음원 하이라이트 구간 결정 방법의 흐름도이다.

도 2a 및 도 2b에 도시된 흐름도는 도 1에 도시된 프로세서(10)에서 시계열적으로 처리되는 단계들로 구성된다. 따라서 이하에서 생략된 내용이라 하더라도 도 1에서 도시된 구성들에 관하여 이상에서 기술된 내용은 도 2a 및 도 2b에 도시된 흐름도에도 적용됨을 알 수 있다.

도 2a를 참조하면, 단계 21에서 도 1의 음원 획득부(11)는 음원 및 분류 정보를 획득한다.

단계 22에서 도 1의 신경망 처리부(12)는 단계 21에서 획득된 음원 및 분류 정보를 이용하여 신경망을 학습한다. 신경망은 음원을 시간 축으로 분할한 복수의 구간 각각의 특징값의 가중치 합을 계산하는 어텐션 모델을 포함한다. 단계 22에서 학습되는 신경망은 음원으로부터 분류 정보를 예측하는 데에 사용되는 모델일 수 있다.

단계 23에서 도 1의 하이라이트 결정부(13)는 단계 22에서 학습된 신경망에서 획득되는 각 구간 별 가중치를 참조하여, 음원에서의 하이라이트 구간을 결정한다.

도 2b를 참조하면, 본 발명의 일 실시예에 따른 음원 하이라이트 구간 결정 방법은, 단계 21 이후에 단계 211을 더 포함할 수 있다.

도 2b를 참조하면 단계 211에서 도 1의 신경망 처리부(12)는 단계 21에서 획득된 음원 데이터를 변환하여, 시간 축에 대한 주파수 채널 별 에너지 데이터를 포함하는 음원으로 변환할 수 있다.

단계 22에서 신경망 처리부(12)는, 단계 211에서 변환된 음원을 이용하여, 변환된 음원을 시간 축으로 분할한 복수의 구간 각각의 특징값의 가중치 합을 계산하는 어텐션 모델을 포함하는 신경망을 학습한다.

이하에서는 도 3 내지 도 5를 설명함에 있어 도 1에 도시된 구성요소들을 함께 참조한다.

도 3은 본 발명의 일 실시예에 따른 신경망의 예를 도시한 흐름도이다.

도 3을 참조하면, 본 발명의 일 실시예에 따른 신경망은 복수의 입력 노드(IN)를 포함하는 입력 레이어(IL), 복수의 히든 노드(HN)를 포함하는 히든 레이어(HL) 및 복수의 출력 노드(ON)를 포함하는 출력 레이어(OL)를 포함한다. 히든 레이어(HL)는 전체적으로 연결된(fully connected) 하나 이상의 레이어를 포함할 수 있다. 히든 레이어가 복수의 레이어를 포함하는 경우, 각 레이어 간의 함수가 정의될 수 있다.

도 3에 도시된 신경망은 입력 레이어(IL)와 히든 레이어(HL)의 관계를 정의하는 제1 함수(F1) 및 히든 레이어(HL)와 출력 레이어(OL)의 관계를 정의하는 제2 함수(F2)를 포함한다. 신경망이 학습되는 과정에서 제1 함수(F1) 및 제2 함수(F2)가 학습될 수 있다.

본 발명에서 설명하는 신경망은 인공 신경망으로, 인공 신경망은 인간의 뇌가 패턴을 인식하는 방식을 모사한 알고리즘이다. 인공 신경망은 일 구현예에 따라 라벨링된 트레이닝 데이터를 기반으로 학습될 수 있다. 본 발명의 일 실시예에서 트레이닝 데이터는 분류 정보가 라벨링된 음원 데이터일 수 있다. 본 발명의 일 실시예에 따른 신경망 처리부(12)는 음원 데이터를 신경망 모델에 입력하여 나온 출력값이 해당 음원 데이터에 라벨링된 분류 정보에 근접하도록 함수를 조절하는 과정을 반복함으로써, 복수의 트레이닝 데이터를 이용해 신경망을 학습할 수 있다.

인공 신경망은 복수의 레이어를 포함하고, 각 레이어는 복수의 노드를 포함할 수 있다. 신경망에 포함되는 각 노드는 벡터일 수 있다. 각 레이어는 복수의 노드로 이루어져 있으며, 각 층의 출력은 다음 층의 입력이 된다. 레이어 간의 함수는, 레이어에 포함된 노드 간의 계수 값을 포함할 수 있다.

함수는 각 레이어들 간의 연결 관계를 정의한다. 도 3의 예에서 제1 함수(F1)는 입력 레이어(IL)와 히든 레이어(HL)의 연결 관계를 정의한다. 예를 들어, 제1 함수(F1)는 입력 노드(IN)와 히든 노드(HL)간의 연결 관계를 정의한다. 노드 간의 연결 관계는, 노드 간의 계수 값으로 표현될 수 있다.

본 발명의 일 실시예에 따르면, 신경망 처리부(12)는 음원의 구간 별 데이터를 콘볼루션 신경망에 입력하여 N차원 벡터로 표현되는 각 구간 별 특징값을 획득하고, 획득된 구간 별 특징값을 입력 노드(IN)로 사용할 수 있다.

도 3에 도시된 제1 함수(F1)는 입력 노드(IN)의 가중치 합을 출력하는 어텐션 모델을 포함할 수 있고, 어텐션 모델은 입력 노드(IN)와 가중치 합 노드를 연결하는 계수를 포함할 수 있다. 가중치 합 노드는 히든 노드(HN)의 하나일 수 있다. 각 입력 노드(IN)의 계수는 각 입력 노드(IN)의 가중치일 수 있다.

본 발명의 일 실시예에 따른 신경망 처리부(12)는, 음원 획득부(11)가 획득한 제1 음원 및 제1 분류정보를 이용하여, 제1 음원을 입력하였을 때 제1 분류정보에 근접한 결과를 출력하도록 신경망을 학습하고, 학습된 신경망에서 제1 음원의 각 구간에 대응되는 입력노드(IN)와 가중치 합 노드 간의 계수를 각 구간의 가중치 값으로 취득할 수 있다.

도 3의 예에서 각 레이어의 노드는 복수로 도시되었으나 반드시 이에 한정되지는 않는다. 예를 들어, 출력 레이어(OL)는 하나의 출력 노드(ON)를 포함할 수 있고, 출력 노드(ON)는 하나의 분류 정보를 나타낼 수 있다. 출력 노드(ON)는 분류 정보의 각 항목에 해당하는 확률 값을 포함하는 M차원 벡터로 표현될 수 있고, 이 때 M은 분 류정보의 항목 개수에 대응될 수 있다. 본 발명의 일 실시예에 따르면, 출력 노드(ON)를 복수 개 설정함으로써, 복수의 분류 정보를 고려하는 하이라이트 추출 방법을 제공할 수 있다. 예를 들어, 출력 노드(ON)는 장르 정보를 나타내는 노드와, 무드 정보를 나타내는 노드를 포함할 수 있고, 각 노드는 서로 같은 또는 서로 다른 차원의 벡터로 표현될 수 있다.

도 4는 본 발명의 일 실시예에 따른 신경망을 다른 관점에서 도시한 것이다.

도 4를 참조하면, 본 발명의 일 실시예에 따른 신경망 처리부(12)는 음원을 복수의 구간으로 분할한다. 예를 들어 신경망 처리부(12)는 음원을 기설정된 시간 길이를 갖는 복수의 구간으로 분할한다. 신경망 처리부(12)는 각 구간 별 데이터에 콘볼루션 신경망(CNN)을 적용하여 구간별 특징값(f)을 추출할 수 있다.

신경망 처리부(12)는 구간별 특징값(f)에 어텐션 모델(41)을 적용하여 가중치 합(43)을 획득하고, 구간별 특징값(f)의 시퀀스에 대하여 순환 신경망(42)을 적용하여 음원 전체에 대한 특징값(44)을 포함할 수 있다. 도 4에서는 신경망 처리부(12)가 특징값(44)을 획득하기 위해 순환 신경망(42)을 적용하는 것으로 도시되었으나, 반드시 순환 신경망(42)을 사용해야만 하는 것은 아니다. 예를 들어, 신경망의 성능 설계에 따라 각 구간 별 특징값(f)을 모두 반영할 수 있는 음원 전체에 대한 특징값(44)을 획득할 수 있는 다른 알고리즘이 사용될 수 있다. 예컨대, 각 구간 별 특징값(f)의 시퀀스를 모두 연결한 후 벡터 차원을 조절하여 특징값(44)을 획득할 수 있다.

본 발명의 일 실시예에 따른 신경망 처리부(12)는 가중치 합(43)과 특징값(44)을 병합(merging)하여 통합 특징값(45)을 획득할 수 있다. 예를 들어, 신경망 처리부(12)는 가중치 합(43)과 특징값(44)의 유사도를 통합 특징값(45)으로 획득할 수 있고, 통합 특징값(45)을 최종 함수(46)의 입력으로 사용할 수 있다. 최종 함수(46)는 통합 특징값(45)과 출력 레이어의 노드인 분류 정보를 전체적으로 연결하는(fully connected) 하나 이상의 매트릭스(matrix)를 포함할 수 있다.

신경망 처리부(12)는 최종 함수(46)를 통과하여 출력되는 출력 레이어의 노드 값으로부터, 음원에 대한 분류 정보를 추측할 수 있다.

일 예에 따라 신경망에 입력되는 음원이 라벨링된 분류 정보를 포함하는 경우, 신경망 처리부(12)는 도 4의 최종 함수(46)에서 출력되는 출력 레이어의 노드 값으로부터 추측되는 분류 정보가 음원에 라벨링된 분류 정보에 근접하도록 신경망에 포함되는 함수들을 갱신함으로써 신경망을 학습시킬 수 있다. 또는, 신경망 처리부(12)는 분류 정보를 출력하고, 분류 정보를 출력하는 과정에서 어텐션 모델(41)에서 이용된 계수만을 취득하여 각 구간에 대한 가중치 정보를 획득한 후, 신경망을 학습시키지 않고 처리를 종료할 수도 있다.

다른 예에 따라 신경망에 입력되는 음원이 라벨링된 분류 정보를 포함하지 않는 경우, 신경망 처리부(12)는 도 4의 최종 함수(46)에서 출력되는 출력 레이어의 노드 값으로부터 음원의 분류 정보를 추측할 수 있다. 즉, 본 발명의 일 실시예에 따라 메모리(20)에 저장된 신경망은, 음원으로부터 분류 정보를 추측하는 데에 사용될 수도 있음은 물론이다. 본 발명의 일 실시예에 따른 신경망은 음원의 구간 별 가중치를 고려하여 분류 정보를 추측할 수 있다. 이에 따르면 분류 정보를 추측하기 위해 중요한 구간에 집중할 수 있게 되므로, 분류 정보 추측 성능이 향상된다.

도 5는 본 발명의 일 실시예에 따라 하이라이트 구간을 추출하는 방법의 예를 도시한 것이다.

도 5를 참조하면, 시간 및 주파수 축에 대한 에너지 데이터를 포함하도록 변환된 음원(50)이 도시되었다. 도 5에 도시된 음원(50)의 가로 방향은 시간 축에 대응되며, 음원(50)은 각 시간 값에 대한 주파수 채널 별 에너지 데이터를 포함할 수 있다. 예를 들어, 제1 시점(t1)에 대한 주파수 채널 별 에너지 데이터(511)의 예가 도시되었다. 데이터(511)의 가로 축은 주파수 채널에 해당한다.

일 실시예에 따른 하이라이트 결정부(13)는 신경망 처리부(12)에 의해 획득되는 각 구간 별 가중치를 고려하여 중요 구간(51)을 결정할 수 있다. 또는 하이라이트 결정부(13)는 신경망 처리부(12)에 의해 획득되는 각 구간 별 가중치와 구간 별 에너지 데이터의 합을 고려하여 중요 구간(51)을 결정할 수 있다.

하이라이트 결정부(13)는 중요 구간(51)을 기준으로 설정되는 범위 내에서 에너지 데이터 혹은 시간에 대한 에너지 데이터의 모멘텀이 가장 큰 시점(t1)을 선택하고, 시점(t1)을 고려하여 하이라이트 구간을 결정할 수 있다. 모멘텀은 에너지 데이터의 일차 혹은 이차 미분값일 수 있다.

예를 들어, 하이라이트 결정부(13)는 시점(t1)을 포함하는 구간(51)을 하이라이트 구간(521)으로 결정할 수 있다. 다른 예를 들면, 하이라이트 결정부(13)는 시점(t1)을 중심으로 하는 기설정된 길이의 하이라이트 구간(522)을 결정할 수 있다. 다른 예를 들면, 하이라이트 결정부(13)는 시점(t1)을 시작점으로 하는 기설정된 길이의 하이라이트 구간(523)을 결정할 수 있다.

한편, 도 3에 도시된 본 발명의 일 실시예에 따른 컨텐츠 관리 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 매체는 컴퓨터로 실행 가능한 프로그램을 저장하는 장치일 수 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있으며, 균등한 다른 실시 예가 가능함을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

10: 프로세서
11: 음원 획득부
12: 신경망 처리부
13: 하이라이트 결정부
20: 메모리

Claims

프로세서를 이용하여 음원의 하이라이트 구간을 결정하는 방법에 있어서, 상기 방법은,
음원 및 상기 음원에 대한 분류 정보를 획득하는 단계;
상기 음원 및 상기 분류 정보를 이용하여, 상기 음원을 시간 축으로 분할한 복수의 구간 각각의 특징값에 대응되는 노드를 포함하는 입력 레이어, 상기 분류 정보에 대응되는 노드를 포함하는 출력 레이어, 상기 입력 레이어와 상기 출력 레이어의 사이에 정의되는 히든 레이어, 상기 입력 레이어와 상기 히든 레이어 간의 제1 함수 및 상기 히든 레이어와 상기 출력 레이어 간의 제2 함수를 포함하는 신경망을 학습하고, 상기 제1 함수는 상기 각 구간의 특징값의 가중치 합을 계산하는 어텐션(attention) 모델을 포함하는, 신경망 학습 단계; 및
상기 학습된 제1 함수에 포함된 상기 각 구간의 특징값 노드의 가중치 정보에 기초하여, 상기 음원의 하이라이트 구간을 결정하는 단계;를 포함하는
음원의 하이라이트 구간 결정 방법.
제1 항에 있어서,
상기 히든 레이어는, 상기 제1 함수에 따라 상기 각 구간의 특징값으로부터 획득되는 상기 음원에 대한 통합 특징값에 대응되는 노드를 포함하는
음원의 하이라이트 구간 결정 방법.
제1 항에 있어서,
상기 제1 함수는, 상기 어텐션 모델의 출력값과 순환 신경망(Recurrent Neural Network; RNN) 모델의 출력값의 유사도를 계산하는 제1-1 함수를 더 포함하고, 상기 히든 레이어는 상기 유사도의 노드를 포함하는
음원의 하이라이트 구간 결정 방법.
제1 항에 있어서,
상기 획득하는 단계 이후에,
시간 축에 대한 소리 데이터를 포함하는 상기 음원을 시간 축에 대한 에너지 데이터를 포함하도록 변환하는 단계;를 더 포함하고,
상기 복수의 구간은 상기 변환된 음원을 시간 축으로 분할한 것을 특징으로 하는
음원의 하이라이트 구간 결정 방법.
제4 항에 있어서,
상기 결정하는 단계는, 상기 각 구간의 특징값 노드의 가중치 정보, 및 상기 각 구간의 에너지 데이터에 기초하여, 상기 하이라이트 구간을 결정하는
음원의 하이라이트 구간 결정 방법.
제1 항에 있어서,
상기 결정하는 단계는, 상기 각 구간의 특징값 노드의 가중치 정보에 기초하여 중요 구간을 결정하고, 상기 중요 구간의 전후로 기설정된 범위의 구간 이내의 에너지 데이터를 참조하여, 상기 음원의 전체 구간 중 상기 하이라이트 구간을 결정하는
음원의 하이라이트 구간 결정 방법.
제6 항에 있어서,
상기 결정하는 단계는 상기 기설정된 범위의 구간 내에서 상기 에너지 데이터의 모멘텀이 가장 큰 시점에 대응하여 상기 하이라이트 구간을 결정하는
음원의 하이라이트 구간 결정 방법.
제1 항에 있어서,
상기 제1 함수는, 상기 입력 레이어에 포함된 각 입력 노드와 상기 히든 레이어의 연결 관계를 정의하는,
음원의 하이라이트 구간 결정 방법.
컴퓨터를 이용하여 제1 항 내지 제8 항 중 어느 한 항의 방법을 실행하기 위하여 매체에 저장된 컴퓨터 프로그램.
음원 및 상기 음원에 대한 분류 정보를 획득하는 음원 획득부;
상기 음원 및 상기 분류 정보를 이용하여, 상기 음원을 시간 축으로 분할한 복수의 구간 각각의 특징값에 대응되는 노드를 포함하는 입력 레이어, 상기 분류 정보에 대응되는 노드를 포함하는 출력 레이어, 상기 입력 레이어와 상기 출력 레이어의 사이에 정의되는 히든 레이어, 상기 입력 레이어와 상기 히든 레이어 간의 제1 함수 및 상기 히든 레이어와 상기 출력 레이어 간의 제2 함수를 포함하는 신경망을 학습하고, 상기 제1 함수는 상기 각 구간의 특징값의 가중치 합을 계산하는 어텐션(attention) 모델을 포함하는, 신경망 처리부; 및
상기 학습된 제1 함수에 포함된 상기 각 구간의 특징값 노드의 가중치 정보에 기초하여, 상기 음원의 하이라이트 구간을 결정하는 하이라이트 결정부;를 포함하는
음원의 하이라이트 구간 결정 장치.