KR101891778B1 - 음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램 - Google Patents

음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR101891778B1
KR101891778B1 KR1020170045391A KR20170045391A KR101891778B1 KR 101891778 B1 KR101891778 B1 KR 101891778B1 KR 1020170045391 A KR1020170045391 A KR 1020170045391A KR 20170045391 A KR20170045391 A KR 20170045391A KR 101891778 B1 KR101891778 B1 KR 101891778B1
Authority
KR
South Korea
Prior art keywords
sound source
highlight
determining
neural network
section
Prior art date
Application number
KR1020170045391A
Other languages
English (en)
Inventor
하정우
김정명
박장연
김찬주
김동원
Original Assignee
네이버 주식회사
라인 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버 주식회사, 라인 가부시키가이샤 filed Critical 네이버 주식회사
Priority to KR1020170045391A priority Critical patent/KR101891778B1/ko
Priority to JP2020503683A priority patent/JP6998449B2/ja
Priority to PCT/KR2018/004061 priority patent/WO2018186708A1/ko
Application granted granted Critical
Publication of KR101891778B1 publication Critical patent/KR101891778B1/ko
Priority to US16/593,488 priority patent/US11462210B2/en

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 일 실시예는 프로세서를 이용하여 음원의 하이라이트 구간을 결정하는 방법에 있어서, 상기 방법은, 음원 및 상기 음원에 대한 분류 정보를 획득하는 단계; 상기 음원 및 상기 분류 정보를 이용하여, 상기 음원을 시간 축으로 분할한 복수의 구간 각각의 특징값에 대응되는 노드를 포함하는 입력 레이어, 상기 분류 정보에 대응되는 노드를 포함하는 출력 레이어, 상기 입력 레이어와 상기 출력 레이어의 사이에 정의되는 히든 레이어, 상기 입력 레이어와 상기 히든 레이어 간의 제1 함수 및 상기 히든 레이어와 상기 출력 레이어 간의 제2 함수를 포함하는 신경망을 학습하고, 상기 제1 함수는 상기 각 구간의 특징값의 가중치 합을 계산하는 어텐션(attention) 모델을 포함하는, 신경망 학습 단계; 및 상기 학습된 제1 함수에 포함된 상기 각 구간의 특징값 노드의 가중치 정보에 기초하여, 상기 음원의 하이라이트 구간을 결정하는 단계;를 포함하는 음원의 하이라이트 구간 결정 방법을 개시한다.

Description

음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램{Method and Apparatus for determining highlight section of a sound source, and computer program for executing the method}
본 발명의 실시예들은 음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램에 관한 것이다.
음원 파일에 대한 수요가 증가하면서, 사용자는 전자 장치에 다양한 음원 파일을 저장하여 언제 어디서든 해당 음원 파일을 재생시킬 수 있어 사용자의 편의성을 향상시켜 주고 있다. 다만 음원을 제공하는 상황에 따라 음원의 전체 구간이 아닌 일부의 하이라이트 구간을 제공하여야 하는 수요가 발생한다.
본 발명의 실시예들은 음원과 분류정보의 관계를 학습하는 신경망을 이용하여 음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램을 제공한다.
본 발명의 일 실시예는 프로세서를 이용하여 음원의 하이라이트 구간을 결정하는 방법에 있어서, 상기 방법은, 음원 및 상기 음원에 대한 분류 정보를 획득하는 단계; 상기 음원 및 상기 분류 정보를 이용하여, 상기 음원을 시간 축으로 분할한 복수의 구간 각각의 특징값에 대응되는 노드를 포함하는 입력 레이어, 상기 분류 정보에 대응되는 노드를 포함하는 출력 레이어, 상기 입력 레이어와 상기 출력 레이어의 사이에 정의되는 히든 레이어, 상기 입력 레이어와 상기 히든 레이어 간의 제1 함수 및 상기 히든 레이어와 상기 출력 레이어 간의 제2 함수를 포함하는 신경망을 학습하고, 상기 제1 함수는 상기 각 구간의 특징값의 가중치 합을 계산하는 어텐션(attention) 모델을 포함하는, 신경망 학습 단계; 및 상기 학습된 제1 함수에 포함된 상기 각 구간의 특징값 노드의 가중치 정보에 기초하여, 상기 음원의 하이라이트 구간을 결정하는 단계;를 포함하는 음원의 하이라이트 구간 결정 방법을 개시한다.
본 실시예에 있어서, 상기 히든 레이어는, 상기 제1 함수에 따라 상기 각 구간의 특징값으로부터 획득되는 상기 음원에 대한 통합 특징값에 대응되는 노드를 포함할 수 있다.
본 실시예에 있어서, 상기 제1 함수는, 상기 어텐션 모델의 출력값과 순환 신경망(Recurrent Neural Network; RNN) 모델의 출력값의 유사도를 계산하는 제1-1 함수를 더 포함하고, 상기 히든 레이어는 상기 유사도의 노드를 포함할 수 있다.
본 실시예에 있어서, 상기 획득하는 단계 이후에, 시간 축에 대한 소리 데이터를 포함하는 상기 음원을 시간 축에 대한 에너지 데이터를 포함하도록 변환하는 단계;를 더 포함하고, 상기 복수의 구간은 상기 변환된 음원을 시간 축으로 분할한 것을 특징으로 할 수 있다.
본 실시예에 있어서, 상기 결정하는 단계는, 상기 각 구간의 특징값 노드의 가중치 정보, 및 상기 각 구간의 에너지 데이터에 기초하여, 상기 하이라이트 구간을 결정할 수 있다.
본 실시예에 있어서, 상기 결정하는 단계는, 상기 각 구간의 특징값 노드의 가중치 정보에 기초하여 중요 구간을 결정하고, 상기 중요 구간의 전후로 기설정된 범위의 구간 이내의 에너지 데이터를 참조하여, 상기 음원의 전체 구간 중 상기 하이라이트 구간을 결정할 수 있다.
본 실시예에 있어서, 상기 결정하는 단계는 상기 기설정된 범위의 구간 내에서 상기 에너지 데이터의 모멘텀이 가장 큰 시점에 대응하여 상기 하이라이트 구간을 결정할 수 있다.
본 발명의 다른 실시예는 컴퓨터를 이용하여 전술한 어느 한 방법을 실행하기 위하여 매체에 저장된 컴퓨터 프로그램을 개시한다.
본 발명의 다른 실시예는 음원 및 상기 음원에 대한 분류 정보를 획득하는 음원 획득부; 상기 음원 및 상기 분류 정보를 이용하여, 상기 음원을 시간 축으로 분할한 복수의 구간 각각의 특징값에 대응되는 노드를 포함하는 입력 레이어, 상기 분류 정보에 대응되는 노드를 포함하는 출력 레이어, 상기 입력 레이어와 상기 출력 레이어의 사이에 정의되는 히든 레이어, 상기 입력 레이어와 상기 히든 레이어 간의 제1 함수 및 상기 히든 레이어와 상기 출력 레이어 간의 제2 함수를 포함하는 신경망을 학습하고, 상기 제1 함수는 상기 각 구간의 특징값의 가중치 합을 계산하는 어텐션(attention) 모델을 포함하는, 신경망 처리부; 및 상기 학습된 제1 함수에 포함된 상기 각 구간의 특징값 노드의 가중치 정보에 기초하여, 상기 음원의 하이라이트 구간을 결정하는 하이라이트 결정부;를 포함하는 음원의 하이라이트 구간 결정 장치를 개시한다.
전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.
이러한 일반적이고 구체적인 측면이 시스템, 방법, 컴퓨터 프로그램, 또는 어떠한 시스템, 방법, 컴퓨터 프로그램의 조합을 사용하여 실시될 수 있다.
본 발명의 실시예들에 관한 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램은, 음원과 분류 정보의 관계를 학습하는 신경망을 이용하여 음원의 하이라이트 구간을 결정함으로써, 음원의 분류 정보가 고려된 하이라이트 구간을 결정할 수 있게 되고, 이에 따라 하이라이트 구간 결정 성능이 향상된다.
본 발명의 실시예들에 관한 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램은, 음원의 구간 별로 가중치를 부여하는 어텐션 모델을 포함하는 신경망을 이용하여, 음원의 복수 구간 중 가장 중요한 역할을 하는 구간을 기반으로 음원의 하이라이트 구간을 결정함으로써 하이라이트 구간 결정 성능이 향상된다.
도 1은 본 발명의 일 실시예에 따른 음원 분석 시스템의 구성을 나타낸 도면이다.
도 2a 및 도 2b는 본 발명의 일 실시예에 따른 음원 하이라이트 구간 결정 방법의 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 신경망의 예를 도시한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 신경망을 다른 관점에서 도시한 것이다.
도 5는 본 발명의 일 실시예에 따라 하이라이트 구간을 추출하는 방법의 예를 도시한 것이다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다. 이하의 실시예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 이하의 실시예에서, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다. 도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.
도 1은 본 발명의 일 실시예에 따른 음원 분석 시스템의 구성을 나타낸 도면이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 음원 분석 시스템은 프로세서(10) 및 메모리(20)를 포함한다. 본 발명의 일 실시예에 따라 제공되는 음원 분석 시스템은, 메모리(20)에 저장된 신경망을 이용하여, 프로세서(10)에 입력되는 음원의 하이라이트 구간을 결정할 수 있다. 신경망은 복수의 음원 및 각 음원의 분류 정보를 학습하여 음원과 분류 정보의 관계를 정의하도록 구축된 것일 수 있다. 분류 정보는, 음원에 대하여 라벨링된 일종의 태그 정보일 수 있다. 예를 들어 분류 정보는 음원의 장르, 무드, 선호 연령대, 주제, 분위기 중 하나 이상을 포함할 수 있다. 분류 정보가 장르인 경우, 분류 정보는 힙합, 락, 발라드, 알앤비 등 복수의 음악 장르 중 하나 이상의 장르 값을 포함할 수 있다. 분류 정보는 각 분류에 해당할 확률을 나타내는 벡터 형태로 표현될 수 있다.
예를 들어, 장르를 나타내는 분류 정보는 [힙합, 락, 발라드, 알앤비]의 4가지 장르에 대한 확률을 포함하는 벡터로 표현될 수 있다. "힙합"으로 라벨링된 분류 정보는 [1, 0, 0, 0]의 벡터로 표현될 수 있다. "힙합" 및 "락"으로 라벨링된 분류 정보는 [0.5, 0.5, 0, 0]의 벡터로 표현될 수 있다.
신경망 학습에는 하나 이상의 머신러닝 알고리즘이 사용될 수 있다. 예를 들어, 음원의 특징값을 벡터 형태로 추출하기 위해 콘볼루션 신경망(Convolution neural network) 알고리즘이 사용될 수 있다.
도 1의 프로세서(10)는 데이터를 처리할 수 있는 모든 종류의 장치에 해당할 수 있다. 프로세서(10)(processor)는, 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 프로세서(10)는 하나 이상의 처리장치에 해당하거나, 하나 이상의 처리장치를 포함할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다. 이에 따라, 프로세서(10)는 마이크로 프로세서나 범용 컴퓨터 시스템과 같은 다른 하드웨어 장치에 포함된 형태로 구동될 수 있다.
메모리(20)는, 프로세서(10)와 통신 가능한 저장 장치로서, 프로세서(10)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행한다. 메모리(20)와 프로세서(10)는 하나의 장치 내에 구비되어 직접 연결되거나, 별도의 장치에 각각 구비되어 유선 또는 무선 통신에 의해 연결될 수 있다. 메모리(20)는 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.
도 1에 도시된 음원 분석 시스템은, 본 실시예의 특징이 흐려지는 것을 방지하기 위하여 본 실시예와 관련된 구성요소들만을 도시한 것이다. 따라서, 도 1에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음을 본 실시예와 관련된 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.
본 발명의 일 실시예에 따른 프로세서(10)는 음원 획득부(11), 신경망 처리부(12) 및 하이라이트 결정부(13)를 포함한다.
본 발명의 일 실시예에 따른 음원 획득부(11)는 음원 및 음원에 대한 분류 정보를 획득한다. 음원 및 음원에 대한 분류 정보는, 사용자에 의해 입력되거나, 서버에 의해 입력되거나, 다른 장치에 의해 입력되거나, 메모리(20)로부터 독출되거나, 프로세서(10) 내에 포함되었으나 도 1에 도시되지 않은 다른 유닛에 의해 입력되는 것일 수 있으며, 입력 주체는 한정되지 않는다.
본 발명의 일 실시예에 따른 신경망 처리부(12)는 음원 획득부(11)가 획득한 음원 및 분류 정보를 이용하여, 메모리(20)에 저장된 신경망을 학습한다. 신경망은 기계학습에 의해 학습되는 인공신경망을 의미한다. 인공신경망은 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜 문제 해결 능력을 학습시키는 모델을 의미한다. 본 발명의 일 실시예에 따른 신경망은, 분류 정보가 라벨링된 음원을 포함하는 트레이닝 데이터를 이용하여 음원과 분류 정보의 관계를 학습하는 신경망이다. 신경망은, 입력 객체와 출력 객체의 속성을 벡터 형태로 포함할 수 있다.
본 발명의 일 실시예에 따른 신경망은 입력 레이어, 히든 레이어 및 출력 레이어를 포함하고, 각 레이어 간의 관계 함수를 포함할 수 있다. 예를 들어, 입력 레이어와 히든 레이어 간의 제1 함수 및 히든 레이어와 출력 레이어 간의 제2 함수를 포함한다. 입력 레이어는 음원을 시간 축으로 분할한 복수의 구간 각각의 특징값에 대응되는 노드를 포함할 수 있다. 히든 레이어는 입력 레이어와 출력 레이어의 사이에 정의되며, 하나 이상의 레이어로 구성될 수 있다. 출력 레이어는 음원의 분류 정보에 대응되는 노드를 포함할 수 있다.
히든 레이어는 입력 레이어에 포함된 각 구간의 특징값의 노드로부터 제1 함수에 따라 획득되는 통합 특징값 노드를 포함할 수 있다. 통합 특징값은 음원 전체에 대한 특징값일 수 있다.
제1 함수는 입력 레이어에 포함된 음원의 구간별 특징값의 노드를 히든 레이어에 연결하는 함수이며, 구간 별 특징값의 가중치 합(weighted sum)을 계산하는 어텐션(attention) 모델을 포함한다. 신경망 처리부(12)는 어텐션 모델을 이용함에 따라, 음원의 분류 정보를 추측하는 데에 각 구간이 기여하는 정도를 나타내는 가중치 정보를 획득할 수 있다.
제1 함수는, 각 구간의 특징값의 시퀀스(sequence)로부터 결과물을 출력하는 순환 신경망(recurrent neural network; RNN) 모델을 포함할 수 있다. 제1 함수는, 어텐션 모델에 의해 획득되는 가중치 합(weighted sum)과 순환 신경망 모델의 출력값의 유사도를 계산하는 제1-1 함수를 더 포함할 수 있고, 제1-1 함수의 출력값은 히든 레이어의 노드가 될 수 있다. 즉, 히든 레이어는 제1-1 함수에 의해 출력되는 유사도의 노드를 포함할 수 있고, 이에 따라 신경망은 제1-1 함수에 의해 출력되는 유사도를 분류 정보를 추측하기 위한 변수로써 고려할 수 있다.
본 발명의 일 실시예에 따른 신경망 처리부(12)는 음원 획득부(11)가 획득한 음원을 시간 축으로 분할한 복수의 구간 각각에 대하여 콘볼루션 신경망(convolution neural network; CNN)을 적용하여, 각 구간의 특징값을 획득할 수 있다. 각 구간의 특징값은 콘볼루션 신경망의 파라미터에 따라 결정되는 N차원의 벡터로 표현될 수 있고, 구간 별 특징값은 본 발명의 일 실시예에 따른 신경망의 입력 레이어의 노드 값으로 사용될 수 있다. 즉, 본 발명의 일 실시예에 따른 신경망은 음원 데이터로부터 입력 레이어를 계산할 수 있고, 이 과정에서 콘볼루션 신경망을 적용할 수 있다. 이 과정은 음원 데이터를 신경망에서 사용되는 벡터 형태로 인코딩(encoding)하는 과정일 수 있다.
본 발명의 일 실시예에 따른 하이라이트 결정부(13)는 신경망 처리부(12)에 의해 학습된 제1 함수에 포함된 각 구간의 특징값 노드에 대한 가중치 정보에 기초하여, 음원의 하이라이트 구간을 결정한다. 본 발명의 일 실시예에 따른 하이라이트 결정부(13)는 음원의 분류 정보를 결정하는 데에 기여하는 정도를 나타내는 구간 별 가중치 정보에 따라 하이라이트 구간을 결정하므로, 음원의 분류 정보를 고려하는 하이라이트 구간 결정 매카니즘을 제공할 수 있다. 예를 들어, 하이라이트 결정부(13)는 음원의 전체 구간 중에서 분류 정보를 결정하는 데에 가장 중요한 역할을 하는 구간이 어디인지를 학습하고 해당 구간을 기초로 하이라이트 구간을 추출할 수 있으며, 결과적으로 하이라이트 결정부(13)는 음원의 분류 정보를 떠올릴 수 있게 하는 특징적인 시그니쳐 구간을 하이라이트 구간으로 결정할 수 있다.
하이라이트 결정부(13)는 신경망 처리부(12)에 의해 학습된 음원 구간 별 가중치 정보에 따라 중요 구간을 결정하고, 결정된 중요 구간에 기초하여 하이라이트 구간을 결정할 수 있다. 예를 들어, 하이라이트 결정부(13)는 중요 구간과 동일한 구간을 하이라이트 구간으로 결정하거나, 중요 구간의 적어도 일부를 포함하는 하이라이트 구간을 새로 정의할 수 있다. 중요 구간은 음원의 분류 정보를 추측하기 위한 가중치가 가장 높은 구간일 수 있다.
하이라이트 결정부(13)는 각 구간의 가중치와 각 구간의 음원 데이터를 함께 고려하여 중요 구간을 결정할 수 있다. 예를 들어, 각 구간의 가중치와 각 구간의 음원 데이터를 이용하여 기설정된 방법으로 산출되는 스코어가 가장 높은 구간을 중요 구간으로 결정하고, 결정된 중요 구간에 기초하여 하이라이트 구간을 결정할 수 있다. 예를 들어, 하이라이트 결정부(13)는 각 구간의 가중치와 각 구간의 음원 데이터로부터 추출된 주파수별 에너지나 피치(pitch) 정보 등을 동시에 고려하여 스코어를 산출하고, 스코어가 가장 높은 구간을 중요 구간으로 결정한다. 하이라이트 결정부(13)는 가중치가 높을수록 스코어를 높게 산출하고, 음원 데이터의 추출정보 값이 클수록 스코어를 높게 산출할 수 있다.
본 발명의 일 실시예에 따르면, 프로세서(10)는 각 구간 별 가중치와 각 구간 별 에너지 데이터를 이용하여 음원의 하이라이트 구간을 결정할 수 있다. 본 실시예에서 음원 획득부(11)는 시간 축에 대한 소리 데이터를 포함하는 음원 및 음원에 대한 분류 정보를 획득할 수 있다. 본 실시예에서 신경망 처리부(12)는 시간 축에 대한 소리 데이터를 포함하는 음원을 시간 축에 대한 에너지 데이터를 포함하도록 변환하여 사용할 수 있다. 에너지 데이터는 하나 이상의 주파수 채널에 대한 값을 포함할 수 있다. 신경망 처리부(12)는 음원의 에너지 데이터를 시간 축으로 분할한 복수의 구간에 대하여 특징값을 계산하여 입력 레이어의 노드로 사용할 수 있다.
본 실시예에서 신경망 처리부(12)는 FFT 알고리즘을 이용하여 음원 데이터를 변환할 수 있다. 변환된 음원 데이터는 시간 축에 대하여 복수의 주파수 채널 각각에 대한 에너지 값을 포함할 수 있다. 본 실시예에서 신경망 처리부(12)는 음원 데이터를 멜스펙트로그램(Mel-spectrogram) 변환하여, 시간과 주파수에 대한 에너지로 표현되는 음원 데이터로 변환할 수 있다. 음원 변환 알고리즘은 전술한 예시에 한정되지 않는다.
본 실시예에서 하이라이트 결정부(13)는 각 구간의 특징값 노드에 대한 가중치 정보와 각 구간의 에너지 혹은 피치(pitch) 등 다른 형태의 음원 인자 데이터에 기초하여 중요 구간을 결정할 수 있다. 예를 들어, 하이라이트 결정부(13)는 각 구간의 가중치와 각 구간의 에너지 합를 이용하여 기설정된 방법으로 산출되는 스코어가 가장 높은 구간을 중요 구간으로 결정하고, 결정된 중요 구간에 기초하여 하이라이트 구간을 결정할 수 있다. 예를 들어, 하이라이트 결정부(13)는 각 구간의 가중치와 각 구간의 에너지 합을 동시에 고려하여 스코어를 산출하고, 스코어가 가장 높은 구간을 중요 구간을 결정한다. 하이라이트 결정부(13)는 가중치가 높을수록 스코어를 높게 산출하고, 에너지 합이 클수록 스코어를 높게 산출할 수 있다.
이에 따르면 아무리 가중치가 높은 구간이어도 다른 구간들에 비해 에너지 합이 낮으면 중요 구간으로 결정되지 않을 수 있으며, 분류 정보를 결정하는 데에 기여하는 정도를 나타내는 가중치 정보와 실제 구간의 에너지를 모두 고려하여 중요 구간이 결정될 수 있다.
일 예에 따르면, 하이라이트 결정부(13)는 중요 구간의 에너지 데이터를 참조하여 하이라이트 구간을 결정할 수 있다. 예를 들어, 하이라이트 결정부(13)는 중요 구간의 특정 시점을 전후로 기설정된 범위 이내의 구간의 에너지 데이터를 참조하여, 음원의 전체 구간 중 일부 구간인 하이라이트 구간을 결정할 수 있다.
예를 들어, 하이라이트 결정부(13)는 중요 구간의 특정 시점을 전후로 기설정된 범위 이내의 구간에서 에너지 데이터의 값, 또는 모멘텀이 가장 큰 시점에 대응하여 하이라이트 구간을 결정할 수 있다. 예를 들어, 하이라이트 결정부(13)는 에너지 데이터의 시간에 대한 1차 미분값 또는 2차 미분값이 가장 큰 시점에 대응하여 하이라이트 구간을 결정할 수 있다. 하이라이트 결정부(13)는 에너지 데이터의 값 또는 모멘텀이 가장 큰 시점을 하이라이트 구간의 시작 시점으로 결정하고, 기설정된 길이를 갖는 하이라이트 구간을 결정할 수 있다.
한편, 도 1에 도시되지 않았으나, 본 발명의 일 실시예에 따른 프로세서(10)는 하이라이트 결정부(13)에 의해 결정된 하이라이트 구간을 이용하여 서비스를 제공하는 유닛을 더 포함할 수 있다. 예를 들어, 프로세서(10)는 1분길이의 하이라이트 구간을 이용하여 음원 미리듣기 서비스를 제공하는 서비스 제공부(미도시)를 더 포함할 수 있다. 또한 추천곡의 구성을 빠르게 확인하거나 사용자의 곡 취향을 빠르게 확인하기 위한 서비스를 포함할 수 있다.
도 2a 및 도 2b는 본 발명의 일 실시예에 따른 음원 하이라이트 구간 결정 방법의 흐름도이다.
도 2a 및 도 2b에 도시된 흐름도는 도 1에 도시된 프로세서(10)에서 시계열적으로 처리되는 단계들로 구성된다. 따라서 이하에서 생략된 내용이라 하더라도 도 1에서 도시된 구성들에 관하여 이상에서 기술된 내용은 도 2a 및 도 2b에 도시된 흐름도에도 적용됨을 알 수 있다.
도 2a를 참조하면, 단계 21에서 도 1의 음원 획득부(11)는 음원 및 분류 정보를 획득한다.
단계 22에서 도 1의 신경망 처리부(12)는 단계 21에서 획득된 음원 및 분류 정보를 이용하여 신경망을 학습한다. 신경망은 음원을 시간 축으로 분할한 복수의 구간 각각의 특징값의 가중치 합을 계산하는 어텐션 모델을 포함한다. 단계 22에서 학습되는 신경망은 음원으로부터 분류 정보를 예측하는 데에 사용되는 모델일 수 있다.
단계 23에서 도 1의 하이라이트 결정부(13)는 단계 22에서 학습된 신경망에서 획득되는 각 구간 별 가중치를 참조하여, 음원에서의 하이라이트 구간을 결정한다.
도 2b를 참조하면, 본 발명의 일 실시예에 따른 음원 하이라이트 구간 결정 방법은, 단계 21 이후에 단계 211을 더 포함할 수 있다.
도 2b를 참조하면 단계 211에서 도 1의 신경망 처리부(12)는 단계 21에서 획득된 음원 데이터를 변환하여, 시간 축에 대한 주파수 채널 별 에너지 데이터를 포함하는 음원으로 변환할 수 있다.
단계 22에서 신경망 처리부(12)는, 단계 211에서 변환된 음원을 이용하여, 변환된 음원을 시간 축으로 분할한 복수의 구간 각각의 특징값의 가중치 합을 계산하는 어텐션 모델을 포함하는 신경망을 학습한다.
이하에서는 도 3 내지 도 5를 설명함에 있어 도 1에 도시된 구성요소들을 함께 참조한다.
도 3은 본 발명의 일 실시예에 따른 신경망의 예를 도시한 흐름도이다.
도 3을 참조하면, 본 발명의 일 실시예에 따른 신경망은 복수의 입력 노드(IN)를 포함하는 입력 레이어(IL), 복수의 히든 노드(HN)를 포함하는 히든 레이어(HL) 및 복수의 출력 노드(ON)를 포함하는 출력 레이어(OL)를 포함한다. 히든 레이어(HL)는 전체적으로 연결된(fully connected) 하나 이상의 레이어를 포함할 수 있다. 히든 레이어가 복수의 레이어를 포함하는 경우, 각 레이어 간의 함수가 정의될 수 있다.
도 3에 도시된 신경망은 입력 레이어(IL)와 히든 레이어(HL)의 관계를 정의하는 제1 함수(F1) 및 히든 레이어(HL)와 출력 레이어(OL)의 관계를 정의하는 제2 함수(F2)를 포함한다. 신경망이 학습되는 과정에서 제1 함수(F1) 및 제2 함수(F2)가 학습될 수 있다.
본 발명에서 설명하는 신경망은 인공 신경망으로, 인공 신경망은 인간의 뇌가 패턴을 인식하는 방식을 모사한 알고리즘이다. 인공 신경망은 일 구현예에 따라 라벨링된 트레이닝 데이터를 기반으로 학습될 수 있다. 본 발명의 일 실시예에서 트레이닝 데이터는 분류 정보가 라벨링된 음원 데이터일 수 있다. 본 발명의 일 실시예에 따른 신경망 처리부(12)는 음원 데이터를 신경망 모델에 입력하여 나온 출력값이 해당 음원 데이터에 라벨링된 분류 정보에 근접하도록 함수를 조절하는 과정을 반복함으로써, 복수의 트레이닝 데이터를 이용해 신경망을 학습할 수 있다.
인공 신경망은 복수의 레이어를 포함하고, 각 레이어는 복수의 노드를 포함할 수 있다. 신경망에 포함되는 각 노드는 벡터일 수 있다. 각 레이어는 복수의 노드로 이루어져 있으며, 각 층의 출력은 다음 층의 입력이 된다. 레이어 간의 함수는, 레이어에 포함된 노드 간의 계수 값을 포함할 수 있다.
함수는 각 레이어들 간의 연결 관계를 정의한다. 도 3의 예에서 제1 함수(F1)는 입력 레이어(IL)와 히든 레이어(HL)의 연결 관계를 정의한다. 예를 들어, 제1 함수(F1)는 입력 노드(IN)와 히든 노드(HL)간의 연결 관계를 정의한다. 노드 간의 연결 관계는, 노드 간의 계수 값으로 표현될 수 있다.
본 발명의 일 실시예에 따르면, 신경망 처리부(12)는 음원의 구간 별 데이터를 콘볼루션 신경망에 입력하여 N차원 벡터로 표현되는 각 구간 별 특징값을 획득하고, 획득된 구간 별 특징값을 입력 노드(IN)로 사용할 수 있다.
도 3에 도시된 제1 함수(F1)는 입력 노드(IN)의 가중치 합을 출력하는 어텐션 모델을 포함할 수 있고, 어텐션 모델은 입력 노드(IN)와 가중치 합 노드를 연결하는 계수를 포함할 수 있다. 가중치 합 노드는 히든 노드(HN)의 하나일 수 있다. 각 입력 노드(IN)의 계수는 각 입력 노드(IN)의 가중치일 수 있다.
본 발명의 일 실시예에 따른 신경망 처리부(12)는, 음원 획득부(11)가 획득한 제1 음원 및 제1 분류정보를 이용하여, 제1 음원을 입력하였을 때 제1 분류정보에 근접한 결과를 출력하도록 신경망을 학습하고, 학습된 신경망에서 제1 음원의 각 구간에 대응되는 입력노드(IN)와 가중치 합 노드 간의 계수를 각 구간의 가중치 값으로 취득할 수 있다.
도 3의 예에서 각 레이어의 노드는 복수로 도시되었으나 반드시 이에 한정되지는 않는다. 예를 들어, 출력 레이어(OL)는 하나의 출력 노드(ON)를 포함할 수 있고, 출력 노드(ON)는 하나의 분류 정보를 나타낼 수 있다. 출력 노드(ON)는 분류 정보의 각 항목에 해당하는 확률 값을 포함하는 M차원 벡터로 표현될 수 있고, 이 때 M은 분 류정보의 항목 개수에 대응될 수 있다. 본 발명의 일 실시예에 따르면, 출력 노드(ON)를 복수 개 설정함으로써, 복수의 분류 정보를 고려하는 하이라이트 추출 방법을 제공할 수 있다. 예를 들어, 출력 노드(ON)는 장르 정보를 나타내는 노드와, 무드 정보를 나타내는 노드를 포함할 수 있고, 각 노드는 서로 같은 또는 서로 다른 차원의 벡터로 표현될 수 있다.
도 4는 본 발명의 일 실시예에 따른 신경망을 다른 관점에서 도시한 것이다.
도 4를 참조하면, 본 발명의 일 실시예에 따른 신경망 처리부(12)는 음원을 복수의 구간으로 분할한다. 예를 들어 신경망 처리부(12)는 음원을 기설정된 시간 길이를 갖는 복수의 구간으로 분할한다. 신경망 처리부(12)는 각 구간 별 데이터에 콘볼루션 신경망(CNN)을 적용하여 구간별 특징값(f)을 추출할 수 있다.
신경망 처리부(12)는 구간별 특징값(f)에 어텐션 모델(41)을 적용하여 가중치 합(43)을 획득하고, 구간별 특징값(f)의 시퀀스에 대하여 순환 신경망(42)을 적용하여 음원 전체에 대한 특징값(44)을 포함할 수 있다. 도 4에서는 신경망 처리부(12)가 특징값(44)을 획득하기 위해 순환 신경망(42)을 적용하는 것으로 도시되었으나, 반드시 순환 신경망(42)을 사용해야만 하는 것은 아니다. 예를 들어, 신경망의 성능 설계에 따라 각 구간 별 특징값(f)을 모두 반영할 수 있는 음원 전체에 대한 특징값(44)을 획득할 수 있는 다른 알고리즘이 사용될 수 있다. 예컨대, 각 구간 별 특징값(f)의 시퀀스를 모두 연결한 후 벡터 차원을 조절하여 특징값(44)을 획득할 수 있다.
본 발명의 일 실시예에 따른 신경망 처리부(12)는 가중치 합(43)과 특징값(44)을 병합(merging)하여 통합 특징값(45)을 획득할 수 있다. 예를 들어, 신경망 처리부(12)는 가중치 합(43)과 특징값(44)의 유사도를 통합 특징값(45)으로 획득할 수 있고, 통합 특징값(45)을 최종 함수(46)의 입력으로 사용할 수 있다. 최종 함수(46)는 통합 특징값(45)과 출력 레이어의 노드인 분류 정보를 전체적으로 연결하는(fully connected) 하나 이상의 매트릭스(matrix)를 포함할 수 있다.
신경망 처리부(12)는 최종 함수(46)를 통과하여 출력되는 출력 레이어의 노드 값으로부터, 음원에 대한 분류 정보를 추측할 수 있다.
일 예에 따라 신경망에 입력되는 음원이 라벨링된 분류 정보를 포함하는 경우, 신경망 처리부(12)는 도 4의 최종 함수(46)에서 출력되는 출력 레이어의 노드 값으로부터 추측되는 분류 정보가 음원에 라벨링된 분류 정보에 근접하도록 신경망에 포함되는 함수들을 갱신함으로써 신경망을 학습시킬 수 있다. 또는, 신경망 처리부(12)는 분류 정보를 출력하고, 분류 정보를 출력하는 과정에서 어텐션 모델(41)에서 이용된 계수만을 취득하여 각 구간에 대한 가중치 정보를 획득한 후, 신경망을 학습시키지 않고 처리를 종료할 수도 있다.
다른 예에 따라 신경망에 입력되는 음원이 라벨링된 분류 정보를 포함하지 않는 경우, 신경망 처리부(12)는 도 4의 최종 함수(46)에서 출력되는 출력 레이어의 노드 값으로부터 음원의 분류 정보를 추측할 수 있다. 즉, 본 발명의 일 실시예에 따라 메모리(20)에 저장된 신경망은, 음원으로부터 분류 정보를 추측하는 데에 사용될 수도 있음은 물론이다. 본 발명의 일 실시예에 따른 신경망은 음원의 구간 별 가중치를 고려하여 분류 정보를 추측할 수 있다. 이에 따르면 분류 정보를 추측하기 위해 중요한 구간에 집중할 수 있게 되므로, 분류 정보 추측 성능이 향상된다.
도 5는 본 발명의 일 실시예에 따라 하이라이트 구간을 추출하는 방법의 예를 도시한 것이다.
도 5를 참조하면, 시간 및 주파수 축에 대한 에너지 데이터를 포함하도록 변환된 음원(50)이 도시되었다. 도 5에 도시된 음원(50)의 가로 방향은 시간 축에 대응되며, 음원(50)은 각 시간 값에 대한 주파수 채널 별 에너지 데이터를 포함할 수 있다. 예를 들어, 제1 시점(t1)에 대한 주파수 채널 별 에너지 데이터(511)의 예가 도시되었다. 데이터(511)의 가로 축은 주파수 채널에 해당한다.
일 실시예에 따른 하이라이트 결정부(13)는 신경망 처리부(12)에 의해 획득되는 각 구간 별 가중치를 고려하여 중요 구간(51)을 결정할 수 있다. 또는 하이라이트 결정부(13)는 신경망 처리부(12)에 의해 획득되는 각 구간 별 가중치와 구간 별 에너지 데이터의 합을 고려하여 중요 구간(51)을 결정할 수 있다.
하이라이트 결정부(13)는 중요 구간(51)을 기준으로 설정되는 범위 내에서 에너지 데이터 혹은 시간에 대한 에너지 데이터의 모멘텀이 가장 큰 시점(t1)을 선택하고, 시점(t1)을 고려하여 하이라이트 구간을 결정할 수 있다. 모멘텀은 에너지 데이터의 일차 혹은 이차 미분값일 수 있다.
예를 들어, 하이라이트 결정부(13)는 시점(t1)을 포함하는 구간(51)을 하이라이트 구간(521)으로 결정할 수 있다. 다른 예를 들면, 하이라이트 결정부(13)는 시점(t1)을 중심으로 하는 기설정된 길이의 하이라이트 구간(522)을 결정할 수 있다. 다른 예를 들면, 하이라이트 결정부(13)는 시점(t1)을 시작점으로 하는 기설정된 길이의 하이라이트 구간(523)을 결정할 수 있다.
한편, 도 3에 도시된 본 발명의 일 실시예에 따른 컨텐츠 관리 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 매체는 컴퓨터로 실행 가능한 프로그램을 저장하는 장치일 수 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있으며, 균등한 다른 실시 예가 가능함을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
10: 프로세서
11: 음원 획득부
12: 신경망 처리부
13: 하이라이트 결정부
20: 메모리

Claims (10)

  1. 프로세서를 이용하여 음원의 하이라이트 구간을 결정하는 방법에 있어서, 상기 방법은,
    음원 및 상기 음원에 대한 분류 정보를 획득하는 단계;
    상기 음원 및 상기 분류 정보를 이용하여, 상기 음원을 시간 축으로 분할한 복수의 구간 각각의 특징값에 대응되는 노드를 포함하는 입력 레이어, 상기 분류 정보에 대응되는 노드를 포함하는 출력 레이어, 상기 입력 레이어와 상기 출력 레이어의 사이에 정의되는 히든 레이어, 상기 입력 레이어와 상기 히든 레이어 간의 제1 함수 및 상기 히든 레이어와 상기 출력 레이어 간의 제2 함수를 포함하는 신경망을 학습하고, 상기 제1 함수는 상기 각 구간의 특징값의 가중치 합을 계산하는 어텐션(attention) 모델을 포함하는, 신경망 학습 단계; 및
    상기 학습된 제1 함수에 포함된 상기 각 구간의 특징값 노드의 가중치 정보에 기초하여, 상기 음원의 하이라이트 구간을 결정하는 단계;를 포함하는
    음원의 하이라이트 구간 결정 방법.

  2. 제1 항에 있어서,
    상기 히든 레이어는, 상기 제1 함수에 따라 상기 각 구간의 특징값으로부터 획득되는 상기 음원에 대한 통합 특징값에 대응되는 노드를 포함하는
    음원의 하이라이트 구간 결정 방법.

  3. 제1 항에 있어서,
    상기 제1 함수는, 상기 어텐션 모델의 출력값과 순환 신경망(Recurrent Neural Network; RNN) 모델의 출력값의 유사도를 계산하는 제1-1 함수를 더 포함하고, 상기 히든 레이어는 상기 유사도의 노드를 포함하는
    음원의 하이라이트 구간 결정 방법.
  4. 제1 항에 있어서,
    상기 획득하는 단계 이후에,
    시간 축에 대한 소리 데이터를 포함하는 상기 음원을 시간 축에 대한 에너지 데이터를 포함하도록 변환하는 단계;를 더 포함하고,
    상기 복수의 구간은 상기 변환된 음원을 시간 축으로 분할한 것을 특징으로 하는
    음원의 하이라이트 구간 결정 방법.

  5. 제4 항에 있어서,
    상기 결정하는 단계는, 상기 각 구간의 특징값 노드의 가중치 정보, 및 상기 각 구간의 에너지 데이터에 기초하여, 상기 하이라이트 구간을 결정하는
    음원의 하이라이트 구간 결정 방법.
  6. 제1 항에 있어서,
    상기 결정하는 단계는, 상기 각 구간의 특징값 노드의 가중치 정보에 기초하여 중요 구간을 결정하고, 상기 중요 구간의 전후로 기설정된 범위의 구간 이내의 에너지 데이터를 참조하여, 상기 음원의 전체 구간 중 상기 하이라이트 구간을 결정하는
    음원의 하이라이트 구간 결정 방법.
  7. 제6 항에 있어서,
    상기 결정하는 단계는 상기 기설정된 범위의 구간 내에서 상기 에너지 데이터의 모멘텀이 가장 큰 시점에 대응하여 상기 하이라이트 구간을 결정하는
    음원의 하이라이트 구간 결정 방법.
  8. 제1 항에 있어서,
    상기 제1 함수는, 상기 입력 레이어에 포함된 각 입력 노드와 상기 히든 레이어의 연결 관계를 정의하는,
    음원의 하이라이트 구간 결정 방법.
  9. 컴퓨터를 이용하여 제1 항 내지 제8 항 중 어느 한 항의 방법을 실행하기 위하여 매체에 저장된 컴퓨터 프로그램.
  10. 음원 및 상기 음원에 대한 분류 정보를 획득하는 음원 획득부;
    상기 음원 및 상기 분류 정보를 이용하여, 상기 음원을 시간 축으로 분할한 복수의 구간 각각의 특징값에 대응되는 노드를 포함하는 입력 레이어, 상기 분류 정보에 대응되는 노드를 포함하는 출력 레이어, 상기 입력 레이어와 상기 출력 레이어의 사이에 정의되는 히든 레이어, 상기 입력 레이어와 상기 히든 레이어 간의 제1 함수 및 상기 히든 레이어와 상기 출력 레이어 간의 제2 함수를 포함하는 신경망을 학습하고, 상기 제1 함수는 상기 각 구간의 특징값의 가중치 합을 계산하는 어텐션(attention) 모델을 포함하는, 신경망 처리부; 및
    상기 학습된 제1 함수에 포함된 상기 각 구간의 특징값 노드의 가중치 정보에 기초하여, 상기 음원의 하이라이트 구간을 결정하는 하이라이트 결정부;를 포함하는
    음원의 하이라이트 구간 결정 장치.
KR1020170045391A 2017-04-07 2017-04-07 음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램 KR101891778B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020170045391A KR101891778B1 (ko) 2017-04-07 2017-04-07 음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램
JP2020503683A JP6998449B2 (ja) 2017-04-07 2018-04-06 音源のハイライト区間を決定する方法、その装置及び該コンピュータプログラム
PCT/KR2018/004061 WO2018186708A1 (ko) 2017-04-07 2018-04-06 음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램
US16/593,488 US11462210B2 (en) 2017-04-07 2019-10-04 Data collecting method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170045391A KR101891778B1 (ko) 2017-04-07 2017-04-07 음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램

Publications (1)

Publication Number Publication Date
KR101891778B1 true KR101891778B1 (ko) 2018-08-24

Family

ID=63454529

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170045391A KR101891778B1 (ko) 2017-04-07 2017-04-07 음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램

Country Status (4)

Country Link
US (1) US11462210B2 (ko)
JP (1) JP6998449B2 (ko)
KR (1) KR101891778B1 (ko)
WO (1) WO2018186708A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102025652B1 (ko) * 2019-01-21 2019-09-27 휴멜로 주식회사 사운드 이벤트 탐지 모델 학습 방법
KR20200092502A (ko) * 2019-01-11 2020-08-04 서울과학기술대학교 산학협력단 채팅 데이터와 오디오 데이터를 이용한 하이라이트 영상 생성 장치 및 방법
KR20200126951A (ko) * 2019-09-20 2020-11-09 휴멜로 주식회사 사운드 이벤트 탐지 모델 학습 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114402389A (zh) * 2019-09-27 2022-04-26 雅马哈株式会社 音响解析方法、音响解析装置及程序
JP2022033579A (ja) * 2020-08-17 2022-03-02 ヤマハ株式会社 楽曲構造解析装置
CN113297490B (zh) * 2021-06-04 2022-08-02 西南大学 基于图卷积神经网络的双向推荐方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017027044A (ja) * 2015-07-24 2017-02-02 三星電子株式会社Samsung Electronics Co.,Ltd. 音響点数を計算する装置及び方法、音声を認識する装置及び方法並びに電子装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
WO2001076321A1 (en) * 2000-04-04 2001-10-11 Gn Resound A/S A hearing prosthesis with automatic classification of the listening environment
JP4219539B2 (ja) * 2000-08-11 2009-02-04 日本放送協会 音響分類装置
JP3891111B2 (ja) * 2002-12-12 2007-03-14 ソニー株式会社 音響信号処理装置及び方法、信号記録装置及び方法、並びにプログラム
JP2011090290A (ja) * 2009-09-28 2011-05-06 Sanyo Electric Co Ltd 楽曲抽出装置および楽曲録音装置
KR101796580B1 (ko) 2011-11-28 2017-11-14 한국전자통신연구원 음악 하이라이트 구간 추출 장치 및 방법
KR102058025B1 (ko) * 2013-03-13 2020-01-22 삼성전자주식회사 음원의 하이라이트 구간을 추출하는 전자 장치 및 그 동작 방법
KR102239714B1 (ko) * 2014-07-24 2021-04-13 삼성전자주식회사 신경망 학습 방법 및 장치, 데이터 처리 장치
KR102449837B1 (ko) 2015-02-23 2022-09-30 삼성전자주식회사 신경망 학습 방법 및 장치, 및 인식 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017027044A (ja) * 2015-07-24 2017-02-02 三星電子株式会社Samsung Electronics Co.,Ltd. 音響点数を計算する装置及び方法、音声を認識する装置及び方法並びに電子装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200092502A (ko) * 2019-01-11 2020-08-04 서울과학기술대학교 산학협력단 채팅 데이터와 오디오 데이터를 이용한 하이라이트 영상 생성 장치 및 방법
KR102153211B1 (ko) * 2019-01-11 2020-09-07 서울과학기술대학교 산학협력단 채팅 데이터와 오디오 데이터를 이용한 하이라이트 영상 생성 장치 및 방법
KR102025652B1 (ko) * 2019-01-21 2019-09-27 휴멜로 주식회사 사운드 이벤트 탐지 모델 학습 방법
WO2020153572A1 (ko) * 2019-01-21 2020-07-30 휴멜로 주식회사 사운드 이벤트 탐지 모델 학습 방법
KR20200126951A (ko) * 2019-09-20 2020-11-09 휴멜로 주식회사 사운드 이벤트 탐지 모델 학습 방법
KR102397563B1 (ko) 2019-09-20 2022-05-13 휴멜로 주식회사 사운드 이벤트 탐지 모델 학습 방법

Also Published As

Publication number Publication date
JP2020516004A (ja) 2020-05-28
US20200035225A1 (en) 2020-01-30
US11462210B2 (en) 2022-10-04
JP6998449B2 (ja) 2022-01-18
WO2018186708A1 (ko) 2018-10-11

Similar Documents

Publication Publication Date Title
KR101891778B1 (ko) 음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램
US11462237B2 (en) Deep learning based method and system for processing sound quality characteristics
CN112784130B (zh) 孪生网络模型训练、度量方法、装置、介质和设备
CN111309965B (zh) 音频匹配方法、装置、计算机设备及存储介质
CN109147807B (zh) 一种基于深度学习的音域平衡方法、装置及系统
KR20180125905A (ko) 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
CN111444967A (zh) 生成对抗网络的训练方法、生成方法、装置、设备及介质
CN114822512B (zh) 音频数据的处理方法、装置、电子设备及存储介质
CN113177538B (zh) 一种视频循环识别方法、装置、计算机设备及存储介质
WO2009074871A2 (en) System and method for the characterization, selection and recommendation of digital music and media content
CN103761965A (zh) 一种乐器信号的分类方法
CN112085058A (zh) 一种对象组合召回方法、装置、电子设备及存储介质
CN111445921B (zh) 音频特征的提取方法、装置、计算机设备及存储介质
CN115867919A (zh) 用于推荐系统的图结构感知增量学习
CN111816170A (zh) 一种音频分类模型的训练和垃圾音频识别方法和装置
CN111428078A (zh) 音频指纹编码方法、装置、计算机设备及存储介质
CN111444379A (zh) 音频的特征向量生成方法及音频片段表示模型的训练方法
CN114332550A (zh) 一种模型训练方法、系统及存储介质和终端设备
CN114360503A (zh) 一种语音识别方法、系统及存储介质和终端设备
CN111445922B (zh) 音频匹配方法、装置、计算机设备及存储介质
CN113704620A (zh) 基于人工智能的用户标签更新方法、装置、设备及介质
JP2010509669A (ja) コンテンツアイテムを分類するための方法及び装置
CN110070891B (zh) 一种歌曲识别方法、装置以及存储介质
CN111010595A (zh) 一种新节目推荐的方法及装置
CN112818164B (zh) 音乐类型识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant