KR101069232B1 - 음악 장르 분류 방법 및 장치 - Google Patents

음악 장르 분류 방법 및 장치 Download PDF

Info

Publication number
KR101069232B1
KR101069232B1 KR1020090071198A KR20090071198A KR101069232B1 KR 101069232 B1 KR101069232 B1 KR 101069232B1 KR 1020090071198 A KR1020090071198 A KR 1020090071198A KR 20090071198 A KR20090071198 A KR 20090071198A KR 101069232 B1 KR101069232 B1 KR 101069232B1
Authority
KR
South Korea
Prior art keywords
audio
hidden markov
independent
signal
audio files
Prior art date
Application number
KR1020090071198A
Other languages
English (en)
Other versions
KR20110013646A (ko
Inventor
이지형
정혜욱
방성우
Original Assignee
성균관대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 성균관대학교산학협력단 filed Critical 성균관대학교산학협력단
Priority to KR1020090071198A priority Critical patent/KR101069232B1/ko
Publication of KR20110013646A publication Critical patent/KR20110013646A/ko
Application granted granted Critical
Publication of KR101069232B1 publication Critical patent/KR101069232B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/64Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/036Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal of musical genre, i.e. analysing the style of musical pieces, usually for selection, filtering or classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/005Algorithms for electrophonic musical instruments or musical processing, e.g. for automatic composition or resource allocation
    • G10H2250/015Markov chains, e.g. hidden Markov models [HMM], for musical processing, e.g. musical analysis or musical composition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Auxiliary Devices For Music (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

음악 장르 분류 방법은 복수의 오디오 파일들에 각각 상응하는 은닉 마코프 모델(HMM, Hidden Markov Model)들을 생성하는 단계 및 생성된 은닉 마코프 모델(HMM)들 간의 유사도를 기초로 오디오 파일들을 클러스터링하여 오디오 파일들을 음악 장르별로 분류하는 단계를 포함하고, 복수의 오디오 파일들에 각각 상응하는 은닉 마코프 모델(HMM)들을 생성하는 단계는 복수의 오디오 파일들을 구성하는 각 오디오 파일에 대하여, 오디오 파일로부터 나온 오디오 신호를 독립성분분석(ICA, independent component analysis)하여 오디오 신호에 상응하는 독립 신호들을 생성하는 단계, 생성된 독립 신호들이 가진 에너지를 기초로 독립 신호들 중 적어도 하나의 독립 신호를 주 신호로 선정하는 단계, 주 신호로부터 오디오 특성 파라미터를 추출하는 단계 및 추출된 오디오 특성 파라미터를 기초로 오디오 파일에 대한 은닉 마코프 모델(HMM, Hidden Markov Model)을 생성하는 단계를 포함한다.

Description

음악 장르 분류 방법 및 장치{Apparatus and method for classifying music genre}
개시된 기술은 음악 파일을 장르에 따라 분류하는 방법 및 장치에 관한 것이다.
MP3 플레이어의 보급 확대와 디지털 음악 파일의 대중화로 인해, 개인이 보유하는 음악 파일들의 수는 크게 늘어나고 있으며, 이러한 음악 파일들을 효율적으로 검색 및 관리하는 것이 중요하다. 이러한 음악 파일의 검색 및 관리를 위해, 음악 내용(contents)에 기반하여 음악 파일을 장르에 따라 분류할 필요가 있다.
실시예들 중에서, 음악 장르 분류 방법은 복수의 오디오 파일들에 각각 상응하는 은닉 마코프 모델(HMM, Hidden Markov Model)들을 생성하는 단계, 및 상기 생성된 은닉 마코프 모델(HMM)들 간의 유사도를 기초로, 상기 오디오 파일들을 클러스터링하여 상기 오디오 파일들을 음악 장르별로 분류하는 단계를 포함하고, 상기 복수의 오디오 파일들에 각각 상응하는 은닉 마코프 모델(HMM)들을 생성하는 단계는 상기 복수의 오디오 파일들을 구성하는 각 오디오 파일에 대하여, 상기 오디오 파일로부터 나온 오디오 신호를 독립성분분석(ICA, independent component analysis)하여 상기 오디오 신호에 상응하는 독립 신호들을 생성하는 단계, 상기 생성된 독립 신호들이 가진 에너지를 기초로, 상기 독립 신호들 중 적어도 하나의 독립 신호를 주 신호로 선정하는 단계, 상기 주 신호로부터 오디오 특성 파라미터를 추출하는 단계, 및 상기 추출된 오디오 특성 파라미터를 기초로, 상기 오디오 파일에 대한 은닉 마코프 모델(HMM, Hidden Markov Model)을 생성하는 단계를 포함한다.
실시예들 중에서, 음악 장르 분류 장치는 복수의 오디오 파일들에 각각 상응하는 은닉 마코프 모델(HHMM, hidden Markov model)들을 생성하는 모델 생성부, 및 상기 생성된 은닉 마코프 모델(HMM)들 간의 유사도를 기초로, 상기 오디오 파일들을 클러스터링하여 상기 오디오 파일들을 음악 장르별로 분류하는 오디오 파일 분류부를 포함하고, 상기 모델 생성부는 상기 복수의 오디오 파일들을 구성하는 각 오디오 파일에 대하여, 상기 오디오 파일로부터 나온 오디오 신호를 독립 성분 분석(ICA, independent component analysis)하여 상기 오디오 신호에 상응하는 독립 신호들을 생성하는 독립 성분 분석부, 상기 생성된 독립 신호들이 가진 에너지를 기초로, 상기 독립 신호들 중 적어도 하나의 독립 신호를 주 신호로 선정하는 주 신호 선정부, 상기 주 신호로부터 오디오 특성 파라미터를 추출하는 특성 추출부, 및 상기 추출된 오디오 특성 파라미터를 기초로, 상기 오디오 파일에 대한 은닉 마코프 모델(HMM, Hidden Markov Model)을 생성하는 HMM 생성부를 포함한다.
개시된 기술에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 개시된 기술의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 개시된 기술의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다.
한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 개시된 기술이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.
도 1은 개시된 기술의 일 실시예에 따른 음악 장르 분류 장치의 구성을 나타내는 블록도이다.
도 1을 참조하면, 음악 장르 분류 장치(1000)는 모델 생성부(110) 및 오디오 파일 분류부(150)를 포함하고, 모델 생성부(110)는 디코더(115), 독립 성분 분석부(120), 주 신호 선정부(125), 특성 추출부(130) 및 HMM 생성부(135)를 포함하며, 오디오 파일 분류부(150)는 유사도 측정부(155) 및 클러스터링부(160)를 포함한다.
모델 생성부(110)는 복수의 오디오 파일들을 수신하여, 오디오 파일들에 각각 상응하는 은닉 마코프 모델(HHMM, hidden Markov model)들을 생성한다.
오디오 파일 분류부(150)는 생성된 은닉 마코프 모델(HMM)들 간의 유사도를 기초로 오디오 파일들을 클러스터링하여, 오디오 파일들을 음악 장르별로 분류한다.
디코더(115)는 오디오 파일을 디코딩하여 오디오 신호를 생성한다.
독립 성분 분석부(120)는 오디오 신호를 독립성분분석(ICA, independent component analysis)하여 복수의 독립 신호들로 분리한다. 독립성분분석(ICA)은 선형적으로 혼합된(mixing) 신호들로부터 통계적으로 상호 독립적인 신호들을 분리하는 기술이다.
주 신호 선정부(125)는 독립 신호들이 가진 에너지를 기초로, 독립 신호들 중 적어도 하나의 독립 신호를 주 신호로 선정한다. 예를 들어, 주 신호 선정부(125)는 독립 신호들이 가지는 에너지들을 비교하여, 독립 신호들 중 가장 많은 에너지를 가진 독립 신호를 주 신호로 선정할 수 있다. 이를 통해, 음악 장르 분류 장치(1000)는 오디오 신호에서 음악 장르를 결정하는데 있어서 장애가 되는 신호를 제거하여, 보다 정확하게 오디오 파일의 장르를 결정할 수 있다.
특성 추출부(130)는 주 신호로부터 오디오 특성을 나타내는 파라미터인 오디오 특성 파라미터를 추출한다. 예를 들어, 특성 추출부(130)는 주 신호로부터 MFCC(멜 주파수 켑스트럼 계수들, Mel frequency cepstrum coefficients)를 추출할 수 있다.
HMM 생성부(135)는 은닉 마코프 모델링 기법을 사용하여 추출된 오디오 파라미터를 확률적으로 가장 잘 표현할 수 있는 확률 모델을 생성한다. 예를 들어, HMM 생성부(135)는 Baum-Welch 알고리즘 또는 Segmental K-means 알고리즘을 이용하여 확률 모델을 훈련시키는 과정을 통하여, 추출된 MFCC에 따른 은닉 마코프 모델을 생성할 수 있다.
유사도 측정부(155)는 은닉 마코프 모델(HMM)들 간의 유사도를 측정한다. 예를 들어, 유사도 측정부(155)는 DTW(동적 정합법, Dynamic Time Warping)를 사용하여 은닉 마코프 모델(HMM)들 간의 유사도를 측정할 수 있다.
클러스터링부(160)는 측정된 유사도를 기초로, 오디오 파일들을 클러스터링한다. 예를 들어, 클러스터링부(160)는 측정된 유사도를 기초로, MCL 알고리즘(Markov clustering algorithm)을 사용하여 오디오 파일들을 클러스터링할 수 있다. 이를 통해, 음악 장르 분류 장치는 복수의 오디오 파일들을 음악 장르별로 분류할 수 있다.
도 2는 개시된 기술의 일 실시예에 따른 음악 장르 분류 방법을 나타내는 흐름도이다.
도 2를 참조하면, 210 단계에서, 음악 장르 분류 장치는 오디오 파일을 디코딩하여 오디오 신호를 생성한다.
220 단계에서, 음악 장르 분류 장치는 오디오 신호를 독립성분분석(ICA, independent component analysis)하여 복수의 독립 신호들로 분리한다. 독립성분분석(ICA)은 선형적으로 혼합된(mixing) 신호들로부터 통계적으로 상호 독립적인 신호들을 분리하는 기술이다.
230 단계에서, 음악 장르 분류 장치는 독립 신호들이 가진 에너지를 기초로, 독립 신호들 중 적어도 하나의 독립 신호를 주 신호로 선정한다. 예를 들어, 음악 장르 분류 장치는 독립 신호들이 가지는 에너지들을 비교하여, 독립 신호들 중 가 장 많은 에너지를 가진 독립 신호를 주 신호로 선정할 수 있다.
240 단계에서, 음악 장르 분류 장치는 주 신호로부터 오디오 특성을 나타내는 파라미터인 오디오 특성 파라미터를 추출한다. 예를 들어, 음악 장르 분류 장치는 주 신호로부터 MFCC(멜 주파수 켑스트럼 계수들, Mel frequency cepstrum coefficients)를 추출할 수 있다.
250 단계에서, 음악 장르 분류 장치는 은닉 마코프 모델링 기법을 사용하여 추출된 오디오 특성 파라미터를 확률적으로 가장 잘 표현할 수 있는 확률 모델을 생성한다. 예를 들어, 음악 장르 분류 장치는 Baum-Welch 알고리즘 또는 Segmental K-means 알고리즘을 이용하여 확률 모델을 훈련시키는 과정을 통하여, 추출된 MFCC에 따른 은닉 마코프 모델(HMM)을 생성할 수 있다.
260 단계에서, 음악 장르 분류 장치는 모든 오디오 파일들에 대하여 은닉 마코프 모델(HMM)들이 생성되었는지를 확인하고, 확인 결과 아직 HMM이 생성되지 않은 오디오 파일이 남아 있으면 210 단계로 진행한다. 이를 통해 복수의 오디오 파일들에 대하여 HMM(은닉 마코프 모델)들을 생성할 수 있다.
270 단계에서, 음악 장르 분류 장치는 은닉 마코프 모델(HMM)들 간의 유사도를 측정한다. 예를 들어, 음악 장르 분류 장치는 DTW(동적 정합법, Dynamic Time Warping)를 사용하여 은닉 마코프 모델(HMM)들 간의 유사도를 측정할 수 있다.
280 단계에서, 음악 장르 분류 장치는 측정된 유사도를 기초로, 오디오 파일들을 클러스터링한다. 예를 들어, 음악 장르 분류 장치는 측정된 유사도를 기초로, MCL 알고리즘(Markov clustering algorithm)을 사용하여 오디오 파일들을 클러스터 링할 수 있다. 이를 통해, 음악 장르 분류 장치는 복수의 오디오 파일들을 음악 장르별로 분류할 수 있다.
개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
일 실시예에 따른 음악 장르 분류 방법 및 장치는 음악 파일로부터 나온 오디오 신호로부터 음악 장르를 결정하는데 장애가 되는 신호를 제거하고, 장애가 되는 신호가 제거된 오디오 신호의 특성을 분석하여 음악 파일을 분류하므로, 음악 파일을 장르에 따라 보다 정확하게 분류할 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
도 1은 개시된 기술의 일 실시예에 따른 음악 장르 분류 장치의 구성을 나타내는 블록도이다.
도 2는 개시된 기술의 일 실시예에 따른 음악 장르 분류 방법을 나타내는 흐름도이다.

Claims (10)

  1. 복수의 오디오 파일들에 상응하는 은닉 마코프 모델(HMM, Hidden Markov Model)들을 생성하는 단계; 및
    상기 생성된 은닉 마코프 모델(HMM)들 간의 유사도를 기초로, 상기 오디오 파일들을 클러스터링하여 상기 오디오 파일들을 음악 장르별로 분류하는 단계를 포함하고,
    상기 복수의 오디오 파일들에 상응하는 은닉 마코프 모델(HMM)들을 생성하는 단계는
    상기 복수의 오디오 파일들을 구성하는 각 오디오 파일에 대하여, 상기 오디오 파일로부터 나온 오디오 신호를 독립성분분석(ICA, independent component analysis)하여 상기 오디오 신호에 상응하는 독립 신호들을 생성하는 단계;
    상기 생성된 독립 신호들이 가진 에너지를 기초로, 상기 독립 신호들 중 적어도 하나의 독립 신호를 주 신호로 선정하는 단계;
    상기 주 신호로부터 오디오 특성 파라미터를 추출하는 단계; 및
    상기 추출된 오디오 특성 파라미터를 기초로, 상기 오디오 파일에 대한 은닉 마코프 모델(HMM, Hidden Markov Model)을 생성하는 단계를 포함하며,
    상기 생성된 독립 신호들이 가진 에너지를 기초로, 상기 독립 신호들 중 적어도 하나의 독립 신호를 주 신호로 선정하는 단계는, 상기 생성된 독립 신호들이 가지는 에너지들을 비교하여, 상기 생성된 독립 신호들 중 가장 많은 에너지를 가지는 독립 신호를 상기 주 신호로 선정하는 음악 장르 분류 방법.
  2. 삭제
  3. 제 1 항에 있어서, 상기 오디오 특성 파라미터는
    MFCC(멜 주파수 켑스트럼 계수들, Mel frequency cepstrum coefficients)인 음악 장르 분류 방법.
  4. 제 1 항에 있어서, 상기 생성된 상기 생성된 은닉 마코프 모델(HMM)들 간의 유사도를 기초로, 상기 오디오 파일들을 클러스터링하여 상기 오디오 파일들을 음악 장르별로 분류하는 단계는
    동적 정합법(DTW, Dynamic Time Warping)을 사용하여, 상기 생성된 은닉 마코프 모델(HMM)들에 대한 유사도를 측정하는 단계를 포함하는 음악 장르 분류 방법.
  5. 제 4 항에 있어서, 상기 생성된 상기 생성된 은닉 마코프 모델(HMM)들 간의 유사도를 기초로, 상기 오디오 파일들을 클러스터링하여 상기 오디오 파일들을 음악 장르별로 분류하는 단계는
    상기 측정된 유사도를 기초로 MCL 알고리즘(Markov clustering algorithm)을 사용하여, 상기 오디오 파일들을 클러스터링하는 단계를 포함하는 음악 장르 분류 방법.
  6. 복수의 오디오 파일들에 상응하는 은닉 마코프 모델(HHMM, hidden Markov model)들을 생성하는 모델 생성부; 및
    상기 생성된 은닉 마코프 모델(HMM)들 간의 유사도를 기초로, 상기 오디오 파일들을 클러스터링하여 상기 오디오 파일들을 음악 장르별로 분류하는 오디오 파일 분류부를 포함하고,
    상기 모델 생성부는
    상기 복수의 오디오 파일들을 구성하는 각 오디오 파일에 대하여, 상기 오디오 파일로부터 나온 오디오 신호를 독립 성분 분석(ICA, independent component analysis)하여 상기 오디오 신호에 상응하는 독립 신호들을 생성하는 독립 성분 분석부;
    상기 생성된 독립 신호들이 가진 에너지를 기초로, 상기 독립 신호들 중 적어도 하나의 독립 신호를 주 신호로 선정하는 주 신호 선정부;
    상기 주 신호로부터 오디오 특성 파라미터를 추출하는 특성 추출부; 및
    상기 추출된 오디오 특성 파라미터를 기초로, 상기 오디오 파일에 대한 은닉 마코프 모델(HMM, Hidden Markov Model)을 생성하는 HMM 생성부를 포함하고,
    상기 주 신호 선정부는 상기 생성된 독립 신호들이 가지는 에너지들을 비교하여, 상기 생성된 독립 신호들 중 가장 많은 에너지를 가지는 독립 신호를 상기 주 신호로 선정하는 음악 장르 분류 장치.
  7. 삭제
  8. 제 6 항에 있어서, 상기 오디오 특성 파라미터는
    MFCC(멜 주파수 켑스트럼 계수들, Mel frequency cepstrum coefficients)인 음악 장르 분류 장치.
  9. 제 6 항에 있어서, 상기 모델 생성부는
    동적 정합법(DTW, Dynamic Time Warping)을 사용하여, 상기 생성된 은닉 마코프 모델(HMM)들에 대한 유사도를 측정하는 유사도 측정부를 포함하는 음악 장르 분류 장치.
  10. 제 9 항에 있어서, 상기 모델 생성부는
    상기 측정된 유사도를 기초로 MCL 알고리즘(Markov clustering algorithm)을 사용하여, 상기 오디오 파일들을 클러스터링하는 클러스터링부를 포함하는 음악 장르 분류 장치.
KR1020090071198A 2009-08-03 2009-08-03 음악 장르 분류 방법 및 장치 KR101069232B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090071198A KR101069232B1 (ko) 2009-08-03 2009-08-03 음악 장르 분류 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090071198A KR101069232B1 (ko) 2009-08-03 2009-08-03 음악 장르 분류 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20110013646A KR20110013646A (ko) 2011-02-10
KR101069232B1 true KR101069232B1 (ko) 2011-10-04

Family

ID=43773096

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090071198A KR101069232B1 (ko) 2009-08-03 2009-08-03 음악 장르 분류 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101069232B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107204183B (zh) * 2016-03-18 2020-07-24 百度在线网络技术(北京)有限公司 一种音频文件检测方法及装置

Also Published As

Publication number Publication date
KR20110013646A (ko) 2011-02-10

Similar Documents

Publication Publication Date Title
CN108305615B (zh) 一种对象识别方法及其设备、存储介质、终端
JP6596376B2 (ja) 話者識別方法及び話者識別装置
Nguyen et al. Acoustic scene classification using a convolutional neural network ensemble and nearest neighbor filters.
Dhanalakshmi et al. Classification of audio signals using AANN and GMM
KR102191306B1 (ko) 음성 감정 인식 시스템 및 방법
JP6908045B2 (ja) 音声処理装置、音声処理方法、およびプログラム
US9043207B2 (en) Speaker recognition from telephone calls
KR101616112B1 (ko) 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
JP2006084875A (ja) インデキシング装置、インデキシング方法およびインデキシングプログラム
Tan et al. Evaluation of a Sparse Representation-Based Classifier For Bird Phrase Classification Under Limited Data Conditions.
Cotton et al. Soundtrack classification by transient events
KR20100036893A (ko) 음성 신호를 분석하여 화자를 인식하는 장치 및 그 방법
Jančovič et al. Bird species recognition from field recordings using HMM-based modelling of frequency tracks
US20110029108A1 (en) Music genre classification method and apparatus
Katmeoka et al. Separation of harmonic structures based on tied Gaussian mixture model and information criterion for concurrent sounds
JP5605575B2 (ja) 多チャンネル音響信号処理方法、そのシステム及びプログラム
KR101069232B1 (ko) 음악 장르 분류 방법 및 장치
Sapru et al. Detecting speaker roles and topic changes in multiparty conversations using latent topic models
Lounnas et al. Building a speech corpus based on Arabic podcasts for language and dialect identification
KR20170124854A (ko) 음성/비음성 구간 검출 장치 및 방법
Zhang et al. A novel singer identification method using GMM-UBM
Keyvanrad et al. Improvement on automatic speaker gender identification using classifier fusion
CN110853636B (zh) 一种基于k最近邻算法生成逐字歌词文件的系统与方法
Tsai et al. Bird species identification based on timbre and pitch features
RU2530314C1 (ru) Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140617

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150703

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee