KR101092228B1 - 음원 분류를 위한 악기 인식 시스템 및 방법 - Google Patents

음원 분류를 위한 악기 인식 시스템 및 방법 Download PDF

Info

Publication number
KR101092228B1
KR101092228B1 KR1020090128290A KR20090128290A KR101092228B1 KR 101092228 B1 KR101092228 B1 KR 101092228B1 KR 1020090128290 A KR1020090128290 A KR 1020090128290A KR 20090128290 A KR20090128290 A KR 20090128290A KR 101092228 B1 KR101092228 B1 KR 101092228B1
Authority
KR
South Korea
Prior art keywords
energy
peak
frequency band
instrument
audio signal
Prior art date
Application number
KR1020090128290A
Other languages
English (en)
Other versions
KR20110071665A (ko
Inventor
권순일
Original Assignee
세종대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 세종대학교산학협력단 filed Critical 세종대학교산학협력단
Priority to KR1020090128290A priority Critical patent/KR101092228B1/ko
Publication of KR20110071665A publication Critical patent/KR20110071665A/ko
Application granted granted Critical
Publication of KR101092228B1 publication Critical patent/KR101092228B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/08Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/041Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal based on mfcc [mel -frequency spectral coefficients]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

음원 분류를 위한 연주 악기 인식 방법 및 그 시스템이 제공되며, 구체적으로 오디오 신호에서의 시간 대비 에너지 피크를 중심으로 그 주변의 주파수 대역별 에너지 분포를 관찰하여 피크 주변의 신호 값만을 가지고 주파수 대역별 에너지를 통계적으로 모델링하여 연주악기를 구분하는 방법 및 시스템이 제공된다.
음원 분류를 위한 악기 인식 시스템은 연속적인 오디오 신호를 복수의 주파수 대역별로 분할하는 주파수 분할부, 상기 분할된 주파수 대역별로 미리 설정된 한계범위에 해당하는 에너지 값을 획득하는 주파수 대역별 에너지 처리부, 상기 미리 설정된 한계범위에 해당하는 에너지 값에 미리 설정된 가중치를 적용하여 피크가 존재할 확률값을 산출하는 피크 확률 산출부 및 상기 피크 존재 확률값을 상기 오디오 신호에 적용하여 획득한 변화 패턴과 미리 저장된 악기별 패턴을 비교하여 상기 오디오 신호를 생성한 악기를 분류하는 악기 분류부를 포함할 수 있다.
악기 인식, 누적 히스토그램, 가중치, 에너지 피크

Description

음원 분류를 위한 악기 인식 시스템 및 방법{SYSTEM AND METHOD FOR RECOGNIZING INSTRUMENT TO CLASSIFY SIGNAL SOURCE}
본 발명은 음원 분류를 위한 연주 악기 인식 방법 및 그 시스템에 관한 것으로서, 구체적으로 오디오 신호에서의 시간 대비 에너지 피크를 중심으로 그 주변의 주파수 대역별 에너지 분포를 관찰하여 피크 주변의 신호 값만을 가지고 주파수 대역별 에너지를 통계적으로 모델링하여 연주 악기를 구분하는 방법 및 시스템에 관한 것이다.
최근 손수 제작물(User Created Contents)에 대한 관심은 다양한 내용과 수준의 콘텐츠를 양산하는 촉매제 역할을 하고 있으며, 일반인들이 각자의 취향이나 의도에 맞는 콘텐츠를 직접 제작할 수 있는 기회가 마련되어 있다. 컴퓨터 네트워크를 수단으로 한 디지털 콘텐츠의 대중화 속에 가장 눈에 띄는 카테고리 중 하나는 음악연주와 관련된 음원 콘텐츠일 것이다.
종래 오디오 신호의 패턴, 특히 연주악기를 분류하기 위한 방법으로는 다음 의 방법이 있다.
14개의 오케스트라를 구성하는 악기들에 대한 인식을 위해 한 가지 톤으로 연주된 데이터를 이용하여 MAP(Maximum a posteriori) 등의 패턴을 인식하는 방법, 30개의 오케스트라를 구성하는 악기들에 있어서 각각 한 가지 악기로 연주된 데이터에 Rise Time, Decay Time, Strength of Amplitude Modulation, Crest Factor 등 43 가지의 특징을 이용하는 방법, MFCC(Mel-scale Frequency Cepstral Cofficient) 등의 특징을 이용하여 SVM (Support Vector Machine)의 방법을 적용하거나, 피아노, 바이올린, 클라리넷, 플루트 등 4개의 악기를 Spectral and Temporal Feature로 이루어진 28개의 특징 및 Hidden Markov Model 을 이용한 통계적인 모델링을 적용하는 방법, 피아노와 바이올린으로 연주된 곡에 대하여 두 개의 악기로 연주된 데이터로부터 피치 정보를 가지고 두 악기를 구분하는 방법 등이 있다.
상기의 방법들은 주로 다수의 악기를 인식하기 위해 많은 가능성이 있는 특징들을 차별화된 선택적 적용 없이 사용하였고, 평균적으로 80% 대의 인식률을 보였다.
UCC에 있어서 기타와 피아노는 가장 많이 사용되는 음악연주 콘텐츠 도구지만, 오디오 신호만을 가지고 두 악기가 만들어낸 소리를 구분해 내기가 가장 힘든 조합 중 하나다.
도 1a 내지 도 1c는 각각 기타, 피아노, 바이올린의 독주 연주곡 음원 일부를 도시한 스펙트로그램이다.
스펙트로그램(Spectrogram)이란 시간의 흐름에 따른 각 주파수 성분들의 세 기를 나타내는 것으로서, 스펙트로그램의 가로축은 시간 정보를 나타내고 세로축은 주파수 정보를 나타내며 그래프의 밝기는 강도를 나타낸다. 도 1a 내지 도 1c와 같은 스펙트로그램을 참조할 경우 각 시간별 주파수 성분에 대한 세기 정보를 알 수 있다.
주파수 영역에서 평균적인 특징을 대역별로 관찰해 보면, 특히 기타와 피아노는 에너지의 분포나 시간대비 에너지의 상승과 감쇄 곡선의 패턴이 비슷한 양상을 보인다.
따라서, 종래의 연주악기를 분류하는 방법을 사용하여 분류 특징들을 일률적으로 적용할 경우 기타와 피아노를 구분하기 어려운 문제점이 있었다.
즉, 종래의 악기 인식 방법에 따르면 기타와 피아노 같이 에너지 분포나 시간대비 에너지의 상승과 감쇄곡선의 패턴이 비슷한 양상을 보이는 악기에 대해 오디오 신호 패턴, 특히 연주악기를 분류하기 위한 특징 등을 일률적으로 적용하여 구분하기 어렵다는 문제점이 있었다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 주파수 대역별 에너지의 변화를 분석하여 기타와 피아노 같이 에너지 분포나 시간 대비 에너지의 상승과 감쇄곡선의 패턴이 비슷한 양상을 보이는 악기에 대하여 음원 분류를 할 수 있는 방법 및 시스템을 제공하고자 한다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면은 연속적인 오디오 신호를 복수의 주파수 대역별로 분할하는 주파수 분할부, 상기 분할된 주파수 대역별로 미리 설정된 한계범위에 해당하는 에너지 값을 획득하는 주파수 대역별 에너지 처리부, 상기 미리 설정된 한계범위에 해당하는 에너지 값에 미리 설정된 가중치를 적용하여 피크가 존재할 확률값을 산출하는 피크 확률 산출부 및 상기 피크 존재 확률값을 상기 오디오 신호에 적용하여 획득한 변화 패턴과 미리 저장된 악기별 패턴을 비교하여 상기 오디오 신호를 생성한 악기를 분류하는 악기 분류부를 포함하는 음원 분류를 위한 악기 인식 시스템을 제공할 수 있다.
본 발명의 제 1 측면에서, 상기 주파수 대역별 에너지 처리부는 주파수 대역별로 분할된 신호의 에너지 크기 대비 에너지 분포에 대한누적 히스토그램을 생성하는 에너지 산출부 및 상기 생성된 누적 히스토그램에 기초하여 에너지 크기에 대 해 미리 설정된 범위를 주파수 대역별 한계범위로 설정하는 한계범위 설정부를 포함할 수 있다.
또한, 본 발명의 제 1 측면에서, 상기 악기 분류부는 상기 피크 확률 산출부 결과에 의해 생성된 확률값에 음원 제공장치로부터 수신한 오디오 신호를 적용하여 피크에서의 변화 패턴을 획득하는 변화 패턴 획득부 및 상기 변화 패턴 획득부에 의해 획득된 변화 패턴을 이용하여 오디오 신호의 연주악기의 종류를 구분하는 음원 인식부를 포함할 수 있다.
또한, 본 발명의 제 2 측면은 (a) 연속적인 오디오 신호를 복수 개의 주파수 대역으로 분할하는 단계, (b) 분할된 각각의 주파수 대역에 대한 에너지 값의 한계범위를 획득하는 단계, (c) 상기 한계범위에 해당하는 에너지 값을 획득하여 주파수 대역별 피크 존재 확률값을 획득하는 단계, (d) 주파수 대역별 결과를 합산하여 상기 오디오 신호에 대한 시간 대비 피크 존재 확률값을 산출하는 단계 및 (e) 상기 시간 대비 피크 존재 확률값이 적용된 상기 오디오 신호와 미리 저장된 악기별 피크 패턴을 비교하여 악기를 분류하는 단계를 포함하는 음원 분류를 위한 악기 인식 방법을 제공할 수 있다.
전술한 본 발명의 과제 해결 수단에 의하면, UCC에서 가장 많이 사용되면서도 자동적인 방법으로 구분이 어려운 악기의 음원, 특히 기타 및 피아노와 같이 에너지 분포나 시간 대비 에너지의 상승과 감쇄곡선의 패턴이 비슷한 양상을 보이는 악기에 대하여 오디오 신호를 주파수 대역별로 분리된 신호마다 피크 존재 확률값을 산출하여 오디오 신호의 에너지 피크 패턴을 분석하여 악기의 종류를 구분하여 많은 수의 음악 파일을 신속하게 처리할 수 있다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하의 본 발명의 실시예에서는 기타와 피아노를 예시로 하여 설명하나, 이는 설명을 위함이며 본 발명이 이에 한정되는 것은 아니며 다양한 악기의 구분에 이용될 수 있다.
도 2는 본 발명의 일 실시예에 따른 음원 분류를 위한 악기 인식 시스템의 구성을 도시한다.
악기인식 시스템(100)은 주파수 분할부(111), 주파수 대역별 에너지 처리부(112), 피크 확률 산출부(114) 및 악기 분류부(115)를 포함한다.
악기 인식 시스템(100)은 연주 악기 특히, 기타와 피아노와 같이 구분이 어려운 오디오 신호를 구분하기 위하여 피크 주변의 에너지 변화를 분석한다. 이들 악기의 경우, 저주파 영역은 피크주변에서 감쇄 속도가 느리기 때문에 피크 사이 간격이 좁은 경우 피크를 찾기가 어렵고, 고주파 영역은 피크 주변에서 감쇄 속도는 빠르지만 에너지 피크가 작아서 관찰이 어렵다. 따라서, 악기 인식 시스템(100)은 피크를 감지하기 위해서 주파수 대역별로 나누어 주파수 대역별 피크를 중심으로 그 주변의 변화를 관찰할 필요가 있다.
주파수 분할부(111)는 음원 제공 장치(10)로부터 연속적인 오디오 신호를 수신하고, 오디오 신호를 주파수 대역별로 분할한다. 저주파 영역 및 고주파 영역에서 피크의 관찰이 어려우므로, 주파수 대역별 분할을 통해 주파수 대역별 에너지 피크를 중심으로 에너지 피크 주변의 변화를 용이하게 파악할 수 있다. 주파수 분할부(111)는, 예를 들면 연속적인 오디오 신호를 0~8000 Hz까지의 16개의 주파수 대역으로 분할할 수 있다.
주파수 대역별 에너지 처리부(112)는 주파수 대역별로 에너지 크기 대비 에너지 분포에 대한 누적 히스토그램을 생성한다. 주파수 대역별 에너지 처리부(112)는 생성한 누적 히스토그램을 이용하여 주파수 대역별 누적 히스토그램의 에너지 상위 특정 분위, 예를 들어 도 5에 도시된 바와 같이 누적 히스토그램의 에 너지 상위 8% 내지 16%, 상위 4% 내지 8%, 상위2% 내지 4%, 상위 2% 이내의 범위를 한계범위로 설정한다.
피크 확률 산출부(113)은 주파수 대역별 에너지 처리부(112)에 의해 설정된 한계범위에 해당하는 에너지 값에 가중치를 적용하여 피크가 존재할 확률값을 산출한다. 피크 확률 산출부(113)에 의해 산출되는 피크 존재 확률값에 대하여 이하의 도 3의 설명에서 상세히 설명하도록 한다.
악기 분류부(114)는 피크 존재 확률값에 음원 제공 장치로부터 수신한 오디오 신호를 적용하여 피크에서의 변화 패턴을 획득하고, 미리 저장된 악기별 피크 패턴을 비교하여 악기를 분류한다.
도 3a 내지 도 3e는 각 주파수 대역별 누적 히스토그램 기반의 한계범위를 이용한 피크 존재의 가능성 확률을 도시한 그래프이다.
피크 확률 산출부(도시 생략)는 누적 히스토그램을 이용하여 주파수 대역별 에너지 처리부(도시 생략)에 의해 설정된 각각의 주파수 대역별 한계범위에 대하여 각각 설정된 가중치를 적용하여 피크가 존재할 확률을 산출한다. 즉, 피크 확률 산출부는 주파수 대역별 한계값과 각각의 한계값에 대응하는 가중치를 곱하고, 곱한 결과값을 합산하다.
예를 들면, 각 주파수 대역별 에너지 상위 분위 8% 내지 16% 값, 상위 4% 내지 8% 값, 상위 2% 내지 4% 값 및 상위 2% 이내의 값에 대하여 각각 순서에 따라서 0.84, 0.92, 0.96 및 0.98의 수치가 가중치로 설정될 수 있으며, 그 외에 에너지 값에 대하여 가중치가 0으로 설정될 수 있다.
이처럼, 한계값을 기준으로 서로 다른 가중치가 설정되어 한계값을 적용하는 이유는 피크 주변 에너지의 변화를 쉽게 파악하기 위함이다.
즉, 피크 확률 산출부는 한계값을 다양화하고 상위의 한계값에 대하여 더 큰 값의 가중치를 적용하여 피크 주변 신호만을 남길 수 있다. 또한, 피크 확률 산출부는 피크에 가까울수록 높은 가중치를 적용하고 피크에서 멀어질수록 낮은 가중치를 적용하여 피크 주변에서의 에너지의 변화를 보다 용이하게 파악 가능하도록 할 수 있다.
피크 확률 산출부는 가중치를 적용하여 얻어진 모든 주파수 대역별 피크 존재 확률 값 결과를 합산하여 최종적으로 오디오 신호의 모든 주파수 대역에 대한 에너지 피크 존재의 가능성을 확률값으로 산출한다.
도 3a 내지 3d는 각각 주파수 대역별 에너지 상위 8% 내지 16%, 상위 4% 내지 8%, 상위 2% 내지 4%, 상위 2%이내의 에너지 값에 가중치를 곱한 결과를 도시한 그래프이며, 도 3e는 가중치가 적용된 모든 주파수 대역별 결과가 합산된 그래프이다. 이처럼, 모든 주파수 대역별 결과를 합산하여 시간에 대한 모든 주파수 대역에서의 피크 존재의 가능성 확률을 나타내는 그래프를 획득할 수 있다.
도 4는 본 발명의 일 실시예에 따른 주파수 대역별 에너지 처리부의 구성을 도시한 도면이며, 도 5는 본 발명의 일 실시예에 따른 주파수 대역별 에너지 크기 대비 에너지 분포에 대한 누적 히스토그램을 도시한 그래프이다.
본 발명의 일 실시예에 따른 주파수 대역별 에너지 처리부(112)는 에너지 산출부(401)와 한계범위 추출부(402)를 포함한다.
에너지 산출부(401)는 각각의 주파수 대역마다 에너지 크기 대비 에너지 분포에 대한 누적 히스토그램을 생성한다. 즉, 에너지 산츨부(401)는 주파수 분할부에 의해 주파수 대역별로 분할된 오디오 신호의 에너지 크기 대비 에너지 분포에 대한 누적 히스토그램을 생성한다.
한계값 추출부(402)는 에너지 산출부(402)에 의해 생성된 누적 히스토그램에 기초하여 에너지 상위 특정 퍼센트 분위에 해당되는 값을 주파수 대역별 한계범위의 경계값으로 추출한다.
예를 들어, 주파수 대역별 에너지 처리부(112)는 도 4에 도시한 바와 같이, 누적 히스토그램의 에너지 상위 8% 내지 16%의 값, 상위 4% 내지 8%의 값, 상위2% 내지 4%의 값, 상위 2% 이내의 값을 산출하고, 산출한 에너지 값을 각각 주파수 대역별 한계범위로 설정한다.
도 6은 본 발명의 일 실시예에 따른 악기 분류부(115)의 구성을 도시한 도면이며, 도 7은 오디오 신호에 피크 확률값이 적용된 결과를 도시한 그래프이다.
악기 분류부(115)는 확률 데이터 베이스(501)와 인식 모듈(502)을 포함한다.
변화 패턴 획득부(501)는 피크 확률 산출부(113)에 의해 생성된 확률값에 음원제공 장치로부터 수신한 오디오 신호를 적용하여 피크에서의 변화 패턴을 획득한다.
음원 인신부(502)는 변화 패턴 획득부(501)에 의해 획득된 변화 패턴을 이용하여 오디오 신호의 연주악기의 종류를 구분한다.
즉, 음원 인식부(502)는 전술한 통계적 모델링을 통해 획득된 시간 대비 에 너지의 변화 패턴을 이용하여 악기의 종류를 구분할 수 있다. 다시 말해, 수신된 오디오 신호의 시간 대비 피크 주변 에너지를 통계적 모델링한 후, 획득한 피크 주변의 변화 패턴이 기타와 같이 저주파 영역에서 고주파 영역으로 갈수록 고르게 감소하면, 음원 인식부(502)는 오디오 신호의 악기를 기타로 분류할 수 있다. 또한 변화 패턴이 피아노와 같이 고주파 영역으로 가면서 불규칙적으로 감소하면, 음원 인식부(502)는 오디오 신호의 악기를 피아노로 분류할 수 있다.
도 8은 본 발명의 일 실시예에 따른 음원 분류를 위한 연주 악기 인식 방법의 흐름을 도시한 순서도이다.
먼저, 악기 인식 시스템은 연속적인 오디오 신호를 수신하고, 수신한 오디오 신호를 여러 개의 주파수 대역으로 분할한다(S801). 이처럼, 다수의 주파수 대역으로 분할하여 피크의 위치를 명확히 파악하고, 주파수 대역별로 분할하여 피크 존재 가능성 확률을 모델링하여 복수의 악기를 구분할 수 있다.
악기 인식 시스템은 단계(S801)에서 분할된 각각의 주파수 대역에 대하여 에너지 크기 대비 에너지 분포에 대한 누적 히스토그램을 생성한다(S802). 즉, 각 주파수 대역별로 에너지 값을 산출하고, 주파수 대역별 에너지 크기 대비 에너지 분포에 대한 누적 히스토그램을 생성한다. 악기 인식 시스템은 생성한 누적 히스토그램에서 에너지 상위 특정 퍼센트 분위에 해당되는 값 예를 들면, 상위8% 내지 16%, 4% 내지 8%, 2% 내지 4%, 2% 이내에 해당하는 값을 주파수 대역별 한계범위로 추출한다.
단계 S802 후, 악기 인식 시스템은 단계(S802)에서 추출한 한계범위에 가중 치를 적용하여 주파수 대역별 피크 존재 확률값을 산출한다(S803).
가중치는 누적 히스토그램의 에너지 상위 분위 순서에 따라 설정될 수 있다. 예를 들어 에너지 상위 8% 내지 16%에 대하여 이에 비례하는 값인 0.84, 4% 내지 8%에 대하여 0.92, 2% 내지 4%면 0.96, 2%이내에 대하여 0.98가 가중치로 설정할 수 있다. 단계(S802)에서 추출된 한계범위 이외의 에너지 값에 대하여는 가중치 0이 적용될 수 있다. 이를 통해 한계 범위를 이용하여 피크 주변 에너지의 변화를 파악할 수 있다.
단계 S803 후, 악기 인식 시스템은 단계(S803)에서 산출된 주파수 대역별 피크 존재 확률값을 합산하여, 전체 주파수에 대한 피크 존재 확률값을 산출한다(S804).
즉, 악기 인식 시스템(100)은 가중치를 적용한 주파수 대역별 결과를 합산하여 피크 주변의 신호만을 남겨서 피크를 중심으로 그 주변의 시간 대비 에너지 변화를 파악할 수 있다.
단계(S804) 후, 악기 인식 시스템은 전체 주파수 대역에 대한 피크 존재 확률값에 기초하여 악기를 분류한다(S805).
즉, 전체 주파수 대역에 대한 피크 존재 확률값에 단계(S801)에서 수신한 오디오 신호를 적용한 결과를 피크 중심의 패턴과 비교하여 악기의 종류를 구분한다.
즉, 악기 마다의 피크 주변 에너지 분포 확률 패턴의 차이를 이용하여 오디오 신호에서 악기를 구분할 수 있다. 예를 들면 기타와 같이 고주파 영역으로 갈수록 피크 주변의 에너지가 고르게 감소하면, 악기 인식 시스템은 오디오 신호의 연주 악기를 기타로 분류할 수 있다. 또한, 피아노와 같이 고주파 영역으로 갈수록 에너지 피크 주변 변화가 불규칙적이면, 악기 인식 시스템은 연주 악기를 피아노로 분류할 수 있다.
이와 같이 본 발명의 일 실시예에 따른 오디오 신호의 연주 악기를 분류하는 방법에 의하여 각 악기 마다 시간 대비 에너지 피크 주변 변화를 가중치를 적용하여 모델링함으로써 에너지 피크 주변의 에너지 변화에 초점을 맞추는 선별적인 관찰을 할 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
도 1a 내지 도 1c는 각각 기타, 피아노 바이올린 독주 연주곡 음원 일부의 스펙트로그램을 나타내는 도면,
도 2는 본 발명의 일 실시예에 따른 악기 인식 시스템의 구성을 도시한 도면,
도 3a 내지 도 3e는 본 발명의 일 실시예에 따라 산출된 주파수 대역별 피크 존재 확률값을 나타내는 그래프를 도시한 도면,
도 4는 본 발명의 일 실시예에 따른 주파수 대역별 에너지 처리부의 구성을 나타내는 도면,
도 5는 본 발명의 일 실시예에 따라 생성된 주파수 대역별 누적 히스토그램을 도시한 도면,
도 6은 본 발명의 일 실시예에 따른 악기 분류부의 구성을 도시한 도면,
도 7은 본 발명의 일 실시예에 따른 오디오 신호에 피크 확률값이 적용된 결과를 도시한 그래프,
도 8은 본 발명의 일 실시예에 따른 악기 인식 방법을 나타내는 흐름을 도시한 순서도.
*도면의 주요 부분에 대한 부호의 설명*
100 : 악기 인식 시스템 111 : 주파수 분할부
112 : 주파수 대역별 에너지 처리부 113 : 피크 확률 산출부
114 : 악기 분류부

Claims (7)

  1. 음원 분류를 위한 악기 인식 시스템에 있어서,
    연속적인 오디오 신호를 복수의 주파수 대역별로 분할하는 주파수 분할부,
    상기 분할된 주파수 대역별로 미리 설정된 복수의 한계범위에 대하여, 상기 복수의 한계범위에 각각 대응하는 에너지 값을 획득하는 주파수 대역별 에너지 처리부,
    상기 미리 설정된 복수의 한계범위에 대응하는 에너지 값에 미리 설정된 가중치를 차별하여 적용하여 피크가 존재할 확률값을 산출하는 피크 확률 산출부 및
    상기 피크 존재 확률값을 상기 오디오 신호에 적용하여 획득한 변화 패턴과 미리 저장된 악기별 패턴을 비교하여 상기 오디오 신호를 생성한 악기를 분류하는 악기 분류부
    를 포함하는 음원 분류를 위한 악기 인식 시스템.
  2. 제 1 항에 있어서,
    상기 주파수 대역별 에너지 처리부는
    주파수 대역별로 분할된 신호의 에너지 크기 대비 에너지 분포에 대한누적 히스토그램을 생성하는 에너지 산출부 및
    상기 생성된 누적 히스토그램에 기초하여 에너지 크기에 대해 미리 설정된 범위를 주파수 대역별 한계범위로 설정하는 한계범위 설정부
    를 포함하는 음원 분류를 위한 악기 인식 시스템.
  3. 제 2 항에 있어서,
    상기 한계범위는 상기 누적 히스토그램의 에너지 크기에 있어서 미리 설정된 상위 범위에 해당하는 값을 기준으로 설정되는 것인 음원 분류를 위한 악기 인식 시스템.
  4. 제 1 항에 있어서,
    상기 악기 분류부는
    상기 피크 확률 산출부 결과에 의해 생성된 확률값에 음원 제공장치로부터 수신한 오디오 신호를 적용하여 피크에서의 변화 패턴을 획득하는 변화 패턴 획득부 및
    상기 변화 패턴 획득부에 의해 획득된 변화 패턴을 이용하여 오디오 신호의 연주악기의 종류를 구분하는 음원 인식부
    를 포함하는 음원 분류를 위한 악기 인식 시스템.
  5. 음원 분류를 위한 악기 인식 방법에 있어서,
    (a) 연속적인 오디오 신호를 복수 개의 주파수 대역으로 분할하는 단계,
    (b) 분할된 각각의 주파수 대역에 대한 에너지 값에 대하여 복수의 한계범위를 획득하는 단계,
    (c) 상기 복수의 한계범위에 각각 대응하는 에너지 값에 미리 설정된 가중치를 차별하여 적용하여 주파수 대역별 피크 존재 확률값을 획득하는 단계,
    (d) 주파수 대역별 결과를 합산하여 상기 오디오 신호에 대한 시간 대비 피크 존재 확률값을 산출하는 단계 및
    (e) 상기 시간 대비 피크 존재 확률값이 적용된 상기 오디오 신호와 미리 저장된 악기별 피크 패턴을 비교하여 악기를 분류하는 단계
    를 포함하는 음원 분류를 위한 악기 인식 방법.
  6. 제 5 항에 있어서,
    상기 (b) 단계는
    (b1) 각 주파수 대역별 에너지 크기 대비 에너지 분포에 대한 누적 히스토그램을 생성하는 단계 및
    (b2) 상기 누적 히스토그램을 이용하여 주파수 대역별 한계범위를 설정하는 단계
    를 포함하는 음원 분류를 위한 악기 인식 방법.
  7. 제 5 항에 있어서,
    상기 (c) 단계에서,
    상기 주파수 대역별 피크 존재 확률값은 상기 한계 범위에 포함된 에너지 값에 한계 범위에 대응하는 가중치를 적용하여 산출되는 것인 음원 분류를 위한 악기 인식 방법.
KR1020090128290A 2009-12-21 2009-12-21 음원 분류를 위한 악기 인식 시스템 및 방법 KR101092228B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090128290A KR101092228B1 (ko) 2009-12-21 2009-12-21 음원 분류를 위한 악기 인식 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090128290A KR101092228B1 (ko) 2009-12-21 2009-12-21 음원 분류를 위한 악기 인식 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20110071665A KR20110071665A (ko) 2011-06-29
KR101092228B1 true KR101092228B1 (ko) 2011-12-12

Family

ID=44402724

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090128290A KR101092228B1 (ko) 2009-12-21 2009-12-21 음원 분류를 위한 악기 인식 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101092228B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761965B (zh) * 2014-01-09 2016-05-25 太原科技大学 一种乐器信号的分类方法
CN113823268A (zh) * 2021-08-31 2021-12-21 北京艺旗网络科技有限公司 一种音乐智能识别方法及装置
CN115064184A (zh) * 2022-06-28 2022-09-16 镁佳(北京)科技有限公司 一种音频文件乐器含量识别向量表示方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10319948A (ja) * 1997-05-15 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 音楽演奏に含まれる楽器音の音源種類判別方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10319948A (ja) * 1997-05-15 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 音楽演奏に含まれる楽器音の音源種類判別方法

Also Published As

Publication number Publication date
KR20110071665A (ko) 2011-06-29

Similar Documents

Publication Publication Date Title
US8036884B2 (en) Identification of the presence of speech in digital audio data
Lehner et al. Online, loudness-invariant vocal detection in mixed music signals
Chen et al. Electric Guitar Playing Technique Detection in Real-World Recording Based on F0 Sequence Pattern Recognition.
Zlatintsi et al. Multiscale fractal analysis of musical instrument signals with application to recognition
CN102723079B (zh) 基于稀疏表示的音乐和弦自动识别方法
Krishna et al. Music instrument recognition: from isolated notes to solo phrases
KR100721973B1 (ko) 분류알고리즘을 이용한 음악장르 분류 방법
US11847998B2 (en) Methods and apparatus for harmonic source enhancement
JP2010210758A (ja) 音声を含む信号の処理方法及び装置
US20130339011A1 (en) Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis
KR101092228B1 (ko) 음원 분류를 위한 악기 인식 시스템 및 방법
Teixeira et al. Ulises: a agent-based system for timbre classification
WO2019053544A1 (en) IDENTIFICATION OF AUDIOS COMPONENTS IN AN AUDIO MIX
JP6565548B2 (ja) 音響解析装置
Banchhor et al. Musical instrument recognition using spectrogram and autocorrelation
Stark et al. Real-time chord recognition for live performance
JP2008233725A (ja) 楽曲種類判別装置、楽曲種類判別方法、および楽曲種類判別プログラム
Kothe et al. Musical instrument recognition using k-nearest neighbour and Support Vector Machine
Tjahyanto et al. Fft-based features selection for javanese music note and instrument identification using support vector machines
Zlatintsi et al. Musical instruments signal analysis and recognition using fractal features
Dziubiński et al. High accuracy and octave error immune pitch detection algorithms
Bhalke et al. Hybridization of fractional fourier transform and acoustic features for musical instrument recognition
Lewis et al. Blind signal separation of similar pitches and instruments in a noisy polyphonic domain
Yoshii et al. Drum sound identification for polyphonic music using template adaptation and matching methods
Rocamora et al. Separation and classification of harmonic sounds for singing voice detection

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20141002

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151201

Year of fee payment: 5