KR20100098100A - 음성과 음악을 구분하는 방법 및 장치 - Google Patents
음성과 음악을 구분하는 방법 및 장치 Download PDFInfo
- Publication number
- KR20100098100A KR20100098100A KR1020090017109A KR20090017109A KR20100098100A KR 20100098100 A KR20100098100 A KR 20100098100A KR 1020090017109 A KR1020090017109 A KR 1020090017109A KR 20090017109 A KR20090017109 A KR 20090017109A KR 20100098100 A KR20100098100 A KR 20100098100A
- Authority
- KR
- South Korea
- Prior art keywords
- music
- voice
- band
- frequency
- signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000008859 change Effects 0.000 claims abstract description 85
- 230000008569 process Effects 0.000 claims description 10
- 230000004044 response Effects 0.000 abstract description 9
- 230000003595 spectral effect Effects 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 4
- 210000000056 organ Anatomy 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
본 발명은 음성과 음악을 구분하는 방법에 관한 것으로, 본 발명의 일 실시 예에 따른 음성과 음악을 구분하는 방법은 입력되는 신호에서 일정 구간 마다 피크 주파수 변화량의 평균을 산출하는 단계; 및 상기 피크 주파수 변화량이 임계값 이상이면 상기 신호를 음성으로 분류하고, 상기 피크 주파수 변화량이 임계값 미만이면 상기 신호를 음악으로 분류하는 단계를 포함한다. 본 발명에 의하면, 음성과 음악을 구분함에 있어서 빠른 응답을 유지하면서도 높은 성능을 구현할 수 있는 효과가 있다.
Description
본 발명은 음성인식 시스템의 전처리 과정에 관한 것으로, 특히, 음성과 음악을 구분하는 방법 및 장치에 관한 것이다.
개인용 컴퓨터의 고성능화, 대용량 저장 장치의 보편화 및 월드와이드웹(World Wide Web; WWW)으로 대변되는 컴퓨터 네트워크의 발전에 따라 디지털로 표현되는 멀티미디어 정보의 생성, 전송, 가공이 매우 용이해졌다. 빠르게 진보하는 정보환경 속에서 엄청난 속도로 증가하는 멀티미디어 정보 중에서 사용자가 필요로 하는 내용의 정보를 찾기 위해 기존의 기반 검색은 효과적이지 않다. 따라서, 사용자가 원하는 정보를 내용에 기반하여 검색할 수 있는 방법이 요구되고 있다.
최근 각종 응용에서 멀티미디어 데이터 중에서 오디오 신호의 음성과 음악을 구분하는 연구가 계속 진행되고 있다. 특히, 음성 인식 시스템의 응용 분야가 넓어지면서, 실제 생활 환경에서도 좋은 성능을 얻기 위한 전처리 방법이 많은 관심을 받고 있다. 음성 인식을 위한 전처리 응용 분야도 다시 세분화 되면서 방송과 같은 음악 환경에서 음성을 음악으로부터 구분해 내는 방법에 대한 연구가 진행되고 있 다.
기존의 SMD (Speech and Music Discrimination) 방법을 살펴보면 음악의 주요 특성이라고 생각될 수 있는 시간에 따라 변하는 리듬을 이용하여 음성과 음악을 구분하는 방법들이 제안되었다. 이러한 방법들은 대체로 음악은 음성의 변화에 비해 상대적으로 느리며 비교적 일정한 간격으로 변한다는 원리를 사용하였기 때문에, 음악의 종류에 따라 템포가 빨라지거나 사용하는 악기가 변화하면 그 성능이 크게 변할 수밖에 없다.
2007년에 발표된 논문 "Speech/music discrimination for robust speech recognition in robots" (M. Y. Choi, H. J. Song, and H. S. Kim, IEEE International Symposium on Robot and Human Interactive Communication, pp. 118-121)에서는 일정한 프레임 사이의 켑스트럼 거리의 최소값의 평균 (Mean of Minimum Cepstral Distance; MMCD)이 작으면 음성으로 분류하고 크면 음악으로 구분하였다. 또한, 스펙트럼 플럭스(Spectral Flux)의 경우 프레임 사이의 스펙트럼 에너지 차이를 구하여 음성과 음악을 구분하기도 하였다. 이러한 방법들은 비교적 좋은 성능을 보였지만, 빠른 응답을 얻지 못하는 단점을 갖고 있다.
따라서, 본 발명이 이루고자 하는 첫 번째 기술적 과제는 빠른 응답을 유지하면서 높은 성능을 구현할 수 있는 음성과 음악을 구분하는 방법을 제공하는 데 있다.
본 발명이 이루고자 하는 두 번째 기술적 과제는 빠른 응답을 유지하면서 높은 성능을 구현할 수 있는 음성과 음악을 구분하는 장치를 제공하는 데 있다.
상기의 첫 번째 기술적 과제를 이루기 위하여, 본 발명의 일 실시 예에 따른 음성과 음악을 구분하는 방법은 입력되는 신호에서 일정 구간 마다 피크 주파수 변화량의 평균을 산출하는 단계; 및 상기 피크 주파수 변화량이 임계값 이상이면 상기 신호를 음성으로 분류하고, 상기 피크 주파수 변화량이 임계값 미만이면 상기 신호를 음악으로 분류하는 단계를 포함한다.
본 발명의 일 실시 예에 따른 음성과 음악을 구분하는 방법은 상기 분류된 결과에 따라, 상기 신호로부터 음성으로부터 분류된 신호를 추출하는 단계를 더 포함할 수 있다.
바람직하게는, 상기 피크 주파수 변화량은 d(t,b)는 시간 t에서 밴드 b의 주파수 변화량이며, f(t,b)는 시간 t에 밴드 b의 피크 주파수일 때, 수학식 에 따라 연산되는 순간 주파수 변화량을 이용하여 산출될 수 있 다. 여기서, 상기 순간 주파수 변화량은 f max 가 변화 제한 폭일 때, 이면, 0의 값을 갖도록 할 수 있다.
상기의 첫 번째 기술적 과제를 이루기 위하여, 본 발명의 다른 실시 예에 따른 음성과 음악을 구분하는 방법은 음성과 음악이 혼합된 신호를 복수의 밴드로 구분하는 단계; 상기 각 밴드마다 일정 구간 동안의 피크 주파수 변화량의 평균을 산출하는 단계; 및 상기 피크 주파수 변화량이 임계값 이상인 밴드의 신호를 음성으로 분류하고, 상기 피크 주파수 변화량이 임계값 미만인 밴드의 신호를 음악으로 분류하는 단계를 포함한다.
바람직하게는, 상기 복수의 밴드는 주파수 축 상에서 125Hz 간격으로 분할된 주파수 대역일 수 있다.
바람직하게는, 상기 복수의 밴드는 270Hz부터 3010Hz 사이의 주파수 대역을 일정 간격으로 분할한 주파수 대역일 수 있다.
바람직하게는, 상기 피크 주파수 변화량은 d(t,b)는 시간 t에서 밴드 b의 주파수 변화량이며, f(t,b)는 시간 t에 밴드 b의 피크 주파수일 때, 수학식 에 따라 연산되는 순간 주파수 변화량을 이용하여 산출될 수 있다.
바람직하게는, 상기 피크 주파수 변화량의 평균을 산출하는 단계에서, 각 밴 드마다 평균 에너지를 산출하고, 상기 산출된 평균 에너지가 상기 신호의 전체 평균 에너지의 일정 비율 이하인 밴드의 순간 주파수 변화량을 0으로 계산할 수도 있다.
상기의 두 번째 기술적 과제를 이루기 위하여, 본 발명의 일 실시 예에 따른 음성과 음악을 구분하는 장치는 음성과 음악이 혼합된 신호를 복수의 밴드로 구분하고, 상기 각 밴드마다 일정 구간 동안의 피크 주파수 변화량의 평균을 산출하는 하모닉스 변화 추적부; 및 상기 피크 주파수 변화량이 임계값 이상인 밴드의 신호를 음성으로 분류하고, 상기 피크 주파수 변화량이 임계값 미만인 밴드의 신호를 음악으로 분류하는 과정을 각 밴드별로 수행하는 음성 음악 구별부를 포함한다.
바람직하게는, 상기 복수의 밴드는 주파수 축 상에서 125Hz 간격으로 분할된 주파수 대역일 수 있다.
본 발명에 의하면, 음성과 음악을 구분함에 있어서 빠른 응답을 유지하면서도 높은 성능을 구현할 수 있는 효과가 있다.
이하에서는 도면을 참조하여 본 발명의 바람직한 실시 예를 설명하기로 한다. 그러나, 다음에 예시하는 본 발명의 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시 예에 한정되는 것은 아니다.
주파수 분석을 통해 음성과 음악의 특성을 살펴보면, 대부분 악기는 특정 주파수 소리를 지속적으로 내도록 고안되어 있다는 것을 알 수 있고, 음성은 조음 현 상에 의해서 점차적인 주파수 변화가 발생하는 것을 알 수 있다.
본 발명에서는 이러한 음성과 음악이 갖고 있는 주파수 변화 특성을 이용하여 음성과 음악을 구별한다. 즉, 음성과 음악을 구분하기 위한 특성 값으로서 주파수 변화율을 사용한다.
이하에서는 음성과 음악의 스펙트로그램 상에서의 특성 차이를 비교하여 주파수 도메인에서 음성과 음악을 구분하기 위한 특성을 분석한다.
도 1a 및 1b는 단모음 '아'(aa)와 '이'(iy)의 스펙트로그램에 각 밴드의 최고 에너지 값을 실선으로 표시한 그래프이다.
각 밴드에서 최고 에너지 값을 스펙트럴 피크 (spectral peak)라고 한다. 도 1a 및 1b의 '아'와 '이'는 어느 정도 일정한 주파수 간격으로 스펙트럴 피크가 발생한다.
도 1a의 '아'의 경우, 음소가 지속되는 중간 부분은 상대적으로 피크의 변화가 작고 음소가 시작되는 부분과 특히 끝나는 부분에서는 변화가 크게 발생하는 것을 볼 수 있다. 이 경우는 화자가 음소의 중간 부분은 일정한 주파수의 소리를 냈지만 발성하는 전후 과정에서 조음 기관을 움직여 다른 주파수로 전이하는 발성을 했기 때문이다.
도 1b의 '이'의 경우에는 단모음이지만 음소가 발성되는 전 과정에서 피크의 변화가 발생한다. 많은 경우 화자가 의도적으로 해당 주파수를 유지하지 않으면 단모음이 발성되는 동안에도 높은 주파수 또는 낮은 주파수로 점차적으로 움직여가는 주파수 변화가 쉽게 발생한다. 이와 같이 각각의 음소를 발성하기 위해 발성 기관 을 움직이는 순간마다, 밴드 별 에너지가 최고인 지점의 주파수가 점차적으로 변화하는 것을 알 수 있다. 즉, 음성은 하모닉스의 변화가 매 순간 점차적으로 발생한다. 그 이유는 음성은 성도를 통해서 조음 기관이 변형될 때 주파수 변화가 발생하는데, 사람은 조음 기관을 움직이며 소리를 발성하므로 소리를 변화시킬 때마다 주파수 대역이 연속적으로 변화하기 때문이다. 이는 특히 악기가 기계적으로 단절된 주파수의 소리를 순간적으로 내는 것과는 구별된다.
도 2는 연속 문장의 스펙트로그램에 밴드별 피크를 표시한 그래프이다.
도 2에 사용된 연속 문장은 "She had your dark suit in greasy wash water all year" 이다. 연속 문장에서는 다양한 주파수 변화를 볼 수 있다. 즉, 현재 음소에서 다음 음소로 변화해 가면서 주파수 변화가 점차적으로 발생하고, 이미 살펴 본 단모음의 경우와 같이 음소가 시작하거나 끝나는 부분에서도 주파수 변화가 발생한다.
도 3a는 기타 연주곡의 스펙트로그램에 스펙트럴 피크를 표시한 그래프이다.
이 경우, 밴드 별 스펙트럴 피크가 일정하게 유지되다가 순간적으로 변화되는 것을 볼 수 있다. 일반적으로 악기들은 일정한 주파수의 소리를 내도록 고안되어 있으며, 연주된 소리가 특정 주파수를 일정한 시간 동안 지속하다가 새로운 음이 발생할 때 다른 주파수로 순간 변화하게 된다. 즉, 음악에서는 음성과 같이 점진적 주파수 변화는 발생하지 않는다.
도 3b는 비교적 빠르고 강한음의 드럼 연주곡의 스펙트로그램에 스펙트럴 피크를 표시한 그래프이다.
드럼과 같은 타악기의 경우 주파수 변화 현상은 거의 없다는 것을 알 수 있다.
이러한 분석을 통해 음악은 특정 주파수에서 시작하여 일정한 시간 동안 같은 주파수를 유지하는 반면, 음성의 경우 발성하는 매 순간마다 지속적으로 조금씩 변한다는 사실을 확인할 수 있다. 이하에서는 이러한 특성을 이용하여 음성과 음악을 구분하는 방법을 설명한다.
본 발명은 주파수 변화율을 이용하여 음성과 음악을 구분하는 STR (Spectral Transition Rate) 특징 기반 SMD 알고리즘을 제공한다.
피크 주파수의 변화량은 아래 수학식 1과 같이 계산한다.
여기서 d(t,b)는 시간 t에서 밴드 b의 주파수 변화량이며, f(t,b)는 시간 t에 밴드 b의 피크 주파수이고, f max 는 변화 제한 폭이다. 순간 주파수 변화량은 시간 t와 t-1 사이의 주파수 변화량이다. 이때, 주파수 변화량이 f max 이상이면 새로운 소리가 다른 주파수에 발생한 것으로 간주하고 d(t,b)를 0으로 계산하는 것이 바람직하다. 또한, 밴드의 평균 에너지가 전체의 평균 에너지에 비해 일정한 비율 이하인 경우에도 순간 변화량 d(t,b)를 0으로 계산하여 상대적으로 낮은 에너지를 갖는 주파수 대역의 변화를 제외 하도록 할 수도 있다.
수학식 2는 일정한 기간 동안의 피크 주파수 변화량이다.
여기서 STR(t)은 입력된 소리가 T 시간 동안 점차적으로 높은 주파수 대역으로 또는 낮은 주파수 대역으로 움직여가는 변화량이다. 순간 주파수 변화량인 d(t,b)를 각 밴드 별로 T까지 더한 후 그 제곱 값을 유효 밴드까지 합한 값이다. 여기서 start부터 end까지의 대역이 주파수 변화 현상을 관찰하는 유효 밴드 대역이다. 음성과 음악을 구분하는 특징 값을 만들기 위해서, 하모닉스의 변화를 일정한 밴드로 나누어 그 추이를 추적한다. 예를 들어, 평균 270Hz부터 3,010Hz 사이에 포만트 (formant) 주파수와 평균 피치를 고려하여, 주파수 대역을 125Hz 간격으로 나누어 스펙트럴 피크 값을 추적할 수 있다.
음성의 STR(t)은 소리가 변화하는 순간에 그 크기가 크게 나타나지만 소리가 유지되는 구간에서는 작게 나타날 수 있다. 이런 경우를 보상하기 위해 일정한 구간의 평균값을 사용한다. 수학식 3은 SMD 알고리즘에서 사용하는 최종 STR 값을 구하기 위한 식이다.
여기서 W는 평균을 구하는 윈도우의 크기이다.
도 4a 및 4b는 각각 도 1a 및 1b의 단모음 '아'(aa)와 '이'(iy)에 대한 STR 값을 도시한 그래프이다.
단모음 '아'의 경우에는 주파수 변화 현상이 발성 시작 부분과 끝 부분에서 크게 발생하므로 시작하는 시점과 끝나는 시점에서 STR 값이 크게 나타난다. 단모음 '이'의 경우는 발성하는 과정에서 점차적으로 낮은 주파수로 변화하는 경우다. 주파수 변화 현상은 발성 초기에 크게 나타나므로 STR 값도 전반부에서 크게 나타난다.
도 5는 연속 문장의 STR 값을 도시한 그래프이다.
연속 문장에 대한 음성의 경우 다양한 주파수 변이 현상으로 인해 STR 값이 매 순간 크게 나타난다.
도 6a 및 6b는 각각 도 3a의 기타 연주곡 및 3b의 드럼 연주곡의 STR 값을 도시한 그래프이다.
기타와 드럼 연주곡 모두 음성과 비교하면 주파수 변화 현상이 적게 발생하므로 STR 값이 음성에 비해 상대적으로 작게 나타난다.
본 발명의 일 실시 예에 따른 음성과 음악을 구분하는 방법에서는 테스트 데이터의 STR 값이 임계값 보다 이상이면 음성으로 분류하고, 작으면 음악으로 분류한다.
도 7은 본 발명의 일 실시 예에 따른 음성과 음악을 구분하는 방법의 흐름도이다.
먼저, 입력되는 신호를 복수의 밴드로 구분한다(S710). 이때, 입력되는 신호 는 음성과 음악이 혼합된 신호일 수 있다.
다음, 각 밴드마다 일정 구간 동안의 피크 주파수 변화량의 평균을 산출한다(S720). 이 과정(S720)은 입력 신호가 종료될 때까지 계속될 수 있으므로, 피크 주파수 변화량을 추적하는 과정이다.
다음, 산출되는 피크 주파수 변화량이 미리 정해진 임계값 이상인 밴드의 신호를 음성으로 분류한다(S730, S740). 한편, 산출되는 피크 주파수 변화량이 임계값 미만인 밴드의 신호는 음악으로 분류한다(S730, S745). 여기서, 비교 기준이 되는 임계값은 반복된 테스트 및 학습의 결과로부터 얻어진 학습 데이터를 이용하여 음성과 음악의 STR 분포를 구하고 음성과 음악의 구분 오차가 최소인 STR 값으로 정해질 수 있다.
마지막으로, 신호의 입력이 종료되었는지 판단하고, 종료되지 않았으면, 피크 주파수 변화량을 추적하는 과정(S720)부터 시작하여 위의 과정을 반복한다.
도 8은 본 발명의 일 실시 예에 따른 음성과 음악을 구분하는 장치의 블록도이다.
하모닉스 변화 추적부(810)는 입력되는 신호를 복수의 밴드로 구분하고, 상기 각 밴드마다 일정 구간 동안의 피크 주파수 변화량의 평균을 산출한다. 여기서, 입력되는 신호는 음성과 음악이 혼합된 신호일 수 있다. 하모닉스 변화 추적부(810)는 피크 주파수 변화량을 주기적으로 산출하거나 일정한 패턴으로 주어진 시간에 피크 주파수 변화량을 산출할 수도 있다.
음성 음악 구별부(820)는 하모닉스 변화 추적부(810)에서 산출되는 피크 주 파수 변화량이 임계값 이상인 밴드의 신호를 음성으로 분류하고, 하모닉스 변화 추적부(810)에서 산출되는 피크 주파수 변화량이 임계값 미만인 밴드의 신호를 음악으로 분류한다.
음성 음악 구별부(820)의 음성과 음악의 구분에 따라 음성 신호와 음악 신호를 생성할 수 있다. 음성 추출부(830)와 음악 추출부(840)는 당업자의 필요에 따라 추가 또는 생략될 수 있다. 음성 추출부(830)는 음성 음악 구별부(820)에서 분류된 밴드의 신호들을 이용하여 음성 신호를 생성한다. 또한, 음악 추출부(840)는 음성 음악 구별부(820)에서 분류된 밴드의 신호들을 이용하여 음악 신호를 생성한다.
이하에서는 본 발명의 일 실시 예에 따른 음성과 음악을 구분하는 장치의 성능을 평가한다.
실험을 위한 음성 데이터로 TIMIT 데이터 베이스를 사용하였으며, 음악 데이터로는 여러 장르의 음악을 사용하였다. 소리는 16,000Hz 모노로 녹음하였으며, 푸리에 변환 (Fourier Transform) 윈도우의 크기는 128ms로, 10ms 간격으로 전진하며 SMD를 수행하였다. STR 계산에 사용된 유효 음성 주파수 대역으로는 125Hz에서 2,000Hz까지로 하였다.
수학식 1에서 f max는 70.3Hz으로 하였으며, 수학식 2에서 주파수 변화 계산을 위한 시간 T는 실험을 통해 최적한 값인 200ms을 사용하였다. STR의 평균 윈도우 W에 따라서 임계값을 구하여 실험하였다. 또한, STR의 빠른 응답에 대한 성능을 알아보기 위해, 기존 MMCD의 켑스트럼 거리 (cepstral distance) 계산을 위한 시간 보다 작은 T=150ms, W=150ms으로도 실험을 진행하였다.
도 9는 평균 윈도우 W가 250ms인 경우, MMCD와 본 발명의 일 실시 예에 따른 STR의 음성과 음악의 장르별 SMD 성능을 비교한 그래프이다.
MMCD는 음악의 종류에 따라서 성능의 변화가 크다. 반면, 본 발명의 일 실시 예에 따른 STR은 음악의 종류에 무관하게 상대적으로 안정된 성능을 보인다.
도 10은 STR과 MMCD의 평균 SMD 성능을 도시한 그래프이다.
본 발명의 일 실시 예에 따라 STR을 이용한 SMD는 평균 윈도우 W의 크기가 큰 경우 MMCD와 유사한 성능을 나타낸다. 윈도우 W가 크기가 작은 경우, 즉 빠른 응답에서도 MMCD에 비해 높은 성능을 보이는 것을 확인할 수 있다. 본 발명의 일 실시 예에 따른 알고리즘을 기존의 알고리즘과 비교할 때, 상대적으로 빠른 응답에서 좋은 성능을 보인다는 것이 확인된다.
본 발명은 소프트웨어를 통해 실행될 수 있다. 바람직하게는, 본 발명의 일 실시 예에 따른 음성과 음악을 구분하는 방법을 컴퓨터에서 실행시키기 위한 프로그램을 컴퓨터로 읽을 수 있는 기록매체에 기록하여 제공할 수 있다. 소프트웨어로 실행될 때, 본 발명의 구성 수단들은 필요한 작업을 실행하는 코드 세그먼트들이다. 프로그램 또는 코드 세그먼트들은 프로세서 판독 가능 매체에 저장되거나 전송 매체 또는 통신망에서 반송파와 결합된 컴퓨터 데이터 신호에 의하여 전송될 수 있다.
컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기 록 장치의 예로는 ROM, RAM, CD-ROM, DVD±ROM, DVD-RAM, 자기 테이프, 플로피 디스크, 하드 디스크(hard disk), 광데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 장치에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
본 발명은 도면에 도시된 일 실시 예를 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시 예의 변형이 가능하다는 점을 이해할 것이다. 그리고, 이와 같은 변형은 본 발명의 기술적 보호범위 내에 있다고 보아야 한다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해서 정해져야 할 것이다.
본 발명은 음성과 음악을 구분함에 있어서 빠른 응답을 유지하면서도 높은 성능을 구현할 수 있는 음성과 음악을 구분하는 방법 및 장치에 관한 것으로, 녹음 장치, 음향 편집 장치, 데이터 검색 방법, 음성인식 시스템의 전처리 장치 등에 적용될 수 있다.
도 1a 및 1b는 단모음 신호의 스펙트로그램에 각 밴드의 최고 에너지 값을 실선으로 표시한 그래프이다.
도 2는 연속 문장의 스펙트로그램에 밴드별 피크를 표시한 그래프이다.
도 3a는 기타 연주곡의 스펙트로그램에 스펙트럴 피크를 표시한 그래프이다.
도 3b는 비교적 빠르고 강한음의 드럼 연주곡의 스펙트로그램에 스펙트럴 피크를 표시한 그래프이다.
도 4a 및 4b는 각각 도 1a 및 1b의 단모음에 대한 STR 값을 도시한 그래프이다.
도 5는 연속 문장의 STR 값을 도시한 그래프이다.
도 6a 및 6b는 각각 도 3a의 기타 연주곡 및 3b의 드럼 연주곡의 STR 값을 도시한 그래프이다.
도 7은 본 발명의 일 실시 예에 따른 음성과 음악을 구분하는 방법의 흐름도이다.
도 8은 본 발명의 일 실시 예에 따른 음성과 음악을 구분하는 장치의 블록도이다.
도 9는 평균 윈도우 W가 250ms인 경우, MMCD와 본 발명의 일 실시 예에 따른 STR의 음성과 음악의 장르별 SMD 성능을 비교한 그래프이다.
도 10은 STR과 MMCD의 평균 SMD 성능을 도시한 그래프이다.
Claims (13)
- 입력되는 신호에서 일정 구간 마다 피크 주파수 변화량의 평균을 산출하는 단계; 및상기 피크 주파수 변화량이 임계값 이상이면 상기 신호를 음성으로 분류하고, 상기 피크 주파수 변화량이 임계값 미만이면 상기 신호를 음악으로 분류하는 단계를 포함하는, 음성과 음악을 구분하는 방법.
- 제1항에 있어서,상기 분류된 결과에 따라, 상기 신호로부터 음성으로부터 분류된 신호를 추출하는 단계를 더 포함하는 것을 특징으로 하는, 음성과 음악을 구분하는 방법.
- 음성과 음악이 혼합된 신호를 복수의 밴드로 구분하는 단계;상기 각 밴드마다 일정 구간 동안의 피크 주파수 변화량의 평균을 산출하는 단계; 및상기 피크 주파수 변화량이 임계값 이상인 밴드의 신호를 음성으로 분류하고, 상기 피크 주파수 변화량이 임계값 미만인 밴드의 신호를 음악으로 분류하는 단계를 포함하는, 음성과 음악을 구분하는 방법.
- 제5항에 있어서,상기 복수의 밴드는,주파수 축 상에서 125Hz 간격으로 분할된 주파수 대역인 것을 특징으로 하는, 음성과 음악을 구분하는 방법.
- 제5항에 있어서,상기 복수의 밴드는,270Hz부터 3010Hz 사이의 주파수 대역을 일정 간격으로 분할한 주파수 대역인 것을 특징으로 하는, 음성과 음악을 구분하는 방법.
- 제5항에 있어서,상기 피크 주파수 변화량의 평균을 산출하는 단계는,각 밴드마다 평균 에너지를 산출하는 단계; 및상기 산출된 평균 에너지가 상기 신호의 전체 평균 에너지의 일정 비율 이하 인 밴드의 순간 주파수 변화량을 0으로 계산하는 단계를 포함하는 것을 특징으로 하는, 음성과 음악을 구분하는 방법.
- 제 1 항 내지 제 10 항 중 어느 한 항에 따른 음성과 음악을 구분하는 방법을 컴퓨터 시스템에서 실행하기 위한 프로그램이 기록된 컴퓨터 시스템이 판독할 수 있는 기록매체.
- 음성과 음악이 혼합된 신호를 복수의 밴드로 구분하고, 상기 각 밴드마다 일정 구간 동안의 피크 주파수 변화량의 평균을 산출하는 하모닉스 변화 추적부; 및상기 피크 주파수 변화량이 임계값 이상인 밴드의 신호를 음성으로 분류하고, 상기 피크 주파수 변화량이 임계값 미만인 밴드의 신호를 음악으로 분류하는 과정을 각 밴드별로 수행하는 음성 음악 구별부를 포함하는, 음성과 음악을 구분하는 장치.
- 제12항에 있어서,상기 복수의 밴드는,주파수 축 상에서 125Hz 간격으로 분할된 주파수 대역인 것을 특징으로 하는, 음성과 음악을 구분하는 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090017109A KR101041037B1 (ko) | 2009-02-27 | 2009-02-27 | 음성과 음악을 구분하는 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090017109A KR101041037B1 (ko) | 2009-02-27 | 2009-02-27 | 음성과 음악을 구분하는 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100098100A true KR20100098100A (ko) | 2010-09-06 |
KR101041037B1 KR101041037B1 (ko) | 2011-06-14 |
Family
ID=43005121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090017109A KR101041037B1 (ko) | 2009-02-27 | 2009-02-27 | 음성과 음악을 구분하는 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101041037B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101194540B1 (ko) | 2010-10-14 | 2012-10-24 | 에스케이커뮤니케이션즈 주식회사 | 음악의 비-텍스트 정보 추출 및 이를 이용한 음악 검색 방법 및 장치 |
WO2013147384A1 (ko) | 2012-03-29 | 2013-10-03 | Shin Doo Sik | 귓속 삽입형 마이크를 사용하는 유무선 이어셋 |
KR20210017485A (ko) * | 2019-08-08 | 2021-02-17 | 주식회사 인에이블파인드 | 주파수 분석을 통한 소리 정보 판단 장치 및 그 방법 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101897181B1 (ko) * | 2017-08-18 | 2018-09-13 | 주식회사 크레스프리 | 액츄에이터 분석 방법 및 장치 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3326201B2 (ja) * | 1992-07-14 | 2002-09-17 | 株式会社パラマ・テック | 血圧計及び脈波計における圧力降下速度制御装置 |
-
2009
- 2009-02-27 KR KR1020090017109A patent/KR101041037B1/ko not_active IP Right Cessation
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101194540B1 (ko) | 2010-10-14 | 2012-10-24 | 에스케이커뮤니케이션즈 주식회사 | 음악의 비-텍스트 정보 추출 및 이를 이용한 음악 검색 방법 및 장치 |
WO2013147384A1 (ko) | 2012-03-29 | 2013-10-03 | Shin Doo Sik | 귓속 삽입형 마이크를 사용하는 유무선 이어셋 |
KR20210017485A (ko) * | 2019-08-08 | 2021-02-17 | 주식회사 인에이블파인드 | 주파수 분석을 통한 소리 정보 판단 장치 및 그 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR101041037B1 (ko) | 2011-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gillet et al. | Transcription and separation of drum signals from polyphonic music | |
US7115808B2 (en) | Automatic music mood detection | |
EP2793223B1 (en) | Ranking representative segments in media data | |
US7396990B2 (en) | Automatic music mood detection | |
Kos et al. | Acoustic classification and segmentation using modified spectral roll-off and variance-based features | |
US8880409B2 (en) | System and method for automatic temporal alignment between music audio signal and lyrics | |
CN102486920A (zh) | 音频事件检测方法和装置 | |
GB2518663A (en) | Audio analysis apparatus | |
Yang et al. | BaNa: A noise resilient fundamental frequency detection algorithm for speech and music | |
US8431810B2 (en) | Tempo detection device, tempo detection method and program | |
JP2009008836A (ja) | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 | |
Rajan et al. | Music genre classification by fusion of modified group delay and melodic features | |
JP2012108451A (ja) | 音声処理装置および方法、並びにプログラム | |
KR101041037B1 (ko) | 음성과 음악을 구분하는 방법 및 장치 | |
Vavrek et al. | Broadcast news audio classification using SVM binary trees | |
Ghisingh et al. | Classifying musical instruments using speech signal processing methods | |
Jeyalakshmi et al. | HMM and K-NN based automatic musical instrument recognition | |
Benetos et al. | Auditory spectrum-based pitched instrument onset detection | |
Ghosal et al. | Speech/music classification using occurrence pattern of zcr and ste | |
Wu et al. | A combination of data mining method with decision trees building for speech/music discrimination | |
Nagavi et al. | An extensive analysis of query by singing/humming system through query proportion | |
Pishdadian et al. | Classifying non-speech vocals: Deep vs signal processing representations | |
Barthet et al. | Speech/music discrimination in audio podcast using structural segmentation and timbre recognition | |
Sengupta et al. | Classification of male and female speech using perceptual features | |
Faghih et al. | Real-time monophonic singing pitch detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20140304 Year of fee payment: 4 |
|
LAPS | Lapse due to unpaid annual fee |