KR20080097684A - 음성 및 음악을 실시간으로 분류하는 방법 - Google Patents
음성 및 음악을 실시간으로 분류하는 방법 Download PDFInfo
- Publication number
- KR20080097684A KR20080097684A KR1020070042826A KR20070042826A KR20080097684A KR 20080097684 A KR20080097684 A KR 20080097684A KR 1020070042826 A KR1020070042826 A KR 1020070042826A KR 20070042826 A KR20070042826 A KR 20070042826A KR 20080097684 A KR20080097684 A KR 20080097684A
- Authority
- KR
- South Korea
- Prior art keywords
- music
- smv
- voice
- feature vector
- feature vectors
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 239000013598 vector Substances 0.000 claims abstract description 69
- 239000000203 mixture Substances 0.000 claims abstract description 10
- 238000001514 detection method Methods 0.000 claims description 8
- 230000003595 spectral effect Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 abstract 1
- 238000007635 classification algorithm Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 음성 및 음악을 실시간으로 분류하는 방법에 관한 것으로서, 본 발명에 따른 음성/음악 분류 방법은, (1) 입력 신호에 대하여 음성 신호를 검출하는 단계와, (2) 상기 음성 신호 검출 단계에서 음성이라고 검출되는 경우, 상기 입력 신호에 대한 SMV(Selectable Mode Vocoder) 인코딩 과정에서 얻어진 특징 벡터들 중에서 통계적으로 음성/음악 분류 특성이 우수한 특징 벡터(이하 'SMV 기반 특징 벡터'라고 함)들을 추출하는 단계와, (3) 추출된 상기 SMV 기반 특징 벡터들을 가우시안 혼합 모델(Gaussian Mixture Model; GMM)의 특징 벡터들로서 사용하여 음성/음악을 실시간으로 분류하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명의 음성/음악 분류 방법에 따르면, SMV 인코딩 과정에서 얻어지는 특징 벡터들 중 통계적으로 음악/음성 분류 특성이 우수한 특징 벡터들을 추출하여 가우시안 혼합 모델(Gaussian Mixture Model; GMM)의 특징 벡터들로서 사용함으로써, 음악 및 음성을 우수한 정확도로 실시간으로 분류할 수 있다. 특히, 기존의 SMV 인코딩 과정에서 얻어지는 결과들을 상당 부분 그대로 사용하기 때문에 시스템 자원을 효과적으로 사용할 수 있다.
음성/음악 분류, SMV(Selectable Mode Vocoder), 가우시안 혼합 모 델(Gaussian Mixture Model; GMM), 특징 벡터, 실시간 분류, 음성 신호 검출(VAD), 선형 예측 코딩
Description
도 1은 SMV(Selectable Mode Vocoder)가 입력 신호를 처리하는 과정을 나타내는 도면.
도 2는 기존의 SMV 음성/음악 분류 알고리즘의 블록도.
도 3은 통계적인 분류 특성이 우수한, 평균 에너지(Mean Energy), 스펙트럼 차이(Spectral Difference), 정규화 피치 상관(Normalized Pitch Correlation), 및 음악 연속 카운터(Music Continuity Counter)의 통계적인 분류 특성을 비교하여 보여주는 도면.
도 4는 본 발명의 일 실시예에 따른 GMM 기반의 SMV 코딩 파라미터를 이용한 음성/음악 분류 알고리즘의 블록도.
도 5는 테스트에 사용된 파일을 나타내는 도면.
도 6은 기존의 SMV 방법과 본 발명에 따른 음성/음악 분류 방법에 대한 ROC 곡선을 나타내는 도면.
도 7은 기존의 SMV 방법과 본 발명에서 제안된 방법의 실시간 음성/음악 분류 성능을 평가하기 위해서 음성/음악의 파형과 두 시스템의 분류 결과를 시간축 상에서 비교하여 도시한 도면.
<도면 중 주요 부분에 대한 부호의 설명>
405 : 입력 신호
410 : LPC 분석하는 단계
420 : VAD 단계
430 : 음악 검출 단계
440 : 특징 추출 단계
450 : VAD 값을 확인하는 블록
455 : 무음으로 판단
460 : GMM 모델
465 : 음성으로 판단
466 : 음악으로 판단
본 발명은 음성 및 음악을 실시간으로 분류하는 방법에 관한 것으로서, 특히 SMV(Selectable Mode Vocoder) 인코딩 과정에서 얻어지는 특징 벡터들 중 통계적으로 음악/음성 분류 특성이 우수한 특징 벡터들을 추출하여 가우시안 혼합 모델(Gaussian Mixture Model; GMM)의 특징 벡터들로서 사용함으로써, 음악 및 음성을 우수한 정확도로 실시간으로 분류하는 새로운 실시간 음악/음성 분류 방법에 관한 것이다.
최근 이동통신의 발전으로 무선통신기기를 이용한 멀티미디어 서비스가 보편화되면서, 제한적인 주파수 대역에서 효과적으로 음성을 전송하는 연구가 지속적으로 이루어지고 있다. 현재 제한된 통신망을 효율적으로 사용하기 위해 가변적인 비트율(bite rate)을 갖는 다양한 음성 코덱이 개발되었다. 실제로 입력 음성 신호의 타입에 따라서 서로 다른 비트를 할당하는 기술은, 최종 음성의 음질에 크게 영향을 미치기 때문에 정확한 신호 분류를 위한 핵심 기술로서 다루어지고 있다. 특히, 단순히 음성 통신을 다루던 것에서 벗어나 음악 신호를 이동통신망을 통해 효과적으로 전송하기 위한 음성/음악 분류의 중요성이 증가하여 관련된 연구가 활발히 진행되고 있다.
가변 전송률 알고리즘을 채택하고 있는 유럽 전기 통신 표준 협회(European Telecommunications Standards Institute; ETSI)의 3GPP2(3rd Generation Partnership Project2) 표준 저 전송률 음성 코덱인 Selected Mode Vocoder(SMV) 또한 실시간 음성/음악 분류 기법을 기반으로 하고 있다. SMV 음성부호화기는 Rate 1(8.55 kbps), Rate 1/2(4.0 kbps), Rate 1/4(2.0 kbps), Rate 1/8(0.8 kbps)의 4가지 비트율과 Mode 0(premium), Mode 1(standard), Mode 2(economy), Mode 3(supereconomy)의 4개의 동작 모드를 가지며, 이에 따라 다양한 평균 비트율(Average Bit Rate; ABR)을 갖기 때문에 CDMA 시스템의 성능과 음질간의 관계에서 선택적으로 성능을 조절할 수 있다는 장점을 갖는다. 그러나 SMV 음성부화기는 음성/음악 분류 성능은 그다지 좋지 못하다는 문제점이 있다.
본 발명은, 상기와 같은 문제점을 해결하기 위해 제안된 것으로서, SMV 인코딩 과정에서 얻어지는 특징 벡터들 중 통계적으로 음악/음성 분류 특성이 우수한 특징 벡터들을 추출하여 가우시안 혼합 모델(Gaussian Mixture Model; GMM)의 특징 벡터들로서 사용함으로써, 음악 및 음성을 우수한 정확도로 실시간으로 분류할 수 있는 새로운 실시간 음악/음성 분류 방법을 제안하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른, 실시간 음악/음성 분류 방법은,
(1) 입력 신호에 대하여 음성 신호를 검출하는 단계;
(2) 상기 음성 신호 검출 단계에서 음성이라고 검출되는 경우, 상기 입력 신호에 대한 SMV(Selectable Mode Vocoder) 인코딩 과정에서 얻어진 특징 벡터들 중에서 통계적으로 음성/음악 분류 특성이 우수한 특징 벡터(이하 'SMV 기반 특징 벡터'라고 함)들을 추출하는 단계; 및
(3) 추출된 상기 SMV 기반 특징 벡터들을 가우시안 혼합 모델(Gaussian Mixture Model; GMM)의 특징 벡터들로서 사용하여 음성/음악을 실시간으로 분류하는 단계
를 포함하는 것을 그 특징으로 한다.
바람직하게는, SMV 인코딩 과정에서 정규화되지 않은 통계적으로 음성/음악 분류 특성이 우수한 특징 벡터(이하 '비 SMV 기반 특징 벡터'라고 함)들을 상기 SMV 기반 특징 벡터들과 함께 GMM의 특징 벡터로 적용할 수 있다.
특히, 상기 비SMV 기반 특징 벡터들에는 피치(pitch) 특징 벡터가 포함될 수 있는 것이 더 바람직하다.
또한, 바람직하게는, 상기 SMV 기반 특징 벡터들에는 평균 에너지(mean energy) 특징 벡터, 스펙트럼 차이(spectral difference; SD) 특징 벡터, 정규화 피치 상관(normalized pitch correlation) 특징 벡터, 및 음악 연속 카운터(music continuity counter) 특징 벡터가 포함될 수 있다.
이하에서는 본 발명의 실시예를 도면을 참조하여 상세히 설명한다.
도 1은 SMV가 입력 신호를 처리하는 과정을 나타내는 도면이다. 도 1에 도시된 바와 같이, SMV에서는, 8 kHz로 샘플링된 입력 신호에 대하여 160개의 샘플(20ms)마다 프레임의 모드와 전송 비트율을 결정한다. 구체적으로 살펴보면, 입력된 신호는 묵음 증가, 고대역 필터링, 잡음 억제, 적응 틸트 보상(adaptive tilt compensation) 등과 같은 전처리 과정을 통해서 배경 잡음(background noise)을 제거한다. 전처리 과정에서 배경 잡음이 제거된 신호는, 선형 예측 분석(LPC analysis), 개루프 피치 조사(open-loop pitch search), 신호 변경 및 분류 등과 같은 프레임 처리 과정을 거치게 된다. 선형 예측 분석과 개루프 피치 조사를 통해서 음성/음악 분류에 대한 파라미터들이 추출되는데, 신호 분류를 통해서 프레임은 잡음, 묵음, 무성음, 시작음, 비정상적 유성음, 정상적 유성음 중 한 개로 분류된다. 또한, 프레임의 비트율은 현재 프레임이 분류된 종류와 통신 상태에 따라서 정해지는 모드를 바탕으로 전송률 결정 알고리즘(Rate Determination Algorithm; RDA)에 의해 결정된다. 프레임이 음악으로 판별되는 경우에는 프레임의 비트율이 Rate 1로 결정되어 최고의 전송률이 할당되며, 그 외의 경우에는 정해진 임계값에 의해서 전송률이 결정되어 인코딩된다.
SMV는 8kHz로 샘플링된 입력 신호를 20ms마다 평가하는데, 음성 검출기(Voice Activity Detector; VAD)에서 무음과 음성으로 분류한 뒤, 무음이 아닌 부분(음성)을 다시 음성과 음악으로 분류한다. 도 2는 기존의 SMV 음성/음악 분류 알고리즘의 블록도이다. 도 2에 도시된 바와 같이, 기존의 SMV 음성/음악 분류 알고리즘은, 음성 검출기(VAD), 개루프 피치(Open Loop Pitch), 선형 예측 코딩(Linear Prediction Coding; LPC)에서 추출된 특징 벡터들을 입력받은 후, 각 특징 벡터의 이동 평균(running mean) 값을 음성/음악 분류 알고리즘의 특징 벡터들로서 사용한다. 이러한 특징 벡터들을 고정된 임계값(임계값은 경험적으로 설정됨)과 비교하여 음성/음악 분류를 한다. 기존의 SMV 음성/음악 분류 알고리즘에 입력되는 특징 벡터들에 대해서 이하에서 보다 상세하게 살펴보기로 한다.
1. LPC 분석에서 추출된 특징 벡터들
(1) 반사 계수(Reflection Coefficient)
다음 수학식 1과 같이 구할 수 있으며, 인코딩 프레임의 마지막 1/4에 가중치가 주어진다.
(2) 선 스펙트럼 주파수(Line Spectral Frequency; LSF)
인코딩 프레임의 마지막 1/4에 가중치를 주어 구해진 10차 LPC 값을 변화한 값으로 다음 수학식 2와 같이 구할 수 있다.
여기서, A(z)는 예측 오차 필터(prediction error filter) 전달함수이고, ai는 LPC 값이다. A(z)는 다음 수학식 3 및 4로 표시될 수 있는 2개의 전달함수 와 로 나누어진다.
수학식 3과 4로 표시된 함수는 주파수 도메인에서 다음 수학식 5 및 6과 같이 표현될 수 있으며, w=0에서 w=1 사이에서 두 전달함수의 해가 LSF 값이 된다. 여기서, 에서 구해진 5개의 해가 lsf(i) [i=1,3,5,7,9]의 값이 되고, 에서 구해진 5개의 해가 lsf(i) [i=2,4,6,7,10]의 값이 된다.
2. VAD에서 추출된 특징 벡터들
(1) 에너지(Energy)
프레임에 대한 에너지 값으로서, 다음 수학식 7에서 확인할 수 있는 바와 같이 최소 10이상의 값을 갖는다.
(2) 잔여 에너지(Residual Energy)
LPC 분석에서 에러 성분에 대한 에너지값으로서, 다음 수학식 8과 같이 표시할 수 있다.
(3) 음성 검출기 결정 플래그(VAD Decision Flag)
VAD에서 추출된 파라미터들과 고정된 임계값의 비교를 통해서 현재 프레임이 무음인지 음성인지를 판단한다. 현재 프레임이 음성, 즉 무음이 아닐 때 1의 값을 가지며, 음악 분류 알고리즘으로 전달된다.
3. 음악 분류 알고리즘의 특징 벡터들
(1) 선 스펙트럼 주파수의 평균(Mean of Line Spectral Frequency)
LPC 분석을 통해서 입력된 lsf1(i)의 이동 평균값으로서, 다음 수학식 9와 같이 표시할 수 있다.
(2) 평균 에너지(Mean Energy)
프레임 에너지의 이동 평균으로서, 다음 수학식 10과 같이 구할 수 있다.
(3) 스펙트럼 차이(Spectral Difference)
잡음 구간에서의 반사 계수와 LPC에서 입력된 반사 계수 값에 의해 다음 수학식 11과 같이 구할 수 있다.
(4) 부분 잔여 에너지(Partial Residual Energy)
VAD에서 프레임을 잡음으로 분류했을 때 증가하며, 다음 프레임이 음성으로 판단되면 0으로 초기화된다. 다음 수학식 12와 같이 구할 수 있다.
(5) 잡음/묵음의 평균 반사 계수(Mean Reflection Coefficients of Noise/Silent)
VAD에서 프레임을 잡음으로 분류했을 때 계산되며, 다음 프레임의 스펙트럼 차이(SD) 값을 구하기 위해서 사용된다. 다음 수학식 13과 같이 구할 수 있다.
(6) 정규화 피치 상관(Normalized Pitch Correlation)
5개의 버퍼에 저장되어 있는 정규화 피치 상관을 이용하여 다음 수학식 14와 같이 구할 수 있다.
동작 후, 다음 프레임을 위해서 다음 수학식 15 및 16과 같이 갱신된다.
(7) 주기 카운터의 평균(Mean of the Periodicity Counter)
여기서, 사용되는 가중치 값은 다음 수학식 18과 같은 값을 가지며,
cpr 값은 다음 조건식에 의해서 증가된다.
여기서, std는 피치 래그(pitch lag)의 정규화 편차값이다.
(8) 잡음의 정규화 피치 상관 평균(Mean of Normalized Pitch Correlation of Noise)
(9) 음악 연속 카운터(Music Continuity Counter)
지금까지 구한 8개의 특징 벡터들과, 경험적으로 학습되어 고정된 임계값과 비교하여 증가하거나 감소하는데, 값이 200보다 크면 SMV 음성/음악 분류 알고리즘은 프레임을 음악으로 판단한다. 다음 수학식 20과 같이 구할 수 있다.
다음으로 가우시안 혼합 모델(GMM) 기반의 음성/음악 분류 방법에 대하여 살펴보기로 한다.
GMM은 화자 인식과 음악 인식에서 뛰어난 성능을 보이는 패턴 인식기로서, 가우시안 형태의 혼합 모델 기반 확률 밀도 함수가 다음 수학식 21과 같이 주어진다.
실제로 파라미터 는 혼합된 가우시안 밀도의 가중치를, 는 D개의 특징 벡터들을, 는 평균 벡터들을, 는 공분산 행렬을, 는 다음 수학식 22와 같은 GMM의 모델 파라미터를 나타낸다.
GMM을 이용한 패턴 인식을 위해서는 설정된 특징 벡터를 이용하여 먼저 EM(Expectation-Maximization) 알고리즘 기반의 트레이닝을 통해서 음성/음악에 대한 GMM 모델을 만든다. 테스트 과정에서 일반적으로 이미 훈련된 음성과 음악에 대한 GMM 모델에 실제 데이터가 입력되어 구한 우도비 (Likelihood Ratio)를 계산하여 임계값과 비교하여 음성/음악을 분류하는데, 본 발명에서는 매 프레임 간 독립적인 처리과정에 대한 오류를 보상하고 상관성을 고려하여 실제로 평탄화된 우도비(Smoothed Likelihood Ratio; SLR)를 사용하여 음성 부호화에 적합한 실시간 분류 방법을 다음 수학식 23과 같이 제시한다.
이제 본격적으로 본 발명에서 제안된 SMV 코딩 특징 벡터들을 이용한 GMM 기반의 음성/음악 분류 방법에 대하여 살펴보기로 한다.
본 발명에서는 별도의 연산 과정 없이 SMV의 인코딩 과정에서 자동 생성되는 파라미터들을 특징 벡터들로서 이용하되, 효과적인 GMM을 구성하기 위해 SMV 코딩 파라미터들을 선택적으로 사용하여 실시간으로 음성/음악을 분류한다. 매우 정밀한 확률 밀도 함수를 사용하는 GMM에서 특징 벡터들의 구분이 뚜렷할수록 더욱 뛰어난 성능을 보이기 때문에 이를 위해서 SMV의 음악 분류에 사용되는 특징 벡터들의 통계적인 분류 특성을 조사하였다. 도 3은 통계적인 분류 특성이 우수한, 평균 에너지(Mean Energy), 스펙트럼 차이(Spectral Difference), 정규화 피치 상 관(Normalized Pitch Correlation), 및 음악 연속 카운터(Music Continuity Counter)의 통계적인 분류 특성을 비교하여 보여주는 도면이다. 또한, 본 발명의 일 실시예에서는, 음성/음악 분류에서 피치(Pitch)는 우수한 성능을 보여주기 때문에 SMV에서 정규화되지 않은 Pitch 특징 벡터를 추출하여 총 5개의 특징 벡터를 GMM의 특징 벡터로 제안한다.
도 4는 본 발명의 일 실시예에 따른 GMM 기반의 SMV 코딩 파라미터를 이용한 음성/음악 분류 알고리즘의 블록도이다. 도 4에 도시된 바와 같이, SMV의 음성/음악 분류 알고리즘에 포함된 VAD(420)에서 무음이 아니라고, 즉 신호가 있다고 판별할 경우(450에서 값이 '1'일 경우), 본 발명에 따른 GMM(460)은 SMV에 포함된 LPC 분석(410), VAD(420), 음악 검출(430) 과정에서 생성된 특징 벡터들을 추출하여 GMM 모델(460)에 적용함으로써 우도를 생성하고, 평가를 통해서 음성(465)/음악(466)을 분류하게 된다.
본 발명에서 제안한, SMV의 음성/음악 분류 알고리즘에 적용한 GMM 기반의 실시간 음성/음악 분류 방법의 성능을 알아보기 위해, 기존의 SMV의 알고리즘과 비교 실험을 하였다. 본 실험을 위해서 사용된 음성 데이터베이스는 8 kHz로 샘플링된 깨끗한 음성으로서, 의미가 다른 2개의 문장으로 구성되었고, 음악은 CD를 8 kHz로 다운 샘플링하여 사용하였다.
제안된 음성/음악 분류 알고리즘의 모델을 만들기 위해서 각각의 음성/음악 파일 50개를 이용하여 트레이닝하였으며, 혼합(Mixture) 개수는 16개를 사용하였다. 도 5는 테스트에 사용된 파일을 나타내는 도면이다. 도 5에 도시된 바와 같 이, 테스트 파일은 10개씩의 음성/음악 파일을 이용하여 만들었으며, 음성 구간 5초, 음악 구간 10초, 무음 구간 7.5초의 길이로 구성하였다.
다양한 음악 장르에 대한 음성/음악 분류 성능을 확인하기 위해서 각 장르별(메탈, 발라드, 힙합, 클래식, 재즈)로 구성된 테스트 파일을 5개, 혼합된 형태의 테스트 파일을 1개 만들었다. 2가지 방법의 실제 성능을 알아보기 위해서, 테스트 파일의 20ms마다 실제 결과를 0(무음), 1(음성), 2(음악)로 수동으로 작성한 것과 비교하였다.
각각의 테스트 파일에 대한 음악 검출 확률(Pd _M) 및 음성 검출 확률(Pd _S)을 조사하였으며, 그 결과를 다음 표 1과 같이 정리하였다.
잡음의 종류 | 방법 | 음악 (Pd _M) | 음성 (Pd _S) |
혼합 | 기존의 SMV 방법 | 0.27 | 0.95 |
본 발명에 따른 방법 | 0.94 | 0.98 | |
메탈 | 기존의 SMV 방법 | 0 | 0.95 |
본 발명에 따른 방법 | 0.99 | 0.98 | |
발라드 | 기존의 SMV 방법 | 0.45 | 0.95 |
본 발명에 따른 방법 | 0.94 | 0.99 | |
힙합 | 기존의 SMV 방법 | 0.13 | 0.95 |
본 발명에 따른 방법 | 0.85 | 0.91 | |
클래식 | 기존의 SMV 방법 | 0.45 | 0.95 |
본 발명에 따른 방법 | 0.76 | 0.99 | |
재즈 | 기존의 SMV 방법 | 0.34 | 0.94 |
본 발명에 따른 방법 | 0.73 | 0.99 |
표 1을 통해서 기존의 SMV 방법보다 본 발명에 따른 GMM 기반의 방법이 전반적으로 검출 확률이 우수한 것을 확인할 수 있다. 특히, 음악 분류에서는 그 차이가 더욱 크게 나타나고 있다. 다양한 음악 장르에 대한 음악 분류 성능은 음악 장르와 시스템에 따라서 큰 차이를 보이지만, 기존의 SMV 방법과 본 발명에서 제안된 GMM 기반의 방법을 비교하였을 때 모든 장르에서 본 발명에서 제안된 방법의 성능이 뛰어남을 알 수 있다.
다음으로, 모든 음악 장르별 데이터를 혼합시킨 혼합 테스트 파일에 대해서 수신기 동작 특성(Receiver Operation Characteristic; ROC) 곡선을 그려 두 방법의 전체적인 성능을 비교하였다. 도 6은 기존의 SMV 방법과 본 발명에 따른 음성/음악 분류 방법에 대한 ROC 곡선을 나타내는 도면으로서, 우도비를 비교하는 부등식에 주는 가중치의 값을 변화시키면서 음성/음악에 대한 검출 확률을 표시하였다. 도 6에 도시된 바와 같이, 본 발명에 따른 음성/음악 분류 방법이 기존의 SMV 방법보다 그 성능이 우수함을 다시 한 번 확인할 수 있다.
마지막으로, 도 7은 기존의 SMV 방법과 본 발명에서 제안된 방법의 실시간 음성/음악 분류 성능을 평가하기 위해서 음성/음악의 파형과 두 시스템의 분류 결과를 시간 축 상에서 비교하여 도시하였다. 도 7(a)은 테스트 파일의 일부분으로 음성 → 음악 → 음성 → 음악 순서로 구성된 부분이고, 도 7(b)과 도 7(c)은 각각 기존의 SMV의 실시간 음성/음악 분류 결과와 본 발명에서 제안된 방법의 실시간 음성/음악 분류 결과로서, 음성일 때 1, 음악일 때 2를 나타내고 있다. 도 7로부터도, 기존의 SMV 방법과 본 발명에서 제안된 방법 간의 실시간 음악 분류 성능의 뚜렷한 차이를 확인할 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
본 발명의 음성/음악 분류 방법에 따르면, SMV 인코딩 과정에서 얻어지는 특징 벡터들 중 통계적으로 음악/음성 분류 특성이 우수한 특징 벡터들을 추출하여 가우시안 혼합 모델(Gaussian Mixture Model; GMM)의 특징 벡터들로서 사용함으로써, 음악 및 음성을 우수한 정확도로 실시간으로 분류할 수 있다. 특히, 기존의 SMV 인코딩 과정에서 얻어지는 결과들을 상당 부분 그대로 사용하기 때문에 시스템 자원을 효과적으로 사용할 수 있다.
Claims (4)
- 입력 신호에 대하여 음성 신호를 검출하는 단계;상기 음성 신호 검출 단계에서 음성이라고 검출되는 경우, 상기 입력 신호에 대한 SMV(Selectable Mode Vocoder) 인코딩 과정에서 얻어진 특징 벡터들 중에서 통계적으로 음성/음악 분류 특성이 우수한 특징 벡터(이하 'SMV 기반 특징 벡터'라고 함)들을 추출하는 단계; 및추출된 상기 SMV 기반 특징 벡터들을 가우시안 혼합 모델(Gaussian Mixture Model; GMM)의 특징 벡터들로서 사용하여 음성/음악을 실시간으로 분류하는 단계를 포함하는 음성 및 음악을 실시간으로 분류하는 방법.
- 제1항에 있어서,SMV 인코딩 과정에서 정규화되지 않은 통계적으로 음성/음악 분류 특성이 우수한 특징 벡터(이하 '비SMV 기반 특징 벡터'라고 함)들을 상기 SMV 기반 특징 벡터들과 함께 GMM의 특징 벡터로 적용할 수 있는 방법.
- 제2항에 있어서,상기 비SMV 기반 특징 벡터들에는 피치(pitch) 특징 벡터가 포함될 수 있는 방법.
- 제1항 내지 제3항 중 어느 한 항에 있어서,상기 SMV 기반 특징 벡터들에는 평균 에너지(mean energy) 특징 벡터, 스펙트럼 차이(spectral difference; SD) 특징 벡터, 정규화 피치 상관(normalized pitch correlation) 특징 벡터, 및 음악 연속 카운터(music continuity counter) 특징 벡터가 포함될 수 있는 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070042826A KR100925256B1 (ko) | 2007-05-03 | 2007-05-03 | 음성 및 음악을 실시간으로 분류하는 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070042826A KR100925256B1 (ko) | 2007-05-03 | 2007-05-03 | 음성 및 음악을 실시간으로 분류하는 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080097684A true KR20080097684A (ko) | 2008-11-06 |
KR100925256B1 KR100925256B1 (ko) | 2009-11-05 |
Family
ID=40285443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070042826A KR100925256B1 (ko) | 2007-05-03 | 2007-05-03 | 음성 및 음악을 실시간으로 분류하는 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100925256B1 (ko) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101469021B1 (ko) * | 2010-03-26 | 2014-12-04 | 후지쯔 가부시끼가이샤 | 카테고리 생성 프로그램, 카테고리 생성 장치 및 카테고리 생성 방법 |
US9336796B2 (en) | 2013-11-27 | 2016-05-10 | Electronics And Telecommunications Research Institute | Method and apparatus for detecting speech/non-speech section |
RU2667380C2 (ru) * | 2014-06-24 | 2018-09-19 | Хуавэй Текнолоджиз Ко., Лтд. | Способ и устройство кодирования аудио |
US10283133B2 (en) | 2012-09-18 | 2019-05-07 | Huawei Technologies Co., Ltd. | Audio classification based on perceptual quality for low or medium bit rates |
CN113257276A (zh) * | 2021-05-07 | 2021-08-13 | 普联国际有限公司 | 一种音频场景检测方法、装置、设备及存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9111531B2 (en) * | 2012-01-13 | 2015-08-18 | Qualcomm Incorporated | Multiple coding mode signal classification |
KR102398124B1 (ko) * | 2015-08-11 | 2022-05-17 | 삼성전자주식회사 | 음향 데이터의 적응적 처리 |
-
2007
- 2007-05-03 KR KR1020070042826A patent/KR100925256B1/ko not_active IP Right Cessation
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101469021B1 (ko) * | 2010-03-26 | 2014-12-04 | 후지쯔 가부시끼가이샤 | 카테고리 생성 프로그램, 카테고리 생성 장치 및 카테고리 생성 방법 |
US10283133B2 (en) | 2012-09-18 | 2019-05-07 | Huawei Technologies Co., Ltd. | Audio classification based on perceptual quality for low or medium bit rates |
US11393484B2 (en) | 2012-09-18 | 2022-07-19 | Huawei Technologies Co., Ltd. | Audio classification based on perceptual quality for low or medium bit rates |
US9336796B2 (en) | 2013-11-27 | 2016-05-10 | Electronics And Telecommunications Research Institute | Method and apparatus for detecting speech/non-speech section |
RU2667380C2 (ru) * | 2014-06-24 | 2018-09-19 | Хуавэй Текнолоджиз Ко., Лтд. | Способ и устройство кодирования аудио |
US10347267B2 (en) | 2014-06-24 | 2019-07-09 | Huawei Technologies Co., Ltd. | Audio encoding method and apparatus |
US11074922B2 (en) | 2014-06-24 | 2021-07-27 | Huawei Technologies Co., Ltd. | Hybrid encoding method and apparatus for encoding speech or non-speech frames using different coding algorithms |
CN113257276A (zh) * | 2021-05-07 | 2021-08-13 | 普联国际有限公司 | 一种音频场景检测方法、装置、设备及存储介质 |
CN113257276B (zh) * | 2021-05-07 | 2024-03-29 | 普联国际有限公司 | 一种音频场景检测方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
KR100925256B1 (ko) | 2009-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ramırez et al. | Efficient voice activity detection algorithms using long-term speech information | |
JP4866438B2 (ja) | 音声符号化方法及び装置 | |
KR100925256B1 (ko) | 음성 및 음악을 실시간으로 분류하는 방법 | |
KR100930584B1 (ko) | 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치 | |
KR100962681B1 (ko) | 오디오신호들의 분류 | |
TWI441166B (zh) | 用以將信號之不同區段分類之方法與鑑別器 | |
EP0625774A2 (en) | A method and an apparatus for speech detection | |
US20030101050A1 (en) | Real-time speech and music classifier | |
WO2008067719A1 (fr) | Procédé de détection d'activité sonore et dispositif de détection d'activité sonore | |
ITRM20000248A1 (it) | Metodo di rivelazione di attivita' vocale e metodo per la segmentazione di parole isolate, e relativi apparati. | |
Chow et al. | Robust speaker identification based on perceptual log area ratio and Gaussian mixture models. | |
JP4696418B2 (ja) | 情報検出装置及び方法 | |
Bäckström et al. | Voice activity detection | |
Malenovsky et al. | Two-stage speech/music classifier with decision smoothing and sharpening in the EVS codec | |
Song et al. | Analysis and improvement of speech/music classification for 3GPP2 SMV based on GMM | |
Beritelli et al. | Robust voiced/unvoiced speech classification using fuzzy rules | |
Guillemin et al. | Impact of the GSM AMR speech codec on formant information important to forensic speaker identification | |
Kim et al. | Speech/music classification enhancement for 3GPP2 SMV codec based on support vector machine | |
Beritelli et al. | Adaptive V/UV speech detection based on acoustic noise estimation and classification | |
Sorin et al. | The ETSI extended distributed speech recognition (DSR) standards: client side processing and tonal language recognition evaluation | |
Zhang et al. | A CELP variable rate speech codec with low average rate | |
Ojala et al. | A novel pitch-lag search method using adaptive weighting and median filtering | |
Arun Sankar et al. | Speech sound classification and estimation of optimal order of LPC using neural network | |
KR100984094B1 (ko) | 가우시안 혼합 모델을 이용한 3세대 파트너십 프로젝트2의 선택 모드 보코더를 위한 실시간 유무성음 분류 방법 | |
Liu et al. | Efficient voice activity detection algorithm based on sub-band temporal envelope and sub-band long-term signal variability |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121008 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20130913 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20140818 Year of fee payment: 6 |
|
LAPS | Lapse due to unpaid annual fee |