KR20080097684A - 음성 및 음악을 실시간으로 분류하는 방법 - Google Patents

음성 및 음악을 실시간으로 분류하는 방법 Download PDF

Info

Publication number
KR20080097684A
KR20080097684A KR1020070042826A KR20070042826A KR20080097684A KR 20080097684 A KR20080097684 A KR 20080097684A KR 1020070042826 A KR1020070042826 A KR 1020070042826A KR 20070042826 A KR20070042826 A KR 20070042826A KR 20080097684 A KR20080097684 A KR 20080097684A
Authority
KR
South Korea
Prior art keywords
music
smv
voice
feature vector
feature vectors
Prior art date
Application number
KR1020070042826A
Other languages
English (en)
Other versions
KR100925256B1 (ko
Inventor
장준혁
송지현
이계환
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020070042826A priority Critical patent/KR100925256B1/ko
Publication of KR20080097684A publication Critical patent/KR20080097684A/ko
Application granted granted Critical
Publication of KR100925256B1 publication Critical patent/KR100925256B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 음성 및 음악을 실시간으로 분류하는 방법에 관한 것으로서, 본 발명에 따른 음성/음악 분류 방법은, (1) 입력 신호에 대하여 음성 신호를 검출하는 단계와, (2) 상기 음성 신호 검출 단계에서 음성이라고 검출되는 경우, 상기 입력 신호에 대한 SMV(Selectable Mode Vocoder) 인코딩 과정에서 얻어진 특징 벡터들 중에서 통계적으로 음성/음악 분류 특성이 우수한 특징 벡터(이하 'SMV 기반 특징 벡터'라고 함)들을 추출하는 단계와, (3) 추출된 상기 SMV 기반 특징 벡터들을 가우시안 혼합 모델(Gaussian Mixture Model; GMM)의 특징 벡터들로서 사용하여 음성/음악을 실시간으로 분류하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명의 음성/음악 분류 방법에 따르면, SMV 인코딩 과정에서 얻어지는 특징 벡터들 중 통계적으로 음악/음성 분류 특성이 우수한 특징 벡터들을 추출하여 가우시안 혼합 모델(Gaussian Mixture Model; GMM)의 특징 벡터들로서 사용함으로써, 음악 및 음성을 우수한 정확도로 실시간으로 분류할 수 있다. 특히, 기존의 SMV 인코딩 과정에서 얻어지는 결과들을 상당 부분 그대로 사용하기 때문에 시스템 자원을 효과적으로 사용할 수 있다.
음성/음악 분류, SMV(Selectable Mode Vocoder), 가우시안 혼합 모 델(Gaussian Mixture Model; GMM), 특징 벡터, 실시간 분류, 음성 신호 검출(VAD), 선형 예측 코딩

Description

음성 및 음악을 실시간으로 분류하는 방법{A METHOD FOR DISCRIMINATING SPEECH AND MUSIC ON REAL-TIME}
도 1은 SMV(Selectable Mode Vocoder)가 입력 신호를 처리하는 과정을 나타내는 도면.
도 2는 기존의 SMV 음성/음악 분류 알고리즘의 블록도.
도 3은 통계적인 분류 특성이 우수한, 평균 에너지(Mean Energy), 스펙트럼 차이(Spectral Difference), 정규화 피치 상관(Normalized Pitch Correlation), 및 음악 연속 카운터(Music Continuity Counter)의 통계적인 분류 특성을 비교하여 보여주는 도면.
도 4는 본 발명의 일 실시예에 따른 GMM 기반의 SMV 코딩 파라미터를 이용한 음성/음악 분류 알고리즘의 블록도.
도 5는 테스트에 사용된 파일을 나타내는 도면.
도 6은 기존의 SMV 방법과 본 발명에 따른 음성/음악 분류 방법에 대한 ROC 곡선을 나타내는 도면.
도 7은 기존의 SMV 방법과 본 발명에서 제안된 방법의 실시간 음성/음악 분류 성능을 평가하기 위해서 음성/음악의 파형과 두 시스템의 분류 결과를 시간축 상에서 비교하여 도시한 도면.
<도면 중 주요 부분에 대한 부호의 설명>
405 : 입력 신호
410 : LPC 분석하는 단계
420 : VAD 단계
430 : 음악 검출 단계
440 : 특징 추출 단계
450 : VAD 값을 확인하는 블록
455 : 무음으로 판단
460 : GMM 모델
465 : 음성으로 판단
466 : 음악으로 판단
본 발명은 음성 및 음악을 실시간으로 분류하는 방법에 관한 것으로서, 특히 SMV(Selectable Mode Vocoder) 인코딩 과정에서 얻어지는 특징 벡터들 중 통계적으로 음악/음성 분류 특성이 우수한 특징 벡터들을 추출하여 가우시안 혼합 모델(Gaussian Mixture Model; GMM)의 특징 벡터들로서 사용함으로써, 음악 및 음성을 우수한 정확도로 실시간으로 분류하는 새로운 실시간 음악/음성 분류 방법에 관한 것이다.
최근 이동통신의 발전으로 무선통신기기를 이용한 멀티미디어 서비스가 보편화되면서, 제한적인 주파수 대역에서 효과적으로 음성을 전송하는 연구가 지속적으로 이루어지고 있다. 현재 제한된 통신망을 효율적으로 사용하기 위해 가변적인 비트율(bite rate)을 갖는 다양한 음성 코덱이 개발되었다. 실제로 입력 음성 신호의 타입에 따라서 서로 다른 비트를 할당하는 기술은, 최종 음성의 음질에 크게 영향을 미치기 때문에 정확한 신호 분류를 위한 핵심 기술로서 다루어지고 있다. 특히, 단순히 음성 통신을 다루던 것에서 벗어나 음악 신호를 이동통신망을 통해 효과적으로 전송하기 위한 음성/음악 분류의 중요성이 증가하여 관련된 연구가 활발히 진행되고 있다.
가변 전송률 알고리즘을 채택하고 있는 유럽 전기 통신 표준 협회(European Telecommunications Standards Institute; ETSI)의 3GPP2(3rd Generation Partnership Project2) 표준 저 전송률 음성 코덱인 Selected Mode Vocoder(SMV) 또한 실시간 음성/음악 분류 기법을 기반으로 하고 있다. SMV 음성부호화기는 Rate 1(8.55 kbps), Rate 1/2(4.0 kbps), Rate 1/4(2.0 kbps), Rate 1/8(0.8 kbps)의 4가지 비트율과 Mode 0(premium), Mode 1(standard), Mode 2(economy), Mode 3(supereconomy)의 4개의 동작 모드를 가지며, 이에 따라 다양한 평균 비트율(Average Bit Rate; ABR)을 갖기 때문에 CDMA 시스템의 성능과 음질간의 관계에서 선택적으로 성능을 조절할 수 있다는 장점을 갖는다. 그러나 SMV 음성부화기는 음성/음악 분류 성능은 그다지 좋지 못하다는 문제점이 있다.
본 발명은, 상기와 같은 문제점을 해결하기 위해 제안된 것으로서, SMV 인코딩 과정에서 얻어지는 특징 벡터들 중 통계적으로 음악/음성 분류 특성이 우수한 특징 벡터들을 추출하여 가우시안 혼합 모델(Gaussian Mixture Model; GMM)의 특징 벡터들로서 사용함으로써, 음악 및 음성을 우수한 정확도로 실시간으로 분류할 수 있는 새로운 실시간 음악/음성 분류 방법을 제안하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른, 실시간 음악/음성 분류 방법은,
(1) 입력 신호에 대하여 음성 신호를 검출하는 단계;
(2) 상기 음성 신호 검출 단계에서 음성이라고 검출되는 경우, 상기 입력 신호에 대한 SMV(Selectable Mode Vocoder) 인코딩 과정에서 얻어진 특징 벡터들 중에서 통계적으로 음성/음악 분류 특성이 우수한 특징 벡터(이하 'SMV 기반 특징 벡터'라고 함)들을 추출하는 단계; 및
(3) 추출된 상기 SMV 기반 특징 벡터들을 가우시안 혼합 모델(Gaussian Mixture Model; GMM)의 특징 벡터들로서 사용하여 음성/음악을 실시간으로 분류하는 단계
를 포함하는 것을 그 특징으로 한다.
바람직하게는, SMV 인코딩 과정에서 정규화되지 않은 통계적으로 음성/음악 분류 특성이 우수한 특징 벡터(이하 '비 SMV 기반 특징 벡터'라고 함)들을 상기 SMV 기반 특징 벡터들과 함께 GMM의 특징 벡터로 적용할 수 있다.
특히, 상기 비SMV 기반 특징 벡터들에는 피치(pitch) 특징 벡터가 포함될 수 있는 것이 더 바람직하다.
또한, 바람직하게는, 상기 SMV 기반 특징 벡터들에는 평균 에너지(mean energy) 특징 벡터, 스펙트럼 차이(spectral difference; SD) 특징 벡터, 정규화 피치 상관(normalized pitch correlation) 특징 벡터, 및 음악 연속 카운터(music continuity counter) 특징 벡터가 포함될 수 있다.
이하에서는 본 발명의 실시예를 도면을 참조하여 상세히 설명한다.
도 1은 SMV가 입력 신호를 처리하는 과정을 나타내는 도면이다. 도 1에 도시된 바와 같이, SMV에서는, 8 kHz로 샘플링된 입력 신호에 대하여 160개의 샘플(20ms)마다 프레임의 모드와 전송 비트율을 결정한다. 구체적으로 살펴보면, 입력된 신호는 묵음 증가, 고대역 필터링, 잡음 억제, 적응 틸트 보상(adaptive tilt compensation) 등과 같은 전처리 과정을 통해서 배경 잡음(background noise)을 제거한다. 전처리 과정에서 배경 잡음이 제거된 신호는, 선형 예측 분석(LPC analysis), 개루프 피치 조사(open-loop pitch search), 신호 변경 및 분류 등과 같은 프레임 처리 과정을 거치게 된다. 선형 예측 분석과 개루프 피치 조사를 통해서 음성/음악 분류에 대한 파라미터들이 추출되는데, 신호 분류를 통해서 프레임은 잡음, 묵음, 무성음, 시작음, 비정상적 유성음, 정상적 유성음 중 한 개로 분류된다. 또한, 프레임의 비트율은 현재 프레임이 분류된 종류와 통신 상태에 따라서 정해지는 모드를 바탕으로 전송률 결정 알고리즘(Rate Determination Algorithm; RDA)에 의해 결정된다. 프레임이 음악으로 판별되는 경우에는 프레임의 비트율이 Rate 1로 결정되어 최고의 전송률이 할당되며, 그 외의 경우에는 정해진 임계값에 의해서 전송률이 결정되어 인코딩된다.
SMV는 8kHz로 샘플링된 입력 신호를 20ms마다 평가하는데, 음성 검출기(Voice Activity Detector; VAD)에서 무음과 음성으로 분류한 뒤, 무음이 아닌 부분(음성)을 다시 음성과 음악으로 분류한다. 도 2는 기존의 SMV 음성/음악 분류 알고리즘의 블록도이다. 도 2에 도시된 바와 같이, 기존의 SMV 음성/음악 분류 알고리즘은, 음성 검출기(VAD), 개루프 피치(Open Loop Pitch), 선형 예측 코딩(Linear Prediction Coding; LPC)에서 추출된 특징 벡터들을 입력받은 후, 각 특징 벡터의 이동 평균(running mean) 값을 음성/음악 분류 알고리즘의 특징 벡터들로서 사용한다. 이러한 특징 벡터들을 고정된 임계값(임계값은 경험적으로 설정됨)과 비교하여 음성/음악 분류를 한다. 기존의 SMV 음성/음악 분류 알고리즘에 입력되는 특징 벡터들에 대해서 이하에서 보다 상세하게 살펴보기로 한다.
1. LPC 분석에서 추출된 특징 벡터들
(1) 반사 계수(Reflection Coefficient)
다음 수학식 1과 같이 구할 수 있으며, 인코딩 프레임의 마지막 1/4에 가중치가 주어진다.
Figure 112007033121528-PAT00001
수학식 1에서,
Figure 112007033121528-PAT00002
는 자기 상관 함수를,
Figure 112007033121528-PAT00003
는 j번째 LPC 계수를, E는 에너지값을 각각 나타낸다.
(2) 선 스펙트럼 주파수(Line Spectral Frequency; LSF)
인코딩 프레임의 마지막 1/4에 가중치를 주어 구해진 10차 LPC 값을 변화한 값으로 다음 수학식 2와 같이 구할 수 있다.
Figure 112007033121528-PAT00004
여기서, A(z)는 예측 오차 필터(prediction error filter) 전달함수이고, ai는 LPC 값이다. A(z)는 다음 수학식 3 및 4로 표시될 수 있는 2개의 전달함수
Figure 112007033121528-PAT00005
Figure 112007033121528-PAT00006
로 나누어진다.
Figure 112007033121528-PAT00007
Figure 112007033121528-PAT00008
여기서,
Figure 112007033121528-PAT00009
.
수학식 3과 4로 표시된 함수는 주파수 도메인에서 다음 수학식 5 및 6과 같이 표현될 수 있으며, w=0에서 w=1 사이에서 두 전달함수의 해가 LSF 값이 된다. 여기서,
Figure 112007033121528-PAT00010
에서 구해진 5개의 해가 lsf(i) [i=1,3,5,7,9]의 값이 되고,
Figure 112007033121528-PAT00011
에서 구해진 5개의 해가 lsf(i) [i=2,4,6,7,10]의 값이 된다.
Figure 112007033121528-PAT00012
Figure 112007033121528-PAT00013
여기서,
Figure 112007033121528-PAT00014
.
2. VAD에서 추출된 특징 벡터들
(1) 에너지(Energy)
프레임에 대한 에너지 값으로서, 다음 수학식 7에서 확인할 수 있는 바와 같이 최소 10이상의 값을 갖는다.
Figure 112007033121528-PAT00015
여기서,
Figure 112007033121528-PAT00016
값은 LPC 분석에서 구해지는 자기 상관 함수의 값이고, LLPC 값은 LPC 윈도우의 길이로 240을 갖는다.
(2) 잔여 에너지(Residual Energy)
LPC 분석에서 에러 성분에 대한 에너지값으로서, 다음 수학식 8과 같이 표시할 수 있다.
Figure 112007033121528-PAT00017
(3) 음성 검출기 결정 플래그(VAD Decision Flag)
VAD에서 추출된 파라미터들과 고정된 임계값의 비교를 통해서 현재 프레임이 무음인지 음성인지를 판단한다. 현재 프레임이 음성, 즉 무음이 아닐 때 1의 값을 가지며, 음악 분류 알고리즘으로 전달된다.
3. 음악 분류 알고리즘의 특징 벡터들
(1) 선 스펙트럼 주파수의 평균(Mean of Line Spectral Frequency)
LPC 분석을 통해서 입력된 lsf1(i)의 이동 평균값으로서, 다음 수학식 9와 같이 표시할 수 있다.
Figure 112007033121528-PAT00018
(2) 평균 에너지(Mean Energy)
프레임 에너지의 이동 평균으로서, 다음 수학식 10과 같이 구할 수 있다.
Figure 112007033121528-PAT00019
(3) 스펙트럼 차이(Spectral Difference)
잡음 구간에서의 반사 계수와 LPC에서 입력된 반사 계수 값에 의해 다음 수학식 11과 같이 구할 수 있다.
Figure 112007033121528-PAT00020
(4) 부분 잔여 에너지(Partial Residual Energy)
VAD에서 프레임을 잡음으로 분류했을 때 증가하며, 다음 프레임이 음성으로 판단되면 0으로 초기화된다. 다음 수학식 12와 같이 구할 수 있다.
Figure 112007033121528-PAT00021
(5) 잡음/묵음의 평균 반사 계수(Mean Reflection Coefficients of Noise/Silent)
VAD에서 프레임을 잡음으로 분류했을 때 계산되며, 다음 프레임의 스펙트럼 차이(SD) 값을 구하기 위해서 사용된다. 다음 수학식 13과 같이 구할 수 있다.
Figure 112007033121528-PAT00022
(6) 정규화 피치 상관(Normalized Pitch Correlation)
5개의 버퍼에 저장되어 있는 정규화 피치 상관을 이용하여 다음 수학식 14와 같이 구할 수 있다.
Figure 112007033121528-PAT00023
동작 후, 다음 프레임을 위해서 다음 수학식 15 및 16과 같이 갱신된다.
Figure 112007033121528-PAT00024
Figure 112007033121528-PAT00025
(7) 주기 카운터의 평균(Mean of the Periodicity Counter)
다음 수학식 17과 같이 구할 수 있으며, 32 프레임마다 갱신된다.
Figure 112007033121528-PAT00026
이면 프레임을 음악으로 분류한다.
Figure 112007033121528-PAT00027
여기서, 사용되는 가중치 값은 다음 수학식 18과 같은 값을 가지며,
Figure 112007033121528-PAT00028
cpr 값은 다음 조건식에 의해서 증가된다.
Figure 112007033121528-PAT00029
여기서, std는 피치 래그(pitch lag)의 정규화 편차값이다.
(8) 잡음의 정규화 피치 상관 평균(Mean of Normalized Pitch Correlation of Noise)
현재 프레임의
Figure 112007033121528-PAT00030
값이 13보다 크고 VAD에서 잡음으로 분류됐을 경우 다음 수학식 19와 같이 계산된다.
Figure 112007033121528-PAT00031
(9) 음악 연속 카운터(Music Continuity Counter)
지금까지 구한 8개의 특징 벡터들과, 경험적으로 학습되어 고정된 임계값과 비교하여 증가하거나 감소하는데,
Figure 112007033121528-PAT00032
값이 200보다 크면 SMV 음성/음악 분류 알고리즘은 프레임을 음악으로 판단한다. 다음 수학식 20과 같이 구할 수 있다.
Figure 112007033121528-PAT00033
다음으로 가우시안 혼합 모델(GMM) 기반의 음성/음악 분류 방법에 대하여 살펴보기로 한다.
GMM은 화자 인식과 음악 인식에서 뛰어난 성능을 보이는 패턴 인식기로서, 가우시안 형태의 혼합 모델 기반 확률 밀도 함수가 다음 수학식 21과 같이 주어진다.
Figure 112007033121528-PAT00034
여기서,
Figure 112007033121528-PAT00035
,
Figure 112007033121528-PAT00036
.
실제로 파라미터
Figure 112007033121528-PAT00037
는 혼합된 가우시안 밀도의 가중치를,
Figure 112007033121528-PAT00038
는 D개의 특징 벡터들을,
Figure 112007033121528-PAT00039
는 평균 벡터들을,
Figure 112007033121528-PAT00040
는 공분산 행렬을,
Figure 112007033121528-PAT00041
는 다음 수학식 22와 같은 GMM의 모델 파라미터를 나타낸다.
Figure 112007033121528-PAT00042
GMM을 이용한 패턴 인식을 위해서는 설정된 특징 벡터를 이용하여 먼저 EM(Expectation-Maximization) 알고리즘 기반의 트레이닝을 통해서 음성/음악에 대한 GMM 모델을 만든다. 테스트 과정에서 일반적으로 이미 훈련된 음성과 음악에 대한 GMM 모델에 실제 데이터가 입력되어 구한 우도비 (Likelihood Ratio)를 계산하여 임계값과 비교하여 음성/음악을 분류하는데, 본 발명에서는 매 프레임 간 독립적인 처리과정에 대한 오류를 보상하고 상관성을 고려하여 실제로 평탄화된 우도비(Smoothed Likelihood Ratio; SLR)를 사용하여 음성 부호화에 적합한 실시간 분류 방법을 다음 수학식 23과 같이 제시한다.
Figure 112007033121528-PAT00043
여기서,
Figure 112007033121528-PAT00044
는 k번째 프레임의 우도를 나타내고,
Figure 112007033121528-PAT00045
는 이전 프레임의 우도를 나타내며, β는 실험적으로 최적화된 가중치로 0.5로 설정한다.
이제 본격적으로 본 발명에서 제안된 SMV 코딩 특징 벡터들을 이용한 GMM 기반의 음성/음악 분류 방법에 대하여 살펴보기로 한다.
본 발명에서는 별도의 연산 과정 없이 SMV의 인코딩 과정에서 자동 생성되는 파라미터들을 특징 벡터들로서 이용하되, 효과적인 GMM을 구성하기 위해 SMV 코딩 파라미터들을 선택적으로 사용하여 실시간으로 음성/음악을 분류한다. 매우 정밀한 확률 밀도 함수를 사용하는 GMM에서 특징 벡터들의 구분이 뚜렷할수록 더욱 뛰어난 성능을 보이기 때문에 이를 위해서 SMV의 음악 분류에 사용되는 특징 벡터들의 통계적인 분류 특성을 조사하였다. 도 3은 통계적인 분류 특성이 우수한, 평균 에너지(Mean Energy), 스펙트럼 차이(Spectral Difference), 정규화 피치 상 관(Normalized Pitch Correlation), 및 음악 연속 카운터(Music Continuity Counter)의 통계적인 분류 특성을 비교하여 보여주는 도면이다. 또한, 본 발명의 일 실시예에서는, 음성/음악 분류에서 피치(Pitch)는 우수한 성능을 보여주기 때문에 SMV에서 정규화되지 않은 Pitch 특징 벡터를 추출하여 총 5개의 특징 벡터를 GMM의 특징 벡터로 제안한다.
도 4는 본 발명의 일 실시예에 따른 GMM 기반의 SMV 코딩 파라미터를 이용한 음성/음악 분류 알고리즘의 블록도이다. 도 4에 도시된 바와 같이, SMV의 음성/음악 분류 알고리즘에 포함된 VAD(420)에서 무음이 아니라고, 즉 신호가 있다고 판별할 경우(450에서 값이 '1'일 경우), 본 발명에 따른 GMM(460)은 SMV에 포함된 LPC 분석(410), VAD(420), 음악 검출(430) 과정에서 생성된 특징 벡터들을 추출하여 GMM 모델(460)에 적용함으로써 우도를 생성하고, 평가를 통해서 음성(465)/음악(466)을 분류하게 된다.
본 발명에서 제안한, SMV의 음성/음악 분류 알고리즘에 적용한 GMM 기반의 실시간 음성/음악 분류 방법의 성능을 알아보기 위해, 기존의 SMV의 알고리즘과 비교 실험을 하였다. 본 실험을 위해서 사용된 음성 데이터베이스는 8 kHz로 샘플링된 깨끗한 음성으로서, 의미가 다른 2개의 문장으로 구성되었고, 음악은 CD를 8 kHz로 다운 샘플링하여 사용하였다.
제안된 음성/음악 분류 알고리즘의 모델을 만들기 위해서 각각의 음성/음악 파일 50개를 이용하여 트레이닝하였으며, 혼합(Mixture) 개수는 16개를 사용하였다. 도 5는 테스트에 사용된 파일을 나타내는 도면이다. 도 5에 도시된 바와 같 이, 테스트 파일은 10개씩의 음성/음악 파일을 이용하여 만들었으며, 음성 구간 5초, 음악 구간 10초, 무음 구간 7.5초의 길이로 구성하였다.
다양한 음악 장르에 대한 음성/음악 분류 성능을 확인하기 위해서 각 장르별(메탈, 발라드, 힙합, 클래식, 재즈)로 구성된 테스트 파일을 5개, 혼합된 형태의 테스트 파일을 1개 만들었다. 2가지 방법의 실제 성능을 알아보기 위해서, 테스트 파일의 20ms마다 실제 결과를 0(무음), 1(음성), 2(음악)로 수동으로 작성한 것과 비교하였다.
각각의 테스트 파일에 대한 음악 검출 확률(Pd _M) 및 음성 검출 확률(Pd _S)을 조사하였으며, 그 결과를 다음 표 1과 같이 정리하였다.
잡음의 종류 방법 음악 (Pd _M) 음성 (Pd _S)
혼합 기존의 SMV 방법 0.27 0.95
본 발명에 따른 방법 0.94 0.98
메탈 기존의 SMV 방법 0 0.95
본 발명에 따른 방법 0.99 0.98
발라드 기존의 SMV 방법 0.45 0.95
본 발명에 따른 방법 0.94 0.99
힙합 기존의 SMV 방법 0.13 0.95
본 발명에 따른 방법 0.85 0.91
클래식 기존의 SMV 방법 0.45 0.95
본 발명에 따른 방법 0.76 0.99
재즈 기존의 SMV 방법 0.34 0.94
본 발명에 따른 방법 0.73 0.99
표 1을 통해서 기존의 SMV 방법보다 본 발명에 따른 GMM 기반의 방법이 전반적으로 검출 확률이 우수한 것을 확인할 수 있다. 특히, 음악 분류에서는 그 차이가 더욱 크게 나타나고 있다. 다양한 음악 장르에 대한 음악 분류 성능은 음악 장르와 시스템에 따라서 큰 차이를 보이지만, 기존의 SMV 방법과 본 발명에서 제안된 GMM 기반의 방법을 비교하였을 때 모든 장르에서 본 발명에서 제안된 방법의 성능이 뛰어남을 알 수 있다.
다음으로, 모든 음악 장르별 데이터를 혼합시킨 혼합 테스트 파일에 대해서 수신기 동작 특성(Receiver Operation Characteristic; ROC) 곡선을 그려 두 방법의 전체적인 성능을 비교하였다. 도 6은 기존의 SMV 방법과 본 발명에 따른 음성/음악 분류 방법에 대한 ROC 곡선을 나타내는 도면으로서, 우도비를 비교하는 부등식에 주는 가중치의 값을 변화시키면서 음성/음악에 대한 검출 확률을 표시하였다. 도 6에 도시된 바와 같이, 본 발명에 따른 음성/음악 분류 방법이 기존의 SMV 방법보다 그 성능이 우수함을 다시 한 번 확인할 수 있다.
마지막으로, 도 7은 기존의 SMV 방법과 본 발명에서 제안된 방법의 실시간 음성/음악 분류 성능을 평가하기 위해서 음성/음악의 파형과 두 시스템의 분류 결과를 시간 축 상에서 비교하여 도시하였다. 도 7(a)은 테스트 파일의 일부분으로 음성 → 음악 → 음성 → 음악 순서로 구성된 부분이고, 도 7(b)과 도 7(c)은 각각 기존의 SMV의 실시간 음성/음악 분류 결과와 본 발명에서 제안된 방법의 실시간 음성/음악 분류 결과로서, 음성일 때 1, 음악일 때 2를 나타내고 있다. 도 7로부터도, 기존의 SMV 방법과 본 발명에서 제안된 방법 간의 실시간 음악 분류 성능의 뚜렷한 차이를 확인할 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
본 발명의 음성/음악 분류 방법에 따르면, SMV 인코딩 과정에서 얻어지는 특징 벡터들 중 통계적으로 음악/음성 분류 특성이 우수한 특징 벡터들을 추출하여 가우시안 혼합 모델(Gaussian Mixture Model; GMM)의 특징 벡터들로서 사용함으로써, 음악 및 음성을 우수한 정확도로 실시간으로 분류할 수 있다. 특히, 기존의 SMV 인코딩 과정에서 얻어지는 결과들을 상당 부분 그대로 사용하기 때문에 시스템 자원을 효과적으로 사용할 수 있다.

Claims (4)

  1. 입력 신호에 대하여 음성 신호를 검출하는 단계;
    상기 음성 신호 검출 단계에서 음성이라고 검출되는 경우, 상기 입력 신호에 대한 SMV(Selectable Mode Vocoder) 인코딩 과정에서 얻어진 특징 벡터들 중에서 통계적으로 음성/음악 분류 특성이 우수한 특징 벡터(이하 'SMV 기반 특징 벡터'라고 함)들을 추출하는 단계; 및
    추출된 상기 SMV 기반 특징 벡터들을 가우시안 혼합 모델(Gaussian Mixture Model; GMM)의 특징 벡터들로서 사용하여 음성/음악을 실시간으로 분류하는 단계
    를 포함하는 음성 및 음악을 실시간으로 분류하는 방법.
  2. 제1항에 있어서,
    SMV 인코딩 과정에서 정규화되지 않은 통계적으로 음성/음악 분류 특성이 우수한 특징 벡터(이하 '비SMV 기반 특징 벡터'라고 함)들을 상기 SMV 기반 특징 벡터들과 함께 GMM의 특징 벡터로 적용할 수 있는 방법.
  3. 제2항에 있어서,
    상기 비SMV 기반 특징 벡터들에는 피치(pitch) 특징 벡터가 포함될 수 있는 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 SMV 기반 특징 벡터들에는 평균 에너지(mean energy) 특징 벡터, 스펙트럼 차이(spectral difference; SD) 특징 벡터, 정규화 피치 상관(normalized pitch correlation) 특징 벡터, 및 음악 연속 카운터(music continuity counter) 특징 벡터가 포함될 수 있는 방법.
KR1020070042826A 2007-05-03 2007-05-03 음성 및 음악을 실시간으로 분류하는 방법 KR100925256B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070042826A KR100925256B1 (ko) 2007-05-03 2007-05-03 음성 및 음악을 실시간으로 분류하는 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070042826A KR100925256B1 (ko) 2007-05-03 2007-05-03 음성 및 음악을 실시간으로 분류하는 방법

Publications (2)

Publication Number Publication Date
KR20080097684A true KR20080097684A (ko) 2008-11-06
KR100925256B1 KR100925256B1 (ko) 2009-11-05

Family

ID=40285443

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070042826A KR100925256B1 (ko) 2007-05-03 2007-05-03 음성 및 음악을 실시간으로 분류하는 방법

Country Status (1)

Country Link
KR (1) KR100925256B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101469021B1 (ko) * 2010-03-26 2014-12-04 후지쯔 가부시끼가이샤 카테고리 생성 프로그램, 카테고리 생성 장치 및 카테고리 생성 방법
US9336796B2 (en) 2013-11-27 2016-05-10 Electronics And Telecommunications Research Institute Method and apparatus for detecting speech/non-speech section
RU2667380C2 (ru) * 2014-06-24 2018-09-19 Хуавэй Текнолоджиз Ко., Лтд. Способ и устройство кодирования аудио
US10283133B2 (en) 2012-09-18 2019-05-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
CN113257276A (zh) * 2021-05-07 2021-08-13 普联国际有限公司 一种音频场景检测方法、装置、设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
KR102398124B1 (ko) * 2015-08-11 2022-05-17 삼성전자주식회사 음향 데이터의 적응적 처리

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101469021B1 (ko) * 2010-03-26 2014-12-04 후지쯔 가부시끼가이샤 카테고리 생성 프로그램, 카테고리 생성 장치 및 카테고리 생성 방법
US10283133B2 (en) 2012-09-18 2019-05-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
US11393484B2 (en) 2012-09-18 2022-07-19 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
US9336796B2 (en) 2013-11-27 2016-05-10 Electronics And Telecommunications Research Institute Method and apparatus for detecting speech/non-speech section
RU2667380C2 (ru) * 2014-06-24 2018-09-19 Хуавэй Текнолоджиз Ко., Лтд. Способ и устройство кодирования аудио
US10347267B2 (en) 2014-06-24 2019-07-09 Huawei Technologies Co., Ltd. Audio encoding method and apparatus
US11074922B2 (en) 2014-06-24 2021-07-27 Huawei Technologies Co., Ltd. Hybrid encoding method and apparatus for encoding speech or non-speech frames using different coding algorithms
CN113257276A (zh) * 2021-05-07 2021-08-13 普联国际有限公司 一种音频场景检测方法、装置、设备及存储介质
CN113257276B (zh) * 2021-05-07 2024-03-29 普联国际有限公司 一种音频场景检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
KR100925256B1 (ko) 2009-11-05

Similar Documents

Publication Publication Date Title
Ramırez et al. Efficient voice activity detection algorithms using long-term speech information
JP4866438B2 (ja) 音声符号化方法及び装置
KR100925256B1 (ko) 음성 및 음악을 실시간으로 분류하는 방법
KR100930584B1 (ko) 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치
KR100962681B1 (ko) 오디오신호들의 분류
TWI441166B (zh) 用以將信號之不同區段分類之方法與鑑別器
EP0625774A2 (en) A method and an apparatus for speech detection
US20030101050A1 (en) Real-time speech and music classifier
WO2008067719A1 (fr) Procédé de détection d&#39;activité sonore et dispositif de détection d&#39;activité sonore
ITRM20000248A1 (it) Metodo di rivelazione di attivita&#39; vocale e metodo per la segmentazione di parole isolate, e relativi apparati.
Chow et al. Robust speaker identification based on perceptual log area ratio and Gaussian mixture models.
JP4696418B2 (ja) 情報検出装置及び方法
Bäckström et al. Voice activity detection
Malenovsky et al. Two-stage speech/music classifier with decision smoothing and sharpening in the EVS codec
Song et al. Analysis and improvement of speech/music classification for 3GPP2 SMV based on GMM
Beritelli et al. Robust voiced/unvoiced speech classification using fuzzy rules
Guillemin et al. Impact of the GSM AMR speech codec on formant information important to forensic speaker identification
Kim et al. Speech/music classification enhancement for 3GPP2 SMV codec based on support vector machine
Beritelli et al. Adaptive V/UV speech detection based on acoustic noise estimation and classification
Sorin et al. The ETSI extended distributed speech recognition (DSR) standards: client side processing and tonal language recognition evaluation
Zhang et al. A CELP variable rate speech codec with low average rate
Ojala et al. A novel pitch-lag search method using adaptive weighting and median filtering
Arun Sankar et al. Speech sound classification and estimation of optimal order of LPC using neural network
KR100984094B1 (ko) 가우시안 혼합 모델을 이용한 3세대 파트너십 프로젝트2의 선택 모드 보코더를 위한 실시간 유무성음 분류 방법
Liu et al. Efficient voice activity detection algorithm based on sub-band temporal envelope and sub-band long-term signal variability

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121008

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20130913

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140818

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee