KR100925256B1 - A method for discriminating speech and music on real-time - Google Patents
A method for discriminating speech and music on real-time Download PDFInfo
- Publication number
- KR100925256B1 KR100925256B1 KR1020070042826A KR20070042826A KR100925256B1 KR 100925256 B1 KR100925256 B1 KR 100925256B1 KR 1020070042826 A KR1020070042826 A KR 1020070042826A KR 20070042826 A KR20070042826 A KR 20070042826A KR 100925256 B1 KR100925256 B1 KR 100925256B1
- Authority
- KR
- South Korea
- Prior art keywords
- music
- voice
- feature vectors
- smv
- classification
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 239000013598 vector Substances 0.000 claims abstract description 69
- 239000000203 mixture Substances 0.000 claims abstract description 11
- 238000001514 detection method Methods 0.000 claims abstract description 9
- 230000003595 spectral effect Effects 0.000 claims description 8
- 238000007635 classification algorithm Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 음성 및 음악을 실시간으로 분류하는 방법에 관한 것으로서, 본 발명에 따른 음성/음악 분류 방법은, (1) 입력 신호에 대하여 음성 신호를 검출하는 단계와, (2) 상기 음성 신호 검출 단계에서 음성이라고 검출되는 경우, 상기 입력 신호에 대한 SMV(Selectable Mode Vocoder) 인코딩 과정에서 얻어진 특징 벡터들 중에서 통계적으로 음성/음악 분류 특성이 우수한 특징 벡터(이하 'SMV 기반 특징 벡터'라고 함)들을 추출하는 단계와, (3) 추출된 상기 SMV 기반 특징 벡터들을 가우시안 혼합 모델(Gaussian Mixture Model; GMM)의 특징 벡터들로서 사용하여 음성/음악을 실시간으로 분류하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.The present invention relates to a method for classifying voice and music in real time, wherein the voice / music classification method comprises: (1) detecting a voice signal with respect to an input signal, and (2) detecting the voice signal. In the case of detecting a voice at, the feature vectors (hereinafter, referred to as 'SMV based feature vectors') having statistically excellent voice / music classification characteristics are extracted from the feature vectors obtained in the SMV encoding process for the input signal. And (3) classifying voice / music in real time using the extracted SMV based feature vectors as feature vectors of a Gaussian Mixture Model (GMM). .
본 발명의 음성/음악 분류 방법에 따르면, SMV 인코딩 과정에서 얻어지는 특징 벡터들 중 통계적으로 음악/음성 분류 특성이 우수한 특징 벡터들을 추출하여 가우시안 혼합 모델(Gaussian Mixture Model; GMM)의 특징 벡터들로서 사용함으로써, 음악 및 음성을 우수한 정확도로 실시간으로 분류할 수 있다. 특히, 기존의 SMV 인코딩 과정에서 얻어지는 결과들을 상당 부분 그대로 사용하기 때문에 시스템 자원을 효과적으로 사용할 수 있다.According to the speech / music classification method of the present invention, by extracting feature vectors having excellent music / voice classification characteristics statistically from the feature vectors obtained in the SMV encoding process and using them as feature vectors of a Gaussian Mixture Model (GMM) It can classify music and voice in real time with excellent accuracy. In particular, since the results obtained in the existing SMV encoding process are used in large part, system resources can be effectively used.
음성/음악 분류, SMV(Selectable Mode Vocoder), 가우시안 혼합 모 델(Gaussian Mixture Model; GMM), 특징 벡터, 실시간 분류, 음성 신호 검출(VAD), 선형 예측 코딩 Speech / Music Classification, Selectable Mode Vocoder (SMV), Gaussian Mixture Model (GMM), Feature Vector, Real-Time Classification, Speech Signal Detection (VAD), Linear Predictive Coding
Description
도 1은 SMV(Selectable Mode Vocoder)가 입력 신호를 처리하는 과정을 나타내는 도면.1 is a diagram illustrating a process of processing an input signal by a Selectable Mode Vocoder (SMV);
도 2는 기존의 SMV 음성/음악 분류 알고리즘의 블록도.2 is a block diagram of a conventional SMV speech / music classification algorithm.
도 3은 통계적인 분류 특성이 우수한, 평균 에너지(Mean Energy), 스펙트럼 차이(Spectral Difference), 정규화 피치 상관(Normalized Pitch Correlation), 및 음악 연속 카운터(Music Continuity Counter)의 통계적인 분류 특성을 비교하여 보여주는 도면.FIG. 3 compares statistical classification characteristics of Mean Energy, Spectral Difference, Normalized Pitch Correlation, and Music Continuity Counter with excellent statistical classification characteristics. Showing drawings.
도 4는 본 발명의 일 실시예에 따른 GMM 기반의 SMV 코딩 파라미터를 이용한 음성/음악 분류 알고리즘의 블록도.4 is a block diagram of a speech / music classification algorithm using GMM-based SMV coding parameters in accordance with an embodiment of the present invention.
도 5는 테스트에 사용된 파일을 나타내는 도면.5 shows a file used for testing.
도 6은 기존의 SMV 방법과 본 발명에 따른 음성/음악 분류 방법에 대한 ROC 곡선을 나타내는 도면.6 is a diagram illustrating a ROC curve for a conventional SMV method and a voice / music classification method according to the present invention.
도 7은 기존의 SMV 방법과 본 발명에서 제안된 방법의 실시간 음성/음악 분류 성능을 평가하기 위해서 음성/음악의 파형과 두 시스템의 분류 결과를 시간축 상에서 비교하여 도시한 도면.FIG. 7 is a diagram illustrating comparison of waveforms of speech / music and classification results of two systems on a time axis in order to evaluate real-time speech / music classification performance of the existing SMV method and the method proposed in the present invention.
<도면 중 주요 부분에 대한 부호의 설명><Explanation of symbols for main parts of the drawings>
405 : 입력 신호405: input signal
410 : LPC 분석하는 단계410: step of LPC analysis
420 : VAD 단계420: VAD stage
430 : 음악 검출 단계430: music detection step
440 : 특징 추출 단계440: Feature Extraction Step
450 : VAD 값을 확인하는 블록450: Block to check the VAD value
455 : 무음으로 판단455: judge by silence
460 : GMM 모델460: GMM Model
465 : 음성으로 판단465: judge by voice
466 : 음악으로 판단466: judging by music
본 발명은 음성 및 음악을 실시간으로 분류하는 방법에 관한 것으로서, 특히 SMV(Selectable Mode Vocoder) 인코딩 과정에서 얻어지는 특징 벡터들 중 통계적으로 음악/음성 분류 특성이 우수한 특징 벡터들을 추출하여 가우시안 혼합 모델(Gaussian Mixture Model; GMM)의 특징 벡터들로서 사용함으로써, 음악 및 음성을 우수한 정확도로 실시간으로 분류하는 새로운 실시간 음악/음성 분류 방법에 관한 것이다.The present invention relates to a method for classifying voice and music in real time. In particular, a Gaussian mixture model is extracted by extracting feature vectors having excellent music / voice classification characteristics among feature vectors obtained in a Selectable Mode Vocoder (SMV) encoding process. By using them as feature vectors of a Mixture Model (GMM), a new real-time music / voice classification method of real-time classification of music and voice with excellent accuracy is provided.
최근 이동통신의 발전으로 무선통신기기를 이용한 멀티미디어 서비스가 보편화되면서, 제한적인 주파수 대역에서 효과적으로 음성을 전송하는 연구가 지속적으로 이루어지고 있다. 현재 제한된 통신망을 효율적으로 사용하기 위해 가변적인 비트율(bite rate)을 갖는 다양한 음성 코덱이 개발되었다. 실제로 입력 음성 신호의 타입에 따라서 서로 다른 비트를 할당하는 기술은, 최종 음성의 음질에 크게 영향을 미치기 때문에 정확한 신호 분류를 위한 핵심 기술로서 다루어지고 있다. 특히, 단순히 음성 통신을 다루던 것에서 벗어나 음악 신호를 이동통신망을 통해 효과적으로 전송하기 위한 음성/음악 분류의 중요성이 증가하여 관련된 연구가 활발히 진행되고 있다.Recently, with the development of mobile communication, multimedia services using wireless communication devices have become commonplace, and researches for effectively transmitting voice in a limited frequency band have been continuously conducted. Currently, various voice codecs with variable bit rates have been developed to efficiently use limited communication networks. In fact, the technique of allocating different bits according to the type of input speech signal is treated as a key technique for accurate signal classification because it greatly affects the sound quality of the final speech. In particular, the importance of voice / music classification for effectively transmitting music signals through mobile communication networks has been actively studied.
가변 전송률 알고리즘을 채택하고 있는 유럽 전기 통신 표준 협회(European Telecommunications Standards Institute; ETSI)의 3GPP2(3rd Generation Partnership Project2) 표준 저 전송률 음성 코덱인 Selected Mode Vocoder(SMV) 또한 실시간 음성/음악 분류 기법을 기반으로 하고 있다. SMV 음성부호화기는 Rate 1(8.55 kbps), Rate 1/2(4.0 kbps), Rate 1/4(2.0 kbps), Rate 1/8(0.8 kbps)의 4가지 비트율과 Mode 0(premium), Mode 1(standard), Mode 2(economy), Mode 3(supereconomy)의 4개의 동작 모드를 가지며, 이에 따라 다양한 평균 비트율(Average Bit Rate; ABR)을 갖기 때문에 CDMA 시스템의 성능과 음질간의 관계에서 선택적으로 성능을 조절할 수 있다는 장점을 갖는다. 그러나 SMV 음성부화기는 음성/음악 분류 성능은 그다지 좋지 못하다는 문제점이 있다.Selected Mode Vocoder (SMV), a 3rd Generation Partnership Project2 (3GPP2) standard low-rate speech codec from the European Telecommunications Standards Institute (ETSI), which employs a variable rate algorithm, is also based on real-time speech / music classification techniques. Doing. The SMV voice encoder has four bit rates: Rate 1 (8.55 kbps),
본 발명은, 상기와 같은 문제점을 해결하기 위해 제안된 것으로서, SMV 인코딩 과정에서 얻어지는 특징 벡터들 중 통계적으로 음악/음성 분류 특성이 우수한 특징 벡터들을 추출하여 가우시안 혼합 모델(Gaussian Mixture Model; GMM)의 특징 벡터들로서 사용함으로써, 음악 및 음성을 우수한 정확도로 실시간으로 분류할 수 있는 새로운 실시간 음악/음성 분류 방법을 제안하는 것을 그 목적으로 한다.The present invention has been proposed to solve the above problems, and extracts feature vectors with excellent music / voice classification characteristics among feature vectors obtained in the SMV encoding process to obtain a Gaussian Mixture Model (GMM). By using it as feature vectors, it aims to propose a new real time music / voice classification method that can classify music and voice in real time with excellent accuracy.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른, 실시간 음악/음성 분류 방법은,According to a feature of the present invention for achieving the above object, a real-time music / voice classification method,
(1) 입력 신호에 대하여 음성 신호를 검출하는 단계;(1) detecting a speech signal with respect to the input signal;
(2) 상기 음성 신호 검출 단계에서 음성이라고 검출되는 경우, 상기 입력 신호에 대한 SMV(Selectable Mode Vocoder) 인코딩 과정에서 얻어진 특징 벡터들 중에서 통계적으로 음성/음악 분류 특성이 우수한 특징 벡터(이하 'SMV 기반 특징 벡터'라고 함)들을 추출하는 단계; 및(2) When it is detected that the voice is detected in the voice signal detection step, among the feature vectors obtained in the SMV (Selectable Mode Vocoder) encoding process for the input signal, a feature vector having excellent voice / music classification characteristics statistically (hereinafter referred to as' SMV-based) Extracting feature vectors'; And
(3) 추출된 상기 SMV 기반 특징 벡터들을 가우시안 혼합 모델(Gaussian Mixture Model; GMM)의 특징 벡터들로서 사용하여 음성/음악을 실시간으로 분류하는 단계(3) classifying voice / music in real time using the extracted SMV based feature vectors as feature vectors of a Gaussian Mixture Model (GMM);
를 포함하는 것을 그 특징으로 한다.It characterized by including the.
바람직하게는, SMV 인코딩 과정에서 정규화되지 않은 통계적으로 음성/음악 분류 특성이 우수한 특징 벡터(이하 '비 SMV 기반 특징 벡터'라고 함)들을 상기 SMV 기반 특징 벡터들과 함께 GMM의 특징 벡터로 적용할 수 있다.Preferably, feature vectors (hereinafter, referred to as 'non-SMV based feature vectors') having excellent speech / music classification characteristics that are not normalized in the SMV encoding process may be applied as feature vectors of the GMM together with the SMV based feature vectors. Can be.
특히, 상기 비SMV 기반 특징 벡터들에는 피치(pitch) 특징 벡터가 포함될 수 있는 것이 더 바람직하다.In particular, it is more preferred that the non-SMV based feature vectors include a pitch feature vector.
또한, 바람직하게는, 상기 SMV 기반 특징 벡터들에는 평균 에너지(mean energy) 특징 벡터, 스펙트럼 차이(spectral difference; SD) 특징 벡터, 정규화 피치 상관(normalized pitch correlation) 특징 벡터, 및 음악 연속 카운터(music continuity counter) 특징 벡터가 포함될 수 있다.In addition, preferably, the SMV-based feature vectors may include a mean energy feature vector, a spectral difference (SD) feature vector, a normalized pitch correlation feature vector, and a music continuous counter (music). continuity counter) feature vector may be included.
이하에서는 본 발명의 실시예를 도면을 참조하여 상세히 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
도 1은 SMV가 입력 신호를 처리하는 과정을 나타내는 도면이다. 도 1에 도시된 바와 같이, SMV에서는, 8 kHz로 샘플링된 입력 신호에 대하여 160개의 샘플(20ms)마다 프레임의 모드와 전송 비트율을 결정한다. 구체적으로 살펴보면, 입력된 신호는 묵음 증가, 고대역 필터링, 잡음 억제, 적응 틸트 보상(adaptive tilt compensation) 등과 같은 전처리 과정을 통해서 배경 잡음(background noise)을 제거한다. 전처리 과정에서 배경 잡음이 제거된 신호는, 선형 예측 분석(LPC analysis), 개루프 피치 조사(open-loop pitch search), 신호 변경 및 분류 등과 같은 프레임 처리 과정을 거치게 된다. 선형 예측 분석과 개루프 피치 조사를 통해서 음성/음악 분류에 대한 파라미터들이 추출되는데, 신호 분류를 통해서 프레임은 잡음, 묵음, 무성음, 시작음, 비정상적 유성음, 정상적 유성음 중 한 개로 분류된다. 또한, 프레임의 비트율은 현재 프레임이 분류된 종류와 통신 상태에 따라서 정해지는 모드를 바탕으로 전송률 결정 알고리즘(Rate Determination Algorithm; RDA)에 의해 결정된다. 프레임이 음악으로 판별되는 경우에는 프레임의 비트율이 Rate 1로 결정되어 최고의 전송률이 할당되며, 그 외의 경우에는 정해진 임계값에 의해서 전송률이 결정되어 인코딩된다.1 is a diagram illustrating a process in which an SMV processes an input signal. As shown in FIG. 1, in the SMV, the mode and the transmission bit rate of the frame are determined every 160 samples (20 ms) for the input signal sampled at 8 kHz. Specifically, the input signal removes background noise through preprocessing such as silence increase, high band filtering, noise suppression, and adaptive tilt compensation. The signal from which the background noise is removed during the preprocessing is subjected to frame processing such as LPC analysis, open-loop pitch search, signal change and classification. Linear predictive analysis and open-loop pitch surveys are used to extract parameters for speech / music classification. Signal classification classifies a frame into one of noise, silence, unvoiced sound, start sound, abnormal voiced sound, and normal voiced sound. In addition, the bit rate of the frame is determined by a Rate Determination Algorithm (RDA) based on a mode determined according to the type of the current frame and the communication state. If the frame is determined to be music, the bit rate of the frame is determined to be
SMV는 8kHz로 샘플링된 입력 신호를 20ms마다 평가하는데, 음성 검출기(Voice Activity Detector; VAD)에서 무음과 음성으로 분류한 뒤, 무음이 아닌 부분(음성)을 다시 음성과 음악으로 분류한다. 도 2는 기존의 SMV 음성/음악 분류 알고리즘의 블록도이다. 도 2에 도시된 바와 같이, 기존의 SMV 음성/음악 분류 알고리즘은, 음성 검출기(VAD), 개루프 피치(Open Loop Pitch), 선형 예측 코딩(Linear Prediction Coding; LPC)에서 추출된 특징 벡터들을 입력받은 후, 각 특징 벡터의 이동 평균(running mean) 값을 음성/음악 분류 알고리즘의 특징 벡터들로서 사용한다. 이러한 특징 벡터들을 고정된 임계값(임계값은 경험적으로 설정됨)과 비교하여 음성/음악 분류를 한다. 기존의 SMV 음성/음악 분류 알고리즘에 입력되는 특징 벡터들에 대해서 이하에서 보다 상세하게 살펴보기로 한다.SMV evaluates the input signal sampled at 8 kHz every 20 ms. The voice signal is classified into a silent and a voice by a voice activity detector (VAD), and then a non-silent part (voice) is classified into a voice and a music. 2 is a block diagram of a conventional SMV speech / music classification algorithm. As shown in FIG. 2, the existing SMV speech / music classification algorithm inputs feature vectors extracted from a voice detector (VAD), an open loop pitch, and a linear prediction coding (LPC). After receiving, the running mean value of each feature vector is used as feature vectors of the speech / music classification algorithm. These feature vectors are compared to a fixed threshold (threshold is empirically set) for speech / music classification. Feature vectors input to the existing SMV speech / music classification algorithm will be described in more detail below.
1. LPC 분석에서 추출된 특징 벡터들1. Feature Vectors Extracted from LPC Analysis
(1) 반사 계수(Reflection Coefficient)(1) Reflection Coefficient
다음 수학식 1과 같이 구할 수 있으며, 인코딩 프레임의 마지막 1/4에 가중치가 주어진다.It can be obtained as in
수학식 1에서, 는 자기 상관 함수를, 는 j번째 LPC 계수를, E는 에너지값을 각각 나타낸다.In
(2) 선 스펙트럼 주파수(Line Spectral Frequency; LSF)(2) Line Spectral Frequency (LSF)
인코딩 프레임의 마지막 1/4에 가중치를 주어 구해진 10차 LPC 값을 변화한 값으로 다음 수학식 2와 같이 구할 수 있다.The 10 th order LPC value obtained by giving weight to the last quarter of the encoding frame may be changed as shown in
여기서, A(z)는 예측 오차 필터(prediction error filter) 전달함수이고, ai는 LPC 값이다. A(z)는 다음 수학식 3 및 4로 표시될 수 있는 2개의 전달함수 와 로 나누어진다.Here, A (z) is a prediction error filter transfer function and a i is an LPC value. A (z) is two transfer functions which can be represented by the following equations (3) and (4). Wow Divided into.
여기서, .here, .
수학식 3과 4로 표시된 함수는 주파수 도메인에서 다음 수학식 5 및 6과 같이 표현될 수 있으며, w=0에서 w=1 사이에서 두 전달함수의 해가 LSF 값이 된다. 여기서, 에서 구해진 5개의 해가 lsf(i) [i=1,3,5,7,9]의 값이 되고, 에서 구해진 5개의 해가 lsf(i) [i=2,4,6,7,10]의 값이 된다.The functions represented by the equations (3) and (4) can be expressed in the frequency domain as shown in the following equations (5) and (6), and the solution of the two transfer functions between w = 0 and w = 1 becomes the LSF value. here, The five solutions found at are lsf (i) [i = 1,3,5,7,9], The five solutions found at are lsf (i) [i = 2,4,6,7,10].
여기서, .here, .
2. VAD에서 추출된 특징 벡터들2. Feature Vectors Extracted from VAD
(1) 에너지(Energy)(1) Energy
프레임에 대한 에너지 값으로서, 다음 수학식 7에서 확인할 수 있는 바와 같이 최소 10이상의 값을 갖는다.As an energy value for the frame, it has a value of at least 10 as can be seen in Equation 7 below.
여기서, 값은 LPC 분석에서 구해지는 자기 상관 함수의 값이고, LLPC 값은 LPC 윈도우의 길이로 240을 갖는다.here, The value is the value of the autocorrelation function obtained from the LPC analysis, and L LPC The value has 240 as the length of the LPC window.
(2) 잔여 에너지(Residual Energy)(2) Residual Energy
LPC 분석에서 에러 성분에 대한 에너지값으로서, 다음 수학식 8과 같이 표시할 수 있다.As the energy value for the error component in the LPC analysis, it may be expressed as
(3) 음성 검출기 결정 플래그(VAD Decision Flag)(3) VAD Decision Flag
VAD에서 추출된 파라미터들과 고정된 임계값의 비교를 통해서 현재 프레임이 무음인지 음성인지를 판단한다. 현재 프레임이 음성, 즉 무음이 아닐 때 1의 값을 가지며, 음악 분류 알고리즘으로 전달된다.A comparison between the parameters extracted from the VAD and a fixed threshold value determines whether the current frame is silent or voice. When the current frame is not voice, that is, silent, it has a value of 1 and is passed to the music classification algorithm.
3. 음악 분류 알고리즘의 특징 벡터들3. Feature Vectors of Music Classification Algorithm
(1) 선 스펙트럼 주파수의 평균(Mean of Line Spectral Frequency)(1) Mean of Line Spectral Frequency
LPC 분석을 통해서 입력된 lsf1(i)의 이동 평균값으로서, 다음 수학식 9와 같이 표시할 수 있다.A moving average value of lsf 1 (i) input through the LPC analysis may be expressed as in Equation 9 below.
(2) 평균 에너지(Mean Energy)(2) Mean Energy
프레임 에너지의 이동 평균으로서, 다음 수학식 10과 같이 구할 수 있다.As a moving average of frame energy, it can be calculated | required as following Formula (10).
(3) 스펙트럼 차이(Spectral Difference)(3) Spectral Difference
잡음 구간에서의 반사 계수와 LPC에서 입력된 반사 계수 값에 의해 다음 수학식 11과 같이 구할 수 있다.The reflection coefficient in the noise section and the reflection coefficient value input from the LPC may be obtained as in Equation 11 below.
(4) 부분 잔여 에너지(Partial Residual Energy)(4) Partial Residual Energy
VAD에서 프레임을 잡음으로 분류했을 때 증가하며, 다음 프레임이 음성으로 판단되면 0으로 초기화된다. 다음 수학식 12와 같이 구할 수 있다.It is incremented when VAD classifies a frame as noise, and is initialized to 0 when the next frame is judged as voice. It can be obtained as shown in Equation 12 below.
(5) 잡음/묵음의 평균 반사 계수(Mean Reflection Coefficients of Noise/Silent)(5) Mean Reflection Coefficients of Noise / Silent
VAD에서 프레임을 잡음으로 분류했을 때 계산되며, 다음 프레임의 스펙트럼 차이(SD) 값을 구하기 위해서 사용된다. 다음 수학식 13과 같이 구할 수 있다.This is calculated when VAD classifies a frame as noise and is used to find the spectral difference (SD) of the next frame. It can be obtained as in Equation 13.
(6) 정규화 피치 상관(Normalized Pitch Correlation)(6) Normalized Pitch Correlation
5개의 버퍼에 저장되어 있는 정규화 피치 상관을 이용하여 다음 수학식 14와 같이 구할 수 있다.Using normalized pitch correlation stored in five buffers, the following equation (14) can be obtained.
동작 후, 다음 프레임을 위해서 다음 수학식 15 및 16과 같이 갱신된다.After the operation, it is updated as in
(7) 주기 카운터의 평균(Mean of the Periodicity Counter)(7) Mean of the Periodicity Counter
다음 수학식 17과 같이 구할 수 있으며, 32 프레임마다 갱신된다. 이면 프레임을 음악으로 분류한다.The following equation (17) can be obtained and updated every 32 frames. If it is, the frame is classified as music.
여기서, 사용되는 가중치 값은 다음 수학식 18과 같은 값을 가지며,Here, the weight value used has a value such as the following Equation 18,
cpr 값은 다음 조건식에 의해서 증가된다.The value of c pr is increased by the following conditional expression.
여기서, std는 피치 래그(pitch lag)의 정규화 편차값이다.Here, std is a normalized deviation value of the pitch lag.
(8) 잡음의 정규화 피치 상관 평균(Mean of Normalized Pitch Correlation of Noise)(8) Mean of Normalized Pitch Correlation of Noise
현재 프레임의 값이 13보다 크고 VAD에서 잡음으로 분류됐을 경우 다음 수학식 19와 같이 계산된다.Of the current frame If the value is greater than 13 and classified as noise in the VAD, the following equation is calculated.
(9) 음악 연속 카운터(Music Continuity Counter)(9) Music Continuity Counter
지금까지 구한 8개의 특징 벡터들과, 경험적으로 학습되어 고정된 임계값과 비교하여 증가하거나 감소하는데, 값이 200보다 크면 SMV 음성/음악 분류 알고리즘은 프레임을 음악으로 판단한다. 다음 수학식 20과 같이 구할 수 있다.The eight feature vectors obtained so far are increased or decreased compared with a fixed threshold, empirically learned. If the value is greater than 200, the SMV speech / music classification algorithm judges the frame as music. It can be obtained as shown in
다음으로 가우시안 혼합 모델(GMM) 기반의 음성/음악 분류 방법에 대하여 살펴보기로 한다.Next, the speech / music classification method based on Gaussian mixture model (GMM) will be described.
GMM은 화자 인식과 음악 인식에서 뛰어난 성능을 보이는 패턴 인식기로서, 가우시안 형태의 혼합 모델 기반 확률 밀도 함수가 다음 수학식 21과 같이 주어진다.GMM is a pattern recognizer that shows excellent performance in speaker recognition and music recognition. A Gaussian-type mixed model based probability density function is given by Equation 21 below.
여기서, , .here, , .
실제로 파라미터 는 혼합된 가우시안 밀도의 가중치를, 는 D개의 특징 벡터들을, 는 평균 벡터들을, 는 공분산 행렬을, 는 다음 수학식 22와 같은 GMM의 모델 파라미터를 나타낸다.Actually parameter Is the weight of the mixed Gaussian density, Denotes D feature vectors, Is the mean vectors, Is the covariance matrix, Denotes a model parameter of the GMM as shown in Equation 22 below.
GMM을 이용한 패턴 인식을 위해서는 설정된 특징 벡터를 이용하여 먼저 EM(Expectation-Maximization) 알고리즘 기반의 트레이닝을 통해서 음성/음악에 대한 GMM 모델을 만든다. 테스트 과정에서 일반적으로 이미 훈련된 음성과 음악에 대한 GMM 모델에 실제 데이터가 입력되어 구한 우도비 (Likelihood Ratio)를 계산하여 임계값과 비교하여 음성/음악을 분류하는데, 본 발명에서는 매 프레임 간 독립적인 처리과정에 대한 오류를 보상하고 상관성을 고려하여 실제로 평탄화된 우도비(Smoothed Likelihood Ratio; SLR)를 사용하여 음성 부호화에 적합한 실시간 분류 방법을 다음 수학식 23과 같이 제시한다.For pattern recognition using GMM, GMM model for voice / music is created through training based on Expectation-Maximization (EM) algorithm using the set feature vector. In the test process, the likelihood ratio is calculated by calculating the likelihood ratio obtained by inputting the real data into the GMM model for the already trained voice and music, and classifying the voice / music by comparing with the threshold value. A real-time classification method suitable for speech coding using a smoothed likelihood ratio (SLR) in consideration of the correlation of the error processing and the correlation is proposed as shown in Equation 23 below.
여기서, 는 k번째 프레임의 우도를 나타내고, 는 이전 프레임의 우도를 나타내며, β는 실험적으로 최적화된 가중치로 0.5로 설정한다.here, Represents the likelihood of the kth frame, Denotes the likelihood of the previous frame, and β is set to 0.5 as an experimentally optimized weight.
이제 본격적으로 본 발명에서 제안된 SMV 코딩 특징 벡터들을 이용한 GMM 기반의 음성/음악 분류 방법에 대하여 살펴보기로 한다.Now, the GMM-based speech / music classification method using the SMV coding feature vectors proposed in the present invention will be described in earnest.
본 발명에서는 별도의 연산 과정 없이 SMV의 인코딩 과정에서 자동 생성되는 파라미터들을 특징 벡터들로서 이용하되, 효과적인 GMM을 구성하기 위해 SMV 코딩 파라미터들을 선택적으로 사용하여 실시간으로 음성/음악을 분류한다. 매우 정밀한 확률 밀도 함수를 사용하는 GMM에서 특징 벡터들의 구분이 뚜렷할수록 더욱 뛰어난 성능을 보이기 때문에 이를 위해서 SMV의 음악 분류에 사용되는 특징 벡터들의 통계적인 분류 특성을 조사하였다. 도 3은 통계적인 분류 특성이 우수한, 평균 에너지(Mean Energy), 스펙트럼 차이(Spectral Difference), 정규화 피치 상 관(Normalized Pitch Correlation), 및 음악 연속 카운터(Music Continuity Counter)의 통계적인 분류 특성을 비교하여 보여주는 도면이다. 또한, 본 발명의 일 실시예에서는, 음성/음악 분류에서 피치(Pitch)는 우수한 성능을 보여주기 때문에 SMV에서 정규화되지 않은 Pitch 특징 벡터를 추출하여 총 5개의 특징 벡터를 GMM의 특징 벡터로 제안한다.In the present invention, the parameters generated automatically in the encoding process of the SMV are used as feature vectors without a separate calculation process, and voice / music is classified in real time by selectively using the SMV coding parameters to construct an effective GMM. In the GMM which uses very precise probability density function, the better the distinction of the feature vectors is, the better the performance is. Therefore, the statistical classification characteristics of the feature vectors used in the music classification of SMV are investigated. 3 compares statistical classification characteristics of Mean Energy, Spectral Difference, Normalized Pitch Correlation, and Music Continuity Counter with excellent statistical classification characteristics. It is a diagram showing. In addition, in an embodiment of the present invention, since pitch exhibits excellent performance in speech / music classification, a total of five feature vectors are proposed as GMM feature vectors by extracting a pitch feature vector that is not normalized in SMV. .
도 4는 본 발명의 일 실시예에 따른 GMM 기반의 SMV 코딩 파라미터를 이용한 음성/음악 분류 알고리즘의 블록도이다. 도 4에 도시된 바와 같이, SMV의 음성/음악 분류 알고리즘에 포함된 VAD(420)에서 무음이 아니라고, 즉 신호가 있다고 판별할 경우(450에서 값이 '1'일 경우), 본 발명에 따른 GMM(460)은 SMV에 포함된 LPC 분석(410), VAD(420), 음악 검출(430) 과정에서 생성된 특징 벡터들을 추출하여 GMM 모델(460)에 적용함으로써 우도를 생성하고, 평가를 통해서 음성(465)/음악(466)을 분류하게 된다.4 is a block diagram of a speech / music classification algorithm using GMM-based SMV coding parameters according to an embodiment of the present invention. As shown in FIG. 4, when the
본 발명에서 제안한, SMV의 음성/음악 분류 알고리즘에 적용한 GMM 기반의 실시간 음성/음악 분류 방법의 성능을 알아보기 위해, 기존의 SMV의 알고리즘과 비교 실험을 하였다. 본 실험을 위해서 사용된 음성 데이터베이스는 8 kHz로 샘플링된 깨끗한 음성으로서, 의미가 다른 2개의 문장으로 구성되었고, 음악은 CD를 8 kHz로 다운 샘플링하여 사용하였다.In order to examine the performance of the GMM-based real-time speech / music classification method applied to the speech / music classification algorithm proposed by the present invention, a comparison experiment with the existing algorithm of SMV was performed. The speech database used for this experiment was clean speech sampled at 8 kHz, composed of two sentences with different meanings, and music was used by down-sampling CD at 8 kHz.
제안된 음성/음악 분류 알고리즘의 모델을 만들기 위해서 각각의 음성/음악 파일 50개를 이용하여 트레이닝하였으며, 혼합(Mixture) 개수는 16개를 사용하였다. 도 5는 테스트에 사용된 파일을 나타내는 도면이다. 도 5에 도시된 바와 같 이, 테스트 파일은 10개씩의 음성/음악 파일을 이용하여 만들었으며, 음성 구간 5초, 음악 구간 10초, 무음 구간 7.5초의 길이로 구성하였다.To create a model of the proposed speech / music classification algorithm, we trained 50 speech / music files and used 16 mixes. 5 is a diagram illustrating a file used for a test. As shown in FIG. 5, the test file was made using 10 voice / music files, and was composed of a
다양한 음악 장르에 대한 음성/음악 분류 성능을 확인하기 위해서 각 장르별(메탈, 발라드, 힙합, 클래식, 재즈)로 구성된 테스트 파일을 5개, 혼합된 형태의 테스트 파일을 1개 만들었다. 2가지 방법의 실제 성능을 알아보기 위해서, 테스트 파일의 20ms마다 실제 결과를 0(무음), 1(음성), 2(음악)로 수동으로 작성한 것과 비교하였다.In order to check the performance of voice / music classification for various music genres, five test files composed of each genre (metal, ballad, hip hop, classic, and jazz) and one mixed test file were created. To see the actual performance of the two methods, the actual results are compared to manual writing of 0 (silent), 1 (voice), and 2 (music) every 20ms of the test file.
각각의 테스트 파일에 대한 음악 검출 확률(Pd _M) 및 음성 검출 확률(Pd _S)을 조사하였으며, 그 결과를 다음 표 1과 같이 정리하였다.The music detection probability (P d _ M ) and the voice detection probability (P d _ S ) for each test file were examined, and the results are summarized as in Table 1 below.
표 1을 통해서 기존의 SMV 방법보다 본 발명에 따른 GMM 기반의 방법이 전반적으로 검출 확률이 우수한 것을 확인할 수 있다. 특히, 음악 분류에서는 그 차이가 더욱 크게 나타나고 있다. 다양한 음악 장르에 대한 음악 분류 성능은 음악 장르와 시스템에 따라서 큰 차이를 보이지만, 기존의 SMV 방법과 본 발명에서 제안된 GMM 기반의 방법을 비교하였을 때 모든 장르에서 본 발명에서 제안된 방법의 성능이 뛰어남을 알 수 있다. It can be seen from Table 1 that the overall detection probability of the GMM-based method according to the present invention is superior to the existing SMV method. In particular, the difference is even greater in music classification. The performance of music classification for various music genres varies greatly depending on the music genre and system. However, when the existing SMV method is compared with the GMM-based method proposed in the present invention, the performance of the proposed method is improved in all genres. You can see the excellent.
다음으로, 모든 음악 장르별 데이터를 혼합시킨 혼합 테스트 파일에 대해서 수신기 동작 특성(Receiver Operation Characteristic; ROC) 곡선을 그려 두 방법의 전체적인 성능을 비교하였다. 도 6은 기존의 SMV 방법과 본 발명에 따른 음성/음악 분류 방법에 대한 ROC 곡선을 나타내는 도면으로서, 우도비를 비교하는 부등식에 주는 가중치의 값을 변화시키면서 음성/음악에 대한 검출 확률을 표시하였다. 도 6에 도시된 바와 같이, 본 발명에 따른 음성/음악 분류 방법이 기존의 SMV 방법보다 그 성능이 우수함을 다시 한 번 확인할 수 있다.Next, a receiver operation characteristic (ROC) curve was drawn on the mixed test file that mixed data of all music genres to compare the overall performance of the two methods. FIG. 6 is a diagram illustrating a ROC curve of a conventional SMV method and a voice / music classification method according to the present invention, and shows a detection probability for voice / music while changing a value of a weight given to an inequality comparing a likelihood ratio. . As shown in FIG. 6, it can be confirmed that the voice / music classification method according to the present invention is superior in performance to the existing SMV method.
마지막으로, 도 7은 기존의 SMV 방법과 본 발명에서 제안된 방법의 실시간 음성/음악 분류 성능을 평가하기 위해서 음성/음악의 파형과 두 시스템의 분류 결과를 시간 축 상에서 비교하여 도시하였다. 도 7(a)은 테스트 파일의 일부분으로 음성 → 음악 → 음성 → 음악 순서로 구성된 부분이고, 도 7(b)과 도 7(c)은 각각 기존의 SMV의 실시간 음성/음악 분류 결과와 본 발명에서 제안된 방법의 실시간 음성/음악 분류 결과로서, 음성일 때 1, 음악일 때 2를 나타내고 있다. 도 7로부터도, 기존의 SMV 방법과 본 발명에서 제안된 방법 간의 실시간 음악 분류 성능의 뚜렷한 차이를 확인할 수 있다.Finally, in order to evaluate the real-time voice / music classification performance of the existing SMV method and the method proposed in the present invention, FIG. Figure 7 (a) is a part of the test file is composed of voice → music → voice → music order, Figure 7 (b) and Figure 7 (c) is a real-time voice / music classification results of the existing SMV and the present invention, respectively As a result of the real-time voice / music classification of the method proposed in, 1 for voice and 2 for music are shown. Also from FIG. 7, it can be seen that there is a clear difference in real-time music classification performance between the existing SMV method and the method proposed in the present invention.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.The present invention described above may be variously modified or applied by those skilled in the art, and the scope of the technical idea according to the present invention should be defined by the following claims.
본 발명의 음성/음악 분류 방법에 따르면, SMV 인코딩 과정에서 얻어지는 특징 벡터들 중 통계적으로 음악/음성 분류 특성이 우수한 특징 벡터들을 추출하여 가우시안 혼합 모델(Gaussian Mixture Model; GMM)의 특징 벡터들로서 사용함으로써, 음악 및 음성을 우수한 정확도로 실시간으로 분류할 수 있다. 특히, 기존의 SMV 인코딩 과정에서 얻어지는 결과들을 상당 부분 그대로 사용하기 때문에 시스템 자원을 효과적으로 사용할 수 있다.According to the speech / music classification method of the present invention, by extracting feature vectors having excellent music / voice classification characteristics statistically from the feature vectors obtained in the SMV encoding process and using them as feature vectors of a Gaussian Mixture Model (GMM) It can classify music and voice in real time with excellent accuracy. In particular, since the results obtained in the existing SMV encoding process are used in large part, system resources can be effectively used.
Claims (4)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070042826A KR100925256B1 (en) | 2007-05-03 | 2007-05-03 | A method for discriminating speech and music on real-time |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070042826A KR100925256B1 (en) | 2007-05-03 | 2007-05-03 | A method for discriminating speech and music on real-time |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080097684A KR20080097684A (en) | 2008-11-06 |
KR100925256B1 true KR100925256B1 (en) | 2009-11-05 |
Family
ID=40285443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070042826A KR100925256B1 (en) | 2007-05-03 | 2007-05-03 | A method for discriminating speech and music on real-time |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100925256B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104040626A (en) * | 2012-01-13 | 2014-09-10 | 高通股份有限公司 | Multiple coding mode signal classification |
CN106453818A (en) * | 2015-08-11 | 2017-02-22 | 三星电子株式会社 | Adaptive processing of sound data |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011118037A1 (en) * | 2010-03-26 | 2011-09-29 | 富士通株式会社 | Category generating program, category generating device, and category generating method |
US9589570B2 (en) | 2012-09-18 | 2017-03-07 | Huawei Technologies Co., Ltd. | Audio classification based on perceptual quality for low or medium bit rates |
KR101808810B1 (en) | 2013-11-27 | 2017-12-14 | 한국전자통신연구원 | Method and apparatus for detecting speech/non-speech section |
CN107424622B (en) * | 2014-06-24 | 2020-12-25 | 华为技术有限公司 | Audio encoding method and apparatus |
CN113257276B (en) * | 2021-05-07 | 2024-03-29 | 普联国际有限公司 | Audio scene detection method, device, equipment and storage medium |
-
2007
- 2007-05-03 KR KR1020070042826A patent/KR100925256B1/en not_active IP Right Cessation
Non-Patent Citations (2)
Title |
---|
W.Q Wang et al. 'A fast and robust speech/music discrimination approach' Proc. International Conference on information, communicationa and signal processing, pp.1325-1329, December 2003 |
Y.D.Cho et al. 'Analysis and improvement of a statistical model-based voice activity ' IEEE Signal Process. Letter, pp.276-278, October 2001 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104040626A (en) * | 2012-01-13 | 2014-09-10 | 高通股份有限公司 | Multiple coding mode signal classification |
CN106453818A (en) * | 2015-08-11 | 2017-02-22 | 三星电子株式会社 | Adaptive processing of sound data |
Also Published As
Publication number | Publication date |
---|---|
KR20080097684A (en) | 2008-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ramırez et al. | Efficient voice activity detection algorithms using long-term speech information | |
JP4866438B2 (en) | Speech coding method and apparatus | |
KR100925256B1 (en) | A method for discriminating speech and music on real-time | |
KR100930584B1 (en) | Speech discrimination method and apparatus using voiced sound features of human speech | |
Ramírez et al. | An effective subband OSF-based VAD with noise reduction for robust speech recognition | |
JP3197155B2 (en) | Method and apparatus for estimating and classifying a speech signal pitch period in a digital speech coder | |
EP0625774A2 (en) | A method and an apparatus for speech detection | |
US20030101050A1 (en) | Real-time speech and music classifier | |
WO2008067719A1 (en) | Sound activity detecting method and sound activity detecting device | |
ITRM20000248A1 (en) | VOCAL ACTIVITY DETECTION METHOD AND SEGMENTATION METHOD FOR ISOLATED WORDS AND RELATED APPARATUS. | |
Chow et al. | Robust speaker identification based on perceptual log area ratio and Gaussian mixture models. | |
JP4696418B2 (en) | Information detection apparatus and method | |
Song et al. | Analysis and improvement of speech/music classification for 3GPP2 SMV based on GMM | |
Malenovsky et al. | Two-stage speech/music classifier with decision smoothing and sharpening in the EVS codec | |
Beritelli et al. | Robust voiced/unvoiced speech classification using fuzzy rules | |
US7630891B2 (en) | Voice region detection apparatus and method with color noise removal using run statistics | |
Guillemin et al. | Impact of the GSM AMR speech codec on formant information important to forensic speaker identification | |
Kim et al. | Speech/music classification enhancement for 3GPP2 SMV codec based on support vector machine | |
Beritelli et al. | Adaptive V/UV speech detection based on acoustic noise estimation and classification | |
Sorin et al. | The ETSI extended distributed speech recognition (DSR) standards: client side processing and tonal language recognition evaluation | |
EP4094400B1 (en) | Computer-implemented detection of anomalous telephone calls | |
Ojala et al. | A novel pitch-lag search method using adaptive weighting and median filtering | |
Zhang et al. | A CELP variable rate speech codec with low average rate | |
KR100984094B1 (en) | A voiced/unvoiced decision method for the smv of 3gpp2 using gaussian mixture model | |
Liu et al. | Efficient voice activity detection algorithm based on sub-band temporal envelope and sub-band long-term signal variability |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121008 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20130913 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20140818 Year of fee payment: 6 |
|
LAPS | Lapse due to unpaid annual fee |