KR101524848B1 - 오디오 유형 판별장치 - Google Patents

오디오 유형 판별장치 Download PDF

Info

Publication number
KR101524848B1
KR101524848B1 KR1020140043243A KR20140043243A KR101524848B1 KR 101524848 B1 KR101524848 B1 KR 101524848B1 KR 1020140043243 A KR1020140043243 A KR 1020140043243A KR 20140043243 A KR20140043243 A KR 20140043243A KR 101524848 B1 KR101524848 B1 KR 101524848B1
Authority
KR
South Korea
Prior art keywords
gmm
unit
model
kernel function
audio
Prior art date
Application number
KR1020140043243A
Other languages
English (en)
Inventor
김진영
뷔넉남
민소희
김정기
Original Assignee
전남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전남대학교산학협력단 filed Critical 전남대학교산학협력단
Priority to KR1020140043243A priority Critical patent/KR101524848B1/ko
Application granted granted Critical
Publication of KR101524848B1 publication Critical patent/KR101524848B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 오디오 유형 판별장치에 관한 것으로서, 입력된 인식대상 오디오 신호로부터 특징벡터를 추출하는 특징벡터 추출부와, 학습된 오디오 유형들에 대한 가우시안 혼합모델 정보가 저장된 GMM-UBM모델 제공부와, 특징벡터 추출부에서 추출된 특징벡터를 GMM-UBM모델 제공부에 저장된 가우시안 혼합모델과 적응시켜 평균벡터를 산출하는 GMM적응부와, GMM적응부에서 출력되는 평균벡터들로부터 슈퍼벡터를 생성하는 GMM슈벡터화부와, 적용할 비선형 커널함수를 제공하는 커널함수 제공부와, 학습된 오디오 유형들에 대한 서포트 벡터들이 저장된 SVM모델 제공부와, GMM슈퍼벡터화부에서 생성된 슈퍼벡터로부터 오디오 유형을 판별하기 위해 커널함수 제공부에서 제공된 커널함수와 SVM모델 저장부에 저장된 서포트 벡터 모델 및 GMM-UBM모델제공부에서 제공하는 가우시안 혼합모델을 이용하여 최종 거리값을 산출하고, 산출된 최종거리값의 결과로부터 오디오 유형 종류를 판별하는 유형 판단부를 구비한다. 이러한 오디오 유형 판별장치에 의하면, 인식율을 높일 수 있는 비선형 커널 함수를 적용함으로써 오디오 이벤트 인식 등 패턴인식기의 성능을 향상시킬 수 있다.

Description

오디오 유형 판별장치{audio type recognizer}
본 발명은 오디오 유형 판별장치에 관한 것으로서, 비선형 커널함수를 적용하여 인식율을 높일 수 있는 오디오 유형 판별장치에 관한 것이다.
GMM(Gaussian Mixture Model), HMM(Hidden Markov Model), SVM(Support Vector Machine) 등은 패턴인식 문제에서 우수한 성능을 보이는 인식 방법들이고, 오디오, 음성(화자), 얼굴 인식 등에서 우수한 인식성능을 보여 현재 다양한 인식시스템에서 채용되고 있다.
이러한 예로서, 국내 공개특허 제10-2008-0077719호에는 서포트 벡터 머신(SVM;Support Vector Machine)을 이용하여 음성신호로부터 성별을 인식하는 방법이 게시되어 있다.
한편 음성을 이용한 화자인식에서 GMM 슈퍼벡터(supervector)와 SVM을 이용한 방법이 제시되었고, 다양한 잡음과 채널 환경에서 훌륭한 성능을 보인다.
특히 잡음이 심하고, 채널환경이 복잡한 가정(home)내 오디오 이벤트를 인식하는데, 화자인식의 이러한 방법은 좋은 결과를 보이고 있다.
GMM 슈퍼벡터(supervector)는 UBM(universal background model)으로부터 화자별 또는 입력 신호에 대한 적응(adaptation)기법을 통하여 얻어지는데, 슈퍼벡터(supervector)는 SVM을 통해 최종적으로 인식된다.
슈퍼벡터(supervector)에 SVM을 적용하는 경우, 인식률 향상을 위해 슈퍼벡터( supervector)는 커널(kernel) 함수를 이용하여 다차원의 특징으로 매핑되어 거리를 계산한다.
커널(Kernal) 함수로는 GMM KL(Kullback-Leiber), GUMI 커널, polynomial, RBF(radial basis function)등이 알려져 있다.
한편, GMM 슈퍼벡터(supervector)와 SVM을 이용한 오디오 인식 방법을 가정 내에서 발생하는 오디오 이벤트에 적용할 경우 아직까지 만족할 만한 인식 수준에 도달하지 못하고 있어 인식율을 더욱 높일 수 있는 방안이 요구되고 있다.
본 발명은 상기와 같은 요구사항을 해결하기 위하여 창안된 것으로서, 비선형 커널함수를 적용하여 오디오 유형에 대한 인식율을 더욱 높일 수 있는 오디오 유형 판별장치를 제공하는데 그 목적이 있다,
상기의 목적을 달성하기 위하여 본 발명에 따른 오디오 유형 판별장치는 입력된 인식대상 오디오 신호로부터 특징벡터를 추출하는 특징벡터 추출부와; 학습된 오디오 유형들에 대한 가우시안 혼합모델 정보가 저장된 GMM-UBM모델 제공부와; 상기 특징벡터 추출부에서 추출된 특징벡터를 상기 GMM-UBM모델 제공부에 저장된 가우시안 혼합모델과 적응시켜 평균벡터를 산출하는 GMM적응부와; 상기 GMM적응부에서 출력되는 평균벡터들로부터 슈퍼벡터를 생성하는 GMM슈벡터화부와; 적용할 비선형 커널함수를 제공하는 커널함수 제공부와; 학습된 오디오 유형들에 대한 서포트 벡터들이 저장된 SVM모델 제공부와; 상기 GMM슈퍼벡터화부에서 생성된 슈퍼벡터로부터 오디오 유형을 판별하기 위해 상기 커널함수 제공부에서 제공된 커널함수와 상기 SVM모델 저장부에 저장된 서포트 벡터 및 상기 GMM-UBM모델제공부에서 제공하는 가우시안 혼합모델을 이용하여 최종 거리값을 산출하고, 산출된 최종거리값의 결과로부터 오디오 유형 종류를 판별하는 유형 판단부;를 구비한다.
상기 유형 판단부는 상기 GMM슈벡터화부에서 생성된 상기 슈퍼벡터로부터 제1기본량을 산출하고, 산출된 상기 제1기본량을 상기 비선형 커널함수에 적용한다.
본 발명의 일 측면에 따르면, 상기 제1기본량은 m번째 제1기본량이
Figure 112014034561446-pat00001
이고,
여기서, m은 상기 가우시안 혼합 모델에 적용되는 가우시안 확률밀도 함수의 개수에 대응되며 1부터 M까지 적용되고, 첨자 a는 학습된 오디오 유형에 대한 인덱스이고, b는 인식대상으로 입력된 오디오 신호에 대한 인덱스 이며, u는 가우시안 혼합모델을 지칭하는 인덱스이며,
Figure 112014034561446-pat00002
는 m번째 평균벡터이고,
Figure 112014034561446-pat00003
은 m번째 공분산행렬이고, 상기 제1기본량에 대해 상기 비선형 커널함수는
Figure 112014034561446-pat00004
또는
Figure 112014034561446-pat00005
이 적용되고, T는 전치행렬을 의미하며, σ는 상수값이다.
본 발명의 또 다른 측면에 따르면, 상기 제1기본량은 m번째 제1기본량이
Figure 112014034561446-pat00006
이고, 여기서, m은 상기 가우시안 혼합 모델에 적용되는 가우시안 확률밀도 함수의 개수에 대응되며 1부터 M까지 적용되고, 첨자 a는 학습된 오디오 유형에 대한 인덱스이고, b는 인식대상으로 입력된 오디오 신호에 대한 인덱스 이며, u는 가우시안 혼합모델을 지칭하는 인덱스이며,
Figure 112014034561446-pat00007
는 m번째 평균벡터이고,
Figure 112014034561446-pat00008
은 m번째 공분산행렬이고,
Figure 112014034561446-pat00009
는 m번째 가우시안 혼합모델의 가중값이고,
Figure 112014034561446-pat00010
은 가우시안 혼합모델의 m번째 공분산행렬이고,
상기 비선형 커널함수는 상기 제1기본량에 대해
Figure 112014034561446-pat00011
또는
Figure 112014034561446-pat00012
또는
Figure 112014034561446-pat00013
이 적용된다.
본 발명에 따른 오디오 유형 판별장치에 의하면, 인식율을 높일 수 있는 비선형 커널 함수를 적용함으로써 오디오 이벤트 인식 등 패턴인식기의 성능을 향상시킬 수 있다.
도 1은 본 발명에 따른 오디오 유형 판별장치를 나타내 보인 블록도이고,
도 2는 본 발명에 따른 오디오 유형 판별장치의 성능을 실험하기 위해 적용된 오디오유형 종류 및 샘플수를 나타내보인 표이고,
도 3는 도 2의 오디오 유형에 대한 인식율을 종래기술과 비교하여 측정한 결과를 나타내 보인 표이다.
이하, 첨부된 도면을 참조하면서 본 발명의 바람직한 실시예에 따른 오디오 유형 판별장치를 더욱 상세하게 설명한다.
도 1은 본 발명에 따른 오디오 유형 판별장치를 나타내 보인 블록도이다.
도 1을 참조하면, 본 발명에 따른 오디오 유형 판별장치는 특징벡터 추출부(110), GMM적응부(120), 학습데이터 제공부(130), GMM슈퍼벡터화부(140), 유형 판단부(150) 및 커널함수 제공부(160)를 구비한다.
특징벡터 추출부(110)는 입력된 인식대상 오디오 신호로부터 특징벡터를 추출하고, 추출된 특징벡터를 GMM적응부(120)에 제공한다.
특징벡터 추출부(110)에 적용되는 특징벡터 추출엔진으로서 선형예측계수(Linear Prediction Coefficient: LPC), 켑스트럼(cepstrum), 멜켑스트럼(Mel Frequency Cepstral Coefficients: MFCC), 주파수 대역별 에너지(Filter Bank Energy) 등이 적용될 수 있다.
바람직하게는 특징벡터 추출부(110)는 분산 음성 인식 시스템에서 가장 널리 사용되는 멜켑스트럼 엔진을 적용한다. 멜켑스트럼은 일정한 대역(Critical Band)내에서 여러 대역의 소리가 합쳐진 소리가 그 대역의 중간 주파수 대역에서의 소리와 동일하게 들리는 특성을 이용한 것이다. 즉, 일반적인 주파수 단위를 특징에 맞게 매핑시켜 특징벡터를 구하고 켑스트럼 계수를 적용하여 그 특징을 보다 강인하게 표현하는 방법이다.
학습데이터 제공부(130)는 GMM-UBM모델 제공부(131)와 SVM모델 제공부(135)를 구비한다.
GMM-UBM모델 제공부(131)는 학습된 오디오 유형들에 대해 학습과정을 거친 가우시안 혼합모델 정보가 저장되어 있다.
SVM모델 제공부(135)는 학습된 오디오 유형들에 대해 학습과정을 거쳐 생성된 서포트 벡터들이 저장되어 있다.
GMM적응부(120)는 특징벡터 추출부(110)에서 추출된 특징벡터를 GMM-UBM모델 제공부(131)에 저장된 가우시안 혼합모델과 맵핑하는 처리를 통해 적응시켜 평균벡터를 산출한다.
GMM슈벡터화부(140)는 GMM적응부(120)에서 출력되는 평균벡터들로부터 슈퍼벡터를 생성하여 유형 판단부(150)에 제공한다.
커널함수 제공부(160)는 유형 판단부(150)에서 적용할 비선형 커널함수를 제공한다.
유형 판단부(150)는 SVM(Support Vector Machine)이 적용되어 GMM슈퍼벡터화부(140)에서 생성된 슈퍼벡터로부터 오디오 유형을 판별하기 위해 커널함수 제공부(160)에서 제공된 커널함수와 SVM모델 저장부(135)에 저장된 서포트 벡터 및 GMM-UBM모델제공부에서 제공하는 가우시안 혼합모델을 이용하여 최종 거리값을 산출하고, 산출된 최종거리값의 결과로부터 오디오 유형 종류를 판별한다.
유형 판단부(150)는 GMM슈벡터화부(140)에서 생성된 슈퍼벡터로부터 제1기본량을 산출하고, 산출된 제1기본량을 비선형 커널함수에 적용하며 이를 이하에서 상세하게 설명한다.
먼저, 임의의 오디오 신호에 대한 GMM 모델(model)은 아래의 수학식 1과 같이 표현된다.
Figure 112014034561446-pat00014
위 수학식 1에서 Pa는 a 객체에 대한 GMM 모델, x는 특징벡터,
Figure 112014034561446-pat00015
은 a객체의 m번째 평균벡터,
Figure 112014034561446-pat00016
은 a 객체의 m번째 공분산행렬이고, 총 혼합(mixture)의 개수는 M이다.
그러면 a 객체에 대한 GMM 슈퍼벡터(supervector)(ga)는 평균벡터(
Figure 112014034561446-pat00017
)들을 연쇄시킨 열벡터로서 다음의 수학식2와 같이 정의된다.
Figure 112014034561446-pat00018
여기서, T는 전치행렬을 의미한다.
위와 같은 방법으로 얻어진 또 다른 객체에 대한 슈퍼벡터(supervector)를 gz라고 하자. 그러면 SVM 연산에서 kernel 함수는 벡터 ga와 gz을 대상으로 결정된다. 일반적으로 kernel 함수는 입력특징벡터를 고차원으로 매핑(mapping)시켜 거리를 측정하는 과정으로 이해될 수 있고, 일반적으로 kernel 함수는 다음과 같이 정의된다.
Figure 112014034561446-pat00019
종래 알려진 커널(kernel) 함수는 폴리노미널(polynomial), 시그모이드(sigmoid), 가우시안알비에프(Gaussian RBF), GMM KL, GUMI등 다양한 종류가 존재한다. Gaussian RBF 그리고 polynomial 또한 최근에 제안된 kenerl GMM KL과 GUMI은 다음과 같다.
Polynomial:
Figure 112014034561446-pat00020
Gaussian RBF:
Figure 112014034561446-pat00021
GMM KL:
Figure 112014034561446-pat00022
위 식에서
Figure 112014034561446-pat00023
Figure 112014034561446-pat00024
는 GMM-UBM 모델의 가중값과 공분산행렬이다. 한편, GUMI kernel은 다음과 같다.
GUMI:
Figure 112014034561446-pat00025
본 발명에서 커널함수 제공부(160)에서 적용되는 비선형 커널함수는 GUMI 및 GMM KL의 일부 요소로부터 제1기본량을 결정하고 이를 polynomial 또는 GMM RBF 커널에 통합하는 것이다.
즉, 아래의 수학식 4 및 5로 표현되는 제1기본량을 정의한다.
Figure 112014034561446-pat00026
Figure 112014034561446-pat00027
여기서, m은 가우시안 혼합 모델에 적용되는 가우시안 확률밀도 함수의 개수에 대응되며 1부터 M까지 적용되고, 첨자 a는 학습된 오디오 유형을 나타내는 인덱스이고, b는 인식대상으로 입력된 오디오 신호 신호에 대한 인덱스 이며, u는 가우시안 혼합모델을 지칭하는 인덱스이며,
Figure 112014034561446-pat00028
는 m번째 평균벡터이고,
Figure 112014034561446-pat00029
은 m번째 공분산행렬이고,
Figure 112014034561446-pat00030
는 m번째 가우시안 혼합모델의 가중값이다.
위 수학식 4 및 5에서 첨자a,b로 함께 표현한 것은 학습된 오디오 유형 a에 대한 제1기본량과 b에 대한 제1기본량의 산출식이 동일하여 이를 지칭하기 위해 공통으로 사용됨을 의미하기 위해 a 및 b에 각각 적용되는 제1기본량을 일반식으로 함께 표현하기 위해 a,b 첨자를 부여한 것이다.
이러한 첨자의미 부여를 통해
Figure 112014034561446-pat00031
은 가우시안 혼합모델의 m번째 공분산행렬을 의미한다.
본 발명의 커널함수 제공부(160)에 적용되는 비선형 커널함수는 수학식 4 및 5를 통해 설명된 m번째 제1기본량인 Pm 또는 Sm을 중간 매개 벡터로 하고, 이 중간매개 벡터를 polynomial 또는 GMM RBF kernel을 적용한다.
즉, 본 발명에 적용되는 4개의 비선형(nonlinear) 커널(kernel)은 아래의 수학식 6과 같다.
Figure 112014034561446-pat00032
Figure 112014034561446-pat00033
Figure 112014034561446-pat00034
Figure 112014034561446-pat00035
여기서, σ는 특징벡터 집합의 표준편차와 같은 상수값이다.
이러한 비선형 커널함수 연산시 적용되는 GMM-UBM모델 및 SVM 서포트 벡터는 학습과정을 통해 미리 생성되어 학습데이터 저장부(130)의 GMM-UBM모델 제공부(131) 및 SVM모델제공부(135)에 저장된다.
학습과정에서는 특정 오디오 유형 종류별 예를 들면, 접시 깨지는 소리, 개짖는 소리, 현관문 여는 소리 등에 대해 오디오 유형 종류별 오디오 신호를 특징벡터 추출부(110)에 입력하고, 입력된 특징벡터들을 오디오 유형에 상관없이 모두 합하여 하나의 셋으로 만들고 이를 대상으로 GMM 학습을 수행한다.
이 결과를 GMM-UBM(universal background model)이라 한다.
또한, 학습을 위해 각 오디오 유형 종류별로 저장된 오디오 데이터에 대해 GMM-UBM 모델을 대상으로 MAP적응(map adaptation)을 통하여 오디오 유형별 GMM 모델들을 만든다. 오디오 유형의 각 샘플 신호에 대하여 별도의 GMM 모델을 만든다.
다음 GMM 모델들의 평균벡터들을 결합하여 슈퍼벡터를 형성한다.
그러면 슈퍼벡터(supervector)는
Figure 112014034561446-pat00036
와 같다. 여기서 a는 파서 설명된 바와 같이 오디오 유형 종류 인덱스(a=1,2,...,k, k는 클래스 개수)이고 i는 오디오 유형별 샘플 인덱스이다.
다음 유형 판단부(150)에 적용되는 SVM(support vector machine)을 사용하여, 각 오디오 유형 종류별로 서포트 벡터(support vector)를 결정한다. 이 때, 앞서 설명된 커널(kernel) 함수를 사용한다.
위 각 단계에서 각각에 대한 설명은 다음과 같다.
o GMM 학습과정
GMM 학습과정을 통해 GBM-UBM(universal background model)을 얻는다. 이는 모든 오디오 유형별로 학습을 위해 수집된 샘플 데이터들을 모아 하나의 GMM 모델을 만드는 것으로서 EM(expectation and maximization) 기법에 의해 이루어진다. 즉 GMM-UBM 모델은
Figure 112014034561446-pat00037
를 의미하는 것으로서 wm은 m번째 가우시안 분포의 가중값, um는 m번째 평균벡터
Figure 112014034561446-pat00038
은 m번째 공분산행렬이다. 이러한 EM 방법에 의해 최종적으로 수렴후 얻어지는 UBM 모델은
Figure 112014034561446-pat00039
를 얻는다. 위 첨자 U는 GMM-UBM 모델을 의미한다.
이러한 GMM-UBM 모델을 생성하는 학습과정은 공지되어 있어 상세한 설명은 생략한다.
o GMM 적응( adaptation )
GMM 적응은 GMM-UBM 모델로부터 입력되는 오디오 유형별 패턴 또는 입력 신호의 특징벨터들로부터 GMM 모델을 적응시켜 아래의 수학식 7에 의해 평균벡터를 산출하고, 이러한 평균벡터 산출과정은 공지되어 있어 상세한 설명은 생략한다.
Figure 112014034561446-pat00040
o GMM Supervector
슈퍼벡터(supervector)는 a객체에 대해 표현하면,
Figure 112014034561446-pat00041
와 같다. 여기서 a는 앞서 설명된 오디오 유형 종류 인덱스(a=1,2,,,,k, k는 클래스 개수)이고,
Figure 112014034561446-pat00042
은 오디오 유형별 샘플 인덱스이다. 슈퍼벡터에 적용되는 평균벡터는 위 GMM 적응부(120)의 MAP 적응을 통해 얻어진 GMM의 평균벡터들이다.
o SVM 학습
SVM(support vector machine)은 유형판단부(150)에 적용되는 머신으로, SVM 학습과정을 통해 각 오디오 유형 종류별 서포트 벡터(support vector)들이 생성된다.
서포트벡터(support vector)들을 이용한 오디오 유형 판정은 아래의 수학식8에 따른다.
Figure 112014034561446-pat00043
여기서 ca과 yl a은 SVM 학습에서 자동적으로 얻어지는 계수들이고, SVM모델 제공부(135)에 기록되어 있다. 또한 ql a은 오디오 유형 a의 서포트벡터(support vector)들이고, L은 서포트벡터(support vector)의 개수이다.
이상의 설명에서 GMM 알고리즘 및 SVM알고리즘에 의해 오디오 유형별로 생성된 학습 데이터는 앞서 설명된 바와 같이 학습데이터 제공부(130)에 저장되어 이후 미지의 오디오 신호에 대한 인식을 수행하는데 이용된다.
다음 인식 과정을 설명하자.
미지의 오디오 신호가 특징벡터 추출부(110)에 입력되어 특징벡터 추출부(110)에서 특징벡터가 구해지면, 이를 대상으로 GMM-UBM 모델부(131)에 기록된 가우시안 혼합모델로 GMM적응부(120)에서 맵(MAP) 적응을 수행하고, 맵 적응을 통해 생성된 GMM 모델의 평균벡터를 모아 GMM슈퍼벡터화부(140)에서 슈퍼벡터(supervector)를 만든다.
이 슈퍼벡터를
Figure 112014034561446-pat00044
, 여기서 b는 특징벡터 추출부(110)에 입력된 인식대상 오디오 입력신호를 의미한다.
다음 생성된 슈퍼벡터(gb)를 유형 판단부(150)의 SVM머신에 의해 커널함수 제공부(160)에 제공된 커널(kernel)함수를 이용하여 각 클래스 즉, 입력된 오디오 신호에 대한 오디오 유형별 최종 거리값을 계산하고 오디오 유형을 결정한다.
오디오 유형 종류는 아래의 수학식 9을 이용하여 결정된다.
Figure 112014034561446-pat00045
여기서 ca
Figure 112014034561446-pat00046
은 앞서 SVM 학습에서 자동적으로 얻어지는 계수들로서, SVM모델 제공부(135)에 기록되어 있다.
또한,
Figure 112014034561446-pat00047
은 커널함수(k) 연산시 gb에 대해 ga의 종류별로 각각 적용하여 연산하고 이를 일반화된 식으로 표현한 것으로, 적용ㄷSVM모델 제공부(135)에서 제공되는 서포트벡터(support vector)들이며, L은 서포트벡터(support vector)의 개수이다.
그런데, SVM은 기본적으로 2-class 분류를 위해 이용되므로, 이를 멀티 클래스(multi-class)에 적용학기 위해서 원-버스트-레스트(one-versus-rest) 분류기를 적용한다.
이는 목표 오디오 유형과 그 외를 나누어, 각 오디오 유형 종류별로 서포트벡터(support vector)들을 결정하는 것이다. 그러므로 최종적으로 얻어지는 서포트벡터(support vector)들은 {
Figure 112014034561446-pat00048
}이다.
한편, 위 수학식 9에 적용되는 커널함수는 앞서 수학식 6을 통해 설명된 비선형 커널 함수 중 어느 하나를 적용하고, 커널함수에 적용되는 제1기본량은 수학식 4 또는 수학식 5를 적용하면 된다.
한편, 본 발명에 따른 오디오 유형 판별 성능을 검증하기 위해서 홈 오디오 유형 인식 실험을 수행하였고, 16비트(bit) 16kHz로 샘플링되어 데이터 베이스화(DB)된 신호들 및 샘플개수가 도 2의 표 1에 도시되어 있고, 도 3의 표 2에 인식 결과를 나타내 보였다. 도 3의 표 3을 통해 알 수 있는바와 같이, 종래의 커널(kernel) 함수에 비하여 본 발명에서 제시한 비선형 커널함수인 GMMKL-GMMRBF 또는 GUM-GMMRBF의 비선형 커널함수가 GUMI, 또는 GMM에 비하여 우수한 성능을 보임을 알 수 있다.
110: 특징벡터 추출부 120: GMM적응부
130: 학습데이터제공부 140: GMM슈퍼벡터화부
150: 유형 판단부 160: 커널함수 제공부

Claims (4)

  1. 삭제
  2. 입력된 인식대상 오디오 신호로부터 특징벡터를 추출하는 특징벡터 추출부와;
    학습된 오디오 유형들에 대한 가우시안 혼합모델 정보가 저장된 GMM-UBM모델 제공부와;
    상기 특징벡터 추출부에서 추출된 특징벡터를 상기 GMM-UBM모델 제공부에 저장된 가우시안 혼합모델과 적응시켜 평균벡터를 산출하는 GMM적응부와;
    상기 GMM적응부에서 출력되는 평균벡터들로부터 슈퍼벡터를 생성하는 GMM슈벡터화부와;
    적용할 비선형 커널함수를 제공하는 커널함수 제공부와;
    학습된 오디오 유형들에 대한 서포트 벡터들이 저장된 SVM모델 제공부와;
    상기 GMM슈퍼벡터화부에서 생성된 슈퍼벡터로부터 오디오 유형을 판별하기 위해 상기 커널함수 제공부에서 제공된 커널함수와 상기 SVM모델 저장부에 저장된 서포트 벡터 및 상기 GMM-UBM모델제공부에서 제공하는 가우시안 혼합모델을 이용하여 최종 거리값을 산출하고, 산출된 최종거리값의 결과로부터 오디오 유형 종류를 판별하는 유형 판단부;를 구비하고,
    상기 유형 판단부는 상기 GMM슈벡터화부에서 생성된 상기 슈퍼벡터로부터 제1기본량을 산출하고, 산출된 상기 제1기본량을 상기 비선형 커널함수에 적용하는 것을 특징으로 하는 오디오 유형 판별장치.
  3. 제2항에 있어서, 상기 제1기본량은 m번째 제1기본량이
    Figure 112014034561446-pat00049
    이고,
    여기서, m은 상기 가우시안 혼합 모델에 적용되는 가우시안 확률밀도 함수의 개수에 대응되며 1부터 M까지 적용되고, 첨자 a는 학습된 오디오 유형에 대한 인덱스이고, b는 인식대상으로 입력된 오디오 신호에 대한 인덱스 이며, u는 가우시안 혼합모델을 지칭하는 인덱스이며,
    Figure 112014034561446-pat00050
    는 m번째 평균벡터이고,
    Figure 112014034561446-pat00051
    은 m번째 공분산행렬이고, 상기 제1기본량에 대해
    상기 비선형 커널함수는
    Figure 112014034561446-pat00052

    또는
    Figure 112014034561446-pat00053

    이고, T는 전치행렬을 의미하며, σ는 상수값인 것을 특징으로 하는 오디오 유형 판별장치.
  4. 제2항에 있어서, 상기 제1기본량은 m번째 제1기본량이
    Figure 112014034561446-pat00054

    이고, 여기서, m은 상기 가우시안 혼합 모델에 적용되는 가우시안 확률밀도 함수의 개수에 대응되며 1부터 M까지 적용되고, 첨자 a는 학습된 오디오 유형에 대한 인덱스이고, b는 인식대상으로 입력된 오디오 신호에 대한 인덱스 이며, u는 가우시안 혼합모델을 지칭하는 인덱스이며,
    Figure 112014034561446-pat00055
    는 m번째 평균벡터이고,
    Figure 112014034561446-pat00056
    은 m번째 공분산행렬이고,
    Figure 112014034561446-pat00057
    는 m번째 가우시안 혼합모델의 가중값이고,
    Figure 112014034561446-pat00058
    은 가우시안 혼합모델의 m번째 공분산행렬이고,
    상기 비선형 커널함수는 상기 제1기본량에 대해
    Figure 112014034561446-pat00059

    또는
    Figure 112014034561446-pat00060

    이고, T는 전치행렬을 의미하며, σ는 상수값인 것을 특징으로 하는 오디오 유형 판별장치.
KR1020140043243A 2014-04-10 2014-04-10 오디오 유형 판별장치 KR101524848B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140043243A KR101524848B1 (ko) 2014-04-10 2014-04-10 오디오 유형 판별장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140043243A KR101524848B1 (ko) 2014-04-10 2014-04-10 오디오 유형 판별장치

Publications (1)

Publication Number Publication Date
KR101524848B1 true KR101524848B1 (ko) 2015-06-02

Family

ID=53490882

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140043243A KR101524848B1 (ko) 2014-04-10 2014-04-10 오디오 유형 판별장치

Country Status (1)

Country Link
KR (1) KR101524848B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305616A (zh) * 2018-01-16 2018-07-20 国家计算机网络与信息安全管理中心 一种基于长短时特征提取的音频场景识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Tan Dat Trinh et al., ‘Audio event classification using SVM with GMM-UBM Supervectors’, Jornal of KIIT, Vol.11, No.11, pp.91~98, November 2013.*
Tan Dat Trinh et al., 'Audio event classification using SVM with GMM-UBM Supervectors', Jornal of KIIT, Vol.11, No.11, pp.91~98, November 2013. *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305616A (zh) * 2018-01-16 2018-07-20 国家计算机网络与信息安全管理中心 一种基于长短时特征提取的音频场景识别方法及装置
CN108305616B (zh) * 2018-01-16 2021-03-16 国家计算机网络与信息安全管理中心 一种基于长短时特征提取的音频场景识别方法及装置

Similar Documents

Publication Publication Date Title
Kabir et al. A survey of speaker recognition: Fundamental theories, recognition methods and opportunities
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
US20110208521A1 (en) Hidden Markov Model for Speech Processing with Training Method
US11315550B2 (en) Speaker recognition device, speaker recognition method, and recording medium
Hibare et al. Feature extraction techniques in speech processing: a survey
Das et al. Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model
US20080167862A1 (en) Pitch Dependent Speech Recognition Engine
JP2021152682A (ja) 音声処理装置、音声処理方法、およびプログラム
Tolba A high-performance text-independent speaker identification of Arabic speakers using a CHMM-based approach
Bharali et al. Speech recognition with reference to Assamese language using novel fusion technique
Gholamdokht Firooz et al. Spoken language recognition using a new conditional cascade method to combine acoustic and phonetic results
Sahu et al. A study on automatic speech recognition toolkits
JP2020060757A (ja) 話者認識装置、話者認識方法、及び、プログラム
Al Hindawi et al. Speaker identification for disguised voices based on modified SVM classifier
Devi et al. Automatic speech emotion and speaker recognition based on hybrid gmm and ffbnn
Aggarwal et al. Fitness evaluation of Gaussian mixtures in Hindi speech recognition system
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
KR101524848B1 (ko) 오디오 유형 판별장치
Roy et al. A hybrid VQ-GMM approach for identifying Indian languages
Hossan et al. Speaker recognition utilizing distributed DCT-II based Mel frequency cepstral coefficients and fuzzy vector quantization
CN113658599A (zh) 基于语音识别的会议记录生成方法、装置、设备及介质
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
Bakshi et al. Spoken Indian language classification using GMM supervectors and artificial neural networks
Devika et al. A fuzzy-GMM classifier for multilingual speaker identification

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180427

Year of fee payment: 4