KR101094763B1 - 사용자 인증을 위한 특징벡터 추출장치 및 방법 - Google Patents

사용자 인증을 위한 특징벡터 추출장치 및 방법 Download PDF

Info

Publication number
KR101094763B1
KR101094763B1 KR1020100008558A KR20100008558A KR101094763B1 KR 101094763 B1 KR101094763 B1 KR 101094763B1 KR 1020100008558 A KR1020100008558 A KR 1020100008558A KR 20100008558 A KR20100008558 A KR 20100008558A KR 101094763 B1 KR101094763 B1 KR 101094763B1
Authority
KR
South Korea
Prior art keywords
feature vector
principal component
static
authentication data
dynamic
Prior art date
Application number
KR1020100008558A
Other languages
English (en)
Other versions
KR20110088851A (ko
Inventor
서창우
고재관
임영환
Original Assignee
숭실대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숭실대학교산학협력단 filed Critical 숭실대학교산학협력단
Priority to KR1020100008558A priority Critical patent/KR101094763B1/ko
Publication of KR20110088851A publication Critical patent/KR20110088851A/ko
Application granted granted Critical
Publication of KR101094763B1 publication Critical patent/KR101094763B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Collating Specific Patterns (AREA)

Abstract

사용자 인증을 위한 특징벡터 추출장치 및 방법이 개시된다. 정적 특징벡터 추출부는 사용자의 생체 특성을 나타내는 인증데이터를 입력받아 정적 특징벡터를 추출한다. 선형변환부는 정적 특징벡터의 차원을 감소시키는 선형변환에 의해 특징벡터 간의 상관성이 제거된 주성분 특징벡터를 생성한다. 동적 특징벡터 추출부는 주성분 특징벡터로부터 인증데이터의 순시정보인 동적 특징벡터를 추출한다. 최종 특징벡터 생성부는 주성분 특징벡터와 동적 특징벡터로 이루어진 최종 특징벡터를 사전에 저장된 견본 특징벡터와 비교하여 인증데이터를 입력한 사용자의 인증 여부를 결정하기 위해 출력한다. 본 발명에 따르면, 사용자가 입력한 인증데이터로부터 추출된 정적 특징벡터에 대해 주성분분석을 먼저 적용하고 이후에 동적 특징벡터를 추출함으로써, 주성분분석에 사용되는 공분산 행렬의 차원을 감소시켜 계산량을 줄일 수 있으며, 동적 특징벡터 추출시에 상관성이 제거되고 차원이 감소된 주성분 특징벡터로부터 순시정보를 추출할 수 있으므로 사용자 인증의 성능을 향상시킬 수 있다.

Description

사용자 인증을 위한 특징벡터 추출장치 및 방법{Apparatus and method for extracting feature vector for user authentication}
본 발명은 사용자 인증을 위한 특징벡터 추출장치 및 방법에 관한 것으로, 보다 상세하게는, 인증을 위해 사용자가 입력한 음성 등의 생체신호로부터 사용자의 고유한 특성인 특징벡터를 추출하여 인증에 사용하는 장치 및 방법에 관한 것이다.
생체 인식법(Biometrics)은 사용자를 인증하기 위해 음성, 얼굴 및 지문 등의 생리학적 또는 행동 특성을 사용하는 방법으로, 위조가 어려우며 보안을 강화할 수 있어 많이 사용된다. 이 중에서 사용자의 목소리를 이용해 사용자를 인식하는 화자 확인법(Speaker Verification : SV)은 가장 친숙하고 편리하면서 비용이 낮아 널리 연구되고 있다.
화자 확인을 위해서는 사용자가 입력한 음성신호로부터 해당 사용자의 고유한 특성인 특징벡터를 추출해야 한다. 가우시안 혼합 모델(Gaussian mixture model : GMM)을 기본으로 하는 화자인식 시스템에서 특징벡터를 추출할 때에는 관측된 특징벡터들이 상호 독립적으로 상관성 없이 동일하게 분포되어 있는 것을 가정한다.
그런데, 관측된 특징벡터들은 서로 상관성이 없다고 할 수 없으므로 위와 같은 가정을 사용하는 경우에 화자인식 시스템의 성능은 저하된다. 특히 음성신호의 정적 특징벡터(static feature vector)로부터 차분 켑스트럼(differential cepstrum)이나 델타 켑스트럼(delta cepstrum)과 같은 동적 특징벡터(dynamic feature vector)를 추출할 때, 회귀 방법(regression method)을 적용한 일반적인 방법에서는 특징벡터들 간의 상관성에 직접적인 영향을 받는다.
이와 같은 문제를 해결하기 위해 특징벡터들 간의 상관성을 제거하고 차원을 감소시키기 위한 주성분분석(Principal Component Analysis : PCA) 방법이 널리 사용되고 있다. 주성분분석은 입력된 음성신호로부터 추출된 특징벡터들을 상관성이 없는 새로운 좌표계로 선형 변환(linear transformation)시키는 방법이다.
따라서 주성분분석을 사용할 경우의 특징벡터 추출 과정은 입력신호로부터 정적 특징벡터를 추출하고 성능을 향상시키기 위해 델타 켑스트럼과 같은 동적 특징벡터를 구한 후, 상관성을 제거하기 위해 주성분분석을 적용하는 방식으로 수행된다. 그러나 이와 같은 특징벡터 추출방식은 주성분분석에서 사용되는 공분산 행렬에 의한 고유치와 고유벡터를 구할 때 높은 차수의 특징벡터 때문에 계산량이 증가하는 단점이 있다.
위와 같은 문제점을 해결하여 계산량을 감소시키면서도 화자인식 시스템의 성능은 저하시키지 않는 특징벡터의 추출방법이 필요하다.
본 발명이 이루고자 하는 기술적 과제는, 기존의 특징벡터 추출방법에 비해 감소된 계산량을 가지며 서로 상관성 없는 특징벡터를 얻을 수 있는 사용자 인증을 위한 특징벡터 추출장치 및 방법을 제공하는 데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는, 기존의 특징벡터 추출방법에 비해 감소된 계산량을 가지며 서로 상관성 없는 특징벡터를 얻을 수 있는 사용자 인증을 위한 특징벡터 추출방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 사용자 인증을 위한 특징벡터 추출장치는, 사용자의 생체 특성을 나타내는 인증데이터를 입력받아 정적 특징벡터를 추출하는 정적 특징벡터 추출부; 상기 정적 특징벡터의 차원을 감소시키는 선형변환에 의해 특징벡터 간의 상관성이 제거된 주성분 특징벡터를 생성하는 선형변환부; 상기 주성분 특징벡터로부터 상기 인증데이터의 순시정보인 동적 특징벡터를 추출하는 동적 특징벡터 추출부; 및 상기 주성분 특징벡터와 상기 동적 특징벡터로 이루어진 최종 특징벡터를 사전에 저장된 견본 특징벡터와 비교하여 상기 인증데이터를 입력한 사용자의 인증 여부를 결정하기 위해 출력하는 최종 특징벡터 생성부;를 구비한다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 사용자 인증을 위한 특징벡터 추출방법은, 사용자의 생체 특성을 나타내는 인증데이터를 입력받아 정적 특징벡터를 추출하는 정적 특징벡터 추출단계; 상기 정적 특징벡터의 차원을 감소시키는 선형변환에 의해 특징벡터 간의 상관성이 제거된 주성분 특징벡터를 생성하는 선형변환단계; 상기 주성분 특징벡터로부터 상기 인증데이터의 순시정보인 동적 특징벡터를 추출하는 동적 특징벡터 추출단계; 및 상기 주성분 특징벡터와 상기 동적 특징벡터로 이루어진 최종 특징벡터를 사전에 저장된 견본 특징벡터와 비교하여 상기 인증데이터를 입력한 사용자의 인증 여부를 결정하기 위해 출력하는 최종 특징벡터 생성단계;를 갖는다.
본 발명에 따른 사용자 인증을 위한 특징벡터 추출장치 및 방법에 의하면, 사용자가 입력한 인증데이터로부터 추출된 정적 특징벡터에 대해 주성분분석을 먼저 적용하고 이후에 동적 특징벡터를 추출함으로써, 주성분분석에 사용되는 공분산 행렬의 차원을 감소시켜 계산량을 줄일 수 있으며, 동적 특징벡터 추출시에 상관성이 제거되고 차원이 감소된 주성분 특징벡터로부터 순시정보를 추출할 수 있으므로 사용자 인증의 성능을 향상시킬 수 있다.
도 1은 본 발명에 따른 사용자 인증을 위한 특징벡터 추출장치에 대한 바람직한 실시예의 구성을 도시한 블록도,
도 2는 일반적인 화자확인 방법을 도시한 흐름도,
도 3은 본 발명에 따른 사용자 인증을 위한 특징벡터 추출방법에 대한 바람직한 실시예의 수행과정을 도시한 흐름도,
도 4는 정적 특징벡터의 차수에 따른 정보 비율을 도시한 그래프,
도 5는 음성 데이터 '무궁화 꽃이 피었습니다'에 대해 GMM에서 혼합성분의 개수를 증가시켰을 때 얻어진 등가오류율을 도시한 그래프, 그리고,
도 6은 다른 음성 데이터인 '열려라 참깨'에 대해 혼합성분의 개수에 따른 등가오류율을 도시한 그래프이다.
이하에서 첨부된 도면들을 참조하여 본 발명에 따른 사용자 인증을 위한 특징벡터 추출장치 및 방법의 바람직한 실시예에 대해 상세하게 설명한다.
도 1은 본 발명에 따른 사용자 인증을 위한 특징벡터 추출장치에 대한 바람직한 실시예의 구성을 도시한 블록도이다.
도 1을 참조하면, 본 발명에 따른 특징벡터 추출장치는 정적 특징벡터 추출부(110), 선형변환부(120), 동적 특징벡터 추출부(130) 및 최종 특징벡터 생성부(140)를 구비한다.
도 2는 일반적인 화자확인 방법을 도시한 흐름도이다. 도 2를 참조하면, 복수의 화자모델로부터 추출한 특징벡터가 저장되어 있고, 특정 화자가 승인을 위해 음성을 입력하면 이로부터 특징벡터를 추출하여 저장되어 있는 특징벡터와 비교함으로써 승인 또는 거절 여부를 결정하게 된다. 이때 특징벡터의 추출과정은 화자확인을 위한 전처리 과정으로 수행되며, 특징벡터의 정확도에 따라 인증 시스템의 신뢰도가 결정되므로 입력된 음성신호로부터 정확한 특징벡터를 추출하는 것이 중요하다. 본 발명에 따른 사용자 인증을 위한 특징벡터 추출장치는 도 2의 화자확인 과정 중 전처리 과정에 적용되어 특징벡터 추출의 정확도를 높이는데 사용된다.
정적 특징벡터 추출부(110)는 사용자의 생체 특성을 나타내는 인증데이터를 입력받아 정적 특징벡터를 추출한다. 여기서 인증데이터는 고유한 생체 특성을 나타내는 지문, 홍채 등이 될 수 있으며,사용자가 화자확인을 위해 입력한 음성신호일 수 있다.
정적 특징벡터의 추출을 위해서는 이미 알려진 특징벡터 추출방법을 사용할 수 있으며, 음성신호의 비선형 특성을 잘 반영하는 MFCC(Mel Frequency Cepstal Coefficient)를 사용할 수 있다. MFCC는 음성신호를 푸리에 변환하여 얻어진 스펙트럼에 비선형의 멜(Mel) 스케일로 구성된 필터뱅크를 적용하여 얻어진다.
먼저 앞에서 언급한 기존의 특징벡터 추출방법에 대하여 설명한다. 기존의 특징벡터 추출방법에서는 인증 데이터로부터 추출된 정적 특징벡터로부터 동적 특징벡터를 구하고, 여기에 주성분분석을 적용하여 최종 특징벡터를 산출한다.
프레임 길이가 T인 k-차 특징벡터를 {xk(t)|t=1,…,T}라 할 때, 정적 켑스트럼 계수 xk(t)로부터 동적 특징벡터인 델타 켑스트럼은 다음의 수학식 1과 같은 회귀 공식을 이용하여 계산할 수 있다.
Figure 112010006465264-pat00001
여기서,
Figure 112010006465264-pat00002
는 대응하는 시간 t의 정적 켑스트럼 계수
Figure 112010006465264-pat00003
에서
Figure 112010006465264-pat00004
까지 구간별로 계산된 k-차 델타 켑스트럼 계수이고, Θ의 값은 델타 윈도우가 계산되는 파라미터의 시간 확장이다.
델타 켑스트럼 계수의 산출에 따라 정적과 동적 특징벡터를 가지는 전체적인 특징벡터는 다음의 수학식 2와 같이 v(=k+k)-차 특징벡터 Yv로 나타낼 수 있다.
Figure 112010006465264-pat00005
연속적인 특징벡터에서의 선형변환은 특징벡터들 간의 신호의 상관성을 제거하고 효과적으로 모델링하기 위해 사용된다. 이러한 선형변환에서 널리 사용되는 방법이 앞에서 설명한 주성분분석이다. 주성분분석은 여러 개의 변수들에 대하여 얻어진 다변량 자료를 분석한 후 다차원적인 변수들을 축소, 요약함으로써 차원을 단순화시키고 서로 상관관계가 있는 반응 변수들간의 복잡한 구조를 분석하는 데 목적이 있다.
데이터 집합에서 주성분을 찾는 일반적인 방법은 고유치 분할(eigenvalue decomposition) 방법을 이용한 공분산 행렬의 고유벡터(eigenvector)와 고유치(eigenvalue)를 계산하는 것이다. 정적인 특징벡터에 동적인 델타 켑스트럼을 추가한 v-차 특징벡터 {Y=yi(t)|i=1,…,v, t=1,…T}로부터 선형변환 행렬 ΩT를 구하기 위해서 다음 수학식 3 내지 5와 같이 전체 평균벡터와 공분산 행렬을 구해야 한다.
Figure 112010006465264-pat00006
Figure 112010006465264-pat00007
Figure 112010006465264-pat00008
여기서, μi는 i번째 성분의 평균, σij는 공분산, Σ는 v×v 행렬로 σij를 원소로 가지는 공분산 행렬이다. Σ의 (i,j)번째 성분은 i≠j일 때 Y의 i번째와 j번째 성분의 공분산을 나타내고, i=j일 때에는 Y의 j번째 성분의 분산을 나타낸다.
공분산 Σ는 다음의 수학식 6과 같이 나타낼 수 있다.
Figure 112010006465264-pat00009
여기서, λi는 Σ의 i번째 고유치이고, ωi는 고유치 λi에 대응되는 정규화된 고유벡터이다. 이들은 v×v인 직교행렬(orthogonal matrix) ΩΩT=I를 이룬다.
위 설명과 같이 t번째 시퀀스의 i번째 특징벡터 yi(t)와 주성분 zi(t)의 관계는 다음의 수학식 7과 같다.
Figure 112010006465264-pat00010
다음으로 성분 전체의 관계는 다음의 수학식 8과 같이 나타낼 수 있다.
Figure 112010006465264-pat00011
여기서,
Figure 112010006465264-pat00012
는 v-차원 특징벡터 Y를 차원 감소된 p-차원 주성분 Z로 변환하기 위한 변환행렬이다. v-차원 특징벡터에 대한 근사화의 의미인 p-차원 주성분 벡터의 정보 비율(information ratio) α는 다음의 수학식 9에 의해 구할 수 있다.
Figure 112010006465264-pat00013
수학식 9의 정보 비율에 따라 고유값이 큰 것부터 p-차원만을 선택하여 변환행렬
Figure 112010006465264-pat00014
를 구하고, 수학식 8과 같이 적용하여 최종적인 특징벡터를 결정할 수 있다.
그러나 이와 같이 종래의 특징벡터 추출방법을 사용하는 경우에는 몇 가지 문제점이 발생한다. 먼저 정적 특징벡터로부터 동적 특징벡터를 구할 때, 차수가 높은 k-차 정적 특징벡터로부터 동적 특징벡터를 계산하게 된다. 또한 주성분분석의 경우에도 특징벡터가 높은 차수로 구성되기 때문에 큰 공분산 행렬로부터 주성분분석을 해야 한다. 이때 v×v 크기의 큰 공분산 행렬로부터 고유치와 고유벡터를 얻기 위해 많은 계산량이 요구된다.
본 발명에 따른 사용자 인증을 위한 특징벡터 추출장치는 위와 같은 문제점을 해결하기 위해 동적 특징벡터 추출과 주성분분석의 순서를 바꾸어 정적 특징벡터에 대해 주성분분석을 수행하여 얻어진 주성분 특징벡터로부터 동적 특징벡터를 추출하는 방법을 사용한다.
따라서 선형변환부(120)는 차수가 낮은 정적 특징벡터의 차원을 감소시키는 선형변환에 의해 특징벡터 간의 상관성이 제거된 주성분 특징벡터를 생성한다. 즉, k-차수의 정적 특징벡터에 대해 주성분분석을 수행하며, 이때 사용되는 공분산 행렬은 기존의 방법에서 사용되었던 v×v 크기에 비해 1/4로 줄어든 k×k 크기를 가지게 된다. 다음의 수학식 10은 선형변환부(120)에 의해 사용되는 공분산 행렬의 예를 나타낸 것이다.
Figure 112010006465264-pat00015
이와 같이 기존 방법에 비해 작은 크기의 공분산 행렬을 사용하여 정적 특징벡터에 대해 주성분분석을 수행함으로써 계산량을 크게 감소시킬 수 있다. 정적 특징벡터로부터 선형변환된 주성분 특징벡터는 다음의 수학식 11과 같이 나타낼 수 있다.
Figure 112010006465264-pat00016
여기서, Y는 k-차원의 정적 특징벡터로부터 감소된 차원을 가지는 h-차원의 주성분 특징벡터이고,
Figure 112010006465264-pat00017
는 k-차원의 정적 특징벡터 X를 차원 감소된 h-차원의 주성분 특징벡터 Y로 변환하기 위한 변환행렬이다.
동적 특징벡터 추출부(130)는 주성분 특징벡터로부터 인증데이터의 순시정보인 동적 특징벡터를 추출한다.
선형변환부(120)에 의해 얻어진 h-차 주성분 특징벡터 Y로부터 동적 특징벡터를 구하기 위해 산출되는 델타 파라미터는 다음의 수학식 12와 같다.
Figure 112010006465264-pat00018
동적 특징벡터인 델타 켑스트럼을 계산하는 방법은 앞에서 설명한 것과 동일하며, 정적 특징벡터로부터 얻어진 주성분 특징벡터와 동적 특징벡터로 이루어진 최종 특징벡터는 다음의 수학식 13과 같이 p(=h+h)-차 특징벡터 Zp로 나타낼 수 있다.
Figure 112010006465264-pat00019
최종 특징벡터 생성부(140)는 이와 같이 주성분 특징벡터와 동적 특징벡터로 이루어진 최종 특징벡터를 사전에 저장된 견본 특징벡터와 비교하여 인증데이터를 입력한 사용자의 인증 여부를 결정하기 위해 출력한다.
결과적으로, 본 발명에 의해 얻어지는 최종 특징벡터도 p-차원이며, 기존의 방법에 의해 얻어지는 최종 특징벡터 역시 p-차원이다. 그러나 본 발명에서는 정적 특징벡터에 대해 주성분변환을 먼저 수행하여 특징벡터의 차원을 감소시키고, 감소된 차원의 주성분 특징벡터로부터 동적 특징벡터를 추출함으로써 기존 방법에 비해 계산량을 감소시키고 특징벡터를 사용하는 사용자 인증장치의 성능을 향상시킬 수 있다.
도 3은 본 발명에 따른 사용자 인증을 위한 특징벡터 추출방법에 대한 바람직한 실시예의 수행과정을 도시한 흐름도이다.
도 3을 참조하면, 정적 특징벡터 추출부(110)는 사용자의 생체 특성을 나타내는 인증데이터를 입력받아 정적 특징벡터를 추출한다(S310). 정적 특징벡터는 비선형의 MFCC를 사용하여 얻어질 수 있다. 다음으로 선형변환부(120)는 정적 특징벡터의 차원을 감소시키는 선형변환에 의해 특징벡터 간의 상관성이 제거된 주성분 특징벡터를 생성한다(S320). 주성분분석을 위해 사용되는 공분산 행렬은 기존의 방법에 비해 1/4의 크기를 가지므로 계산량을 감소시킬 수 있다.
동적 특징벡터 추출부(130)는 감소된 차원을 가지는 주성분 특징벡터로부터 인증데이터의 순시정보인 동적 특징벡터를 추출한다(S330). 동적 특징벡터는 델타 켑스트럼 계수에 의해 추출할 수 있다. 마지막으로 최종 특징벡터 생성부는 주성분 특징벡터와 동적 특징벡터로 이루어진 최종 특징벡터를 생성하고(S340), 사전에 저장된 견본 특징벡터와 비교하여 인증데이터를 입력한 사용자의 인증 여부를 결정하기 위해 최종 특징벡터를 출력한다.
본 발명의 성능을 평가하기 위한 실험을 수행하였다. 실험에서 화자확인을 위한 문장 종속형(text-dependent) 한국어 문장은 "무궁화 꽃이 피었습니다"와 "열려라 참깨"이다. 남, 여 각각 100명씩 총 200명의 화자로부터 음성 데이터를 획득하였고, 각 화자의 개인별 데이터로는 주 단위로 3주 동안 15개(주당 5문장)의 데이터를 획득하였다.
개인별로 처음 2주 동안 수집한 10개의 데이터는 등록에 사용되었고, 마지막 주에 수집한 5개의 데이터가 테스트에 사용되었다. 따라서 테스트에서 사용된 오거절율(False Reject Rate : FRR)과 오인증율(False Accept Rate : FAR)을 위해 사용된 문장은 각각 1,000(=200×5)개와 199,000(=200×199×5)개이다. 수집된 데이터에 대한 샘플링 주파수는 11.025kHz이고, 분해능은 16비트이다.
최종 특징벡터의 추출을 위해 사용된 음성신호의 프레임 길이는 180 샘플을 한 프레임으로 간주하였고, 프레임간 50%가 중첩되도록 하였다. 정적 특징벡터를 추출하기 위해 MFCC를 적용하였으며, 이때 FFT는 256 포인트를 사용하고, 필터뱅크는 24개를 사용하였다. 전체 최종 특징벡터는 MFCC에 의해 얻어진 정적 특징벡터인 12차 켑스트럼 계수 및 동적 특징벡터인 12차 델타 켑스트럼의 24차원으로 구성되었다. 동적 특징벡터를 추출하기 위한 델타 켑스트럼의 Θ는 2로 설정되었다.
선형변환에 의한 차원 감소는 10차를 기준으로 하였으며, 정적 특징벡터의 차수에 따른 정보 비율을 도시한 그래프인 도 4를 참조하면, 정적 특징벡터가 10차원일 때 고유치의 정보 비율을 99%까지 포함한다는 것을 확인할 수 있다.
다음의 표 1은 사용자 인증을 위한 가우시안 혼합모델(GMM)을 일반적인 방법, 주성분분석 방법 및 본 발명에 따른 방법에 적용하였을 때 요구되는 파라미터 수를 나타낸 것이다. 여기서 일반적인 방법은 12차의 정적 특징벡터에 12차의 동적 특징벡터가 추가된 최종 특징벡터를 생성하는 방법이고, 주성분분석 방법은 24차의 정적 및 동적 특징벡터에 주성분분석을 적용하여 20차의 최종 특징벡터를 생성하는 방법이다.
일반적인 방법 주성분분석 방법 본 발명
M(2v+1) M(2v+1)+v×v M(2p+1)+k×h
표 1에서, k는 12차원의 정적 특징벡터, h는 차원이 감소된 10차원의 주성분 특징벡터, v는 정적 특징벡터로부터 동적 특징벡터를 추출하여 최종적으로 얻어진 24차원의 정적 및 동적 특징벡터, p는 주성분 특징벡터로부터 동적 특징벡터를 추출하여 최종적으로 얻어진 20차원의 주성분 정적 및 동적 특징벡터, 그리고 M은 혼합성분의 개수이다.
본 발명에서 선형변환을 위한 고유벡터의 크기는 k×h개이며, 이는 v×v개를 요구하는 주성분분석 방법에 비해 공분산 행렬의 크기를 1/4로 줄일 수 있다. 그리고 M=32에서 전체 파라미터를 비교했을 때, 일반적인 방법과 주성분분석 방법의 경우에는 각각 32×(2×24+1)=568개와 32×(2×24+1)+24×24=2144개의 파라미터를 요구한다. 그러나 본 발명의 경우에는 32×(2×20+1)+12×10=1432개로 일반적인 방법과 주성분분석 방법에 비해 각각 8.7%와 33% 정도 감소하였다.
도 5는 음성 데이터 '무궁화 꽃이 피었습니다'에 대해 GMM에서 혼합성분의 개수를 24개, 32개 및 48개로 증가시켰을 때 얻어진 등가오류율을 도시한 그래프이다. 최종 특징벡터가 24차원일 때 일반적인 방법, 주성분분석 방법 및 본 발명에 따른 방법(본 발명 1), 그리고 최종 특징벡터가 20차원일 때 본 발명에 따른 방법(본 발명 2)에 대하여 평균 등가오류율을 비교하였다.
여기서 본 발명 1은 12차의 정적 특징벡터에 주성분분석을 적용하여 12차의 주성분 특징벡터를 생성한 후 12차의 동적 특징벡터를 추출하여 24차의 최종 특징벡터를 생성하는 방법이고, 본 발명 2는 12차의 정적 특징벡터에 주성분분석을 적용하여 10차의 주성분 특징벡터를 생성한 후 10차의 동적 특징벡터를 추출하여 20차의 최종 특징벡터를 생성하는 방법이다.
도 5를 참조하면, 같은 차수의 특징벡터와 혼합성분을 사용할 때 EER에서 본 발명 1은 일반적인 방법 및 주성분분석 방법과 비교하여 각각 0.45%와 0.13% 높은 확인 성능을 보였다. 또한 특징벡터의 차원이 감소된 본 발명 2는 일반적인 방법에 비해서는 파라미터 수가 약 8.3% 작지만 우수한 성능을 보였고, 주성분분석방법보다는 성능이 약간 저하되었다.
도 6은 다른 음성 데이터인 '열려라 참깨'에 대해 혼합성분의 개수에 따른 등가오류율을 도시한 그래프이다. 학습과 테스트 데이터가 충분하지 않은 경우에 높은 차수의 특징벡터에 대해 선형변환을 적용한 주성분분석 방법은 일반적인 방법과 거의 비슷한 성능을 보인다. 그러나 본 발명 1의 경우는 일반적인 방법과 주성분분석 방법보다 각각 평균 0.65%와 0.52% 향상된 성능을 보이며, 본 발명 2의 경우는 일반적인 방법과 주성분분석 방법보다 각각 평균 0.19%와 0.06% 높은 성능을 보인다. 이와 같이 본 발명이 기존의 다른 방법들보다 우수한 성능을 보이는 것은 순시 정보, 즉 동적 특징벡터를 추출할 때 상관성이 없는 주성분 특징벡터로부터 추출하였기 때문이다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상에서 본 발명의 바람직한 실시예에 대해 도시하고 설명하였으나, 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.
110 - 정적 특징벡터 추출부
120 - 선형변환부
130 - 동적 특징벡터 추출부
140 - 최종 특징벡터 생성부

Claims (11)

  1. 사용자의 생체 특성을 나타내는 인증데이터를 입력받아 상기 인증데이터의 복수의 프레임 각각으로부터 정적 특징벡터를 추출하는 정적 특징벡터 추출부;
    상기 정적 특징벡터에 대응하는 공분산 행렬에 의해 주성분 분석을 수행하여 변환 계수로 이루어진 주성분 특징벡터를 생성하는 선형변환부;
    상기 주성분 특징벡터로부터 상기 인증데이터의 상기 프레임들 간의 차를 나타내는 동적 특징벡터를 추출하는 동적 특징벡터 추출부; 및
    상기 주성분 특징벡터와 상기 동적 특징벡터의 계수들을 모두 포함하는 최종 특징벡터를 생성하여 사전에 저장된 견본 특징벡터를 기초로 상기 사용자의 인증 여부를 결정하기 위해 출력하는 최종 특징벡터 생성부;를 포함하는 것을 특징으로 하는 특징벡터 추출장치.
  2. 제 1항에 있어서,
    상기 정적 특징벡터 추출부는 상기 인증데이터가 분할된 복수의 프레임 각각을 샘플링한 후 주파수 변환하여 얻어지는 스펙트럼에 비선형의 멜(Mel) 스케일로 구성된 필터뱅크를 적용하여 상기 정적 특징벡터를 추출하는 것을 특징으로 하는 특징벡터 추출장치.
  3. 제 1항 또는 제 2항에 있어서,
    상기 선형변환부는 상기 정적 특징벡터를 구성하는 계수들 사이의 공분산으로 이루어진 공분산 행렬로부터 선택된 고유치 및 상기 선택된 고유치에 대응하는 고유벡터에 의해 변환행렬을 산출하여 상기 변환행렬을 상기 정적 특징벡터에 적용하는 주성분 분석에 의해 상기 주성분 특징벡터를 생성하는 것을 특징으로 하는 특징벡터 추출장치.
  4. 제 1항 또는 제 2항에 있어서,
    상기 동적 특징벡터는 상기 주성분 특징벡터로부터 산출된 델타 켑스트럼 계수로 이루어진 것을 특징으로 하는 특징벡터 추출장치.
  5. 제 1항 또는 제 2항에 있어서,
    상기 인증데이터는 시계열적으로 입력되는 상기 사용자의 음성신호인 것을 특징으로 하는 특징벡터 추출장치.
  6. 사용자의 생체 특성을 나타내는 인증데이터를 입력받아 상기 인증데이터의 복수의 프레임 각각으로부터 정적 특징벡터를 추출하는 정적 특징벡터 추출단계;
    상기 정적 특징벡터에 대응하는 공분산 행렬에 의해 주성분 분석을 수행하여 변환 계수로 이루어진 주성분 특징벡터를 생성하는 선형변환단계;
    상기 주성분 특징벡터로부터 상기 인증데이터의 상기 프레임들 간의 차를 나타내는 동적 특징벡터를 추출하는 동적 특징벡터 추출단계; 및
    상기 주성분 특징벡터와 상기 동적 특징벡터의 계수들을 모두 포함하는 최종 특징벡터를 생성하여 사전에 저장된 견본 특징벡터를 기초로 상기 사용자의 인증 여부를 결정하기 위해 출력하는 최종 특징벡터 생성단계;를 포함하는 것을 특징으로 하는 특징벡터 추출방법.
  7. 제 6항에 있어서,
    상기 정적 특징벡터 추출단계에서, 상기 인증데이터가 분할된 복수의 프레임 각각을 샘플링한 후 주파수 변환하여 얻어지는 스펙트럼에 비선형의 멜(Mel) 스케일로 구성된 필터뱅크를 적용하여 상기 정적 특징벡터를 추출하는 것을 특징으로 하는 특징벡터 추출방법.
  8. 제 6항 또는 제 7항에 있어서,
    상기 선형변환단계에서, 상기 정적 특징벡터를 구성하는 계수들 사이의 공분산으로 이루어진 공분산 행렬로부터 선택된 고유치 및 상기 선택된 고유치에 대응하는 고유벡터에 의해 변환행렬을 산출하여 상기 변환행렬을 상기 정적 특징벡터에 적용하는 주성분 분석에 의해 상기 주성분 특징벡터를 생성하는 것을 특징으로 하는 특징벡터 추출방법.
  9. 제 6항 또는 제 7항에 있어서,
    상기 동적 특징벡터는 상기 주성분 특징벡터로부터 산출된 델타 켑스트럼 계수로 이루어진 것을 특징으로 하는 특징벡터 추출방법.
  10. 제 6항 또는 제 7항에 있어서,
    상기 인증데이터는 시계열적으로 입력되는 상기 사용자의 음성신호인 것을 특징으로 하는 특징벡터 추출방법.
  11. 제 6항 또는 제 7항에 기재된 특징벡터 추출방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020100008558A 2010-01-29 2010-01-29 사용자 인증을 위한 특징벡터 추출장치 및 방법 KR101094763B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100008558A KR101094763B1 (ko) 2010-01-29 2010-01-29 사용자 인증을 위한 특징벡터 추출장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100008558A KR101094763B1 (ko) 2010-01-29 2010-01-29 사용자 인증을 위한 특징벡터 추출장치 및 방법

Publications (2)

Publication Number Publication Date
KR20110088851A KR20110088851A (ko) 2011-08-04
KR101094763B1 true KR101094763B1 (ko) 2011-12-16

Family

ID=44927239

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100008558A KR101094763B1 (ko) 2010-01-29 2010-01-29 사용자 인증을 위한 특징벡터 추출장치 및 방법

Country Status (1)

Country Link
KR (1) KR101094763B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10410638B2 (en) 2015-02-27 2019-09-10 Samsung Electronics Co., Ltd. Method and device for transforming feature vector for user recognition
US10794942B2 (en) 2017-10-31 2020-10-06 Samsung Electronics Co., Ltd. Apparatus and method for processing spectrum
US11048785B2 (en) 2018-02-14 2021-06-29 Samsung Electronics Co., Ltd Method and apparatus of performing authentication

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003241787A (ja) 2002-02-14 2003-08-29 Sony Corp 音声認識装置および方法、並びにプログラム
JP2003271185A (ja) 2002-03-15 2003-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
JP2006171750A (ja) 2004-12-13 2006-06-29 Lg Electronics Inc 音声認識のための特徴ベクトル抽出方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003241787A (ja) 2002-02-14 2003-08-29 Sony Corp 音声認識装置および方法、並びにプログラム
JP2003271185A (ja) 2002-03-15 2003-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
JP2006171750A (ja) 2004-12-13 2006-06-29 Lg Electronics Inc 音声認識のための特徴ベクトル抽出方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10410638B2 (en) 2015-02-27 2019-09-10 Samsung Electronics Co., Ltd. Method and device for transforming feature vector for user recognition
US10794942B2 (en) 2017-10-31 2020-10-06 Samsung Electronics Co., Ltd. Apparatus and method for processing spectrum
US11048785B2 (en) 2018-02-14 2021-06-29 Samsung Electronics Co., Ltd Method and apparatus of performing authentication
US11720658B2 (en) 2018-02-14 2023-08-08 Samsung Electronics Co., Ltd. Method and apparatus of performing authentication

Also Published As

Publication number Publication date
KR20110088851A (ko) 2011-08-04

Similar Documents

Publication Publication Date Title
US8566093B2 (en) Intersession variability compensation for automatic extraction of information from voice
Dey et al. Speech biometric based attendance system
Kwon et al. Phoneme recognition using ICA-based feature extraction and transformation
CN102968990B (zh) 说话人识别方法和系统
JPH08314491A (ja) ミックスチャ分解識別による話者検証方法と装置
Bredin et al. Audio-visual speech synchrony measure for talking-face identity verification
CN103794207A (zh) 一种双模语音身份识别方法
CN110767239A (zh) 一种基于深度学习的声纹识别方法、装置及设备
CN113223536B (zh) 声纹识别方法、装置及终端设备
Galbally et al. Improving the enrollment in dynamic signature verfication with synthetic samples
CN110047504B (zh) 身份矢量x-vector线性变换下的说话人识别方法
Kekre et al. Speaker identification using spectrograms of varying frame sizes
Tolba A high-performance text-independent speaker identification of Arabic speakers using a CHMM-based approach
Biagetti et al. Speaker identification with short sequences of speech frames
KR101094763B1 (ko) 사용자 인증을 위한 특징벡터 추출장치 및 방법
Kanagasundaram Speaker verification using I-vector features
Beritelli et al. An improved biometric identification system based on heart sounds and gaussian mixture models
Kekre et al. Performance comparison of 2-D DCT on full/block spectrogram and 1-D DCT on row mean of spectrogram for speaker identification
Ariff et al. Study of adam and adamax optimizers on alexnet architecture for voice biometric authentication system
Kalimoldayev et al. Voice verification and identification using i-vector representation
Sukor et al. Speaker identification system using MFCC procedure and noise reduction method
Kekre et al. Performance comparison of speaker identification using dct, walsh, haar on full and row mean of spectrogram
Khan et al. Speech recognition: increasing efficiency of support vector machines
Muttaqi et al. User identification system using biometrics speaker recognition by mfcc and dtw along with signal processing package
Panda et al. Study of speaker recognition systems

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140930

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161024

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee