KR100488121B1 - 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법 - Google Patents

화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법 Download PDF

Info

Publication number
KR100488121B1
KR100488121B1 KR10-2002-0014490A KR20020014490A KR100488121B1 KR 100488121 B1 KR100488121 B1 KR 100488121B1 KR 20020014490 A KR20020014490 A KR 20020014490A KR 100488121 B1 KR100488121 B1 KR 100488121B1
Authority
KR
South Korea
Prior art keywords
speaker
lpc
individual
extracting
equation
Prior art date
Application number
KR10-2002-0014490A
Other languages
English (en)
Other versions
KR20030075328A (ko
Inventor
정희석
진세훈
Original Assignee
정희석
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정희석 filed Critical 정희석
Priority to KR10-2002-0014490A priority Critical patent/KR100488121B1/ko
Publication of KR20030075328A publication Critical patent/KR20030075328A/ko
Application granted granted Critical
Publication of KR100488121B1 publication Critical patent/KR100488121B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 화자들의 일반적인 특징을 담고 있는 공통 화자의 특징 파라미터에 대한 특정 화자의 변별력있는 특징 파라미터를 추출함으로써, 화자간 변별력 향상을 시키는 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법에 관한 것이다.
본 발명에 따르면, 고대역이 증가된 샘플링된 음성 신호를 입력받아 주기적인 윈도우를 취하여 주기적 신호로 생성하는 윈도윙부; 상기 윈도윙부로부터 주기적 신호로 변환된 음성 신호를 입력받아 LPC(Linear Predictive Coefficient)를 추출하기 위한 자기 상관값을 구하는 자기 상관 분석부; 상기 자기 상관 분석부로부터 자기 상관값을 이용하여 PARCOR(PARtial CORrelation) 계수를 구한 후, 이를 이용하여 LPC를 구하는 LPC 분석부; 상기 LPC 분석부로부터 구한 LPC를 이용하여 LPC 켑스트럼(Cepstrum)을 구한 후, 공통 코드북의 차수별 분산, 개인 화자의 발성 구간 내에서 전체 프레임에 대한 차수별 특징 벡터의 분산의 비값을 가중치로 하여 상기 LPC 켑스트럼에 적용하는 LPC 파라미터 변환부를 포함하는 것을 특징으로 하는 개인별 켑스트럼 가중치를 적용한 화자 인증 장치가 제공된다.

Description

화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법 {Speaker verification apparatus and method applied personal weighting function for better inter-speaker variation}
본 발명은 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법에 관한 것으로서, 보다 상세하게는, 화자들의 일반적인 특징을 담고 있는 공통 화자의 특징 파라미터에 대한 특정 화자의 변별력있는 특징 파라미터를 추출함으로써, 화자간 변별력 향상을 시키는 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법에 관한 것이다.
화자 인식 기술은 대상 화자의 수에 따라, 화자 확인(Speaker Verification) 방법 및 화자 식별(Speaker Identification) 방법으로 나눌 수 있다.
도 1a는 종래의 화자 확인 방법의 전체적인 과정을 개략적으로 나타낸 흐름도이고, 도 1b는 종래의 화자 식별 방법의 전체적인 과정을 개략적으로 나타낸 흐름도로서, 이를 설명하면 다음과 같다.
먼저, 화자 확인 방법을 설명하면, 다음과 같다.
스텝 S101에서, 확인하고자 하는 화자의 음성이 입력되면, 스텝 S103에서, 상기 입력된 음성의 특징 벡터를 추출한다. 한편, 별도로, 스텝 S105에서, 입력된 화자가 자신의 ID를 입력시키면, 스텝 S106에서, 입력된 화자 ID의 화자 모델을 생성한다.
이어서, 스텝 S107에서, 상기 추출된 음성의 특징 벡터와 상기 생성된 화자 모델의 유사도를 계산한 후, 스텝 S109에서, 입력된 음성과 화자 ID가 서로 일치하는지 여부를 임계치를 이용하여 판단한다.
그리고, 스텝 S111에서, 상기 일치 결과를 출력한 후, 종료한다.
도 1b에 도시되어 있는 화자 식별 방법을 설명하면 다음과 같다.
먼저, 스텝 S151에서, 식별하고자 하는 음성이 입력되면, 스텝 S153에서, 입력된 음성의 특징 벡터를 추출한다. 한편, 별도로 스텝 S155에서, N 개의 화자 모델이 입력된다.
이어서, 스텝 S157에서, 상기 추출한 입력 음성의 특징 벡터와 상기 N 개의 화자 모델간의 유사도를 계산한다. 이때, 유사도의 계산은 상기 N 개의 화자 모델을 일일이 상기 입력 음성의 특징 벡터와 수행하기 때문에, 최종 결과값은 N 개의 유사도 값이다.
그리고, 스텝 S159에서, 상기 N 개의 유사도 값 중에서 최대 유사도 값을 선택한 후, 스텝 S161에서, 화자 식별 결과값을 출력하고, 종료한다.
화자 확인 방법을 좀 더 상세하게 설명하면, 다음과 같다.
화자 확인 알고리즘은 일반적인 패턴 인식 시스템의 과정을 따른다. 즉, 인식하고자 하는 객체의 특성을 표현하는 특징들이 주어졌을 때, 이러한 객체에 대한 사전 지식을 바탕으로 객체를 인식하는 것을 목표로 한다.
일반적 패턴 인식 시스템은 훈련, 테스트 및 구현의 단계를 거쳐서 완성되는데, 훈련 단계에서는 주어진 객체에 대한 특징들과 실제 객체와의 관계를 대응시키면서 객체에 대한 모델 파라미터들을 추정하는 단계이고, 테스트 단계에서는 많은 데이터를 이용한 테스트를 통하여 모델을 조절하거나 적응시키는 단계이다. 마지막으로, 구현 단계는 실제 적용되는 단계로서, 알려지지 아니한 객체에 대한 특징들을 입력받아서 모델링된 객체와의 관계를 판별하게 된다.
도 2는 종래의 화자 확인 방법의 전체적인 과정을 개략적으로 나타낸 또 다른 흐름도로서, 이를 상세히 설명하면 다음과 같다.
개념적인 패턴 인식 시스템은 크게 나누어 특징 추출기(Feature Extractor) 및 분류기(Classifier)로 구성되는데, 좀 더 구체적인 과정을 덧붙인 일반적인 화자 확인 방법은 도 2와 같이 구성될 수 있다.
(1) 전처리 과정(S201) : 전처리 과정이란 입력단을 통하여 들어오는 각각의 화자의 음성 정보를 이용하여 시스템에서의 화자에 대한 변별도를 높이기 위한 특징 파리미터(Feature Parameter)를 추출 및 처리하는 것으로서, 이러한 전처리 과정은 입력된 음성의 구간을 추출하고 분절하는 단계, 음성 및 화자 특징 파라미터를 추출하는 두 단계로 세분화될 수 있다.
이때, 특징 파라미터들은 엘피시 켑스트럼(LPC Cepstrum), 델타(Delta) 켑스트럼, 멜(Mel) 켑스트럼, 피치(Pitch), 포먼츠(Formants) 등이 있다.
(2) 학습 및 인식 과정(S203) : 학습 및 인식 과정에서는 상기 전처리 과정에서 추출된 음성의 화자별 특징 파라미터를 시스템에서 인식하여 확인할 수 있도록 학습하고, 이를 확인하는 일련의 과정을 수행하는 것으로서, 이러한 학습 및 인식 과정은 구축된 데이터베이스를 이용하여 음성 및 화자 모델을 생성하는 단계, 결정 규칙을 적용하여 인증 또는 거부하는 최종 단계로 세분화될 수 있다.
이때, 이러한 학습 및 인식 과정은 벡터 양자화(Vector Quantization), 동적 정합법(Dynamic Time Warping : DTW), HMM(Hidden Markov Model) 및 신경 회로망(Neural Network) 등의 알고리즘들로 수행된다.
그러나, 상술한 종래 기술들은 후천적인 개인성을 나타내는 습관이나 억양에 의한 화자의 발성 패턴에는 적절한 성능을 보이며, 본인 확인시의 오거부율을 줄여 주는 효과가 있으나, 이러한 파라미터의 특성을 지나치게 강조함으로써 성대 모사에 의한 오수락율을 높여 화자 확인 시스템의 성능을 저하시키는 문제점이 있다.
상기와 같은 종래 기술의 문제점을 해결하기 위한 본 발명의 목적은 화자들의 일반적인 특징을 담고 있는 공통 화자의 특징 파라미터에 대한 특정 화자의 변별력있는 특징 파라미터를 추출함으로써, 화자간 변별력 향상을 시키는 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법을 제공하기 위한 것이다.
상기한 목적을 달성하기 위하여 본 발명에 따르면, 화자들의 일반적인 특징을 담고 있는 공통 화자의 특징 파라미터에 대한 특정 화자의 변별력있는 특징 파라미터를 추출함으로써, 화자간 변별력 향상을 시키는 화자 인증 장치에 있어서, 입력되는 샘플링된 음성 신호의 음성 특징점을 추출할 때, 고대역을 증가시키기 위한 고대역 강조 필터; 상기 고대역 강조 필터로부터 고대역이 증가된 샘플링된 음성 신호를 입력받아 주기적인 윈도우를 취하여 주기적 신호로 생성하는 윈도윙부; 상기 윈도윙부로부터 주기적 신호로 변환된 음성 신호를 입력받아 LPC(Linear Predictive Coefficient)를 추출하기 위한 자기 상관값을 구하는 자기 상관 분석부; 상기 자기 상관 분석부로부터 자기 상관값을 이용하여 PARCOR(PARtial CORrelation) 계수를 구한 후, 이를 이용하여 LPC를 구하는 LPC 분석부; 상기 LPC 분석부로부터 구한 LPC를 이용하여 LPC 켑스트럼(Cepstrum)을 구한 후, 공통 코드북의 차수별 분산, 개인 화자의 발성 구간 내에서 전체 프레임에 대한 차수별 특징 벡터의 분산의 비값을 가중치로 하여 상기 LPC 켑스트럼에 적용하는 LPC 파라미터 변환부;를 포함하는 것을 특징으로 하는 개인별 켑스트럼 가중치를 적용한 화자 인증 장치를 제공한다.
또한, 화자들의 일반적인 특징을 담고 있는 공통 화자의 특징 파라미터에 대한 특정 화자의 변별력있는 특징 파라미터를 추출함으로써, 화자간 변별력 향상을 시키는 화자 인증 방법에 있어서, 입력되는 샘플링된 음성 신호의 음성 특징점을 추출할 때, 고대역을 증가시키는 제 1 단계; 상기 제 1 단계에서 고대역이 증가된 샘플링된 음성 신호를 입력받아 주기적인 윈도우를 취하여 주기적 신호로 생성하는 제 2 단계; 상기 제 2 단계에서 주기적 신호로 변환된 음성 신호를 입력받아 LPC(Linear Predictive Coefficient)를 추출하기 위한 자기 상관값을 구하는 제 3 단계; 상기 제 3 단계에서 구한 자기 상관값을 이용하여 PARCOR(PARtial CORrelation) 계수를 구한 후, 이를 이용하여 LPC를 구하는 제 4 단계; 상기 제 4 단계에서 구한 LPC를 이용하여 LPC 켑스트럼(Cepstrum)을 구한 후, 공통 코드북의 차수별 분산, 개인 화자의 발성 구간 내에서 전체 프레임에 대한 차수별 특징 벡터의 분산의 비값을 가중치로 하여 상기 LPC 켑스트럼에 적용하는 제 5 단계;를 포함하는 것을 특징으로 하는 개인별 켑스트럼 가중치를 적용한 화자 인증 방법이 제공된다.
이하, 첨부된 도면을 참조하면서 본 발명의 일 실시예에 따른 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법을 보다 상세하게 설명하기로 한다.
1. LPC 켑스트럼
본 발명은 종래의 잘 알려져 있는 LPC 켑스트럼 알고리즘을 이용하여 화자간 변별력 향상을 꾀하는 개인별 켑스트럼 알고리즘에 관한 발명이다.
음성 발생 모델은 인간의 성도 구조에 의하여 분석될 수 있다. 음성 생성 기관이 음원과 음도로 분리되고, 성도를 선형 수동계, 음원을 임펄스(Impulse) 구동으로 생각하면, 음성 파형은 선형 수동계의 임펄스 응답으로 볼 수 있다. 이러한 이유에서 성도의 특징을 LPC(Linear Predictive Coefficient)로서 특징지어 분석할 수 있다.
LPC 모델의 기본 배경 개념은 n 시간에 주어진 음성 샘플 s(n)은 과거 p 개의 음성 샘플을 선형 조합한다는 것이다. 이를 나타낸 것이 아래의 [수학식 1]이다.
상기 [수학식 1]에서 계수 a1, ..., ap는 음성 분석 프레임을 통하여 일정하다고 가정한다. 상기 식에 여기 구간 Gu(n)를 포함시킴으로써, 아래의 [수학식 2]를 도출할 수 있다.
여기서, u(n)은 정규화된 여기이고, G는 여기 이득이다.
상기 [수학식 2]를 z-변환으로 표현하면, 아래의 [수학식 3]을 얻는다.
상기 [수학식 3]을 전달 함수의 형태로 변환하면, 아래의 [수학식 4]를 얻을 수 있다.
상기 정규화된 여기 함수 u(n)이 이득 G에 의하여 증감되면서, All-Pole 시스템 H(z)의 입력으로 활성화되고, 음성 신호 s(n)을 생성한다.
음성에 대한 실제 여기 함수가 유성음을 의미하는 주기적인 펄스열이거나 무성음을 의미하는 랜덤(Random)한 잡음이라는 것을 기반으로 적당한 음성 합성 모델을 표현하자.
도 3은 본 발명에 적용되는 음성 합성기의 구성도로서, 이를 상세히 설명하면 다음과 같다.
도 3에 도시된 바와 같이, 음성 합성기는 음성에서 유성음 구간을 나타내는 주기적 펄스열을 생성하는 임펄스 트레인 생성기(301), 무성음 구간을 나타내는 랜덤 잡음 생성기(303)를 포함한다.
또한, 상기 임펄스 트레인 생성기(301) 및 랜덤 잡음 생성기(303)의 결과값, 즉, 음성과 비음성을 합하는 합산기(305)를 포함한다.
또한, 상기 합산기(305)의 결과값 U(n)과 여기 신호의 이득 G를 서로 곱하는 곱셈기(307)를 포함한다. 이때, 여기 신호의 이득 G는 음성 신호로부터 추정된다.
상기 합산기의 결과값은 디지털 필터 H(z)의 입력값으로 사용되며, 이때, H(z)는 음성의 성도 파라미터에 의하여 제어됨을 알 수 있는데, 이 모델의 파라미터들은 유성음과 무성음의 분류, 유성음의 피치 주기, 이득 파라미터 및 디지털 필터의 계수, 즉, LPC 계수 ak 등이다.
LPC 계수 ak를 구하기 위한 과정을 설명하면, 다음과 같다.
LPC 계수 ak를 구하기 위해서 과거 음성 샘플의 선형 조합을 아래의 [수학식 5]에 도시되어 있는 추정치 으로 변형한다.
또한, 아래의 [수학식 6]과 같이 예측 오차를 계산한다.
여기서, e(n)은 예측 오차로서, s(n)이 선형 시스템 형태에 의하여 발생하였을 때, Gu(n)의 증감 여기를 평등화시키는 값이고, a(z)는 오차 전달 함수이다.
음성 신호의 시간 t에 있어서, 샘플값을 xt로 표현하는데, 이것은 p 개의 샘플(xt-p, xt-p+1, ..., xt-1)로부터 xt가 선형적으로 예측 가능하다. 한편, 상기 예측치 xt 및 오차 는 아래의 [수학식 7]로 구할 수 있다.
상기 [수학식 7]의 오차 를 t에 관하여 최소화하는 를 결정할 수 있는데, 이것은 자승 오차를 구하여 편미분함으로써, 최소화하게 된다. 이를 수식으로 나타내면, 아래의 [수학식 8]과 같이 표현된다.
상기 [수학식 8]에 의한 기대치를 최소화하기 위하여 이를 편미분한 후, 이 값이 '0'가 되는 를 구하게 되는데, 이를 나타낸 것이 아래의 [수학식 9]이다.
아래의 [수학식 10]은 오차의 기대치를 의미하고, [수학식 11]은 편미분 값이 '0'가 됨을 의미한다.
이때, N은 분석 구간의 샘플 개수이다.
상기 [수학식 10] 및 [수학식 11]로부터 n 차원 연립 방정식을 얻게 되는데, 이를 나타낸 것이 아래의 [수학식 12]이다.
상기 [수학식 12]에서 는 음성 신호의 샘플값 xt-i 및 xt-j의 상관치이며, 어느 음성 구간에 대한 평균치로서 관측 파형으로부터 구한다. 따라서, 이를 이용하여 LPC를 구현하는 것이 가능하다. 이를 일반적으로 상관법이라 한다.
이 방법들을 z 변환 영역에서 고려하면, X(z)는 여진원 E(z)에 H(z)의 필터를 거쳐 생성되는데, 이를 나타낸 것이 아래의 [수학식 13]이다.
여기서, H(z)는 분석의 경우, 프레임의 주파수를 나타내며, 아래의 [수학식 14]와 같이 표현된다.
여기서, 는 예측 오차 총합의 평균근으로 이득을 나타낸다. 결국, 상기 [수학식 16]의 H(z)는 계수에 의하여 구해진 성도 모델을 의미하게 된다. 이러한 성도 모델에서 LPC는 음성의 특징을 잘 표현하는 파라미터가 된다.
다음에는 LPC 계수의 추출 과정과 켑스트럼 변환 과정을 설명한다.
2. LPC 켑스트럼 추출 과정
도 4는 LPC 켑스트럼의 추출 과정을 도식적으로 표현한 도면이다.
도 4에 도시되어 있듯이, LPC 켑스트럼 추출 장치는 끝점 추출부(401), 고대역 강조 필터(402), 프레임 블로킹부(403), 윈도윙부(404), 상관 분석부(405), LPC 분석부(406) 및 LPC 파라미터 변환부(407)를 구비한다.
먼저, 상기 끝점 추출부(401)는 음성 신호가 입력되면, 이를 샘플링하고, 상기 샘플링된 음성 신호의 끝점을 추출한다.
이어서, 상기 고대역 강조 필터(402)의 기능은 다음과 같다. 음성 신호는 고대역일수록 에너지 값이 작아지는 현상이 있다. 이를 위하여 음성 특징점을 추출할 때, 아래의 [수학식 15]와 같이 고대역을 증가시키기 위하여 고대역 강조 필터를 둔다.
여기서, z는 입력 음성 신호의 z 변환 값이다.
한편, 상기 [수학식 15]에서 a는 상수로서, 일반적으로 0.95로 한다.
이어서, 상기 프레임 블로킹부(403)에서는 다음과 같은 기능을 수행한다. 음성 신호는 몇 개의 샘플 값을 가지는 여러 프레임별로 처리하는데, 프레임 간의 음성 정보의 손실을 고려하여 임의의 N 개의 음성 샘플로 블로킹하고, 임의의 M 개의 샘플만큼 천이한 후, 재차 블로킹한다.
이어서, 상기 윈도윙부(404)에서는 다음과 같은 기능을 수행한다. 음성 신호는 주기적인 신호와 비주기적인 신호의 두가지 성분이 있기 때문에 준주기적인 신호라고 한다. 이때 음성 신호를 주기적인 윈도우를 취하여 주기적으로 만들어야 한다. 아래의 [수학식 16]은 윈도우 함수 중 가장 대표적인 해밍 윈도우(Hamming Window) 함수식이다.
여기서, n은 한 프레임의 샘플 개수이다.
이어서, 상기 상관 분석부(405)에서는 LPC를 추출하는 과정에서 자기 상관값을 구한다.
이어서, 상기 LPC 분석부(406)에서는 더빈(Durbin) 알고리즘에 의하여 상기 상관 분석부(405)에서 구한 자기 상관값을 이용하여 PARCOR(PARtial CORrelation) 계수를 구한 후, LPC를 구한다. 아래의 [수학식 17]은 LPC를 구하는 과정을 수식으로 나타낸 것이다.
여기서, (LPC 계수)는 이고, m은 을 만족하며, 은 PARCOR 계수이고, r(i)는 자기 상관값이며, i는 LPC 차수이다.
이어서, 상기 LPC 파라미터 변환부(407)는 상기 LPC 분석부(406)에서 구한 LPC를 이용하여 켑스트럼으로 변형한 후, 음성의 파라미터인 LPC 켑스트럼을 구한다. 아래의 [수학식 18]은 이러한 과정을 수식으로 표현한 것이다.
여기서, 은 LPC 전력 이득이다.
3. 화자간 변별력 향상을 위한 LPC 켑스트럼의 가중치 적용 방법
도 5는 음성 특징 파라미터의 통계적 변이 분포도이다.
도 5에 도시되어 있듯이, 화자간 변별력 향상을 위해서는 화자내 변이(Intra - Speaker Variation)보다 화자간 변이(Inter - Speaker Variation)가 큰 특징 파라미터를 사용하는 것이 바람직하다.
따라서, 화자 확인 시스템은 발성 화자의 특징 파라미터와 공통 화자의 특징 파라미터간의 거리 측정에 의하여 승인 여부를 결정하는 것이므로, 무엇보다도 대다수 화자들의 일반적인 특징을 담고 있는 공통 화자의 특징 파라미터에 대한 특정 화자의 변별력있는 특징 파라미터의 추출이 중요해진다. 그러나, 일반적인 성도 모델링을 사용하는 LPC 켑스트럼의 경우, 멜 켑스트럼(Mel - Cepstrum)이나 PLP(Perceptual Linear Predictive)계수와 같은 특징 파라미터에 비하여 비교적 화자 개개인의 개인성이 강조되기는 하지만, 실험 결과, 많은 오수락율과 오거부율을 보이고 있다.
이것은 LPC 켑스트럼과 같은 성도 모델이 지극히 발성 화자의 성도 특성에 치우쳐 있어서 학습시의 자세를 그대로 유지하지 못하거나 발성 상태를 조금 달리하게 되면, 본인임에도 불구하고, 학습시와 많은 차이를 보이는데 그 원인이 있다. 또한, 때때로 어떤 화자들 간에는 그 차이가 매우 작게 나타나며, 이는 오수락율의 원인이 되기도 한다.
또한, LPC 켑스트럼이나 멜 켑스트럼의 시간적인 변화를 내포하는 동적 파라미터로서, 델타 켑스트럼을 이용하게 되는데, 이는 후천적인 개인성을 나타내는 습관이나 억양에 의한 화자의 발성 패턴에 적절한 성능을 보이며, 본인 확인시의 오거부율을 줄여 주었으나, 이러한 파라미터의 특성을 지나치게 강조하는 경우, 성대 모사에 의한 오수락율을 높여 화자 확인 시스템의 성능을 저하시키는 원인이 되기도 한다.
그러므로, 본 발명에서는 LPC 켑스트럼과 같은 성도 모델링에 의한 화자 개인의 특성을 내포하는 특징 파라미터에 개선된 가중치를 적용함으로써, 화자간 변별력을 향상시키는 방법을 제공한다. 즉, 공통 화자의 일반적인 특성에 대한 개인 화자의 개인성이 두드러지게 나타나는 차수에 강조되는 형태를 가지게 함으로써, 화자간의 변별력을 향상시키고, 동일 화자의 변이를 적절이 수용하게끔 하였다.
아래의 [수학식 19]는 본 발명에서 제안하는 LPC 켑스트럼의 가중치 함수를 수식으로 표현한 것이다.
상기 [수학식 19]에서 표현된 는 공통 코드북의 차수별 분산을 의미하고, 는 개인 화자의 발성 구간(T 개의 프레임) 내에서 전체 프레임에 대한 차수별 특징 벡터의 분산을 의미한다.
즉, 의 경우에는 남녀 각각의 여러 명의 화자가 발성한 특정 단어의 발성음을 이용하여 L 개의 코드북을 형성한(Clustering) 것으로 일반적인 화자들의 발성 프레임들의 전반적인 변화 특성이 반영되어 있는 것으로 간주할 수 있다. 또한, 의 경우에는 학습하고자 하는 개인 화자의 여러 번의 발성 음성이 전체 프레임에 걸쳐 관찰되는 특징 벡터의 차수별 분산을 보여주는 것이다.
따라서, 상기 [수학식 19]에서 나타난 것처럼, 공통 코드북의 차수별 분산에 대한 개인 화자의 차수별 분사의 비가 큰 것은 오히려 공통 화자들의 일반적인 특징에 비하여 개인 화자의 특정 단어에 대한 발성음의 전 구간에서 프레임간 변화가 커 개인성(개개인의 시간에 따른 발성 특징에서 LPC 켑스트럼의 변화가 크게 관찰되는 차수)을 더욱 강조할 수 있는 특징 벡터의 차수에 해당된다.
따라서, 본 발명에서는 이러한 차수에 높은 가중치를 주는 방식을 적용하였으며, 그 결과 화자간의 변별력을 크게 향상시키는 결과를 초래한다.
즉, 음성의 발성 구간 내에서 일반적인 화자들의 LPC 켑스트럼의 차수별 변화에 대한 특정 화자의 LPC 켑스트럼의 차수별 변화의 비가 곧 그 화자의 개인성을 강조하는 가중치로 작용하게 되는데, 이는 발성시 나타나는 개별 화자의 주파수에 대한 시간적인 변화에 민감하게 함으로써, 개인별 발성 특징을 잘 반영한다는 것을 의미한다.
도 6은 본 발명의 일 실시예에 따라 각 화자별 특징 파라미터의 가중치를 파라미터의 차수별로 나타낸 도면이다.
아래의 [표 1]은 본 발명에서 제안하는 가중치를 적용한 결과의 성능 분석표이다. 본 실험에서는 가중치를 주지 아니한 경우와 음성 인식에서 흔히 적용되는 시누소이달(Sinusoidal) 켑스트럼 가중치를 적용한 경우에 대하여 실험해 보았고, 본 발명에서 제안하는 발성 프레임 변화에 근거한 화자별 가중치를 적용한 경우와 비교 분석하였다.
[표 1]
상기 [표 1]에 도시되어 있듯이, 가중치를 적용하지 아니한 LPC 켑스트럼의 경우에는 본인 인증에 대한 평균 인식율이 86.061 % 이고, 사칭자에 대한 거부율이 98.967 % 이며, 시누소이달 켑스트럼 가중치를 적용한 경우에는 각각 84.091 %, 99.6 % 이고, 본 발명에서 제안하는 화자별 가중치를 적용한 경우에는 각각 92.58 %, 99.53 % 임을 확인할 수 있다.
즉, 본 발명에서 제안하는 가중치 적용 LPC 켑스트럼의 성능이 종래의 방법보다 매우 뛰어남을 알 수 있다.
위에서 양호한 실시예에 근거하여 이 발명을 설명하였지만, 이러한 실시예는 이 발명을 제한하려는 것이 아니라 예시하려는 것이다. 이 발명이 속하는 분야의 숙련자에게는 이 발명의 기술 사상을 벗어남이 없이 위 실시예에 대한 다양한 변화나 변경 또는 조절이 가능함이 자명할 것이다. 그러므로, 이 발명의 보호 범위는 첨부된 청구 범위에 의해서 한정될 것이며, 위와 같은 변화예나 변경예 또는 조절예를 모두 포함하는 것으로 해석되어야 할 것이다.
이상과 같이 본 발명에 의하면, LPC 켑스트럼과 같은 성도 모델링에 의한 화자 개인의 특성을 내포하는 특징 파라미터에 개선된 가중치를 적용함으로써, 화자간 변별력을 향상시키고, 동일 화자의 변이를 적절히 수용하게끔 하는 효과가 있다.
또한, 발성시 나타나는 개별 화자의 주파수에 대한 시간적인 변화에 민감하게 함으로써, 개인별 발성 특징을 잘 반영하게 되어 화자 인증시 평균 인식율 및 사칭자에 대한 평균 거부율을 대폭 향상시키는 효과가 있다.
도 1a는 종래의 화자 확인 방법의 전체적인 과정을 개략적으로 나타낸 흐름도이고,
도 1b는 종래의 화자 식별 방법의 전체적인 과정을 개략적으로 나타낸 흐름도이고,
도 2는 종래의 화자 확인 방법의 전체적인 과정을 개략적으로 나타낸 또 다른 흐름도이고,
도 3은 본 발명에 적용되는 음성 합성기의 구성도이고,
도 4는 LPC 켑스트럼의 추출 과정을 도식적으로 표현한 도면이고,
도 5는 음성 특징 파라미터의 통계적 변이 분포도이고,
도 6은 본 발명의 일 실시예에 따라 각 화자별 특징 파라미터의 가중치를 파라미터의 차수별로 나타낸 도면이다.
※ 도면의 주요 부분에 대한 부호의 설명 ※
401 : 끝점 추출부 402 : 고대역 강조 필터
403 : 프레임 블로킹부 404 : 윈도윙부
405 : 상관 분석부 406 : LPC 분석부
407 : LPC 파라미터 변환부

Claims (13)

  1. 화자들의 일반적 특징을 담고 있는 공통 화자의 특징 파라미터에 대한 특정 화자의 변별력있는 특징 파라미터를 추출함으로써, 화자간 변별력 향상을 시키는 화자 인증 장치에 있어서,
    입력되는 음성 신호를 샘플링하여 끝점을 추출하는 끝점 추출부;
    상기 끝점 추출부에 의하여 결정된 음성 구간에서 음성 신호의 음성 특징점을 추출할 때, 고대역을 증가시키기 위한 고대역 강조 필터;
    상기 고대역 강조 필터로부터 고대역이 증가된 샘플링된 음성 신호를 입력받아 주기적인 윈도우를 취하여 주기적 신호로 생성하는 윈도윙부;
    상기 윈도윙부로부터 주기적 신호로 변환된 음성 신호를 입력받아 LPC(Linear Predictive Coefficient)를 추출하기 위한 자기 상관값을 구하는 자기 상관 분석부;
    상기 자기 상관 분석부로부터 자기 상관값을 이용하여 PARCOR(PARtial CORrelation) 계수를 구한 후, 이를 이용하여 LPC를 구하는 LPC 분석부;
    상기 LPC 분석부로부터 구한 LPC를 이용하여 LPC 켑스트럼(Cepstrum)을 구한 후, 공통 코드북의 차수별 분산, 개인 화자의 발성 구간 내에서 전체 프레임에 대한 차수별 특징 벡터의 분산의 비값을 가중치로 하여 상기 LPC 켑스트럼에 적용하는 LPC 파라미터 변환부;
    를 포함하는 것을 특징으로 하는 개인별 켑스트럼 가중치를 적용한 화자 인증 장치.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 고대역 강조 필터로부터 고대역이 강조된 음성 신호를 입력받아 프레임 간의 음성 정보의 손실을 고려하여 임의의 개수의 음성 샘플로 블로킹(Blocking)하고, 임의의 개수의 샘플만큼 천이하여 재차 블로킹한 후, 상기 윈도윙부로 전송하는 프레임 블로킹부;를 더 포함하는 것을 특징으로 하는 개인별 켑스트럼 가중치를 적용한 화자 인증 장치.
  4. 제 1 항에 있어서,
    상기 윈도윙부는,
    윈도우 함수로서, 해밍 윈도우(Hamming Window) 함수를 이용하는 것을 특징으로 하는 개인별 켑스트럼 가중치를 적용한 화자 인증 장치.
  5. 제 1 항에 있어서,
    상기 LPC 분석부는,
    아래의 [식 1]에 의하여 LPC를 구하는 것을 특징으로 하는 개인별 켑스트럼 가중치를 적용한 화자 인증 장치.
    [식 1]
    여기서, (LPC 계수)는 이고, m은 을 만족하며, 은 PARCOR 계수이고, r(i)는 자기 상관값(Auto Correlation)이며, i는 LPC 차수이다.
  6. 제 1 항에 있어서,
    상기 LPC 파라미터 변환부는,
    상기 공통 코드북의 가중치를 아래의 [식 2]에 의하여 결정하는 것을 특징으로 하는 개인별 켑스트럼 가중치를 적용한 화자 인증 장치.
    [식 2]
    여기서, w(i)는 가중치를 의미하며, 는 공통 코드북의 차수별 분산을 의미하고, 는 개인 화자의 발성 구간(T 개의 프레임) 내에서 전체 프레임에 대한 차수별 특징 벡터의 분산을 의미한다.
  7. 화자들의 일반적 특징을 담고 있는 공통 화자의 특징 파리미터에 대한 특정 화자의 변별력있는 특징 파라미터를 추출함으로써, 화자간 변별력 향상을 시키는 화자 인증 방법에 있어서,
    입력되는 음성 신호를 샘플링하여 끝점을 추출하여 음성 구간을 결정한 후, 상기 음성 구간에서의 음성 특징점을 추출할 때, 고대역을 증가시키는 제 1 단계;
    상기 제 1 단계에서 고대역이 증가된 샘플링된 음성 신호를 입력받아 주기적인 윈도우를 취하여 주기적 신호로 생성하는 제 2 단계;
    상기 제 2 단계에서 주기적 신호로 변환된 음성 신호를 입력받아 LPC(Linear Predictive Coefficient)를 추출하기 위한 자기 상관값을 구하는 제 3 단계;
    상기 제 3 단계에서 구한 자기 상관값을 이용하여 PARCOR(PARtial CORrelation) 계수를 구한 후, 이를 이용하여 LPC를 구하는 제 4 단계;
    상기 제 4 단계에서 구한 LPC를 이용하여 LPC 켑스트럼(Cepstrum)을 구한 후, 공통 코드북의 차수별 분산, 개인 화자의 발성 구간 내에서 전체 프레임에 대한 차수별 특징 벡터의 분산의 비값을 가중치로 하여 상기 LPC 켑스트럼에 적용하는 제 5 단계;
    를 포함하는 것을 특징으로 하는 개인별 켑스트럼 가중치를 적용한 화자 인증 방법.
  8. 삭제
  9. 제 7 항에 있어서,
    상기 제 2 단계는,
    상기 제 1 단계에서 고대역이 강조된 음성 신호를 입력받아 프레임 간의 음성 정보의 손실을 고려하여 임의의 개수의 음성 샘플로 블로킹(Blocking)하고, 임의의 개수의 샘플만큼 천이하여 재차 블로킹하는 서브 단계를 포함하는 것을 특징으로 하는 개인별 켑스트럼 가중치를 적용한 화자 인증 방법.
  10. 제 7 항에 있어서,
    상기 제 2 단계는,
    윈도우 함수로서, 해밍 윈도우(Hamming Window) 함수를 이용하는 것을 특징으로 하는 개인별 켑스트럼 가중치를 적용한 화자 인증 방법.
  11. 제 7 항에 있어서,
    상기 제 4 단계는,
    아래의 [식 3]에 의하여 LPC를 구하는 것을 특징으로 하는 개인별 켑스트럼 가중치를 적용한 화자 인증 방법.
    [식 1]
    여기서, (LPC 계수)는 이고, m은 을 만족하며, 은 PARCOR 계수이고, r(i)는 자기 상관값(Auto Correlation)이며, i는 LPC 차수이다.
  12. 제 7 항에 있어서,
    상기 제 5 단계는,
    상기 공통 코드북의 가중치를 아래의 [식 4]에 의하여 결정하는 것을 특징으로 하는 개인별 켑스트럼 가중치를 적용한 화자 인증 방법.
    [식 4]
    여기서, w(i)는 가중치를 의미하며, 는 공통 코드북의 차수별 분산을 의미하고, 는 개인 화자의 발성 구간(T 개의 프레임) 내에서 전체 프레임에 대한 차수별 특징 벡터의 분산을 의미한다.
  13. 화자들의 일반적인 특징을 담고 있는 공통 화자의 특징 파라미터에 대한 특정 화자의 변별력있는 특징 파라미터를 추출함으로써, 화자간 변별력 향상을 시키는 화자 인증 프로그램을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록 매체에 있어서,
    입력되는 샘플링된 음성 신호의 음성 특징점을 추출할 때, 고대역을 증가시키는 제 1 단계;
    상기 제 1 단계에서 고대역이 증가된 샘플링된 음성 신호를 입력받아 주기적인 윈도우를 취하여 주기적 신호로 생성하는 제 2 단계;
    상기 제 2 단계에서 주기적 신호로 변환된 음성 신호를 입력받아 LPC(Linear Predictive Coefficient)를 추출하기 위한 자기 상관값을 구하는 제 3 단계;
    상기 제 3 단계에서 구한 자기 상관값을 이용하여 PARCOR(PARtial CORrelation) 계수를 구한 후, 이를 이용하여 LPC를 구하는 제 4 단계;
    상기 제 4 단계에서 구한 LPC를 이용하여 LPC 켑스트럼(Cepstrum)을 구한 후, 공통 코드북의 차수별 분산, 개인 화자의 발성 구간 내에서 전체 프레임에 대한 차수별 특징 벡터의 분산의 비값을 가중치로 하여 상기 LPC 켑스트럼에 적용하는 제 5 단계;를 포함하고,
    상기 제 5 단계는,
    상기 공통 코드북의 가중치를 아래의 [식 5]에 의하여 결정하는 것을 특징으로 하는 개인별 켑스트럼 가중치를 적용한 화자 인증 프로그램을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록 매체.
    [식 5]
    여기서, w(i)는 가중치를 의미하며, 는 공통 코드북의 차수별 분산을 의미하고, 는 개인 화자의 발성 구간(T 개의 프레임) 내에서 전체 프레임에 대한 차수별 특징 벡터의 분산을 의미한다.
KR10-2002-0014490A 2002-03-18 2002-03-18 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법 KR100488121B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0014490A KR100488121B1 (ko) 2002-03-18 2002-03-18 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0014490A KR100488121B1 (ko) 2002-03-18 2002-03-18 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20030075328A KR20030075328A (ko) 2003-09-26
KR100488121B1 true KR100488121B1 (ko) 2005-05-06

Family

ID=32225169

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0014490A KR100488121B1 (ko) 2002-03-18 2002-03-18 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100488121B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102604319B1 (ko) * 2016-11-01 2023-11-24 한국전자통신연구원 화자 인증 시스템 및 그 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0736477A (ja) * 1993-07-16 1995-02-07 Ricoh Co Ltd パターンマッチング方式
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system
JPH09218697A (ja) * 1995-12-22 1997-08-19 Ncr Internatl Inc 話者検証システム
US5732188A (en) * 1995-03-10 1998-03-24 Nippon Telegraph And Telephone Corp. Method for the modification of LPC coefficients of acoustic signals
KR19990004697A (ko) * 1997-06-30 1999-01-25 배순훈 가중 선형 예측 켑스트럼 계수를 이용한 음성인식 장치 및 그 제어방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0736477A (ja) * 1993-07-16 1995-02-07 Ricoh Co Ltd パターンマッチング方式
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system
US5732188A (en) * 1995-03-10 1998-03-24 Nippon Telegraph And Telephone Corp. Method for the modification of LPC coefficients of acoustic signals
JPH09218697A (ja) * 1995-12-22 1997-08-19 Ncr Internatl Inc 話者検証システム
KR19990004697A (ko) * 1997-06-30 1999-01-25 배순훈 가중 선형 예측 켑스트럼 계수를 이용한 음성인식 장치 및 그 제어방법

Also Published As

Publication number Publication date
KR20030075328A (ko) 2003-09-26

Similar Documents

Publication Publication Date Title
Saksamudre et al. A review on different approaches for speech recognition system
JP6777768B2 (ja) 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム
Vergin et al. Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition
JP4802135B2 (ja) 話者認証登録及び確認方法並びに装置
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
WO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
Almaadeed et al. Text-independent speaker identification using vowel formants
Shanthi et al. Review of feature extraction techniques in automatic speech recognition
JP2006171750A (ja) 音声認識のための特徴ベクトル抽出方法
Pawar et al. Review of various stages in speaker recognition system, performance measures and recognition toolkits
Razak et al. Quranic verse recitation recognition module for support in j-QAF learning: A review
Karpov Real-time speaker identification
Shanthi Therese et al. Review of feature extraction techniques in automatic speech recognition
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
KR101560833B1 (ko) 음성 신호를 이용한 감정 인식 장치 및 방법
JP4461557B2 (ja) 音声認識方法および音声認識装置
Praveen et al. Text dependent speaker recognition using MFCC features and BPANN
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
KR100488121B1 (ko) 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법
JP2011180308A (ja) 音声認識装置及び記録媒体
Dustor et al. Influence of feature dimensionality and model complexity on speaker verification performance
Shafie et al. Sequential classification for articulation and Co-articulation classes of Al-Quran syllables pronunciations based on GMM-MLLR
Khalifa et al. Statistical modeling for speech recognition
Correia et al. Anti-spoofing: Speaker verification vs. voice conversion

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130425

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20140428

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20150227

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20160304

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20170920

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20190328

Year of fee payment: 15