KR100563316B1 - 보완적 특징벡터를 이용한 화자특징벡터 생성방법 및 장치 - Google Patents

보완적 특징벡터를 이용한 화자특징벡터 생성방법 및 장치 Download PDF

Info

Publication number
KR100563316B1
KR100563316B1 KR1020040043158A KR20040043158A KR100563316B1 KR 100563316 B1 KR100563316 B1 KR 100563316B1 KR 1020040043158 A KR1020040043158 A KR 1020040043158A KR 20040043158 A KR20040043158 A KR 20040043158A KR 100563316 B1 KR100563316 B1 KR 100563316B1
Authority
KR
South Korea
Prior art keywords
speaker
feature
feature vector
complementary
supplementary
Prior art date
Application number
KR1020040043158A
Other languages
English (en)
Other versions
KR20050117887A (ko
Inventor
윤성완
김사무엘
강홍구
윤대희
Original Assignee
학교법인연세대학교
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 학교법인연세대학교 filed Critical 학교법인연세대학교
Priority to KR1020040043158A priority Critical patent/KR100563316B1/ko
Publication of KR20050117887A publication Critical patent/KR20050117887A/ko
Application granted granted Critical
Publication of KR100563316B1 publication Critical patent/KR100563316B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Abstract

본 발명의 목적을 달성하기 위한 보완적 특징벡터를 이용한 화자특징벡터 생성방법 및 장치에 관한 것으로서, 본 발명의 목적은 입력된 화자 음성신호에서 특징벡터를 추출하여 화자모델링 훈련 및 화자인식을 수행하는 화자인식시스템에 있어서, 상기 입력된 음성신호에 목적화자와 사칭화자에 따라 서로 다른 제한된 환경의 보완적 특징을 첨가하는 보완특징첨가수단과, 상기 보완특징첨가수단을 통해 보완적 특징이 첨가된 음성신호의 특징벡터를 추출하는 특징벡터생성수단을 포함하여 구성된 것을 특징으로 한다.
화자, 목적화자, 사칭화자, 음성, 인식, 특징, 벡터, 추출, 생성, 보완, 제한적 환경

Description

보완적 특징벡터를 이용한 화자특징벡터 생성방법 및 장치 {Method and Apparatus for Feature Vector Generation using a Supplementary Feature}
도 1은 본 발명의 실시예에 따른 화자인식시스템에서 보완적 특징벡터를 이용한 특징벡터 추출 생성 방법 및 시스템의 블록 구성도이고,
도 2는 본 발명의 실시예에 따른 목적화자 및 사칭화자의 특징벡터의 생성과 훈련과정을 보여준다.
도 3은 도 1에서 특징벡터 생성장치의 상세 블록 구조도이다.
<도면의 주요부분에 대한 부호의 설명>
101 : 화자특징벡터 생성장치 102 : 보완특징첨가부
103 : 특징벡터추출부 104 : 화자모델 훈련시스템
105 : 화자인식 시스템 201 : 윈도우설정부
202 : 주파수분석부 203 : 필터부
204 : 로그연산부 205 : DCT변환부
본 발명은 화자인식 시스템에 관한 것으로서, 보다 상세하게는 특정화자만을 식별하거나 높은 보안성이 요구되는 시스템에서 기존의 화자인식 시스템에 널리 사용되는 'MFCC'(Mel Frequency Cepstral Coefficient) 특징벡터와 함께 목적화자에게 사칭화자와는 차별화되는 특징벡터를 첨가하는 보완적 특징벡터를 이용한 화자특징벡터 생성방법 및 장치에 관한 것이다.
일반적으로 화자인식 시스템은 크게 화자 종속 특징벡터를 생성하는 전처리 부분과 화자 종속 모델을 생성해 내는 화자 모델링, 그리고 화자의 인식을 처리하는 화자 인식의 세 부분으로 나눌 수 있다. 종래의 전처리 부분에서 생성하는 MFCC는 고정구간의 음성에서 인간의 주파수 측면의 청각적 특성을 고려하여 특징벡터를 추출해 내는 방법을 사용하고 있다.
법정수사 분야 또는 높은 보안성이 필수적인 화자인식 시스템의 경우, 특정화자를 식별하는데에 높은 신뢰도가 요구된다. 기존의 MFCC 특징벡터를 이용한 화자인식은 전반적으로 좋은 성능을 보이지만, 목적화자에게만 연관성이 있는 특징벡터를 첨가하여 시스템의 성능을 더 높일 필요성이 있다.
화자모델을 생성해 내는 화자 모델링 부분에서는 'GMM' (Gaussian Mixture Modeling), 'HMM' (Hidden Markov Modeling), 그리고 신경망 (Neural Network) 등이 가장 많이 쓰이고 있는데, 이는 화자종속 특징벡터들의 분포와 변이 상태를 각각의 모델링 기법에 따라 파라미터로 나타낸 것이다.
화자인식부분은 화자 모델링의 훈련과정을 거친 화자모델을 가지고 인식을 요구하는 사용자의 음성에서 특징벡터를 추출하고 비교하여 화자의 정체를 밝혀내는 역할을 한다.
본 발명은 특정화자만을 식별하기 위한 인식시스템에 응용하기 위한 것으로, 그 목적은 기존의 MFCC 특징벡터에 보완 특징벡터를 특정화자에게만 추가하여 사칭자와의 차별성을 두어 높은 보안성이 요구되는 화자인식시스템을 제공함에 있다.
본 발명의 목적을 달성하기 위한 보완적 특징벡터를 이용한 화자특징벡터 생성장치는 입력된 화자 음성신호에서 특징벡터를 추출하여 화자모델링 훈련 및 화자인식을 수행하는 화자인식시스템에 있어서, 상기 입력된 음성신호에 목적화자와 사칭화자에 따라 서로 다른 제한된 환경의 보완적 특징을 첨가하는 보완특징첨가수단과, 상기 보완특징첨가수단을 통해 보완적 특징이 첨가된 음성신호의 특징벡터를 추출하는 특징벡터생성수단을 포함하여 구성된 것을 특징으로 한다.
본 발명의 목적을 달성하기 위한 보완적 특징벡터를 이용한 화자특징벡터 생성방법은 입력된 화자 음성신호에서 특징벡터를 추출하여 화자모델링 훈련 및 화자인식을 수행하는 화자인식방법에 있어서, 상기 화자모델링 훈련을 위해 입력된 음성신호가 목적화자이면 제한된 환경의 보완적 특징을 첨가하는 제 1 단계와, 상기 보완적 특징에 영향을 받은 목적화자의 특징벡터를 생성하는 제 2 단계와, 상기 목적화자의 특징벡터에 의하여 목적화자 모델을 생성하는 제 3 단계와, 상기 화자모델링 훈련을 위해 입력된 음성신호가 사칭화자이면 입력된 음성신호에서 특징벡터를 추출한 후 사칭화자 모델을 생성하는 제 4 단계를 포함하여 이루어진 것을 특징으로 한다.
이와 같이 이루어진 본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다.
도 1은 본 발명의 실시예에 따른 보완적 특징벡터를 이용한 화자특징벡터 생성장치의 블록 구성도로서, 화자특징벡터 생성장치(101)는 입력된 음성신호에 목적화자와 사칭화자에 따라 서로 다른 제한된 환경의 보완적 특징을 첨가하는 보완특징첨가부(102)와, 상기 보완특징첨가수단을 통해 보완적 특징이 첨가된 음성신호의 특징벡터를 추출하는 특징벡터추출부(103)와, 상기 특징벡터추출부(103)로부터 추출된 특징벡터를 이용하여 화자 모델링 훈련 음성으로 사용하는 화자모델 훈련시스템(104)과, 상기 특징벡터추출부(103)에서 추출된 특징벡터에 의하여 화자인식을 수행하는 화자인식시스템(105)으로 구성된다.
도 2는 상기 특징벡터추출부(103)의 상세 블록 구성도로서, 입력된 피치구간 음성신호에 윈도우(Window)를 설정하는 윈도우설정부(201)와, 상기 윈도우설정부(201)에 의해 설정된 윈도우의 음성분석구간에 대하여 주파수분석을 하는 주파수분석부(202)와, 상기 주파수분석부(202)로부터 출력된 주파수에 청각특성을 고려한 멜밴드필터뱅크(Mel Frequency filter Bank)를 통과시키는 필터부(203)와, 상기 필터부(203)를 통과한 주파수의 로그 연산(logarithm)하는 로그연산부(204)와, 상기 로그연산부(204)를 통해 산출된 값으로부터 이산여현변환(DCT : Discrete Cosine Transform)을 통해 특징벡터를 산출하는 DCT변환부(205)로 구성된다.
이와 같이 구성된 본 발명 실시예에 따른 작용을 첨부된 도 1 내지 도 3을 참조하여 보다 상세히 설명하면 다음과 같다.
도 1은 본 발명의 실시예에 따른 보완적 특징벡터를 이용한 화자특징벡터 생성장치의 블록 구성도로서, 화자특징백터생성장치(102)는 보완특징첨가부(102)와 특징벡터추출부(103)로 구성되며, 상기 보완특징첨가부(102)는 목적화자에게 사칭화자와 구별될 수 있게 하는 제한적인 조건을 제공한다.
예를 들면, 특정한 실내 음향환경 하에서 목적화자의 음성을 추출해서 음향환경의 임펄스 리스폰스(Response)의 영향이 특징벡터추출부(103)에서 생성되는 특징벡터에 포함되도록 하여 목적화자와 같은 환경을 제공받지 못한 사칭화자에의 특징벡터와 차별성을 둔다.
즉, 상기 보완특징첨가부(102)에서 제한적 환경인 특정한 실내 음향 환경 하에서 녹음된 목적화자의 음성신호가 실내 음향환경의 임펄스 리스폰스(impulse response)의 영향을 받기 때문에 MFCC를 연산하는 특징벡터추출부(103)에 이와 같은 영향이 반영된다.
이와 같이 산출된 특징벡터에는 실내음향환경이라는 보완적인 특징이 첨가되었기 때문에 특정화자에 종속적인 특징벡터를 생성하여 화자인식 시스템(105)의 성능을 향상시킬 수 있다.
도 2는 도 1에서 특징벡터추출부(103)의 상세 블록 구성도로서, 이에 도시된 바와 같이, 상기 윈도우설정부(201)에서는 상기 보완적특징첨가부(102)에서 보완적 특징이 첨가된 음성신호에 윈도우를 설정한다. 즉, 윈도우 설정은 음성분석 구간을 나누고 불연속성을 최소로 하기 위하여 해밍 윈도우(Hamming Window) 또는 해닝 윈 도우(Hanning Window)와 같은 윈도우 함수를 이용하여 필터링 한다.
상기 주파수분석부(202)는 상기 윈도우함수에 의해 필터링된 음성신호의 주파수를 DFT를 이용하여 분석한다.
상기 필터부(203)는 인간의 주파수 측면 청각특성을 이용하여 필터링한다. 즉, 멜필터뱅크 (Mel Filter Bank)라는 청각특성을 고려한 필터뱅크를 통과시키도록 한다.
상기 로그연산부(204)는 상기 필터부(203)를 통해 필터링된 신호를 로그연산한 후 DCT변환부(205)를 통하여 주파수 변환하여 출력하므로 특징벡터를 생성하게 된다.
도 3은 본 발명의 실시예에 따른 보완적 특징벡터를 이용한 화자특징벡터 생성과정의 흐름도로서, 이에 도시된 바와 같이 목적화자와 사칭화자에 따라 보완특징 벡터가 첨가되는 여부에 따라 화자모델 훈련과정이 달라지게 된다.
상기 입력된 음성신호가 상기 목적화자일 경우에는 상기 화자특징벡터생성장치(101)는 보완특징첨가부(102)에 의해 보완적 특징을 첨가한다.(S101∼S110)
즉, 목적화자의 경우 실내음향환경 등의 보완적 특징을 보완특징첨가부(102)에서 얻게 되고, 특징벡터추출부(103)에서 보완적 특징의 영향을 받은 특징벡터가 생성된다.(S112)
이어서, 화자모델훈련시스템에서 목적화자의 모델 훈련과정을 통해 목적화자 모델을 생성하게 된다.(S114)(S116)
여기서, 실제 화자인식을 위해서 로그확률값(Log Likelihood)은 식 1과 같이 계산된다.
Figure 112004025363760-pat00001
여기서,
Figure 112004025363760-pat00002
은 보완적 특징이 첨가된 특징벡터이고,
Figure 112004025363760-pat00003
은 보완적 특징이 첨가된 특징벡터로 훈련된 화자모델이고, 그리고 lambda_BGM은 백그라운드 모델이다.
상기 입력된 음성신호가 사칭화자일 경우에는 보완적 특징이 첨가되지 않은 상태에서 특징벡터를 추출하고,(S120) 화자의 모델을 생성하기 때문에 화자인식에서 계산되는 로그확률값은 다음 수학식 2와 같다. (S122)(S124)
Figure 112004025363760-pat00004
여기서
Figure 112004025363760-pat00005
는 보완적 특징이 첨가되지 않은 사칭화자의 음성에서 추출한 특징벡터이다.
이상에서 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 보완적 특징첨가에 있어서 다양한 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.
본 발명에 따른 보완적 특징이 첨가된 특정화자 인식시스템은 응용목적에 맞 게 인식하고자 하는 특정목적화자에게만 종속적인 보완적 특징을 첨가함으로써 보완적 특징을 제공받지 못한 사칭화자와 비교해 확연히 다른 특징벡터를 추출할 수 있는 효과가 있다.
또한, 실제 인식시스템에 적용하였을 경우, 제한적인 환경 등의 보완적 특징을 제공받은 목적화자와 사칭화자의 특징벡터를 이용해 계산한 로그확률값에서 많은 차이를 나타내기 때문에 높은 보안성이 요구되는 화자인식시스템에서 기존의 MFCC만을 이용한 경우보다 향상된 성능을 얻을 수 있는 효과가 있다.

Claims (7)

  1. 입력된 화자 음성신호에서 특징벡터를 추출하여 화자모델링 훈련 및 화자인식을 수행하는 화자인식시스템에 있어서,
    상기 입력된 음성신호에 목적화자와 사칭화자에 따라 서로 다른 제한된 환경의 보완적 특징을 첨가하는 보완특징첨가수단; 및
    상기 보완특징첨가수단을 통해 보완적 특징이 첨가된 음성신호의 특징벡터를 추출하는 특징벡터추출수단;을 포함하여 구성된 것을 특징으로 하는 보완적 특징벡터를 이용한 화자특징벡터 생성장치.
  2. 제 1 항에 있어서,
    상기 보완특징첨가수단에서 상기 목적화자의 제한적 환경은 특정한 실내 음향환경이 포함된 보완적 특징을 첨가하고, 상기 사칭화자는 실내 음향 환경을 제공하지 않는 것을 특징으로 하는 보완적 특징벡터를 이용한 화자특징벡터 생성장치.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 특징벡터추출수단은 상기 보완특징첨가수단에서 첨가된 목적화자의 음향환경의 임펄스 리스폰스의 영향을 반영하여 추출하는 것을 특징으로 하는 보완적 특징벡터를 이용한 화자특징벡터 생성장치.
  4. 입력된 화자 음성신호에서 특징벡터를 추출하여 화자모델링 훈련 및 화자인식을 수행하는 화자인식방법에 있어서,
    상기 화자모델링 훈련을 위해 입력된 음성신호가 목적화자이면 제한된 환경의 보완적 특징을 첨가하는 제 1 단계;
    상기 보완적 특징에 영향을 받은 목적화자의 특징벡터를 생성하는 제 2 단계;
    상기 목적화자의 특징벡터에 의하여 목적화자 모델을 생성하는 제 3 단계; 및
    상기 화자모델링 훈련을 위해 입력된 음성신호가 사칭화자이면 입력된 음성신호에서 특징벡터를 추출한 후 사칭화자 모델을 생성하는 제 4 단계;를 포함하여 이루어진 것을 특징으로 하는 보완적 특징벡터를 이용한 화자특징벡터 생성방법.
  5. 제 4 항에 있어서,
    상기 제 1 단계에서 첨가된 보완적 특징은 특정한 실내 음향환경이 포함하여 이루어진 것을 특징으로 하는 보완적 특징벡터를 이용한 화자특징벡터 생성방법.
  6. 제 4 항에 있어서,
    상기 제 3 단계에서 목적화자 인식을 위한 로그확률값은 식
    Figure 112004025363760-pat00006
    (여기서,
    Figure 112004025363760-pat00007
    은 보완적 특징이 첨가된 특징벡터이고,
    Figure 112004025363760-pat00008
    은 보완적 특징이 첨가된 특징벡터로 훈련된 화자모델이고, lambda_BGM은 백그라운드 모델이다.) 에 의하여 산출되는 것을 특징으로 하는 보완적 특징벡터를 이용한 화자특징벡터 생성방법.
  7. 제 4 항에 있어서,
    상기 제 4 단계에서 사칭화자 인식을 위한 로그확률값은 식
    Figure 112004025363760-pat00009
    (여기서,
    Figure 112004025363760-pat00010
    는 보완적 특징이 첨가되지 않은 사칭화자의 음성에서 추출한 특징벡터이다.)에 의하여 산출되는 것을 특징으로 하는 보완적 특징벡터를 이용한 화자특징벡터 생성방법.
KR1020040043158A 2004-06-11 2004-06-11 보완적 특징벡터를 이용한 화자특징벡터 생성방법 및 장치 KR100563316B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040043158A KR100563316B1 (ko) 2004-06-11 2004-06-11 보완적 특징벡터를 이용한 화자특징벡터 생성방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040043158A KR100563316B1 (ko) 2004-06-11 2004-06-11 보완적 특징벡터를 이용한 화자특징벡터 생성방법 및 장치

Publications (2)

Publication Number Publication Date
KR20050117887A KR20050117887A (ko) 2005-12-15
KR100563316B1 true KR100563316B1 (ko) 2006-03-27

Family

ID=37291147

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040043158A KR100563316B1 (ko) 2004-06-11 2004-06-11 보완적 특징벡터를 이용한 화자특징벡터 생성방법 및 장치

Country Status (1)

Country Link
KR (1) KR100563316B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10410638B2 (en) 2015-02-27 2019-09-10 Samsung Electronics Co., Ltd. Method and device for transforming feature vector for user recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10410638B2 (en) 2015-02-27 2019-09-10 Samsung Electronics Co., Ltd. Method and device for transforming feature vector for user recognition

Also Published As

Publication number Publication date
KR20050117887A (ko) 2005-12-15

Similar Documents

Publication Publication Date Title
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
JP6303971B2 (ja) 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
EP1083541B1 (en) A method and apparatus for speech detection
JP4177755B2 (ja) 発話特徴抽出システム
JP4802135B2 (ja) 話者認証登録及び確認方法並びに装置
Schluter et al. Using phase spectrum information for improved speech recognition performance
Sinith et al. A novel method for text-independent speaker identification using MFCC and GMM
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
Al-Karawi et al. Early reflection detection using autocorrelation to improve robustness of speaker verification in reverberant conditions
Kumar et al. Speaker recognition using GMM
KR20120130371A (ko) Gmm을 이용한 응급 단어 인식 방법
CN109273012B (zh) 一种基于说话人识别和数字语音识别的身份认证方法
Maazouzi et al. MFCC and similarity measurements for speaker identification systems
CN110415707B (zh) 一种基于语音特征融合和gmm的说话人识别方法
KR100969138B1 (ko) 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
KR100563316B1 (ko) 보완적 특징벡터를 이용한 화자특징벡터 생성방법 및 장치
CN113012684B (zh) 一种基于语音分割的合成语音检测方法
WO2020195924A1 (ja) 信号処理装置および方法、並びにプログラム
Vestman et al. Time-varying autoregressions for speaker verification in reverberant conditions
KR100526110B1 (ko) 화자인식시스템의 화자 특징벡터 생성방법 및 시스템
Silveira et al. Convolutive ICA-based forensic speaker identification using mel frequency cepstral coefficients and gaussian mixture models
Tu et al. Computational auditory scene analysis based voice activity detection
KR20150144636A (ko) 이상음원 위치 추적 시스템 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120308

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee