KR100435440B1 - 화자간 변별력 향상을 위한 가변 길이 코드북 생성 장치및 그 방법, 그를 이용한 코드북 조합 방식의 화자 인식장치 및 그 방법 - Google Patents

화자간 변별력 향상을 위한 가변 길이 코드북 생성 장치및 그 방법, 그를 이용한 코드북 조합 방식의 화자 인식장치 및 그 방법 Download PDF

Info

Publication number
KR100435440B1
KR100435440B1 KR10-2002-0014491A KR20020014491A KR100435440B1 KR 100435440 B1 KR100435440 B1 KR 100435440B1 KR 20020014491 A KR20020014491 A KR 20020014491A KR 100435440 B1 KR100435440 B1 KR 100435440B1
Authority
KR
South Korea
Prior art keywords
codebook
personal
speaker
cluster
model
Prior art date
Application number
KR10-2002-0014491A
Other languages
English (en)
Other versions
KR20030075329A (ko
Inventor
정희석
진세훈
Original Assignee
정희석
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정희석 filed Critical 정희석
Priority to KR10-2002-0014491A priority Critical patent/KR100435440B1/ko
Publication of KR20030075329A publication Critical patent/KR20030075329A/ko
Application granted granted Critical
Publication of KR100435440B1 publication Critical patent/KR100435440B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/16Hidden Markov models [HMM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Collating Specific Patterns (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 화자간 변별력 향상을 위한 가변 길이 코드북 생성 장치 및 그 방법, 그를 이용한 코드북 조합 방식의 화자 인식 장치 및 그 방법에 관한 것이다.
본 발명에 따르면, 입력되는 모든 샘플링된 음성 벡터에 대하여 하나의 중심값을 설정하는 중심값 설정 수단; 모든 클러스터 중 최대 분산을 가지는 클러스터를 검출하는 검출 수단; 상기 최대 분산을 가지는 클러스터의 중심값을 상기 분산을 고려하여 이동시켜 둘로 분할하는 분할 수단; 상기 모든 입력 벡터에 대하여 분할된 각각의 클러스터와의 유클리드 거리를 측정하여 가장 작은 거리를 가지는 클러스터의 멤버 벡터로 집단화하는 집단화 수단; 및 상기 각 클러스터의 멤버 벡터를 통하여 클러스터의 중심점을 갱신함으로써, 개인 코드북을 생성하는 중심점 갱신 수단;을 포함하는 것을 특징으로 하는 화자 인식 시스템에 적용되는 개인 코드북 생성 장치가 제공된다.

Description

화자간 변별력 향상을 위한 가변 길이 코드북 생성 장치 및 그 방법, 그를 이용한 코드북 조합 방식의 화자 인식 장치 및 그 방법 {Variable sized- Clustering apparatus and method for better discrimination of the inter-speaker variation, Speaker Verification apparatus and method based on new VQ/HMM technique}
본 발명은 화자간 변별력 향상을 위한 가변 길이 코드북 생성 장치 및 그 방법, 그를 이용한 코드북 조합 방식의 화자 인식 장치 및 그 방법에 관한 것으로서, 특히, 학습시의 개인 화자에 대한 개인 코드북을 생성하고, 미리 준비된 공통 화자들의 발성 음성들을 이용하여 일반적인 화자들의 공통 코드북을 형성하는 장치 및 방법을 제공하기 위한 것이다.
또한, 기존 방식과 비교하여 유사한 코드북의 크기를 가지면서도 각 개인의 음성 특성을 보다 잘 반영하여 화자 본인과 사칭자의 특징 차이를 극대화하여 안정적인 화자 인식 성능을 가지도록 하는 코드북 조합 방식의 VQ/HMM 기법을 이용한 화자 인식 장치 및 그 방법에 관한 것이다.
화자 인식 기술은 대상 화자의 수에 따라, 화자 확인(Speaker Verification) 방법 및 화자 식별(Speaker Identification) 방법으로 나눌 수 있다.
도 1a는 종래의 화자 확인 방법의 전체적인 과정을 개략적으로 나타낸 흐름도이고, 도 1b는 종래의 화자 식별 방법의 전체적인 과정을 개략적으로 나타낸 흐름도로서, 이를 설명하면 다음과 같다.
먼저, 화자 확인 방법을 설명하면, 다음과 같다.
스텝 S101에서, 확인하고자 하는 화자의 음성이 입력되면, 스텝 S103에서, 상기 입력된 음성의 특징 벡터를 추출한다. 한편, 별도로, 스텝 S105에서, 입력된 화자가 자신의 ID를 입력시키면, 스텝 S106에서, 입력된 화자 ID의 화자 모델을 생성한다.
이어서, 스텝 S107에서, 상기 추출된 음성의 특징 벡터와 상기 생성된 화자 모델의 유사도를 계산한 후, 스텝 S109에서, 입력된 음성과 화자 ID가 서로 일치하는지 여부를 임계치를 이용하여 판단한다.
그리고, 스텝 S111에서, 상기 일치 결과를 출력한 후, 종료한다.
도 1b에 도시되어 있는 화자 식별 방법을 설명하면 다음과 같다.
먼저, 스텝 S151에서, 식별하고자 하는 음성이 입력되면, 스텝 S153에서, 입력된 음성의 특징 벡터를 추출한다. 한편, 별도로 스텝 S155에서, N 개의 화자 모델이 입력된다.
이어서, 스텝 S157에서, 상기 추출한 입력 음성의 특징 벡터와 상기 N 개의 화자 모델간의 유사도를 계산한다. 이때, 유사도의 계산은 상기 N 개의 화자 모델을 일일이 상기 입력 음성의 특징 벡터와 수행하기 때문에, 최종 결과값은 N 개의유사도 값이다.
그리고, 스텝 S159에서, 상기 N 개의 유사도 값 중에서 최대 유사도 값을 선택한 후, 스텝 S161에서, 화자 식별 결과값을 출력하고, 종료한다.
화자 확인 방법을 좀 더 상세하게 설명하면, 다음과 같다.
화자 확인 알고리즘은 일반적인 패턴 인식 시스템의 과정을 따른다. 즉, 인식하고자 하는 객체의 특성을 표현하는 특징들이 주어졌을 때, 이러한 객체에 대한 사전 지식을 바탕으로 객체를 인식하는 것을 목표로 한다.
일반적 패턴 인식 시스템은 훈련, 테스트 및 구현의 단계를 거쳐서 완성되는데, 훈련 단계에서는 주어진 객체에 대한 특징들과 실제 객체와의 관계를 대응시키면서 객체에 대한 모델 파라미터들을 추정하는 단계이고, 테스트 단계에서는 많은 데이터를 이용한 테스트를 통하여 모델을 조절하거나 적응시키는 단계이다. 마지막으로, 구현 단계는 실제 적용되는 단계로서, 알려지지 아니한 객체에 대한 특징들을 입력받아서 모델링된 객체와의 관계를 판별하게 된다.
도 2는 종래의 화자 확인 방법의 전체적인 과정을 개략적으로 나타낸 또 다른 흐름도로서, 이를 상세히 설명하면 다음과 같다.
개념적인 패턴 인식 시스템은 크게 나누어 특징 추출기(Feature Extractor) 및 분류기(Classifier)로 구성되는데, 좀 더 구체적인 과정을 덧붙인 일반적인 화자 확인 방법은 도 2와 같이 구성될 수 있다.
(1) 전처리 과정(S201) : 전처리 과정이란 입력단을 통하여 들어오는 각각의화자의 음성 정보를 이용하여 시스템에서의 화자에 대한 변별도를 높이기 위한 특징 파리미터(Feature Parameter)를 추출 및 처리하는 것으로서, 이러한 전처리 과정은 입력된 음성의 구간을 추출하고 분절하는 단계, 음성 및 화자 특징 파라미터를 추출하는 두 단계로 세분화될 수 있다.
이때, 특징 파라미터들은 엘피시 켑스트럼(LPC Cepstrum), 델타(Delta) 켑스트럼, 멜(Mel) 켑스트럼, 피치(Pitch), 포먼츠(Formants) 등이 있다.
(2) 학습 및 인식 과정(S203) : 학습 및 인식 과정에서는 상기 전처리 과정에서 추출된 음성의 화자별 특징 파라미터를 시스템에서 인식하여 확인할 수 있도록 학습하고, 이를 확인하는 일련의 과정을 수행하는 것으로서, 이러한 학습 및 인식 과정은 구축된 데이터베이스를 이용하여 음성 및 화자 모델을 생성하는 단계, 결정 규칙을 적용하여 인증 또는 거부하는 최종 단계로 세분화될 수 있다.
이때, 이러한 학습 및 인식 과정은 벡터 양자화(Vector Quantization), 동적 정합법(Dynamic Time Warping : DTW), HMM(Hidden Markov Model) 및 신경 회로망(Neural Network) 등의 알고리즘들로 수행된다.
그러나, 상술한 종래 기술들은 후천적인 개인성을 나타내는 습관이나 억양에 의한 화자의 발성 패턴에는 적절한 성능을 보이며, 본인 확인시의 오거부율을 줄여 주는 효과가 있으나, 이러한 파라미터의 특성을 지나치게 강조함으로써 성대 모사에 의한 오수락율을 높여 화자 확인 시스템의 성능을 저하시키는 문제점이 있다.
한편, 이러한 화자 확인 알고리즘에는 일반적인 화자들의 특징 벡터를 표현하는 코드북 생성 알고리즘이 반드시 필요하다.
코드북 생성 알고리즘으로는 종래에 클러스터링(Clustering) 알고리즘과 벡터 양자화 방법이 주로 사용된 바, 이를 설명하면 다음과 같다.
도 3은 종래의 벡터 양자화 방법에서 추출된 특징 벡터를 하나의 대표 벡터로 대치하는 개념을 보여주는 개념도이다.
일반적인 클러스터링 알고리즘으로는 로이드(Lloyd) 알고리즘으로 잘 알려진 K-Means 알고리즘을 널리 이용한다. K-Means 알고리즘의 기본 이론은 무한히 많은 수의 입력 벡터를 미리 정하여진 K 개의 대표값(중심값)으로 사상시키는 집단화 알고리즘으로서, 임의의 입력 벡터에 대한 양자화 에러를 최소로 하기 위하여 반복적으로 클러스터의 중심값을 갱신하는 알고리즘이다.
도 4는 종래의 K-Means 알고리즘에 의한 집단화 과정을 보여 주는 흐름도로서, 이를 설명하면 다음과 같다.
(1) 스텝 S401 : 초기화 과정이다. 임의의 K 개의 입력 특징 벡터를 선택하여 K 개의 클러스터의 중심적 벡터로 설정한다. 이러한 중심적 벡터를이라 하자.
(2) 스텝 S402 : 클러스터링 과정이다. K 개의 클러스터 중심점 벡터와 각 입력 특징 벡터에 대한 유클리드 거리를 측정하여 가장 작은 거리를 가지는 클러스터의 멤버 벡터로 집단화한다. 이를 수식으로 표현한 것이 아래의 [수학식 1]이다.
여기서, i는 1, 2, ..., K 이고,이다.
(3) 스텝 S403 : 새로운 클러스터 센터값을 계산하는 과정으로서, 각각의 클러스터의 멤버 벡터를 이용하여 클러스터의 중심점을 갱신한다. 이를 수식으로 표현한 것이 아래의 [수학식 2]이다.
여기서,에 소속된 멤버의 수이다.
(4) 스텝 S404 : 갱신되는 값이 없으면 작업을 종료하고, 중심점이 갱신되면, 상기 스텝 S402로 복귀하여 반복 수행한다.
그러나, 상술한 K-Means 알고리즘의 경우, 유일한 코드워드(Codeword)로 집단화되지 못하고, 초기값의 설정에 따라 국부 최소값을 가지기도 하는 등, 여러 가지 단점이 있다. 따라서, 최적인 벡터 양자화를 위하여 개선된 집단화 알고리즘들이 발표되었고, 이에는 린드(Linde), 부조(Buzo) 및 그레이(Gray)가 발표한 LBG 알고리즘이 그 대표적인 예이다.
LBG 알고리즘은 반복적으로 클러스터를 분할하는 알고리즘으로써, K-Means 알고리즘에서의 초기값 설정 문제를 해결하기 위하여 모든 입력 벡터를 하나의 클러스터로 집단화하여 초기 중심값을 설정한 후, 매 반복 횟수마다 현재의 클러스터들의 중심값을 이동시켜 분할한다.
결국 분할 과정이 m 번 진행되면,개의 클러스터를 만들게 되고, 미리 정하여진 수 K 개의 안정된 분할을 이룰 때까지 반복한다.
도 5는 종래의 LBG 알고리즘을 수행하는 과정을 나타내는 흐름도로서, 이를 설명하면 다음과 같다.
(1) 스텝 S501 : 초기화(Initialization) 과정이다. 모든 입력 벡터에 대하여 하나의 중심값을 설정하는 바, 이를 수식으로 표현한 것이 아래의 [수학식 3]이다.
여기서,는 모든 입력 벡터의 개수이고,는 초기 중심값이다.
(2) 스텝 S502 : 분할(Splitting) 과정이다. 각각의 클러스터의 중심값을 이동시켜(), 둘로 분할하는 바, 이를 수식으로 표현한 것이 아래의 [수학식 4]이다.
여기서,이고,이다.
(3) 스텝 S503 : 클러스터링(Clustering) 과정이다. 모든 입력 벡터에 대하여 분할된 각 클러스터와의 유클리드 거리를 측정하여, 가장 작은 거리를 가지는 클러스터의 멤버 벡터로 집단화한다. 이를 수식으로 표현한 것이 아래의 [수학식 5]이다.
(4) 스텝 S504 : 중심값 갱신(Centroid Update) 과정이다. 각각의 클러스터의 멤버 벡터를 통하여 클러스터의 중심값을 갱신한다. 이를 수식으로 표현한 것이 아래의 [수학식 6]이다.
여기서,에 소속된 멤버의 개수이고, S는 클러스터이고, c는 센트로이드값, x는 특징파라미터값이다.
(5) 스텝 S505 : 첫 번째 종료(Termination) 과정이다. 오차의 갱신값이 설정된 임계값 이하이면 아래의 스텝 S506을 수행하고, 그러하지 아니하면 상기 스텝 S503으로 복귀한다.
(6) 스텝 S506 : 두 번째 종료(Termination) 과정이다. 정하여진 수의 클러스터로 분할되었으면 작업을 종료하고, 그러하지 아니하면 상기 스텝 S502로 복귀하여 반복 수행한다.
그러나, 상술한 LBG 알고리즘의 경우에는 분할 조건을 반복 횟수마다 무조건적으로 클러스터의 수를 두배수로 증가시키는 문제점이 있다.
상기와 같은 종래 기술의 문제점을 해결하기 위한 본 발명의 목적은 학습시의 개인 화자에 대한 개인 코드북을 생성하고, 미리 준비된 공통 화자들의 발성 음성들을 이용하여 일반적인 화자들의 공통 코드북을 형성하는 장치 및 방법을 제공하기 위한 것이다.
또한, 기존 방식과 비교하여 유사한 코드북의 크기를 가지면서도 각 개인의 음성 특성을 보다 잘 반영하여 화자 본인과 사칭자의 특징 차이를 극대화하여 안정적인 화자 인식 성능을 가지도록 하는 코드북 조합 방식의 VQ/HMM 기법을 이용한 화자 인식 장치 및 그 방법을 제공하기 위한 것이다.
도 1a는 종래의 화자 확인 방법의 전체적인 과정을 개략적으로 나타낸 흐름도이고,
도 1b는 종래의 화자 식별 방법의 전체적인 과정을 개략적으로 나타낸 흐름도이고,
도 2는 종래의 화자 확인 방법의 전체적인 과정을 개략적으로 나타낸 또 다른 흐름도이고,
도 3은 종래의 벡터 양자화 방법에서 추출된 특징 벡터를 하나의 대표 벡터로 대치하는 개념을 보여주는 개념도이고,
도 4는 종래의 K-Means 알고리즘에 의한 집단화 과정을 보여 주는 흐름도이고,
도 5는 종래의 LBG 알고리즘을 수행하는 과정을 나타내는 흐름도이고,
도 6은 본 발명의 일 실시예에 따른 가변 길이 개인 코드북 생성 과정을 보여주는 흐름도이고,
도 7은 종래의 이산 HMM을 이용한 화자 인식 시스템의 구조도이고,
도 8은 본 발명의 일 실시예에 따른 화자 인식 시스템을 종래의 화자 인식 시스템과 비교하여 도시한 개념도이다.
상기한 목적을 달성하기 위하여 본 발명에 따르면, 화자 인식 시스템에 적용되는 개인 코드북 생성 장치에 있어서, 입력되는 모든 샘플링된 음성 벡터에 대하여 하나의 중심값을 설정하는 중심값 설정 수단; 모든 클러스터 중 최대 분산을 가지는 클러스터를 검출하는 검출 수단; 상기 최대 분산을 가지는 클러스터의 중심값을 상기 분산을 고려하여 이동시켜 둘로 분할하는 분할 수단; 상기 모든 입력 벡터에 대하여 분할된 각각의 클러스터와의 유클리드 거리를 측정하여 가장 작은 거리를 가지는 클러스터의 멤버 벡터로 집단화하는 집단화 수단; 및 상기 각 클러스터의 멤버 벡터를 통하여 클러스터의 중심점을 갱신함으로써, 개인 코드북을 생성하는 중심점 갱신 수단;을 포함하는 것을 특징으로 하는 화자 인식 시스템에 적용되는 개인 코드북 생성 장치가 제공된다.
또한, 화자 인식 시스템에 적용되는 개인 코드북 생성 방법에 있어서, 입력되는 모든 샘플링된 음성 벡터에 대하여 하나의 중심값을 설정하는 제 1 단계; 모든 클러스터 중 최대 분산을 가지는 클러스터를 검출하는 제 2 단계; 상기 최대 분산을 가지는 클러스터의 중심값을 상기 분산을 고려하여 이동시켜 둘로 분할하는 제 3 단계; 상기 모든 입력 벡터에 대하여 분할된 각각의 클러스터와의 유클리드 거리를 측정하여 가장 작은 거리를 가지는 클러스터의 멤버 벡터로 집단화하는 제 4 단계; 및 상기 각 클러스터의 멤버 벡터를 통하여 클러스터의 중심점을 갱신함으로써, 개인 코드북을 생성하는 제 5 단계;를 포함하는 것을 특징으로 하는 화자 인식 시스템에 적용되는 개인 코드북 생성 방법이 제공된다.
또한, 공통 VQ(Vector Quantization) 코드북을 입력받아 음성 특징 파라미터를 상기 공통 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로써 HMM(Hidden Markov Model) 확률 모델에 따른 월드 모델을 생성하는 월드 모델 생성 수단; 가변 길이 개인 코드북을 입력받아 최적의 임의의 개수의 개인 코드북을 생성하는 개인 코드북 생성 수단; 개인 화자의 음성 특징 파라미터를 상기 개인 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열(시퀀스열)로써 HMM 확률 모델에 따른 화자 모델을 생성하는 화자 모델 생성 수단; 및 상기 공통 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로써 월드 모델과의 비터비 연산을 통하여 확률값을 구하고, 상기 개인 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로써 개인 화자 모델과의 비터비 연산을 통하여 확률값을 구한 후, 이들의 비값을 개인 사전 문턱치로 설정하는 개인 사전 문턱치 설정 수단;을 포함하는 것을 특징으로 하는 코드북 조합 방식의 VQ/HMM 기법을 이용한 화자 인식 장치가 제공된다.
또한, 공통 VQ(Vector Quantization) 코드북을 입력받아 음성 특징 파라미터를 상기 공통 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로써 HMM(Hidden Markov Model) 확률 모델에 따른 월드 모델을 생성하는 제 1 단계; 공통 코드북의 분산값과 비교하여 최적의 임의의 개수의 개인 코드북을 생성하는 제 2 단계; 개인 화자의 음성 특징 파라미터를 상기 개인 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열(시퀀스열)로써 HMM 확률 모델에 따른 화자 모델을 생성하는 제 3 단계; 및 상기 공통 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로써 월드 모델과의 비터비 연산을 통하여 확률값을 구하고, 상기 개인 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로써 개인 화자 모델과의 비터비 연산을 통하여 확률값을 구한 후, 이들의 비값을 개인 사전 문턱치로 설정하는 제 4 단계;를 포함하는 것을 특징으로 하는 코드북 조합 방식의 VQ/HMM 기법을 이용한 화자 인식 방법이 제공된다.
이하, 첨부된 도면을 참조하면서 본 발명의 일 실시예에 따른 화자간 변별력 향상을 위한 가변 길이 코드북 생성 장치 및 그 방법, 그를 이용한 코드북 조합 방식의 화자 인식 장치 및 그 방법을 보다 상세하게 설명하기로 한다.
본 발명에서는 화자들간의 개인성을 강조하여 화자 확인시의 인식율을 향상시키기 위하여 학습시의 개인 화자에 대한 개인 코드북을 생성하고, 미리 준비된 공통 화자들의 발성 음성들을 이용하여 일반적인 화자들의 공통 코드북을 형성하는 방법을 제시한다.
무엇보다도 화자들간의 변별력을 향상시키기 위하여 이러한 공통 코드북과 화자 개개인의 개별 코드북들간의 거리가 충분히 나타나야 하고, 이로 인하여 개인 화자의 발성 음성에 대한 특징 파라미터가 공통 화자의 그것과는 현저히 분리되어야 한다. 따라서, 미리 준비된 일반적인 화자들의 음성군을 모아 특정 단어에 대한 공통 코드북을 생성하고, 이러한 공통 코드북의 평균 분산을 이용하여 화자 개개인의 가변 길이 개인 코드북을 생성한다.
1. 가변 길이 코드북 생성 방법
본 발명에서는 종래의 LBG 알고리즘을 부분 이용하여 특정 단어 모델에 대한 일반적인 화자들의 특징 벡터를 표현하는 공통 코드북을 생성한다. 또한, 거리 측정 방식에서 임의의 발성 음성이 이러한 공통 코드북과 비교 대상으로 지목되는 개인 화자의 코드북 벡터들과의 형평을 유지하기 위하여 개인 화자의 코드북을 생성하는 방식을 변형하였다.
즉, 공통 화자의 각 클러스터들의 평균 분산을 경계값으로 하여, 개인 화자의 코드북을 생성한다. 따라서, 기존의 K-Means 알고리즘이나 LBG 알고리즘 등의클러스터링 알고리즘들이 일정한 수의 클러스터를 생성하는 반면, 본 발명에서 제안하는 수정된 클러스터링 알고리즘은 분산이 최대인 클러스터만을 재분할하고, 각 클러스터들의 분산값이 공통 코드북의 평균 분산 미만이 될 때까지 분할 과정과 클러스터링을 수행하게 함으로써, 일반적인 공통 코드북의 수보다 작은 수의 클러스터를 생성하게 된다.
이는 또한 개인 코드북의 분할이 공통 코드북의 조건과 동일시되므로, 화자 확인의 인식율에 크게 영향을 미치는 코드북의 변별력을 향상시킨다.
또한, 종래의 LBG 알고리즘과 같은 분할 알고리즘의 경우, 현재의 중심값을 일정한 방향으로 이동시켜, 중심점을 재추정하는 알고리즘인데 반하여, 본 발명에서 제안하는 가변 길이 코드북 생성 알고리즘의 경우에는 분할하고자 하는 클러스터(집단)의 중심점을 다차원 클러스터의 분산 환경을 고려하여 클러스터 멤버의 구성이 양분될 수 있도록 중심값의 분할 방향을 가변적으로 이동시킨다.
도 6은 본 발명의 일 실시예에 따른 가변 길이 개인 코드북 생성 과정을 보여주는 흐름도로서, 이를 살펴보면 다음과 같다.
(1) 스텝 S601 : 초기화 과정이다. 모든 입력 벡터에 대한 하나의 중심값을 설정하는 바, 이를 수식으로 나타낸 것이 아래의 [수학식 7]이다.
여기서,는 입력 벡터이고,는 모든 입력 벡터의 개수이다.
(2) 스텝 S602 : 검출(Searching) 과정이다. 현재의 모든 클러스터 중 최대 분산을 가지는 클러스터를 검출하는 바, 이를 수식으로 나타낸 것이 아래의 [수학식 8]이다.
여기서,는 k 번째 클러스터의 분산이고, k는 1부터 K 까지의 정수이다.
(3) 스텝 S603 : 분할(Splitting) 과정이다. 최대 분산을 가지는 클러스터의 중심값을 이동시켜 둘로 분할한다. 이때, 분할 방향은 아래의 [수학식 9]와 같이 분산을 고려하여 분할하고자 하는 클러스터의 멤버를 양분하도록 한다.
여기서,은 상수로서, 양호하게는의 범위를 가질 때, 좋은 성능을 보인다.
(4) 스텝 S604 : 클러스터링(Clustering) 과정이다. 모든 입력 벡터에 대하여 분할된 각각의 클러스터와의 유클리드 거리를 측정하여 가장 작은 거리를 가지는 클러스터의 멤버 벡터로 집단화한다. 이를 수식으로 나타낸 것이 아래의 [수학식 10]이다.
(5) 스텝 S605 : 중심값 갱신(Centroid Update) 과정이다. 각 클러스터의 멤버 벡터를 통하여 클러스터의 중심점을 갱신하는 바, 이를 수식으로 나타낸 것이 아래의 [수학식 11]이다.
여기서,는 클러스터에 소속된 멤버의 개수이다.
(6) 스텝 S606 : 첫 번째 종료(Termination 1) 과정이다. 오차의 갱신값이 설정된 임계값 이하이면 아래의 스텝 S607로 진행하고, 그러하지 아니하면 상기 스텝 S604로 복귀한다.
(7) 스텝 S607 : 두 번째 종료(Termination 2) 과정이다. 각각의 클러스터들의 분산이 임계값(공통 코드북의 평균 분산) 이하이면 작업을 종료하고, 그러하지 아니하면, 상기 스텝 S602로 복귀하여 반복 수행한다.
2. 코드북 조합 방식의 벡터 양자화(VQ : Vector Quantization)/히든 마르코프 모델링(HMM : Hidden Markov Modeling) 방법.
도 7은 종래의 이산 HMM을 이용한 화자 인식 시스템의 구조도이다.
도 7에 도시되어 있듯이, 종래의 이산 HMM을 이용한 화자 인식 시스템은 종래의 화자의 개인 특성을 구분하는 척도로 개인 화자 모델을 형성하여 월드 모델과의 확률값을 비교한 후, 문턱치보다 크면 본인으로 인식하고, 작으면 거절하는 방식이다.
기존 방식의 경우, 벡터 양자화 코드북은 사전에 화자를 제외한 사람들의 음성 데이터를 가지고 생성한다. 이러한 방식에 있어서는 개인의 특성이 벡터 양자화 코드북에는 잘 반영되지 아니하고, 오직 개인 화자 HMM에만 반영된다.
본 발명에서는 기존 방식과 비교하여 유사한 코드북 크기를 가지면서도 각 개인의 음성 특성을 보다 잘 반영하기 위하여 사전에 화자를 제외한 음성 데이터를 이용하여 임의의 차수(96차 정도면 양호한 결과를 보임.)의 공통 코드북을 형성하고, 학습시의 개인 음성 데이터를 이용하여 공통 코드북의 평균 분산값보다 작은 분산값을 가지는 임의의 개수의 개인 코드북을 형성하는 방법을 제안한다.
이러한 방법의 경우에는 인증을 요구하는 화자의 특징 파라미터가 코드북의 일정 영역에 집중적으로 반영되므로 인하여 화자 본인과 사칭자의 특징 차이를 극대화함으로써, 보다 안정적인 화자 인식 성공률을 갖는다.
도 8은 본 발명의 일 실시예에 따른 화자 인식 시스템을 종래의 화자 인식 시스템과 비교하여 도시한 개념도로서, 이를 등록 과정과 확인 과정으로 나누어 설명하면 다음과 같다.
먼저, 등록 과정은 다음과 같은 절차를 따른다.
(1) 스텝 S1 : 기존에 잘 알려진 방법에 따라 공통 VQ 코드북을 생성한다.
(2) 스텝 S2 : 불특정 다수 화자의 음성 특징 파라미터를 공통 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로써 HMM 확률 모델에 따른 월드 모델을 생성한다.
(3) 스텝 S3 : 상술한 가변 길이 개인 코드북 생성 방법을 사용하여 최적의 임의의 개수의 개인 코드북을 생성한다.(개인 VQ 코드북 생성)
(4) 스텝 S4 : 개인 화자의 음성 특징 파라미터를 개인 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열(시퀀스열)로써 HMM 확률 모델에 따른 화자 모델을 생성한다.(화자 모델 생성)
(5) 스텝 S5 : 공통 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로써 월드 모델과의 비터비 연산을 통하여 확률값을 구하고, 마찬가지로 개인 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로써 개인 화자 모델과의 비터비 연산을 통하여 확률값을 구한 후, 이들의 비값을 구한다.
(6) 스텝 S6 : 상기 비값으로써, 개인 사전 문턱치를 설정한다.
확인 과정은 다음과 같다.
(1) 스텝 S1 : 화자 특징 파라미터를 임의의 차수(예로서 96차)의 공통 코드북과 임의의 차수(예로서 97 ~ 150차)의 개인 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로서 개인 화자 모델과의 비터비 연산을 통하여 확률값을 구한다.
(2) 스텝 S2 : 화자 특징 파라미터를 임의의 차수의 공통 코드북과 임의의차수의 개인 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로써 월드 모델과의 비터비 연산을 통하여 확률값을 구한다.
(3) 스텝 S3 : 상기 스텝 S1과 스텝 S2에서 구한 확률값의 비율과 개인 문턱치를 비교하여 승인/거부를 결정한다.
한편, 학습시 적은 발성 횟수의 음성을 이용하여 화자 코드북이 생성되므로, 그 화자의 전반적인 특징을 반영하기가 어렵기 때문에 화자 자신의 발성 패턴이 시간적으로 변화하는 경우에는 이를 지속적으로 반영할 수 없는 경우가 발생할 수 있다. 즉, 일정 시간이 경과한 후, 화자의 또 다른 발성 음성을 거부하게 되는 오거부 현상이 점점 증가하게 된다.
본 발명에서는 초기 제한된 발성 음성 환경에서도 지속적으로 화자의 변이를 추적할 수 있도록 하기 위하여 화자 적응 알고리즘을 적용하고 있으며, 화자 모델의 적응 및 갱신뿐만 아니라 개인 코드북의 갱신을 제안한다.
먼저, 개인 코드북을 갱신하는 방법은 다음과 같다.
(1) 스텝 1 : 승인된 특징 파라미터를 개인 코드북 중 가장 가까운 거리를 가지는 인덱스를 구한다.
(2) 스텝 2 : 가장 가까운 거리를 가지는 인덱스의 코드북과 특징 파라미터의 거리가 공통 코드북의 분산값보다 임의의 임계값보다 크면, 새로운 클러스터를 하나 생성한 후, 이를 이용하여 개인 코드북을 갱신한다. 만일, 상기 임의의 임계값보다 작으면, 코드북의 평균값을 아래의 [수학식 12]에 의하여 갱신한다. 이때,보다 양호한 결과를 얻기 위해서는 실험적으로 상기 임계값은 상기 개인 코드북의 분산값의 2배 정도가 적정하다.
여기서,는 인덱스 k의 코드북 센터값이고,는 i 번째 특징 파라미터 값이며, w는 가중치이다.
또한, 개인 모델을 갱신하는 방법은 다음과 같다.
(1) 스텝 1 : 기존 코드북(코드북이 갱신되기 이전)에 대한 입력 특징 파라미터의 벡터 양자화로 생성된 관측열(시퀀스)로 화자 모델을 갱신한다.
(2) 스텝 2 : 갱신된 새로운 코드북에 대한 입력 특징 파라미터의 벡터 양자화를 수행하여 생성된 관측열로 새로운 화자 모델을 생성한다.
(3) 스텝 3 : 기존의 화자 모델과 상기 생성된 새로운 화자 모델을 아래의 [수학식 13]과 같이 가중치를 부여하여 화자 모델을 갱신한다.
여기서, a, b, c는 기설정된 가중치이고,은 기존의 화자 모델이며,는 상기 스텝 1에서 얻은 화자 모델이고,은 상기 스텝 2에서 얻은 화자 모델이다.
아래의 [표 1]은 본 발명에서 제안하는 가변 길이 개인 코드북 생성 방법과 코드북 조합 방식의 VQ/HMM 방법, 개인 코드북 및 화자 모델 갱신 방법에 대한 성능을 보여주는 도표이다. 본 실험에서는 기존의 K-Means 알고리즘, LBG 알고리즘을 적용한 경우와 본 발명에서 제시하는 방법을 적용한 경우에 대하여 비교 분석하였다.
[표 1]
상기 [표 1]에 도시되어 있듯이, K-Means 알고리즘을 적용한 경우에는 본인 인증에 대한 평균 인식율이 92.6 % 이고, 사칭자에 대한 거부율이 99.5 %를 나타냈으며, LBG 알고리즘을 적용한 경우에는 본인 인증에 대한 평균 인식율이 90.9 % 이고, 사칭자에 대한 거부율이 99.6 %를 보였다.
그러나, 본 발명에 따르면, 본인 인증율이 평균 96.21 %, 사칭자 거부율이 99.7 %로 대폭 향상되었음을 알 수 있다.
위에서 양호한 실시예에 근거하여 이 발명을 설명하였지만, 이러한 실시예는 이 발명을 제한하려는 것이 아니라 예시하려는 것이다. 이 발명이 속하는 분야의숙련자에게는 이 발명의 기술 사상을 벗어남이 없이 위 실시예에 대한 다양한 변화나 변경 또는 조절이 가능함이 자명할 것이다. 그러므로, 이 발명의 보호 범위는 첨부된 청구 범위에 의해서 한정될 것이며, 위와 같은 변화예나 변경예 또는 조절예를 모두 포함하는 것으로 해석되어야 할 것이다.
이상과 같이 본 발명에 의하면, 학습시의 개인 화자에 대한 개인 코드북을 생성하고, 미리 준비된 공통 화자들의 발성 음성들을 이용하여 일반적인 화자들의 공통 코드북을 형성하는 방법을 제시함으로써, 화자들간의 개인성을 강조하여 화자 확인시의 인식율을 향상시키는 효과가 있다.
또한, 코드북 조합 방식의 VQ/HMM 방법을 제공함으로써, 기존 방식과 비교하여 유사한 코드북의 크기를 가지면서도 각 개인의 음성 특성을 보다 잘 반영하여 화자 본인과 사칭자의 특징 차이를 극대화하여 안정적인 화자 인식 성능을 가지도록 하는 효과가 있다.

Claims (30)

  1. 화자 인식 시스템에 적용되는 개인 코드북 생성 장치에 있어서,
    입력되는 모든 샘플링된 음성 벡터에 대하여 하나의 중심값을 설정하는 중심값 설정 수단;
    모든 클러스터 중 최대 분산을 가지는 클러스터를 검출하는 검출 수단;
    상기 최대 분산을 가지는 클러스터의 중심값을 상기 분산을 고려하여 이동시켜 둘로 분할하는 분할 수단;
    상기 모든 입력 벡터에 대하여 분할된 각각의 클러스터와의 유클리드 거리를 측정하여 가장 작은 거리를 가지는 클러스터의 멤버 벡터로 집단화하는 집단화 수단; 및
    상기 각 클러스터의 멤버 벡터를 통하여 클러스터의 중심점을 갱신함으로써, 개인 코드북을 생성하는 중심점 갱신 수단;을 포함하는 것을 특징으로 하는 화자 인식 시스템에 적용되는 개인 코드북 생성 장치.
  2. 제 1 항에 있어서,
    상기 중심값 설정 수단은,
    아래의 [식 1]에 의하여 중심값을 결정하는 것을 특징으로 하는 화자 인식 시스템에 적용되는 개인 코드북 생성 장치.
    [식 1]
    여기서,는 입력 벡터이고,는 모든 입력 벡터의 개수이다.
  3. 제 1 항에 있어서,
    상기 검출 수단은,
    최대 분산을 가지는 클러스터를 아래의 [식 2]에 의하여 결정하는 것을 특징으로 하는 화자 인식 시스템에 적용되는 개인 코드북 생성 장치.
    [식 2]
    여기서,는 k 번째 클러스터의 분산이고, k는 1부터 K 까지의 정수이다.
  4. 제 1 항에 있어서,
    상기 분할 수단은,
    분할 방향이 아래의 [식 3]와 같이 분산을 고려하여 분할하고자 하는 클러스터의 멤버를 양분하는 것을 특징으로 하는 화자 인식 시스템에 적용되는 개인 코드북 생성 장치.
    [식 3]
    여기서,은 상수이다.
  5. 제 1 항에 있어서,
    상기 집단화 수단은,
    아래의 [식 4]에 의하여 집단화를 수행하는 것을 특징으로 하는 화자 인식 시스템에 적용되는 개인 코드북 생성 장치.
    [식 4]
  6. 제 1 항에 있어서,
    상기 중심점 갱신 수단은,
    아래의 [식 5]에 의하여 중심점을 결정하는 것을 특징으로 하는 화자 인식 시스템에 적용되는 개인 코드북 생성 장치.
    [식 5]
    여기서,에 소속된 멤버의 개수이다.
  7. 제 1 항에 있어서,
    오차의 갱신값이 임계값 이하이고, 각 클러스터들의 분산이 공통 코드북의 평균 분산 이하이면, 작업을 종료하는 종료 수단;을 더 포함하는 것을 특징으로 하는 화자 인식 시스템에 적용되는 개인 코드북 생성 장치.
  8. 화자 인식 시스템에 적용되는 개인 코드북 생성 방법에 있어서,
    입력되는 모든 샘플링된 음성 벡터에 대하여 하나의 중심값을 설정하는 제 1 단계;
    모든 클러스터 중 최대 분산을 가지는 클러스터를 검출하는 제 2 단계;
    상기 최대 분산을 가지는 클러스터의 중심값을 상기 분산을 고려하여 이동시켜 둘로 분할하는 제 3 단계;
    상기 모든 입력 벡터에 대하여 분할된 각각의 클러스터와의 유클리드 거리를 측정하여 가장 작은 거리를 가지는 클러스터의 멤버 벡터로 집단화하는 제 4 단계; 및
    상기 각 클러스터의 멤버 벡터를 통하여 클러스터의 중심점을 갱신함으로써, 개인 코드북을 생성하는 제 5 단계;를 포함하는 것을 특징으로 하는 화자 인식 시스템에 적용되는 개인 코드북 생성 방법.
  9. 제 8 항에 있어서,
    상기 제 1 단계는,
    아래의 [식 6]에 의하여 중심값을 결정하는 것을 특징으로 하는 화자 인식 시스템에 적용되는 개인 코드북 생성 방법.
    [식 6]
    여기서,는 입력 벡터이고,는 모든 입력 벡터의 개수이다.
  10. 제 8 항에 있어서,
    상기 제 2 단계는,
    최대 분산을 가지는 클러스터를 아래의 [식 7]에 의하여 결정하는 것을 특징으로 하는 화자 인식 시스템에 적용되는 개인 코드북 생성 방법.
    [식 7]
    여기서,는 k 번째 클러스터의 분산이고, k는 1부터 K 까지의 정수이다.
  11. 제 8 항에 있어서,
    상기 제 3 단계는,
    분할 방향이 아래의 [식 8]과 같이 분산을 고려하여 분할하고자 하는 클러스터의 멤버를 양분하는 것을 특징으로 하는 화자 인식 시스템에 적용되는 개인 코드북 생성 방법.
    [식 8]
    여기서,은 상수이다.
  12. 제 8 항에 있어서,
    상기 제 4 단계는,
    아래의 [식 9]에 의하여 집단화를 수행하는 것을 특징으로 하는 화자 인식 시스템에 적용되는 개인 코드북 생성 방법.
    [식 9]
  13. 제 8 항에 있어서,
    상기 제 5 단계는,
    아래의 [식 10]에 의하여 중심점을 결정하는 것을 특징으로 하는 화자 인식 시스템에 적용되는 개인 코드북 생성 방법.
    [식 10]
    여기서,에 소속된 멤버의 개수이다.
  14. 제 8 항에 있어서,
    오차의 갱신값이 임계값 이하이고, 각 클러스터들의 분산이 공통 코드북의 평균 분산 이하이면, 작업을 종료하는 제 6 단계;를 더 포함하는 것을 특징으로 하는 화자 인식 시스템에 적용되는 개인 코드북 생성 방법.
  15. 공통 VQ(Vector Quantization) 코드북을 입력받아 음성 특징 파라미터를 상기 공통 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로써 HMM(Hidden Markov Model) 확률 모델에 따른 월드 모델을 생성하는 월드 모델 생성 수단;
    공통 코드북의 분산값과 비교하여 최적의 임의의 개수의 개인 코드북을 생성하는 개인 코드북 생성 수단;
    개인 화자의 음성 특징 파라미터를 상기 개인 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열(시퀀스열)로써 HMM 확률 모델에 따른 화자 모델을 생성하는 화자 모델 생성 수단; 및
    상기 공통 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로써 월드 모델과의 비터비 연산을 통하여 확률값을 구하고, 상기 개인 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로써 개인 화자 모델과의 비터비 연산을 통하여 확률값을 구한 후, 이들의 비값을 개인 사전 문턱치로 설정하는 개인 사전 문턱치 설정 수단;을 포함하는 것을 특징으로 하는 코드북 조합 방식의 VQ/HMM 기법을 이용한 화자 인식 장치.
  16. 제 15 항에 있어서,
    입력되는 샘플링된 화자의 음성 데이터의 화자 특징 파라미터를 상기 공통 코드북과 개인 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로서 개인 화자 모델과의 비터비 연산을 통하여 확률값을 구하는 개인 화자 모델 확률 계산 수단;
    상기 화자 특징 파라미터를 상기 공통 코드북과 임의의 차수의 개인 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로써 월드 모델과의 비터비 연산을 통하여 확률값을 구하는 월드 모델 확률 계산 수단; 및
    상기 개인 화자 모델과 월드 모델 확률값의 비율과 상기 개인 사전 문턱치 설정 수단에 의하여 설정된 개인 문턱치를 비교하여 화자의 승인/거부를 결정하는 승인/거부 결정 수단;을 더 포함하는 것을 특징으로 하는 코드북 조합 방식의 VQ/HMM 기법을 이용한 화자 인식 장치.
  17. 제 15 항에 있어서,
    승인된 특징 파라미터를 상기 개인 코드북 중 가장 가까운 거리를 가지는 인덱스를 구한 후, 상기 인덱스의 코드북과 특징 파라미터의 거리가 상기 인덱스의 코드북의 분산값보다 임계값만큼 크면, 새로운 클러스터를 생성하여 편입시키고,임계값보다 작으면 상기 개인 코드북의 평균값을 상기 특징 파라미터를 이용하여 갱신하는 것을 특징으로 하는 개인 코드북 갱신 수단;을 더 포함하는 것을 특징으로 하는 코드북 조합 방식의 VQ/HMM 기법을 이용한 화자 인식 장치.
  18. 제 17 항에 있어서,
    상기 개인 코드북의 평균값의 갱신은 아래의 [식 1]에 의하여 결정되는 것을 특징으로 하는 코드북 조합 방식의 VQ/HMM 기법을 이용한 화자 인식 장치.
    [식 1]
    여기서,는 인덱스 k의 코드북 센터값이고,는 i 번째 특징 파라미터 값이며, w는 가중치이다.
  19. 제 15 항에 있어서,
    상기 개인 코드북에 대한 입력 특징 파라미터의 벡터 양자화로 생성된 관측열(시퀀스)로 화자 모델을 갱신한 후, 상기 갱신된 새로운 코드북에 대한 입력 특징 파라미터의 벡터 양자화를 수행하여 생성된 관측열로 새로운 화자 모델을 생성하고, 이를 이용하여 화자 모델을 갱신하는 화자 모델 갱신 수단;을 더 포함하는것을 특징으로 하는 코드북 조합 방식의 VQ/HMM 기법을 이용한 화자 인식 장치.
  20. 제 19 항에 있어서,
    상기 화자 모델의 갱신은 아래의 [식 2]에 의하여 결정하는 것을 특징으로 하는 코드북 조합 방식의 VQ/HMM 기법을 이용한 화자 인식 장치.
    [식 2]
    여기서, a, b, c는 기설정된 가중치이고,은 기존의 화자 모델이다.
  21. 제 15 항에 있어서,
    상기 개인 코드북 생성 수단은,
    입력되는 모든 샘플링된 음성 벡터에 대하여 하나의 중심값을 설정하는 중심값 설정부;
    모든 클러스터 중 최대 분산을 가지는 클러스터를 검출하는 검출부;
    상기 최대 분산을 가지는 클러스터의 중심값을 상기 분산을 고려하여 이동시켜 둘로 분할하는 분할부;
    상기 모든 입력 벡터에 대하여 분할된 각각의 클러스터와의 유클리드 거리를측정하여 가장 작은 거리를 가지는 클러스터의 멤버 벡터로 집단화하는 집단화부; 및
    상기 각 클러스터의 멤버 벡터를 통하여 클러스터의 중심점을 갱신함으로써, 개인 코드북을 생성하는 중심점 갱신부;를 포함하는 것을 특징으로 하는 코드북 조합 방식의 VQ/HMM 기법을 이용한 화자 인식 장치.
  22. 공통 VQ(Vector Quantization) 코드북을 입력받아 음성 특징 파라미터를 상기 공통 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로써 HMM(Hidden Markov Model) 확률 모델에 따른 월드 모델을 생성하는 제 1 단계;
    공통 코드북의 분산값과 비교하여 최적의 임의의 개수의 개인 코드북을 생성하는 제 2 단계;
    개인 화자의 음성 특징 파라미터를 상기 개인 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열(시퀀스열)로써 HMM 확률 모델에 따른 화자 모델을 생성하는 제 3 단계; 및
    상기 공통 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로써 월드 모델과의 비터비 연산을 통하여 확률값을 구하고, 상기 개인 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로써 개인 화자 모델과의 비터비 연산을 통하여 확률값을 구한 후, 이들의 비값을 개인 사전 문턱치로 설정하는 제 4 단계;를 포함하는 것을 특징으로 하는 코드북 조합 방식의 VQ/HMM 기법을 이용한 화자 인식 방법.
  23. 제 22 항에 있어서,
    입력되는 샘플링된 화자의 음성 데이터의 화자 특징 파라미터를 상기 공통 코드북과 개인 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로서 개인 화자 모델과의 비터비 연산을 통하여 확률값을 구하는 제 5 단계;
    상기 화자 특징 파라미터를 상기 공통 코드북과 임의의 차수의 개인 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로써 월드 모델과의 비터비 연산을 통하여 확률값을 구하는 제 6 단계; 및
    상기 개인 화자 모델과 월드 모델 확률값의 비율과 상기 개인 사전 문턱치 설정 수단에 의하여 설정된 개인 문턱치를 비교하여 화자의 승인/거부를 결정하는 제 7 단계;를 더 포함하는 것을 특징으로 하는 코드북 조합 방식의 VQ/HMM 기법을 이용한 화자 인식 방법.
  24. 제 22 항에 있어서,
    승인된 특징 파라미터를 상기 개인 코드북 중 가장 가까운 거리를 가지는 인덱스를 구한 후, 상기 인덱스의 코드북과 특징 파라미터의 거리가 상기 인덱스의 코드북의 분산값보다 크면, 새로운 클러스터를 생성하여 편입시키고, 임계값보다 작으면 상기 개인 코드북의 평균값을 상기 특징 파리미터를 이용하여 갱신하는 것을 특징으로 하는 제 8 단계;를 더 포함하는 것을 특징으로 하는 코드북 조합 방식의 VQ/HMM 기법을 이용한 화자 인식 방법.
  25. 제 24 항에 있어서,
    상기 개인 코드북의 평균값의 갱신은 아래의 [식 3]에 의하여 결정되는 것을 특징으로 하는 코드북 조합 방식의 VQ/HMM 기법을 이용한 화자 인식 방법.
    [식 3]
    여기서,는 인덱스 k의 코드북 센터값이고,는 i 번째 특징 파라미터 값이며, w는 가중치이다.
  26. 제 22 항에 있어서,
    상기 개인 코드북에 대한 입력 특징 파라미터의 벡터 양자화로 생성된 관측열(시퀀스)로 화자 모델을 갱신한 후, 상기 갱신된 새로운 코드북에 대한 입력 특징 파라미터의 벡터 양자화를 수행하여 생성된 관측열로 새로운 화자 모델을 생성하고, 이를 이용하여 화자 모델을 갱신하는 제 9 단계;를 더 포함하는 것을 특징으로 하는 코드북 조합 방식의 VQ/HMM 기법을 이용한 화자 인식 방법.
  27. 제 26 항에 있어서,
    상기 화자 모델의 갱신은 아래의 [식 4]에 의하여 결정하는 것을 특징으로 하는 코드북 조합 방식의 VQ/HMM 기법을 이용한 화자 인식 방법.
    [식 4]
    여기서, a, b, c는 기설정된 가중치이고,은 기존의 화자 모델이다.
  28. 제 22 항에 있어서,
    상기 제 2 단계는,
    입력되는 모든 샘플링된 음성 벡터에 대하여 하나의 중심값을 설정하는 제 1 서브 단계;
    모든 클러스터 중 최대 분산을 가지는 클러스터를 검출하는 제 2 서브 단계;
    상기 최대 분산을 가지는 클러스터의 중심값을 상기 분산을 고려하여 이동시켜 둘로 분할하는 제 3 서브 단계;
    상기 모든 입력 벡터에 대하여 분할된 각각의 클러스터와의 유클리드 거리를 측정하여 가장 작은 거리를 가지는 클러스터의 멤버 벡터로 집단화하는 제 4 서브단계; 및
    상기 각 클러스터의 멤버 벡터를 통하여 클러스터의 중심점을 갱신함으로써, 개인 코드북을 생성하는 제 5 서브 단계;를 포함하는 것을 특징으로 하는 코드북 조합 방식의 VQ/HMM 기법을 이용한 화자 인식 방법.
  29. 화자 인식 시스템에 적용되는 개인 코드북 생성 프로그램을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록 매체에 있어서,
    입력되는 모든 샘플링된 음성 벡터에 대하여 하나의 중심값을 설정하는 제 1 단계;
    모든 클러스터 중 최대 분산을 가지는 클러스터를 검출하는 제 2 단계;
    상기 최대 분산을 가지는 클러스터의 중심값을 상기 분산을 고려하여 이동시켜 둘로 분할하는 제 3 단계;
    상기 모든 입력 벡터에 대하여 분할된 각각의 클러스터와의 유클리드 거리를 측정하여 가장 작은 거리를 가지는 클러스터의 멤버 벡터로 집단화하는 제 4 단계; 및
    상기 각 클러스터의 멤버 벡터를 통하여 클러스터의 중심점을 갱신함으로써, 개인 코드북을 생성하는 제 5 단계;를 포함하는 화자 인식 시스템에 적용되는 개인 코드북 생성 프로그램을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록 매체.
  30. 공통 VQ(Vector Quantization) 코드북을 입력받아 음성 특징 파라미터를 상기 공통 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로써 HMM(Hidden Markov Model) 확률 모델에 따른 월드 모델을 생성하는 제 1 단계;
    공통 코드북의 분산값과 비교하여 최적의 임의의 개수의 개인 코드북을 생성하는 제 2 단계;
    개인 화자의 음성 특징 파라미터를 상기 개인 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열(시퀀스열)로써 HMM 확률 모델에 따른 화자 모델을 생성하는 제 3 단계; 및
    상기 공통 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로써 월드 모델과의 비터비 연산을 통하여 확률값을 구하고, 상기 개인 코드북에 벡터 양자화 과정을 수행하여 생성한 관측열로써 개인 화자 모델과의 비터비 연산을 통하여 확률값을 구한 후, 이들의 비값을 개인 사전 문턱치로 설정하는 제 4 단계;를 포함하는 코드북 조합 방식의 VQ/HMM 기법을 이용한 화자 인식 프로그램을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록 매체.
KR10-2002-0014491A 2002-03-18 2002-03-18 화자간 변별력 향상을 위한 가변 길이 코드북 생성 장치및 그 방법, 그를 이용한 코드북 조합 방식의 화자 인식장치 및 그 방법 KR100435440B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0014491A KR100435440B1 (ko) 2002-03-18 2002-03-18 화자간 변별력 향상을 위한 가변 길이 코드북 생성 장치및 그 방법, 그를 이용한 코드북 조합 방식의 화자 인식장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0014491A KR100435440B1 (ko) 2002-03-18 2002-03-18 화자간 변별력 향상을 위한 가변 길이 코드북 생성 장치및 그 방법, 그를 이용한 코드북 조합 방식의 화자 인식장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20030075329A KR20030075329A (ko) 2003-09-26
KR100435440B1 true KR100435440B1 (ko) 2004-06-10

Family

ID=32291626

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0014491A KR100435440B1 (ko) 2002-03-18 2002-03-18 화자간 변별력 향상을 위한 가변 길이 코드북 생성 장치및 그 방법, 그를 이용한 코드북 조합 방식의 화자 인식장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100435440B1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100933705B1 (ko) * 2007-08-17 2009-12-24 삼성중공업 주식회사 계측 시스템의 데이터 필터링 방법
KR101616886B1 (ko) * 2014-09-05 2016-04-29 (주)에스티씨 단일 센서의 다중 이벤트 식별 방법 및 장치
KR102607373B1 (ko) * 2016-11-23 2023-12-05 한국전자통신연구원 음성감성 인식 장치 및 방법
KR102621897B1 (ko) * 2018-10-10 2024-01-08 주식회사 케이티 화자 인식 장치 및 그 동작방법
KR102546327B1 (ko) * 2020-12-31 2023-06-20 주식회사 포스코디엑스 클러스터링 기법을 이용하여 얼굴이미지를 비교하는 에지 디바이스 및 이를 포함한 얼굴인증 시스템

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0720889A (ja) * 1993-06-30 1995-01-24 Omron Corp 不特定話者の音声認識装置および方法
US5598507A (en) * 1994-04-12 1997-01-28 Xerox Corporation Method of speaker clustering for unknown speakers in conversational audio data
JPH0981178A (ja) * 1995-09-19 1997-03-28 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 不特定話者モデル作成装置及び音声認識装置
JPH09258769A (ja) * 1996-03-18 1997-10-03 Seiko Epson Corp 話者適応化方法および話者適応化装置
JPH11175090A (ja) * 1997-12-10 1999-07-02 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 話者クラスタリング処理装置及び音声認識装置
KR20010089769A (ko) * 1999-01-04 2001-10-08 러셀 비. 밀러 음성 신호를 구분 및 인식하기 위한 시스템 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0720889A (ja) * 1993-06-30 1995-01-24 Omron Corp 不特定話者の音声認識装置および方法
US5598507A (en) * 1994-04-12 1997-01-28 Xerox Corporation Method of speaker clustering for unknown speakers in conversational audio data
JPH0981178A (ja) * 1995-09-19 1997-03-28 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 不特定話者モデル作成装置及び音声認識装置
JPH09258769A (ja) * 1996-03-18 1997-10-03 Seiko Epson Corp 話者適応化方法および話者適応化装置
JPH11175090A (ja) * 1997-12-10 1999-07-02 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 話者クラスタリング処理装置及び音声認識装置
KR20010089769A (ko) * 1999-01-04 2001-10-08 러셀 비. 밀러 음성 신호를 구분 및 인식하기 위한 시스템 및 방법

Also Published As

Publication number Publication date
KR20030075329A (ko) 2003-09-26

Similar Documents

Publication Publication Date Title
JP6350148B2 (ja) 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
KR100612840B1 (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
US5893058A (en) Speech recognition method and apparatus for recognizing phonemes using a plurality of speech analyzing and recognizing methods for each kind of phoneme
US5684925A (en) Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US6490555B1 (en) Discriminatively trained mixture models in continuous speech recognition
CA2060591C (en) Speaker-independent label coding apparatus
EP0617827B1 (en) Composite expert
US5794190A (en) Speech pattern recognition using pattern recognizers and classifiers
EP1417677A1 (en) Voice registration method and system, and voice recognition method and system based on voice registration method and system
US5825977A (en) Word hypothesizer based on reliably detected phoneme similarity regions
Kumar et al. Comparative analysis of different feature extraction and classifier techniques for speaker identification systems: A review
KR100435440B1 (ko) 화자간 변별력 향상을 위한 가변 길이 코드북 생성 장치및 그 방법, 그를 이용한 코드북 조합 방식의 화자 인식장치 및 그 방법
KR20080026951A (ko) 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법
Benkhellat et al. Genetic algorithms in speech recognition systems
WO2022056898A1 (en) A deep neural network training method and apparatus for speaker verification
Dustor et al. Speaker recognition system with good generalization properties
Dustor et al. Influence of corpus size on speaker verification
KR20200114705A (ko) 음성 신호 기반의 사용자 적응형 스트레스 인식 방법
Zhou et al. Speaker identification based on adaptive discriminative vector quantisation
Grósz et al. A Comparative Evaluation of GMM-Free State Tying Methods for ASR.
Sharma et al. Text-independent speaker identification using backpropagation MLP network classifier for a closed set of speakers
Bennani Adaptive weighting of pattern features during learning
Memon et al. Speaker verification based on information theoretic vector quantization
JP2000122693A (ja) 話者認識方法および話者認識装置
WO2005038774A1 (en) Adaptive sound and image learning system and method

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130531

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20140530

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20150430

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20160524

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20170920

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20180731

Year of fee payment: 15

FPAY Annual fee payment

Payment date: 20190603

Year of fee payment: 16