KR100436305B1 - 웨이블렛변환을 이용한 외부노이즈에 강인한 화자식별 - Google Patents

웨이블렛변환을 이용한 외부노이즈에 강인한 화자식별 Download PDF

Info

Publication number
KR100436305B1
KR100436305B1 KR10-2002-0015517A KR20020015517A KR100436305B1 KR 100436305 B1 KR100436305 B1 KR 100436305B1 KR 20020015517 A KR20020015517 A KR 20020015517A KR 100436305 B1 KR100436305 B1 KR 100436305B1
Authority
KR
South Korea
Prior art keywords
speaker
noise
speaker recognition
recognition
codebook
Prior art date
Application number
KR10-2002-0015517A
Other languages
English (en)
Other versions
KR20020028186A (ko
Inventor
전명근
Original Assignee
전명근
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전명근 filed Critical 전명근
Priority to KR10-2002-0015517A priority Critical patent/KR100436305B1/ko
Publication of KR20020028186A publication Critical patent/KR20020028186A/ko
Application granted granted Critical
Publication of KR100436305B1 publication Critical patent/KR100436305B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Image Analysis (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

정보보호를 위한 여러 생체인식 기법 중에서 사용자와의 인터페이스가 가장 용이한 화자인식방법을 개시한다. 본 발명에서는 기존의 화자인식 방법이 외부의 잡음에 영향을 많이 받는다는데 착안하여 웨이블렛 변환을 이용하여 4개의 서브밴드로 원래의 신호를 분리한 후 이들 중 성능이 우수한 3개의 주파수 대역에 대해 독립적인 코드북을 구축한 후 최종적으로 하나의 의사 결정값을 갖도록 하는 화자 인식 알고리듬을 제공한다.

Description

웨이블렛변환을 이용한 외부노이즈에 강인한 화자식별{A Robust Speaker Recognition Algorithm Using the Wavelet Transform}
오늘날 우리는 급속도로 발전하는 정보사회에 살고 있다. 이러한 정보사회은 정보의 생성, 저장, 처리, 운반, 검색기능이 상호 연결된 통신망 환경하에서 다양한 형태의 정보서비스가 이루어지는 사회이다. 한편 이러한 정보화 사회가 주는 편리함과 유익성에 비례하여 매우 위험하고 파괴적인 역기능이 뒤따르고 있다. 특히, 인가받지 않은 불법 사용자로 인한 정보시스템의 파괴, 개인신상 비밀의 누설 및 유출, 불건전 정보의 유통 등과 같은 정보화의 역기능으로 인해 고통받고 있다. 이는 향후에 정보통신 시스템과 네트워크가 더 개방되고, 용량과 성능 그리고 연결성이 강화되는 추세에 비추어, 그 취약성도 비례하여 증대될 것으로 예견되고 있다.
시스템 보완을 위한 방법 중 패스워드에 의한 개인확인과 인증은 가장 많은 운영체제에서 지원되고 있는 구현이 용이하고 별도의 특수장치가 필요 없는 시스템 보완의 방법이다. 그러나, 개인이 아무리 자신의 패스워드 관리를 잘 한다 하여도 그것이 타인에게 누설될 수 도 있으므로 이러한 패스워드에 의한 시스템 보완을 대체할 수 있는 새로운 개인확인 및 인증방법이 시급히 요구되고 있는 실정이다.
이러한 기존의 단순한 형태의 개인확인 및 검증방법의 한계를 극복하여, 절도나 누출에 의하여 도용될 수 없으며 변경되거나 분실할 위험성이 없도록 개개인이 가지는 생태학적 특징으로 개인을 인식하고자 하는 것이 바로 생체인식이다. 이러한 생체인식 기술에서 대상으로 하고 있는 인간의 생체학적 특성은 크게 지문이나 얼굴, 음성인식 등이 사용되고 있다.
생체인식 기술에서 사용하고 있는 대상들 중 지문은 땀샘이 융기되어 일정한 흐름을 형성한 것으로, 그 모양이 개인마다 서로 다를 뿐만 아니라 태어날 때의 모습 그대로 평생동안 변하지 않음이 증명되어 다양한 분야에 사용되어져 왔다. 그러나, 지문에는 기준 좌표축이 존재하지 않으므로 임의로 회전되어 채취된 지문에 대한 처리가 어려우며, 또한 지문은 신체의 일부로서 유연성을 가지고 있어 채취할 때마다 그 모양이 달라 보이며, 지문은 손상될 수 있어 고성능의 개인 인증시스템에는 그 문제점이 지적되고 있다.
한편, 얼굴영상인식의 문제에서는 많은 응용분야와 다양한 연구에도 불구하고 만족할 만한 신뢰도를 보장받지 못하고 있다. 왜냐하면 정지영상의 경우는 영상으로부터의 얼굴분리가 어렵고, 동영상을 이용한 경우는 시간정보를 이용하기 때문에 얼굴의 분리는 가능하여 정지영상을 이용한 경우의 문제가 없으나, 영상의 질이 몹시 저하된다는 문제가 따른다. 또한 노화에 따른 얼굴의 변형이나 머리카락의 길이, 표정의 변화, 주위 조명에 많은 영향 등으로 인한 특징 추출의 문제들로 인해 아직까지 개선할 사항이 많은 상황이다. 위와 같은 기존의 생체인식 대상들의 단점 때문에 음성을 이용한 개인인식 및 인증에 대한 연구가 진행되어 왔었다. 그러나 이 경우 소음이나 주변환경의 잡음으로 인하여 화자인식 시스템의 심각한 성능저하가 발생하게 된다. 따라서 본 발명에서는 이러한 문제점을 극복하기 위하여 웨이블렛변환을 이용하여 외부잡음에 강인한 화자인식 알고리즘을 제공하고자 한다.
화자의 음성신호에 포함된 잡음을 제거하는 방법인 스펙트럼 평균 차감법(Cepstal Mean Subtraction), 잡음을 선형변환의 형태로 추정하는 켑스트럼 선형 변환법(Affine Transform of Cepstrum) 등이 있다. 이러한 방법들은 화자인식기와 독립적인 처리가 가능하고 비교적 계산량이 적다는 장점이 있으나, 시간에 따라 다양하게 변화하는 잡음을 적절히 처리할 수 없다는 단점이 있다. 특히, 잡음처리를 위해 가장 대표적으로 사용되는 스펙트럼 차감법인 경우 음성이 존재하지 않는 구간에서 추정한 잡음을 잡음환경에서 차감하여 잡음을 제거하므로, 추정한 잡음의 형태가 화자인식기에 입력되는 잡음 음성에 포함된 잡음과 상이한 특성을 나타낼 경우에는 효과적인 잡음제거가 불가능하다는 문제점을 지니고 있다. 그 외에, 위너 필터와 칼만 필터를 이용한 음질 향상의 연구도 진행되고 있지만, 이 방법 또한 잡음의 형태가 천천히 변하는 통계적 특성을 갖는 비정상(nonstationary)인 경우 음질 향상면에서 좋은 결과를 얻을 수 없다.
기존에 제안되었던 잡음에 강한 화자인식 알고리즘들의 문제점을 피하기 위하여 본 발명에서는 뛰어난 주파수 분해능력을 갖고 있기 때문에 현재 다양한 분야에 적용되어 좋은 성능을 보여주고 있는 웨이블렛을 이용하고자 한다. 최근 들어 화자인식 성능향상을 위하여 웨이블렛 기법을 이용한 새로운 특징벡터를 산출하고 이 특징벡터를 신경회로망 기법을 이용하여 학습시키는 방법에 관한 연구가 많이 진행되고 있지만, 이러한 방법들은 학습데이터의 크기에 따라 인식률 변동이 크게 나타나기 때문에 대용량 화자 인식기를 구축하는데 있어 문제점을 지니고 있다.
따라서, 본 발명에서는 잡음이 첨가된 음성신호를 웨이블렛 서브밴드 필터뱅크를 이용하여 각 주파수 대역별로 신호를 분리한 후 개별적인 대역별로 인식 알고리즘을 수행하기 때문에 어떤 서브밴드에서의 노이즈 영향이 다른 서브밴드에서는 미치지 않으므로 대역제약된 형태로 주어지는 주변잡음이 있는 환경하에서 우수한 성능을 보이도록 하였다.
도 1은 벡타양자화에 의한 화자인식 시스템 설명도
도 2는 웨이블렛 필터뱅크를 이용한 화자인식기의 설명도
도 3은 다중밴드에서의 의사결정 방법
도 4는 본 발명에서 사용한 웨이블렛 변환의 구조
벡터양자화를 이용한 일반적인 화자인식 시스템은 [도 1]에서 보는 바와 같이 음성 검출부, 음성 분석부, 훈련부, 인식부로 구성되어 있다. 화자인식 시스템을 구성하는 각 부분을 간단히 설명하면, 우선 음성 검출부에서 음성의 시작점과 끝점을검출하며, 음성 분석부에서는 각 단어들의 음성에 대한 분석을 거쳐서 최종적으로 각각 선형예측계수와 멜주파수 켑스트럼 등의 계수를 구하는 부분이다. 훈련부에서는 화자인식 알고리즘에 따라 여러 가지 기법이 있으며, 벡터양자화 알고리즘인 경우 음성 분석부에서 얻어진 특징벡터들을 K-means 클러스터링 알고리즘을 이용하여 각각의 음성을 대표하는 코드북을 만드는 과정이다. 인식부에서는 입력된 화자데이터를 훈련과정에서 만들어둔 각 단어에 대한 코드북과 비교하여 벡터 공간상의 거리가 가장 가까운 것을 선택하여 그 코드북에 해당하는 화자를 인식으로 결정하는 부분이다.
위와 다르게 [도 2]에서는 본 발명에서 제안한 웨이블렛 필터뱅크를 이용한 화자인식기의 인식과정을 보여 주고 있다. 여기서 사용한 웨이블렛 필터뱅크의 구조는 주파수 대역을 균등하게 분할하는 방식인 웨이블렛 패킷구조방식이며, 화자인식을 위해 사용된 필터는 [도 3]과 같은 4개의 필터뱅크로 구성되었고 이중 가장 낮은 인식률을 보인 최고 높은 주파수 대역을 제외한 3개의 주파수 대역을 사용하였다. 사용된 마더 웨이블렛(mother wavelet)은 가장 널리 사용되는 Daubechies 함수를 이용하였다.
각각의 필터에서 출력되는 화자의 음성신호는 음성 분석부에서 특징벡터를 계산한 후 기존의 벡터양자화 기법과 동일하게 K-means 알고리듬을 이용하여 독립적인 코드북을 미리 만들어 놓는다. 인식과정에서는 인식하고자 하는 화자의 음성신호가 입력되면 웨이블렛 변환을 하여 주파수별로 음성신호를 분할한 후 음성 분석부에서 각각의 주파수 대역에 대한 특징벡터를 계산한다. 이렇듯 음성 분석부에서 계산된특징벡터는 미리 뱅크별로 만들어 놓은 코드북과의 거리를 계산한 가장 가까운 거리를 갖는 코드북을 기준으로 화자를 분류한다. 여기서 화자에 대한 분류는 각 대역별에서 음성신호를 프레임으로 나누고 각각의 프레임에서 얻어진 특징벡터와 코드북과의 거리계산에 의하여 산출되기 때문에 하나의 음성신호에 대하여 다수의 화자로 분류가 된다. 예를 들어 '영'이라는 음성신호가 200개의 프레임으로 구성되어 있다면 이중 150프레임은 화자 1로, 30개의 프레임은 화자 2로, 또다른 20개는 화자 3으로 분류 될수 있다. 따라서 각 화자에 대한 소속도를 정규화 하기 위하여 각 화자로 분류된 프레임수를 총 프레임으로 나누었다.
마지막으로 최종 인식단계에서는 각각의 서브밴드에서 나도, 각 화자에 대한 소속도를 합산한 후, 그 중에서 소속도가 가장 높은 화자를 선정한다. 위 과정을 [도 4]에 나타내었는데, 여기서는 서브밴드에서 화자일 소속도를 의미하고화자의 소속도를 나타내며,은 인식할 화자의 수를 나타낸다.
인식률 변동에 따른 인식률 비교를 위하여 잡음이 없는 상태에서 녹음한 화자의 음성단어(숫자음 : 영∼구)에 각각의 SNR에 맞는 랜덤 노이즈와 5㎑의 특정주파수 대역에 한정된 노이즈를 첨가하였다.화자의 음성 데이터는 잡음이 최대로 억제된 상황에서 녹음된 우리말 숫자음 10개 /영/에서 /구/을 대상으로 실험하였다. 남성화자 7명과 여성화자 3명이 각각 10회씩 발음한 음성신호 중 2개는 학습, 또는 기준패턴을 만들기 위해서 사용하였고, 나머지 8개는 화자인식실험을 위해서 사용하였다. 녹음된 음성데이터의 샘플링 주파수는 10㎑이며, 기준패턴인 코드북의 사이즈는 32로 정하였다. 일반적으로 음성신호의 특징파라미터는 20ms의 Hamming window를 사용하여 구하여 졌는데, 프레임 양 끝단의 신호정보를 보상하기 위하여 10ms씩 중첩을 시켜서 윈도우를 이동하면서 13차의 멜켑스트럼 계수를 구하였다.
[도 5 ]에서는 본 발명에서 제안한 웨이블렛 패킷구조의 웨이블렛 기법을 적용한 경우 노이즈의 SNR 변동에 따른 인식률을 나타내었다. VQ기법을 적용한 경우보다 제안한 기법을 적용한 경우 랜덤노이즈를 첨가한 경우 인식률이 최소 15%에서 최대 20%까지 향상되었고, 고주파성분의 특정 노이즈를 첨가한 경우는 최소 20%에서 최대 60%까지 인식률이 향상된 것으로 나타났다. [도 5]에서 보는 바와 같이 웨이블렛을 이용한 경우 A4대역에서 인식률이 매우 저조해 최종 인식률 하락을 가져오는 요인이라 할 수 있다. 따라서, 이 경우 본 발명에서 제안된 알고리즘은 가장 낮은 A4대역을 제외한 A1, A2, A3 대역을 이용한다.

Claims (1)

  1. 음성신호를 이용하여 화자를 인식함에 있어서,
    (1) 각 화자별로 음성신호를 취득한 후, 웨이블렛을 이용하여 4개의 서브밴드로 나누고 각 밴드별로 코드북을 만드는 단계와;
    (2) 이렇게 만들어진 각 밴드별 코드북을 이용하여 새로운 음성신호에 대하여 프레임 별로 코드북과의 거리를 계산하여 화자별 소속도를 구하는 단계와,
    (3) 위와 같이 각 밴드별로 구해진 화자별 소속도를 모두 더하여 이들 중 최대값으로 최종 인식 결과를 냄으로서 외부의 잡음에 강인한 화자인식 알고리듬을 구현하는 방법
KR10-2002-0015517A 2002-03-22 2002-03-22 웨이블렛변환을 이용한 외부노이즈에 강인한 화자식별 KR100436305B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0015517A KR100436305B1 (ko) 2002-03-22 2002-03-22 웨이블렛변환을 이용한 외부노이즈에 강인한 화자식별

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0015517A KR100436305B1 (ko) 2002-03-22 2002-03-22 웨이블렛변환을 이용한 외부노이즈에 강인한 화자식별

Publications (2)

Publication Number Publication Date
KR20020028186A KR20020028186A (ko) 2002-04-16
KR100436305B1 true KR100436305B1 (ko) 2004-06-23

Family

ID=19719962

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0015517A KR100436305B1 (ko) 2002-03-22 2002-03-22 웨이블렛변환을 이용한 외부노이즈에 강인한 화자식별

Country Status (1)

Country Link
KR (1) KR100436305B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100798056B1 (ko) * 2006-10-24 2008-01-28 한양대학교 산학협력단 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법
CN110390946A (zh) * 2019-07-26 2019-10-29 龙马智芯(珠海横琴)科技有限公司 一种语音信号处理方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0573093A (ja) * 1991-09-17 1993-03-26 Nippon Telegr & Teleph Corp <Ntt> 信号特徴点の抽出方法
US5781881A (en) * 1995-10-19 1998-07-14 Deutsche Telekom Ag Variable-subframe-length speech-coding classes derived from wavelet-transform parameters
US5852806A (en) * 1996-03-19 1998-12-22 Lucent Technologies Inc. Switched filterbank for use in audio signal coding
JP2001184083A (ja) * 1999-11-24 2001-07-06 Matsushita Electric Ind Co Ltd 自動音声認識のための特徴量抽出方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0573093A (ja) * 1991-09-17 1993-03-26 Nippon Telegr & Teleph Corp <Ntt> 信号特徴点の抽出方法
US5781881A (en) * 1995-10-19 1998-07-14 Deutsche Telekom Ag Variable-subframe-length speech-coding classes derived from wavelet-transform parameters
US5852806A (en) * 1996-03-19 1998-12-22 Lucent Technologies Inc. Switched filterbank for use in audio signal coding
JP2001184083A (ja) * 1999-11-24 2001-07-06 Matsushita Electric Ind Co Ltd 自動音声認識のための特徴量抽出方法

Also Published As

Publication number Publication date
KR20020028186A (ko) 2002-04-16

Similar Documents

Publication Publication Date Title
Daqrouq et al. Speaker identification using vowels features through a combined method of formants, wavelets, and neural network classifiers
Kim et al. Multimodal biometric authentication using teeth image and voice in mobile environment
CA2492204A1 (en) Similar speaking recognition method and system using linear and nonlinear feature extraction
AU744678B2 (en) Pattern recognition using multiple reference models
Sarria-Paja et al. Feature mapping, score-, and feature-level fusion for improved normal and whispered speech speaker verification
Yoon et al. Multiple points input for convolutional neural networks in replay attack detection
Kekre et al. Speaker recognition using Vector Quantization by MFCC and KMCG clustering algorithm
Gupta et al. Voice liveness detection using bump wavelet with CNN
KR100436305B1 (ko) 웨이블렛변환을 이용한 외부노이즈에 강인한 화자식별
Saleema et al. Voice biometrics: the promising future of authentication in the internet of things
Srivastava et al. Wavelet packet based mel frequency cepstral features for text independent speaker identification
Kartik et al. Multimodal biometric person authentication system using speech and signature features
Alam On the use of fisher vector encoding for voice spoofing detection
Shanthakumar Performance Evolution of Face and Speech Recognition system using DTCWT and MFCC Features
Daqrouq et al. Wavelet LPC with neural network for speaker identification system
Mohammed et al. Analysis of Methods and Techniques Used for Speaker Identification, Recognition, and Verification: A Study on Quarter-Century Research Outcomes
Eshwarappa et al. Bimodal biometric person authentication system using speech and signature features
Sahoo et al. Bimodal biometric person authentication using speech and face under degraded condition
Yu et al. Biometric recognition by using audio and visual feature fusion
Lee et al. Exploiting principal component analysis in modulation spectrum enhancement for robust speech recognition
Patil et al. Voice liveness detection using constant-Q transform-based features
Jassim et al. A wavelet-based approach to face verification/recognition
Poulose Jacob et al. A prototype for a multimodal biometric security system based on face and audio signatures
Iwano et al. Multimodal speaker verification using ear image features extracted by PCA and ICA
Jhanwar et al. Pitch correlogram clustering for fast speaker identification

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20090515

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee