KR20130070345A - 음성 신호를 이용한 화자 인식 장치 및 그 방법 - Google Patents
음성 신호를 이용한 화자 인식 장치 및 그 방법 Download PDFInfo
- Publication number
- KR20130070345A KR20130070345A KR1020110137621A KR20110137621A KR20130070345A KR 20130070345 A KR20130070345 A KR 20130070345A KR 1020110137621 A KR1020110137621 A KR 1020110137621A KR 20110137621 A KR20110137621 A KR 20110137621A KR 20130070345 A KR20130070345 A KR 20130070345A
- Authority
- KR
- South Korea
- Prior art keywords
- speaker
- recognition rate
- subsets
- voice signal
- recognition
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000001755 vocal effect Effects 0.000 title 1
- 238000007476 Maximum Likelihood Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 239000000284 extract Substances 0.000 claims abstract description 6
- 230000002093 peripheral effect Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은 음성 신호를 이용한 화자 인식 장치 및 그 방법에 관한 것으로, 본 발명의 일 실시예에 따른 음성 신호를 이용한 화자 인식 장치는, 음성 신호를 수신하는 음성 수신부와, 상기 수신된 음성 신호를 주파수 영역으로 변환하고, 상기 변환된 음성 신호로부터 특성을 추출하는 특성 추출부와, 상기 추출된 특성이 포함하는 N 개의 부분 집합에 대하여 인식률 가중치를 적용하여, 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택하여 주변 우도 스코어를 산출하고, 상기 주변 우도 스코어 중 가장 큰 값인 최대 우도 스코어에 기초하여 상기 음성 신호를 생성한 화자를 인식하는 화자 매칭부를 포함한다.
이에 따라, 음성 신호를 이용한 화자 인식을 위해 손실 특성 이론을 이용하면서 음성 신호의 특성을 추출하여 인식률이 가장 높은 특성의 부분 집합에 대해서만 계산을 함으로써 계산량을 줄이고 인식 정확도를 높일 수 있다.
이에 따라, 음성 신호를 이용한 화자 인식을 위해 손실 특성 이론을 이용하면서 음성 신호의 특성을 추출하여 인식률이 가장 높은 특성의 부분 집합에 대해서만 계산을 함으로써 계산량을 줄이고 인식 정확도를 높일 수 있다.
Description
본 발명은 음성 신호를 이용한 화자 인식 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 손실 특성 이론을 이용한 화자 인식 기술이 개시된다.
생체 인식은 현대인들이 사용하는 다양한 장치들에 있어서 보안상의 이유로 그 중요성 및 활용도가 높아지고 있다. 생체 인식 기술 분야 중에서, 특히 화자 인식 기술은 사람과 컴퓨터 사이의 간단한 인터페이스(Interface)로 구현될 수 있기 때문에 그 활용도가 매우 높다. 그러나, 이러한 화자 인식 기술의 성능은 배경 잡음에 의한 영향으로 저하된다. 따라서, 최근에는 배경 잡음에 의한 영향을 최소화시키고, 배경 잡음에 대해서 강력한 화자 인식 기술에 대한 연구가 진행되고 있다.
종래의 화자 인식 시스템은 청각 모델을 이용한 MFCC(Mel Frequency Cepstral Coefficient)로 특성을 추출한다. 그 후, 가우시안 혼합 모델 (Gaussian mixture model, GMM)을 이용하여 각 화자의 모델을 생성하고, 입력 음성에 대해서 화자를 인식한다. 하지만, 배경잡음이 심한 음성에 대해서는 화자 인식 성공률이 매우 저조하다는 문제점이 있다.
한편, 종래의 또 다른 화자 인식 시스템 중 손실 특성 이론(Missing Feature Theory, MFT)에서는, 화자를 인식하기 위해 음성 신호로부터 복수개의 특성을 추출하고, 추출된 특성 중에서 잡음에 의해 매우 심하게 변질된 부분은 신뢰할 수 없는 특성으로 정의하고, 신뢰할 수 없는 특성을 제외한 신뢰할 수 있는 특성만이 이용된다. 신뢰할 수 있는 특성을 선택하기 위해서는 잡음 통계값의 사전 지식을이용할 수 있다.
반면, 확장된 손실 특성 이론(Extended Missing Feature Theory, EMFT)은 잡음 통계값에 대한 어떤 사전 지식도 이용하지 않는다. 확장된 손실 특성 이론(EMFT)은 훈련 데이터베이스와 시험 데이터베이스 사이의 오차를 줄이기 위해 훈련 데이터베이스의 통계값을 벗어나는 잡음의 변화는 무시한다. 잡음 통계값은 시간에 따라 변하거나, 잘 알려져 있지 않으므로, 확장된 손실 특성 이론(EMFT)은 시간에 따라 급격하게 변화하는 잡음이 섞인 음성 신호에 대한 화자 인식 기술을 구현하는데 좋은 방법이 될 수 있다.
그러나, 손실 특성 이론(MFT) 및 확장된 손실 특성 이론(EMFT)에서는 추출된 특성 중에서 신뢰할 수 있는 특성의 모든 가능한 조합에 대한 우도(likelihood) 값이 계산되고, 최대 우도(maximum likelihood) 값을 갖는 특성의 조합을 찾아서 화자 인식에 사용한다. 따라서, 신뢰할 수 있는 특성의 모든 가능한 조합의 우도(likelihood) 값을 계산하기 위해, 매우 복잡하고 많은 양의 계산을 필요로 하는 문제점이 있었다.
기존 MFCC와 GMM을 이용한 화자 인식 시스템은 배경잡음에 많이 취약한 것을 알 수 있으며, MMF와 EMFT의 경우 GMM을 이용한 화자 인식 시스템에 비해 배경잡음에 강한 반면, 많은 계산량을 요구한다. 이에 본 발명자는 배경잡음에 강인하고, 계산량이 적게 드는 화자 인식 시스템을 연구하게 되었다.
본 발명의 배경이 되는 기술은 대한민국 등록특허공보 제10-1060162호(2011. 08. 23)에 기재되어 있다.
본 발명이 이루고자 하는 과제는 음성 신호를 이용한 화자 인식을 위해 손실 특성 이론을 이용하면서 계산량을 줄이고 인식 정확도를 높이기 위한 것이다.
본 발명의 일 실시예에 따른 음성 신호를 이용한 화자 인식 장치는, 음성 신호를 수신하는 음성 수신부와, 상기 수신된 음성 신호를 주파수 영역으로 변환하고, 상기 변환된 음성 신호로부터 특성을 추출하는 특성 추출부와, 상기 추출된 특성이 포함하는 N 개의 부분 집합에 대하여 인식률 가중치를 적용하여, 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택하여 주변 우도 스코어를 산출하고, 상기 주변 우도 스코어 중 가장 큰 값인 최대 우도 스코어에 기초하여 상기 음성 신호를 생성한 화자를 인식하는 화자 매칭부를 포함한다.
또한, 상기 화자 매칭부는, 적어도 한 명 이상의 화자의 음성 신호 데이터를 저장하는 음성 신호 DB와, 상기 추출된 특성이 포함하는 N 개의 부분 집합에 대하여 인식률 가중치를 적용하여 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택하는 부분 집합 선택부와, 상기 선택된 M 개의 부분 집합을 이용하여 상기 수신된 음성 신호에 대한 주변 우도 스코어를 산출하는 주변 우도 스코어 연산부와, 상기 주변 우도 스코어 중 가장 큰 값인 최대 우도 스코어에 기초하여 상기 음성 신호 DB에 저장되어 있는 모든 화자의 음성 신호 데이터 중에서, 상기 화자를 인식하는 화자 인식부를 포함할 수 있다.
또한, 상기 화자 인식 결과에 대응하여 네트워킹 되어 있는 주변 장치의 동작을 제어하는 장치 제어부를 더 포함할 수 있다.
또한, 상기 부분 집합 선택부는, 상기 인식률 가중치()를 다음의 수학식을 이용하여 계산된 값을 정규화하고, 상기 인식률 가중치가 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택할 수 있다:
여기서, wN은 부분 집합이 N 개인 경우의 가중치, RN은 화자를 인식한 비율, UN은 화자를 인식하지 못한 비율을 나타낸다.
또한, 상기 주변 우도 스코어 연산부는, 상기 주변 우도 스코어(P(λS|XM))를 다음의 수학식을 이용하여 구할 수 있다:
여기서, λS는 화자 S의 모델, XM은 M 개의 부분 집합인 경우의 화자의 특성 벡터를 나타낸다.
또한, 상기 화자 인식부는, 상기 최대 우도 스코어(P(X|λS))를 다음의 수학식을 이용하여 구할 수 있다:
음성 신호를 생성한 화자를 인식하여 상기 화자에 대하여 장치로의 접근을 허용하는 화자 인식 방법에 있어서,
본 발명의 또 다른 실시예에 따른 음성 신호를 이용한 화자 인식 방법은, 상기 음성 신호를 수신하는 단계와, 상기 수신된 음성 신호를 주파수 영역으로 변환하고, 상기 변환된 음성 신호로부터 특성을 추출하는 단계와, 상기 추출된 특성이 포함하는 N 개의 부분 집합에 대하여 인식률 가중치를 적용하여, 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택하여 주변 우도 스코어를 산출하고, 상기 주변 우도 스코어 중 가장 큰 값인 최대 우도 스코어에 기초하여 상기 음성 신호를 생성한 화자를 매칭하는 단계를 포함한다.
이와 같이, 본 발명에 따르면 음성 신호를 이용한 화자 인식을 위해 손실 특성 이론을 이용하면서 음성 신호의 특성을 추출하여 인식률이 가장 높은 특성의 부분 집합에 대해서만 계산을 함으로써 계산량을 줄이고 인식 정확도를 높일 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 신호를 이용한 화자 인식 장치의 구성도,
도 2는 도 1에 따른 화자 인식 장치 중 화자 매칭부의 세부 구성도,
도 3은 도 1에 따른 화자 인식 장치를 통해 구현되는 화자 인식 방법의 흐름도,
도 4a 내지 4c는 도 1에 따른 화자 인식 장치에 따른 인식률 가중치를 설정하는 것을 설명하기 위한 예시도이다.
도 2는 도 1에 따른 화자 인식 장치 중 화자 매칭부의 세부 구성도,
도 3은 도 1에 따른 화자 인식 장치를 통해 구현되는 화자 인식 방법의 흐름도,
도 4a 내지 4c는 도 1에 따른 화자 인식 장치에 따른 인식률 가중치를 설정하는 것을 설명하기 위한 예시도이다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세하게 설명한다. 사용되는 용어들은 실시예에서의 기능을 고려하여 선택된 용어들로서, 그 용어의 의미는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있다. 그러므로 후술하는 실시예들에서 사용된 용어의 의미는, 본 명세서에 구체적으로 정의된 경우에는 그 정의에 따르며, 구체적인 정의가 없는 경우는 당업자들이 일반적으로 인식하는 의미로 해석되어야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 음성 신호를 이용한 화자 인식 장치의 구성도이고, 도 3은 도 1에 따른 화자 인식 장치를 통해 구현되는 화자 인식 방법의 흐름도이다.
도 1 및 도 3을 참조하면, 본 발명의 일 실시예에 따른 음성 신호를 이용한 화자 인식 장치(100)는 음성 수신부(110), 특성 추출부(120) 및 화자 매칭부(130)를 포함한다. 음성 수신부(110)는 화자(speaker)로부터 음성 신호를 수신한다(S300). 이 경우, 음성 수신부(110)가 수신하는 음성 신호는 화자가 생성한 원래의 음성 신호에 여러 가지 배경 잡음이 혼합된 음성 신호일 수 있다. 예를 들어, 화자가 생성한 음성 신호에 다양한 주파수와 크기를 갖는 자동차 소리, 휴대 전화 벨 소리, 주변 사람들의 대화 소리, 비행기 소리 등이 혼합될 수 있다. 음성 수신부(110)는 입력된 음성 입력을 특성 추출부(120)로 출력한다.
다음으로, 특성 추출부(120)는 음성 수신부(110)로부터 수신된 음성 신호를 주파수 영역으로 변환하고, 변환된 음성 신호로부터 특성을 추출한다(S310). 음성 신호는 똑같은 언어라 할지라도 발음하는 사람의 성별, 나이, 발음 시의 상태 등에 따라 매우 복잡하게 변할 뿐 아니라 단독으로 발음될 때와 단어나 문장 내에서 발음될 때마다 그 성질이 변하기 때문에 음성의 특징을 잘 표현할 수 있는 특징 추출이 중요하다. 즉, 동일 음성 신호들 간의 일관성을 높임과 동시에 다른 음성 신호와는 변별력을 높일 수 있는 정보를 추출해야 한다. 이러한 정보를 음성 신호의 특성(feature)이라고 한다.
특성 추출부(120)는 입력된 음성 신호의 특정 주파수 영역에서 필터(filter) 또는 윈도우(window)를 사용하여 화자 인식에 사용될 여러 개의 음성 특성을 추출할 수 있다. 예를 들어, 특성 추출부(120)는 MFCC(Mel-frequency cepstral coefficients), 선형 예측 계수(Linear Prediction Coefficient, LPC), 켑스트럼(Cepstrum), 주파수 대역별 에너지(Filter Bank Energy) 등의 기법을 이용하여 입력된 음성 신호에서 복수 개의 특성을 추출할 수 있다.
다음으로, 화자 매칭부(130)는 특성 추출부(120)로부터 추출된 특성이 포함하는 N 개의 부분 집합에 대하여 인식률 가중치를 적용하여, 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택하여 주변 우도 스코어(marginal likelihood score)를 산출하고, 주변 우도 스코어 중 가장 큰 값인 최대 우도 스코어(maximum likelihood score)에 기초하여 음성 신호를 생성한 화자를 인식한다(S320). 즉, 최대 우도 스코어가 가장 큰 음성 신호 데이터에 해당하는 화자를 음성 신호를 생성한 화자로 인식하게 된다. 화자 매칭부(130)의 세부 구성과 그 기능은 도 2를 참조하여 구체적으로 후술하도록 한다.
한편, 본 발명의 또 다른 실시예에 따른 화자 인식 장치(100)는 장치 제어부(140)를더 포함할 수 있다. 장치 제어부(140)는 화자 인식 결과에 대응하여 네트워킹 되어 있는 주변 장치의 동작을 제어한다. 예를 들어, 장치 제어부(140)는 화자 매칭부(130)로부터 음성 신호를 생성한 화자에 대한 정보를 전달받고, 화자에 대해서만 화자 인식 장치(100)와 네트워킹된 주변 장치인 건물의 출입문, 금고문, 모바일 단말장치의 사용 등 여러 가지 장치에의 접근을 허용할 수 있다.
도 2는 도 1에 따른 화자 인식 장치 중 화자 매칭부의 세부 구성도이다.
도 2를 참조하면, 화자 매칭부(230)는 부분 집합 선택부(231), 주변 우도 스코어 연산부(232), 화자 인식부(233), 음성 신호 DB(234)를 포함한다. 부분 집합 선택부(231)는 추출된 특성이 포함하는 N 개의 부분 집합에 대하여 인식률 가중치를 적용하여 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택한다. 여기서, 인식률 가중치란 N 개의 부분 집합 중 화자를 인식한 경우와, 화자를 인식하지 못한 경우에 대하여 미리 학습된 데이터를 통하여, 화자 인식에 영향을 많이 주는 부분 집합에 대하여 부여된 가중치를 의미한다.
또한, 부분 집합 선택부(231)는, 인식률 가중치()를 다음의 수학식 1을 이용하여 계산된 값을 최소-최대값에 대해 정규화하고, 인식률 가중치가 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택할 수 있다.
수학식 1에서, wN은 부분 집합이 N 개인 경우의 가중치, RN은 화자를 인식한 비율, UN은 화자를 인식하지 못한 비율을 나타낸다. 또한, 계산의 복잡성을 줄이기 위해 인식률 가중치 마스크 = (when >δTH, others 0)를 이용하여, 기 설정된 인식률 문턱치(δTH) 보다 큰 경우 외에는 값을 0으로 설정하는 것도 가능하다.
인식률 가중치를 설정하는 것은 도 4a 내지 도 4c를 참조하여 후술하도록 한다.
도 4a 내지 4c는 도 1에 따른 화자 인식 장치에 따른 인식률 가중치를 설정하는 것을 설명하기 위한 예시도이다.
도 4a 내지 도 4c는 음성 신호의 모음(vowel)만을 이용하여 향상된 손실 특성 이론(advanced missing feature theory, AMFT)을 적용한 결과를 나타낸다. 도 4a는 화자를 인식한 경우의 인식률(R), 도 4b는 화자를 인식하지 못한 경우의 오인식률(U)을 나타낸다. 도 4c는 도 4a와 도 4b의 결과를 이용하여, 앞서 설명한 수학식 1에 대입하여, 정규화하여 계산된 인식률 가중치()를 나타낸다. 그 결과, 음성 신호의 특성의 부분 집합 개수 N이 8, 9인 경우에 화자 인식 성능이 가장 높은 것으로 나타났다.
또한, 도 4c에서 사용자 설정에 따라 인식률 가중치()를 기준으로 인식률이 높은 부분 집합 개수 N을 변경할 수 있다. 예를 들어, 기 설정된 인식률의 문턱치가 0.3 보다 높은 경우는 N이 {2, 6, 7, 8, 9 10}인 경우가 선택되며, 인식률 문턱치가 0.45 보다 높은 경우는 N이 {6, 7, 8, 9 10}인 경우가 선택되며, 인식률 문턱치가 0.7 보다 높은 경우는 N이 {7, 8, 9 10}인 경우가 선택되며, 인식률 문턱치가 0.9 보다 높은 경우는 N이 {8, 9}인 경우가 선택되며, 인식률 문턱치가 0.98 보다 높은 경우는 N이 {9}인 경우가 선택된다.
다시 도 2를 참조하면, 주변 우도 스코어 연산부(232)는 부분 집합 선택부(231)에서 선택된 M 개의 부분 집합을 이용하여 수신된 음성 신호에 대한 주변 우도 스코어를 산출한다. 예를 들어, 주변 우도 스코어 연산부(232)는, 주변 우도 스코어(P(λS|XM))를 다음의 수학식 2를 이용하여 구할 수 있다.
수학식 2에서, λS는 화자 S의 모델, XM은 M 개의 부분 집합인 경우의 화자의 특성 벡터를 나타낸다. M은 특성이 포함하는 전체 N 개의 부분 집합 중 인식률이 높은 것으로 선택된 부분 집합의 개수를 의미한다.
화자 인식부(233)는 주변 우도 스코어 중 가장 큰 값인 최대 우도 스코어에 기초하여 음성 신호 DB(234)에 저장되어 있는 모든 화자의 음성 신호 데이터 중에서, 화자를 인식한다. 이 경우, 음성 신호 DB에는 적어도 한 명 이상의 화자의 음성 신호에서 추출 가능한 특성 벡터 및 복수개의 특성들로 이루어진 특성 조합의 특성 벡터가 화자별로 산출되어 저장될 수 있다. 예를 들어, 화자 인식부(233)는 최대 우도 스코어(P(X|λS))를 다음의 수학식 3을 이용하여 구할 수 있다.
이와 같이, 본 발명에 따르면 향상된 손실 특성 이론(advanced missing feature theory, AMFT)을 적용한 경우처럼 음성 신호의 특성에 포함되는 부분 집합 전체에 대해 우도 스코어를 계산하지 않고, 인식률이 가장 높은 특성의 부분 집합에 대해서만 계산을 함으로써, 계산량을 줄이고 인식 정확도를 높일 수 있다. 예를 들어, 도 4c에 나타난 인식률 가중치 중 N이 8, 9인 부분 집합을 이용하여 화자를 인식하는 경우와, 향상된 손실 특성 이론을 적용한 경우의 인식 오류율(Identification Error Rate)은 다음의 표와 같이 얻을 수 있다.
손실 특성 이론 | AMFT | HMFT(N = 8) | HMFT(N = 9) |
인식 오류율 | 13.01% | 10.34% | 10.95% |
본 발명의 손실 특성 이론을 HMFT(Hard-mask Missing Feature theory)라고 명명하면, HMFT 방식으로 부분 집합 N이 8인 경우와 9인 경우는 각각 10.34%, 10.95%로, 13.01%인 AMFT 방식에 비해 인식 오류율이 감소하므로 인식 정확도가 향상되었음을 알 수 있다. 이러한 HMFT 방식은 N=1인 경우부터 N=10인 경우까지의 모든 부분 집합에 대한 잔여 우도 스코어를 계산하는 AMFT 방식의 bottom-up 방식과 달리, N=10인 경우부터 우도 스코어를 계산하는 up-bottom 방식이므로, 계산 속도가 더욱 빨라질 수 있다.
한편, 본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
이상에서 본 발명은 도면을 참조하면서 기술되는 바람직한 실시예를 중심으로 설명되었지만 이에 한정되는 것은 아니다. 따라서 본 발명은 기재된 실시예로부터 도출 가능한 자명한 변형예를 포괄하도록 의도된 특허청구범위의 기재에 의해 해석되어져야 한다.
100 : 화자 인식 장치
110 : 음성 수신부
120 : 특성 추출부
130, 230 : 화자 매칭부
140 : 장치 제어부
231 : 부분 집합 선택부
232 : 주변 우도 스코어 연산부
233 : 화자 인식부
234 : 음성 신호 DB
110 : 음성 수신부
120 : 특성 추출부
130, 230 : 화자 매칭부
140 : 장치 제어부
231 : 부분 집합 선택부
232 : 주변 우도 스코어 연산부
233 : 화자 인식부
234 : 음성 신호 DB
Claims (12)
- 음성 신호를 수신하는 음성 수신부;
상기 수신된 음성 신호를 주파수 영역으로 변환하고, 상기 변환된 음성 신호로부터 특성을 추출하는 특성 추출부; 및
상기 추출된 특성이 포함하는 N 개의 부분 집합에 대하여 인식률 가중치를 적용하여, 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택하여 주변 우도 스코어를 산출하고, 상기 주변 우도 스코어 중 가장 큰 값인 최대 우도 스코어에 기초하여 상기 음성 신호를 생성한 화자를 인식하는 화자 매칭부를 포함하는 음성 신호를 이용한 화자 인식 장치. - 제1항에 있어서,
상기 화자 매칭부는,
적어도 한 명 이상의 화자의 음성 신호 데이터를 저장하는 음성 신호 DB;
상기 추출된 특성이 포함하는 N 개의 부분 집합에 대하여 인식률 가중치를 적용하여 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택하는 부분 집합 선택부;
상기 선택된 M 개의 부분 집합을 이용하여 상기 수신된 음성 신호에 대한 주변 우도 스코어를 산출하는 주변 우도 스코어 연산부; 및
상기 주변 우도 스코어 중 가장 큰 값인 최대 우도 스코어에 기초하여 상기 음성 신호 DB에 저장되어 있는 모든 화자의 음성 신호 데이터 중에서, 상기 화자를 인식하는 화자 인식부를 포함하는 음성 신호를 이용한 화자 인식 장치. - 제1항에 있어서,
상기 화자 인식 결과에 대응하여 네트워킹 되어 있는 주변 장치의 동작을 제어하는 장치 제어부를 더 포함하는 음성 신호를 이용한 화자 인식 장치. - 음성 신호를 수신하는 단계;
상기 수신된 음성 신호를 주파수 영역으로 변환하고, 상기 변환된 음성 신호로부터 특성을 추출하는 단계; 및
상기 추출된 특성이 포함하는 N 개의 부분 집합에 대하여 인식률 가중치를 적용하여, 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택하여 주변 우도 스코어를 산출하고, 상기 주변 우도 스코어 중 가장 큰 값인 최대 우도 스코어에 기초하여 상기 음성 신호를 생성한 화자를 매칭하는 단계를 포함하는 음성 신호를 이용한 화자 인식 방법. - 제7항에 있어서,
상기 화자를 매칭하는 단계는,
상기 추출된 특성이 포함하는 N 개의 부분 집합에 대하여 인식률 가중치를 적용하여 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택하는 단계;
상기 선택된 M 개의 부분 집합을 이용하여 상기 수신된 음성 신호에 대한 주변 우도 스코어를 산출하는 단계; 및
상기 주변 우도 스코어 중 가장 큰 값인 최대 우도 스코어에 기초하여, 적어도 한 명 이상의 화자의 음성 신호 데이터를 저장하는 음성 신호 DB에 저장되어 있는 모든 화자의 음성 신호 데이터 중에서, 상기 화자를 인식하는 단계를 포함하는 음성 신호를 이용한 화자 인식 방법. - 제7항에 있어서,
상기 화자 인식 결과에 대응하여 네트워킹 되어 있는 주변 장치의 동작을 제어하는 단계를 더 포함하는 음성 신호를 이용한 화자 인식 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110137621A KR101304127B1 (ko) | 2011-12-19 | 2011-12-19 | 음성 신호를 이용한 화자 인식 장치 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110137621A KR101304127B1 (ko) | 2011-12-19 | 2011-12-19 | 음성 신호를 이용한 화자 인식 장치 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20130070345A true KR20130070345A (ko) | 2013-06-27 |
KR101304127B1 KR101304127B1 (ko) | 2013-09-05 |
Family
ID=48865167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020110137621A KR101304127B1 (ko) | 2011-12-19 | 2011-12-19 | 음성 신호를 이용한 화자 인식 장치 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101304127B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AT516219A1 (de) * | 2014-09-09 | 2016-03-15 | Frequentis Ag | Verfahren zur Identifikation und Prüfung von Sprechfunkmeldungen |
KR20210055464A (ko) * | 2019-11-07 | 2021-05-17 | 연세대학교 산학협력단 | 기계학습 기반의 화자 분리 방법 및 그를 위한 장치 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101060162B1 (ko) * | 2009-09-04 | 2011-08-29 | 세종대학교산학협력단 | 화자 인식 장치 및 방법 |
-
2011
- 2011-12-19 KR KR1020110137621A patent/KR101304127B1/ko not_active IP Right Cessation
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AT516219A1 (de) * | 2014-09-09 | 2016-03-15 | Frequentis Ag | Verfahren zur Identifikation und Prüfung von Sprechfunkmeldungen |
AT516219B1 (de) * | 2014-09-09 | 2017-06-15 | Frequentis Ag | Verfahren zur Identifikation und Prüfung von Sprechfunkmeldungen |
KR20210055464A (ko) * | 2019-11-07 | 2021-05-17 | 연세대학교 산학협력단 | 기계학습 기반의 화자 분리 방법 및 그를 위한 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR101304127B1 (ko) | 2013-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10877727B2 (en) | Combining results from first and second speaker recognition processes | |
KR102339594B1 (ko) | 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체 | |
US11735191B2 (en) | Speaker recognition with assessment of audio frame contribution | |
US9009047B2 (en) | Specific call detecting device and specific call detecting method | |
US11056118B2 (en) | Speaker identification | |
TWI475558B (zh) | 詞語驗證的方法及裝置 | |
US9646613B2 (en) | Methods and systems for splitting a digital signal | |
Kinnunen et al. | Utterance verification for text-dependent speaker recognition: a comparative assessment using the RedDots corpus | |
CN110211599B (zh) | 应用唤醒方法、装置、存储介质及电子设备 | |
EP0822539A2 (en) | Two-staged cohort selection for speaker verification system | |
US9984676B2 (en) | Feature normalization inputs to front end processing for automatic speech recognition | |
KR102346634B1 (ko) | 사용자 인식을 위한 특징 벡터를 변환하는 방법 및 디바이스 | |
US11200903B2 (en) | Systems and methods for speaker verification using summarized extracted features | |
US7050973B2 (en) | Speaker recognition using dynamic time warp template spotting | |
CN116490920A (zh) | 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质 | |
CN110189746A (zh) | 一种应用于地空通信的话音识别方法 | |
US11081115B2 (en) | Speaker recognition | |
KR101304127B1 (ko) | 음성 신호를 이용한 화자 인식 장치 및 그 방법 | |
KR101060162B1 (ko) | 화자 인식 장치 및 방법 | |
Bhukya et al. | End point detection using speech-specific knowledge for text-dependent speaker verification | |
Nagesh et al. | A robust speech rate estimation based on the activation profile from the selected acoustic unit dictionary | |
Li et al. | Keyword-specific normalization based keyword spotting for spontaneous speech | |
Mamodiya et al. | Exploring acoustic factor analysis for limited test data speaker verification | |
Pillay | Voice Biometrics under Mismatched Noise Conditions | |
Wickramasinghe | Replay detection in voice biometrics: an investigation of adaptive and non-adaptive front-ends |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20160729 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20170717 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |