KR20150093059A - 화자 검증 장치 및 방법 - Google Patents

화자 검증 장치 및 방법 Download PDF

Info

Publication number
KR20150093059A
KR20150093059A KR1020140013852A KR20140013852A KR20150093059A KR 20150093059 A KR20150093059 A KR 20150093059A KR 1020140013852 A KR1020140013852 A KR 1020140013852A KR 20140013852 A KR20140013852 A KR 20140013852A KR 20150093059 A KR20150093059 A KR 20150093059A
Authority
KR
South Korea
Prior art keywords
speaker
model
ubm
gmm
feature
Prior art date
Application number
KR1020140013852A
Other languages
English (en)
Other versions
KR101564087B1 (ko
Inventor
오광철
차성일
김현돈
서영주
김회린
김명종
박주민
Original Assignee
주식회사 에스원
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에스원, 한국과학기술원 filed Critical 주식회사 에스원
Priority to KR1020140013852A priority Critical patent/KR101564087B1/ko
Publication of KR20150093059A publication Critical patent/KR20150093059A/ko
Application granted granted Critical
Publication of KR101564087B1 publication Critical patent/KR101564087B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 실시예에 따르면, GMM에 기반한 통계 모델 방식을 이용하는 화자 검증 장치의 화자 검증 방법이 제공된다. 화자 검증 장치는 제1 화자의 제1 입력 음성으로부터 추출된 적어도 하나의 제1 특징 파라미터를 이용해, 상기 제1 화자를 위한 제1 화자 GMM 모델을 생성한다. 그리고 화자 검증 장치는 적어도 하나의 제2 화자의 입력 음성으로부터 추출된 적어도 하나의 제2 특징 파라미터를 이용해, 상기 제1 화자에 대응하는 제1 UBM 모델을 주변 음향 환경에 적응시킨다. 그리고 화자 검증 장치는 제2 입력 음성으로부터 추출된 적어도 하나의 제3 특징 파라미터에 대한 상기 제1 UBM 모델의 제1 우도와, 상기 제3 특징 파라미터에 대한 상기 제1 화자 GMM 모델의 제2 우도를 비교하고, 상기 비교 결과에 기초해 상기 제2 입력 음성이 상기 제1 화자의 음성인지를 판단한다.

Description

화자 검증 장치 및 방법{METHOD AND APPARATUS FOR SPEAKER VERIFICATION}
본 발명은 입력된 음성 신호가 지정된 화자로부터 발성된 음성인지의 여부를 자동으로 검증하는 화자 검증 방법 및 장치에 관한 것이다.
화자 검증(speaker verification) 기술은 입력된 음성 신호가 제시된 화자(claimed speaker)의 음성인지 아닌지를 검증하는 기술이다. 즉, 화자 검증 기술은, 입력 음성이 제시 화자의 목소리인지를 자동으로 검증하는 기술로써, 보안이나 법의학(forensic) 등의 여러 분야에 유용하게 사용될 수 있다. 현재 개발되는 대표적인 화자 검증 기술은 Gaussian mixture model(GMM)에 기반한 통계 모델 방식을 이용하는 화자 검증 기술이다. GMM에 기반한 통계 모델 방식을 이용하는 화자 검증 기술은, 검증을 위한 음성 신호가 입력되면, 제시 화자 GMM 모델과 전체배경모델(UBM: universal background model) GMM 모델 간의 우도비(likelihood ratio)를 계산하고, 우도비가 임계값(threshold)보다 크면 입력된 음성 신호를 제시화자의 음성으로 승인(accept)하고, 그 외의 경우에 거부(reject)한다. 여기서, 제시 화자 GMM 모델은 검증 대상이 되는 제시 화자의 고유한 음성을 GMM으로 통계 모델화한 것이고, 전체배경모델 GMM 모델은 불특정 사람들의 다양한 음성을 GMM으로 통계 모델화한 것이다. 그리고 우도비는 제시 화자 GMM 모델의 확률적인 유사도와 전체배경모델 GMM 모델의 확률적인 유사도 간의 비율이다.
한편, 제시 화자 GMM 모델은 검증 대상 화자를 등록하는 단계에서 수집된 음성을 사용하여 추정되지만, 제시 화자의 대항 모델 격인 전체배경모델 GMM 모델은 이전의 훈련 단계에서 여러 사람들로부터 수집한 대규모 훈련 음성데이터로부터 추정된다. 따라서 제시 화자 GMM 모델은 화자 검증 장치가 사용되는 음향 환경을 직접적으로 잘 반영하지만, 전체배경모델 GMM 모델은 그렇지 못하여, 화자 검증 장치의 화자 검증 성능을 저하시킬 수 있다. 즉, 종래의 화자 검증 장치는 초기 훈련 음성 데이터를 통해 훈련되므로, 주변 음향 환경의 변동에 따라 화자 검증 정확도가 저하되는 문제를 가진다.
본 발명이 해결하고자 하는 과제는, 고정된 전체배경모델 GMM 모델을 사용함으로써 야기되는 성능 저하 등의 문제를 개선할 수 있는 화자 검증 방법 및 장치를 제공하는 것이다.
본 발명의 실시예에 따르면, GMM(Gaussian Mixture Model)에 기반한 통계 모델 방식을 이용하는 화자 검증 장치의 화자 검증 방법이 제공된다. 상기 화자 검증 방법은, 제1 화자의 제1 입력 음성으로부터 추출된 적어도 하나의 제1 특징 파라미터를 이용해, 상기 제1 화자를 위한 제1 화자 GMM 모델을 생성하는 단계; 적어도 하나의 제2 화자의 입력 음성으로부터 추출된 적어도 하나의 제2 특징 파라미터를 이용해, 상기 제1 화자에 대응하는 제1 UBM(Universal Background Model) 모델을 주변 음향 환경에 적응시키는 단계; 및 제2 입력 음성으로부터 추출된 적어도 하나의 제3 특징 파라미터에 대한 상기 제1 UBM 모델의 제1 우도(likelihood)와 상기 제3 특징 파라미터에 대한 상기 제1 화자 GMM 모델의 제2 우도를 비교하고, 상기 비교 결과에 기초해 상기 제2 입력 음성이 상기 제1 화자의 음성인지를 판단하는 단계를 포함한다.
상기 제1 화자 GMM 모델을 생성하는 단계는, 상기 제1 입력 음성을 적어도 하나의 제1 프레임으로 분할하는 단계; 및 상기 제1 프레임으로부터 상기 제1 특징 파라미터를 추출하는 단계를 포함할 수 있다.
상기 제1 특징 파라미터는, MFCCs(Mel Frequency Cepstral Coefficients)를 포함할 수 있다.
상기 제1 화자 GMM 모델을 생성하는 단계는, 주변 음향 환경에 적응되기 이전의 상기 제1 UBM 모델에 대응하는 제1 모델 파라미터를 상기 제1 특징 파라미터에 적응시킴으로써, 상기 제1 화자 GMM 모델에 대응하는 제2 모델 파라미터를 획득하는 단계를 더 포함할 수 있다.
상기 제2 모델 파라미터는 혼합(mixture) 가중치, 평균 벡터, 및 공분산 행렬을 포함할 수 있다.
상기 제2 모델 파라미터를 획득하는 단계는, 상기 제1 특징 파라미터에 대한 제1 GMM 혼합의 사후 확률(posteriori probability)을 추정하는 단계; 상기 사후 확률에 기초해, 충분 통계량(sufficient statistics)을 추정하는 단계; 및 상기 충분 통계량과 상기 제1 모델 파라미터를 이용해, 상기 제2 모델 파라미터를 계산하는 단계를 포함할 수 있다.
상기 제1 화자 GMM 모델을 생성하는 단계는, 상기 제1 화자에 대한 정보를 화자 목록에 등록하는 단계를 더 포함할 수 있다.
상기 제2 화자의 입력 음성은 상기 제2 화자를 등록하기 위해 입력된 음성 및 상기 제2 화자를 검증하기 위해 입력된 음성 중 적어도 어느 하나일 수 있다. 그리고 상기 제1 UBM 모델을 주변 음향 환경에 적응시키는 단계는, 상기 제2 특징 파라미터를 순차적으로 포함하는 적응 데이터를 생성하는 단계; 상기 적응 데이터에 포함된 상기 제2 특징 파라미터 중에서 상기 제1 화자에 대응하는 특징 파라미터를 상기 적응 데이터에서 제외하는 단계; 및 주변 음향 환경에 적응되기 이전의 상기 제1 UBM 모델인 제2 UBM 모델을, 상기 적응 데이터를 이용해 최근 주변 음향 환경에 적응시키는 단계를 포함할 수 있다.
상기 적응 데이터를 이용해 적응시키는 단계는, 상기 적응 데이터에 포함된 상기 제2 특징 파라미터에 대한 제1 GMM 혼합의 사후 확률을 추정하는 단계; 상기 사후 확률에 기초해, 충분 통계량을 추정하는 단계; 및 상기 충분 통계량과 상기 제2 UBM 모델에 대응하는 제1 모델 파라미터를 이용해, 제2 모델 파라미터를 계산하는 단계를 포함할 수 있다. 그리고 상기 제2 모델 파라미터는 주변 음향 환경에 적응된 상기 제1 UBM 모델에 대응할 수 있다.
상기 판단하는 단계는, 상기 제1 우도와 상기 제2 우도 간의 비율에 대한 로그 값인 로그 우도비(likelihood ratio)를 계산하는 단계; 및 상기 로그 우도비와 임계값을 비교해, 상기 제2 입력 음성이 상기 제1 화자의 음성인지를 판단하는 단계를 포함할 수 있다.
상기 판단하는 단계는, 화자 목록에 포함된 화자 중에서 상기 제1 화자를 선택하는 단계를 더 포함할 수 있다.
또한, 본 발명의 다른 실시예에 따르면, GMM에 기반한 통계 모델 방식을 이용해 화자를 검증하는 장치가 제공된다. 상기 화자 검증 장치는, 입력 음성으로부터 적어도 하나의 특징 벡터를 추출하는 특징 추출 처리부; 상기 특징 벡터 중 제1 화자에 대응하는 적어도 하나의 제1 특징 벡터를 이용해, 제1 화자 GMM 모델을 생성하는 화자 등록 처리부; 상기 특징 벡터 중 적어도 하나의 제2 화자에 대응하는 적어도 하나의 제2 특징 벡터를 이용해, 상기 제1 화자에 대응하는 제1 UBM 모델을 주변 음향 환경에 적응시키는 UBM 적응 처리부; 및 상기 특징 벡터 중 화자 검증을 위해 입력된 제1 음성에 대응하는 적어도 하나의 제3 특징 벡터에 대한 상기 제1 UBM 모델의 제1 확률적 유사도와, 상기 제3 특징 벡터에 대한 상기 제1 화자 GMM 모델의 제2 확률적 유사도를 비교하여, 상기 제1 음성이 상기 제1 화자의 음성인지를 판단하는 화자 검증 처리부를 포함할 수 있다.
또한, 본 발명의 또 다른 실시예에 따르면, GMM에 기반한 통계 모델 방식의 화자 검증 방법을 적어도 하나의 처리기가 실행하도록 프로그램을 기록한 기록 매체가 제공될 수 있다. 여기서, 상기 화자 검증 방법은, 제1 화자의 제1 입력 음성으로부터 추출된 적어도 하나의 제1 특징 파라미터를 이용해, 상기 제1 화자를 위한 제1 화자 GMM 모델을 생성하는 단계; 적어도 하나의 제2 화자의 입력 음성으로부터 추출된 적어도 하나의 제2 특징 파라미터를 이용해, 상기 제1 화자에 대응하는 제1 UBM 모델을 주변 음향 환경에 적응시키는 단계; 및 제2 입력 음성으로부터 추출된 적어도 하나의 제3 특징 파라미터에 대한 상기 제1 UBM 모델의 제1 우도와 상기 제3 특징 파라미터에 대한 상기 제1 화자 GMM 모델의 제2 우도를 비교하여, 상기 제2 입력 음성이 상기 제1 화자의 음성인지를 판단하는 단계를 포함할 수 있다.
본 발명의 실시예에 따르면, 화자 등록이나 화자 검증 과정에서 입력된 음성 데이터를 누적하고, 누적된 음성 데이터를 이용해 전체배경모델 GMM 모델을 최근 음향 환경으로 적응시킴으로써, 주변 음향 환경의 변동에 강인한 화자 검증 기능을 제공할 수 있다. 본 발명의 실시예에 따르면, 전체배경모델 GMM 모델을 점진적으로 주변 음향 환경에 적응시킴으로써, 화자 검증 성능 및 정확도를 개선할 수 있다.
도 1은 본 발명의 실시예에 따른 화자 검증 장치를 나타내는 도면이다.
도 2는 본 발명의 일실시예에 따른 화자 검증 장치의 전체적인 화자 검증 과정을 나타내는 순서도이다.
도 3은 본 발명의 실시예에 따른 특징 파라미터 추출 과정을 나타내는 순서도이다.
도 4는 본 발명의 실시예에 따른 화자 등록 과정을 나타내는 순서도이다.
도 5는 본 발명의 실시예에 따른 UBM 모델을 적응시키는 과정을 나타내는 순서도이다.
도 6는 본 발명의 실시예에 따른 화자 검증 판정 과정을 나타내는 순서도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 본 발명의 실시예에 따른 화자 검증 장치(1000)를 나타내는 도면이다.
화자 검증 장치(1000)는 특징 추출 처리부(100), 화자 등록 처리부(200), 화자 검증 처리부(300), 및 UBM 적응 처리부(400)를 포함한다.
특징 추출 처리부(100)는 입력된 음성 신호로부터 화자 등록 또는 화자 검증에 적합한 적어도 하나의 특징 파라미터(또는 특징 벡터)를 추출한다.
화자 등록 처리부(200)는 새로운 화자를 위한 화자 GMM 모델을 생성하고, 생성된 화자 GMM 모델을 화자 검증을 위한 검증 화자 목록에 등록한다. 구체적으로, 화자 등록 처리부(200)는 화자 등록을 위해 수집된 새로운 화자의 음성 신호로부터 특징 추출 처리부(100)를 통해 추출된 적어도 하나의 특징 파라미터를 훈련 데이터로써 이용하여, 새로운 화자에 대한 화자 GMM 모델을 생성한다.
UBM 적응 처리부(400)는 화자 등록 또는 화자 검증을 위해서 입력된 적어도 한명의 화자의 음성 신호를 이용하여, 전체배경모델 GMM 모델(이하 'UBM 모델')을 주변 음향 환경에 적응시킨다. 구체적으로, UBM 적응 처리부(400)는 화자 등록 또는 화자 검증을 위해서 입력된 적어도 한명의 화자의 음성 신호로부터 특징 추출 처리부(100)를 통해 추출된 적어도 하나의 특징 파라미터를 사용하여, 기존의 UBM 모델을 최근 주변 음향 환경에 적응시킨다.
화자 검증 처리부(300)는 화자 검증 대상으로써 화자 검증을 위해 입력된 음성 신호(이하 '검증 대상 음성 신호')로부터 특징 추출 처리부(100)를 통해 추출된 적어도 하나의 특징 파라미터(이하 '제1 특징 파라미터')에 대한 제시 화자의 화자 GMM 모델(이하 '제시 화자 모델')의 확률적 유사도와, UBM 적응 처리부(400)에 의해 적응된 UBM 모델의 확률적 유사도를 비교하여, 화자 검증 판정을 수행한다. 구체적으로 화자 검증 처리부(300)는 제1 특징 파라미터에 대한 제시 화자 모델의 우도(likelihood)와 제1 특징 파라미터에 대한 UBM 모델의 우도 간의 비율인 우도비(likelihood ratio)를 계산하고, 우도비와 임계값을 비교해 검증 대상 음성 신호가 제시 화자의 음성인지를 판정할 수 있다.
도 2는 본 발명의 일실시예에 따른 화자 검증 장치(1000)의 전체적인 화자 검증 과정을 나타내는 순서도이다.
특징 추출 처리부(100)는 제1 화자의 화자 등록을 위해 입력된 음성 신호로부터 적어도 하나의 특징 파라미터를 추출한다(S110).
화자 등록 처리부(200)는 특징 추출 처리부(100)로부터 출력된 특징 파라미터를 이용해, 제1 화자의 화자 GMM 모델을 생성한다(S120).
UBM 적응 처리부(400)는 화자 등록 또는 화자 검증을 위해 입력되었던 누적 음성 데이터를 이용해, UBM 모델을 최근 주변 음향 환경으로 적응시킨다(S130).
한편, 검증 대상 음성 신호가 입력되면 특징 추출 처리부(100)는 검증 대상 음성 신호로부터 적어도 하나의 제1 특징 파라미터를 추출한다(S110).
화자 검증 처리부(300)는 제1 화자가 제시 화자인 경우에, 제1 특징 파라미터에 대한 제시 화자 모델의 우도와 제1 특징 파라미터에 대한 UBM 모델의 우도를 비교해, 검증 대상 음성 신호가 제1 화자의 음성 인지를 판단한다(S140).
도 3은 본 발명의 실시예에 따른 특징 파라미터 추출 과정을 나타내는 순서도이다. 구체적으로, 도 3은 도 2의 S110 과정의 구체적인 과정을 나타내는 순서도이다.
특징 추출 처리부(100)는 입력된 디지털 음성 신호를 아래의 수학식 1과 같이, 미리 정해진 구간의 프레임으로 분할한다(S210). 그리고 특징 추출 처리부(100)는 S210 과정을 정해진 이동 간격마다 반복하여, 음성 프레임열(frame sequence)을 형성한다(S220). 여기서 이동 간격은 한 프레임의 시작점과 다음 프레임의 시작점 간의 거리(시간)로써, 프레임 길이의 절반 값을 가질 수 있다.
Figure pat00001
여기서, t는 음성 프레임의 인덱스를 나타내고, T는 전체 음성 프레임열을 구성하는 음성 프레임의 수를 나타낸다. 그리고 N은 한 음성 프레임의 크기를 나타내고, 일반적으로 10-20 ms 정도의 값을 가질 수 있다.
특징 추출 처리부(100)는 각 음성 프레임에 대해서 화자 검증 또는 화자 등록에 적합한 특징 벡터를 반복적으로 추출하여, 최종적으로 수학식 2와 같은 특징 파라미터열(parameter sequence)을 생성한다(S230).
Figure pat00002
여기서 특징 벡터 Xt는 화자 검증 기술에서 자주 사용되는 MFCCs(mel frequency cepstral coefficients)를 포함할 수 있다. 또한, Xt는 특징 벡터 Xt의 델타 (delta) 성분 또는 화자 검증에 적합한 임의의 특징 계수를 더 포함할 수 있다. 여기서 델타 성분은 특징 벡터 Xt의 전/후에 위치한 특징 벡터의 차분(difference) 값으로써, 음성 신호 처리에서 시간적으로 변하는 동적 특성을 나타내기 위해 사용된다. 예를 들어, 델타 성분은 dXt=Xt +2-Xt -2 일 수 있다.
도 4는 본 발명의 실시예에 따른 화자 등록 과정을 나타내는 순서도이다. 구체적으로 도 4는 도 2의 S120 과정의 구체적인 과정을 나타내는 순서도이다.
먼저, 화자 등록 처리부(200)는 새로운 k번째 제시 화자로부터 수집된 음성 신호로부터 특징 추출 처리부(100)를 통해 추출된 특징 파라미터열을 사용하여, k번째 제시 화자 모델을 생성한다. k번째 제시 화자 모델은 아래의 수학식 3과 같이 정의될 수 있다.
Figure pat00003
여기서, k는 제시화자의 인덱스를 나타내고, M은 GMM 모델의 혼합(mixture)의 수를 나타내고, wkm은 m번째 혼합의 가중치를 나타낸다. 그리고 Pkm(Xt)는 m번째 혼합에서의 특징 벡터 Xt에 대한 가우스 확률 밀도 값을 나타내는데, 일반적으로 아래의 수학식 4와 같이 정의될 수 있다.
Figure pat00004
여기서
Figure pat00005
Figure pat00006
각각은 k번째 제시 화자 모델의 m번째 가우스 혼합 확률 밀도 함수를 구성하는 평균 벡터와 공분산 행렬이고, 부호 '은 행렬의 전치(transpose)이다. 그리고 D는 특징 벡터 Xt의 차원이고,
Figure pat00007
Figure pat00008
의 역행렬이다.
그리고 k번째 제시 화자 모델의 생성 과정은, k번째 제시 화자의 음성 신호의 특징 파라미터열을 사용하여 초기 UBM 모델(또는 적응 전의 UBM 모델)을 적응시킴으로써, k번째 제시 화자 모델을 구성하는 모델 파라미터
Figure pat00009
≡ {wkm,
Figure pat00010
,
Figure pat00011
}를 생성하는 과정을 포함한다. 구체적으로, 화자 등록 처리부(200)는 먼저 특징 벡터 Xt에 대한 m번째 혼합의 사후 확률(posteriori probability)을 아래의 수학식 5와 같이 구한다(S310).
Figure pat00012
그리고 화자 등록 처리부(200)는 사후 확률 pk(m|Xt)을 이용하여, GMM의 파라미터인 혼합 가중치, 평균 벡터, 공분산 행렬의 추정치(estimate)를 구하기 위한 충분 통계량(sufficient statistics)을 아래의 수학식 6 내지 8과 같이 구한다(S320).
Figure pat00013
Figure pat00014
Figure pat00015
화자 등록 처리부(200)는 k번째 제시 화자 모델을 구성하는 모델 파라미터
Figure pat00016
의 추정치를, 충분 통계량 nkm , Ekm(X), Ekm(X2)을 이용해 초기 UBM 모델(또는 적응 전의 UBM 모델)로부터 아래의 수학식 9 내지 11과 같이 구한다(S330).
Figure pat00017
Figure pat00018
Figure pat00019
여기서
Figure pat00020
은 초기 UBM 모델(또는 적응 전의 UBM 모델)을 구성하는 GMM 파라미터이고,
Figure pat00021
는 전체 혼합 계수(예, wkm)들의 합을 1로 정규화하는 계수이다. 그리고, 적응 계수들
Figure pat00022
은 초기 UBM 모델(또는 적응 전의 UBM 모델)과 k번째 제시 화자 모델의 파라미터들 간의 균형을 제어하기 위한 용도로 사용되고, 아래의 수학식 12와 같이 정의될 수 있다.
Figure pat00023
여기서
Figure pat00024
는 GMM을 구성하는 임의의 파라미터
Figure pat00025
에 대한 고정 관계(fixed relevance) 계수로써, 통상적으로 10 정도의 값으로 정해질 수 있다.
마지막으로, 화자 등록 처리부(200)는 검증 화자 목록에 k번째 제시 화자를 등록한다(S340).
도 5는 본 발명의 실시예에 따른 UBM 모델을 적응시키는 과정을 나타내는 순서도이다. 구체적으로 도 5는 도 2의 S130 과정의 구체적인 과정을 나타낸 순서도이다.
먼저 UBM 적응 처리부(400)는 화자 등록 또는 화자 검증을 위해서 입력된 적어도 한명의 화자의 음성 신호로부터 특징 추출 처리부(100)를 통해 추출된 적어도 하나의 특징 파라미터열을, 아래의 수학식 13과 같이 적응 데이터로써 순차적으로 저장한다(S410).
Figure pat00026
여기서, Xst 는 적응 데이터에 포함된 특징 벡터로써, 최근의 주변 음향 환경을 UBM 모델에 반영하기 위해 이용된다. 그리고,
Figure pat00027
Figure pat00028
각각은 화자 s가 화자 등록 또는 화자 검증 과정에서 발성한 음성에 대응하는 특징 파라미터열 중에서 가장 최근 프레임과 T-1 번째 최근 프레임의 인덱스를 나타낸다. 그리고 S는 UBM 모델의 적응에 사용될 적응 데이터를 생성하기 위한 발성 화자의 수를 나타내고, 통상적으로 1 이상의 수로 정해질 수 있다.
그리고 UBM 적응 처리부(400)는 특징 벡터 Xst를 이용하여, 도 4의 화자 등록 과정에서 상술한 제시 화자 모델 적응 방식과 유사하게, UBM 모델을 최근 주변 음향 환경에 적응시킬 수 있다. 구체적으로, 먼저 UBM 모델에 대한 시간(또는 음성 프레임의 인덱스) t에서의 특징 벡터의 우도는 아래의 수학식 14와 같이 정의될 수 있다.
Figure pat00029
여기서,
Figure pat00030
는 제시 화자 k에 대한 UBM 모델(이하 '화자 k UBM 모델')을 구성하는 파라미터인 혼합 가중치, 평균 벡터, 공분산 행렬이다. 그리고 V(k)는 화자 k UBM 모델의 GMM 혼합의 수를 나타낸다. 그리고 각 혼합에서 특징 벡터 Xst에 대한 확률
Figure pat00031
는 아래와 수학식 15와 같이, 정의될 수 있다.
Figure pat00032
여기서, 행렬
Figure pat00033
의 대각선 요소는
Figure pat00034
이다.
그리고 UBM 적응 처리부(400)는 수학식 13에서 정의된 적응 데이터 Xst 중에서 제시 화자 k가 발성한 음성 신호에 대응하는 특징 벡터 Xkt (단,
Figure pat00035
를 적응 데이터 Xst에서 제외시킴으로써, 적응 데이터 Xst를 재구성한다(S420).
그리고 UBM 적응 처리부(400)는 재구성된 적응 데이터 Xst를 사용하여 초기 UBM 모델 또는 이전의 UBM 모델을 최근 주변 음향 환경에 적응시킨다. 구체적으로, UBM 적응 처리부(400)는 먼저 특징 벡터 Xst에 대한 v번째 혼합의 사후 확률(posteriori probability)을 아래의 수학식 16과 같이, 구한다(S430).
Figure pat00036
그리고 UBM 적응 처리부(400)는 확률 값 pk(v|Xst)을 이용하여, GMM의 파라미터인 혼합 가중치, 평균 벡터, 공분산 행렬의 추정치를 구하기 위한 충분 통계량을 아래의 수학식 17 내지 19와 같이 구한다(S440).
Figure pat00037
Figure pat00038
Figure pat00039
그리고 UBM 적응 처리부(400)는 충분 통계량
Figure pat00040
,
Figure pat00041
,
Figure pat00042
을 이용해 초기 UBM 모델(또는 이전의 UBM 모델)을 적응시켜, 주변 음향 환경에 적응된 화자 k UBM 모델을 구성하는 파라미터를 아래의 수학식 20 내지 22와 같이 추정한다(S450).
Figure pat00043
Figure pat00044
Figure pat00045
여기서,
Figure pat00046
는 초기 UBM 모델(또는 이전 UBM 모델)에 대응하고,
Figure pat00047
는 새로운 UBM 모델(즉, 주변 음향 환경에 적응된 UBM 모델)에 대응한다. 그리고
Figure pat00048
는 전체 혼합 계수들의 합을 1로 정규화 시키는 계수이고, 적응 계수들
Figure pat00049
은 초기 UBM 모델(또는 이전 UBM 모델)과 새로운 UBM 모델(적응된 UBM 모델) 간의 균형을 제어하기 위한 용도로 사용되고, 아래의 수학식 23과 같이 정의될 수 있다.
Figure pat00050
여기서
Figure pat00051
는 전체배경모델의 GMM을 구성하는 임의의 파라미터
Figure pat00052
에 대한 고정 관계 계수로써, 통상적으로 10 정도의 값으로 정해질 수 있다.
도 6는 본 발명의 실시예에 따른 화자 검증 판정 과정을 나타내는 순서도이다. 구체적으로, 도 6은 도 2의 S140 과정의 구체적인 과정을 나타내는 순서도이다.
먼저, 화자 검증 처리부(300)는 검증 화자 목록에서 검증을 하고자 하는 제시 화자를 선택한다(S510).
S510 과정에서 k번째 제시 화자가 선택된 경우에, 화자 검증 처리부(300)는 검증 대상 음성 신호로부터 추출된 특징 파라미터열(제1 특징 파라미터를 포함, 이하 '제1 특징 파라미터열')에 대한 k번째 제시 화자 모델의 우도와, 제1 특징 파라미터열에 대한 화자 k UBM 모델의 우도 간의 비율에 대한 로그값인, 로그 우도비를 추정한다(S520). 여기서, 화자 k UBM 모델은 도 5의 UBM 모델 적응 과정을 통해 최근 주변 음향 환경에 적응된 UBM 모델이다.
화자 검증 처리부(300)는 S520 과정에서 추정된 로그 우도비와 임계값을 아래 수학식 24와 같이 비교하여, 로그 우도비가 임계값보다 크면 검증 대상 음성 신호를 k번째 제시 화자의 음성으로 승인(accept)하고, 그렇지 않을 경우에는 거부(reject)한다(S530).
Figure pat00053
여기서, 수학식 24에서의 X는 검증 대상 음성 신호로부터 추출된 제1 특징 파라미터열을 나타낸다. 그리고,
Figure pat00054
는 k번째 제시 화자에 대한 화자 검증 임계값으로써, 통상적으로 0의 값을 가지지만 사용 환경에 적합하게 조율될 수 있다.
본 발명의 실시예에 따른 화자 검증 장치 및 방법을 정리하면 다음과 같다. 화자 검증 장치가 사용되는 음향 환경과, 화자 검증 장치의 훈련을 위해 사용된 음성 데이터가 반영하는 음향 환경이 다를 경우에, 화자 검증 정확도가 저하될 수 있다. 본 발명은, 화자 등록 또는 화자 검증을 위해 입력된 음성 데이터로부터 특징 파라미터열을 추출하여, 화자 별로 순차적으로 저장할 수 있다. 그리고 본 발명은, 저장된 특징 파라미터열 중에서 최근에 저장된 일부 음성 특징 파라미터열을 사용하여, 화자 검증 장치의 UBM 모델을 적응 기법을 통해 최근 주변 음향 환경에 적응시킬 수 있다. 그리고, 본 발명은, 최근 주변 음향 환경에 적응된 UBM 모델을 화자 검증을 위해 사용할 수 있다. 따라서, 본 발명의 실시예에 따르면, 주변 음향 환경이 변하는 상황에서도 화자 검증을 높은 정확도로, 효과적으로 수행할 수 있다.
한편, 본 발명의 실시예에 따른 화자 검증 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어, 컴퓨터 판독 가능 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 기록 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능 기록 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나, 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은, 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라, 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상기 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (20)

  1. GMM(Gaussian Mixture Model)에 기반한 통계 모델 방식을 이용하는 화자 검증장치의 화자 검증 방법으로서,
    제1 화자의 제1 입력 음성으로부터 추출된 적어도 하나의 제1 특징 파라미터를 이용해, 상기 제1 화자를 위한 제1 화자 GMM 모델을 생성하는 단계;
    적어도 하나의 제2 화자의 입력 음성으로부터 추출된 적어도 하나의 제2 특징 파라미터를 이용해, 상기 제1 화자에 대응하는 제1 UBM(Universal Background Model) 모델을 주변 음향 환경에 적응시키는 단계; 및
    제2 입력 음성으로부터 추출된 적어도 하나의 제3 특징 파라미터에 대한 상기 제1 UBM 모델의 제1 우도(likelihood)와 상기 제3 특징 파라미터에 대한 상기 제1 화자 GMM 모델의 제2 우도를 비교하고, 상기 비교 결과에 기초해 상기 제2 입력 음성이 상기 제1 화자의 음성인지를 판단하는 단계
    를 포함하는 화자 검증 방법.
  2. 제1항에 있어서,
    상기 제1 화자 GMM 모델을 생성하는 단계는,
    상기 제1 입력 음성을 적어도 하나의 제1 프레임으로 분할하는 단계; 및
    상기 제1 프레임으로부터 상기 제1 특징 파라미터를 추출하는 단계를 포함하는
    화자 검증 방법.
  3. 제2항에 있어서,
    상기 제1 특징 파라미터는,
    MFCCs(Mel Frequency Cepstral Coefficients)를 포함하는
    화자 검증 방법.
  4. 제3항에 있어서,
    상기 제1 화자 GMM 모델을 생성하는 단계는,
    주변 음향 환경에 적응되기 이전의 상기 제1 UBM 모델에 대응하는 제1 모델 파라미터를 상기 제1 특징 파라미터에 적응시킴으로써, 상기 제1 화자 GMM 모델에 대응하는 제2 모델 파라미터를 획득하는 단계를 더 포함하는
    화자 검증 방법.
  5. 제4항에 있어서,
    상기 제2 모델 파라미터는
    혼합(mixture) 가중치, 평균 벡터, 및 공분산 행렬을 포함하는
    화자 검증 방법.
  6. 제5항에 있어서,
    상기 제2 모델 파라미터를 획득하는 단계는,
    상기 제1 특징 파라미터에 대한 제1 GMM 혼합의 사후 확률(posteriori probability)을 추정하는 단계;
    상기 사후 확률에 기초해, 충분 통계량(sufficient statistics)을 추정하는 단계; 및
    상기 충분 통계량과 상기 제1 모델 파라미터를 이용해, 상기 제2 모델 파라미터를 계산하는 단계를 포함하는
    화자 검증 방법.
  7. 제6항에 있어서,
    상기 제1 화자 GMM 모델을 생성하는 단계는,
    상기 제1 화자에 대한 정보를 화자 목록에 등록하는 단계를 더 포함하는
    화자 검증 방법.
  8. 제1항에 있어서,
    상기 제2 화자의 입력 음성은 상기 제2 화자를 등록하기 위해 입력된 음성 및 상기 제2 화자를 검증하기 위해 입력된 음성 중 적어도 어느 하나이고,
    상기 제1 UBM 모델을 주변 음향 환경에 적응시키는 단계는,
    상기 제2 특징 파라미터를 순차적으로 포함하는 적응 데이터를 생성하는 단계;
    상기 적응 데이터에 포함된 상기 제2 특징 파라미터 중에서 상기 제1 화자에 대응하는 특징 파라미터를 상기 적응 데이터에서 제외하는 단계; 및
    주변 음향 환경에 적응되기 이전의 상기 제1 UBM 모델인 제2 UBM 모델을, 상기 적응 데이터를 이용해 최근 주변 음향 환경에 적응시키는 단계를 포함하는
    화자 검증 방법.
  9. 제8항에 있어서,
    상기 적응 데이터를 이용해 적응시키는 단계는,
    상기 적응 데이터에 포함된 상기 제2 특징 파라미터에 대한 제1 GMM 혼합의 사후 확률을 추정하는 단계;
    상기 사후 확률에 기초해, 충분 통계량을 추정하는 단계; 및
    상기 충분 통계량과 상기 제2 UBM 모델에 대응하는 제1 모델 파라미터를 이용해, 제2 모델 파라미터를 계산하는 단계를 포함하고,
    상기 제2 모델 파라미터는 주변 음향 환경에 적응된 상기 제1 UBM 모델에 대응하는
    화자 검증 방법.
  10. 제9항에 있어서,
    상기 제2 모델 파라미터는
    혼합 가중치, 평균 벡터, 및 공분산 행렬을 포함하는
    화자 검증 방법.
  11. 제1항에 있어서,
    상기 판단하는 단계는,
    상기 제1 우도와 상기 제2 우도 간의 비율에 대한 로그 값인 로그 우도비(likelihood ratio)를 계산하는 단계; 및
    상기 로그 우도비와 임계값을 비교해, 상기 제2 입력 음성이 상기 제1 화자의 음성인지를 판단하는 단계를 포함하는
    화자 검증 방법.
  12. 제11항에 있어서,
    상기 판단하는 단계는,
    화자 목록에 포함된 화자 중에서 상기 제1 화자를 선택하는 단계를 더 포함하는
    화자 검증 방법.
  13. GMM에 기반한 통계 모델 방식을 이용해 화자를 검증하는 장치로서,
    입력 음성으로부터 적어도 하나의 특징 벡터를 추출하는 특징 추출 처리부;
    상기 특징 벡터 중 제1 화자에 대응하는 적어도 하나의 제1 특징 벡터를 이용해, 제1 화자 GMM 모델을 생성하는 화자 등록 처리부;
    상기 특징 벡터 중 적어도 하나의 제2 화자에 대응하는 적어도 하나의 제2 특징 벡터를 이용해, 상기 제1 화자에 대응하는 제1 UBM 모델을 주변 음향 환경에 적응시키는 UBM 적응 처리부; 및
    상기 특징 벡터 중 화자 검증을 위해 입력된 제1 음성에 대응하는 적어도 하나의 제3 특징 벡터에 대한 상기 제1 UBM 모델의 제1 확률적 유사도와, 상기 제3 특징 벡터에 대한 상기 제1 화자 GMM 모델의 제2 확률적 유사도를 비교하여, 상기 제1 음성이 상기 제1 화자의 음성인지를 판단하는 화자 검증 처리부
    를 포함하는 화자 검증 장치.
  14. 제13항에 있어서,
    상기 화자 등록 처리부는
    상기 제1 화자에 대한 정보를 화자 목록에 등록하는
    화자 검증 장치.
  15. 제14항에 있어서,
    상기 특징 추출 처리부는,
    상기 제1 화자의 음성 신호를 적어도 하나의 제1 프레임으로 분할하고, 상기 제1 프레임으로부터 상기 제1 특징 벡터를 추출하고,
    상기 제1 특징 벡터는 MFCCs를 포함하는
    화자 검증 장치.
  16. 제15항에 있어서,
    상기 화자 등록 처리부는,
    주변 음향 환경에 적응되기 이전의 상기 제1 UBM 모델에 대응하는 제1 모델 파라미터를 상기 제1 특징 벡터에 적응시킴으로써, 상기 제1 화자 GMM 모델에 대응하는 제2 모델 파라미터를 획득하고,
    상기 제2 모델 파라미터는,
    혼합 가중치, 평균 벡터, 및 공분산 행렬을 포함하는
    화자 검증 장치.
  17. 제14항에 있어서,
    상기 UBM 적응 처리부는,
    상기 제2 특징 벡터를 순차적으로 포함하는 적응 데이터를 생성하고,
    상기 적응 데이터에 포함된 상기 제2 특징 벡터 중에서 상기 제1 화자에 대응하는 특징 벡터를 상기 적응 데이터에서 제외하고,
    주변 음향 환경에 적응되기 이전의 상기 제1 UBM 모델인 제2 UBM 모델을, 상기 적응 데이터를 이용해 최근 주변 음향 환경에 적응시키는
    화자 검증 장치.
  18. 제17항에 있어서,
    상기 UBM 적응 처리부는,
    상기 적응 데이터에 포함된 상기 제2 특징 벡터에 대한 제1 GMM 혼합의 사후 확률을 추정하고, 상기 사후 확률에 기초해 충분 통계량을 추정하고, 상기 충분 통계량과 상기 제2 UBM 모델에 대응하는 제1 모델 파라미터를 이용해, 제2 모델 파라미터를 계산하고,
    상기 제2 모델 파라미터는 주변 음향 환경에 적응된 상기 제1 UBM 모델에 대응하고, 혼합 가중치, 평균 벡터, 및 공분산 행렬을 포함하는
    화자 검증 장치.
  19. 제14항에 있어서,
    상기 화자 검증 처리부는,
    상기 화자 목록에 포함된 화자 중에서 상기 제1 화자를 선택하고, 상기 제1 확률적 유사도와 상기 제2 확률적 유사도 간의 비율에 대한 로그 값인, 로그 우도비를 계산하고, 상기 로그 우도비가 임계값보다 크면 상기 제1 음성을 상기 제1 화자의 음성으로 승인하는
    화자 검증 장치.
  20. GMM에 기반한 통계 모델 방식의 화자 검증 방법을 적어도 하나의 처리기가 실행하도록 프로그램을 기록한 기록 매체에 있어서,
    상기 화자 검증 방법은,
    제1 화자의 제1 입력 음성으로부터 추출된 적어도 하나의 제1 특징 파라미터를 이용해, 상기 제1 화자를 위한 제1 화자 GMM 모델을 생성하는 단계;
    적어도 하나의 제2 화자의 입력 음성으로부터 추출된 적어도 하나의 제2 특징 파라미터를 이용해, 상기 제1 화자에 대응하는 제1 UBM 모델을 주변 음향 환경에 적응시키는 단계; 및
    제2 입력 음성으로부터 추출된 적어도 하나의 제3 특징 파라미터에 대한 상기 제1 UBM 모델의 제1 우도와 상기 제3 특징 파라미터에 대한 상기 제1 화자 GMM 모델의 제2 우도를 비교하여, 상기 제2 입력 음성이 상기 제1 화자의 음성인지를 판단하는 단계를 포함하고,
    상기 기록 매체는 컴퓨터로 읽을 수 있는
    기록 매체.
KR1020140013852A 2014-02-06 2014-02-06 화자 검증 장치 및 방법 KR101564087B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140013852A KR101564087B1 (ko) 2014-02-06 2014-02-06 화자 검증 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140013852A KR101564087B1 (ko) 2014-02-06 2014-02-06 화자 검증 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20150093059A true KR20150093059A (ko) 2015-08-17
KR101564087B1 KR101564087B1 (ko) 2015-10-28

Family

ID=54057153

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140013852A KR101564087B1 (ko) 2014-02-06 2014-02-06 화자 검증 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101564087B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107221318A (zh) * 2017-05-12 2017-09-29 广东外语外贸大学 英语口语发音评分方法和系统
CN107274904A (zh) * 2016-04-07 2017-10-20 富士通株式会社 说话人识别方法和说话人识别设备
CN107358947A (zh) * 2017-06-23 2017-11-17 武汉大学 说话人重识别方法及系统
CN110875044A (zh) * 2018-08-30 2020-03-10 中国科学院声学研究所 一种基于字相关得分计算的说话人识别方法
CN111009248A (zh) * 2018-10-05 2020-04-14 松下电器(美国)知识产权公司 说话者识别装置、说话者识别方法及记录介质
CN112820318A (zh) * 2020-12-31 2021-05-18 西安合谱声学科技有限公司 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3451330A1 (en) 2017-08-31 2019-03-06 Thomson Licensing Apparatus and method for residential speaker recognition

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107274904A (zh) * 2016-04-07 2017-10-20 富士通株式会社 说话人识别方法和说话人识别设备
CN107221318A (zh) * 2017-05-12 2017-09-29 广东外语外贸大学 英语口语发音评分方法和系统
CN107221318B (zh) * 2017-05-12 2020-03-31 广东外语外贸大学 英语口语发音评分方法和系统
CN107358947A (zh) * 2017-06-23 2017-11-17 武汉大学 说话人重识别方法及系统
CN110875044A (zh) * 2018-08-30 2020-03-10 中国科学院声学研究所 一种基于字相关得分计算的说话人识别方法
CN110875044B (zh) * 2018-08-30 2022-05-03 中国科学院声学研究所 一种基于字相关得分计算的说话人识别方法
CN111009248A (zh) * 2018-10-05 2020-04-14 松下电器(美国)知识产权公司 说话者识别装置、说话者识别方法及记录介质
CN112820318A (zh) * 2020-12-31 2021-05-18 西安合谱声学科技有限公司 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统

Also Published As

Publication number Publication date
KR101564087B1 (ko) 2015-10-28

Similar Documents

Publication Publication Date Title
KR101564087B1 (ko) 화자 검증 장치 및 방법
JP6464650B2 (ja) 音声処理装置、音声処理方法、およびプログラム
CN107564513B (zh) 语音识别方法及装置
CN110211575B (zh) 用于数据增强的语音加噪方法及系统
KR101610151B1 (ko) 개인음향모델을 이용한 음성 인식장치 및 방법
JP4876134B2 (ja) 話者認証
US7617098B2 (en) Method of noise reduction based on dynamic aspects of speech
JP4491210B2 (ja) 再帰的構成における反復ノイズ推定法
US9224392B2 (en) Audio signal processing apparatus and audio signal processing method
CN109584884B (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
JP4245617B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US9489965B2 (en) Method and apparatus for acoustic signal characterization
JP5842056B2 (ja) 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
JP4316583B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
US20100114572A1 (en) Speaker selecting device, speaker adaptive model creating device, speaker selecting method, speaker selecting program, and speaker adaptive model making program
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
CN111326148B (zh) 置信度校正及其模型训练方法、装置、设备及存储介质
JP2006154819A (ja) 音声判別方法
WO2018051945A1 (ja) 音声処理装置、音声処理方法、および記録媒体
US10089977B2 (en) Method for system combination in an audio analytics application
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
KR20150145024A (ko) 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
JP2004310098A (ja) スイッチング状態空間型モデルによる変分推論を用いた音声認識の方法
KR20200100332A (ko) 화자 모델을 업데이트하는 음성 인식 장치, 방법 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181002

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20191002

Year of fee payment: 5