KR101925252B1 - 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치 - Google Patents

음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치 Download PDF

Info

Publication number
KR101925252B1
KR101925252B1 KR1020180061627A KR20180061627A KR101925252B1 KR 101925252 B1 KR101925252 B1 KR 101925252B1 KR 1020180061627 A KR1020180061627 A KR 1020180061627A KR 20180061627 A KR20180061627 A KR 20180061627A KR 101925252 B1 KR101925252 B1 KR 101925252B1
Authority
KR
South Korea
Prior art keywords
speaker
data
feature vector
classification data
speech
Prior art date
Application number
KR1020180061627A
Other languages
English (en)
Inventor
이태훈
Original Assignee
주식회사 공훈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 공훈 filed Critical 주식회사 공훈
Priority to KR1020180061627A priority Critical patent/KR101925252B1/ko
Application granted granted Critical
Publication of KR101925252B1 publication Critical patent/KR101925252B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치에 관한 것으로서, 본 발명의 일 실시 예에 따른 화자확인 이중화 방법은, (a) 화자로부터 발화된 단어에 대한 음성 데이터를 추출하는 단계, (b) 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값을 기초로 하여 추출된 음성 데이터를 분석하는 단계, (c) 추출된 음성 데이터를 분석한 결과값이 제 1 임계치값을 초과하는지 여부를 판단하고, 제 1 임계치값을 초과하지 않는다면 화자확인을 승인하고, 제 1 임계치값을 초과한다면 추출된 음성 데이터에 부합하는 음성 특징벡터 및 파라미터 연산값을 추정하는 단계 및 (d) 기준외 분류데이터들에 대한 참조 테이블에 추정된 음성 특징벡터 및 파라미터 연산값에 해당하는 기준외 분류데이터가 존재하는지 여부를 판단하고, 판단의 결과에 기초하여 화자확인의 승인여부를 결정하는 단계를 포함할 수 있다.

Description

음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치{SPEAKER COMFIRMATION DUALIZATION METHOD AND APPARATUS UTILIZING VOICE FEATURE VECTOR AND PARAMETER}
본 발명은 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치에 관한 것으로, 더욱 상세하게는 화자로부터 발화된 단어에 최적화된 음성 특징벡터 및 파라미터를 활용하여 화자확인을 위한 분석조건을 이중화함으로써 화자의 음성을 식별하기 위한 화자확인의 정확성을 향상시키는 방법 및 장치에 관한 것이다.
대부분의 음성 인식 기술은 음성 신호 자체를 이용하는 것이 아니라 음성 신호로부터 음성 특징벡터를 추출하는 방식을 이용한다. 음성 특징벡터를 추출하면 음성 인식을 위한 음성의 변별력을 높일 수 있으며, 음성 인식을 위한 음성 데이터의 양을 조절할 수 있다. 현재 개발되어 사용되고 있는 대표적인 음성 특징벡터에는 MFCC(Mel-Frequency Cepstral Coefficients), LPCC(Linear Prediction Cepstral Coefficients), EIH(Ensenble Interaval Histogram) 등이 있다.
이와 같은 음성 특징벡터를 이용하는 종래의 기술들은 화자로부터 발화되는 단어(문맥)에 대해 일괄적으로 특정한 음성 특징벡터(ex. MFCC)를 추출하고, 추출된 음성 특징벡터를 분석하여 화자를 인식하는 방식을 사용하고 있다. 그러나, 종래의 기술들은 화자로부터 발화되는 단어(문맥)를 구성하는 음소요소(ex. 자음, 모음, 유성음, 묵음 등)을 고려하지 않고 일괄적으로 하나의 음성 특징벡터를 추출하므로, 화자 및 화자로부터 발화되는 단어(문맥)별로 최적화된 음성 특징을 추출하여 분석할 수 없어 음성 인식의 정확도를 향상시키는데에 한계가 존재한다.
또한, 전술한 종래의 기술들과 같은 방식은 사람의 신체적 또는 감정적 변화에 따라 가변하는 음성의 속성으로 인해 준거기준을 명확히 설정할 수 없어서 음성 인식을 위한 임계치를 두어야 한다. 다만, 임계치를 좁게 할 경우 화자확인은 정교할 수 있으나 본임임에도 불구하고 본인으로 허용하지 않는 거부율(False Rejection Rate, FRR)이 높아지고, 반대로 임계치를 넓게 할 경우 본인이 아님에도 본인으로 오인하는 수락률(False Acceptance Rate, FAR)이 높아지는 문제가 발생한다. 즉, 종래의 기술들은 사람의 음성의 가변적 속성을 적절히 반영하여 음성을 인식하지 못하는 한계가 존재한다.
이에 따라, 종래의 기술들은 화자 인식 과정을 반복 수행하거나 음절수를 활용하여 화자확인 과정을 추가 수행하는 등의 기술개발을 통해 음성 인식률 향상을 위한 노력을 기울이고 있으나 전술한 한계로 인해 여전히 화자확인의 정확도를 종래 대비 현저히 향상시키기 어려운 문제가 있다.
대한민국 등록특허공보 제10-0523905호 (2005.10.18)
본 발명은 전술한 바와 같은 문제점을 해결하기 위한 것으로서, 화자 및 음성별로 최적화된 음성 특징벡터와 파라미터를 활용하여 화자확인의 결정조건을 이중화함으로써 음성을 식별(인증)하기 위한 화자확인의 정확도를 종래 대비 보다 향상시킬 수 있는 방법 및 장치를 제공함에 목적이 있다.
또한, 화자확인을 승인하는 과정에서 도출된 화자로부터 발화된 특정 단어에 대한 음성 데이터를 학습하고 음성 특징벡터와 파라미터의 최적화에 이용함으로써, 사람의 신체적 또는 감정적 변화 등에 따라 가변하는 음성의 속성에 빠르게 적응할 수 있으며, 이를 통해 화자확인의 정확도를 지속적으로 향상시킬 수 있는 방법 및 장치를 제공함에 목적이 있다.
본 발명의 일 실시 예에 따른 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법은, (a) 화자로부터 발화된 단어에 대한 음성 데이터를 추출하는 단계, (b) 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값을 기초로 하여 추출된 음성 데이터를 분석하는 단계, (c) 추출된 음성 데이터를 분석한 결과값이 제 1 임계치값을 초과하는지 여부를 판단하고, 제 1 임계치값을 초과하지 않는다면 화자확인을 승인하고, 제 1 임계치값을 초과한다면 추출된 음성 데이터에 부합하는 음성 특징벡터 및 파라미터 연산값을 추정하는 단계 및 (d) 기준외 분류데이터들에 대한 참조 테이블에 추정된 음성 특징벡터 및 파라미터 연산값에 해당하는 기준외 분류데이터가 존재하는지 여부를 판단하고, 판단의 결과에 기초하여 화자확인의 승인여부를 결정하는 단계를 포함하되, 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값은 화자로부터 발화된 단어에 부합하는 음성 특징벡터 및 파라미터 연산값으로서, 머신러닝을 이용하여 미리 학습된 결과값에 해당하며, 참조 테이블에는 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값을 기초로 하여 기준 분류데이터와 기준외 분류데이터들 간의 상관관계를 도출한 결과값들이 테이블 형태로 저장될 수 있다.
본 발명의 일 실시 예에 따른 (d) 단계에서는, 참조 테이블에 추정된 음성 특징벡터 및 파라미터 연산값에 해당하는 기준외 분류데이터가 존재하지 않는다면 화자확인의 승인을 거부하고, 존재한다면 참조 테이블에 저장된 기준외 분류 데이터에 대한 상관관계 도출값이 제 2 임계치값을 초과하는지 여부를 판단할 수 있다.
본 발명의 일 실시 예에 따른 (d) 단계에서는, 참조 테이블에 저장된 기준외 분류 데이터에 대한 상관관계 도출값이 제 2 임계치값을 초과하지 않는다면 화자확인을 승인하고, 제 2 임계치값을 초과한다면 화자확인의 승인을 거부할 수 있다.
본 발명의 일 실시 예에 따른 (c) 단계 또는 (d) 단계에서 화자확인을 승인하는 경우, 추출된 음성 데이터는 데이터베이스에 저장되고, 저장된 음성 데이터는 기준 분류데이터 및 기준외 분류데이터의 재분류를 위한 학습 과정에 사용될 수 있다.
본 발명의 일 실시 예에 따른 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 장치는, 화자로부터 발화된 단어에 대한 음성 데이터를 추출하는 음성 데이터 추출부, 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값을 기초로 하여 추출된 음성 데이터를 분석하는 음성 데이터 분석부, 추출된 음성 데이터를 분석한 결과값이 제 1 임계치값을 초과하는지 여부를 판단하고, 제 1 임계치값을 초과하지 않는다면 화자확인을 승인하고, 제 1 임계치값을 초과한다면 추출된 음성 데이터에 부합하는 음성 특징벡터 및 파라미터 연산값을 추정하는 제 1 화자확인 결정부 및 기준외 분류데이터들에 대한 참조 테이블에 추정된 음성 특징벡터 및 파라미터 연산값에 해당하는 기준외 분류데이터가 존재하는지 여부를 판단하고, 판단의 결과에 기초하여 화자확인의 승인여부를 결정하는 제 2 화자확인 결정부를 포함하되, 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값은 화자로부터 발화된 단어에 부합하는 음성 특징벡터 및 파라미터 연산값으로서, 머신러닝을 이용하여 미리 학습된 결과값에 해당하며, 참조 테이블에는 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값을 기초로 하여 기준 분류데이터와 기준외 분류데이터들 간의 상관관계를 도출한 결과값들이 테이블 형태로 저장될 수 있다.
본 발명의 일 실시 예에 따른 제 2 화자확인 결정부에서는, 참조 테이블에 추정된 음성 특징벡터 및 파라미터 연산값에 해당하는 기준외 분류데이터가 존재하지 않는다면 화자확인의 승인을 거부하고, 존재한다면 참조 테이블에 저장된 기준외 분류 데이터에 대한 상관관계 도출값이 제 2 임계치값을 초과하는지 여부를 판단할 수 있다.
본 발명의 일 실시 예에 따른 제 2 화자확인 결정부에서는, 참조 테이블에 저장된 기준외 분류 데이터에 대한 상관관계 도출값이 제 2 임계치값을 초과하지 않는다면 화자확인을 승인하고, 제 2 임계치값을 초과한다면 화자확인의 승인을 거부할 수 있다.
본 발명의 일 실시 예에 따른 제 1 화자확인 결정부 또는 제 2 화자확인 결정부에서 화자확인을 승인하는 경우, 추출된 음성 데이터는 데이터베이스에 저장되고, 저장된 음성 데이터는 기준 분류데이터 및 기준외 분류데이터의 재분류를 위한 학습 과정에 사용될 수 있다.
한편, 본 발명의 일 실시 예에 의하면, 전술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.
본 발명의 일 실시 예로서 제공되는 화자확인 이중화 방법 및 장치에 따르면, 화자 및 음성별로 최적화된 음성 특징벡터와 파라미터를 활용하여 화자확인의 결정조건을 이중화함으로써, 화자확인 과정의 정확도를 종래 대비 대폭 향상시킬 수 있다.
또한, 화자확인의 승인 과정에서 저장되는 음성 데이터들을 음성 특징벡터 및 파라미터를 최적화하는 학습과정에 활용함으로써, 신체적 또는 감정적 변화 등에 따라 변화하는 음성의 가변적 속성에 빠르게 적응할 수 있다. 이를 통해, 화자확인 과정의 정확도를 지속적으로 향상시켜 나갈 수 있고, 화자확인의 신뢰성을 보다 향상시킬 수 있으며, 종래 대비 개선된 음성 인증 시스템을 구축할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법을 나타낸 순서도이다.
도 2a는 본 발명의 일 실시 예에 따른 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법의 1차 결정 과정을 나타낸 순서도이다.
도 2b는 본 발명의 일 실시 예에 따른 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법의 2차 결정 과정을 나타낸 순서도이다.
도 3은 본 발명의 일 실시 예에 따른 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 장치를 나타낸 블록도이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시 예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시 예에 따른 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법을 나타낸 순서도이다.
또한, 도 2a는 본 발명의 일 실시 예에 따른 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법의 1차 결정 과정을 나타낸 순서도이며, 도 2b는 본 발명의 일 실시 예에 따른 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법의 2차 결정 과정을 나타낸 순서도이다.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법은, (a) 화자로부터 발화된 단어에 대한 음성 데이터를 추출하는 단계(S100), (b) 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값을 기초로 하여 추출된 음성 데이터를 분석하는 단계(S200), (c) 추출된 음성 데이터를 분석한 결과값이 제 1 임계치값을 초과하는지 여부를 판단하고, 제 1 임계치값을 초과하지 않는다면 화자확인을 승인하고, 제 1 임계치값을 초과한다면 추출된 음성 데이터에 부합하는 음성 특징벡터 및 파라미터 연산값을 추정하는 단계(S300) 및 (d) 기준외 분류데이터들에 대한 참조 테이블에 추정된 음성 특징벡터 및 파라미터 연산값에 해당하는 기준외 분류데이터가 존재하는지 여부를 판단하고, 판단의 결과에 기초하여 화자확인의 승인여부를 결정하는 단계(S400)를 포함할 수 있다.
본 발명의 일 실시 예에 따른 기준 분류데이터는 특정 특징벡터 및 파라미터를 기초로 하여 동일 단어별로 분류된 음성데이터들 중 누적값이 소정의 기준값 이상인 음성데이터 분류군을 말하며, 기준외 분류데이터는 기준 분류데이터를 제외한 나머지 음성데이터 분류군을 말한다. 이러한 기준 분류 데이터 및 기준외 분류데이터는 미리 설정되어 데이터베이스(500) 상에 저장될 수 있다.
이때, 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값은 화자로부터 발화된 단어에 부합하는 음성 특징벡터 및 파라미터 연산값으로서, 머신러닝을 이용하여 미리 학습된 결과값에 해당할 수 있다. 즉, 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값은 특정 단어의 기준 분류데이터에 최적화된 음성 특징벡터 및 파라미터의 연산값을 말한다. 머신러닝을 이용한 학습은 음성 특징벡터 및 파라미터들과 기준 분류데이터 간의 정규화 값에 대한 비교 분석 과정(ex. 정규화 값의 분포 정도를 비교)으로 이해될 수 있다. 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값은 이러한 학습 과정을 통해 미리 도출되어 데이터베이스(500) 상에 행렬 형태(matrix) 형태로 저장될 수 있다. 행렬 형태는 NxM (N,M은 동일하거나 상이한 양의 정수) 형태로 구성될 수 있다.
본 발명의 일 실시 예에 따른 (a) 단계(S100)에서 화자로부터 발화되는 단어는 임의의 단어가 아닌 데이터베이스(500) 상에 행렬 형태(matrix)로 저장된 단어 중 어느 하나일 수 있다. 다시 말해서, 데이터베이스(500) 상에 행렬 형태로 저장된 단어 중 어느 하나가 음성 인식 단말(ex. 스마트폰, 인공지능 스피커 등)을 통해 화자에게 제시되면, 화자는 제시된 단어를 발화함으로써 음성 인증을 위한 화자확인 과정을 개시할 수 있다(S110). 전술하였듯이 데이터베이스(500) 상에는 특정 단어별로 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값을 포함한 정보가 행렬 형태로 저장되어 있으며, 이를 활용하여 화자인식 이중화 과정이 수행되므로, 데이터베이스(500) 상에 저장된 특정 단어(i.e. 제시어)가 화자로부터 발화되어야만 본 발명의 일 실시 예에 따른 화자확인 과정이 수행될 수 있다.
본 발명의 일 실시 예에 따른 (b) 단계(S200)에서는 데이터베이스(500) 상에 저장된 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값과 (a) 단계를 통해 추출된 음성 데이터의 비교분석이 수행될 수 있다. 이는 화자로부터 발화된 단어에 최적화된 음성 특징벡터 및 파라미터 연산값을 이용하여 (a) 단계(S100)를 통해 추출된 음성 데이터(i.e. 화자로부터 발화된 단어의 음성 데이터)의 음성 특징벡터 및 파라미터 연산값을 도출하는 과정일 수 있다. 다시 말해서, (b) 단계(S200)를 통해 얻은 분석의 결과값은 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값을 기초로 하여 도출한 (a) 단계(S100)를 통해 추출된 음성 데이터에 대한 음성 특징벡터 및 파라미터 연산값일 수 있다.
도 2a를 참조하면, 본 발명의 일 실시 예에 따른 (c) 단계(S300)는 전술한 (b) 단계(S200)의 결과값을 기초로 화자확인 승인여부를 결정하는 1차 결정 단계로 이해될 수 있다. 이때, 결정의 기준 조건에 해당하는 제 1 임계치값은 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값을 기준으로 설정되는 값일 수 있다. 기준 분류데이터는 화자의 현재 상태(ex. 신체적 상태, 감정적 상태 등)를 가장 잘 반영하는 음성데이터 분류군이므로, (b) 단계(S200)의 결과값이 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값과 유사할수록 화자 본인일 확률이 높음을 의미한다. 따라서, 제 1 임계치값은 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값을 기준으로 설정될 수 있다.
본 발명의 일 실시 예에 따른 (c) 단계(S300)에서는 전술한 제 1 임계치값을 초과하는지 여부에 따라 화자확인의 승인여부가 결정될 수 있다. 먼저, 본 발명의 일 실시 예에 따라 (b) 단계의 결과값이 제 1 임계치값을 초과하지 않는 경우(i.e. 제 1 임계치값 이하인 경우)에는 화자확인의 승인이 결정될 수 있다(S320). 제 1 임계치값을 초과하지 않는다는 것은 제 1 임계치값에 포함된다는 것을 의미하며, 이는 곧 화자 본인일 확률이 높다는 것을 의미한다. 따라서, (b) 단계(S200)의 결과값이 제 1 임계치값 이하인 경우, 화자확인이 승인될 수 있다(S320).
도 2a를 참조하면, 본 발명의 일 실시 예에 따라 (b) 단계(S200)의 결과값이 제 1 임계치값을 초과하는 경우, 화자확인 승인을 위한 2차 결정 단계로의 준비 단계가 수행될 수 있다. 즉, 화자확인 승인여부를 결정하는 2차 결정 단계를 위해 (a) 단계(S100)에서 추출된 음성 데이터에 부합하는 음성 특징벡터 및 파라미터 연산값이 추정될 수 있다(S330). 이때, 음성 데이터에 부합하는 음성 특징벡터 및 파라미터 연산값이란 음성 데이터에 최적화된 특징벡터 및 파라미터 연산값을 의미할 수 있다. 음성 데이터에 부합하는 음성 특징벡터 및 파라미터 연산값은 전술한 기준 분류데이터에 최적화된 음성 특징벡터 및 파라미터 연산값을 추정하는 과정과 동일한 과정(i.e. 정규화 값에 대한 비교 분석 과정)을 통해 추정될 수 있다.
도 1 및 도 2b를 참조하면, 본 발명의 일 실시 예에 따라 (c) 단계(i.e. 1차 결정 단계)(S300)가 수행되어 화자확인의 승인이 거부되면, 음성 데이터에 부합하는 음성 특징벡터 및 파라미터 연산값과 참조 테이블에 포함된 기준외 분류데이터 및 기준외 분류데이터에 대한 상관관계 도출값을 활용하여 화자확인 승인여부를 결정하는 2차 결정 단계인 (d) 단계(S400)가 수행될 수 있다. 이때, 기준외 분류데이터에 대한 상관관계 도출값은 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값을 기초로 하여 기준 분류데이터와 기준외 분류데이터들 간의 상관관계를 도출한 결과값들을 말하며, 참조 테이블에 테이블 형태로 저장될 수 있다. 참조 테이블에는 기준외 분류데이터, 기준외 분류데이터 각각에 부합하는 음성 특징벡터 및 파라미터 연산값(i.e. 기준외 분류데이터에 최적화된 음성 특징벡터 및 파라미터 연산값) 및 상관관계 도출값이 포함될 수 있으며, 이러한 참조 테이블은 미리 도출되어 데이터베이스(500) 상에 저장될 수 있다.
도 2b를 참조하면, 본 발명의 일 실시 예에 따른 (d) 단계(S400)에서는, 참조 테이블에 추정된 음성 특징벡터 및 파라미터 연산값에 해당하는 기준외 분류데이터가 존재하지 않는다면 화자확인의 승인을 거부하고(S460), 존재한다면 참조 테이블에 저장된 기준외 분류 데이터에 대한 상관관계 도출값이 제 2 임계치값을 초과하는지 여부를 판단할 수 있다(S440). 판단 결과에 따라 참조 테이블에 저장된 기준외 분류 데이터에 대한 상관관계 도출값이 제 2 임계치값을 초과하지 않는다면 화자확인을 승인하고(S450), 제 2 임계치값을 초과한다면 화자확인의 승인을 거부할 수 있다(S460).
즉, 본 발명의 일 실시 예에 따른 (d) 단계(S400)에서는 (c) 단계(S300)에서 추출된 음성 데이터에 부합하는 음성 특징벡터 및 파라미터 연산값과 동일한 기준외 분류데이터에 부합하는 음성 특징벡터 및 파라미터 연산값이 참조 테이블에 존재하는지 여부가 먼저 판단될 수 있다(S420). 화자확인을 위한 2차 결정 과정으로서 동일한 연산값이 존재하는 경우에는 해당 기준외 분류데이터에 대한 상관관계 도출값을 추출하여 상관관계 도출값이 제 2 임계치값을 초과하는지 여부가 판단될 수 있다(S440). 이때, 제 2 임계치값은 기준 분류데이터에 부합하는 특징벡터 및 파라미터 연산값과 유사한 정도를 나타내는 상관관계 범위값일 수 있다.
도 2b를 참조하면, 전술한 판단 결과에 따라 화자확인의 승인 여부가 최종적으로 결정될 수 있다. 상관관계 도출값이 제 2 임계치값을 초과하는 경우(i.e. 제 2 임계치값의 범위를 상관관계 도출값이 벗어나는 경우)에는 화자확인의 승인이 거부될 수 있다(S460). 상관관계 도출값이 제 2 임계치값 이하인 경우(i.e. 제 2 임계치값의 범위 내에 상관관계 도출값이 포함되는 경우)에는 화자확인의 승인이 결정될 수 있다(S450).
도 2a 및 도 2b를 참조하면, 본 발명의 일 실시 예에 따른 (c) 단계(S300) 또는 (d) 단계(S400)에서 화자확인을 승인하는 경우, 추출된 음성 데이터는 데이터베이스(500)에 저장되고(S510), 저장된 음성 데이터는 기준 분류데이터 및 기준외 분류데이터의 재분류를 위한 학습 과정에 사용될 수 있다(S520). 기준 분류데이터는 화자의 현재 상태(ex. 신체적 상태, 감정적 상태 등)를 가장 잘 반영하는 음성데이터 분류군이므로, 최초 저장값으로 고정되어 화자확인을 위한 과정에서 활용되는 경우에는 화자의 상태 변화에 따른 음성의 변화를 적절히 반영하지 못하는 문제가 발생할 수 있다. 즉, 화자의 상태 변화에 따른 음성의 변화를 최대한 반영하여 음성 인증을 위한 화자확인의 정확도를 더욱 높이기 위해서는 기준 분류데이터 및 기준외 분류데이터의 재분류를 위한 학습 과정이 반드시 수행되어야 한다. 이때, 재분류를 위한 학습 과정에는 화자확인의 승인이 결정되었을 때 도출된 음성 데이터가 데이터베이스(500)에 저장되어 사용될 수 있다.
도 3은 본 발명의 일 실시 예에 따른 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 장치(1000)를 나타낸 블록도이다.
도 3을 참조하면, 본 발명의 일 실시 예에 따른 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 장치(1000)는, 화자로부터 발화된 단어에 대한 음성 데이터를 추출하는 음성 데이터 추출부(100), 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값을 기초로 하여 추출된 음성 데이터를 분석하는 음성 데이터 분석부(200), 추출된 음성 데이터를 분석한 결과값이 제 1 임계치값을 초과하는지 여부를 판단하고, 제 1 임계치값을 초과하지 않는다면 화자확인을 승인하고, 제 1 임계치값을 초과한다면 추출된 음성 데이터에 부합하는 음성 특징벡터 및 파라미터 연산값을 추정하는 제 1 화자확인 결정부(300) 및 기준외 분류데이터들에 대한 참조 테이블에 추정된 음성 특징벡터 및 파라미터 연산값에 해당하는 기준외 분류데이터가 존재하는지 여부를 판단하고, 판단의 결과에 기초하여 화자확인의 승인여부를 결정하는 제 2 화자확인 결정부(400)를 포함하되, 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값은 화자로부터 발화된 단어에 부합하는 음성 특징벡터 및 파라미터 연산값으로서, 머신러닝을 이용하여 미리 학습된 결과값에 해당하며, 참조 테이블에는 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값을 기초로 하여 기준 분류데이터와 기준외 분류데이터들 간의 상관관계를 도출한 결과값들이 테이블 형태로 저장될 수 있다.
본 발명의 일 실시 예에 따른 제 2 화자확인 결정부(400)에서는, 참조 테이블에 추정된 음성 특징벡터 및 파라미터 연산값에 해당하는 기준외 분류데이터가 존재하지 않는다면 화자확인의 승인을 거부하고, 존재한다면 참조 테이블에 저장된 기준외 분류 데이터에 대한 상관관계 도출값이 제 2 임계치값을 초과하는지 여부를 판단할 수 있다.
본 발명의 일 실시 예에 따른 제 2 화자확인 결정부(400)에서는, 참조 테이블에 저장된 기준외 분류 데이터에 대한 상관관계 도출값이 제 2 임계치값을 초과하지 않는다면 화자확인을 승인하고, 제 2 임계치값을 초과한다면 화자확인의 승인을 거부할 수 있다.
본 발명의 일 실시 예에 따른 제 1 화자확인 결정부(300) 또는 제 2 화자확인 결정부(400)에서 화자확인을 승인하는 경우, 추출된 음성 데이터는 데이터베이스(500)에 저장되고, 저장된 음성 데이터는 기준 분류데이터 및 기준외 분류데이터의 재분류를 위한 학습 과정에 사용될 수 있다.
본 발명의 일 실시 예에 따른 장치와 관련하여서는 전술한 방법에 대한 내용이 적용될 수 있다. 따라서, 장치와 관련하여, 전술한 방법에 대한 내용과 동일한 내용에 대하여는 설명을 생략하였다.
한편, 본 발명의 일 실시 예에 의하면, 전술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다. 다시 말해서, 전술한 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터 판독 가능 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 방법에서 사용된 데이터의 구조는 컴퓨터 판독 가능 매체에 여러 수단을 통하여 기록될 수 있다. 본 발명의 다양한 방법들을 수행하기 위한 실행 가능한 컴퓨터 프로그램이나 코드를 기록하는 기록 매체는, 반송파(carrier waves)나 신호들과 같이 일시적인 대상들은 포함하는 것으로 이해되지는 않아야 한다. 상기 컴퓨터 판독 가능 매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, DVD 등)와 같은 저장 매체를 포함할 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 음성 데이터 추출부 200: 음성 데이터 분석부
300: 제 1 화자확인 결정부 400: 제 2 화자확인 결정부
500: 데이터베이스
1000: 화자확인 이중화 장치

Claims (9)

  1. 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법에 있어서,
    (a) 화자로부터 발화된 단어에 대한 음성 데이터를 추출하는 단계;
    (b) 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값을 기초로 하여 상기 추출된 음성 데이터를 분석하는 단계;
    (c) 상기 추출된 음성 데이터를 분석한 결과값이 제 1 임계치값을 초과하는지 여부를 판단하고, 상기 제 1 임계치값을 초과하지 않는다면 화자확인을 승인하고, 상기 제 1 임계치값을 초과한다면 상기 추출된 음성 데이터에 부합하는 음성 특징벡터 및 파라미터 연산값을 추정하는 단계; 및
    (d) 기준외 분류데이터들에 대한 참조 테이블에 상기 추정된 음성 특징벡터 및 파라미터 연산값에 해당하는 기준외 분류데이터가 존재하는지 여부를 판단하고, 상기 판단의 결과에 기초하여 상기 화자확인의 승인여부를 결정하는 단계를 포함하되,
    상기 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값은 상기 화자로부터 발화된 단어에 부합하는 음성 특징벡터 및 파라미터 연산값으로서, 머신러닝을 이용하여 미리 학습된 결과값에 해당하며,
    상기 참조 테이블에는 상기 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값을 기초로 하여 상기 기준 분류데이터와 기준외 분류데이터들 간의 상관관계를 도출한 결과값들이 테이블 형태로 저장되며,
    상기 (d) 단계에서는, 상기 참조 테이블에 상기 추정된 음성 특징벡터 및 파라미터 연산값에 해당하는 기준외 분류데이터가 존재하지 않는다면 상기 화자확인의 승인을 거부하고, 존재한다면 상기 참조 테이블에 저장된 상기 기준외 분류데이터에 대한 상관관계 도출값이 제 2 임계치값을 초과하는지 여부를 판단하는 것을 특징으로 하는 화자확인 이중화 방법.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 (d) 단계에서는,
    상기 참조 테이블에 저장된 상기 기준외 분류데이터에 대한 상관관계 도출값이 상기 제 2 임계치값을 초과하지 않는다면 상기 화자확인을 승인하고, 상기 제 2 임계치값을 초과한다면 상기 화자확인의 승인을 거부하는 것을 특징으로 하는 화자확인 이중화 방법.
  4. 제 1 항에 있어서,
    상기 (c) 단계 또는 (d) 단계에서 상기 화자확인을 승인하는 경우, 상기 추출된 음성 데이터는 데이터베이스에 저장되고, 상기 저장된 음성 데이터는 상기 기준 분류데이터 및 기준외 분류데이터의 재분류를 위한 학습 과정에 사용되는 것을 특징으로 하는 화자확인 이중화 방법.
  5. 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 장치에 있어서,
    화자로부터 발화된 단어에 대한 음성 데이터를 추출하는 음성 데이터 추출부;
    기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값을 기초로 하여 상기 추출된 음성 데이터를 분석하는 음성 데이터 분석부;
    상기 추출된 음성 데이터를 분석한 결과값이 제 1 임계치값을 초과하는지 여부를 판단하고, 상기 제 1 임계치값을 초과하지 않는다면 화자확인을 승인하고, 상기 제 1 임계치값을 초과한다면 상기 추출된 음성 데이터에 부합하는 음성 특징벡터 및 파라미터 연산값을 추정하는 제 1 화자확인 결정부; 및
    기준외 분류데이터들에 대한 참조 테이블에 상기 추정된 음성 특징벡터 및 파라미터 연산값에 해당하는 기준외 분류데이터가 존재하는지 여부를 판단하고, 상기 판단의 결과에 기초하여 상기 화자확인의 승인여부를 결정하는 제 2 화자확인 결정부를 포함하되,
    상기 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값은 상기 화자로부터 발화된 단어에 부합하는 음성 특징벡터 및 파라미터 연산값으로서, 머신러닝을 이용하여 미리 학습된 결과값에 해당하며,
    상기 참조 테이블에는 상기 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값을 기초로 하여 상기 기준 분류데이터와 기준외 분류데이터들 간의 상관관계를 도출한 결과값들이 테이블 형태로 저장되며,
    상기 제 2 화자확인 결정부에서는, 상기 참조 테이블에 상기 추정된 음성 특징벡터 및 파라미터 연산값에 해당하는 기준외 분류데이터가 존재하지 않는다면 상기 화자확인의 승인을 거부하고, 존재한다면 상기 참조 테이블에 저장된 상기 기준외 분류데이터에 대한 상관관계 도출값이 제 2 임계치값을 초과하는지 여부를 판단하는 것을 특징으로 하는 화자확인 이중화 장치.
  6. 삭제
  7. 제 5 항에 있어서,
    상기 제 2 화자확인 결정부에서는,
    상기 참조 테이블에 저장된 상기 기준외 분류데이터에 대한 상관관계 도출값이 상기 제 2 임계치값을 초과하지 않는다면 상기 화자확인을 승인하고, 상기 제 2 임계치값을 초과한다면 상기 화자확인의 승인을 거부하는 것을 특징으로 하는 화자확인 이중화 장치.
  8. 제 5 항에 있어서,
    상기 제 1 화자확인 결정부 또는 제 2 화자확인 결정부에서 상기 화자확인을 승인하는 경우, 상기 추출된 음성 데이터는 데이터베이스에 저장되고, 상기 저장된 음성 데이터는 상기 기준 분류데이터 및 기준외 분류데이터의 재분류를 위한 학습 과정에 사용되는 것을 특징으로 하는 화자확인 이중화 장치.
  9. 제 1 항, 제 3 항 또는 제 4 항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
KR1020180061627A 2018-05-30 2018-05-30 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치 KR101925252B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180061627A KR101925252B1 (ko) 2018-05-30 2018-05-30 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180061627A KR101925252B1 (ko) 2018-05-30 2018-05-30 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치

Publications (1)

Publication Number Publication Date
KR101925252B1 true KR101925252B1 (ko) 2018-12-04

Family

ID=64668966

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180061627A KR101925252B1 (ko) 2018-05-30 2018-05-30 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101925252B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200142666A (ko) * 2019-06-13 2020-12-23 대한민국(관리부서: 행정안전부 국립과학수사연구원장) 음성파일에 대한 화자인식장치 및 음성파일에 대한 화자인식시스템 그리고 음성파일에 대한 화자인식방법
KR102547000B1 (ko) * 2022-07-07 2023-06-23 주식회사 액션파워 화자 감정 분석에 기초하여 화자 인증을 개선하는 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001083984A (ja) * 1999-09-09 2001-03-30 Alpine Electronics Inc インタフェース装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001083984A (ja) * 1999-09-09 2001-03-30 Alpine Electronics Inc インタフェース装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200142666A (ko) * 2019-06-13 2020-12-23 대한민국(관리부서: 행정안전부 국립과학수사연구원장) 음성파일에 대한 화자인식장치 및 음성파일에 대한 화자인식시스템 그리고 음성파일에 대한 화자인식방법
KR102203161B1 (ko) * 2019-06-13 2021-01-14 대한민국 음성파일에 대한 화자인식장치 및 음성파일에 대한 화자인식시스템 그리고 음성파일에 대한 화자인식방법
KR102547000B1 (ko) * 2022-07-07 2023-06-23 주식회사 액션파워 화자 감정 분석에 기초하여 화자 인증을 개선하는 방법

Similar Documents

Publication Publication Date Title
JP7152514B2 (ja) 声紋識別方法、モデルトレーニング方法、サーバ、及びコンピュータプログラム
US10366693B2 (en) Acoustic signature building for a speaker from multiple sessions
JP2982870B2 (ja) 話者識別方法および話者認識装置
US20180158464A1 (en) Blind Diarization of Recorded Calls With Arbitrary Number of Speakers
EP2048656B1 (en) Speaker recognition
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
Zheng et al. Robustness-related issues in speaker recognition
JPS6217240B2 (ko)
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
KR101618512B1 (ko) 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법
CN110942776B (zh) 一种基于gru的音频防拼接检测方法及系统
CN110491375B (zh) 一种目标语种检测的方法和装置
CN116490920A (zh) 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质
JP4717872B2 (ja) 話者の音声特徴情報を利用した話者情報獲得システム及びその方法
KR101925252B1 (ko) 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치
CN118173094B (zh) 结合动态时间规整的唤醒词识别方法、装置、设备及介质
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
CN110875044B (zh) 一种基于字相关得分计算的说话人识别方法
KR102098956B1 (ko) 음성인식장치 및 음성인식방법
KR20040068548A (ko) 행동 모델을 사용한 비-개입적 화자 인증 방법 및 시스템
KR102547000B1 (ko) 화자 감정 분석에 기초하여 화자 인증을 개선하는 방법
KR101925248B1 (ko) 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법 및 장치
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
US11929077B2 (en) Multi-stage speaker enrollment in voice authentication and identification
CN112530441A (zh) 合法用户的验证方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant