KR20200114697A - Speaker authentication method and system using cross validation - Google Patents
Speaker authentication method and system using cross validation Download PDFInfo
- Publication number
- KR20200114697A KR20200114697A KR1020190036870A KR20190036870A KR20200114697A KR 20200114697 A KR20200114697 A KR 20200114697A KR 1020190036870 A KR1020190036870 A KR 1020190036870A KR 20190036870 A KR20190036870 A KR 20190036870A KR 20200114697 A KR20200114697 A KR 20200114697A
- Authority
- KR
- South Korea
- Prior art keywords
- value
- speaker
- cross
- validation
- voice
- Prior art date
Links
- 238000002790 cross-validation Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000012795 verification Methods 0.000 claims description 38
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000010200 validation analysis Methods 0.000 abstract description 2
- 238000012790 confirmation Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000013480 data collection Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Collating Specific Patterns (AREA)
Abstract
Description
본 발명은 교차 검증을 이용한 음성 인증 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 음성 인증을 위한 모델들의 교차 검증을 통해 적은 데이터 양으로도 화자의 발성 변화를 구별하고 화자를 확인할 수 있는 방법 및 장치에 관한 것이다.The present invention relates to a voice authentication method and device thereof using cross-validation, and more particularly, to a method for distinguishing a change in a speaker's vocalization with a small amount of data through cross-validation of models for voice authentication and to identify a speaker, and It relates to the device.
종래의 음성 인증 장치는 화자로부터 발화된 음성의 특징을 모델링하여 발화 대상자가 진정한 화자인지 여부를 판단한다. 이러한 종래의 장치를 통한 본인 인증 과정은 화자로부터 발화된 음성을 분석한 결과가 확률적 유사성이 설정된 임계치를 초과하는지에 대한 판단을 통해 수행된다.The conventional voice authentication apparatus determines whether or not the person to be spoken is a true speaker by modeling the characteristics of the voice uttered by a speaker. The user authentication process through such a conventional device is performed by determining whether the result of analyzing the speech spoken by the speaker exceeds a set threshold.
종래의 음성 인증 장치는 누적되는 음성 데이터를 이용한 특징 학습을 통해 인증의 정확도를 높일 수 있으므로, 정확한 화자 확인(i.e. 본인 인증)을 위해서는 많은 양의 음성 데이터가 요구된다. 다시 말해서, 종래의 장치는 모델링을 위한 학습 데이터의 양이 적을 경우에는 본인 인증을 위한 판단의 정확성이 현저히 떨어질 수 밖에 없고, 화자 발성의 변화를 정확하게 구별하지 못하는 문제가 존재한다. 이러한 문제를 극복하기 위해서 많은 양의 음성 데이터를 수집하는 방안을 고려해볼 수도 있으나, 이를 위해서는 현실적으로 많은 시간 및 비용 등이 소요될 수 밖에 없다.Since the conventional voice authentication apparatus can increase the accuracy of authentication through feature learning using accumulated voice data, a large amount of voice data is required for accurate speaker identification (i.e. identity authentication). In other words, in the conventional apparatus, when the amount of learning data for modeling is small, the accuracy of judgment for self-authentication is inevitably degraded, and there is a problem in that the change of speaker's speech cannot be accurately distinguished. In order to overcome this problem, a method of collecting a large amount of voice data may be considered, but in reality, a lot of time and cost are required.
본 발명은 전술한 바와 같은 문제점을 해결하기 위한 것으로서, 음성 인증을 위한 모델들의 교차 검증을 통해 적은 양의 데이터로도 정확한 화자 식별 및 확인이 가능하도록 하는 음성 인증 방법 및 장치를 제공함에 목적이 있다.The present invention is to solve the above-described problems, and an object of the present invention is to provide a voice authentication method and apparatus that enables accurate speaker identification and confirmation even with a small amount of data through cross-validation of models for voice authentication. .
또한, 교차 검증의 결과값을 이용한 음성 인증의 임계구간값 설정을 통해 화자의 발성 변화를 화자 식별 과정에 적절히 반영할 수 있으며, 교차 검증을 위한 음성 데이터 조합의 변화를 통해 새로운 인증 모델을 구축할 수 있는 음성 인증 방법 및 장치를 제공함에 목적이 있다.In addition, the change in the speaker's vocalization can be appropriately reflected in the speaker identification process by setting the threshold section value of voice authentication using the result of cross-validation. An object of the present invention is to provide a voice authentication method and apparatus that can be used.
본 발명의 일 실시 예에 따른 교차 검증(Cross Validation)을 이용한 음성 인증 방법은, 화자의 발화된 음성로부터 수집된 음성 데이터를 훈련 데이터 세트 또는 검증 데이터 세트로 분류하기 위한 조합의 수를 결정하는 단계, 결정된 조합의 수에 따라 훈련 데이터 세트를 기초로 생성된 인증 모델들의 교차 검증을 수행하는 단계, 교차 검증의 결과값 중에서 최대값 및 최소값을 판단하고, 최대값 및 최소값을 기초로 화자의 음성 인증을 위한 임계구간값을 추정하는 단계 및 추정된 임계구간값을 기초로 화자를 식별하는 단계를 포함할 수 있다.In the voice authentication method using cross validation according to an embodiment of the present invention, determining the number of combinations for classifying voice data collected from the spoken voice of a speaker into a training data set or a verification data set , Performing cross-validation of authentication models generated based on the training data set according to the determined number of combinations, determining the maximum and minimum values among the results of the cross-validation, and authenticating the speaker's speech based on the maximum and minimum values It may include estimating a threshold section value for and identifying a speaker based on the estimated threshold section value.
본 발명의 일 실시 예에 따른 임계구간값을 추정하는 단계는, 교차 검증의 결과값 중에서 최대값이 도출된 인증 모델을 화자의 음성 인증을 위한 기준 모델로 설정하는 단계를 포함할 수 있다.The step of estimating the threshold interval value according to an embodiment of the present invention may include setting an authentication model from which a maximum value is derived from among the results of cross-validation as a reference model for voice authentication of a speaker.
본 발명의 일 실시 예에 따른 임계구간값을 추정하는 단계는, 최대값과 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 추정하는 단계, 최대값과 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 기초로 편차를 추정하는 단계 및 편차를 이용하여 최대값을 기준으로 하는 임계구간값을 추정하는 단계를 포함할 수 있다.The step of estimating a threshold interval value according to an embodiment of the present invention includes estimating an average value of the maximum value and the minimum value or the average value of the result values of the cross-validation excluding the maximum value and the minimum value, the average value of the maximum value and the minimum value, or It may include estimating a deviation based on the average value of the result values of the cross-validation other than the maximum value and the minimum value, and estimating a threshold interval value based on the maximum value by using the deviation.
본 발명의 일 실시 예에 따른 화자를 식별하는 단계에서는, 화자의 확인을 위해 발화된 음성으로부터 수집된 음성 데이터의 특징값이 임계구간값에 해당되는 경우에만 화자가 본인임이 인증될 수 있다.In the step of identifying a speaker according to an embodiment of the present invention, the speaker may be authenticated as the speaker only when the characteristic value of the voice data collected from the spoken voice for identification of the speaker corresponds to the threshold interval value.
본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 장치는, 화자의 발화된 음성로부터 수집된 음성 데이터를 훈련 데이터 세트 또는 검증 데이터 세트로 분류하기 위한 조합의 수를 결정하는 데이터 분류부, 결정된 조합의 수에 따라 훈련 데이터 세트를 기초로 생성된 인증 모델들의 교차 검증을 수행하는 교차 검증부, 교차 검증의 결과값 중에서 최대값 및 최소값을 판단하고, 최대값 및 최소값을 기초로 화자의 음성 인증을 위한 임계구간값을 추정하는 임계구간 추정부 및 추정된 임계구간값을 기초로 화자를 식별하는 화자 식별부를 포함할 수 있다.A voice authentication apparatus using cross-validation according to an embodiment of the present invention includes a data classification unit for determining the number of combinations for classifying voice data collected from a speaker's spoken voice into a training data set or a verification data set, and A cross-validation unit that performs cross-validation of authentication models generated based on the training data set according to the number of combinations, determines the maximum and minimum values among the results of the cross-validation, and authenticates the speaker's speech based on the maximum and minimum values It may include a threshold section estimating unit for estimating a critical section value for and a speaker identification section for identifying a speaker based on the estimated threshold section value.
본 발명의 일 실시 예에 따른 임계구간 추정부는, 최대값과 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 추정하고, 최대값과 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 기초로 편차를 추정하며, 편차를 이용하여 최대값을 기준으로 하는 임계구간값을 추정할 수 있다.The threshold section estimator according to an embodiment of the present invention estimates the average value of the maximum value and the minimum value, or the average value of the remaining cross-validation result values excluding the maximum value and the minimum value, and calculates the average value of the maximum value and the minimum value or the maximum value and the minimum value. The deviation is estimated based on the average value of the other cross-validation result values, and the critical interval value based on the maximum value can be estimated using the deviation.
본 발명의 일 실시 예에 따른 화자 식별부는, 화자의 확인을 위해 발화된 음성으로부터 수집된 음성 데이터의 특징값이 임계구간값에 해당되는 경우에만 화자가 본인임을 인증할 수 있다.The speaker identification unit according to an embodiment of the present invention may authenticate that the speaker is himself/herself only when the characteristic value of the speech data collected from the speech spoken for the identification of the speaker corresponds to the threshold interval value.
한편, 본 발명의 일 실시 예에 의하면, 전술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.Meanwhile, according to an embodiment of the present invention, a computer-readable recording medium in which a program for executing the above-described method on a computer is recorded may be provided.
본 발명의 일 실시 예로서 제공되는 음성 인증 방법 및 장치에 따르면, 적은 양의 음성 데이터로도 효율적인 인증 모델의 훈련을 수행함으로써, 종래 대비 상대적으로 적은 비용 및 시간으로도 음성 인증의 정확도를 크게 향상시킬 수 있다.According to the voice authentication method and apparatus provided as an embodiment of the present invention, by performing efficient authentication model training with a small amount of voice data, the accuracy of voice authentication is greatly improved at a relatively low cost and time compared to the prior art. I can make it.
또한, 종래 기술과 같이 획일화된 임계치 기준에 따라 화자를 식별하는 것이 아닌 교차 검증을 통해 분석된 결과를 토대로 임계구간을 설정함으로써 화자의 발성 변화를 추정하거나 음성의 디지털 위변조 등을 판단할 수 있으므로, 음성 인증을 위한 장치의 성능을 종래 대비 대폭 향상시킬 수 있다. In addition, by setting the threshold section based on the analyzed result through cross-validation rather than identifying the speaker according to a uniform threshold standard as in the prior art, it is possible to estimate the change in speaker's vocalization or determine digital forgery of the voice. , It is possible to significantly improve the performance of the device for voice authentication compared to the prior art.
도 1은 본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 방법의 순서도이다.
도 2는 본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 방법의 임계구간값 추정 단계를 구체화한 순서도이다.
도 3은 본 발명의 일 실시 예에 따른 교차 검증을 이용한 기준모델 생성 과정을 나타낸 개념도이다.
도 4는 본 발명의 일 실시 예에 따른 화자의 확인발화에 대한 음성 인증 과정을 나타낸 개념도이다.
도 5는 본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 장치의 블록도이다.1 is a flowchart of a voice authentication method using cross verification according to an embodiment of the present invention.
2 is a flowchart illustrating a step of estimating a threshold value of a voice authentication method using cross-validation according to an embodiment of the present invention.
3 is a conceptual diagram illustrating a process of generating a reference model using cross-validation according to an embodiment of the present invention.
4 is a conceptual diagram illustrating a voice authentication process for a speaker's confirmed speech according to an embodiment of the present invention.
5 is a block diagram of a voice authentication apparatus using cross verification according to an embodiment of the present invention.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.The terms used in the present specification will be briefly described, and the present invention will be described in detail.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다. The terms used in the present invention have been selected from general terms that are currently widely used while considering functions in the present invention, but this may vary depending on the intention or precedent of a technician working in the field, the emergence of new technologies, and the like. In addition, in certain cases, there are terms arbitrarily selected by the applicant, and in this case, the meaning of the terms will be described in detail in the description of the corresponding invention. Therefore, the terms used in the present invention should be defined based on the meaning of the term and the overall contents of the present invention, not a simple name of the term.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.When a part of the specification is said to "include" a certain component, it means that other components may be further included rather than excluding other components unless otherwise stated. In addition, terms such as "... unit" described in the specification mean a unit that processes at least one function or operation, which may be implemented as hardware or software, or a combination of hardware and software.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시 예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art can easily implement the present invention. However, the present invention may be implemented in various forms and is not limited to the embodiments described herein. In the drawings, parts irrelevant to the description are omitted in order to clearly describe the present invention, and similar reference numerals are assigned to similar parts throughout the specification.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 방법의 순서도, 도 2는 본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 방법의 임계구간값 추정 단계(300)를 구체화한 순서도이다.FIG. 1 is a flowchart of a voice authentication method using cross-validation according to an embodiment of the present invention, and FIG. 2 is a detailed estimating
또한, 도 3은 본 발명의 일 실시 예에 따른 교차 검증을 이용한 기준모델 생성 과정을 나타낸 개념도, 도 4는 본 발명의 일 실시 예에 따른 화자의 확인발화에 대한 음성 인증 과정을 나타낸 개념도이다.In addition, FIG. 3 is a conceptual diagram showing a process of generating a reference model using cross-validation according to an embodiment of the present invention, and FIG. 4 is a conceptual diagram showing a process of voice authentication for confirming speech of a speaker according to an embodiment of the present invention.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 교차 검증(Cross Validation)을 이용한 음성 인증 방법은, 화자의 발화된 음성로부터 수집된 음성 데이터를 훈련 데이터 세트 또는 검증 데이터 세트로 분류하기 위한 조합의 수를 결정하는 단계(S100), 결정된 조합의 수에 따라 훈련 데이터 세트를 기초로 생성된 인증 모델들의 교차 검증을 수행하는 단계(S200), 교차 검증의 결과값 중에서 최대값 및 최소값을 판단하고, 최대값 및 최소값을 기초로 화자의 음성 인증을 위한 임계구간값을 추정하는 단계(S300) 및 추정된 임계구간값을 기초로 화자를 식별하는 단계(S400)를 포함할 수 있다.Referring to FIG. 1, in a voice authentication method using cross validation according to an embodiment of the present invention, a combination for classifying voice data collected from a speaker's spoken voice into a training data set or a verification data set Determining the number of (S100), performing cross-validation of authentication models generated based on the training data set according to the determined number of combinations (S200), determining a maximum value and a minimum value among the result values of the cross-validation , Estimating a threshold value for voice authentication of the speaker based on the maximum value and the minimum value (S300), and identifying the speaker based on the estimated threshold value (S400).
본 발명의 일 실시 예에 따른 음성 인증 방법에는, 적은 양의 음성 데이터로도 음성 인증을 위한 전체적인 시스템의 성능을 향상시키기 위해서 교차 검증 방식이 이용된다. 교차 검증이란 통계학적으로 모델을 평가하기 위한 방법으로서, 데이터의 양이 부족한 상황에서도 모델의 성능을 평가하여 시스템적으로 더 나은 모델을 선택하도록 하는 검증 방식을 말한다. 예를 들어, 만약 데이터가 A,B,C,D,E라고 하면, 이 중 일부인 A,B,C,D를 가지고 훈련하여 모델을 생성한 이후에 나머지 E를 훈련을 통해 생성된 모델을 검증하기 위한 입력 데이터로 사용함으로써, 교차 검증이 수행될 수 있다. 즉, 교차 검증은 수집된 데이터를 모두 훈련 모델을 생성하는데 사용하는 것이 아닌 그 중 일부를 모델을 검증하기 위한 입력 데이터로서 사용함으로써, 일 시스템이 적은 양의 데이터로도 모델의 성능을 평가하고 개선 방향을 예측할 수 있는 지표를 제공하는 것이 특징이다.In the voice authentication method according to an embodiment of the present invention, a cross-validation method is used in order to improve the performance of the overall system for voice authentication even with a small amount of voice data. Cross-validation is a method for statistically evaluating a model, and it refers to a verification method in which the performance of the model is evaluated even when the amount of data is insufficient to systematically select a better model. For example, if the data are A, B, C, D, E, train with some of them, A, B, C, and D to create a model, then train the remaining E to verify the generated model. By using it as input data for doing so, cross-validation can be performed. In other words, cross-validation does not use all of the collected data to generate the training model, but uses some of it as input data to verify the model, so that one system evaluates and improves the performance of the model even with a small amount of data. It is characterized by providing an index to predict the direction.
이때, 전술한 교차 검증의 결과로 도출되는 평가 지표는 모델을 검증하기 위한 입력 데이터의 수에 따라 달라질 수 있다. 예를 들어, 만약 데이터가 A,B,C,D,E라고 하면, E만을 모델을 검증하기 위한 입력 데이터로 사용하는 경우에는 총 5개의 평가 지표가 생성될 수 있지만, D와 E를 모델을 검증하기 위한 입력 데이터로 사용하는 경우에는 10개의 평가 지표가 생성될 수 있다. 이와 같이 데이터 세트를 어떻게 구성하느냐에 따라 교차 검증 결과의 가지수는 달라질 수 있다.In this case, the evaluation index derived as a result of the above-described cross-validation may vary depending on the number of input data for verifying the model. For example, if the data are A, B, C, D, E, if only E is used as the input data to verify the model, a total of 5 evaluation indicators can be generated, but D and E are used as the model. When used as input data for verification, 10 evaluation indicators can be generated. In this way, the number of cross-validation results can vary depending on how the data set is configured.
본 발명의 일 실시 예에 따르면, 전술한 교차 검증을 음성 인증에 적용하기 위해서 먼저 데이터 분류부(200)에 의해 음성 데이터를 훈련 데이터 세트 또는 검증 데이터 세트로 분류하기 위한 조합의 수를 결정하는 단계(S100)가 수행될 수 있다. 조합의 수를 결정한다는 것은 교차 검증을 수행함으로써 얻어지는 결과값의 수를 결정한다는 것을 의미한다. 즉, 조합의 수는 수집된 음성 데이터 중 몇 개의 음성 데이터를 모델들의 교차 검증을 위한 입력 데이터 세트(i.e. 검증 데이터 세트)로 분류하여 사용할 것인지에 따라 결정될 수 있다.According to an embodiment of the present invention, in order to apply the above-described cross-validation to voice authentication, first determining the number of combinations for classifying voice data into a training data set or a verification data set by the data classification unit 200 (S100) may be performed. Determining the number of combinations means determining the number of results obtained by performing cross-validation. That is, the number of combinations may be determined according to how many of the collected speech data are classified into an input data set for cross-validation of models (i.e. a verification data set) and used.
예를 들어, 데이터 분류부(200)는 화자가 7번 발화함에 따라 얻어지는 7개의 음성 데이터 중에서 6개를 훈련 데이터 세트, 나머지 1개는 검증 데이터 세트로 분류하기 위해서 조합의 수를 7로 결정할 수 있다. 또한, 데이터 분류부(200)는 7개의 음성 데이터 중에서 5개를 훈련 데이터 세트, 나머지 2개는 검증 데이터 세트로 분류하기 위해서 조합의 수는 21로 결정할 수 있다. 이와 같이 결정되는 조합의 수에 따라 7개의 음성 데이터는 6개의 훈련 데이터 세트와 1개의 검증 데이터 세트로 분류되거나 5개의 훈련 데이터 세트와 2개의 검증 데이터 세트로 분류될 수 있다.For example, the
본 발명의 일 실시 예에 따른 조합의 수는 데이터 분류부(200)에 의해 음성 데이터의 수, 품질, 특징값 등이 분석된 결과를 기초로 하여 결정될 수 있다. 예를 들어, 음성 데이터 수집부에 의해 10개의 음성 데이터가 수집되었으나 그 중 7개의 음성 데이터가 특징값을 분석하기 어려운 품질인 경우, 데이터 분류부(200)는 3개의 음성 데이터를 2개의 훈련 데이터 세트와 1개의 검증 데이터 세트로 분류하기 위해서 조합의 수는 3으로 결정할 수 있다. 또한, 장치의 추가적인 성능 개선 또는 새로운 모델 생성 등을 위한 다양한 목적에 따라 사용자로부터 인가된 외부 입력에 의해 결정될 수도 있다.The number of combinations according to an embodiment of the present invention may be determined based on a result of analyzing the number, quality, and feature values of voice data by the
도 3을 참조하면, 본 발명의 일 실시 예에 따라 조합의 수가 결정되고, 결정된 조합의 수에 따라 훈련 데이터 세트 또는 검증 데이터 세트로 분류되면(S120), 데이터 분류부(200)에 의해 훈련 데이터 세트를 기초로 하는 인증 모델이 생성될 수 있다(S130). 인증 모델은 훈련 데이터 세트로 분류된 음성 데이터의 특징값이 분석된 결과를 토대로 생성될 수 있다.Referring to FIG. 3, when the number of combinations is determined according to an embodiment of the present invention and classified into a training data set or a verification data set according to the determined number of combinations (S120), the training data is determined by the
예를 들어, 화자가 7번 발화함에 따라 7개의 음성 데이터가 수집되었다고 가정하면, 데이터 분류부(200)가 조합의 수를 7로 결정한 경우에는 6개의 훈련 데이터 세트를 기초로 하는 7개의 인증 모델이 생성될 수 있다. 또한, 데이터 분류부(200)가 조합의 수를 21로 결정한 경우에는 5개의 훈련 데이터 세트를 기초로 하는 21개의 인증 모델이 생성될 수 있다. 즉, 데이터 분류부(200)에 의해 조합의 수가 결정되면, 결정된 조합의 수에 대응되는 개수의 인증 모델이 생성될 수 있다.For example, assuming that 7 speech data are collected as the speaker speaks 7 times, when the
도 1 및 도 3을 참조하면, 본 발명의 일 실시 예에 따라 결정된 조합의 수에 따라 훈련 데이터 세트를 기초로 인증 모델들이 생성되면(S130), 교차 검증부(300)에 의해 인증 모델들의 교차 검증이 수행될 수 있다(S200). 이러한 교차 검증은 인증 모델들 각각에 검증 데이터 세트가 입력됨으로써 수행될 수 있다.1 and 3, when authentication models are generated based on a training data set according to the number of combinations determined according to an embodiment of the present invention (S130), the
예를 들어, 7개의 음성 데이터에 대해 데이터 분류부(200)가 조합의 수를 7로 결정함으로써 7개의 인증 모델이 생성된 경우, 1개의 검증 데이터 세트가 7개의 인증 모델 각각에 입력되어 유사도가 분석될 수 있다. 따라서, 조합의 수가 7인 경우에는 총 7개의 교차 검증 결과값(i.e. 7개의 인증 모델 각각을 통해 분석된 유사도)이 도출될 수 있다.For example, when 7 authentication models are generated by the
또한, 7개의 음성 데이터에 대해 데이터 분류부(200)가 조합의 수를 21로 결정함으로써 21개의 인증 모델이 생성된 경우, 2개의 검증 데이터 세트가 하나씩 21개의 인증 모델 각각에 입력되어 유사도가 분석될 수 있다. 즉, 조합의 수가 21인 경우에는 하나의 인증 모델 당 2개의 교차 검증 결과값(i.e. 21개의 인증 모델 각각을 통해 분석된 유사도)이 도출됨에 따라 총 42개의 교차 검증 결과값이 도출될 수 있다. In addition, when 21 authentication models are generated by the
도 1 및 도 3을 참조하면, 본 발명의 일 실시 예에 따라 인증 모델들에 대한 교차 검증이 수행되어 검증 결과값이 도출되면(S200), 임계구간 추정부(400)에 의해 검증 결과값 중 최대값 및 최소값이 판단되고, 최대값 및 최소값을 기초로 화자의 음성 인증을 위한 임계구간값이 추정될 수 있다(S300).1 and 3, when cross-validation of authentication models is performed according to an embodiment of the present invention and a verification result value is derived (S200), among the verification result values by the
도 2 및 도 3을 참조하면, 본 발명의 일 실시 예에 따른 임계구간값의 추정은 교차 검증의 결과값 중에서 최대값 및 최소값을 판단하는 단계(S310), 교차 검증의 결과값 중에서 최대값이 도출된 인증 모델을 화자의 음성 인증을 위한 기준 모델로 설정하는 단계(S320), 최대값 및 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 추정하는 단계(S330), 최대값 및 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 기초로 편차를 추정하는 단계(S340) 및 편차를 이용하여 최대값을 기준으로 하는 임계구간값을 추정하는 단계(S350)를 통해 수행될 수 있다.2 and 3, in the estimation of a threshold interval value according to an embodiment of the present invention, determining a maximum value and a minimum value among the result values of cross-validation (S310), and the maximum value among the result values of the cross-validation is Setting the derived authentication model as a reference model for the speaker's voice authentication (S320), estimating the average value of the maximum and minimum values or the average value of the results of cross-validation excluding the maximum and minimum values (S330), Estimating a deviation based on the average value of the maximum value and the minimum value or the average value of the cross-validation result values excluding the maximum and minimum values (S340) and the step of estimating a threshold interval value based on the maximum value using the deviation It can be performed through (S350).
본 발명의 일 실시 예에 따른 교차 검증의 결과값 중에서 최대값 및 최소값을 판단하는 단계(S310)에서는 임계구간 추정부(400)가 하나의 인증 모델에서 도출된 교차 검증 결과값의 수가 둘 이상인 경우(i.e. 검증 데이터 세트가 둘 이상인 경우)에는 교차 검증 결과값의 평균값을 추정하고, 추정된 평균값의 크기를 비교하여 최대값 및 최소값을 판단할 수 있다.In the step (S310) of determining the maximum and minimum values among the cross-validation result values according to an embodiment of the present invention, when the number of cross-validation result values derived from one authentication model is two or more (ie, when there are two or more verification data sets), the average value of the cross-validation result values is estimated, and the maximum and minimum values may be determined by comparing the estimated average values.
예를 들어, 7개의 음성 데이터에 대해 데이터 분류부(200)가 조합의 수를 7로 결정함으로써 총 7개의 교차 검증 결과값이 도출된 경우(i.e. 하나의 인증 모델에서 도출된 교차 검증 결과값의 수가 하나인 경우), 교차 검증 결과값에 대한 추가적인 분석 없이 임계구간 추정부(400)는 7개의 교차 검증 결과값의 크기를 비교하여 그 중 최대값 및 최소값을 판단할 수 있다.For example, when the
반면, 7개의 음성 데이터에 대해 데이터 분류부(200)가 조합의 수를 21로 결정함으로써 총 42개의 교차 검증 결과값이 도출된 경우(i.e. 하나의 인증 모델에서 도출된 교차 검증 결과값의 수가 둘인 경우), 임계구간 추정부(400)는 먼저 21개의 인증 모델 각각을 통해 도출된 2개의 교차 검증 결과값들의 평균값을 추정할 수 있다. 즉, 임계구간 추정부(400)는 총 21개의 교차 검증 결과값의 평균값을 추정할 수 있으며, 추정된 21개의 평균값의 크기를 비교하여 그 중 최대값 및 최소값을 판단할 수 있다.On the other hand, when the
도 2 및 도 3을 참조하면, 본 발명의 일 실시 예에 따른 임계구간 추정부(400)가 교차 검증의 결과값 중에서 최대값이 도출된 인증 모델을 화자의 음성 인증을 위한 기준 모델로 설정하는 단계(S320)는 최대값 및 최소값을 판단하는 단계(S310) 이후에 임계구간 추정부(400)에 의해 수행될 수 있다. 그러나, 기준 모델의 설정은 데이터 분석 과정(i.e. 연산 과정)의 최적화를 위해서 편차를 이용하여 최대값을 기준으로 하는 임계구간값을 추정하는 단계(S350) 이후에 수행될 수도 있다.2 and 3, the threshold
도 3을 참조하면, 최대값 및 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 추정하는 단계(S330)에서는 임계구간 추정부(400)가 먼저 하나의 인증 모델에서 도출된 교차 검증 결과값의 수가 둘 이상(i.e. 검증 데이터 세트가 둘 이상)인지 여부를 판단할 수 있다(S331). 이때, 판단 결과에 따라 교차 검증 결과값의 수가 하나인 경우(i.e. 검증 데이터 세트가 하나인 경우), 임계구간 추정부(400)는 최대값과 최소값의 평균값을 추정할 수 있다(S332). 반면, 판단 결과에 따라 교차 검증 결과값의 수가 둘 이상인 경우(i.e. 검증 데이터 세트가 둘 이상인 경우), 임계구간 추정부(400)는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 추정할 수 있다(S333).Referring to FIG. 3, in the step (S330) of estimating the average value of the maximum value and the minimum value or the average value of the remaining cross-validation result values excluding the maximum value and the minimum value, the threshold
예를 들어, 7개의 음성 데이터에 대해 데이터 분류부(200)가 조합의 수를 7로 결정함으로써 총 7개의 교차 검증 결과값이 도출된 경우(i.e. 검증 데이터 세트가 하나인 경우), 임계구간 추정부(400)는 전술한 과정(S310)에서 판단된 최대값과 최소값의 평균값을 추정할 수 있다.For example, when the
반면, 7개의 음성 데이터에 대해 데이터 분류부(200)가 조합의 수를 21로 결정함으로써 총 42개의 교차 검증 결과값이 도출된 경우(i.e. 검증 데이터 세트가 둘인 경우), 임계구간 추정부(400)는 전술한 과정(S310)에서 판단된 최대값과 최소값(i.e. 교차 검증 결과값들의 평균값 중 최대값과 최소값)을 제외한 나머지 교차 검증 결과값들의 평균값을 추정할 수 있다.On the other hand, when the
본 발명의 일 실시 예에 따른 최대값 및 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 기초로 편차를 추정하는 단계(S340)에서는 임계구간 추정부(400)가 전술한 검증 데이터 세트의 개수 판단을 통해 추정된 평균값으로부터 편차를 추정하고, 추정된 편차에 대해 소정의 상수값을 곱하는 연산을 수행할 수 있다. 이때, 소정의 상수값은 추정된 편차에 대한 보정값으로 이해될 수 있으며, 소정의 상수값은 장치(1000)의 동작이 개시되기 이전에 미리 설정되어 데이터베이스(600)에 저장될 수 있다.In the step (S340) of estimating a deviation based on the average value of the maximum value and the minimum value or the average value of the cross-validation result values excluding the maximum value and the minimum value according to an embodiment of the present invention, the threshold section estimation unit 400 A deviation may be estimated from an estimated average value through determination of the number of one verification data set, and an operation of multiplying the estimated deviation by a predetermined constant value may be performed. In this case, the predetermined constant value may be understood as a correction value for the estimated deviation, and the predetermined constant value may be preset and stored in the
도 3을 참조하면, 편차를 이용하여 최대값을 기준으로 하는 임계구간값을 추정하는 단계(S350)에서는 임계구간 추정부(400)가 추정된 임계구간값을 기준 모델에 적용하여 기준 모델이 임계구간값을 통해 화자를 식별할 수 있도록 설정할 수 있다(S351). 이때, 임계구간 추정부(400)에 의해 추정되는 임계구간값은 하기 [식 1]과 같이 표현될 수 있다.Referring to FIG. 3, in the step of estimating a threshold section value based on a maximum value using a deviation (S350), the
[식 1][Equation 1]
[식 1]에서 M은 최대값, δ는 편차를 의미한다. 또한, A는 임계구간의 최소값, B는 임계구간의 최대값, X는 입력 변수(i.e. 화자의 확인을 위한 발화에 의해 생성된 음성 데이터의 분석결과)를 의미한다.In [Equation 1], M represents a maximum value and δ represents a deviation. In addition, A denotes the minimum value of the critical section, B denotes the maximum value of the critical section, and X denotes an input variable (i.e. analysis result of speech data generated by speech for speaker confirmation).
전술한 바에 따라 본 발명의 일 실시 예에 따른 음성 인증 장치(1000)에 기준 모델이 생성되고 화자 식별을 위한 임계구간값이 설정되면, 화자 식별부(500)는 화자로부터 음성 인증을 위해 발화된 음성을 기초로 발화한 대상이 화자 본인에 해당하는지 여부를 판단할 수 있다. 이러한 화자 식별부(500)에 의한 판단 과정(S400)은 도 4를 참조하여 보다 구체적으로 후술하도록 한다.As described above, when a reference model is generated in the
도 4를 참조하면, 본 발명의 일 실시 예에 따라 화자가 본인의 음성 인증을 위해 확인음성을 발화하면, 음성 데이터 수집부(100)는 확인음성 데이터를 수집할 수 있다(S410). 음성 데이터 수집부(100)에 의해 확인음성 데이터의 수집이 완료되면, 화자 식별부(500)는 확인음성 데이터를 분석하여 확인음성 특징값을 추출할 수 있다(S420).Referring to FIG. 4, according to an embodiment of the present invention, when a speaker utters a confirmation voice for his/her voice authentication, the voice
도 4를 참조하면, 본 발명의 일 실시 예에 따른 화자 식별부(500)는 추출된 확인음성 특징값을 기준 모델에 입력하여 유사도를 분석할 수 있다(S430). 이때, 화자 식별부(500)는 기준 모델을 통해 분석된 결과값(i.e. 유사도)이 임계구간값에 해당하는지 여부를 판단할 수 있다(S440).Referring to FIG. 4, the
본 발명의 일 실시 예에 따르면, 분석된 결과값이 임계구간값에 포함되는 경우에는 화자 식별부(500)는 발화한 대상이 화자 본인임을 확인할 수 있다(S451). 반면, 분석된 결과값이 임계구간값을 벗어나는 경우에는 화자 식별부(500)는 발화한 대상이 화자 본인이 아닌 타인임을 확인할 수 있다(S452). 즉, 본 발명의 일 실시 예에 따른 화자를 식별하는 단계(S400)에서는, 화자의 확인을 위해 발화된 음성으로부터 수집된 음성 데이터의 분석결과값이 임계구간값에 해당되는 경우에만 화자가 본인임이 인증될 수 있다.According to an embodiment of the present invention, when the analyzed result value is included in the threshold section value, the
예를 들어, 기준 모델 상에서 임계구간값이 85% 이상 90% 이하로 설정되었다면, 기준 모델에 의한 확인음성 특징값의 분석 결과가 유사도값 87%로 추정된 경우에는 화자 식별부(500)에 의해 화자 본인의 음성임이 인증될 수 있다. 반면, 기준 모델에 의한 확인음성 특징값의 분석 결과가 유사도값 80% 또는 99%로 추정된 경우에는 임계구간값을 벗어났으므로 화자 식별부(500)에 의해 화자 본인이 아닌 타인의 음성으로 판단되어 음성 인증이 수행되지 않을 수 있다.For example, if the critical section value is set to 85% or more and 90% or less on the reference model, when the analysis result of the confirmation speech feature value by the reference model is estimated to be 87% similarity value, the
이와 같이 설정된 임계구간값에 해당되는 경우에만 음성 인증이 이루어지면, 타인의 음성인지 여부뿐만 아니라 디지털 위변조를 통해 조작된 음성인지 여부를 정확히 구별하여 화자를 식별할 수 있다. 종래의 음성 인증 장치들은 임계치의 초과 여부에 따라 화자를 식별하므로, 디지털 위변조를 통해 화자 본인의 음성이 완벽히 조작되어 분석 결과값이 지나치게 높게 추정된 경우(ex. 유사도값이 99%로 추정된 경우)에도 화자 본인의 음성으로 판단한다. 그러나, 본 발명의 일 실시 예에 따른 음성 인증 장치(1000)는 임계구간값에 해당하는 경우에만 화자 본인임을 확인하므로, 디지털 위변조를 통해 화자 본인의 음성이 완벽히 조작되어 분석 결과값이 지나치게 높게 추정된 경우(ex. 유사도값이 99%로 추정된 경우)에는 화자 본인이 아닌 타인의 음성으로 판단하여 음성 인증을 수행하지 않는다. 따라서, 본 발명의 일 실시 예에 따라 임계구간값에 해당하는 경우에만 음성 인증이 이루어지면, 화자 식별의 정확도를 종래 대비 크게 향상시킬 수 있으며, 음성 인증의 보안성을 더욱 강화할 수 있다.If voice authentication is performed only when the threshold value is set as described above, the speaker can be identified by accurately discriminating not only whether it is the voice of another person but also whether the voice has been manipulated through digital forgery. Conventional voice authentication devices identify a speaker according to whether or not a threshold is exceeded, so when the speaker's own voice is completely manipulated through digital forgery and the analysis result value is estimated too high (ex. when the similarity value is estimated to be 99%) ) Is also judged by the speaker's own voice. However, since the
도 5는 본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 장치(1000)의 블록도이다.5 is a block diagram of a
도 5를 참조하면, 본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 장치(1000)는, 화자의 발화된 음성로부터 수집된 음성 데이터를 훈련 데이터 세트 또는 검증 데이터 세트로 분류하기 위한 조합의 수를 결정하는 데이터 분류부(200), 결정된 조합의 수에 따라 훈련 데이터 세트를 기초로 생성된 인증 모델들의 교차 검증을 수행하는 교차 검증부(300), 교차 검증의 결과값 중에서 최대값 및 최소값을 도출하고, 최대값 및 최소값을 기초로 화자의 음성 인증을 위한 임계구간값을 추정하는 임계구간 추정부(400) 및 추정된 임계구간값을 기초로 화자를 식별하는 화자 식별부(500)를 포함할 수 있다.Referring to FIG. 5, the
또한, 도 5를 참조하면, 본 발명의 일 실시 예에 따른 음성 인증 장치(1000)는 화자로부터 발화된 음성에 대한 음성 데이터를 수집하는 음성 데이터 수집부(100) 및 각 구성을 통해 수집, 분석 또는 추정된 데이터를 저장하는 데이터베이스(600)를 포함할 수 있다.In addition, referring to FIG. 5, the
본 발명의 일 실시 예에 따른 장치(1000)와 관련하여서는 전술한 방법에 대한 내용이 적용될 수 있다. 따라서, 장치(1000)와 관련하여, 전술한 방법에 대한 내용과 동일한 내용에 대하여는 설명을 생략하였다.In relation to the
한편, 본 발명의 일 실시 예에 의하면, 전술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다. 다시 말해서, 전술한 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터 판독 가능 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 방법에서 사용된 데이터의 구조는 컴퓨터 판독 가능 매체에 여러 수단을 통하여 기록될 수 있다. 본 발명의 다양한 방법들을 수행하기 위한 실행 가능한 컴퓨터 프로그램이나 코드를 기록하는 기록 매체는, 반송파(carrier waves)나 신호들과 같이 일시적인 대상들은 포함하는 것으로 이해되지는 않아야 한다. 상기 컴퓨터 판독 가능 매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, DVD 등)와 같은 저장 매체를 포함할 수 있다.Meanwhile, according to an embodiment of the present invention, a computer-readable recording medium in which a program for executing the above-described method on a computer is recorded may be provided. In other words, the above-described method can be written as a program that can be executed on a computer, and can be implemented in a general-purpose digital computer operating the program using a computer-readable medium. Further, the structure of the data used in the above-described method may be recorded on a computer-readable medium through various means. A recording medium for recording executable computer programs or codes for performing various methods of the present invention should not be understood as including temporary objects such as carrier waves or signals. The computer-readable medium may include a storage medium such as a magnetic storage medium (eg, ROM, floppy disk, hard disk, etc.), and an optical reading medium (eg, CD-ROM, DVD, etc.).
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The above description of the present invention is for illustrative purposes only, and those of ordinary skill in the art to which the present invention pertains will be able to understand that other specific forms can be easily modified without changing the technical spirit or essential features of the present invention will be. Therefore, it should be understood that the embodiments described above are illustrative and non-limiting in all respects. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as being distributed may also be implemented in a combined form.
본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is indicated by the claims to be described later rather than the detailed description, and all changes or modified forms derived from the meaning and scope of the claims and their equivalent concepts should be interpreted as being included in the scope of the present invention. .
100: 음성 데이터 수집부 200: 데이터 분류부
300: 교차 검증부 400: 임계구간 추정부
500: 화자 식별부 600: 데이터베이스
1000: 교차 검증을 이용한 음성 인증 장치100: voice data collection unit 200: data classification unit
300: cross verification unit 400: critical section estimation unit
500: speaker identification unit 600: database
1000: voice authentication device using cross verification
Claims (8)
화자의 발화된 음성로부터 수집된 음성 데이터를 훈련 데이터 세트 또는 검증 데이터 세트로 분류하기 위한 조합의 수를 결정하는 단계;
상기 결정된 조합의 수에 따라 상기 훈련 데이터 세트를 기초로 생성된 인증 모델들의 교차 검증을 수행하는 단계;
상기 교차 검증의 결과값 중에서 최대값 및 최소값을 판단하고, 상기 최대값 및 최소값을 기초로 상기 화자의 음성 인증을 위한 임계구간값을 추정하는 단계; 및
상기 추정된 임계구간값을 기초로 하여 상기 화자를 식별하는 단계를 포함하는 것을 특징으로 하는 교차 검증을 이용한 음성 인증 방법.
In the voice authentication method using cross validation,
Determining a number of combinations for classifying speech data collected from the spoken speech of the speaker into a training data set or a verification data set;
Performing cross-validation of authentication models generated based on the training data set according to the determined number of combinations;
Determining a maximum value and a minimum value among the result values of the cross-validation, and estimating a threshold interval value for voice authentication of the speaker based on the maximum value and the minimum value; And
And identifying the speaker based on the estimated threshold interval value.
상기 임계구간값을 추정하는 단계는,
상기 교차 검증의 결과값 중에서 최대값이 도출된 인증 모델을 상기 화자의 음성 인증을 위한 기준 모델로 설정하는 단계를 포함하는 것을 특징으로 하는 교차 검증을 이용한 음성 인증 방법.
The method of claim 1,
The step of estimating the threshold interval value,
And setting an authentication model from which a maximum value is derived from among the cross-validation result values as a reference model for voice authentication of the speaker.
상기 임계구간값을 추정하는 단계는,
상기 최대값과 최소값의 평균값 또는 상기 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 추정하는 단계;
상기 최대값과 최소값의 평균값 또는 상기 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 기초로 편차를 추정하는 단계; 및
상기 편차를 이용하여 상기 최대값을 기준으로 하는 임계구간값을 추정하는 단계를 포함하는 것을 특징으로 하는 교차 검증을 이용한 음성 인증 방법.
The method of claim 1,
The step of estimating the threshold interval value,
Estimating an average value of the maximum value and the minimum value or an average value of a result of cross-validation other than the maximum value and the minimum value;
Estimating a deviation based on an average value of the maximum value and the minimum value or an average value of the result values of cross-validation other than the maximum value and the minimum value; And
And estimating a threshold interval value based on the maximum value by using the deviation.
상기 화자를 식별하는 단계에서는,
상기 화자의 확인을 위해 발화된 음성으로부터 수집된 음성 데이터의 분석결과값이 상기 임계구간값에 해당되는 경우에만 상기 화자가 본인임이 인증되는 것을 특징으로 하는 교차 검증을 이용한 음성 인증 방법.
The method of claim 1,
In the step of identifying the speaker,
Voice authentication method using cross-validation, characterized in that the speaker is authenticated only when the analysis result value of the voice data collected from the voice spoken for verification of the speaker corresponds to the threshold section value.
화자의 발화된 음성로부터 수집된 음성 데이터를 훈련 데이터 세트 또는 검증 데이터 세트로 분류하기 위한 조합의 수를 결정하는 데이터 분류부;
상기 결정된 조합의 수에 따라 상기 훈련 데이터 세트를 기초로 생성된 인증 모델들의 교차 검증을 수행하는 교차 검증부;
상기 교차 검증의 결과값 중에서 최대값 및 최소값을 판단하고, 상기 최대값 및 최소값을 기초로 상기 화자의 음성 인증을 위한 임계구간값을 추정하는 임계구간 추정부; 및
상기 추정된 임계구간값을 기초로 상기 화자를 식별하는 화자 식별부를 포함하는 것을 특징으로 하는 교차 검증을 이용한 음성 인증 장치.
In the voice authentication device using cross validation,
A data classification unit that determines the number of combinations for classifying speech data collected from the spoken speech of the speaker into a training data set or a verification data set;
A cross-verification unit performing cross-validation of authentication models generated based on the training data set according to the determined number of combinations;
A threshold section estimating unit that determines a maximum value and a minimum value among the result values of the cross-validation, and estimates a threshold section value for voice authentication of the speaker based on the maximum value and the minimum value; And
And a speaker identification unit for identifying the speaker based on the estimated threshold interval value.
상기 임계구간 추정부는,
상기 최대값과 최소값의 평균값 또는 상기 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 추정하고, 상기 최대값과 최소값의 평균값 또는 상기 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 기초로 편차를 추정하며, 상기 편차를 이용하여 상기 최대값을 기준으로 하는 임계구간값을 추정하는 것을 특징으로 하는 교차 검증을 이용한 음성 인증 장치.
The method of claim 5,
The critical section estimation unit,
Estimates the average value of the maximum and minimum values or the average value of the cross-validation result values excluding the maximum and minimum values, and the average value of the maximum and minimum values or the average value of the remaining cross-validation results excluding the maximum and minimum values A voice authentication apparatus using cross verification, characterized in that estimating a deviation based on the deviation, and estimating a threshold section value based on the maximum value by using the deviation.
상기 화자 식별부는,
상기 화자의 확인을 위해 발화된 음성으로부터 수집된 음성 데이터의 분석결과값이 상기 임계구간값에 해당되는 경우에만 상기 화자가 본인임을 인증하는 것을 특징으로 하는 교차 검증을 이용한 음성 인증 장치.
The method of claim 5,
The speaker identification unit,
A voice authentication apparatus using cross-verification, characterized in that the speaker is authenticated only when the analysis result value of the voice data collected from the voice spoken for verification of the speaker corresponds to the threshold value.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190036870A KR102207291B1 (en) | 2019-03-29 | 2019-03-29 | Speaker authentication method and system using cross validation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190036870A KR102207291B1 (en) | 2019-03-29 | 2019-03-29 | Speaker authentication method and system using cross validation |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200114697A true KR20200114697A (en) | 2020-10-07 |
KR102207291B1 KR102207291B1 (en) | 2021-01-25 |
Family
ID=72884197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190036870A KR102207291B1 (en) | 2019-03-29 | 2019-03-29 | Speaker authentication method and system using cross validation |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102207291B1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040002930A1 (en) * | 2002-06-26 | 2004-01-01 | Oliver Nuria M. | Maximizing mutual information between observations and hidden states to minimize classification errors |
KR101154011B1 (en) | 2010-06-07 | 2012-06-08 | 주식회사 서비전자 | System and method of Multi model adaptive and voice recognition |
JP2017187642A (en) * | 2016-04-06 | 2017-10-12 | 日本電信電話株式会社 | Registered utterance division device, speaker likelihood evaluation device, speaker identification device, registered utterance division method, speaker likelihood evaluation method, and program |
-
2019
- 2019-03-29 KR KR1020190036870A patent/KR102207291B1/en active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040002930A1 (en) * | 2002-06-26 | 2004-01-01 | Oliver Nuria M. | Maximizing mutual information between observations and hidden states to minimize classification errors |
KR101154011B1 (en) | 2010-06-07 | 2012-06-08 | 주식회사 서비전자 | System and method of Multi model adaptive and voice recognition |
JP2017187642A (en) * | 2016-04-06 | 2017-10-12 | 日本電信電話株式会社 | Registered utterance division device, speaker likelihood evaluation device, speaker identification device, registered utterance division method, speaker likelihood evaluation method, and program |
Also Published As
Publication number | Publication date |
---|---|
KR102207291B1 (en) | 2021-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584884B (en) | Voice identity feature extractor, classifier training method and related equipment | |
WO2017215558A1 (en) | Voiceprint recognition method and device | |
CN110047512B (en) | Environmental sound classification method, system and related device | |
US20150169943A1 (en) | System, method and apparatus for biometric liveness detection | |
CN105656887A (en) | Artificial intelligence-based voiceprint authentication method and device | |
JP2016206660A (en) | Speaker identification method and speaker identification device | |
WO2010066310A1 (en) | Method for verifying the identity of a speaker, system therefore and computer readable medium | |
CN110767239A (en) | Voiceprint recognition method, device and equipment based on deep learning | |
JP2006285205A (en) | Speech biometrics system, method, and computer program for determining whether to accept or reject subject for enrollment | |
CN111091837A (en) | Time-varying voiceprint authentication method and system based on online learning | |
CN107346568A (en) | The authentication method and device of a kind of gate control system | |
CN102473409B (en) | Reference model adaptation device, integrated circuit, AV (audio video) device | |
JP6553015B2 (en) | Speaker attribute estimation system, learning device, estimation device, speaker attribute estimation method, and program | |
CN111816185A (en) | Method and device for identifying speaker in mixed voice | |
JP4717872B2 (en) | Speaker information acquisition system and method using voice feature information of speaker | |
CN111081223A (en) | Voice recognition method, device, equipment and storage medium | |
Rafi et al. | A new approach for robust replay spoof detection in ASV systems | |
Mascia et al. | Forensic and anti-forensic analysis of indoor/outdoor classifiers based on acoustic clues | |
JP2016166927A (en) | Parameter learning device, speaker recognition device, parameter learning method, speaker recognition method, and program | |
Umar et al. | Identification of speaker recognition for audio forensic using k-nearest neighbor | |
JP5626221B2 (en) | Acoustic image segment classification apparatus and method | |
KR102207291B1 (en) | Speaker authentication method and system using cross validation | |
Korshunov et al. | Joint operation of voice biometrics and presentation attack detection | |
KR100864828B1 (en) | System for obtaining speaker's information using the speaker's acoustic characteristics | |
KR101925252B1 (en) | Speaker comfirmation dualization method and apparatus utilizing voice feature vector and parameter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |