KR20200114697A - Speaker authentication method and system using cross validation - Google Patents

Speaker authentication method and system using cross validation Download PDF

Info

Publication number
KR20200114697A
KR20200114697A KR1020190036870A KR20190036870A KR20200114697A KR 20200114697 A KR20200114697 A KR 20200114697A KR 1020190036870 A KR1020190036870 A KR 1020190036870A KR 20190036870 A KR20190036870 A KR 20190036870A KR 20200114697 A KR20200114697 A KR 20200114697A
Authority
KR
South Korea
Prior art keywords
value
speaker
cross
validation
voice
Prior art date
Application number
KR1020190036870A
Other languages
Korean (ko)
Other versions
KR102207291B1 (en
Inventor
송유중
김우중
Original Assignee
주식회사 공훈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 공훈 filed Critical 주식회사 공훈
Priority to KR1020190036870A priority Critical patent/KR102207291B1/en
Publication of KR20200114697A publication Critical patent/KR20200114697A/en
Application granted granted Critical
Publication of KR102207291B1 publication Critical patent/KR102207291B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Collating Specific Patterns (AREA)

Abstract

The present invention relates to a speaker authentication method and device using a cross validation. According to one embodiment of the present invention, the voice authentication method may comprise the steps of: determining the number of combinations for classifying voice data collected from an uttered voice of a speaker into a training dataset or a validation dataset; performing cross validation of authentication models generated based on the training dataset according to the determined number of combinations; determining the maximum and minimum values among the results of the cross validation and estimating a threshold interval value for voice authentication of the speaker based on the maximum and minimum values; and identifying the speaker based on the estimated threshold interval value.

Description

교차 검증을 이용한 음성 인증 방법 및 장치{SPEAKER AUTHENTICATION METHOD AND SYSTEM USING CROSS VALIDATION}Voice authentication method and device using cross verification {SPEAKER AUTHENTICATION METHOD AND SYSTEM USING CROSS VALIDATION}

본 발명은 교차 검증을 이용한 음성 인증 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 음성 인증을 위한 모델들의 교차 검증을 통해 적은 데이터 양으로도 화자의 발성 변화를 구별하고 화자를 확인할 수 있는 방법 및 장치에 관한 것이다.The present invention relates to a voice authentication method and device thereof using cross-validation, and more particularly, to a method for distinguishing a change in a speaker's vocalization with a small amount of data through cross-validation of models for voice authentication and to identify a speaker, and It relates to the device.

종래의 음성 인증 장치는 화자로부터 발화된 음성의 특징을 모델링하여 발화 대상자가 진정한 화자인지 여부를 판단한다. 이러한 종래의 장치를 통한 본인 인증 과정은 화자로부터 발화된 음성을 분석한 결과가 확률적 유사성이 설정된 임계치를 초과하는지에 대한 판단을 통해 수행된다.The conventional voice authentication apparatus determines whether or not the person to be spoken is a true speaker by modeling the characteristics of the voice uttered by a speaker. The user authentication process through such a conventional device is performed by determining whether the result of analyzing the speech spoken by the speaker exceeds a set threshold.

종래의 음성 인증 장치는 누적되는 음성 데이터를 이용한 특징 학습을 통해 인증의 정확도를 높일 수 있으므로, 정확한 화자 확인(i.e. 본인 인증)을 위해서는 많은 양의 음성 데이터가 요구된다. 다시 말해서, 종래의 장치는 모델링을 위한 학습 데이터의 양이 적을 경우에는 본인 인증을 위한 판단의 정확성이 현저히 떨어질 수 밖에 없고, 화자 발성의 변화를 정확하게 구별하지 못하는 문제가 존재한다. 이러한 문제를 극복하기 위해서 많은 양의 음성 데이터를 수집하는 방안을 고려해볼 수도 있으나, 이를 위해서는 현실적으로 많은 시간 및 비용 등이 소요될 수 밖에 없다.Since the conventional voice authentication apparatus can increase the accuracy of authentication through feature learning using accumulated voice data, a large amount of voice data is required for accurate speaker identification (i.e. identity authentication). In other words, in the conventional apparatus, when the amount of learning data for modeling is small, the accuracy of judgment for self-authentication is inevitably degraded, and there is a problem in that the change of speaker's speech cannot be accurately distinguished. In order to overcome this problem, a method of collecting a large amount of voice data may be considered, but in reality, a lot of time and cost are required.

대한민국 등록특허공보 제10-1154011호 (2012.06.08)Korean Registered Patent Publication No. 10-1154011 (2012.06.08)

본 발명은 전술한 바와 같은 문제점을 해결하기 위한 것으로서, 음성 인증을 위한 모델들의 교차 검증을 통해 적은 양의 데이터로도 정확한 화자 식별 및 확인이 가능하도록 하는 음성 인증 방법 및 장치를 제공함에 목적이 있다.The present invention is to solve the above-described problems, and an object of the present invention is to provide a voice authentication method and apparatus that enables accurate speaker identification and confirmation even with a small amount of data through cross-validation of models for voice authentication. .

또한, 교차 검증의 결과값을 이용한 음성 인증의 임계구간값 설정을 통해 화자의 발성 변화를 화자 식별 과정에 적절히 반영할 수 있으며, 교차 검증을 위한 음성 데이터 조합의 변화를 통해 새로운 인증 모델을 구축할 수 있는 음성 인증 방법 및 장치를 제공함에 목적이 있다.In addition, the change in the speaker's vocalization can be appropriately reflected in the speaker identification process by setting the threshold section value of voice authentication using the result of cross-validation. An object of the present invention is to provide a voice authentication method and apparatus that can be used.

본 발명의 일 실시 예에 따른 교차 검증(Cross Validation)을 이용한 음성 인증 방법은, 화자의 발화된 음성로부터 수집된 음성 데이터를 훈련 데이터 세트 또는 검증 데이터 세트로 분류하기 위한 조합의 수를 결정하는 단계, 결정된 조합의 수에 따라 훈련 데이터 세트를 기초로 생성된 인증 모델들의 교차 검증을 수행하는 단계, 교차 검증의 결과값 중에서 최대값 및 최소값을 판단하고, 최대값 및 최소값을 기초로 화자의 음성 인증을 위한 임계구간값을 추정하는 단계 및 추정된 임계구간값을 기초로 화자를 식별하는 단계를 포함할 수 있다.In the voice authentication method using cross validation according to an embodiment of the present invention, determining the number of combinations for classifying voice data collected from the spoken voice of a speaker into a training data set or a verification data set , Performing cross-validation of authentication models generated based on the training data set according to the determined number of combinations, determining the maximum and minimum values among the results of the cross-validation, and authenticating the speaker's speech based on the maximum and minimum values It may include estimating a threshold section value for and identifying a speaker based on the estimated threshold section value.

본 발명의 일 실시 예에 따른 임계구간값을 추정하는 단계는, 교차 검증의 결과값 중에서 최대값이 도출된 인증 모델을 화자의 음성 인증을 위한 기준 모델로 설정하는 단계를 포함할 수 있다.The step of estimating the threshold interval value according to an embodiment of the present invention may include setting an authentication model from which a maximum value is derived from among the results of cross-validation as a reference model for voice authentication of a speaker.

본 발명의 일 실시 예에 따른 임계구간값을 추정하는 단계는, 최대값과 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 추정하는 단계, 최대값과 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 기초로 편차를 추정하는 단계 및 편차를 이용하여 최대값을 기준으로 하는 임계구간값을 추정하는 단계를 포함할 수 있다.The step of estimating a threshold interval value according to an embodiment of the present invention includes estimating an average value of the maximum value and the minimum value or the average value of the result values of the cross-validation excluding the maximum value and the minimum value, the average value of the maximum value and the minimum value, or It may include estimating a deviation based on the average value of the result values of the cross-validation other than the maximum value and the minimum value, and estimating a threshold interval value based on the maximum value by using the deviation.

본 발명의 일 실시 예에 따른 화자를 식별하는 단계에서는, 화자의 확인을 위해 발화된 음성으로부터 수집된 음성 데이터의 특징값이 임계구간값에 해당되는 경우에만 화자가 본인임이 인증될 수 있다.In the step of identifying a speaker according to an embodiment of the present invention, the speaker may be authenticated as the speaker only when the characteristic value of the voice data collected from the spoken voice for identification of the speaker corresponds to the threshold interval value.

본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 장치는, 화자의 발화된 음성로부터 수집된 음성 데이터를 훈련 데이터 세트 또는 검증 데이터 세트로 분류하기 위한 조합의 수를 결정하는 데이터 분류부, 결정된 조합의 수에 따라 훈련 데이터 세트를 기초로 생성된 인증 모델들의 교차 검증을 수행하는 교차 검증부, 교차 검증의 결과값 중에서 최대값 및 최소값을 판단하고, 최대값 및 최소값을 기초로 화자의 음성 인증을 위한 임계구간값을 추정하는 임계구간 추정부 및 추정된 임계구간값을 기초로 화자를 식별하는 화자 식별부를 포함할 수 있다.A voice authentication apparatus using cross-validation according to an embodiment of the present invention includes a data classification unit for determining the number of combinations for classifying voice data collected from a speaker's spoken voice into a training data set or a verification data set, and A cross-validation unit that performs cross-validation of authentication models generated based on the training data set according to the number of combinations, determines the maximum and minimum values among the results of the cross-validation, and authenticates the speaker's speech based on the maximum and minimum values It may include a threshold section estimating unit for estimating a critical section value for and a speaker identification section for identifying a speaker based on the estimated threshold section value.

본 발명의 일 실시 예에 따른 임계구간 추정부는, 최대값과 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 추정하고, 최대값과 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 기초로 편차를 추정하며, 편차를 이용하여 최대값을 기준으로 하는 임계구간값을 추정할 수 있다.The threshold section estimator according to an embodiment of the present invention estimates the average value of the maximum value and the minimum value, or the average value of the remaining cross-validation result values excluding the maximum value and the minimum value, and calculates the average value of the maximum value and the minimum value or the maximum value and the minimum value. The deviation is estimated based on the average value of the other cross-validation result values, and the critical interval value based on the maximum value can be estimated using the deviation.

본 발명의 일 실시 예에 따른 화자 식별부는, 화자의 확인을 위해 발화된 음성으로부터 수집된 음성 데이터의 특징값이 임계구간값에 해당되는 경우에만 화자가 본인임을 인증할 수 있다.The speaker identification unit according to an embodiment of the present invention may authenticate that the speaker is himself/herself only when the characteristic value of the speech data collected from the speech spoken for the identification of the speaker corresponds to the threshold interval value.

한편, 본 발명의 일 실시 예에 의하면, 전술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.Meanwhile, according to an embodiment of the present invention, a computer-readable recording medium in which a program for executing the above-described method on a computer is recorded may be provided.

본 발명의 일 실시 예로서 제공되는 음성 인증 방법 및 장치에 따르면, 적은 양의 음성 데이터로도 효율적인 인증 모델의 훈련을 수행함으로써, 종래 대비 상대적으로 적은 비용 및 시간으로도 음성 인증의 정확도를 크게 향상시킬 수 있다.According to the voice authentication method and apparatus provided as an embodiment of the present invention, by performing efficient authentication model training with a small amount of voice data, the accuracy of voice authentication is greatly improved at a relatively low cost and time compared to the prior art. I can make it.

또한, 종래 기술과 같이 획일화된 임계치 기준에 따라 화자를 식별하는 것이 아닌 교차 검증을 통해 분석된 결과를 토대로 임계구간을 설정함으로써 화자의 발성 변화를 추정하거나 음성의 디지털 위변조 등을 판단할 수 있으므로, 음성 인증을 위한 장치의 성능을 종래 대비 대폭 향상시킬 수 있다. In addition, by setting the threshold section based on the analyzed result through cross-validation rather than identifying the speaker according to a uniform threshold standard as in the prior art, it is possible to estimate the change in speaker's vocalization or determine digital forgery of the voice. , It is possible to significantly improve the performance of the device for voice authentication compared to the prior art.

도 1은 본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 방법의 순서도이다.
도 2는 본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 방법의 임계구간값 추정 단계를 구체화한 순서도이다.
도 3은 본 발명의 일 실시 예에 따른 교차 검증을 이용한 기준모델 생성 과정을 나타낸 개념도이다.
도 4는 본 발명의 일 실시 예에 따른 화자의 확인발화에 대한 음성 인증 과정을 나타낸 개념도이다.
도 5는 본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 장치의 블록도이다.
1 is a flowchart of a voice authentication method using cross verification according to an embodiment of the present invention.
2 is a flowchart illustrating a step of estimating a threshold value of a voice authentication method using cross-validation according to an embodiment of the present invention.
3 is a conceptual diagram illustrating a process of generating a reference model using cross-validation according to an embodiment of the present invention.
4 is a conceptual diagram illustrating a voice authentication process for a speaker's confirmed speech according to an embodiment of the present invention.
5 is a block diagram of a voice authentication apparatus using cross verification according to an embodiment of the present invention.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.The terms used in the present specification will be briefly described, and the present invention will be described in detail.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다. The terms used in the present invention have been selected from general terms that are currently widely used while considering functions in the present invention, but this may vary depending on the intention or precedent of a technician working in the field, the emergence of new technologies, and the like. In addition, in certain cases, there are terms arbitrarily selected by the applicant, and in this case, the meaning of the terms will be described in detail in the description of the corresponding invention. Therefore, the terms used in the present invention should be defined based on the meaning of the term and the overall contents of the present invention, not a simple name of the term.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.When a part of the specification is said to "include" a certain component, it means that other components may be further included rather than excluding other components unless otherwise stated. In addition, terms such as "... unit" described in the specification mean a unit that processes at least one function or operation, which may be implemented as hardware or software, or a combination of hardware and software.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시 예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art can easily implement the present invention. However, the present invention may be implemented in various forms and is not limited to the embodiments described herein. In the drawings, parts irrelevant to the description are omitted in order to clearly describe the present invention, and similar reference numerals are assigned to similar parts throughout the specification.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 방법의 순서도, 도 2는 본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 방법의 임계구간값 추정 단계(300)를 구체화한 순서도이다.FIG. 1 is a flowchart of a voice authentication method using cross-validation according to an embodiment of the present invention, and FIG. 2 is a detailed estimating step 300 of a voice authentication method using cross-validation according to an embodiment of the present invention. It is a flow chart.

또한, 도 3은 본 발명의 일 실시 예에 따른 교차 검증을 이용한 기준모델 생성 과정을 나타낸 개념도, 도 4는 본 발명의 일 실시 예에 따른 화자의 확인발화에 대한 음성 인증 과정을 나타낸 개념도이다.In addition, FIG. 3 is a conceptual diagram showing a process of generating a reference model using cross-validation according to an embodiment of the present invention, and FIG. 4 is a conceptual diagram showing a process of voice authentication for confirming speech of a speaker according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 교차 검증(Cross Validation)을 이용한 음성 인증 방법은, 화자의 발화된 음성로부터 수집된 음성 데이터를 훈련 데이터 세트 또는 검증 데이터 세트로 분류하기 위한 조합의 수를 결정하는 단계(S100), 결정된 조합의 수에 따라 훈련 데이터 세트를 기초로 생성된 인증 모델들의 교차 검증을 수행하는 단계(S200), 교차 검증의 결과값 중에서 최대값 및 최소값을 판단하고, 최대값 및 최소값을 기초로 화자의 음성 인증을 위한 임계구간값을 추정하는 단계(S300) 및 추정된 임계구간값을 기초로 화자를 식별하는 단계(S400)를 포함할 수 있다.Referring to FIG. 1, in a voice authentication method using cross validation according to an embodiment of the present invention, a combination for classifying voice data collected from a speaker's spoken voice into a training data set or a verification data set Determining the number of (S100), performing cross-validation of authentication models generated based on the training data set according to the determined number of combinations (S200), determining a maximum value and a minimum value among the result values of the cross-validation , Estimating a threshold value for voice authentication of the speaker based on the maximum value and the minimum value (S300), and identifying the speaker based on the estimated threshold value (S400).

본 발명의 일 실시 예에 따른 음성 인증 방법에는, 적은 양의 음성 데이터로도 음성 인증을 위한 전체적인 시스템의 성능을 향상시키기 위해서 교차 검증 방식이 이용된다. 교차 검증이란 통계학적으로 모델을 평가하기 위한 방법으로서, 데이터의 양이 부족한 상황에서도 모델의 성능을 평가하여 시스템적으로 더 나은 모델을 선택하도록 하는 검증 방식을 말한다. 예를 들어, 만약 데이터가 A,B,C,D,E라고 하면, 이 중 일부인 A,B,C,D를 가지고 훈련하여 모델을 생성한 이후에 나머지 E를 훈련을 통해 생성된 모델을 검증하기 위한 입력 데이터로 사용함으로써, 교차 검증이 수행될 수 있다. 즉, 교차 검증은 수집된 데이터를 모두 훈련 모델을 생성하는데 사용하는 것이 아닌 그 중 일부를 모델을 검증하기 위한 입력 데이터로서 사용함으로써, 일 시스템이 적은 양의 데이터로도 모델의 성능을 평가하고 개선 방향을 예측할 수 있는 지표를 제공하는 것이 특징이다.In the voice authentication method according to an embodiment of the present invention, a cross-validation method is used in order to improve the performance of the overall system for voice authentication even with a small amount of voice data. Cross-validation is a method for statistically evaluating a model, and it refers to a verification method in which the performance of the model is evaluated even when the amount of data is insufficient to systematically select a better model. For example, if the data are A, B, C, D, E, train with some of them, A, B, C, and D to create a model, then train the remaining E to verify the generated model. By using it as input data for doing so, cross-validation can be performed. In other words, cross-validation does not use all of the collected data to generate the training model, but uses some of it as input data to verify the model, so that one system evaluates and improves the performance of the model even with a small amount of data. It is characterized by providing an index to predict the direction.

이때, 전술한 교차 검증의 결과로 도출되는 평가 지표는 모델을 검증하기 위한 입력 데이터의 수에 따라 달라질 수 있다. 예를 들어, 만약 데이터가 A,B,C,D,E라고 하면, E만을 모델을 검증하기 위한 입력 데이터로 사용하는 경우에는 총 5개의 평가 지표가 생성될 수 있지만, D와 E를 모델을 검증하기 위한 입력 데이터로 사용하는 경우에는 10개의 평가 지표가 생성될 수 있다. 이와 같이 데이터 세트를 어떻게 구성하느냐에 따라 교차 검증 결과의 가지수는 달라질 수 있다.In this case, the evaluation index derived as a result of the above-described cross-validation may vary depending on the number of input data for verifying the model. For example, if the data are A, B, C, D, E, if only E is used as the input data to verify the model, a total of 5 evaluation indicators can be generated, but D and E are used as the model. When used as input data for verification, 10 evaluation indicators can be generated. In this way, the number of cross-validation results can vary depending on how the data set is configured.

본 발명의 일 실시 예에 따르면, 전술한 교차 검증을 음성 인증에 적용하기 위해서 먼저 데이터 분류부(200)에 의해 음성 데이터를 훈련 데이터 세트 또는 검증 데이터 세트로 분류하기 위한 조합의 수를 결정하는 단계(S100)가 수행될 수 있다. 조합의 수를 결정한다는 것은 교차 검증을 수행함으로써 얻어지는 결과값의 수를 결정한다는 것을 의미한다. 즉, 조합의 수는 수집된 음성 데이터 중 몇 개의 음성 데이터를 모델들의 교차 검증을 위한 입력 데이터 세트(i.e. 검증 데이터 세트)로 분류하여 사용할 것인지에 따라 결정될 수 있다.According to an embodiment of the present invention, in order to apply the above-described cross-validation to voice authentication, first determining the number of combinations for classifying voice data into a training data set or a verification data set by the data classification unit 200 (S100) may be performed. Determining the number of combinations means determining the number of results obtained by performing cross-validation. That is, the number of combinations may be determined according to how many of the collected speech data are classified into an input data set for cross-validation of models (i.e. a verification data set) and used.

예를 들어, 데이터 분류부(200)는 화자가 7번 발화함에 따라 얻어지는 7개의 음성 데이터 중에서 6개를 훈련 데이터 세트, 나머지 1개는 검증 데이터 세트로 분류하기 위해서 조합의 수를 7로 결정할 수 있다. 또한, 데이터 분류부(200)는 7개의 음성 데이터 중에서 5개를 훈련 데이터 세트, 나머지 2개는 검증 데이터 세트로 분류하기 위해서 조합의 수는 21로 결정할 수 있다. 이와 같이 결정되는 조합의 수에 따라 7개의 음성 데이터는 6개의 훈련 데이터 세트와 1개의 검증 데이터 세트로 분류되거나 5개의 훈련 데이터 세트와 2개의 검증 데이터 세트로 분류될 수 있다.For example, the data classification unit 200 may determine the number of combinations as 7 in order to classify 6 of the 7 speech data obtained as the speaker speaks 7 times as a training data set and the other as a verification data set. have. In addition, the data classification unit 200 may determine the number of combinations as 21 in order to classify five of the seven voice data into a training data set and the remaining two into a verification data set. According to the number of combinations determined in this way, the 7 speech data may be classified into 6 training data sets and 1 verification data set, or 5 training data sets and 2 verification data sets.

본 발명의 일 실시 예에 따른 조합의 수는 데이터 분류부(200)에 의해 음성 데이터의 수, 품질, 특징값 등이 분석된 결과를 기초로 하여 결정될 수 있다. 예를 들어, 음성 데이터 수집부에 의해 10개의 음성 데이터가 수집되었으나 그 중 7개의 음성 데이터가 특징값을 분석하기 어려운 품질인 경우, 데이터 분류부(200)는 3개의 음성 데이터를 2개의 훈련 데이터 세트와 1개의 검증 데이터 세트로 분류하기 위해서 조합의 수는 3으로 결정할 수 있다. 또한, 장치의 추가적인 성능 개선 또는 새로운 모델 생성 등을 위한 다양한 목적에 따라 사용자로부터 인가된 외부 입력에 의해 결정될 수도 있다.The number of combinations according to an embodiment of the present invention may be determined based on a result of analyzing the number, quality, and feature values of voice data by the data classifier 200. For example, when 10 pieces of audio data are collected by the audio data collection unit, but 7 of them are of a quality that makes it difficult to analyze a feature value, the data classification unit 200 converts 3 pieces of audio data into 2 pieces of training data. The number of combinations can be determined to be three to classify the set and one validation data set. In addition, it may be determined by an external input authorized by the user according to various purposes for additional performance improvement of the device or creation of a new model.

도 3을 참조하면, 본 발명의 일 실시 예에 따라 조합의 수가 결정되고, 결정된 조합의 수에 따라 훈련 데이터 세트 또는 검증 데이터 세트로 분류되면(S120), 데이터 분류부(200)에 의해 훈련 데이터 세트를 기초로 하는 인증 모델이 생성될 수 있다(S130). 인증 모델은 훈련 데이터 세트로 분류된 음성 데이터의 특징값이 분석된 결과를 토대로 생성될 수 있다.Referring to FIG. 3, when the number of combinations is determined according to an embodiment of the present invention and classified into a training data set or a verification data set according to the determined number of combinations (S120), the training data is determined by the data classification unit 200. An authentication model based on the set may be generated (S130). The authentication model may be generated based on a result of analyzing feature values of speech data classified as a training data set.

예를 들어, 화자가 7번 발화함에 따라 7개의 음성 데이터가 수집되었다고 가정하면, 데이터 분류부(200)가 조합의 수를 7로 결정한 경우에는 6개의 훈련 데이터 세트를 기초로 하는 7개의 인증 모델이 생성될 수 있다. 또한, 데이터 분류부(200)가 조합의 수를 21로 결정한 경우에는 5개의 훈련 데이터 세트를 기초로 하는 21개의 인증 모델이 생성될 수 있다. 즉, 데이터 분류부(200)에 의해 조합의 수가 결정되면, 결정된 조합의 수에 대응되는 개수의 인증 모델이 생성될 수 있다.For example, assuming that 7 speech data are collected as the speaker speaks 7 times, when the data classification unit 200 determines the number of combinations to be 7, 7 authentication models based on 6 training data sets Can be generated. In addition, when the data classification unit 200 determines the number of combinations to be 21, 21 authentication models based on five training data sets may be generated. That is, when the number of combinations is determined by the data classification unit 200, a number of authentication models corresponding to the determined number of combinations may be generated.

도 1 및 도 3을 참조하면, 본 발명의 일 실시 예에 따라 결정된 조합의 수에 따라 훈련 데이터 세트를 기초로 인증 모델들이 생성되면(S130), 교차 검증부(300)에 의해 인증 모델들의 교차 검증이 수행될 수 있다(S200). 이러한 교차 검증은 인증 모델들 각각에 검증 데이터 세트가 입력됨으로써 수행될 수 있다.1 and 3, when authentication models are generated based on a training data set according to the number of combinations determined according to an embodiment of the present invention (S130), the cross validation unit 300 crosses the authentication models. Verification may be performed (S200). This cross-validation may be performed by inputting a verification data set to each of the authentication models.

예를 들어, 7개의 음성 데이터에 대해 데이터 분류부(200)가 조합의 수를 7로 결정함으로써 7개의 인증 모델이 생성된 경우, 1개의 검증 데이터 세트가 7개의 인증 모델 각각에 입력되어 유사도가 분석될 수 있다. 따라서, 조합의 수가 7인 경우에는 총 7개의 교차 검증 결과값(i.e. 7개의 인증 모델 각각을 통해 분석된 유사도)이 도출될 수 있다.For example, when 7 authentication models are generated by the data classification unit 200 determining the number of combinations as 7 for 7 voice data, one verification data set is input to each of the 7 authentication models, and the degree of similarity Can be analyzed. Therefore, when the number of combinations is 7, a total of 7 cross-validation results (i.e. similarity analyzed through each of the 7 authentication models) can be derived.

또한, 7개의 음성 데이터에 대해 데이터 분류부(200)가 조합의 수를 21로 결정함으로써 21개의 인증 모델이 생성된 경우, 2개의 검증 데이터 세트가 하나씩 21개의 인증 모델 각각에 입력되어 유사도가 분석될 수 있다. 즉, 조합의 수가 21인 경우에는 하나의 인증 모델 당 2개의 교차 검증 결과값(i.e. 21개의 인증 모델 각각을 통해 분석된 유사도)이 도출됨에 따라 총 42개의 교차 검증 결과값이 도출될 수 있다. In addition, when 21 authentication models are generated by the data classification unit 200 determining the number of combinations as 21 for 7 voice data, two verification data sets are input one by one to each of the 21 authentication models to analyze the similarity. Can be. That is, when the number of combinations is 21, a total of 42 cross-validation result values may be derived as two cross-validation result values (i.e. similarity analyzed through each of 21 authentication models) are derived per one authentication model.

도 1 및 도 3을 참조하면, 본 발명의 일 실시 예에 따라 인증 모델들에 대한 교차 검증이 수행되어 검증 결과값이 도출되면(S200), 임계구간 추정부(400)에 의해 검증 결과값 중 최대값 및 최소값이 판단되고, 최대값 및 최소값을 기초로 화자의 음성 인증을 위한 임계구간값이 추정될 수 있다(S300).1 and 3, when cross-validation of authentication models is performed according to an embodiment of the present invention and a verification result value is derived (S200), among the verification result values by the threshold section estimator 400 The maximum and minimum values are determined, and a threshold section value for voice authentication of the speaker may be estimated based on the maximum and minimum values (S300).

도 2 및 도 3을 참조하면, 본 발명의 일 실시 예에 따른 임계구간값의 추정은 교차 검증의 결과값 중에서 최대값 및 최소값을 판단하는 단계(S310), 교차 검증의 결과값 중에서 최대값이 도출된 인증 모델을 화자의 음성 인증을 위한 기준 모델로 설정하는 단계(S320), 최대값 및 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 추정하는 단계(S330), 최대값 및 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 기초로 편차를 추정하는 단계(S340) 및 편차를 이용하여 최대값을 기준으로 하는 임계구간값을 추정하는 단계(S350)를 통해 수행될 수 있다.2 and 3, in the estimation of a threshold interval value according to an embodiment of the present invention, determining a maximum value and a minimum value among the result values of cross-validation (S310), and the maximum value among the result values of the cross-validation is Setting the derived authentication model as a reference model for the speaker's voice authentication (S320), estimating the average value of the maximum and minimum values or the average value of the results of cross-validation excluding the maximum and minimum values (S330), Estimating a deviation based on the average value of the maximum value and the minimum value or the average value of the cross-validation result values excluding the maximum and minimum values (S340) and the step of estimating a threshold interval value based on the maximum value using the deviation It can be performed through (S350).

본 발명의 일 실시 예에 따른 교차 검증의 결과값 중에서 최대값 및 최소값을 판단하는 단계(S310)에서는 임계구간 추정부(400)가 하나의 인증 모델에서 도출된 교차 검증 결과값의 수가 둘 이상인 경우(i.e. 검증 데이터 세트가 둘 이상인 경우)에는 교차 검증 결과값의 평균값을 추정하고, 추정된 평균값의 크기를 비교하여 최대값 및 최소값을 판단할 수 있다.In the step (S310) of determining the maximum and minimum values among the cross-validation result values according to an embodiment of the present invention, when the number of cross-validation result values derived from one authentication model is two or more (ie, when there are two or more verification data sets), the average value of the cross-validation result values is estimated, and the maximum and minimum values may be determined by comparing the estimated average values.

예를 들어, 7개의 음성 데이터에 대해 데이터 분류부(200)가 조합의 수를 7로 결정함으로써 총 7개의 교차 검증 결과값이 도출된 경우(i.e. 하나의 인증 모델에서 도출된 교차 검증 결과값의 수가 하나인 경우), 교차 검증 결과값에 대한 추가적인 분석 없이 임계구간 추정부(400)는 7개의 교차 검증 결과값의 크기를 비교하여 그 중 최대값 및 최소값을 판단할 수 있다.For example, when the data classification unit 200 determines the number of combinations as 7 for 7 voice data, a total of 7 cross-validation result values are derived (ie, the cross-validation result values derived from one authentication model If the number is one), the critical section estimating unit 400 may compare the sizes of the seven cross-validation result values and determine a maximum value and a minimum value among them without additional analysis of the cross-validation result value.

반면, 7개의 음성 데이터에 대해 데이터 분류부(200)가 조합의 수를 21로 결정함으로써 총 42개의 교차 검증 결과값이 도출된 경우(i.e. 하나의 인증 모델에서 도출된 교차 검증 결과값의 수가 둘인 경우), 임계구간 추정부(400)는 먼저 21개의 인증 모델 각각을 통해 도출된 2개의 교차 검증 결과값들의 평균값을 추정할 수 있다. 즉, 임계구간 추정부(400)는 총 21개의 교차 검증 결과값의 평균값을 추정할 수 있으며, 추정된 21개의 평균값의 크기를 비교하여 그 중 최대값 및 최소값을 판단할 수 있다.On the other hand, when the data classifier 200 determines the number of combinations as 21 for 7 voice data, a total of 42 cross-validation result values are derived (ie, the number of cross-validation result values derived from one authentication model is two. In case), the critical section estimating unit 400 may first estimate an average value of the two cross-validation result values derived through each of the 21 authentication models. That is, the threshold section estimating unit 400 may estimate an average value of a total of 21 cross-validation result values, and may determine a maximum value and a minimum value among them by comparing the sizes of the estimated 21 average values.

도 2 및 도 3을 참조하면, 본 발명의 일 실시 예에 따른 임계구간 추정부(400)가 교차 검증의 결과값 중에서 최대값이 도출된 인증 모델을 화자의 음성 인증을 위한 기준 모델로 설정하는 단계(S320)는 최대값 및 최소값을 판단하는 단계(S310) 이후에 임계구간 추정부(400)에 의해 수행될 수 있다. 그러나, 기준 모델의 설정은 데이터 분석 과정(i.e. 연산 과정)의 최적화를 위해서 편차를 이용하여 최대값을 기준으로 하는 임계구간값을 추정하는 단계(S350) 이후에 수행될 수도 있다.2 and 3, the threshold section estimating unit 400 according to an embodiment of the present invention sets the authentication model from which the maximum value is derived from the result values of cross-validation as a reference model for speech authentication of the speaker. The step S320 may be performed by the threshold section estimating unit 400 after the step S310 of determining the maximum and minimum values. However, the setting of the reference model may be performed after the step (S350) of estimating a threshold interval value based on the maximum value by using a deviation in order to optimize the data analysis process (i.e. an operation process).

도 3을 참조하면, 최대값 및 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 추정하는 단계(S330)에서는 임계구간 추정부(400)가 먼저 하나의 인증 모델에서 도출된 교차 검증 결과값의 수가 둘 이상(i.e. 검증 데이터 세트가 둘 이상)인지 여부를 판단할 수 있다(S331). 이때, 판단 결과에 따라 교차 검증 결과값의 수가 하나인 경우(i.e. 검증 데이터 세트가 하나인 경우), 임계구간 추정부(400)는 최대값과 최소값의 평균값을 추정할 수 있다(S332). 반면, 판단 결과에 따라 교차 검증 결과값의 수가 둘 이상인 경우(i.e. 검증 데이터 세트가 둘 이상인 경우), 임계구간 추정부(400)는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 추정할 수 있다(S333).Referring to FIG. 3, in the step (S330) of estimating the average value of the maximum value and the minimum value or the average value of the remaining cross-validation result values excluding the maximum value and the minimum value, the threshold section estimating unit 400 is first derived from one authentication model. It may be determined whether the number of cross-validation result values is two or more (ie, two or more verification data sets) (S331). In this case, if the number of cross-validation result values is one (i.e., if there is one verification data set) according to the determination result, the threshold section estimating unit 400 may estimate the average value of the maximum value and the minimum value (S332). On the other hand, if the number of cross-validation result values is two or more according to the determination result (ie, if there are two or more verification data sets), the threshold section estimating unit 400 estimates the average value of the remaining cross-validation result values excluding the maximum and minimum values. It can be done (S333).

예를 들어, 7개의 음성 데이터에 대해 데이터 분류부(200)가 조합의 수를 7로 결정함으로써 총 7개의 교차 검증 결과값이 도출된 경우(i.e. 검증 데이터 세트가 하나인 경우), 임계구간 추정부(400)는 전술한 과정(S310)에서 판단된 최대값과 최소값의 평균값을 추정할 수 있다.For example, when the data classification unit 200 determines the number of combinations to be 7 for 7 voice data, a total of 7 cross-validation result values are derived (ie, when there is one verification data set), the threshold section is added. The government 400 may estimate an average value of the maximum value and the minimum value determined in the above-described process (S310).

반면, 7개의 음성 데이터에 대해 데이터 분류부(200)가 조합의 수를 21로 결정함으로써 총 42개의 교차 검증 결과값이 도출된 경우(i.e. 검증 데이터 세트가 둘인 경우), 임계구간 추정부(400)는 전술한 과정(S310)에서 판단된 최대값과 최소값(i.e. 교차 검증 결과값들의 평균값 중 최대값과 최소값)을 제외한 나머지 교차 검증 결과값들의 평균값을 추정할 수 있다.On the other hand, when the data classification unit 200 determines the number of combinations to be 21 for 7 speech data, a total of 42 cross-validation result values are derived (ie, when there are two verification data sets), the critical section estimator 400 ) May estimate the average value of the remaining cross-validation result values excluding the maximum value and the minimum value (ie, the maximum value and the minimum value among the average values of the cross-validation result values) determined in the above-described process S310.

본 발명의 일 실시 예에 따른 최대값 및 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 기초로 편차를 추정하는 단계(S340)에서는 임계구간 추정부(400)가 전술한 검증 데이터 세트의 개수 판단을 통해 추정된 평균값으로부터 편차를 추정하고, 추정된 편차에 대해 소정의 상수값을 곱하는 연산을 수행할 수 있다. 이때, 소정의 상수값은 추정된 편차에 대한 보정값으로 이해될 수 있으며, 소정의 상수값은 장치(1000)의 동작이 개시되기 이전에 미리 설정되어 데이터베이스(600)에 저장될 수 있다.In the step (S340) of estimating a deviation based on the average value of the maximum value and the minimum value or the average value of the cross-validation result values excluding the maximum value and the minimum value according to an embodiment of the present invention, the threshold section estimation unit 400 A deviation may be estimated from an estimated average value through determination of the number of one verification data set, and an operation of multiplying the estimated deviation by a predetermined constant value may be performed. In this case, the predetermined constant value may be understood as a correction value for the estimated deviation, and the predetermined constant value may be preset and stored in the database 600 before the operation of the device 1000 is started.

도 3을 참조하면, 편차를 이용하여 최대값을 기준으로 하는 임계구간값을 추정하는 단계(S350)에서는 임계구간 추정부(400)가 추정된 임계구간값을 기준 모델에 적용하여 기준 모델이 임계구간값을 통해 화자를 식별할 수 있도록 설정할 수 있다(S351). 이때, 임계구간 추정부(400)에 의해 추정되는 임계구간값은 하기 [식 1]과 같이 표현될 수 있다.Referring to FIG. 3, in the step of estimating a threshold section value based on a maximum value using a deviation (S350), the threshold section estimator 400 applies the estimated threshold section value to the reference model, so that the reference model is critical. It may be set to identify the speaker through the section value (S351). In this case, the threshold section value estimated by the threshold section estimating unit 400 may be expressed as shown in [Equation 1] below.

[식 1][Equation 1]

Figure pat00001
Figure pat00001

[식 1]에서 M은 최대값, δ는 편차를 의미한다. 또한, A는 임계구간의 최소값, B는 임계구간의 최대값, X는 입력 변수(i.e. 화자의 확인을 위한 발화에 의해 생성된 음성 데이터의 분석결과)를 의미한다.In [Equation 1], M represents a maximum value and δ represents a deviation. In addition, A denotes the minimum value of the critical section, B denotes the maximum value of the critical section, and X denotes an input variable (i.e. analysis result of speech data generated by speech for speaker confirmation).

전술한 바에 따라 본 발명의 일 실시 예에 따른 음성 인증 장치(1000)에 기준 모델이 생성되고 화자 식별을 위한 임계구간값이 설정되면, 화자 식별부(500)는 화자로부터 음성 인증을 위해 발화된 음성을 기초로 발화한 대상이 화자 본인에 해당하는지 여부를 판단할 수 있다. 이러한 화자 식별부(500)에 의한 판단 과정(S400)은 도 4를 참조하여 보다 구체적으로 후술하도록 한다.As described above, when a reference model is generated in the voice authentication apparatus 1000 according to an embodiment of the present invention and a threshold interval value for speaker identification is set, the speaker identification unit 500 is spoken by the speaker for voice authentication. Based on the voice, it is possible to determine whether or not the object uttered corresponds to the speaker himself. The determination process (S400) by the speaker identification unit 500 will be described later in more detail with reference to FIG. 4.

도 4를 참조하면, 본 발명의 일 실시 예에 따라 화자가 본인의 음성 인증을 위해 확인음성을 발화하면, 음성 데이터 수집부(100)는 확인음성 데이터를 수집할 수 있다(S410). 음성 데이터 수집부(100)에 의해 확인음성 데이터의 수집이 완료되면, 화자 식별부(500)는 확인음성 데이터를 분석하여 확인음성 특징값을 추출할 수 있다(S420).Referring to FIG. 4, according to an embodiment of the present invention, when a speaker utters a confirmation voice for his/her voice authentication, the voice data collection unit 100 may collect confirmation voice data (S410). When the collection of the confirmation speech data is completed by the speech data collection unit 100, the speaker identification unit 500 may analyze the confirmation speech data to extract a confirmation speech feature value (S420).

도 4를 참조하면, 본 발명의 일 실시 예에 따른 화자 식별부(500)는 추출된 확인음성 특징값을 기준 모델에 입력하여 유사도를 분석할 수 있다(S430). 이때, 화자 식별부(500)는 기준 모델을 통해 분석된 결과값(i.e. 유사도)이 임계구간값에 해당하는지 여부를 판단할 수 있다(S440).Referring to FIG. 4, the speaker identification unit 500 according to an embodiment of the present invention may analyze the similarity by inputting the extracted feature value of the confirmed voice into the reference model (S430). In this case, the speaker identification unit 500 may determine whether the result value (i.e. similarity) analyzed through the reference model corresponds to the critical interval value (S440).

본 발명의 일 실시 예에 따르면, 분석된 결과값이 임계구간값에 포함되는 경우에는 화자 식별부(500)는 발화한 대상이 화자 본인임을 확인할 수 있다(S451). 반면, 분석된 결과값이 임계구간값을 벗어나는 경우에는 화자 식별부(500)는 발화한 대상이 화자 본인이 아닌 타인임을 확인할 수 있다(S452). 즉, 본 발명의 일 실시 예에 따른 화자를 식별하는 단계(S400)에서는, 화자의 확인을 위해 발화된 음성으로부터 수집된 음성 데이터의 분석결과값이 임계구간값에 해당되는 경우에만 화자가 본인임이 인증될 수 있다.According to an embodiment of the present invention, when the analyzed result value is included in the threshold section value, the speaker identification unit 500 may confirm that the speaker himself/herself is the speaker (S451). On the other hand, when the analyzed result value exceeds the threshold section value, the speaker identification unit 500 may confirm that the object of speech is not the speaker himself, but another person (S452). That is, in the step (S400) of identifying a speaker according to an embodiment of the present invention, it is determined that the speaker is himself/herself only when the analysis result value of the speech data collected from the speech spoken for the identification of the speaker falls within the threshold section value. Can be authenticated.

예를 들어, 기준 모델 상에서 임계구간값이 85% 이상 90% 이하로 설정되었다면, 기준 모델에 의한 확인음성 특징값의 분석 결과가 유사도값 87%로 추정된 경우에는 화자 식별부(500)에 의해 화자 본인의 음성임이 인증될 수 있다. 반면, 기준 모델에 의한 확인음성 특징값의 분석 결과가 유사도값 80% 또는 99%로 추정된 경우에는 임계구간값을 벗어났으므로 화자 식별부(500)에 의해 화자 본인이 아닌 타인의 음성으로 판단되어 음성 인증이 수행되지 않을 수 있다.For example, if the critical section value is set to 85% or more and 90% or less on the reference model, when the analysis result of the confirmation speech feature value by the reference model is estimated to be 87% similarity value, the speaker identification unit 500 The speaker's own voice can be verified. On the other hand, when the analysis result of the confirmed speech feature value by the reference model is estimated to be 80% or 99% of the similarity value, it is determined by the speaker identification unit 500 to be someone else's voice, not the speaker itself. As a result, voice authentication may not be performed.

이와 같이 설정된 임계구간값에 해당되는 경우에만 음성 인증이 이루어지면, 타인의 음성인지 여부뿐만 아니라 디지털 위변조를 통해 조작된 음성인지 여부를 정확히 구별하여 화자를 식별할 수 있다. 종래의 음성 인증 장치들은 임계치의 초과 여부에 따라 화자를 식별하므로, 디지털 위변조를 통해 화자 본인의 음성이 완벽히 조작되어 분석 결과값이 지나치게 높게 추정된 경우(ex. 유사도값이 99%로 추정된 경우)에도 화자 본인의 음성으로 판단한다. 그러나, 본 발명의 일 실시 예에 따른 음성 인증 장치(1000)는 임계구간값에 해당하는 경우에만 화자 본인임을 확인하므로, 디지털 위변조를 통해 화자 본인의 음성이 완벽히 조작되어 분석 결과값이 지나치게 높게 추정된 경우(ex. 유사도값이 99%로 추정된 경우)에는 화자 본인이 아닌 타인의 음성으로 판단하여 음성 인증을 수행하지 않는다. 따라서, 본 발명의 일 실시 예에 따라 임계구간값에 해당하는 경우에만 음성 인증이 이루어지면, 화자 식별의 정확도를 종래 대비 크게 향상시킬 수 있으며, 음성 인증의 보안성을 더욱 강화할 수 있다.If voice authentication is performed only when the threshold value is set as described above, the speaker can be identified by accurately discriminating not only whether it is the voice of another person but also whether the voice has been manipulated through digital forgery. Conventional voice authentication devices identify a speaker according to whether or not a threshold is exceeded, so when the speaker's own voice is completely manipulated through digital forgery and the analysis result value is estimated too high (ex. when the similarity value is estimated to be 99%) ) Is also judged by the speaker's own voice. However, since the voice authentication apparatus 1000 according to an embodiment of the present invention confirms that the speaker is the speaker only when it corresponds to the threshold value, the speaker's voice is completely manipulated through digital forgery and the analysis result value is estimated to be too high. If it is (ex. if the similarity value is estimated to be 99%), it is judged as the voice of someone other than the speaker and does not perform voice authentication. Accordingly, according to an embodiment of the present invention, if voice authentication is performed only when the threshold value is satisfied, the accuracy of speaker identification can be greatly improved compared to the prior art, and the security of voice authentication can be further enhanced.

도 5는 본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 장치(1000)의 블록도이다.5 is a block diagram of a voice authentication apparatus 1000 using cross verification according to an embodiment of the present invention.

도 5를 참조하면, 본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 장치(1000)는, 화자의 발화된 음성로부터 수집된 음성 데이터를 훈련 데이터 세트 또는 검증 데이터 세트로 분류하기 위한 조합의 수를 결정하는 데이터 분류부(200), 결정된 조합의 수에 따라 훈련 데이터 세트를 기초로 생성된 인증 모델들의 교차 검증을 수행하는 교차 검증부(300), 교차 검증의 결과값 중에서 최대값 및 최소값을 도출하고, 최대값 및 최소값을 기초로 화자의 음성 인증을 위한 임계구간값을 추정하는 임계구간 추정부(400) 및 추정된 임계구간값을 기초로 화자를 식별하는 화자 식별부(500)를 포함할 수 있다.Referring to FIG. 5, the voice authentication apparatus 1000 using cross-validation according to an embodiment of the present invention comprises a combination for classifying voice data collected from the spoken voice of a speaker into a training data set or a verification data set. A data classification unit 200 that determines the number, a cross-validation unit 300 that performs cross-validation of authentication models generated based on the training data set according to the determined number of combinations, the maximum and minimum values among the result values of the cross-validation And a threshold section estimating unit 400 that estimates a threshold section value for voice authentication of a speaker based on the maximum and minimum values, and a speaker identification section 500 that identifies the speaker based on the estimated threshold section value. Can include.

또한, 도 5를 참조하면, 본 발명의 일 실시 예에 따른 음성 인증 장치(1000)는 화자로부터 발화된 음성에 대한 음성 데이터를 수집하는 음성 데이터 수집부(100) 및 각 구성을 통해 수집, 분석 또는 추정된 데이터를 저장하는 데이터베이스(600)를 포함할 수 있다.In addition, referring to FIG. 5, the voice authentication apparatus 1000 according to an embodiment of the present invention includes a voice data collection unit 100 that collects voice data for voice uttered from a speaker, and collects and analyzes through each component. Alternatively, it may include a database 600 that stores the estimated data.

본 발명의 일 실시 예에 따른 장치(1000)와 관련하여서는 전술한 방법에 대한 내용이 적용될 수 있다. 따라서, 장치(1000)와 관련하여, 전술한 방법에 대한 내용과 동일한 내용에 대하여는 설명을 생략하였다.In relation to the apparatus 1000 according to an embodiment of the present invention, the above-described method may be applied. Accordingly, description of the same contents as those of the above-described method with respect to the apparatus 1000 has been omitted.

한편, 본 발명의 일 실시 예에 의하면, 전술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다. 다시 말해서, 전술한 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터 판독 가능 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 방법에서 사용된 데이터의 구조는 컴퓨터 판독 가능 매체에 여러 수단을 통하여 기록될 수 있다. 본 발명의 다양한 방법들을 수행하기 위한 실행 가능한 컴퓨터 프로그램이나 코드를 기록하는 기록 매체는, 반송파(carrier waves)나 신호들과 같이 일시적인 대상들은 포함하는 것으로 이해되지는 않아야 한다. 상기 컴퓨터 판독 가능 매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, DVD 등)와 같은 저장 매체를 포함할 수 있다.Meanwhile, according to an embodiment of the present invention, a computer-readable recording medium in which a program for executing the above-described method on a computer is recorded may be provided. In other words, the above-described method can be written as a program that can be executed on a computer, and can be implemented in a general-purpose digital computer operating the program using a computer-readable medium. Further, the structure of the data used in the above-described method may be recorded on a computer-readable medium through various means. A recording medium for recording executable computer programs or codes for performing various methods of the present invention should not be understood as including temporary objects such as carrier waves or signals. The computer-readable medium may include a storage medium such as a magnetic storage medium (eg, ROM, floppy disk, hard disk, etc.), and an optical reading medium (eg, CD-ROM, DVD, etc.).

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The above description of the present invention is for illustrative purposes only, and those of ordinary skill in the art to which the present invention pertains will be able to understand that other specific forms can be easily modified without changing the technical spirit or essential features of the present invention will be. Therefore, it should be understood that the embodiments described above are illustrative and non-limiting in all respects. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as being distributed may also be implemented in a combined form.

본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is indicated by the claims to be described later rather than the detailed description, and all changes or modified forms derived from the meaning and scope of the claims and their equivalent concepts should be interpreted as being included in the scope of the present invention. .

100: 음성 데이터 수집부 200: 데이터 분류부
300: 교차 검증부 400: 임계구간 추정부
500: 화자 식별부 600: 데이터베이스
1000: 교차 검증을 이용한 음성 인증 장치
100: voice data collection unit 200: data classification unit
300: cross verification unit 400: critical section estimation unit
500: speaker identification unit 600: database
1000: voice authentication device using cross verification

Claims (8)

교차 검증(Cross Validation)을 이용한 음성 인증 방법에 있어서,
화자의 발화된 음성로부터 수집된 음성 데이터를 훈련 데이터 세트 또는 검증 데이터 세트로 분류하기 위한 조합의 수를 결정하는 단계;
상기 결정된 조합의 수에 따라 상기 훈련 데이터 세트를 기초로 생성된 인증 모델들의 교차 검증을 수행하는 단계;
상기 교차 검증의 결과값 중에서 최대값 및 최소값을 판단하고, 상기 최대값 및 최소값을 기초로 상기 화자의 음성 인증을 위한 임계구간값을 추정하는 단계; 및
상기 추정된 임계구간값을 기초로 하여 상기 화자를 식별하는 단계를 포함하는 것을 특징으로 하는 교차 검증을 이용한 음성 인증 방법.
In the voice authentication method using cross validation,
Determining a number of combinations for classifying speech data collected from the spoken speech of the speaker into a training data set or a verification data set;
Performing cross-validation of authentication models generated based on the training data set according to the determined number of combinations;
Determining a maximum value and a minimum value among the result values of the cross-validation, and estimating a threshold interval value for voice authentication of the speaker based on the maximum value and the minimum value; And
And identifying the speaker based on the estimated threshold interval value.
제 1 항에 있어서,
상기 임계구간값을 추정하는 단계는,
상기 교차 검증의 결과값 중에서 최대값이 도출된 인증 모델을 상기 화자의 음성 인증을 위한 기준 모델로 설정하는 단계를 포함하는 것을 특징으로 하는 교차 검증을 이용한 음성 인증 방법.
The method of claim 1,
The step of estimating the threshold interval value,
And setting an authentication model from which a maximum value is derived from among the cross-validation result values as a reference model for voice authentication of the speaker.
제 1 항에 있어서,
상기 임계구간값을 추정하는 단계는,
상기 최대값과 최소값의 평균값 또는 상기 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 추정하는 단계;
상기 최대값과 최소값의 평균값 또는 상기 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 기초로 편차를 추정하는 단계; 및
상기 편차를 이용하여 상기 최대값을 기준으로 하는 임계구간값을 추정하는 단계를 포함하는 것을 특징으로 하는 교차 검증을 이용한 음성 인증 방법.
The method of claim 1,
The step of estimating the threshold interval value,
Estimating an average value of the maximum value and the minimum value or an average value of a result of cross-validation other than the maximum value and the minimum value;
Estimating a deviation based on an average value of the maximum value and the minimum value or an average value of the result values of cross-validation other than the maximum value and the minimum value; And
And estimating a threshold interval value based on the maximum value by using the deviation.
제 1 항에 있어서,
상기 화자를 식별하는 단계에서는,
상기 화자의 확인을 위해 발화된 음성으로부터 수집된 음성 데이터의 분석결과값이 상기 임계구간값에 해당되는 경우에만 상기 화자가 본인임이 인증되는 것을 특징으로 하는 교차 검증을 이용한 음성 인증 방법.
The method of claim 1,
In the step of identifying the speaker,
Voice authentication method using cross-validation, characterized in that the speaker is authenticated only when the analysis result value of the voice data collected from the voice spoken for verification of the speaker corresponds to the threshold section value.
교차 검증(Cross Validation)을 이용한 음성 인증 장치에 있어서,
화자의 발화된 음성로부터 수집된 음성 데이터를 훈련 데이터 세트 또는 검증 데이터 세트로 분류하기 위한 조합의 수를 결정하는 데이터 분류부;
상기 결정된 조합의 수에 따라 상기 훈련 데이터 세트를 기초로 생성된 인증 모델들의 교차 검증을 수행하는 교차 검증부;
상기 교차 검증의 결과값 중에서 최대값 및 최소값을 판단하고, 상기 최대값 및 최소값을 기초로 상기 화자의 음성 인증을 위한 임계구간값을 추정하는 임계구간 추정부; 및
상기 추정된 임계구간값을 기초로 상기 화자를 식별하는 화자 식별부를 포함하는 것을 특징으로 하는 교차 검증을 이용한 음성 인증 장치.
In the voice authentication device using cross validation,
A data classification unit that determines the number of combinations for classifying speech data collected from the spoken speech of the speaker into a training data set or a verification data set;
A cross-verification unit performing cross-validation of authentication models generated based on the training data set according to the determined number of combinations;
A threshold section estimating unit that determines a maximum value and a minimum value among the result values of the cross-validation, and estimates a threshold section value for voice authentication of the speaker based on the maximum value and the minimum value; And
And a speaker identification unit for identifying the speaker based on the estimated threshold interval value.
제 5 항에 있어서,
상기 임계구간 추정부는,
상기 최대값과 최소값의 평균값 또는 상기 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 추정하고, 상기 최대값과 최소값의 평균값 또는 상기 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 기초로 편차를 추정하며, 상기 편차를 이용하여 상기 최대값을 기준으로 하는 임계구간값을 추정하는 것을 특징으로 하는 교차 검증을 이용한 음성 인증 장치.
The method of claim 5,
The critical section estimation unit,
Estimates the average value of the maximum and minimum values or the average value of the cross-validation result values excluding the maximum and minimum values, and the average value of the maximum and minimum values or the average value of the remaining cross-validation results excluding the maximum and minimum values A voice authentication apparatus using cross verification, characterized in that estimating a deviation based on the deviation, and estimating a threshold section value based on the maximum value by using the deviation.
제 5 항에 있어서,
상기 화자 식별부는,
상기 화자의 확인을 위해 발화된 음성으로부터 수집된 음성 데이터의 분석결과값이 상기 임계구간값에 해당되는 경우에만 상기 화자가 본인임을 인증하는 것을 특징으로 하는 교차 검증을 이용한 음성 인증 장치.
The method of claim 5,
The speaker identification unit,
A voice authentication apparatus using cross-verification, characterized in that the speaker is authenticated only when the analysis result value of the voice data collected from the voice spoken for verification of the speaker corresponds to the threshold value.
제 1 항 내지 제 4 항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.A computer-readable recording medium in which a program for implementing the method of any one of claims 1 to 4 is recorded.
KR1020190036870A 2019-03-29 2019-03-29 Speaker authentication method and system using cross validation KR102207291B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190036870A KR102207291B1 (en) 2019-03-29 2019-03-29 Speaker authentication method and system using cross validation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190036870A KR102207291B1 (en) 2019-03-29 2019-03-29 Speaker authentication method and system using cross validation

Publications (2)

Publication Number Publication Date
KR20200114697A true KR20200114697A (en) 2020-10-07
KR102207291B1 KR102207291B1 (en) 2021-01-25

Family

ID=72884197

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190036870A KR102207291B1 (en) 2019-03-29 2019-03-29 Speaker authentication method and system using cross validation

Country Status (1)

Country Link
KR (1) KR102207291B1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040002930A1 (en) * 2002-06-26 2004-01-01 Oliver Nuria M. Maximizing mutual information between observations and hidden states to minimize classification errors
KR101154011B1 (en) 2010-06-07 2012-06-08 주식회사 서비전자 System and method of Multi model adaptive and voice recognition
JP2017187642A (en) * 2016-04-06 2017-10-12 日本電信電話株式会社 Registered utterance division device, speaker likelihood evaluation device, speaker identification device, registered utterance division method, speaker likelihood evaluation method, and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040002930A1 (en) * 2002-06-26 2004-01-01 Oliver Nuria M. Maximizing mutual information between observations and hidden states to minimize classification errors
KR101154011B1 (en) 2010-06-07 2012-06-08 주식회사 서비전자 System and method of Multi model adaptive and voice recognition
JP2017187642A (en) * 2016-04-06 2017-10-12 日本電信電話株式会社 Registered utterance division device, speaker likelihood evaluation device, speaker identification device, registered utterance division method, speaker likelihood evaluation method, and program

Also Published As

Publication number Publication date
KR102207291B1 (en) 2021-01-25

Similar Documents

Publication Publication Date Title
CN109584884B (en) Voice identity feature extractor, classifier training method and related equipment
WO2017215558A1 (en) Voiceprint recognition method and device
CN110047512B (en) Environmental sound classification method, system and related device
US20150169943A1 (en) System, method and apparatus for biometric liveness detection
CN105656887A (en) Artificial intelligence-based voiceprint authentication method and device
JP2016206660A (en) Speaker identification method and speaker identification device
WO2010066310A1 (en) Method for verifying the identity of a speaker, system therefore and computer readable medium
CN110767239A (en) Voiceprint recognition method, device and equipment based on deep learning
JP2006285205A (en) Speech biometrics system, method, and computer program for determining whether to accept or reject subject for enrollment
CN111091837A (en) Time-varying voiceprint authentication method and system based on online learning
CN107346568A (en) The authentication method and device of a kind of gate control system
CN102473409B (en) Reference model adaptation device, integrated circuit, AV (audio video) device
JP6553015B2 (en) Speaker attribute estimation system, learning device, estimation device, speaker attribute estimation method, and program
CN111816185A (en) Method and device for identifying speaker in mixed voice
JP4717872B2 (en) Speaker information acquisition system and method using voice feature information of speaker
CN111081223A (en) Voice recognition method, device, equipment and storage medium
Rafi et al. A new approach for robust replay spoof detection in ASV systems
Mascia et al. Forensic and anti-forensic analysis of indoor/outdoor classifiers based on acoustic clues
JP2016166927A (en) Parameter learning device, speaker recognition device, parameter learning method, speaker recognition method, and program
Umar et al. Identification of speaker recognition for audio forensic using k-nearest neighbor
JP5626221B2 (en) Acoustic image segment classification apparatus and method
KR102207291B1 (en) Speaker authentication method and system using cross validation
Korshunov et al. Joint operation of voice biometrics and presentation attack detection
KR100864828B1 (en) System for obtaining speaker's information using the speaker's acoustic characteristics
KR101925252B1 (en) Speaker comfirmation dualization method and apparatus utilizing voice feature vector and parameter

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant