KR102207291B1

KR102207291B1 - 교차 검증을 이용한 음성 인증 방법 및 장치

Info

Publication number: KR102207291B1
Application number: KR1020190036870A
Authority: KR
Inventors: 송유중; 김우중
Original assignee: 주식회사 공훈
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2021-01-25
Also published as: KR20200114697A

Abstract

본 발명은 교차 검증(Cross Validation)을 이용한 화자 인증 방법 및 장치에 관한 것으로서, 본 발명의 일 실시 예에 따른 음성 인증 방법은, 화자의 발화된 음성로부터 수집된 음성 데이터를 훈련 데이터 세트 또는 검증 데이터 세트로 분류하기 위한 조합의 수를 결정하는 단계, 결정된 조합의 수에 따라 훈련 데이터 세트를 기초로 생성된 인증 모델들의 교차 검증을 수행하는 단계, 교차 검증의 결과값 중에서 최대값 및 최소값을 판단하고, 최대값 및 최소값을 기초로 화자의 음성 인증을 위한 임계구간값을 추정하는 단계 및 추정된 임계구간값을 기초로 화자를 식별하는 단계를 포함할 수 있다.

Description

교차 검증을 이용한 음성 인증 방법 및 장치{SPEAKER AUTHENTICATION METHOD AND SYSTEM USING CROSS VALIDATION}

본 발명은 교차 검증을 이용한 음성 인증 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 음성 인증을 위한 모델들의 교차 검증을 통해 적은 데이터 양으로도 화자의 발성 변화를 구별하고 화자를 확인할 수 있는 방법 및 장치에 관한 것이다.

종래의 음성 인증 장치는 화자로부터 발화된 음성의 특징을 모델링하여 발화 대상자가 진정한 화자인지 여부를 판단한다. 이러한 종래의 장치를 통한 본인 인증 과정은 화자로부터 발화된 음성을 분석한 결과가 확률적 유사성이 설정된 임계치를 초과하는지에 대한 판단을 통해 수행된다.

종래의 음성 인증 장치는 누적되는 음성 데이터를 이용한 특징 학습을 통해 인증의 정확도를 높일 수 있으므로, 정확한 화자 확인(i.e. 본인 인증)을 위해서는 많은 양의 음성 데이터가 요구된다. 다시 말해서, 종래의 장치는 모델링을 위한 학습 데이터의 양이 적을 경우에는 본인 인증을 위한 판단의 정확성이 현저히 떨어질 수 밖에 없고, 화자 발성의 변화를 정확하게 구별하지 못하는 문제가 존재한다. 이러한 문제를 극복하기 위해서 많은 양의 음성 데이터를 수집하는 방안을 고려해볼 수도 있으나, 이를 위해서는 현실적으로 많은 시간 및 비용 등이 소요될 수 밖에 없다.

대한민국 등록특허공보 제10-1154011호 (2012.06.08)

본 발명은 전술한 바와 같은 문제점을 해결하기 위한 것으로서, 음성 인증을 위한 모델들의 교차 검증을 통해 적은 양의 데이터로도 정확한 화자 식별 및 확인이 가능하도록 하는 음성 인증 방법 및 장치를 제공함에 목적이 있다.

또한, 교차 검증의 결과값을 이용한 음성 인증의 임계구간값 설정을 통해 화자의 발성 변화를 화자 식별 과정에 적절히 반영할 수 있으며, 교차 검증을 위한 음성 데이터 조합의 변화를 통해 새로운 인증 모델을 구축할 수 있는 음성 인증 방법 및 장치를 제공함에 목적이 있다.

본 발명의 일 실시 예에 따른 교차 검증(Cross Validation)을 이용한 음성 인증 방법은, 화자의 발화된 음성로부터 수집된 음성 데이터를 훈련 데이터 세트 또는 검증 데이터 세트로 분류하기 위한 조합의 수를 결정하는 단계, 결정된 조합의 수에 따라 훈련 데이터 세트를 기초로 생성된 인증 모델들의 교차 검증을 수행하는 단계, 교차 검증의 결과값 중에서 최대값 및 최소값을 판단하고, 최대값 및 최소값을 기초로 화자의 음성 인증을 위한 임계구간값을 추정하는 단계 및 추정된 임계구간값을 기초로 화자를 식별하는 단계를 포함할 수 있다.

본 발명의 일 실시 예에 따른 임계구간값을 추정하는 단계는, 교차 검증의 결과값 중에서 최대값이 도출된 인증 모델을 화자의 음성 인증을 위한 기준 모델로 설정하는 단계를 포함할 수 있다.

본 발명의 일 실시 예에 따른 임계구간값을 추정하는 단계는, 최대값과 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 추정하는 단계, 최대값과 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 기초로 편차를 추정하는 단계 및 편차를 이용하여 최대값을 기준으로 하는 임계구간값을 추정하는 단계를 포함할 수 있다.

본 발명의 일 실시 예에 따른 화자를 식별하는 단계에서는, 화자의 확인을 위해 발화된 음성으로부터 수집된 음성 데이터의 특징값이 임계구간값에 해당되는 경우에만 화자가 본인임이 인증될 수 있다.

본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 장치는, 화자의 발화된 음성로부터 수집된 음성 데이터를 훈련 데이터 세트 또는 검증 데이터 세트로 분류하기 위한 조합의 수를 결정하는 데이터 분류부, 결정된 조합의 수에 따라 훈련 데이터 세트를 기초로 생성된 인증 모델들의 교차 검증을 수행하는 교차 검증부, 교차 검증의 결과값 중에서 최대값 및 최소값을 판단하고, 최대값 및 최소값을 기초로 화자의 음성 인증을 위한 임계구간값을 추정하는 임계구간 추정부 및 추정된 임계구간값을 기초로 화자를 식별하는 화자 식별부를 포함할 수 있다.

본 발명의 일 실시 예에 따른 임계구간 추정부는, 최대값과 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 추정하고, 최대값과 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 기초로 편차를 추정하며, 편차를 이용하여 최대값을 기준으로 하는 임계구간값을 추정할 수 있다.

본 발명의 일 실시 예에 따른 화자 식별부는, 화자의 확인을 위해 발화된 음성으로부터 수집된 음성 데이터의 특징값이 임계구간값에 해당되는 경우에만 화자가 본인임을 인증할 수 있다.

한편, 본 발명의 일 실시 예에 의하면, 전술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.

본 발명의 일 실시 예로서 제공되는 음성 인증 방법 및 장치에 따르면, 적은 양의 음성 데이터로도 효율적인 인증 모델의 훈련을 수행함으로써, 종래 대비 상대적으로 적은 비용 및 시간으로도 음성 인증의 정확도를 크게 향상시킬 수 있다.

또한, 종래 기술과 같이 획일화된 임계치 기준에 따라 화자를 식별하는 것이 아닌 교차 검증을 통해 분석된 결과를 토대로 임계구간을 설정함으로써 화자의 발성 변화를 추정하거나 음성의 디지털 위변조 등을 판단할 수 있으므로, 음성 인증을 위한 장치의 성능을 종래 대비 대폭 향상시킬 수 있다.

도 1은 본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 방법의 순서도이다.
도 2는 본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 방법의 임계구간값 추정 단계를 구체화한 순서도이다.
도 3은 본 발명의 일 실시 예에 따른 교차 검증을 이용한 기준모델 생성 과정을 나타낸 개념도이다.
도 4는 본 발명의 일 실시 예에 따른 화자의 확인발화에 대한 음성 인증 과정을 나타낸 개념도이다.
도 5는 본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 장치의 블록도이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시 예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 방법의 순서도, 도 2는 본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 방법의 임계구간값 추정 단계(300)를 구체화한 순서도이다.

또한, 도 3은 본 발명의 일 실시 예에 따른 교차 검증을 이용한 기준모델 생성 과정을 나타낸 개념도, 도 4는 본 발명의 일 실시 예에 따른 화자의 확인발화에 대한 음성 인증 과정을 나타낸 개념도이다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 교차 검증(Cross Validation)을 이용한 음성 인증 방법은, 화자의 발화된 음성로부터 수집된 음성 데이터를 훈련 데이터 세트 또는 검증 데이터 세트로 분류하기 위한 조합의 수를 결정하는 단계(S100), 결정된 조합의 수에 따라 훈련 데이터 세트를 기초로 생성된 인증 모델들의 교차 검증을 수행하는 단계(S200), 교차 검증의 결과값 중에서 최대값 및 최소값을 판단하고, 최대값 및 최소값을 기초로 화자의 음성 인증을 위한 임계구간값을 추정하는 단계(S300) 및 추정된 임계구간값을 기초로 화자를 식별하는 단계(S400)를 포함할 수 있다.

본 발명의 일 실시 예에 따른 음성 인증 방법에는, 적은 양의 음성 데이터로도 음성 인증을 위한 전체적인 시스템의 성능을 향상시키기 위해서 교차 검증 방식이 이용된다. 교차 검증이란 통계학적으로 모델을 평가하기 위한 방법으로서, 데이터의 양이 부족한 상황에서도 모델의 성능을 평가하여 시스템적으로 더 나은 모델을 선택하도록 하는 검증 방식을 말한다. 예를 들어, 만약 데이터가 A,B,C,D,E라고 하면, 이 중 일부인 A,B,C,D를 가지고 훈련하여 모델을 생성한 이후에 나머지 E를 훈련을 통해 생성된 모델을 검증하기 위한 입력 데이터로 사용함으로써, 교차 검증이 수행될 수 있다. 즉, 교차 검증은 수집된 데이터를 모두 훈련 모델을 생성하는데 사용하는 것이 아닌 그 중 일부를 모델을 검증하기 위한 입력 데이터로서 사용함으로써, 일 시스템이 적은 양의 데이터로도 모델의 성능을 평가하고 개선 방향을 예측할 수 있는 지표를 제공하는 것이 특징이다.

이때, 전술한 교차 검증의 결과로 도출되는 평가 지표는 모델을 검증하기 위한 입력 데이터의 수에 따라 달라질 수 있다. 예를 들어, 만약 데이터가 A,B,C,D,E라고 하면, E만을 모델을 검증하기 위한 입력 데이터로 사용하는 경우에는 총 5개의 평가 지표가 생성될 수 있지만, D와 E를 모델을 검증하기 위한 입력 데이터로 사용하는 경우에는 10개의 평가 지표가 생성될 수 있다. 이와 같이 데이터 세트를 어떻게 구성하느냐에 따라 교차 검증 결과의 가지수는 달라질 수 있다.

본 발명의 일 실시 예에 따르면, 전술한 교차 검증을 음성 인증에 적용하기 위해서 먼저 데이터 분류부(200)에 의해 음성 데이터를 훈련 데이터 세트 또는 검증 데이터 세트로 분류하기 위한 조합의 수를 결정하는 단계(S100)가 수행될 수 있다. 조합의 수를 결정한다는 것은 교차 검증을 수행함으로써 얻어지는 결과값의 수를 결정한다는 것을 의미한다. 즉, 조합의 수는 수집된 음성 데이터 중 몇 개의 음성 데이터를 모델들의 교차 검증을 위한 입력 데이터 세트(i.e. 검증 데이터 세트)로 분류하여 사용할 것인지에 따라 결정될 수 있다.

예를 들어, 데이터 분류부(200)는 화자가 7번 발화함에 따라 얻어지는 7개의 음성 데이터 중에서 6개를 훈련 데이터 세트, 나머지 1개는 검증 데이터 세트로 분류하기 위해서 조합의 수를 7로 결정할 수 있다. 또한, 데이터 분류부(200)는 7개의 음성 데이터 중에서 5개를 훈련 데이터 세트, 나머지 2개는 검증 데이터 세트로 분류하기 위해서 조합의 수는 21로 결정할 수 있다. 이와 같이 결정되는 조합의 수에 따라 7개의 음성 데이터는 6개의 훈련 데이터 세트와 1개의 검증 데이터 세트로 분류되거나 5개의 훈련 데이터 세트와 2개의 검증 데이터 세트로 분류될 수 있다.

본 발명의 일 실시 예에 따른 조합의 수는 데이터 분류부(200)에 의해 음성 데이터의 수, 품질, 특징값 등이 분석된 결과를 기초로 하여 결정될 수 있다. 예를 들어, 음성 데이터 수집부에 의해 10개의 음성 데이터가 수집되었으나 그 중 7개의 음성 데이터가 특징값을 분석하기 어려운 품질인 경우, 데이터 분류부(200)는 3개의 음성 데이터를 2개의 훈련 데이터 세트와 1개의 검증 데이터 세트로 분류하기 위해서 조합의 수는 3으로 결정할 수 있다. 또한, 장치의 추가적인 성능 개선 또는 새로운 모델 생성 등을 위한 다양한 목적에 따라 사용자로부터 인가된 외부 입력에 의해 결정될 수도 있다.

도 3을 참조하면, 본 발명의 일 실시 예에 따라 조합의 수가 결정되고, 결정된 조합의 수에 따라 훈련 데이터 세트 또는 검증 데이터 세트로 분류되면(S120), 데이터 분류부(200)에 의해 훈련 데이터 세트를 기초로 하는 인증 모델이 생성될 수 있다(S130). 인증 모델은 훈련 데이터 세트로 분류된 음성 데이터의 특징값이 분석된 결과를 토대로 생성될 수 있다.

예를 들어, 화자가 7번 발화함에 따라 7개의 음성 데이터가 수집되었다고 가정하면, 데이터 분류부(200)가 조합의 수를 7로 결정한 경우에는 6개의 훈련 데이터 세트를 기초로 하는 7개의 인증 모델이 생성될 수 있다. 또한, 데이터 분류부(200)가 조합의 수를 21로 결정한 경우에는 5개의 훈련 데이터 세트를 기초로 하는 21개의 인증 모델이 생성될 수 있다. 즉, 데이터 분류부(200)에 의해 조합의 수가 결정되면, 결정된 조합의 수에 대응되는 개수의 인증 모델이 생성될 수 있다.

도 1 및 도 3을 참조하면, 본 발명의 일 실시 예에 따라 결정된 조합의 수에 따라 훈련 데이터 세트를 기초로 인증 모델들이 생성되면(S130), 교차 검증부(300)에 의해 인증 모델들의 교차 검증이 수행될 수 있다(S200). 이러한 교차 검증은 인증 모델들 각각에 검증 데이터 세트가 입력됨으로써 수행될 수 있다.

예를 들어, 7개의 음성 데이터에 대해 데이터 분류부(200)가 조합의 수를 7로 결정함으로써 7개의 인증 모델이 생성된 경우, 1개의 검증 데이터 세트가 7개의 인증 모델 각각에 입력되어 유사도가 분석될 수 있다. 따라서, 조합의 수가 7인 경우에는 총 7개의 교차 검증 결과값(i.e. 7개의 인증 모델 각각을 통해 분석된 유사도)이 도출될 수 있다.

또한, 7개의 음성 데이터에 대해 데이터 분류부(200)가 조합의 수를 21로 결정함으로써 21개의 인증 모델이 생성된 경우, 2개의 검증 데이터 세트가 하나씩 21개의 인증 모델 각각에 입력되어 유사도가 분석될 수 있다. 즉, 조합의 수가 21인 경우에는 하나의 인증 모델 당 2개의 교차 검증 결과값(i.e. 21개의 인증 모델 각각을 통해 분석된 유사도)이 도출됨에 따라 총 42개의 교차 검증 결과값이 도출될 수 있다.

도 1 및 도 3을 참조하면, 본 발명의 일 실시 예에 따라 인증 모델들에 대한 교차 검증이 수행되어 검증 결과값이 도출되면(S200), 임계구간 추정부(400)에 의해 검증 결과값 중 최대값 및 최소값이 판단되고, 최대값 및 최소값을 기초로 화자의 음성 인증을 위한 임계구간값이 추정될 수 있다(S300).

도 2 및 도 3을 참조하면, 본 발명의 일 실시 예에 따른 임계구간값의 추정은 교차 검증의 결과값 중에서 최대값 및 최소값을 판단하는 단계(S310), 교차 검증의 결과값 중에서 최대값이 도출된 인증 모델을 화자의 음성 인증을 위한 기준 모델로 설정하는 단계(S320), 최대값 및 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 추정하는 단계(S330), 최대값 및 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 기초로 편차를 추정하는 단계(S340) 및 편차를 이용하여 최대값을 기준으로 하는 임계구간값을 추정하는 단계(S350)를 통해 수행될 수 있다.

본 발명의 일 실시 예에 따른 교차 검증의 결과값 중에서 최대값 및 최소값을 판단하는 단계(S310)에서는 임계구간 추정부(400)가 하나의 인증 모델에서 도출된 교차 검증 결과값의 수가 둘 이상인 경우(i.e. 검증 데이터 세트가 둘 이상인 경우)에는 교차 검증 결과값의 평균값을 추정하고, 추정된 평균값의 크기를 비교하여 최대값 및 최소값을 판단할 수 있다.

예를 들어, 7개의 음성 데이터에 대해 데이터 분류부(200)가 조합의 수를 7로 결정함으로써 총 7개의 교차 검증 결과값이 도출된 경우(i.e. 하나의 인증 모델에서 도출된 교차 검증 결과값의 수가 하나인 경우), 교차 검증 결과값에 대한 추가적인 분석 없이 임계구간 추정부(400)는 7개의 교차 검증 결과값의 크기를 비교하여 그 중 최대값 및 최소값을 판단할 수 있다.

반면, 7개의 음성 데이터에 대해 데이터 분류부(200)가 조합의 수를 21로 결정함으로써 총 42개의 교차 검증 결과값이 도출된 경우(i.e. 하나의 인증 모델에서 도출된 교차 검증 결과값의 수가 둘인 경우), 임계구간 추정부(400)는 먼저 21개의 인증 모델 각각을 통해 도출된 2개의 교차 검증 결과값들의 평균값을 추정할 수 있다. 즉, 임계구간 추정부(400)는 총 21개의 교차 검증 결과값의 평균값을 추정할 수 있으며, 추정된 21개의 평균값의 크기를 비교하여 그 중 최대값 및 최소값을 판단할 수 있다.

도 2 및 도 3을 참조하면, 본 발명의 일 실시 예에 따른 임계구간 추정부(400)가 교차 검증의 결과값 중에서 최대값이 도출된 인증 모델을 화자의 음성 인증을 위한 기준 모델로 설정하는 단계(S320)는 최대값 및 최소값을 판단하는 단계(S310) 이후에 임계구간 추정부(400)에 의해 수행될 수 있다. 그러나, 기준 모델의 설정은 데이터 분석 과정(i.e. 연산 과정)의 최적화를 위해서 편차를 이용하여 최대값을 기준으로 하는 임계구간값을 추정하는 단계(S350) 이후에 수행될 수도 있다.

도 3을 참조하면, 최대값 및 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 추정하는 단계(S330)에서는 임계구간 추정부(400)가 먼저 하나의 인증 모델에서 도출된 교차 검증 결과값의 수가 둘 이상(i.e. 검증 데이터 세트가 둘 이상)인지 여부를 판단할 수 있다(S331). 이때, 판단 결과에 따라 교차 검증 결과값의 수가 하나인 경우(i.e. 검증 데이터 세트가 하나인 경우), 임계구간 추정부(400)는 최대값과 최소값의 평균값을 추정할 수 있다(S332). 반면, 판단 결과에 따라 교차 검증 결과값의 수가 둘 이상인 경우(i.e. 검증 데이터 세트가 둘 이상인 경우), 임계구간 추정부(400)는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 추정할 수 있다(S333).

예를 들어, 7개의 음성 데이터에 대해 데이터 분류부(200)가 조합의 수를 7로 결정함으로써 총 7개의 교차 검증 결과값이 도출된 경우(i.e. 검증 데이터 세트가 하나인 경우), 임계구간 추정부(400)는 전술한 과정(S310)에서 판단된 최대값과 최소값의 평균값을 추정할 수 있다.

반면, 7개의 음성 데이터에 대해 데이터 분류부(200)가 조합의 수를 21로 결정함으로써 총 42개의 교차 검증 결과값이 도출된 경우(i.e. 검증 데이터 세트가 둘인 경우), 임계구간 추정부(400)는 전술한 과정(S310)에서 판단된 최대값과 최소값(i.e. 교차 검증 결과값들의 평균값 중 최대값과 최소값)을 제외한 나머지 교차 검증 결과값들의 평균값을 추정할 수 있다.

본 발명의 일 실시 예에 따른 최대값 및 최소값의 평균값 또는 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 기초로 편차를 추정하는 단계(S340)에서는 임계구간 추정부(400)가 전술한 검증 데이터 세트의 개수 판단을 통해 추정된 평균값으로부터 편차를 추정하고, 추정된 편차에 대해 소정의 상수값을 곱하는 연산을 수행할 수 있다. 이때, 소정의 상수값은 추정된 편차에 대한 보정값으로 이해될 수 있으며, 소정의 상수값은 장치(1000)의 동작이 개시되기 이전에 미리 설정되어 데이터베이스(600)에 저장될 수 있다.

도 3을 참조하면, 편차를 이용하여 최대값을 기준으로 하는 임계구간값을 추정하는 단계(S350)에서는 임계구간 추정부(400)가 추정된 임계구간값을 기준 모델에 적용하여 기준 모델이 임계구간값을 통해 화자를 식별할 수 있도록 설정할 수 있다(S351). 이때, 임계구간 추정부(400)에 의해 추정되는 임계구간값은 하기 [식 1]과 같이 표현될 수 있다.

[식 1]

[식 1]에서 M은 최대값, δ는 편차를 의미한다. 또한, A는 임계구간의 최소값, B는 임계구간의 최대값, X는 입력 변수(i.e. 화자의 확인을 위한 발화에 의해 생성된 음성 데이터의 분석결과)를 의미한다.

전술한 바에 따라 본 발명의 일 실시 예에 따른 음성 인증 장치(1000)에 기준 모델이 생성되고 화자 식별을 위한 임계구간값이 설정되면, 화자 식별부(500)는 화자로부터 음성 인증을 위해 발화된 음성을 기초로 발화한 대상이 화자 본인에 해당하는지 여부를 판단할 수 있다. 이러한 화자 식별부(500)에 의한 판단 과정(S400)은 도 4를 참조하여 보다 구체적으로 후술하도록 한다.

도 4를 참조하면, 본 발명의 일 실시 예에 따라 화자가 본인의 음성 인증을 위해 확인음성을 발화하면, 음성 데이터 수집부(100)는 확인음성 데이터를 수집할 수 있다(S410). 음성 데이터 수집부(100)에 의해 확인음성 데이터의 수집이 완료되면, 화자 식별부(500)는 확인음성 데이터를 분석하여 확인음성 특징값을 추출할 수 있다(S420).

도 4를 참조하면, 본 발명의 일 실시 예에 따른 화자 식별부(500)는 추출된 확인음성 특징값을 기준 모델에 입력하여 유사도를 분석할 수 있다(S430). 이때, 화자 식별부(500)는 기준 모델을 통해 분석된 결과값(i.e. 유사도)이 임계구간값에 해당하는지 여부를 판단할 수 있다(S440).

본 발명의 일 실시 예에 따르면, 분석된 결과값이 임계구간값에 포함되는 경우에는 화자 식별부(500)는 발화한 대상이 화자 본인임을 확인할 수 있다(S451). 반면, 분석된 결과값이 임계구간값을 벗어나는 경우에는 화자 식별부(500)는 발화한 대상이 화자 본인이 아닌 타인임을 확인할 수 있다(S452). 즉, 본 발명의 일 실시 예에 따른 화자를 식별하는 단계(S400)에서는, 화자의 확인을 위해 발화된 음성으로부터 수집된 음성 데이터의 분석결과값이 임계구간값에 해당되는 경우에만 화자가 본인임이 인증될 수 있다.

예를 들어, 기준 모델 상에서 임계구간값이 85% 이상 90% 이하로 설정되었다면, 기준 모델에 의한 확인음성 특징값의 분석 결과가 유사도값 87%로 추정된 경우에는 화자 식별부(500)에 의해 화자 본인의 음성임이 인증될 수 있다. 반면, 기준 모델에 의한 확인음성 특징값의 분석 결과가 유사도값 80% 또는 99%로 추정된 경우에는 임계구간값을 벗어났으므로 화자 식별부(500)에 의해 화자 본인이 아닌 타인의 음성으로 판단되어 음성 인증이 수행되지 않을 수 있다.

이와 같이 설정된 임계구간값에 해당되는 경우에만 음성 인증이 이루어지면, 타인의 음성인지 여부뿐만 아니라 디지털 위변조를 통해 조작된 음성인지 여부를 정확히 구별하여 화자를 식별할 수 있다. 종래의 음성 인증 장치들은 임계치의 초과 여부에 따라 화자를 식별하므로, 디지털 위변조를 통해 화자 본인의 음성이 완벽히 조작되어 분석 결과값이 지나치게 높게 추정된 경우(ex. 유사도값이 99%로 추정된 경우)에도 화자 본인의 음성으로 판단한다. 그러나, 본 발명의 일 실시 예에 따른 음성 인증 장치(1000)는 임계구간값에 해당하는 경우에만 화자 본인임을 확인하므로, 디지털 위변조를 통해 화자 본인의 음성이 완벽히 조작되어 분석 결과값이 지나치게 높게 추정된 경우(ex. 유사도값이 99%로 추정된 경우)에는 화자 본인이 아닌 타인의 음성으로 판단하여 음성 인증을 수행하지 않는다. 따라서, 본 발명의 일 실시 예에 따라 임계구간값에 해당하는 경우에만 음성 인증이 이루어지면, 화자 식별의 정확도를 종래 대비 크게 향상시킬 수 있으며, 음성 인증의 보안성을 더욱 강화할 수 있다.

도 5는 본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 장치(1000)의 블록도이다.

도 5를 참조하면, 본 발명의 일 실시 예에 따른 교차 검증을 이용한 음성 인증 장치(1000)는, 화자의 발화된 음성로부터 수집된 음성 데이터를 훈련 데이터 세트 또는 검증 데이터 세트로 분류하기 위한 조합의 수를 결정하는 데이터 분류부(200), 결정된 조합의 수에 따라 훈련 데이터 세트를 기초로 생성된 인증 모델들의 교차 검증을 수행하는 교차 검증부(300), 교차 검증의 결과값 중에서 최대값 및 최소값을 도출하고, 최대값 및 최소값을 기초로 화자의 음성 인증을 위한 임계구간값을 추정하는 임계구간 추정부(400) 및 추정된 임계구간값을 기초로 화자를 식별하는 화자 식별부(500)를 포함할 수 있다.

또한, 도 5를 참조하면, 본 발명의 일 실시 예에 따른 음성 인증 장치(1000)는 화자로부터 발화된 음성에 대한 음성 데이터를 수집하는 음성 데이터 수집부(100) 및 각 구성을 통해 수집, 분석 또는 추정된 데이터를 저장하는 데이터베이스(600)를 포함할 수 있다.

본 발명의 일 실시 예에 따른 장치(1000)와 관련하여서는 전술한 방법에 대한 내용이 적용될 수 있다. 따라서, 장치(1000)와 관련하여, 전술한 방법에 대한 내용과 동일한 내용에 대하여는 설명을 생략하였다.

한편, 본 발명의 일 실시 예에 의하면, 전술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다. 다시 말해서, 전술한 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터 판독 가능 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 방법에서 사용된 데이터의 구조는 컴퓨터 판독 가능 매체에 여러 수단을 통하여 기록될 수 있다. 본 발명의 다양한 방법들을 수행하기 위한 실행 가능한 컴퓨터 프로그램이나 코드를 기록하는 기록 매체는, 반송파(carrier waves)나 신호들과 같이 일시적인 대상들은 포함하는 것으로 이해되지는 않아야 한다. 상기 컴퓨터 판독 가능 매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, DVD 등)와 같은 저장 매체를 포함할 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 음성 데이터 수집부 200: 데이터 분류부
300: 교차 검증부 400: 임계구간 추정부
500: 화자 식별부 600: 데이터베이스
1000: 교차 검증을 이용한 음성 인증 장치

Claims

교차 검증(Cross Validation)을 이용한 음성 인증 방법에 있어서,
화자의 발화된 음성로부터 수집된 음성 데이터를 훈련 데이터 세트 또는 검증 데이터 세트로 분류하기 위한 조합의 수를 결정하는 단계;
상기 결정된 조합의 수에 따라 상기 훈련 데이터 세트를 기초로 생성된 인증 모델들의 교차 검증을 수행하는 단계;
상기 교차 검증의 결과값 중에서 최대값 및 최소값을 판단하고, 상기 최대값 및 최소값을 기초로 상기 화자의 음성 인증을 위한 임계구간값을 추정하는 단계; 및
상기 추정된 임계구간값을 기초로 하여 상기 화자를 식별하는 단계를 포함하고,
상기 임계구간값을 추정하는 단계는,
상기 최대값과 최소값의 평균값 또는 상기 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 추정하는 단계;
상기 최대값과 최소값의 평균값 또는 상기 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 기초로 편차를 추정하는 단계; 및
상기 편차를 이용하여 상기 최대값을 기준으로 하는 임계구간값을 추정하는 단계를 더 포함하는 것을 특징으로 하는 교차 검증을 이용한 음성 인증 방법.
제 1 항에 있어서,
상기 임계구간값을 추정하는 단계는,
상기 교차 검증의 결과값 중에서 최대값이 도출된 인증 모델을 상기 화자의 음성 인증을 위한 기준 모델로 설정하는 단계를 포함하는 것을 특징으로 하는 교차 검증을 이용한 음성 인증 방법.
삭제
제 1 항에 있어서,
상기 화자를 식별하는 단계에서는,
상기 화자의 확인을 위해 발화된 음성으로부터 수집된 음성 데이터의 분석결과값이 상기 임계구간값에 해당되는 경우에만 상기 화자가 본인임이 인증되는 것을 특징으로 하는 교차 검증을 이용한 음성 인증 방법.
교차 검증(Cross Validation)을 이용한 음성 인증 장치에 있어서,
화자의 발화된 음성로부터 수집된 음성 데이터를 훈련 데이터 세트 또는 검증 데이터 세트로 분류하기 위한 조합의 수를 결정하는 데이터 분류부;
상기 결정된 조합의 수에 따라 상기 훈련 데이터 세트를 기초로 생성된 인증 모델들의 교차 검증을 수행하는 교차 검증부;
상기 교차 검증의 결과값 중에서 최대값 및 최소값을 판단하고, 상기 최대값 및 최소값을 기초로 상기 화자의 음성 인증을 위한 임계구간값을 추정하는 임계구간 추정부; 및
상기 추정된 임계구간값을 기초로 상기 화자를 식별하는 화자 식별부를 포함하고,
상기 임계구간 추정부는,
상기 최대값과 최소값의 평균값 또는 상기 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 추정하고, 상기 최대값과 최소값의 평균값 또는 상기 최대값과 최소값을 제외한 나머지 교차 검증의 결과값의 평균값을 기초로 편차를 추정하며, 상기 편차를 이용하여 상기 최대값을 기준으로 하는 임계구간값을 추정하는 것을 특징으로 하는 교차 검증을 이용한 음성 인증 장치.
삭제
제 5 항에 있어서,
상기 화자 식별부는,
상기 화자의 확인을 위해 발화된 음성으로부터 수집된 음성 데이터의 분석결과값이 상기 임계구간값에 해당되는 경우에만 상기 화자가 본인임을 인증하는 것을 특징으로 하는 교차 검증을 이용한 음성 인증 장치.
제 1 항, 제 2 항 또는 제 4 항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.