KR101925248B1

KR101925248B1 - 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법 및 장치

Info

Publication number: KR101925248B1
Application number: KR1020180055957A
Authority: KR
Inventors: 이태훈
Original assignee: 주식회사 공훈
Priority date: 2018-05-16
Filing date: 2018-05-16
Publication date: 2018-12-04

Abstract

본 발명은 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법 및 장치에 관한 것으로서, 본 발명의 일 실시예에 따른 음성 특징벡터를 활용하는 방법은, (a) 화자로부터 발화되는 단어들의 음성 데이터들을 추출하여 동일 단어별로 데이터베이스화 하는 단계, (b) 소정의 음성 특징벡터 및 파라미터를 기준으로 동일 단어별로 데이터베이스화된 음성 데이터들의 유사특성을 분석하고, 분석된 유사특성에 따라 음성 데이터들을 분류하는 단계, (c) (a) 단계 및 (b) 단계가 반복적으로 수행됨에 따라 각 분류별 음성 데이터들의 누적수가 소정의 기준값 이상인지 여부를 추정하고, 누적수가 소정의 기준값 이상인 것으로 추정된 음성 데이터들을 기준 데이터로 설정하는 단계, (d) 머신러닝을 이용하여 기준 데이터에 부합하는 음성 특징벡터 및 파라미터를 학습하는 단계 및 (e) 기준 데이터에 부합하는 음성 특징벡터 및 파라미터를 기준으로 기준 데이터와 나머지 분류별 음성 데이터들 간의 상관관계를 도출하고, 도출된 상관관계에 관한 정보를 테이블화하는 단계를 포함할 수 있다.

Description

음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법 및 장치{METHOD AND APPARATUS UTILIZING VOICE FEATURE VECTOR FOR OPTIMIZATION OF VOICE AUTHENTICATION}

본 발명은 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법 및 장치에 관한 것으로, 더욱 상세하게는 다양하게 개발된 음성 특징벡터와 파라미터를 화자 및 음성별로 최적화하여 음성 인증 시 화자확인의 정확도를 높일 수 있도록 음성 특징벡터 및 파라미터를 활용하는 방법 및 장치에 관한 것이다.

대부분의 음성 인식 기술은 음성 신호 자체를 이용하는 것이 아니라 음성 신호로부터 음성 특징벡터를 추출하는 방식을 이용한다. 음성 특징벡터를 추출하면 음성 인식을 위한 음성의 변별력을 높일 수 있으며, 음성 인식을 위한 음성 데이터의 양을 조절할 수 있다. 현재 개발되어 사용되고 있는 대표적인 음성 특징벡터에는 MFCC(Mel-Frequency Cepstral Coefficients), LPCC(Linear Prediction Cepstral Coefficients), EIH(Ensenble Interaval Histogram) 등이 있다.

이와 같은 음성 특징벡터를 이용하는 종래의 기술들은 화자로부터 발화되는 단어(문맥)에 대해 일괄적으로 특정한 음성 특징벡터(ex. MFCC)를 추출하고, 추출된 음성 특징벡터를 분석하여 화자를 인식하는 방식을 사용하고 있다. 그러나, 종래의 기술들은 화자로부터 발화되는 단어(문맥)를 구성하는 음소요소(ex. 자음, 모음, 유성음, 묵음 등)을 고려하지 않고 일괄적으로 하나의 음성 특징벡터를 추출하므로, 화자 및 화자로부터 발화되는 단어(문맥)별로 최적화된 음성 특징을 추출하여 분석할 수 없어 음성 인식의 정확도를 향상시키는데에 한계가 존재한다.

또한, 전술한 종래의 기술들과 같은 방식은 사람의 신체적 또는 감정적 변화에 따라 가변하는 음성의 속성으로 인해 준거기준을 명확히 설정할 수 없어서 음성 인식을 위한 임계치를 두어야 한다. 다만, 임계치를 좁게 할 경우 화자확인은 정교할 수 있으나 본임임에도 불구하고 본인으로 허용하지 않는 거부율(False Rejection Rate, FRR)이 높아지고, 반대로 임계치를 넓게 할 경우 본인이 아님에도 본인으로 오인하는 수락률(False Acceptance Rate, FAR)이 높아지는 문제가 발생한다. 즉, 종래의 기술들은 사람의 음성의 가변적 속성을 적절히 반영하여 음성을 인식하지 못하는 한계가 존재한다.

대한민국 등록특허공보 제10-0779242호 (2007.11.19)

본 발명은 전술한 바와 같은 문제점을 해결하기 위한 것으로서, 다양하게 개발된 음성 특징벡터와 파라미터 중 화자 및 음성별로 최적화된 음성 특징벡터와 파라미터를 추출함으로써 음성 인증 시 화자확인의 정확도를 보다 향상시킬 수 있는 방법 및 장치를 제공함에 목적이 있다.

또한, 신체적 또는 감정적 변화 등에 따라 가변하는 사람의 음성을 확인함에 있어서 본인임에도 본인으로 허용하지 않는 거부율(False Rejection Rate, FRR) 및 본인이 아님에도 본인으로 오인하는 수락률(False Acceptance Rate, FAR)을 안정화하여 화자확인을 위한 음성 인증의 기능을 보다 향상시킬 수 있는 방법 및 장치를 제공함에 목적이 있다.

본 발명의 일 실시 예에 따른 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법은, (a) 화자로부터 발화되는 단어들의 음성 데이터들을 추출하여 동일 단어별로 데이터베이스화 하는 단계, (b) 소정의 음성 특징벡터 및 파라미터를 기준으로 동일 단어별로 데이터베이스화된 음성 데이터들의 유사특성을 분석하고, 분석된 유사특성에 따라 음성 데이터들을 분류하는 단계, (c) (a) 단계 및 (b) 단계가 반복적으로 수행됨에 따라 각 분류별 음성 데이터들의 누적수가 소정의 기준값 이상인지 여부를 추정하고, 누적수가 소정의 기준값 이상인 것으로 추정된 음성 데이터들을 기준 데이터로 설정하는 단계, (d) 머신러닝을 이용하여 기준 데이터에 부합하는 음성 특징벡터 및 파라미터를 학습하는 단계 및 (e) 기준 데이터에 부합하는 음성 특징벡터 및 파라미터를 기준으로 기준 데이터와 나머지 분류별 음성 데이터들 간의 상관관계를 도출하고, 도출된 상관관계에 관한 정보를 테이블화하는 단계를 포함할 수 있다.

본 발명의 일 실시 예에 따른 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법은, (f) 머신러닝을 이용하여 나머지 분류별 음성 데이터들 각각에 부합하는 음성 특징벡터 및 파라미터를 학습하는 단계를 더 포함할 수 있다.

본 발명의 일 실시 예에 따르면 (c) 단계에서 누적수가 소정의 기준값 이상인 것으로 추정된 음성 데이터들이 기준 데이터로 설정됨과 동시에 (b) 단계의 반복적 수행이 일시적으로 중지될 수 있다.

본 발명의 일 실시 예에 따른 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법의 (d) 단계에서는, 학습되는 기준 데이터에 부합하는 음성 특징벡터 및 파라미터에 대한 정보가 행렬 형태(matrix)로 데이터베이스에 저장될 수 있다.

본 발명의 일 실시 예에 따른 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법의 (d) 단계는, (d1) 기준 데이터와 복수개의 음성 특징벡터 및 파라미터 각각에 대한 정규분포 분석을 통해 정규화 데이터들을 도출하는 단계 및 (d2) 정규화 데이터들 각각에 대한 분산 정도의 비교 분석을 통해 기준 데이터에 부합하는 음성 특징벡터 및 파라미터를 도출하는 단계를 포함할 수 있다.

본 발명의 일 실시 예에 따른 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 장치는, 화자로부터 발화되는 단어들의 음성 데이터들을 추출하여 동일 단어별로 데이터베이스화 하는 음성 데이터 추출부, 소정의 음성 특징벡터 및 파라미터를 기준으로 동일 단어별로 데이터베이스화된 음성 데이터들의 유사특성을 분석하고, 분석된 유사특성에 따라 음성 데이터들을 분류하는 음성 데이터 분류부, 음성 데이터 추출부 및 음성 데이터 분류부의 동작이 반복적으로 수행됨에 따라 각 분류별 음성 데이터들의 누적수가 소정의 기준값 이상인지 여부를 추정하고, 누적수가 소정의 기준값 이상인 것으로 추정된 음성 데이터들을 기준 데이터로 설정하는 기준 데이터 생성부, 머신러닝을 이용하여 기준 데이터에 부합하는 음성 특징벡터 및 파라미터를 학습하는 특징벡터 학습부, 및 기준 데이터에 부합하는 음성 특징벡터 및 파라미터를 기준으로 기준 데이터와 나머지 분류별 음성 데이터들 간의 상관관계를 도출하고, 도출된 상관관계에 관한 정보를 테이블화하는 상관관계 도출부를 포함할 수 있다.

본 발명의 일 실시 예에 따른 특징벡터 학습부는, 머신러닝을 이용하여 나머지 분류별 음성 데이터들 각각에 부합하는 음성 특징벡터 및 파라미터를 학습할 수 있다.

본 발명의 일 실시 예에 따르면 기준 데이터 생성부에서 누적수가 소정의 기준값 이상인 것으로 추정된 음성 데이터들이 기준 데이터로 설정됨과 동시에 음성 데이터 분류부의 반복적 동작 수행이 일시적으로 중지될 수 있다.

본 발명의 일 실시 예에 따른 특징벡터 학습부에서는, 학습되는 기준 데이터에 부합하는 음성 특징벡터 및 파라미터에 대한 정보가 행렬 형태(matrix)로 데이터베이스에 저장될 수 있다.

본 발명의 일 실시 예에 따른 특징벡터 학습부는, 기준 데이터와 복수개의 음성 특징벡터 및 파라미터 각각에 대한 정규분포 분석을 통해 정규화 데이터들을 도출하는 정규화 데이터 도출부 및 정규화 데이터들 각각에 대한 분산 정도의 비교분석을 통해 기준 데이터에 부합하는 음성 특징벡터 및 파라미터를 도출하는 정규화 데이터 분석부를 포함할 수 있다.

한편, 본 발명의 일 실시예에 의하면, 전술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.

본 발명의 일 실시예로서 제공되는 음성 특징벡터를 활용하는 방법 및 장치에 따르면, 화자를 중심으로 화자가 발화하는 단어(문맥)별로 최적화된 음성 특징벡터 및 파라미터를 추출하여 음성 인증을 위한 화자확인 과정에 적용함으로써, 화자확인 과정의 정확도를 종래 대비 대폭 향상시킬 수 있다.

또한, 신체적 또는 감정적 변화 등에 따라 변화하는 음성의 가변적 속성에 의해 음성 인증을 위한 화자확인 과정에서 거부율(False Rejection Rate, FRR) 및 수락률(False Acceptance Rate, FAR)이 높아지는 것을 방지하여 화자확인의 신뢰성을 보다 향상시킬 수 있으며, 종래 대비 개선된 음성 인증 시스템을 구축할 수 있다.

도 1은 본 발명의 일 실시예에 따른 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법을 나타낸 제 1 순서도이다.
도 2는 본 발명의 일 실시예에 따른 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법을 나타낸 제 2 순서도이다.
도 3은 본 발명의 일 실시예에 따른 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 전반적인 과정을 나타낸다.
도 4는 본 발명의 일 실시예에 따른 (d) 음성 특징벡터 및 파라미터 학습 단계의 구체적인 과정을 나타낸 순서도이다.
도 5는 본 발명의 일 실시예에 따른 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 장치를 나타낸 블록도이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법을 나타낸 제 1 순서도이며, 도 2는 본 발명의 일 실시예에 따른 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법을 나타낸 제 2 순서도이다. 또한, 도 3은 본 발명의 일 실시예에 따른 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 전반적인 과정을 나타낸다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법은, (a) 화자로부터 발화되는 단어들의 음성 데이터들을 추출하여 동일 단어별로 데이터베이스화 하는 단계(S100), (b) 소정의 음성 특징벡터 및 파라미터를 기준으로 동일 단어별로 데이터베이스화된 음성 데이터들의 유사특성을 분석하고, 분석된 유사특성에 따라 음성 데이터들을 분류하는 단계(S200), (c) (a) 단계(S100) 및 (b) 단계(S200)가 반복적으로 수행됨에 따라 각 분류별 음성 데이터들의 누적수가 소정의 기준값 이상인지 여부를 추정하고, 누적수가 소정의 기준값 이상인 것으로 추정된 음성 데이터들을 기준 데이터로 설정하는 단계(S300), (d) 머신러닝을 이용하여 기준 데이터에 부합하는 음성 특징벡터 및 파라미터를 학습하는 단계(S400) 및 (e) 기준 데이터에 부합하는 음성 특징벡터 및 파라미터를 기준으로 기준 데이터와 나머지 분류별 음성 데이터들 간의 상관관계를 도출하고, 도출된 상관관계에 관한 정보를 테이블화하는 단계(S500)를 포함할 수 있다.

본 발명의 일 실시 예에 따라 이용되는 음성 특징벡터에는 청각모형에 기초한 특징벡터인 MFCC(Mel-Frequency Cepstral Coefficients), 발음특성에 기초한 특징벡터인 LPCC(Linear Prediction Cepstral Coefficients)를 비롯하여, LPC(Linear Predictive Coding), PLP(Perceptual Linear Predictive Analysis) 등 음성 인식 과정에서 사용하기 위해 개발된 음성 특징벡터가 모두 포함될 수 있다.

또한, 본 발명의 일 실시 예에 따라 이용되는 음성 파라미터에는 신체적 상태를 나타내는 지표로 주로 사용되는 피치(pitch), 감정적 상태를 나타내는 지표로 주로 사용되는 포먼트(formant) 등이 포함되며, 전술한 예시에 국한되지 않고 화자의 발음특성을 나타내기 위해 개발된 파라미터가 모두 포함될 수 있다.

본 발명의 일 실시 예에 따른 (a) 단계(S100)에서는 화자가 스마트폰, 인공지능 스피커 등 음성을 인식하는 장치를 사용하는 과정에서 발화되는 단어들의 음성 데이터를 추출하고 동일 단어별로 분류하여 데이터베이스(600)에 저장할 수 있다. 이는 화자를 중심으로 하여 단어별로 음성 특징벡터 및 파라미터를 최적화하기 위한 기초 단계에 해당할 수 있다. 예를 들어, 화자가 “소나무가 그려진 그림을 보여줘” 라는 음성과 “사과가 그려진 그림을 보여줘” 라는 음성을 순차적으로 발화한 경우, 음성 데이터 추출부에서는 각 음성별로 단어들(i.e. 소나무, 사과, 그림 등)의 음성 데이터를 추출할 수 있으며, 각 음성별로 추출된 단어들 중 동일 단어(i.e. 그림)들의 음성 데이터를 데이터베이스(600)에 저장할 수 있다.

본 발명의 일 실시 예에 따른 (b) 단계(S200)에서는 (a) 단계(S100)를 통해 데이터베이스화된 음성 데이터들을 소정의 음성 특징벡터 및 파라미터를 기준으로 분석하고, 분류할 수 있다. 이때, 소정의 음성 특징벡터 및 파라미터는 전술한 예시(i.e. LPCC, MFCC, 피치 또는 포먼트 등) 중 어느 하나일 수 있다. 또한, 소정의 음성 특징벡터 및 파라미터는 미리 설정되어 (b) 단계(S200)의 수행 시 적용될 수 있으며, 사용자에 의해 다른 음성 특징벡터 및 파라미터로 변경될 수 있다.

예를 들어, 도 3을 참조하면, 음성 데이터 분류부(200)에서 동일 단어별로 데이터베이스화된 음성 데이터들을 음성 파라미터 중 피치 및 포먼트를 이용하여 특성을 분석하여 신체가 건강한 상태에서 발화된 음성(분류 1), 신체가 건강하지 않은 상태에서 발화된 음성(분류 2), 감정적 변화가 있는 상태에서 발화된 음성(분류 3) 또는 감정적 변화가 없는 상태에서 발화된 음성(분류 4) 등으로 분류할 수 있다. 이와 같은 음성 특성의 분석 및 분류 과정(S200)은 (a) 단계(S100)와 함께 지속적으로 반복 수행될 수 있다.

본 발명의 일 실시 예에 따라 (a) 단계(S100)와 (b) 단계(S200)가 반복적으로 수행되면 음성 데이터들이 각 분류별로 누적되게 되고, 그 누적수가 소정의 기준값 이상인지가 여부가 추정(S310)될 수 있다. 이때, 소정의 기준값은 기준 데이터 설정을 위한 값으로, 미리 설정된 값일 수 있다. 전술한 바와 같은 추정 과정(S310)은 (a) 단계(S100)와 (b) 단계(S200)가 반복적으로 수행됨에 따라 지속적으로 수행될 수 있으며, 특정 분류의 음성 데이터 누적수가 소정의 기준값 이상인 것으로 추정되는 경우, 해당 분류의 음성 데이터들이 음성 특징벡터 및 파라미터의 상관관계 도출을 위한 기준 데이터로 설정(S320)될 수 있다.

예를 들어, 도 3을 참조하면, (a) 단계(S100)와 (b) 단계(S200)가 반복적으로 수행되어 감정적 변화가 없는 상태에서 발화된 음성(분류 4)에 해당하는 음성 데이터들의 수가 소정의 기준값 이상으로 추정되면, 감정적 변화가 없는 상태에서 발화된 음성(분류 4)에 해당하는 음성 데이터들이 기준 데이터로 설정될 수 있다.

본 발명의 일 실시 예에 따라 (c) 단계(S300)를 통해 기준 데이터가 설정되면, 머신러닝을 이용하여 기준 데이터에 부합하는 음성 특징벡터 및 파라미터(i.e. 기준데이터에 최적화된 음성 특징벡터 및 파라미터)를 학습하는 (d) 단계(S400)가 수행될 수 있다. 이는 특정 단어에 최적화된 음성 특징벡터 및 파라미터를 추출하기 위한 작업으로 이해될 수 있다. 즉, (b) 단계(S200)에서 이용된 소정의 음성 특징벡터 및 파라미터가 기준 데이터에 대한 음성 매칭도가 최적화된 음성 특징벡터 및 파라미터가 아닐 수 있으므로, (d) 단계(S400)를 통해 기준 데이터에 해당하는 단어를 구성하는 음소 요소에 따라 최적화된 음성 특성이 선택되어 음성 인증을 위한 화자확인에 이용될 수 있도록 할 수 있다. 이러한 과정을 통해 음성 인증을 위한 화자확인의 정확성 및 신뢰성을 보다 향상시킬 수 있다. (d) 단계(S400)의 머신러닝을 이용한 음성 특징벡터 및 파라미터의 구체적인 학습 과정은 도 4를 참조하여 후술하도록 한다.

본 발명의 일 실시 예에 따라 기준 데이터에 부합하는 음성 특징벡터 및 파라미터가 학습되면, 학습된 음성 특징벡터 및 파라미터를 기준으로 나머지 분류별 음성 데이터들 간의 상관관계를 도출하는 과정(S510)이 수행될 수 있다. 예를 들어, 도 3을 참조하면 상관관계 도출부(500)에서 기준 데이터(분류 4)에 부합하는 음성 특징벡터 및 파라미터를 기준으로 분류 1(신체가 건강한 상태에서 발화된 음성), 분류 2(신체가 건강하지 않은 상태에서 발화된 음성), 분류 3(감정적 변화가 있는 상태에서 발화된 음성)의 음성 특성을 각각 비교분석하여 기준 데이터에 부합하는 음성 특징벡터 및 파라미터와의 상관 관계를 도출할 수 있다.

전술한 바와 같이 도출된 상관관계에 관한 정보는 테이블화되어 데이터베이스(600)에 저장(S520)될 수 있다. 즉, 기준 데이터에 부합하는 음성 특징벡터 및 파라미터와 나머지 각 분류간의 음성 특성의 상관관계가 도출되면, 도출된 상관관계에 대한 관계 테이블이 형성될 수 있으며, 형성된 관계 테이블은 데이터베이스(600)에 곧바로 저장될 수 있다. 저장된 관계 테이블과 기준 데이터에 부합하는 음성 특징벡터 및 파라미터에 관한 정보는 음성 인증을 위한 화자확인에 활용될 수 있으며, 이를 통해 화자확인의 정확성 및 신뢰성을 보다 향상시킬 수 있다.

도 2 및 도 3을 참조하면, 본 발명의 일 실시 예에 따른 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법은, (f) 머신러닝을 이용하여 나머지 분류별 음성 데이터들 각각에 부합하는 음성 특징벡터 및 파라미터를 학습하는 단계(S600)를 더 포함할 수 있다. 이는 분류별 음성 데이터들(기준 데이터를 포함) 각각에 최적화된 음성 특징벡터 및 파라미터를 도출하여 음성 인증의 정확도를 향상시키기 위한 추가적인 학습 과정으로 이해될 수 있다. 이때, 나머지 분류별 음성 데이터들 각각에 부합하는 음성 특징벡터 및 파라미터(i.e. 나머지 분류별 음성 데이터들 각각에 최적화된 음성 특징벡터 및 파라미터)의 학습은 (d) 단계(S400)와 동일한 과정을 통해 수행될 수 있으며, 보다 자세한 내용은 도 4를 참조하여 후술하도록 한다.

본 발명의 일 실시 예에 따라 (d) 단계(S400) 및 (f) 단계(S600)를 통해 학습된 기준 데이터 및 나머지 분류별 음성 데이터들 각각에 부합하는 음성 특징벡터 및 파라미터들은 서로 동일할 수도 있고 동일하지 않을 수도 있다. 즉, 기준 데이터 및 나머지 분류별 음성 데이터들은 모두 동일한 단어에 대한 음성 데이터에 해당하나 화자의 신체 상태, 감정, 상황 등에 따른 음성 특징은 서로 상이할 수 있으므로, 분류별 음성 데이터에 각각에 최적화된 음성 특징벡터 및 파라미터는 동일하거나 상이할 수 있다.

도 3을 참조하면, 본 발명의 일 실시 예에 따르면 (c) 단계(S300)에서 누적수가 소정의 기준값 이상인 것으로 추정된 음성 데이터들이 기준 데이터로 설정됨과 동시에 (b) 단계(S200)의 반복적 수행이 일시적으로 중지될 수 있다. 즉, 특정 분류에 해당하는 음성 데이터들의 누적수가 소정의 기준값 이상인 것으로 추정되어 기준 데이터로 설정되는 과정에서 (b) 단계(S200)가 반복적으로 계속 수행되는 경우, 각 분류별로 누적수가 변동되어 기준 데이터 설정에 영향을 미칠 수 있으므로 이를 방지하기 위해 기준 데이터가 설정됨과 동시에 (b) 단계(S200)의 수행이 일시적으로 중지될 수 있다. 이러한 일시적 중지는 (e) 단계(S500)가 최종적으로 수행될 때까지 지속될 수 있다. 다시 말해서, (e) 단계(S500)를 통해 상관관계에 관한 정보가 테이블화되어 데이터베이스(600)에 저장되면, (b) 단계(S200)가 다시 반복적으로 수행될 수 있다.

도 3을 참조하면, 본 발명의 일 실시 예에 따른 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법의 (d) 단계(S400)에서는, 학습되는 기준 데이터에 부합하는 음성 특징벡터 및 파라미터에 대한 정보가 행렬 형태(matrix)로 데이터베이스(600)에 저장될 수 있다. 이때, 행렬 형태는 NxM (N,M은 동일하거나 상이한 양의 정수) 형태로 구성될 수 있다.

본 발명의 일 실시 예에 따른 음성 특징벡터를 활용하는 방법의 각 단계는 반복적으로 수행될 수 있으며, 반복적 수행을 통해 화자 및 음성별 화자인식의 정확성 및 신뢰도를 보다 향상시킬 수 있다. 따라서, (d) 단계(S400)가 반복적으로 수행됨에 따라 기준 데이터가 변경되고 그에 따라 기준 데이터에 부합하는 음성 특징벡터 및 파라미터에 대한 정보가 변경되는 경우, 기존에 행렬 형태로 데이터베이스(600)에 저장된 정보가 새로 변경된 정보로 변경될 수 있다. 이때, 기존에 저장된 정보는 삭제되거나 행렬의 빈 섹션(section)으로 순차 이동되어 저장될 수 있다. 예를 들어, 기존에 기준 데이터에 부합하는 음성 특징벡터 및 파라미터에 대한 정보가 1x1 섹션에 저장되어 있었을 경우, 새로 변경되는 정보가 1x1에 저장되면서 기존 정보는 삭제되거나 빈 섹션인 1x2로 이동되어 저장될 수 있다. 이러한 정보 저장 과정은 문맥(단어) 제시형 매트릭스 DB와 연동되어 수행될 수 있다.

도 4는 본 발명의 일 실시예에 따른 (d) 음성 특징벡터 및 파라미터 학습 단계(S400)의 구체적인 과정을 나타낸 순서도이다.

도 4를 참조하면, 본 발명의 일 실시 예에 따른 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법의 (d) 단계(S400)는, (d1) 기준 데이터와 복수개의 음성 특징벡터 및 파라미터 각각에 대한 정규분포 분석을 통해 정규화 데이터들을 도출하는 단계(S410) 및 (d2) 정규화 데이터들 각각에 대한 분산 정도의 비교 분석을 통해 기준 데이터에 부합하는 음성 특징벡터 및 파라미터를 도출하는 단계(S420)를 포함할 수 있다.

예를 들어, (d1) 단계(S410)에서 기준 데이터와 MFCC, LPCC, LPC, 피치, 포먼트 등 현재 음성 인식에 사용되는 다양한 음성 특징벡터 및 파라미터들 각각에 대한 정규분포 분석이 수행될 수 있으며, 정규분포 분석을 통해 얻은 결과는 분석 과정에서 이용된 음성 특징벡터 및 파라미터들의 개수만큼 정규화 데이터의 형태로 도출될 수 있다.

전술한 과정을 통해 도출된 정규화 데이터들은 (d2) 단계(S420)에서 서로 비교 분석될 수 있다. 구체적으로, 각 정규화 데이터들의 분산 정도(ex. 분산값)의 비교가 수행될 수 있으며, 분산 정도가 가장 작은 경우(ex. 분산값이 가장 작은 경우)에 해당하는 정규화 데이터가 기준 데이터에 부합하는 음성 특징벡터 및 파라미터를 도출하기 위한 기준으로서 도출될 수 있다. 전술한 과정을 통해 도출된 정규화 데이터에 해당하는 음성 특징벡터 및 파라미터가 기준 데이터에 부합하는 음성 특징벡터 및 파라미터로 선택되어 학습될 수 있다. 이와 같이 학습된 음성 특징벡터 및 파라미터는 기준 데이터에 최적화된 음성 특징벡터 및 파라미터에 해당한다.

도 5는 본 발명의 일 실시예에 따른 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 장치(1000)를 나타낸 블록도이다.

도 5를 참조하면, 본 발명의 일 실시 예에 따른 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 장치(1000)는, 화자로부터 발화되는 단어들의 음성 데이터들을 추출하여 동일 단어별로 데이터베이스화 하는 음성 데이터 추출부(100), 소정의 음성 특징벡터 및 파라미터를 기준으로 동일 단어별로 데이터베이스화된 음성 데이터들의 유사특성을 분석하고, 분석된 유사특성에 따라 음성 데이터들을 분류하는 음성 데이터 분류부(200), 음성 데이터 추출부(100) 및 음성 데이터 분류부(200)의 동작이 반복적으로 수행됨에 따라 각 분류별 음성 데이터들의 누적수가 소정의 기준값 이상인지 여부를 추정하고, 누적수가 소정의 기준값 이상인 것으로 추정된 음성 데이터들을 기준 데이터로 설정하는 기준 데이터 생성부(300), 머신러닝을 이용하여 기준 데이터에 부합하는 음성 특징벡터 및 파라미터를 학습하는 특징벡터 학습부(400), 및 기준 데이터에 부합하는 음성 특징벡터 및 파라미터를 기준으로 기준 데이터와 나머지 분류별 음성 데이터들 간의 상관관계를 도출하고, 도출된 상관관계에 관한 정보를 테이블화하는 상관관계 도출부(500)를 포함할 수 있다.

본 발명의 일 실시 예에 따른 음성 특징벡터를 활용하는 장치(1000)는 통신부를 더 포함할 수 있으며, 통신부를 통해 통신이 가능한 네트워크 내에 포함된 다른 전자 디바이스 및 시스템(ex. 스마트폰, 인공지능 스피커, 음성 인증 시스템 등)과 통신할 수 있다. 이러한 통신부는 근거리 통신 모듈인 블루투스(bluetooth) 통신 모듈, BLE(bluetooth low energy) 통신 모듈, 지그비(zigbee) 통신 모듈, 비콘(beacon) 통신 모듈 등을 비롯하여 와이파이(Wifi) 통신 모듈, UWB(ultra wideband) 통신모듈, LoRaWAN 통신 모듈 등을 포함할 수 있으며, 전술한 예시에 국한되는 것은 아니다.

본 발명의 일 실시 예에 따른 특징벡터 학습부(400)는, 머신러닝을 이용하여 나머지 분류별 음성 데이터들 각각에 부합하는 음성 특징벡터 및 파라미터를 학습할 수 있다.

본 발명의 일 실시 예에 따르면 기준 데이터 생성부(300)에서 누적수가 소정의 기준값 이상인 것으로 추정된 음성 데이터들이 기준 데이터로 설정됨과 동시에 음성 데이터 분류부(200)의 반복적 동작 수행이 일시적으로 중지될 수 있다.

본 발명의 일 실시 예에 따른 특징벡터 학습부(400)에서는, 학습되는 기준 데이터에 부합하는 음성 특징벡터 및 파라미터에 대한 정보가 행렬 형태(matrix)로 데이터베이스(600)에 저장될 수 있다.

본 발명의 일 실시 예에 따른 특징벡터 학습부(400)는, 기준 데이터와 복수개의 음성 특징벡터 및 파라미터 각각에 대한 정규분포 분석을 통해 정규화 데이터들을 도출하는 정규화 데이터 도출부(410) 및 정규화 데이터들 각각에 대한 분산 정도의 비교분석을 통해 기준 데이터에 부합하는 음성 특징벡터 및 파라미터를 도출하는 정규화 데이터 분석부(420)를 포함할 수 있다.

본 발명의 일 실시예에 따른 장치와 관련하여서는 전술한 방법에 대한 내용이 적용될 수 있다. 따라서, 장치와 관련하여, 전술한 방법에 대한 내용과 동일한 내용에 대하여는 설명을 생략하였다.

한편, 본 발명의 일 실시예에 의하면, 전술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다. 다시 말해서, 전술한 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터 판독 가능 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 방법에서 사용된 데이터의 구조는 컴퓨터 판독 가능 매체에 여러 수단을 통하여 기록될 수 있다. 본 발명의 다양한 방법들을 수행하기 위한 실행 가능한 컴퓨터 프로그램이나 코드를 기록하는 기록 매체는, 반송파(carrier waves)나 신호들과 같이 일시적인 대상들은 포함하는 것으로 이해되지는 않아야 한다. 상기 컴퓨터 판독 가능 매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, DVD 등)와 같은 저장 매체를 포함할 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 음성 데이터 추출부 200: 음성 데이터 분류부
300: 기준 데이터 생성부 400: 특징벡터 학습부
410: 정규화 데이터 도출부 420: 정규화 데이터 분석부
500: 상관관계 도출부 600: 데이터베이스
1000: 음성 특징벡터를 활용하는 장치

Claims

음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법에 있어서,
(a) 화자로부터 발화되는 단어들의 음성 데이터들을 추출하여 동일 단어별로 데이터베이스화 하는 단계;
(b) 소정의 음성 특징벡터 및 파라미터를 기준으로 상기 동일 단어별로 데이터베이스화된 음성 데이터들의 유사특성을 분석하고, 상기 분석된 유사특성에 따라 음성 데이터들을 분류하는 단계;
(c) 상기 (a) 단계 및 (b) 단계가 반복적으로 수행됨에 따라 각 분류별 음성 데이터들의 누적수가 소정의 기준값 이상인지 여부를 추정하고, 상기 누적수가 소정의 기준값 이상인 것으로 추정된 음성 데이터들을 기준 데이터로 설정하는 단계;
(d) 머신러닝을 이용하여 상기 기준 데이터에 부합하는 음성 특징벡터 및 파라미터를 학습하는 단계; 및
(e) 상기 기준 데이터에 부합하는 음성 특징벡터 및 파라미터를 기준으로 상기 기준 데이터와 나머지 분류별 음성 데이터들 간의 상관관계를 도출하고, 상기 도출된 상관관계에 관한 정보를 테이블화하는 단계를 포함하되,
상기 (d) 단계에서는, 상기 학습되는 기준 데이터에 부합하는 음성 특징벡터 및 파라미터에 대한 정보가 행렬 형태(matrix)로 데이터베이스에 저장되는 것을 특징으로 하는 음성 특징벡터를 활용하는 방법.
제 1 항에 있어서,
(f) 상기 머신러닝을 이용하여 상기 나머지 분류별 음성 데이터들 각각에 부합하는 음성 특징벡터 및 파라미터를 학습하는 단계를 더 포함하는 것을 특징으로 하는 음성 특징벡터를 활용하는 방법.
제 1 항에 있어서,
상기 (c) 단계에서 상기 누적수가 소정의 기준값 이상인 것으로 추정된 음성 데이터들이 기준 데이터로 설정됨과 동시에 상기 (b) 단계의 반복적 수행이 일시적으로 중지되는 것을 특징으로 하는 음성 특징벡터를 활용하는 방법.
삭제
제 1 항에 있어서,
상기 (d) 단계는,
(d1) 상기 기준 데이터와 복수개의 음성 특징벡터 및 파라미터 각각에 대한 정규분포 분석을 통해 정규화 데이터들을 도출하는 단계; 및
(d2) 상기 정규화 데이터들 각각에 대한 분산 정도의 비교 분석을 통해 상기 기준 데이터에 부합하는 음성 특징벡터 및 파라미터를 도출하는 단계를 포함하는 것을 특징으로 하는 음성 특징벡터를 활용하는 방법.
음성 인증 최적화를 위해 음성 특징벡터를 활용하는 장치에 있어서,
화자로부터 발화되는 단어들의 음성 데이터들을 추출하여 동일 단어별로 데이터베이스화 하는 음성 데이터 추출부;
소정의 음성 특징벡터 및 파라미터를 기준으로 상기 동일 단어별로 데이터베이스화된 음성 데이터들의 유사특성을 분석하고, 상기 분석된 유사특성에 따라 음성 데이터들을 분류하는 음성 데이터 분류부;
상기 음성 데이터 추출부 및 음성 데이터 분류부의 동작이 반복적으로 수행됨에 따라 각 분류별 음성 데이터들의 누적수가 소정의 기준값 이상인지 여부를 추정하고, 상기 누적수가 소정의 기준값 이상인 것으로 추정된 음성 데이터들을 기준 데이터로 설정하는 기준 데이터 생성부;
머신러닝을 이용하여 상기 기준 데이터에 부합하는 음성 특징벡터 및 파라미터를 학습하는 특징벡터 학습부; 및
상기 기준 데이터에 부합하는 음성 특징벡터 및 파라미터를 기준으로 상기 기준 데이터와 나머지 분류별 음성 데이터들 간의 상관관계를 도출하고, 상기 도출된 상관관계에 관한 정보를 테이블화하는 상관관계 도출부를 포함하되,
상기 특징벡터 학습부에서는, 상기 학습되는 기준 데이터에 부합하는 음성 특징벡터 및 파라미터에 대한 정보가 행렬 형태(matrix)로 데이터베이스에 저장되는 것을 특징으로 하는 음성 특징벡터를 활용하는 장치.
제 6 항에 있어서,
상기 특징벡터 학습부는,
상기 머신러닝을 이용하여 상기 나머지 분류별 음성 데이터들 각각에 부합하는 음성 특징벡터 및 파라미터를 학습하는 것을 특징으로 하는 음성 특징벡터를 활용하는 장치.
제 6 항에 있어서,
상기 기준 데이터 생성부에서 상기 누적수가 소정의 기준값 이상인 것으로 추정된 음성 데이터들이 기준 데이터로 설정됨과 동시에 상기 음성 데이터 분류부의 반복적 동작 수행이 일시적으로 중지되는 것을 특징으로 하는 음성 특징벡터를 활용하는 장치.
삭제
제 6 항에 있어서,
상기 특징벡터 학습부는,
상기 기준 데이터와 복수개의 음성 특징벡터 및 파라미터 각각에 대한 정규분포 분석을 통해 정규화 데이터들을 도출하는 정규화 데이터 도출부; 및
상기 정규화 데이터들 각각에 대한 분산 정도의 비교분석을 통해 상기 기준 데이터에 부합하는 음성 특징벡터 및 파라미터를 도출하는 정규화 데이터 분석부를 포함하는 것을 특징으로 하는 음성 특징벡터를 활용하는 장치.
제 1 항, 제 2 항, 제 3 항 또는 제 5 항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.