KR102113879B1

KR102113879B1 - 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치

Info

Publication number: KR102113879B1
Application number: KR1020180164839A
Authority: KR
Inventors: 이태훈
Original assignee: 주식회사 공훈
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2020-05-26

Abstract

본 발명의 일 실시예에 따른 참조 데이터베이스를 활용한 화자 음성 인식 방법은, 복수명의 사용자들 각각에 의하여 발화된 음성데이터를 수집하는 단계, 수집된 음성데이터로부터 사운드 특성을 추출하는 단계, 추출된 사운드 특성에 기초하여 음성 인식을 위한 모델을 생성하는 단계, 생성된 모델을 활용하여 각각의 사용자에 의하여 발화된 단어별 매칭도를 결정하는 단계, 결정된 매칭도에 기초하여 참조 데이터베이스를 생성하는 단계, 음성 인식 판단대상 사용자에 의하여 발화된 음성데이터로부터 각각의 단어에 대한 데이터를 추출하여, 참조 데이터베이스와 비교하는 단계 및 비교 결과에 기초하여 음성 인식 판단대상 사용자의 음성을 식별하는 단계를 포함할 수 있다.

Description

참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치{THE METHOD AND APPARATUS FOR RECOGNIZING SPEAKER'S VOICE BY USING REFERENCE DATABASE}

본 발명은 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 음성 인식(식별)을 위한 변별력이 우수한 단어를 미리 선정하여 참조 데이터베이스(DB)로써 구축해둔 후, 음성 인식대상 사용자인 화자로부터 발화된 음성을 참조 DB를 사용하여 확인하기 위한 방법 및 그 장치에 관한 것이다.

음성 인식 기술은 2000년대 들어 급속히 발전하여 현재는 대부분의 사용자 언어를 인식할 수 있는 수준까지 이르렀으며, 스마트폰과 가정용 스피커를 통한 음성 인식을 통해서 실생활 속에 급격히 퍼지고 있다. 따라서, 음성 인식 기술은 사람에게 가장 친숙하고 편리한 MMI(Man-Machine Interface)로서 사용처를 급속히 확장하고 있으나, 음성으로 통제되는 다양한 기기에 대한 사용자 식별의 정확도는 다소 미흡한 실정이다. 즉, 음성 인증 기술은 사전 입력된 화자의 음성과 인증하고자 하는 음성을 비교하여 처리하는 것을 골자로 하는데, 더욱이 사람의 경우에는 나이가 들어감 등의 상태 변화에 따라서 발성 기관의 근육이 퇴화하여 자연스럽게 음성 특징이 변경되기 때문에 더욱더 음성 인증을 어렵게 하는 문제가 되고 있다. 화자의 음성은 영구적이지 않으며, 시간이 흐름에 따른 발성 근육의 노화, 생활 환경(예컨대, 지역, 업무장소 등)의 변화, 건강 상태의 변화(예컨대, 감기의 발병 등) 등의 다양한 요인에 따라 일시적으로 또는 지속적이고 장기적으로 변화한다. 종래의 음성 인식 방법 또는 음성 모델을 관리하기 위한 방법은 화자가 놓여진 환경에 대한 고려 없이, 단순히 화자의 음성 특성 분석만을 통하여 화자에 대한 음성 모델을 변경하는 정도에 그쳤다.

음성을 통한 다양한 전자기기의 제어 방식의 출현 및 보급에 따라, 사용자의 음성을 정확하게 인식(식별)하고, 그에 따른 적절한 동작(예컨대, 사용자 인증 등)을 수행하게 하기 위한 음성 모델의 구축 및 관리의 필요성이 강하게 대두되고 있는 실정이다.

1. 한국등록특허공보 제10-1735212호 "성문 인증 방법 및 장치" (2017.05.04. 공고)

본 발명은 음성 식별을 위하여, 음성 특성이 잘 표현되는 단어(ex. 단어 고유의 독음 특성이 양호한 단어 등)를 미리 선별하여 참조 데이터베이스(DB)로써 구축해둔 후, 음성 인식대상 사용자인 화자로부터 발화된 음성 데이터로부터 단어를 추출하여, 추출된 단어가 참조 DB에 있는 경우 사용자 인증정보로써 음성 모델을 구축하기 위한 정보 DB로서 저장(ex. 기준 데이터베이스에 저장 등)하고, 추출된 단어가 참조 DB에 없는 경우에는 해당 단어는 음성 인증을 위한 정보로써는 사용하지 않도록 무시(ex. 기준 데이터베이스에 미저장 또는 삭제)하여 화자의 식별을 정확하게 하기 위한 방법 및 그 장치를 제공하고자 한다.

본 발명의 일 실시예로써, 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치가 제공될 수 있다.

또한, 복수명의 사용자들 각각에 의하여 발화된 음성데이터를 수집하는 단계에서는, 각각의 사용자로부터 음성데이터를 개별적으로 수집하거나, 복수명의 사용자들 각각으로부터 동시에 음성데이터를 수집하여 각각의 사용자별로 구분하고, 수집된 음성데이터로부터 사운드 특성을 추출하는 단계에서는, 음성데이터로부터 음성 특징벡터를 사운드 특성으로써 추출할 수 있다.

본 발명의 일 실시예에 따라 추출된 사운드 특성에 기초하여 음성 인식을 위한 모델을 생성하는 단계에서는, 추출된 사운드 특성별로 구분된 기준 데이터베이스를 구축하는 단계가 포함되고, 기준 데이터베이스는 사용자를 기준으로 사용자별로 구분되어 구축되거나 발화된 단어를 기준으로 단어별로 구분되어 구축되며, 기준 데이터베이스는 M X N의 행렬 형태(M과 N은 자연수)로 형성될 수 있다.

또한, 생성된 음성 인식을 위한 모델을 활용하여 각각의 사용자에 의하여 발화된 단어별 매칭도를 결정하는 단계에서는, 각각의 사용자에 의하여 발화된 단어와 기준 데이터베이스 상의 단어의 사운드 특성을 비교하여 유사도를 결정하며, 단어별로 결정된 유사도의 분포 상태를 파악할 수 있다.

또한, 결정된 매칭도에 기초하여 참조 데이터베이스를 생성하는 단계에서는, 소정의 기준값 이상의 매칭도를 갖는 적어도 하나의 단어를 선별 추출하여 참조 데이터베이스로써 구축할 수 있다.

소정의 기준값은 사용자의 발화 숙련도에 따라 상이하게 설정될 수 있다.

본 발명의 일 실시예에 따르면 음성 인식 판단대상 사용자에 의하여 발화된 음성데이터로부터 각각의 단어에 대한 데이터를 추출하여, 참조 데이터베이스와 비교하는 단계에서는, 사용자에 의하여 발화된 단어가 참조 데이터베이스에 포함되어 있는지 여부를 판단하고, 참조 데이터베이스 상에 단어가 포함되어 있다면 발화된 단어의 사운드 특성과 참조 데이터베이스 상에 포함된 단어의 사운드 특성을 비교하여 유사도를 결정하며, 참조 데이터베이스 상에 단어가 포함되어 있지 않다면 발화된 단어가 화자 음성 인식에 사용되지 않도록 발화된 단어의 음성데이터를 무시하고, 비교 결과에 기초하여 음성 인식 판단대상 사용자의 음성을 식별하는 단계에서는, 참조 데이터베이스에 기초한 사운드 특성의 유사도 비교 결과에 따라 음성 인식 판단대상 사용자의 음성을 식별할 수 있다.

본 발명의 일 실시예로써 제공되는 참조 데이터베이스를 활용한 화자 음성 인식 장치는, 복수명의 사용자들 각각에 의하여 발화된 음성데이터를 수집하는 음성데이터 수집부, 수집된 음성데이터로부터 사운드 특성을 추출하는 사운드 특성 추출부, 추출된 사운드 특성에 기초하여 음성 인식을 위한 모델을 생성하는 음성인식모델 생성부, 생성된 모델을 활용하여 각각의 사용자에 의하여 발화된 단어별 매칭도를 결정하는 매칭도 결정부, 결정된 매칭도에 기초하여 참조 데이터베이스를 생성하는 참조데이터베이스 생성부, 음성 인식 판단대상 사용자에 의하여 발화된 음성데이터로부터 각각의 단어에 대한 데이터를 추출하여, 참조 데이터베이스와 비교하는 비교부 및 비교 결과에 기초하여 음성 인식 판단대상 사용자의 음성을 식별하는 음성 판정부를 포함할 수 있다.

음성인식모델 생성부에서는, 추출된 사운드 특성별로 구분된 기준 데이터베이스를 구축하고, 기준 데이터베이스는 사용자를 기준으로 사용자별로 구분되어 구축되거나 발화된 단어를 기준으로 단어별로 구분되어 구축되며, 기준 데이터베이스는 M X N의 행렬 형태(M과 N은 자연수)로 형성될 수 있다.

매칭도 결정부에서는, 각각의 사용자에 의하여 발화된 단어와 기준 데이터베이스 상의 단어의 사운드 특성을 비교하여 유사도를 결정하며, 단어별로 결정된 유사도의 분포 상태를 파악할 수 있다.

참조데이터베이스 생성부에서는, 소정의 기준값 이상의 매칭도를 갖는 적어도 하나의 단어를 선별 추출하여 참조 데이터베이스로써 구축할 수 있다.

한편, 본 발명의 일 실시예로써, 전술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공될 수 있다.

본 발명의 일 실시예에 따른 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치를 이용하면, 음성 특성이 양호하게 표현되는 단어와 음성 특성이 두드러지게 표현되지 않는 단어를 구분하여 음성 특성이 양호하게 표현되는 단어를 선별하여 참조 DB로 구축해두고 화자 음성 식별(인식)을 위한 과정에서 참조 DB를 활용한다는 점에서, 화자의 발화 상태의 변화에도 효과적으로 대응할 수 있다. 다시 말해서, 대다수의 사용자(ex. 화자)에 대하여 음성 특성이 두드러지게 표현되는 특정의 단어를 취합하여 참조 DB로 구축해두고, 이러한 단어에 기초하여 화자의 음성 인식(확인)을 수행할 수 있다는 점에서 화자의 상태 변화에도 보다 강건할 수 있다.

또한, 사전에 사용자가 발성하는 단어에 대한 확인을 통해 음성 특성이 잘 표현되는 단어를 미리 분류하여, 음성 인증을 위한 적어도 하나의 유효 단어가 포함된 참조 DB를 구성하여 활용함으로써 사용자(ex. 화자)의 음성 인증의 속도 및 정확도를 대폭 향상시킬 수 있다.

도 1은 본 발명의 일 실시예에 따른 참조 데이터베이스를 활용한 화자 음성 인식 과정을 나타낸 개략도이다.
도 2는 본 발명의 일 실시예에 따른 참조 데이터베이스를 활용한 화자 음성 인식 방법을 나타낸 순서도이다.
도 3은 본 발명의 일 실시예에 따라 변별력이 우수한 단어를 선별하는 과정의 일 예를 나타낸다.
도 4는 본 발명의 일 실시예에 따른 참조 데이터베이스를 활용한 화자 음성 인식 장치의 블록도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 명세서 전체에서 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, "그 중간에 다른 소자를 사이에 두고" 연결되어 있는 경우도 포함한다.

대부분의 음성 인식 기술은 음성 신호 자체를 이용하는 것이 아니라 음성 신호로부터 음성 특징벡터를 추출하는 방식을 이용한다. 음성 특징벡터를 추출하면 음성 인식을 위한 음성의 변별력을 높일 수 있으며, 음성 인식을 위한 음성 데이터의 양을 조절할 수 있다. 현재 개발되어 사용되고 있는 대표적인 음성 특징벡터에는 MFCC(Mel-Frequency Cepstral Coefficients), LPCC(Linear Prediction Cepstral Coefficients), EIH(Ensenble Interaval Histogram) 등이 있다. 이와 같은 음성 특징벡터를 이용하는 종래의 기술들은 화자로부터 발화되는 단어(문맥)에 대해 일괄적으로 특정한 음성 특징벡터(ex. MFCC)를 추출하고, 추출된 음성 특징벡터를 분석하여 화자를 인식하는 방식을 사용하고 있다. 그러나, 종래의 기술들은 화자로부터 발화되는 단어(문맥)를 구성하는 음소요소(ex. 자음, 모음, 유성음, 묵음 등)을 고려하지 않고 일괄적으로 하나의 음성 특징벡터를 추출하므로, 화자 및 화자로부터 발화되는 단어(문맥)별로 최적화된 음성 특징을 추출하여 분석할 수 없어 음성 인식의 정확도를 향상시키는데 한계가 존재한다. 또한, 전술한 종래의 기술들과 같은 방식은 사람의 신체적 또는 감정적 변화에 따라 가변하는 음성의 속성으로 인해 준거 기준을 명확히 설정할 수 없어서 음성 인식을 위한 임계치를 두어야 한다. 다만, 임계치를 좁게 할 경우 화자확인은 정교할 수 있으나 본임임에도 불구하고 본인으로 허용하지 않는 거부율(False Rejection Rate, FRR)이 높아지고, 반대로 임계치를 넓게 할 경우 본인이 아님에도 본인으로 오인하는 수락률(False Acceptance Rate, FAR)이 높아지는 문제가 발생한다. 즉, 종래의 기술들은 사람의 음성의 가변적 속성을 적절히 반영하여 음성을 인식하지 못하는 한계가 존재한다. 이에 대한 대응 방안으로서 다양한 기술이 출현되어 오고 있다.

본 발명은 전술한 문제점에 대한 일 대응 방안으로서 제시될 수 있는 것으로, 음성 인식(식별)을 위한 변별력이 우수한 단어를 미리 선정하여 참조 데이터베이스(DB)로써 구축해둔 후, 음성 인식대상 사용자인 화자로부터 발화된 음성으로부터 단어를 추출하고, 추출된 단어가 참조 DB 상에 존재하는지 여부에 따라 해당 단어를 음성 인증을 위한 정보로 활용하거나 활용하지 않음으로써 발화 단어 중심의 빠르고 정확한 화자 판별을 효과적으로 할 수 있다.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 참조 데이터베이스를 활용한 화자 음성 인식 과정을 나타낸 개략도이고, 도 2는 본 발명의 일 실시예에 따른 참조 데이터베이스를 활용한 화자 음성 인식 방법을 나타낸 순서도이다. 또한, 도 3은 본 발명의 일 실시예에 따라 변별력이 우수한 단어를 선별하는 과정의 일 예를 나타내고, 도 4는 본 발명의 일 실시예에 따른 참조 데이터베이스를 활용한 화자 음성 인식 장치의 블록도이다.

도 1을 참조하면, 화자로부터 발화된 정보인 발성 정보(ex. 단어, 명령 또는 대화 등)로부터 단어가 추출(Speech To Text, STT)될 수 있다. 추출된 단어에 대하여는 복수의 사용자들에 의하여 사전에 발화되어 음성 특성이 잘 표현되는지 여부가 판단된 결과에 기초하여 선별적으로 구축된 참조 DB 상에 존재하는지 여부가 판단될 수 있다. 참조 DB 상에 해당 단어가 존재한다는 것은 해당 단어는 음성 특성(ex. 특징 벡터, 관련 파라미터 연산값 등)이 잘 표현되는 단어라는 것을 나타낸다. 다시 말해서, 참조 DB라 함은 단어 자체가 화자의 현재의 발화 상태에 크게 영향 받지 않고도 단어 고유의 음성 특성이 우수한 적어도 하나의 단어가 포함된 데이터베이스를 지칭할 수 있다. 단어는 자음, 모음, 유성음, 무성음 등 여러 가지 요인에 의하여 고유의 개별적인 음성 특성을 가지게 된다. 이에 따라 각 단어의 구성 성분에 따라 음성 특성이 잘 표현되는 단어와 상대적으로 음성 특성이 잘 표현되지는 않는 단어가 존재할 수 있다. 본 발명의 일 실시예에 따른 방법 및 그 장치에서는 이와 같은 단어 자체의 고유 음성 특성이 복수의 사용자(ex. 화자)들을 통하여 어떻게 표현될 수 있는지에 기초하여 음성 인식대상 사용자의 음성을 식별(확인)하는 과정에 활용하고자 한다. 본 발명의 일 실시예에 따르면 사전에 사용자가 발성하는 단어에 대한 확인을 통해 음성 특성이 잘 표현되는 단어를 미리 분류하여 인증 단어 참조 DB를 구성하여 활용함으로써 음성 인증을 위한 정확도를 기존 대비 보다 높일 수 있다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 참조 데이터베이스를 활용한 화자 음성 인식 방법은, 복수명의 사용자들 각각에 의하여 발화된 음성데이터를 수집하는 단계(S100), 수집된 음성데이터로부터 사운드 특성을 추출하는 단계(S200), 추출된 사운드 특성에 기초하여 음성 인식을 위한 모델을 생성하는 단계(S300), 생성된 모델을 활용하여 각각의 사용자에 의하여 발화된 단어별 매칭도를 결정하는 단계(S400), 결정된 매칭도에 기초하여 참조 데이터베이스를 생성하는 단계(S500), 음성 인식 판단대상 사용자에 의하여 발화된 음성데이터로부터 각각의 단어에 대한 데이터를 추출하여, 참조 데이터베이스와 비교하는 단계(S600) 및 비교 결과에 기초하여 음성 인식 판단대상 사용자의 음성을 식별하는 단계(S700)를 포함할 수 있다.

또한, 복수명의 사용자들 각각에 의하여 발화된 음성데이터를 수집하는 단계(S100)에서는, 각각의 사용자로부터 음성데이터를 개별적으로 수집하거나, 복수명의 사용자들 각각으로부터 동시에 음성데이터를 수집하여 각각의 사용자별로 구분하고, 수집된 음성데이터로부터 사운드 특성을 추출하는 단계(S200)에서는, 음성데이터로부터 음성 특징벡터를 사운드 특성으로써 추출할 수 있다. 예를 들어, 사용자 각각으로부터 음성데이터를 개별적으로 구분하여 수집할 수 있다. 사용자는 사전(dictionary), 책 등을 읽는 과정을 통하여 음성데이터를 생성해낼 수 있고, 본 발명의 일 실시예에 따르면 이러한 사용자로부터 발화되어 표현된 음성데이터는 사용자 각각에 대하여 수집될 수 있다. 또한, 복수명의 사용자들로부터 동시에 음성데이터가 수집되어 각각의 사용자별로 구분될 수도 있다. 사용자는 남자 또는 여자와 같이 성별, 청소년 또는 장년과 같이 연령 등에 기초하여 음성데이터가 수집 후 구분될 수도 있다.

본 발명의 일 실시예에 따르면, 수집된 음성데이터로부터 사운드 특성이 추출될 수 있다. 이러한 사운드 특성을 나타내는 정보인 음성 특성 정보에는 음성 특징벡터 및 관련 파라미터 값(ex. 자기 상관 계수, 캡스트럼 계수 등) 이 포함될 수 있다. 특징벡터 추출 기술들로는 선형예측계수(Linear Predictive Coefficient), 켑스트럼(Cepstrum), 멜 프리퀀시 켑스트럼(Mel Frequency Cepstral Coefficient, MFCC), 주파수 대역별 에너지(Filter Bank Energy) 등이 있다. 선형예측계수(Linear Predictive Coefficient) 기술은 현재의 신호는 이전의 신호들의 조합을 통하여 알아낼 수 있다는 것을 이용한 것으로, 이전의 일정 개수의 샘플 값들에 계수를 각각 곱하고 이를 총 합한 값으로 현재의 샘플값을 예측하는 과정으로 수행될 수 있다. 이러한 계수들을 선형예측계수(LPC)라 한다. 켑스트럼(Cepstrum) 기술은 음성 신호의 특징벡터인 선형예측계수를 화자의 변동에 따른 변화와 무관하게 강인한 인식률을 유지하는데 도움을 주기 위한 방법으로 제안된 것이다. 멜 프리퀀시 켑스트럼(Mel Frequency Cepstral Coefficient, MFCC) 기술은 음성 인식의 가장 대표적인 특징 추출 방법으로써 사람의 귀가 주파수 변화에 반응하게 되는 양상이 선형적이지 않고 로그 스케일과 비슷한 멜 스케일을 따르는 청각적 특성을 반영한 켑스트럼 계수를 추출하는 방법을 지칭한다. 멜 스케일에 따르면 낮은 주파수에서는 작은 변화에도 민감하게 반응하지만, 높은 주파수로 갈수록 민감도가 작아지므로 특징 추출 시에 주파수 분석 빈도를 이와 같은 특성에 맞추는 방식이며, 음성 신호의 특징벡터를 이루는 선형예측계수가 화자의 변동에 따른 변화와 무관하게 강인한 인식률을 유지하도록 한다. 주파수 대역별 에너지(Filter Bank Energy) 기술은 음성 신호의 특징을 추출하기 위해 각 대역통과 필터를 통과한 출력의 에너지 값을 음성 특징으로 사용하는 방법으로서, 구현의 용이성과 다양한 응용성 때문에 음성 인식에서 주로 쓰이곤 한다.

본 발명의 일 실시예에 따라 추출된 사운드 특성에 기초하여 음성 인식을 위한 모델을 생성하는 단계(S300)에서는, 추출된 사운드 특성별로 구분된 기준 데이터베이스를 구축하는 단계가 포함되고, 기준 데이터베이스는 사용자를 기준으로 사용자별로 구분되어 구축되거나 발화된 단어를 기준으로 단어별로 구분되어 구축되며, 기준 데이터베이스는 M X N의 행렬 형태(M과 N은 자연수)로 형성될 수 있다. 또한, 이러한 기준 DB는 각각의 사용자별 또는 단어별 DB가 통합되어 단일의(single) DB로써 구현될 수도 있다.

예를 들어, 사용자가 "우리", "민족", "중흥", "역사", "사명", "강남", "교통", "날씨" 라는 단어를 발화하는 경우, 각각의 단어에 대한 사운드 특성이 추출되고, 추출된 사운드 특성에 따라 기준 데이터베이스가 구축될 수 있다. 이러한 기준 데이터베이스는 사용자별로 구분되어 구축될 수 있는데, 예컨대, 사용자 A에 대하여 기준 데이터베이스(Ref.DB_A)가 M X N의 행렬 형태(M과 N은 자연수)로 형성될 수 있다. 각각의 행렬 요소에는 사용자 A에 의하여 발화된 단어에 대한 사운드 특성 데이터 등이 포함되어 있을 수 있다. 또한, 사용자 B에 대하여 기준 데이터베이스(Ref.DB_B)가 M X N의 행렬 형태(M과 N은 자연수)로 형성될 수 있고, 각각의 행렬 요소에는 사용자 B에 의하여 발화된 단어에 대한 사운드 특성 데이터 등이 포함되어 있을 수 있다.

또한, 이러한 기준 데이터베이스는 단어별로 구분되어 구축될 수 있는데, 예컨대,"우리"라는 단어에 대하여 기준 데이터베이스(Ref.DB_우리)가 M X N의 행렬 형태(M과 N은 자연수)로 형성될 수 있다. 행렬의 각각의 요소에는 단어 "우리"에 대한 사용자별 사운드 특성 데이터 등이 포함되어 있을 수 있다.

음성 인식을 위한 모델은 M X N의 행렬 형태(M과 N은 자연수)로 형성된 기준 DB를 갖추고, 발화된 음성 데이터가 기준 DB와 정합하는지 여부를 판단하여 음성을 인식하는 모델 등으로 구축될 수 있다. 정합도는 발화된 음성 데이터와 기준 DB 상의 데이터가 일정 수준(ex. 임계치 등)을 상회하여 정합하는지 여부로 판단될 수 있다.

또한, 생성된 음성 인식을 위한 모델을 활용하여 각각의 사용자에 의하여 발화된 단어별 매칭도를 결정하는 단계(S400)에서는, 각각의 사용자에 의하여 발화된 단어와 기준 데이터베이스 상의 단어의 사운드 특성을 비교하여 유사도를 결정하며, 단어별로 결정된 유사도의 분포 상태를 파악할 수 있다. 발화자의 목 상태, 발화 습관 등에 따라 동일한 단어라 하더라도 사운드 특성이 상이하게 나타날 수 있다. 이러한 사운드 특성의 변화에 보다 강건하게 대응하기 위하여 본 발명의 일 실시예에 따르면, 각각의 단어에 대한 복수의 사용자들의 사운드 특성을 파악하고, 파악된 특성에 따라 음성 표현이 양호한 단어를 선별하여 참조 DB로써 갖춰두고, 사용자 인증에 참조 DB를 활용하고자 한다.

도 3을 참조하여, 본 발명의 일 실시예에 따르면 유사도의 분포 상태는 소정의 단어에 대하여 사운드 특성 유사도가 높은 순서(order)대로 순차적으로 배치된 리스트 형태로 나타날 수도 있고, 가로축(ex. 유사도)과 세로축(ex. 발화 단어)으로 표현되는 그래프 등의 형태로 나타날 수도 있다. 예를 들어, 사용자가 "우리", "민족", "중흥", "역사", "사명", "강남", "교통", "날씨" 라는 단어를 발화하는 경우, 각각의 단어에 대한 기초적인 사운드 특성에 따라 기준 데이터베이스가 구축될 수 있고, 이러한 기준 데이터베이스는 복수의 사용자들의 단어 발화 결과가 반복적으로 학습되어 구축될 수도 있다. 기준 데이터베이스에 기초하여 사용자별로 발화한 단어에 대한 기준 데이터베이스와의 매칭도(ex. 유사도)가 결정될 수 있다. 단어별 매칭률(ex. 유사도)은 사용자들 각각에 대한 매칭률들의 평균값 등으로 통합되어 표현될 수 있다. 이러한 유사도는 도 3의 (a)와 같이 높은 순서에 따라 위에서부터 아래로 리스트 형식으로 나열되거나, 도 3의 (b)와 같이 그래프와 같은 형식으로 표현될 수 있다. 다시 말해서, 도 3에서와 같이 단어의 구성 형태에 따라 화자별 사운드 특성이 상이하게 나타날 수 있지만 대체로 유사한 범위 내에서 기준 DB와의 매칭률을 보일 수 있다. 단어별 매칭률의 높은 순서에 따라 나열하면 도 3에서와 같이 리스트 형식으로 나타낼 수 있다. 또한, 단어별 매칭률은 그래프 등과 같은 형식으로 나타낼 수도 있다.

또한, 결정된 매칭도에 기초하여 참조 데이터베이스를 생성하는 단계(S500)에서는, 소정의 기준값 이상의 매칭도를 갖는 적어도 하나의 단어를 선별 추출하여 참조 데이터베이스로써 구축할 수 있다. 이러한 소정의 기준값은 사용자의 발화 숙련도에 따라 상이하게 설정될 수 있다. 전술한 바와 같이, 단어의 구성 형태에 따라서 사용자의 발화에 따른 사운드 특성이 소정의 범위값을 가질 수 있다. 예컨대, "날씨"라는 단어에 대하여는 대다수의 사용자들의 발화된 음성데이터는 기준 DB와 비교하여 높은 수준의 매칭률을 가질 수 있다. 본 발명의 일 실시예에 따르면, 참조 데이터베이스는 일정 수준을 상회하는 매칭률을 갖는 단어들만을 선별하여 구축할 수 있다. 예를 들면, 기준값은 85%가 될 수 있고, 이러한 기준값을 상회하는 매칭률을 갖는 단어만이 선별되어 참조 DB로 구축될 수 있다. 소정의 기준값은 사용자의 발화 숙련도에 따라 상이하게 설정될 수 있다. 다시 말해서, 사용자의 발화 숙련도는 사용자의 연령, 원어(모국어), 발화 습관, 성별 등에 따라 차등적일 수 있는데, 이러한 사용자의 발화 숙련도를 반영하여 기준값을 탄력적으로 설정할 수 있다. 또한, 소정의 기준값은 인증 목표 신뢰도에 따라 가변적으로 설정될 수 있다. 예컨대, 고수준의 음성 인증을 필요로 하는 경우에는 기준값을 높게 설정할 수 있고, 일반수준의 음성 확인이 필요한 경우라면 앞서 설명된 설정값보다 상대적으로 낮게 기준값이 설정되도록 할 수도 있다.

또한, 참조 데이터베이스는 사용자의 성별에 무관하게 남, 여 공통으로 통합하여 단어별 매칭률 및 그 순위를 파악하여 단어를 선별함으로써 구축될 수 있다. 또한, 모음, 유성음 등의 각종 추가적인 정보(ex. 차트)를 반영하여 단어의 매칭률을 조정할 수도 있다. 단어의 구성 형태에 기초하여 추가적인 정보에 해당하는 요소를 포함하는 단어에 대하여는 상이한 가중치를 부여하여 매칭률을 조정할 수도 있다.

본 발명의 일 실시예에 따르면 음성 인식 판단대상 사용자에 의하여 발화된 음성데이터로부터 각각의 단어에 대한 데이터를 추출하여, 참조 데이터베이스와 비교하는 단계(S600)에서는, 사용자에 의하여 발화된 단어가 참조 데이터베이스에 포함되어 있는지 여부를 판단하고, 참조 데이터베이스 상에 단어가 포함되어 있다면 발화된 단어의 사운드 특성과 참조 데이터베이스 상에 포함된 단어의 사운드 특성을 비교하여 유사도를 결정하며, 참조 데이터베이스 상에 단어가 포함되어 있지 않다면 발화된 단어가 화자 음성 인식에 사용되지 않도록 발화된 단어의 음성데이터를 무시할 수 있다. 전술한 바와 같이, 참조 DB 상에 포함된 단어는 개별사용자의 발화 패턴, 수준 등을 모두 적극적으로 고려하지 않고도 단어 자체가 음성 특성이 잘 표현되는 단어이므로, 음성 인식의 정확도를 보다 향상시키기 위하여 선별된 단어로 화자 확인에 사용될 수 있다.

S600에서의 비교 결과에 기초하여 음성 인식 판단대상 사용자의 음성을 식별하는 단계(S700)에서는, 참조 데이터베이스에 기초한 사운드 특성의 유사도 비교 결과에 따라 음성 인식 판단대상 사용자의 음성을 식별할 수 있다.

전술한 방법이 반복적이고 지속적, 누적적으로 수행되면 될수록, 참조 DB의 신뢰성은 점점 더 향상될 수 있고, 머신 러닝 등을 통하여 참조 DB의 신뢰성은 완벽에 가깝게 향상될 수 있다.

도 4를 참조하면, 본 발명의 일 실시예로써 제공되는 참조 데이터베이스를 활용한 화자 음성 인식 장치(1000)는, 복수명의 사용자들 각각에 의하여 발화된 음성데이터를 수집하는 음성데이터 수집부(100), 수집된 음성데이터로부터 사운드 특성을 추출하는 사운드 특성 추출부(200), 추출된 사운드 특성에 기초하여 음성 인식을 위한 모델을 생성하는 음성인식모델 생성부(300), 생성된 모델을 활용하여 각각의 사용자에 의하여 발화된 단어별 매칭도를 결정하는 매칭도 결정부(400), 결정된 매칭도에 기초하여 참조 데이터베이스를 생성하는 참조데이터베이스 생성부(500), 음성 인식 판단대상 사용자에 의하여 발화된 음성데이터로부터 각각의 단어에 대한 데이터를 추출하여, 참조 데이터베이스와 비교하는 비교부(600) 및 비교 결과에 기초하여 음성 인식 판단대상 사용자의 음성을 식별하는 음성 판정부(700)를 포함할 수 있다.

음성인식모델 생성부(300)에서는, 추출된 사운드 특성별로 구분된 기준 데이터베이스를 구축하고, 기준 데이터베이스(10)는 사용자를 기준으로 사용자별로 구분되어 구축되거나 발화된 단어를 기준으로 단어별로 구분되어 구축되며, 기준 데이터베이스(10)는 M X N의 행렬 형태(M과 N은 자연수)로 형성될 수 있다.

매칭도 결정부(400)에서는, 각각의 사용자에 의하여 발화된 단어와 기준 데이터베이스 상의 단어의 사운드 특성을 비교하여 유사도를 결정하며, 단어별로 결정된 유사도의 분포 상태를 파악할 수 있다.

참조데이터베이스 생성부(500)에서는, 소정의 기준값 이상의 매칭도를 갖는 적어도 하나의 단어를 선별 추출하여 참조 데이터베이스로써 구축할 수 있다. 여기서, 소정의 기준값은 사용자의 발화 숙련도에 따라 상이하게 설정될 수 있다.

본 발명의 일 실시예에 따른 장치와 관련하여서는 전술한 방법에 대한 내용이 적용될 수 있다. 따라서, 장치와 관련하여, 전술한 방법에 대한 내용과 동일한 내용에 대하여는 설명을 생략하였다.

한편, 전술한 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터 판독 가능 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 방법에서 사용된 데이터의 구조는 컴퓨터 판독 가능 매체에 여러 수단을 통하여 기록될 수 있다. 본 발명의 다양한 방법들을 수행하기 위한 실행 가능한 컴퓨터 프로그램이나 코드를 기록하는 기록 매체는, 반송파(carrier waves)나 신호들과 같이 일시적인 대상들은 포함하는 것으로 이해되지는 않아야 한다. 상기 컴퓨터 판독 가능 매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, DVD 등)와 같은 저장 매체를 포함할 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

1000: 참조 데이터베이스를 활용한 화자 음성 인식 장치
100: 음성 데이터 수집부
200: 사운드 특성 추출부
300: 음성인식모델 생성부
400: 매칭도 결정부
500: 참조데이터베이스 생성부
600: 비교부
700: 음성판정부
10: 기준 데이터베이스(DB)
20: 참조 데이터베이스

Claims

참조 데이터베이스를 활용한 화자 음성 인식 방법으로서,
복수명의 사용자들 각각에 의하여 발화된 음성데이터를 수집하는 단계;
상기 수집된 음성데이터로부터 사운드 특성을 추출하는 단계;
상기 추출된 사운드 특성에 기초하여 음성 인식을 위한 모델을 생성하는 단계;
상기 생성된 모델을 활용하여 각각의 사용자에 의하여 발화된 단어별 매칭도를 결정하는 단계;
상기 결정된 매칭도에 기초하여 상기 참조 데이터베이스를 생성하는 단계;
음성 인식 판단대상 사용자에 의하여 발화된 음성데이터로부터 각각의 단어에 대한 데이터를 추출하여, 상기 참조 데이터베이스와 비교하는 단계; 및
상기 비교 결과에 기초하여 상기 음성 인식 판단대상 사용자의 음성을 식별하는 단계를 포함하되,
상기 음성 인식을 위한 모델을 생성하는 단계에서는, 상기 추출된 사운드 특성별로 구분된 기준 데이터베이스를 구축하고,
상기 단어별 매칭도를 결정하는 단계에서는, 상기 각각의 사용자에 의하여 발화된 단어와 상기 기준 데이터베이스 상의 단어의 사운드 특성을 비교하여 유사도를 결정하고, 상기 단어별로 상기 결정된 유사도의 분포 상태를 파악하여 상기 단어별 매칭도를 결정하며,
상기 참조 데이터베이스를 생성하는 단계에서는, 소정의 기준값 이상의 매칭도를 갖는 적어도 하나의 단어를 선별 추출하여 참조 데이터베이스로서 구축하는 것을 특징으로 하는 참조 데이터베이스를 활용한 화자 음성 인식 방법.
제 1 항에 있어서,
상기 복수명의 사용자들 각각에 의하여 발화된 음성데이터를 수집하는 단계에서는, 각각의 사용자로부터 음성데이터를 개별적으로 수집하거나, 상기 복수명의 사용자들 각각으로부터 동시에 음성데이터를 수집하여 각각의 사용자별로 구분하고,
상기 수집된 음성데이터로부터 사운드 특성을 추출하는 단계에서는, 상기 음성데이터로부터 음성 특징벡터를 상기 사운드 특성으로써 추출하는 것을 특징으로 하는 참조 데이터베이스를 활용한 화자 음성 인식 방법.
제 1 항 또는 제 2 항에 있어서,
상기 기준 데이터베이스는 상기 사용자를 기준으로 사용자별로 구분되어 구축되거나 상기 발화된 단어를 기준으로 단어별로 구분되어 구축되며, 상기 기준 데이터베이스는 M X N의 행렬 형태(M과 N은 자연수)로 형성되는 것을 특징으로 하는 참조 데이터베이스를 활용한 화자 음성 인식 방법.
삭제
삭제
제 1 항에 있어서,
상기 소정의 기준값은 사용자의 발화 숙련도에 따라 상이하게 설정되는 것을 특징으로 하는 참조 데이터베이스를 활용한 화자 음성 인식 방법.
제 6 항에 있어서,
상기 음성 인식 판단대상 사용자에 의하여 발화된 음성데이터로부터 각각의 단어에 대한 데이터를 추출하여, 상기 참조 데이터베이스와 비교하는 단계에서는, 상기 사용자에 의하여 발화된 단어가 상기 참조 데이터베이스에 포함되어 있는지 여부를 판단하고,
상기 참조 데이터베이스 상에 상기 단어가 포함되어 있다면 상기 발화된 단어의 사운드 특성과 상기 참조 데이터베이스 상에 포함된 단어의 사운드 특성을 비교하여 유사도를 결정하며,
상기 참조 데이터베이스 상에 상기 단어가 포함되어 있지 않다면 상기 발화된 단어가 화자 음성 인식에 사용되지 않도록 상기 발화된 단어의 음성데이터를 무시하고,
상기 비교 결과에 기초하여 상기 음성 인식 판단대상 사용자의 음성을 식별하는 단계에서는, 상기 참조 데이터베이스에 기초한 사운드 특성의 유사도 비교 결과에 따라 상기 음성 인식 판단대상 사용자의 음성을 식별하는 것을 특징으로 하는 참조 데이터베이스를 활용한 화자 음성 인식 방법.
제 1 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
참조 데이터베이스를 활용한 화자 음성 인식 장치로서,
복수명의 사용자들 각각에 의하여 발화된 음성데이터를 수집하는 음성데이터 수집부;
상기 수집된 음성데이터로부터 사운드 특성을 추출하는 사운드 특성 추출부;
상기 추출된 사운드 특성에 기초하여 음성 인식을 위한 모델을 생성하는 음성인식모델 생성부;
상기 생성된 모델을 활용하여 각각의 사용자에 의하여 발화된 단어별 매칭도를 결정하는 매칭도 결정부;
상기 결정된 매칭도에 기초하여 상기 참조 데이터베이스를 생성하는 참조데이터베이스 생성부;
음성 인식 판단대상 사용자에 의하여 발화된 음성데이터로부터 각각의 단어에 대한 데이터를 추출하여, 상기 참조 데이터베이스와 비교하는 비교부; 및
상기 비교 결과에 기초하여 상기 음성 인식 판단대상 사용자의 음성을 식별하는 음성 판정부를 포함하되,
상기 음성인식모델 생성부에서는, 상기 추출된 사운드 특성별로 구분된 기준 데이터베이스를 구축하고,
상기 매칭도 결정부에서는, 상기 각각의 사용자에 의하여 발화된 단어와 상기 기준 데이터베이스 상의 단어의 사운드 특성을 비교하여 유사도를 결정하고, 상기 단어별로 상기 결정된 유사도의 분포 상태를 파악하여 상기 단어별 매칭도를 결정하며,
상기 참조데이터베이스 생성부에서는, 소정의 기준값 이상의 매칭도를 갖는 적어도 하나의 단어를 선별 추출하여 참조 데이터베이스로서 구축하는 것을 특징으로 하는 참조 데이터베이스를 활용한 화자 음성 인식 장치.
제 9 항에 있어서,
상기 기준 데이터베이스는 상기 사용자를 기준으로 사용자별로 구분되어 구축되거나 상기 발화된 단어를 기준으로 단어별로 구분되어 구축되며, 상기 기준 데이터베이스는 M X N의 행렬 형태(M과 N은 자연수)로 형성되는 것을 특징으로 하는 참조 데이터베이스를 활용한 화자 음성 인식 장치.
삭제
삭제
제 9 항에 있어서,
상기 소정의 기준값은 사용자의 발화 숙련도에 따라 상이하게 설정되는 것을 특징으로 하는 참조 데이터베이스를 활용한 화자 음성 인식 장치.