KR20200091738A

KR20200091738A - 핵심어 검출 장치, 이를 이용한 핵심어 검출 방법 및 컴퓨터 프로그램

Info

Publication number: KR20200091738A
Application number: KR1020190008900A
Authority: KR
Inventors: 박정준; 김희경
Original assignee: 주식회사 케이티
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2020-07-31

Abstract

핵심어 검출 장치에 관한 것으로서, 사용자로부터 입력받은 신규 핵심어에 대한 인식 임계값을 도출하고, 상기 도출된 인식 임계값과 상기 신규 핵심어를 매핑하여 상기 신규 핵심어를 핵심어 모델에 등록하는 핵심어 관리부, 음성 데이터를 입력 받는 입력부, 상기 입력된 음성 데이터를 인식하는 인식부, 상기 인식된 음성 데이터에 대한 타겟 핵심어 확률값을 산출하는 산출부 및 상기 산출된 타겟 핵심어 확률값에 기초하여 상기 입력된 음성 데이터가 상기 핵심어 모델에 등록된 복수의 핵심어 중 어느 하나에 해당하는지 판별하는 판별부를 포함할 수 있다.

Description

핵심어 검출 장치, 이를 이용한 핵심어 검출 방법 및 컴퓨터 프로그램{SERVER, METHOD AND COMPUTER PROGRAM FOR DETECTING KEYWORD}

본 발명은 핵심어 검출 장치, 이를 이용한 핵심어 검출 방법 및 컴퓨터 프로그램에 관한 것이다.

핵심어 검출의 목적은, 사용자가 발화한 음성 내용에 핵심어가 포함되어 있는지의 여부를 판단하는 것이다. 여기서, 핵심어란 사용자가 중요하게 생각하여 검출하기 원하는 단어를 미리 설정해 놓은 것을 말한다.

기존의 핵심어 검출 방법에는 사전에 입력된 음성 데이터로부터 발음을 음소 단위로 모델링하며, 이 음소 단위 모델을 이용하여 핵심어에 해당하는 핵심어 모델을 만들어내는 기술이 주로 적용되어 사용되고 있다.

전술한 방법의 경우, 사전에 얻어진 음성 데이터를 이용하여 핵심어 모델을 학습하기 때문에, 발음에 기초하여 비교적 정확하게 핵심어 인식을 수행할 수 있다는 장점이 있다.

그러나 이와 같은 기존의 핵심어 검출 방법은, 발음에 기초하여 핵심어 인식을 수행하기 때문에, 사투리, 말투 등의 이유로 화자의 발음 및 성조가 학습어 모델에 저장된 음소 단위 발음 모델과 상이한 경우, 핵심어 인식의 정확성이 다소 떨어질 수 있으며, 그로 인해, 대중적으로 사용되기 어렵다는 한계가 있었다.

실제로 기존의 핵심어 검출 방법은 음성 입력이 들어오면 여기에 핵심어가 포함되어 있는지 여부를 확률 기반 수학 모델을 통하여 계산하게 된다. 즉, 핵심어 음성이 정확히 입력 됐음에도 불구하고 성조 및 발음으로 인해 입력된 음성과 핵심어 모델의 유사도가 낮게 계산되면, 음성 인식 장치에서는 입력된 음성이 최종적으로 핵심어가 아닐 가능성이 높다고 판단하여 핵심어 검출 결과가 잘못 출력되는 문제가 있었다.

또한, 대한민국 공개특허공보 제10-2006-0082524호를 참조하면, 기존의 핵심어 검출 방법은 사용자가 핵심어를 등록하고자 하는 경우, 등록하고자 하는 핵심어의 음소 단위 모델을 이용하여 핵심어 모델을 신규 생성해야 하므로, 그 과정이 번거로워 효율적으로 사용되기 어렵다는 한계가 있었다.

(특허문헌 1) 대한민국 공개특허공보 제10-2006-0082524호

본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 복수의 발화자로부터 수집된 음성 데이터를 발화자의 특성 정보에 기초하여 군집화 한 후, 군집화된 발화자의 특성 정보에 기초하여, 입력된 음성 데이터의 핵심어 여부를 판별함으로써, 화자 별로 상이한 음성 및 발음으로 인해 핵심어 인식에 오류가 발생하는 것을 방지하여, 보다 정확한 핵심어 인식이 가능하도록 하는 핵심어 검출 장치, 이를 이용한 핵심어 검출 방법 및 컴퓨터 프로그램을 제공하고자 한다.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 핵심어 검출 장치에 관한 것으로서, 사용자로부터 입력받은 신규 핵심어에 대한 인식 임계값을 도출하고, 상기 도출된 인식 임계값과 상기 신규 핵심어를 매핑하여 상기 신규 핵심어를 핵심어 모델에 등록하는 핵심어 관리부, 음성 데이터를 입력 받는 입력부, 상기 입력된 음성 데이터를 인식하는 인식부, 상기 인식된 음성 데이터에 대한 타겟 핵심어 확률값을 산출하는 산출부 및 상기 산출된 타겟 핵심어 확률값에 기초하여 상기 입력된 음성 데이터가 상기 핵심어 모델에 등록된 복수의 핵심어 중 어느 하나에 해당하는지 판별하는 판별부를 포함할 수 있다.

본 발명의 다른 일 실시예는, 핵심어 검출 방법에 관한 것으로서, 신규 핵심어를 입력받는 단계, 상기 입력된 신규 핵심어에 대한 인식 임계값을 도출하는 단계, 상기 도출된 인식 임계값과 상기 신규 핵심어를 매핑하여 상기 신규 핵심어를 핵심어 모델에 등록하는 단계, 음성 데이터를 입력 받는 단계, 상기 입력된 음성 데이터를 인식하는 단계, 상기 인식된 음성 데이터에 대한 타겟 핵심어 확률값을 산출하는 단계 및 상기 산출된 타겟 핵심어 확률값에 기초하여 상기 입력된 음성 데이터가 상기 핵심어 모델에 등록된 복수의 핵심어 중 어느 하나에 해당하는지 판별하는 단계를 포함할 수 있다.

본 발명의 또 다른 일 실시예는, 컴퓨터 프로그램으로서 컴퓨팅 장치에 의해 실행될 경우, 신규 핵심어를 입력받고, 상기 입력된 신규 핵심어에 대한 인식 임계값을 도출하고, 상기 도출된 인식 임계값과 상기 신규 핵심어를 매핑하여 상기 신규 핵심어를 핵심어 모델에 등록하고, 음성 데이터를 입력 받고, 상기 입력된 음성 데이터를 인식하고, 상기 인식된 음성 데이터에 대한 타겟 핵심어 확률값을 산출하고, 상기 산출된 타겟 핵심어 확률값에 기초하여 상기 입력된 음성 데이터가 상기 핵심어 모델에 등록된 복수의 핵심어 중 어느 하나에 해당하는지 판별하도록 하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램을 제공할 수 있다.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 본 발명은 복수의 발화자로부터 수집된 음성 데이터를 발화자의 특성 정보에 기초하여 군집화 한 후, 군집화된 발화자의 특성 정보에 기초하여, 입력된 음성 데이터의 핵심어 여부를 판별함으로써, 화자 별로 상이한 음성 및 발음으로 인해 핵심어 인식에 오류가 발생하는 것을 방지하여, 보다 정확한 핵심어 인식이 가능하도록 하는 핵심어 검출 장치, 이를 이용한 핵심어 검출 방법 및 컴퓨터 프로그램을 제공할 수 있다.

또한, 본 발명은 입력된 음성 데이터로부터 발음 나는 대로의 음소 배열을 생성하고, 생성된 음소 단위 모델들을 조합하여 신규 핵심어를 등록함으로써, 사용자로 하여금 보다 용이하게 신규 핵심어를 등록할 수 있도록 하는 핵심어 검출 장치, 이를 이용한 핵심어 검출 방법 및 컴퓨터 프로그램을 제공할 수 있다.

아울러, 본 발명은 입력된 음성 데이터로부터 발음 나는 대로의 음소 배열을 생성하고, 생성된 음소 단위 모델들을 조합하여 등록된 하나 이상의 신규 핵심어를 핵심어 모델에 등록함으로써, 신규 핵심어 등록 과정에 추가 비용(예를 들어, 데이터베이스 수집 비용, 전사 비용, 모델 훈련 비용)이 발생하는 것을 방지하고, 사용자로 하여금 희망하는 다양한 핵심어를 사용할 수 있도록 하는 핵심어 검출 장치, 이를 이용한 핵심어 검출 방법 및 컴퓨터 프로그램을 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 핵심어 검출 장치의 구성을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 모델 생성부에 대해 설명하기 위해 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 핵심어 검출 방법의 핵심어 모델 등록 방법을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 핵심어 검출 방법의 음성 데이터 판별 방법을 나타낸 도면이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.

본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.

이하, 첨부된 구성도 또는 처리 흐름도를 참고하여, 본 발명의 실시를 위한 구체적인 내용을 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따른 핵심어 검출 장치(100)의 구성을 나타낸 도면이다.

도 1을 참조하면, 핵심어 검출 장치(100)는 핵심어 관리부(110), 입력부(120), 인식부(130), 산출부(140), 판별부(150), 모델 생성부(160) 및 핵심어 모델 생성부(170)를 포함할 수 있다.

핵심어 관리부(110)는 사용자로부터 신규 핵심어를 입력받을 수 있다. 핵심어 모델에는 복수의 핵심어가 등록되어 있으며, 사용자는기등록된 복수의 핵심어 외의 신규 핵심어를 등록하기 위해 핵심어 관리부(110)를 통해 신규 핵심어를 입력받을 수 있다.

핵심어 관리부(110)는 입력받은 신규 핵심어에 대한 인식 임계값을 도출할 수 있다. 핵심어 관리부(110)는 도출된 인식 임계값과 신규 핵심어를 매핑하여 신규 핵심어를 핵심어 모델에 등록할 수 있다. 예를 들어, 핵심어 관리부(110)는 입력된 신규 핵심어를 발음열로 변환하고, 기설정된 복수의 음절별 인식 임계값 중 변환된 발음열을 구성하는 각 음절에 해당하는 음절별 인식 임계값을 도출할 수 있다.

여기서, 신규 핵심어(또는 기존에 등록된 핵심어)에 대한 인식 임계값은, 입력받은 비식별된 음성 데이터가 핵심어인지 여부를 판별하기 위해 사용되는 값으로서, 입력받은 핵심어로부터 산출된 Q-Value의 평균값에 기초하여 도출되는 핵심어를 구성하는 각 음소 또는 음절에 대응하는 음소별 또는 음절별 인식 임계값을 합한 값일 수 있다.

예를 들어, 신규 핵심어가 "친구야"인 경우, 해당 신규 핵심어의 인식 임계값은 "친", "구", "야" 각각에 대응하는 음소별 또는 음절별 인식 임계값을 합한 값일 수 있다. 여기서, 음소별 또는 음절별 인식 임계값은 문맥 정보에 기초하여 가변될 수 있다. 예를 들어, "친구야"라는 음성 데이터와, "야구친"이라는 음성 데이터의 각 음소별 또는 음절별 임계값의 합은 문맥 정보로 인해 서로 다르게 산출될 수 있다.

이와 관련하여, 음소별 또는 음절별 확률값이란, 비식별된 데이터(예를 들어, 사용자로부터 입력받은 음성 데이터 또는 텍스트)가 특정 음소 또는 음절로 인식될 수 있는 확률값을 의미하며. 해당 확률값 이상으로 측정된다면 입력받은 데이터가 해당 특정 음소 또는 음절로 인식될 수 있다. 그리고, 음소별 또는 음절별 확률값은 기설정된 복수의 음소 또는 음절 별로 각각에 매핑되어 저장될 수 있다.

예를 들어, 사용자로부터 "친구야"라는 신규 핵심어가 입력되는 경우, 이에 대한 인식 임계값은, 기저장된 "친"이라는 음소 또는 음절의 확률값, "구"라는 음소 또는 음절의 확률값 및 "야"라는 음소 또는 음절의 확률값을 합한 값이 될 수 있다.

즉, 본원 발명에서는 핵심어에 포함되는 하나 이상의 음소 또는 음절 중 적어도 어느 하나로 인식될 음소별 또는 음절별 확률값을, 해당 핵심어를 구성하는 각 음소 또는 음절에 대한 음소별 또는 음절별 인식 임계값으로 정의할 수 있다.

이를 통해, 본원 발명은 신규 핵심어를 보다 용이하게 핵심어 모델에 등록할 수 있으며, 사용자로부터 음성 데이터를 입력받는 경우, 신규 핵심어에 대한 인식 임계값에 기초하여 해당 음성 데이터가 신규 핵심어인지 여부를 판별할 수 있다.

보다 구체적으로, 핵심어 관리부(110)는 하기 수학식 1 내지 수학식 4를 이용하여 음절별 인식 임계값을 도출할 수 있다.

이하에서는 수학식 1 내지 수학식 4를 참조하여 핵심어 관리부(110)가 음절별 인식 임계값을 도출하는 것에 대해 보다 구체적으로 설명하기로 한다.

먼저, 수학식 1을 참조하여 핵심어 관리부(110)는 입력받은 신규 핵심어와 핵심어 모델간의 유사 확률을 산출할 수 있다.

또한, 수학식 2를 참조하여 핵심어 관리부(110)는 입력받은 신규 핵심어의 Q-Value를 산출할 수 있다.

또한, 수학식 3을 참조하여 핵심어 관리부(110)는 입력받은 복수의 신규 핵심어의 평균 Q-Value를 산출할 수 있다.

또한, 수학식 4를 참조하여 핵심어 관리부(110)는 산출된 평균 Q-Value에 기초하여 음절별 인식 임계값을 도출할 수 있다.

입력부(120)는 사용자로부터 음성 데이터를 입력 받을 수 있다. 예를 들어, 입력부(120)는 핵심어 검출 장치(100)와 유무선으로 연결되어 있는 사용자 단말(미도시)을 통해 음성 데이터를 입력받을 수 있다.

인식부(130)는 입력된 음성 데이터를 인식할 수 있다. 여기서, 인식부(130)는 입력된 음성 데이터를 분석하여 소리 단위로 분할하여 인식하고, 소리 단위로 인식된 음성 데이터를 음절 별로 취합할 수 있다.

예를 들어, 인식부(130)는 입력된 음성 데이터 "친구야"를 "친", "구", "야"로 분할하여 인식하고, 이렇게 인식된 음성 데이터를 발화의 최소단위인 음절 별로 취합할 수 있다.

산출부(140)는 인식된 음성 데이터에 대한 타겟 핵심어 확률값을 산출할 수 있다.

보다 구체적으로, 산출부(140)는 인식된 음성 데이터로부터 음성 특징 벡터를 추출하고, 후술되는 핵심어 모델 생성부(170)로부터 생성된 핵심어 모델에 기초하여 추출된 음성 특징 벡터에 대한 타겟 핵심어 확률값을 산출할 수 있다.

또한, 산출부(140)는 소리 단위로 인식된 음성 데이터를 음절 별로 분석하여 인식된 음성 데이터에 대한 타겟 핵심어 확률값을 산출할 수 있다.

보다 구체적으로, 산출부(140)는 하기 수학식 5 내지 수학식 7을 이용하여 음성 데이터에 대한 타겟 핵심어 확률값을 산출할 수 있다.

이하에서는 수학식 5 내지 수학식 7을 참조하여 산출부(140)가 음성 데이터에 대한 타겟 핵심어 확률값을 산출하는 것에 대해 보다 구체적으로 설명하기로 한다.

먼저, 수학식 5를 참조하여 산출부(140)는 인식된 음성 데이터의 확률을 산출할 수 있다.

또한, 수학식 6을 참조하여 산출부(140)는 인식된 음성 데이터와 핵심어 모델간의 유사 확률을 산출할 수 있다.

또한, 수학식 7을 참조하여 산출부(140)는 음성 데이터에 대한 타겟 핵심어 확률값을 산출할 수 있다.

여기서, 타겟 핵심어는 핵심어 모델에 포함되는 복수의 핵심어 중, 인식된 음성 데이터가 타겟팅하는 핵심어를 의미할 수 있다.

타겟 핵심어 확률값은 인식된 음성 데이터가 핵심어 모델에 등록된 복수의 핵심어 중 어느 핵심어에 가장 유사한 지를 나타내는 값으로서, 후술되는 판별부(150)는 이러한 타겟 핵심어 확률값을 이용하여 인식된 음성 데이터가 복수의 핵심어 중 어느 하나에 해당하는지 판별할 수 있다.

이와 관련하여, 타겟 핵심어 확률값은 기저장된 음소별 또는 음절별 확률값에 기초하여 산출될 수 있다. 예를 들어, 사용자로부터 "친구야"라는 음성 데이터가 입력되는 경우, "친구야"라는 음성 데이터는 "친구야"라는 텍스트로 변환되어 인식될 수 있고, 인식된 해당 텍스트를 구성하는 "친", "구" "야" 각각에 매핑되어 기저장된 음소별 또는 음절별 확률값을 합하여 "친구야"라는 음성 데이터의 타겟 핵심어 확률값을 산출할 수 있다. 여기서, 음소별 또는 음절별 확률값은 문맥 정보에 기초하여 가변될 수 있다.

이어서, 판별부(150)는 산출된 음성 데이터에 대한 타겟 핵심어 확률값과 핵심어 모델에 포함되는 복수의 핵심어 각각의 인식 임계값을 비교하여, 가장 근사치의 인식 임계값을 갖는 핵심어를 인식된 음성 데이터에 대응하는 핵심어로 판별할 수 있다.

즉, 본원 발명의 경우, 기저장된 음소별 또는 음절별 확률값을 이용하여 음성 데이터의 인식 임계값 및 타겟 핵심어 확률값을 산출함으로써, 사용자에 따른 발음의 차이로 인해, "친구야"라는 음성 데이터가 "친구아"라는 텍스트로 인식되어도, "친구아"라고 인식된 음성 데이터의 타겟 핵심어 확률값과 "친구야"라는 핵심어의 인식 임계값이 가장 근사치가 될 것이므로, "친구아"라고 인식된 음성 데이터를 "친구야"라는 핵심어에 대응하는 핵심어로 판별할 수 있다.

종합하면, 본 발명의 일 실시예에 따른 핵심어 검출 장치(100)는 음성 데이터가 입력되는 경우, 음성 데이터에 대한 타겟 핵심어 확률값을 산출하여, 해당 음성 데이터가 핵심어 모델에 등록된 복수의 핵심어 중 어느 하나에 해당하는지를 판별할 수 있다.

판별부(150)는 산출된 타겟 핵심어 확률값에 기초하여 입력된 음성 데이터가 핵심어 모델에 등록된 복수의 핵심어 중 어느 하나에 해당하는지 판별할 수 있다.

또한, 판별부(150)는 후술되는 모델 생성부(160)로부터 생성된 사용자 특성 정보 모델을 포함하는 복수의 사용자 특성 정보 모델에 더 기초하여 입력된 음성 데이터가 핵심어 모델에 등록된 복수의 핵심어 중 어느 하나에 해당하는지 판별할 수 있다.

보다 구체적으로, 판별부(150)는 입력된 음성 데이터가 복수의 사용자 특성 정보 모델 중 어느 하나의 사용자 특성 정보 모델에 해당하는 경우, 해당하는 사용자 특성 정보에 따른 가른 가중치를 산출된 타겟 핵심어 확률값에 부여하고, 가중치가 부여된 타겟 핵심어 확률값에 기초하여 입력된 음성 데이터가 핵심어 모델에 등록된 복수의 핵심어 중 어느 하나에 해당하는지 판별할 수 있다.

수학식 8을 참조하면, 판별부(150)는 수학식 8을 이용하여 입력된 음성 데이터가 복수의 사용자 특성 정보 모델 중 어느 하나의 사용자 특성 정보 모델에 해당하는 경우, 해당하는 사용자 특성 정보에 따른 가른 가중치를 산출된 타겟 핵심어 확률값에 부여할 수 있다.

여기서, m은 사용자 특성 정보 모델의 확률 벡터일 수 있고, j는 확률 벡터 요소일 수 있으며, x는 확률 벡터일 수 있다. 또한, Wj는 j번째 확률 벡터 요소의 가중치일 수 있다.

또한, 수학식 9를 참조하여 판별부(150)는 각각의 음절 별 확률 벡터 분산을 구한 후, 그 합을 이용하여 확률 벡터 요소의 차이에 적용되는 가중치를 계산할 수 있다.

여기서,

는 핵심어 검출 모델 j번째 확률 특징 벡터 요소의 분산과 사용자 특성 검출 모델 j번째 확률 특징 벡터 요소의 분산의 합을 의미할 수 있다.

또한, 수학식 10을 참조하여 판별부(150)는 계산된 가중치에 시그모이드 함수를 적용할 수 있다. 이로 인해, 판별부(150)는 가중치가 부여된 타겟 핵심어 확률값에 기초하여 입력된 음성 데이터가 핵심어 모델에 등록된 복수의 핵심어 중 어느 하나에 해당하는지 보다 정확하게 판별할 수 있다.

또한, 판별부(150)는 음절 별로 분석하여 인식된 음성 데이터의 타겟 핵심어 확률값 및 핵심어 모델에 등록된 복수의 핵심어 각각에 대응하는 인식 임계값을 비교할 수 있다. 그리고, 판별부(150)는 비교 결과에 기초하여 음성 데이터가 핵심어 모델에 등록된 복수의 핵심어 중 어느 하나에 해당하는지 판별할 수 있다. 예를 들어, 판별부(150)는 비교 결과에 기초하여 복수의 핵심어 각각에 대응하는 인식 임계값 중 음성 데이터의 타겟 핵심어 확률값과 가장 유사한 값을 가진 핵심어를 음성 데이터가 의도하는 핵심어로 판별할 수 있다.

모델 생성부(160)는 복수의 핵심어 중 어느 하나로 판별된 음성 데이터를 군집화하고, 군집화된 하나 이상의 음성 데이터를 포함하는 사용자 특성 정보 모델을 생성할 수 있다.

수학식 11을 참조하면, 모델 생성부(160)는 수학식 11을 이용하여 생성된 사용자 특성 정보 모델에 포함되는 군집화된 하나 이상의 음성 데이터간의 차이 정보를 감소시킬 수 있다. 여기서, 차이 정보는 음성 데이터간의 거리 정보(예를 들어, x 축이 음성에 관한 제 1 특성 벡터값이고, y 축이 음성에 관한 제 2 특성 벡터값인 그래프에서, 음성 데이터간의 x, y좌표 거리 정보)를 포함할 수 있다.

또한, 모델 생성부(160)는 입력되는 음성 데이터가 복수의 사용자 특성 정보 모델 중 어느 하나의 사용자 특성 정보 모델에 해당하지 않는 경우, 음성 데이터를 포함하는 신규 사용자 특성 정보 모델을 생성할 수 있다.

보다 구체적으로, 모델 생성부(160)는 타겟 핵심어 확률값이 소정 값 이하인 음성 데이터가 소정 횟수 이상 입력되는 경우, 입력되는 데이터가 복수의 사용자 특성 정보 모델 중 어느 하나의 사용자 특성 정보 모델에 해당하지 않는 것으로 판단하여, 입력되는 음성 데이터를 포함하는 신규 사용자 특성 정보 모델을 생성할 수 있다.

여기서, 소정 값 및 소정 횟수는 사용자에 의해 설정될 수 있으나, 이에 한정되는 것은 아님에 유의하도록 한다.

또한, 모델 생성부(160)는 생성된 사용자 특성 정보 모델을 외부 메모리(미도시)에 저장할 수 있으며, 이를 위해, 외부 메모리(미도시)에 접근하기 위한 방법을 학습할 수 있다.

보다 구체적으로, 모델 생성부(160)는 하기 수학식 12 내지 수학식 14를 이용하여 외부 메모리(미도시)에 접근하기 위한 방법을 학습할 수 있다.

이하에서는 수학식 12 내지 수학식 14를 참조하여 모델 생성부(160)가 외부 메모리(미도시)에 접근하기 위한 방법을 학습하는 것에 대해 보다 구체적으로 설명하기로 한다.

먼저, 수학식 12를 참조하여 모델 생성부(160)는 외부 메모리(미도시)의 주소를 획득할 수 있다.

또한, 수학식 13을 참조하면, 모델 생성부(160)는 획득한 외부 메모리(미도시) 주소를 이용하여 리드 벡터(Read Weight Vector)를 획득할 수 있다.

또한, 수학식 14를 참조하여 모델 생성부(160)는 실제 메모리 값을 생성할 수 있다.

핵심어 모델 생성부(170)는 핵심 음성 데이터를 입력받고, 입력된 핵심 음성 데이터에 포함되어 있는 노이즈 음성 데이터를 필터링하고, 필터링된 노이즈 음성 데이터에 기초하여 핵심 음성 데이터로부터 유효 음성 특징 벡터를 추출하고, 유효 음성 특징 벡터를 이용하여 핵심어 모델을 생성할 수 있다.

이하에서는 도 2를 참조하여, 본 발명의 일 실시예에 따른 모델 생성부에 대해 보다 구체적으로 설명하기로 한다.

도 2는 본 발명의 일 실시예에 따른 모델 생성부에 대해 설명하기 위해 나타낸 도면이다.

도 2를 참조하면, 모델 생성부(160)는 복수의 핵심어 중 어느 하나로 판별된 음성 데이터를 군집화하되, 복수의 음성 데이터를 상호간의 거리 정보에 기초하여 군집화할 수 있고, 군집화된 하나 이상의 음성 데이터를 포함하는 사용자 특성 정보 모델을 생성할 수 있다.

즉, 모델 생성부(160)는 음성 데이터가 복수의 핵심어 중 어느 하나로 판별되면 해당 음성 데이터와 기생성된 사용자 특성 정보 모델(210 내지 250)에 포함되는 음성 데이터간의 거리에 기초하여 해당 음성 데이터가 기생성된 사용자 특성 정보 모델(210 내지 250) 중 어느 하나에 포함되는지 여부를 확인할 수 있다.

예를 들어, 모델 생성부(160)는 해당 음성 데이터가 기생성된 사용자 특성 정보 모델(210 내지 250) 중 어느 하나에 포함되는 경우 해당 음성 데이터를 기생성된 사용자 특성 정보 모델(210 내지 250) 중 해당하는 모델에 포함시킬 수 있다. 다른 예를 들어, 모델 생성부(160)는 해당 음성 데이터가 기생성된 사용자 특성 정보 모델(210 내지 250) 중 어느 하나에 포함되지 않는 경우, 해당 음성 데이터에 기초하여 신규 사용자 특성 정보 모델을 생성하여, 해당 음성 데이터를 신규 생성된 사용자 특성 정보 모델에 포함시킬 수 있다.

도 3은 본 발명의 일 실시예에 따른 핵심어 검출 방법의 핵심어 모델 등록 과정을 나타낸 도면이다. 도 3에 도시된 핵심어 검출 방법의 핵심어 모델 등록 방법은 도 1 및 도 2에 도시된 실시예에 의해 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 및 도 2에 도시된 실시예에 따른 핵심어 검출 방법의 핵심어 모델 등록 방법에 적용될 수 있음을 유의해야 한다.

도 3을 참조하면, 단계 S310에서 핵심어 관리부(110)는 사용자로부터 신규 핵심어를 입력받을 수 있다.

단계 S330에서 핵심어 관리부(110)는 신규 핵심어에 대한 인식 임계값을 도출할 수 있다.

단계 S350에서 핵심어 관리부(110)는 도출된 인식 임계값과 상기 신규 핵심어를 매핑할 수 있다.

단계 S370에서 핵심어 관리부(110)는 신규 핵심어를 핵심어 모델에 등록할 수 있다.

상술한 설명에서, 단계 S310 내지 S370은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

도 4는 본 발명의 일 실시예에 따른 핵심어 검출 방법의 음성 데이터 판별 방법을 나타낸 도면이다. 도 4에 도시된 핵심어 검출 방법의 음성 데이터 판별 방법은 도 1 및 도 2에 도시된 실시예에 의해 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 및 도 2에 도시된 실시예에 핵심어 검출 방법의 음성 데이터 판별 방법에 적용될 수 있음을 유의해야 한다.

도 4를 참조하면, 단계 S410에서 입력부(120)는 사용자로부터 음성 데이터를 입력받을 수 있다.

단계 S430에서 인식부(130)는 입력된 음성 데이터를 인식할 수 있다.

단계 S450에서 산출부(140)는 인식된 음성 데이터에 대한 타겟 핵심어 확률값을 산출할 수 있다.

단계 S470에서 판별부(150)는 산출된 타겟 핵심어 확률값에 기초하여 상기 입력된 음성 데이터가 상기 핵심어 모델에 등록된 복수의 핵심어 중 어느 하나에 해당하는지 판별할 수 있다.

상술한 설명에서, 단계 S410 내지 S470은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 핵심어 검출 장치
110: 핵심어 관리부
120: 입력부
130: 인식부
140: 산출부
150: 판별부
160: 모델 생성부
170: 핵심어 모델 생성부

Claims

핵심어 검출 방법에 있어서,
신규 핵심어를 입력받는 단계;
상기 입력된 신규 핵심어에 대한 인식 임계값을 도출하는 단계;
상기 도출된 인식 임계값과 상기 신규 핵심어를 매핑하여 상기 신규 핵심어를 핵심어 모델에 등록하는 단계;
음성 데이터를 입력 받는 단계;
상기 입력된 음성 데이터를 인식하는 단계;
상기 인식된 음성 데이터에 대한 타겟 핵심어 확률값을 산출하는 단계; 및
상기 산출된 타겟 핵심어 확률값에 기초하여 상기 입력된 음성 데이터가 상기 핵심어 모델에 등록된 복수의 핵심어 중 어느 하나에 해당하는지 판별하는 단계
를 포함하는 것인, 핵심어 검출 방법.
제 1 항에 있어서,
상기 복수의 핵심어 중 어느 하나로 판별된 음성 데이터를 군집화하는 단계; 및
상기 군집화된 하나 이상의 음성 데이터를 포함하는 사용자 특성 정보 모델을 생성하는 단계
를 더 포함하는 것인, 핵심어 검출 방법.
제 2 항에 있어서,
상기 생성된 사용자 특성 정보 모델을 포함하는 복수의 사용자 특성 정보 모델에 더 기초하여 상기 입력된 음성 데이터가 상기 핵심어 모델에 등록된 복수의 핵심어 중 어느 하나에 해당하는지 판별하는 단계
를 더 포함하는 것인, 핵심어 검출 방법.
제 3 항에 있어서,
상기 입력된 음성 데이터가 상기 복수의 사용자 특성 정보 모델 중 어느 하나의 사용자 특성 정보 모델에 해당하는 경우, 상기 해당하는 사용자 특성 정보에 따른 가중치를 상기 산출된 타겟 핵심어 확률값에 부여하는 단계; 및
상기 가중치가 부여된 타겟 핵심어 확률값에 기초하여 상기 입력된 음성 데이터가 상기 핵심어 모델에 등록된 복수의 핵심어 중 어느 하나에 해당하는지 판별하는 단계
를 더 포함하는 것인, 핵심어 검출 방법.
제 3 항에 있어서,
상기 음성 데이터가 상기 복수의 사용자 특성 정보 모델 중 어느 하나의 사용자 특성 정보 모델에 해당하지 않는 경우, 상기 음성 데이터를 포함하는 신규 사용자 특성 정보 모델을 생성하는 단계
를 더 포함하는 것인, 핵심어 검출 방법.
제 1 항에 있어서,
핵심 음성 데이터를 입력받는 단계;
상기 입력된 핵심 음성 데이터에 포함되어 있는 노이즈 음성 데이터를 필터링하는 단계;
상기 필터링된 노이즈 음성 데이터에 기초하여 상기 핵심 음성 데이터로부터 유효 음성 특징 벡터를 추출하는 단계; 및
상기 유효 음성 특징 벡터를 이용하여 상기 핵심어 모델을 생성하는 단계
를 더 포함하는 것인, 핵심어 검출 방법.
제 1 항에 있어서,
상기 입력된 신규 핵심어에 대한 인식 임계값을 도출하는 단계는,
상기 입력된 신규 핵심어를 발음열로 변환하는 단계; 및
기설정된 복수의 음절별 인식 임계값 중 상기 변환된 발음열을 구성하는 각 음절에 해당하는 음절별 인식 임계값을 도출하는 단계
를 포함하는 것인, 핵심어 검출 방법.
제 7 항에 있어서,
상기 신규 핵심어를 상기 핵심어 모델에 등록하는 단계는,
상기 도출된 음절별 인식 임계값을 이용하여 상기 신규 핵심어를 상기 핵심어 모델에 등록하는 것인, 핵심어 검출 방법.
제 1 항에 있어서,
상기 입력된 음성 데이터를 인식하는 단계는,
상기 입력된 음성 데이터를 분석하여 소리 단위로 분할하여 인식하는 단계; 및
상기 소리 단위로 인식된 음성 데이터를 음절 별로 취합하는 단계
를 포함하는 것인, 핵심어 검출 방법.
제 9 항에 있어서,
상기 인식된 음성 데이터에 대한 타겟 핵심어 확률값을 산출하는 단계는,
상기 소리 단위로 인식된 음성 데이터를 음절 별로 분석하여 상기 인식된 음성 데이터에 대한 타겟 핵심어 확률값을 산출하는 것인, 핵심어 검출 방법.
핵심어 검출 장치에 있어서,
사용자로부터 입력받은 신규 핵심어에 대한 인식 임계값을 도출하고, 상기 도출된 인식 임계값과 상기 신규 핵심어를 매핑하여 상기 신규 핵심어를 핵심어 모델에 등록하는 핵심어 관리부;
음성 데이터를 입력 받는 입력부;
상기 입력된 음성 데이터를 인식하는 인식부;
상기 인식된 음성 데이터에 대한 타겟 핵심어 확률값을 산출하는 산출부; 및
상기 산출된 타겟 핵심어 확률값에 기초하여 상기 입력된 음성 데이터가 상기 핵심어 모델에 등록된 복수의 핵심어 중 어느 하나에 해당하는지 판별하는 판별부를 포함하는 것인, 핵심어 검출 장치.
제 11 항에 있어서,
상기 복수의 핵심어 중 어느 하나로 판별된 음성 데이터를 군집화하고, 상기 군집화된 하나 이상의 음성 데이터를 포함하는 사용자 특성 정보 모델을 생성하는 사용자 특성 정보 모델 생성부
를 더 포함하는 것인, 핵심어 검출 장치.
제 12 항에 있어서,
상기 판별부는 상기 생성된 사용자 특성 정보 모델을 포함하는 복수의 사용자 특성 정보 모델에 더 기초하여 상기 입력된 음성 데이터가 상기 핵심어 모델에 등록된 복수의 핵심어 중 어느 하나에 해당하는지 판별하는 것인, 핵심어 검출 장치.
제 13 항에 있어서,
상기 판별부는 상기 입력된 음성 데이터가 상기 복수의 사용자 특성 정보 모델 중 어느 하나의 사용자 특성 정보 모델에 해당하는 경우, 상기 해당하는 사용자 특성 정보에 따른 가른 가중치를 상기 산출된 타겟 핵심어 확률값에 부여하고,
상기 가중치가 부여된 타겟 핵심어 확률값에 기초하여 상기 입력된 음성 데이터가 상기 핵심어 모델에 등록된 복수의 핵심어 중 어느 하나에 해당하는지 판별하는 것인, 핵심어 검출 장치.
제 13 항에 있어서,
상기 모델 생성부는 상기 음성 데이터가 상기 복수의 사용자 특성 정보 모델 중 어느 하나의 사용자 특성 정보 모델에 해당하지 않는 경우, 상기 음성 데이터를 포함하는 신규 사용자 특성 정보 모델을 생성하는 것인, 핵심어 검출 장치.
제 11 항에 있어서,
핵심 음성 데이터를 입력받고, 상기 입력된 핵심 음성 데이터에 포함되어 있는 노이즈 음성 데이터를 필터링하고, 상기 필터링된 노이즈 음성 데이터에 기초하여 상기 핵심 음성 데이터로부터 유효 음성 특징 벡터를 추출하고, 상기 유효 음성 특징 벡터를 이용하여 상기 핵심어 모델을 생성하는 핵심어 모델 생성부
를 더 포함하는 것인, 핵심어 검출 장치.
제 11 항에 있어서,
상기 핵심어 관리부는 상기 입력된 신규 핵심어를 발음열로 변환하고, 기설정된 복수의 음절별 인식 임계값 중 상기 변환된 발음열을 구성하는 각 음절에 해당하는 음절별 인식 임계값을 도출하는 것인, 핵심어 검출 장치.
제 17 항에 있어서,
상기 핵심어 관리부는 상기 도출된 음절별 인식 임계값을 이용하여 상기 신규 핵심어를 상기 핵심어 모델에 등록하는 것인, 핵심어 검출 장치.
제 11 항에 있어서,
상기 인식부는 상기 입력된 음성 데이터를 분석하여 소리 단위로 분할하여 인식하고, 상기 소리 단위로 인식된 음성 데이터를 음절 별로 취합하는 것인, 핵심어 검출 장치.
핵심어를 검출하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우,
사용자로부터 신규 핵심어를 입력받고
상기 입력받은 신규 핵심어에 대한 인식 임계값을 도출하고,
상기 도출된 인식 임계값과 상기 신규 핵심어를 매핑하여 상기 신규 핵심어를 핵심어 모델에 등록하고,
음성 데이터를 입력받고,
상기 입력된 음성 데이터를 인식하고,
상기 인식된 음성 데이터에 대한 타겟 핵심어 확률값을 산출하고,
상기 산출된 타겟 핵심어 확률값에 기초하여 상기 입력된 음성 데이터가 상기 핵심어 모델에 등록된 복수의 핵심어 중 어느 하나에 해당하는지 판별하도록 하는 명령어들의 시퀀스를 포함하는, 매체에 저장된 컴퓨터 프로그램.