KR20120063827A

KR20120063827A - 연속 음성 인식에 대한 시맨틱 네트워크를 이용한 호 분류 방법 및 그 시스템

Info

Publication number: KR20120063827A
Application number: KR1020100124975A
Authority: KR
Inventors: 박성찬; 안동훈
Original assignee: 주식회사 케이티
Priority date: 2010-12-08
Filing date: 2010-12-08
Publication date: 2012-06-18

Abstract

본 발명의 일 실시예에 따른 음성 인식에 대한 호 분류 시스템에서 호를 분류하는 방법은, 서비스 이용자에 의해 입력된 음성신호로부터 변환된 텍스트의 소정 문장을 도출하여 형태소 단위로 분절하여 복수의 노드(node)를 구성하는 단계; 상기 분절된 형태소 단위로 의미적으로 개념이 동일한 하나 이상의 어휘를 추가, 삭제 또는 변경하여 상기 분절된 형태소를 대표 단어로 하는 복수의 어휘 클래스와 상기 복수의 노드 간 전이(transition)를 포함하는 시맨틱 네트워크를 구성하는 단계; 소정의 자질 추출 규칙에 따라 상기 시맨틱 네트워크로부터 추출한 다수의 자질을 대상으로 기계적 학습을 통해 결정된 가중치를 부여하여 최대 엔트로피 모델을 구성하는 단계; 및 상기 최대 엔트로피 모델을 기반으로 상기 다수의 자질에 대한 우선순위를 결정하고, 상기 우선순위 결과에 따라 호를 분류하는 단계를 포함한다.

Description

연속 음성 인식에 대한 시맨틱 네트워크를 이용한 호 분류 방법 및 그 시스템{METHOD OF CALL ROUTING FOR CONTINOUS SPEECH RECOGNITION BASED SEMANTIC NETWORK AND SYSTEM THEREFOR}

본 발명은 연속 음성 인식에 대한 호 분류 방법 및 그 시스템에 관한 것으로, 구체적으로는 사용자가 발화한 발화내용에 대한 의미적 범주를 시맨틱 네트워크를 이용하여 호 분류하는 시스템 및 그 시스템에 관한 것이다.

일반적으로, 음성 인식 기술은 사람의 음성을 통하여 사람과 컴퓨터간의 인터페이스가 가능하도록 하는 것으로서, 발음에 따라 특정 주파수를 갖는 사람의 음성을 컴퓨터가 분석해 전기신호로 변환한 후, 음성신호의 주파수 특성을 추출해 발음을 이해하고, 이해된 음성에 따라 업무를 수행하는 기술이다. 이러한 음성인식 기술은 현재 상용화되어 전화 다이얼링, 장난감 제어, 어학학습 또는 가전기기 제어 등과 같은 다양한 분야에 응용되고 있다.

음성 인식 기술 분야가 응용되고 있는 하나의 예가 호 분류 서비스이다. 호 분류 서비스는 사용자가 단말기 등을 통해 고객 센터와 같은 특정 센터에 전화를 걸어 전송되는 안내 메시지에 따라 자유롭게 발화를 하게 되면, 센터의 호 분류 시스템은 사용자의 의도를 파악하여 해당 서비스를 제공하는 것이다.

도 1은 종래의 음성 인식 시스템의 일 예를 나타내는 블럭 구성도이다.

도 1을 참조하면, 사용자가 단말기를 통해 발화를 하면, 발화된 음성신호는 음성 인식 시스템(100)으로 전달되어 특징정보를 추출 및 연상하게 되고, 사용자가 발화한 음성 신호를 텍스트로 변환하게 된다.

종래의 음성 인식 시스템(100)은 사용자의 음성으로부터 특징을 추출하는 특징 추출부(110), 음향 모델부(120), 발음 모델부(130), 언어 모델부(140) 및 후처리부(150)를 포함한다.

상기 특징 추출부(110)는 음성 신호로부터 유용한 특징들을 추출하는 과정으로써, 인간의 청각 특성을 반영하는 특징 표현, 다양한 잡음환경/발화자/채널 변이에 강인한 특징 등을 추출한다.

상기 음향 모델부(120)는 음성 DB(121)로부터 음성 신호가 어떻게 표현될 수 있는지를 나타낸다. 최근 음성 인식기에서 가장 널리 사용되는 음향모델은 HMM(Hidden Markov Model)에 기반한 것이다. 음향모델의 기본 단위를 음소 또는 유사음소 단위이다.

상기 발음 모델부(130)는 실제 학습될 음소는 표기음소가 아닌 발음음소이므로 표기음소를 발음음소로 변환한다. 발음 모델부(130)는 보통 표준발음법에 의거하여 간단한 규칙을 정하거나 특정 환경과 발화자 및 사투리까지의 특색을 고려하여 정의하는 방법으로 발음 사전 DB(131)를 구축하여 수행한다.

상기 언어 모델부(140)는 음성 인식기의 문법이라고 할 수 있다. 이는 텍스트 DB(141)로부터 문법을 추출하여 학습 및 탐색시 임의적인 문장보다는 문법에 맞는 문장을 선별하는 과정을 수행한다. 언어 모델부(140) 사용에 따라 음성 인식기의 탐색 공간을 감소시킬 수 있으며, 문법에 맞는 문장에 대한 확률을 높여주는 역할을 하기 때문에 인식률 향상에도 기여하게 된다.

상기 후처리부(150)는 일반적으로 음성 인식기를 통해 인식률이 높은 후보 텍스트를 선별한 후, 또 다른 가공된 언어적 정보나 에러 패턴을 학습하고 적용하여 가장 적합한 텍스트를 찾는 과정을 수행한다. 이때, 후처리부(150)에서 선별된 텍스트를 음성 인식 시스템에서 정확도가 높게 이해하기 위해서는 발성된 발화에서 표현된 단어와 발화를 한 사용자의 발화 의도와의 관계가 규명되어야 한다.

이를 위해, 후처리부(150)에서 변환된 텍스트는 텍스트 내용에 따라 미리 정의된 의미 체계로 분류될 수 있는데 이와 같은 과정을 호 분류라고 정의한다.

호 분류 과정은 발성 문장에 포함된 키워드 사이의 품사, 관계, 빈도, 의미 등을 파악하여 이루어지는데, 이러한 의미 분류 방법으로는 의미 문법을 설계하여 처리하는 의미적 문법 규칙 기반 방법과 확률적 통계기반에 의한 발화의 자동 의미 범주화 처리 방법을 예로 들 수 있다.

의미적 문법 규칙 기반의 분류 방법은, 발화의 구문과 의미 처리가 결합된 형태로 제한된 영역에서 유용하게 사용될 수 있지만, 의미 문법 규칙 설계와 규칙의 일반화가 어렵고 확장 역시 어렵다는 문제가 있다.

확률적 통계 기반의 분류 방법은, 수집된 발화로부터 도출된 텍스트를 미리 정의해놓은 의미 체계에 따라 통계적 음성 언어 인식기가 인식한 텍스트 결과를 의미 범주 클래스로 분류하여 할당하는 방법이다. 통계 기반 확률 모델의 호 분류 결과는 특정 의미 범주로 지정되는 것이 아닌, 다수의 의미 범주로 할당될 수 있다.

이와 같은 종래의 음성 인식 시스템에서 의미 분류기는 영어와 같이 단어로 구성된 문장에서 인식 단어를 선정하는 것은 적합하지만, 형태소 분석이 적용된 키워드에 대한 처리나 동의어 처리 등에는 적합하지 않다.

예를 들어, 음성을 텍스트로 변환하는 과정에서 사용자의 발화 내용으로부터 일정 규모 이상의 데이터 확보가 어려워 음성 인식률이 저하될 수 있다. 또한, 텍스트로 변환된 이후 호 분류 과정에서도 일종의 학습 과정을 통해 생성된 의미 체계가 다양한 표현으로 수행되는 발화 내용을 모두 포함할 수 없어 학습 데이터 부족 현상이 초래될 수 있다.

일반적으로, 한국어와 같은 교착어는 키워드를 포함하여 동일한 의미의 다양한 표현을 갖는 문장을 구성할 수 있는데, 음성 인식을 통해 호 분류하는 시스템에서 발화자의 다양한 발화 표현에 대한 의미 체계 데이터가 부족하게 되면, 음성 인식 신뢰도를 보장할 수 없다.

본 발명의 목적은 상기와 같은 문제를 해결하기 위해 고안된 것으로서, 소정의 음성 인식 결과에 따라 전사된 텍스트에 대한 호 분류시, 하나의 문장을 동일한 의미를 갖는 다양한 표현의 문장으로 재구성할 수 있는 시맨틱 네트워크를 이용하여 의미 체계를 확장시키는 방법을 제안하고자 한다.

본 발명의 다른 목적은 사용자의 발화 내용을 텍스트화한 문장에서 불용어 제거 등의 작업 없이 다양한 형태의 문맥 정보를 자질로 활용하여 학습 모델을 구성하는 최대 엔트로피 모델을 이용하여 호 분류의 정확도를 높일 수 있는 방법을 제안하고자 한다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

상술한 과제를 해결하기 위한 본 발명의 일 양태 일 실시예에 따른 음성 인식에 대한 호 분류 시스템에서 호를 분류하는 방법은, 서비스 이용자에 의해 입력된 음성신호로부터 변환된 텍스트의 소정 문장을 도출하여 형태소 단위로 분절하여 복수의 노드(node)를 구성하는 단계; 상기 분절된 형태소 단위로 의미적으로 개념이 동일한 하나 이상의 어휘를 추가, 삭제 또는 변경하여 상기 분절된 형태소를 대표 단어로 하는 복수의 어휘 클래스와 상기 복수의 노드 간 전이(transition)를 포함하는 시맨틱 네트워크를 구성하는 단계; 소정의 자질 추출 규칙에 따라 상기 시맨틱 네트워크로부터 추출한 다수의 자질을 대상으로 기계적 학습을 통해 결정된 가중치를 부여하여 최대 엔트로피 모델을 구성하는 단계; 및 상기 최대 엔트로피 모델을 기반으로 상기 다수의 자질에 대한 우선순위를 결정하고, 상기 우선순위 결과에 따라 호를 분류하는 단계를 포함한다.

본 발명의 일 실시예에 따른 상기 시맨틱 네트워크를 구성하는 단계는, 상기 복수의 어휘 클래스와 상기 복수의 노드 간 전이(transition)로부터 공통되는 어휘 클래스 및 전이를 연결하여 최적화된 FSN(Finite State Network)을 구성하는 단계를 더 포함하고, 상기 최적화된 FSN으로부터 상기 시맨틱 네트워크를 구성할 수 있다.

본 발명의 일 실시예에 따른 연속 음성 인식에 대한 호 분류 방법은, 상기 시맨틱 네트워크상에서 상기 복수의 노드를 순회하며 상기 복수의 어휘 클래스 중 일부에서 추출한 임의의 어휘를 결합함으로써, 상기 소정의 문장과 의미가 유사한 다수의 문장을 생성하는 단계를 더 포함할 수 있다.

본 발명의 일 실시예에 따른 상기 자질 추출은 어휘 정보, 형태소 정보, 태그 정보, 어휘간 상대 위치 정보 및 N 그램(N-gram) 정보 중 적어도 하나를 포함할 수 있다.

본 발명의 일 실시예에 따른 상기 호 분류 단계는, 상기 최대 엔트로피 모델을 기반으로 미리 계산된 확률 값을 상기 자질들에 적용하여 기 설정된 의미 범주 카테고리에서의 우선 순위를 결정하는 단계; 및 상기 우선 순위 결과에 따라 최우선 순위에 해당하는 특정 카테고리로 상기 사용자의 호를 분류하는 단계를 포함할 수 있다.

이때, 바람직하게는 상기 특정 카테고리로 호 분류시, 확률의 임계값 또는 최우선 순위와 그 다음 순위간의 확률 값 차이를 고려하여 수행하며, 상기 최우선 순위에 해당하는 카테고리가 결정되지 않은 경우, 상기 사용자에 대한 추가적인 질의를 통해 상기 음성 인식 단계를 반복하여 수행할 수 있다.

상술한 과제를 해결하기 위한 본 발명의 다른 양태 일 실시예에 따른 음성 인식에 대한 호 분류 시스템은, 서비스 이용자에 의해 입력된 음성신호를 텍스트로 변화하기 위한 음성 인식 모듈; 상기 텍스트에 포함된 소정 문장을 형태소 단위로 분절하여 복수의 노드를 생성하고, 상기 분절된 형태소 단위의 상태(state)와 상기 복수의 노드 간의 전이(transition)를 포함하는 시맨틱 네트워크를 구성하는 시맨틱 네트워크 생성기; 소정의 자질 추출 규칙에 따라 상기 시맨틱 네트워크로부터 다수의 자질을 추출하는 자질 정보 추출기; 상기 추출된 다수의 자질을 대상으로 기계적 학습을 통해 결정된 가중치를 부여하여 최대 엔트로피 모델을 구성하는 모델 학습기; 및 상기 최대 엔트로피 모델을 기반으로 상기 다수의 자질에 대한 우선순위를 결정하고, 상기 우선순위 결과에 따라 호를 분류하는 호 결정기를 포함한다.

본 발명의 일 실시예에 따른 연속 음성 인식에 대한 호 분류 시스템은, 상기 분절된 형태소 단위별로 의미적으로 개념이 동일한 하나 이상의 어휘를 추가, 삭제 또는 변경하여 상기 상태를 복수의 어휘를 포함하는 어휘 클래스로 편집하는 어휘 클래스 편집기를 더 포함할 수 있다.

본 발명의 일 실시예에 따른 연속 음성 인식에 대한 호 분류 시스템은, 상기 시맨틱 네트워크상에서 상기 복수의 노드를 순회하며 상기 복수의 상태 중 일부에서 추출한 임의의 어휘를 결합함으로써, 상기 소정의 문장과 의미가 유사한 다수의 문장을 생성하는 문장 생성기를 더 포함할 수 있다.

바람직하게는, 본 발명의 일 실시예에 따른 상기 시맨틱 네트워크 생성기는, 상기 복수의 상태와 상기 복수의 노드 간 전이(transition)로부터 공통되는 상태 및 전이를 연결하여 최적화된 FSN(Finite State Network)을 구성하고, 상기 최적화된 FSN으로부터 상기 시맨틱 네트워크를 생성할 수 있다.

한편, 본 발명의 일 실시예에 따른 상기 호 결정기는, 상기 최대 엔트로피 모델을 기반으로 미리 계산된 확률 값을 상기 자질들에 적용하여 기 설정된 의미 범주 카테고리에서의 우선 순위를 결정하고, 상기 우선 순위 결과를 기반으로 확률의 임계값 또는 최우선 순위와 그 다음 순위간의 확률 값 차이를 고려하여 최우선 순위에 해당하는 특정 카테고리로 상기 사용자의 호를 분류할 수 있다.

상기 실시형태들은 본 발명의 바람직한 실시예들 중 일부에 불과하며, 본원 발명의 기술적 특징들이 반영된 다양한 실시예들이 당해 기술분야의 통상적인 지식을 가진 자에 의해 이하 상술할 본 발명의 상세한 설명을 기반으로 도출되고 이해될 수 있다.

본 발명에 따르면, 소정의 음성 인식 결과에 따라 전사된 텍스트에 대한 호 분류시 하나의 문장을 동일한 의미를 갖는 다양한 표현의 문장으로 재구성할 수 있는 시맨틱 네트워크를 이용함으로써, 우수한 자질을 보유한 학습 모델을 확보할 수 있으므로 사용자의 다양한 발화에 대한 인식률을 높일 수 있다.

또한, 본 발명에 따르면, 사용자의 발화 내용을 텍스트화한 문장에서 불용어 제거 등의 작업 없이 다양한 형태의 문맥 정보를 자질로 활용하여 학습 모델을 구성하는 최대 엔트로피 모델을 이용하여 호 분류의 정확도를 높일 수 있고, 사용자의 모호한 발화내용에 대해서도 확률 분포 결과에 따른 추가 질의 등으로 모호성을 해결할 수 있다.

본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 사상을 설명한다.
도 1은 종래의 음성 인식 시스템의 일 예를 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 기반의 시맨틱 네트워크를 이용한 음성 인식 시스템의 블럭 구성도를 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따른 음성 인식 시스템에서 시맨틱 네트워크 모델을 생성하는 과정의 일 예를 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 음성 인식 시스템에서 시맨틱 네트워크 모델이 생성된 형태를 나타내는 도면이다.
도 5는 본 발명의 일 실시예에 따른 음성 인식 시스템에서 최대 엔트로피 모델을 이용하여 호 분류를 수행하는 과정의 일 예를 나타내는 도면이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되는 것은 아니며, 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다. 이하의 상세한 설명은 본 발명의 완전한 이해를 제공하기 위해서 구체적 세부사항을 포함한다. 그러나, 당업자는 본 발명이 이러한 구체적 세부사항 없이도 실시될 수 있음을 안다.

일반적으로, 연속 음성 인식 시스템에서 핵심어 인식의 탐색 공간을 제한하기 위하여 단어 네트워크(word network)를 사용하며, 단어 네트워크는 주로 FSN(Finite State Network), word-pair grammar, N-gram 등으로 구현된다. 주요 개념은 한 단어 뒤에 나타날 수 있는 단어들을 연결하되 규칙에 의해 고정시키거나 통계적인 확률 값을 연결하는 것이다.

상기 word-pair grammar는 특정 단어 뒤에 나타날 수 있는 단어들만 연결시키는 것으로, 예를 들어 "먹고" + "싶습니다" 는 순서대로 연결할 수 있지만 그 반대로는 연결될 수 없는 것을 이용하여 탐색을 수행하는 방식이다.

상기 N-gram은 단어와 단어 사이의 연결에 통계적인 확률을 이용하는 것으로, 학습 데이터를 이용하여 어떤 단어가 한 단어 다음에 나타날 확률을 계산하여 확률이 높은 쪽으로 탐색을 수행하는 방식이다. 하지만, 상기 N-gram은 대용량의 말뭉치가 있어야만 활용이 가능하며 대화체 음성 인식에는 부적하다.

상기 FSN(Finite State Network)은 구성 가능한 문장들을 모두 네트워크로 묶는 것으로, 인식 성능이 빨라지는 반면 인식하고자 하는 문장 패턴이 증가하게 되면 FSN이라 표현되는 탐색 네트워크의 크기가 증가하게 된다. FSN은 고유 명칭을 갖는 상태(state)와 FSN의 상태를 변화시키는 작업인 전이(transition)으로 구성된다.

본 발명은 사용자의 발화내용을 구성하는 소정 문장을 FSN 형식의 시맨틱 네트워크(Semantic Network)를 이용하여 음성 인식률을 높이기 위한 것으로, 이하 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예들에 대하여 상세히 설명하도록 한다.

도 2는 본 발명의 일 실시예에 따른 음성 인식 기반의 시맨틱 네트워크를 이용한 음성 인식 시스템의 블럭 구성도를 나타내는 도면이다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 음성 인식 시스템(200)은 입력되는 사용자의 음성 신호를 인식하여 텍스트로 전사하는 음성 인식 모듈(201), 전사된 텍스트 문장이 저장되는 문장 DB(202), 텍스트 문장을 토대로 시맨틱 네트워크 모델을 생성하기 위한 시맨틱 네트워크 생성기(203), 생성된 시맨틱 네트워크 모델에서 어휘 클래스의 구성요소를 추가 또는 수정하는 어휘 클래스 편집기(204), 시맨틱 네트워크상에서 문장을 자동으로 추출하는 문장 생성기(205), 추출된 문장에 포함되어 있는 각종 어휘 정보, 형태소 정보, 태그 정보 등 복합 자질을 추출하는 자질 정보 추출기(206), 추출된 자질을 학습시켜 엔트로피가 최대가 되도록 모델을 생성하는 모델 학습기(207)를 포함한다. 이때, 자질 정보 추출기(206)는 별도로 부가되는 자질 추출 규칙 DB로부터 임의의 자질 추출 규칙을 선택하여 그에 따라 소정의 문장으로부터 자질을 추출할 수 있다.

음성 인식 모듈(201)은 입력되는 사용자의 실제 음성 신호를 인식한 결과에 대하여 연속 음성 인식 과정을 통해 텍스트로 변환하는데, 변환되는 텍스트는 문장 단위로 세그먼트되고, 각 문장은 어절 단위로 분리된다. 또한, 음성 인식 모듈(201)은 음성 인식 결과에 대하여 띄어쓰기와 맞춤법 오류 등을 수정하고, 외래어 표기의 일관성을 맞추며 판별이 불가능한 발성이 포함된 문장은 제거하는 전사 과정도 수행할 수 있다.

시맨틱 네트워크 생성기(203)는 문장 DB(202)에 저장된 소정의 문장을 형태소 및 구문 분석 후 트리(tree)군으로 통합한 다음 FSN을 구성하는 시맨틱 네트워크 모델을 생성한다. 각 tree를 구성하는 단말 노드는 어휘 목록을 나타내고, 비단말 노드는 어휘 목록의 속성을 나타내는 구 또는 절을 나타낸다. 시맨틱 네트워크 생성기(203)에서 전사 문장으로부터 시맨틱 네트워크 모델을 생성하는 과정에 대해서는 이하 도 3을 참조하여 후술하도록 한다.

어휘 클래스 편집기(204)는 보다 정확하고 다양한 문장을 생성하기 위한 보정 작업을 수행한다. 구체적으로, 시맨틱 네트워크 생성기(203)에서 생성된 모델로부터 문장에 포함된 단어들을 관측하여 필요에 따라 별도의 단어를 추가, 삭제 또는 변경 등을 수행한다.

문장 생성기(205)는 생성 또는 수정된 시맨틱 네트워크 모델에 대하여 네트워크의 시작부터 종료까지 각 노드를 순회하면서 동일한 의미의 다른 표현을 갖는 다수의 문장을 생성하고 중복된 문장은 제거함으로써, 학습에 필요한 문장 집합을 생성한다. 바람직하게는, 네트워크를 구성하는 모든 노드를 순회하는 경우 경우의 수가 무한대로 증가할 수 있으므로, 시간이나 공간 제약상의 임의의 경로를 랜덤하게 채택하여 적정수의 문장을 추출할 수 있다.

자질 정보 추출기(206)는 문장 생성기(205)로부터 추출되어 저장된 문장 그룹에 대해 자질 추출 규칙 DB(208)에서 선택한 소정의 추출 규칙을 적용하여 학습에 필요한 자질을 추출한다. 학습에 필요한 자질로는 예를 들어 어휘 정보, 형태소 정보, 태그 정보, 어휘 간 상대 위치, N-gram 등이거나 또는 각 자질 정보를 결합한 복합 자질 형태를 포함할 수 있다.

모델 학습기(207)는 자질 정보 추출기(206)에서 추출된 자질 그룹으로부터 학습 자질에 관한 파라미터 개수 및 학습 이벤트를 설정하고 최대 엔트로피 모델링 툴 키트를 통과시켜 모델의 수렴 정보에 따른 확률 및 가중치를 계산하여 해당 학습 자질 각각에 할당한다. 이때, 기 설정된 모델 학습의 반복 횟수 및 목표 학습 정확도를 고려하여 파라미터 개수 및 학습 이벤트를 설정할 수 있다.

모델 학습기(207)는 이러한 학습을 반복함으로써 문장을 구성하는 요소들 중 불용어 자질들의 가중치는 약화시키고, 특정 카테고리와 관련성이 높은 키워드 자질들의 가중치는 강화된 최대 엔트로피 모델을 도출할 수 있다.

본 발명에서 최대 엔트로피 모델이란 자질 정보들을 대상으로 반복적인 모델 학습을 수행하여 문장을 구성하는 요소들 중 특정 카테고리와 관련성이 높은 키워드 자질들의 가중치는 강화하고, 불용어 자질들의 가중치는 약화한 형태로 볼 수 있다. 모델 학습기는 모델 확률 분포를 경험적 분포에 대한 각 자질의 기대값이 바람직한 모델 분포의 자질 함수의 기대값과 유사하도록 가급적 균등하게 확률 분포를 구성한다. 즉, 학습되는 모델은 제시된 각 자질 제약에 대하여서는 충실히 자질을 따르면서 최적화되는 반면, 없거나 불확실한 정보들에 대해서는 최대한 서로 균등하게 확률 분포를 가지도록 한다.

이후, 호 결정기(300)는 사용자의 실시간 음성 인식 결과에 대하여 최대 엔트로피 모델을 근거로 소정 문장으로부터 도출한 자질들에 대하여 미리 계산된 호 분류 확률값을 적용하여 후보 호를 결정할 수 있다. 최대 엔트로피 모델은 호 결정기(300)의 초기 구동시 기 설정되어, 이후 실시간으로 입력되는 사용자 음성 신호를 토대로 도출되는 자질을 추정하여 생성된 다수의 카테고리를 더 포함할 수 있다. 호 결정기(300)에서 수행되는 호 분류 과정에 대해서는 이하 도 5를 참조하여 간략하게 설명하도록 한다.

도 3은 본 발명의 일 실시예에 따른 음성 인식 시스템에서 시맨틱 네트워크 모델을 생성하는 과정의 일 예를 나타내는 도면이다. 구체적으로는, 상기 도 2의 시맨틱 네트워크 생성기(203)에서 수행되는 모델 생성 과정을 나타낸다.

도 3을 참조하면, 시맨틱 네트워크 생성기(203)는 전사 문장이 저장된 문장 DB(202)로부터 소정의 문장을 선택하여 형태소 및 구분 분석을 수행하고(S301), 분석된 형태소 및 구분을 통해 parse tree 형태를 구성한다(S302). 형태소란 뜻을 가진 최소 문법 단위로 의미가 상실되지 않는 범주까지 구분된 형태를 의미한다.

각 tree를 구성하는 단말 노드는 어휘 목록, 비단말 노드는 어휘 목록의 속성을 나타내는 구 또는 절을 나타낸다.

문장 DB(202)에 저장된 문장들에 대하여 다른 문장이 또 존재하는지를 검토하여 상기 단계 S301 및 S302 과정을 반복 수행하게 되면(S303), 하나 이상의 문장 tree 군은 forest 구조로 통합된다(S304).

다음으로, 시맨틱 네트워크 생성기(203)는 forest 구조로부터 고유의 명칭인 상태(state)와 상태 변화 작업을 수행하는 전이(transition)로 구성되는 FSN(Finite State Network) 모델을 추출한다(S305). 상기 forest 구조의 단말 노드는 FSN 상태로, 각 단말은 전이로 연결된다. FSN 모델의 각 상태는 클래스로서 어휘 목록을 대표하는데 이에 대해서는 이하 도 4를 참조하여 간략하게 후술한다.

이후, 시맨틱 네트워크 생성기(203)는 추출된 FSN 모델에서 공통되는 상태와 전이를 하나로 묶는 FSA 최적화 과정을 수행하여(S306), 최종적인 시맨틱 네트워크 모델을 생성한다(S307).

도 4는 본 발명의 일 실시예에 따른 음성 인식 시스템에서 시맨틱 네트워크 모델이 생성된 형태를 나타내는 도면이다. 구체적으로, 소정의 문장이 FSN 형식의 시맨틱 네트워크로 표시된 상태 전이도의 일 예를 나타낸다.

도 4를 참조하면, 본 발명의 실시예에 따른 음성 인식 시스템에서 인식한 음성 신호를 기반으로 하는 FSN은 어휘 목록으로 구성된 클래스, 즉 11개의 상태(301 내지 411)와 18개의 전이로 구성된다. 문장 생성기(205)는 시맨틱 네트워크 모델 상에서 시작점부터 종료점까지 각 노드를 순회하면서 노드와 노드간의 상태에서 하나의 어휘를 선택함으로써 하나의 문장을 생성한다. 이 FSN은 무한반복에 따른 무한대의 문장 생성이 아닌 결정적(deterministic)으로 동작하게 된다.

표 1은 본 발명의 일 실시예에 따른 문장 생성기(205)가 시맨틱 네트워크 모델의 FSN으로부터 생성하는 문장들의 일 예를 나타내는 것이다.

"여태""까지""사용""금액""문의해""보려구요"

"여태""까지""사용""요금""얼마""인가""문의해""보려해요"

"여태""껏""사용""금액""얼마""인가""알아""보려해요"

"지금""까지""사용""금액""얼마""일까""문의해""볼께요"

"지금""까지""사용한""금액""얼마""인가""문의해""보려구요"

"지금""까지""사용한""요금""은""얼마""일까""문의해""보려구요"

"현재""껏""사용""요금""이""얼마""인가""요"

...

표 1을 참조하면, 각 클래스의 어휘 목록에서 임의적으로 선택된 단어를 조합하면, 문장 각각의 형태는 서로 다르지만 유사한 의미인 "현재까지의 사용 요금 조회"를 나타낸다.

이때, 도 4에 나열된 FSN의 어휘 목록은 상기 도 2에서 상술한 어휘 클래스 편집기(204)에서 변경될 수 있으며, 의미 분류 체계에 따라 기 설정된 n개의 카테고리에 대하여 동일한 수의 FSN이 생성될 수 있다.

이와 같이 본 발명의 일 실시예에 따른 문장 생성기(205)가 시맨틱 네트워크를 이용하여 동일한 의미를 갖는 다양한 문장을 생성함으로써, 종래 음성 인식 시스템의 단순히 키워드 중심의 발화 내용 의미 체계를 구축하는 것과 비교하여 인식률 및 발화자의 의도 파악 면에서 개선될 수 있다.

도 5는 본 발명의 일 실시예에 따른 음성 인식 시스템에서 최대 엔트로피 모델을 이용하여 호 분류를 수행하는 과정의 일 예를 나타내는 도면이다. 구체적으로, 상기 도 2의 호 결정기(300)에서 이용할 수 있는 다양한 호 분류 방법들 중, 확률적 통계 기반의 분류 방법에 따른 호 분류를 예로 들어 설명하도록 한다.

도 5를 참조하면, 음성 인식 시스템(200)으로 입력된 사용자의 음성 신호는 상기 도 2에서 상술한 음성 인식 시스템의 구성요소들의 적용에 따라 텍스트로 변환된다(S501).

음성 인식 시스템(200)의 자질 정보 추출기(205)는 실시간 음성 인식 결과에 따라 추출되는 자질들을 호 결정기로 전달한다(S502).

호 결정기(300)는 전달받은 자질에 대해 최대 엔트로피 모델을 기반으로 미리 계산한 확률 값을 적용하여 의미 범주 카테고리의 후보 순위를 결정한다(S503). 의미 범주 카테고리는 기 설정된 의미 체계(예, 기계학습 알고리즘에 의하여 통계적으로 자동 학습하여 제작된 의미 분류 데이터 베이스)에 따라 구성되는 하나 이상의 의미 범주 카테고리로 구성된다.

호 결정기(300)는 전 단계(S503)에서 결정된 후보 순위에 따라 최대 확률값을 갖는 우선순위의 카테고리로 호를 분류할 수 있다(S504). 예를 들어, 이동통신사의 고객센터에서 제공하는 상담 서비스에서 음성 인식을 통한 호 분류 시스템을 이용하는 경우, 의미 범주 카테고리는 해당 시스템에서 제공하는 서비스인 고장신고, 요금조회, 상담원 연결, 전문부서 등을 포함할 수 있다.

호 분류 단계(S504)에서 모호성 없이 호가 분류되면 해당 카테고리에 대응되는 서비스를 제공할 수 있다(S505, S506). 상술한 실시예에 따라 최대 확률값을 갖는 "요금 조회" 카테고리가 1순위로 결정되면, 이동통신사의 고객센터는 "요금 조회" 카테고리에 대응되는 조회 결과를 알려주는 등 해당 서비스를 제공할 수 있다.

만약, 호 분류 결과(S504)에 따라 확률의 임계값(신뢰도) 또는 최우선 순위와 그 다음 순위간의 확률값의 차이 등을 기준으로 특정 카테고리로 호를 분류하기 모호한 경우에는, 모호성 해결 모드로 전환된다. 모호성 해결 모드 전환의 기준은 사용자 구현에 따라 다양하게 설정될 수 있으며, 일 예로 모호성 해결 모드로 전환되면, 상담원을 연결하거나 또는 사용자에게 호 분류상의 모호성을 해결하기 위한 추가적일 질문을 수행함으로써 호 분류가 하나의 의미 범주로 분류되도록 음성 인식 과정을 반복할 수 있다(S505, S507).

본 발명에서 후보 카테고리 정보는 서비스 제공 시스템에서 분류하고자 하는 호의 명칭과 확률 값의 쌍으로 구성될 수 있으며, 각 후보의 확률 값의 합은 1이 된다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서 본 발명에 기재된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상이 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의해서 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

음성 인식에 대한 호 분류 시스템에서 호를 분류하는 방법에 있어서,
서비스 이용자에 의해 입력된 음성신호로부터 변환된 텍스트의 소정 문장을 도출하여 형태소 단위로 분절하여 복수의 노드(node)를 구성하는 단계;
상기 분절된 형태소 단위로 의미적으로 개념이 동일한 하나 이상의 어휘를 추가, 삭제 또는 변경하여 상기 분절된 형태소를 대표 단어로 하는 복수의 어휘 클래스와 상기 복수의 노드 간 전이(transition)를 포함하는 시맨틱 네트워크를 구성하는 단계;
소정의 자질 추출 규칙에 따라 상기 시맨틱 네트워크로부터 추출한 다수의 자질을 대상으로 기계적 학습을 통해 결정된 가중치를 부여하여 최대 엔트로피 모델을 구성하는 단계; 및
상기 최대 엔트로피 모델을 기반으로 상기 다수의 자질에 대한 우선순위를 결정하고, 상기 우선순위 결과에 따라 호를 분류하는 단계를 포함하는, 연속 음성 인식에 대한 호 분류 방법.
제1항에 있어서,
상기 시맨틱 네트워크를 구성하는 단계는,
상기 복수의 어휘 클래스와 상기 복수의 노드 간 전이(transition)로부터 공통되는 어휘 클래스 및 전이를 연결하여 최적화된 FSN(Finite State Network)을 구성하는 단계를 더 포함하고,
상기 최적화된 FSN으로부터 상기 시맨틱 네트워크를 구성하는, 연속 음성 인식에 대한 호 분류 방법.
제1항에 있어서,
상기 시맨틱 네트워크상에서 상기 복수의 노드를 순회하며 상기 복수의 어휘 클래스 중 일부에서 추출한 임의의 어휘를 결합함으로써, 상기 소정의 문장과 의미가 유사한 다수의 문장을 생성하는 단계를 더 포함하는, 연속 음성 인식에 대한 호 분류 방법.
제1항에 있어서,
상기 자질 추출은 어휘 정보, 형태소 정보, 태그 정보, 어휘간 상대 위치 정보 및 N 그램(N-gram) 정보 중 적어도 하나를 포함하는, 연속 음성 인식에 대한 호 분류 방법.
제1항에 있어서,
상기 호 분류 단계는,
상기 최대 엔트로피 모델을 기반으로 미리 계산된 확률 값을 상기 자질들에 적용하여 기 설정된 의미 범주 카테고리에서의 우선 순위를 결정하는 단계; 및
상기 우선 순위 결과에 따라 최우선 순위에 해당하는 특정 카테고리로 상기 사용자의 호를 분류하는 단계를 포함하는, 연속 음성 인식에 따른 호 분류 방법.
제5항에 있어서,
상기 특정 카테고리로 호 분류시, 확률의 임계값 또는 최우선 순위와 그 다음 순위간의 확률 값 차이를 고려하여 수행하며,
상기 최우선 순위에 해당하는 카테고리가 결정되지 않은 경우, 상기 사용자에 대한 추가적인 질의를 통해 상기 음성 인식 단계를 반복하여 수행하는, 연속 ㅇ음성 인식에 따른 호 분류 방법.
음성 인식에 대한 호 분류 시스템에 있어서,
서비스 이용자에 의해 입력된 음성신호를 텍스트로 변화하기 위한 음성 인식 모듈;
상기 텍스트에 포함된 소정 문장을 형태소 단위로 분절하여 복수의 노드를 생성하고, 상기 분절된 형태소 단위의 상태(state)와 상기 복수의 노드 간의 전이(transition)를 포함하는 시맨틱 네트워크를 구성하는 시맨틱 네트워크 생성기;
소정의 자질 추출 규칙에 따라 상기 시맨틱 네트워크로부터 다수의 자질을 추출하는 자질 정보 추출기;
상기 추출된 다수의 자질을 대상으로 기계적 학습을 통해 결정된 가중치를 부여하여 최대 엔트로피 모델을 구성하는 모델 학습기; 및
상기 최대 엔트로피 모델을 기반으로 상기 다수의 자질에 대한 우선순위를 결정하고, 상기 우선순위 결과에 따라 호를 분류하는 호 결정기를 포함하는, 연속 음성 인식에 대한 호 분류 시스템.
제7항에 있어서,
상기 분절된 형태소 단위별로 의미적으로 개념이 동일한 하나 이상의 어휘를 추가, 삭제 또는 변경하여 상기 상태를 복수의 어휘를 포함하는 어휘 클래스로 편집하는 어휘 클래스 편집기를 더 포함하는, 연속 음성 인식에 대한 호 분류 시스템.
제7항에 있어서,
상기 시맨틱 네트워크상에서 상기 복수의 노드를 순회하며 상기 복수의 상태 중 일부에서 추출한 임의의 어휘를 결합함으로써, 상기 소정의 문장과 의미가 유사한 다수의 문장을 생성하는 문장 생성기를 더 포함하는, 연속 음성 인식에 대한 호 분류 시스템.
제7항에 있어서,
상기 시맨틱 네트워크 생성기는,
상기 복수의 상태와 상기 복수의 노드 간 전이(transition)로부터 공통되는 상태 및 전이를 연결하여 최적화된 FSN(Finite State Network)을 구성하고,
상기 최적화된 FSN으로부터 상기 시맨틱 네트워크를 생성하는, 연속 음성 인식에 대한 호 분류 시스템.
제7항에 있어서,
상기 호 결정기는,
상기 최대 엔트로피 모델을 기반으로 미리 계산된 확률 값을 상기 자질들에 적용하여 기 설정된 의미 범주 카테고리에서의 우선 순위를 결정하고,
상기 우선 순위 결과를 기반으로 확률의 임계값 또는 최우선 순위와 그 다음 순위간의 확률 값 차이를 고려하여 최우선 순위에 해당하는 특정 카테고리로 상기 사용자의 호를 분류하는, 연속 음성 인식에 따른 호 분류 시스템.
제7항에 있어서,
상기 자질 추출은 어휘 정보, 형태소 정보, 태그 정보, 어휘간 상대 위치 정보 및 N 그램(N-gram) 정보 중 적어도 하나를 포함하는, 연속 음성 인식에 대한 호 분류 시스템.