KR20090004216A

KR20090004216A - 음성 인식에 대한 통계적 의미 분류 시스템 및 방법

Info

Publication number: KR20090004216A
Application number: KR1020070068250A
Authority: KR
Inventors: 김성기; 조주형
Original assignee: 주식회사 예스피치
Priority date: 2007-07-06
Filing date: 2007-07-06
Publication date: 2009-01-12
Also published as: KR100904049B1

Abstract

본 발명은 음성 인식에 대한 통계적 의미 분류 시스템에 있어서, 입력된 음성신호를 미리 정의된 텍스트 코퍼스(Text Corpus)로 추출 및 어절단위로 분류하는 음성 인식부; 어절 단위로 분류된 상기 텍스트 코퍼스를 형태소 단위로 분절하는 형태소 분석기; 의미적으로 개념이 동일한 단어를 그룹화 한 개념 사전을 도입하여, 상기 형태소 분석기에서 분절된 각 형태소를 대표 단어로 그룹화 하는 맵핑부; 및 통계 기반의 의미 분류기에서 생성되는 벡터에 상기 대표단어를 대입 및 각각의 의미 범주별로 자동 할당하는 의미분류부를 포함하는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 시스템 및 방법에 관한 것이다.

본 발명에 따른 음성 인식에 대한 통계적 의미 분류 시스템 및 방법은 한국어의 각 형태소를 어절 단위로 분절하도록 하는 형태소 분석기와, 불용어 사전 및 개념 사전을 탐색과정에 적용함으로써, 사전 크기를 안정화시키고, 한국어의 음성인식 및 의미분류에 대한 성능을 향상시키는 효과가 있다.

음성, 형태소, 벡터추출부, 개념사전, 불용어사전

Description

음성 인식에 대한 통계적 의미 분류 시스템 및 방법{System and Method for Classifying Named Entities from Speech Recongnition}

도 1은 종래 음성 인식 시스템에 대한 블록 구성도이다.

도 2는 본 발명의 바람직한 실시예에 의한 음성 인식 및 의미분류 시스템의 개략도이다.

도 3은 본 발명의 바람직한 실시예에 의한 의미 분류 시스템에 대한 블록 구성도이다.

도 4는 본 발명의 바람직한 실시예에 의한 의미 분류 시스템의 의미분류기를 도시한 블록 구성도이다.

도 5는 본 발명에 따른 신경망 기반 통합 음성 인식기의 구조를 보여주는 도면이다.

도 6은 도 5의 신경망 기반 통합 음성 인식기가 적용된 일례를 나타내는 도면이다.

도 7은 본 발명에 따른 음성 인식에 대한 통계적 의미 분류 시스템의 흐름도이다.

도 8은 본 발명에 따른 음성 인식에 대한 통계적 의미 분류 시스템의 의미분 류기의 흐름도이다.

<도면의 주요 부분에 대한 부호의 설명>

10: 음성 인식부 15: 학습데이터부

20: 형태소분석기 22: 형태소발음사전DB

24: 관리모듈 26: 분류모듈

28: 인식모듈 30: 맵핑부

32: 개념사전DB 34: 그룹화모듈

40: 불용어제거부 42: 불용어사전DB

44: 불용어제거모듈 50: 자질선택부

60: 벡터추출부 70: 벡터학습부

80: 의미분류부

본 발명은 음성 인식에 대한 통계적 의미 분류 시스템 및 방법에 관한 것으로, 보다 상세하게는 사용자가 발성한 발화내용에 대한 의미 범주를 형태소 별로 자동으로 분류하도록 하여, 한국어의 음성인식 및 의미분류에 대한 성능을 향상시키도록 하는 음성 인식에 대한 통계적 의미 분류 시스템 및 방법에 관한 것이다.

일반적으로 음성 인식 기술은 사람의 음성을 통하여 사람과 컴퓨터 간의 인터페이스가 가능하도록 하는 것으로서, 발음에 따라 특정 주파수를 갖는 사람의 음성을 컴퓨터가 분석해 전기신호로 변환한 후, 음성신호의 주파수 특성을 추출해 발음을 이해하고, 이해된 음성에 따라 업무를 수행하는 기술이다. 이러한 음성인식 기술은 현재 상용화되어, 전화 다이얼링, 장난감 제어, 어학학습 또는 가전기기 제어 등과 같은 다양한 분야에 응용되고 있다.

종래 음성 인식 기술은 도 1에 도시된 바와 같이, 화자가 특정 단말기(100)를 통해 발화를 하면, 발화된 음성 신호가 음성 인식 시스템(100)으로 전달되어 정보를 추출 및 연산하게 된다. 그리고 최종적으로 화자가 발화한 음성 신호는 텍스트(300)로 변환하게 된다.

그리고 종래의 음성 인식 시스템(100)을 구성하는 모듈은 보통 크게 다섯 가지로 학습 및 연산을 수행하게 된다. 이는 도 1에 도시된 바와 같이, 특징 추출부(110), 음향 모델부(212), 발음 모델부(222), 언어 모델부(232), 후처리부(240)를 포함한다.

상기 특징 추출부(110)는 음성 신호로부터 유용한 특징들을 추출하는 과정으로써, 인간의 청각특성을 반영하는(perceptually meaningful) 특징 표현, 다양한 잡음환경/화자/채널 변이에 강인한(robust) 특징 등을 추출한다.

상기 음향 모델부(212)는 음성 데이터베이스(210)로부터 음성 신호가 어떻게 표현할 수 있는지를 나타낸다. 최근 음성인식기에서 가장 널리 사용되는 음향모델은 HMM(hidden Markov model)에 기반 한 것이다. 음향모델의 기본 단위는 음소 또 는 유사음소 단위이다. 각 모델은 하나의 음향모델 단위를 나타내며 보통 3개의 상태(state)로 구성된다. 주로 좌에서 우로의 상태 간 천이만 허용된다. 각 상태에서의 음성특징 벡터의 관측 확률은 이산 확률분포 또는 연속 확률밀도함수(pdf)로 표현된다.

상기 발음 모델부(222)는 실제 학습 될 음소는 표기음소가 아니라 발음음소이므로 표기음소를 발음음소로 바꾸어주는 모델이다. 이 모델은 보통 표준발음법에 의거하여 간단한 규칙을 정하거나 특정 환경과 화자 및 사투리까지의 특색을 고려하여 정의하는 방법으로 발음 사전 DB(데이터베이스)(220)를 구축하여 수행한다.

상기 언어 모델부(232)는 음성 인식기의 문법이라고 할 수 있다. 이는 텍스트 말뭉치 DB(230)로부터 문법을 추출하여, 학습 및 탐색 시 임의적인 문장 보다는 문법에 맞는 문장을 선별하는 과정이다. 상기 언어 모델부(232)는 음성 인식기의 탐색 공간을 감소할 수 있으며 문법에 맞는 문장에 대한 확률을 높여 주는 역할을 하기 때문에 인식률 향상에도 기여하게 된다.

상기 후처리부(240)는 경우에 따라서는 고려하지 않은 경우도 있지만, 보통 인식기를 통해 인식률이 높은 후보 텍스트를 선별한 후, 또 다른 가공된 언어적 정보나 에러 패턴을 학습하고 적용하여 가장 적절한 텍스트(300)를 찾는 과정이다.

한편, 상기 후처리부(240)에서 선별된 텍스트(300)를 컴퓨터 시스템이 이해하기 위해서는 발성된 발화에서 표현된 단어가 의미하는 개념과 문장에서 표현하고자 하는 "그 개념들 간의 관계"를 규명하여야 한다. 이를 위하여 기존에 사용되는 의미 분류 방법으로는, 의미 문법을 설계하여 처리하는 규칙(rule) 기반의 방법과, 확률적 통계 기반에 의한 발화의 자동 의미 범주화 처리 방법이 있다.

의미 문법은 발화의 구문과 의미 처리가 결합된 형태로 제한된 영역에서 유용하게 사용될 수 있지만, 의미 문법 규칙 설계와 규칙의 일반화가 어렵고 확장이 어렵다는 단점을 가진다.

반면에 통계 기반의 발화의 자동 의미 범주화는 학습 데이터가 주어지기만 한다면, 언어의 규칙성을 시스템이 자동으로 학습할 수 있기 때문에, 규칙 개발에 소요되는 개발 비용을 줄일 수 있다. 통계 기반의 의미 분류기란 발화를 수집하고 수집된 발화로부터 미리 정의해놓은 의미 범주만큼 사람이 분리해 놓은 학습데이터를 기계학습 알고리즘에 의하여 통계적으로 자동 학습하여 제작된 시스템이며, 현재 상용화된 의미 분류를 위한 종래 의미 분류기 모델은 사용자가 발성한 발화를 통계적 음성 언어 인식기가 인식하고, 인식한 결과를 텍스트로 입력받아 통계적 의미 분류기를 통하여 의미 범주 클래스로 분류하여, 사용자의 발화를 의미 범주별로 자동 할당해준다.

그러나 종래 의미 분류기 모델은 영어에 맞추어 제작된 것이 대부분이기 때문에, 영어의 인식단위이자 띄워 쓰기 단위로 구성된 인식 단어 선정에는 적합하지만, 형태소 분석 적용된 키워드에 대한 처리나 동의어 처리 등에는 적합하지 않다.

특히, 한국어는 교착어로서 한 어절은 실질 형태소와 조사나 어미와 같은 헝태소로 이루어지므로, 문장을 단어의 연결로 보는 것이 아니라 형태소의 연결로 인식하고, 이러한 형태소의 수를 어느 정도 고정함으로써, 사전 크기를 안정화시키고 음성 인식률을 높이는 방법이 제안되어 왔다.

상기와 같은 종래기술의 문제점을 해결하고자, 본 발명의 목적은 한국어의 각 형태소를 어절 단위로 분절하도록 하는 형태소 분석기와, 불용어 사전 및 개념 사전을 탐색과정에 적용함으로써, 사전 크기를 안정화시키고, 한국어의 음성인식 및 의미분류에 대한 성능을 향상시키도록 하는 음성 인식에 대한 통계적 의미 분류 시스템 및 방법을 제공하도록 하는 데 있다.

상기 목적을 달성하기 위하여 본 발명은 음성 인식에 대한 통계적 의미 분류 시스템에 있어서, 입력된 음성신호를 미리 정의된 텍스트 코퍼스(Text Corpus)로 추출 및 어절단위로 분류하는 음성 인식부; 어절 단위로 분류된 상기 텍스트 코퍼스를 형태소 단위로 분절하는 형태소 분석기; 의미적으로 개념이 동일한 단어를 그룹화 한 개념 사전을 도입하여, 상기 형태소 분석기에서 분절된 각 형태소를 대표 단어로 그룹화 하는 맵핑부; 및 통계 기반의 의미 분류기에서 생성되는 벡터에 상기 대표단어를 대입 및 각각의 의미 범주별로 자동 할당하는 의미분류부를 포함하는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 시스템을 제공한다.

또한, 상기 의미분류기는 상기 음성 인식부에서 생성된 텍스트 코퍼스가 수집된 학습데이터부; 상기 학습데이터부에서 수집된 텍스트 코퍼스를 형태소 단위로 분절하는 형태소 분석기; 의미적으로 개념이 동일한 단어를 그룹화 한 개념 사전을 도입하여, 상기 형태소 분석기에서 분절된 각 형태소를 대표 단어로 그룹화 하는 맵핑부; 상기 대표 단어 중에서 범주화 구분에 유용하게 사용되는 자질을 선택하는 자질선택부; 및 상기 자질선택부에서 선택되는 상기 자질을 기계학습알고리즘에 의해 특정 벡터로 추출하는 벡터추출부를 포함하는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 시스템을 제공한다.

또한, 상기 형태소 분석기는 각 형태소들이 기본단위들로 분류된 형태소발음사전DB; 상기 형태소발음사전DB를 관리하는 관리모듈; 상기 관리모듈을 이용하여 상기 음성 인식부에서 생성된 텍스트 코퍼스를 각 형태소로 분류하는 분류모듈; 및 상기 분류모듈에 의해 분류된 상기 형태소를 인식하는 인식모듈을 포함하는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 시스템을 제공한다.

또한, 상기 맵핑부는 의미적으로 개념이 동일한 단어를 그룹화한 개념사전DB; 및 상기 형태소 분석기에서 분절된 각 형태소를 개념사전DB에 대입하여, 대표 단어로 그룹화 하는 그룹화모듈을 포함하는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 시스템을 제공한다.

또한, 상기 맵핑부에 의해 그룹화된 상기 대표 단어 중 별다른 정보를 주지 않는 불용어를 제거하는 불용어제거부를 포함하는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 시스템을 제공한다.

또한, 상기 불용어제거부는 별다른 정보를 주지 않는 문구, 단어 의성어 등의 불용어로 구성되는 불용어 사전DB; 및 상기 불용어 사전DB를 이용하여 상기 대표 단어 중 별다른 정보를 주지 않는 불용어를 제거시키는 불용어 제거 모듈을 포 함하는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 시스템을 제공한다.

또한, 상기 자질선택부는 상기 대표 단어에 대한 상호 정보척도(Mutual Information)와 카이 제곱 통계량(Chi-Square)을 추출하는 자질선택모듈; 및 상기 자질선택모듈에서 의미분류 자질값이 낮은 데이터를 상기 불용어제거부에 적용 및 제거하기 위한 단어추출모듈을 포함하는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 시스템을 제공한다.

또한, 상기 벡터추출부는 입력층, 은닉층, 출력층을 포함하는 신경망 구조를 가지며, 상기 신경망 구조를 기반으로 한 상기 기계 학습 알고리즘을 통해 각 계층 간 신경망 가중치를 조정하여 입력 패턴에 대한 목표 출력 값을 생성 및 융합하여 상기 음성신호에 대한 음성 특징 벡터를 추출하도록 구성되는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 시스템을 제공한다.

또한, 상기 벡터추출부에서 추출되는 벡터에 상기 기계 학습 알고리즘을 적용하여, 상기 벡터를 자동 학습시키는 벡터학습부를 포함하여 구성되는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 시스템을 제공한다.

또한, 상기 기계 학습 알고리즘은 ANNs(Artificial Neural Networks) 알고리즘으로 구성되는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 시스템을 제공한다.

또한, 음성 인식에 대한 통계적 의미 분류 시스템을 이용한 음성 인식에 대한 통계적 의미 분류 방법에 있어서, 입력된 음성신호로부터 음성인식에 사용되는 텍스트 코퍼스(Text Corpus)를 추출 및 어절단위로 분류하는 음성 인식 단계; 어절 단위로 분류된 상기 텍스트 코퍼스를 형태소 단위로 분절하는 형태소 분석 단계; 의미적으로 개념이 동일한 단어를 그룹화 한 개념 사전을 도입하여, 상기 형태소 분석 단계에서 분절된 각 형태소를 대표 단어로 그룹화 하는 맵핑 단계; 및 상기 의미 분류기에서 생성되는 벡터에 상기 대표단어를 대입 및 각각의 의미 범주별로 자동 할당하는 의미분류부를 포함하는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 방법을 제공한다.

또한, 상기 의미 분류기는 상기 음성 인식부에서 생성된 텍스트 코퍼스가 수집되는 학습데이터 수집 단계; 어절 단위로 분류된 상기 텍스트 코퍼스를 형태소 단위로 분절하는 형태소 분석 단계; 의미적으로 개념이 동일한 단어를 그룹화 한 개념 사전을 도입하여, 상기 형태소 분석 단계에서 분절된 각 형태소를 대표 단어로 그룹화 하는 맵핑 단계; 상기 맵핑 단계에서 그룹화된 상기 대표 단어 중 별다른 정보를 주지 않는 불용어를 제거시키는 불용어 제거 단계; 상기 불용어 제거 단계에서 불용어가 제거된 상기 대표 단어 중에서 범주화 구분에 유용하게 사용되는 자질을 선택하는 자질 선택 단계; 및 상기 자질을 상기 기계 학습 알고리즘에 의해 음성 특징 벡터로 추출하는 벡터 추출 단계를 포함하는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 방법을 제공한다.

또한, 상기 맵핑 단계에서 그룹화된 상기 대표 단어 중 별다른 정보를 주지 않는 불용어를 제거시키는 불용어 제거 단계를 포함하는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 방법을 제공한다.

또한, 상기 벡터 추출 단계에서 추출되는 벡터에 상기 기계 학습 알고리즘을 적용하여 상기 벡터를 자동 학습시키는 벡터 학습 단계를 포함하여 구성되는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 방법을 제공한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 따른 음성 인식에 대한 통계적 의미 분류 시스템 및 방법을 더욱 상세히 설명한다.

도 2는 본 발명의 바람직한 실시예에 의한 음성인식 및 의미분류 시스템의 개략도이다.

도 2를 참조하면, 화자가 특정 단말기(100)를 통해 발화를 하면, 발화된 음성 신호가 음성 인식 시스템(100)으로 전달되어 정보를 추출 및 연산하게 된다. 상기 음성 인식 시스템(100)은 종래(도 1)와 마찬가지로, 종래 특징 추출부(110), 음향 모델부(212), 발음 모델부(222), 언어모델부(232), 후처리부(240)를 포함하여 구성되며, 이는 종래의 음성 인식 시스템(100)과 동일한 구성으로서, 보다 상세한 설명은 생략하기로 한다.

그리고 상기 후처리부(240)에서 선별된 텍스트(300)는 의미 분류 시스템(5)을 통하여, 그 텍스트(300)의 의미를 컴퓨터 시스템이 이해할 수 있도록 그 텍스트(300)의 의미 범주별로 자동 할당된다.

도 3은 본 발명의 바람직한 실시예에 의한 의미 분류 시스템에 대한 블록 구 성도이다.

도 3을 참조하면, 본 발명의 의미 분류 시스템(5)은 확률적 통계 기반에 의한 발화의 자동 의미 범주화 처리를 위한 시스템으로서, 음성 인식부(10), 형태소분석기(20), 맵핑부(30), 불용어제거부(40) 및 의미분류부(80)를 포함하여 구성된다.

음성 인식부(10)는 상기 도 2의 음성 인식 시스템에서 선별된 텍스트(300)를 미리 정의된 텍스트 코퍼스(Text Corpus)로 추출 및 어절단위로 분류하는 것으로서, 상기 텍스트(300)를 어절 단위로 분리하고 특정 텍스트 코퍼스로 인식한다.

형태소분석기(20)는 여러 형태소들의 묶음이 표층 형태로 나타나는 하나의 어절로부터 의미를 갖는 최소 단위인 각 형태소를 분석하여, 실제의 문장에 사용되는 단어의 원래의 구조를 파악하는 것으로서, 인식된 텍스트 코퍼스를 어절 단위에서 형태소 단위로 분절하며, 이렇게 분절된 형태소는 하기 맵핑부(30)를 통하여 동일한 개념을 가지는 단어를 그룹화시키고, 불용어제거부(40)를 통하여 불필요한 접사 등의 불용어를 제거시키게 된다.

이처럼 형태소 분석을 통한 어절 분리 과정을 통하여 발화의 내용을 표현하는 단어를 어절 단위에서 형태소 단위로 추출하여 내용 분석에 꼭 필요한 어근만을 선택할 수 있기 때문에, 그 내용 특징 반영률이 우수한 자질을 갖는 단어를 선택할 수 있게 된다.

이러한 형태소분석기(20)는 각 형태소들이 기본단위들로 분류된 형태소발음사전모듈(22), 상기 형태소발음사전모듈(22)을 관리하는 관리모듈(24), 상기 형태 소발음사전모듈(22)을 이용하여 상기 텍스트 코퍼스를 각 형태소로 분류하는 분류모듈(26), 및 상기 분류모듈(26)에 의해 분류된 상기 형태소를 인식하는 인식모듈(28)을 포함하여 구성된다. 이들의 구체적인 동작을 살펴보면, 먼저, 분류모듈(26)에서는 형태소들을 기본음소단위군으로 구성한 형태소발음사전DB(22)와 연동되어, 상기 텍스트 코퍼스를 각 형태소로 분류 및 모델링 한다. 그리고 인식모듈(28)에서는 분류모듈(26)에서 분류된 텍스트 코퍼스를 형태소 단위로 인식하게 된다.

맵핑부(30)는 의미적으로 개념이 동일한 단어를 그룹화한 개념사전DB(32)를 도입한 그룹화모듈(34)을 통하여, 상기 형태소분석기(20)에서 분절된 각 형태소를 대표 단어로 그룹화하도록 구성된다. 이러한 맵핑부(30)에 의하여, 텍스트 코퍼스는 의미적 개념이 동일한 대표 개체명이나, 의미를 대표하는 새로이 정의된 개체명으로 다시 맵핑되면서, 의미가 동일한 여러 개의 텍스트 코퍼스가 하나의 텍스트 코퍼스로 필터링되게 된다. 여기서 개념사전DB(32)란 유사 발음 단어가 제외된, 의미적으로 개념이 동일한 동일어를 그룹화한 사전이 저장된 데이터베이스로서, 기존 통계 모델에서 자주 나타나는 불충분한 학습 데이터 문제 (Sparse Data Problem)를 해결하게 하는 도구로 사용되어, 기존 통계 모델의 약점을 보완하게 된다.

불용어제거부(40)는 별다른 정보를 주지않는 문구, 단어 의성어 등의 불용어로 구성되는 불용어사전DB(42) 및 상기 불용어사전DB(42)를 이용하여 상기 맵핑부(30)에서 그룹화된 대표 단어 중 별다른 정보를 주지 않는 불용어를 제거시키는 불용어제거모듈(44)로 구성되어, 별다른 정보를 주지 않는 불용어, 즉 의미 없는 문구, 단어, 의성어 등을 발화 데이터에서 제거한 데이터를 얻도록 한다. 이로 인해 개념 사전 적용 단계를 거친 발화 데이터로부터, 불필요한 단어가 제외된 데이터를 얻게 됨으로써, 키워드 자질값 추출 시에 필요 없는 데이터 분석에 드는 비용을 줄일 수 있도록 한다. 그리고 이러한 불용어제거부(40)는 경우에 따라서는 고려하지 않는 경우도 있다.

의미분류부(80)는 통계 기반의 의미 분류기(82)에서 생성되는 벡터에 상기 대표단어를 대입하여, 상기 대표단어가 각각의 의미 범주별로 자동 할당되도록 한다. 상기 의미분류기(82)는 하기 도 4에서 상세하게 설명하기로 한다.

이처럼 특정 단말기(100)를 통해 발화된 음성 신호는 음성 인식 시스템(100)을 통하여 텍스트로 선별되며, 선별된 텍스트는 음성 인식부(10)에서 텍스트 코퍼스로 인식되고, 이어서 형태소분석기(20), 맵핑부(30), 불용어제거부(40) 및 의미분류부(80)를 거치면서, 그 텍스트의 의미를 컴퓨터 시스템이 이해할 수 있도록, 그 텍스트에 대한 각각의 의미범주별로 자동 할당된다.

도 4를 참조하면, 본 발명의 바람직한 실시예에 의한 의미 분류 시스템(5)의 의미분류기(82)는 학습데이터부(15), 형태소분석기(20), 맵핑부(30), 불용어제거부(40), 자질선택부(50), 벡터추출부(60) 및 벡터학습부(70)를 포함한다.

학습데이터부(15)는 상기 도 3의 음성인식부(10)에서 생성된 텍스트 코퍼스 가 다수 수집되도록 구성된다.

형태소분석기(20)는 여러 형태소들의 묶음이 표층 형태로 나타나는 하나의 어절로부터 의미를 갖는 최소 단위인 각 형태소를 분석하여, 실제의 문장에 사용되는 단어의 원래의 구조를 파악하는 것으로서, 학습데이터부(15)에서 수집된 텍스트 코퍼스를 형태소분석기를 사용하여 어절 단위에서 형태소 단위로 분절하며, 이렇게 분절된 형태소는 하기 맵핑부(30)를 통하여 동일한 개념을 가지는 단어를 그룹화시키고, 불용어제거부(40)를 통하여 불필요한 접사 등의 불용어를 제거시키게 된다.

그리고 상기 형태소분석기(20), 맵핑부(30), 및 불용어제거부(40)는 상기 도2와 동일하므로, 상세한 설명은 생략하기로 한다.

자질선택부(50)는 키워드 추출을 목적으로 하는 것으로서, 발화의 의미 범주화 성능을 높이기 위한 자질선택모듈 및 단어추출모듈로 구성된다.

상기 자질선택모듈은 맵핑부(30) 또는 불용어제거부(40)에 의해 생성되는 대표 단어 중에서 범주화 구분에 유용하게 사용될 만한 단어를 선택하도록 학습 데이터에 나타나는 상기 대표 단어에 대한 상호 정보척도(Mutual Information)와, 카이 제곱 통계량(Chi-Square)을 추출하고, 이 정보량이 큰 단어만을 선택하여 의미 분류기에 사용한다.

상기 단어추출모듈은 상기 자질선택모듈에서 의미분류 자질 값이 낮은 데이터를 상기 불용어제거부(40)에 적용 및 제거하도록 한다.

하기 표 1, 수학식 1, 수학식 2는 상기 자질선택부(50)의 상기 자질선택모듈에 대한 예시로서, 먼저 표 1에서 A는 의미 범주에 속해 있는 발화 중에서 자질 후 보 단어를 포함하고 있는 발화의 수이고, B는 해당 의미 범주에 속해 있지 않은 발화 중에서 자질 후보 단어를 포함하고 있는 발화의 수이다. 그리고 C는 의미 범주에 속해 있는 발화 중에서 자질 후보 단어를 포함하지 않는 발화의 수이며, D는 해당 의미 범주에 속해 있지 않은 발화 중에서 자질 후보 단어를 포함하지 않는 발화의 수이다.

[표 1]

	의미 범주	NOT 의미 범주
자질 후보 단어	A	B
NOT 자질 후보 단어	C	D

하기 수학식 1의 카이 제곱 통계량과, 하기 수학식 2의 상호 정보 척도는 상기 표1의 A, B, C, D의 출현 수를 이용, 자질이 되는 통계량으로 계산하여 우수한 자질을 갖는 단어 리스트를 선정한다.

[수학식 1]

여기에서, N은 전체 발화의 수를 의미한다.

[수학식 2]

여기에서, N은 전체 발화의 수를 의미한다.

벡터추출부(60)는 상기 자질선택부(50)에서 선택되는 자질을 특정 벡터로 추출하는 것으로서, 위에서 선정된 상기 단어를 이용하여 발화의 특징을 표현하도록 벡터공간모델을 사용한다. 상기 벡터공간모델은 신경망 이론이 적용된 기계 학습 알고리즘으로 구성되며, 이 기계학습알고리즘을 사용하면 상기 자질선택부(50)에서 선택된, 정보량이 큰 단어 리스트만으로 학습 발화 데이터를 벡터로 표현할 수 있다. 상기 기계 학습 알고리즘은 ANNs(Artificial Neural Networks) 알고리즘으로 구성된다.

벡터학습부(70)는 상기 벡터추출부(60)에서 추출되는 벡터에 상기 기계 학습 알고리즘을 적용하여, 상기 벡터를 자동 학습시키도록 구성되며, 하기 도 5 에서 설명하기로 한다.

이렇게 신경망 기반 통합 음성 인식기에 의해 학습된 벡터학습부(70)는 하기 도 5 에서와 같은 음성 인식 시스템을 통해, 형태소 분석 단계와 개념 사전을 거쳐, 발화에 대한 의미를 통계적으로 분류함으로써 사용자의 의도를 파악하고 사용자의 목적에 맞는 서비스를 제공할 수 있게 된다.

도 5는 본 발명에 따른 신경망 기반 통합 음성 인식기의 구조를 보여주는 도면이다. 도 5를 참조하면, 상기 도 4의 벡터추출부(60)에서 추출되는 벡터는 신경망 이론이 적용된 기계 학습 알고리즘인 ANNs(Artificial Neural Networks) 알고리즘으로 학습 되도록 구성되며, 상기 ANNs 알고리즘은 데이터를 입력하기 위한 입력층, 상기 입력층으로부터의 신호와 이전층의 출력신호를 입력하여 학습을 수행하는 은닉층, 및 상기 입력층으로부터의 신호와 은닉층의 출력신호를 입력하여 학습을 수행하고 최종적인 결과를 출력하기 위한 출력층으로 이루어진다. 그리고 이러한 신경망 구조를 기반으로 한 상기 기계 학습 알고리즘을 통해 각 계층 간 신경망 가중치를 조정하여 입력 패턴에 대한 목표 출력 값을 생성 및 융합하여 상기 음성신호에 대한 음성 특징 벡터를 추출하도록 구성된다.

도 6은 도 5의 신경망 기반 통합 음성 인식기가 적용된 일례를 나타내는 것으로서, X1~Xn은 신경망의 입력 값 즉, 입력층이고, h1~hk 는 은닉층, y1~ys는 입력 값에 대한 각각의 출력 결과 즉, 출력층을 나타낸다. 여기서, 입력 값은 자질로 이루어진 발화의 의미 벡터 값이 되고, 각각의 Ys는 발화가 Ys에 속할 통계량 값의 출력이 된다. Ys의 최대값을 발화에 대한 의미 범주로 결정 함으로서 학습을 수행한다.

도면을 참조하면, 우선, 음성 인식 시스템(100)을 통하여 음성이 인식 및 텍스트로 생성되고, 생성된 텍스트는 음성인식부(10)에 의해 텍스트코퍼스로 추출 및 어절단위로 분류된다.(S110) 그리고 어절 단위로 분류된 상기 텍스트 코퍼스는 형태소분석기(20)에 의해서 형태소 단위로 분절된다.(S120)

이렇게 형태소 단위로 분절된 텍스트 코퍼스는 의미적으로 개념이 동일한 단어를 그룹화 하는 맵핑부(30)에 의하여 대표단어로 그룹화하게 되며, 이때 그룹화모듈(34)에 의하여 상기 형태소분석기(20)에서 분절된 각 형태소를 개념사전DB(32)에 대입하여, 대표 단어로 그룹화된다.(S130) 그리고 상기 대포 단어 중 불필요한 접사 등의 불용어는 불용어제거부(40)를 통하여 제거될 수도 있다.

상기 맵핑부(30) 및 불용어제거부(40)는 형태소 단위로 분절된 텍스트 코퍼스를 필터링시키는 것으로서, 하기 자질선택부(50)에 의하여 우수한 자질 값 분석 시에 그 비교 데이터를 줄이기 위한 것이다.

맵핑부(30)에 의해 그룹화된 대표단어는 통계 기반의 의미 분류기(82)에서 생성되는 벡터에 상기 대표단어를 대입 및 각각의 의미 범주별로 자동 할당된다.(S140)

도 8은 본 발명에 따른 음성 인식에 대한 통계적 의미 분류 시스템의 의미분류기의 흐름도이다.

도면을 참조하면, 우선, 학습데이터부(15)는 음성인식부(10)에서 생성된 텍스트 코퍼스를 수집한다.(S210) 이렇게 수집된 텍스트 코퍼스 즉, 학습데이터는 형 태소분석기(20)에 의해서 형태소 단위로 분절하게 된다.(S220)

이렇게 형태소 단위로 분절된 텍스트 코퍼스는 의미적으로 개념이 동일한 단어를 그룹화 하는 맵핑부(30)에 의하여 대표단어로 그룹화하게 되며(S230), 이때 그룹화모듈(34)에 의하여 상기 형태소분석기(20)에서 분절된 각 형태소를 개념사전DB(32)에 대입하여, 대표 단어로 그룹화된다.(S240) 그리고 상기 대포 단어 중 별다른 정보를 주지않는 불필요한 접사 등의 불용어는 불용어제거부(40)를 통하여 제거될 수도 있다. 상기 맵핑부(30) 및 불용어제거부(40)는 형태소 단위로 분절된 텍스트 코퍼스를 필터링시키는 것으로서, 하기 자질선택부(50)에 의하여 우수한 자질 값 분석 시에 그 비교 데이터를 줄이기 위한 것이다.

자질선택부(50)에서는 상기 대표단어 중에서 범주화 구분에 유용하게 사용되는 자질이 선택된다.(S250) 그리고 자질선택부(50)에 의해서 선택되는 자질은 벡터추출부에 의해 특정 벡터로 추출되며, 이렇게 추출된 벡터는 ANNs알고리즘을 적용한 기계학습알고리즘에 의하여 자동 학습된다.(S260)

이렇게 학습된 상기 특정 벡터는 의미분류부(80)에서 상기 화자의 음성을 인식하는데 사용되어, 발화에 대한 의미를 통계적으로 분류함으로써 사용자의 의도를 파악하고 사용자의 목적에 맞는 서비스를 제공할 수 있게 된다.

본 발명은 상기 실시예에서 상세히 설명되었지만, 본 발명의 기술사상 범위 내에서 다양한 변형 및 수정이 가능함은 당업자에게 있어서 명백한 것이며, 이러한 변형 및 수정이 첨부된 특허청구범위에 속함은 당연한 것이다.

상기에서 살펴본 바와 같이, 본 발명에 따른 음성 인식에 대한 통계적 의미 분류 시스템 및 방법은 한국어의 각 형태소를 어절 단위로 분절하도록 하는 형태소 분석기와, 불용어 사전 및 개념 사전을 탐색과정에 적용함으로써, 사전 크기를 안정화시키고, 한국어의 음성인식 및 의미분류에 대한 성능을 향상시키는 효과가 있다.

Claims

음성 인식에 대한 통계적 의미 분류 시스템에 있어서,

입력된 음성신호를 미리 정의된 텍스트 코퍼스(Text Corpus)로 추출 및 어절단위로 분류하는 음성 인식부;

어절 단위로 분류된 상기 텍스트 코퍼스를 형태소 단위로 분절하는 형태소 분석기;

의미적으로 개념이 동일한 단어를 그룹화 한 개념 사전을 도입하여, 상기 형태소 분석기에서 분절된 각 형태소를 대표 단어로 그룹화 하는 맵핑부; 및

통계 기반의 의미 분류기에서 생성되는 벡터에 상기 대표단어를 대입 및 각각의 의미 범주별로 자동 할당하는 의미분류부;

를 포함하는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 시스템.
제 1 항에 있어서,

상기 의미분류기는 :

상기 음성인식부에서 생성된 텍스트 코퍼스가 수집된 학습데이터부;

상기 학습데이터부에서 수집된 텍스트 코퍼스를 형태소 단위로 분절하는 형태소 분석기;

의미적으로 개념이 동일한 단어를 그룹화 한 개념 사전을 도입하여, 상기 형태소 분석기에서 분절된 각 형태소를 대표 단어로 그룹화 하는 맵핑부;

상기 대표 단어 중에서 범주화 구분에 유용하게 사용되는 자질을 선택하는 자질선택부; 및

상기 자질선택부에서 선택되는 상기 자질을 기계학습알고리즘에 의해 특정 벡터로 추출하는 벡터추출부;

를 포함하는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 시스템.
제 1 항 또는 제 2 항에 있어서,

상기 형태소 분석기는 :

각 형태소들이 기본단위들로 분류된 형태소발음사전DB;

상기 형태소발음사전DB를 관리하는 관리모듈;

상기 관리모듈을 이용하여 상기 음성 인식부에서 생성된 텍스트 코퍼스를 각 형태소로 분류하는 분류모듈; 및

상기 분류모듈에 의해 분류된 상기 형태소를 인식하는 인식모듈;

을 포함하는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 시스템.
제 1 항 또는 제 2 항에 있어서,

상기 맵핑부는 :

의미적으로 개념이 동일한 단어를 그룹화한 개념사전DB; 및

상기 형태소 분석기에서 분절된 각 형태소를 개념사전DB에 대입하여, 대표 단어로 그룹화 하는 그룹화모듈;

을 포함하는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 시스템.
제 1 항 또는 제 2 항에 있어서,

상기 맵핑부에 의해 그룹화된 상기 대표 단어 중 별다른 정보를 주지 않는 불용어를 제거하는 불용어제거부를 포함하는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 시스템.
제 5 항에 있어서,

상기 불용어제거부는 :

별다른 정보를 주지 않는 문구, 단어 의성어 등의 불용어로 구성되는 불용어 사전DB; 및

상기 불용어 사전DB를 이용하여 상기 대표 단어 중 별다른 정보를 주지 않는 불용어를 제거시키는 불용어 제거 모듈;

을 포함하는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 시스템.
제 2 항에 있어서,

상기 자질선택부는 :

상기 대표 단어에 대한 상호 정보척도(Mutual Information)와 카이 제곱 통계량(Chi-Square)을 추출하는 자질선택모듈; 및

상기 자질선택모듈에서 의미분류 자질값이 낮은 데이터를 상기 불용어제거부에 적용 및 제거하기 위한 단어추출모듈;

을 포함하는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 시스템.
제 2 항에 있어서,

상기 벡터추출부는 :

입력층, 은닉층, 출력층을 포함하는 신경망 구조를 가지며, 상기 신경망 구조를 기반으로 한 상기 기계 학습 알고리즘을 통해 각 계층 간 신경망 가중치를 조 정하여 입력 패턴에 대한 목표 출력 값을 생성 및 융합하여 상기 음성신호에 대한 음성 특징 벡터를 추출하도록 구성되는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 시스템.
제 2 항에 있어서,

상기 벡터추출부에서 추출되는 벡터에 상기 기계 학습 알고리즘을 적용하여, 상기 벡터를 자동 학습시키는 벡터학습부를 포함하여 구성되는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 시스템.
제 8 항 또는 제 9 항에 있어서,

상기 기계 학습 알고리즘은 ANNs(Artificial Neural Networks) 알고리즘으로 구성되는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 시스템.
제 1 항 내지 제 10 항 중 어느 한 항의 음성 인식에 대한 통계적 의미 분류 시스템을 이용한 음성 인식에 대한 통계적 의미 분류 방법에 있어서,

입력된 음성신호로부터 음성인식에 사용되는 텍스트 코퍼스(Text Corpus)를 추출 및 어절단위로 분류하는 음성 인식 단계;

어절 단위로 분류된 상기 텍스트 코퍼스를 형태소 단위로 분절하는 형태소 분석 단계;

의미적으로 개념이 동일한 단어를 그룹화 한 개념 사전을 도입하여, 상기 형태소 분석 단계에서 분절된 각 형태소를 대표 단어로 그룹화 하는 맵핑 단계; 및

상기 의미 분류기에서 생성되는 벡터에 상기 대표단어를 대입 및 각각의 의미 범주별로 자동 할당하는 의미분류부;

를 포함하는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 방법.
제 11항에 있어서,

상기 의미 분류기는 :

상기 음성 인식부에서 생성된 텍스트 코퍼스가 수집되는 학습데이터 수집 단계;

어절 단위로 분류된 상기 텍스트 코퍼스를 형태소 단위로 분절하는 형태소 분석 단계;

의미적으로 개념이 동일한 단어를 그룹화 한 개념 사전을 도입하여, 상기 형태소 분석 단계에서 분절된 각 형태소를 대표 단어로 그룹화 하는 맵핑 단계;

상기 맵핑 단계에서 그룹화된 상기 대표 단어 중 별다른 정보를 주지 않는 불용어를 제거시키는 불용어 제거 단계;

상기 불용어 제거 단계에서 불용어가 제거된 상기 대표 단어 중에서 범주화 구분에 유용하게 사용되는 자질을 선택하는 자질 선택 단계; 및

상기 자질을 상기 기계 학습 알고리즘에 의해 음성 특징 벡터로 추출하는 벡터 추출 단계;

를 포함하는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 방법.
제 11항에 있어서,

상기 맵핑 단계에서 그룹화된 상기 대표 단어 중 별다른 정보를 주지 않는 불용어를 제거시키는 불용어 제거 단계를 포함하는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 방법.
제 12 항에 있어서,

상기 벡터 추출 단계에서 추출되는 벡터에 상기 기계 학습 알고리즘을 적용하여 상기 벡터를 자동 학습시키는 벡터 학습 단계를 포함하여 구성되는 것을 특징으로 하는 음성 인식에 대한 통계적 의미 분류 방법.