KR101318674B1

KR101318674B1 - 엔그램을 이용한 단어 의미 인식 장치

Info

Publication number: KR101318674B1
Application number: KR1020110076621A
Authority: KR
Inventors: 이수종; 왕지현; 윤승; 김정세; 김상훈; 박상규
Original assignee: 한국전자통신연구원
Priority date: 2011-08-01
Filing date: 2011-08-01
Publication date: 2013-10-16
Also published as: KR20130014894A

Abstract

본 발명은 자동 통역 기기에 있어서 음성을 인식하여 인식된 문장에 포함되는 단어의 의미를 구분하여 인식시켜주는 장치에 관한 것이다.
본 발명은 자동 통역을 위한 단어 인식 장치에 있어서, 문장 코퍼스(Corpus)를 N-gram 단위로 분리하여 N-gram단위에 대한 의미 정보의 비교를 위하여 의미 정보의 확률 빈도를 정규화(Normalize)한 N-gram 특징값을 생성하고, N-gram 특징값을 기초로 N-gram단위의 의미 정보에 따른 N-gram 단위의 상대적 특징값을 생성하며, N-gram 단위의 의미 정보와 생성된 N-gram 단위의 상대적 특징값을 저장하는 의미 정보 데이터 관리부, 의미 정보를 인식하기 위한 문장을 입력받는 문장 입력부 및 입력받은 문장을 N-gram 단위로 분리하여, 입력받은 문장의 N-gram 단위를 의미 정보 데이터의미 정보 데이터 N-gram단위의 의미 정보 및 N-gram 단위의 상대적 특징값과 비교하여 입력받은 문장에 포함된 단어의 의미 인식을 위한 태그를 부가하는 의미 인식부를 포함하는 단어 의미 인식 장치를 제공한다.
본 발명에 의하면 N-gram단위의 상대적 특징값을 상호 비교하여 의미 태그를 부가하여 다중 의미를 가지는 단어의 의미를 인식시킴으로써, 자동 통역의 정확도를 향상시키는 효과가 있다.

Description

엔그램을 이용한 단어 의미 인식 장치 {WORD RECONGNITION APPARATUS BY USING N-GRAM}

본 발명은 음성 인식, 자동 번역 및 음성 합성이 결합되어 이루어지는 자동 통역기에서 음성 인식시 인식된 단어의 의미를 구분하는 장치에 관한 것으로, 보다 상세하게는 입력된 문장을 N-gram단위로 분리하여, 각 단위의 의미를 종합비교하여 단어의 의미를 구분함으로써, 보다 우수한 자동 통역 성능을 제공하는 N-gram을 이용한 단어 의미 인식 장치에 관한 것이다.

음성 인식 단계에서 언어 모델이란 입력된 음성과 HMM(Hidden Markov Model)과의 비교만으로 인식 성능에 한계가 있기 때문에 이를 극복하기 위한 수단으로서, 인식되어야 할 단어 조합에 대한 문법을 제공하는 것이며 인식 네트워크를 정의해준다.

음성 인식에 주로 사용되는 언어 모델로는 구구조(phrase structure)문법에 기반한 언어 모델과 통계적 언어 모델이 있다. 일반적으로, 상기 통계적 언어 모델은 단어간의 연결관계가 확률로서 표현되며, 주어진 영역의 많은 텍스트 문장으로부터 쉽게 추출이 가능하고, 입력문장 전체를 파싱(parsing)하지 않고 문장의 발생 확률만을 계산하므로 학습된 문장과 부분적으로 다른 문장도 인식할 수 있는 장점이 있다.

본 발명은 이러한 통계적 언어 모델 중 대표적인 통계적 언어모델인 N-gram을 이용하여 단어 의미를 인식하는 장치에 관한 것이다. 상기 N-gram 언어 모델은 과거의 N-1개의 단어로부터 다음에 나타날 단어의 확률을 정의하는 문법이 되는 것으로서, 충분한 학습 데이터가 존재할 경우 매우 좋은 성능을 보이고 있다. 그러나, 인식 어휘가 점점 증가하게 되면 통계적 언어 모델은 대용량의 훈련 데이터가 필요하게 되며, 시간 복잡도 및 공간 복잡도의 영향으로 형태소나 어절의 바이그램(bi-gram) 또는 트라이그램(tri-gram)정도의 간단한 언어 모델이 통상적으로 사용되고 있다.

언어 모델용 문장 코퍼스는 인식 대상 영역 또는 문장 구조를 감안하여 수집되는데, 대규모 문장 코퍼스로부터 언어 모델이 구축되고, 궁극적으로 인식 문장 구성을 위한 어휘 조합의 기반이 된다. 이러한 문장 코퍼스에는 다중 의미를 가지는 단어가 많이 포함되는 것을 알 수 있다. 본 발명은 이러한 다중 의미를 가지는 단어에 대하여 의미를 구분하여 태깅해주는 장치에 관한 것이다.

이러한 태깅을 위한 일반적인 방법으로는 크게 통계 기반 접근 방법(statistical approch)과 규칙 기반 접근 방법(rule-based approach), 그리고 통계 기반 접근 방법과 규칙 기반 접근 방법을 통합한 통합 접근 방법(hybrid approach)으로 구분할 수 있다. 그중 본 발명에서는 통계 기반 접근 방법인 N-gram을 이용하는 방법을 이용한다.

본 발명은 다중 의미를 나타내는 단어들의 의미를 구분하여 인식하기 위해 안출된 것으로, 대규모 문장 코파스로부터 N-gram을 이용하여 단어의 의미 정보를 설정하고, 설정된 의미 정보를 기초로 단어들의 의미를 인식함으로써 자동 통역을 수행함에 있어서, 정확한 의미로 자동 통역을 제공하는 것을 목적으로 한다.

상술한 목적을 달성하기 위해 본 발명의 일 실시예는 자동 통역을 위한 단어 인식 장치에 있어서, 문장 코퍼스(Corpus)를 N-gram 단위로 분리하여 상기 N-gram단위에 대한 의미 정보의 비교를 위하여 상기 의미 정보의 확률 빈도를 정규화(Normalize)한 N-gram 특징값을 생성하고, 상기 N-gram 특징값을 기초로 상기 N-gram단위의 의미 정보에 따른 N-gram 단위의 상대적 특징값을 생성하며, 상기 N-gram 단위의 의미 정보와 상기 생성된 N-gram 단위의 상대적 특징값을 저장하는 의미 정보 데이터 관리부; 의미 정보를 인식하기 위한 문장을 입력받는 문장 입력부; 및 상기 입력받은 문장을 N-gram 단위로 분리하여, 상기 입력받은 문장의 N-gram 단위를 상기 의미 정보 데이터 관리부에 저장된 N-gram단위의 의미 정보 및 N-gram 단위의 상대적 특징값과 비교하여 상기 입력받은 문장에 포함된 단어의 의미 인식을 위한 태그를 부가하는 의미 인식부를 포함하는 단어 의미 인식 장치를 제공하는 것을 특징으로 한다.

바람직하게는, 문장 코퍼스를 분리하여, 단어와 단어에 대한 의미를 연관하여 의미 정보를 설정하는 의미 정보 구축부, 설정된 의미 정보에 따라 문장 정보를 분류하여 저장하는 데이터 저장부를 포함할 수 있을 것이다.

또한, 바람직하게는 문장 코퍼스에 저장되어 있는 의미 정보에 따라 문장 정보를 분류하여 저장한 데이터를 검사하여 중복되는 문장 정보를 제거하는 중복 데이터 제거부를 포함할 수 있다.

또한, 상기 N-gram 생성부는 Uni-gram, Bi-gram, Tri-gram단위의 N-gram 단위로만 생성하도록 구현할 수 있다.

또한, 상기 N-gram 단위의 특징값은 로그 연산을 이용하여 정규화된 것을 특징으로 구현할 수 있으며, TF(Term Frequency, 문서내에서의 단어 출현 회수)/IDF(Inversed Document Frequency, 전체 문서중 단어가 출현한 문서 개수의 역수)에 기반하여 구현할 수도 있다. 바람직하게는 로그 연산과 TF/IDF를 이용하여 정규화를 수행하여 구현할 수 있다.

또한, 상대적 특징값은 단어의 각각의 의미 정보에 대한 특징값을 기초로 연산할 수 있다. 바람직하게는, 단어의 각각의 의미 정보에 대한 특징값을 C, 단어의 각각의 의미 정보에 대한 상대적 특징값을 R이라 할 경우,

를 기초로 상대적 특징값을 계산할 수 있다.

또한, 문장 입력부는 음성 정보를 입력받아 음성 정보의 의미 인식을 위한 텍스트 문장으로 변환하는 음성 변환부를 포함할 수 있다.

또한, 의미 인식부는 입력받은 문장에 포함된 단어의 의미 인식을 위한 태그를 부가한 출력 신호를 생성하는 출력 신호 생성부를 포함할 수도 있다.

상술한 목적을 달성하기 위한 본 발명의 다른 실시예는 자동 통역을 위한 단어 인식 방법에 있어서, 문장 코퍼스(Corpus)를 N-gram 단위로 분리하여 상기 N-gram단위에 대한 의미 정보의 비교를 위하여 상기 의미 정보의 확률 빈도를 정규화(Normalize)한 N-gram 특징값을 생성하고, 상기 N-gram 특징값을 기초로 상기 N-gram단위의 의미 정보에 따른 N-gram 단위의 상대적 특징값을 생성하며, 상기 N-gram 단위의 의미 정보와 상기 생성된 N-gram 단위의 상대적 특징값을 저장하는 의미 정보 데이터 관리 단계; 의미 정보를 인식하기 위한 문장을 입력받는 문장 입력 단계; 및 상기 입력받은 문장을 상기 의미 정보 데이터 관리부에 저장된 N-gram단위의 의미 정보 및 N-gram 단위의 상대적 특징값과 비교하여 상기 입력받은 문장에 포함된 단어에 의미 태그를 부가하여 인식하는 의미 인식 단계를 포함하는 단어 의미 인식 방법을 제공하는 것을 특징으로 한다.

바람직하게는, 의미 정보 데이터 관리 단계는 의미 정보 데이터 관리부가 단어의 의미 정보별 N-gram 특징값을 생성하고, 생성된 N-gram 단위의 특징값의 총합 및 특정 N-gram 단위의 특징값을 비교하여 단어의 의미 정보별 N-gram 상대적 특징값을 생성하는 단계를 포함할 수 있다.

또한, 바람직하게는 의미 인식 단계는 문장 입력부가 입력받은 문장의 N-gram 단위와 의미 정보 데이터 관리부에서 저장된 N-gram 단위의 의미 정보 및 N-gram 단위의 상대적 특징값과 비교하여 입력받은 문장에 포함된 단어의 의미 인식을 위한 태그를 부가하는 단계를 포함할 수 있다.

또한, 상기한 기술적 과제를 달성하기 위해서 본 발명은 N-gram을 이용한 단어 의미 인식 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체로 제공할 수 있을 것이다.

본 발명에 있어서, 개시되는 발명 중 대표적인 것에 의하여 얻어지는 효과를 간단히 설명하면 다음과 같다.

본 발명은 N-gram 단위를 이용하여 단어의 의미 정보를 설정하고, 입력된 문장에 포함된 단어에 대하여 단어의 의미 정보를 구분하여 인식함으로써, 자동 통역에 있어서 정확한 통역을 제공하는 효과를 가진다.

도1은 본 발명의 일 실시예에 따른 N-gram 단위를 이용한 단어 의미 인식 장치를 도시한 블록도이다.
도2는 본 발명의 일 실시예에 따른 N-gram 단위를 이용한 단어 의미 인식 방법을 도시한 플로우 챠트이다.

이하에서는 본 발명의 일부 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 아울러 본 발명을 설명함에 있어 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

도1은 본 발명의 일 실시예에 따른 N-gram을 이용한 단어 의미 인식 장치를 도시한 것으로, 의미 정보 데이터 관리부(100), 문장 입력부(200), 의미 인식부(300)를 포함할 수 있다.

의미 정보 데이터 관리부(100)는 문장 코퍼스(Corpus)를 N-gram 단위로 분리하여 상기 N-gram단위에 대한 의미 정보에 따라 N-gram 특징값을 생성하고, 상기 N-gram 특징값을 비교하여 N-gram단위의 상대적 특징값을 생성하며, 상기 N-gram 단위의 의미 정보와 상기 생성된 N-gram 단위의 상대적 특징값을 저장한다.

문장 코퍼스란 언어 연구의 대상이 되는 텍스트들의 집합으로 우리 말로는 '말뭉치', '말모둠'등의 용어가 사용되고 있으며, 광범위한 의미로 사용되는 코퍼스란, 어떤 종류와 형식의 것이든지 글 또는 말 텍스트를 모아놓은 것을 말하며, 좁은 의미에서 코퍼스란 일정 기준을 가지고 선택된 컴퓨터에 저장하고 컴퓨터에서 처리할 수 있는 형태의 전자화된 텍스트로 구성된 것을 말한다.

일반적으로 형태소를 이용하는 경우에는 형태소 파악이 용이하지 아니한 중국어, 일본어, 한국어와 같은 언어에 대하여 사람에 의한 형태소 파악의 단계를 거치거나, 형태소 분석기등을 이용하여 데이터를 선처리가 필요하다는 문제점이 있었다. 이에 반해, N-gram을 이용하는 경우에는 사람에 의하여 일일이 형태소를 설정해 줄 필요가 없으며, 코퍼스만 충분히 존재한다면 쉽게 구현할 수 있는 특징이 있다. 특히, 형태소 분석이 곤란한 외국 언어의 번역에 있어서, 형태소를 이용한 단어 인식보다 N-gram을 이용한 단어 인식이 효과적이다.

의미 정보 데이터 관리부(100)는 의미 정보 구축부(110), 데이터 저장부(120), 중복 데이터 제거부(130), N-gram 정보 생성부(140), N-gram 분석부(150)를 포함할 수 있다.

의미 정보 구축부(110)는 문장 코퍼스를 읽어들여 단어와 단어에 대한 의미를 연관하여 의미 정보를 설정한다. 본 발명에서 단어는 중의어를 포함하며, 단어에 대한 의미는 해당 중의어가 가지는 복수의 의미를 포함한다. 의미 정보란 단어와 단어의 의미를 연관시키는 것을 말하며, 단어가 중의어, 다수의 의미를 포함하는 경우에는 단어와 단어가 가지는 의미를 구분가능한 형식으로 저장해놓은 것을 의미한다. 본 발명의 일 구현예로, 단어는 N-gram 단위별로 구분하여 그에 대한 의미 정보를 설정하도록 구현할 수도 있다.

본 발명에서 의미 정보 설정은 중의어에 대하여 사용자가 필요하다고 생각되는 경우에 해당 중의어가 몇 개의 의미를 가지는 지 여부와 각각의 의미에 대하여 미리 설정될 수 있도록 구현할 수 있다.

데이터 저장부(120)는 의미 정보 구축부(110)에서 설정된 의미 정보 및 이를 기초로 단어를 포함하는 문장 정보를 분류하여 저장한다. 본 발명의 일 구현 예로서, 문장 정보는 설정된 의미 정보에 따라 관련 단어가 포함된 문장 정보를 입력받거나, 별도의 데이터를 이용하여 문장 정보의 데이터 베이스를 구축할 수 있다. 별도의 데이터는 사용자가 설정한 데이터 베이스일 수 있다.

입력받은 문장 정보를 분석하여 단어의 각 의미 정보에 맞는 문장들을 의미별로 분류하고, 분류된 문장 정보를 그룹화하여 저장한다.

중복 데이터 제거부(130)는 데이터 저장부(120)의 데이터를 검사하여, 중복되는 문장 정보를 제거한다. 중복되는 문장 정보를 제거함으로써, 중복되어 있는 문장들과 그렇지 않은 문장이 혼재하는 경우에 N-gram단위의 빈도 산출에 영향을 줄 수 있는 가능성을 제거하는 효과를 가진다.

N-gram 정보 생성부(140)는 중복 데이터 제거부(130)에 중복 문장 정보가 제거되어 데이터 저장부(120)에 저장된 문장 정보를 읽어들여 N-gram단위로 분리한 후, N-gram 단위의 정보를 생성한다. 본 발명의 일 구현예에 따라, N-gram 단위의 정보가 생성되어 데이터 저장부(120)에 저장될 수 있다.

N-gram 단위란 문장을 구성하는 어절 묶음의 다양한 조합을 말한다. 예를 들어, 4개의 어절로 구성된 문장(어절1, 어절2, 어절3 및 어절4)의 경우 모두 10개의 n-gram단위를 갖는다. 즉, 4개의 단일 어절(Uni-gram)로서 어절1, 어절2, 어절3, 어절4, 3개의 두 어절 묶음(Bi-gram)로서 (어절1, 어절2), (어절2, 어절3), (어절3, 어절4), 2개의 세 어절 묶음(Tri-gram)로서 (어절1, 어절2, 어절3), (어절2, 어절3, 어절4), 1개의 네 어절 묶음(Four-Gram)로서 (어절1, 어절2, 어절3, 어절4)을 가지게 된다.

다만, 본 발명의 일 실시 예에 따라, Uni-Gram, 혹은 Uni-Gram 과 Bi-gram처럼 N-gram 단위를 설정하여 N-gram 정보를 생성하는 것도 가능하다.

N-gram 분석부(150)는 N-gram 정보를 상호 비교하기 위하여 N-gram 단위의 특징값 및 N-gram 단위의 특징값을 이용하여 단어의 의미를 구분하기 위해 사용되는 N-gram 단위의 상대적 특징값을 생성할 수 있다. 본 발명의 일 구현예에 따라, N-gram 단위의 상대적 특징값은 생성되어 데이터 저장부(120)에 저장될 수 있다.

N-gram 분석부(150)는 N-gram 단위 특징값 계산부, N-gram 단위 상대적 특징값 계산부를 포함할 수 있다.

N-gram 단위 특징값 계산부는 문장 정보를 읽어들여 N-gram 단위로 생성된 N-gram 정보 중 동일한 N-gram 단위들을 집계하여, N-gram 단위별 빈도를 산출한다. 산출된 N-gram 단위별 빈도를 로그 연산 및 정규화(Normalize)를 취하여 의미 정보별 N-gram단위의 특징값을 설정한다.

예를 들어, N-gram단위의 경우 "올림"과 같은 바이그램(bi-gram)의 경우 수학의"올림"보다 "올림픽"의 "올림"의 출현 빈도나 인지도가 앞서므로 확률 빈도의 비교를 위하여 정규화가 필요하다.

본 발명의 구현 예에 따라, 로그 연산은 상용 로그를 이용할 수 있으며, 사용자에 의하여 설정된 로그 값을 이용할 수 있다. 예를 들어, 상용 로그를 이용할 경우 "차_tea"라는 의미 정보로 그룹화된 문장 정보가 100개이고, "차_car"라는 의미 정보로 그룹화된 문장 정보가 10000개라면, 상용로그를 취함으로써, "차_tea"의 로그값은 2, "차_car"의 로그값은 4를 가질 수 있다.

정규화는 의미 정보별로 분류된 문장 정보의 규모가 서로 다른 경우, 의미 정보의 비교가 어려워지는바 의미 정보의 비교를 위하여 수행해주는 과정을 말하며, 본 발명의 다른 구현예로 N-gram 단위별 빈도를 분모로 하는 역수를 취하여 예를 들어, TF(Term Frequency, 문서내에서의 단어 출현 회수)/IDF(Inversed Document Frequency, 전체 문서중 단어가 출현한 문서 개수의 역수)에 기반하여 정규화를 수행할 수 있다. 다만, 이러한 실시예나 구현 예에 한정해서 판단해서는 아니될 것이다.

N-gram 단위 상대적 특징값 계산부는 단어의 의미 정보와 단어의 의미 정보에 따른 N-gram 단위의 특징값을 이용하여 상대적 특징값으로 변환한다.

본 발명의 일 구현 예로 상대적 특징값으로 변환하여 구현하는 방법을 설명하면 특징값을 C, 상대적 특징값을 R이라 할 경우,

상대적 특징값은 특징값을 기초로 수학식1과 같이 계산될 수 있다. 즉, 예를 들어, "차"라는 단어의 경우 의미 정보가 "차_tea" 및 "차_car"로 설정된 경우, "차_tea"의 특징값이 2이며, "차_car"의 특징값이 4인 경우, "차_car"의 상대적 특징값은 0.66이 된다.

문장 입력부(200)는 의미 정보를 인식하기 위한 문장을 입력받는다. 본 발명의 일 실시예로 사용자가 단어를 발성하는 경우 음성 인식기에서 인식 단위별로 음성 특징을 추출하여 문장을 입력받을 수 있다. 본 발명의 일 구현예로 음성 정보를 입력받아 음성 정보의 의미 인식을 위한 텍스트 문장으로 변환하는 음성 변환부를 포함할 수 있다.

의미 인식부(300)는 문장 입력부(200)에서 입력받은 문장과 의미 정보 데이터 관리부에서 생성된 N-gram단위의 의미 정보 및 N-gram 단위의 상대적 특징값을 기초로 입력받은 문장에 포함된 단어에 의미 태그를 부가한다.

의미 정보 데이터 관리부(100)를 통하여 생성된 N-gram 단위의 상대적 특징값을 기초로 상기 입력받은 문장에 포함된 단어에 의미 태그를 부가한다. 입력받은 문장을 대상으로 문장을 구성하는 단어를 확인하여 의미 정보 데이터 관리부(100)에 의미 정보가 포함되어 있는지 확인한다.

의미 정보를 가지는 단어가 포함되어 있으면, 입력받은 문장을 N-gram 단위로 분리하여, 분리된 모든 N-gram 단위들에 대해서 의미 정보 데이터 관리부(100)에서 생성된 의미 정보별 N-gram 단위들과 비교하여 일치하는 N-gram 단위가 있는지 여부를 확인한다. 일치하는 N-gram단위가 있는 경우 해당하는 N-gram 단위의 상대적 특징값들을 누적한다.

본 발명의 일 실시예로, 음성 인식기를 통하여 문장이 인식되고, 인식된 문장이 의미 정보가 설정된 단어를 포함하는 경우, 인식된 문장을 N-gram단위로 분리하여 N-grma 정보 생성부에서 생성된 N-gram 정보와 동일한지 여부를 검사한다. 의미 정보_1 내에 동일한 N-gram 단위가 있는 경우 해당 의미 정보에 해당하는 상대적 특징값을 누적하고, 의미 정보_2 내에 동일한 N-gram 단위가 있는 경우 해당 의미 정보에 해당하는 상대적 특징값을 누적하고, 상기 과정을 반복함으로써, 의미 정보_n 내에 동일한 N-gram 단위가 있는 경우 해당 의미 정보에 해당하는 상대적 특징값을 누적한다.

상기 상대적 특징값을 누적하는 과정을 종료하면 의미 정보별로 누적된 상대적 특징값을 비교하여 가장 큰 상대적 특징값을 갖는 의미를 인식하고 인식된 문장에 포함된 단어에 태그를 부가한다.

의미 인식부(300)는 태그가 부가된 단어를 출력 신호로 생성하는 출력 신호 생성부를 더 포함할 수 있다.

도2는 본 발명의 일 실시예에 따른 N-gram을 이용한 단어 의미 인식 방법을 도시한 플로우 챠트이다.

의미 정보 데이터 생성 단계는 문장 코퍼스(Corpus)를 N-gram 단위로 분리하여 상기 N-gram단위에 대한 의미 정보에 따라 N-gram 특징값을 생성하고, 상기 N-gram 특징값을 비교하여 N-gram단위의 상대적 특징값을 생성하며, 상기 N-gram 단위의 의미 정보와 상기 생성된 N-gram 단위의 상대적 특징값을 저장한다.

상기 입력받은 문장과 상기 N-gram단위의 의미 정보 및 상기 N-gram 단위의 상대적 특징값을 기초로 상기 입력받은 문장에 포함된 단어에 의미 태그를 부가하는 의미 인식부를 포함하는 단어 의미 인식 장치를 제공하는 것을 특징으로 한다.

의미 정보 구축 단계(S110)에서 의미 정보 구축부(110)는 단어와 단어에 대한 의미를 연관하여 의미 정보를 설정한다.

데이터 저장 단계(S120)에서 데이터 저장부(120)는 의미 정보 및 의미 정보에 따라 문장 정보를 분류하여 저장한다.

중복 데이터 제거 단계(S130)는 중복 데이터 제거부(130)는 데이터 저장부(120)의 데이터를 검사하여 중복되는 문장 정보를 제거한다.

N-gram 정보 생성 단계(S140)는 N-gram 정보 생성부(140)가 문장 정보를 N-gram단위로 분리하여 N-gram 정보를 생성한다.

N-gram 분석 단계(S150)는 N-gram분석부(150)가 N-gram 정보를 상호 비교하기 위한 N-gram 단위의 특징값을 생성하고(S151), 생성된 N-gram 단위의 특징값을 이용하여 단어의 의미를 구분하기 위해 사용되는 N-gram 단위의 상대적 특징값을 생성한다.(S153)

문장 입력 단계(S200)는 문장 입력부(200)가 의미 정보를 인식하기 위한 문장을 입력받는다.

의미 인식 단계(S300)는 의미 인식부(300)가 입력받은 문장과 N-gram단위의 의미 정보 및 N-gram 단위의 상대적 특징값을 기초로 입력받은 문장에 포함된 단어에 의미 태그를 부가한다.

본 발명의 일 실시예에 따라 N-gram정보와 동일한지 여부를 체크하고(S310), 동일한 N-gram 단위가 존재하는 경우 N-gram 상대적 특징값을 누적한다(S330). 상기 과정을 거쳐 N-gram 상대적 특징값을 비교하여(S350) 가장 큰 상대적 특징값을 갖는 의미를 인식하고 인식된 문장에 포함된 단어에 태그를 부가한다(S370).

본 발명에 의한 N-gram을 이용한 단어 의미 인식 방법은 컴퓨터 프로그램으로 작성 가능하다. 이 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 해당 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 정보저장매체(Computer Readable Media)에 저장되고, 컴퓨터에 의하여 읽혀지고 실행됨으로써 N-gram을 이용한 단어 의미 인식 방법을 구현한다. 정보저장매체는 자기 기록매체, 광 기록매체 및 캐리어 웨이브 매체를 포함한다.

이제까지 본 발명에 대하여 바람직한 실시예를 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명을 구현할 수 있음을 이해할 것이다. 그러므로, 상기 개시된 실시예 들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 한다.

100: 의미 정보 데이터 관리부 110: 의미 정보 구축부
120: 데이터 저장부 130: 중복 데이터 제거부
140: N-gram 정보 생성부 150: N-gram 분석부
200: 문장 입력부 300: 의미 인식부
S110: 의미 정보 구축 단계 S120: 데이터 저장 단계
S130: 중복 데이터 제거 단계 S140: N-gram 정보 생성 단계
S150: N-gram 분석 단계 S200: 문장 입력 단계
S300: 의미 인식 단계

Claims

자동 통역을 위한 단어 인식 장치에 있어서,
문장 코퍼스(Corpus)를 N-gram 단위로 분리하고, 상기 분리된 N-gram단위의 의미 정보의 비교를 위하여 상기 의미 정보의 확률 빈도를 정규화(Normalize)한 N-gram 특징값을 생성하며, 상기 N-gram 특징값을 기초로 상기 N-gram단위의 의미 정보에 따른 N-gram 단위의 상대적 특징값을 생성하여, 상기 N-gram 단위의 의미 정보 및 상기 생성된 N-gram 단위의 상대적 특징값을 저장하는 의미 정보 데이터 관리부;
의미 정보를 인식하기 위한 문장을 입력받는 문장 입력부; 및
상기 입력받은 문장을 N-gram 단위로 분리하여, 상기 입력받은 문장의 N-gram 단위를 상기 의미 정보 데이터 관리부에 저장된 N-gram단위의 의미 정보 및 N-gram 단위의 상대적 특징값과 비교하여 상기 입력받은 문장에 포함된 단어의 의미 인식을 위한 태그를 부가하는 의미 인식부를 포함하고,
상기 의미 정보 데이터 관리부는
상기 문장 코퍼스를 분리하여, 상기 문장 코퍼스에 포함된 개별 단어에 대한 의미를 연관하여 의미 정보를 설정하는 의미 정보 구축부; 및
상기 설정된 의미 정보에 따라 문장 정보를 분류하여 저장하는 데이터 저장부를 포함하는 것을 특징으로 하는 단어 의미 인식 장치.
삭제
제1 항에 있어서, 상기 의미 정보 데이터 관리부는
상기 문장 코퍼스에 저장되어 있는 의미 정보에 따라 문장 정보를 분류하여 저장된 데이터를 검사하여 중복되는 문장 정보를 제거하는 중복 데이터 제거부를 더 포함하는 것을 특징으로 하는 단어 의미 인식 장치.
제3 항에 있어서, 상기 의미 정보 데이터 관리부는
상기 중복 데이터 제거부에 의하여 중복 문장 정보가 제거되어 상기 데이터 저장부에 저장된 문장 정보를 읽어들이고, 상기 읽어들인 문장 정보를 N-gram단위로 분리하여 N-gram 단위의 정보를 생성하는 N-gram 정보 생성부; 및
상기 생성된 N-gram 단위의 정보를 상호 비교하기 위하여 N-gram 단위의 특징값 및 상기 N-gram 단위의 특징값을 이용하여 단어의 의미를 구분하기 위해 사용되는 N-gram 단위의 상대적 특징값을 생성하는 N-gram 분석부를 포함하는 것을 특징으로 하는 단어 의미 인식 장치.
제4 항에 있어서, 상기 N-gram 정보 생성부는
Uni-gram, Bi-gram 또는 Tri-gram단위의 N-gram 단위로 정보를 생성하는 것을 특징으로 하는 단어 의미 인식 장치.
제4 항에 있어서, 상기 N-gram 분석부는
상기 문장 정보를 읽어들여 N-gram 단위로 생성된 N-gram 정보 중 동일한 N-gram 단위들을 집계하여, N-gram 단위별 빈도를 산출하는 N-gram 단위 특징값 계산부; 및
단어의 의미 정보와 상기 단어의 의미 정보에 따른 N-gram 단위의 특징값을 이용하여 상대적 특징값을 산출하는 N-gram 단위 상대적 특징값 계산부를 포함하는 것을 특징으로 하는 단어 의미 인식 장치.
제6 항에 있어서, 상기 N-gram 단위 특징값 계산부는
로그 연산 또는 TF(Term Frequency)/IDF(Inversed Document Frequency)를 이용한 정규화를 이용하는 것을 특징으로 하는 단어 의미 인식 장치.
제6 항에 있어서, 상기 N-gram 단위 상대적 특징값 계산부는
개별 단어의 특징값들의 합에 대한 개별 단어의 특징값의 비율에 기초하여 N-gram 단위 상대적 특징값을 계산하는 것을 특징으로 하는 단어 의미 인식 장치.
제1 항에 있어서, 상기 문장 입력부는
음성 정보를 입력받아 상기 입력받은 음성 정보를 텍스트 문장으로 변환하는 음성 변환부를 포함하는 것을 특징으로 하는 단어 의미 인식 장치.
제1 항에 있어서, 상기 의미 인식부는
상기 태그가 부착된 문장을 기초로 출력 신호를 생성하는 출력 신호 생성부를 포함하는 것을 특징으로 하는 단어 의미 인식 장치.