KR100858035B1

KR100858035B1 - 형태소 분석용 다차원 해석 사전 구축 방법 및 그 다차원해석 사전 구축 장치

Info

Publication number: KR100858035B1
Application number: KR1020070024439A
Authority: KR
Inventors: 서승현; 강인호; 김재동
Original assignee: 서승현; 강인호; 김재동
Priority date: 2007-03-13
Filing date: 2007-03-13
Publication date: 2008-09-10

Abstract

형태소 분석 시스템에 사용되는 다차원 해석 사전 구축 장치가 제공된다. 상기 구축 장치는 온톨로지 데이터베이스와, 다차원 해석 사전 데이터베이스와 임포터를 포함한다. 상기 다차원 해석 사전 데이터베이스는 어휘 사전 데이터베이스와, 품사 사전 데이터베이스 및 문법 사전 데이터베이스를 포함한다. 상기 임포터는 상기 온톨로지 데이터베이스에 저장되어 있는 태스크 온톨로지로 작성된 표현들과 그것들의 의미 정보 및 의미 정보간의 관계를 추출하여 다차원 해석 사전 데이터베이스에 반영한다. 상기 품사 사전 데이터베이스의 각각의 품사는 어류 태그 정보, 형태적 정보, 통사적 정보, 의미적 정보 및 화용 정보의 5차원의 벡터 정보가 부가되어 정의되어 있다. 상기 어휘 사전 데이터베이스에는 각각의 기본 형태소에 상기 5차원의 벡터 정보가 부가되어 정의됨과 아울러, 여러 형태소로 이루어지는 단어들이 하나의 의미를 갖는 것으로 규정되어 태스크 온톨로지에 정의된 정보의 단위와 일치되어 등록되어 있다. 상기 문법 사전 데이터베이스에는 특수 문법 연산자를 이용하여 상기 품사 사전 데이터베이스에 정의된 각각의 품사가 연결가능한지 여부를 규정하는 문법이 구축되어 있다.

Description

형태소 분석용 다차원 해석 사전 구축 방법 및 그 다차원 해석 사전 구축 장치{METHOD FOR STRUCTURING MULTI-DIMENSIONAL ANALYSIS DICTIONARY FOR ANALYZING MORPHEME AND APPARATUS OF STRUCTURING THE ANALYSIS DICTIONARY}

도 1은 본 발명에 따른 형태소 분석용 다차원 해석 사전 구축 장치의 구성을 모식적으로 보여주는 도면이다.

도 2는 본 발명의 한 가지 실시예에 따른 형태소 분석용 다차원 해석 사전 구축 과정을 보여주는 흐름도이다.

본 발명은 한국어 형태소 분석 시스템에서 사용되는 다차원 해석 사전의 구축 방법 및 그 다차원 해석 사전 구축 장치에 관한 것으로서, 보다 구체적으로는 형태소 해석 시스템 또는 태스크 온톨로지의 변경시 매핑 모델을 새로이 정의할 필요 없이 형태소 분석을 가능케 하는 다차원 해석 사전의 구축 방법 및 그 다차원 해석 사전 구축 장치에 관한 것이다.

형태소 분석이라 함은, 주어진 입력 문자열을 대상으로 형태소 단위로 분리 해내고, 각각의 형태소의 원형을 복원하고 품사를 결정해주는 과정을 의미한다. 형태소 분석을 위해서 사용하는 해석 사전은 일반적으로 형태소 목록을 가지고 있는 어휘 사전 그리고 품사 간의 연결 가능 여부를 표현하는 문법 사전으로 구성된다. 이러한 해석 사전을 기반으로 입력 문자열에서 발생 가능한 모든 형태소 열에 대해서 문법 사전에 기술된 연결 정보에 부합하는 형태소 열을 찾아낸다. 이러한 형태소 분석은 기계 번역, 정보 검색, 정보 추출 등의 자연언어처리 기술의 기반 기술로써 최소한의 의미를 가지는 형태소를 쉽게 파악할 수 있게 해준다.

한편, 태스크 온톨로지(task ontology)란 특정 작업에 필요한 의미적 정보의 분류와 정보간의 관계를 계층적으로 정의한 지식 구조체이다. 이러한 태스크 온톨로지를 활용하기 위해서는 주어진 문서나 사용자의 입력에서 온톨로지에 해당하는 정보의 파악 과정이 필요하다. 정보 주석 장치(information annotator)는 정보 분석의 기본 과정인 형태소 해석 및 태스크 온톨로지에 정의된 의미 정보를 파악하고 부착하는 장치이다.

문서를 분석하고 의미 정보를 부착하기 위해서, 기존의 장치들은 형태소 해석을 수행하여 기본 단위로 분석한 뒤, 별도로 구축한 태스크 온톨로지 매핑 모델을 이용하거나 연속된 형태소에 대해서 의미 정보를 부착하는 방식을 이용하고 있다. 그러나, 이러한 방식은 태스크 온톨로지에 정의된 정보의 단위와 형태소 해석에서 정의한 단위의 불일치 문제, 태스크 온톨로지에 기술되어 있는 정보간의 관계 정보를 형태소 해석시 활용하지 못하는 문제점이 있다.

또한, 형태소 해석 시스템의 변경이나 태스크 온톨로지의 변경이 있을 때 매핑 모델을 새로이 재정의해 주어야 하는 문제점이 발생한다. 예컨대, '007 카지노 로얄'과 같은 복수 어절로 표현되는 영화명의 경우, 기존의 방식에 따르면 3개의 연속된 형태소를 태스크 온톨로지에서 찾은 후 의미 정보를 부착하여야만 한다. 또한, 기존의 방식에 따르면, 영화명의 주위에 나타나는 정보를 형태소 해석 과정에서 사용하지 못하는 문제점이 있다.

본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 형태소 해석 정보와 임의의 태스크 온톨로지의 정보를 함께 표현할 수 있는 형태소 분석용 다차원 해석 사전의 구축 방법 및 그 구축 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명은 이미 존재하고 있는 형태소들간의 연결 정보 및 태스크 온톨로지에서의 정보간의 관계 정보를 정확하게 표현할 수 있는 형태소 분석용 다차원 해석 사전의 구축 방법 및 그 구축 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명은 여러 개의 형태소를 하나의 단위로 파악할 수 있도록 해주는 형태소 분석용 다차원 해석 사전의 구축 방법 및 그 구축 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명은 문서를 분석하고 의미 정보를 부착하는 것을 더 빠르고 정확하게 수행할 수 있도록 해주는 형태소 분석용 다차원 해석 사전의 구축 방법 및 구축 장치를 제공하는 것을 목적으로 한다.

상기한 목적을 달성하기 위해서, 본 발명에 따라 신규의 다차원 해석 사전 구축 방법 및 그 구축 장치가 제공된다.　 본 발명의 한 가지 실시예에 따른 다차원 해석 사전 구축 장치는 온톨로지 데이터베이스와, 품사 사전, 어휘 사전, 문법 사전, 사용자 사전 그리고 태스크 온톨로지로부터 정보의 단위와 분류를 추출하는 임포터(importer)를 포함한다.

본 발명의 한 가지 양태에 따라서, 형태소 분석 시스템에 이용되는 다차원 해석 사전을 구축하는 방법이 제공된다. 상기 방법은, 온톨로지 DB(데이터베이스)로부터 태스크 온톨로지로 작성된 데이터 엔트리들을 추출하고, 상기 데이터 엔트리들의 의미 정보를 추출하며, 상기 데이터 엔트리들의 의미 정보 사이의 관계를 추출하는 단계와, 상기 추출된 각각의 정보에 n차원의 벡터 정보를 부가하여 품사 사전 데이터베이스를 구축하는 단계와, 상기 추출된 각각의 정보에 n차원의 벡터 정보를 부가함과 아울러 여러 형태소로 이루어지는 단어들을 하나의 의미를 갖는 것으로 규정하여 어휘 사전 데이터베이스를 구축하는 단계와, 특수 문법 연산자를 이용하여 상기 품사 사전 데이터베이스에 정의된 각각의 정보가 상호 연결가능한지 여부를 규정하는 문법 사전 데이터베이스를 구축하는 단계를 포함할 수 있다.

또한, 본 발명의 다른 양태에 따라서, 형태소 분석 시스템에 사용되는 다차원 해석 사전 구축 장치가 제공된다. 상기 구축 장치는 온톨로지 데이터베이스와, 다차원 해석 사전 데이터베이스와 임포터를 포함한다. 상기 다차원 해석 사전 데이터베이스는 어휘 사전 데이터베이스와, 품사 사전 데이터베이스 및 문법 사전 데이터베이스를 포함한다. 상기 임포터는 상기 온톨로지 데이터베이스에 저장되어 있는 태스크 온톨로지로 작성된 표현들을 추출하고, 상기 표현들의 의미 정보를 추출하며, 상기 표현들의 의미 정보 사이의 관계를 추출하여 다차원 해석 사전 데이터베이스에 반영한다. 상기 품사 사전 데이터베이스의 각각의 품사는 어류 태그 정보, 형태적 정보, 통사적 정보, 의미적 정보 및 화용 정보의 5차원의 벡터 정보가 부가되어 정의되어 있다. 상기 어휘 사전 데이터베이스에는 각각의 기본 형태소에 상기 5차원의 벡터 정보가 부가되어 정의됨과 아울러, 여러 형태소로 이루어지는 단어들이 하나의 의미를 갖는 것으로 규정되어 태스크 온톨로지에 정의된 정보의 단위와 일치되어 등록되어 있다. 상기 문법 사전 데이터베이스에는 특수 문법 연산자를 이용하여 상기 품사 사전 데이터베이스에 정의된 각각의 품사가 연결가능한지 여부를 규정하는 문법이 구축되어 있다.

이하에선, 첨부 도면을 참조하여 본 발명의 구성을 보다 구체적으로 설명한다. 이하의 설명은 본 발명의 이해를 돕기 위하여 주어지는 한 가지 예에 불과하며, 본 발명이 그 예에 제한되지 않는다는 점에 유의하여야 한다.

도 1은 본 발명의 일 실시예에 따른 한국어 형태소 해석용 다차원 해석 사전 구축 장치를 모식적으로 보여주는 도면이다. 본 발명에서 사용하는 형태소 분석용 다차원 해석 사전은 형태소와 그 형태소가 가질 수 있는 품사를 가진 어휘 사전, 시스템에서 사용하는 품사의 정보를 가지는 품사 사전, 그리고 품사 간의 연결 가능 여부를 표현하는 문법 사전, 그리고 특정 영역의 사용자 표현이나 예외적인 형태를 수용하는 사용자 사전을 포함한다.

본 발명에 따른 다차원 해석 사전은 이전의 형태소 해석이 가지는 기능들에 임의의 온톨로지에 적응하기 위해 5차원의 벡터로 품사 정보를 표현하도록 되어 있다. 이전의 형태소 분석기에서는 단순히 두 품사들간의 연결 관계를 나열하는 형식의 연결 정보 방식을 이용하고 있지만, 본 발명에 따른 형태소 분석에서는 5차원의 값을 가지는 형태소들이 온톨로지 상에서 결합하는 관계와 형태소 해석에서 형태소들이 연결되는 관계를 표현하기 위해서 특수 문법 연산자를 이용하여 결합 문법을 최적화한다. 이처럼 본 발명에 따른 해석 사전은 기존의 해석 사전과는 달리 5차원의 벡터 정보를 부가하여 품사 정보 등을 기술하고 있으며, 따라서 다차원 해석 사전이라 명명하기로 한다.

1. 다차원 해석 사전(300)의 구성

(1) 품사 사전(320)

본 발명에 따른 다차원 해석 사전의 품사 사전(320)은 기본 형태소나 태스크 온톨로지에 정의된 표현에 대해서 어류 태그(word class tag) 정보, 형태 적(morphological) 정보, 통사적(syntactical) 정보, 의미적(semantic) 정보 및 화용(pragmatic) 정보의 5가지 정보, 즉 5차원의 벡터로 정의되어 구성된다.　 특히, 이중 본 발명에 따라 새롭게 제안되는 '어류 태그(word class tag)'라고 하는 용어는 일반 언어학에서 정의내린 품사(part of speech)와는 다른 의미를 갖고 있다. 즉, 본 발명에서 '어류 태그'라는 것은 언어학적인 시각에서는 분류되지 못하는 단어 부류들이지만, 이하에서 더욱 상세히 설명하는 바와 같이, 전산상에서 형태소 분석 및 온톨로지와의 접근을 용이하기 위해 필요한 단어 부류 및 그 속성들을 정의해 놓은 것이다. 이에 본 발명에서는 본 형태소 분석기의 단어들의 분류를 일반 언어학의 품사와 구별하기 위해서 '어류 태그'라는 용어를 사용한다. 따라서 본 형태소 분석기의 어류 태그는　 필요에 의해서 새로운 단어들의 부류를 자유롭게 확장하거나 축소하기 위해서 이용될 수 있다.

또한, 형태적 정보에는 형태음운적 정보(예를 들어, 마지막 음절의 종성 유무 {fc})도 함께 처리하였다. 이전의 방식들은 품사에 구문 및 의미 정보를 결합하여 1차원적으로 확장하였으나, 본 발명에 따르면, 품사에 해당하는 어류 태그를 최소한으로 유지하고 통사적인 정보와 의미 정보를 형태와 화용 정보처럼 5차원 벡터에서 별도의 차원으로 정의한다.　 이는 총체적으로 품사(어류태그), 구문, 의미, 화용 정보들을 능률적으로 확장할 수 있는 이점을 제공한다.　

이를 구체적인 예를 들어 설명하면 다음과 같다.

<명사>

뉴딜 {ncn}{fc}{}{eco}{}

히스라불로토프 {nq_per}{fc}{}{pol}{}

객 {nc_one}{fc}{}{}{noidx}

<동사 pv>

　　무서워하 {pv}{ir_yeo}{tran}{}{}

열리 {pv}{rg}{intra}{}{}

상기한 바와 같이, 본 발명에 따르면 다차원 해석 사전에 형태소 해석을 위해 5차원의 벡터를 부여한다.　 즉, 위의 명사를 표현하는 예에 있어서, '뉴딜'과 '히스라불로토프', '객'이라고 하는 명사를 표현하기 위한 5가지 정보가 표현되어 있는데, 좌측부터 각각 어류 태그 정보, 형태적 정보, 통사적 정보, 의미적 정보 및 화용 정보를 나타낸다.　 이처럼, 단순히 기본 형태소 목록 또는 품사 간의 연결 가능 여부를 규정하고 있는 종래의 해석 사전과는 달리, 본 발명에 따르면, 소정의 형태소와 관련하여, 그 형태소를 어류 태그, 형태적, 통사적, 의미적 그리고 화용의 5가지의 정보 벡터로 구분하여 다차원 해석 사전의 데이터베이스를 구축한다. 이와 같이 함으로써, 형태소 정보가 태스크 온톨로지에 나타나는 의미 정보도 포함할 수 있어, 태스크 온톨로지의 변경이 있더라도 매핑 모델을 새로 재정의하는 등의 작업을 수행할 필요가 없게 된다.

좀 더 구체적으로 설명하면, 위의 기술 내용 중, <명사> 중에 '뉴딜'과 '히스라불로토프', '객'의 어류 태그는 각각 {ncn}와 {nq_per} 및 {nc_one}이며, {ncn}은 일반명사를, {nq_per}는 사람 고유명사를 {nc_one}은 한글자 명사임을 표시한다. 여기서, {fc}는 final consonant의 약자로 명사의 종성이 다음의 형태소와 결합에 영향을 미치는 어류태그들에 대해서만 이 정보를 이용한다. 본 발명에 따르면, 형태소의 마지막 음절에 따라서 'y'(유종성), 'n'(무종성), 'l'(ㄹ 종성), 'c'(don't care) 등의 값으로 시스템이 자동으로 구체화한다. {eco}와 {pol}는 의미적 정보로서 {eco}는 '뉴딜'이 '경제'와 관련된 것이며, '히스라불로토프'는 사람 고유명사 중에 '정치'와 관련된 사람임을 정의해 놓은 것이다. 특히, 한글자 명사인 '객'의 경우, 화용적 정보에 {noidx}가 있는데, 이 정보는 실제 데이터에서 많이 쓰이느냐 혹은 색인어(index word)로 가치가 있느냐 하는 정보에 대한 것이다. '객'의 경우, 복합 명사 분해시 '객'을 따로 분석해 내게 되면 오분석이 많으며, 실제 '객'으로 형태소 분석되어 쓰이는 일이 많지 않으므로, 이러한 한글자 명사들에 {noidx} 정보를 준다. 반면에, 한글자 명사인 '핵'과 같은 경우는 화용적 정보에 {idx}를 주어서 형태소 분석시 이 정보를 활용한다.

즉, 본 발명에 따르면, 사전을 구축함에 있어서, 단순히 형태소로 이루어진 목록만을 구축하는 것이 아니라, 각각의 형태소를 5개의 정보 벡터로 나누어 정의하고 각각의 정보 벡터에 그 형태소와 관련된 어류 태그 정보, 의미적 정보 등을 부여함으로써, 추후 형태소 해석시 이러한 부가적인 벡터 정보를 활용하여 정확한 형태소 분석을 수행할 수가 있게 된다.

<동사>의 경우, '무서워하'와 '열리'는 어류태그가 {pv}이며 이는 일반적인 동사를 나타내며, {rg}와 {ir_yeo}는 형태적 정보로 {rg}는 규칙동사를, {ir_yeo}는 여불규칙 동사라는 정보를 기술한 것이다. 한편, {tra}와 {intra}는 용언의 통사적 정보로서, 각각 타동사 및 자동라는 통사적 정보를 기술하는 것이다. 이와 같이 각 어류 태그 및 각각의 형태, 통사, 의미, 화용 정보는 각 단어들 부류를 나눌 때의 기준과 속성에 따라 자의적으로 정의할 수 있다.

다시 말하면, 어류 태그, 의미적 정보 등에 사용되는 각각의 약칭(예컨대, ncn, eco, pol, rg 등)은 사용자가 자신의 편의에 맞게 임의로 정하여 사용할 수 있는 것으로서, 본 발명은 이러한 개개의 약칭의 종류/형태에 제한되지 않는다는 점에 유의하여야 한다.

(2) 어휘 사전(Lexion)(340)

어휘 사전은 형태소와 그 형태소가 가질 수 있는 품사열의 리스트로 구성된다. 형태소는 일반적으로 의미를 가지는 최소한의 단위이다. 그러나 사용 영역에 따라서 의미를 가지는 최소한의 단위의 변화가 필요하다. 예컨대, 영화 정보를 검색할 수 있는 서비스에서는 영화명이 비록 여러 단어로 구성되어 있더라도 하나의 의미를 가지는 최소한의 단위로 파악되어야 정확한 검색 결과를 얻을 수 있다. 그러나, 종래의 형태소 분석에 따르면, 하나의 의미로 파악하는 것이 아니라 최소한의 단위에 대하여 형태소 분석을 수행하기 때문에, 사용자가 원하는 정확한 결과를 도출해낼 수가 없는 문제가 있다.

예를 들어 영화 제목이 포함된 문장 '나는 바람과 함께 사라지다가 좋아.'를 대상으로 기존 방식의 형태소 단위를 적용할 경우 '사라지다가'가 '사라+지다가'로 분석되어, 가능한 어떠한 형태소들의 결합도 '바람과 함께 사라지다'를 해석할 수 없다. 이에 따라, '바람과 함께 사라지다'를 영화명으로 가지고 있어도 검색할 수 없다. 그러나, 본 발명에 따른 다차원 해석 사전, 보다 구체적으로는 어휘 사전(340)은 상기한 바와 같은 기본적인 형태소를 벡터 정보를 이용하여 구축하는 것 외에, 이를 이용하여, 여러 형태소로 이루어지는 단어들을 하나의 의미를 갖는 것으로 규정해 놓고 소정의 시스템이나 서비스에서 정의하는 의미 단위를 반영하는 형태로 데이터베이스화한다. 이때, 본 발명에서 사용하는 어휘 사전의 하나의 형태소가 시스템이나 서비스에서 정의하는 의미 단위를 반영할 수 있도록 포함하는 단어의 개수에 제약이 없다. 예를 들어, 본 발명에 따른 다차원 해석 사전(300)의 어휘 사전(340)에는 '바람과 함께 사라지다'가 하나의 형태소로서 등록된다. 다시 말하면, 형태소 해석에서의 단위가 태스크 온톨로지에 정의된 정보의 단위와 일치되어 등록되고, 그 결과, 예컨대 영화명의 주위에 나타나는 정보를 형태소 해석 과정에서 사용할 수가 있게 된다.

한편, 각각의 형태소는 하나 이상의 관련 품사 정보를 가진다. 예를 들어 형태소 '가'는 명사, 조사 그리고 접미사와 관련된 5차원 값의 품사 정보를 가진다. 여기서의 품사열은 기술 순서에 따라서 분석 과정에 사용되는 순서를 뜻한다. 즉 '가'를 해석하기 위해 명사일 경우를 먼저 가정해서 살펴 보고 분석이 실패할 경우 조사 그리고 접미사의 순으로 해석을 시도한다. 본 발명에서는 이러한 관련 품사의 순서를 두 가지 레벨의 규칙을 이용하여 정의한다. 즉 품사들간의 우선 순위, 그리고 각 어휘별 품사 우선 순위 규칙을 이용한다. 한 형태소의 품사열 순위는 특정 어휘인 경우 사전 작성된 품사 선호 순위에 따라서 결정되며, 그 외의 어휘인 경우는 일반적인 품사들간의 우선 순위에 따라서 결정된다.

(3) 문법 사전(360)

본 발명은 상기한 바와 같이 5가지의 정보 벡터로 구분하여 구축되어 있는 기본 해석 사전을 활용하기 위하여, 그에 상응하는 형태로 형태소 분석을 위한 연결 문법을 구축한다.　 즉, 주어진 2개의 형태소 또는 단위 정보가 연결이 가능한지를 표현하는 문법이다.　 이러한 연결 문법은 5개의 정보로 구성되는 품사 사전 항목 간의 연결 여부 및 강도(예컨대, 0, 1, 2,...)를 기술한다.　 이하에서는, 본 발명에 따른 문법 규칙을 구체적인 예를 통해 설명한다.

또한, 본 발명에 있어서, 이하의 문법 규칙에서 각 규칙의 뒤에 기술된 연결 강도 '1'은 앞의 정보와 뒤의 정보의 결합이 문법적임을 의미하는 것이며, '0'은 불가능하다는 것을 나타낸다. 이 이외에도 결합되는 형태소들간의 결합 강도 여부를 계층적으로 표현할 수 있어서, 띄어쓰기 오류(예컨대, 안먹는, 못가는 등등)처럼 국어 문법에서는 비문법적인 표현이지만, 실제적 사용에서는 잘못 쓰인 부분을 처리할 수 있다. 연결 강도가 1인 규칙이 제일 우선시되고, 그 다음 강도를 가지는 규칙을 우선하여 적용한다.

가. 동사와 어미의 연결 가능함을 표현하는 문법 규칙

{pv}{*}{*}{*}{*}　　　　<->　　　　　　　　　{ef}{*}{*}{*}{*} 1

({pv}는 동사임을, {ef}는 어미에 대한 어류태그)

나. 조사와 조사는 연결 가능하지 못함을 표현하는 문법 규칙

{j}{*}{*}{*}{*}　　　　　　　　　　　　　　<->　　　　　　　　　{j}{*}{*}{*}{*} 0

({j}는 조사에 대한 어류태그)

다. 종성의 여부에 따라서 연결 가능한 조사의 형태가 달라짐을 뜻하는 형태에 따른 연결 여부를 표현하는 문법 규칙

{*}{n}{*}{*}{*}　　　　　<->　　　　　　　　　{j}{n}{*}{*}{*} 1

{*}{y}{*}{*}{*}　　　　　<->　　　　　　　　　{j}{y}{*}{*}{*} 1

({n}은 종성이 없는 형태소이며. {y}는 종성이 있는 형태소인 것에 대한 정보)

라. 허용되는 문법 규칙

많은 데이터에서 '안먹는다, 잘간다, 못놀겠다'와 같이 띄어쓰기 오류인 어절들을 많이 찾아 볼 수 있다. 이와 같은 어절들은 한국어 문법에 의하면 '안 먹는다, 잘 간다, 못 놀겠다'와 같이 써야 한다. 그래서 아래의 예)1처럼 형태소 분석에 실패하게 된다.

예)1 안먹는다 안먹는다_{unk}

잘간다 잘간다_{unk}

못놀겠다 못놀겠다_{unk}

({unk}는 미등록어라는 정보를 나타낸다)

이러한 어절을 해결하기 위해서, 본 발명에 따르면 아래와 같은 허용 문법 규칙을 적용할 수 있다.

{ad}{fc_adpred}{*}{*}{*} <-> {pv}{*}{*}{*}{*} 2

{ad}{fc_adpred}{*}{*}{*} <-> {pa}{*}{*}{*}{*} 2

( {ad}는 부사, {adpred}는 용언과 잘 쓰이는 부사에 대한 정보를 나타낸다)

위의 문법을 적용한 후에, 아래의 예)2처럼 '안먹는다, 잘간다, 못놀겠다'와 같이 띄어쓰기 오류인 어절들에 대해 분석이 가능하게 된다.

예)2 안먹는다 안_{ad} + 먹_{pv} + 는다_{ef}

잘간다 잘_{ad} + 가_{pv} + ㄴ다_{ef}

못놀겠다 못_{ad} + 놀_{pv} + 겠다_{ef}

마. 상기 문법 규칙 이외에, 연결의 제한/특수성을 표현하기 위하여 양방향 화살표가 아닌 단방향 화살표를 허용한다.　 예를 들어, 오른쪽 화살표(->)의 경우, 화살표 왼쪽의 복합 품사는 화살표 오른쪽의 복합 품사와만 연결이 가능함을 나타낸다.　 왼쪽 화살표(<-)는 반대 의미를 나타내며, 이는 연결 문법을 넓은 품사 영역에서 좁은 품사 영역으로 효과적으로 제한하며 기술하는 것을 가능하게 해준다.

보다 구체적인 예를 들어 설명하면,

{nq_per}{*}{*}{*}{*}　　　　　　　　<->　　　　　　　　　{j}{*}{*}{*}{*} 1

{ncn}{*}{*}{*}{*}　　　　　　　　　　　<->　　　　　　　　　{j}{*}{*}{*}{*} 1

{nfix}{*}{*}{*}{*}　　　　　　　　　　<->　　　　　　　　　{j}{*}{*}{*}{*} 1

({nq_per}는 사람 고유명사, {ncn}는 일반명사, {nfix}는 명사화접미사에 대한 어류태그)

위의 표현은 {nq_per}, {ncn}, {nfix}의 어류 태그를 가진 단어들은 {j} 어류 태그를 가진 형태소와 결합이 가능함을 의미한다.　 즉, 의미적 정보에 {per}를 가지고 있는 어류 태그는 명사, 접미사 등 여러 어류 태그가 있다.　 이들 어류 태그는 통사적 정보에 {accu}를 가지고 있는 조사{j} 이외의 다른 조사와 자유롭게 결 합할 수 있다.　 반면에, 통사적 정보가 {accu}를 가진 조사{j}는 의미적 정보에 {per}를 가진 어류 태그와 결합이 가능하다.　 이를 문법에서 표현하면 다음과 같다.

{nq_per}{*}{*}{per}{*}　　　　　<-　　　　　　　　　　{j}{*}{accu}{*}{*} 1

{nfix}{*}{*}{per}{*}　　　　　　　<-　　　　　　　　　　{j}{*}{accu}{*}{*} 1

({per}는 사람의 의미적 정보, {accu}는 여격에 대한 통사적 정보)

위의 표현의 경우, 통사적 정보에 {accu}를 가지고 있는 조사는 어류 태그 중에 의미적 정보가 {per}인 명사류와만 결합될 수 있음을 의미한다.

예를 들어, 조사{j}의 부류에 속하는 '에게'는 통사적 정보가 {accu}인 조사이다.　 이 경우, '에게'는 '책상에게', '의자에게', '텔레비젼에게', '창문에게', '군대에게'처럼 의미적 정보에 {per}가 아닌 경우는 '에게'와 결합할 수 없으나, '선생님에게', '어머니에게', '의사에게'처럼 의미적 정보가 {per}인 명사군들과는 결합할 수 있다.　 {accu}의 통사적 정보를 가지는 조사{j}는 일반적인 다른 조사와는 달리 명사의 정보에 따라 선택적으로 결합함을 위와 같이 표현할 수 있다.

(4) 사용자 사전(380)

일반적인 형태소 분석 시스템에서 어휘 사전은 언어학 전문가에 의해 구축되는데, 이에 따라, 한번 구축되면 계속 발생하는 신조어나 형태소 분석기가 적용되는 사이트만의 요구를 자주 반영하기 쉽지 않다. 그러므로, 본 발명에 따르면, 형 태소 분석기에 대한 전문 지식이 없는 사용자도 쉽게 신조어를 등록할 수 있도록 사용자 사전(380)이 제공된다. 본 발명의 사용자 사전(380) 역시 동일한 기능을 가지며, 사용자 사전에 등록된 형태소들은 어휘 사전에 존재하는 형태소들보다 우선적으로 적용되게 구성된다. 사용자가 품사를 특별히 지정하지 않는 한, 가장 많이 나타나는 품사인 명사를 품사값으로 갖도록 구성된다.

2. 임포터(200)를 이용한 다차원 해석 사전(300)의 자동 구축

도 2는 본 발명의 한 가지 실시예에 따른 임포터를 이용한 다차원 해석 사전의 구축 과정을 보여주는 도면이다.

임포터(200)는 온톨로지 데이터베이스(100)에 저장되어 있는 정보, 즉 태스크 온톨로지로 작성된 데이터 엔트리(어휘나 표현)들과 그것들의 의미 정보 및 의미 정보간의 관계를 추출하여 다차원 해석 사전에 반영하는 역할을 한다. 예를 들어, 쇼핑몰을 위한 태스크 온톨로지에는 제품명이 데이터 엔트리에 해당하며, '가전', '의류', '화장품'과 같은 각 제품이 가질 수 있는 제품 분류가 의미 정보에 해당하고, '가전'이 '생활가전', '영상가전', '음향가전' 등으로 구성되는 것과 같은 분류 간의 포함관계 등이 의미 정보간의 관계에 해당한다. 즉, 하나의 데이터 엔트리는 하나 이상의 온톨로지에 정의된 의미 정보를 가진다. 임포터는 이러한 데이터 엔트리가 가지는 의미 정보를 형태소 해석시 같이 출력할 수 있게 온톨로지 데이터베이스를 분석해서 다차원 해석 사전에 적용하는 역할을 수행한다.

먼저 데이터베이스 형태로 저장되어 있거나 텍스트 형태로 저장되어 있는 태스크 온톨로지에서 정보를 하나씩 가져온다(S10). 가져온 정보들은 의미 정보를 가지는 하나의 표현인지 혹은 의미 정보간의 관계(엔트리 사이의 관계)를 나타내는 지에 따라서 차별적으로 처리한다(S11).

데이터 엔트리에 대한 내용일 경우 어휘 사전에 반영하는데, 데이터 엔트리 사이에 관계가 있는 경우(S21), 품사 사전과 문법 사전에 다음과 같은 분석 과정을 통해서 반영된다.

우선 태스크 온톨로지에 사용되는 모든 의미 정보의 부류는 5차원의 품사 정보 중 의미 정보 필드에 기입한다. 의미 정보 필드에 태스크 온톨로지의 의미 정보 부류를 지시하는 명칭을 삽입하는 형태로 새로운 품사를 품사 사전(320)에 추가한다. 그리고, 태스크 온톨로지에 작성되어 있는 2개의 의미 정보 간의 연결 가능 여부는 문법 사전에 반영한다(S22). 예를 들어, 고객 주소를 나타내는 태스크 온톨로지를 반영할 경우, {city}, {street}, {zipcode} 등과 같은 의미 정보 분류를 지시하는 표현을 의미 정보 필드에 삽입한 품사를 생성해서 품사 사전에 추가한다. 또한, 도시명 다음에 동명이 올 수 있고 도시명 다음에 우편번호가 올 수 없다는 정보는 다음과 같은 문법 규칙을 문법 사전에 추가해서 반영한다.

{*}{*}{*}{*city}{*}　　　　　　　　<->　　　　　　　　　{*}{*}{*}{*street}{*} 1

{*}{*}{*}{*city}{*}　　　　　　　　<->　　　　　　　　　{*}{*}{*}{*zipcode}{*} 0

이러한 분석 및 규칙 삽입은 대상 태스크 온톨로지의 표현 형태에 따라서 자동 및 수동으로 반영한다. 각각의 데이터 엔트리가 가지는 온톨로지에서의 의미 정보는 다차원 해석 사전의 품사로 유추가 가능하다.

데이터 엔트리인 경우에는(S11, Yes), 형태소 분석(S12)을 통해서 삽입 대상 표현에 대한 정보를 자동으로 추출한다. 형태소 분석이 실패한 경우(S13, No), 이는 형태소 분석기가 분석할 수 없는 신조어로서 표현 전체를 하나의 단위로 간주하여 사용자 사전에 온톨로지에서의 의미 정보를 지칭하는 필드값을 삽입한 품사를 가지도록 해서 삽입한다(S16). 형태소 분석이 성공한 경우(S13, Yes), 이는 현재 다차원 해석 사전에 존재하는 표현이거나 다차원 해석 사전에 존재하는 표현들의 결합으로 구성되는 표현인 것을 의미한다. 해석 결과가 하나의 용언일 경우에는(S14, Yes) 다차원 해석 사전에서 가지던 원래 품사값에서 태스크 온톨로지에서 가지는 의미 분류를 지칭하는 값을 추가한 품사를 가지게 하여 삽입하고 사전에 반영한다(S15, S20). 즉, 현재 다차원 해석 사전에서 가지고 있던 다차원 품사 정보에서 의미 정보를 변경하여 온톨로지에서 사용되는 의미 정보를 지칭할 수 있는 필드값을 삽입하는 형태로 변경한다.

해석 결과가 여러 개의 단어로 구성된 경우에는(S14, No), 사용된 품사 형태 에 따라서 선별적으로 삽입한다. 즉, '먹+다', '입+다', '노랗+다'와 같이 용언의 원형과 형식 형태소의 결합인 경우는, 형식 형태소를 제외한 실질 형태소('먹', '입', '노랗')만을 삽입한다. 그리고, '007 카지노 로얄'과 같은 명사들의 결합인 경우는 단어 전체를 어휘 사전에 반영한다. 모든 삽입 과정에서 현재 다차원 해석 사전에 존재하는 경우에는(S17, Yes) 기존 품사에서 의미 정보 필드값만 변경하여 삽입하며 그렇지 않은 경우에는 명사의 품사에 의미 정보 필드값을 추가한 품사를 삽입한다. 그리고, 현재 다차원 해석 사전에 존재하지 않는 표현인 경우(S17, No), 대상 항목을 분석하여 마지막 음절의 종성 여부(fc), 불규칙 활용 여부(ㅂ 불규칙, ㄹ 불규칙 등), 마지막 음절의 음운적인 특성(양성, 음성) 등을 추출하여, 어류 태그와 품사 항목을 작성하여 삽입하고(S18), 형태적 정보를 추가한다(S19).

이와 같이 태스크 온톨로지에 작성되어 있는 표현과 의미 정보를 다차원 해석 사전에 반영하여 형태소 분석시 인식 및 추출이 가능해진다. 예를 들어, '바람과 함께 사라지다'가 영화명으로 삽입된 경우, 이는 하나의 명사와 비슷한 품사값을 가져 '나+는 바람과_함께_사라지다+가 좋+아'로 분석되며, '바람과_함께_사라지다'가 가지는 품사의 의미 정보 필드를 통해서 영화명임을 확인할 수가 있게 된다.

이상, 본 발명을 바람직한 실시예를 참조하여 설명하였지만, 본 발명은 이러한 실시예에 의해 제한되지 않는다는 점에 유의하여야 한다. 즉, 본 고안은 후술하는 특허청구범위를 벗어나지 않으면서 다양하게 변형 및 수정될 수 있으며, 이들 은 모두 청구범위에 포함된다.

상기한 바와 같이, 본 발명에 따르면 형태소 해석 시스템에 사용되는 해석 사전에 포함되는 각각의 정보, 즉 기본 형태소를 구축함에 있어서 단순히 형태소 리스트를 나열하는 방식으로 데이터베이스화하는 것이 아니라, 벡터 정보를 부가하여, 형태소 분석시 그 벡터 정보를 통해 정확한 형태소 분석이 가능하도록 하고 있다.

또한, 어휘 사전에는 여러 형태소로 이루어지는 단어들을 하나의 의미를 갖는 것으로 규정함으로써, 추후 소정의 시스템 또는 서비스에서 정의하는 의미 단위를 반영하도록 함으로써, 정확한 형태소 분석은 물론 소정의 정보와 관련한 주위 정보를 활용할 수가 있다.

또한, 본 발명에 따라 구축되는 형태소 정보는 태스크 온톨로지에 나타나는 의미 정보도 포함하고 있어, 태스크 온톨로지의 변경이 있더라도 매핑 모델을 새로이 정의해 줄 필요가 없다.

Claims

형태소 분석 시스템에 이용되는 다차원 해석 사전을 구축하는 방법으로서,

온톨로지 데이터베이스로부터 태스크 온톨로지로 작성된 데이터 엔트리들을 추출하고, 상기 데이터 엔트리들의 의미 정보를 추출하며, 상기 데이터 엔트리들의 의미 정보 사이의 관계를 추출하는 단계와,

상기 추출된 각각의 정보에 n차원의 벡터 정보를 부가하여 품사 사전 데이터베이스를 구축하는 단계와,

상기 추출된 각각의 정보에 n차원의 벡터 정보를 부가함과 아울러 여러 형태소로 이루어지는 단어들을 하나의 의미를 갖는 것으로 규정하여 어휘 사전 데이터베이스를 구축하는 단계와,

특수 문법 연산자를 이용하여 상기 품사 사전 데이터베이스에 정의된 각각의 정보가 상호 연결가능한지 여부를 규정하는 문법 사전 데이터베이스를 구축하는 단계

를 포함하는 것을 특징으로 하는 다차원 해석 사전 구축 방법.
청구항 1에 있어서, 상기 데이터베이스들에 등록되지 않은 정보가 n차원 벡터 정보가 부가되어 구축되어 있고 상기 어휘 사전 데이터베이스의 정보보다 우선적으로 적용되도록 되어 있는 사용자 사전 데이터베이스를 구축하는 단계를 더 포함하는 것을 특징으로 하는 다차원 해석 사전 구축 방법.
청구항 1 또는 청구항 2에 있어서, 상기 n차원의 벡터 정보는 어류 태그 정보, 형태적 정보, 통사적 정보, 의미적 정보 및 화용 정보의 5차원의 벡터 정보이고, 각각의 벡터 정보는 특수 문자를 포함하고 그 특수 문자 안에 형태소 분석 및 온톨로지 데이터베이스에의 접근을 용이하게 하는 단어 부류 및 단어의 속성이 표현되어 있는 것을 특징으로 하는 다차원 해석 사전 구축 방법.
청구항 3에 있어서, 상기 벡터 정보는 각각 {}의 특수 문자를 포함하며, {}의 특수 문자 안에 형태소 분석 및 온톨로지 데이터베이스에의 접근을 용이하게 하는 단어 부류 및 단어의 속성이 표현되어 있는 것인 다차원 해석 사전 구축 방법.
청구항 4에 있어서, 상기 특수 문법 연산자는 양방향 화살표(<->)와 단방향 화살표(->, <-)를 포함하는 것을 특징으로 하는 다차원 해석 사전 구축 방법.
온톨로지 데이터베이스와,

어휘 사전 데이터베이스와, 품사 사전 데이터베이스 및 문법 사전 데이터베이스를 포함하는 다차원 해석 사전 데이터베이스와,

상기 온톨로지 데이터베이스에 저장되어 있는 태스크 온톨로지로 작성된 표현들을 추출하고, 상기 표현들의 의미 정보를 추출하며, 상기 표현들의 의미 정보 사이의 관계를 추출하여 다차원 해석 사전 데이터베이스에 반영하는 임포터

를 포함하고,

상기 품사 사전 데이터베이스의 각각의 품사는 어류 태그 정보, 형태적 정보, 통사적 정보, 의미적 정보 및 화용 정보의 5차원의 벡터 정보가 부가되어 정의되어 있으며,

상기 어휘 사전 데이터베이스에는 각각의 기본 형태소에 상기 5차원의 벡터 정보가 부가되어 정의됨과 아울러, 여러 형태소로 이루어지는 단어들이 하나의 의미를 갖는 것으로 규정되어 태스크 온톨로지에 정의된 정보의 단위와 일치되어 등록되어 있으며,

상기 문법 사전 데이터베이스에는 특수 문법 연산자를 이용하여 상기 품사 사전 데이터베이스에 정의된 각각의 품사가 서로 연결가능한지 여부를 규정하는 문법이 구축되어 있는 것

을 특징으로 하는 형태소 분석 시스템에 이용되는 다차원 해석 사전 구축 장치.
청구항 6에 있어서, 상기 데이터베이스들에 등록되지 않은 정보가 n차원 벡터 정보가 부가되어 구축되어 있고 상기 어휘 사전 데이터베이스의 정보보다 우선적으로 적용되도록 되어 있는 사용자 사전 데이터베이스를 더 포함하는 것을 특징으로 하는 형태소 분석 시스템에 이용되는 다차원 해석 사전 구축 장치.
청구항 6 또는 청구항 7에 있어서, 상기 각각의 벡터 정보는 특수 문자를 포함하고 그 특수 문자 안에 형태소 분석 및 온톨로지 데이터베이스에의 접근을 용이 하게 하는 단어 부류 및 단어의 속성이 표현되어 있는 것을 특징으로 하는 형태소 분석 시스템에 이용되는 다차원 해석 사전 구축 장치.
청구항 8에 있어서, 상기 특수 문자는 {}의 특수 문자를 포함하며, {}의 특수 문자 안에 형태소 분석 및 온톨로지 데이터베이스에의 접근을 용이하게 하는 단어 부류 및 단어의 속성이 표현되어 있는 것을 특징으로 하는 형태소 분석 시스템에 이용되는 다차원 해석 사전 구축 장치.
청구항 8에 있어서, 상기 특수 문법 연산자는 양방향 화살표(<->)와 단방향 화살표(->, <-)를 포함하는 것을 특징으로 하는 형태소 분석 시스템에 이용되는 다차원 해석 사전 구축 장치.