KR20110092691A

KR20110092691A - 코더 친화적 기계이해형 자연어 텍스트 표현 방법

Info

Publication number: KR20110092691A
Application number: KR1020100012257A
Authority: KR
Inventors: 강인수; 최기선
Original assignee: 경성대학교 산학협력단; 한국과학기술원
Priority date: 2010-02-10
Filing date: 2010-02-10
Publication date: 2011-08-18
Also published as: KR101116471B1

Abstract

본 발명은 코더 친화적 기계이해형 자연어 텍스트 표현 방법에 관한 것으로, 자연어 텍스트를 컴퓨터가 이해할 수 있는 형태로 코더가 용이하게 사용할 수 있고 효율적으로 작업할 수 있는 방법을 개시한다.

Description

코더 친화적 기계이해형 자연어 텍스트 표현 방법{Method of Coder-oriented machine-understandable natural language text representation}

본 발명은 자연어 텍스트를 컴퓨터가 이해할 수 있는 형태로 표현하는 방법에 관한 것으로, 코더(작업자)가 사용하기 쉬울 뿐만 아니라 효율성이나 생산성이 향상된 방법에 관한 것이다.

인터넷의 발전 및 확대 보급으로 인해서 수많은 정보를 쉽게 얻을 수가 있다. 이러한 정보를 담고 있는 문장을 사람이 이해하고 처리하기는 용이하지만, 컴퓨터 프로그램에서 정보로서 활용하고 처리하기는 쉽지가 않다. 따라서, 종래의 일반적인 컴퓨터 시스템은 문서의 의미에 상관없이 문장에 어떤 단어가 나타나는지, 문서의 길이가 어느 정도인지 등과 같은 형태적 분석을 이용하여 처리해 왔다. 그러나, 실제 문장의 내용을 확인하고 가공하는 것은 사용하는 사람에게 의존하는바, 컴퓨터가 인간의 지능을 모방하기 위해서는 컴퓨터에 의한 자연어 문장의 이해가 선행되어야 하고 이를 위해서는 기계가 이해할 수 있는 자연어 텍스트의 표현이 전제되어야 한다.

현재는 웹 환경에서 기하급수적으로 정보가 증가하고 있고 이러한 문서의 증가로 인해 사람이 각각의 문장을 확인하는 것이 어렵게 되었다.

따라서, 상기한 문제를 해결하기 위해 문장에 사람뿐만 아니라 컴퓨터 프로그램도 문서의 내용을 이해하여 처리할 수 있도록 하는 "시맨틱 웹"이 제작되었다. 또한 이를 위한 "잘 정의된 공용의 의미 체계"인 "온톨로지"가 하나 둘씩 속속 구축되게 되었다. 온톨로지에 정의된 의미들을 이용해 작성된 시맨틱 웹 문서들은 컴퓨터 프로그램도 문서의 내용을 이해하여 처리할 수 있기 때문에, 정보시스템들이 내용에 기반하여 문서를 검색하거나 가공하는 것이 가능해졌다.

자연어처리 응용 서비스에서 자연어 문장을 의미 태깅(semantic annotation)하고자 할 때나, 온톨로지 개체(예를 들어, instances, RDF statements, triplets)를 일반화하여 온톨로지의 지식을 확장할 때에는 단어 의미의 중의성을 해소하기 위한 과정이 필수적이지만, 이를 위한 필요 정보나 진행과정이 개발자들에 따라 제각각이기 때문에 중복 개발과 시행착오가 빈번히 발생하고 있다. 따라서, 관련 정보와 절차를 표준화하여 이를 지침으로 활용할 수 있도록 하는 것이 필요하다. 본 발명은 웹페이지에서 자동 추출된 온톨로지 개체를 일반화하여 온톨로지의 지식을 확장하거나 자연어 문장을 의미 태깅하고자 할 때 단어 의미의 중의성을 해소하기 위한 과정에서 필요한 정보와 절차를 표준화하는 것이다.

언어학에 의하면 인간의 자연어 텍스트 이해 과정은 문장의 형태적, 구문적, 및 의미적 이해 단계를 차례로 거친다. 이러한 관점에서 기계에 의한 텍스트 이해의 수준을 어디에 두느냐에 따라 기계가독형 텍스트 표현이 형태적, 구문적 및 의미적 형식을 보일 수가 있다. 구문 수준의 텍스트 표현의 예로, "Penn Treebank, GENIA Treebank"등을 들 수 있는데 이것들에 대한 구축 지침이 간단치가 않고 전문 지식을 요구한다. 의미 수준의 언어독립적 텍스트 표현의 예로, "TMR(Text Meaning Representation)"은 기정의된 온톨로지와 의미사전(semantic lexicon)을 요구한다.

기계가독형 텍스트 표현은 그 구축자가 인간임을 감안할 때 사람의 가독성을 높여 검증의 용이함을 추구할 필요가 있으며, 구축 생산성을 높이기 위해 선행요구지식과 자원을 최소화할 필요가 있다. 이러한 개념을 바탕으로, 본 발명은 기계에 의한 구문 수준 이상의 텍스트 이해를 위한 표현 방법을 제시한다.

상기와 같은 목적을 이루기 위한 본 발명에 따른 방법은 다음의 과정을 포함한다:

문장을 주어부(NP)와 서술부(VP)로 분리하여 'hasVP'라는 관계어를 정의하여 이를 통해 주어부와 서술부를 연결하는 단계;

동사와 이것이 취하는 성분(명사, 형용사, 부사 등)을 분리하여 VP와 동사는 'hasHead'라는 관계어를 정의하여 연결하고, VP와 나머지 성분들은 'hasSlot_X'라는 관계어를 정의하여 연결하는 단계;

주어부를 포함하여 문장 내의 모든 NP에 있어서, NP와 머리명사는 'hasHead'라는 관계어로 연결하고 NP와 나머지 성분들(형용사, 부사 등)은 'hasSlot_Y'라는 관계어를 이용하여 연결하는 단계.

본 발명은 인간의 지식 전달 수단인 텍스트를 기계이해형 표현으로 바꾸는 작업을 용이하게 함으로써, 컴튜터에 의한 텍스트 이해가 가능하게 되고 텍스트와 관련된 대부분의 정보 및 지식 산업분야의 응용서비스 창출에 기여하게 된다.

도 1은 본 발명에 따른 syn-RDF의 일 실시예를 나타낸 예시도, 및
도 2 및 도 3은 본 발명에 따른 syn-RDF의 NP-syntax 및 VP-syntax의 또 다른 실시예를 나타낸 예시도이다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다. 우선, 도면들중 동일한 구성요소는 가능한 한 동일한 참조부호를 나타내고 있음에 유의해야 한다.본 발명을 설명함에 있어서 관련된 공지기능 혹은 구성에 대한 구체적인 설명은 본 발명의 요지를 모호하게 하지 않기 위해 생략한다.

본 발명에 따른 기계가독형 텍스트표현은 text-RDF라 명명한다. 이는 자연어 텍스트를 시맨틱웹이 다루는 RDF(Resource Description Framework)형식의 지식으로

변환하는 과정의 용이함을 염두에 둔 텍스트 표현이라는 의미가 있다.

개념적으로 text-RDF는 syntactic text-RDF (syn-RDF)와 semantic text-RDF(sem-RDF)로 구성된다. 본 발명은 syntactic text-RDF를 다루며, 여기에서 syntactic은 언어학의 syntactic과 정확하게 일치하지는 않는다.

본 발명에 따라, syn-RDF는 텍스트에 대해 일반인이 이해하는 수준에서의 구문/의미적 정보를 담기에 충분하도록 다음과 같은 표현 방식을 사용한다:

문장S는 주어부(NP)와 서술부(VP)로 구성되며, NP와 VP는 'hasVP'라는 관계로 연결된다.

서술부(VP)는 동사와 그 동사가 취하는 성분(NP,Adverb 등)들로 구성되며, VP와 동사는 hasHead로 연결되고, VP와 나머지 각 성분들은 hasSlot_X의 관계로 연결된다. hasSlot_X에서 X는 VP와 VP가 취하는 성분 사이의 관계를 표현한다.

주어부(NP)를 포함하여 문장S내의 모든 NP는 머리명사와 머리명사가 취하는 성분(noun, adjective 등)으로 구성되며, NP와 머리명사는 hasHead로 연결되고, NP와 나머지 각 성분들은 hasSlot_Y의 관계로 연결된다. hasSlot_Y에서 Y는 NP와 NP가 취하는 성분사이의 관계를 표현한다.

도 1은 syn-RDF의 일 실시예를 나타내고 있다.

"A robot is a mechanical or virtual, artificial agent"라는 문장은, 주어

부 NP(A robot)와 서술부 VP(is a mechanical or virtual, artificial agent)로 구성되며 NP와 VP는 'hasVP'라는 관계어로 연결된다.

서술부인 VP는 동사(is)와 각 성분(mechanical, virtual, artificial, 및 agent)으로 구성되며 각각의 성분들은 'hasSlot_X'의 관계어로 연결된다.

주어부를 포함하여 문장내의 모든 NP와 머리명사는 도면에 나타낸 바와 같이 'hasHead'로 연결된다.

syn-RDF의 NP-syntax와 VP-syntax의 실시예(ADJ: adjective, PREP: preposition, ADV: adverb, r1: 문장에서 동사의 오른쪽 첫 위치, r2: 문장에서 동사의 오른쪽 두 번째 위치)를 도 2와 도 3에 나타내고 있다.

도 2에 있어서는 "A keyset is a device that allows the user to enter characters"라는 문장을 본 발명에 따라 처리하는 방법을 설명하고 있는바, 문장을 주어부(NP)와 서술부(VP)로 분리하고, 이러한 NP와 VP를 "hasVP"라는 관계어로 연결한다.

주어부의 'keyset'은 "hasHead"라는 관계어에 의해서 NP와 연결하고, VP에

있어서 'is'는 "hasHead"라는 관계어에 의해서 VP와 연결하며, 'NP는 "hasSlot_r1"이라는 관계어로서 연결한다.

이 NP는 "hasHead"라는 관계어에 의해서 명사(device)와 연결하고, "hasVP"라는 관계어에 의해서 VP와 연결한다.

VP는 "hasHead"라는 관계어에 의해서 'allows'를 연결하고, "hasSlot_r1"이라는 관계어를 통해 NP와 연결하며 이 NP는 "hasHead"라는 관계어를 통해 'user'와 연결한다.

또한 상기 VP는 다른 VP와 "hasSlot_to"라는 관계어를 통해 연결하고, 이 VP는 "hasHead"라는 관계어를 통해 'enter'와 연결하며, 또 다시 NP는 "hasSlot_r1" 관계어에 의해서 연결되고 이 NP는 "hasHead"라는 관계어를 통해 명사(character)와 연결한다.

도 3은 NP-syntax와 VP-syntax를 나타낸 것으로, 좌측의 NP-syntax의 경우에는 NP는 명사와 "hasHead" 관계어로 연결하고 있다. 예를 들어, "a beautiful woman"의 명사구에 있어서는 "hasHead"의 관계어에 의해서 NP는 'woman'과 연결되고, 형용사 'beautiful'은 "hasSlot_beautiful"의 관계어로 NP와 연결한다.

또 다른 예의 "the TV product of Samsung"의 명사구에서는, NP는 "hasHead"의 관계어에 의해서 'product'와 연결되고, "hasSlot_TV" 관계어를 가지며, 또한 "hasSlot_of" 관계어에 의해서 NP가 연결되고 이 NP는 다시 "hasHead" 관계어에 의해서 "Samsung"과 연결된다.

즉, NP-syntax에 나열된 관계들을 정리하면 다음과 같다:

hasHead: NP의 'head'를 연결한다.

hasSlot_[ADJ]: NP를 수식하는 형용사를 [ADJ]에 대치하여 사용하는 것으로 NP의 'head'를 수식하는 것을 의미한다.

hasSlot_[NOUN]: NP를 수식하는 명사를 [NOUN]에 대치하여 사용하는 것으로 NP의 'head'를 수식하는 것을 의미한다.

hasSlot_[PREP]: NP를 수식하는 전치사구를 이끄는 전치사를 [PREP]에 대치하여 사용하는 것으로 그 전치사가 이끄는 전치사구가 NP를 수식하는 것을 의미한다.

hasVP: NP를 수식하는 관계절을 연결한다.

hasS_that: NP를 수식하는 동격절을 연결한다.

상기한 바와 같은 형식으로, 우축의 VP-syntax에 나열된 관계들을 정리하면 다음과 같다:

hasHead: VP의 'head'에 해당하는 동사를 연결한다.

hasSlot_r1: VP가 취하는 첫번째 논항(argument)을 연결한다.

hasSlot_r2: VP가 취하는 두번째 논항을 연결한다.

hasSlot_[PREP]: VP가 취하는 전치사구를 이끄는 전치사를 [PREP]에 대치하여 사용하는 것으로 그 전치사가 이끄는 전치사구가 VP의 한 요소인 것을 의미한다.

hasSlot_to: VP가 취하는 동사구를 연결한다.

hasS_[SubordinateConjunction]: 동사구가 취하는 종속절을 링크하며 종속절을 이끄는 종속 접속사를 [SubordinateConjunction]에 대치하여 사용한다.

hasSlot_[ADV]: VP를 수식하는 부사를 [ADV]에 대치하여 사용하는 것으로 그 부사가 VP를 수식하는 것을 의미한다.

이상에서 본 발명의 실시예를 특정 단어를 이용하여 관계어를 정의하고 있지만, 본 발명의 개념을 손상하지 않은 범위내에서 다른 용어나 기호 등을 사용할 수 있는 것이 가능하다.

Claims

자연어 텍스트를 기계이해형 텍스트로 표현하는 방법에 있어서, 다음의 단계를 포함하는 방법:
문장을 주어부(NP)와 서술부(VP)로 분리하여 'hasVP'라는 관계어를 이용하여주어부와 서술부를 연결하는 단계;
동사와 이것이 취하는 성분(명사, 형용사, 부사 등)을 분리하여 VP와 동사는 'hasHead'라는 관계어를 이용하여 연결하고, VP와 나머지 성분들은 'hasSlot_X'라는 관계어를 이용하여 연결하는 단계; 및
주어부를 포함하여 문장 내의 모든 NP에 있어서, NP와 머리명사는 'hasHead'라는 관계어로 연결하고 NP와 나머지 성분들(형용사, 부사 등)은 'hasSlot_Y'라는 관계어를 이용하여 연결하는 단계.
자연어 텍스트를 기계이해형 텍스트로 표현하는 시스템에 있어서, 다음의 구성부를 포함하는 시스템:
문장을 주어부(NP)와 서술부(VP)로 분리하여 'hasVP'라는 관계어를 이용하여 주어부와 서술부를 연결하는 처리부;
동사와 이것이 취하는 성분(명사, 형용사, 부사 등)을 분리하여 VP와 동사는 'hasHead'라는 관계어를 이용하여 연결하고, VP와 나머지 성분들은 'hasSlot_X'라는 관계어를 이용하여 연결하는 처리부; 및
주어부를 포함하여 문장 내의 모든 NP에 있어서, NP와 머리명사는 'hasHead'라는 관계어로 연결하고 NP와 나머지 성분들(형용사, 부사 등)은 'hasSlot_Y'라는
관계어를 이용하여 연결하는 처리부.