KR20110092691A - 코더 친화적 기계이해형 자연어 텍스트 표현 방법 - Google Patents

코더 친화적 기계이해형 자연어 텍스트 표현 방법 Download PDF

Info

Publication number
KR20110092691A
KR20110092691A KR1020100012257A KR20100012257A KR20110092691A KR 20110092691 A KR20110092691 A KR 20110092691A KR 1020100012257 A KR1020100012257 A KR 1020100012257A KR 20100012257 A KR20100012257 A KR 20100012257A KR 20110092691 A KR20110092691 A KR 20110092691A
Authority
KR
South Korea
Prior art keywords
relation
hasslot
verb
hashead
sentence
Prior art date
Application number
KR1020100012257A
Other languages
English (en)
Other versions
KR101116471B1 (ko
Inventor
강인수
최기선
Original Assignee
경성대학교 산학협력단
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경성대학교 산학협력단, 한국과학기술원 filed Critical 경성대학교 산학협력단
Priority to KR1020100012257A priority Critical patent/KR101116471B1/ko
Publication of KR20110092691A publication Critical patent/KR20110092691A/ko
Application granted granted Critical
Publication of KR101116471B1 publication Critical patent/KR101116471B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 코더 친화적 기계이해형 자연어 텍스트 표현 방법에 관한 것으로, 자연어 텍스트를 컴퓨터가 이해할 수 있는 형태로 코더가 용이하게 사용할 수 있고 효율적으로 작업할 수 있는 방법을 개시한다.

Description

코더 친화적 기계이해형 자연어 텍스트 표현 방법{Method of Coder-oriented machine-understandable natural language text representation}
본 발명은 자연어 텍스트를 컴퓨터가 이해할 수 있는 형태로 표현하는 방법에 관한 것으로, 코더(작업자)가 사용하기 쉬울 뿐만 아니라 효율성이나 생산성이 향상된 방법에 관한 것이다.
인터넷의 발전 및 확대 보급으로 인해서 수많은 정보를 쉽게 얻을 수가 있다. 이러한 정보를 담고 있는 문장을 사람이 이해하고 처리하기는 용이하지만, 컴퓨터 프로그램에서 정보로서 활용하고 처리하기는 쉽지가 않다. 따라서, 종래의 일반적인 컴퓨터 시스템은 문서의 의미에 상관없이 문장에 어떤 단어가 나타나는지, 문서의 길이가 어느 정도인지 등과 같은 형태적 분석을 이용하여 처리해 왔다. 그러나, 실제 문장의 내용을 확인하고 가공하는 것은 사용하는 사람에게 의존하는바, 컴퓨터가 인간의 지능을 모방하기 위해서는 컴퓨터에 의한 자연어 문장의 이해가 선행되어야 하고 이를 위해서는 기계가 이해할 수 있는 자연어 텍스트의 표현이 전제되어야 한다.
현재는 웹 환경에서 기하급수적으로 정보가 증가하고 있고 이러한 문서의 증가로 인해 사람이 각각의 문장을 확인하는 것이 어렵게 되었다.
따라서, 상기한 문제를 해결하기 위해 문장에 사람뿐만 아니라 컴퓨터 프로그램도 문서의 내용을 이해하여 처리할 수 있도록 하는 "시맨틱 웹"이 제작되었다. 또한 이를 위한 "잘 정의된 공용의 의미 체계"인 "온톨로지"가 하나 둘씩 속속 구축되게 되었다. 온톨로지에 정의된 의미들을 이용해 작성된 시맨틱 웹 문서들은 컴퓨터 프로그램도 문서의 내용을 이해하여 처리할 수 있기 때문에, 정보시스템들이 내용에 기반하여 문서를 검색하거나 가공하는 것이 가능해졌다.
자연어처리 응용 서비스에서 자연어 문장을 의미 태깅(semantic annotation)하고자 할 때나, 온톨로지 개체(예를 들어, instances, RDF statements, triplets)를 일반화하여 온톨로지의 지식을 확장할 때에는 단어 의미의 중의성을 해소하기 위한 과정이 필수적이지만, 이를 위한 필요 정보나 진행과정이 개발자들에 따라 제각각이기 때문에 중복 개발과 시행착오가 빈번히 발생하고 있다. 따라서, 관련 정보와 절차를 표준화하여 이를 지침으로 활용할 수 있도록 하는 것이 필요하다. 본 발명은 웹페이지에서 자동 추출된 온톨로지 개체를 일반화하여 온톨로지의 지식을 확장하거나 자연어 문장을 의미 태깅하고자 할 때 단어 의미의 중의성을 해소하기 위한 과정에서 필요한 정보와 절차를 표준화하는 것이다.
언어학에 의하면 인간의 자연어 텍스트 이해 과정은 문장의 형태적, 구문적, 및 의미적 이해 단계를 차례로 거친다. 이러한 관점에서 기계에 의한 텍스트 이해의 수준을 어디에 두느냐에 따라 기계가독형 텍스트 표현이 형태적, 구문적 및 의미적 형식을 보일 수가 있다. 구문 수준의 텍스트 표현의 예로, "Penn Treebank, GENIA Treebank"등을 들 수 있는데 이것들에 대한 구축 지침이 간단치가 않고 전문 지식을 요구한다. 의미 수준의 언어독립적 텍스트 표현의 예로, "TMR(Text Meaning Representation)"은 기정의된 온톨로지와 의미사전(semantic lexicon)을 요구한다.
기계가독형 텍스트 표현은 그 구축자가 인간임을 감안할 때 사람의 가독성을 높여 검증의 용이함을 추구할 필요가 있으며, 구축 생산성을 높이기 위해 선행요구지식과 자원을 최소화할 필요가 있다. 이러한 개념을 바탕으로, 본 발명은 기계에 의한 구문 수준 이상의 텍스트 이해를 위한 표현 방법을 제시한다.
상기와 같은 목적을 이루기 위한 본 발명에 따른 방법은 다음의 과정을 포함한다:
문장을 주어부(NP)와 서술부(VP)로 분리하여 'hasVP'라는 관계어를 정의하여 이를 통해 주어부와 서술부를 연결하는 단계;
동사와 이것이 취하는 성분(명사, 형용사, 부사 등)을 분리하여 VP와 동사는 'hasHead'라는 관계어를 정의하여 연결하고, VP와 나머지 성분들은 'hasSlot_X'라는 관계어를 정의하여 연결하는 단계;
주어부를 포함하여 문장 내의 모든 NP에 있어서, NP와 머리명사는 'hasHead'라는 관계어로 연결하고 NP와 나머지 성분들(형용사, 부사 등)은 'hasSlot_Y'라는 관계어를 이용하여 연결하는 단계.
본 발명은 인간의 지식 전달 수단인 텍스트를 기계이해형 표현으로 바꾸는 작업을 용이하게 함으로써, 컴튜터에 의한 텍스트 이해가 가능하게 되고 텍스트와 관련된 대부분의 정보 및 지식 산업분야의 응용서비스 창출에 기여하게 된다.
도 1은 본 발명에 따른 syn-RDF의 일 실시예를 나타낸 예시도, 및
도 2 및 도 3은 본 발명에 따른 syn-RDF의 NP-syntax 및 VP-syntax의 또 다른 실시예를 나타낸 예시도이다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다. 우선, 도면들중 동일한 구성요소는 가능한 한 동일한 참조부호를 나타내고 있음에 유의해야 한다.본 발명을 설명함에 있어서 관련된 공지기능 혹은 구성에 대한 구체적인 설명은 본 발명의 요지를 모호하게 하지 않기 위해 생략한다.
본 발명에 따른 기계가독형 텍스트표현은 text-RDF라 명명한다. 이는 자연어 텍스트를 시맨틱웹이 다루는 RDF(Resource Description Framework)형식의 지식으로
변환하는 과정의 용이함을 염두에 둔 텍스트 표현이라는 의미가 있다.
개념적으로 text-RDF는 syntactic text-RDF (syn-RDF)와 semantic text-RDF(sem-RDF)로 구성된다. 본 발명은 syntactic text-RDF를 다루며, 여기에서 syntactic은 언어학의 syntactic과 정확하게 일치하지는 않는다.
본 발명에 따라, syn-RDF는 텍스트에 대해 일반인이 이해하는 수준에서의 구문/의미적 정보를 담기에 충분하도록 다음과 같은 표현 방식을 사용한다:
문장S는 주어부(NP)와 서술부(VP)로 구성되며, NP와 VP는 'hasVP'라는 관계로 연결된다.
서술부(VP)는 동사와 그 동사가 취하는 성분(NP,Adverb 등)들로 구성되며, VP와 동사는 hasHead로 연결되고, VP와 나머지 각 성분들은 hasSlot_X의 관계로 연결된다. hasSlot_X에서 X는 VP와 VP가 취하는 성분 사이의 관계를 표현한다.
주어부(NP)를 포함하여 문장S내의 모든 NP는 머리명사와 머리명사가 취하는 성분(noun, adjective 등)으로 구성되며, NP와 머리명사는 hasHead로 연결되고, NP와 나머지 각 성분들은 hasSlot_Y의 관계로 연결된다. hasSlot_Y에서 Y는 NP와 NP가 취하는 성분사이의 관계를 표현한다.
도 1은 syn-RDF의 일 실시예를 나타내고 있다.
"A robot is a mechanical or virtual, artificial agent"라는 문장은, 주어
부 NP(A robot)와 서술부 VP(is a mechanical or virtual, artificial agent)로 구성되며 NP와 VP는 'hasVP'라는 관계어로 연결된다.
서술부인 VP는 동사(is)와 각 성분(mechanical, virtual, artificial, 및 agent)으로 구성되며 각각의 성분들은 'hasSlot_X'의 관계어로 연결된다.
주어부를 포함하여 문장내의 모든 NP와 머리명사는 도면에 나타낸 바와 같이 'hasHead'로 연결된다.
syn-RDF의 NP-syntax와 VP-syntax의 실시예(ADJ: adjective, PREP: preposition, ADV: adverb, r1: 문장에서 동사의 오른쪽 첫 위치, r2: 문장에서 동사의 오른쪽 두 번째 위치)를 도 2와 도 3에 나타내고 있다.
도 2에 있어서는 "A keyset is a device that allows the user to enter characters"라는 문장을 본 발명에 따라 처리하는 방법을 설명하고 있는바, 문장을 주어부(NP)와 서술부(VP)로 분리하고, 이러한 NP와 VP를 "hasVP"라는 관계어로 연결한다.
주어부의 'keyset'은 "hasHead"라는 관계어에 의해서 NP와 연결하고, VP에
있어서 'is'는 "hasHead"라는 관계어에 의해서 VP와 연결하며, 'NP는 "hasSlot_r1"이라는 관계어로서 연결한다.
이 NP는 "hasHead"라는 관계어에 의해서 명사(device)와 연결하고, "hasVP"라는 관계어에 의해서 VP와 연결한다.
VP는 "hasHead"라는 관계어에 의해서 'allows'를 연결하고, "hasSlot_r1"이라는 관계어를 통해 NP와 연결하며 이 NP는 "hasHead"라는 관계어를 통해 'user'와 연결한다.
또한 상기 VP는 다른 VP와 "hasSlot_to"라는 관계어를 통해 연결하고, 이 VP는 "hasHead"라는 관계어를 통해 'enter'와 연결하며, 또 다시 NP는 "hasSlot_r1" 관계어에 의해서 연결되고 이 NP는 "hasHead"라는 관계어를 통해 명사(character)와 연결한다.
도 3은 NP-syntax와 VP-syntax를 나타낸 것으로, 좌측의 NP-syntax의 경우에는 NP는 명사와 "hasHead" 관계어로 연결하고 있다. 예를 들어, "a beautiful woman"의 명사구에 있어서는 "hasHead"의 관계어에 의해서 NP는 'woman'과 연결되고, 형용사 'beautiful'은 "hasSlot_beautiful"의 관계어로 NP와 연결한다.
또 다른 예의 "the TV product of Samsung"의 명사구에서는, NP는 "hasHead"의 관계어에 의해서 'product'와 연결되고, "hasSlot_TV" 관계어를 가지며, 또한 "hasSlot_of" 관계어에 의해서 NP가 연결되고 이 NP는 다시 "hasHead" 관계어에 의해서 "Samsung"과 연결된다.
즉, NP-syntax에 나열된 관계들을 정리하면 다음과 같다:
hasHead: NP의 'head'를 연결한다.
hasSlot_[ADJ]: NP를 수식하는 형용사를 [ADJ]에 대치하여 사용하는 것으로 NP의 'head'를 수식하는 것을 의미한다.
hasSlot_[NOUN]: NP를 수식하는 명사를 [NOUN]에 대치하여 사용하는 것으로 NP의 'head'를 수식하는 것을 의미한다.
hasSlot_[PREP]: NP를 수식하는 전치사구를 이끄는 전치사를 [PREP]에 대치하여 사용하는 것으로 그 전치사가 이끄는 전치사구가 NP를 수식하는 것을 의미한다.
hasVP: NP를 수식하는 관계절을 연결한다.
hasS_that: NP를 수식하는 동격절을 연결한다.
상기한 바와 같은 형식으로, 우축의 VP-syntax에 나열된 관계들을 정리하면 다음과 같다:
hasHead: VP의 'head'에 해당하는 동사를 연결한다.
hasSlot_r1: VP가 취하는 첫번째 논항(argument)을 연결한다.
hasSlot_r2: VP가 취하는 두번째 논항을 연결한다.
hasSlot_[PREP]: VP가 취하는 전치사구를 이끄는 전치사를 [PREP]에 대치하여 사용하는 것으로 그 전치사가 이끄는 전치사구가 VP의 한 요소인 것을 의미한다.
hasSlot_to: VP가 취하는 동사구를 연결한다.
hasS_[SubordinateConjunction]: 동사구가 취하는 종속절을 링크하며 종속절을 이끄는 종속 접속사를 [SubordinateConjunction]에 대치하여 사용한다.
hasSlot_[ADV]: VP를 수식하는 부사를 [ADV]에 대치하여 사용하는 것으로 그 부사가 VP를 수식하는 것을 의미한다.
이상에서 본 발명의 실시예를 특정 단어를 이용하여 관계어를 정의하고 있지만, 본 발명의 개념을 손상하지 않은 범위내에서 다른 용어나 기호 등을 사용할 수 있는 것이 가능하다.

Claims (2)

  1. 자연어 텍스트를 기계이해형 텍스트로 표현하는 방법에 있어서, 다음의 단계를 포함하는 방법:
    문장을 주어부(NP)와 서술부(VP)로 분리하여 'hasVP'라는 관계어를 이용하여주어부와 서술부를 연결하는 단계;
    동사와 이것이 취하는 성분(명사, 형용사, 부사 등)을 분리하여 VP와 동사는 'hasHead'라는 관계어를 이용하여 연결하고, VP와 나머지 성분들은 'hasSlot_X'라는 관계어를 이용하여 연결하는 단계; 및
    주어부를 포함하여 문장 내의 모든 NP에 있어서, NP와 머리명사는 'hasHead'라는 관계어로 연결하고 NP와 나머지 성분들(형용사, 부사 등)은 'hasSlot_Y'라는 관계어를 이용하여 연결하는 단계.
  2. 자연어 텍스트를 기계이해형 텍스트로 표현하는 시스템에 있어서, 다음의 구성부를 포함하는 시스템:
    문장을 주어부(NP)와 서술부(VP)로 분리하여 'hasVP'라는 관계어를 이용하여 주어부와 서술부를 연결하는 처리부;
    동사와 이것이 취하는 성분(명사, 형용사, 부사 등)을 분리하여 VP와 동사는 'hasHead'라는 관계어를 이용하여 연결하고, VP와 나머지 성분들은 'hasSlot_X'라는 관계어를 이용하여 연결하는 처리부; 및
    주어부를 포함하여 문장 내의 모든 NP에 있어서, NP와 머리명사는 'hasHead'라는 관계어로 연결하고 NP와 나머지 성분들(형용사, 부사 등)은 'hasSlot_Y'라는
    관계어를 이용하여 연결하는 처리부.
KR1020100012257A 2010-02-10 2010-02-10 코더 친화적 기계이해형 자연어 텍스트 표현 방법 KR101116471B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100012257A KR101116471B1 (ko) 2010-02-10 2010-02-10 코더 친화적 기계이해형 자연어 텍스트 표현 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100012257A KR101116471B1 (ko) 2010-02-10 2010-02-10 코더 친화적 기계이해형 자연어 텍스트 표현 방법

Publications (2)

Publication Number Publication Date
KR20110092691A true KR20110092691A (ko) 2011-08-18
KR101116471B1 KR101116471B1 (ko) 2012-03-07

Family

ID=44929496

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100012257A KR101116471B1 (ko) 2010-02-10 2010-02-10 코더 친화적 기계이해형 자연어 텍스트 표현 방법

Country Status (1)

Country Link
KR (1) KR101116471B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101663673B1 (ko) * 2015-06-16 2016-10-14 한림대학교 산학협력단 2스텝 분석 절차를 사용한srl 기반의 문장 분석 방법 및 장치
KR20190130905A (ko) * 2018-05-15 2019-11-25 한국전자통신연구원 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100652901B1 (ko) 2005-12-07 2006-12-04 한국전자통신연구원 나열 및 병렬형 구문 분석 장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101663673B1 (ko) * 2015-06-16 2016-10-14 한림대학교 산학협력단 2스텝 분석 절차를 사용한srl 기반의 문장 분석 방법 및 장치
KR20190130905A (ko) * 2018-05-15 2019-11-25 한국전자통신연구원 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법

Also Published As

Publication number Publication date
KR101116471B1 (ko) 2012-03-07

Similar Documents

Publication Publication Date Title
McCrae et al. Linking lexical resources and ontologies on the semantic web with lemon
Ide et al. Standards for language resources
Davydov et al. Mathematical method of translation into Ukrainian sign language based on ontologies
Shinde et al. Nlp based object oriented analysis and design from requirement specification
Linh et al. A case study on meaning representation for Vietnamese
US7401016B2 (en) Communication support system, communication support method, and computer program
Fan et al. An HPSG-based shared-grammar for the Chinese languages: ZHONG [|]
Farwell et al. Automatically creating lexical entries for ULTRA, a multilingual MT system
Necşulescu et al. Towards the automatic merging of language resources
KR101116471B1 (ko) 코더 친화적 기계이해형 자연어 텍스트 표현 방법
Bimson et al. The lexical bridge: A methodology for bridging the semantic gaps between a natural language and an ontology
Sinhal et al. Machine translation approaches and design aspects
Bimson et al. Unnatural language processing: Characterizing the challenges in translating natural language semantics into ontology semantics
Pretkalniņa et al. Universal Dependency treebank for Latvian: A pilot
Mota et al. eSPERTo’s paraphrastic knowledge applied to question-answering and summarization
JP4033011B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2005284723A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Schütte Generating natural language descriptions of ontology concepts
JP4039282B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Mendes et al. Using a discourse bank and a lexicon for the automatic identification of discourse connectives
Hammouda et al. Arabic NooJ parser: nominal sentence case
Bosco et al. Towards a Universal Stanford Dependencies parallel treebank
Wróblewska et al. Associations between texts and ontology
Angelov Bootstrapping Open-Source English-Bulgarian Computational Dictionary.
Cirillo Dealing with producing and consuming expressions in Italian sentiment analysis

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150209

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee