KR20010110496A - 용언을 중심으로 한 의미분석 지식 베이스의 구축방법 - Google Patents

용언을 중심으로 한 의미분석 지식 베이스의 구축방법 Download PDF

Info

Publication number
KR20010110496A
KR20010110496A KR1020000030802A KR20000030802A KR20010110496A KR 20010110496 A KR20010110496 A KR 20010110496A KR 1020000030802 A KR1020000030802 A KR 1020000030802A KR 20000030802 A KR20000030802 A KR 20000030802A KR 20010110496 A KR20010110496 A KR 20010110496A
Authority
KR
South Korea
Prior art keywords
noun
verb
knowledge base
network
semantic analysis
Prior art date
Application number
KR1020000030802A
Other languages
English (en)
Inventor
문유진
Original Assignee
문유진
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 문유진 filed Critical 문유진
Priority to KR1020000030802A priority Critical patent/KR20010110496A/ko
Publication of KR20010110496A publication Critical patent/KR20010110496A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 공기제약 관계를 갖는 명사개념망과 용언개념망을 이용하여 용언을 중심으로 한 의미분석 지식 베이스의 구축방법에 관한 것이다.
본 발명에 의한 용언을 중심으로 한 의미분석 지식 베이스의 구축방법은 (a)의미론적으로 유사한 특성을 갖는 용언들을 계층적으로 그룹화하여 용언개념망을 구축하는 단계; (b)명사의 의미에 기초하여 명사를 그룹화하여 명사개념망을 구축하는 단계; (c)상기 용언개념망과 상기 명사개념망을 통합하는 단계를 포함함을 특징으로 한다.
본 발명에 의하면, 첫째, 한국어 정보처리와 기계번역에서 명사와 용언의 중의성을 해소하고, 둘째, 한국어 정보처리에 있어서, 의미분석을 통하여 틀린문장을 검색하고, 셋째, 대화이해 및 생성에서 생략 및 축약현상처리를 위한 기초연구를 제공하고, 넷째, 정보검색, 요약 및 필터링을 위한 텍스트 이해에서 공기정보, 구조정보추출을 위한 기초연구를 제공하고, 다섯째, 음성인식에서 유사한 발음을 가진 단어 중 올바른 단어를 인식하는데 활용한다.

Description

용언을 중심으로 한 의미분석 지식 베이스의 구축방법{Construction method of knowledge base for semantic analysis centering arround predicates}
본 발명은 자연어처리에 관한 것으로, 특히 의미분석을 통한 지식베이스 구축방법에 관한 것이다.
도 1은 동사 "걸다"와 "내리다"의 하위범주화(subcategorization)"를 도시한 것이다.
도 1에서 동사 "걸다"와 공기제약 관계(on-occurrence restriction relation)를 갖는 목적어를 '액자, 사진, 문고리 자물쇠, 목숨'으로 서술하였는데,이는 취할 수 있는 목적어의 일부분에 해당될 뿐 모든 가능한 목적어를 서술하지는 못하였다. 또한, 동사 "걸다"의 공기제약 관계를 갖는 주어를 '선생님, 철수, 영호, 원숭이'로 서술하였는데, 이는 취할 수 있는 주어의 일부분에 해당될 뿐 모든 가능한 주어를 서술하지는 못하였다.
또한, 용언을 추가할 때마다, 추가하는 용언에 대한 공기제약 관계를 매번 독립적으로 조사하여 서술해주어야 한다. 그 이유는 유사한 하위범주화를 취하는 용언이 있으면 그룹화하여 참조할 수 있도록 해야 하는데, 종래의 기술에서는 용언의 그룹화가 전혀 되어있지 않기 때문이다.
본 발명이 이루고자하는 기술적 과제는 용언이 어떤 특정 단어와 공기제약 관계를 취하는 경우에는 특정 단어만을 예외적으로 따로 서술하고, 용언 개념망을 이용하여 같은 그룹 내에 있는 용언의 공기제약 관계를 활용하는 용언을 중심으로 한 의미분석 지식 베이스의 구축방법을 제공함에 있다.
도 1은 동사 "걸다"와 "내리다"의 하위범주화(subcategorization)"를 도시한 것이다.
도 2는 용언개념망의 구조의 실시예를 도시한 것이다.
도 3은 명사개념망의 구조의 실시예를 도시한 것이다.
도 4는 본 발명에 의한 용언을 중심으로 한 의미분석 지식 베이스의 실시예로서, DISNet의 일부를 도시한 것이다.
상기 기술적 과제를 해결하기 위한 본 발명에 의한 용언을 중심으로 한 의미분석 지식 베이스의 구축방법은 (a)의미론적으로 유사한 특성을 갖는 용언들을 계층적으로 그룹화하여 용언개념망을 구축하는 단계; (b)명사의 의미에 기초하여 명사를 그룹화하여 명사개념망을 구축하는 단계; (c)상기 용언개념망에 상기 명사개념망을 통합하는 단계를 포함함을 특징으로 한다.
또한, 상기 (a)단계는 의미론적 속성을 명시하는 상기 용언개념망에 공기제약관계를 취하는 구문론적 속성을 보강하여 하위범주화 정보를 제공함을 특징으로 한다.
또한, 상기 (b)단계는 하위개념 집합을 자동으로 추출할 수 있는 명사개념망을 공기제약 관계의 서술에 활용함을 특징으로 한다.
또한, 상기 (c)단계는 상기 용언개념망에서 제공하는 상기 구문론적 속성이 보강된 하위범주화 정보에 명사개념망을 통합하는 단계를 포함함을 특징으로 한다.
또한, 상기 (c)단계는 상기 용언과 상기 명사의 공기제약관계를 구문정보로 제공하여 상기 용언과 상기 명사의 중의성을 해결함을 특징으로 한다.
또한, 상기 지식베이스는 용언; 상기 용언에 대한 문장의 구조; 및 상기 용언에 대한 하위범주화 정보를 포함함을 특징으로 한다.
이하 도면을 참조하여 본 발명을 상세히 설명하기로 한다.
도 2는 용언개념망의 구조의 실시예를 도시한 것이다.
도 2는 용언 클래스 9의 그룹화의 실시예를 도시한 것으로, 의미론적인 면에서 유사한 용언들을 모아서 그룹화한 용언 클래스 9.1 ~ 9.9를 서술하고 있다.
용언클래스 9.1은 두다, 넣다, 배열하다, 설치하다, 걸다 등의 용언을 포함하며, 같은 용언 클래스에 속하는 용언들은 유사한 공기제약 관계를 갖는다.
도 3은 명사개념망의 구조의 실시예를 도시한 것이다.
명사 "감"의 개념망 구조에서, 명사 "감"은 크게 두가지 의미를 가지고 있다. 즉, 'decrease'와 'persimmon'이다. 첫 번째 의미인 'decrease'는 다시 세가지의 개념(sense1, sense2, sense3)을 지닌다. 두 번째 의미에서 'persimon(감, 과일)'의 상위개념은 'fruit(과일)'이며 'fruit(과일)'의 상위개념은 'produce(생산물), green goods(청과)'임을 서술하고 있다.
명사 "포도"는 크게 한 가지 의미를 가지고 있다. 즉, 'grape'이다. 'grape'의 의미는 두 가지의 개념(sense 1과 sense 2)을 취한다. 첫 번째 개념인 'grape(포도과일)'의 상위개념은 'fruit(과일)'이며, 'fruit(과일)'의 상위개념은 'produce(생산물), green goods(청과)' 임을 서술하고 있다.
도 3과 같은 명사 개념망에서 'fruit(과일)' 개념의 하위개념 집합은 명사 "포도"와 "감"이란 것을 추출할 수 있다.
이 기술개발에서는 하위개념 집합을 자동으로 추출할 수 있는 명사 개념망을 공기제약 관계의 서술에 활용한다.
명사 개념망은 의미에 기초하여 명사의 그룹화를 수행하였다. 최상위 개념은 9개로 그룹화하였다. 이를 테면, 'entity(실체)' 개념은 noun class 1로 그룹화하였고, 'object(물건), inanimate object(무생물), physical object(실제물), thing(유형물)' 개념은 'entity(실제)' 개념의 하위개념으로 noun class 1.3으로 그룹화하였다. 이러한 방식으로 명사의 모든 개념을 그룹화하였다.
용언 개념망과 명사개념망의 통합은 한국어 정보처리의 의미 분석과 음성이해를 가속화시킬 것이다. 이러한 통합 개념망을 개발하기 위한 기술의 구성은 두 단계로 나누어져 있다.
첫째, 의미론적 속성을 명시하는 한국어 용언 개념망에 공기제약 관계를 취하는 구문론적 속성을 보강함으로써 하위범주화 정보를 제공하도록 한다.
둘째, 이 보강된 한국어 용언 개념망의 하위범주화 정보에 한국어 명사 개념망을 통합하는 것이다. 이 통합된 개념망을 DISNet(Database for Integration of Semantic Network)으로 명명하고자 한다.
DISNet를 지식베이스로 활용하면, 한국어 정보처리를 수행함에 있어서, 어떤 용언과 어떤 명사가 공기제약 관계를 갖는지 일일이 명시하지 않아도 된다. 또한 용언과 명사의 공기제약 관계를 구문 정보로 제공함으로, 용언과 명사의 중의성을 해결하는데 활용될 수 있다. 한국어 용언 개념망에서 같은 용언 클래스에 속하는 용언들은 유사한 구조의 하위범주화 정보를 취하므로, 기본적인 DISNet이 구축되면 DISNet의 확장을 가속화시킬 수 있다.
도 4는 본 발명에 의한 용언을 중심으로 한 의미분석 지식 베이스의 실시예로서, DISNet의 일부를 도시한 것이다.
도 4에서 용언 개념망의 용언 클래스 9.1은 "걸다(hang)"라는 용언을 포함한다. 이 용언은 POS(Part Of Speech) slot에 '타동사'라는 값을 가지고, SYN(Syntactic Feature) slot에 'S+V+O+L(주어+동사+목적어+위치)'라는 값을 가지며, SUBCAT(Subcategorization) slot에는 명사나 명사 개념망의 계층적 클래스를 값으로 갖는데 이는 SYN slot에 해당하는 구체적인 값이다. 용언 "걸다"의 주어는 'person, individual, human'(명사 개념망의 noun class 1.2.1) 개념의 그룹에 속하는 명사들 혹은 'animal, animate being, brute'(명사 개념망의 noun class 1.2.2) 개념의 그룹에 속하는 명사들이다. 용언 "걸다"의 목적어는 명사 '목숨'과 'object, inanimate object, thing'(명사 개념망의 noun class 1.3) 개념의 그룹에속하는 명사들이다. 그리고 용언 "걸다"의 위치 명사는 'location'(명사 개념망의 noun class 5.6) 개념의 그룹에 속하는 명사들이다. SUBCAT의 값들은 말뭉치로부터 모으고 명사 개념망에 매핑시킨 것이다.
위와 같은 방법으로 명사 개념망이 용언 개념망과 통합됨으로써 정확성과 효율성이 높은 의미분석 지식베이스를 구성하게 된다.
도면과 명세서는 단지 본 발명의 예시적인 것으로서, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
본 발명에 의하면, 첫째, 한국어 정보처리와 기계번역에서 명사와 용언의 중의성을 해소하고, 둘째, 한국어 정보처리에 있어서, 의미분석을 통하여 틀린문장을 검색하고, 셋째, 대화이해 및 생성에서 생략 및 축약현상처리를 위한 기초연구를 제공하고, 넷째, 정보검색, 요약 및 필터링을 위한 텍스트 이해에서 공기정보, 구조정보추출을 위한 기초연구를 제공하고, 다섯째, 음성인식에서 유사한 발음을 가진 단어 중 올바른 단어를 인식하는데 활용한다.

Claims (6)

  1. (a)의미론적으로 유사한 특성을 갖는 용언들을 계층적으로 그룹화하여 용언개념망을 구축하는 단계;
    (b)명사의 의미에 기초하여 명사를 그룹화하여 명사개념망을 구축하는 단계;
    (c)상기 용언개념망에 상기 명사개념망을 통합하는 단계를 포함함을 특징으로 하는 용언을 중심으로 한 의미분석 지식 베이스의 구축방법.
  2. 제1항에 있어서, 상기 (a)단계는
    의미론적 속성을 명시하는 상기 용언개념망에 공기제약관계를 취하는 구문론적 속성을 보강하여 하위범주화 정보를 제공함을 특징으로 하는 용언을 중심으로 한 의미분석 지식 베이스의 구축방법.
  3. 제1항에 있어서, 상기 (b)단계는
    하위개념 집합을 자동으로 추출할 수 있는 명사개념망을 공기제약 관계의 서술에 활용함을 특징으로 하는 용언을 중심으로 한 의미분석 지식 베이스의 구축방법.
  4. 제1항 또는 제2항에 있어서, 상기 (c)단계는
    상기 용언개념망에서 제공하는 상기 구문론적 속성이 보강된 하위범주화 정보에 명사개념망을 통합하는 단계를 포함함을 특징으로 하는 용언을 중심으로 한 의미분석 지식 베이스의 구축방법.
  5. 제4항에 있어서, 상기 (c)단계는
    상기 용언과 상기 명사의 공기제약관계를 구문정보로 제공하여 상기 용언과 상기 명사의 중의성을 해결함을 특징으로 하는 용언을 중심으로 한 의미분석 지식 베이스의 구축방법.
  6. 제1항에 있어서, 상기 지식베이스는
    용언;
    상기 용언에 대한 문장의 구조; 및
    상기 용언에 대한 하위범주화 정보를 포함함을 특징으로 하는 용언을 중심으로 한 의미분석 지식 베이스의 구축방법.
KR1020000030802A 2000-06-05 2000-06-05 용언을 중심으로 한 의미분석 지식 베이스의 구축방법 KR20010110496A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020000030802A KR20010110496A (ko) 2000-06-05 2000-06-05 용언을 중심으로 한 의미분석 지식 베이스의 구축방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000030802A KR20010110496A (ko) 2000-06-05 2000-06-05 용언을 중심으로 한 의미분석 지식 베이스의 구축방법

Publications (1)

Publication Number Publication Date
KR20010110496A true KR20010110496A (ko) 2001-12-13

Family

ID=45929110

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000030802A KR20010110496A (ko) 2000-06-05 2000-06-05 용언을 중심으로 한 의미분석 지식 베이스의 구축방법

Country Status (1)

Country Link
KR (1) KR20010110496A (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020036059A (ko) * 2000-11-07 2002-05-16 옥철영 사전 뜻풀이말에서 추출된 의미정보를 기반으로하는 의미중의성 해결 방법
KR100474359B1 (ko) * 2002-12-12 2005-03-10 한국전자통신연구원 키워드 기반 N-gram 언어모델 구축 방법
KR100568977B1 (ko) * 2004-12-20 2006-04-07 한국전자통신연구원 생물학적 관계 추출 시스템 및 생물 정보 처리 방법
KR100912501B1 (ko) * 2007-08-09 2009-08-17 한국전자통신연구원 번역 지식 구축 방법 및 장치
KR100941155B1 (ko) * 2006-12-05 2010-02-10 한국전자통신연구원 온톨로지의 도메인 정보를 이용한 문서 요약 방법 및 장치

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020036059A (ko) * 2000-11-07 2002-05-16 옥철영 사전 뜻풀이말에서 추출된 의미정보를 기반으로하는 의미중의성 해결 방법
KR100474359B1 (ko) * 2002-12-12 2005-03-10 한국전자통신연구원 키워드 기반 N-gram 언어모델 구축 방법
KR100568977B1 (ko) * 2004-12-20 2006-04-07 한국전자통신연구원 생물학적 관계 추출 시스템 및 생물 정보 처리 방법
KR100941155B1 (ko) * 2006-12-05 2010-02-10 한국전자통신연구원 온톨로지의 도메인 정보를 이용한 문서 요약 방법 및 장치
KR100912501B1 (ko) * 2007-08-09 2009-08-17 한국전자통신연구원 번역 지식 구축 방법 및 장치
US8121829B2 (en) 2007-08-09 2012-02-21 Electronics And Telecommunications Research Institute Method and apparatus for constructing translation knowledge

Similar Documents

Publication Publication Date Title
Sadler et al. Prenominal adjectives and the phrasal/lexical distinction1
Marcus et al. D-theory: Talking about talking about trees
Gaizauskas et al. University of Sheffield: Description of the LaSIE system as used for MUC-6
Jacquemin et al. Expansion of multi-word terms for indexing and retrieval using morphology and syntax
JPH0242572A (ja) 共起関係辞書生成保守方法
WO1999021105A9 (en) Automatically recognizing the discourse structure of a body of text
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
WO1997004405A1 (en) Method and apparatus for automated search and retrieval processing
CN111984778A (zh) 基于依存句法分析和汉语语法的多轮语义分析方法
JP2609173B2 (ja) 用例主導型機械翻訳方法
KR20010110496A (ko) 용언을 중심으로 한 의미분석 지식 베이스의 구축방법
Sharp A model of grammar based on principles of government and binding
Lightfoot Peter W. Culicover and Wendy K. Wilkins, Locality in linguistic theory. New York and London: Academic Press, 1984. Pp. viii+ 276.
Breidt et al. Accessing foreign languages with COMPASS
KR100376931B1 (ko) 정보 검색 기술을 이용한 한영번역 데이터베이스 시스템 구축 방법
Tsai et al. Word Sense Disambiguation and Sense-Based NV Event Frame Identifier
Bourbakis et al. An SPN based methodology for document understanding
Trippel The Lexicon Graph Model: A generic model for multimodal lexicon development
Tsai et al. Applying an NVEF Word-Pair Identifier to the Chinese Syllable-to-Word Conversion Problem
Loftsson Tagging and parsing Icelandic text
Niemann et al. Representation of a continuous speech understanding and dialog system in a homogeneous semantic net achitecture
Galicia-Haro Using electronic texts for an annotated corpus building
Zelinsky-Wibbelt Exploiting linguistic iconism for article selection in machine translation
WO1999021106A1 (en) Automatically recognizing the discourse structure of a body of text
Badia et al. A modular architecture for the processing of free text

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application