KR20000033464A - 한국어 개념분류체계 구축방법과, 수정방법 및 구축장치 - Google Patents

한국어 개념분류체계 구축방법과, 수정방법 및 구축장치 Download PDF

Info

Publication number
KR20000033464A
KR20000033464A KR1019980050332A KR19980050332A KR20000033464A KR 20000033464 A KR20000033464 A KR 20000033464A KR 1019980050332 A KR1019980050332 A KR 1019980050332A KR 19980050332 A KR19980050332 A KR 19980050332A KR 20000033464 A KR20000033464 A KR 20000033464A
Authority
KR
South Korea
Prior art keywords
sentence
semantic
error
classification system
information
Prior art date
Application number
KR1019980050332A
Other languages
English (en)
Other versions
KR100331029B1 (ko
Inventor
류법모
박재득
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR1019980050332A priority Critical patent/KR100331029B1/ko
Publication of KR20000033464A publication Critical patent/KR20000033464A/ko
Application granted granted Critical
Publication of KR100331029B1 publication Critical patent/KR100331029B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 한국어 개념분류체계 구축에 관한 것으로서, 특히 구문/의미 분석 장치를 이용한 한국어 개념분류체계 구축방법, 수정방법 및 구축장치에 관한 것이다.
이러한 본 발명은, 형태소 단위로 품사가 부착된 문장이 입력되면, 상기 문장의 구문과 의미를 분석하는 제1단계와, 상기 제1단계의 분석 결과, 문장의 구문적 애매성이 존재하면, 문장의 구문규칙 오류와, 전자사전의 구문정보 오류, 및 전자사전의 의미정보 오류 여부를 판단하여, 해당되는 오류 정보를 수정하는 제2단계, 상기 제1단계의 분석 결과, 문장의 의미적 애매성이 존재하면, 전자사전의 의미정보 오류 여부를 판단하여 오류 정보를 수정하는 제3단계, 상기 제1단계의 분석 결과, 구문적 애매성과 의미적 애매성이 존재하지 않지만 의미 선택 오류가 존재하면, 전자사전의 의미정보 오류 여부를 판단하여 오류 정보를 수정하는 제4단계, 및 상기 구문적 애매성과 의미적 애매성 및 의미 선택 오류가 존재하지 않으면, 구문구조와 의미표지가 바르게 부착된 문장으로 출력하는 제5단계를 포함한 것을 특징으로 하는 한국어 개념분류체계 구축방법에 의해 구현된다.

Description

한국어 개념분류체계 구축방법과, 수정방법 및 구축장치
본 발명은 한국어 개념분류체계 구축에 관한 것으로서, 특히 구문/의미 분석 장치를 이용한 한국어 개념분류체계 구축방법, 수정방법 및 구축장치에 관한 것이다.
자연어처리 응용시스템에 사용될 수 있는 한국어 개념분류체계를 구축하고, 검증하는 일은 대단히 어려운 작업이다. 그러나, 종래의 기술에서는 한국어 개념분류체계 구축과정과 응용과정이 독립되어 있기 때문에, 실제 응용과정에서 문제점이 발생했을 때에는 많은 비용과 시간을 들여 수정해야 한다는 문제점이 있었다. 또한, 개념을 정의하고 세분하는 과정을 절차화하지 않았기 때문에 작업자와 작업시간에 따라서 작업내용에 일관성이 없었다.
한편, 선행특허로는 엘지전자 주식회사가 출원한 대한민국 공개특허 1998-029011호, "어휘 자동 분류 장치 및 방법" 이 있다. 이 특허는 이미 구축된 어휘분류체계를 이용하여, 자동으로 어휘를 분류하는 방법 및 장치에 관한 것이고, 자연어처리에 적합한 개념분류체계를 구축하는 방법 및 장치와 관련된 내용은 아니다.
또한, 선행논문으로는 제10회 한글 및 한국어 정보처리 학술대회 논문집에 게재된 "의미속성에 기반한 한국어 명사 의미 TAG에 관한 연구[이수광 외 5명, pp. 412-418, 1998]" 와, 한국정보처리학회 추계학술발표지 5권 2호에 게재된 "한국어 동사 개념망의 구축과 부사의 Selectional Restriction에의 활용[박광철 외 1명, pp.513-516]" 과, 정보과학회논문지(C) 제2권 제4호에 게재된 "한국어 명사를 위한 WordNet의 설계와 구현 [문유진, pp. 437-445]" 등이 있다.
이런 선행 논문들은 명사 또는 동사 한 가지 품사에 대해서만 개념분류체계를 구축하였으며, 분류체계 구축과정과 응용과정이 독립되어 있어서, 한번 구축된 개념들을 실재 자연어처리 응용할 때에는 많은 문제점이 발생하였다. 또한, 이러한 선행 논문에서 발표된 개념분류체계는 인간이 생각하는 모든 개념에 대해서 똑같은 비중을 가지고 구축되었지만, 자연어처리 응용 시스템에서는 어휘의 중의성이나 구문적 애매성이 발생하는 어휘에 대한 개념을 중심으로 구축되어야 한다.
예를 들어, "사람"이란 개념은 철학적 관점의 개념분류체계에서는 아주 큰 영역을 차지하지만, 자연어처리 관점에서는 전혀 의미상으로 중의성을 가지지 않기 때문에 적은 비중을 차지한다.
또한, 기존의 개념분류체계는 구축하는 것에만 목적이 있었기 때문에 구축된 개념분류체계를 이용할 수 있는 방법은 제공하지 못하고 있다. 또한, 기존의 개념분류체계 구축방법은 전체 구축과정을 절차화시키지 않았기 때문에 작업자에 따른 주관, 작업환경에 따른 주관 등에 의해 일관성이 없는 개념분류체계가 만들어진다. 즉, 종래의 선행 특허나 선행 논문에 의해 공개된 개념분류체계에서는 이와 같은 문제점들이 발생하였다.
따라서, 본 발명은 상기와 같은 종래기술의 문제점을 해결하기 위하여 안출된 것으로서, 자연어처리 응용시스템에서 필요한 어휘의 중의성 문제, 구문적 애매성 문제를 처리할 수 있도록 자연어처리 입장에서 개발된 개념분류체계를 구축하는 데 목적이 있다.
본 발명은, 개념분류체계를 구축하는 작업자의 주관을 최소화하는 작업환경을 제공하여 객관적이고 일관성있는 개념분류체계를 구축하는 데 다른 목적이 있다.
도 1은 본 발명의 한 실시예에 따른 한국어 개념분류체계 구축장치를 도시한 구성도,
도 2는 본 발명의 한 실시예에 따른 한국어 개념분류체계 구축방법을 도시한 순서 흐름도,
도 3은 본 발명의 한 실시예에 따른 한국어 개념분류체계 수정방법을 도시한 순서 흐름도이다.
* 도면의 주요부분에 대한 부호의 설명 *
10 : 사용자 인터페이스장치 20 : 세계 지식베이스 탐색장치
21 : 세계 지식베이스 탐색모듈 22 : 국어사전
23 : 백과사전 24 : 용례베이스
30 : 개념분류 탐색/편집장치 31 : 개념분류 탐색/편집모듈
32 : 개념분류 베이스
40 : 자연어 분석 및 언어지식베이스 탐색/편집 장치
41 : 구문/의미 분석모듈 42 : 언어 지식베이스 탐색/편집모듈
43 : 검증 테스트집합(test suites)
44 : 용언의 하위범주 사전 45 : 구문규칙 베이스
46 : 언어분석용 전자사전 50 : 작업 진행관리장치
상기한 목적을 달성하기 위하여 본 발명은, 사용자 인터페이스장치와,
상기 사용자 인터페이스장치를 통해 형태소 단위로 품사가 부착된 문장이 입력되면 상기 문장의 구문분석과 의미분석을 수행하는 구문/의미 분석모듈,
상기 문장을 통해 제공되는 어휘에 대한 국어사전적 정의와, 백과사전적 정의, 및 용례 등을 탐색하는 세계 지식베이스 탐색모듈,
상기 각 어휘별로 특성을 추가, 삭제, 편집하는 언어 지식베이스 탐색/편집모듈, 및
작업의 진행을 관리하는 진행관리모듈을 포함한 것을 특징으로 하는 한국어 개념분류체계 구축장치를 제공한다.
보다 바람직하게, 본 발명은 상기 어휘의 개념분류체계를 수정할 때, 객관적인 절차에 따라 작업자에게 필요한 정보와 절차를 제공하는 그래픽 형태의 개념분류 탐색/편집모듈을 더 포함한 것을 특징으로 한다.
또한, 본 발명은, 형태소 단위로 품사가 부착된 문장이 입력되면, 상기 문장의 구문과 의미를 분석하는 제1단계와,
상기 제1단계의 분석 결과, 문장의 구문적 애매성이 존재하면, 문장의 구문규칙 오류와, 전자사전의 구문정보 오류, 및 전자사전의 의미정보 오류 여부를 판단하여, 해당되는 오류 정보를 수정하는 제2단계,
상기 제1단계의 분석 결과, 문장의 의미적 애매성이 존재하면, 전자사전의 의미정보 오류 여부를 판단하여 오류 정보를 수정하는 제3단계,
상기 제1단계의 분석 결과, 구문적 애매성과 의미적 애매성이 존재하지 않지만 의미 선택 오류가 존재하면, 전자사전의 의미정보 오류 여부를 판단하여 오류 정보를 수정하는 제4단계, 및
상기 구문적 애매성과 의미적 애매성 및 의미 선택 오류가 존재하지 않으면, 구문구조와 의미표지가 바르게 부착된 문장으로 출력하는 제5단계를 포함한 것을 특징으로 하는 한국어 개념분류체계 구축방법을 제공한다.
또한, 본 발명은, 개념분류체계의 세분화가 필요한 어휘( wi )에 대한 개념분류체계 구축에 사용될 의미들( mj )을 찾아내는 제1단계와,
상기 의미들( mj )의 의미 범위가 명확해질 때까지 정해진 단계에 따라 의미를 제한하는 제2단계,
상기 의미들( mj )의 범위가 명확해지면, 의미들( mj )의 개념을 포괄할 수 있는 어휘분류노드(C)가 존재하는 지를 판단하여, 해당되는 어휘분류노드의 어휘집합에 상기 어휘( wi )를 등록하는 제3단계,
상기 제3단계에서, 상기 의미들( mj )이 어휘분류노드(C)나 그 하위 분류에 속하지 않으면, 상기 어휘( wi )를 분류불가집합에 등록하는 제4단계, 및
상기 제3단계에서, 상기 의미들( mj )이 어휘분류노드(C)의 하위 분류에 속하면, 상기 어휘분류노드에 새로운 하위 분류를 만들고 상기 어휘( wi )를 새로운 하위 분류에 등록하는 제5단계를 포함한 것을 특징으로 하는 한국어 개념분류체계 수정방법을 제공한다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 설명하면 다음과 같다.
도 1은 본 발명에 따른 하드웨어 구성도로서, 크게 사용자 인터페이스 장치(10)와, 세계지식베이스 탐색모듈(20), 개념분류 탐색/편집모듈(30), 자연어 분석 및 언어지식베이스 탐색/편집장치(40), 작업 진행관리모듈(50)로 구성된다.
위 장치들을 이용한 개념분류체계 구축과정은 작업 진행관리장치(50)에 의해서 진행된다. 본 발명에 따른 개념분류체계 구축방법을 설명하기에 앞서, 본 발명에서 언급하고 있는 각 용어를 도 2를 참조하면서 설명하면 다음과 같다.
단계 S11의 형태소 단위로 품사가 부착된 문장이란 각 어절을 형태소 단위로 분할한 후 각 형태소에 해당하는 품사를 부착한 문장을 말한다.
단계 S12의 구문/의미 분석이란 품사단위의 의존규칙을 기반으로 각 어절별로 지배소를 찾는 구문분석 모듈의 실행과, 용언의 하위범주 정보와 각 용언의 아규먼트로 사용될 수 있는 명사와 부사의 의미정보를 기반으로 선택제약(selectional restriction)을 적용하여 구문적 애매성 및 의미적 애매성을 제거하는 구문/의미분석 모듈(41)의 실행을 포함한다.
단계 S13의 구문적 애매성이란 구문 분석을 위해서 기본적인 문법으로 의존 문법을 사용하였을 때, 하나의 어절에 대해서 두 개 이상의 지배소가 생성되는 경우를 의미한다. 구문적 애매성은 첫째, 분석 문장에 구문적 애매성이 내재되어 있기 때문에 나타날 수 있고, 둘째, 구문 규칙에 오류가 있어서 나타날 수도 있으며, 셋째, 전자사전에 구문, 의미정보가 빠져 있거나, 잘못 입력되어 있을 때 발생한다.
단계 S14의 의미적 애매성이란 한 개의 어절이 사전적으로 여러 개의 의미를 가지고 있을 때, 각 의미들 사이에 변별력이 없어서 구문/의미 분석 후 하나를 선택하지 못하는 경우를 말한다.
단계 S15의 의미 선택 오류란 구문적 애매성 오류검사과정과 의미적 애매성 오류검사과정을 거친 후, 전문가가 판단해서 각 형태소에 할당된 의미 표지가 적당하지 않을 때를 말한다. 의미 선택 오류의 원인으로는 첫째, 개념분류체계에 원하는 의미가 포함되지 않은 경우, 둘째, 전자사전에서 해당 어휘에 대해서 원하는 의미가 포함되지 않은 경우, 셋째, 구문/의미 분석과정에서 적당한 의미 표지가 삭제된 경우 등이 있다.
단계 S16의 구문구조/의미표지 부착 문장이란 형태소 표지가 부착된 문장에 대해서 구문적 결합관계 정보와 어절별로 의미 표지가 부가된 형태를 말한다.
단계 S17의 구문규칙 오류란 구문규칙이 잘못되었거나, 필요한 구문규칙이 없는 경우, 구문규칙의 세분화가 필요한 경우를 말한다.
단계 S18의 전자사전 구문정보 오류란 전자사전에 구문정보가 잘못되었거나, 빠져있는 경우를 말한다.
단계 S19의 전자사전 의미정보 오류란 전자사전에 의미정보가 잘못되었거나, 빠져있는 경우를 말한다.
단계 S20의 개념분류체계 변별력 유무란 애매성을 해소하기 위해서 개념분류체계를 더 세분화할 필요가 있는 경우는 개념분류체계 변별력이 없다고 말하고, 문장 자체가 애매성이 내재되어 있기 때문에 더 이상 개념분류체계를 세분화할 필요가 없을 경우는 변별력이 있다고 말한다.
단계 S21의 애매성이 내재된 문장이란 문장 단위에서는 구문적, 의미적 애매성을 해소할 수 없는 문장을 말한다.
단계 S22의 구문규칙 수정은 잘못된 규칙 제거, 새로운 규칙 추가, 기존의 규칙 세분화 등을 말한다.
단계 S23의 전자사전 구문정보 수정이란 용언의 하위범주 정보, 품사별 형태소, 구문, 의미 정보 등 자연어분석을 위해서 필요한 정보들을 추가, 삭제, 수정하는 작업을 말한다.
단계 S24의 전자사전 의미정보 수정이란 표제어별로 전자사전에 기록되어 있는 의미정보의 오류를 수정하거나 필요 없는 정보의 삭제, 필요한 정보의 추가 작업을 의미한다.
단계 S25의 개념분류체계 수정이란 개념분류체계가 적절한 변별력을 가지지 못할 때, 개념을 세분화하거나 특성정보를 추가하는 작업을 말한다.
도 1과 도 2를 참조하면서, 한국어 개념분류체계 구축방법을 설명하면 다음과 같다.
시스템의 입력은 형태소 단위로 품사가 부착된 문장이고, 출력은 구문구조/의미표지가 부착된 문장이다.
형태소 단위로 품사가 부착된 문장이 입력되면(단계 S11), 구문/의미 분석모듈(41)은 구문분석과 의미분석을 단계적으로 수행한다(단계 S12). 분석 결과에 구문적 애매성이 있는 지를 검사하여(단계 S13), 구문적 애매성이 있으면 구문 규칙에 오류가 있는 지 검사한다(단계 S17). 구문 규칙에 오류가 있는 경우에는 언어 지식베이스 탐색/편집모듈(42)을 사용하여 구문 규칙 베이스(45)를 수정한 후, 수정된 문장을 구문/의미 분석 모듈(41)로 입력한다(단계 S22).
단계 S17에서 구문 규칙에 오류가 없는 경우에는 전자사전의 구문정보에 오류가 있는 지를 검사한다(단계 S18). 전자사전의 구문정보에 오류가 있는 경우는 언어 지식베이스 탐색/편집모듈(42)을 사용하여 언어 분석용 전자사전(46)을 수정한 후, 수정된 문장을 구문/의미 분석모듈(41)로 입력한다(단계 S23).
단계 S18에서 전자사전의 구문정보에 오류가 없는 경우에는 언어 지식베이스 탐색/편집모듈(42)을 사용하여 전자사전의 의미정보에 오류가 있는 지를 검사한다(단계 S19). 전자사전의 의미정보에 오류가 있으면, 언어 분석용 전자사전(46)의 의미 정보를 수정한 후, 수정된 문장을 구문/의미 분석모듈(41)로 입력한다(단계 S24).
단계 S19에서 전자사전의 구문 의미정보에 오류가 없는 경우에는 개념분류체계가 애매성이 있는 어휘의 개념을 분류할 수 있는 변별력을 가지는 지를 검사한다(단계 S20). 어휘분류체계 변별력이 없을 때에는 개념분류 탐색/편집모듈(31)을 이용하여 개념분류 베이스(32)를 정해진 수정 절차에 따라서 변별력을 가질 수 있도록 수정하고(단계 S25), 수정된 개념분류체계에 맞게 전자사전의 의미정보를 수정한(단계 S24) 후, 수정된 문장을 구문/의미 분석 모듈(41)로 입력한다. 단계 S25의 개념분류체계 수정절차는 도 3에 상세하게 기술되어 있는 바, 이는 후술하기로 한다.
단계 S20에서 개념분류체계가 애매성이 있는 어휘의 개념을 분류할 수 있는 변별력을 가지지만, 분석 문장의 애매성을 해소하지 못하면 입력문장은 애매성이 내재된 문장으로 분류하고 문장 단위의 분석을 포기한다(단계 S21).
단계 S13에서 구문/의미 분석모듈(41)의 출력 결과, 구문적 애매성이 없으면 의미적 애매성이 있는 지를 검사한다(단계 S14). 의미적 애매성이 있으면, 전자사전의 의미정보 오류 유무를 검사하는 단계 S19로 진행한다.
단계 S14에서 구문/의미 분석모듈(41)의 출력 결과, 의미적 애매성이 없으면 의미 선택 오류가 있는 지를 검사한다(단계 S15). 작업자의 판단에 의해서 의미 선택 오류가 있으면 전자사전의 의미정보 오류 유무를 검사하는 단계(단계 S19)로 진행한다.
단계 S15에서 의미 선택 오류가 없으면 구문구조/의미표지가 바르게 부착된 문장으로 인정하고, 그 문장을 출력한다.
다음, 도 3을 참조하면서 본 발명의 한 실시예에 따른 한국어 개념분류체계 수정방법을 설명하면 다음과 같다. 개념분류체계의 세분류가 필요한 어휘를 wi 라고 할 때, wi 의 의미 중 개념분류체계 구축에 사용될 의미들 mj (0≤j≤m)를 선택한다(단계 S31). 이러한 의미들 mj 는 다음과 같이 선택된다. 첫째, 국어사전, 백과사전에 있는 wi 의 의미 중 사용할 의미의 종류를 선택한다. 이때, 세계지식베이스 탐색모듈(21)을 이용해서 국어사전(22)과 백과사전(23)을 탐색한다. 둘째, 국어사전과 백과사전에는 없지만 구문/의미 해석과정에서 필요한 의미의 새로운 의미를 추가한다.
다음, 모든 mj (0≤j≤m)에 대해서 다음 과정을 반복한다(단계 S32, 단계 S33, 단계 S47).
즉, mj 의 의미 범위가 명확해질 때까지 다음의 단계에 따라 차례로 의미를 제한한다(단계 S34). 첫째, mj 자체만 보고 개념의 범위를 제한한다. 둘째, 유의어들과의 공통점과 유사점을 파악하여 개념적으로 mj 의 범위를 제한한다. 셋째, mj 가 포함되는 정문, 비문들을 만들어 보면서 mj 의 개념 범위를 제한한다. 이 단계에서는 세계지식베이스 탐색모듈(21)을 이용해서 용례베이스(24)를 탐색하여, mj 가 포함된 예문을 찾는다. 넷째, 여러 사람과 토의를 통하여 mj 의 범위에 대한 여론을 통일시킨다.
상기와 같이 단계 S34에서 mj 의 의미영역이 명확해지면, 탐색/편집 모듈(31)을 이용하여 다음 작업을 수행한다.
먼저, mj 의 개념을 적절하게 포괄할 수 있는 개념 노드 C가 있는지 판단한다(단계 S35). mj 의 개념을 적절하게 포괄할 수 있는 개념분류 노드 C가 있으면, C의 어휘집합에 wi ( mj )를 등록한 후 단계 S47을 통해 다음 의미 mj+1 을 고려한다(단계 S40).
단계 mj 의 개념을 적절하게 포괄할 수 있는 개념분류 노드 C가 없으면, mj 가 어떤 개념분류 노드 C의 하위 분류인 지를 판단한다(단계 S36). 단계 S36에서 mj 가 어떤 개념분류 노드의 하위 분류에 속하지 않는다고 판단되면, 단계 S41에서 mj 를 분류불가 집합에 포함시키고 단계 S47을 통해 다음 의미 mj+1 를 고려한다(S41).
mj 가 어떤 개념분류 노드 C의 하위 분류라고 판단되면, 기존에 있는 C의 다른 하위 분류 Ck( 0≤k≤l ) 와 구별되는 특징이 명확한 지 판단한다(단계 S37). mj 가 기존에 있는 개념분류 노드 C의 다른 하위 분류 Ck( 0≤k≤l ) 와 구별되는 명확한 특징이 있다고 판단되면, 노드 C의 새로운 하위 분류 Cl+1 을 만들고, wi ( mj )를 Cl+1 의 어휘 집합에 등록한다. 그리고, 새로운 하위 분류 Cl+1 을 C의 하위 분류에 포함시킨다(단계 S38).
단계 S37에서 mj 가 어떤 개념분류 노드 C의 하위 분류라고 판단되고 기존의 C의 다른 하위 분류 Ck( 0≤k≤l ) 와 구별되지만, 그 구분 특징이 명확하지 않으면 wi ( mj )를 개념분류 노드 C의 대기집단(WaitPool)에 포함시킨다(단계 S42).
이때, 개념분류 노드C의 대기집단(WaitPool)에 모인 단어들 wi ′ ( mj ′ ) ( 0≤i′≤n′ , 0≤j′≤m′ ) 중 공통 특징으로 그룹핑(grouping)되는 단어들 wi″ ( mj″ ) ( 0≤i″≤n″ , 0≤j″≤m″ ) 이 있는 지를 판단한다(단계 S43). 이때, 그룹핑되는 단어들 wi″ ( mj″ )이 있으면, 하나의 분류개념 Cl+1 을 만들고, 이 분류개념 Cl+1 을 C의 하위 분류로 등록한다(단계 S44).
단계 S38과 단계 S44에서, 새롭게 만들어진 하위 분류 Cl+1 와 그 하위 분류와 동일한 노드를 가지는 분류개념 Ck ( 0≤k≤l+1 ) 중, 개념적으로 그룹핑되는 개념들 Ck′ ( 0≤k′≤l′ ) 이 있으면(단계 S39), 새로운 분류개념 Cl′+1 을 만들고 이 Ck′ Cl′+1 의 하위 분류에 포함시킨다. 이 Cl′+1 은 C의 하위 분류에 포함된다(단계 S45).
단계 S38, 단계 S42, 단계 S44, 및 단계 S45에서, mj 가 개념분류체계 상에서 위치를 정하면 다음과 같이 wi ( mj )의 특징을 등록하고, 관련어들과의 관계를 설정한다(단계 S46).
첫째, wi ( mj )의 특징을 '성질이름(attribute name), 평가값(value)'의 형태로 나타낸다. 둘째, wi ( mj )의 상대어, 반의어, 관련어, 하위 범주 관계에 있는 단어들과 각각의 관계를 설정한다.
이상과 같이 본 발명에 의하면, 자연어처리 응용시스템에서 필요한 어휘의 의미적 중의성, 구문적 애매성 문제를 처리할 수 있는 기능을 가진 자연어처리 입장에서 개발된 개념분류체계를 구축할 수 있다.
또한, 개념분류체계를 구축하는 작업자의 주관을 최소화하고, 단계별로 효율적인 작업을 할 수 있는 작업환경을 제공하여, 객관적인 개념분류체계를 빠른 시간 내에 구축할 수 있는 효과가 있다.

Claims (11)

  1. 사용자 인터페이스장치와,
    상기 사용자 인터페이스장치를 통해 형태소 단위로 품사가 부착된 문장이 입력되면 상기 문장의 구문분석과 의미분석을 수행하는 구문/의미 분석모듈,
    상기 문장을 통해 제공되는 어휘에 대한 국어사전적 정의와, 백과사전적 정의, 및 용례 등을 탐색하는 세계 지식베이스 탐색모듈,
    상기 각 어휘별로 특성을 추가, 삭제, 편집하는 언어 지식베이스 탐색/편집모듈, 및
    작업의 진행을 관리하는 진행관리모듈을 포함한 것을 특징으로 하는 한국어 개념분류체계 구축장치.
  2. 제1항에 있어서, 상기 어휘의 개념분류체계를 수정할 때, 객관적인 절차에 따라 작업자에게 필요한 정보와 절차를 제공하는 개념분류 탐색/편집모듈을 더 포함한 것을 특징으로 하는 한국어 개념분류체계 구축장치.
  3. 형태소 단위로 품사가 부착된 문장이 입력되면, 상기 문장의 구문과 의미를 분석하는 제1단계와,
    상기 제1단계의 분석 결과, 문장의 구문적 애매성이 존재하면, 문장의 구문규칙 오류와, 전자사전의 구문정보 오류, 및 전자사전의 의미정보 오류 여부를 판단하여, 해당되는 오류 정보를 수정하는 제2단계,
    상기 제1단계의 분석 결과, 문장의 의미적 애매성이 존재하면, 전자사전의 의미정보 오류 여부를 판단하여 오류 정보를 수정하는 제3단계,
    상기 제1단계의 분석 결과, 구문적 애매성과 의미적 애매성이 존재하지 않지만 의미 선택 오류가 존재하면, 전자사전의 의미정보 오류 여부를 판단하여 오류 정보를 수정하는 제4단계, 및
    상기 구문적 애매성과 의미적 애매성 및 의미 선택 오류가 존재하지 않으면, 구문구조와 의미표지가 바르게 부착된 문장으로 출력하는 제5단계를 포함한 것을 특징으로 하는 한국어 개념분류체계 구축방법.
  4. 제3항에 있어서, 문장의 애매성을 해소하기 위하여 개념분류체계를 세분화할 필요가 있을 경우에는 개념분류체계를 수정하고, 문장 자체의 애매성에 의해 더 이상 개념분류체계를 세분화할 필요가 없을 경우에는 애매성이 내포된 문장을 출력하는 제6단계를 더 포함한 것을 특징으로 하는 한국어 개념분류체계 구축방법.
  5. 제3항 또는 제4항에 있어서, 상기 제2단계는,
    상기 구문규칙 오류가 발생하면, 잘못된 구문규칙을 제거하고 새로운 구문규칙을 추가하며 기준의 구문규칙을 세분화하여, 구문규칙을 수정하는 제7단계와,
    상기 전자사전의 구문정보 오류가 발생하면, 자연어 분석을 위해 필요한 정보들을 추가, 삭제, 수정하여, 전자사전의 구문정보를 수정하는 제8단계, 및
    상기 전자사전의 의미정보 오류가 발생하면, 표제어별로 전자사전에 기록되어 있는 의미정보의 오류를 수정하거나, 필요 없는 정보를 삭제하고 필요한 정보를 추가하여, 전자사전의 의미정보를 수정하는 제9단계를 포함한 것을 특징으로 하는 한국어 개념분류체계 구축방법.
  6. 제3항 또는 제4항에 있어서, 제3단계 및 제4단계는,
    상기 전자사전의 의미정보 오류가 발생하면, 표제어별로 전자사전에 기록되어 있는 의미정보의 오류를 수정하거나, 필요 없는 정보를 삭제하고 필요한 정보를 추가하여 전자사전의 의미정보를 수정하는 제10단계를 포함한 것을 특징으로 하는 한국어 개념분류체계 구축방법.
  7. 개념분류체계의 세분화가 필요한 어휘( wi )에 대한 개념분류체계 구축에 사용될 의미들( mj )을 찾아내는 제1단계와,
    상기 의미들( mj )의 의미 범위가 명확해질 때까지 정해진 단계에 따라 의미를 제한하는 제2단계,
    상기 의미들( mj )의 범위가 명확해지면, 의미들( mj )의 개념을 포괄할 수 있는 어휘분류노드(C)가 존재하는 지를 판단하여, 해당되는 어휘분류노드의 어휘집합에 상기 어휘( wi )를 등록하는 제3단계,
    상기 제3단계에서, 상기 의미들( mj )이 어휘분류노드(C)나 그 하위 분류에 속하지 않으면, 상기 어휘( wi )를 분류불가집합에 등록하는 제4단계, 및
    상기 제3단계에서, 상기 의미들( mj )이 어휘분류노드(C)의 하위 분류에 속하면, 상기 어휘분류노드에 새로운 하위 분류를 만들고 상기 어휘( wi )를 새로운 하위 분류에 등록하는 제5단계를 포함한 것을 특징으로 하는 한국어 개념분류체계 수정방법.
  8. 제7항에 있어서, 상기 제1단계는,
    국어사전과 백과사전을 탐색하여 개념분류체계 구축에 사용할 의미의 종류를 선택하고, 구문/의미 해석과정에서 필요한 새로운 의미를 추가하는 단계인 것을 특징으로 하는 한국어 개념분류체계 수정방법.
  9. 제7항에 있어서, 상기 제2단계는,
    의미들( mj ) 자체를 이용하여 개념의 범위를 제한하는 제6단계와,
    유의어들과의 공통점과 유사점을 파악하여 개념적으로 상기 의미들( mj )의 범위를 제한하는 제7단계, 및
    상기 의미들( mj )이 포함되는 예문에 따라서 상기 의미들( mj )의 개념 범위를 제한하는 제8단계를 포함한 것을 특징으로 하는 한국어 개념분류체계 수정방법.
  10. 제7항에 있어서, 상기 제5단계는,
    상기 의미들( mj )이 개념분류노드(C)의 하위 분류로 판단되면, 상기 개념분류노드의 다른 하위 분류( Ck )와 구별되는 특징이 있는 지를 판단하는 제9단계와,
    상기 제9단계의 판단 결과, 구별되는 특징이 있으면 상기 개념분류노드에 속하는 새로운 어휘분류를 만들고, 상기 어휘( wi )를 상기 새로운 어휘분류에 등록하는 제10단계,
    상기 제9단계의 판단 결과, 구별되는 특징이 없으면 상기 어휘( wi )를 대기집단에 넣는 제11단계, 및
    상기 대기집단에 모인 어휘들중 공통 특징으로 그룹핑되는 단어들을 모아서 하나의 어휘분류를 만들고, 상기 어휘( wi )를 상기 새로운 어휘분류에 등록하는 제12단계를 포함한 것을 특징으로 하는 한국어 개념분류체계 수정방법.
  11. 제10항에 있어서, 상기 제10단계 또는 제12단계에서 새롭게 만들어진 하위 분류와 기존의 하위 분류가 개념적으로 그룹핑되는 지를 판단하는 제13단계와,
    상기 제13단계에서 그룹핑되는 개념들이 있으면, 상기 개념분류노드에 속하는 새로운 어휘분류를 만드는 제14단계를 포함한 것을 특징으로 하는 한국어 개념분류체계 수정방법.
KR1019980050332A 1998-11-24 1998-11-24 한국어개념분류체계구축방법과,수정방법및구축장치 KR100331029B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019980050332A KR100331029B1 (ko) 1998-11-24 1998-11-24 한국어개념분류체계구축방법과,수정방법및구축장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980050332A KR100331029B1 (ko) 1998-11-24 1998-11-24 한국어개념분류체계구축방법과,수정방법및구축장치

Publications (2)

Publication Number Publication Date
KR20000033464A true KR20000033464A (ko) 2000-06-15
KR100331029B1 KR100331029B1 (ko) 2002-09-04

Family

ID=19559409

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980050332A KR100331029B1 (ko) 1998-11-24 1998-11-24 한국어개념분류체계구축방법과,수정방법및구축장치

Country Status (1)

Country Link
KR (1) KR100331029B1 (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010108586A (ko) * 2000-05-29 2001-12-08 우요섭 의미정보를 이용한 이단계 단문 분할 장치
KR100378642B1 (ko) * 2000-07-06 2003-03-31 김시환 정보 검색 시스템과 그 방법
KR100413966B1 (ko) * 2000-12-18 2004-01-07 한국전자통신연구원 한국어 표준 문형 규칙에 의한 표준 문형 유도 장치 및 그방법
KR100421530B1 (ko) * 2001-03-06 2004-03-09 김시환 정보 검색 방법
WO2004095310A1 (en) * 2003-04-24 2004-11-04 Soon-Jo Woo Method for sentence structure analysis based on mobile configuration concept and method for natural language search using of it
KR100703697B1 (ko) * 2005-02-02 2007-04-05 삼성전자주식회사 어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치
KR101491581B1 (ko) * 2008-04-07 2015-02-24 삼성전자주식회사 철자 오류 보정 시스템 및 방법
CN107292505A (zh) * 2017-06-15 2017-10-24 北京航天长征科技信息研究所 非相关文献隐性关联知识发现方法在产品研发中的应用

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010108586A (ko) * 2000-05-29 2001-12-08 우요섭 의미정보를 이용한 이단계 단문 분할 장치
KR100378642B1 (ko) * 2000-07-06 2003-03-31 김시환 정보 검색 시스템과 그 방법
KR100413966B1 (ko) * 2000-12-18 2004-01-07 한국전자통신연구원 한국어 표준 문형 규칙에 의한 표준 문형 유도 장치 및 그방법
KR100421530B1 (ko) * 2001-03-06 2004-03-09 김시환 정보 검색 방법
WO2004095310A1 (en) * 2003-04-24 2004-11-04 Soon-Jo Woo Method for sentence structure analysis based on mobile configuration concept and method for natural language search using of it
KR100703697B1 (ko) * 2005-02-02 2007-04-05 삼성전자주식회사 어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치
KR101491581B1 (ko) * 2008-04-07 2015-02-24 삼성전자주식회사 철자 오류 보정 시스템 및 방법
CN107292505A (zh) * 2017-06-15 2017-10-24 北京航天长征科技信息研究所 非相关文献隐性关联知识发现方法在产品研发中的应用

Also Published As

Publication number Publication date
KR100331029B1 (ko) 2002-09-04

Similar Documents

Publication Publication Date Title
JP3114181B2 (ja) 異言語交信用翻訳方法およびシステム
US5878385A (en) Method and apparatus for universal parsing of language
US5680628A (en) Method and apparatus for automated search and retrieval process
US5644774A (en) Machine translation system having idiom processing function
Faure et al. First experiments of using semantic knowledge learned by ASIUM for information extraction task using INTEX
US6965857B1 (en) Method and apparatus for deriving information from written text
JP3266246B2 (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
JP2000315216A (ja) 自然言語検索方法および装置
US20120303358A1 (en) Semantic textual analysis
WO1998011491A9 (en) Method and apparatus for universal parsing of language
US20060200336A1 (en) Creating a lexicon using automatic template matching
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
US20060200338A1 (en) Method and system for creating a lexicon
US20030055625A1 (en) Linguistic assistant for domain analysis methodology
Miller et al. Text-critiquing with the EPISTLE system: An author's aid to better syntax
KR100331029B1 (ko) 한국어개념분류체계구축방법과,수정방법및구축장치
Lecoeuche Finding comparatively important concepts between texts
Nirenburg et al. The analysis lexicon and the lexicon management system
Gurevych et al. Annotating the semantic consistency of speech recognition hypotheses
JP2840258B2 (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
JP3433827B2 (ja) 句構造抽出装置
Galicia-Haro et al. Acquiring syntactic information for a government pattern dictionary from large text corpora
Reitter et al. Hybrid natural language processing in a customer-care environment
Charoenporn et al. Construction of thai lexicon from existing dictionaries and texts on the web

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080307

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee