KR100560168B1 - 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템및 그 방법 - Google Patents

어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템및 그 방법 Download PDF

Info

Publication number
KR100560168B1
KR100560168B1 KR1020030096963A KR20030096963A KR100560168B1 KR 100560168 B1 KR100560168 B1 KR 100560168B1 KR 1020030096963 A KR1020030096963 A KR 1020030096963A KR 20030096963 A KR20030096963 A KR 20030096963A KR 100560168 B1 KR100560168 B1 KR 100560168B1
Authority
KR
South Korea
Prior art keywords
noun
air
lexical
pattern
air pattern
Prior art date
Application number
KR1020030096963A
Other languages
English (en)
Other versions
KR20050065193A (ko
Inventor
김창현
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020030096963A priority Critical patent/KR100560168B1/ko
Publication of KR20050065193A publication Critical patent/KR20050065193A/ko
Application granted granted Critical
Publication of KR100560168B1 publication Critical patent/KR100560168B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 대량의 말뭉치로부터 어휘공기패턴 및 의미공기패턴을 자동으로 추출하여 구문분석에 적용함으로써 구문분석 결과의 품질을 향상시키는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템 및 그 방법에 관한 것이다.
본 발명의 구조분석 시스템은, 대량의 말뭉치로부터 어휘 및 의미 공기패턴을 추출하는 공기패턴 추출 시스템; 입력문에 대한 형태소 분석을 수행하는 형태소 분석기; 및 상기 형태소 분석 결과를 입력으로 하고 상기 어휘 및 의미 공기패턴을 이용하여 입력문의 구조를 분석하는 구조 분석기;로 구성된다.
구조분석, 어휘 공기패턴, 의미 공기패턴, 명사 의미코드 사전, 오류 공기패턴 제거기, 형태소 분석

Description

어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템 및 그 방법{Lexical and Semantic Collocation based Korean Parsing System and the Method}
도 1은 본 발명에 따른 한국어 구조분석 시스템에 대한 블록 구성도.
도 2는 본 발명에 따른 어휘 및 의미 공기패턴 추출 시스템에 대한 블록 구성도.
도 3은 본 발명에 따른 구문관계의 특성에 따라 공기패턴을 선택하여 구조분석을 수행하는 과정에 대한 흐름도.
<도면의 주요부분에 대한 부호의 설명>
100: 구조분석 장치 101: 형태소 분석기
102: 구조 분석기 103: 어휘 공기패턴
104: 의미 공기패턴 105: 명사 의미코드 사전
200: 공기패턴 추출 시스템
201: 원시말뭉치 DB 202: 어휘 공기패턴 생성기
203: 오류 공기패턴 제거기
204: 명사-조사-용언 오류유형 지식 DB
205: 명사-명사 오류유형 지식 DB
206: 용언-명사 오류유형 지식 DB
207: 의미 공기패턴 생성기
본 발명은 한국어 구조분석 시스템 및 그 방법에 관한 것이며, 보다 상세히는 대량의 말뭉치로부터 어휘공기패턴 및 의미공기패턴을 자동으로 추출하여 구문분석에 적용함으로써 구문분석 결과의 품질을 향상시키는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템 및 그 방법에 관한 것이다.
구문분석을 진행하는 과정에서 가장 기본적으로 적용되는 원칙으로 일문 일격의 원칙이 있다.
일문 일격의 원칙이란, 동일한 피수식어를 수식하는 수식어들 간에 적용되는 원칙으로써, 동일한 피수식어를 수식하는 수식어들 간에는 동일한 구문적, 의미적 관계를 갖는 수식어가 둘 이상 존재하지 않는다는 것이다. 예를 들어, "아버지가 영희가 올 것이라고 말씀하셨다"의 경우, '오다'의 주어로 '아버지'와 '영희'가 모두 가능하나, 이 둘은 주격이라고 하는 동일한 구문관계 및 'agent'라고 하는 동일한 의미관계를 가지기 때문에 '오다'와 지역적으로 더 가까운 '영희'가 '오다'와 구문관계를 형성하고 '아버지'는 '말씀하시다'와 구문관계를 갖게 된다.
그러나, 일문일격의 원칙을 적용하더라도 구조를 올바르게 파악하기 힘든 경우는 너무나 많다. '빵이 맛있다고 말한다'의 경우, 일문일격의 원칙에 의하면 '빵'은 '맛있다'와 '말하다' 모두의 주어가 될 수 있다. 두 용언 모두 다른 주어를 취하지 않기 때문이다. 사람들은 '빵'이 '맛있다'의 주어이며 '말하다'의 주어는 아니라는 것을 쉽게 알 수 있다. 그러나, 컴퓨터를 이용하여 구문분석을 할 경우 '빵'이 어느 용언의 주어인지를 파악하는 것은 그리 쉽지 않다.
이러한 문제의 경우 아주 효과적인 지식이 바로 명사-격조사-용언 공기패턴이다. 구문분석에 있어서 이러한 어휘공기정보는 올바른 구조를 파악하는 데 핵심적인 정보이며, 이 정보를 대량으로 구축할 필요가 있다.
종래의 구문분석에 관한 연구들은 대량의 말뭉치로부터 가능한 명사-격조사-용언 공기패턴 후보를 모두 추출하고, 수학적인 방법론을 이용해 이들 가운데 의미 있는 공기정보를 추출해 내는 연구들을 수행하고 있다. 어휘공기패턴만을 이용할 경우 자료 부족 문제가 발생하게 되며, 이를 해결하기 위해 어휘공기패턴을 명사의 의미정보를 이용하여 좀더 일반화하는 연구들도 최근 수행되고 있다.
그러나, 기본적으로 공기정보를 추출하기 위한 후보들 가운데 많은 오류가 존재한다면, 수학적 방법론들을 적용하여 추출해 낸 최종적인 공기패턴에서도 오류가 많이 발생할 수 있다. 따라서, 보다 정확한 공기패턴을 추출하기 위해서는 명사-격조사-용언 공기패턴 후보를 추출할 때에 오류를 최소화 할 수 있는 보다 개선된 방법이 필요하다.
하지만, 기존의 연구들은 일문 일격의 원칙을 적용하고 있기 때문에, 정확한 공기정보를 추출하였다 하여도 올바른 구문분석 결과를 얻지 못할 수가 있다. 이에 대해 다음의 예시문을 통해 설명하도록 한다.
a. 그 차가 속도가 빠르다.
b. 목이 염증이 생겨 물을 마실 수 없다.
c. 목소리가 부드러운 음악과 잘 어울린다.
d. 목소리가 부드러운 사람과 어울리고 싶다.
a의 경우 '빠르다'는 2개의 주격을 취함으로써 일문일격의 원칙을 위반하고 있으나, 이 문장은 올바른 문장이다. b의 경우 일문일격의 원칙을 적용하게 되면 '염증'은 '생기다'의 주어가 되고, '목'은 '마시다'의 주어가 됨으로써 그릇된 구조를 가지게 되지만 명사-조사-용언 공기정보 혹은 명사의미-조사-용언 공기정보를 이용한다면 올바른 구조를 파악할 수도 있다. "목-이-생기다"가 "목-이-마시다"보다 더 자주 발생하기 때문이다. 그러나, c와 d를 보면 기존의 공기정보를 이용해서는 올바른 구조 파악이 불가능하다. 이러한 문제를 해결하기 위한 기존의 연구들은 아직 없으며, 따라서, 일문일격과 공기정보를 이용해서도 올바른 구조파악이 어려운 이러한 문제를 해결하기 위한 새로운 구조분석 방법이 요구되고 있다.
본 발명은 상기 문제점을 해결하고 상기 요구에 부응하기 위한 것으로서, 본 발명의 목적은 대량의 말뭉치로부터 어휘 공기패턴 및 의미 공기패턴을 추출할 때 나타나는 잘못된 공기패턴을 최소화하고, 또한 일문일격의 원칙에 위배될 뿐 아니 라 기존의 어휘 공기패턴 및 의미 공기패턴을 이용해서는 올바른 구문구조 파악이 힘든 문장들에 대해서도 새로운 형태의 공기패턴인 명사-명사 공기패턴 및 용언-명사 공기패턴을 정의하고 이용하며, 격조사 치환 방법을 이용함으로써 구문분석의 성능을 향상시킬 수 있는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템 및 그 방법을 제공하는데 있다.
상기 본 발명의 목적을 달성하기 위한 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템은, 대량의 말뭉치로부터 어휘 및 의미 공기패턴을 추출하는 공기패턴 추출 시스템; 입력문에 대한 형태소 분석을 수행하는 형태소 분석기; 및 상기 형태소 분석 결과를 입력으로 하고 상기 어휘 및 의미 공기패턴을 이용하여 입력문의 구조를 분석하는 구조 분석기;로 구성된다.
또한, 상기 본 발명의 목적을 달성하기 위한 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법은, 대량의 말뭉치로부터 어휘 및 의미 공기패턴을 추출하는 단계; 입력문에 대한 형태소 분석을 수행하는 단계; 및 상기 형태소 분석 결과를 입력으로 하고 상기 어휘 및 의미 공기패턴을 이용하여 입력문의 구조를 분석하는 단계;로 이루어진다.
이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 한국어 구조분석 시스템(100)에 대한 블록 구성도이다.
도 1에 도시된 바와 같이, 본 발명의 구조분석 시스템(100)은, 입력문에 대한 형태소 분석을 수행하는 형태소 분석기(101)와, 형태소 분석 결과를 입력으로 하여 구조분석을 수행하는 구조분석기(102)와, 구조분석 시에 어휘간의 공기정보를 제공하는 어휘 공기패턴(103)과, 자료부족 문제를 해결하기 위해 이용되는 의미 공기패턴(104)과, 개별 명사들의 의미코드를 기술하고 있는 명사 의미코드 사전(105)으로 구성된다.
도 2는 상기 구조분석 시스템(100)에서 정확한 구조분석을 위해 사용되는 상기 어휘 및 의미 공기패턴(103,104)을 대량의 말뭉치(201)로부터 자동으로 추출하는 공기패턴 추출 시스템(200)에 대한 블록 구성도이다.
도 2를 참조하면, 본 발명의 공기패턴 추출 시스템(200)은, 공기패턴을 추출할 때 사용하는 대량의 원시 말뭉치 DB(201)와, 상기 원시 말뭉치 DB(201)로부터 형태소 분석 결과를 출력하는 형태소 분석기(101)와, 형태소 분석 결과로부터 어휘 공기패턴 후보를 추출하는 어휘 공기패턴 생성기(202)와, 어휘 공기패턴 후보들로부터 오류가 있는 패턴을 제거하는 오류 공기패턴 제거기(203)와, 오류 공기패턴 제거기(203)에서 사용되는 지식들 가운데 명사-조사-용언 유형의 공기패턴에 대한 오류 유형 지식을 기술하고 있는 명사-조사-용언 오류유형 지식 DB(204)와, 명사-명사 유형의 공기패턴에 대한 오류 유형 지식을 기술하고 있는 명사-명사 오류유형 지식 DB(205)와, 용언-명사 오류유형 지식을 기술하고 있는 용언-명사 오류유형 지식DB(206)와, 오류를 제거한 공기패턴으로 구성되는 어휘 공기패턴(103)과, 어휘 공기패턴(103)의 자료부족문제를 완화시키기 위해 명사의 의미를 이용하여 패턴을 생성하는 의미 공기패턴 생성기(207)와, 명사의 의미를 기술하고 있는 명사의미코드 사전(105)과, 의미공기패턴 생성기(207)로부터 생성되는 의미 공기패턴(104)으로 구성된다.
상기 어휘 공기패턴 생성기(202)는 대량의 원시말뭉치(201)를 형태소분석한 결과로부터 의존관계가 가능한 모든 명사-조사-용언, 명사-명사, 용언(관형형)-명사 후보들을 추출하게 된다.
이들 후보들을 추출하는 단계는, 문장의 가장 마지막 용언인 p(n)과 바로 이전 용언인 p(n-1) 사이의 어절 'N(1) ... N(k)'에 대해 <N(1),조사,p(n)>,...,<N(k),조사, p(n)>를 추출하는 제 1단계와, 용언 p가 타동사일 때 관형절이 아닌 경우, 부사를 제외하고 바로 인접한 어절이 '명사-격조사'이면 <명사,격조사,p>를 추출하는 제 2단계와, 용언 p가 자동사이고 관형절이 아닌 경우, 부사를 제외하고 바로 인접한 어절이 명사-격조사이면, <명사,격조사,p>를 추출하는 제 3단계와, 용언 p가 형용사이고, 바로 인접한 어절이 '명사-{주격조사,부사격조사}'이면 <명사,격조사,p>를 추출하는 제 4단계와, 용언 p가 관형형이고, p 와 바로 인접하여 명사 N이 있는 경우 <p,N>을 추출하는 제 5단계와, 하나의 어절이 'N(1)... N(k-1)N(k)'로 구성되어 있을 때, 해당 어절을 구성하는 명사들 중 가장 마지막 두 개의 명사에 대해 <N(k-1), N(k)>를 추출하는 제 6단계와, 연속된 두 어절이 'N(1) N(2)_{조사}'형태로 공기할 때, <N(1), N(2)>를 추출하는 제 7단계와, 연속된 두 어절이 'N(1)_의 N(2)_{조사}' 형태로 공기할 때, <N(1),N(2)>를 추출하는 제 8단계로 이루어진다.
또한, 상기 오류 공기패턴 제거기(203)는, 명사-조사-용언 오류를 제거하는 제 1단계와, 명사-명사 오류를 제거하는 제 2단계와, 용언-명사 오류를 제거하는 제 3단계를 수행한다.
또한, 상기 명사-조사-용언 오류 제거 단계는, 하나의 문장에 대해 추출된 공기패턴 <N(1),조사,p(n)>,...,<N(k),조사, p(n)>에 대해 <N(i),가,p(n)>와 <N(j),가,p(n)>(i<j)가 존재하면 <N(i),가, p(n)>을 제거하는 제 1단계와, 용언 p가 자동사이고 관형절이 아닌 경우, 부사를 제외하고 바로 인접한 어절이 명사-격조사인 경우, p가 대등적 연결어미를 취하고 바로 다음 용언이 관형형을 취하는 동사이면 <명사,격조사,p>를 제거하는 제 2단계와, 용언 p가 형용사이고 부사형 전성어미와 관형형 전성어미를 취하는 경우 <명사,격조사,p>를 제거하는 제 3단계와, 용언 p가 형용사이고 대등적 연결어미를 취할 때, 바로 다음 용언이 관형사형 전성어미를 취하는 형용사이면 <명사,격조사,p>를 제거하는 제 4단계로 구성된다.
또한, 상기 명사-명사 오류 제거 단계는, 연속된 두 어절이 'N(1) N(2)_{조사}'형태로 공기할 때, N(1) 바로 앞 어절이 관형어 상당어구일 경우에 해당 공기패턴을 제거하는 제 1단계와, 연속된 두 어절이 'N(1)_의 N(2)_{조사}' 형태로 공기할 때, N(2)가 관형격 조사 '의'를 취하는 경우 및 N(1) 바로 앞 어절이 관형어 상당어구일 경우에는 해당 공기패턴을 제거하는 제 2단계로 구성된다.
상기 용언-명사 오류 제거 단계는, 연속된 두 어절 "용언-관형형 명사"에 대해, 명사가 조사를 취하지 않는 경우 해당 공기패턴을 제거하는 제 1단계와, 명사가 취하는 조사가 관형격 조사인 '의'인 경우 해당 공기패턴을 제거하는 제 2단계 와, 용언 바로 앞의 명사가 조사를 취하지 않고 명사 단독으로 쓰였을 때 해당 공기패턴을 제거하는 제 3단계로 구성된다.
상기 의미 공기패턴 생성기(207)는, 명사 의미코드 사전을 참조하여 명사들에 대한 일반화를 수행하여 자료부족문제를 완화시키는 장치로서, <명사,조사,용언>에 대해 의미공기패턴을 생성하는 제 1단계와, <명사-명사>에 대해 의미공기패턴을 생성하는 제 2단계와, <용언-명사>에 대해 의미공기패턴을 생성하는 제 3단계로 구성된다.
상기 <명-명사>에 대한 의미공기패턴 <N1-N2>에 대해 의미코드를 생성하는 단계는, 두개의 명사 모두에 대해 의미코드를 적용하여 의미패턴을 생성하는 제 1단계; N1에 대해서만 의미코드를 적용하여 의미패턴을 생성하는 제 2단계; N2에 대해서만 의미코드를 적용하여 의미패턴을 생성하는 제 3단계로 구성된다.
한편, 도 3은 상기와 같이 추출된 어휘 및 의미 공기패턴을 이용하여 구조분석을 수행하는 과정에 대한 흐름도이다.
도 3을 참조하면, 구조분석 과정은, 먼저 분석하고자 하는 대상이 일문일격의 원칙이 적용되는 구문관계인가를 판단한다.(S301).
이때, 이중주어 현상은 일문일격의 원칙이 적용되지 않는 대표적인 현상이며, 이중주어를 취할 수 있는 용언들도 제한이 되어 있으므로, 이미 주어를 취하고 있는 용언이 존재하고, 해당 용언이 이중주어가 가능한 경우에, 일문일격의 원칙이 적용되지 않는다고 판별한다.
일문일격의 원칙이 적용되는 경우라고 판단되면, 명사-조사-용언 공기패턴과 명사의미-조사-용언 공기패턴을 이용하여 구조분석을 수행한다.(S303)
반면에, 일문일격의 원칙이 적용되지 않는 경우에는 명사-명사, 명사의미-명사, 용언-명사, 용언-명사의미 공기정보를 이용하여 구조분석을 수행한다.(S302)
일문일격의 원칙이 적용되지 않는 경우 상기 S302를 수행하고서도 구문관계 결정이 어려운 경우에는,(S304) 격조사 치환을 통하여 다시 구문관계를 분석한다.(S305)
격조사 치환이란 이중주어의 첫 번째 주어의 주격조사를 '에/에게/에서'로 치환하여 용언과 구문관계를 파악하는 방법이다.
상기와 같은 본 발명의 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법은 컴퓨터로 읽을 수 있는 기록 매체에 저장될 수 있다. 이러한 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있도록 프로그램 및 데이터가 저장되는 모든 종류의 기록매체를 포함하는 것으로, 그 예로는, 롬(Read Only Memory), 램(Random Access Memory), CD(Compact Disk)-Rom, DVD(Digital Video Disk)-Rom, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다. 또한, 이러한 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
상술한 바와 같이 본 발명에 따른 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템 및 그 방법은, 대량의 말뭉치로부터 어휘 공기패턴 및 의미 공기 패턴을 추출할 때 나타나는 잘못된 공기패턴을 최소화한다.
또한, 일문일격의 원칙에 위배될 뿐 아니라 기존의 어휘 공기패턴 및 의미 공기패턴을 이용해서는 올바른 구문구조 파악이 힘든 문장들에 대해서도 새로운 형태의 공기패턴인 명사-명사 공기패턴 및 용언-명사 공기패턴을 정의하고 격조사 치환 방법을 이용함으로써 구문분석의 성능을 향상시킬 수 있다.
이상에서 설명한 것은 본 발명에 따른 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템 및 그 방법을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.

Claims (19)

  1. 대량의 말뭉치로부터 어휘 및 의미 공기패턴을 추출하는 공기패턴 추출 시스템;
    입력문에 대한 형태소 분석을 수행하는 형태소 분석기; 및
    상기 형태소 분석 결과를 입력으로 하고 상기 어휘 및 의미 공기패턴을 이용하여 입력문의 구조를 분석하는 구조 분석기;로 구성되는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
  2. 제 1항에 있어서, 상기 공기패턴 추출 시스템은,
    대량의 원시말뭉치에 대해 형태소 분석을 수행하는 형태소 분석기와,
    상기 형태소 분석 결과로부터 어휘 공기패턴 후보들을 추출하는 어휘 공기패턴 생성기와,
    어휘 공기패턴 후보들로부터 오류가 있는 패턴을 제거하여 어휘 공기패턴을 구성하는 오류 공기패턴 제거기와,
    어휘 공기패턴의 자료부족문제를 완화시키기 위해 명사의 의미를 이용하여 의미 공기패턴을 생성하는 의미 공기패턴 생성기를 포함하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
  3. 제 2항에 있어서, 상기 어휘 공기패턴 생성기는,
    대량의 원시말뭉치에 대한 형태소 분석 결과로부터 의존관계가 가능한 모든 명사-조사-용언, 명사-명사, 용언-명사, 관형형 용언-명사 후보들을 추출하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
  4. 제 2항 또는 제 3항에 있어서, 상기 어휘 공기패턴 생성기에서 상기 후보들의 추출은,
    문장의 가장 마지막 용언인 p(n)과 바로 이전 용언인 p(n-1) 사이의 어절 'N(1) ... N(k)'에 대해 <N(1),조사,p(n)>,...,<N(k),조사, p(n)>를 추출하고,
    용언 p가 타동사일 때 관형절이 아닌 경우는, 부사를 제외하고 바로 인접한 어절이 '명사-격조사'이면 <명사,격조사,p>를 추출하고,
    용언 p가 자동사이고 관형절이 아닌 경우는, 부사를 제외하고 바로 인접한 어절이 명사-격조사이면, <명사,격조사,p>를 추출하고,
    용언 p가 형용사이고, 바로 인접한 어절이 '명사-주격조사,부사격조사'이면 <명사,격조사,p>를 추출하고,
    용언 p가 관형형이고, p 와 바로 인접하여 명사 N이 있는 경우는 <p,N>을 추출하며,
    하나의 어절이 'N(1)... N(k-1)N(k)'로 구성되어 있을 때, 해당 어절을 구성하는 명사들 중 가장 마지막 두 개의 명사에 대해 <N(k-1), N(k)>를 추출하고,
    연속된 두 어절이 'N(1) N(2)_조사'형태로 공기할 때, <N(1), N(2)>를 추출하고,
    연속된 두 어절이 'N(1)_의 N(2)_조사'형태로 공기할 때, <N(1),N(2)>를 추출하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
  5. 제 2항에 있어서, 상기 오류 공기패턴 제거기는, 명사-조사-용언의 어휘 공기패턴 후보에 대한 오류 패턴을 제거함에 있어, 명사-조사-용언 오류 유형 지식 DB를 참조하여,
    하나의 문장에 대해 추출된 공기패턴 <N(1),조사,p(n)>,...,<N(k),조사, p(n)>에 대해 <N(i),가,p(n)>와 <N(j),가,p(n)>(i<j)가 존재하면 <N(i),가, p(n)>을 제거하는 단계와,
    용언 p가 자동사이고 관형절이 아닌 경우, 부사를 제외하고 바로 인접한 어절이 명사-격조사인 경우, p가 대등적 연결어미를 취하고 바로 다음 용언이 관형형을 취하는 동사이면 <명사,격조사,p>를 제거하는 단계와,
    용언 p가 형용사이고 부사형 전성어미와 관형형 전성어미를 취하는 경우 <명 사,격조사,p>를 제거하는 단계와,
    용언 p가 형용사이고 대등적 연결어미를 취할 때, 바로 다음 용언이 관형사형 전성어미를 취하는 형용사이면 <명사,격조사,p>를 제거하는 단계를 수행하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
  6. 제 2항에 있어서, 상기 오류 공기패턴 제거기는, 명사-명사의 어휘 공기패턴 후보에 대한 오류 패턴을 제거함에 있어, 명사-명사 오류유형 지식 DB를 참조하여,
    연속된 두 어절이 'N(1) N(2)_{조사}'형태로 공기할 때, N(1) 바로 앞 어절이 관형어 상당어구일 경우 해당 공기패턴을 제거하는 단계와,
    연속된 두 어절이 'N(1)_의 N(2)_{조사}' 형태로 공기할 때, N(2)가 관형격 조사 '의'를 취하는 경우 및 N(1) 바로 앞 어절이 관형어 상당어구일 경우, 해당 공기패턴을 제거하는 단계를 수행하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
  7. 제 2항에 있어서, 상기 오류 공기패턴 제거기는, 용언-명사의 어휘 공기패턴 후보에 대한 오류 패턴을 제거함에 있어, 용언-명사 오류유형 지식 DB를 참조하여,
    연속된 두 어절 "용언-관형형 명사"에 대해, 명사가 조사를 취하지 않는 경우 해당 공기패턴을 제거하는 단계와,
    명사가 취하는 조사가 관형격 조사인 '의'인 경우 해당 공기패턴을 제거하는 단계와,
    용언 바로 앞의 명사가 조사를 취하지 않고 명사 단독으로 쓰였을 때 해당 공기패턴을 제거하는 단계를 수행하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
  8. 제 2항에 있어서, 상기 의미 공기패턴 생성기는, 명사 의미코드 사전을 참조하여, <명사,조사,용언>에 대해 의미공기패턴을 생성하는 단계와, <명사-명사>에 대해 의미공기패턴을 생성하는 단계와, <용언-명사>에 대해 의미공기패턴을 생성하는 단계를 수행하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
  9. 제 1항에 있어서, 상기 구조 분석기는,
    일문일격의 원칙이 적용되는 경우, 명사-조사-용언 공기패턴과 명사의미-조사-용언 공기패턴을 이용하여 구문관계를 분석하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
  10. 제 1항에 있어서, 상기 구조 분석기는,
    일문일격의 원칙이 적용되지 않는 경우, 명사/명사의미-명사/명사의미 공기정보 및 용언-명사/명사의미 공기정보를 이용하여 구문관계를 분석하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
  11. 제 10항에 있어서, 상기 구조 분석기에서 일문일격의 원칙이 적용되지 않는 경우 상기 공기정보를 이용한 구조분석에 의해서도 구문관계 결정이 이뤄지지 않을 경우,
    격조사 치환을 통하여 다시 구문관계를 분석하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
  12. (a) 대량의 말뭉치로부터 어휘 및 의미 공기패턴을 추출하는 단계;
    (b) 입력문에 대한 형태소 분석을 수행하는 단계; 및
    (c) 상기 형태소 분석 결과를 입력으로 하고 상기 어휘 및 의미 공기패턴을 이용하여 입력문의 구조를 분석하는 단계;로 이루어지는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
  13. 제 12항에 있어서, 상기 (a)단계는,
    대량의 원시말뭉치에 대해 형태소 분석을 수행하는 형태소 분석단계와,
    상기 형태소 분석 결과로부터 어휘 공기패턴 후보들을 추출하는 어휘 공기패턴 생성단계와,
    어휘 공기패턴 후보들로부터 오류가 있는 패턴을 제거하여 어휘 공기패턴을 구성하는 오류 공기패턴 제거단계와,
    어휘 공기패턴의 자료부족문제를 완화시키기 위해 어휘 공기패턴에 명사의 의미를 적용하여 의미 공기패턴을 생성하는 의미 공기패턴 생성단계를 포함하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
  14. 제 13항에 있어서, 상기 어휘 공기패턴 생성단계는,
    문장의 가장 마지막 용언인 p(n)과 바로 이전 용언인 p(n-1) 사이의 어절 'N(1) ... N(k)'에 대해 <N(1),조사,p(n)>,...,<N(k),조사, p(n)>를 추출하는 단계와,
    용언 p가 타동사일 때 관형절이 아닌 경우, 부사를 제외하고 바로 인접한 어절이 '명사-격조사'이면 <명사,격조사,p>를 추출하는 단계와,
    용언 p가 자동사이고 관형절이 아닌 경우, 부사를 제외하고 바로 인접한 어절이 명사-격조사이면, <명사,격조사,p>를 추출하는 단계와,
    용언 p가 형용사이고, 바로 인접한 어절이 '명사-{주격조사,부사격조사}'이 면 <명사,격조사,p>를 추출하는 단계와,
    용언 p가 관형형이고, p 와 바로 인접하여 명사 N이 있는 경우 <p,N>을 추출하는 단계와,
    하나의 어절이 'N(1)... N(k-1)N(k)'로 구성되어 있을 때, 해당 어절을 구성하는 명사들 중 가장 마지막 두 개의 명사에 대해 <N(k-1), N(k)>를 추출하는 단계와,
    연속된 두 어절이 'N(1) N(2)_{조사}'형태로 공기할 때, <N(1), N(2)>를 추출하는 단계와,
    연속된 두 어절이 'N(1)_의 N(2)_{조사}'형태로 공기할 때, <N(1),N(2)>를 추출하는 단계를 포함하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
  15. 제 13항에 있어서, 상기 오류 공기패턴 제거단계는, 명사-조사-용언의 어휘 공기패턴 후보에 대한 오류 패턴을 제거함에 있어,
    하나의 문장에 대해 추출된 공기패턴 <N(1),조사,p(n)>,...,<N(k),조사, p(n)>에 대해 <N(i),가,p(n)>와 <N(j),가,p(n)>(i<j)가 존재하면 <N(i),가, p(n)>을 제거하는 단계와,
    용언 p가 자동사이고 관형절이 아닌 경우, 부사를 제외하고 바로 인접한 어절이 명사-격조사인 경우, p가 대등적 연결어미를 취하고 바로 다음 용언이 관형형 을 취하는 동사이면 <명사,격조사,p>를 제거하는 단계와,
    용언 p가 형용사이고 부사형 전성어미와 관형형 전성어미를 취하는 경우 <명사,격조사,p>를 제거하는 단계와,
    용언 p가 형용사이고 대등적 연결어미를 취할 때, 바로 다음 용언이 관형사형 전성어미를 취하는 형용사이면 <명사,격조사,p>를 제거하는 단계를 포함하는 것
    을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
  16. 제 13항에 있어서, 상기 오류 공기패턴 제거단계는, 명사-명사의 어휘 공기패턴 후보에 대한 오류 패턴을 제거함에 있어,
    연속된 두 어절이 'N(1) N(2)_{조사}'형태로 공기할 때, N(1) 바로 앞 어절이 관형어 상당어구일 경우 해당 공기패턴을 제거하는 단계와,
    연속된 두 어절이 'N(1)_의 N(2)_{조사}' 형태로 공기할 때, N(2)가 관형격 조사 '의'를 취하는 경우 및 N(1) 바로 앞 어절이 관형어 상당어구일 경우, 해당 공기패턴을 제거하는 단계를 포함하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
  17. 제 13항에 있어서, 상기 오류 공기패턴 제거단계는, 용언-명사의 어휘 공기패턴 후보에 대한 오류 패턴을 제거함에 있어,
    연속된 두 어절 "용언-관형형 명사"에 대해, 명사가 조사를 취하지 않는 경우 해당 공기패턴을 제거하는 단계와,
    명사가 취하는 조사가 관형격 조사인 '의'인 경우 해당 공기패턴을 제거하는 단계와,
    용언 바로 앞의 명사가 조사를 취하지 않고 명사 단독으로 쓰였을 때 해당 공기패턴을 제거하는 단계를 포함하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
  18. 제 13항에 있어서, 상기 의미 공기패턴 생성단계는, 명사 의미코드 사전을 참조하여, <명사,조사,용언>, <명사-명사>, <용언-명사>에 대해 의미공기패턴을 생성하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
  19. 제 12항에 있어서, 상기 (c)단계는,
    분석하고자 하는 대상이 일문일격의 원칙이 적용되는 구문관계인지를 판단하는 제 1단계;
    일문일격의 원칙이 적용되는 경우, 명사-조사-용언 공기패턴과 명사의미-조사-용언 공기패턴을 이용하여 구문관계를 분석하는 제 2단계;
    일문일격의 원칙이 적용되지 않는 경우, 명사/명사의미-명사/명사의미 공기정보 및 용언-명사/명사의미 공기정보를 이용하여 구문관계를 분석하는 제 3단계; 및
    상기 제 3단계에 의해서도 구문관계 결정이 이뤄지지 않을 경우, 격조사 치환을 통하여 다시 구문관계를 분석하는 제 4단계를 포함하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
KR1020030096963A 2003-12-24 2003-12-24 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템및 그 방법 KR100560168B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030096963A KR100560168B1 (ko) 2003-12-24 2003-12-24 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030096963A KR100560168B1 (ko) 2003-12-24 2003-12-24 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템및 그 방법

Publications (2)

Publication Number Publication Date
KR20050065193A KR20050065193A (ko) 2005-06-29
KR100560168B1 true KR100560168B1 (ko) 2006-03-13

Family

ID=37256722

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030096963A KR100560168B1 (ko) 2003-12-24 2003-12-24 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템및 그 방법

Country Status (1)

Country Link
KR (1) KR100560168B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100617320B1 (ko) * 2004-12-08 2006-08-30 한국전자통신연구원 한국어 특성을 이용한 용언간 구조 분석 방법 및 그 장치
KR100784441B1 (ko) * 2005-12-06 2007-12-11 한국전자통신연구원 의미공기정보 지식베이스 구축 방법 및 장치
KR101879311B1 (ko) * 2017-01-05 2018-07-17 단국대학교 산학협력단 접속조사를 이용한 유정명사 추출 방법 및 장치
KR101879309B1 (ko) * 2017-01-05 2018-07-17 단국대학교 산학협력단 관형격조사를 이용한 유정명사 추출 방법 및 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990042430A (ko) * 1997-11-26 1999-06-15 정선종 문장의 구조정보를 이용한 명사구 추출장치 및 그 방법
KR20000039406A (ko) * 1998-12-12 2000-07-05 이계철 부분 구문 분석을 통한 보어-술어 관계의 복합명사 색인 방법
JP2001067354A (ja) * 1999-08-27 2001-03-16 Matsushita Electric Ind Co Ltd 新語性判定装置及び新語性判定方法
KR20020003574A (ko) * 1999-12-31 2002-01-15 이계철 기계번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법
KR20020017330A (ko) * 2000-08-29 2002-03-07 우요섭 어휘의 중의성 해소를 위한 의미 태깅

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990042430A (ko) * 1997-11-26 1999-06-15 정선종 문장의 구조정보를 이용한 명사구 추출장치 및 그 방법
KR20000039406A (ko) * 1998-12-12 2000-07-05 이계철 부분 구문 분석을 통한 보어-술어 관계의 복합명사 색인 방법
JP2001067354A (ja) * 1999-08-27 2001-03-16 Matsushita Electric Ind Co Ltd 新語性判定装置及び新語性判定方法
KR20020003574A (ko) * 1999-12-31 2002-01-15 이계철 기계번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법
KR20020017330A (ko) * 2000-08-29 2002-03-07 우요섭 어휘의 중의성 해소를 위한 의미 태깅

Also Published As

Publication number Publication date
KR20050065193A (ko) 2005-06-29

Similar Documents

Publication Publication Date Title
Gildea et al. The necessity of parsing for predicate argument recognition
US7379870B1 (en) Contextual filtering
KR100542755B1 (ko) 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체
US9575955B2 (en) Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
Kirchhoff et al. Novel speech recognition models for Arabic
Neubig et al. A monotonic statistical machine translation approach to speaking style transformation
Chen et al. Automated extraction of tree-adjoining grammars from treebanks
Favre et al. Punctuating speech for information extraction
Issam et al. Goud. ma: a news article dataset for summarization in Moroccan Darija
Liyanage et al. A computational grammar of Sinhala
KR100725723B1 (ko) 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원방법 및 장치
KR100560168B1 (ko) 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템및 그 방법
Kuo et al. Morphological and syntactic features for Arabic speech recognition
Palmer et al. Robust information extraction from automatically generated speech transcriptions
Roark Robust garden path parsing
US20210133394A1 (en) Experiential parser
Baldridge Weakly supervised supertagging with grammar-informed initialization
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
Antoine et al. Automatic Rich Annotation of Large Corpus of Conversational transcribed speech: the Chunking Task of the EPAC Project.
Heintz Arabic language modeling with stem-derived morphemes for automatic speech recognition
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
Gavhal et al. Sentence Compression Using Natural Language Processing
Poel et al. A support vector machine approach to dutch part-of-speech tagging
Ouersighni Robust rule-based approach in Arabic processing

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130304

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140303

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20150226

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20160226

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20170224

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20180226

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20200224

Year of fee payment: 15