KR100560168B1

KR100560168B1 - 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템및 그 방법

Info

Publication number: KR100560168B1
Application number: KR1020030096963A
Authority: KR
Inventors: 김창현; 박상규
Original assignee: 한국전자통신연구원
Priority date: 2003-12-24
Filing date: 2003-12-24
Publication date: 2006-03-13
Also published as: KR20050065193A

Abstract

본 발명은 대량의 말뭉치로부터 어휘공기패턴 및 의미공기패턴을 자동으로 추출하여 구문분석에 적용함으로써 구문분석 결과의 품질을 향상시키는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템 및 그 방법에 관한 것이다.

본 발명의 구조분석 시스템은, 대량의 말뭉치로부터 어휘 및 의미 공기패턴을 추출하는 공기패턴 추출 시스템; 입력문에 대한 형태소 분석을 수행하는 형태소 분석기; 및 상기 형태소 분석 결과를 입력으로 하고 상기 어휘 및 의미 공기패턴을 이용하여 입력문의 구조를 분석하는 구조 분석기;로 구성된다.

구조분석, 어휘 공기패턴, 의미 공기패턴, 명사 의미코드 사전, 오류 공기패턴 제거기, 형태소 분석

Description

어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템 및 그 방법{Lexical and Semantic Collocation based Korean Parsing System and the Method}

도 1은 본 발명에 따른 한국어 구조분석 시스템에 대한 블록 구성도.

도 2는 본 발명에 따른 어휘 및 의미 공기패턴 추출 시스템에 대한 블록 구성도.

도 3은 본 발명에 따른 구문관계의 특성에 따라 공기패턴을 선택하여 구조분석을 수행하는 과정에 대한 흐름도.

<도면의 주요부분에 대한 부호의 설명>

100: 구조분석 장치 101: 형태소 분석기

102: 구조 분석기 103: 어휘 공기패턴

104: 의미 공기패턴 105: 명사 의미코드 사전

200: 공기패턴 추출 시스템

201: 원시말뭉치 DB 202: 어휘 공기패턴 생성기

203: 오류 공기패턴 제거기

204: 명사-조사-용언 오류유형 지식 DB

205: 명사-명사 오류유형 지식 DB

206: 용언-명사 오류유형 지식 DB

207: 의미 공기패턴 생성기

본 발명은 한국어 구조분석 시스템 및 그 방법에 관한 것이며, 보다 상세히는 대량의 말뭉치로부터 어휘공기패턴 및 의미공기패턴을 자동으로 추출하여 구문분석에 적용함으로써 구문분석 결과의 품질을 향상시키는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템 및 그 방법에 관한 것이다.

구문분석을 진행하는 과정에서 가장 기본적으로 적용되는 원칙으로 일문 일격의 원칙이 있다.

일문 일격의 원칙이란, 동일한 피수식어를 수식하는 수식어들 간에 적용되는 원칙으로써, 동일한 피수식어를 수식하는 수식어들 간에는 동일한 구문적, 의미적 관계를 갖는 수식어가 둘 이상 존재하지 않는다는 것이다. 예를 들어, "아버지가 영희가 올 것이라고 말씀하셨다"의 경우, '오다'의 주어로 '아버지'와 '영희'가 모두 가능하나, 이 둘은 주격이라고 하는 동일한 구문관계 및 'agent'라고 하는 동일한 의미관계를 가지기 때문에 '오다'와 지역적으로 더 가까운 '영희'가 '오다'와 구문관계를 형성하고 '아버지'는 '말씀하시다'와 구문관계를 갖게 된다.

그러나, 일문일격의 원칙을 적용하더라도 구조를 올바르게 파악하기 힘든 경우는 너무나 많다. '빵이 맛있다고 말한다'의 경우, 일문일격의 원칙에 의하면 '빵'은 '맛있다'와 '말하다' 모두의 주어가 될 수 있다. 두 용언 모두 다른 주어를 취하지 않기 때문이다. 사람들은 '빵'이 '맛있다'의 주어이며 '말하다'의 주어는 아니라는 것을 쉽게 알 수 있다. 그러나, 컴퓨터를 이용하여 구문분석을 할 경우 '빵'이 어느 용언의 주어인지를 파악하는 것은 그리 쉽지 않다.

이러한 문제의 경우 아주 효과적인 지식이 바로 명사-격조사-용언 공기패턴이다. 구문분석에 있어서 이러한 어휘공기정보는 올바른 구조를 파악하는 데 핵심적인 정보이며, 이 정보를 대량으로 구축할 필요가 있다.

종래의 구문분석에 관한 연구들은 대량의 말뭉치로부터 가능한 명사-격조사-용언 공기패턴 후보를 모두 추출하고, 수학적인 방법론을 이용해 이들 가운데 의미 있는 공기정보를 추출해 내는 연구들을 수행하고 있다. 어휘공기패턴만을 이용할 경우 자료 부족 문제가 발생하게 되며, 이를 해결하기 위해 어휘공기패턴을 명사의 의미정보를 이용하여 좀더 일반화하는 연구들도 최근 수행되고 있다.

그러나, 기본적으로 공기정보를 추출하기 위한 후보들 가운데 많은 오류가 존재한다면, 수학적 방법론들을 적용하여 추출해 낸 최종적인 공기패턴에서도 오류가 많이 발생할 수 있다. 따라서, 보다 정확한 공기패턴을 추출하기 위해서는 명사-격조사-용언 공기패턴 후보를 추출할 때에 오류를 최소화 할 수 있는 보다 개선된 방법이 필요하다.

하지만, 기존의 연구들은 일문 일격의 원칙을 적용하고 있기 때문에, 정확한 공기정보를 추출하였다 하여도 올바른 구문분석 결과를 얻지 못할 수가 있다. 이에 대해 다음의 예시문을 통해 설명하도록 한다.

a. 그 차가 속도가 빠르다.

b. 목이 염증이 생겨 물을 마실 수 없다.

c. 목소리가 부드러운 음악과 잘 어울린다.

d. 목소리가 부드러운 사람과 어울리고 싶다.

a의 경우 '빠르다'는 2개의 주격을 취함으로써 일문일격의 원칙을 위반하고 있으나, 이 문장은 올바른 문장이다. b의 경우 일문일격의 원칙을 적용하게 되면 '염증'은 '생기다'의 주어가 되고, '목'은 '마시다'의 주어가 됨으로써 그릇된 구조를 가지게 되지만 명사-조사-용언 공기정보 혹은 명사의미-조사-용언 공기정보를 이용한다면 올바른 구조를 파악할 수도 있다. "목-이-생기다"가 "목-이-마시다"보다 더 자주 발생하기 때문이다. 그러나, c와 d를 보면 기존의 공기정보를 이용해서는 올바른 구조 파악이 불가능하다. 이러한 문제를 해결하기 위한 기존의 연구들은 아직 없으며, 따라서, 일문일격과 공기정보를 이용해서도 올바른 구조파악이 어려운 이러한 문제를 해결하기 위한 새로운 구조분석 방법이 요구되고 있다.

본 발명은 상기 문제점을 해결하고 상기 요구에 부응하기 위한 것으로서, 본 발명의 목적은 대량의 말뭉치로부터 어휘 공기패턴 및 의미 공기패턴을 추출할 때 나타나는 잘못된 공기패턴을 최소화하고, 또한 일문일격의 원칙에 위배될 뿐 아니 라 기존의 어휘 공기패턴 및 의미 공기패턴을 이용해서는 올바른 구문구조 파악이 힘든 문장들에 대해서도 새로운 형태의 공기패턴인 명사-명사 공기패턴 및 용언-명사 공기패턴을 정의하고 이용하며, 격조사 치환 방법을 이용함으로써 구문분석의 성능을 향상시킬 수 있는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템 및 그 방법을 제공하는데 있다.

상기 본 발명의 목적을 달성하기 위한 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템은, 대량의 말뭉치로부터 어휘 및 의미 공기패턴을 추출하는 공기패턴 추출 시스템; 입력문에 대한 형태소 분석을 수행하는 형태소 분석기; 및 상기 형태소 분석 결과를 입력으로 하고 상기 어휘 및 의미 공기패턴을 이용하여 입력문의 구조를 분석하는 구조 분석기;로 구성된다.

또한, 상기 본 발명의 목적을 달성하기 위한 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법은, 대량의 말뭉치로부터 어휘 및 의미 공기패턴을 추출하는 단계; 입력문에 대한 형태소 분석을 수행하는 단계; 및 상기 형태소 분석 결과를 입력으로 하고 상기 어휘 및 의미 공기패턴을 이용하여 입력문의 구조를 분석하는 단계;로 이루어진다.

이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다.

도 1은 본 발명의 한국어 구조분석 시스템(100)에 대한 블록 구성도이다.

도 1에 도시된 바와 같이, 본 발명의 구조분석 시스템(100)은, 입력문에 대한 형태소 분석을 수행하는 형태소 분석기(101)와, 형태소 분석 결과를 입력으로 하여 구조분석을 수행하는 구조분석기(102)와, 구조분석 시에 어휘간의 공기정보를 제공하는 어휘 공기패턴(103)과, 자료부족 문제를 해결하기 위해 이용되는 의미 공기패턴(104)과, 개별 명사들의 의미코드를 기술하고 있는 명사 의미코드 사전(105)으로 구성된다.

도 2는 상기 구조분석 시스템(100)에서 정확한 구조분석을 위해 사용되는 상기 어휘 및 의미 공기패턴(103,104)을 대량의 말뭉치(201)로부터 자동으로 추출하는 공기패턴 추출 시스템(200)에 대한 블록 구성도이다.

도 2를 참조하면, 본 발명의 공기패턴 추출 시스템(200)은, 공기패턴을 추출할 때 사용하는 대량의 원시 말뭉치 DB(201)와, 상기 원시 말뭉치 DB(201)로부터 형태소 분석 결과를 출력하는 형태소 분석기(101)와, 형태소 분석 결과로부터 어휘 공기패턴 후보를 추출하는 어휘 공기패턴 생성기(202)와, 어휘 공기패턴 후보들로부터 오류가 있는 패턴을 제거하는 오류 공기패턴 제거기(203)와, 오류 공기패턴 제거기(203)에서 사용되는 지식들 가운데 명사-조사-용언 유형의 공기패턴에 대한 오류 유형 지식을 기술하고 있는 명사-조사-용언 오류유형 지식 DB(204)와, 명사-명사 유형의 공기패턴에 대한 오류 유형 지식을 기술하고 있는 명사-명사 오류유형 지식 DB(205)와, 용언-명사 오류유형 지식을 기술하고 있는 용언-명사 오류유형 지식DB(206)와, 오류를 제거한 공기패턴으로 구성되는 어휘 공기패턴(103)과, 어휘 공기패턴(103)의 자료부족문제를 완화시키기 위해 명사의 의미를 이용하여 패턴을 생성하는 의미 공기패턴 생성기(207)와, 명사의 의미를 기술하고 있는 명사의미코드 사전(105)과, 의미공기패턴 생성기(207)로부터 생성되는 의미 공기패턴(104)으로 구성된다.

상기 어휘 공기패턴 생성기(202)는 대량의 원시말뭉치(201)를 형태소분석한 결과로부터 의존관계가 가능한 모든 명사-조사-용언, 명사-명사, 용언(관형형)-명사 후보들을 추출하게 된다.

이들 후보들을 추출하는 단계는, 문장의 가장 마지막 용언인 p(n)과 바로 이전 용언인 p(n-1) 사이의 어절 'N(1) ... N(k)'에 대해 <N(1),조사,p(n)>,...,<N(k),조사, p(n)>를 추출하는 제 1단계와, 용언 p가 타동사일 때 관형절이 아닌 경우, 부사를 제외하고 바로 인접한 어절이 '명사-격조사'이면 <명사,격조사,p>를 추출하는 제 2단계와, 용언 p가 자동사이고 관형절이 아닌 경우, 부사를 제외하고 바로 인접한 어절이 명사-격조사이면, <명사,격조사,p>를 추출하는 제 3단계와, 용언 p가 형용사이고, 바로 인접한 어절이 '명사-{주격조사,부사격조사}'이면 <명사,격조사,p>를 추출하는 제 4단계와, 용언 p가 관형형이고, p 와 바로 인접하여 명사 N이 있는 경우 <p,N>을 추출하는 제 5단계와, 하나의 어절이 'N(1)... N(k-1)N(k)'로 구성되어 있을 때, 해당 어절을 구성하는 명사들 중 가장 마지막 두 개의 명사에 대해 <N(k-1), N(k)>를 추출하는 제 6단계와, 연속된 두 어절이 'N(1) N(2)_{조사}'형태로 공기할 때, <N(1), N(2)>를 추출하는 제 7단계와, 연속된 두 어절이 'N(1)_의 N(2)_{조사}' 형태로 공기할 때, <N(1),N(2)>를 추출하는 제 8단계로 이루어진다.

또한, 상기 오류 공기패턴 제거기(203)는, 명사-조사-용언 오류를 제거하는 제 1단계와, 명사-명사 오류를 제거하는 제 2단계와, 용언-명사 오류를 제거하는 제 3단계를 수행한다.

또한, 상기 명사-조사-용언 오류 제거 단계는, 하나의 문장에 대해 추출된 공기패턴 <N(1),조사,p(n)>,...,<N(k),조사, p(n)>에 대해 <N(i),가,p(n)>와 <N(j),가,p(n)>(i<j)가 존재하면 <N(i),가, p(n)>을 제거하는 제 1단계와, 용언 p가 자동사이고 관형절이 아닌 경우, 부사를 제외하고 바로 인접한 어절이 명사-격조사인 경우, p가 대등적 연결어미를 취하고 바로 다음 용언이 관형형을 취하는 동사이면 <명사,격조사,p>를 제거하는 제 2단계와, 용언 p가 형용사이고 부사형 전성어미와 관형형 전성어미를 취하는 경우 <명사,격조사,p>를 제거하는 제 3단계와, 용언 p가 형용사이고 대등적 연결어미를 취할 때, 바로 다음 용언이 관형사형 전성어미를 취하는 형용사이면 <명사,격조사,p>를 제거하는 제 4단계로 구성된다.

또한, 상기 명사-명사 오류 제거 단계는, 연속된 두 어절이 'N(1) N(2)_{조사}'형태로 공기할 때, N(1) 바로 앞 어절이 관형어 상당어구일 경우에 해당 공기패턴을 제거하는 제 1단계와, 연속된 두 어절이 'N(1)_의 N(2)_{조사}' 형태로 공기할 때, N(2)가 관형격 조사 '의'를 취하는 경우 및 N(1) 바로 앞 어절이 관형어 상당어구일 경우에는 해당 공기패턴을 제거하는 제 2단계로 구성된다.

상기 용언-명사 오류 제거 단계는, 연속된 두 어절 "용언-관형형 명사"에 대해, 명사가 조사를 취하지 않는 경우 해당 공기패턴을 제거하는 제 1단계와, 명사가 취하는 조사가 관형격 조사인 '의'인 경우 해당 공기패턴을 제거하는 제 2단계 와, 용언 바로 앞의 명사가 조사를 취하지 않고 명사 단독으로 쓰였을 때 해당 공기패턴을 제거하는 제 3단계로 구성된다.

상기 의미 공기패턴 생성기(207)는, 명사 의미코드 사전을 참조하여 명사들에 대한 일반화를 수행하여 자료부족문제를 완화시키는 장치로서, <명사,조사,용언>에 대해 의미공기패턴을 생성하는 제 1단계와, <명사-명사>에 대해 의미공기패턴을 생성하는 제 2단계와, <용언-명사>에 대해 의미공기패턴을 생성하는 제 3단계로 구성된다.

상기 <명-명사>에 대한 의미공기패턴 <N1-N2>에 대해 의미코드를 생성하는 단계는, 두개의 명사 모두에 대해 의미코드를 적용하여 의미패턴을 생성하는 제 1단계; N1에 대해서만 의미코드를 적용하여 의미패턴을 생성하는 제 2단계; N2에 대해서만 의미코드를 적용하여 의미패턴을 생성하는 제 3단계로 구성된다.

한편, 도 3은 상기와 같이 추출된 어휘 및 의미 공기패턴을 이용하여 구조분석을 수행하는 과정에 대한 흐름도이다.

도 3을 참조하면, 구조분석 과정은, 먼저 분석하고자 하는 대상이 일문일격의 원칙이 적용되는 구문관계인가를 판단한다.(S301).

이때, 이중주어 현상은 일문일격의 원칙이 적용되지 않는 대표적인 현상이며, 이중주어를 취할 수 있는 용언들도 제한이 되어 있으므로, 이미 주어를 취하고 있는 용언이 존재하고, 해당 용언이 이중주어가 가능한 경우에, 일문일격의 원칙이 적용되지 않는다고 판별한다.

일문일격의 원칙이 적용되는 경우라고 판단되면, 명사-조사-용언 공기패턴과 명사의미-조사-용언 공기패턴을 이용하여 구조분석을 수행한다.(S303)

반면에, 일문일격의 원칙이 적용되지 않는 경우에는 명사-명사, 명사의미-명사, 용언-명사, 용언-명사의미 공기정보를 이용하여 구조분석을 수행한다.(S302)

일문일격의 원칙이 적용되지 않는 경우 상기 S302를 수행하고서도 구문관계 결정이 어려운 경우에는,(S304) 격조사 치환을 통하여 다시 구문관계를 분석한다.(S305)

격조사 치환이란 이중주어의 첫 번째 주어의 주격조사를 '에/에게/에서'로 치환하여 용언과 구문관계를 파악하는 방법이다.

상기와 같은 본 발명의 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법은 컴퓨터로 읽을 수 있는 기록 매체에 저장될 수 있다. 이러한 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있도록 프로그램 및 데이터가 저장되는 모든 종류의 기록매체를 포함하는 것으로, 그 예로는, 롬(Read Only Memory), 램(Random Access Memory), CD(Compact Disk)-Rom, DVD(Digital Video Disk)-Rom, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다. 또한, 이러한 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

상술한 바와 같이 본 발명에 따른 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템 및 그 방법은, 대량의 말뭉치로부터 어휘 공기패턴 및 의미 공기 패턴을 추출할 때 나타나는 잘못된 공기패턴을 최소화한다.

또한, 일문일격의 원칙에 위배될 뿐 아니라 기존의 어휘 공기패턴 및 의미 공기패턴을 이용해서는 올바른 구문구조 파악이 힘든 문장들에 대해서도 새로운 형태의 공기패턴인 명사-명사 공기패턴 및 용언-명사 공기패턴을 정의하고 격조사 치환 방법을 이용함으로써 구문분석의 성능을 향상시킬 수 있다.

이상에서 설명한 것은 본 발명에 따른 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템 및 그 방법을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.

Claims

대량의 말뭉치로부터 어휘 및 의미 공기패턴을 추출하는 공기패턴 추출 시스템;

입력문에 대한 형태소 분석을 수행하는 형태소 분석기; 및

상기 형태소 분석 결과를 입력으로 하고 상기 어휘 및 의미 공기패턴을 이용하여 입력문의 구조를 분석하는 구조 분석기;로 구성되는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
제 1항에 있어서, 상기 공기패턴 추출 시스템은,

대량의 원시말뭉치에 대해 형태소 분석을 수행하는 형태소 분석기와,

상기 형태소 분석 결과로부터 어휘 공기패턴 후보들을 추출하는 어휘 공기패턴 생성기와,

어휘 공기패턴 후보들로부터 오류가 있는 패턴을 제거하여 어휘 공기패턴을 구성하는 오류 공기패턴 제거기와,

어휘 공기패턴의 자료부족문제를 완화시키기 위해 명사의 의미를 이용하여 의미 공기패턴을 생성하는 의미 공기패턴 생성기를 포함하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
제 2항에 있어서, 상기 어휘 공기패턴 생성기는,

대량의 원시말뭉치에 대한 형태소 분석 결과로부터 의존관계가 가능한 모든 명사-조사-용언, 명사-명사, 용언-명사, 관형형 용언-명사 후보들을 추출하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
제 2항 또는 제 3항에 있어서, 상기 어휘 공기패턴 생성기에서 상기 후보들의 추출은,

문장의 가장 마지막 용언인 p(n)과 바로 이전 용언인 p(n-1) 사이의 어절 'N(1) ... N(k)'에 대해 <N(1),조사,p(n)>,...,<N(k),조사, p(n)>를 추출하고,

용언 p가 타동사일 때 관형절이 아닌 경우는, 부사를 제외하고 바로 인접한 어절이 '명사-격조사'이면 <명사,격조사,p>를 추출하고,

용언 p가 자동사이고 관형절이 아닌 경우는, 부사를 제외하고 바로 인접한 어절이 명사-격조사이면, <명사,격조사,p>를 추출하고,

용언 p가 형용사이고, 바로 인접한 어절이 '명사-주격조사,부사격조사'이면 <명사,격조사,p>를 추출하고,

용언 p가 관형형이고, p 와 바로 인접하여 명사 N이 있는 경우는 <p,N>을 추출하며,

하나의 어절이 'N(1)... N(k-1)N(k)'로 구성되어 있을 때, 해당 어절을 구성하는 명사들 중 가장 마지막 두 개의 명사에 대해 <N(k-1), N(k)>를 추출하고,

연속된 두 어절이 'N(1) N(2)_조사'형태로 공기할 때, <N(1), N(2)>를 추출하고,

연속된 두 어절이 'N(1)_의 N(2)_조사'형태로 공기할 때, <N(1),N(2)>를 추출하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
제 2항에 있어서, 상기 오류 공기패턴 제거기는, 명사-조사-용언의 어휘 공기패턴 후보에 대한 오류 패턴을 제거함에 있어, 명사-조사-용언 오류 유형 지식 DB를 참조하여,

하나의 문장에 대해 추출된 공기패턴 <N(1),조사,p(n)>,...,<N(k),조사, p(n)>에 대해 <N(i),가,p(n)>와 <N(j),가,p(n)>(i<j)가 존재하면 <N(i),가, p(n)>을 제거하는 단계와,

용언 p가 자동사이고 관형절이 아닌 경우, 부사를 제외하고 바로 인접한 어절이 명사-격조사인 경우, p가 대등적 연결어미를 취하고 바로 다음 용언이 관형형을 취하는 동사이면 <명사,격조사,p>를 제거하는 단계와,

용언 p가 형용사이고 부사형 전성어미와 관형형 전성어미를 취하는 경우 <명 사,격조사,p>를 제거하는 단계와,

용언 p가 형용사이고 대등적 연결어미를 취할 때, 바로 다음 용언이 관형사형 전성어미를 취하는 형용사이면 <명사,격조사,p>를 제거하는 단계를 수행하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
제 2항에 있어서, 상기 오류 공기패턴 제거기는, 명사-명사의 어휘 공기패턴 후보에 대한 오류 패턴을 제거함에 있어, 명사-명사 오류유형 지식 DB를 참조하여,

연속된 두 어절이 'N(1) N(2)_{조사}'형태로 공기할 때, N(1) 바로 앞 어절이 관형어 상당어구일 경우 해당 공기패턴을 제거하는 단계와,

연속된 두 어절이 'N(1)_의 N(2)_{조사}' 형태로 공기할 때, N(2)가 관형격 조사 '의'를 취하는 경우 및 N(1) 바로 앞 어절이 관형어 상당어구일 경우, 해당 공기패턴을 제거하는 단계를 수행하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
제 2항에 있어서, 상기 오류 공기패턴 제거기는, 용언-명사의 어휘 공기패턴 후보에 대한 오류 패턴을 제거함에 있어, 용언-명사 오류유형 지식 DB를 참조하여,

연속된 두 어절 "용언-관형형 명사"에 대해, 명사가 조사를 취하지 않는 경우 해당 공기패턴을 제거하는 단계와,

명사가 취하는 조사가 관형격 조사인 '의'인 경우 해당 공기패턴을 제거하는 단계와,

용언 바로 앞의 명사가 조사를 취하지 않고 명사 단독으로 쓰였을 때 해당 공기패턴을 제거하는 단계를 수행하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
제 2항에 있어서, 상기 의미 공기패턴 생성기는, 명사 의미코드 사전을 참조하여, <명사,조사,용언>에 대해 의미공기패턴을 생성하는 단계와, <명사-명사>에 대해 의미공기패턴을 생성하는 단계와, <용언-명사>에 대해 의미공기패턴을 생성하는 단계를 수행하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
제 1항에 있어서, 상기 구조 분석기는,

일문일격의 원칙이 적용되는 경우, 명사-조사-용언 공기패턴과 명사의미-조사-용언 공기패턴을 이용하여 구문관계를 분석하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
제 1항에 있어서, 상기 구조 분석기는,

일문일격의 원칙이 적용되지 않는 경우, 명사/명사의미-명사/명사의미 공기정보 및 용언-명사/명사의미 공기정보를 이용하여 구문관계를 분석하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
제 10항에 있어서, 상기 구조 분석기에서 일문일격의 원칙이 적용되지 않는 경우 상기 공기정보를 이용한 구조분석에 의해서도 구문관계 결정이 이뤄지지 않을 경우,

격조사 치환을 통하여 다시 구문관계를 분석하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
(a) 대량의 말뭉치로부터 어휘 및 의미 공기패턴을 추출하는 단계;

(b) 입력문에 대한 형태소 분석을 수행하는 단계; 및

(c) 상기 형태소 분석 결과를 입력으로 하고 상기 어휘 및 의미 공기패턴을 이용하여 입력문의 구조를 분석하는 단계;로 이루어지는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
제 12항에 있어서, 상기 (a)단계는,

대량의 원시말뭉치에 대해 형태소 분석을 수행하는 형태소 분석단계와,

상기 형태소 분석 결과로부터 어휘 공기패턴 후보들을 추출하는 어휘 공기패턴 생성단계와,

어휘 공기패턴 후보들로부터 오류가 있는 패턴을 제거하여 어휘 공기패턴을 구성하는 오류 공기패턴 제거단계와,

어휘 공기패턴의 자료부족문제를 완화시키기 위해 어휘 공기패턴에 명사의 의미를 적용하여 의미 공기패턴을 생성하는 의미 공기패턴 생성단계를 포함하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
제 13항에 있어서, 상기 어휘 공기패턴 생성단계는,

문장의 가장 마지막 용언인 p(n)과 바로 이전 용언인 p(n-1) 사이의 어절 'N(1) ... N(k)'에 대해 <N(1),조사,p(n)>,...,<N(k),조사, p(n)>를 추출하는 단계와,

용언 p가 타동사일 때 관형절이 아닌 경우, 부사를 제외하고 바로 인접한 어절이 '명사-격조사'이면 <명사,격조사,p>를 추출하는 단계와,

용언 p가 자동사이고 관형절이 아닌 경우, 부사를 제외하고 바로 인접한 어절이 명사-격조사이면, <명사,격조사,p>를 추출하는 단계와,

용언 p가 형용사이고, 바로 인접한 어절이 '명사-{주격조사,부사격조사}'이 면 <명사,격조사,p>를 추출하는 단계와,

용언 p가 관형형이고, p 와 바로 인접하여 명사 N이 있는 경우 <p,N>을 추출하는 단계와,

하나의 어절이 'N(1)... N(k-1)N(k)'로 구성되어 있을 때, 해당 어절을 구성하는 명사들 중 가장 마지막 두 개의 명사에 대해 <N(k-1), N(k)>를 추출하는 단계와,

연속된 두 어절이 'N(1) N(2)_{조사}'형태로 공기할 때, <N(1), N(2)>를 추출하는 단계와,

연속된 두 어절이 'N(1)_의 N(2)_{조사}'형태로 공기할 때, <N(1),N(2)>를 추출하는 단계를 포함하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
제 13항에 있어서, 상기 오류 공기패턴 제거단계는, 명사-조사-용언의 어휘 공기패턴 후보에 대한 오류 패턴을 제거함에 있어,

하나의 문장에 대해 추출된 공기패턴 <N(1),조사,p(n)>,...,<N(k),조사, p(n)>에 대해 <N(i),가,p(n)>와 <N(j),가,p(n)>(i<j)가 존재하면 <N(i),가, p(n)>을 제거하는 단계와,

용언 p가 자동사이고 관형절이 아닌 경우, 부사를 제외하고 바로 인접한 어절이 명사-격조사인 경우, p가 대등적 연결어미를 취하고 바로 다음 용언이 관형형 을 취하는 동사이면 <명사,격조사,p>를 제거하는 단계와,

용언 p가 형용사이고 부사형 전성어미와 관형형 전성어미를 취하는 경우 <명사,격조사,p>를 제거하는 단계와,

용언 p가 형용사이고 대등적 연결어미를 취할 때, 바로 다음 용언이 관형사형 전성어미를 취하는 형용사이면 <명사,격조사,p>를 제거하는 단계를 포함하는 것

을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
제 13항에 있어서, 상기 오류 공기패턴 제거단계는, 명사-명사의 어휘 공기패턴 후보에 대한 오류 패턴을 제거함에 있어,

연속된 두 어절이 'N(1) N(2)_{조사}'형태로 공기할 때, N(1) 바로 앞 어절이 관형어 상당어구일 경우 해당 공기패턴을 제거하는 단계와,

연속된 두 어절이 'N(1)_의 N(2)_{조사}' 형태로 공기할 때, N(2)가 관형격 조사 '의'를 취하는 경우 및 N(1) 바로 앞 어절이 관형어 상당어구일 경우, 해당 공기패턴을 제거하는 단계를 포함하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
제 13항에 있어서, 상기 오류 공기패턴 제거단계는, 용언-명사의 어휘 공기패턴 후보에 대한 오류 패턴을 제거함에 있어,

연속된 두 어절 "용언-관형형 명사"에 대해, 명사가 조사를 취하지 않는 경우 해당 공기패턴을 제거하는 단계와,

명사가 취하는 조사가 관형격 조사인 '의'인 경우 해당 공기패턴을 제거하는 단계와,

용언 바로 앞의 명사가 조사를 취하지 않고 명사 단독으로 쓰였을 때 해당 공기패턴을 제거하는 단계를 포함하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
제 13항에 있어서, 상기 의미 공기패턴 생성단계는, 명사 의미코드 사전을 참조하여, <명사,조사,용언>, <명사-명사>, <용언-명사>에 대해 의미공기패턴을 생성하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
제 12항에 있어서, 상기 (c)단계는,

분석하고자 하는 대상이 일문일격의 원칙이 적용되는 구문관계인지를 판단하는 제 1단계;

일문일격의 원칙이 적용되는 경우, 명사-조사-용언 공기패턴과 명사의미-조사-용언 공기패턴을 이용하여 구문관계를 분석하는 제 2단계;

일문일격의 원칙이 적용되지 않는 경우, 명사/명사의미-명사/명사의미 공기정보 및 용언-명사/명사의미 공기정보를 이용하여 구문관계를 분석하는 제 3단계; 및

상기 제 3단계에 의해서도 구문관계 결정이 이뤄지지 않을 경우, 격조사 치환을 통하여 다시 구문관계를 분석하는 제 4단계를 포함하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.