KR102013230B1

KR102013230B1 - 구문 전처리 기반의 구문 분석 장치 및 그 방법

Info

Publication number: KR102013230B1
Application number: KR1020120122372A
Authority: KR
Inventors: 황영숙; 윤창호
Original assignee: 십일번가 주식회사
Priority date: 2012-10-31
Filing date: 2012-10-31
Publication date: 2019-08-23
Also published as: KR20140056753A; US9971757B2; WO2014069779A1; US9620112B2; US20150142443A1; US20170169006A1

Abstract

본 발명은 구문 전처리 기반의 구문 분석 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 구문 분석 전처리 과정을 통해 모호성 없이 규칙과 패턴에 의해 분석할 수 있는 구문들을 분석하고, 모호성이 일부 해소된 구문 분석 전처리 결과를 기반으로 구문 규칙을 적용하여 가능한 모든 구문분석 결과를 도출하고, 구문 트리 부착 학습 말뭉치로부터 학습된 통계적 구문분석 모델을 적용하여 구조적 모호성을 해소함으로써, 규칙 기반 방식의 구문 분석에서의 모호성을 감소시키고, 통계 기반 방식에 의한 모호성을 해소하여 구문 분석 과정에서의 분석 정확도와 처리 효율성을 높일 수 있다.

Description

구문 전처리 기반의 구문 분석 장치 및 그 방법{APPARATUS AND METHOD FOR SYNTACTIC PARSING BASED ON SYNTACTIC PREPROCESSING}

본 발명의 실시 예는 구문 전처리 기반의 구문 분석 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 규칙 기반 방식의 구문 분석에서의 모호성을 감소시키고, 통계 기반 방식에 의한 모호성을 해소함으로써, 구문 분석 과정에서의 분석 정확도와 처리 효율성을 높일 수 있는, 구문 전처리 기반의 구문 분석 장치 및 그 방법에 관한 것이다.

구문분석은 주어진 문장을 정의된 문법 구조에 따라 분석하여 통사적 구조를 밝혀내는 기술이다. 이러한 구문분석 방법은 형태소 분석 및 태깅이 끝난 후 구문단위로 분석하는 과정을 수행한다. 구문분석 방법은 크게 규칙기반의 분석방법과 통계기반의 구문분석 방법으로 구분된다.

규칙 기반의 구문분석 방법은 비교적 소수의 규칙을 반복적으로 적용하여 문장을 파싱한다. 이로 인해 규칙 기반의 구문분석 방법은 모호성 처리에 한계가 있을뿐만 아니라 모호성 증가로 인해 분석 복잡도가 증가하는 문제가 있다. 이에 반해, 통계기반의 구문분석 방법은 어휘 간의 연관관계 및 구문 간의 결합관계를 통계적으로 모델링하고 적용함으로써, 모호성을 해결할 수 있다.

그러나 일반적인 통계기반의 구문분석 방법을 적용하는 경우는 통계정보 추출을 위한 학습 데이터의 부족으로 인해 모호성 해소의 정확도가 저하될 수 있다. 또한, 일반적인 통계기반의 구문분석 방법을 적용하는 경우에는 방대한 통계 파라미터 공간의 탐색으로 인해 분석속도가 느려지는 등의 처리 효율의 문제점이 있다. 또한, 통계 데이터를 사용하여 모호성을 해소하는 경우는 새로운 지식을 추가하거나 사람이 구문분석 지식을 관리하고 튜닝하기가 쉽지 않다는 문제점이 있다.

그러므로 구문 분석 시에 발생 가능한 모호성을 최대한 감소시켜 줄 수 있는 구문분석 방안이 절실히 필요한 상황이다. 즉, 구문분석의 복잡도를 감소시켜 주고, 구문분석의 모호성을 효과적으로 해소할 수 있는 구문분석 방안 마련이 필요하다.

본 발명의 실시 예들은 규칙 기반 방식의 구문 분석에서의 모호성을 감소시키고, 통계 기반 방식에 의한 모호성을 해소함으로써, 구문 분석 과정에서의 분석 정확도와 처리 효율성을 높일 수 있는, 구문 전처리 기반의 구문 분석 장치 및 그 방법을 제공하고자 한다.

이를 위해, 본 발명의 실시 예들은 구문 분석 전처리 과정을 통해 모호성 없이 규칙과 패턴에 의해 분석할 수 있는 구문들을 분석하고, 모호성이 일부 해소된 구문 분석 전처리 결과를 기반으로 구문 규칙을 적용하여 가능한 모든 구문분석 결과를 도출하고, 구문 트리 부착 학습 말뭉치로부터 학습된 통계적 구문분석 모델을 적용하여 구조적 모호성을 해소할 수 있는, 구문 전처리 기반의 구문 분석 장치 및 그 방법을 제공하고자 한다.

또한, 본 발명의 실시 예들은 자질 기반 구문규칙을 이용하여 적합한 구문들 사이에서만 결합만이 가능하도록 규칙을 제약함으로써, 모호성을 감소시킬 수 있는, 구문 전처리 기반의 구문 분석 장치 및 그 방법을 제공하고자 한다.

본 발명의 제1 측면에 따르면, 입력된 품사 태깅 결과로부터 미리 정의된 구문 패턴을 인식하여 구문 패턴 유형에 따라 구문 트리, 구간 청크 및 종속변수 관계(Head-Dependent relation) 청크 중 어느 하나를 생성하는 패턴 청크 인식부; 기본명사구(BNP) 부착 말뭉치들을 입력받아 중간 학습 말뭉치로 가공하고, 상기 가공된 중간 학습 말뭉치로부터 기본명사구 통계모델을 생성하고, 품사 태깅 결과와 상기 생성된 기본명사구 통계모델을 이용하여 입력문에서 기본명사구(BNP)를 인식하는 기본명사구 인식부; 및 상기 인식된 구문 트리, 구간 청크, 종속변수 관계 청크, 기본명사구, 복합명사/복합어 및 개체명 중 적어도 하나의 인식 결과를 이용하여 구문을 분석하고, 상기 구문 분석 결과를 기초로 하여 구문 트리를 생성하는 구문 분석부를 포함하는 것을 특징으로 하는 구문 전처리 기반의 구문 분석 장치가 제공될 수 있다.

본 발명의 제2 측면에 따르면, 입력된 품사 태깅 결과로부터 미리 정의된 구문 패턴을 인식하여 구문 패턴 유형에 따라 구문 트리, 구간 청크 및 종속변수 관계 청크 중 어느 하나를 생성하는 패턴 청크 인식 단계; 기본명사구(BNP) 부착 말뭉치들을 입력받아 중간 학습 말뭉치로 가공하고, 상기 가공된 중간 학습 말뭉치로부터 기본명사구 통계모델을 생성하는 기본명사구 통계 모델 생성 단계; 품사 태깅 결과와 상기 생성된 기본명사구 통계모델을 이용하여 입력문에서 기본명사구(BNP)를 인식하는 기본명사구 인식 단계; 및 상기 인식된 구문 트리, 구간 청크, 종속변수 관계 청크, 기본명사구, 복합명사/복합어 및 개체명 중 적어도 하나의 인식 결과를 이용하여 구문을 분석하고, 상기 구문 분석 결과를 기초로 하여 구문 트리를 생성하는 구문 분석 단계를 포함하는 것을 특징으로 하는 구문 전처리 기반의 구문 분석 방법이 제공될 수 있다.

본 발명의 제3 측면에 따르면, 입력된 품사 태깅 결과로부터 미리 정의된 구문 패턴을 인식하여 구문 패턴 유형에 따라 구문 트리, 구간 청크 및 종속변수 관계 청크 중 어느 하나를 생성하는 패턴 청크 인식 과정; 기본명사구(BNP) 부착 말뭉치들을 입력받아 중간 학습 말뭉치로 가공하고, 상기 가공된 중간 학습 말뭉치로부터 기본명사구 통계모델을 생성하는 기본명사구 통계 모델 생성 과정; 품사 태깅 결과와 상기 생성된 기본명사구 통계모델을 이용하여 입력문에서 기본명사구(BNP)를 인식하는 기본명사구 인식 과정; 및 상기 인식된 구문 트리, 구간 청크, 종속변수 관계 청크, 기본명사구, 복합명사/복합어 및 개체명 중 적어도 하나의 인식 결과를 이용하여 구문을 분석하고, 상기 구문 분석 결과를 기초로 하여 구문 트리를 생성하는 구문 분석 과정이 제공될 수 있다.

본 발명의 실시 예들은 구문분석 전처리 과정을 통해 모호성 없이 정확하게 규칙과 패턴에 의해 분석할 수 있는 구문들을 분석하고, 모호성이 일부 해소된 구문분석 전처리 결과를 기반으로 구문 규칙을 적용하여 가능한 모든 구문분석 결과를 도출함으로써, 구문분석의 복잡도를 감소시킬 수 있으며, 구문분석의 정확도 및 분석 속도를 향상시킬 수 있는 효과가 있다.

또한, 본 발명의 실시 예들은 오토마타 기반의 청크 패턴 인식부를 통해 정규문법(Regular Grammar), 문맥자유문법(Context Free Grammar), 확장 문맥자유문법(Augmented CFG), 문맥의존문법(CSG: Context Sensitive Grammar)으로 표현할 수 있는 구문 패턴들을 모두 인식함으로써, 인식하고자 하는 구문 패턴을 규칙 기술 원칙에 따라 구축하여 구문 분석의 효율을 높이거나, 구문 분석을 응용한 시스템을 개발하고자 하는 경우 다양한 측면에서 활용할 수 있는 효과가 있다. 즉, 본 발명의 실시 예들은 일련의 단어나 품사 나열 패턴으로 구성되는 것들을 정규문법을 이용하여 표현하고, 구문 노드의 자질 값을 이용하여 연산가능한 패턴들을 문맥자유문법이나 확장 문맥자유문법을 이용하여 표현할 수 있고, 문맥의존 문법형식을 이용하여 구문 트리의 좌우 문맥과 함께 구문 패턴을 표현함으로써, 부분적 문법오류 탐지를 위한 시스템 및 작문 도우미 시스템의 성능을 향상시킬 수 있는 효과가 있다.

또한, 본 발명의 실시 예들은 구문 분석 과정에서 복합명사 인식 결과, 개체명인식 결과, 기본명사구 인식 결과 등 다양한 구문 분석 전처리 결과를 이용하고, 언어에 독립적으로 적용됨으로써, 분석하고자 하는 언어의 문법사전, 구문 속성 사전 및 구문 중의성 해소를 위한 통계 모델만 주어지면 어떤 언어에 대해서도 구문 분석을 용이하게 수행할 수 있는 효과가 있다.

또한, 본 발명의 실시 예들은 1-베스트 경로(1-best path) 품사 태깅 결과와 n-베스트(n-best) 품사 태깅 결과를 이용함으로써, 구문분석의 정확도를 향상시키고 품사 태깅 과정의 오류 전파로 인한 구문 분석 오류를 최소화할 수 있는 효과가 있다.

또한, 본 발명의 실시 예들은 직관적인 문장의 구문구조 및 문장 성분 구조를 반영한 통계 모델을 이용함으로써, 품사와 어휘의 적절한 활용을 통해 자료 부족 문제를 완화하면서 구문 구조 중의성을 효과적으로 해소할 수 있는 효과가 있다.

도 1은 본 발명의 실시 예에 따른 구문 전처리 기반의 구문 분석 장치의 구성도이다.
도 2는 본 발명의 실시 예에 따른 구문 패턴 규칙의 구조와 구문 패턴 사전의 예시도이다.
도 3은 본 발명의 실시 예에 따른 도 1의 패턴 청크 인식부의 상세 구성도이다.
도 4는 본 발명의 실시 예에 따른 상향식 파싱 알고리즘에 대한 흐름도이다.
도 5는 본 발명의 실시 예에 따른 도 1의 기본명사구 인식부의 상세 구성도이다.
도 6은 본 발명의 실시 예에 따른 도 1의 구문 분석부의 상세 구성도이다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세하게 설명한다. 본 발명의 구성 및 그에 따른 작용 효과는 이하의 상세한 설명을 통해 명확하게 이해될 것이다. 본 발명의 상세한 설명에 앞서, 동일한 구성요소에 대해서는 다른 도면 상에 표시되더라도 가능한 동일한 부호로 표시하며, 공지된 구성에 대해서는 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 구체적인 설명은 생략하기로 함에 유의한다.

도 1은 본 발명의 실시 예에 따른 구문 전처리 기반의 구문 분석 장치의 구성도이다.

도 1에 도시된 바와 같이, 구문 분석 장치(100)는 패턴 청크 인식부(110), 기본명사구 인식부(120), 구문 분석부(130) 및 통계 모델 학습부(140)를 포함한다. 여기서, 청크 패턴 인식부(110)는 수량사 청크, HDR 청크, 기타 청크 패턴을 저장하는 청크 패턴 DB(111)와 연결되어 있다. 또한, 기본 명사구 인식부(120)는 기본명사구 통계 모델 DB(112)와 연결되어 있다. 또한, 구문 분석부(130)는 문법사전 DB(131), 구문자질사전 DB(132), 전치사구 규칙 DB(133) 및 HDR 규칙 DB(134)와 연결되어 있다.

이하, 본 발명의 실시 예에 따른 구문 분석 장치(100)의 구성요소 각각에 대하여 살펴보기로 한다. 패턴 청크 인식부(110)에 대해서는 도 2 내지 도 4를 참조하여 상세하게 설명한다. 또한, 기본명사구 인식부(120)에 대해서는 도 5를 참조하여 상세하게 설명한다. 또한, 구문 분석부(130)에 대해서는 도 6을 참조하여 상세하게 설명한다.

패턴 청크 인식부(Shallow Parser)(110)는 품사 태깅된 문장을 입력받아 미리 정의된 구문 패턴을 인식하여 구문트리 또는 정해진 형태의 결과를 출력한다. 패턴 청크 인식부(110)는 기본적으로 발생패턴이 명확한 일련의 단어/품사 열을 인식하기 위해 사용된다. 패턴 청크 인식부(110)는 구문 패턴의 인식 후 구문 패턴의 유형에 따라 구문트리, 구간청크, 종속변수 관계(Head-Dependent relation) 청크 중 어느 하나를 생성한다. 패턴 청크 인식부(110)는 수사, 양사를 포함하여 수량사 패턴을 인식한 후 그 결과로 구문트리를 생성한다. 또한, 패턴 청크 인식부(110)는 절분리, 병렬구 및 기타 패턴을 인식하고 그 결과로 구간청크와 종속변수 관계 청크를 생성한다.

패턴 청크 인식부(110)는 다양한 구문 패턴을 인식할 수 있다. 예를 들면, 패턴 청크 인식부(110)는 정규문법(Regular Grammar), 문맥자유문법(Context Free Grammar)과 확장 문맥자유문법(Augmented CFG), 문맥의존문법(CSG: Context Sensitive Grammar)으로 표현 가능한 구문 패턴들을 인식할 수 있다. 즉, 패턴 청크 인식부(110)는 일련의 단어나 품사 나열 패턴으로 구성되는 구문 패턴들을 정규문법을 이용하여 표현하며, 구문파스 트리로 변환시킬 수 있다. 또한, 패턴 청크 인식부(110)는 노드의 자질 값을 이용하여 연산할 수 있는 패턴들은 문맥자유문법(CFG)이나 확장 문맥자유문법(Augmented CFG)을 이용하여 표현할 수 있다. 또한, 패턴 청크 인식부(110)는 문맥의존 문법형식을 이용하여 구문트리의 좌우 문맥과 함께 구문 패턴을 표현할 수 있다.

기본명사구 인식부(120)는 기본명사구(BNP) 부착 말뭉치들을 입력받아 중간 학습 말뭉치로 가공하고, 그 가공된 중간 학습 말뭉치로부터 기본명사구 통계모델을 생성하고, 품사 태깅 결과와 상기 생성된 기본명사구 통계모델을 이용하여 입력문에서 기본명사구(BNP)를 인식한다.

구문 분석부(130)는 패턴 청크 인식부(110) 및 기본명사구 인식부(120)에서 인식된 구문 트리, 구간 청크, 종속변수 관계 청크, 기본명사구, 복합명사/복합어 및 개체명 중 적어도 하나의 인식 결과를 이용하여 구문을 분석하고, 구문 분석 결과를 기초로 하여 구문 트리를 생성한다.

통계 모델 학습부(140)는 구문구조부착 말뭉치로부터 통계 모델을 학습하고 그 학습 결과를 구문분석 통계 모델 DB(141)에 저장한다.

도 2는 본 발명의 실시 예에 따른 구문 패턴 규칙의 구조와 구문 패턴 사전의 예시도이다.

도 2에 도시된 바와 같이, 패턴 청크 인식부(110)는 구문 패턴들을 인식하여 구문규칙 작성 원칙(201)에 따라 구문 패턴을 기술한다. 이러한 규칙(201)은 구문 패턴/구문청크 유형에 따른 구분을 위한 섹션(Section), 복잡한 노드를 단순화하여 표현하기 위한 정의(Define) 문, 일부 태그의 변수화를 위한 가상 태그(vtag: virtual tag), 어휘의 카테고리 정의를 위한 서브 카테고리(Subcat), 패턴과 액션으로 구성된 룰(rule) 등으로 이루어진다. 패턴 청크 인식부(110)는 구문 패턴 또는 구문청크를 종류에 따라 섹션으로 나누어 기술한다. 이때, 하나의 섹션이 선언된 이후부터 다른 섹션이 선언되기 전까지의 작업공간에 기술된 선언문이나 규칙은 모두 같은 부류의 구문 패턴 또는 구문청크가 된다.

도 3은 본 발명의 실시 예에 따른 도 1의 패턴 청크 인식부의 상세 구성도이다.

패턴 청크 인식부(110)는 상향식 차트 파싱(Bottom-up Chart Parsing) 알고리즘을 이용하여 구문 패턴 규칙들을 인식한다. 패턴 청크 인식부(110)는 오른쪽에서 왼쪽으로 입력 데이터의 문장을 스캔해 가면서 하나의 위치에서 적용 가능한 모든 규칙들을 찾아 적용해 가면서 구문 패턴을 인식한다. 그리고 패턴 청크 인식부(110)는 구문 패턴 유형에 따라 구문트리를 생성하거나 구간 청크를 생성한다.

도 3에 도시된 바와 같이, 패턴 청크 인식부(110)는 구문 패턴 사전을 읽어서 시스템 내부의 저장구조로 저장하는 규칙 로딩(rule_loading) 모듈(310), 작업공간을 생성하는 작업공간(workspace) 생성 모듈(320) 및 실제 입력 데이터에 대해 구문 패턴 사전을 적용하여 파싱하는 파싱 모듈(330)을 포함한다. 이하, 각 모듈에 대해서 살펴보면 다음과 같다.

먼저, 규칙 로딩 모듈(310)은 구문 패턴 사전 파일을 열고 한 라인씩 읽어가며 규칙에 적합한 저장구조에 저장한다. 즉, 규칙 로딩 모듈(310)은 섹션(Section) 구문을 만나면 섹션(Section) 구문을 인식하여 섹션 구문에 적합한 저장구조에 저장한다. 규칙 로딩 모듈(310)은 새로운 섹션이 선언되기 전까지는 공통의 섹션으로 처리되도록 한다. 또한, 규칙 로딩 모듈(310)은 정의문, 가상태그 문에 대해서는 정의 테이블(Define Table), 가상태그 테이블(vtag table)에 저장한다. 그리고 규칙 로딩 모듈(310)은 서브 카테고리(subcat) 정보를 트라이(Trie) 구조로 저장한다. 이는 탐색의 효율을 높이기 위함이다. 규칙 로딩 모듈(310)은 룰(rule)을 패턴과 액션으로 나누어서 분석하고 룰 테이블(Rule table)에 저장한다.

작업공간 생성 모듈(320)은 다음 파싱을 위한 작업공간(Workspace)을 생성한다. 작업공간에는 패턴 매칭이 진행중인 룰들을 담고 있는 활성화 차트(achart: active chart)들의 집합인 아젠다(agenda), 이미 완성된 노드 정보를 담고 있는 비활성화 차트(inactive chart)들의 집합인 비활성화 아젠다(igenda), 터미널 노드들의 집합, 비-터미널 노드들(nonterminal nodes)의 집합 및 파싱(parsing) 결과를 저장하는 파스 트리(parse tree)로 이루어진다. 작업공간 생성 모듈(320)은 이러한 작업공간 구성요소들의 구조와 저장공간을 생성한다.

그리고 파싱 모듈(330)은 실제 구문 패턴 인식 알고리즘을 수행한다. 구문 패턴 인식 알고리즘은 하기의 도 4와 같은 상향식 파싱(bottom-up parsing) 알고리즘을 이용한다.

도 4는 본 발명의 실시 예에 따른 상향식 파싱 알고리즘에 대한 흐름도이다.

파싱 모듈(330)은 룰(rule) 매칭을 위해서는 도 4와 같은 구문 패턴 인식 알고리즘을 수행한다. 진행중인 활성화 차트(achart: active chart) 또는 룰(rule)에서 새로 시작된 활성화 차트(achart)의 경우, 각 활성화 차트(achart)에는 구문 패턴을 표현하는 소스 트리(Source Tree)들이 존재한다. 파싱 모듈(330)은 소스 트리들을 이용하여 기존 트리 또는 노드(ichart)와 어휘(lex), 품사 또는 구문 태그(tag), 구문속성(feature) 및 노드의 자식 노드들을 비교한다.

파싱 모듈(330)은 비교 결과가 일치하면 완성된 규칙 또는 미완성된 규칙 여부에 따라서 별도의 동작을 수행한다. 즉, 파싱 모듈(330)은 완성된 규칙의 경우 규칙에 있는 타겟(target)이라는 트리 생성 정보를 이용하여 새로운 비활성화 차트(ichart: inactive chart)를 생성한다. 반면, 파싱 모듈(330)은 미완성된 경우에 대해서 구문 패턴에서 일치된 위치를 나타내는 인덱스를 하나 증가시킨 활성화 차트(achart)를 생성한다. 이하, 도 4를 참조하여 구체적인 상향식 파싱 알고리즘에 대해서 설명하기로 한다.

파싱 모듈(330)은 모든 터미널을 비활성화 아젠다(igenda)에 저장한다(S402).

파싱 모듈(330)은 아젠다(Agenda)와 비활성화 아젠다(igenda)에 있는 모든 아이템에 대해 비활성화 차트(ichart)를 로딩한다(S404).

파싱 모듈(330)은 비활성화 차트(ichart)에서 시작되는 규칙이 있는지 여부를 확인한다(S406).

상기 확인 결과(S406), 비활성화 차트(ichart)에서 시작되는 규칙이 있는 경우, 파싱 모듈(330)은 비활성화 차트(ichart)에서 시작되는 규칙을 실행한다(S408).

그리고 비활성화 차트(ichart)는 이 노드를 기다리는 활성화 차트(achart)가 있는지 여부를 확인한다(S410).

상기 확인 결과(S410), 노드를 기다리는 활성화 차트(achart)가 있는 경우, 파싱 모듈(330)은 활성화 차트(achart)를 진행한다(S412).

파싱 모듈(330)은 S412 단계에서 활성화 차트(achart)의 진행 결과, 새로 생성된 비활성화 차트(ichart)를 비활성화 아젠다(igenda)에 등록한다(S414).

한편, 파싱 모듈(330)은 모든 아이템에 대해 활성화 차트(achart)를 로딩한다(S416).

그리고 파싱 모듈(330)은 활성화 차트(achart)와 이어지는 모든 비활성화 차트(ichart)에 대해서 룰 매칭을 실행한다(S418).

이어서, 파싱 모듈(330)은 새로운 비활성화 차트(ichart)가 생성되면 비활성화 아젠다(igenda)에 등록한다(S420).

이후, 파싱 모듈(330)은 계속 진행상태에 있는 활성화 차트(achart)를 아젠다(agenda)에 등록한다(S422).

도 5는 본 발명의 실시 예에 따른 도 1의 기본명사구 인식부의 상세 구성도이다.

기본명사구 인식부(120)는 문장 태깅 결과를 입력으로 받아서 기본명사구 인식 결과를 출력한다. 여기서, 기본명사구(BNP: Base Noun Phrase)란 문장을 이루는 여러 구 중에서 가장 기본이 되는 명사구를 말한다. 기본명사구 인식부(120)는 처리량이 많지만 정확률이 다소 떨어지는 구문분석의 성능을 향상시키기 위해 높은 정확률과 안정적인 성능을 보이는 기본명사구 인식 방식을 적용한다. 이는 구문분석의 복잡도를 줄일 뿐 아니라 정확도를 향상시키기 위함이다.

이를 위해, 본 발명의 실시 예에 따른 기본명사구 인식부(120)는 기본명사구(BNP) 부착 말뭉치들을 입력받아 BNP 통계 모델을 학습하는 기본명사구 통계 학습 모듈(510) 및 통계 기반 기본명사구 인식 모듈(520)을 포함한다. 기본명사구 통계 학습 모듈(510) 및 통계 기반 기본명사구 인식 모듈(520)은 기본명사구 통계 모델 DB(112)와 연결되어 있다.

기본명사구 통계 학습 모듈(510)은 기본명사구 인식을 위해 팬 트리뱅크(Penn TreeBank)에서 정의한 문법에 기반하여 기본명사구만 태깅된 형태로 가공된 학습 말뭉치를 구축한다. 그리고 기본명사구 통계 학습 모듈(510)은 유한상태변형기(FST: Finite State Transducer)를 이용하여 초기 말뭉치를 시스템에서 이용할 수 있는 형태로 가공한다. 기본명사구 통계 학습 모듈(510)은 입력되는 말뭉치를 여는 괄호와 닫는 괄호 그리고 단어로 분류하여 그 입력에 대한 행위들을 정의하고 가공한다. 이어서, 기본명사구 통계 학습 모듈(510)은 가공된 말뭉치(이하, 중간 학습 말뭉치)에서 기본명사구 인식을 위해 사용될 자질들을 추출한다. 자질 선택은 정보 이득(Information Gain)을 이용하여 의미 있는 자질을 선택하며, 여러 자질들을 테스트하여 가장 오류가 적은 자질들을 추출하도록 한다.

사용할 자질을 결정한 후, 기본명사구 통계 학습 모듈(510)은 중간 학습 말뭉치로부터 자질들을 추출하여 조건부 랜덤 필드(CRF: Conditional Random Field) 알고리즘에 따라 학습할 수 있는 형태로 변환시켜 학습을 진행한다.

기본명사구 통계 학습 모듈(510)은 학습 진행이 종료되면 기본명사구 통계모델을 생성하여 기본명사구 통계 모델 DB(112)에 저장한다. 그리고 기본명사구 통계모델은 아스키 코드 형태로 저장된다. 그리고 기본명사구 통계 모델은 학습시킨 환경과 상관없이 모든 환경에서 적용될 수 있다.

그리고 통계 기반 기본명사구 인식 모듈(520)은 태깅 결과와 기본명사구 통계모델 학습결과를 입력받는다. 그리고 통계 기반 기본명사구 인식 모듈(520)은 품사 태깅 결과와 기본명사구 통계모델 학습결과를 이용해 입력문에서 기본명사구(BNP)를 인식하여 기본명사구 인식 정보를 출력한다.

도 6은 본 발명의 실시 예에 따른 도 1의 구문 분석부의 상세 구성도이다.

구문 분석부(130)는 문장을 구성하고 있는 형태소들 사이의 구문 관계를 분석하여 문장의 구조를 결정한다. 이를 위해, 구문 분석부(130)는 품사 태깅 결과와 다양한 청킹 결과(예컨대, 복합명사/복합어, 구문트리/구간청크, 기본명사구(BNP), 개체명(NE: Name Entity) 인식 결과 등)를 입력받아 구문분석 문법 및 각종 사전정보를 이용하여 문장의 구조를 분석한다. 이후, 구문 분석부(130)는 문장의 구조 분석 결과를 기초로 하여 파스 트리(Parse Tree)를 생성한다. 일반적으로 문장의 구조를 분석할 때 자연언어의 어휘적 특성과 구문분석 문법으로 인하여 구조적 모호성이 발생한다. 반면, 본 발명의 실시 예에 따른 구문 분석부(130)는 말뭉치에서 추출한 다양한 확률 정보를 이용하여 중의성을 해소하고, 최적의 구문구조를 선택할 수 있다.

이하, 본 발명의 실시 예에 따른 구문 분석부(130)의 구성요소 각각에 대하여 살펴보기로 한다.

도 6에 도시된 바와 같이, 구문 분석부(130)는 초기 데이터 설정 모듈(610), 파싱 자료 관리 모듈(620), 구문 분석 모듈(630), 규칙 및 지식 사전 DB(640), 제약 및 확률 처리 모듈(650) 및 결과 트리 선택 모듈(660)을 포함한다. 규칙 및 지식 사전 DB(640)은 도 1의 문법사전 DB(131), 구문자질사전 DB(132), 전치사구 규칙 DB(133) 및 HDR 규칙 DB(134)를 포함할 수 있다.

구문 분석부(130)는 입력 데이터로 품사 태깅 결과와 청킹 결과를 입력받아 구문 분석을 수행한다.

구체적으로 살펴보면, 초기 데이터 설정 모듈(610)은 입력 문장에 대한 품사 태깅 결과로서 경로(path) 기반과 상태(state) 기반의 2가지 분석 결과를 이용한다. 품사 태깅 결과는 각 어휘에 대한 서브 단어(sub-word) 정보를 포함할 수 있다. 초기 데이터 설정 모듈(610)은 품사 태깅 결과의 옵션에 따라 1-베스트(1-best) 경로 품사만 이용할 것인지 아니면 n-베스트 태그(n-best tag)가 이용할 것인지 여부를 결정한다. 여기서, 옵션은 프로세스 레벨(Process Level)을 나타낸다.

여기서, 1-베스트 경로(1-best path)는 가장 신뢰도가 높은 품사 태깅 결과로 항상 이용된다. 1-베스트 경로만을 사용하는 경우 잘못 부착된 품사 태그로 인해 정답 트리가 생성되지 않을 수 있다. 이를 완화하기 위해, n-베스트 태그(n-best tag)를 보조 수단으로 함께 이용할 수 있다. 이때, 모든 n-베스트 태그를 사용하는 경우 구문분석 과정에서 중간 노드가 기설정된 노드 개수 이상으로 생성되어 성능이 하락하게 될 수 있다. 이를 방지하기 위해, 1-베스트 경로에 나타난 품사의 점수(Score)와 비교하여 일정 임계(Threshold) 값 이상의 점수를 갖는 품사들만이 이용된다.

전술된 품사 태깅 결과와 함께, 초기 데이터 설정 모듈(610)은 청크 패턴 인식부(110)와 기본명사구 인식부(120)의 결과인 청킹 결과를 이용한다. 여기서, 외부 청킹 결과는 기본적으로 1-베스트 경로(1-best path) 품사만을 사용하여 생성된다. 외부 청킹 결과에는 청크의 시작/마지막 형태소 정보, 헤드(head) 정보 및 부가 정보들을 포함하고 있다.

초기 데이터 설정 모듈(610)은 청크 패턴 인식부(110)와 기본명사구 인식부(120)의 외부 청킹 결과 외에 복합명사/복합어 인식결과와 개체명 인식결과(NE)를 이용할 수 있다.

한편, n-베스트 품사 태깅 결과 및 청킹 결과를 이용한 구문분석 알고리즘은 일반적인 상향식 차트 파싱(Bottom-up Chart Parsing) 알고리즘을 따른다. 이때, 구문 분석부(130)는 청킹 결과에 대한 처리를 부가적으로 한다.

구문 분석 모듈(630)은 글로벌 아젠다(Global Agenda)에서 프로세스 레벨(Process Level)이 일치하고 우선순위가 가장 높은 아젠다를 꺼내어 실행한다.

이때, 아젠다 타입이 청크 타입(Chunk Type)인 경우, 청크 생성 과정에서 내부 구조가 결정된 청크들은 이미 노드가 생성된다. 그러므로 구문 분석 모듈(630)은 미리 생성해놓은 노드를 비활성화 차트(Ichart)에 등록하고 종료한다.

다음으로, 아젠다 타입이 절 청크(Clause Chunk)인 경우, 구문 분석 모듈(630)은 구문분석 문법과의 연동을 위해 청크 시작 및 끝 위치에 SBEGIN, SEND라는 가상 노드를 추가한 후 청크 제약에 사용하기 위해 청크를 활성화한다.

아젠다 타입이 그외 청크들인 경우는 구문분석 과정에서 내부 분석 과정을 거쳐 노드가 생성된다. 그러므로 제약 및 확률 처리 모듈(650)은 청크 제약에 사용하기 위해 청크를 활성화한다.

한편, 구문 분석 모듈(630)은 아젠다 타입이 비활성화 차트 타입(Ichart Type)인 경우에는 현재 비활성화 차트(Ichart)와 결합가능한 모든 활성화 차트(Achart)에 대해 문법 진행이 가능한지 확인한다. 그리고 먼저 문법 진행이 성공한 경우(Match Rule), 구문 분석 모듈(630)은 제약규칙을 확인하여 구문 노드를 생성할 수 있는지 여부를 확인한다. 구문 분석 모듈(630)은 구문 노드를 생성할 수 있는 경우, 새로운 비활성화 차트(New Ichart)를 생성한다.

그리고 제약 및 확률 처리 모듈(650)은 트리 확률 정보를 이용하여 새로운 비활성화 차트(New Ichart)의 점수를 계산하여 파스 테이블(Ptable: ParseTable) 및 글로벌 아젠다(Global Agenda)에 등록한다. 이때, 너무 많은 중간 노드가 생성되는 것을 제약하기 위해, 제약 및 확률 처리 모듈(650)은 빔서치(BeamSearch) 제약을 수행한다.

한편, 미완료 문법에 대해서는 구문 분석 모듈(630)은 새로운 활성화 차트(Achart)를 생성한 후 현재 비활성화 차트(Ichart)를 자식 노드(Child Node) 또는 컨텍스트 노드(Context Node)에 추가한다. 구문 분석 모듈(630)은 이미 처리가 완료된 비활성화 차트(Ichart)들 중에 새로이 생성된 활성화 차트(Achart)와 결합할 수 있는 비활성화 차트(Ichart)를 찾아 문법 진행(Match Rule) 과정을 진행한다.

또한, 구문 분석 모듈(630)은 글로벌 아젠다(Global Agenda)에 등록된 아젠다(Agenda) 중 프로세스 레벨(Process Level)이 일치하는 것이 더 이상 없을 경우 전체 트리 생성이 성공했는지를 확인한다.

결과 트리 선택 모듈(660)은 전체 트리가 존재하는 경우 결과 트리 생성을 진행한다. 만약, 전체 트리가 존재하지 않는 경우, 결과 트리 선택 모듈(660)은 파싱 실패에 대한 후처리를 진행할 수 있다.

파싱 실패에 대한 후처리 과정을 살펴보면, 결과 트리 선택 모듈(660)은 전체 트리 생성에 실패한 경우 구문분석 과정에서 생성된 중간 트리들을 이용하여 전체 트리를 조합한다.

구체적으로, 결과 트리 선택 모듈(660)은 전체 구간에 생성된 구문 노드 중 가장 확률이 높은 부분 트리를 찾는다. 그리고 결과 트리 선택 모듈(660)은 찾은 부분트리의 구간을 세팅한 후 비어있는 구간에 대해 가장 확률이 높은 부분 트리를 찾는 과정을 반복하여 모든 구간에 대해 부분트리를 설정한다.

이어서, 결과 트리 선택 모듈(660)은 중간 트리 리스트에 포함된 중간 트리를 최소구간으로 설정하고 중간 트리 리스트에 포함된 중간트리들의 시작/끝 정보를 이용하여 트리가 존재하는 가장 큰 구간을 찾는다. 결과 트리 선택 모듈(660)은 찾은 구간을 새롭게 세팅한 후, 나머지 구간에 대해서도 상기 과정을 반복하여 전체 구간에 대해 가능한 큰 구간 트리로 채워지도록 처리한다.

한편, 본 발명에 실시 예에 적용되는 통계적 모델 방법을 사용한 구문 중의성 해소 모델에 대해서 살펴보기로 한다.

본 발명의 실시 예에 따른 구문 분석부(130)는 구조가 단순하며, 직관적으로 문장 성분 간의 관계를 설명할 수 있는 의존 구조 기반의 통계기반 구문분석 모델을 이용한다. 구문 분석부(130)는 좌우 충분한 문맥 정보를 활용하여 구조적 중의성을 해소할 수 있다.

통계기반 구문분석 모델을 설명하기 전에 먼저 본 발명의 실시 예에 따른 사용한 표기법을 살펴보면 다음과 같다.

는 단어의 어휘 정보,

는 단어의 품사 정보,

는

의 좌측 자식 트리(left child tree)의 헤드(head)의 품사,

는

의 우측 자식 트리(right child tree)의 헤드(head)의 품사를 나타낸다.

한편, 통계 모델 학습부(140)는 구문구조부착 말뭉치로부터 통계 모델을 학습하고 학습 결과에 따른 구문분석 통계모델을 구문분석 통계 모델 DB(141)에 저장한다. 구문구조 중의성 해소 모델을 살펴보면, 구문구조 중의성 해소 모델에서 하나의 헤드는 여러 개의 종속(Dependent)을 가짐으로써 문장을 생성한다. 예를 들어, "eat"이라는 단어는 목적어를 취한 후 주어를 취함으로써 하나의 문장을 생성하기도 한다. 또한, "eat"이라는 단어는 목적어를 취하고 전치사구를 부사구로 취한 후 주어를 취함으로써 문장을 생성하기도 한다. 이러한 모델을 표현한 것이 구문구조 중의성 해소 모델이다. 구문구조 중의성 해소 모델은 기본적으로는 하나의 헤드가 하나의 종속을 구문관계 DL로 가질 확률이다. 구문구조 중의성 해소 모델은 어떤 문맥하에 있는 하나의 헤드가 또 다른 문맥하의 보어를 취할 확률을 표현하며, 하기의 [수학식 1]과 같이 표시될 수 있다.

여기서,

는 단어의 어휘 정보,

는 단어의 품사 정보,

는

의 좌측 자식 트리(left child tree)의 헤드(head)의 품사,

는

또한, 어떤 문장 S가 문장 구조

를 생성할 확률은 하기의 [수학식 2]와 같이 표현된다.

여기서,

는 어떤 문장 S가 문장 구조

를 생성할 확률을 나타낸다. 상기의 [수학식 2]에서는 [수학식 1]의

대신

가 사용된다. 매우 적은 수의 어휘를 가지는 전치사의 경우에는 품사 대신 어휘 그 자체를 될 수 있다. 그 외의 경우에는 품사가 이용된다. 즉,

와

는 전치사를 제외하면 동일한 값을 가진다. 하기의 [수학식 3]과 같이 표현된다.

또한, "be", "have", "do"의 경우에는 각각 BE, HV, DO라는 품사를 이용한다. 그리고 "be", "have", "do"의 경우는 과거, 현재분사, 과거분사, 복수형을 위해 BE, HV, DO에 각각 D, G, N, P를 붙여서 이용된다.

본 발명에 실시 예에 적용되는 확률 모델은 하기의 [수학식 4]와 같이 계산된다.

한편, 상술한 구문 전치리 기반의 구문 분석 방법은 소프트웨어적인 프로그램으로 구현하여 컴퓨터로 읽을 수 있는 소정 기록 매체에 기록해 둘 수 있다.

예컨대, 기록 매체는 각 재생 장치의 내장형으로 하드 디스크, 플래시 메모리, RAM, ROM 등이거나, 외장형으로 CD-R, CD-RW와 같은 광디스크, 콤팩트 플래시 카드, 스마트 미디어, 메모리 스틱, 멀티미디어 카드일 수 있다.

이 경우, 컴퓨터로 읽을 수 있는 기록 매체에 기록한 프로그램은, 입력된 품사 태깅 결과로부터 미리 정의된 구문 패턴을 인식하여 구문 패턴 유형에 따라 구문 트리, 구간 청크 및 종속변수 관계 청크 중 어느 하나를 생성하는 패턴 청크 인식 과정, 기본명사구(BNP) 부착 말뭉치들을 입력받아 중간 학습 말뭉치로 가공하고, 상기 가공된 중간 학습 말뭉치로부터 기본명사구 통계모델을 생성하는 기본명사구 통계 모델 생성 과정, 품사 태깅 결과와 상기 생성된 기본명사구 통계모델을 이용하여 입력문에서 기본명사구(BNP)를 인식하는 기본명사구 인식 과정 및 상기 인식된 구문 트리, 구간 청크, 종속변수 관계 청크, 기본명사구, 복합명사/복합어 및 개체명 중 적어도 하나의 인식 결과를 이용하여 구문을 분석하고, 상기 구문 분석 결과를 기초로 하여 구문 트리를 생성하는 구문 분석 과정을 포함하는 방법을 실행할 수 있다.

본 발명의 명세서에서 설명하는 기능적 동작과 구현물은 디지털 전자회로로 구현되거나 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나 이들 중 하나 이상의 조합으로 구현될 수 있다. 본 발명의 명세서에서 설명하는 구현물은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 데이터 처리 장치의 동작을 제어하기 위하여 또는 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다.

본 발명의 도면은 동작과정을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 특정한 순서로 그러한 동작들을 수행해야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해해서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다.

또한 본 발명의 명세서에서 특정한 실시형태를 설명하였다. 실시형태들은 이하의 특허청구범위에 속한다. 예컨대, 청구항에 기재된 동작들은 상이한 순서로 수행되면서 여전히 바람직한 결과를 성취할 수 있다.

이상의 설명은 본 발명을 예시적으로 설명한 것에 불과하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술적 사상에서 벗어나지 않는 범위에서 다양한 변형이 가능할 것이다. 따라서 본 발명의 명세서에 개시된 실시 예들은 본 발명을 한정하는 것이 아니다. 본 발명의 범위는 아래의 특허청구범위에 의해 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술도 본 발명의 범위에 포함되는 것으로 해석해야 할 것이다.

본 발명은 영어, 중국어 및 한국어 등의 언어로 작성된 문장을 입력받아 형태소 분석, 품사 태깅 및 복합어 인식을 수행한 후, 규칙과 오토마타 기반의 구문 패턴을 인식하고, 자질 기반의 구문 분석을 통해 가능한 구문구조를 분석하고, 통계정보를 이용하여 n-베스트 구문 구조를 출력할 수 있다. 이러한 점에서 기존 기술의 한계를 뛰어 넘음에 따라 관련 기술에 대한 이용만이 아닌 적용되는 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용 가능성이 있는 발명이다.

100: 구문 분석 장치 110: 패턴 청크 인식부
120: 기본명사구 인식부 130: 구문 분석부
140: 통계모델 학습부 310: 규칙 로딩 모듈
320: 작업공간 생성 모듈 330: 파싱 모듈
510: 기본명사구 통계 학습 모듈
520: 통계 기반 기본명사구 인식 모듈
610: 초기 데이터 설정 모듈 620: 파싱 자료 관리 모듈
630: 구문 분석 모듈 640: 규칙 및 지식 사전 DB
650: 제약 및 확률 처리부 660: 결과 트리 선택 모듈

Claims

입력된 품사 태깅 결과로부터 미리 정의된 구문 패턴을 인식하여 구문 패턴 유형에 따라 구문 트리, 구간 청크 및 종속변수 관계(Head-Dependent relation) 청크 중 어느 하나를 생성하는 패턴 청크 인식부;
기본명사구(BNP) 부착 말뭉치들을 입력받아 중간 학습 말뭉치로 가공하고, 상기 가공된 중간 학습 말뭉치로부터 기본명사구 통계모델을 생성하고, 품사 태깅 결과와 상기 생성된 기본명사구 통계모델을 이용하여 입력문에서 기본명사구(BNP)를 인식하는 기본명사구 인식부; 및
상기 패턴 청크 인식부에서 인식 및 생성된 구문 트리, 구간 청크, 종속변수 관계 청크, 상기 기본명사구 인식부에서 인식된 기본명사구, 입력 받은 복합명사/복합어 중 적어도 하나를 이용하여 구문을 분석하고, 상기 구문 분석 결과를 기초로 하여 구문 트리를 생성하는 구문 분석부
를 포함하는 것을 특징으로 하는 구문 전처리 기반의 구문 분석 장치.
◈청구항 2은(는) 설정등록료 납부시 포기되었습니다.◈

제 1 항에 있어서,
구문구조부착 말뭉치로부터 통계 모델을 학습하고 상기 학습된 학습 결과를 구문분석 통계 모델로 저장하는 통계 모델 학습부
를 더 포함하는 것을 특징으로 하는 구문 전처리 기반의 구문 분석 장치.
삭제
◈청구항 4은(는) 설정등록료 납부시 포기되었습니다.◈

제 1 항에 있어서,
상기 패턴 청크 인식부는,
일련의 단어나 품사 나열 패턴을 정규문법에 따라 표현하거나, 노드의 자질값으로 연산될 수 있는 패턴들을 문맥자유문법 또는 확장 문맥자유문법에 따라 표현하거나, 문맥의존문법에 따라 구문트리의 좌우 문맥과 구문 패턴을 표현하는 것을 특징으로 하는 구문 전처리 기반의 구문 분석 장치.
삭제
삭제
삭제
삭제
삭제
삭제
◈청구항 11은(는) 설정등록료 납부시 포기되었습니다.◈

입력된 품사 태깅 결과로부터 미리 정의된 구문 패턴을 인식하여 구문 패턴 유형에 따라 구문 트리, 구간 청크 및 종속변수 관계 청크 중 어느 하나를 생성하는 패턴 청크 인식 단계;
기본명사구(BNP) 부착 말뭉치들을 입력받아 중간 학습 말뭉치로 가공하고, 상기 가공된 중간 학습 말뭉치로부터 기본명사구 통계모델을 생성하는 기본명사구 통계 모델 생성 단계;
품사 태깅 결과와 상기 생성된 기본명사구 통계모델을 이용하여 입력문에서 기본명사구(BNP)를 인식하는 기본명사구 인식 단계; 및
상기 패턴 청크 인식 단계에서 인식 및 생성된 구문 트리, 구간 청크, 종속변수 관계 청크, 상기 기본명사구 인식 단계에서 인식된 기본명사구, 입력 받은 복합명사/복합어 중 적어도 하나를 이용하여 구문을 분석하고, 상기 구문 분석 결과를 기초로 하여 구문 트리를 생성하는 구문 분석 단계
를 포함하는 것을 특징으로 하는 구문 전처리 기반의 구문 분석 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제