KR100283100B1

KR100283100B1 - 대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법

Info

Publication number: KR100283100B1
Application number: KR1019980052941A
Authority: KR
Inventors: 정한민; 김태완; 심철민; 최승권; 여상화; 김영길; 박상규; 박세영
Original assignee: 정선종; 한국전자통신연구원
Priority date: 1998-12-03
Filing date: 1998-12-03
Publication date: 2001-03-02
Also published as: KR20000038079A

Abstract

본 발명은 대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법에 관한 것이다.

본 발명은 말뭉치로부터 용례 추출을 위한 기본 테이블을 생성하는 수단과, 테이블 엔트리에서 용례 후보들을 결정하는 용례 후보 결정 수단과, 메모리와 추출 시간의 효율적인 관리를 위해 기본 테이블을 축소한 축소 테이블을 생성하는 수단과, 용례 후보로부터 연속 및 비연속 용례를 추출하는 수단과, 추출된 용례에서 규칙을 이용하여 불필요한 용례들을 제거하는 수단과, 최종적으로 추출된 용례들을 출력하는 수단으로 구성되며, 이들의 작용에 따라 그 방법도 구현된다.

본 발명에 의하면 대용량의 말뭉치로부터 연속, 비연속 형태의 다양한 용례들을 추출할 수 있기 때문에 말뭉치의 특성을 분석하고자 하는 분야나 다량의 용례를 이용하여 자연어 처리를 하고자 하는 분야를 포함하여 자연어 처리의 전 분야에서 기본 지식의 구축을 위해 광범위하게 사용될 수 있다.

Description

대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법

본 발명은 대용량의 말뭉치로부터 공간과 시간을 효율적으로 이용하여 연속 및 비연속 용례들의 추출 수단 및 그 방법에 관한 것으로, 특히 말뭉치로부터 추출된 문자열들로부터 다른 문자열들과 비교하여 용례 후보들을 결정하고, 공간 및 시간적인 효율성을 위해 축소된 테이블상에서 연속, 비연속 용례들을 결정하며, 최종적으로 패턴 제거 규칙을 이용하여 불필요한 용례들을 제거하므로써 대용량의 말뭉치에서 자연어 처리의 전 분야에서 이용 가능한 말뭉치 특성을 반영한 용례 추출 수단 및 그 방법에 관한 것이다.

용례 추출 수단이라 함은 사용자가 해당 말뭉치의 특성을 반영할 수 있다고 여겨지는, 말뭉치 내에서 반복적으로 나타나는 복합 명사나 숙어 표현 형태를 포함하는 구문 및 단어들을 패턴 테이블과 정렬 패턴 테이블 등을 이용하여 불필요한 패턴들을 최소화하고 추출 시간을 단축하는 효율적인 방법으로 추출하는 수단을 의미한다.

자연어 처리 분야에서 1990년 초부터 지식 자동 추출에 관한 일련의 연구들이 진행되면서 지식 자동 추출에 관한 많은 기술적인 진보가 있었다. 이러한 기술은 실세계의 온라인 텍스트나 컴퓨터 네트워크에서 추출 가능한 자원들로부터 미리 정의된 각 언어 패턴들에 대한 신속하고 강건한 자동 추출을 가능하게 하였다.

자동 추출된 패턴들에 의해 구축된 구 또는 패턴 단위의 전자 사전들은 기계 번역 시스템에서의 복합 단위 처리 등에 있어 유용하게 사용될 수 있다. 특히, 패턴 기반의 번역을 위해서 실제 자주 사용하는 패턴들의 식별과 자동 추출 과정이 전제되어야 한다. 국외에서는 각 언어들에 나타나는 단어들의 유사성을 이용한 방법, 비교적 작은 규모의 말뭉치들로부터 문자 기반의 N-gram 정렬 방식을 이용한 방법이 제시된 바 있으며, 국내에서는 어절 단위의 용례 제시기에 관한 연구가 이루어진 바 있다.

기존의 문자 기반 패턴 추출은 불필요한 많은 수의 패턴들을 생성하며 테이블의 크기가 과도하게 커서 추출 시간이 코퍼스에 비해 과도하다는 단점이 있다.

본 발명은 자연어 처리 응용 분야에서 범용적으로 이용할 수 있도록 용례를 추출하고자 하는 대상이 되는 말뭉치의 크기가 대규모가 되더라도 처리 가능하도록 하고, 용례 추출에 소요되는 메모리 공간과 시간을 효율적으로 관리할 수 있도록 하며, 기존의 단순한 키워드(동사 어간이나 명사) 위주의 추출에서 벗어나 연속, 비연속 용례들을 추출할 수 있도록 하는 것을 목적으로 한다.

상술한 목적을 달성하기 위한 본 발명에 따른 대용량 말뭉치를 위한 통계학적 용례 추출 수단은 말뭉치로부터 용례 추출을 위한 기본 테이블을 생성하는 수단과, 테이블 엔트리에서 용례 후보들을 결정하는 용례 후보 결정 수단과, 메모리와 추출 시간의 효율적인 관리를 위해 기본 테이블을 축소한 축소 테이블을 생성하는 수단과, 용례 후보로부터 연속 및 비연속 용례를 추출하는 수단과, 추출된 용례에서 규칙을 이용하여 불필요한 용례들을 제거하는 수단과, 최종적으로 추출된 용례들을 제시하는 수단을 포함하는 이루어진 것을 특징으로 한다.

또한, 상술한 목적을 달성하기 위한 본 발명에 따른 대용량 말뭉치를 위한 통계학적 용례 추출 방법은 입력 장치를 통해 입력된 말뭉치내의 일정한 길이의 문자열이 순차적으로 한 문자씩 이동하면서 포인터 테이블에 하나의 엔트리로서 삽입되는 단계와, 상기 삽입될 문자열이 말뭉치내에 남아 있지 않은 경우 상기 포인터 테이블을 복사하여 정렬 포인터 테이블을 생성하는 단계와, NMC를 구하여 상기 정렬 포인터 테이블의 N 번째 엔트리에 삽입한 후 상기 정렬 포인터 테이블의 N 번째 NSC를 N-1 번째 NMC와 N 번째 NMC중 큰 값으로부터 결정하는 단계와, 상기 포인터 테이블에 대하여 구한 유효 플래그가 1인지를 확인하는 단계와, 상기 확인 결과 유효 플래그가 1일 경우 엔트리를 축소 포인터 테이블로 삽입하고, 유효 플래그가 0일 경우 다음 엔트리로 이동하여 엔트리가 존재하는가를 검사하는 단계와, 상기 검사 결과 엔트리가 존재할 경우 유효 플래그를 계산하는 단계로 천이하고, 엔트리가 존재하지 않을 경우 축소 포인터 테이블로부터 축소 정렬 포인터 테이블을 생성하는 단계와, 상기 축소 정렬 포인터 테이블에서 NES를 계산하여 연속 용례를 추출하고, 상기 축소 정렬 포인터 테이블에서 스타트 포인터를 이용하여 같은 문장내에서 나타난 연속 용례들 간의 겹침을 검사하는 단계와, 상기 겹침 검사 결과 겹침이 발생하지 않으면서 같은 문장에 속한 연속 용례들을 새로운 비연속 용례로 간주하고 패턴 제거 규칙을 이용하여 상기 연속 용례 및 상기 비연속 용례로부터 불필요한 용례를 제거하는 단계를 포함하여 이루어진 것을 특징으로 한다.

또한, 상술한 목적을 달성하기 위한 본 발명은 말뭉치로부터 용례 추출을 위한 기본 테이블을 생성하는 수단과, 테이블 엔트리에서 용례 후보들을 결정하는 용례 후보 결정 수단과, 메모리와 추출 시간의 효율적인 관리를 위해 기본 테이블을 축소한 축소 테이블을 생성하는 수단과, 용례 후보로부터 연속 및 비연속 용례를 추출하는 수단과, 추출된 용례에 패턴 제거 규칙을 이용하여 불필요한 용례들을 제거하는 수단과, 최종적으로 추출된 용례들을 출력하는 수단을 기능시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체인 것을 특징으로 한다.

도 1은 본 발명에 따른 통계학적 용례 추출 수단의 개념을 설명하기 위해 도시한 블록도.

도 2는 본 발명에 따른 통계학적 연속 및 비연속 용례 추출 방법을 설명하기 위한 흐름도.

도 3(a) 및 도 3(b)는 본 발명에서 사용하는 PT, SPT 및 RPT, RSPT의 내부 구조도.

도 4는 본 발명에 따른 통계학적 용례 추출 수단의 실시 예.

〈도면의 주요 부분에 대한 부호의 설명〉

101 : 입력 수단 102 : PT 생성부

103 : SPT 생성부 104 : NMC 계산부

105 : NSC 계산부 106 : 유효 플래그 계산부

107 : RPT 생성부 108 : RSPT 생성부

109 : NES 계산부 110 : ST 계산부

111 : 불필요 용례 제거부 112 : 인쇄부

113 : 인쇄 장치 114 : 표시 제어부

115 : 표시 장치

연속 용례라 함은 추출된 용례가 해당 문장 내에서 연속적인 단어들의 나열로 나타나는 것을 말하며, 비연속 용례라 함은 추출된 용례가 해당 문장 내에서 비연속적으로 다른 단어나 구절 등에 의해 분리되어 나타나는 형태를 말한다.

이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세히 설명하기로 한다.

도 1은 본 발명에 따른 통계학적 용례 추출 수단의 개념을 설명하기 위해 도시한 블록도이다.

입력 장치(101)를 통해 말뭉치내의 일정한 길이의 문자열이 순차적으로 한 문자씩 이동하면서 포인터 테이블(Pointer Table: 이하 PT라 함) 생성부(102)에 의해 생성된 PT에 하나의 엔트리로서 삽입된다. 만일, 더 이상의 삽입될 문자열이 말뭉치내에 남아 있지 않은 경우에는 정렬 포인터 테이블(Sorted Pointer Table: 이하 SPT라 함) 생성부(103)에서 PT를 복사하여 SPT를 생성한다. PT와 SPT의 내부 구조는 도 3(a)에 도시되어 있다. SPT는 문자열에 따라 PT를 정렬한 형태로 현재 엔트리의 바로 위나 아래 엔트리와 동일한 문자 수를 비교하는데 이용된다. NMC(Number of Matched Characters) 계산부(104)에서 N 번째 문자열과 N+1 번째 문자열과의 공통 문자수인 NMC를 구하여 SPT의 N 번째 엔트리에 삽입한다. 다음으로 NSC(Number of Significant Characters) 계산부(105)에서 SPT의 N 번째 NSC를 N-1 번째 NMC와 N 번째 NMC 중의 큰 값으로부터 결정한다. PT에 대해서 유효(Validity) 플래그 계산부(106)에서 유효 플래그를 구하여 이를 용례 후보를 결정하는데 이용한다. 유효(Validity) 플래그는 N 번째 NSC의 값이 N-1 번째 NSC의 값보다 크거나 같으면 1로 세팅되며, 그렇지 않으면 0으로 세팅된다. 유효(Validity) 플래그가 1인 엔트리들은 축소된 포인터 테이블(Reduced PT: 이하 RPT라 함)(107)에 의해 생성된 RPT로 옮겨져서 불필요하게 다음부터의 연산을 필요 없는 엔트리에 동작하지 않도록 하여 메모리 공간 및 속도를 개선한다. 유효 플래그가 0일 경우 다음 엔트리로 이동하여 거기에 엔트리가 존재하지 않을 경우 축소된 정렬 포인터 테이블(Reduced SPT: 이하 RSPT라 함) 생성부(108)에서 PT에서 SPT를 만드는 과정과 동일하게 PSTP를 생성한다. RPT와 RSPT의 내부 구조는 도 3(b)에 도시되어 있다. NES(Number of Extracted Substring)는 추출된 용례의 번호로 용례가 발견될 때마다 1씩 증가하므로, 최종 NES 값으로부터 추출된 용례의 수를 알 수 있다. NES는 RSPT에서 유효(Validity) 플래그와 NSC의 값이 존재하면서 이전 인덱스의 값들과 같은 경우에 증가한다. 이를 NEC 계산부(109)에서 NES의 값이 바뀔 때마다 새로운 연속 용례가 추출된 것으로 간주하며, RSPT에서 스타트 포인터(Start Point: 이하 ST라 함) 계산부(110)를 이용하여 같은 문장내에서 나타난 연속 용례들 간의 겹침(Overlap)을 검사한다. ST는 처음에 말뭉치로부터 문자열이 PT로 삽입될 때, 그 문자열이 속한 문장내에서의 몇 번째 문자인가의 정보이다. 겹침(Overlap)이 발생하지 않으면서 같은 문장에 속한 연속 용례들은 새로운 비연속 용례로 간주한다. 최종적으로 불필요 용례 제거부(111)에 패턴 제거 규칙을 적용하여 불필요한 용례를 제거하고, 인쇄부(112)를 통해 인쇄 장치(113)로 출력하거나, 표시 제어부(114)를 통해 표시 장치(115)로 출력한다.

도 2는 본 발명에 따른 연속 및 비연속 용례 추출 수단을 포함하는 통계학적 용례 추출 장치의 블록도이다.

입력 장치를 통해 입력된 말뭉치(200)내의 일정한 길이의 문자열이 순차적으로 한 문자씩 이동하면서 PT에 하나의 엔트리로서 삽입된다(202). 만일, 더 이상의 삽입될 문자열이 말뭉치내에 남아 있지 않은 경우(201)에는 PT를 복사하여 SPT를 생성한다(203). SPT는 문자열에 따라 PT를 정렬한 형태로 현재 엔트리의 바로 위나 아래 엔트리와 동일한 문자 수를 비교하는데 이용된다. N 번째 문자열과 N+1 번째 문자열과의 공통 문자수인 NMC를 구하여 SPT의 N 번째 엔트리에 삽입한다. 다음으로 SPT의 N 번째 NSC를 N-1 번째 NMC와 N 번째 NMC 중의 큰 값으로부터 결정한다(206). PT에 대해서 유효 플래그를 구하여 이를 용례 후보를 결정하는데 이용한다(207). 유효 플래그는 N 번째 NSC의 값이 N-1 번째 NSC의 값보다 크거나 같으면 1로 세팅되며, 그렇지 않으면 0으로 세팅된다. 유효 플래그가 1인 엔트리들은 RPT로 옮겨져서 불필요하게 다음부터의 연산을 필요 없는 엔트리에 동작하지 않도록 하여 메모리 공간 및 속도를 개선한다(209). 유효 플래그가 0일 경우(208) 다음 엔트리로 이동하여 엔트리가 존재하는가를 검사한다(211). 검사 결과 엔트리가 존재할 경우 단계 (207)로 천이하고, 엔트리가 존재하지 않을 경우 RSPT의 생성을 PT에서 SPT를 만드는 과정과 동일하게 수행한다(212 및 213). NES는 추출된 용례의 번호로 용례가 발견될 때마다 1씩 증가하므로, 최종 NES 값으로부터 추출된 용례의 수를 알 수 있다. NES는 RSPT에서 유효 플래그와 NSC의 값이 존재하면서 이전 인덱스의 값들과 같은 경우에 증가한다(214). NES의 값이 바뀔 때마다 새로운 연속 용례가 추출된 것으로 간주하며(215), RSPT에서 ST를 이용하여 같은 문장내에서 나타난 연속 용례들 간의 겹침(Overlap)을 검사한다(216). ST는 처음에 말뭉치로부터 문자열이 PT로 삽입될 때, 그 문자열이 속한 문장내에서의 몇 번째 문자인가의 정보이다. 겹침(Overlap)이 발생하지 않으면서 같은 문장에 속한 연속 용례들은 새로운 비연속 용례로 간주한다(217). 최종적으로 패턴 제거 규칙을 이용하여 불필요한 용례를 제거함으로써(218) 용례 추출을 종료한다.

도 4는 본 발명에 따른 통계학적 용례 추출 수단의 실시 예로 말뭉치를 선택한 후에 추출 대상이 연속이냐 비연속이냐를 선택하면 해당 용례들과 그 용례들이 속해 있는 문장들을 제시하는 예를 보여준다.

이상에서 설명한 본 발명은 본 발명이 속하는 기술분야에서 통상의 지식을 가진자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시 예 및 첨부된 도면에 한정하고 있는 것은 아니다.

상술한 바와 같이 본 발명에 의하면 대용량의 말뭉치로부터 연속, 비연속 형태의 다양한 용례들을 추출할 수 있기 때문에 말뭉치의 특성을 분석하고자 하는 분야나 다량의 용례를 이용하여 자연어 처리를 하고자 하는 분야를 포함하여 자연어 처리의 전 분야에서 기본 지식의 구축을 위해 광범위하게 사용될 수 있다.

Claims

말뭉치로부터 용례 추출을 위한 기본 테이블을 생성하는 수단과,

테이블 엔트리에서 용례 후보들을 결정하는 용례 후보 결정 수단과,

메모리와 추출 시간의 효율적인 관리를 위해 기본 테이블을 축소한 축소 테이블을 생성하는 수단과,

용례 후보로부터 연속 및 비연속 용례를 추출하는 수단과,

추출된 용례에 패턴 제거 규칙을 이용하여 불필요한 용례들을 제거하는 수단과,

최종적으로 추출된 용례들을 출력하는 수단으로 구성된 것을 특징으로 하는 대용량 말뭉치를 위한 통계학적 용례 추출 수단.
제 1 항에 있어서, 기본 테이블 생성 수단은 말뭉치로부터 문자열을 순차적으로 추출하여 포인터 테이블을 생성하는 포인터 테이블 생성부와,

상기 포인터 테이블과 동기화된 형태로 정렬된 포인터 테이블을 생성하는 정렬된 포인터 테이블 생성부를 포함하여 이루어진 것을 특징으로 하는 대용량 말뭉치를 위한 통계학적 용례 추출 수단.
제 1 항에 있어서, 용례 후보 결정 수단은 문자열 간의 동일 문자 수를 계산하는 NMC 계산부 및 NSC 계산부와,

용례 후보 여부를 판단하는 유효 플래그 계산부를 포함하여 이루어진 것을 특징으로 하는 대용량 말뭉치를 위한 통계학적 용례 추출 수단.
제 1 항에 있어서, 축소 테이블 생성 수단은 용례 후보들 만을 기본 테이블에서 추출하여 축소된 형태의 테이블로 구성하는 축소된 포인터 테이블 생성부와,

상기 축소된 포인터 테이블과 동기화된 형태로 정렬된 축소 포인터 테이블을 생성하는 정렬된 축소 포인터 테이블 생성부를 포함하여 이루어진 것을 특징으로 하는 대용량 말뭉치를 위한 통계학적 용례 추출 수단.
제 1 항에 있어서, 연속 및 비연속 용례 추출 수단은 용례 후보가 말뭉치 내에서 최장 일치로 선택된 것인가를 판단하는 NES 계산부와,

문장 내에서의 두 용례 간의 겹침 여부를 조사하는 스타트 포인터 계산부를 포함하여 이루어진 것을 특징으로 하는 대용량 말뭉치를 위한 통계학적 용례 추출 수단.
제 1 항에 있어서, 불필요한 용례 제거 수단은 패턴 제거 규칙을 이용하여 불필요한 용례를 제거하는 불필요한 용례부로 이루어진 것을 특징으로 하는 대용량 말뭉치를 위한 통계학적 용례 추출 수단.
입력 장치를 통해 입력된 말뭉치내의 일정한 길이의 문자열이 순차적으로 한 문자씩 이동하면서 포인터 테이블에 하나의 엔트리로서 삽입되는 단계와,

상기 삽입될 문자열이 말뭉치내에 남아 있지 않은 경우 상기 포인터 테이블을 복사하여 정렬 포인터 테이블을 생성하는 단계와,

NMC를 구하여 상기 정렬 포인터 테이블의 N 번째 엔트리에 삽입한 후 상기 정렬 포인터 테이블의 N 번째 NSC를 N-1 번째 NMC와 N 번째 NMC중 큰 값으로부터 결정하는 단계와,

상기 포인터 테이블에 대하여 구한 유효 플래그가 1인지를 확인하는 단계와,

상기 확인 결과 유효 플래그가 1일 경우 엔트리를 축소 포인터 테이블로 삽입하고, 유효 플래그가 0일 경우 다음 엔트리로 이동하여 엔트리가 존재하는가를 검사하는 단계와,

상기 검사 결과 엔트리가 존재할 경우 유효 플래그를 계산하는 단계로 천이하고, 엔트리가 존재하지 않을 경우 축소 포인터 테이블로부터 축소 정렬 포인터 테이블을 생성하는 단계와,

상기 축소 정렬 포인터 테이블에서 NES를 계산하여 연속 용례를 추출하고, 상기 축소 정렬 포인터 테이블에서 스타트 포인터를 이용하여 같은 문장내에서 나타난 연속 용례들 간의 겹침을 검사하는 단계와,

상기 겹침 검사 결과 겹침이 발생하지 않으면서 같은 문장에 속한 연속 용례들을 새로운 비연속 용례로 간주하고 패턴 제거 규칙을 이용하여 상기 연속 용례 및 상기 비연속 용례로부터 불필요한 용례를 제거하는 단계를 포함하여 이루어진 것을 특징으로 하는 대용량 말뭉치를 위한 통계학적 용례 추출 방법.
제 7 항에 있어서, 상기 정렬 포인터 테이블은 문자열에 따라 상기 포인터 테이블을 정렬한 형태로 현재 엔트리의 바로 위나 아래 엔트리와 동일한 문자 수를 비교하는데 이용되는 것을 특징으로 하는 대용량 말뭉치를 위한 통계학적 용례 추출 방법.
제 7 항에 있어서, 상기 유효 플래그는 N 번째 NSC의 값이 N-1 번째 NSC의 값보다 크거나 같으면 1로 세팅되고, 그렇지 않으면 0으로 세팅되는 것을 특징으로 하는 대용량 말뭉치를 위한 통계학적 용례 추출 방법.
말뭉치로부터 용례 추출을 위한 기본 테이블을 생성하는 수단과,

테이블 엔트리에서 용례 후보들을 결정하는 용례 후보 결정 수단과,

메모리와 추출 시간의 효율적인 관리를 위해 기본 테이블을 축소한 축소 테이블을 생성하는 수단과,

용례 후보로부터 연속 및 비연속 용례를 추출하는 수단과,

추출된 용례에 패턴 제거 규칙을 이용하여 불필요한 용례들을 제거하는 수단과,

최종적으로 추출된 용례들을 출력하는 수단을 기능시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.