KR20010075848A

KR20010075848A - 정규표현과 확률적 문맥정보를 이용한 문장범위 인식 장치및 그 방법

Info

Publication number: KR20010075848A
Application number: KR1020000002721A
Authority: KR
Inventors: 여상화; 심철민; 정한민; 최승권; 김영길; 서광준; 서영애; 김태완; 박상규; 박세영
Original assignee: 오길록; 한국전자통신연구원
Priority date: 2000-01-20
Filing date: 2000-01-20
Publication date: 2001-08-11

Abstract

본 발명은 입력 문자열에 대해 문장 분리를 먼저 수행하지 않고, 형태소 분석 및 품사 태깅과정에서 문장 단위를 인식하기 위하여 정규표현과 확률적 문맥정보를 이용한 문장범위 인식 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하기 위하여, 품사 태깅을 위하여 입력 문서를 토큰(Token)들의 열(Sequence)로 분리하기 위한 토큰분리수단; 상기 토큰 분리수단으로부터 토큰 열을 입력받아 확률사전을 이용하여 형태소 분석을 수행하고 확률적 품사 태거의 입력 구조를 생성하기 위한 형태소 분석수단; 현재 단어와 주변의 단어의 확률 정보를 이용하여 현재 단어의 품사 중의성을 해소하는 품사 태깅 수단과; 현재 단어에서 문장 분리를 수행할지를 정규 표현을 이용하여 정하는 문장분리 규칙 생성수단; 상기 문장분리 규칙 생성수단으로부터의 문장범위 인식 규칙을 빠르게 적용하기 위하여 유한 상태 오토마타(Finite State Automata)로 변환하는 규칙 인터프리팅수단; 및 상기 형태소 분석수단으로부터의 확률적 문맥정보와 상기 규칙 인터프리팅수단으로부터의 정규 표현을 이용하여 문장을 분리하기 위한 문장분리수단을 포함하며, 자연언어 처리시스템 등에 이용됨.

Description

정규표현과 확률적 문맥정보를 이용한 문장범위 인식 장치 및 그 방법{APPARATUS AND METHOD FOR DETECTING SENTENCE BOUNDARY USING REGULAR EXPRESSION AND PROBABILISTIC CONTEXTUAL INFORMATION}

본 발명은 강력한 표현 능력을 가지는 정규 표현(Regular Expression)과, 신경망(Neural Network)이나 HMM(Hidden Markov Model), 엔-그램(n-gram)과 같은 확률적 문맥 정보를 이용하여 모든 자연언어 처리시스템의 필수적 기본 기능인 문장 범위를 정확하게 인식할 수 있도록 하는, 정규표현과 확률적 문맥정보를 이용한 문장범위 인식 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.

여기서, 자연언어(Natural Language) 처리시스템은 기계번역, 자동 통역, 철자 검사, 정보 검색, 데이터베이스에 대한 자연어질의 등과 같이 인간이 사용하는 말과 글을 컴퓨터로 처리하는 시스템을 말한다.

모든 자연언어 처리시스템은 기본적으로 하나의 문장을 처리의 기본 단위로 하므로, 하나의 정확한 문장이 입력되는 것을 가정하고 있다. 따라서, 한 문장의 범위를 정확하게 인식하는 것은 모든 자연언어 처리시스템의 필수적인 기본 기능이다. 만약, 문장의 범위를 잘못 인식한다면 문형 패턴(Sentence Pattern)이나 규칙 기반(Rule-Based)의 자연언어 처리시스템은 올바른 처리 결과를 얻을 수 없다. 즉, 문형 패턴을 이용하는 경우에 문장 단위 인식이 잘못되면, 기구축된 문형과 일치하는 문형을 찾을 수 없게 되는 것이다. 또한, 규칙 기반의 자연언어 처리시스템에서 문장 단위 인식이 잘못되면, 기구축된 규칙의 범위를 벗어나는 성분이 존재하게 되므로 분석이 불가능하게 된다.

따라서, 본 발명은 기계번역(Machine Translation), 문장 정렬(Sentence Alignment) 등과 같은 자연언어 처리시스템에서 처리 단위의 하나인 문장범위를 처리하기 위하여 정규 표현(Regular Expression)과 확률적 문맥 정보(Probabilistic Context Information)를 이용하여 인식한다. 이때, 자연언어 처리시스템은 하나의 문장이 입력된다는 것을 전제로 한다. 로우 텍스트(Raw Text)를 대상으로 하는 자연언어 처리시스템의 경우, 한 문장의 범위를 인식하는데 있어서 때때로 모호성이 발생하게 되는데 예를 들면 다음과 같다.

예1: It was due Friday by 5 p.m. Saturday would be too late

예2: She has an appointment at 5 p.m. Saturday to get her car fixed.

예3: The united states accuses bin laden of masterminding last year's attacks on two embassies in the U.S.

상기한 바와 같이, 문장 종결 기호 ., ?, ! 들은 반드시 문장을 분리하는 데에만 사용되는 것이 아니다. 마침표의 경우, 데시멀 포인트(Decimal Point), 이-메일(e-mail) 주소, 약어(Aberration) 등을 사용하며, 특히 상기 예 3에서와 같이 마침표를 포함하는 단어가 문장의 끝에 나타나는 경우에는 별도의 문장 종결 기호를사용하지 않으므로 정확한 문장 범위를 인식하기가 더욱 어려워진다.

종래에는 개별 단어의 원형(Root Form)과 품사(Part-of-Speech)를 밝히는 형태소 분석(Morphological Analysis) 전 단계(Pre-Processing)에서 정규 표현(Regular Expression)만을 이용하여 문장 단위를 인식하거나, 입력 문장에서 문장 부호(예: 마침표)가 나타나는 경우, 그 문장 부호가 문장을 분리하는지 아니면 단어의 일부(예: U.S.A.)인지만을 확률적인 문맥을 이용하여 판단한다. 형태소 분석 전 단계에서 정규 표현(Regular Expression)을 이용하는 경우, 단어의 품사 정보를 이용할 수 없으므로 문맥 정보로서 어휘(Lexical)만을 사용하면 문맥을 기술하는데 심각한 제약이 따르게 될 뿐만 아니라 문서의 유형이나 분야(Domain)가 달라지면 이를 적용할 수 없는 문제점이 있었다. 또한, 확률적인 방법인 경우에는 문장 부호가 있는 경우만을 대상으로 하므로 문장 부호가 없으면 동작하지 않는 문제점이 있었다.

본 발명은, 상기한 바와 같은 문제점을 해결하기 위하여 안출된 것으로, 입력 문자열에 대해 문장 분리를 먼저 수행하지 않고, 형태소 분석 및 품사 태깅(Tagging)과정에서 정규표현과 확률적 문맥정보를 이용한 문장범위 인식 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.

도 1 은 본 발명에 따른 정규표현과 확률적 문맥정보를 이용한 문장범위 인식 장치에 대한 일실시예 구성도.

도 2 는 본 발명에 따른 정규 표현을 이용하여 문장 범위를 인식하기 위한 규칙에 대한 예시도.

도 3 은 본 발명에 따른 문장범위 인식을 위한 정규 표현 형식에 대한 설명도.

도 4 는 본 발명에 따른 확률 보정을 위한 실행문의 종류를 나타내는 설명도.

*도면의 주요 부분에 대한 부호의 설명

11 : 토큰분리기 12 : 형태소분석기

13 : 품사 태거 14 : 문장분리 규칙

15 : 규칙 인터프리터 16 : 문장분리기

17 : 확률 사전

상기 목적을 달성하기 위한 본 발명은, 정규표현과 확률적 문맥정보를 이용한 문장범위 인식 장치에 있어서, 품사 태깅을 위하여 입력 문서를 토큰(Token)들의 열(Sequence)로 분리하기 위한 토큰분리수단; 상기 토큰 분리수단으로부터 토큰 열을 입력받아 확률사전을 이용하여 형태소 분석을 수행하고 확률적 품사 태거의 입력 구조를 생성하기 위한 형태소 분석수단; 현재 단어와 주변의 단어의 확률 정보를 이용하여 현재 단어의 품사 중의성을 해소하는 품사 태깅 수단과; 현재 단어에서 문장 분리를 수행할지를 정규 표현을 이용하여 정하는 문장분리 규칙 생성수단; 상기 문장분리 규칙 생성수단으로부터의 문장범위 인식 규칙을 빠르게 적용하기 위하여 유한 상태 오토마타(Finite State Automata)로 변환하는 규칙 인터프리팅수단; 및 상기 형태소 분석수단으로부터의 확률적 문맥정보와 상기 규칙 인터프리팅수단으로부터의 정규 표현을 이용하여 문장을 분리하기 위한 문장분리수단을 포함하여 이루어진 것을 특징으로 한다.

또한, 본 발명은, 정규표현과 확률적 문맥정보를 이용한 문장범위 인식 장치에 적용되는 문장범위 인식 방법에 있어서, 유한 상태 오토마타로 변형된 문장범위 인식 규칙이 현재 단어에 대해 적용가능한지 판단하는 제 1 단계; 상기 제 1 단계의 판단결과, 현재 단어가 문장 범위 인식 규칙에 의한 문장 범위에 성공하면 현재 단어에서 문장을 분리하는 제 2 단계; 및 상기 제 1 단계의 판단결과, 현재 단어가 문장 범위 인식 규칙에 의한 문장 범위 인식에 실패하면 확률적 문맥 정보를 이용하여 문장 범위 인식 과정을 수행하는 제 3 단계를 포함하여 이루어진 것을 특징으로 한다.

또한, 본 발명은, 프로세서를 구비한 정규표현과 확률적 문맥정보를 이용한 문장범위 인식 장치에, 유한 상태 오토마타로 변형된 문장범위 인식 규칙이 현재 단어에 대해 적용가능한지 판단하는 제 1 기능; 상기 제 1 기능의 판단결과, 현재 단어가 문장 범위 인식 규칙에 의한 문장 범위에 성공하면 현재 단어에서 문장을 분리하는 제 2 기능; 및 상기 제 1 기능의 판단결과, 현재 단어가 문장 범위 인식 규칙에 의한 문장 범위 인식에 실패하면 확률적 문맥 정보를 이용하여 문장 범위 인식 과정을 수행하는 제 3 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

본 발명은 자연언어 처리시스템의 입력 단위인 문장(Sentence)을 정확하게 인식하여 분리함으로써, 자연언어 처리를 위한 지식(예: 문형, 숙어, 고정 표현, 구문분석규칙 등)이 효과적으로 적용되도록 한다. 문장 분리의 중의성(Ambiguity)을 해결하기 위해, 대량의 말뭉치(Corpus)를 수집하고 이것으로부터 문장 단위 인식을 위한 표현을 추출하여, 이를 정규 표현으로 기술하고 입력 문자열의 각각의 단어 마다 좌/우 문맥의 확률적 정보를 이용하여 현재 단어의 위치에서 문장을 분리하는 것이 올바른지를 연산하여 그 결과가 실험으로부터 얻은 일정한 임계치(Threshold)를 넘으면 문장의 끝으로 인식함으로써, 문장을 분리하도록 한다.

문맥 기술을 위한 정규 표현은 단어의 선행(또는 후행) 단어나 구 또는 문장을 부분 파싱(Partial Parsing)할 수 있는 강력한 것으로, 중의성 단어의 문맥을표현하는데 충분한 표현 능력을 가진다.

본 발명에서는 제한된 정보를 사용하여 문장 분리를 먼저 수행하는 종래의 처리 흐름과 달리, 입력 문자열에 대해 문장 분리를 먼저 수행하는 것이 아니라 형태소 분석 및 품사 태깅(Tagging) 과정에서 문장 단위를 인식하도록 한다. 문장 범위를 인식하는 것을 태깅(Tagging)과 동시에 수행함으로써, 문맥 정보로서 어휘(Lexical)뿐만 아니라 단어의 원형정보, 품사 정보 등을 이용할 수 있으므로 정규 표현에 의한 문장 범위 인식을 위한 문맥 기술 시에 표현 능력을 획기적으로 향상시킨다. 또한, 입력 문자열의 매 단어마다 품사 태깅과 함께 문장 분리의 가능성을 동시에 조사함으로써, 문장 부호가 사용되지 않은 경우에도 문장 분리를 정확하게 수행하도록 한다.

또한, 본 발명은 형태소 분석 및 품사 태깅 과정에서 문장 분리 기능을 수행하도록 함으로써, 정규 표현을 위한 문맥 정보로서 품사 정보를 사용할 수 있도록 하고, 이러한 정규 표현과 확률적 방법을 혼합(Hybrid)하여 사용함으로써, 각각의 방법의 장점을 취하도록 한다. 또한, 본 발명은 입력 문자열의 모든 단어의 위치에서 문장 범위 인식을 시도함으로써, 문장 부호가 없는 경우에도 올바르게 문장 분리가 가능하도록 한다.

상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.

도 1 은 본 발명에 따른 정규표현과 확률적 문맥정보를 이용한 문장범위 인식 장치에 대한 일실시예 구성도이다.

도 1에 도시된 바와 같이, 도면에서 "11"은 토큰분리기, "12"는 형태소분석기, "13"은 품사태거, "14"는 문장분리규칙, "15"은 규칙 인터프리터, "16"은 문장분리기, 그리고 "17"은 확률 사전을 각각 나타낸다.

먼저, 토큰분리기(11)는 태깅을 위한 입력 문서를 분석하기 위해 토큰(Token)들의 열(Sequence)을 분리한다.

이어서, 형태소분석기(12)는 확률사전(17)을 이용하여 입력단어가 가지는 각각의 품사와 해당 확률 정보, 원형 정보를 가지고 형태소 분석을 수행하고 확률적 품사 태거의 입력 구조를 생성한다.

품사 태거(13)는 현재 단어의 확률 정보와 주변 단어의 확률 정보를 이용하여 현재 단어가 가지는 품사 중의성을 해소한다. 문장 분리 규칙(14)은 현재 단어에서 문장 분리를 수행할 지를 정규 표현을 이용하여 기술한 규칙이다. 여기서, 문맥 정보로는 현재 단어의 선행 또는 후행 단어의 어형(Lexical Form), 원형(Root Form), 품사(Part-of-Speech), 구(Phrase) 또는 문장을 반영할 수 있으며, 규칙에 기술된 문맥의 적용 여부를 판단하기 위해 부분 파싱(Partial Parsing)을 수행한다.

이어서, 문장 분리 규칙(14)으로부터 문맥을 인식하기 위한 규칙 인터프리터(15)는 문장 범위 인식 규칙을 빠르게 적용하기 위하여 문장 분리 규칙(14)을 유한 상태 오토마타(Finite State Automata)로 변환한다.

한편, 문장분리기(16)는 정규 표현에 의한 문장 범위 인식과 확률적 문맥 정보를 이용하여 문장 범위를 인식함에 있어, 문장 범위에 대한 인식 과정은 다음과 같다.

첫번째로, 상기한 유한 상태 오토마타(Finite State Automata)로 변형된 문장 범위 인식 규칙을 현재 단어에 대해 적용 가능한지 판단한 후에, 현재 단어가 문장 범위 인식 규칙에 기술된 문맥과 매칭되면 규칙에서 기술한대로 현재 단어에서 문장을 분리한다.

두번째로, 문장 범위 인식 규칙에 의한 문장 범위 인식에 실패하면 확률적 문맥 정보를 이용한 문장 범위 인식을 수행한다. 즉, 현재 단어의 좌/우 문맥의 확률적 정보를 이용하여 현재 단어의 위치에서 문장을 분리하는 것이 올바른지를 연산하고, 그 결과가 실험으로부터 얻은 일정한 임계치(Threshold)를 넘으면 문장의 끝으로 인식하여 문장을 분리하도록 한다.

이어서, 두번째의 문장 범위 인식 과정을 통한 문장 분리기(16)는 입력문서로부터 한 품사 태깅된 한 문장을 얻는다. 이러한, 과정을 통해 얻어진 한 문장은 이후의 자연언어 처리 과정(예: 숙어 인식, 구문 분석 등)을 통해 입력된다.

도 2 는 본 발명에 따른 정규 표현을 이용하여 문장 범위를 인식하기 위한 규칙에 대한 예시도이다.

도 2에 도시된 바와 같이, 문장 범위 인식 규칙은 현재 단어의 선행 단어들에 대한 패턴(어형, 원형, 품사, 구 등의 정규 표현)과 현재 단어, 그리고 현재 단어의 후행 단어들에 대한 패턴(어형, 원형, 품사, 구 등의 정규 표현)을 기술한다.

입력 문자열의 각 단어에 대해 문장 범위 인식 규칙을 적용시켜 현재 단어가가진 문맥과 일치(Matching)되면 액션(ACTION)문에 기술한 수행 문장에 따라 현재 단어의 위치에서 문장을 분리할 것인지를 결정한다. 문맥 기술을 위한 패턴은 정규 표현(Regular Expression)에 따라 기술한다. 현재 단어와 선/후행 문맥의 패턴들과 구분하기 위해 "['와 ']"를 사용한다.

도 3 은 본 발명에 따른 문장범위 인식을 위한 정규 표현 형식에 대한 설명도로서, 정규 표현 형식에 따라 문장 범위 인식 규칙의 앞, 뒤 문맥과 현재 단어를 정규 표현으로 기술한다.

도 4 는 본 발명에 따른 문장 범위 인식 규칙이 현재 단어가 가진 문맥과 매칭되는 경우의 실행문의 종류를 나타내는 설명도이다.

도 4에 도시된 바와 같이, 현재 단어의 위치에서 문장 범위 인식 규칙에서 기술한 문맥과 일치하는 경우, 수행하는 "<ACTION>"문들의 종류와 기능 설명을 보여주고 있다. "<ACTION>"문에서는 현재 단어의 위치에서 문장 분리를 수행할 것인지를 결정하거나, 상기 두번째인 확률적 문장 범위 인식기에 입력이 되는 문장 분리를 위한 가중치(Weight)를 부여한다. 이렇게, 부여된 가중치는 확률적 문장 범위 인식기의 결과로 얻어진 가중치와 합하여 문장 분리를 위한 임계치와 비교하게 된다. 이는 규칙에 의한 문장 분리가 모호한 경우나 확률적 문장 범위 인식기의 오류를 보정하는데 유용하다.

이상에서 설명한 본 발명은 전술한 실시 예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.

상기한 바와 같은 본 발명은, 형태소 분석 및 품사 태깅 과정에서 정규 표현과 확률적 문맥 정보를 이용하여 문장 범위 인식을 동시에 수행하는 장치로서, 형태소 분석 앞 단계에서 제한된 정보를 이용하여 문장을 분리하는 종래 시스템의 한계를 극복하며, 문장 분리를 형태소 분석 및 품사 태깅 과정에서 수행할 수 있을 뿐만 아니라 형태소 분석 및 품사 태깅을 통해 얻은 원형, 품사 정보 등을 문장 범위 인식을 위한 문맥 정보로 이용함으로써, 정규 표현에 기반한 문장 분리기의 문맥 표현 기술을 극대화할 수 있는 효과가 있다.

또한, 본 발명은 정규 표현에 기반한 문장 분리기를 확률적 문맥 정보를 이용한 통계적인 문장 범위 인식기와 통합(Hybridization)함으로써, 통계적인 문장 범위 인식기에서 발생하는 자료 부족 현상을 보완할 수 있고, 통계적인 문장 범위 인식기에서 발생하는 문장 범위 인식 오류를 보정하는 기능을 동시에 수행할 수 있어 문자 범위 인식의 오류를 최소화할 수 있는 효과가 있다.

Claims

정규표현과 확률적 문맥정보를 이용한 문장범위 인식 장치에 있어서,

품사 태깅을 위하여 입력 문서를 토큰(Token)들의 열(Sequence)로 분리하기 위한 토큰분리수단;

상기 토큰분리수단으로부터 토큰 열을 입력받아 확률사전을 이용하여 형태소 분석을 수행하고 확률적 품사 태거의 입력 구조를 생성하기 위한 형태소 분석수단;

현재 단어와 주변의 단어의 확률 정보를 이용하여 현재 단어의 품사 중의성을 해소하기 위한 품사 태깅 수단과;

현재 단어에서 문장 분리를 수행할지를 정규 표현을 이용하여 정하는 문장분리 규칙 생성수단;

상기 문장분리 규칙 생성수단으로부터의 문장범위 인식 규칙을 빠르게 적용하기 위하여 유한 상태 오토마타(Finite State Automata)로 변환하는 규칙 인터프리팅수단; 및

상기 형태소 분석수단으로부터의 확률적 문맥정보와 상기 규칙 인터프리팅수단으로부터의 정규 표현을 이용하여 문장을 분리하기 위한 문장분리수단

을 포함하는 정규표현과 확률적 문맥정보를 이용한 문장범위 인식 장치.
제 1 항에 있어서,

상기 문장분리 규칙 생성수단은,

현재 단어의 선행 또는 후행 단어의 어형(Lexical Form), 원형(Root Form), 품사(Part-of-Speech), 구(Phrase) 또는 문장을 반영하고, 규칙에 기술된 문맥의 적용 여부를 판단하기 위해 부분 파싱(Partial Parsing)을 수행하는 것을 특징으로 하는 정규표현과 확률적 문맥정보를 이용한 문장범위 인식 장치.
정규표현과 확률적 문맥정보를 이용한 문장범위 인식 장치에 적용되는 문장범위 인식 방법에 있어서,

유한 상태 오토마타로 변형된 문장범위 인식 규칙이 현재 단어에 대해 적용가능한지 판단하는 제 1 단계;

상기 제 1 단계의 판단결과, 현재 단어가 문장 범위 인식 규칙에 의한 문장 범위에 성공하면 현재 단어에서 문장을 분리하는 제 2 단계; 및

상기 제 1 단계의 판단결과, 현재 단어가 문장 범위 인식 규칙에 의한 문장 범위 인식에 실패하면 확률적 문맥 정보를 이용하여 문장 범위 인식 과정을 수행하는 제 3 단계

를 포함하는 정규표현과 확률적 문맥정보를 이용한 문장범위 인식 방법.
제 3 항에 있어서,

상기 제 3 단계는,

현재 단어의 좌/우 문맥의 확률적 정보를 이용하여 현재 단어의 위치에서 문장을 분리하는 것이 올바른지를 연산하여, 그 결과가 실험으로부터 얻은 일정한 임계치를 넘으면 문장의 끝으로 인식하여 문장을 분리하는 것을 특징으로 하는 정규표현과 확률적 문맥정보를 이용한 문장범위 인식 방법.
프로세서를 구비한 정규표현과 확률적 문맥정보를 이용한 문장범위 인식 장치에,

유한 상태 오토마타로 변형된 문장범위 인식 규칙이 현재 단어에 대해 적용가능한지 판단하는 제 1 기능;

상기 제 1 기능의 판단결과, 현재 단어가 문장 범위 인식 규칙에 의한 문장 범위에 성공하면 현재 단어에서 문장을 분리하는 제 2 기능; 및

상기 제 1 기능의 판단결과, 현재 단어가 문장 범위 인식 규칙에 의한 문장 범위 인식에 실패하면 확률적 문맥 정보를 이용하여 문장 범위 인식 과정을 수행하는 제 3 기능

을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.