KR20060064778A

KR20060064778A - 문장추상화와 개연규칙을 활용하는 문서요약 방법 및 시스템

Info

Publication number: KR20060064778A
Application number: KR1020040103418A
Authority: KR
Inventors: 배재학
Original assignee: 학교법인 울산공업학원
Priority date: 2004-12-09
Filing date: 2004-12-09
Publication date: 2006-06-14
Also published as: KR100669534B1

Abstract

개시된 본 발명은 자연어 문장의 개략적인 의미와 글의 요지를 쉽고 신속하게 파악할 수 있게 하기 위한 것이다.

이의 실현을 위하여 본 발명에서는, 문서 내용에 대해 입력, 저장하는 단계; 입력,저장된 데이터에 대해 구문 분석하여 저장하는 단계; 각 구문에서 주요 구성요소들을 추출하여 확인되는 온톨로지 데이터를 저장하는 단계; 선별된 주요 구성요소 각각에 대한 추상적인 의미로 파악되는 데이터 값을 저장하는 단계; 상기 단계에서의 저장 값으로부터 구문간 개연성을 갖는 다수 화제문을 선정하여 식별되는 값으로 저장하는 단계; 선별된 주요 구성요소들에 대하여 파악된 추상적인 의미의 해당 값들을 읽어들여 문법적인 요약 문장으로 조합,저장하는 단계; 출력 제어신호가 있을 경우 상기 단계에서 조합,저장된 테이터 값을 출력,표시하는 단계를 포함하는, 문장추상화와 개연규칙을 활용한 문서 요약 방법이 제공된다.

문서, 문장, 구문, 요약, 추상화, 개연성

Description

문장추상화와 개연규칙을 활용하는 문서요약 방법 및 시스템{Text Summarization Method and System with Sentence Abstraction and Abductive Rules}

도 1은 본 발명에 따르는 문장추상화와 개연규칙을 활용하는 문서요약 방법에 대한 순서도,

도 2는 본 발명에 따르는 문장추상화와 개연규칙을 활용하는 문서요약 시스템에 대한 개략적인 구성을 나타내기 위한 블록도,

도 3은 본 발명의 문서 요약 방법에 대한 구성의 다른 실시예를 나타내기 위한 블럭도,

도 4는 본 발명의 문서 요약 방법에 대한 구성의 다른 실시예의 작용설명을 위한 블록도,

도 5는 본 발명의 문서 요약 방법에 대한 구성의 다른 실시예가 구현되는 시스템을 나타내기 위한 블럭도이다.

본 발명은 문장추상화와 개연규칙을 활용하는 문서요약 방법 및 시스템에 관 한 것으로, 보다 상세하게는 문장의 주요 구성요소들을 선별하여 파악되는 의미적인 정보에 의해 상위개념으로의 문장 추상화가 가능하도록 하고, 추상화된 문장들의 개연적인 결속성을 파악하여 주어진 글의 요지를 도출하는 문장추상화와 개연규칙을 활용하는 문서요약 방법 및 시스템에 관한 것이다.

문장은, 언어 활동과 관련되는 하위개념으로서의 읽기/쓰기/말하기/듣기, 상위개념으로서의 언어 지식과 관련되는 문법, 언어를 매개로 하는 예술영역의 문학 등의 분야로 분류될 수 있다.

특히, 문학은 언어를 활용하여 미적으로 형상화시킨 예술적인 문장이라 할 수 있으며, 그 문학에 나타나는 다양한 표현법에는 비유(직유/은유/대유/활유/의인/풍유)법이 있고, 감정이입/낯설게 하기/추상의 구체화/구체물의 추상화/공감각/역설/반어/상징 등이 모두 포괄되는 개념의 표현법이라 할 수 있다.

한편, 일반적인 언어의 공통적 특성은 실제 사물을 지시 대상이라고 하는 지시설로 설명될 수 있다.

즉, 지시 대상이 곧 언어의 의미라고 보는 것인데, 예를 들자면 사람/나무/오다/희다 등과 같은 단어는 가리킬 수 있는 대상이 있기 때문에 머릿속에 떠오르는 지시 대상(그 의미)을 파악할 수가 있다는 것이다.

그러나 이 방법은 보이지 않는 사물이나, 현실 속에 존재하지 않는 도깨비나 봉황 같은 추상적인 것의 의미/ 문법적인 관계를 나타내는 말의 의미 등은 파악할 수 없기 때문에 개념설로서 언어의 특성을 설명하기도 한다.

개념은 모든 사람들이 갖고 있는 공통성 즉, 추상화된 특성을 말하는 것으로 구체적이고 개인적인 느낌에서 일반적이고 보편적인 의미로 추상화시키는 것을 개념화라 할 수 있다. '초가'라는 단어를 접하였을 때 구체적인 여러 초가집들에서 공통적인 모습을 떠올리게 되면, 그것이 바로 '초가'의 개념이 되는 것이다. 이와 같이 사람의 생각 속에서 만들어지고 기억되는 개념을 언어의 의미라고 보는 개념설로서 언어의 특성을 설명할 수 있는 것이다.

용법설(문맥설)은, 단어가 사용되는 문맥과 상황에 따라 의미가 달라진다고 보는 견해로서 단어의 쓰임에 초점을 맞추는데, 예를 들어서 "손이 크다"라는 문장의 의미를 이해할 때, 신체의 일부인 손(hand)이 크다고 할 수도 있지만 씀씀이가 크다고 하는 의미로 받아들여질 수도 있다는 것이다.

자극-반응설은 언어를 추상적이 아닌 구체적인 행동 양상으로 파악하는 행동의 한 양태로 이해한다는 것이지만, 동일한 자극이 주어진다 하더라도 발화 참여자의 일관된 반응이 이루어질 수 없다는 측면에서 의미 기술의 한계를 지닐 수밖에 없다.

한편, 모든 언어는 뜻(의미)과 그것을 표현하는 형식(문자나 언어)의 결합으로 이루어지는 특성(기호성)을 갖는데, 형식은 존재하지만 뜻이 존재하지 않는 것은 언어라 할 수 없으며, 뜻과 형식의 결합이 이루어질 때 뜻과 형식은 서로 필연적이지 않고 자의적이므로 자의성을 갖는다고도 할 수 있음은 물론, 모든 언어는 사회성/역사성/창조성/추상성 등을 갖는다.

특히 언어는 추상성에 따라 (예컨대, 무지개의 수많은 색 요소들을 빨주노초파남보로 단순화, 추상화시키는 것) 문장 속에서 단순화/요약화/추상화 등이 이루 어지는데, 추상(抽象)이라함은 개별적인 사물이나 구체적인 개념으로부터 공통적인 요소를 뽑아 일반적인 개념으로 파악함, 또는 그렇게 하는 정신작용 등의 사전적 의미를 갖는 단어로서 구상(構想)의 반대를 의미한다.

다른 예로서, '꽃'이라는 단어를 접하면 장미/국화/수선화 등등을 떠올 릴 수 있기 때문에 '꽃'이라고만 한다면 어느 꽃을 이야기 하는 것인지 알 수 없어 '꽃'이라는 단어는 추상적인 단어라 한다.

대한민국특허청 공개특허공보에 공개번호 10-1997-7007499호로 개시된'문서 요약 방법'은, 입력 서류를 청크로 분할하는 단계와; 중요도를 각각의 상기 청크에 포함된 각 단어로 지정하는 단계와; 상기 청크 내에 포함된 단어의 중요도에 기초하여 중요도를 각각의 상기 청크로 지정하는 단계와; 상기 청크의 상대 중요도에 기초하여 상기 출력 서류에 포함되는 상기 청크의 서브세트를 선택하는 단계를 실행시킴으로써, 이루어지는 것에 관한 것이다.

대한민국특허청 공개특허공보에 공개번호 10-2000-0054268호로 개시된'문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템'은, 검색 키 문서(key document)를 입력하는 단계; 상기 검색 키 문서의 주제어 정보를 생성하는 단계; 검색 대상 문서 내에 포함된 각 주제어에 대하여 상기 주제어를 내용으로 하는 주제어 필드와 상기 주제어를 포함하는 검색 대상 문서의 문서 식별자를 내용으로 하는 하나 이상의 문서 식별자 필드를 포함하는 레코드를 포함하는 주제어정보 데이터베이스를 이용하여 상기 검색 대상 문서에 주제어별 가중치를 부여하는 단계; 각 검색 대상 문서에 대하여 문서 분별 내용을 담고 있는 문서 식별자 필드와 검색 대상 문서를 구성하는 문장의 정보를 수록하는 하나 이상의 문장 정보 필드가 있는 레코드를 포함하며, 상기 문장 정보 필드는 각각 문장의 번호, 문서 내에서의 문장의 위치, 문장의 길이, 문장이 포함하고 있는 주제어의 비율에 따라 정해지는 문장 가중치를 내용으로 하며, 문장번호, 문장위치, 문장길이, 문장가중치 서브필드와 각 문장 내에 포함되어 있는 주제어 식별자를 내용으로 하는 하나 이상의 주제어 식별자 서브필드를 포함하고 있는 주제문장 정보 데이터베이스를 이용하여, 상기 검색 대상 문서에 주제문장별 가중치를 부여하는 단계; 상기 주제어별 가중치와 상기 주제문장별 가중치를 합한 전체 가중치가 높은 것으로부터 낮은 것의 순서로 상기 검색 대상 문서를 분류하는 단계로 이루어지는 것에 관한 것이다.

대한민국특허청 공개특허공보에 공개번호 10-2003-0039575호로 개시된'문서 요약 방법 및 시스템'은, 정형화된 특허문서를 대상으로 패턴탐색을 행하여 패턴구조를 미리 정형화하는 단계; 상기와 같이 정형화된 패턴을 중요도에 따라 핵심단락과 부가단락으로 구분하는 단계; 요약하고자 하는 문서를 입력하는 단계; 입력된 문서가 비정형화된 것인지 아니면 정형화된 것인지를 판단하는 단계; 상기 입력된 문서가 비정형화된 것인 경우에는 비정형화된 문서의 내용을 패턴 탐색하여 미리 정형화된 패턴과 동일 또는 유사한 패턴을 추출하는 단계; 상기와 같이 추출된 패턴에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 문서를 요약하는 단계; 상기 입력된 문서가 정형화된 것인 경우에는 문서구조화 후 상기에서 구분된 단락구분기준에 따라 핵심단락과 부가 단락으로 구분하는 단계; 상기와 같이 구분된 핵심단락에서 미리 정형화된 패턴과 동일 또는 유사한 패턴의 유무를 판단하는 단계; 상기 핵심단락에 패턴이 있는 경우에는 패턴을 추출하는 단계; 상기와 같이 추출된 패턴 및 부가단락에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 중요한 문장을 추출하고, 추출된 패턴에서의 중요한 문장 및 부가단락에서의 중요한 문장을 이용하여 문서를 요약하는 단계; 및 상기 핵심단락에 미리 정형화된 패턴과 동일 또는 유사한 패턴이 없는 경우에는 핵심단락 및 부가단락에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 중요한 문장을 추출하고, 추출된 핵심단락에서의 중요한 문장 및 부가단락에서의 중요한 문장을 이용하여 문서를 요약하는 단계로 이루어지는 것에 관한 것이다.

그런데 상기한 바와 같은 공개번호 10-1997-7007499호의'문서 요약 방법'은, 기준수에 기초하여 중요한 정보부의 선택 및 불필요한 메시지 부분을 제거하고, 입력메시지/명령세트 및 최대 길이의 메시지를 제공하며, 최대 길이의 메시지 범위 내에 포함되는 중요한 메시지를 생성시키게 될 뿐이었다.

또, 공개번호 10-2000-0054268호의'문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템'은, 문서 자체를 검색 키로 하여 이와 유사한 내용을 갖는 문서를 검색할 수 있게 되어, 한 번의 검색으로 원하는 정보를 쉽고 빠르게 찾을 수 있고, 문서에 대한 검색 결과를 문서의 주제와 관련된 요약 정보로 표시되게 하여, 검색 결과를 다시 확인해야 하는 불편함이 없이 빠르게 원하는 정보를 찾을 수 있도록 하는 것이다.

또, 공개번호 10-2003-0039575호의'문서 요약 방법 및 시스템'역시, 특허문 서와 같은 특성화된 문서를 요약하는데 적용하여 요약효율을 높이고 요약성능 및 가독율을 향상시킬 수 있는 것에 불과하였다.

따라서, 상기한 바와 같은 '문서 요약 방법', '문서 분류 검색 방법 및 문서분류 검색 시스템', 문서 요약 방법 및 시스템'등은, 가리킬 수 있는 지시 대상의 단어 이외, 보이지 않는 사물이나 현실 속에 존재하지 않는 추상적인 것을 포함하는 문장의 의미, 문법적인 관계를 나타내는 단어를 포함하는 문장의 의미 등은 파악할 수 없다는 문제를 내포하고 있다.

본 발명은 상기한 바와 같은 문제의 해소를 위한 것으로, 본 발명의 목적은 문장의 주요 구성요소들을 선별하여 문장을 추상화하고 개연규칙의 활용에 따라 파악되는 의미적인 정보에 의해 추상적이고 정형적(Formal)인 상위개념으로 표현되는 화제문으로써 요약 문서를 얻을 수 있도록 하는 문서요약 방법 및 시스템을 제공하려는데 있다.

상기의 목적을 달성하기 위하여 본 발명은, 요약하고자하는 문서의 문장 내용을 전자적인 데이터 형태로 입력받아 저장하는 단계; 상기 단계에서 입력/저장되어진 데이터를 읽어들여 구문 분석한 다음, 각 구문을 해당하는 다수 각각의 메인레지스터에 저장하는 단계; 상기 단계에서 각 메인레지스터에 저장된 구문 데이터들을 순차적으로 읽어들여 각 구문에서 주요 구성요소들을 추출하고, 이로써 얻어져 확인되는 온톨로지 데이터를 각 메인레지스터와 연관되는 다수 각각의 제1서브 레지스터에 저장하는 단계; 상기 단계에서 다수 각각의 제1서브레지스터에 저장되어진 선별된 주요 구성요소들 각각이 갖는 의미에 대한 기 설정 데이터 값을 읽어들여 비교함으로써, 선별된 주요 구성요소 각각에 대하여 추상적인 의미를 파악하고, 그 값을 다수 각각의 제2서브레지스터에 저장하는 단계; 상기 다수 각각의 제2서브레지스터에 저장되어진 값을 읽어들여 개연규칙 프로그램 가동장치부로 입력시켜서 구문간 개연성을 갖는 다수 화제문을 선정하고, 선정된 다수 화제문에 대한 식별값들을 해당하는 다수의 다른 레지스터에 각각 저장하는 단계; 상기 단계에서 다수의 다른 레지스터에 각각 저장된 식별값에 해당하는, 선별된 주요 구성요소들에 대하여 파악된 추상적인 의미의 해당 값을 다수 각각의 제2서브레지스터로부터 읽어들여 문법적인 요약 문장으로 조합하여 해당하는 또 다른 레지스터에 저장하는 단계; 출력 제어신호가 있는지를 판단하여 그럴 경우 상기 단계에서 또 다른 레지스터에 저장된 데이터 값이 출력수단의 가동을 통하여 출력, 표시되게 하는 단계를 포함하는, 문장추상화와 개연규칙을 활용한 문서 요약 방법을 제공한다.

또한 본 발명은, 문장의 의미 파악을 위한 문장의 통사구조 분석단계와, ROGET 시소러스와 온톨로지 검색을 위한 단어의 원형어휘 판별단계와, 원형어휘에 대한 ROGET 시소러스 범주정보 추출단계와, 원형어휘에 대한 온톨로지 범주정보 추출단계로 이루어지는 문서요약 방법을 제공한다.

또, 본 발명에서는 문장의 의미 파악을 위한 문장의 통사구조 분석단계; ROGET 시소러스와 온톨로지 검색을 위한 단어의 원형어휘 판별단계; 원형어휘에 대한 ROGET 시소러스 범주정보 추출단계; 원형어휘에 대한 온톨로지 범주정보 추출단 계로 이루어지는 문서 요약 보조 시스템을 제공할 수도 있다.

상기 문장의 통사구조 분석단계는, 문장의 의미분석을 위한 선행단계로 구문분석기인 LGP/LGPI+/MiNiPar+/APPLE PIE로 이루어지는 구문분석기 군에서 선택되는 어느 하나를 이용하여 문장을 구성하는 어휘들의 정보를 얻고, 문장 구성요소들 간의 문법적인 관계를 파악하는 과정으로서, 구문분석 결과는 기계 가독형으로 문장의 통사구조를 나타내게 된 것이다.

상기 문장의 통사구조 분석단계는, 그 분석 과정에서 오류가 존재할 경우, LGPI+에 의한 결과를 토대로 하여 문장을 정규화하고, LGPI+에 수록된 어형사전을 참조하여 단어 대용 과정을 수행하게 되는 것이다.

상기 원형어휘 판별단계는, 단어에 대한 ROGET 시소러스 정보를 추출하기 위한 과정으로서, 단어의 과거형/복수형/불규칙 어휘 등에 대하여 사전형태로 구축, 제공되는 데이터베이스에서 검색을 실행하는 것이다.

상기 시소러스 범주정보 추출단계는, 상기한 상기 원형어휘 판별단계의 실행 결과 얻어지는 해당 단어의 원형어휘로 ROGET 시소러스 범주 정보를 구하게 되는 것이다.

상기 온톨로지 범주정보 추출단계는, 상기한 시소러스 범주정보 추출단계에서 구하여지는 정보를 기반으로 해당 원형어휘에 대한 온톨로지 범주 정보를 추출하는 것이다.

또한 본 발명은, 요약하고자하는 문서의 문장 내용을 전자적인 데이터로 변환하여 입력시키는 입력장치부와; 상기 입력장치부로부터 입력되는 문장 전체에 대 하여 구문으로 분류하는 구문분석장치부와; 상기 구문분석장치부로부터 분석, 출력되는 데이터 값들을 각각 저장시키는 다수의 메인레지스터를 갖는 주기억장치부와; 상기 주기억장치부의 다수 메인레지스터로부터 입력받은 데이터 값에 대하여 주요 구성요소 값인 온톨로지 데이터 값을 추출하는 주요 구성요소 추출장치부와; 상기 주요 구성요소 추출장치부로부터 출력되는 데이터 값을 상기 각 메인레지스터와 연관되도록 각각 저장되는 다수의 제1서브레지스터를 갖는 제1부기억장치부와; 상기 제1부기억장치부로부터 출력되는 데이터 값들과 연관되는 기 설정 데이터 값이 호환적으로 저장되는 보조기억장치부와; 상기 보조기억장치부로부터 상기 제1부기억장치부로부터 출력되는 데이터 값에 연관되는 기 설정 데이터 값을 입력받아 비교함으로써, 선별된 주요 구성요소 각각에 대하여 추상적인 의미를 파악하여 출력시키는 문장추상화장치부와; 상기 문장추상화장치부로부터 출력되는 데이터 값에 대하여 구문간 개연성을 갖는 다수 화제문 선정이 이루어지게 하는 개연규칙 프로그램 가동 장치부와; 상기 개연규칙 프로그램 가동장치부로부터 출력되는 데이터 값들이 상기 제1부기억장치부의 각 메인레지스터와 연관되도록 각각 저장되는 다수의 제2서브레지스터를 갖는 제2부기억장치부와; 상기 제2부기억장치부의 다수 각각의 제2서브레지스터로부터 입력받은 데이터 값에 대하여 문법적인 요약 문장 값으로 조합하는 문서요약장치부와; 상기 문서요약장치부로부터 출력되는 데이터 값을 입력받아 저장시킬 수 있는 또 다른 레지스터부와; 상기 또 다른 레지스터부로부터 입력받은 데이터 값을 출력, 표시할 수 있도록 가동되는 출력장치부를 포함하여 이루어지는 문서요약시스템을 제공한다.

이하, 첨부 도면을 참조하여 본 발명의 바람직한 실시 예에 대하여 다음과 같이 상세히 설명하기로 한다.

도 1은 본 발명에 따르는 문장추상화와 개연규칙을 활용하는 문서요약 방법에 대한 순서도이고, 도 2는 본 발명에 따르는 문장추상화와 개연규칙을 활용하는 문서요약 시스템에 대한 개략적인 구성을 나타내기 위한 블럭도이다.

도시된 바와 같이 본 발명은, 시작하여 모든 레지스터를 초기화(S100)한 다음, 입력장치부(2)를 이용하여 요약하고자하는 문서의 문장 내용을 전자적인 데이터 형태로 입력받아 저장하고(S200), 위에서와 같이 입력/저장되어진 데이터를 주기억장치(14)로부터 읽어들여 해당 장치부(4)에 의한 구문 분석을 실시하고 그 도출 값을 저장하는 단계(S300)를 포함하여 이루어지는 문서 요약 방법에 관한 것이다.

상기한 주기억장치(14)는 다수의 메인레지스터를 갖고 있으며, 이러한 메인레지스터들에 저장되는 구문 분석에 대한 도출 값은, 문단 식별부호(예컨대, 마침표 등)를 기준으로 하여 입력된 문장 전체를 구문으로 구분하여 처리하는 것이다.

본 발명에 의한 방법은 또, 상기 단계(S300)에서 각 메인레지스터에 저장된 구문 데이터들을 순차적으로 읽어들여 각 구문에서 주요 구성요소들을 추출하고, 이로써 얻어져 확인되는 온톨로지 데이터를 각 메인레지스터와 연관되는 다수 각각의 제1서브레지스터에 저장하는 단계(S400)를 포함하여 이루어진다.

한편, 상기 단계(S400)에서 다수 각각의 제1서브레지스터에 저장되어진 선별된 주요 구성요소들 각각이 갖는 의미에 대한 기 설정 데이터 값을 읽어들여 비교 (S500)함으로써, 선별된 주요 구성요소 각각에 대하여 추상적인 의미를 파악하고, 그 값을 다수 각각의 제2서브레지스터에 저장하는 단계(S600)가 더 실행된다.

또한, 상기 다수 각각의 제2서브레지스터에 저장되어진 값을 읽어들여 개연규칙 프로그램 가동장치부(12)로 입력시켜서 구문간 개연성을 갖는 다수 화제문을 선정하고, 선정된 다수 화제문에 대한 식별 값들을 해당하는 다수의 다른 레지스터에 각각 저장하는 단계(S700)도 실행된다.

그리고 또 본 발명에서는, 상기 단계(S700)에서 다수의 다른 레지스터에 각각 저장된 식별 값에 해당하는, 선별된 주요 구성요소들에 대하여 파악된 추상적인 의미의 해당 값을 다수 각각의 제2서브레지스터로부터 읽어들여 문법적인 요약 문장으로 조합하여 해당하는 또 다른 레지스터에 저장하는 단계(S800) 및 출력 제어신호가 있는지를 판단하여(S900) 그럴 경우 상기 단계(S800)에서 또 다른 레지스터에 저장된 데이터 값이 출력수단(13)의 가동을 통하여 출력, 표시되게 하는 단계(S1000)를 포함하는, 문장추상화와 개연규칙을 활용한 문서 요약 방법을 제공한다.

또한 본 발명은, 요약하고자하는 문서의 문장 내용을 전자적인 데이터로 변환시키는 입력장치부(2)로부터 입력되는 문장 전체에 대한 내용 등을, 중앙처리장치부(C)에서 해당 단계에 따라 처리토록 시스템을 구성하고 있으며, 상기 중앙처리장치부(C)를 이루는 하나의 요소로서 구비되는 구문분석장치부(4)에 의해 입력된 문장 내용 전체를 구문으로 분류한다.

또, 본 발명에 의한 시스템은 상기 구문분석장치부(4)로부터 분석, 출력되는 데이터 값들을 각각 저장시키는 다수의 메인레지스터를 갖는 주기억장치부(14)가 구비되며, 상기 주기억장치부(14)의 다수 메인레지스터로부터 입력받은 데이터 값에 대하여 주요 구성요소 값인 온톨로지 데이터 값을 추출하는 주요 구성요소 추출장치부(6)를 구비하여 이루어지는 것이다.

본 발명의 시스템은 또, 상기 주요 구성요소 추출장치부(6)로부터 출력되는 데이터 값을 상기 각 메인레지스터와 연관되도록 각각 저장되는 다수의 제1서브레지스터를 갖는 제1부기억장치부(16)를 포함하여 이루어진다.

뿐만 아니라, 상기 제1부기억장치부(16)로부터 출력되는 데이터 값들과 연관되는 기 설정 데이터 값이 호환적으로 저장되는 보조기억장치부(18)와, 상기 보조기억장치부(18)로부터 상기 제1부기억장치부(16)로부터 출력되는 데이터 값에 연관되는 기 설정 데이터 값을 입력받아 비교함으로써, 선별된 주요 구성요소 각각에 대하여 추상적인 의미를 파악하여 출력시키는 문장추상화장치부(8)도 포함된다.

한편, 본 발명은 상기 문장추상화장치부(8)로부터 출력되는 데이터 값에 대하여 구문간 개연성을 갖는 다수 화제문 선정이 이루어지게 하는 개연규칙 프로그램 가동장치부(12)와, 상기 개연규칙 프로그램 가동장치부(12)로부터 출력되는 데이터 값들이 상기 제1부기억장치부(16)의 각 메인레지스터와 연관되도록 각각 저장되는 다수의 제2서브레지스터를 갖는 제2부기억장치부(19) 그리고, 상기 제2부기억장치부(19)의 다수 각각의 제2서브레지스터로부터 입력받은 데이터 값에 대하여 문법적인 요약 문장 값으로 조합하는 문서요약장치부(9) 및 상기 문서요약장치부(9)로부터 출력되는 데이터 값을 입력받아 저장시킬 수 있는 또 다른 레지스터부(22), 상기 또 다른 레지스터부(22)로부터 입력받은 데이터 값을 출력, 표시할 수 있도록 가동되는 출력장치부(13)를 포함하여 이루어지는 문서요약시스템을 제공한다.

상기한 바와 같은 본 발명의 작용에 대해 도 3 내지 도 5를 참조하여 다음과 같이 상세하게 설명하기로 한다.

즉, 본 발명에서는 문서 요약을 위해 문장내 처리(intra-sentential processing)(110)와 문장간 처리(inter-sentential processing)(120)가 나뉘어 이루어지는데, (도 1의) 문장추상화 단계(S500)(S600)에 이루어지는 과정에는 ROGET 시소러스에 기반한 온톨로지(31)와 구문분석기(130)(도 2의 구문분석장치부(4)와 동일)를 통해 얻어지는 데이터가 적용되어지는 것이다.

상기 온톨로지(31)의 활용은 ROGET 시소러스를 심중사전(lexicon) (32)으로 하여 이를 재구성함으로써 이루어지는 것이며, 위에서와 같은 ROGET 시소러스에는 체계적(사건, 상태, 개체속성 등에 관하여)으로 분류된 어휘에 관한 지식(다양한 숙어/ 복식어휘(multiword unit) 따위)이 기록되어 있으며, (도 2에서와 같은) 보조기억장치(18)에 저장되었다가 읽히어 활용되는 것이다.

한편, 상기 구문분석기(130)는 입력된 문장 원문 내용을 구문으로 분류하고 이러한 구문들 각각에 대하여 중요도를 판단하여 (도 2의 문장추상화장치부(8)과 동일한) 문장추상기(140)로 그 판단 값 등을 출력하는 것이며, 이와 같은 문장추상기(140)는 입력 데이터를 기반으로 하여 문장의 요점어(pivot word) 위치를 파악하여 문장추상화에 후보단어로 적용시킨다.

상기 후보단어는 ROGET 시소러스를 재구성하여 결정된 온톨로지에 등록된 것의 범주에 있는 의미를 갖게 되며, 이러한 후보단어에 대한 데이터는 문장 추상화 가 완료된 후에도 계속 잔류된다.

상기 문장추상기(140)는 또 주어/동사/목적어/동사 수식어구 등, 주로 최상위 어구(top-level phrase)의 주요어(head word)를 주목하여 후보단어들을 결정지으며, 의미적인 변화(change)를 내포하는 동사나 심상(affect state)에 연관되어 있는 단어의 경우에는 해당하는 목적어구나 수식어구의 주요어를 고려하여 후보단어로의 결정 여부를 중복적으로 판단하게 된다.

위에서와 같은 기재 내용을 정리하면 다음과 같다.

[1] 추상화 검토대상 선정; 주어/동사/목적어/동사 수식어구

(1)최상위 어구(top-level phrase)의 주요어(head word)를 파악한다(단, 복식어휘(multiword unit)는 하나의 단어로 취급).

(2)전치사구에 있어서는 전치사와 그 목적어만을 고려한다.

(3)의미적인 변화(change)를 내포하는 동사나 심상(affect state)에 연관되어 있는 단어의 경우에는 해당하는 목적어구나 수식어구의 주요어를 후보단어로의 결정 여부에 고려한다.

[2] 온톨로지 범주의 결정;

(1)검토대상으로 선정된 후보단어들에 대한 온톨로지 범주를 결정한다.

(2)의미적인 변화(change)를 내포하는 동사의 목적어나 수식어구의 온톨로지 범주가 시간(time) 또는 공간(space)일 경우, 시공의 변화(delta-time 또는 delta-space)를 온톨로지 범주로 한다.

(3)ROGET 시소러스를 설정 기준에 따라 재편성하고, 심중사전 (lexicon)(32)의 기반으로 재구성하여 온톨로지를 구현한다.

(4)설정 기준; ①등장인물(character), ②심상(affect state), ③사건(event), ④상태(state), ⑤시간(time), ⑥공간(space), ⑦수사구조의 연구결과를 활용한 담화표지(discourse marker)

[3] 각 구문의 주체와 객체의 파악

[4] 문장 식별자(sentence identifier)를 사용하여, 어휘들에 내포된 구체적인 개념으로부터 공통적인 요소를 뽑아 일반적인 개념으로 파악되는 추상화된 문장을 문추상식(sentence abstraction formula)으로 표현한다.

(1)문추상식은 프롤로그(Prolog) 술어 형태를 취한다.

(2)문추상식에 의해 등장인물의 교차관계(cross-character relationship)(역할관계 및 상호작용 관계)를 파악한다.

[5] 구문분석기(130);

(1)주어진 문장 전체를 구문으로 분석하여 각 문장 구성요소들의 구문상 중요도를 파악한다.

(2)주요 구성요소에 대한 온톨로지 유형을 확인한다.

(3)확인된 온톨로지 유형을 기반으로 하여 구문상 중요도를 평가한다.

(4)온톨로지 유형으로 확인된 내용을 추상화된 문장의 구성요소로 채택한다(단, 문장 구성요소가 온톨로지 복수 범주에 해당될 경우 ①등장인물(character), ②심상(affect state), ③단서구(cue phrase), ④사건(event), ⑤상태(state), ⑥공간(space), ⑦시간(time) 등의 순위에 따라 해당범주를 지정한다).

[6] 문장추상기(140);

(1)문장추상기(도 2의 문장추상화장치부(8)와 동일)(140)와 개연사슬기 SICHA(도 2의 개연규칙 프로그램 가동장치부(12)와 동일)(160)의 작용에 따라 주어진 글에서 문장구성성분들의 문장 내외 개연적 연결상황을 파악한다.

①개연사슬(abductive rule)은 기존 어휘사슬을 포함하여 줄거리 단위, 단서구 용법, 구문간의 개연성 등을 갖는 새로운 어휘사슬의 개연고리(abductive link)로 이루어진다.

②개연규칙은 구문간 개연적인 결속성을 나타낸다.

③개연사슬에 의해 엮어진 구문에는 구문간 연결집중도가 내포된다.

④구문들간의 연결집중도는 개연규칙에 부합하는 연결유형의 급수(degree)로 나타낸다,

(2)구문간 연결집중도가 높은 구문들을 화제문으로 선택한다(170)(이 과정에서 개연사슬(abductive chain)을 활용한다).

본 발명의 다른 실시예로서 도 4에서와 같이 문장의 의미 파악을 위한 문장의 통사구조 분석단계(210)와, ROGET 시소러스와 온톨로지 검색을 위한 단어의 원형어휘 판별단계(220)와, 원형어휘에 대한 ROGET 시소러스 범주정보 추출단계(230)와, 원형어휘에 대한 온톨로지 범주정보 추출단계(240)로 이루어지는 문서요약 방법을 제공한다.

상기 문장의 통사구조 분석단계(210)는, 문장의 의미분석을 위한 선행단계로 구문분석기인 LGP/LGPI+/MiNiPar+/APPLE PIE 등을 이용하여 문장을 구성하는 어휘 들의 정보를 얻고 문장 구성요소들 간의 문법적인 관계를 파악하는 과정으로서, 구문분석 결과는 기계 가독형으로 문장의 통사구조를 나타내게 된다.

또 이 과정에서 오류가 존재할 경우 LGPI+에 의한 결과를 토대로 하여 문장을 정규화하고, LGPI+에 수록된 어형사전을 참조하여 단어 대용 과정을 수행하게 된다.

상기 원형어휘 판별단계(220)는, 단어에 대한 ROGET 시소러스 정보를 추출하기 위한 과정으로서, 단어의 과거형/복수형/불규칙 어휘 등에 대하여 사전형태로 구축, 제공되는 데이터베이스에서 검색을 실행한다.

상기 단계(220)의 실행 결과 얻어지는 해당 단어의 원형어휘로 ROGET 시소러스 범주 정보를 구하고(230), 또, 이러한 단계(230)에서 구하여지는 정보를 기반으로 해당 원형어휘에 대한 온톨로지 범주 정보를 추출하는 단계(240)를 실행하게 된다.

도 5는 본 발명의 시스템에 대한 다른 실시예를 설명하기 위한 도면이다. 도시된 개연규칙 획득기로 수집한 개연규칙은 문장구성요소들의 문장간 연결상황을 파악하는데 쓰인다. 개연규칙의 연결도가 높은 문장은 주어진 글의 화제문으로 채택되어질 가능성이 높다.

이상적인 문서의 요약은 문장의 응집성과 구문간 상호보완적인 작용이 이루어져야 하며, 기계적인 조응성과 응집성을 갖춘 문장으로의 요약문을 얻기 위해서는 원문의 이해 관점에서 주제 관련성이 높은 문장을 선별하는 발췌요약 방식을 채택하는 것이 유리하다.

즉, 추출하여 얻어지는 개연규칙에 따라, 그리고 현재 축적된 언어처리기술을 활용하여 문장의 화제연접(topic connection) 상황을 밝힘으로써 구문간 연결상황을 파악하여 화제문을 선정하는 것이다.

상기한 바와 같이 문장추상기/개연사슬기/개연규칙 추출기 등과 함께 문서요약 시스템을 이루는 문장분석용 통합시스템 및 인터페이스는 문장분석에 필요한 언어학적 도구와 자원들을 통합하고 다양한 문장분석 정보를 시각적이면서도 체계적으로 관리할 수 있다.

즉, 가용의 언어학적 도구와 자원의 모든 기능을 유지하면서도 쉽고 단순하게 사용자 인터페이스를 제공하며, 이에 따라 사용자로 하여금 주어진 문장을 체계적이고도 능률적으로 분석할 수 있도록 한다.

또, 문장추상화 온톨로지는 시멘틱웹(semantic web) 분야에서 기반 온톨로지(ontology)로 활용할 수도 있으며, 문장의 거시적 이해/ 원문의 전교한 요약/ 정보 검색에 대한 정확도/ 문서 자동분류/ 문장교열 등의 효과도 기대할 수 있게 함은 물론, 기업의 자체 문서의 요약이나 프로세서의 분류가 가능하게 함과 아울러, 서식설계자의 의도가 능동적으로 반영될 수 있도록 한다.

또, 기업이 고객을 상대함에 있어 고객요구도를 개연성 있게 파악하고 답변을 쉽게 도출할 수 있게 되며, 기업의 고유한 사무 업무를 위한 프로세서간 개연성 있는 관리가 가능하여 관리시간 및 비용의 절감을 가져오게도 된다.

정보기술로서의 활용에 있어서는 다중 문서요약이 가능하다는 점, 신문기사나 전자우편물/ 기술서 등의 내용을 쉽고 빠르며 간결하게 요약할 수 있다는 점 등 도 이점으로 작용하게 된다.

이상에서 살펴본 바와 같이, 본 발명은 문장의 주요 구성요소들을 선별하고 화제문을 선정하여 개연규칙의 활용에 따라 파악되는 의미적인 정보에 의해 추상적이고 정형적(Formal)인 상위개념으로 표현되는 요약 문서를 얻을 수 있도록 하는 효과를 제공한다.

상기 개연규칙은 문장 구성요소들의 문단간 개연적 연결상태를 파악하고, 문장 전체에서 문단 간에 이루어지는 인과성향이나 담화작용을 파악하여 추상적으로 접근되는 요약 문서의 작성에 반영하기 위한 규칙이다.

본 발명은 궁극적으로, 자연어 문장의 개략적인 의미와 글의 요지를 쉽고 신속하게 파악할 수 있게 한다는 유용한 효과를 제공하는 것이다.

상기한 바와 같이 설명된 본 발명은 바람직한 실시 예에 불과한 것으로, 본 발명의 적용범위는 이와 같은 것에 한정되는 것은 아니며 동일사상의 범주 내에서 적절하게 변경 가능한 것이다.

Claims

요약하고자하는 문서 내용에 대해 입력, 저장하는 단계;

상기 단계에서 저장되는 데이터에 대해 구문 분석, 저장하는 단계;

상기 단계에서의 구문 데이터들을 순차적으로 읽어들여 각 구문에서 주요 구성요소들을 추출하고, 이 온톨로지 데이터를 저장하는 단계;

상기 단계에서의 온톨로지 데이터 값을, 선별된 주요 구성요소들 각각이 갖는 의미에 대한 기 설정 데이터 값과 비교하여, 선별된 주요 구성요소 각각에 대한 추상적인 의미로 파악되는 데이터 값을 저장하는 단계;

상기 단계에서의 저장 값을 읽어들여 개연규칙 프로그램 가동장치부로 입력시켜서 구문간 개연성을 갖는 다수 화제문을 선정하고, 선정된 다수 화제문에 대한 식별값들을 각각 저장하는 단계;

상기 단계에서 저장된, 선별된 주요 구성요소들에 대하여 파악된 추상적인 의미의 해당 값들을 읽어들여 문법적인 요약 문장으로 조합하고, 저장하는 단계;

출력 제어신호가 있는지를 판단하여 그럴 경우 상기 단계에서 저장된 데이터 값이 출력수단의 가동을 통하여 출력, 표시되게 하는 단계를 포함하는, 문장추상화와 개연규칙을 활용한 문서 요약 방법.
문장의 의미 파악을 위한 문장의 통사구조 분석단계;

ROGET 시소러스와 온톨로지 검색을 위한 단어의 원형어휘 판별단계;

원형어휘에 대한 ROGET 시소러스 범주정보 추출단계;

원형어휘에 대한 온톨로지 범주정보 추출단계로 이루어지는 문장추상화에 기반한 문서 요약 방법.
제 2항에 있어서, 상기 문장의 통사구조 분석단계는,

문장의 의미분석을 위한 선행단계로 구문분석기인 LGP/LGPI+/ MiNiPar+/APPLE PIE로 이루어지는 구문분석기 군에서 선택되는 어느 하나를 이용하여 문장을 구성하는 어휘들의 정보를 얻고, 문장 구성요소들 간의 문법적인 관계를 파악하는 과정으로서, 구문분석 결과는 기계 가독형으로 문장의 통사구조를 나타내게 된 것임을 특징으로 하는 문서 요약 방법.
제 2항 또는 제 3항에 있어서, 상기 문장의 통사구조 분석단계는,

그 분석 과정에서 오류가 존재할 경우, LGPI+에 의한 결과를 토대로 하여 문장을 정규화하고, LGPI+에 수록된 어형사전을 참조하여 단어 대용 과정을 수행하게 되는 것임을 특징으로 하는 문서 요약 방법.
제 2항에 있어서, 상기 원형어휘 판별단계는,

단어에 대한 ROGET 시소러스 정보를 추출하기 위한 과정으로서, 단어의 과거형/복수형/불규칙 어휘 등에 대하여 사전형태로 구축, 제공되는 데이터베이스에서 검색을 실행하는 것임을 특징으로 하는 문서 요약 방법.
제 2항에 있어서, 상기 시소러스 범주정보 추출단계는,

상기한 상기 원형어휘 판별단계의 실행 결과 얻어지는 해당 단어의 원형어휘로 ROGET 시소러스 범주 정보를 구하게 되는 것임을 특징으로 하는 문서 요약 방법.
제 2항에 있어서, 상기 온톨로지 범주정보 추출단계는,

상기한 시소러스 범주정보 추출단계에서 구하여지는 정보를 기반으로 해당 원형어휘에 대한 온톨로지 범주 정보를 추출하는 것임을 특징으로 하는 문서 요약 방법.
요약하고자하는 문서의 문장 내용을 전자적인 데이터로 변환하여 입력시키는 입력장치부와;

상기 입력장치부로부터 입력되는 문장 전체에 대하여 구문으로 분류하는 구문분석장치부와;

상기 구문분석장치부로부터 분석, 출력되는 데이터 값들을 각각 저장시키는 다수의 메인레지스터를 갖는 주기억장치부와;

상기 주기억장치부의 다수 메인레지스터로부터 입력받은 데이터 값에 대하여 주요 구성요소 값인 온톨로지 데이터 값을 추출하는 주요 구성요소 추출장치부와;

상기 주요 구성요소 추출장치부로부터 출력되는 데이터 값을 상기 각 메인레 지스터와 연관되도록 각각 저장되는 다수의 제1서브레지스터를 갖는 제1부기억장치부와;

상기 제1부기억장치부로부터 출력되는 데이터 값들과 연관되는 기 설정 데이터 값이 호환적으로 저장되는 보조기억장치부와;

상기 보조기억장치부로부터 상기 제1부기억장치부로부터 출력되는 데이터 값에 연관되는 기 설정 데이터 값을 입력받아 비교함으로써, 선별된 주요 구성요소 각각에 대하여 추상적인 의미를 파악하여 출력시키는 문장추상화장치부와;

상기 문장추상화장치부로부터 출력되는 데이터 값에 대하여 구문간 개연성을 갖는 다수 화제문 선정이 이루어지게 하는 개연규칙 프로그램 가동 장치부와;

상기 개연규칙 프로그램 가동장치부로부터 출력되는 데이터 값들이 상기 제1부기억장치부의 각 메인레지스터와 연관되도록 각각 저장되는 다수의 제2서브레지스터를 갖는 제2부기억장치부와;

상기 제2부기억장치부의 다수 각각의 제2서브레지스터로부터 입력받은 데이터 값에 대하여 문법적인 요약 문장 값으로 조합하는 문서요약장치부와;

상기 문서요약장치부로부터 출력되는 데이터 값을 입력받아 저장시킬 수 있는 또 다른 레지스터부와;

상기 또 다른 레지스터부로부터 입력받은 데이터 값을 출력, 표시할 수 있도록 가동되는 출력장치부를 포함하여 이루어지는 문서 요약 시스템.