KR100435442B1 - 문서 요약 방법 및 시스템 - Google Patents

문서 요약 방법 및 시스템 Download PDF

Info

Publication number
KR100435442B1
KR100435442B1 KR10-2001-0070540A KR20010070540A KR100435442B1 KR 100435442 B1 KR100435442 B1 KR 100435442B1 KR 20010070540 A KR20010070540 A KR 20010070540A KR 100435442 B1 KR100435442 B1 KR 100435442B1
Authority
KR
South Korea
Prior art keywords
document
paragraph
pattern
sentence
extracted
Prior art date
Application number
KR10-2001-0070540A
Other languages
English (en)
Other versions
KR20030039575A (ko
Inventor
박종수
피용진
김재경
김진상
이종혁
권오욱
Original Assignee
주식회사 포스코
학교법인 포항공과대학교
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 포스코, 학교법인 포항공과대학교 filed Critical 주식회사 포스코
Priority to KR10-2001-0070540A priority Critical patent/KR100435442B1/ko
Priority to JP2002322061A priority patent/JP3735336B2/ja
Publication of KR20030039575A publication Critical patent/KR20030039575A/ko
Application granted granted Critical
Publication of KR100435442B1 publication Critical patent/KR100435442B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 문서를 자동으로 요약하는 방법 및 시스템에 관한 것으로서, 특허문서와 같은 특성화된 문서를 요약하는데 적용할 수 있을 뿐만 아니라 요약효율을 높여 요약성능 및 가독율을 향상시킬 수 있는 문서 요약 방법 및 시스템를 제공하고자 하는데, 그 목적이 있는 것이다.
본 발명은 문서를 자동으로 요약함에 있어서 문서의 구조적인 특징을 파악하여 일정한 규칙에 의해 구조화시킨 후, 문서의 구조화된 단락에서 자주 발생하는 패턴을 추출하고, 문서의 수사구조 정보와 문서레벨 단락 분할, 단어공기정보 등의 자연어 처리(NLP)기술을 이용하여 문서를 자동요약하는 방법 및 시스템를 그 요지로 한다.

Description

문서 요약 방법 및 시스템 {Method And System For Summarizing Document}
본 발명은 문서를 자동으로 요약하는 방법 및 시스템에 관한 것으로서, 보다 상세하게는 문서를 자동으로 요약함에 있어서 문서의 구조적인 특징을 파악하여 일정한 규칙에 의해 구조화시킨 후, 문서의 구조화된 단락에서 자주 발생하는 패턴을 추출하고, 문서의 수사구조 정보와 문서레벨 단락 분할, 단어공기정보 등의 자연어 처리(NLP)기술을 이용하여 문서를 자동요약하는 방법 및 시스템에 관한 것이다.
문서를 자동으로 요약하는 종래의 기술로는 대한민국 특허공개번호 제96-28890호 및 97-707499호를 들수 있다.
상기 대한민국 특허공개번호 제96-28890호에는 정보요약방법, 정보요약장치,가중화방법 및 문자방송수신장치가 제시되어 있는데, 여기서는 소정의 단위로 구획된 문자열 데이터가 다수 부여된 경우에, 그들 복수의 단위 사이에서 공통하는 화제를 나타내는데 효과적이고 중요한 키워드를 정보요약으로서 추출하고, 키워드마다 점수를 산출하여 정보를 요약하고 있다.
또한, 상기 대한민국 특허공개번호 제97-707499호에는 문서요약 방법 및 장치가 제시되어 있는데, 여기서는 기준수에 기초하여 중요한 정보부의 선택 및 불필요한 메시지부의 제거를 가능하게 함으로서 입력 메시지, 명령 세트 및 최대 메시지 길이를 제공하여, 문서메시지 내에 있지만 최대 메시지 길이의 제한된 범위내에 포함되는 중요한 모든 정보를 전달하는 메시지를 발생시키도록 하고 있다.
한편, 대한민국 특허공개번호 제2000-54268호에는 문서자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템이 제시되어 있는데, 여기서는 자동요약을 이용하여 주제어 데이터 베이스와 주제문장 데이터베이스를 구축한 후, 키 문서를 입력으로 받아 키 문서의 내용과 유사한 내용을 갖는 문서를 검색하는 것이다.
즉, 상기한 문서자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템에서 이용된 자동 문서요약 시스템은 문서의 내용을 읽어 들여서 요약용의 해석 단위로 분류하는 파싱(Parsing) 단계와 문서의 최하위 요소인 단어를 기준으로 빈도 정보를 수집하여 주제어 정보를 구축하는 2단계로 구성되어 있다.
그러나, 상기와 같은 종래의 방법들은 일반 문서 또는 메일(Mail) 시스템의 메시지를 대상으로 하거나 문서 분류 검색 방법 및 문서분류 검색 시스템에 이용하기 위한 부가적인 수단으로 문서요약을 이용하였기 때문에 특허문서와 같은 특성화된 문서를 요약하는데 적용할 수 없으며 중요한 키워드를 추출하거나 단어 빈도수 만을 이용하여 요약할 때, 요약효율을 높일 수 없음으로 인하여 요약성능의 저하와 가독율의 저하를 발생시키는 문제점이 있다.
본 발명자는 상기한 종래기술의 제반 문제점을 해결하기 위하여 연구를 행하고, 그 결과에 근거하여 본 발명을 제안하게 된 것으로서, 본 발명은 특허문서와 같은 특성화된 문서를 요약하는데 적용할 수 있을 뿐만 아니라 요약효율을 높여 요약성능 및 가독율을 향상시킬 수 있는 문서 요약 방법 및 시스템를 제공하고자 하는데, 그 목적이 있는 것이다.
도 1은 본 발명에 따라 문서를 요약하는 방법의 일례를 나타내는 흐름도
도 2는 본 발명에 부합되는 문서요약시스템의 일례를 나타내는 구성도
* 도면의 주요부분에 대한 부호의 설명 *
11 . . . 문서입력부 12 . . . 문서판단부 13 . . . 단락구분부 14 . . . 패턴추출부 15 . . . 문장추출부 16 . . . 문서 요약부
이하, 본 발명에 대하여 설명한다.
본 발명은 문서를 요약하는 방법에 있어서,
구조적 특징을 갖는 문서를 대상으로 패턴탐색을 행하여 패턴구조를 미리 정형화하는 단계;
상기와 같이 정형화된 패턴을 중요도에 따라 핵심단락과 부가단락으로 구분하는 단계;
요약하고자 하는 문서를 입력하는 단계;
입력된 문서가 비정형화된 것인지 아니면 정형화된 것인지를 판단하는 단계;
상기 입력된 문서가 비정형화된 것인 경우에는 문서의 내용을 패턴탐색하여미리 정형화된 패턴과 동일 또는 유사한 패턴을 추출하는 단계;
상기와 같이 추출된 패턴에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 문서를 요약하는 단계;
상기 입력된 문서가 정형화된 것인 경우에는 문서구조화 후 상기에서 구분된 단락구분기준에 따라 핵심단락과 부가단락으로 구분하는 단계;
상기와 같이 구분된 핵심단락에서 미리 정형화된 패턴과 동일 또는 유사한 패턴의 유무를 판단하는 단계;
상기 핵심단락에 패턴이 있는 경우에는 패턴을 추출하는 단계;
상기와 같이 추출된 패턴 및 부가단락에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 중요한 문장을 추출하고, 추출된 패턴에서의 중요한 문장 및 부가단락에서의 중요한 문장을 이용하여 문서를 요약하는 단계; 및
상기 핵심단락에 미리 정형화된 패턴과 동일 또는 유사한 패턴이 없는 경우에는 핵심단락 및 부가단락에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 중요한 문장을 추출하고, 추출된 핵심단락에서의 중요한 문장 및 부가단락에서의 중요한 문장을 이용하여 문서를 요약하는 단계를 포함하여 구성되는 문서요약방법에 관한 것이다.
또한, 본 발명은 문서를 요약하는 시스템에 있어서,
요약하고자 하는 문서를 입력받는 문서입력부;
상기 문서입력부에 입력된 문서가 비정형화된 것인지 아니면 정형화된 것인지를 판단하는 문서판단부:
상기 문서판단부에 의해 상기 입력된 문서가 정형화된 것인 것으로 판단되는 경우에는 문서구조화 후 미리 정해진 단락구분기준에 따라 핵심단락과 부가단락으로 구분하는 단락구분부;
상기 단락구분부에 의해 구분된 핵심단락 또는 상기 비정형화된 문서에서 미리 정형화된 패턴과 동일 또는 유사한 패턴을 추출하는 패턴추출부;
상기 패턴추출부에서 추출된 패턴, 패턴이 없는 핵심단락 및 부가단락에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 중요한 문장을 추출하는 문장추출부; 및
상기 문장추출부에서 추출된 문장이 비정형화된 문서에서 추출된 패턴에 대하여 이루어진 경우에는 상기 문장추출부에서 추출된 문장에 근거하여 문서를 요약하고, 그리고 상기 문장추출부에서 추출된 문장이 정형화된 문서의 핵심단락에서 추출된 패턴에 대하여 이루어진 경우에는 상기 문장추출부에서 추출된 패턴 및 부가단락에서 추출된 중요한 문장에 근거하여 문서를 요약하고, 정형화된 문서의 핵심단락에 패턴이 없는 경우에는 핵심단락과 부가단락에서 추출된 중요한 문장에 근거하여 문서를 요약하는 문서요약부를 포함하여 구성되는 문서요약시스템에 관한 것이다.
이하, 본 발명을 보다 상세히 설명한다.
본 발명에 따라 문서를 요약하기 위해서는 도 1에 나타난 바와 같이, 우선,
구조적 특징을 갖는 문서를 대상으로 패턴탐색을 행하여 패턴구조의 정형화를 하여야 한다(단계 110).
여기서 문서란 일반문서, 기술문서 및 특허문서와 같은 특성화된 문서등을 포함한다.
상기 문서가 특성화된 문서중의 하나인 특허문서인 경우를 예를 들어 상기 단계 110에 대하여 상세히 설명하면 다음과 같다.
즉, 본 발명에 따라 특허문서를 요약하기 위해서는 예를 들면, 출원서에 첨부된 명세서(이하, " 출원서"라고도 칭함)를 대상으로 패턴탐색을 행하여 패턴구조의 정형화를 하여야 한다
상기 출원서는 정형화되어 있는 문서로서 발명의 이용분야, 발명의 목적, 발명의 효과, 발명의 구성 및 종래기술 및 문제점등을 기재하도록 구성되어 있다.
상기 발명의 이용분야에 대한 하나의 패턴으로는 " 본 발명(고안)은 ∼ 하는 시스템(방법, 설비)에 관한 것이다"를 들수 있다.
또한, 상기 발명의 목적에 대한 하나의 패턴으로는 " 본 발명(고안)은 ∼ 함에 그 목적이 있다(목적이다)"를 들수 있다.
또한, 상기 발명의 효과에 대한 하나의 패턴으로는 "본 발명(고안)에 의하면 ∼ 의 효과가 있다(효과이다)."를 들수 있다.
즉, 본 발명에 따라 특허문서를 요약하기 위해서는 우선 상기와 같이 패턴화된 출원서를 대상으로 패턴탐색을 행하여 패턴구조의 정형화를 행한다.
다음에, 상기와 같이 정형화된 패턴을 핵심단락과 부가단락으로 구분하고, 상대적으로 중요한 항목은 핵심단락에 할당되고, 상대적으로 그렇지 않은 항목은부가단락에 할당되도록 설정한다(단계 120).
예를 들어 특허문서의 경우에는 상기 핵심단락에는 이용분야, 목적, 효과가 할당되고, 부가단락에는 종래기술 및 문제점, 구성, 작용, 청구범위등이 할당되도록 설정하는 것이 바람직하다.
다음에, 요약하고자 하는 문서를 입력한다(단계 130).
요약하고자 하는 문서가 입력되면 입력된 문서가 먼저 비정형화된 것인지 아니면 정형화된 것인지를 판단한다(단계 140).
상기 문서가 특허문서인 경우에는 예를 들면, 기술(예를 들면, 발명, 고안, 제안등)에 대하여 현장 작성자에 의해 작성된 비 정형화된 구조를 가진 신청서와 특허를 받기 위하여 요구되는 특허기재요건에 부합되게 작성된 정형화된 구조를 가진 문서, 예를 들면, 출원서(출원서에 첨부된 명세서)로 분류될 수 있다.
상기 출원서는 특허출원전단계 또는 특허출원단계의 정형화된 구조를 가진 것은 물론 특허출원공개, 공고, 등록 및 등록후 단계의 정형화된 것을 포함한다.
상기 신청서는 특허요건으로 하고 있는 기재방식으로 기재되지 않은 문서로서 일반적으로 핵심단락의 누락과 분산, 낮은 가독성등을 갖는다.
상기 입력된 문서가 비정형화된 것(신청서)인 경우에는 비정형화된 문서(신청서)를 패턴탐색하여 상기와 같이 설정된 패턴을 추출한다(단계 150).
예를 들면, 특허문서인 경우에는 신청서의 기재내용중에서 상기한 발명의 이용분야에 대한 패턴, 발명의 목적에 대한 패턴 및 발명의 효과에 대한 패턴을 추출한다.
다음에, 상기와 같이 추출된 패턴을 바탕으로 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 문서를 요약한다(단계 160, 단계 200).
한편, 상기 입력된 문서가 정형화된 것(출원서)인 경우에는 문서구조화 후 상기에서 구분된 단락구분기준에 따라 핵심단락과 부가단락으로 구분한다(단계 170).
즉, 상기와 같이 설정되어 있는 핵심단락과 부가단락의 각각에 대한 할당 패턴기준에 따라 정형화된 문서(출원서)의 기재내용을 핵심단락과 부가단락으로 구분한다.
예를 들어 문서가 특허문서인 경우에는 상기 출원서의 기재내용중 발명의 이용분야, 목적, 효과에 관한 기재에 대해서는 핵심단락으로, 그리고 종래기술 및 문제점, 구성, 작용, 청구범위등에 관한 기재에 대해서는 부가단락으로 구분하는 것이 바람직하다.
다음에, 상기와 같이 구분된 핵심단락에서 미리 정형화된 패턴과 동일 또는 유사한 패턴의 유무를 판단한다. (단계 180)
상기 핵심단락에 패턴이 있는 경우에는 패턴을 추출한다(단계 190).
예를 들어, 특허문서의 경우에는 상기와 같이 구분된 핵심단락에서 이용분야, 목적, 효과에 관한 패턴들을 추출한다.
상기와 같이 추출된 패턴 및 부가단락에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 중요한 문장을 추출하고, 추출된 패턴에서의 중요한 문장 및 부가단락에서의 중요한 문장을 이용하여 문서를 요약한다(단계 160 및 단계 200).
만약, 상기 핵심단락에 미리 정형화된 패턴과 동일 또는 유사한 패턴이 없는 경우에는 핵심단락 및 부가단락에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 중요한 문장을 추출하고, 추출된 핵심단락에서의 중요한 문장 및 부가단락에서의 중요한 문장을 이용하여 문서를 요약한다(단계 160 및 단계 200).
이하, 상기와 같이 추출된 패턴, 패턴이 없는 핵심단락, 및 부가단락에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 중요한 문장을 추출하고, 이들을 이용하여 문서를 요약하는 방법의 일례에 대하여 설명한다.
상기와 같이 추출된 패턴, 패턴이 없는 핵심단락 및 부가단락에서 덜 중요한 문장을 제거하여 문서를 요약하기 위해서는 문서를 이루는 단위(문장 혹은 단락)들간의 수사 구조적인 정보를 이용하거나 문장레벨의 단락분할, 그리고 단락레벨에서 정보검색 방법론을 도입한 단어공기정보(word co-occurrence)등을 이용하는 것이 바람직하다.
먼저, 수사 구조적인 정보를 이용하기 위하여 단락에서 등위접속사(그리고, 그러나, 혹은, 그런데...), 중위접속사(그래서, 이므로, 하기 위해..), 전환관계의 접속사(근데, 반면, 한편, 반대로, 반면에..)를 이용하여 상대적인 중요도에 따라 차별성을 부여하여 요약부분에 중요도 가중치를 가장 높게 부여하고, 병렬, 예시순으로 덜 중요한 문장을 제거해 나간다.
이때, 원하는 요약율에 따라 병렬과 예시문장은 선택적으로 수용될 수 있다.
요약-결국, 결론, 결론적으로, 요약, 간단히, 간략히, 반드시,..
병렬-그리고, 및 또, 또한, 또는, 혹, 혹은,...
예시-예를 들면, 이를테면, 예컨데, 말하자면, 예로, 실례,..
또한, 문장레벨의 단락분할은 2단계의 문장 분할을 하게 되는데, 1단계의 문장분할은 전환관계의 토픽마커를 이용하고, 2단계의 문장분할은 문장간의 유사도를 이용하여 토픽별 문서 분할과 각각의 물리적인 세그먼트를 대상으로 인접문장간의 유사도를 계산하여 중요문장을 추출한다.
이때, 토픽마커라는 것은 "근데, 반면, 한편.." 이라는 단어들로서 문장분할에 중요한 핵심정보(cue information)가 될 수 있다.
마지막으로, 단어공기 정보 접근법에 의해 핵심단어의 가중치를 재 조정함으로써 핵심문장을 추출한다.
이하, 본 발명에 부합되는 문서요약시스템를 도 2를 통하여 상세히 설명한다.
도 2에 나타난 바와 같이, 본 발명의 문서요약시스템(10)는 문서입력부(11), 문서판단부(12), 단락구분부(13), 패턴추출부(14), 문장추출부(15), 및 문서요약부(16)를 포함하여 구성된다.
상기 문서입력부(11)는 문서를 입력받을 수 있도록 구성되고, 문서판단부(12)는 상기 문서입력부(11)에 입력된 문서가 비정형화된 것(신청서)인지 아니면 정형화된 것(예를들면, 출원서)인지를 판단하도록 구성된다.
또한, 상기 단락구분부(13)는 상기 문서판단부(12)에 의해 상기 입력된 문서가 정형화된 문서(예를들면, 출원서)인 것으로 판단되는 경우에는 문서구조화 후 미리 정해진 단락구분기준에 따라 핵심단락과 부가단락으로 구분하도록 구성된다.
상기 패턴추출부(14)는 상기 단락구분부(13)에 의해 구분된 핵심단락 또는 상기 비정형화된 문서(예를 들면, 신청서)에서 미리 정형화된 패턴과 동일 또는 유사한 패턴을 추출하도록 구성된다.
상기 문장추출부(15)는 상기 패턴추출부(14)에서 추출된 패턴, 패턴이 없는 핵심단락 및 부가단락에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 중요한 문장을 추출하도록 구성된다.
상기 문서요약부(16)은 상기 문장추출부(15)에서 추출된 문장이 비정형화된 문서(예를 들면, 신청서)에서 추출된 패턴에 대하여 이루어진 경우에는 상기 문장추출부(15)에서 추출된 문장에 근거하여 문서를 요약하고, 그리고 상기 문장추출부(15)에서 추출된 문장이 정형화된 문서(예를들면, 출원서)의 핵심단락에서 추출된 패턴에 대하여 이루어진 경우에는 상기 문장추출부(15)에서 추출된 패턴 및 부가단락에서 추출된 중요한 문장에 근거하여 문서를 요약하고, 정형화된 문서(예를들면, 출원서)의 핵심단락에 패턴이 없는 경우에는 핵심단락과 부가단락에서 추출된 중요한 문장에 근거하여 문서를 요약하도록 구성된다.
상술한 바와 같이, 본 발명은 특허문서와 같은 특성화된 문서를 요약하는데적용할 수 있을 뿐만 아니라 요약효율을 높여 요약성능 및 가독율을 향상시킬 수 있는 문서 요약 방법 및 시스템를 제공할 수 있는 효과가 있는 것이다.

Claims (12)

  1. 문서를 요약하는 방법에 있어서,
    정형화된 특허문서를 대상으로 패턴탐색을 행하여 패턴구조를 미리 정형화하는 단계;
    상기와 같이 정형화된 패턴을 중요도에 따라 핵심단락과 부가단락으로 구분하는 단계;
    요약하고자 하는 문서를 입력하는 단계;
    입력된 문서가 비정형화된 것인지 아니면 정형화된 것인지를 판단하는 단계;
    상기 입력된 문서가 비정형화된 것인 경우에는 비정형화된 문서의 내용을 패턴탐색하여 미리 정형화된 패턴과 동일 또는 유사한 패턴을 추출하는 단계;
    상기와 같이 추출된 패턴에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 문서를 요약하는 단계;
    상기 입력된 문서가 정형화된 것인 경우에는 문서구조화 후 상기에서 구분된 단락구분기준에 따라 핵심단락과 부가단락으로 구분하는 단계;
    상기와 같이 구분된 핵심단락에서 미리 정형화된 패턴과 동일 또는 유사한 패턴의 유무를 판단하는 단계;
    상기 핵심단락에 패턴이 있는 경우에는 패턴을 추출하는 단계;
    상기와 같이 추출된 패턴 및 부가단락에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 중요한 문장을 추출하고, 추출된 패턴에서의 중요한 문장 및 부가단락에서의 중요한 문장을 이용하여 문서를 요약하는 단계; 및
    상기 핵심단락에 미리 정형화된 패턴과 동일 또는 유사한 패턴이 없는 경우에는 핵심단락 및 부가단락에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 중요한 문장을 추출하고, 추출된 핵심단락에서의 중요한 문장 및 부가단락에서의 중요한 문장을 이용하여 문서를 요약하는 단계를 포함하여 구성되는 문서요약방법
  2. 제1항에 있어서, 단락분할은 2 단계의 문장 분할로 이루어지고, 1 단계의 문장분할은 전환관계의 토픽마커를 이용하고, 2 단계의 문장분할은 문장간의 유사도를 이용하여 토픽별 문서 분할과 각각의 물리적인 세그먼트를 대상으로 인접문장간의 유사도를 계산하여 중요문장을 추출하도록 구성되는 것을 특징으로 하는 문서요약방법
  3. 제1항 또는 제2항에 있어서, 상기 수사 구조적인 정보에 의한 문장추출은 단락에서 등위접속사, 중위접속사, 전환관계의 접속사를 이용하여 상대적인 중요도에 따라 차별성을 부여하여 요약부분에 중요도 가중치를 가장 높게 부여하고, 병렬, 예시순으로 덜 중요한 문장을 제거해 나가는 방식으로 이루어지는 것을 특징으로 하는 문서요약방법
  4. 제1항 또는 제2항에 있어서, 단어공기 정보에 의한 핵심문장의 추출은 핵심단어의 가중치를 재 조정함으로써 행해지는 것을 특징으로 하는 문서요약방법
  5. 제3항에 있어서, 단어공기 정보에 의한 핵심문장의 추출은 핵심단어의 가중치를 재 조정함으로써 행해지는 것을 특징으로 하는 문서요약방법
  6. 제1항, 제2항 또는 제5항에 있어서, 비정형화된 문서는 특허기재요건에 부합되지 않게 작성된 문서이고, 그리고 정형화된 문서는 특허기재요건에 부합되게 작성된 문서인 것을 특징으로 하는 문서요약방법
  7. 제3항에 있어서, 비정형화된 문서는 특허기재요건에 부합되지 않게 작성된 문서이고, 그리고 정형화된 문서는 특허기재요건에 부합되게 작성된 문서인 것을 특징으로 하는 문서요약방법
  8. 제4항에 있어서, 비정형화된 문서는 특허기재요건에 부합되지 않게 작성된 문서이고, 그리고 정형화된 문서는 특허기재요건에 부합되게 작성된 문서인 것을 특징으로 하는 문서요약방법
  9. 문서를 요약하는 시스템에 있어서,
    요약하고자 하는 문서를 입력받는 문서입력부;
    상기 문서입력부에 입력된 문서가 비정형화된 것인지 아니면 정형화된 것인지를 판단하는 문서판단부:
    상기 문서판단부에 의해 상기 입력된 문서가 정형화된 것인 것으로 판단되는 경우에는 문서구조화 후 정형화된 특허문서를 대상으로 미리 정해진 단락구분기준에 따라 핵심단락과 부가단락으로 구분하는 단락구분부;
    상기 단락구분부에 의해 구분된 핵심단락 또는 상기 비정형화된 문서에서 미리 정형화된 패턴과 동일 또는 유사한 패턴을 추출하는 패턴추출부;
    상기 패턴추출부에서 추출된 패턴, 패턴이 없는 핵심단락 및 부가단락에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 중요한 문장을 추출하는 문장추출부; 및
    상기 문장추출부에서 추출된 문장이 비정형화된 문서에서 추출된 패턴에 대하여 이루어진 경우에는 상기 문장추출부에서 추출된 문장에 근거하여 문서를 요약하고, 그리고 상기 문장추출부에서 추출된 문장이 정형화된 문서의 핵심단락에서 추출된 패턴에 대하여 이루어진 경우에는 상기 문장추출부에서 추출된 패턴 및 부가단락에서 추출된 중요한 문장에 근거하여 문서를 요약하고, 정형화된 문서의 핵심단락에 패턴이 없는 경우에는 핵심단락과 부가단락에서 추출된 중요한 문장에 근거하여 문서를 요약하는 문서요약부를 포함하여 구성되는 문서요약시스템
  10. 제9항에 있어서, 비정형화된 문서는 특허기재요건에 부합되지 않게 작성된 문서이고, 그리고 정형화된 문서는 특허기재요건에 부합되게 작성된 문서인 것을 특징으로 하는 문서요약시스템
  11. 문서를 요약하는 시스템에 있어서,
    요약하고자 하는 문서를 입력받는 문서입력부;
    상기 문서입력부에 입력된 문서가 비정형화된 것인지 아니면 정형화된 것인지를 판단하는 문서판단부:
    상기 문서판단부에 의해 상기 입력된 문서가 정형화된 것인 것으로 판단되는 경우에는 문서구조화 후 정형화된 특허문서를 대상으로 미리 정해진 단락구분기준에 따라 핵심단락과 부가단락으로 구분하는 단락구분부;
    상기 단락구분부에 의해 구분된 단락이 핵심단락인지 부가단락인지를 판단하는 단락판단부;
    상기 문서판단부에 의해 상기 입력된 문서가 비정형화된 것인 것으로 판단되는 경우 또는 상기 단락구분부에 의해 구분된 단락이 단락판단부에 의해 핵심단락인 것으로 판단되는 경우에는 미리 정형화된 패턴과 동일 또는 유사한 패턴을 추출하는 패턴추출부;
    상기 패턴추출부에서 패턴추출된 문서를 바탕으로 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하는 문장추출부;
    상기 단락구분부에 의해 구분된 단락이 단락판단부에 의해 부가단락인 것으로 판단되는 경우에는 단락분할, 수사구조정보, 단어공기정보를 이용하여 문장을 추출하는 문장추출부; 및
    상기 문장추출부에서 추출된 문장이 비정형화된 문서에서 추출된 패턴에 대하여 이루어진 경우에는 상기 문장추출부에서 추출된 문장에 근거하여 문서를 요약하고, 그리고 상기 문장추출부에서 추출된 문장이 정형화된 문서에서 추출된 패턴에 대하여 이루어진 경우에는 상기 문장추출부에서 추출된 핵심단락과 상기 문장추출부에 의해 추출된 부가단락에 근거하여 문서를 요약하는 문서요약부를 포함하여 구성되는 문서요약시스템
  12. 제11항에 있어서, 비정형화된 문서는 특허기재요건에 부합되지 않게 작성된 문서이고, 그리고 정형화된 문서는 특허기재요건에 부합되게 작성된 문서인 것을 특징으로 하는 문서요약시스템
KR10-2001-0070540A 2001-11-13 2001-11-13 문서 요약 방법 및 시스템 KR100435442B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR10-2001-0070540A KR100435442B1 (ko) 2001-11-13 2001-11-13 문서 요약 방법 및 시스템
JP2002322061A JP3735336B2 (ja) 2001-11-13 2002-11-06 文書要約方法及びシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2001-0070540A KR100435442B1 (ko) 2001-11-13 2001-11-13 문서 요약 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20030039575A KR20030039575A (ko) 2003-05-22
KR100435442B1 true KR100435442B1 (ko) 2004-06-10

Family

ID=29244679

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-0070540A KR100435442B1 (ko) 2001-11-13 2001-11-13 문서 요약 방법 및 시스템

Country Status (2)

Country Link
JP (1) JP3735336B2 (ko)
KR (1) KR100435442B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101656245B1 (ko) 2015-09-09 2016-09-09 주식회사 위버플 문장 추출 방법 및 시스템
KR101685445B1 (ko) 2016-04-07 2016-12-13 주식회사 금강스틸산업 배수 트렌치용 그레이팅
KR20170030434A (ko) 2016-09-05 2017-03-17 주식회사 위버플 문장 추출 방법 및 시스템
KR20180032541A (ko) 2018-03-20 2018-03-30 주식회사 위버플 문장 추출 방법 및 시스템
KR20190121727A (ko) 2019-10-14 2019-10-28 주식회사 딥서치 문장 추출 방법 및 시스템
KR20200042767A (ko) 2018-10-16 2020-04-24 주식회사 포스코아이씨티 키워드 추출 및 요약문 생성 시스템 및 방법

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100795930B1 (ko) * 2005-10-10 2008-01-21 엔에이치엔(주) 검색용 색인 기반 질의어 추천 방법 및 그 시스템
KR100703193B1 (ko) * 2006-04-27 2007-04-09 인하대학교 산학협력단 비음수 행렬 인수분해를 이용한 문서요약 장치 및 방법
KR100785927B1 (ko) 2006-06-02 2007-12-17 삼성전자주식회사 데이터 요약 생성 방법 및 장치
KR100916645B1 (ko) * 2008-04-25 2009-09-08 한국과학기술원 공기 정보, 주요 문법 요소 및 제목 정보를 이용한 문장요약 방법
CN110110195B (zh) * 2019-05-07 2022-05-17 宜人恒业科技发展(北京)有限公司 一种杂质清除方法及装置
CN111563372B (zh) * 2020-05-11 2021-04-13 世纪金榜集团股份有限公司 一种基于教辅书籍出版的排版文档内容自查重方法
CN113704457B (zh) * 2021-07-23 2024-03-01 北京搜狗科技发展有限公司 摘要的生成方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02289060A (ja) * 1989-03-17 1990-11-29 Agency Of Ind Science & Technol 文書抄録作成装置
US5050071A (en) * 1988-11-04 1991-09-17 Harris Edward S Text retrieval method for texts created by external application programs
JPH05342326A (ja) * 1992-06-09 1993-12-24 Fuji Xerox Co Ltd 文書処理装置
JPH07129605A (ja) * 1993-09-13 1995-05-19 Toshiba Corp 文書検索装置
KR960018990A (ko) * 1994-11-18 1996-06-17 모리시다 요이치 정보요약방법, 정보요약장치, 가중화방법, 및 문자방송수신장치
KR970707499A (ko) * 1995-08-14 1997-12-01 스티븐 티. 키오핸 문서 요약 방법 및 장치(text abstraction method and apparatus)
KR20000050225A (ko) * 2000-05-29 2000-08-05 전상훈 문서 자동 요약에 의한 인터넷 정보 검색 시스템 및 방법
KR20000063488A (ko) * 2000-07-18 2000-11-06 박은일 전자화된 문서의 의미적 지식 데이터베이스 자동구축장치와 방법 및 그 기록매체

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3571408B2 (ja) * 1995-03-31 2004-09-29 株式会社日立製作所 文書加工方法および装置
JPH10254900A (ja) * 1997-03-14 1998-09-25 Omron Corp 自動文書要約装置及び方法
JPH10340265A (ja) * 1997-03-27 1998-12-22 Maruzen Kk 抄録文編集装置
JPH10301956A (ja) * 1997-04-30 1998-11-13 Ricoh Co Ltd キーセンテンス抽出方式及び抄録方式及び文書表示方式
JP3652086B2 (ja) * 1997-10-22 2005-05-25 株式会社日立製作所 速読支援装置
JP2000311167A (ja) * 1999-04-28 2000-11-07 Sharp Corp 文書処理装置及び方法並びにこれに利用される記憶媒体
JP2001101207A (ja) * 1999-09-30 2001-04-13 Oki Electric Ind Co Ltd 文書要約装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5050071A (en) * 1988-11-04 1991-09-17 Harris Edward S Text retrieval method for texts created by external application programs
JPH02289060A (ja) * 1989-03-17 1990-11-29 Agency Of Ind Science & Technol 文書抄録作成装置
JPH05342326A (ja) * 1992-06-09 1993-12-24 Fuji Xerox Co Ltd 文書処理装置
JPH07129605A (ja) * 1993-09-13 1995-05-19 Toshiba Corp 文書検索装置
KR960018990A (ko) * 1994-11-18 1996-06-17 모리시다 요이치 정보요약방법, 정보요약장치, 가중화방법, 및 문자방송수신장치
KR970707499A (ko) * 1995-08-14 1997-12-01 스티븐 티. 키오핸 문서 요약 방법 및 장치(text abstraction method and apparatus)
KR20000050225A (ko) * 2000-05-29 2000-08-05 전상훈 문서 자동 요약에 의한 인터넷 정보 검색 시스템 및 방법
KR20000063488A (ko) * 2000-07-18 2000-11-06 박은일 전자화된 문서의 의미적 지식 데이터베이스 자동구축장치와 방법 및 그 기록매체

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101656245B1 (ko) 2015-09-09 2016-09-09 주식회사 위버플 문장 추출 방법 및 시스템
US10430468B2 (en) 2015-09-09 2019-10-01 Uberple Co., Ltd. Method and system for extracting sentences
KR101685445B1 (ko) 2016-04-07 2016-12-13 주식회사 금강스틸산업 배수 트렌치용 그레이팅
KR20170030434A (ko) 2016-09-05 2017-03-17 주식회사 위버플 문장 추출 방법 및 시스템
KR20180032541A (ko) 2018-03-20 2018-03-30 주식회사 위버플 문장 추출 방법 및 시스템
KR20200042767A (ko) 2018-10-16 2020-04-24 주식회사 포스코아이씨티 키워드 추출 및 요약문 생성 시스템 및 방법
KR20190121727A (ko) 2019-10-14 2019-10-28 주식회사 딥서치 문장 추출 방법 및 시스템

Also Published As

Publication number Publication date
KR20030039575A (ko) 2003-05-22
JP2003281165A (ja) 2003-10-03
JP3735336B2 (ja) 2006-01-18

Similar Documents

Publication Publication Date Title
US8266169B2 (en) Complex queries for corpus indexing and search
US8447588B2 (en) Region-matching transducers for natural language processing
US5752051A (en) Language-independent method of generating index terms
US7720847B2 (en) Apparatus and computerised method for determining constituent words of a compound word
CN102227724B (zh) 对于音译的机器学习
Baldwin et al. Extracting the unextractable: A case study on verb-particles
US8661012B1 (en) Ensuring that a synonym for a query phrase does not drop information present in the query phrase
CN102576358B (zh) 单词对取得装置、单词对取得方法及其程序
US20100161314A1 (en) Region-Matching Transducers for Text-Characterization
US20090292698A1 (en) Method for extracting a compact representation of the topical content of an electronic text
US20090012926A1 (en) Question answering device, question answering method, and question answering program
US20050251384A1 (en) Word extraction method and system for use in word-breaking
US20070100890A1 (en) System and method of providing autocomplete recommended word which interoperate with plurality of languages
KR100435442B1 (ko) 문서 요약 방법 및 시스템
US20100161655A1 (en) System for string matching based on segmentation method and method thereof
US8170867B2 (en) System for extracting information from a natural language text
US20080243487A1 (en) Hybrid text segmentation using n-grams and lexical information
JP4737435B2 (ja) ラベル付与システム、ラベリングサービスシステム、ラベル付与方法およびラベル付与プログラム
Xu et al. Using SVM to extract acronyms from text
Chen et al. Knowledge extraction for identification of Chinese organization names
da Costa Carvalho et al. Using statistical features to find phrasal terms in text collections
KR100617317B1 (ko) 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치
Cavaglia Measuring corpus homogeneity using a range of measures for inter-document distance.
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
Li et al. Word embedding and topic modeling enhanced multiple features for content linking and argument/sentiment labeling in online forums

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130524

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20140530

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20150602

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20160527

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20170530

Year of fee payment: 14