KR100530709B1 - 텍스트요약방법및장치 - Google Patents

텍스트요약방법및장치 Download PDF

Info

Publication number
KR100530709B1
KR100530709B1 KR1019970702426A KR19970702426A KR100530709B1 KR 100530709 B1 KR100530709 B1 KR 100530709B1 KR 1019970702426 A KR1019970702426 A KR 1019970702426A KR 19970702426 A KR19970702426 A KR 19970702426A KR 100530709 B1 KR100530709 B1 KR 100530709B1
Authority
KR
South Korea
Prior art keywords
chunk
importance
text
word
chunks
Prior art date
Application number
KR1019970702426A
Other languages
English (en)
Other versions
KR970707499A (ko
Inventor
엠. 배첼더 에드워드
피토 샐러스 알.
Original Assignee
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 인터내셔널 비지네스 머신즈 코포레이션
Publication of KR970707499A publication Critical patent/KR970707499A/ko
Application granted granted Critical
Publication of KR100530709B1 publication Critical patent/KR100530709B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Coloring Foods And Improving Nutritive Qualities (AREA)
  • Breeding Of Plants And Reproduction By Means Of Culturing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Communication Control (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Telephonic Communication Services (AREA)

Abstract

텍스트 메시지 요약 시스템 및 방법은 기준 수에 기초하여 중요한 정보부의 선택 및 불필요한 메시지부의 제거를 가능하게 한다. 본 발명의 요약 시스템은 입력 메시지, 명령 세트 및 최대 메시지 길이를 제공하며, 텍스트 메시지 내에 있지만 최대 메시지 길이의 제한된 범위 내에 포함되는 중요한 모든 정보를 전달하는 메시지를 발생시키게 된다.

Description

텍스트 요약 방법 및 장치{TEXT ABSTRACTION METHOD AND APPARATUS}
본 발명은 텍스트 처리 시스템에 관한 것으로, 특히 예를 들어 라디오 페이징 시스템에 사용하는 메시지 처리 방법 및 장치에 관한 것이다.
텍스트 메시지를 처리하는 기존의 시스템이 다수 존재한다. 라디오 페이징 시스템은 하나의 특정 예이다. 라디오 페이징 시스템은 공지되어 있고 널리 사용된다. 페이징 시스템에 사용되는 하나의 특정 포맷은 텍스트 전송이다. 이들 시스템에서, 메시지를 나타내는 일련의 텍스트가 디스플레이 스크린을 통하여 시청되도록 페이징 수신기로 전송된다. 그러나, 다수의 페이징 수신기는 제한된 길이의 메시지만을 디스플레이할 수 있다는 결점을 가지고 있다. 예를 들어, 오늘날 사용중인 다수의 페이징 수신기는 240 텍스트를 초과하지 않는 텍스트의 메시지만을 디스플레이할 수 있는 것으로 제한된다. 그러므로, 사용자가 그러한 페이징 수신기로 240 텍스트를 초과하는 텍스트를 갖는 메시지의 전송을 원할 때, 전체 메시지가 디스플레이될 수 없다. 그 결과, 페이징 수신기는 메시지를 전혀 디스플레이하지 않은 채로 반응할 수 있다. 그러나, 더욱 일반적으로는 최대 길이보다 큰 메시지는 최대 길이에서 절단되어 메시지의 종단부가 잘려나갈 것이다. 용이하게 알 수 있는 바와 같이, 그러한 상황은 절단된 메시지가 독자에게 이해하기 어렵게 될 수 있고/또는 중요한 정보를 생략할 수도 있기 때문에 바람직하지 못하다.
도 1은 본 발명에 따른 텍스트 요약 시스템을 통합하고 있는 페이징 시스템의 바람직한 실시예의 블록도이다.
도 2는 본 발명의 바람직한 실시예에 따른 페이징 수신기의 블록도이다.
도 3은 본 발명의 바람직한 실시예에 따른 텍스트 요약 공정을 설명하는 플로우차트이다.
도 4(a), 도 4(b) 및 도 4(c)는 본 발명의 바람직한 실시예의 요약 공정에서 특정 세트의 명령 처리를 설명하는 플로우차트이다.
전술한 내용을 고려하면, 본 발명의 목적은 기존의 텍스트 처리 시스템에 존재하는 이들 및 다른 결점을 극복하는 데 있다.
본 발명의 다른 목적은 전송 및/또는 저장 전에 텍스트 데이타의 간결화를 제공하는 데 있다.
본 발명의 또 다른 목적은 시스템 관리자 또는 다른 권한이 있는 개인에게 유용한 명령 세트를 통해 텍스트 요약의 신축적인 제어를 제공하는 데 있다.
본 발명의 또 다른 목적은 모든 중요한 정보가 페이징 수신기에서 의도된 수상기(recipient)로 전달될 수 있도록 텍스트 메시지를 전송하는 시스템 및 방법을 제공하는 데 있다.
본 발명의 또 다른 목적은 메시지 텍스트의 요지가 소정의 최대수의 텍스트를 초과하여 메시지 텍스트를 디스플레이할 수 없는 페이징 수신기를 갖는 수상기로 전달될 수 있도록 메시지 텍스트를 요약하는 데 있다.
상기 목적 및 기타의 목적을 달성하기 위해 본 발명은 다수의 기준에 기초해서 중요한 부분의 정보를 선택하여 메시지의 불필요한 성분을 제거하는 텍스트 메시지 요약 시스템 및 방법을 제공한다. 본 발명의 요약 시스템은 입력 메시지, 명령 세트 및 최대 메시지 길이가 제공되고, 텍스트 메시지 내에 있지만 최대 메시지 길이 제한 내에 포함되는 중요한 정보의 모두를 전달하는 메시지를 발생하도록 시도된다.
본 발명의 추가의 특징, 목적 및 이점은 첨부 도면과 관련해서 이하의 실시예의 설명을 통해서 보다 명확히 이해할 수 있을 것이다.
도 1은 본 발명의 페이징 제어 시스템(50)의 블록도이다. 도 1에 도시되어 있는 바와 같은 페이징 제어 시스템(50)은 전송을 위한 텍스트 메시지를 수신하고 그 메시지를 요약하며 페이징 수신기로 시청하기 위해 요약된 메시지를 전송하는 모든 필요한 기능을 구현하고 있다. 요약된 메시지를 수신하는 페이징 수신기는 도 2에 도시되어 있고, 주어진 최대 수의 텍스트를 디스플레이하도록 제한될 수 있거나 또는 제한되지 않을 수도 있다.
이제 도 1에 도시되어 있는 페이징 제어 시스템(50)으로 되돌아가서 보면, 텍스트 메시지가 외부 입력원(10)으로부터 페이징 제어 시스템(50)으로 전송된다. 외부 입력원(10)은 페이징 시스템에 현재 사용되는 공지된 임의의 다양한 입력원을 포함할 수 있다. 예를 들어, 외부 입력원(10)은 수화기를 포함할 수 있고, 그 수화기는 전화 네트워크를 통해 페이징 제어 시스템(50)에 접속된다. 이 경우에, 메시지의 전송을 원하는 개인은 전화 키패드를 통해 예컨대 개인이 연락될 수 있는 전화 번호를 나타내는 일련의 숫자를 입력할 수 있다.
단순한 7 또는 10 개의 숫자 전화 번호를 초과하는 텍스트 메시지를 전송하기 위해서, 수화기와 다른 입력원을 사용하는 것이 일반적으로 필요하다. 240을 초과하는 텍스트를 포함하는 텍스트 메시지는 특별히 구성된 입력원에서 발생하여 페이징 수신기로 전송될 수 있다. 예를 들어, 휴대용 "단말기"가 입력원(10)으로서 제공될 수 있고, 사용자는 전송될 텍스트를 타이핑할 수 있다. 이 단말기는 페이징 제어 시스템(50)으로의 전송을 위해 페이징 수신기(110)로의 초고주파 전송을 위한 통상의 모뎀에 접속되어 있다. 선택적으로, 사용자는 호출된 메시지를 타이핑하는데 그러한 단말기를 사용하는 교환수에게 메시지를 호출할 수 있다. 교환수에 의해 타이핑된 메시지는 페이징 제어 시스템(50)에 공급되고, 결국 페이징 수신기(110)로 전송된다. 본 발명은 주로 긴 메시지(즉, "단말기"를 통해 입력한 것)의 전송에 관한 것이지만, 짧은 메시지(즉, 전화 키패드를 통해 입력된 전화 번호)의 전송을 또한 포함할 수도 있다.
도 1에서 알 수 있는 바와 같이, 페이징 제어 시스템(50)은 메모리(40)와 페이징 인터페이스 제어 유닛(70)을 추가로 포함한다. 메모리(40)는 입력원(10)으로부터 수신된 텍스트 메시지를 저장한다. 페이징 인터페이스 제어 유닛(70)은 페이징 제어 시스템(50)의 전체 동작을 제어하기 위해 텍스트 요약기(90), 명령 단말기(45), 메모리(40) 및 RF 송신 유닛(80)과 통신한다. 텍스트 요약기(90)는 메시지 텍스트가 임의의 중요한 정보의 손실없이 페이징 수신기(110)에 의해 가해진 길이 제한 내에서 전송될 수 있도록 입력원(10)으로부터 수신된 메시지 텍스트를 처리하는 기능을 한다. 텍스트 요약기(90)의 기능은 이하에서 상세히 논의된다. 이하에서 다시 논의되어지는 바와 같이, 버퍼(25)는 텍스트 요약기(90)에 의해 처리된 결과, 즉 요약된 텍스트를 포함한다. 버퍼(25) 및 메모리(40)가 동일한 메모리를 포함하는 것이 가능하다. RF 송신 유닛(80)은 버퍼(25)로부터 요약된 텍스트를 판독하고 요약된 텍스트 메시지를 페이징 수신기(110)로 전송한다. 전송하기 전에, RF 송신 유닛(80)은 당업계에 잘 공지되어 있는 다양한 기술을 사용하여 상기 요약된 메시지 데이타를 추가로 코딩 또는 처리할 수 있다. 명령 단말기(45)는 텍스트 요약기(90)의 동작을 제어하는 데 필요한 명령을 포함하는 다양한 명령의 입력이 또한 제공된다.
본 발명은 도 1에 도시되어 있는 페이징 제어 시스템의 특정 구조로 특히 제한되지 않는다는 것을 주의하라. 페이징 제어 시스템의 선택 실시예의 예로서, 페이징 제어 시스템이 국소 지역 네트워크에 포함되는 응용을 포함하는 것이 가능하며, 그것에 의해 사용자들이 그러한 국소 지역 네트워크 상의 그들의 각 어드레스에서 전자 우편을 수신할 수 있다. 이 경우에, 전자 우편은 본 발명의 기술에 따라 요약될 수 있고, 그 후 상기 네트워크를 통해 상기 네트워크의 외부 또는 내부 중 하나의 RF 송신 유닛으로 자동으로 경로 설정된다. 이것은 예컨대 사용자가 상기 네트워크로부터 벗어나 있을 때 인터넷 메시지가 사용자에게 자신의 페이저에 자동으로 전송되게 한다. 당업자는 본 발명이 페이저와 다른 장치에 또한 적용할 수 있다는 것을 이해할 수 있을 것이다. 명백하게 알 수 있는 바와 같이, 본 발명은 간결화된 형태로 텍스트를 전송 또는 저장할 필요가 있을 때마다 사용될 수 있다.
도 2는 본 발명에서 설명되는 페이징 제어 시스템에 사용될 수 있는 페이저를 도시한다. 페이저 제어기(140)는 라디오 페이징 수신기(110)의 전체 동작을 제어하기 위해 제공된다. 페이저 제어기(140)는 인텔사(Intel Corporation)에 의해 제조된 i486TM 마이크로프로세서 중 어느 하나와 같은 "규격품(off-the-shelf)" 마이크로프로세서를 포함할 수 있다. 라디오 페이징 수신기(110)는 바람직하게는 페이저 디스플레이 스크린(160)을 통합하고 있는 표준 라디오 페이징 수신기를 포함한다. 페이저 디스플레이 스크린(160)은 일반적으로 텍스트 정보를 디스플레이할 수 있는 액정 디스플레이(LCD)이다. 라디오 페이징 수신기(110)는 텍스트 정보를 포함하는 라디오 방송(RF) 페이징 신호를 수신할 수 있다. 페이징 제어 시스템(50)에 의해 전송되는 텍스트 정보는 당업계에 잘 공지되어 있는 다양한 포맷 및/또는 코딩 구조로 나타낼 수 있다. 라디오 페이징 수신기(110)에 의해 수신되는 바와 같은 텍스트 정보의 형태는 라디오 페이징 수신기(110)가 본 발명에 따라 처리하는 임의의 형태의 RF 신호를 수신할 수 있는 바와 같이 본 발명에서 중요하지 않다. 상기 RF 페이징 신호는 라디오 페이징 수신기(110)와 결합된 외부 또는 내부 안테나에 접속될 수 있는 RF 수신기(130)에 의해 수신된다. 이 RF 페이징 신호가 수신되면, 상기 페이징 신호는 필요하다면 디코더(120)에 의해 예컨대 ASCII 일반 텍스트 데이타로 디코딩되어 메시지 RAM(190)에 일시적으로 저장된다. 선택적으로, 디코더는 디스플레이 드라이버(170)에 의해 인식 가능하며, 디스플레이 드라이버(170)에 의해 페이저 디스플레이 스크린(160) 상에 디스플레이될 수 있는 임의의 형태로 페이징 메시지를 배열하는 데 사용할 수 있다.
페이징 제어 시스템(50) 내에 포함되는 텍스트 요약기(90)의 기능은 도 3과 관련하여 이하에서 보다 상세히 설명한다. 넓은 관점에서, 텍스트 요약기(90)는 입력으로서 텍스트 메시지 또는 요약할 메시지들과, 그 요약이 실행되는 방법과 요약된 텍스트에 허용가능한 최대 길이를 나타내는 명령의 세트를 수신한다. 아래의 설명은 요약 및 전송될 메시지가 전자 우편 메시지라는 것을 가정한다. 그러나, 본 발명의 상기 텍스트 요약기의 기능은 상기한 가정으로 제한되는 것은 아니다. 상기 텍스트 요약기는 예컨대 서류, 편지, 책, 기사 또는 팩시밀리와 같은 임의의 형태의 텍스트 정보를 처리할 수 있다.
요약 공정의 제1 단계는 상기 텍스트 메시지를 "청크(chunk)"로 분석하는 것이다. 워드 또는 절과 같은 다른 형태의 청크가 사용될 수 있지만 청크의 가장 일반적이고 바람직한 형태는 문장이다. 각각의 청크는 MAIL HEADER, TEXT 또는 PUNCTUATION의 3 가지 형태 중 하나로 명칭이 부여된다. 전자 우편과 다른 메시지의 문맥에서, 이들 형태는 텍스트 정보의 형태에 적절한 것으로서 상이할 수 있다. 그럼에도 불구하고, 전자 우편 환경에서, MAIL HEADER 형태는 SIGNIFICANT 또는 INSIGNIFICANT로 추가로 분류된다. 그러한 추가의 분류는 "부형태(subtype)"로의 분류로 칭해진다. TEXT 형태는 하나의 절 내의 위치에 따라 부형태-FIRST, LAST, ONLY, 또는 OTHER 중 하나로 추가로 분류된다. 그러므로, 예컨대 단일 문장(청크)이 하나의 절을 형성하면, 문장(청크)은 TEXT 형태 및 ONLY 부형태로 명칭이 부여될 것이다. 문장(청크)이 복수 문장(청크)을 포함하는 하나의 절의 제1 문장이라면, 그 문장은 TEXT 형태 및 FIRST 부형태로 명칭이 부여될 것이다. PUNCTUATION 청크들은 텍스트들 또는 숫자들을 포함하지 않는 것이다. 바람직한 실시예에서 PUNCTUATION 형태에 대한 부형태는 없다.
MAIL HEADER 형태는 바람직하게 외부 파일로부터 판독되는 "제목(Subject)", "로부터(From)", "에게(To)" 등과 같은 우편 헤더 명칭의 리스트를 통해 텍스트 요약기(90)에 의해 인식된다. 이러한 외부 파일은 사용자 또는 관리자에 의해 특정된 바와 같은 MAIL HEADER 데이타를 배열하는데 바람직한 임의의 키 워드를 포함하도록 설정될 수 있다. 바람직한 실시예에서, 이 파일은 헤더.txt로 칭해진다. 별표(또는 임의의 다른 표시 텍스트)가 후속하는 헤더.txt 파일 내의 워드들은 명백한 헤더 및 트리거 MAIL HEADER SIGNIFICANT 부형태 분류를 고려한다.
본 발명의 바람직한 실시예에서, 텍스트 요약기(90)는 MAIL HEADER의 "제목" 라인에 포함된 워드가 상기 헤더.txt 파일에 의해 결정되는 바와 같이 달리 INSIGNIFICANT로 될 것인지의 여부와 관계없이 SIGNIFICANT라는 것을 가정하는 기능을 한다. 이와 같은 방식으로 메시지의 수신은 MAIL HEADER 내에 포함된 전체 서브젝트 라인을 수신할 수 있게 된다. 더욱이, 시스템은 INSIGNIFICANT인 header.txt 파일에 명칭이 나타나는지에 상관없이 수신기의 명칭("TO:" 식별자 이후 특정되는)이 중요한 것으로 고려될 수 있음을 가정하도록 설계될 수도 있다(또는 사용자 또는 관리자에 의해 구성될 수도 있다). 더욱이, 시스템은 MAIL HEADER 에 또는 TEXT부에 있든 어떻든간에 숫자(및 시간과 날짜)가 중요한 것으로 가정하여 설정될 수도 있다. 당업자라면 쉽게 이해할 수 있는 다양한 조합이 SIGNIFICANT 또는 INSIGNIFICANT 중 하나인 특정 텍스트 순서(예컨대, 워드와 숫자)를 집행하도록 선택될 수도 있다.
본 발명의 바람직한 실시예에서 텍스트 요약기(90)는 단일 서류내의 복수의 MAIL HEADERS가 규정된 기준에 따라 처리되도록 동작할 수 있다. 이러한 동작은 수신기가 최초의 발송자에게 응답할 때 또는 메시지가 제3 부로 진행될 때 "replied-to" 우편에서 발생하는 것이 일반적이다. 많은 현재의 전자 우편 환경에서는 응답 또는 전방 메시지 내에 본래의 메시지(본래의 MAIL HEADER)를 포함하는 것이 가능하다. 이러한 경우 복수의 MAIL HEADER는 단일 서류로 나타낼 수 있다. 텍스트 요약기(90)는 제1 MAIL HEADER의 범위를 초과하는 임의의 MAIL HEADER 내의 모든 정보를 무시하도록 구성될 수도 있다. 따라서, 제1 메일 메시지의 범위를 초과하는 우편 메시지의 모든 정보(즉, 워드, 숫자 및 텍스트)는 중요하지 않은 것으로 취급될 수 있다.
선택적으로, 텍스트 요약기(90)는 메시지(즉, "TO:" party)를 수신하는 파티의 명칭(들)을 판정하기 위해 제1 MAIL HEADER를 분석할 수도 있다. 이어서 텍스트 요약기(90)는 중요하지 않은 "To:" 파티의 명칭(그리고 후속하는 TEXT)을 포함하는 MAIL HEADERS 내의 모든 장래의 워드를 분류하도록 동작할 수도 있다. 이러한 동작은 현재 요약된 메시지의 수신이 제2 MAIL HEADER 내에 나타나는 메시지의 명칭에 의해 이전 메시지(발송자 또는 수신자)를 사전에 볼수도 있다는 가정에 기초한 것이다. 선택적인 여러 실시예에서 "from" 파티는 이어지는 워드가 중요하지 않은 것인지 또는 제2 MAIL HEADER 내의 "from" 또는 "to" 파티 중 어느 하나의 존재가 MAIL HEADER 및/또는 이것에 후속하는 TEXT가 중요하지 않은 것임을 판정하기 위해 사용될 수도 있는 표시를 트리거하는 명칭일 수도 있다. 중요하지 않은 워드의 처리를 이하에서 논의한다.
다시 상기한 공정으로 돌아가면, 일단 메시지가 청크 형태로 쪼개지고 이러한 청크가 형태와 부형태에 따라 명칭이 부여되었다면, 텍스트 요약기(90)는 여기에 제공된 명령을 연속적으로 실행한다. 명령들은 텍스트 요약기(90)에 대화식으로 공급될 수도 있고, 배치 형태로 수행하기 위해 파일 내에 포함될 수도 있다. 명령들은 여백으로 분리된 단일 워드로 구성될 수 있다. 파라미터의 할당부에는 동일한 기호에 의해 분리된 명칭과 값으로 구성된다. 예를 들어 명령 ChunkBegin = A*는 값 A*를 스트링 파라미터 ChunkBegin에 지정하는 단일 명령을 나타낸다. 바람직한 실시예에서 모든 명령과 파라미터명은 비록 파라미터값이 그렇지 않더라도 대소문자 구별 없이(case-insensitive) 사용된다. 부울(Boolean) 파라미터는 소정의 값, 즉 "참(true)", "거짓(false)", "예(yes)", "아니오(no)", "0", 또는 "1" 이 될 수 있다. 부울 파라미터가 값이 주어지지 않고 명칭된다면, 이것은 파라미터가 참으로 설정되는 것과 동일하다.
일단 모든 명령이 실행되거나 또는 지금까지 처리된 바와 같이 메시지가 최대 길이 제한에 맞춰지는 것으로 판정되면(이후 논의되는 TRYFIT 명령), 요약된 텍스트는 버퍼(25)에 기록된다. 초기에 스트링 파라미터 ChunkBegin의 값은 버퍼(25)에 기입된다. ChunkBegin 파라미터는 버퍼(25)에 나타나는 것처럼 청크의 시작을 나타낸다. 바람직한 실시예에서 ChunkBegin 파라미터는 텍스트 요약기(90)에 공급되는 명령 순서로 변경될 수도 있고, 따라서 메시지 수신기는 얼마나 많이 그리고 어떤 형태의 요약이 최초의 서류 상에서 수행되었는지를 나타내는 표시를 가진다. 청크가 처리되어 출력 준비가 되었다고 판정될 때 각각의 청크는 각각 2 개의 청크 사이에 기입된 스트링 파라미터 ChunkSep의 값을 가지고 버퍼(25)에 기입된다. 바람직한 실시예에서 ChunkSep 텍스트는 스페이스(" ")로 설정된다. 이와 달리, 기타 텍스트가 사용될 수 있고/또는 값이 사용자에 의해 설정될 수도 있다. 결국 모든 청크가 버퍼(25)에 기록된 후에 스트링 파라미터 ChunkEnd의 값이 기입된다. ChunkEnd 파라미터는 버퍼(25)에 나타난 바와 같이 메시지의 끝을 나타낸다.
바람직한 실시예에서 ChunkBegin과 ChunkEnd의 디폴트값은 둘다 모두 빈 열(string)이다. ChunkSep의 디폴트값은 단일의 스페이스이다. 어떠한 스트링값도 명령을 사용하여 이들 값으로 할당될 수 있지만, 그 값은 여백에 의해 범위가 정해지기 때문에 스트링은 여백을 포함할 수 없다. ChunkSep 스트링 파라미터가 특별히 취급되고: 값 "space", "if" 및 "crlf"가 각각 단일 스페이스, 라인피드, 또는 캐리지 리턴 라인피드 쌍을 나타내기 위해 사용될 수 있다.
전술한 바와 같이, 텍스트 요약기(90)는 명령 단말기(45)를 통해 또는 배치 파일을 통해 대화식으로 제공되는 명령의 목록에 따라 작용한다. 본 발명의 특징은 텍스트 요약기(90)의 동작시 이용할 수 있는 각각의 명령의 설명을 통해 당업자에게는 명백히 이해될 수 있을 것이다. 본 발명의 바람직한 실시예에서 이용할 수 있는 명령의 목록과 설명은 이하에서 개시한다.
명령 : TEXTONLY
이 명령은 서류로부터 모든 비텍스트(non-TEXT) 청크를 삭제한다. 그 결과, 메시지 상의 텍스트 요약기(90)에 의해 수행되는 모든 연속적 동작은 나머지 TEXT 청크에 대해서만 실행된다.
명령 : COUNTWORDS
서류 내의 워드는 말미(tail)가 있고, 각 워드의 유의값이 결정된다. 워드의 유의값은 후술하는 바와 같이 여러 요인에 좌우된다.
명령 : SAVE
이 명령은 텍스트 요약기(90)의 현재 상태를 세이브하기 위해 사용될 수 있다. 세이브되는 정보는 요약되는(즉, 서류) 전체 텍스트 정보를 포함하고, 현재 선택된 모든 파라미터의 값과 텍스트의 워드의 계수도 포함한다. 더욱이 STOP 및/또는 SIGNIFICANT 워드를 나타내는 사전이 세이브될 수도 있다. 정보는 소정 포맷의 스택에 밀어넣음으로써 세이브된다. 세이브된 상태 정보는 이하의 RESTORE 명령을 이용하여 재저장될 수도 있다.
명령 : RESTORE
이 명령은 텍스트 요약기(90)의 현재 상태를 폐기시키는 작용을 하며, 스택의 정점으로부터의 세이브된 상태를 재저장한다. 바람직한 실시예에서 RESTORE 명령이 활성화될 때 스택이 팝(pop)된다. 따라서, 세이브된 상태는 일회 RESTORED 된 상태가 즉시 다시 세이브될 수 있다고 하더라도 단지 1 회 만이 세이브될 수 있다. 스택이 비어있다면, RESTORE 명령은 아무런 영향력도 주지 못할 것이다.
명령 : TRYFIT
이러한 명령은 지금까지 처리된 바와 같이 서류가 최대 할당된 공간에 적합하게 될 것 인지를 판정한다. 만약 서류가 적합하게 된다면 완전한 서류가 출력 버퍼(25)에 기입될 수 있다. 이러한 관점에서 모든 나머지 명령이 무시된다. 더욱이 요약된 텍스트는 일단 출력 버퍼(25)에 대체되어왔다면 RF 송신 유닛(80)에 의해 전송될 수도 있다.
서류가 최대 할당 공간에 적합하게 될 것인지를 판정할 때, TRYFIT는 ChunkBegin, ChunkSep 및 ChunkEnd 열을 고려한다. 따라서 이러한 예에서 페이저 메모리는 80 개의 텍스트를 포함하며 출력 버퍼(25)에 기입한다. 전송됨에 따라 메시지는 ChunkBegin, ChunkSep 및 ChunkEnd 열을 포함하기 때문에 이러한 열에 결합된 실제 텍스트는 80 개의 텍스트를 초과하지 않도록 할 필요가 있다. 따라서, 예를 들어 요약된 메시지가 하나의 ChunkBegin 열과 5 개의 ChunkSep 열을 포함하고 이들 각각의 열은 단일 텍스트이며, 74 개의 스페이스만이 실제 메시지 텍스트에 대해 남겨질 것이다. 이러한 경우 TRYFIT 명령은 74 개의 텍스트로 텍스트를 제한할 것이다.
명령 : ABBREV
이 명령은 서류의 텍스트를 간략화하기 위해 사용된다. 처리는 이후 논의되는 5 개의 파라미터에 의해 제어된다.
명령 : SORTCHUNKS
이 명령이 실행되면, 텍스트의 청크는 그 중요성에 따라 정렬된다. 청크의 중요성은 청크의 워드의 중요성을 포함하는 요소의 수와, 청크 내의 워드의 수와, 청크의 형태 및 위치에 따른 것이다. 이러한 명령의 동작이 후술된다.
명령 : NOSTOPLIST
이 명령은 사용자 또는 관리자에 의해 특정됨에 따라 항상 INSIGNIFICANT인 워드를 포함하는 STOP 목록의 사용을 무력화시킨다. 이러한 워드는 후술하는 바와 같이 중요한 산출을 배제한다. STOP 목록에 포함된 워드의 예로는 "the", "and", "of" 등이 있다. STOP 목록은 STOP 워드의 프리한 형태의 목록을 포함하는 파일(stoplist.txt 라고 하는 것이 바람직한)로부터 판독된다.
명령 : NOSIGLIST
이 명령은 SIGNIFICANT로 항상 고려되는 워드를 포함하는 SIGNIFICANT 워드 목록의 사용을 무력화시킨다. 이러한 워드의 예에는 "urgent", "important" 및 "priority"가 있다. 디폴트에 의해 주요 산출 동안에는 이러한 워드의 중요함을 증대하기 위해 SIGNIFICANT 워드 목록이 사용된다. SIGNIFICANT 워드 목록은 사용자 또는 관리자에 의해 선택된 SIGNIFICANT 워드의 프리 형태의 목록인 파일명 siglist.txt에 포함되는 것이 바람직하다.
상기 명령과 함께 텍스트 요약기(90)의 동작이 본 발명의 바람직한 실시예에 따라 설명된다.
전술한 바와 같이, 서류는 먼저 이 서류를 청크 형태로 분할함으로써 처리된다. 일단 청크 형태로 분할되면, COUNTWORDS 명령이 실행된다. 워드를 나타낼 수 있는 6 개의 청크 형태/부형태의 조합은 다음과 같다.
1)MAIL HEADER/SIGNIFICANT
2)MAIL HEADER/INSIGNIFICANT
3)TEXT/FIRST
4)TEXT/LAST
5)TEXT/ONLY
6)TEXT/OTHER
이들은 PUNCTUATION 청크 유형만 제외하고는 모두 청크 형태 및 부형태를 나타낸다. 따라서, COUNTWORDS 명령은 6 개의 청크 형태/부형태 조합 이상의 어떠한 조합을 가지는 청크를 분석한다. 바람직한 실시예에서 TEXTONLY 명령이 포함되고 따라서 모든 PUNCTUATION 데이타가 즉시 버려진다. 청크가 COUNTWORDS 명령에 따라 분석됨에 따라 텍스트에 나타나는 각각의 워드에 대한 중요성이 판정된다. 후술하는 바와 같이 이러한 판정은 전송에 앞서 메시지로부터 특정 워드를 제거할 뿐만아니라 청크의 재배열 모두에 대해서도 필요하다.
워드의 중요성은 6 개의 파라미터에 따라 결정된다. 6개의 파라미터는 다음과 같다.
1)cw-FirstInPar;
2)cw-LastInPar;
3)cw-OnlyInPar;
4)cw-OtherInPar;
5)cw-Header;
6)cw-SigHeader.
파라미터의 각각은 이러한 값이 비록 사용자 및/또는 관리자에 의해 수정될 수 있다고 하더라도 디폴트 값으로 지정된다. 바람직한 실시예에서는 다음의 디폴트값이 사용된다.
cw-FirstInPar = 2;
cw-LastInPar = 2;
cw-OnlyInPar = 2;
cw-OtherInPar = 1;
cw-Header = 0;
cw-SigHeader = 3.
특정 워드가 상기 파라미터중 하나에 대응하는 위치에 나타나는 임의의 시간에서도, 지정한 파라미터값에 근거하는 워드는 "포인트"가 있다고 여겨진다. 예를들면, 워드 "FOOTBALL"이 청크에 나타나는 임의의 시간은 문단에서의 최초 청크(FirstInPar)이고, 워드 "FOOTBALL"은 2 포인트(상기 디폴트값을 가정하여)가 부여될 것이다. 워드 "FOOTBALL"의 각각의 추가의 발생은 다른 청크에서 워드의 위치를 근거로 한 일부 추가적인 포인트를 발생시킬 것이다. cw-OtherInPar 파라미터는 TEXT 청크에서 발생하는 문단의 최초 문장도 최종 문장도 아닌 워드에 대응한다. cw-OnlyInPar 파라미터는 특정 문단의 문장만을 형성하는 청크에서 발생하는 워드에 대응한다. cw-Header 파라미터는 MAIL HEADER/INSIGNIFICANT 청크에서 발생하는 워드에 대응한다. 마지막으로, cw-SigHeader는 MAIL HEADER/SIGNIFICANT 청크에서 생기는 워드에 대응한다.
이러한 파라미터에 기초한 워드용의 모든 포인트가 일단 가산되면, 그 합계는 cw-MinPoints와 비교된다. 바람직한 실시예에서, cw-MinPoints의 디폴트값이 사용자 혹은 관리자에 의해 수정될 수 있거나 또는 일부 다른 값으로 디폴트될 수 있다고 해도 이 값은 3 이다. 워드가 cw-MinPoints 한계치에 도달하지 못하는 경우에는 워드의 중요도가 cw-InfreqSig의 값에 지정된다. 바람직한 실시예에서, cw-InfreqSig의 디폴트값이 사용자 또는 관리자에 의해 수정될 수 있거나 일부 다른 값으로 디폴트될 수 있다 할지라도 이 값은 0 이다. 포인트의 최소 갯수가 한계치에 도달되면, 이 최소치를 초과한 포인트 수는 cw-Factor에 곱해지고, 그 결과치는 cw-BaseValue에 더해진다. 바람직한 실시예에서, cw-Factor의 디폴트값 및 cw-BaseValue의 디폴트값이 사용자 또는 관리자에 의해 변경될 수 있거나 일부 다른 값으로 디폴트될 수 있다 할지라도 cw-Factor의 디폴트값은 1이고 cw-BaseValue = 0이다. 상기 계산에 근거된 결과값은 그 워드에 중요도를 부여한다.
특정 워드가 STOP 목록(항상 INSIGNIFICANT)에 있는 경우, 상기 처리는 NOSTOPLIST 명령이 유효인 한은 그 워드에 대하여 발생하지 않는다. NOSTOPLIST 명령이 유효하지 않고 워드가 STOP 목록에 포함된 경우에는 이 워드는 cw-StopSig의 중요도 값에 즉시 지정된다. cw-StopSig에 대한 디폴트값은 제로가 바람직하다.
ABBREV 명령이 다음에 논의된다. 전술한 바와 같이, 이 명령은 서류의 텍스트가 버퍼(25)에 배치되기 전에 간략화될 수 있다. 이 처리는 5 개의 파라미터에 의해 제어된다. 제1 파라미터는 ab-UseDict이다. 이 파라미터가 참(디폴트)이면, 약어 테이블은 소위 abbrev.txt 라는 파일로부터 적절히 판독된다. 이 약어 테이블에 나타난 서류의 어떠한 워드도 이 테이블에 포함된 대응 약어로 대체된다. 바람직한 실시예에서, abbrev.txt의 각 라인은 2 개의 워드를 포함하고 있다. 제1 워드는 원래 워드이고, 제2 워드는 원래 워드의 대응 약어이다. 바람직한 실시예에서, 이 대체가 사용된 경우에 텍스트 요약기(90)는 대체 워드의 격을 원래의 단축되지 않은 워드의 격과 일치시킬 것이다.
ABBREV 기능의 또 하나의 바람직한 특징은 구(phases)를 단축시키는 능력(즉, 하나 이상의 워드를 단일 약어로 맵핑하는 것)이다. 예를 들면, "New York" 등의 다수의 구들이 "NY"의 약어에 대응하는 abbrev.txt 파일에 포함될 수 있다.
제2 파라미터는 ab-DropVowels이다. 이 파라미터가 참인 경우(NOT 디폴트)에는 abbrev.txt 에 약어로 지정되지 않은 어떠한 워드라도 그 워드에서 모음을 모두 제거함으로써 요약된 메시지로 단축된다. 제3 파라미터는 ab-DropFirstVowels이다. 이 파라미터가 참(NOT 디폴트)이면, 모음이 워드의 처음 텍스트인 경우에도 모음이 생략되고, 그렇지 않으면 계속 유지된다.
제4 파라미터는 ab-TrimWhite이다. 이 파라미터가 참(디폴트)이면 다중 화이트 공간 특성은 단일 공간으로 대체된다. 마지막으로, 최종 파라미터는 ab-TrimPunct이다. 이 파라미터가 참(NOT 디폴트)이면 모든 화이트 공간은 어느 구두점(puntuation) 주위에서도 제거된다.
다음에 논의되는 명령은 SORTCHUNKS 명령이다. 전술한 바와 같이, 바람직한 실시예에서 청크들은 그 중요도에 따라 원래의 서류와 비교하여 요약된 서류에서 재정리된다. 바람직한 실시예에서, 이 요약된 서류는 가장 중요한 청크가 맨처음이 되도록 정해진다. 한 청크의 중요도는 그 청크에 포함된 워드들의 전체 중요도, 그 청크 내의 워드의 수 및 그 청크의 타입과 서브타입에 의해 결정된다. 한 청크가 sc-Minlength 보다 워드를 적게 가지면 그 청크의 중요도는 sc-ShortSig에 설정된다. sc-MinLength에 대해 바람직한 디폴트값은 4이고, sc-ShortSig에 대해 바람직한 디폴트값은 0이다.
청크가 sc-MinLength 한계치에 다다른다고 가정하면, 그 중요도는 기본 중요도 값으로 시작하여 결정된다. 이 기본 중요도값 지정은 청크 위치에 의해 결정된다. 파라미터 sc-FirstInPar은 문단의 최초 문장인 청크를 나타내고, 파라미터 sc-LastInPar은 문단의 최종 문장인 청크를 나타내며, 파라미터 sc-OnlyInPar은 문단의 오직 한 문장인 청크를 나타내고, 파라미터 sc-OtherInPar은 문단의 "중간" 문장인 청크를 나타낸다. 이 파라미터들의 각각에 대한 디폴트값은 다음과 같다:
sc-FirstInPar = 0;
sc-LastInPar = 0;
sc-OnlyInPar = 0; 및
sc-OtherInPar = 0.
추가로, COUNTWORDS 명령이 이미 실행되었다면, 청크에 포함된 워드들의 중요도는 청크에 대한 기본 중요도 값에 총계되고 합산되어 청크에 대한 전체 중요도 값을 얻게 된다. 각각의 청크는 중요도 순서로 출력 버퍼(25)에 이동된다.
요약 처리에 요망될 수 있는 또 하나의 특징은 완전한 워드에서 특정 워드를 생략하는(OMIT WORDS) 능력이다. 이러한 경우에 파일에 포함된 OMIT WORDS(예컨대, omitwds.txt)는 한편으로는 출력 버퍼(25)에 설치되기에 충분히 중요한 청크에 포함된 경우 조차도 요약된 텍스트에는 절대 나타나지 않는다. 이러한 OMIT WORDS를 생략함으로써 출력 버퍼(25)에 한편으로 출력 버퍼를 만들지 못하는 덜 중요한 청크를 위한 추가적인 공간이 제공될 수 있다.
텍스트 요약기(90)에서 실현될 수 있는 추가적인 특징은 삽입구를 수반하는 것이다. 이러한 구들은 삽입구가 포함된 청크에 대해 집합적인 값을 결정함으로써 다루어질 수 있다. 이것은 전술한 바와 같이 삽입구 내에 워드를 포함하는 청크에 포함된 모든 워드의 전체 중요도를 결정함으로써 달성된다. 이어서, 삽입구 내에서 워드를 포함하지 않는 청크의 전체 중요도가 결정된다. 한계 차이값이 지정되고 각각의 중요도에서의 차이가 그 한계값보다 작으면, 많은 차이가 없으므로 인해 삽입구가 요약된 텍스트에서 생략될 수 있다. 반대로, 중요도의 차이가 그 한계값보다 크거나 같으면 삽입구는 유지된다.
도 4(a), 도 4(b) 및 도 4(c)를 참조하면, 명령의 실시예의 세트가 제시되고 그 명령의 세트에 기초한 텍스트 요약기에 의해 수행되는 처리가 설명된다.
textonly
tryfit
ab-trimwhite=true
ab-trimpunct=true
save
chunkbegin=a*
abbrev tryfit
restore
chunkbegin=s*
chunksep=|
countwords
sortchunks
abbrev
TEXTONLY 명령은 메일 헤더 및 구두점 라인 전부를 제거하는데 사용된다. 이 명령이 완료되면 TRYFIT 명령은 서류가 충분히 짧은지의 여부를 결정한다. 서류가 메일 헤더로 이미 충분히 짧은지; 그 길이가 메일 헤더가 제거된 후에까지 체크되지 않는지는 문제가 되지 않는다는 사실에 유의해야 한다. 다음에, ab-trimwhite 및 ab-trimpunct 파라미터는 나중의 ABBREV 명령에 대비하여 참으로 설정된다.
SAVE 명령은 항상 모든 상태 정보를 이후의 RESTORE 시까지 저장한다. 이 명령은 청크가 중요도에 기초하여 재배치되기 전에 서류를 단축시키도록 요구되기 때문에 이 때 사용된다. SAVE 및 RESTORE 명령은 서류를 단축시킬 수는 있지만 단축한 것이 요구된 공간에 서류를 채우기에 충분치 않았을 경우에 미단축 상태로 되돌릴 수는 없다. 중요도 계산 재처리시에 단축된 워드들이 적절하게 인식되기가 쉽지 않으므로 SAVE 및 RESTORE 명령을 사용하지 않고 중요도를 계산하는 것이 불가능하고 간략하게 단축하는 것이 불가능하다.
ChunkBegin은 단축이 서류를 채우는데 혼자서도 충분하도록 a*("abbreviated only")에 설정되고, 전송된 텍스트는 서류의 수신기에 표시자로서 "a*"로 전반부에 마크될 것이다. 나중에, 단축이 혼자 충분치 않을 경우 ChunkBegin은 텍스트가 중요도에 의해 분류되고 선택되었음을 나타내도록 "s*"로 변경된다. 그러므로, 가장 중요한 청크에서 개시하여 덜 중요한 청크로 진행하는 덜 중요한 청크의 일부는 버퍼(25)가 한편으로 보다 중요한 청크로 채워지면 전송으로부터 생략될 수 있다.
명령 ABBREV는 다음으로 텍스트를 단축시키고 이후에 TRYFIT는 서류가 충분히 짧은지의 여부를 확인한다. 서류가 충분히 짧다면 텍스트 요약기(90)는 텍스트를 버퍼(25)에 기입하고 그 메시지는 RF 송신 유닛(80)에 의해 전송된다. 한편, 텍스트 요약기(90)는 이전의 SAVE 명령으로 상태를 복구시키는 RESTORE 명령을 계속한다
ChunkBegin은 분류 및 선택이 발생하였음을 나타내기 위해 "s*"로 설정되고 ChunkSep은 메시지들이 재배치된 것인 메시지 수신자를 추가로 나타내기 위해 파이프에 설정된다. COUNTWORDS 명령이 워드 및 청크의 중요도를 계산하기 위해 다음에 실행되고 텍스트는 청크 중요도에 기초하여 재배치된다. 최종 ABBREV는 조금 더 작은 텍스트를 얻게 되고 이 명령은 완료된다. 이어서 텍스트 요약기(90)는 RF 송신 유닛(80)에 의해 버퍼(25) 전송에 적당할 만큼을 기록한다.
서류 크기의 추가의 간결화는 다른 바람직한 실시예를 통해서도 가능하다. 이러한 다른 바람직한 실시예에서 상기 설명된 모든 처리가 발생한다. 보다 상세하게는 단축, 청크 재배열 및 헤더 삭제가 발생할 수 있다. 추가로, 이러한 다른 바람직한 실시예에서, 추가적인 서류의 간결화는 서류로부터 워드를 선택적으로 제거함으로써 획득될 수 있다. 이것은 상기 처리의 이전 또는 이후에 발생할 수 있다. 예를 들면, 비교적 중요하지 않은 워드는 단축 및/또는 청크 재배열 이전에 제거될 수 있다. 이와 반대로, 비교적 중요하지 않은 워드들은 단축 및/또는 재배열 이후에 제거될 수 있다.
본 실시예에서, COUNTWORDS 명령은 명령어 스크립트내의 소정의 시간내에서 실행된다. 서류 내의 각각의 워드가 중요도 값을 지정할 수 있도록 상기 COUNTWORDS 명령을 지정하는 것이 필요하게 된다. 이와 같은 명령 지정이 행해지면, 사전 결정된 특정 임계치 이하의 중요도 값을 갖는 워드는 요약 메시지로부터 제거될 수 있다. 선택적으로, 청크 재배열이 워드 제거에 앞서 실행되면, 워드 제거 단계 중에 워드는 비교적 높은 워드 중요도를 갖는 것에 의존하여 요약 메시지 내에 남아 있도록 선택될 수 있다. 예컨대, 사용가능한 버퍼 공간이 80 텍스트이고, 다음의 청크 재배열(가능한 단축)의 메시지의 모든 워드가 90 텍스트에 달하면, 이 메시지로부터의 최하위 청크를 제거하는 대신에 총 10 개의 텍스트에 달하는 워드를 제거하는 것이 가능할 수 있다. 이 제거된 워드는 다중 청크로서 발생될 수 있다. 낮은 유효 워드를 제거함으로써 최하위 청크를 완전히 제거하는 것이 불필요하게 될 수 있다.
본 발명은 바람직한 실시예와 관련하여 상세히 설명하였지만, 본 실시예는 단지 예시를 위한 것이지 이것으로 한정하는 것은 아니며, 당업자라면 첨부한 특허청구의 범위에 개시된 본 발명의 기술적 사상 및 범위를 벗어나지 않는 범위 내에서 여러 가지의 변경 및 수정이 가능함을 용이하게 이해할 수 있을 것이다.

Claims (46)

  1. 입력 텍스트를 소정의 최대 길이를 갖는 출력 텍스트로 요약하는 방법에 있어서,
    상기 입력 텍스트를 하나 이상의 워드를 갖는 복수의 청크로 분할하는 단계와;
    상기 청크의 워드에 중요도를 지정하는 단계와;
    상기 청크 내에 포함된 워드의 중요도에 기초하여 상기 복수의 청크들 중 적어도 일부의 청크에 중요도를 지정하는 단계와;
    상기 청크의 상대 중요도에 기초하여 상기 출력 텍스트에 포함되는 상기 청크의 서브세트를 선택하는 단계
    를 포함하는 텍스트 메시지 요약 방법.
  2. 제1항에 있어서, 상기 청크의 서브세트를 선택하는 단계는 상기 출력 텍스트에 포함되는 최상위 청크를 선택하는 단계를 포함하는 텍스트 메시지 요약 방법.
  3. 제1항에 있어서, 상기 복수의 청크들 중 적어도 일부의 청크에 중요도를 지정하는 단계는, 사전 결정된 기준에 기초하여 상기 복수의 청크들 중 적어도 일부의 청크를 분류하는 단계를 더 포함하고,
    상기 워드에 지정되는 중요도는 상기 워드를 포함하는 청크의 분류에 기초하는 것인 텍스트 메시지 요약 방법.
  4. 제3항에 있어서, 상기 청크의 중요도는 청크 내에 포함된 워드의 전체 중요도에 따라서 결정되는 것인 텍스트 메시지 요약 방법.
  5. 제4항에 있어서, 상기 청크의 중요도는 사전 결정된 청크 기준에 따라서 추가로 결정되는 것인 텍스트 메시지 요약 방법.
  6. 제3항에 있어서, 상기 청크에 유효한 분류는 MAIL HEADER, TEXT 및 PUNCTUATION을 포함하는 텍스트 메시지 요약 방법.
  7. 제6항에 있어서, 상기 MAIL HEADER 분류는 SIGNIFICANT 및 INSIGNIFICANT 부분류를 더 포함하고, 상기 TEXT 분류는 FIRST, LAST, ONLY 및 OTHER 부분류를 더 포함하는 텍스트 메시지 요약 방법.
  8. 제1항에 있어서, 상기 청크들 중 적어도 일부의 청크는 상기 입력 텍스트의 문장을 표시하는 것인 텍스트 메시지 요약 방법.
  9. 제1항에 있어서, 상기 워드의 중요도는 각각의 상기 워드의 발생에 대응하는 전체 중요도에 따라서 결정되는 것인 텍스트 메시지 요약 방법.
  10. 제9항에 있어서, 특정 워드는 제로 중요도를 항상 갖는 것인 텍스트 메시지 요약 방법.
  11. 제9항에 있어서, 특정 워드는 부팅 중요도를 항상 갖는 것인 텍스트 메시지 요약 방법.
  12. 제9항에 있어서, 워드에 대응하는 전체 중요도가 소정의 임계치 이하인 경우에는 상기 워드는 제로 중요도를 지정하는 것인 텍스트 메시지 요약 방법.
  13. 제1항에 있어서, 상기 요약 공정의 제어는 상호 동작하는 것인 텍스트 메시지 요약 방법.
  14. 제1항에 있어서, 상기 요약 공정의 제어는 일괄적으로 달성되는 것인 텍스트 메시지 요약 방법.
  15. 제6항에 있어서, 상기 PUNCTUATION 청크는 폐기되는 것인 텍스트 메시지 요약 방법.
  16. 제6항에 있어서, 제2 MAIL HEADER는 폐기되는 것인 텍스트 메시지 요약 방법.
  17. 복수의 워드로 구성된 텍스트 메시지를 요약하는 방법에 있어서,
    상기 텍스트 메시지를 하나 이상의 워드를 갖는 복수의 청크로 분할하는 단계와;
    사전 결정된 기준에 따라서 상기 청크를 분류하는 단계와;
    상기 워드를 포함하는 청크의 분류에 따라서 상기 워드에 중요도값을 지정하는 단계와;
    상기 청크 내에 포함된 워드에 대한 전체 중요도값에 따라서 상기 청크에 중요도값을 지정하는 단계와;
    상기 청크의 중요도의 순서에 따라 상기 청크를 출력 버퍼에 기록하는 단계를 포함하고,
    최상위 청크는 임의의 하위 청크에 앞서 상기 출력 버퍼에 기입되는 것인 텍스트 메시지 요약 방법.
  18. 제17항에 있어서, 상기 출력 버퍼가 채워진 이후에 상기 출력 버퍼에 포함된 청크를 송신하는 단계를 더 포함하는 텍스트 메시지 요약 방법.
  19. 제17항에 있어서, 상기 워드를 단축하는 단계를 더 포함하는 텍스트 메시지 요약 방법.
  20. 제19항에 있어서, 상기 워드는 본래의 워드를 포함하는 외부 파일 및 대응하는 생략에 따라서 단축되는 것인 텍스트 메시지 요약 방법.
  21. 제19항에 있어서, 상기 워드를 단축하는 단계는 상기 워드로부터 모음자를 제거하는 단계를 포함하는 텍스트 메시지 요약 방법.
  22. 제17항에 있어서, 사전 결정된 워드는 상기 워드가 상기 출력 버퍼에 기입된 청크 내에 포함될지라도 상기 출력 버퍼에 기입되지 않는 것인 텍스트 메시지 요약 방법.
  23. 제17항에 있어서, 삽입구의 설명문은 이 삽입구의 설명문이 상기 청크로부터 제거될 때 상기 삽입구의 설명문을 포함하는 청크의 중요도를 사전 결정된 임계치 이상으로 감소시키지 않는 경우에 폐기되는 것인 텍스트 메시지 요약 방법.
  24. 텍스트 정보를 수신하는 입력원과;
    상기 입력원에 접속되어, 상기 수신된 텍스트 정보를 저장하는 메모리와;
    상기 수신된 텍스트 정보를 요약하는 텍스트 요약 수단과;
    상기 메모리 및 상기 텍스트 요약 수단과 통신하며, 페이징 시스템의 동작을 제어하는 제어기와;
    상기 요약된 텍스트 정보를 저장하는 출력 버퍼
    를 포함하는 페이징 시스템.
  25. 제24항에 있어서, 상기 요약된 텍스트 정보를 송신하는 RF 송신 유닛과,
    상기 요약된 텍스트 정보를 수신하는 페이징 수신기를 더 포함하는 페이징 시스템.
  26. 제24항에 있어서, 상기 텍스트 요약 수단은,
    상기 수신된 텍스트 정보를 하나 이상의 워드를 갖는 복수의 청크로 분할하는 분할 수단과;
    상기 청크의 워드에 중요도를 지정하는 수단과;
    상기 청크 내에 포함된 워드의 중요도에 기초하여 상기 청크에 중요도를 지정하는 수단과;
    상기 청크의 상대 중요도에 기초하여 상기 출력 버퍼에 포함되는 상기 청크의 서브세트를 선택하는 선택 수단과;
    상기 선택된 청크를 상기 출력 버퍼에 기입하는 수단을 더 포함하는 페이징 시스템.
  27. 제26항에 있어서, 상기 청크는 중요도를 감소시키는 순서에 따라서 상기 출력 버퍼에 기입되는 것인 페이징 시스템.
  28. 제26항에 있어서, 상기 청크의 워드에 중요도를 지정하는 수단은 사전 결정된 기준에 기초하여 각 청크를 분류하는 수단을 더 포함하는 페이징 시스템.
  29. 제28항에 있어서, 상기 청크의 워드에 중요도를 지정하는 수단은 상기 워드를 포함하는 청크의 분류에 따라서 상기 워드에 중요도를 지정하는 것인 페이징 시스템.
  30. 제29항에 있어서, 상기 청크의 워드에 중요도를 지정하는 수단은 상기 청크 내에 포함된 워드의 전체 중요도에 따라서 상기 청크의 각각에 중요도를 지정하는 것인 페이징 시스템.
  31. 제30항에 있어서, 상기 청크의 중요도는 상기 수신된 텍스트 정보의 청크의 위치에 따라서 추가로 결정되는 것인 페이징 시스템.
  32. 텍스트 메시지를 요약하는 장치에 있어서,
    상기 텍스트 메시지를 수신하는 입력 수단과;
    상기 텍스트 메시지를 하나 이상의 워드를 갖는 복수의 청크로 분할하는 수단과;
    사전 결정된 기준에 따라서 상기 청크를 분류하는 수단과;
    상기 워드를 포함하는 청크의 분류에 따라서 상기 워드에 중요도값을 지정하는 수단과;
    상기 청크 내에 포함된 워드에 대한 전체 중요도값에 따라서 중요도값을 상기 청크에 지정하는 수단과;
    출력 버퍼와;
    중요도를 감소시키는 순서에 따라 상기 청크를 상기 출력 버퍼에 기입하는 수단
    을 포함하는 텍스트 메시지 요약 장치.
  33. 제32항에 있어서, 상기 출력 버퍼가 채워진 이후에 상기 출력 버퍼에 포함된 청크를 송신하는 수단을 더 포함하는 텍스트 메시지 요약 장치.
  34. 제33항에 있어서, 상기 워드를 단축하는 수단을 더 포함하는 텍스트 메시지 요약 장치.
  35. 제34항에 있어서, 상기 워드는 본래의 워드를 포함하는 외부 파일 및 대응하는 생략에 따라서 단축되는 것인 텍스트 메시지 요약 장치.
  36. 제35항에 있어서, 상기 워드는 상기 워드로부터 모음자를 제거함으로써 단축되는 것인 텍스트 메시지 요약 장치.
  37. 제32항에 있어서, 삽입구의 설명문이 상기 청크로부터 제거될 때 상기 삽입구의 설명문을 포함하는 청크의 중요도를 사전 결정된 임계치 이상으로 감소시키지 않는 경우에 삽입구의 설명문을 폐기하는 수단을 더 포함하는 텍스트 메시지 요약 장치.
  38. 제1항에 있어서, 상기 입력 텍스트는 전자 메일 메시지를 포함하는 텍스트 메시지 요약 방법.
  39. 제3항에 있어서, 상기 사전 결정된 기준은 상기 입력 텍스트 내의 위치를 포함하는 텍스트 메시지 요약 방법.
  40. 제5항에 있어서, 상기 사전 결정된 청크 기준은 상기 입력 텍스트 내의 상기 청크의 위치를 포함하는 텍스트 메시지 요약 방법.
  41. 제17항에 있어서, 상기 텍스트 메시지는 전자 메일 메시지를 포함하는 텍스트 메시지 요약 방법.
  42. 제17항에 있어서, 상기 사전 결정된 기준은 상기 텍스트 메시지의 위치를 포함하는 텍스트 메시지 요약 방법.
  43. 제24항에 있어서, 상기 텍스트 정보는 전자 메일 메시지를 포함하는 페이징 시스템.
  44. 제28항에 있어서, 상기 사전 결정된 기준은 상기 수신된 텍스트 정보 내의 상기 청크의 위치를 포함하는 페이징 시스템.
  45. 제32항에 있어서, 상기 텍스트 메시지는 전자 메일 메시지를 포함하는 텍스트 메시지 요약 장치.
  46. 제32항에 있어서, 상기 사전 결정된 기준은 상기 텍스트 메시지 내의 청크의 위치를 포함하는 텍스트 메시지 요약 장치.
KR1019970702426A 1995-08-14 1996-08-14 텍스트요약방법및장치 KR100530709B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/514,809 US5691708A (en) 1995-08-14 1995-08-14 Text abstraction method and apparatus
US08/514,809 1995-08-14
PCT/US1996/013196 WO1997007469A2 (en) 1995-08-14 1996-08-14 Text abstraction method and apparatus

Publications (2)

Publication Number Publication Date
KR970707499A KR970707499A (ko) 1997-12-01
KR100530709B1 true KR100530709B1 (ko) 2006-01-27

Family

ID=24048786

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970702426A KR100530709B1 (ko) 1995-08-14 1996-08-14 텍스트요약방법및장치

Country Status (6)

Country Link
US (1) US5691708A (ko)
EP (2) EP0786116B1 (ko)
KR (1) KR100530709B1 (ko)
AT (2) ATE279752T1 (ko)
DE (2) DE69626271T2 (ko)
WO (1) WO1997007469A2 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015133714A1 (ko) * 2014-03-07 2015-09-11 에스케이플래닛 주식회사 메시지 전송 방법, 이를 위한 장치 및 시스템
KR101766484B1 (ko) * 2011-06-17 2017-08-09 네이버 주식회사 청크를 이용한 메일 관리 방법 및 장치

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6148998A (en) * 1997-05-22 1998-12-11 Seiko Communications Of America, Inc. Electronic mail notification and access
JP4214598B2 (ja) * 1998-04-02 2009-01-28 ソニー株式会社 文書処理方法および装置ならびに記録媒体
US7168039B2 (en) * 1998-06-02 2007-01-23 International Business Machines Corporation Method and system for reducing the horizontal space required for displaying a column containing text data
US6249675B1 (en) 1998-08-07 2001-06-19 At&T Corporation Method and apparatus for network paging
US6279018B1 (en) 1998-12-21 2001-08-21 Kudrollis Software Inventions Pvt. Ltd. Abbreviating and compacting text to cope with display space constraint in computer software
US7475343B1 (en) * 1999-05-11 2009-01-06 Mielenhausen Thomas C Data processing apparatus and method for converting words to abbreviations, converting abbreviations to words, and selecting abbreviations for insertion into text
US6772346B1 (en) * 1999-07-16 2004-08-03 International Business Machines Corporation System and method for managing files in a distributed system using filtering
US20060288298A1 (en) * 1999-08-12 2006-12-21 Robert Haitani System, method and technique for enabling users to interact with address fields of messaging applications
US6452597B1 (en) * 1999-08-24 2002-09-17 Microsoft Corporation Displaying text on a limited-area display surface
JP2002041404A (ja) * 2000-07-24 2002-02-08 Canon Inc 情報提供システム及び装置とその方法
JP4521943B2 (ja) * 2000-07-24 2010-08-11 キヤノン株式会社 情報提供装置及び情報提供方法、コンピュータ読み取り可能な記憶媒体
JP4536225B2 (ja) * 2000-07-28 2010-09-01 富士通株式会社 メッセージ送受信システムにおけるキーワードとその重要度の動的決定
US20020087985A1 (en) * 2000-12-01 2002-07-04 Yakov Kamen Methods and apparatuses for displaying meaningful abbreviated program titles
GB0107772D0 (en) * 2001-03-28 2001-05-16 Hewlett Packard Co Improvements relating to data delivery
US8001465B2 (en) * 2001-06-26 2011-08-16 Kudrollis Software Inventions Pvt. Ltd. Compacting an information array display to cope with two dimensional display space constraint
KR100435442B1 (ko) * 2001-11-13 2004-06-10 주식회사 포스코 문서 요약 방법 및 시스템
US7315902B2 (en) * 2002-12-19 2008-01-01 International Business Machines Corporation Compression and abbreviation for fixed length messaging
JP4236630B2 (ja) * 2004-11-30 2009-03-11 三洋電機株式会社 コンテンツデータ記録媒体
KR100834293B1 (ko) * 2006-11-06 2008-05-30 엔에이치엔(주) 문서 처리 시스템 및 방법
US8458252B2 (en) * 2006-12-15 2013-06-04 International Business Machines Corporation Minimizing the time required to initiate and terminate an instant messaging session
CN101286154B (zh) * 2007-04-09 2016-08-10 谷歌股份有限公司 输入法编辑器用户档案
NZ610179A (en) 2008-05-29 2014-12-24 Resmed Ltd Medical headgear
US20100145676A1 (en) * 2008-12-09 2010-06-10 Qualcomm Incorporated Method and apparatus for adjusting the length of text strings to fit display sizes
US20110313756A1 (en) * 2010-06-21 2011-12-22 Connor Robert A Text sizer (TM)
WO2013049687A1 (en) * 2011-09-30 2013-04-04 Mail Bypass, Inc. Message delivery systems and methods
US11327640B2 (en) 2015-06-05 2022-05-10 Apple Inc. Providing complications on an electronic device
US10175866B2 (en) 2015-06-05 2019-01-08 Apple Inc. Providing complications on an electronic watch
US10572571B2 (en) * 2015-06-05 2020-02-25 Apple Inc. API for specifying display of complication on an electronic watch
US11115359B2 (en) 2016-11-03 2021-09-07 Samsung Electronics Co., Ltd. Method and apparatus for importance filtering a plurality of messages
US11188710B2 (en) * 2016-12-30 2021-11-30 Dropbox, Inc. Inline content item editor commands
US20190065446A1 (en) * 2017-08-22 2019-02-28 Microsoft Technology Licensing, Llc Reducing text length while preserving meaning

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5367452A (en) * 1990-10-05 1994-11-22 Carts Of Colorado, Inc. Mobile merchandising business management system which provides comprehensive support services for transportable business operations

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4713808A (en) * 1985-11-27 1987-12-15 A T & E Corporation Watch pager system and communication protocol
CA1306290C (en) * 1988-09-20 1992-08-11 Kazuhiro Shimura Selective paging system and paging receiver therefor
JP2783558B2 (ja) * 1988-09-30 1998-08-06 株式会社東芝 要約生成方法および要約生成装置
JP2676554B2 (ja) * 1989-07-10 1997-11-17 ティーオーエー株式会社 短縮機能付きポケット・ページャ
US4955066A (en) * 1989-10-13 1990-09-04 Microsoft Corporation Compressing and decompressing text files
US5258739A (en) * 1989-11-09 1993-11-02 Motorola, Inc. Efficient message storage within a selective call receiver
US5257307A (en) * 1990-02-07 1993-10-26 Sharp Kabushiki Kaisha Radio pager system which transmits secret coded messages from a caller to a pager terminal apparatus
JP2827630B2 (ja) * 1991-10-24 1998-11-25 日本電気株式会社 選択呼出受信機
US5396228A (en) * 1992-01-16 1995-03-07 Mobile Telecommunications Technologies Methods and apparatus for compressing and decompressing paging data
JP2682407B2 (ja) * 1993-10-22 1997-11-26 日本電気株式会社 ページングシステム制御装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5367452A (en) * 1990-10-05 1994-11-22 Carts Of Colorado, Inc. Mobile merchandising business management system which provides comprehensive support services for transportable business operations

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101766484B1 (ko) * 2011-06-17 2017-08-09 네이버 주식회사 청크를 이용한 메일 관리 방법 및 장치
WO2015133714A1 (ko) * 2014-03-07 2015-09-11 에스케이플래닛 주식회사 메시지 전송 방법, 이를 위한 장치 및 시스템

Also Published As

Publication number Publication date
WO1997007469A2 (en) 1997-02-27
DE69626271D1 (de) 2003-03-27
EP0915438B1 (en) 2004-10-13
KR970707499A (ko) 1997-12-01
EP0915438A3 (en) 2000-04-05
EP0786116B1 (en) 2003-02-19
ATE233003T1 (de) 2003-03-15
US5691708A (en) 1997-11-25
ATE279752T1 (de) 2004-10-15
EP0915438A2 (en) 1999-05-12
DE69626271T2 (de) 2003-10-30
DE69633639D1 (de) 2004-11-18
WO1997007469A3 (en) 1997-05-15
EP0786116A2 (en) 1997-07-30
DE69633639T2 (de) 2005-10-20

Similar Documents

Publication Publication Date Title
KR100530709B1 (ko) 텍스트요약방법및장치
US7502732B2 (en) Compressing messages on a per semantic component basis while maintaining a degree of human readability
KR100890691B1 (ko) 언어학적으로 지능적인 텍스트 압축방법 및 그 처리장치
EP0797156B1 (en) Data processor
US9665559B2 (en) Word checking tool for selectively filtering text documents for undesirable or inappropriate content as a function of target audience
CA1189976A (en) Displaying and correcting method for machine translation system
CA1309187C (en) Sharing word-processing functions among multiple processors
US7421652B2 (en) Methods and apparatus for summarizing document content for mobile communication devices
US6873985B2 (en) Lightweight subject indexing for e-mail collections
US7111248B2 (en) Alphanumeric information input method
JP4263371B2 (ja) 文書をパージングするシステム及び方法
US7035902B1 (en) Method, article of manufacture and apparatus for processing an electronic mail document
US5854597A (en) Document managing apparatus, data compressing method, and data decompressing method
US20030093565A1 (en) System and method for converting an attachment in an e-mail for delivery to a device of limited rendering capability
US20060206806A1 (en) Text summarization
US5579467A (en) Method and apparatus for formatting a communication
US20050108363A1 (en) Web page update notification method and web page update notification device
WO2001053984A2 (en) Apparatus and method for context-based highlighting of an electronic document
US5577183A (en) Printer system that stores compressed font glyphs in data blocks and decompressed glyphs in each data block together using same decompression procedure
US5715243A (en) Information service provider for transmitting multiple rate wireless information
US6411990B1 (en) Apparatus and method for downlevel date file messaging
US8041126B1 (en) Intelligent document scanning
JP3612597B2 (ja) 文書重要文ランキング方法、文書重要文ランキング装置、及び文書重要文ランキングプログラムを記録した記録媒体
WO2005048120A1 (en) Text summarization
Witten et al. Compression and full-text indexing for digital libraries

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee