KR100890691B1

KR100890691B1 - 언어학적으로 지능적인 텍스트 압축방법 및 그 처리장치

Info

Publication number: KR100890691B1
Application number: KR1020020003560A
Authority: KR
Inventors: 시몬 에이치. 코스튼-올리버; 사라드 매써
Original assignee: 마이크로소프트 코포레이션
Priority date: 2001-01-26
Filing date: 2002-01-22
Publication date: 2009-03-26
Also published as: US7398203B2; JP2002334071A; JP2007265458A; US20020138248A1; EP1227408A2; US20060184351A1; EP1227408A3; US7069207B2; KR20020063118A

Abstract

텍스트 프로세서가 메시지의 텍스트를 작성한다. 이 텍스트 프로세서는 메시지 구성요소에 대한 복수의 압축된 형식을 생성한다. 상기 프로세서는 텍스트 본문의 언어적 요소를 나타내는 언어적 출력(linguistic output)을 얻기 위하여 텍스트의 본문에 대한 언어적 분석(linguistic analysis)을 수행한다. 그리고는 프로세서가 텍스트의 본문을 압축하는데 사용될 수 있는 복수의 압축형식을 생성한다. 복수의 압축형식은 언어적 출력에 기초하여 생성된다. 본 발명은 압축형식을 생성하는 방법 및 장치로 구현될 수 있다.

언어적 분석, 구문분석, 어휘분석, 어형분석, 구문 파싱 트리

Description

언어학적으로 지능적인 텍스트 압축방법 및 그 처리장치{LINGUISTICALLY INTELLIGENT TEXT COMPRESSION}

도 1은 본 발명을 사용하여 구현한 본 발명의 한 실시예를 나타낸 블록도.

도 2는 본 발명의 한 실시예에 따라, 언어적 분석(linguistic analysis)을 수행하기 위한 메시지 처리기(message handler)를 나타낸 블록도.

도 3은 예시 문장을 파싱(parsing)하여 얻은 구문 파싱 트리(syntax parse tree)의 한 부분을 나타낸 도면.

도 4는 도 2에 도시된 시스템의 전체 동작 과정을 설명하기 위한 흐름도.

도 5a 및 도 5b는 도 2에 도시된 시스템이 구문 분석(syntactic analysis)에서의 종단 노드(terminal node) (또는 단어 및 구두점)에 대한 압축 옵션을 생성하는 동작 과정을 설명하는 상세 흐름도.

<도면의 주요 부분에 대한 부호의 설명>

100 : 컴퓨팅 시스템 환경

110 : 컴퓨터

120 : 처리장치

130 : 시스템 메모리

140 : 비분리성/비휘발성 메모리 인터페이스

150 : 분리/비휘발성 메모리 인터페이스

160 : 사용자 입력 인터페이스

170 : 네트워크 인터페이스

180 : 원격 컴퓨터

190 : 비디오 인터페이스

본 발명은 제한된 디스플레이 공간을 가진 장치에 메시지를 전달하는 것에 관한 것이다. 더욱 구체적으로는, 본 발명은 텍스트를 작은 스크린에 보다 쉽게 디스플레이할 수 있도록 텍스트를 언어학적으로 지능적인(linguistically intelligent) 방법에 의해 압축하는 것에 관한 것이다.

현 컴퓨터 시스템에서는 메시지를 주고받는 것이 널리 이용된다. 메시지는 음성메일, 전자메일(이메일), 호출 시스템 및 다른 정보원 또는 수단에 의해 보내질 수 있다. 더욱이, 여러 정보원으로부터의 메시지들이 통합되어 단일 장치에 포워드되어질 수 있다. 예를 들면, 음성메일이나 전자메일을 통하여 컴퓨터 혹은 컴퓨터 네트웍에서 현재 메시지를 받는 사용자는 그러한 메시지를 수신할 수 있는 휴대폰으로 그 메시지를 포워드할 수도 있다. 그러나, 휴대폰의 스크린은 꽤 한정된 디스플레이 공간을 가지고 있다. 이는 메시지를 디스플레이하고자 할 때 큰 문제점을 드러낼 수도 있다.

예를 들면, 매우 짧은 전자메일 메시지나 문자화한 음성메일 메시지라도 휴대폰의 한 스크린에서 보기에는 너무도 방대한 텍스트로 나타날 수가 있다. 이는 종종 사용자로 하여금 메시지의 첫 몇 마디(그것이 디스플레이 가능한 전부이므로)로부터 전체 메시지를 해독하도록 요하거나, 전체 메시지를 읽기 위하여 텍스트의 수많은 행을 스크롤(scroll down)하는 것을 요한다. 두 가지 방법 모두 성가신 일이며, 에러가 발생할 우려가 있다.

비록 종래에는 텍스트 압축이 많은 다른 상황에서도 사용되었으나, 그러한 압축의 일차적인 목적은 텍스트의 효율적인 데이터 저장을 위한 것이었다. 이러한 압축기술은 압축된 텍스트가 인간에 의하여 해독되어야 하는 상황에서는 전혀 적용할 수가 없다. 따라서, 본 발명은 텍스트를 작은 스크린에 보다 쉽게 디스플레이함과 동시에 인간이 해독할 수 있도록 언어학적으로 지능적인 방법에 의해 압축하는 방식을 제시한다.

본 발명의 다른 실시형태는 텍스트에 대한 언어적 분석에 기초하여 생성된 데이터 구조를 포함한다. 상기 데이터 구조는 텍스트 본문의 부분에 대한 복수의 압축형식을 나타내는 속성을 내포하는 복수의 필드를 포함한다. 이 데이터 구조는 또한 데이터 구조 영역에 내포된 속성 중 적어도 하나를 생성하는데 사용되는 압축의 타입을 나타내는 압축 타입 필드도 포함할 수 있다.

도 1은 본 발명이 구현될 수 있는 적절한 컴퓨팅 시스템 환경(100)의 한 예를 나타낸다. 이 컴퓨팅 시스템 환경(100)은 단지 적합한 컴퓨팅 환경에 대한 한 예에 불과하며, 본 발명의 기능이나 사용범위에 대하여 어떠한 제한을 제시하려고 한 것은 아니다. 또한, 컴퓨팅 시스템 환경(100)은 예시적 오퍼레이팅 환경(100)에 도시된 하나 또는 여러 개의 요소와 관련된 어떤 의존성이나 필요조건이 있다는 것으로 해석되어서도 안 된다.

본 발명은 수많은 다른 범용 및 특수 목적의 컴퓨팅 시스템 환경이나 구성에서 동작할 수 있다. 본 발명에 사용하는데 있어서 적합한 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예는, 비단 여기에 국한되는 것은 아니지만, 개인용 컴퓨터, 서버 컴퓨터, 휴대용 혹은 랩탑형 장치, 다중처리시스템, 마이크로프로세서기반형 시스템, 세트 톱 박스, 프로그래머블 컨슈머 전자장치, 네트웍 PC, 소형컴퓨터, 메인 프레임 컴퓨터, 위에서 언급한 임의 시스템 혹은 장치를 포함하는 분산형 컴퓨팅 환경 및 이와 동일한 종류의 것이 포함된다.

본 발명은 프로그램 모듈처럼 컴퓨터에 의하여 수행되는 컴퓨터로 실행 가능한 명령어의 일반적인 문맥(context)으로 묘사될 수 있다. 일반적으로, 프로그램 모듈은 특정한 작업을 수행하거나 특정한 추상적인 자료형을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포함한다. 본 발명은 또한 통신 네트워크를 통하여 연결된 원거리 처리 장치에 의하여 작업이 수행되는 분산 컴퓨팅 환경에서 실행될 수도 있다. 분산 컴퓨팅 환경에서는 프로그램 모듈이 메모리 저장 장치를 포함하는 근거리 및 원거리 컴퓨터 저장 매체 모두에 있을 수 있다.

도 1을 참조하면, 본 발명을 구현하기 위한 예시적 시스템은 컴퓨터(110)의 형태로 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 구성요소는, 비단 여기에 국한되는 것은 아니지만, 처리장치(120), 시스템 메모리(130), 시스템 메모리를 포함하는 다양한 시스템 구성요소를 처리장치(120)에 연결하는 시스템 버스(121)를 포함할 수 있다. 시스템 버스(121)는 메모리 버스 혹은 메모리 컨트롤러, 주변장치 버스, 다양한 버스 구조 중 어느 것이라도 사용하는 로컬 버스를 포함하는 버스 구조의 몇 가지 유형 중 어느 것이어도 된다. 예로써, 그리고 여기에 국한되는 것은 아니지만, 이러한 구조에는 업계 표준 구조(ISA) 버스, 마이크로 채널 구조(MCA) 버스, 확장형 ISA(EISA) 버스, 비디오 전자 공학 협회(VESA) 로컬 버스, 그리고 메자닌 버스로도 알려진 주변 구성요소 상호접속(PCI) 버스를 포함한다.

컴퓨터(110)는 전형적으로 컴퓨터로 판독 가능한 다양한 매체를 포함한다. 컴퓨터로 판독 가능한 매체는 컴퓨터에 의하여 액세스할 수 있는 어떠한 매체라도 상관없으며, 분리성 및 비분리성, 휘발성 및 비휘발성 매체를 모두 포함한다. 예로써, 그리고 여기에 국한되는 것은 아니지만, 컴퓨터로 판독 가능한 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터로 판독 가능한 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등의 정보의 저장을 위한 어떠한 방법 혹은 기술로 구현되는 휘발성 및 비휘발성, 분리성 및 비분리성 매체를 모두 포함한다. 컴퓨터 저장 매체는, 비단 여기에 국한된 것은 아니지만, 램(RAM), 롬(ROM), 이이피롬(EEPROM), 플래시 메모리 혹은 다른 메모리 기술, 시디롬(CD-ROM), 디지털 비디오 디스크(DVD) 혹은 다른 광 디스크 저장매체, 자기 카세트, 자기 테이프, 자기 디스크 저장매체 혹은 다른 자기 저장 장치, 또는 원하는 정보를 저장하는데 사용할 수 있고 컴퓨터(110)에 의하여 액세스 가능한 다른 어떠한 매체를 포함한다. 통신 매체는 전형적으로 컴퓨터로 판독 가능한 명령어, 데이터 구조, 프로그램 모듈, 혹은 반송파(WAV)나 다른 전달 메커니즘 등의 변조된 데이터 신호의 다른 데이터를 구현하며, 임의 정보 전달 매체를 포함한다. "변조된 데이터 신호"라는 말은 어느 신호의 정보를 부호화하기 위하여 하나 또는 그 이상의 신호특성을 세팅 또는 변경시킨 신호를 의미한다. 예로써, 비단 여기에 국한되는 것은 아니지만, 통신 매체는 유선 네트워크나 직접 유선 접속과 같은 유선 매체와; 음향, FR, 적외선 혹은 다른 무선 매체와 같은 무선 매체를 포함한다. 컴퓨터 판독 가능한 매체의 범위에는 위에서 언급한 것들의 조합도 포함되어야 한다.

시스템 메모리(130)에는 ROM(131)과 RAM(132)과 같은 휘발성 또는 비휘발성 메모리 형태의 컴퓨터 저장 매체가 포함된다. 시스템의 기동 시, 컴퓨터 내의 요소들간에 정보를 전달하는데 도움이 되는 기본 루틴을 포함하는 바이오스(BIOS)(133)는 전형적으로 ROM(131)에 저장되어 있다. RAM(132)은 전형적으로 처리장치(120)에 의하여 현재 작업이 수행되고 있거나 또는 즉시 액세스 가능한 데이터 및/또는 프로그램 모듈을 포함한다. 예로써, 비단 여기에 국한되는 것은 아니지만, 도 1은 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)를 예시하고 있다.

컴퓨터(110)는 또한 다른 분리/비분리 및 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 예로써, 도 1은 비분리성·비휘발성의 자기 매체에 대해 읽어들이거나 쓰는 하드디스크 드라이브(141), 분리성·비휘발성의 자기 디스크(152)에 대해 읽어들이거나 쓰는 자기 디스크 드라이브(151), 그리고 CD-ROM 혹은 다른 광학 매체와 같은 분리성·비휘발성 광학 디스크(156)에 대해 읽어들이거나 쓰는 광 디스크 드라이브(155)를 예시한다. 예시된 오퍼레이팅 환경에 사용될 수 있는 다른 분리/비분리 및 휘발성/비휘발성 컴퓨터 저장 매체로는, 비단 여기에 국한되는 것은 아니지만, 자기 테이프 카세트, 플래시 메모리 카드, 디지털 비디오 디스크, 디지털 비디오 테이프, 고체 RAM, 고체 ROM 및 이와 동등한 종류들을 포함한다. 하드디스크 드라이브(141)는 전형적으로 인터페이스(140)와 같은 비분리성 메모리 인터페이스를 통해서 시스템 버스(121)에 연결되어 있고, 자기 디스크 드라이브(151)와 광 디스크 드라이브(155)는 전형적으로 인터페이스(150)와 같은 분리성 메모리 인터페이스에 의하여 시스템 버스(121)에 연결되어 있다.

위에서 언급하고 도 1에 예시된 드라이브 및 그와 관련된 컴퓨터 저장 매체는 컴퓨터(110)를 위하여 컴퓨터 판독 가능한 명령어, 데이터 구조, 프로그램 모듈 및 다른 데이터에 대한 저장 공간을 제공한다. 예를 들면 도 1에서, 하드디스크 드라이브(141)는 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 그리고 프로그램 데이터(147)를 저장하는 것으로 예시되어 있다. 이 요소들은 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)와 같을 수도 있고 다를 수도 있음을 알아야 한다. 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 그리고 프로그램 데이터(147)는, 최소한 여기서는, 이것들이 다른 복사본임을 나타내기 위해 다른 번호가 부여되었다.

사용자는 키보드(162), 마이크로폰(163), 및 마우스, 트랙볼 혹은 터치패드와 같은 포인팅 장치(161)와 같은 입력장치를 통해서 컴퓨터(110)에 명령과 정보를 입력한다. 다른 입력장치에는(도시하지는 않았지만) 조이스틱, 게임 패드, 위성 접시, 스캐너 및 이와 동등한 종류 등이 포함된다. 이들 및 기타 입력 장치는 시스템 버스와 연결되어 있는 사용자 입력 인터페이스를 통해서 대개 처리장치(120)에 연결되어 있으나, 때로는 병렬포트, 게임포트 혹은 범용 시리얼 버스(USB)와 같은 다른 인터페이스나 버스 구조에 의해 연결될 수도 있다. 모니터(191) 혹은 다른 종류의 디스플레이 장치도 비디오 인터페이스(190)와 같은 인터페이스를 통해서 시스템 버스(121)에 연결되어 있다. 모니터와 더불어, 컴퓨터는 출력 주변장치 인터페이스(190)를 통해서 연결되어 있기도 하는 스피커(197)와 프린터(196)와 같은 다른 주변 출력 장치를 포함하기도 한다.

컴퓨터(110)는 원격 컴퓨터(180)와 같이 하나 또는 여러 개의 원격 컴퓨터에 논리적으로 연결하는 것을 사용하여 네트워크 환경에서 작동할 수도 있다. 원격 컴퓨터(180)는 개인용 컴퓨터, 휴대용 장치, 서버, 라우터, 네트워크 PC, 피어(peer) 장치 혹은 기타 공통 네트워크 노드일 수도 있고, 전형적으로 컴퓨터(110)와 관련이 있는 위에서 언급한 요소들 중 전부 또는 많은 부분을 포함한다. 도 1에 예시된 논리적 연결은 근거리 통신망(LAN)(171)과 원거리 통신망(WAN)(173)을 포함하지만, 다른 통신망도 포함될 수 있다. 이러한 네트워킹 환경은 회사, 전사적 컴퓨터 네트워크, 인트라넷 및 인터넷에서 흔한 것이다.

LAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 네트워크 인터페이스나 어댑터(170)를 통해서 LAN(171)에 연결되어 있다. WAN 네트워킹 환경에서 사용될 때는, 컴퓨터(110)는 전형적으로 모뎀(172)이나 인터넷과 같은 WAN(173)을 통해서 통신을 하기 위한 다른 수단을 포함한다. 내부형일 수도 있고 외부형일 수도 있는 모뎀(172)은 사용자 입력 인터페이스(160)나 기타 적절한 메커니즘을 통해서 시스템 버스(121)에 연결되어 있을 수 있다. 네트워킹 환경에서는, 컴퓨터(110)와 관련되어 도시된 프로그램 모듈이나 그 부분들이 원격 메모리 저장 장치에 저장되어 있을 수 있다. 예로써, 비단 여기에 국한되는 것은 아니지만, 도 1은 원격 애플리케이션 프로그램(185)이 원격 컴퓨터(180)에 상주하는 것으로 예시되어 있다. 도시된 네트워크 연결은 단지 예시적이며, 컴퓨터간의 통신 링크를 확립하는 다른 수단도 사용될 수 있다는 것을 이해할 수 있을 것이다.

본 발명은 도 1에서 기술된 것과 같은 컴퓨터 시스템에서 수행이 가능하다는 것을 알아야 한다. 그러나, 본 발명은 서버, 메시지 처리전용 컴퓨터, 또는 본 발명의 각기 다른 부분이 분산 컴퓨팅 시스템의 각기 다른 부분에서 수행되는 분산 시스템에서도 수행될 수 있다.

도 2는 본 발명을 구현하는 데 사용될 수 있는 수많은 요소들에 대한 한 예시적인 실시예를 나타내는 블록도이다. 도 2는 메시지 처리기(200), 압축기(202) 및 목표장치(205)를 포함한다. 메시지 처리기(200)는 예시적으로 메시지 파서(parser)(204), 언어적 분석기(206) 및 텍스트 압축 요소(208)를 포함한다. 한 예시적인 실시예에 따르면, 목표장치(205)는 링크(210)를 통해서 압축기(202)에 연결되어 있는 휴대폰 또는 기타 작은 스크린이 있는 장치이다. 링크(210)는 전파 전송 부분을 포함할 수도 있고 포함하지 않을 수도 있는 글로벌 컴퓨터 네트워크, 또는 목표장치(205)에 메시지를 전송하는데 적합한 어떠한 링크일 수 있다.

메시지 처리기(200)는 메시지(212)를 받는 것으로 예시되어 있다. 메시지(212)는 호출 시스템, 전자 메일, 음성 메일 등을 포함하는 다양한 소스 중의 하나로부터 올 수 있다. 따라서, 메시지(212)는 예시적으로 헤더, 텍스트 본문, 그리고 이메일의 경우에는 일련의 이메일 맥락에서의 이전 메시지 등을 포함하는 다양한 부분을 포함한다. 파서(204)는 메시지(212)를 그 다양한 부분들로 파싱한다. 파서(204)의 작용은 본 발명과는 관련이 없다. 관련이 있는 것은 단지 메시지 본문(214)이나 기타 압축될 텍스트 본문을 확인하여 분석기(206)에 제공하는 것이다. 이는 어떠한 형태로도 이루어질 수 있으며, 본 발명을 구성하지는 않는다. 따라서, 파서(204)는 자세하게 설명하지 않을 것이다. 여기서는 파서(204)가 헤더 정보와 아마도 이전 메일 메시지를 제거할 수 있으며, 메시지 본문(214)을 언어적 분석기(206)에 제공한다는 기능만으로도 충분하다.

물론, 파서(204)는 메시지 본문(214) 외에도 분석기(206)에 다른 자연 언어의 텍스트 본문을 공급할 수도 있음을 알아야 한다. 예를 들면, 텍스트 본문은 제목 헤더, 작업 설명 헤더, 웹 페이지 등일 수 있다. 본 논의는 분석될 텍스트의 단지 한 예로서 메시지 본문(214)과 관련하여 기술된다.

언어적 분석기(206)는 예시적으로 어휘분석기, 어형분석기 및 구문분석기를 포함한다. 어휘분석기는 메시지 본문(214)을 받아서 단어별로(또는 다른 토큰별로) 쪼갠다. 이는 기지의 방법으로 수행된다. 어형분석기는 어형 데이터 베이스(가령, 사전)를 액세스하여 어의라든가 품사 등, 각 단어(혹은 토큰)와 관련된 다양한 정보를 얻는다. 구문분석기는 메시지 본문에 있는 각 문장에 대해 구문 파싱 트리(혹은 구문분석 구조)를 얻기 위하여 메시지 본문(214)에 대한 구문분석을 수행하고, 언어적 분석기(206)의 출력으로서 그 구조를 출력한다. 이것도 기지의 방법으로 수행되고 도 3과 관련하여 간략히 예시되어 있다.

텍스트 압축기(208)는 언어적 분석기(206)에 의해 출력된 언어적 분석을 액세스하여, 메시지 본문(214)의 요소에 대한 복수의 다른 선택적 압축을 생성한다. 한 예시적인 실시예에 따르면, 텍스트 압축기(208)는 메시지 본문(214)의 각 단어 및 구절마다 다섯 가지의 속성을 제공한다. 일반적으로, 각 속성은 분석되는 각 단어에 대한 더 적극적인 압축을 나타낸다. 한 예시적인 실시예에 따르면, 텍스트 압축기(208)에 의해 출력된 데이터 구조는 다음의 속성을 포함한다.

적용되는 압축 법칙의 한 종류를 지정하는 ShortType와,

메시지 본문(214)에 쓰여진 단어의 형식인 LongForm과,

ShortType 속성에 의하여 지정된 압축 법칙 또는 기술을 적용한 후의 단어의 형식을 나타내는 ShortForm과,

ShortForm의 첫 번째 글자는 대문자로 하고 나머지 문자는 소문자로 제공하는 CaseNormalizedForm과,

CaseNormalizedForm의 압축된 형식이며, 단어를 더욱 압축하기 위한 방편으로 CaseNormalizedForm에 추가적인 압축 법칙을 적용하는 CompressedForm.

한 예시적인 실시예에 따르면, 이러한 속성을 내포하는 데이터 구조가 압축된 XML 출력(216)으로서 출력되며, 압축기(202)에 제공된다. 압축기(202)는 예시적으로 압축된 출력(216)에서 하나의 압축된 형식을 선택하여 목표장치(205)에 공급할 것이다. 압축기(202)는 목표장치(205)에서 사용 가능한 스크린 공간에 기초하여, 또는 다른 기준에 의거하여 압축된 형식을 선택할 것이다. 압축기(202)는 본 발명의 일부를 구성하지 않는다는 것을 알아야 한다.

도 3은 메시지 본문(214)에 있을 수 있는 문장의 한 예시적인 실시예이다. 이 문장은 "You have a meeting with Dr. John Epstein next Tuesday at ten a.m."이다. 물론, 메시지 본문(214)은 메시지 본문을 문장과 개별 단어(혹은 토큰)로 분해하는 어휘분석기에 제공된다. 그리고는 어형분석기가 각 단어(혹은 토큰)를 조사하여, 품사와 분석에 필요한 다른 가능한 정보를 식별해낸다. 따라서, 단어들은 다음과 같이 품사에 의하여 식별된다는 것을 알 수 있다.

you = 대명사

have = 동사

a = 관사

meeting = 명사

with = 전치사

Dr. John Epstein = 고유명사

next = 형용사

Tuesday = 명사

at = 전치사

ten a.m. = 명사.

도 3에 예시된 한 실시예에서는, 구문분석기는 문장과 품사를 구문 파싱 트리로 분해한다. 구문 파싱 트리에서의 비종단 노드는 문장의 부분을 식별하는 구절 혹은 다른 상위 구문 단위를 나타내는 반면, 종단 노드(혹은 나뭇잎 노드)는 문장의 단어들을 나타낸다. 도 3에 예시된 구문 파싱 트리에서, "NP"는 명사구를, "VP"는 동사구를, "PP"는 전치사구를 나타내는 반면, "S"는 문장 노드를 나타낸다. "next Tuesday"와 "at ten a.m." 위에 있는 삼각형은 단순히 이 구절이 간략히 하기 위해 생략되어진 노드로 더 분해될 수 있음을 나타낸다. 구문 파싱 트리는 이 문장이 명사구, 동사구 및 여기서는 구체적으로 분해되지 않은 두 개의 또 다른 구문요소로 이루어졌음을 나타낸다.

텍스트 압축기(208)는 도 3에 예시된 문장을 인간에 의하여 해독될 수 있게끔 언어학적으로 지능적인 방법으로 압축한다. 이러한 압축을 수행함에 있어서, 많은 문제점이 도출된다. 예를 들면, 어느 텍스트에서 특정한 종류의 단어를 모두 삭제한다는 것이 직관적일 수가 있다. 가령, 텍스트에서 모든 관사를 삭제하는 것이 직관적일 수가 있다. 하지만, 영어에서는 이것이 통할지는 모르지만, 다른 언어에서는 통하지 않는다. 사실은 모든 로만스어에서도 통하지 않는다. 가령, "I made him eat it."로 번역되는 불어의 구절 "Je le lui ai fait manger"를 예로 들어보자. 접어적 대명사 "le"가 남성형 정관사 "le"("the"로 번역된다)와 똑같이 생겼다는 것을 알아둘 필요가 있다. 따라서, 만약 다른 언어에서 모든 "관사" 혹은 "the" 및 이와 동등한 단어가 삭제되면, 다른 언어에서는 어떤 구절의 의미가 완전히 바뀔 것이다.

이와 마찬가지로, 텍스트에서의 모든 공백을 제거하는 것도 직관적으로 합리적으로 보일 것이다. 그러나, 전자메일 별칭 혹은 URL(Uniform Resource Locator)이 제공되는 메시지에서는, 공백을 삭제하는 것은 텍스트에서 어디가 전자메일 별칭 혹은 URL 부분인지 분간하기 어렵게 만든다. 이처럼 기호에 민감한 텍스트 부분이 오늘날의 메시지에는 많이 이용되고 있다. 만약, 일부분에서 격이나 기호가 변경되면, 그 부분 전체의 의미를 돌이킬 수 없게 상실한다. "Visit http://microsoft.com for information"을 예로 들어보자. 만약 이것이 "visithttp://microsoft.comforinfo"로 축약되면, 텍스트의 부분에서 URL이 어디서 끝나는지 판단하기가 매우 어렵다.

따라서, 본 발명은 이러한 비지능적이고 획일적인 접근방식을 사용하지 않는다. 대신에, 본 발명은 본 발명의 압축을 분석기(206)에 의해 수행되는 언어적 분석에 기초를 둔다.

도 4는 메시지 처리기(200)의 동작을 좀더 자세하게 나타내는 흐름도이다. 우선, 메시지 처리기(200)는 메시지(212)를 받는다. 이는 블록(218)에 의해 나타나있다. 파서(204)는 메시지(212) 내의 메시지 본문을 파악하고 메시지 본문(214)을 분석기(216)에 전달한다. 이는 블록(220)에 의해 나타나있다. 분석기(226)는 메시지(214)를 문장으로 분해한다. 이는 블록(222)에 의해 나타나있다. 분석기(206)의 어휘분석기가 그 후, 단어, 숫자, 구두 기호와 같은 토큰으로 문장을 분해하기 위해 텍스트 본문에 대한 어휘 분석을 수행한다. 복합 단어의 표현인 "along with"나 "by means of"처럼, 토큰은 한 단어 이상으로 구성될 수도 있다. 이는 블록(224)에 의해 나타나있다. 그 후, 언어적 분석기(206)의 어형분석기는 어형 분석을 하여, 품사 및 각 토큰에 해당하는 다른 관련 정보를 파악한다. 이는 블록(226)에 의해 나타나있다. 그리고는 구문분석기가 구문 분석을 수행하며, 한 실시예에서는, 구문 파싱 트리를 제공한다. 이는 블록(228)에 의해 나타나있다.

그 후, 텍스트 압축기(208)는 잠재적인 압축 옵션이 사용 가능한지를 결정하기 위해 분석기(206)에 의해 제공되는 분석에서의 각 노드를 반복적으로 검사한다. 이는 블록(230)에 의해 나타나있다. 일단 이 분석에서의 노드가 검사되고, 다양한 압축 옵션이 결정되면, 압축 옵션은 가령, XML 출력(216)으로서 출력된다. 이는 블록(232)에 의해 나타나있다. 그 후, 압축기(202)는 단순히 각 단어(혹은 토큰)마다 옵션 중의 하나를 선택하고, 목표장치(205)에 메시지를 압축된 형식으로 공급한다.

도 5a와 도 5b는 메시지 본문(214)의 분석된 부분에 대한 잠재적인 압축 옵 션을 생성하는데 있어서의 텍스트 압축기(208)의 처리과정을 더욱 상세하게 도시한 흐름도이다. 도 5a와 도 5b는 분석기(206)에 의해 출력된 분석에서의 종단 노드(혹은 나뭇잎 노드)에 대한 가능한 압축 옵션을 생성하는데 있어서의 텍스트 압축기(208)의 처리과정을 구체적으로 예시한다. 다시 말하면, 메시지 본문의 구절 또는 더 큰 부분을 나타낼 수 있는 비종단 노드와는 달리, 도 5a와 도 5b는 잠재적인 압축을 위한 텍스트 메시지에서의 각 단어(혹은 토큰)의 처리를 예시한다.

우선, 각 토큰의 LongForm이 받아들여진다. LongForm이라는 것은 텍스트 본문에 쓰여진 토큰의 형태임을 상기하라. 이는 도 5a의 블록(234)에 의해 나타나있다. LongForm은 압축된 출력(216)으로서 제공되는 데이터 구조로 출력되는 속성으로 저장된다. 이는 블록(236)에 의해 나타나있다.

다음은, ShortType 속성이 정해지고 저장된다. ShortType 속성이라는 것은 토큰의 LongForm에 적용되는 압축 법칙의 구체적인 종류를 나타내는 속성임을 상기하라. 이는 블록(238)에 의해 나타나있다. 본 발명의 한 실시예와 관련된 다양한 ShortType 속성은 아래에 상세히 논의된다.

그 후, ShortType 속성에 의해 정해진 압축 법칙을 사용하여 분석되는 전체 노드가 삭제될 것인지가 결정된다. 예를 들면, 어떠한 상황에서든 일부 노드는 삭제되어야 한다. 영어에서의 관사(ShortType 속성이 "Articles"이다)는 항상 생략될 수 있다. 이러한 관사에는 가령 a, the, those, 그리고 these가 포함된다. 인사말은 ShortType 속성이 "Greeting"이며, 블록(240)에서 특별히 다루어진다. 인사말(예를 들면, Dear Bob, Hi, 그리고 Hi Bob)은 모두 삭제될 수 있다. 어떠한 상황에서든 노드가 삭제될 것인지 여부를 결정하는 것은 블록(240)에 나타나있다. 만약 그렇다면, 블록(238)에 나타나 있듯이, ShortType 속성은 "Articles"(또는 이에 적절한 것)로 설정되고, ShortForm, CaseNormalizedForm, 그리고 CompressedForm 속성은 모두 널(null) 값으로 설정된다. 이는 블록(242)에 의해 나타나있다.

만약, 블록(240)에서, 노드가 전체적으로 삭제되지 않는 것으로 정해지면, 이 노드에 대하여 다른 특별한 취급이 행하여질 것인지 여부가 결정된다. 이는 블록(244)에 의해 나타나있다. 그러한 특별한 취급은 매우 다양한 형태로 나타날 수 있다. 이러한 여러 형태가 이제 논의될 것이다.

형용사의 집단(ShortType이 "Adjective"이다)은 특별한 취급된다. 이는 which, who 또는 what 등과 같이 "wh"로 시작하는 단어를 포함한다. 이들 형용사는 아래에 더욱 상세히 논의된다.

영어 관사는 블록(240)과 관련하여 위에서 논의 한 바 있다. 영어 관사는 모든 상황 하에서 생략될 수 있다. 그러나, 다른 언어에서의 관사는 특별한 취급을 요한다. 예를 들면, 독어의 정관사는 모든 상황 하에서 생략될 수 있다. 그러나, 부정관사는 모호성(동일한 형태가 "a" 혹은 "one"을 의미할 수 있기 때문에)으로 인하여 남겨둔다. 스페인어와 불어의 정관사는 생략되지만, 같은 철자의 접어적 대명사는 생략되지 않는다. 스페인어와 불어의 부정관사는 모호성(동일한 형태가 "a" 혹은 "one"을 의미할 수 있기 때문에)으로 인하여 남겨둔다.

부사는 ShortType 속성이 "Adverbs"이며, "wh" 단어(why, how, when 등등)로 분류되는 것들은 어떠한 형태로도 압축되지 않으며, 이는 아래에서 다룬다. 다른 부사는 철자의 감축(모음의 삭제, 자음의 삭제 또는 둘 다)이 행해지며, 이것에 관해서도 아래에서 더 자세히 다룬다.

회사명은 ShortType 속성이 "Company"이고, 이도 특별히 취급된다. 회사의 종류는 생략된다. 예를 들면, "Microsoft Corporation"은 단순히 "Microsoft"로 전환된다. 아래에서 논의하듯이, 간략화된 형태는 철자 감축과 격의 표준화를 행하게 된다.

접속사는 ShortType 속성이 "Conjs"이며, 이 또한 특별히 취급된다. 예를 들면, 영어의 접속사 "and", 불어의 "et", 그리고 독어의 "und"는 앰퍼샌드 기호(ampersand sign)로 바뀐다. 스페인어의 "y/e"는 이미 한 글자이기 때문에 감축되지 않는다. 다른 모든 접속사는 그대로 남겨두고, 후속 처리 단계에 맡겨진다.

다양한 종류의 명사도 특별히 취급된다. 절대적인 날짜와 시간은 ShortType "Dates"로 지정되고, 다음과 같은 방법으로 다루어진다. 달의 명칭이 고립되어 있을 시에는, 모든 언어에서 달의 긴 이름은 짧은 형태로 전환된다. 말미에 마침표가 있는 짧은 달의 명칭에서는 마침표가 제거된다. 생성된 짧은 형식에 대해서는 모음 압축, 격 표준화 등은 수행되지 않는다. 예를 들면, "lets meet in November"와 같은 구절에서 "November"는 "Nov"로 축약된다. 이와 마찬가지로, "lets meet in Nov."라는 구절에서도 "November"의 축약형도 "Nov"로 전환된다(다시 말하면, 뒤에 오는 점이 삭제된다).

모든 언어에서 그 달의 날짜가 정해지지 않은 달(및 년)은 단순히 그 달의 짧은 명칭으로 된다. 예를 들면, "November 2001"에서 "2001"이 현재 년인 경우, 이는 단순히 "Nov"으로 축약된다.

만약 날짜가 달과 현재 년이 아닌 년으로 되어 있다면, 숫자로 된 달과 분리 기호와 숫자로 된 년으로 전환된다. 예를 들면, "Nov 2002"는 "11/2002"(영어 및 불어의 경우) 또는 "11.2002"(다른 유럽의 언어들의 경우)로 전환된다.

마찬가지로, 미국 영어에서는 단일한 절대적인 날짜는 월/일/년의 숫자형식으로 표준화된다. 다른 언어에서의 날짜는 그들의 형식으로 표준화된다(예를 들어, 일본어는 항상 년-월-일의 형식을 사용한다). 영어 및 불어에서는 포워드 슬래시 기호가 분리 기호로 사용되는 반면, 스페인어와 독어에서는 마침표가 분리 기호로 사용된다.

년은 "오늘"의 년과 동일하거나 년과 2000을 더한 것이 "오늘"의 년과 동일하면 생략된다. 예를 들면, "23 July, 2001"은 "7/23"으로 전환된다. 뿐만 아니라, "Monday 23 July"는 "7/23"으로 전환된다.

마찬가지로, 자정도 역시 특별한 취급을 받는다. 자정도 역시 ShortType "Dates"에 의해 지정되며, 그 간략화된 형태는 "12am"이다. "12 12am"을 피하기 위한 특별한 경우로서, 일반적으로 쓰이는 "12 midnight"도 간략화된 형태가 "12am"이다.

영어에서의 날짜의 기간도 특별한 취급을 요한다. 예를 들면, "December 5th-9th"라는 말은 "12/5-9"로 전환된다. 또한, "December 5th-9th, 2002"도 "12/5-9/2002"로 전환된다.

오프셋 날짜도 역시 특별한 취급을 받으며, ShortType이 "OffsetDate"로 부여된다. 텍스트에서 "next Wednesday"라는 말이 확인되는 경우에 있어서는, 메시지가 보내지는(혹은 작성된) 날짜를 취하고 오프셋 날짜 "next Wednesday"가 정해진다. 따라서, 만약 메시지가 12월 1일 금요일에 보내졌다면, "next Wednesday"는 12얼 6일이 될 것이다. 따라서, "next Wednesday"라는 말은 "12/6"으로 전환된다.

요일은 ShortType이 "Days"가 된다. 모든 언어에서, 절대적인 날짜로 확실히 결정되지 않는 개별 요일은 그 요일의 간략화된 명칭으로 전환된다. 말미에 마침표를 갖는 짧은 명칭의 요일은 마침표를 제거시킨다. 모음 압축, 격 표준화 등등은 결과로서 나오는 간략화된 형태에는 수행하지 않는다. 예를 들면, "lets meet on Monday"라는 구절에서는 "Monday"라는 단어는 "Mon"으로 전환된다.

전자메일의 별칭이나 URL도 특별한 취급을 받는다. 전자메일 별칭과 URL은 격 표준화나 모음의 삭제 없이 유지되고, 그대로 남는다. 이메일은 ShortType이 "Email"이고 URL은 ShortType이 "URL"로 부여된다.

전화번호는 ShortType이 "Phone"으로 주어지고 그 안의 구두점이 제거된다. 예를 들면, "call me at (425) 703-7371"라는 말에서의 전화번호는 단순히 "4257037371"로 전환된다.

주와 나라는 ShortType이 "Geo"로 부여되고 그 관용적인 축약형으로 대체된다. 예를 들면, "Washington"은 "WA"로, "Alabama"는 "AL" 등등으로 대체된다.

언어가 아닌 항목은 ShortType이 "NotLanguage"로 부여되고 언어적 압축이 수행되지 않는다. 이런 항목들의 예는 다음과 같다.

x = x + y;

If (x = 1){

< Some XML > Content < /Some XML > <Foo/>.

철자로 쓴 숫자도 역시 특별한 취급을 요하며 ShortType이 "Number"로 부여된다. 철자로 쓴 숫자는 아라비아 숫자로 대체된다. 예를 들면, "one thousand four hundred twenty-five"라는 영어문구는 "1425"로 대체된다. 천 단위 사이의 분리 기호는 보다시피 사용되지 않았다.

돈에 대한 명명도 특별한 취급을 요하며 ShortType이 "Dollars"로 부여된다. 천 단위 대신에 "K"가 쓰인다. 백만 단위 대신에 "M"이 쓰이고, 십억 단위 대신에 "B"가 쓰인다. 예를 들면, $100,000는 $100K로 전환되고, $123,000,000는 $123M으로 전환되며, $2,000,000,000는 $2B로 전환된다. 또한, 이 간략화된 형태는 아래에서 설명하게 될 격 표준화의 대상이 아니다.

마찬가지로, 한 실시예에 의하면, 분수도 표시된다. 예를 들면, $2,250,000,000는 $2.25B로 전환된다. 또한, 화폐 단위와 함께 사용된 수치는 숫자와 더불어 그 화폐의 일반적인 기호로 표준화된다. 예를 들면, "one hundred dollars"는 "$100"로 전환된다. "57 pounds"는 "#57"로 전환된다. "500 Francs"는 "500Fr" 등등으로 전환된다.

고유명사도 특별한 취급을 요하며 ShortType이 "PrprN"으로 부여된다. 독어 이외의 언어에서는, 다단계의 고유명사는 가능하면 단순히 성씨로 축약된다. 예를 들면, "Dr. Mary Smith"는 "Smith"로 전환된다.

스페인어의 구로 된 성씨에 대해서는 첫째 부분으로 축약됨(예를 들면, "Cardoso de Campos"는 "Cardoso"로 축약된다)을 알아야 한다. 또한, 한 실시예에 따르면, 고유명사에 대해서는 모음 감축을 하지 않는다.

마찬가지로, 고유명사는 더욱 보편화된 이름을 위해 사전을 찾아볼 필요가 있다. 예를 들면, 고유명사 "Patrick"은 "Pat"로 대체될 수 있다. "William"이라는 이름은 "Will" 등으로 대체될 수 있다. 더욱이, 이름(given name)과 마지막 이니셜이 주어졌다면, 이는 단순히 이름(given name)으로 축약된다.

독어에서는, 텍스트 단편(fragment)에서 대문자로 시작하는 단어들을 많이 쓰기 때문에 고유명사가 더 까다롭다. 따라서, 독어에서는 한정어가 앞에 오는 고유명사는 압축되지 않는다.

소유격도 특별한 취급을 요하며 ShortType이 "Possessive"으로 부여된다. 영어에서는 "'s"와 "s'"가 있는 소유격은 아포스트로피 없이 다시 쓰여진다. 예를 들면, "John's house"라는 말은 "Johns house"로 쓸 수 있다. 마찬가지로, "dog's tails"는 "dogs tails"로 쓸 수 있다.

많은 전치사도 역시 특별한 취급을 요하며 ShortType이 "Preps"로 부여된다. 예를 들면, 영어에서 어떤 전치사는 일람표에 의하여 축약된다. 예를 들면, "through"는 "thru"로 축약된다. "at"라는 말은 "@"로 축약될 수 있다. "to"와 "for"라는 말도 어떤 상황에서는 숫자 "2"와 "4"로 축약할 수 있다. 이는 오로지 숫자나 숫자로 대신할 수 있는 철자로 완전히 쓴 숫자 옆에 쓰여지지 않은 경우에 만 이렇게 축약된다. 예를 들면, "I want to leave"라는 구절에서, "to"라는 말은 "2"로 대체된다. 그러나, "I have been to two good movies lately"라는 구절에서는 "to"라는 말은 "2"로 바뀌지 않는다. 왜냐하면, 화자가 스물 두 개의 좋은 영화를 봤다고 오해할 가능성이 있기 때문이다.

어떤 대명사는 특별한 취급을 요하며 ShortType이 "Pronouns"로 부여된다. 영어의 경우는 대명사 "you"가 "U"로 대체된다. 다른 모든 대명사는 모음 감축 없이 그대로 유지된다. 스페인어의 경우는 대명사 "Usted"는 "Ud"로, 그리고 "Ustedes"는 "Uds"로 대체된다. 독어에서는 "ein"(및 그 어형변화)을 포함하는 대명사는 숫자 "1"을 사용하여 축약된다.

구두점은 특별한 취급을 요하며 ShortType이 "Punctuation"으로 부여된다. 문장 분리 기호가 아니며 이메일 별칭 혹은 URL에 포함된 구두점이 아닌 것은 삭제된다. 필수 구두점은 ShortType이 "EssentialPunct"으로 부여된다. 모든 언어에 대해서, 다음에 오는 기호는 삭제되지 않는다. ~ : ¡¿? ! [ ] ( ) < > = == " ". 일어에서는 오로지 문장의 분리 기호로 쓰이는 특별한 작은 원 기호도 삭제되지 않는다. 세미콜론과 마침표는 문장을 종결하는 구두점이 아닌 경우에만 삭제된다. 그 이외의 모든 기호는 NonessentialPunctuation으로 정해진다(아래에서 설명됨).

그러나, 한 실시예에 의하면, 일련의 문장 종결 구두점은 첫 번째 기호로 감축된다. 따라서, "Are These Things removed?!?"와 같은 구절은 단순히 마지막 종결 기호가 "?"로 된다.

또한, 모든 언어에 대해서, 다른 압축 법칙에 의하면 자리수로 생각될 수 있 는 것들 사이에 오는 구두점은 그대로 유지된다. 예를 들면, "I bought 3 in 1976 and in 1977, 100"의 구절에서 1977100이라는 압축을 피하기 위해서 1977 다음의 콤마는 유지되어(혹은 한 칸 띄기가 선택적으로 유지된다), "1977,100" 또는 "1977 100"으로 압축된다.

마찬가지로, 영어에서는 인치와 푸트/피트 측정치의 구절은 적절한 " 또는 ' 로 전환된다.

다른 비필수적인 구두점은 특별한 취급을 요하며 ShortType이 "NonessentialPunct"로 부여된다. 팩토이드(factoid)(이메일 주소, URL, 숫자의 범위 등등) 내의 구두점은 그대로 유지된다. EssentialPunct와 접속사로 나타나는 구두점(예를 들면, 구를 분리하기 위한 세미콜론)을 제외하고 그런 팩토이드 내에 있지 않은 구두점은 삭제될 수 있다.

많은 동사도 특별한 취급을 요하며 ShortType이 "Verbs"로 부여된다. 이런 동사는 사전 찾기를 요한다. 예를 들면, "are"이라는 단어는 "R"이라는 글자로 대체될 수 있고, "be"라는 단어는 "B"로 대체될 수 있다. 다른 방법으로는, 동사는 아래에서 설명된 단순히 철자 감축 및 격 표준화가 행해진다.

특별한 취급의 다른 두 가지 형태도 아울러 수행된다. 하나는 단어를 대체하는 것과 관련이 있으며 ShortType이 "WordSubstitution"으로 주어지고, 나머지 하나는 위에서 언급한 "wh"로 된 말의 취급에 관한 것이다. 이들 특별 취급 유형에 대한 보다 자세한 설명은 본 설명의 나중에 나온다.

이제 논의는 다시 도 5a와 도 5b에 관해서 행해진다. 도 5a의 블록(244)에 서 위의 어떠한 특별한 취급도 이루어지지 않는다면, 분석되는 단어와 관련된 ShortForm 속성은 단순히 LongForm 속성(이는 텍스트에서 쓰여진 단어의 형태이다)으로 설정된다. 이는 블록(246)에 의해 나타나있다.

그러나, 만약 블록(244)에서 특별한 취급이 행해져야 한다고 결정되면, 그 다음에는 그 특별한 취급이 단어 대체인지를 결정하게 된다. 단어 대체는 단순히 사전 찾기에 기초하여 종종 수행된다. 예를 들면, 단어 대체는 다른 단어나 구절에 대한 두문자를 얻기 위해 수행될 수 있다. 예를 들면, 영어에서의 구절 "as soon as possible"은 "ASAP"으로 대체될 수 있다.

만약 그 특별한 취급이 단어 대체라면, ShortForm 속성을 얻기 위하여 텍스트의 단어에 대해서 필요한 단어 대체가 수행된다. 이는 블록(250)에 의해 나타나있다. 만약 단어 대체가 성공적이라면, CaseNormalizedForm(CNF) 속성과 CompressedForm(Comp) 속성은 둘 다 현재의 ShortForm에 있는 것과 같은 형식으로 설정된다. 이는 철자 감축이나 격 표준화 같은 후속 처리과정에서 이 단어를 제외시킨다. 이는 블록(252)에 의해 나타나있다. 따라서, 단어 대체과정은 다른 성가신 상황을 피하는 데에도 사용될 수 있다. 예를 들면, 독어에서 대명사 "sich"는 외설에 대한 일반적인 축약형이 될 수 있는 나중의 모음 삭제를 피하기 위하여 "sich"로 남겨질 것으로 요구될 수 있다. 특별한 취급이 단어 대체인지의 여부를 결정하는 것이 블록(248)에 의해 나타나있다.

만약 블록(248)에서 수행되어야 할 특별한 취급의 특정한 유형이 단어 대체가 아니라고 결정되면, 블록(254)에서 수행되어야 할 특별한 취급이 위에서 언급한 "wh" 단어와 관련된 것인지가 결정된다. 만약 그렇다면, "wh" 단어는 축소되지 않아야 함을 상기하라. 그런 경우에는, 남은 모든 속성들(ShortForm, CaseNormalizedForm 및 CompressedForm)이 LongForm으로 설정된다. 이는 블록(256)에 의해 나타나있다.

만약 블록(254)에서 수행되어야 할 특별한 취급이 "wh" 단어와 관련된 것이 아니라고 결정되면, 위에서 논의한 다른 특별 취급 중의 하나이어야 한다. 이런 경우에는, ShortForm 속성을 얻기 위하여 특정한 특별 취급 단계가 수행되고, ShortForm 속성이 저장된다. 이는 블록(258)에 의해 나타나있다.

일단 특별한 취급이 수행되고 ShortForm 속성이 얻어지면, 그 ShorTForm 속성은 공간 삭제를 위해 제출된다. 공간 제거를 할 필요가 있는지가 먼저 결정된다. 이는 블록(260)에 의해 나타나있다. 만약 그렇다면, ShortForm이 이하의 의사코드(pseudocode)에서 기술된 바와 같은 공간제거 알고리즘에 제시된다.

이 코드는 URL, 이메일 등의 앞에 오는 한 칸 및 그 뒤에 오는 한 칸의 공간은 삭제되지 않을 것임을 나타낸다. 그러나, 묘사(delineation)가 가능한 그 이외 의 경우에 있어서는, ShortForm 속성에서 공간이 제거될 것이다. 이는 블록(262)에 의해 나타나있다.

다음에, 격 표준화가 수행될 것인지가 결정된다. 이는 블록(264)에 의해 나타나있다. 예를 들면, 격에 민감한 URL과 이메일 및 기타 등등에는 격 표준화가 필요하지 않을 것이라는 것을 이해할 수 있을 것이다. 만약 그런 경우라면, 블록(266)에 의해 나타났듯이 CaseNormalizedForm 속성은 ShortForm 속성으로 설정된다. 그러나, 만약 격 표준화가 수행되어야 한다면, ShortForm 속성에서의 각 단어의 첫 글자는 대문자로 쓰며(토큰은 여러 단어로 구성될 수 있음을 상기), 그것은 CaseNormalizedForm 속성으로 저장된다. 이는 블록(268)에 의해 나타나있다.

그 후에는 더 이상의 압축이 행해질 것인지가 결정된다. 이는 블록(270)에 의해 나타나있다. 예를 들면, 위에서 언급한 많은 특별한 취급에 있어서, 모음 감축은 수행되어서는 안 된다(예를 들면, 영어에서의 대명사, "wh"로 된 단어, 고유명사 혹은 Mon, Tues 등등 과 같은 요일의 축약형). 마찬가지로, 두문자, 이메일 주소, URL 등에서는 모음과 자음은 제거되어서는 안 된다.

만약 더 이상의 압축이 수행되지 않는 것으로 결정되면, 블록(272)에 의해 나타났듯이 CompressedForm 속성은 CaseNormalizedForm 속성으로 설정된다. 그러나, 만약 더 이상의 압축이 수행된 것으로 결정되면, CaseNormalizedForm이 철자 감축을 위해 제시된다(모음과 자음의 제거와 같음).

본 논의에 대해서는, "중간 모음(medial vowels)"이라는 말은 한 단어의 처음에 오는 것이 아니고 마지막에 오는 것도 아닌 단일 모음 또는 일련의 모음을 뜻 한다. 영어에서는 모든 중간 모음은 제거된다.

독어에서 철자를 제거하는 것에 대해서는, 자음 집단 단순화 법칙이 우선 적용된다. 예를 들면, 지소형(指小形 : diminutive) 접미사 -schen의 경우를 제외하고는 자음 집단 "sch"는 "sh"로 단순화된다. 또한, 자음 지단 "ck"는 "k"로 단순화된다.

다음에, 단어 말미에 연속되는 -ein은 동음인 -1로 대체된다. 독어에서의 어떤 단어는 -ein으로 끝나지만, 숫자 일과 동음이 아니다. 그러한 단어들의 예는 다음과 같다.

만약 뒤에 오는 말이 숫자, 날짜, 시간 등등(가령, 숫자로 시작할 수 있는 그 어떤 것이라도)이면, "ein"으로 대체되지 않는다.

독어에서, 단 하나의 중간 모음만을 포함하는 단어에서는 모음을 삭제하지 않는다. 하나 보다 많은 중간 모음을 가진 단어에서는, 매 둘째 중간 모음마다 삭제된다. 자음과 단어 말미의 "ng"사이의 "u"자는 삭제된다. "ie"로 여전히 남아있는 모든 경우에 있어서는 "i"로 전환된다. 마지막으로, "e"라는 글자는 자음 뒤에 오면서 단어 말미에 오는 "l, m, n 혹은 r" 앞에 있으면 삭제된다. s 뒤에 오고 ch를 선행하는 경우에는 모음이 삭제되지 않는다는 것을 알 필요가 있다. 왜냐하면, 이는 독어를 읽는 사람들에게는 음절의 시작으로 해석하는 경향이 매우 강한 sch의 일련을 유발하게 되기 때문이다. 본 논의를 위해, 모음은 전형적으로 aeiou와 어떤 언어에서는 y를 포함하며, 액센트, 움라우트 및 기타 발음부호를 갖는 모든 형태를 포함한다. 영어, 독어, 불어 및 스페인어에서는 이하의 리스트로 충분하다.

영어, 독어, 불어 및 스페인어에서의 자음은 다음과 같다.

물론, 다른 언어를 위해 추가적인 자음 기호가 보태질 수가 있다.

블록(274)에 나타났듯이, 일단 철자 감축(모음과 자음 삭제)이 이루어지면, CompressedForm 속성이 얻어지고 저장된다. 이는 블록(276)에 의해 나타나있다. 마지막으로, 모든 다섯 가지 속성이 잠재적인 압축 옵션으로서 출력될 수 있다. 이는 블록(278)에 의해 나타나있다.

구문 파싱 트리를 통과하는 도중에 비종단 노드 단계에서도 역시 압축이 행해질 수 있음을 알아야한다. 한 실시예에 따르면, 구문 파싱에 기초하여 전체 구 절이 삭제된다. 예를 들면, "While I was stuck on the freeway, I remembered to ask you to send me the contact information for Dr. Mary Smith"라는 문장을 고려해보자. 이 예에서, 첫 부분의 종속절 문장 전체는 삭제될 수 있다. 다시 말하면, 구문 분석에 의해 이것이 종속절임을 나타내고, "while"이라는 종속 접속사가 이것이 때를 나타내는 부사절임을 나타낸다. 따라서, 이 구절 전체는 단순히 삭제되어 "I remembered to ask you to send me the contact information for Dr. Mary Smith"라는 문장을 얻을 수 있다. 1998년 12월 24일에 출원된 "SYSTEM FOR IMPROVING THE PERFORMANCE OF INFORMATION IDENTIFYING CLAUSES HAVING PREDETERMINED CHARACTERISTICS"이라는 제목의 특허출원번호 09/220,836은 종속절의 식별에 관한 것과 이 종속절이 상대적으로 중요한 성분을 내포하는지 여부에 관한 추가적인 정보를 제공한다.

비종단 노드 단계에서 압축하는 또 하나의 예는 화법 행위 동사에 관한 것이다. 화법 행위 동사는 언어학자들이 "보어를 취하는 술어"라고 일컫는 것의 하위분류이다. 영어에서의 모호성이 다음 문장에 나타나있다.

"John said that he was arriving next Wednesday."

한 독해에 의하면, "he"라는 말은 "John"과 관련이 있다. 또 다른 독해에 의하면, "he"는 다른 사람을 일컬을 수 있다. 이 문장의 어떤 요소는 출력을 입력보다 전혀 모호하지 않게 하거나 좀 덜 모호하게 하면서 다음과 같이 삭제될 수 있다.

만약 주절의 화법 행위 동사의 주체(이 경우 "John"은 "said"의 주체)가 종속절의 대주체(he)와 아마도 상호 관련이 있고, 이것이 어형 찾기로부터 알 수 있듯이 둘 다 모두 남성형임을 인식하는 것에 의해, 아니면 상호 관련성을 결정하기 위한 좀더 정교한 어의 분석에 의해 결정되면, 종속절의 대명사는 삭제될 수 있다. 종속 접속사 "that"도 삭제될 수 있어, 다음과 같은 문장이 남는다.

"John said was arriving next Wednesday".

종속절의 주어가 대명사이고, 그리고 아마도 주절의 주어와 상호 관련성이 있을 때만 삭제되도록 주의해야함을 알아야 한다. 예를 들면, 다음과 같은 경우에는 삭제되어서는 안 된다.

John said that she was arriving...

John said that Bill was arriving...

John said that they were arriving...

이 시점에서, 도 3에 예시된 예문을 따르는 것이 도움이 될 것이다. 앞서 말했듯이, 이 분석의 각 노드는 압축이 행해질 수 있는지를 결정하기 위하여 반복적으로 검사된다. 따라서, 문장 노드 (S)가 먼저 검사된다. 이 시점에서는 압축이 일어날 수 없으므로, 분석 처리과정은 더 깊이 진행되며, 명사구 노드(300)가 검사된다. 그 단계에서도 압축이 일어날 수 없으므로, 처리과정은 대명사 노드(302)로 진행된다. 대명사가 "you"임을 볼 수가 있다. 따라서, 특별 취급 규정에 의하여, 이는 "U"로 전화될 수가 있다. 이는 다음의 속성으로 귀착된다.

ShortType = Pronouns

LongForm = You

ShortForm = U

CNF = U

Comp. = U

다음 처리과정은 동사구 노드(304)와 관련하여 계속된다. 이 단계에서 어떠한 압축도 수행될 수 없음을 알 수 있으므로, 동사 노드(306)가 검사된다. "have"라는 단어는 도 5a와 도 5b에 나타난 흐름도를 단순히 통과하고, 격 표준화와 모음 제거의 대상이 되어 "Hve"를 얻는다. 이는 다음과 같은 속성으로 귀착된다(여기서 밑줄은 선행하는 칸을 나타낸다).

ShortType = VerbsDefault

LongForm = _have

ShortForm = _have

CNF = Have

Comp. = Hve

노드(308)에 대한 검사가 다시 이루어지고 이 단계에서 어떠한 압축도 이루어질 수 없음을 알 수 있다. 따라서, 노드(310)로 검사가 진행되며, 여기서 도 5a의 블록(240)에서 관사 "a"가 삭제되어 다음과 같은 결과가 얻어진다.

ShortType = Articles

LongForm = _a

ShortForm = Null

CNF = Null

Comp. = Null

그 후 노드(312)가 검사되며, 단어 대체가 행해져 다음과 같은 다섯 가지 속성이 얻어진다.

ShortType = WordSubstitution

LongForm = _meeting

ShortForm = Mtg

CNF = Mtg

Comp. = Mtg

그 후 전치사구 노드(314)가 검사되며, 그 단계에서는 어떠한 압축도 이루어질 수 없음이 결정된다. 따라서, 전치사 노드(316)가 검사된다. 처리과정은 도 5a와 도 5b의 흐름도를 통해 진행되며 격 표준화와 모음 제거가 수행되어 다음과 같은 다섯 가지 속성이 얻어진다.

ShortType = PrepsDefault

LongForm = _with

ShortForm = _with

CNF = With

Comp. = Wth

고유명사 노드(318)이 그 후 검사된다. 이 노드에서 ShortType PrprN을 사용하여 세 개의 단어 "Dr. John Epstein"이 압축될 수 있음을 알 수 있다. 이로써 다음과 같은 다섯 가지 속성이 얻어진다.

ShortType = PrprN

LongForm = _Dr._John_Epstein

ShortForm = _Epstein

CNF = Epstein

Comp. = Epstein

다음에, 노드(320)가 검사되며, 이 구절이 오프셋 날짜를 나타냄을 알게 된다. 이는 도 5a와 도 5b에 예시된 흐름도를 통하여 분석되며, 다음의 다섯 가지 속성이 얻어진다.

ShortType = OffsetDate

LongForm = _next_Tuesday

ShortForm = _12/3

CNF = 12/3

Comp. = 12/3

그 다음에, 노드(322)가 검사되며 이 노드에서 어떠한 압축도 이루어질 수 없음이 결정된다. 따라서, 전치사 노드(324)가 검사된다. 도 5a와 도 5b에 나타났듯이 처리과정을 통해서 "at"라는 말은 "@"으로의 단어 대체의 대상임을 알 수 있으며, 이래서 다음과 같은 다섯 가지 속성이 얻어진다.

ShortType = WordSubstitution

LongForm = _at

ShortForm = @

CNF = @

Comp. = @

마지막으로, 노드(326)가 검사되며 수행되는 유일한 압축은 철자로 쓴 "ten"이라는 단어를 숫자 "10"으로 대체하여 다음과 같은 다섯 가지 속성이 얻어진다.

ShortType = Numbers

LongForm = _ten_am

ShortForm = _10am

CNF = 10am

Comp. = 10am

압축기(202)는 텍스트의 최종 출력 압축 버전을 제공하기 위해서 이 데이터 구조에서 나타나는 다양한 압축 옵션 중에서 고르고 선택하는 것이 자유롭다. 아주 제한된 크기의 디스플레이 화면이 있는 목표 장치(205)의 경우처럼, 이는 매우 적극적으로 이루어질 수도 있고, 또는 가령 더 많은 디스플레이 공간이 있는 팜톱 컴퓨터의 경우처럼 덜 적극적으로 이루어질 수도 있다. 따라서, 예를 들면, 가장 적극적인 압축은 다음과 같다.

UHveMtgWthEpstein12/3@10am

매우 적극적인 압축의 경우에도, 이는 매우 판독 가능하고 해독 가능한 텍스트 메시지며, 도 3에 나열한 본래의 메시지보다 훨씬 많은 공간을 절약한다.

따라서, 본 발명이 엄청난 압축을 제공할 수 있으며, 인간에 의하여 해독이 쉽게 가능하도록 언어학적으로 매우 지능적인 방식으로 압축이 만들어짐을 알 수 있다. 또한, 개별 단어 및 구절에 대하여 대부분의 경우에 다양한 적극성의 정도를 반영하는 복수의 다른 압축 옵션을 제공한다. 이는 목표 장치에 가장 좋은 압축의 일련을 궁극적으로 선택해야 할 하위분류에 속하는 요소들에 매우 유용하다.

비록 본 발명이 특정한 실시예와 관련하여 설명되었지만, 이 기술에 능숙한 자는 본 발명의 사상 및 범주를 벗어나지 않으면서 형식과 세부사항에 변화를 줄 수 있음을 알 것이다.

본 발명에 의한 메시지의 매우 적극적인 압축의 경우에도, 이는 매우 판독 가능하고 해독 가능한 텍스트 메시지며, 도 3에 나열한 본래의 메시지보다 훨씬 많은 공간을 절약한다.

따라서, 본 발명이 엄청난 압축을 제공할 수 있음을 알 수 있고, 인간에 의하여 해독이 쉽게 가능하도록 언어학적으로 매우 지능적인 방식으로 압축이 만들어진다. 또한, 개별 단어 및 구절에 대하여 대부분의 경우에 다양한 적극성의 정도를 반영하는 복수의 다른 압축 옵션을 제공한다. 이는 목표 장치에 가장 좋은 압축의 일련을 궁극적으로 선택해야 할 하위분류에 속하는 요소들에 매우 유용하다.

Claims

압축 옵션들을 생성하기 위하여 텍스트 본문을 처리하는 방법에 있어서,

상기 텍스트 본문의 언어적 요소들을 나타내는 언어적 출력을 얻기 위하여 상기 텍스트 본문에 대하여 언어적 분석을 수행하는 단계,

상기 언어적 분석을 수행한 후에, 상기 언어적 출력에 기초하여 상기 텍스트 본문을 압축하기 위해 상기 텍스트 본문의 복수의 상이한 부분 각각에 대한 복수의 압축 옵션을 자동으로 생성하는 단계 -상기 압축 옵션들 각각은 상기 텍스트 본문의 부분의 인스턴스의 다른 압축된 형태를 포함함-, 및

상기 텍스트 본문의 압축된 형태를 출력하기 위하여, 상기 텍스트 본문의 상기 복수의 상이한 부분 각각에 대해 상기 복수의 압축 옵션 중 하나를 선택하는 단계

를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

상기 복수의 압축 옵션을 생성하는 단계는, 상기 복수의 압축 옵션을 얻기 위하여 상기 텍스트 본문의 상기 복수의 상이한 부분을 다양한 압축 법칙 세트들에 자동으로 적용시키는 단계를 포함하는 것을 특징으로 하는 방법.
제2항에 있어서,

상기 텍스트 본문의 상기 복수의 상이한 부분을 다양한 압축 법칙 세트들에 자동으로 적용시키는 단계는, 상기 압축 옵션들이 상기 텍스트 본문의 동일한 부분에 대한 다양한 압축의 정도를 반영하도록, 미리 정해진 순서에 의하여 상기 텍스트 본문의 각 부분을 상기 다양한 압축 법칙 세트들에 적용시키는 단계를 포함하는 것을 특징으로 하는 방법.
제3항에 있어서,

상기 복수의 압축 옵션을 자동으로 생성하는 단계는, 상기 텍스트 본문의 상기 각 부분에 적용되는 상기 압축 법칙 세트들 중 적어도 하나를 나타내는 압축 식별자 속성을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
제4항에 있어서,

상기 복수의 압축 옵션을 자동으로 생성하는 단계는, 상기 압축 법칙 세트들의 적용 후 상기 텍스트 본문의 상기 각 부분의 압축된 형태를 나타내는 ShortForm 속성을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
제5항에 있어서,

상기 복수의 압축 옵션을 자동으로 생성하는 단계는, 상기 ShortForm 속성에 기초하여 상기 ShortForm 속성의 CaseNormalizedForm을 나타내는 격 표준화 속성을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
제6항에 있어서,

상기 복수의 압축 옵션을 자동으로 생성하는 단계는, 상기 격 표준화된 속성의 더 압축된 형태를 나타내는 압축 속성을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
제7항에 있어서,

상기 압축 속성을 생성하는 단계는, 상기 CaseNormalizedForm에서 글자들의 미리 정해진 위치에 기초하여 상기 글자들을 제거하기 위하여 상기 격 표준화된 속성에 글자 제거 법칙을 적용하는 단계를 포함하는 것을 특징으로 하는 방법.
제8항에 있어서,

상기 복수의 압축 옵션을 자동으로 생성하는 단계는, 상기 텍스트 본문의 상기 각 부분에 대하여 실제적으로 어떠한 압축도 반영하지 않는 LongForm 속성을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
제9항에 있어서,

하나의 ShortForm 속성이 사전 찾기에 기초한 단어 대체를 포함하고,

상기 복수의 압축 옵션을 자동으로 생성하는 단계는, 상기 격 표준화된 속성과 상기 압축 속성을 상기 ShortForm 속성으로 설정하는 단계를 포함하는 것을 특징으로 하는 방법.
제5항에 있어서,

상기 언어적 분석을 수행하는 단계는 상기 텍스트 본문의 상기 각 부분에 대하여 구문 분석을 수행하는 단계를 포함하고,

상기 ShortForm 속성을 생성하는 단계는, 상기 구문 분석에 기초하여 상기 압축 법칙 세트들을 적용하는 단계를 포함하는 것을 특징으로 하는 방법.
제11항에 있어서,

상기 언어적 분석을 수행하는 단계는, 상기 구문 분석을 수행하는 단계 이전에,

상기 텍스트 본문에 대하여 어휘 분석을 수행하는 단계와,

상기 텍스트 본문에 대하여 어형 분석을 수행하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제5항에 있어서,

상기 ShortForm 속성을 생성하는 단계는, 날짜를 숫자로 된 형태로 표준화하는 단계를 포함하는 것을 특징으로 하는 방법.
제5항에 있어서,

상기 ShortForm 속성을 생성하는 단계는, 상기 텍스트 본문이 작성된 날짜에 기초하여 오프셋 날짜를 숫자로 된 형태로 표준화하는 단계는 포함하는 것을 특징으로 하는 방법.
제5항에 있어서,

상기 ShortForm 속성을 생성하는 단계는, 기호에 민감한 텍스트 단편(fragment)을 압축되지 않은 형태로 유지하는 단계를 포함하는 것을 특징으로 하는 방법.
제15항에 있어서,

상기 기호에 민감한 텍스트 단편을 유지하는 단계는, 완전히 그대로 유지되지 않는 한 정확히 이해할 수 없는 텍스트 단편은 압축되지 않은 형태로 유지하는 단계를 포함하는 것을 특징으로 하는 방법.
제16항에 있어서,

상기 텍스트 단편을 유지하는 단계는 URL과 전자메일 주소는 압축되지 않은 형태로 유지하는 단계를 포함하는 것을 특징으로 하는 방법.
제11항에 있어서,

상기 구문 분석은 상기 텍스트 본문의 복수 단어 부분을 나타내는 비종단(non-terminal) 노드와 상기 텍스트 본문의 단어를 나타내는 종단(terminal) 노드를 갖는 트리(tree)를 포함하며, 상기 비종단 노드와 종단 노드 모두가 압축 법칙의 적용을 위해 검사되는 것을 특징으로 하는 방법.
압축될 텍스트 본문의 복수의 압축된 형태를 나타내는 상기 텍스트 본문에 대한 언어적 분석으로부터 형성된 데이터 구조가 저장되어 있는 컴퓨터 판독가능한 기록 매체에 있어서,

각각 상기 텍스트 본문 내의 텍스트 용어(textual term)에 대응하는 복수의 상이한 섹션을 포함하며,

상기 섹션들 각각은 상기 텍스트 본문의 대응 텍스트 용어에 대한 복수의 상이한 압축된 형태를 표현하기 위해 선택될 수 있는 복수의 선택가능한 데이터 필드를 더 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 기록 매체.
제19항에 있어서,

상기 데이터 구조는 상기 복수의 압축된 형태 중 적어도 하나를 생성할 때 상기 텍스트 본문 내의 텍스트 용어에 적용되는 압축의 종류를 나타내는 압축 종류 속성을 더 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 기록 매체.
제20항에 있어서,

상기 복수의 압축된 형태는, 상기 압축 종류 속성에 의해 식별되는 압축의 종류를 적용한 후 상기 텍스트 본문 내의 텍스트 용어의 압축된 형태를 나타내는 ShortForm 속성을 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 기록 매체.
제21항에 있어서,

상기 복수의 압축된 형태는, 상기 ShortForm 속성에 기초하여, 상기 ShortForm 속성의 CaseNormalizedForm을 나타내는 격 표준화된 속성을 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 기록 매체.
제22항에 있어서,

상기 복수의 압축된 형태는, 상기 격 표준화된 속성의 더 압축된 형태를 나타내는 압축 속성을 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 기록 매체.
제23항에 있어서,

상기 데이터 구조는 상기 텍스트 본문 내의 텍스트 용어에 대하여 실제적으로 어떠한 압축도 나타내지 않는 LongForm 속성을 더 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 기록 매체.
메시지를 받고, 그 메시지의 텍스트 본문의 부분에 대한 상이한 형태들을 나타내는 압축 옵션들을 생성하는 메시지 처리기에 있어서,

상기 텍스트 본문을 분석하고 언어적 분석을 제공하도록 언어학적으로 구성된 언어 분석기,

상기 언어적 분석에 기초하여 상기 텍스트 본문 내의 복수의 개별 텍스트 세그먼트에 대한 복수의 상이한 압축된 형태를 자동으로 생성하도록 구성된 압축 형태 생성기, 및

상기 텍스트 본문 내의 상기 개별 텍스트 세그먼트들에 대한 상기 복수의 상이한 압축된 형태 중 선택된 것들을 나타내는 출력을 생성하도록 구성된 압축기

를 포함하는 것을 특징으로 하는 메시지 처리기.
제25항에 있어서,

상기 압축 형태 생성기는 상기 복수의 압축된 형태를 얻기 위하여, 상기 텍스트 본문 내의 상기 개별 텍스트 세그먼트들 각각에 복수의 상이한 압축 법칙 세트를 자동으로 적용하도록 구성된 것을 특징으로 하는 메시지 처리기.
제26항에 있어서,

상기 압축 형태 생성기는 상기 복수의 압축된 형태가 상기 텍스트 본문 내의 동일한 개별 텍스트 세그먼트에 대한 다양한 압축의 정도를 반영하도록 미리 정해진 순서에 의하여 상기 다양한 압축 법칙 세트들을 자동으로 적용하도록 더 구성된 것을 특징으로 하는 메시지 처리기.
제27항에 있어서,

상기 압축 형태 생성기는 상기 텍스트 본문 내의 상기 개별 텍스트 세그먼트에 적용되는 상기 압축 법칙 세트들 중 적어도 하나를 나타내는 압축 식별자 속성을 생성하도록 더 구성된 것을 특징으로 하는 메시지 처리기.
제27항에 있어서,

상기 압축 형태 생성기는 그 출력에서, 상기 복수의 압축 형태를 나타내는 복수의 속성, 및 상기 압축 식별자 속성을 포함하는 데이터 구조를 제공하도록 구성된 것을 특징으로 하는 메시지 처리기.
제29항에 있어서,

상기 복수의 속성은,

상기 압축 법칙 세트의 적용 후에, 상기 텍스트 본문의 상기 개별 텍스트 세그먼트의 압축된 형태를 나타내는 ShortForm 속성,

상기 ShortForm 속성에 기초하여, 상기 ShortForm 속성의 CaseNormalizedForm을 나타내는 격 표준화된 속성, 및

상기 격 표준화된 속성의 더 압축된 형태를 나타내는 압축 속성

을 포함하는 것을 특징으로 하는 메시지 처리기.
제30항에 있어서,

상기 복수의 속성은, 상기 텍스트 본문 내의 상기 개별 텍스트 세그먼트에 대해 실제적으로 어떠한 압축도 반영하지 않는 LongForm 속성을 더 포함하는 것을 특징으로 하는 메시지 처리기.