KR20020069229A - 텍스트 도큐먼트들을 압축하기 위한 방법 및 장치 - Google Patents

텍스트 도큐먼트들을 압축하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR20020069229A
KR20020069229A KR1020027008543A KR20027008543A KR20020069229A KR 20020069229 A KR20020069229 A KR 20020069229A KR 1020027008543 A KR1020027008543 A KR 1020027008543A KR 20027008543 A KR20027008543 A KR 20027008543A KR 20020069229 A KR20020069229 A KR 20020069229A
Authority
KR
South Korea
Prior art keywords
document
data elements
xml
elements
tag
Prior art date
Application number
KR1020027008543A
Other languages
English (en)
Inventor
크라신스키레이몬드
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20020069229A publication Critical patent/KR20020069229A/ko

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

압축된 XML 도큐먼트가 압축해제됨이 없이 처리되도록 하는 방식으로 XML 또는 SGML 도큐먼트들과 같은 태그 기반의 마크업 언어(tag-based markup language)를 사용하여 부호화된 텍스트 도큐먼트들을 압축하기 위한 방법 및 방치가 개시된다. 도큐먼트는 그 도큐먼트의 데이터 요소에만 이용되는 표준 압축 알고리즘을 이용하여 압축된다. 데이터 요소들 상에 계층 구조를 부과하는 XML 도큐먼트의 태그 요소들은 압축되지 않는다. 데이터 요소들의 계층 관계는 압축된 도큐먼트로부터 확정될 수 있다. 사용자는 전에 도큐먼트를 압축해제하지 않고, 도큐먼트의 원하는 부분만을 선택적으로 압축해제할 수 있다. 이용된 압축 기술의 식별은 XML 도큐먼트의 루트 노드 태그 요소에 또는 XML 도큐먼트에 삽입되는 부가적인 태그 요소에 삽입될 수 있다. XML 복호기는 압축된 데이터의 계층 구조를 확정하기 위해 압축되지 않은 태그 요소들을 이용할 수 있으며, 도큐먼트의 대응 계층 표현을 사용자에게 제공할 수 있다.

Description

텍스트 도큐먼트들을 압축하기 위한 방법 및 장치{Method and apparatus for compressing textual documents}
XML(Extensible Markup Language)은 월드 와이드 웹 협회(World Wide Web Consortium: W3C)에 의해 추천된 텍스트 정보를 부호화하기 위한 표준이다. 마찬가지로, SGML(Standard Generalized Markup Language)은 XML보다 앞서고 XML에 대해 선구자인 국제 표준(ISO 8879) 메타-언어이다. SGML은 도큐먼트 구조를 설명하기 위한 언어이다. XML은 사용하기에 보다 쉬운 SGML의 간이화한 것이다. XML 및 SGML 표준들의 논의에 대해서는, 예를 들어 각각 본 명세서에 포함된, XML(Extensible Markup Language)1.0 W3C Recommendation,
http://www.w3.org/TR/1998/REC-xml-19980210, 및
http://www.w3org/markup/SGML/overview.html를 보라.
예시적인 XML 표준은 XML 인에이블된 어플리케이션들이 부호화된 정보의 교환을 위해 다른 순응 시스템들(compliant systems)과의 상호 동작을 가능하게 한다. XML 도큐먼트들은 계층 트리 구조에 텍스트 데이터를 저장한다. 각각의 XML 도큐먼트는 종종 루트 요소라고 하는 하나의 루트 노드(root node)를 가지며, 계층 트리 구조에서 다른 노드들은 루트 노드의 도큐먼트들로서 배치된다. 각각의 XML 도큐먼트는 두 가지 유형의 요소들, 즉 데이터 요소들과 데이터 요소들 상에 계층 구조를 부과하는 대응 태그(tag) 요소들을 포함한다.
XML 도큐먼트들이 텍스트 정보만을 포함하므로, 도큐먼트들은 아주 커지게 될 수 있다. 전송 및 저장을 위한 XML 도큐먼트들의 크기를 줄이기 위해서, 텍스트 정보에 적합한 표준 압축 알고리즘들은 전체 XML 도큐먼트들에 인가되었다. 전체 XML 도큐먼트들에의 이러한 표준 압축 기술들의 응용은 이러한 XML 도큐먼트들의 전체 크기를 줄이기 위해 효과적인 기술이지만, 이 기술은 해소된다면, 압축된 XML 도큐먼트들의 효율성 및 유용성을 상당히 향상시킬 수 있는 많은 제한을 받는다. 특히, 이러한 종래 XML 도큐먼트 압축 기술들에 의해 생성된 압축된 XML 도큐먼트들은 유용하게 압축해제되어야만 한다. 그러므로, 도큐먼트가 압축된 형태로 처리되게 하는 방식으로 XML 도큐먼트들을 압축하는 방법 및 장치에 대한 필요성이 존재한다.
본 발명은 정보의 압축에 관한 것으로, 특히 XML(Extensible Markup Language) 또는 SGML(Standard Generalized Markup Language)과 같은, 태그 기반의 마크업 언어들을 이용하여 부호화되는 텍스트 도큐먼트들(textual documents)의 압축에 관한 것이다.
도 1은 본 발명이 동작할 수 있는 대표적인 네트워크 환경을 보여주는 도면.
도 2a는 비압축된 형식의 종래 계층적 XML 도큐먼트를 보여주는 도면.
도 2b는 도 2a의 계층적 XML 도큐먼트 트리(tree)에 필요한 대응하는 종래 의사 코드(pseudo-code)의 부분을 보여주는 도면.
도 2c는 본 발명의 일실시예에 따라 압축된 것으로서 도2b의 의사 코드를 보여주는 도면.
도 2d는 본 발명의 또 다른 실시예에 따라 압축된 것으로서 도 2b의 의사 코드를 보여주는 도면.
도 2e는 본 발명에 따르는 압축된 형식의 계층적 XML 도큐먼트를 보여주는 도면.
도 3은 본 발명에 따라 예시적인 XML 전송기의 구조를 도시한 블록도.
도 4는 도 3의 XML 전송기에 의해 행해진 예시적인 XML 압축 처리(400)를 설명하는 흐름도.
(발명의 요약)
일반적으로, 압축된 XML 도큐먼트가 압축해제됨이 없이 처리되도록 하는 방식으로 XML 또는 SGML 도큐먼트들과 같은 태그 기반의 마크업 언어(tag-based markup language)를 사용하여 부호화된 텍스트 도큐먼트들을 압축하기 위한 방법 및 방치가 개시된다. 본 발명은 도큐먼트의 데이터 요소들에만 적용되는 표준 압축 알고리즘을 이용하여 텍스트 도큐먼트를 압축한다. 데이터 요소들 상에 계층 구조를 부과하는 도큐먼트의 태그 요소들은 압축되지 않는다. 그러므로, 본 발명은 데이터 요소들의 계층 관계가 압축된 도큐먼트로부터 확인되도록 한다. 일단 데이터 요소들의 계층 관계가 압축된 도큐먼트로부터 얻어지면, 사용자는 전체 도큐먼트를 압축해제하지 않고, 도큐먼트의 원하는 부분들을 선택적으로 압축해제할 수 있다.
하나의 예시적인 실시예에서, 이용된 압축 기술의 식별(identification)이 도큐먼트의 루트 노드 태그 요소에 삽입된다. 또 다른 예시적인 실시예에서, 부가적인 태그 요소 쌍이 도큐먼트에 삽입되고, 이용된 압축 기술의 식별이 부가적인 태그 요소 쌍에 삽입된다. 본 발명은 압축된 데이터의 계층 구조를 확정하도록 복호기가 그 밖의 압축된 도큐먼트 내의 압축되지 않는 태그 요소들을 이용할 수 있게 한다.
본 발명의 추가적인 특징들 및 이점들뿐만 아니라, 본 발명의 더 완벽한 이해가 이하 상세한 설명 및 도면들을 참조하여 얻어진다.
도 1은 본 발명이 동작할 수 있는 네트워크 환경(100)을 보여준다. 도 1에 도시된 바와 같이, 도 3과 관련하여 이하에서 논의되는 XML 전송기(300)는 XML 수신기(400)에 압축된 XML 도큐먼트를 전송한다. 본 발명의 또 다른 응용에서, 압축된 XML 도큐먼트가 저장을 위한 서버(도시되지 않음)에 네트워크(100)를 통해 전송되거나, XML 전송기(300)에 의해 국부적으로 저장될 수 있다.
도 2a는 XML 도큐먼트 트리(200)를 보여주며, 도 2b는 도 2a의 XML 트리(200)를 구성하는데 필요한 대응 의사코드(pseudo-code)(250)의 부분을 보여준다. 도 2a에 도시된 바와 같이, XML 도큐먼트 트리(200)는 루트 노드(205) 및 다수의 서브노드들(210,220,230,240,245)을 포함한다. 도 2b에 도시된 바와 같이, 도큐먼트(200)와 같은 XML 도큐먼트는 두 가지 유형의 요소들, 즉 데이터 요소들 및 데이터 요소 상에 계층 구조를 부과하는 대응하는 태그 요소들을 포함한다. 도 2b에서 사용된 예시적인 개념들에서, 각각의 태그 요소는 데이터 요소들로부터 태그 요소들을 구별하기 위해 꺾쇠 "<>" 내에서 식별됨이 주시된다.
도 2b에 도시된 바와 같이, XML 언어의 일 특징은 태그 요소들이 각각의 노드에 대응하는 개방형 및 폐쇄형 태그 요소로서 매치된 쌍으로 이용된다는 것이다. 주어진 노드에 직접 대응하지 않는 부가적인 태그 요소 쌍들이 또한 공지된 방식으로 XML 도큐먼트 내에 포함될 수 있음이 주시된다.
본 발명에 따라, XML 전송기(300)는 도큐먼트의 데이터 요소에만 이용되는 표준 압축 알고리즘을 이용하여 XML 도큐먼트(200)를 압축한다. 그러므로, 태그 요소들은 압축되지 않는다. 다른 이익들 중에서, 본 발명의 압축 기술은 도큐먼트를 압축해제하지 않고, 도큐먼트가 표준 XML 분석기들(parsers)에 의해 유효하게 되도록 한다. 또한, 본 발명은 사용자가 압축된 도큐먼트로 작업을 하고, 압축된 데이터를 실질적으로 압축해제하지 않고 압축된 데이터의 계층 구조를 확인하도록 한다. 그러므로, 그후에 사용자는 도큐먼트의 원하는 부분만을 선택적으로 압축할 수 있다.
도 2c 및 2d는 도 2b의 의사코드가 어떻게 본 발명의 두 개의 예시적인 실시예들에 따라 압축되는지를 보여준다. 도 2c 및 2d에 도시된 바와 같이, 표준 압축 알고리즘은 XML 도큐먼트(200)의 데이터 요소들에만 이용되고 태그 요소들은 압축되지 않는다. 도 2c에 도시된 제 1의 예시적인 실시예에서, 이용된 압축 기술(265)의 식별이 루트 노드 태그 요소에 삽입된다. 도 2d에 도시된 제 2의 예시적인 실시예에서, 이용된 압축 기술을 나타내는 부가적인 태그 요소 쌍(275,276)이 의사코드(270)에 삽입된다. 본 발명의 두 개의 예시적인 실시예들 모두에서, 도큐먼트 유형 정의들(Document Type Definitions: DTD)에 대한 XML 프로비젼들(provisions)은 이용된 압축 알고리즘의 표시를 지지하기 위해 변형된다.
도 2e는 본 발명에 따른 압축된 형태로 XML 도큐먼트(200')의 계층 표현을 보여준다. XML 복호기는 압축된 데이터의 계층 구조를 확정하기 위해 압축된 XML 도큐먼트(200')의 압축되지 않은 태그 요소들을 이용할 수 있으며 도 2e에 도시된 계층 표현을 사용자에게 제공할 수 있다.
도 3은 본 발명에 따른 예시적인 XML 전송기(300)의 아키텍처를 보여주는 블록도 이다. XML 전송기(300)는 도 3에 도시된 일반적인 목적의 컴퓨팅 시스템(computing system)과 같은 일반적인 목적의 컴퓨팅 시스템 구현될 수 있다. 도 3에 도시된 바와 같이, XML 전송기(300)는 바람직하게는 분배되거나 로컬(local)일 수 있는 프로세서(310) 및 데이터 저장 장치(320)와 같은 관련 메모리를 포함한다. 프로세서(310)는 단일의 프로세서, 또는 병렬로 동작하는 다수의로컬 또는 분배된 프로세서들로서 구현될 수 있다. 데이터 자장 장치(320) 및/또는 리드 온리 메모리(read only memory: ROM)(도시되지 않음)는 하나 이상의 명령들을 저장하도록 동작할 수 있으며, 프로세서(310)는 검색, 해석 및 실행하도록 동작할 수 있다.
데이터 저장 장치(320)는 메모리로부터 검색되거나 실시간으로 생성될 수 있는 텍스트 소스(350)를 포함한다. 그러므로, 텍스트 소스(350)는 데이터베이스 또는 다른 도큐먼트, 또는 예컨대 키보드(도시되지 않음)로부터 텍스트 정보를 엔터(enter)하는 사용자에 의해 또는 스피치(speech) 인식 시스템(도시되지 않음)에 의해 실시간으로 생성된 도큐먼트와 같은 미리기록된 텍스트 파일일 수 있다. 데이터 저장 장치(320)는 또한 텍스트 정보를 압축하기에 적합한 하나 이상의 압축 알고리즘(들)(360)을 포함한다. 예를 들면, 압축 알고리즘(들)(360)은 본 발명의 특징들 및 기능들을 실행하기 위해 변형된 것으로서, 미국, 코네티컷, 맨스필드 소재의 Nico Mak Computing, Inc로부터 상업적으로 이용가능한, WinZipTM압축 유틸리티 어플리케이션으로서 구현될 수 있다. 그러므로, XML 전송기(300)는 본 발명에 따라, 압축된 도큐먼트를 생성하기 위해 식별된 압축 알고리즘을 이용하여 텍스트 소스(350)를 처리할 수 있다.
데이터 저장 장치(320)는 또한 XML 도큐먼트(200)에서 각각의 데이터 필드를 압축하고, 압축해제된 각각의 태그를 남기는, 도 4와 관련하여 이하에서 논의되는 XML 압축 프로세스(400)를 포함한다.
도 4는 도 3의 XML 전송기(300)에 의해 실행된 예시적인 XML 압축프로세스(400)를 설명하는 흐름도이다. 앞서 나타낸 바와 같이, XML 압축 프로세스(400)는 XML 도큐먼트(200) 내의 각 데이터 필드를 압축하고 압축해제된 각각의 태그를 남긴다. 도 4에 도시된 바와 같이, XML 압축 프로세스(400)는 예컨대 단계(410) 동안 텍스트 소스(350)(도 3)로부터 압축될 XML 도큐먼트(200)를 초기에 검색한다.
그 다음에, XML 압축 프로세스(400)는 단계(420) 동안 XML 도큐먼트(200)의 데이터 요소들에만 표준 압축 알고리즘(360)(도 3)을 이용한다. XML 압축 프로세스(400)는 그후에 도 2c에 도시된 실시예에 따라, 이용된 압축 알고리즘(360)의 식별자(265)를 단계(430)에서의 루트 노드 태그에 삽입하거나, 또는, 도 2d에 도시된 실시예에 따라, 이용된 압축 알고리즘(360)을 나타내는 부가적인 태그 요소 쌍(275)을 의사코드(270)에 삽입한다. 이런 식으로, XML 복호기는 압축된 XML 도큐먼트(200)를 압축해제하도록 동일한 압축 알고리즘(360)을 이용할 수 있다.
마지막으로, 단계(440)에서, XML 압축 프로세스(400)는 네트워크(100)를 통해 수신기(100)에 압축된 XML 도큐먼트(200)를 전송하거나, 또는 압축된 XML 도큐먼트(200)를 저장(원격 또는 로컬 저장)한다. 프로그램 제어는 그후에 단계(450) 동안 종료된다.
본 명세서에 보여지고 설명된 실시예들 또는 변종들은 단순히 본 발명의 원리를 예시하는 것이며, 다양한 변형들이 본 발명의 범위와 사상에서 벗어남이 없이 기술분야의 당업자에 의해 구현될 수 있음을 이해해야한다.

Claims (19)

  1. 데이터 요소들 및 상기 데이터 요소들 상에 계층 구조를 부과하는 태그(tag) 요소들로 구성된 텍스트 도큐먼트(textual document:200)를 압축하는 방법에 있어서,
    상기 도큐먼트(200) 내의 상기 데이터 요소들을 식별하는 단계와,
    압축 알고리즘을 이용하여 상기 도큐먼트(200) 내의 상기 데이터 요소들만을 압축하는 단계를 포함하는, 압축 방법.
  2. 제 1항에 있어서, 상기 도큐먼트(200) 내에 상기 압축 알고리즘의 식별자(identifier)를 삽입하는 단계를 더 포함하는, 압축 방법.
  3. 제 2항에 있어서, 상기 도큐먼트(200) 내에 상기 압축 알고리즘의 식별자를 삽입하는 상기 단계는 루트 노드 태그 요소(root node tag element) 내에 상기 식별자들 삽입하는, 압축 방법.
  4. 제 2항에 있어서, 상기 도큐먼트(200) 내에 상기 압축 알고리즘의 식별자를 삽입하는 상기 단계는 상기 도큐먼트(200) 내에 새로운 태그 요소를 삽입하는 단계와 상기 새로운 태그 요소 내에 상기 식별자를 삽입하는 단계를 더 포함하는, 압축 방법.
  5. 제 1항에 있어서, 상기 압축된 도큐먼트를 전송하는 단계를 더 포함하는, 압축 방법.
  6. 제 1항에 있어서, 상기 압축된 도큐먼트를 저장하는 단계를 더 포함하는, 압축 방법.
  7. 제 1항에 있어서, 상기 도큐먼트(200)가 텍스트 입력 장치를 동작시키는 사용자에 의해 실시간으로 생성되는, 압축 방법.
  8. 제 1항에 있어서, 상기 도큐먼트(200)가 스피치 인식 시스템(speech recognition system: 300)에서 생성되는, 압축 방법.
  9. 도큐먼트를 압축하는 방법으로서, 상기 도큐먼트(200)는 데이터 요소들 및 상기 데이터 요소들 상에 계층 구조를 부과하는 태그 요소들로 구성되는, 상기 도큐먼트 압축 방법에 있어서,
    압축 알고리즘을 이용하여 상기 도큐먼트(200) 내의 상기 데이터 요소들만을 압축하는 단계와,
    상기 도큐먼트(200) 내에 상기 압축 알고리즘의 식별자를 삽입하는 단계를 포함하는, 압축 방법.
  10. 제 9항에 있어서, 상기 도큐먼트(200) 내에 상기 압축 알고리즘의 식별자를 삽입하는 상기 단계는 루트 노드 태그 요소들 내에 상기 식별자들 삽입하는, 압축 방법.
  11. 제 9항에 있어서, 상기 도큐먼트(200) 내에 상기 압축 알고리즘의 식별자를 삽입하는 상기 단계는 상기 도큐먼트(200) 내에 새로운 태그 요소를 삽입하는 단계와 상기 새로운 태그 요소 내에 상기 식별자를 삽입하는 단계를 더 포함하는, 압축 방법.
  12. 제 9항에 있어서, 상기 압축된 도큐먼트를 전송하는 단계를 더 포함하는, 압축 방법.
  13. 제 9항에 있어서, 상기 압축된 도큐먼트를 저장하는 단계를 더 포함하는, 압축 방법.
  14. 제 9항에 있어서, 상기 도큐먼트(200)는 텍스트 입력 장치를 동작시키는 사용자에 의해 실시간으로 생성되는, 압축 방법.
  15. 제 9항에 있어서, 상기 도큐먼트(200)는 스피치 인식 시스템(300)에 의해 실시간으로 생성되는, 압축 방법.
  16. 도큐먼트를 압축하기 위한 시스템(300)으로서, 상기 도큐먼트(200)는 데이터 요소들 및 상기 데이터 요소들 상에 계층 구조를 부과하는 태그 요소들로 구성되는, 상기 시스템에 있어서,
    콘텐트(content)와 컴퓨터 판독가능 코드를 저장하기 위한 메모리(310)와,
    상기 메모리(310)에 동작가능하게 결합된 프로세서(320)로서, 상기 프로세서(320)는,
    상기 도큐먼트(200) 내의 상기 데이터 요소들을 식별하고,
    압축 알고리즘을 이용하여 상기 도큐먼트(200) 내의 상기 데이터 요소들만을 압축하도록 구성되는, 상기 프로세서를 포함하는, 시스템.
  17. 도큐먼트를 압축하기 위한 시스템(300)으로서, 상기 도큐먼트(200)는 데이터 요소들 및 상기 데이터 요소들 상에 계층 구조를 부과하는 태그 요소들로 구성되는, 상기 시스템에 있어서,
    콘텐트 및 컴퓨터 판독가능 코드를 저장하기 위한 메모리(310)와,
    상기 메모리(310)에 동적으로 결합된 프로세서(320)로서,
    압축 알고리즘을 이용하여 상기 도큐먼트(200) 내의 상기 데이터 요소들만을 압축하고,
    상기 도큐먼트(200) 내에 상기 압축 알고리즘의 식별자를 삽입하도록 구성되는, 상기 프로세서(320)를 포함하는, 시스템.
  18. 도큐먼트를 압축하기 위한 제조물로서, 상기 도큐먼트(200)는 데이터 요소들 및 상기 데이터 요소들 상에 계층 구조를 부과하는 태그 요소들로 구성되는, 상기 제조물에 있어서,
    컴퓨터 판독가능 코드 수단이 내장된 컴퓨터 판독가능 매체로서, 상기 컴퓨터 판독가능 프로그램 코드 수단은,
    상기 도큐먼트(200) 내의 상기 데이터 요소들을 식별하는 단계와,
    압축 알고리즘을 이용하여 상기 도큐먼트(200) 내의 상기 데이터 요소들만을 압축하는 단계를 포함하는, 상기 컴퓨터 판독가능 프로그램 코드 수단을 포함하는, 제조물.
  19. 도큐먼트를 압축하기 위한 제조물(article)로서, 상기 도큐먼트(200)는 데이터 요소들 및 상기 데이터 요소들 상에 계층 구조를 부과하는 태그 요소들로 구성되는, 상기 제조물에 있어서,
    컴퓨터 판독가능 코드 수단이 내장된 컴퓨터 판독가능 매체로서, 상기 컴퓨터 판독가능 프로그램 코드 수단은,
    압축 알고리즘을 이용하여 상기 도큐먼트(200) 내의 상기 데이터 요소들만을 압축하는 단계와,
    상기 도큐먼트(200) 내에 상기 압축 알고리즘의 식별자를 삽입하는 단계를포함하는, 상기 컴퓨터 판독가능 프로그램 코드 수단을 포함하는, 제조물.
KR1020027008543A 2000-10-30 2001-10-23 텍스트 도큐먼트들을 압축하기 위한 방법 및 장치 KR20020069229A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/699,609 US6850948B1 (en) 2000-10-30 2000-10-30 Method and apparatus for compressing textual documents
US09/699,609 2000-10-30
PCT/EP2001/012350 WO2002037318A2 (en) 2000-10-30 2001-10-23 Method and apparatus for compressing textual documents

Publications (1)

Publication Number Publication Date
KR20020069229A true KR20020069229A (ko) 2002-08-29

Family

ID=24810079

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020027008543A KR20020069229A (ko) 2000-10-30 2001-10-23 텍스트 도큐먼트들을 압축하기 위한 방법 및 장치

Country Status (5)

Country Link
US (1) US6850948B1 (ko)
EP (1) EP1334439A2 (ko)
JP (1) JP2004513433A (ko)
KR (1) KR20020069229A (ko)
WO (1) WO2002037318A2 (ko)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2813743B1 (fr) * 2000-09-06 2003-01-03 Claude Seyrat Procede de compression/decompression de documents structures
FR2818409B1 (fr) * 2000-12-18 2003-03-14 Expaway Procede pour diviser des documents structures en plusieurs parties
JP3832807B2 (ja) * 2001-06-28 2006-10-11 インターナショナル・ビジネス・マシーンズ・コーポレーション データ処理方法及びその手法を用いたエンコーダ、デコーダ並びにxmlパーサ
US7516198B1 (en) * 2001-10-30 2009-04-07 Cisco Technology, Inc. Arrangement for providing content-based quality of service for a service flow based on parsing XML tags detected from a server response to a client request
US7370120B2 (en) * 2001-12-07 2008-05-06 Propel Software Corporation Method and system for reducing network latency in data communication
US20030185301A1 (en) * 2002-04-02 2003-10-02 Abrams Thomas Algie Video appliance
US20030185302A1 (en) * 2002-04-02 2003-10-02 Abrams Thomas Algie Camera and/or camera converter
US20040199660A1 (en) * 2003-02-14 2004-10-07 Nokia Corporation Method of multiplexing compressed and uncompressed internet protocol packets
KR100803285B1 (ko) * 2003-10-21 2008-02-13 한국과학기술원 역 산술 부호화와 타입 추론 엔진을 이용한 질의 가능 엑스-엠-엘 압축 방법
US7318194B2 (en) * 2004-01-13 2008-01-08 International Business Machines Corporation (Ibm) Methods and apparatus for representing markup language data
US8769401B2 (en) * 2004-08-05 2014-07-01 Digi International Inc. Method for compressing XML documents into valid XML documents
US20060234681A1 (en) * 2005-04-18 2006-10-19 Research In Motion Limited System and method for data and message optimization in wireless communications
US7567586B2 (en) * 2005-10-31 2009-07-28 Microsoft Corporation Above-transport layer message partial compression
US8024427B2 (en) * 2006-01-09 2011-09-20 Microsoft Corporation Dynamic storage of documents
US7593949B2 (en) * 2006-01-09 2009-09-22 Microsoft Corporation Compression of structured documents
US7853573B2 (en) * 2006-05-03 2010-12-14 Oracle International Corporation Efficient replication of XML data in a relational database management system
US20070300147A1 (en) * 2006-06-25 2007-12-27 Bates Todd W Compression of mark-up language data
FR2926378B1 (fr) * 2008-01-14 2013-07-05 Canon Kk Procede et dispositif de traitement pour l'encodage d'un document de donnees hierarchisees
CN102473175B (zh) * 2009-07-31 2015-02-18 惠普开发有限公司 Xml数据的压缩
CN102053990A (zh) * 2009-10-30 2011-05-11 国际商业机器公司 结构化文档的处理方法和设备
JP6273969B2 (ja) * 2014-03-28 2018-02-07 富士通株式会社 データ加工装置、情報処理装置、方法、およびプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09146931A (ja) 1995-11-24 1997-06-06 Dainippon Screen Mfg Co Ltd 文書型定義生成装置
AUPO489297A0 (en) 1997-01-31 1997-02-27 Aunty Abha's Electronic Publishing Pty Ltd A system for electronic publishing
US5991713A (en) * 1997-11-26 1999-11-23 International Business Machines Corp. Efficient method for compressing, storing, searching and transmitting natural language text
EP0928070A3 (en) 1997-12-29 2000-11-08 Phone.Com Inc. Compression of documents with markup language that preserves syntactical structure
US6012098A (en) 1998-02-23 2000-01-04 International Business Machines Corp. Servlet pairing for isolation of the retrieval and rendering of data
JP4003854B2 (ja) 1998-09-28 2007-11-07 富士通株式会社 データ圧縮装置及び復元装置並びにその方法
US6635088B1 (en) * 1998-11-20 2003-10-21 International Business Machines Corporation Structured document and document type definition compression
US6393456B1 (en) 1998-11-30 2002-05-21 Microsoft Corporation System, method, and computer program product for workflow processing using internet interoperable electronic messaging with mime multiple content type
US6175820B1 (en) * 1999-01-28 2001-01-16 International Business Machines Corporation Capture and application of sender voice dynamics to enhance communication in a speech-to-text environment

Also Published As

Publication number Publication date
WO2002037318A3 (en) 2003-06-05
JP2004513433A (ja) 2004-04-30
US6850948B1 (en) 2005-02-01
WO2002037318A2 (en) 2002-05-10
EP1334439A2 (en) 2003-08-13

Similar Documents

Publication Publication Date Title
KR20020069229A (ko) 텍스트 도큐먼트들을 압축하기 위한 방법 및 장치
Girardot et al. Millau: an encoding format for efficient representation and exchange of XML over the Web
US7013425B2 (en) Data processing method, and encoder, decoder and XML parser for encoding and decoding an XML document
US7500017B2 (en) Method and system for providing an XML binary format
JP3368883B2 (ja) データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置
US5812999A (en) Apparatus and method for searching through compressed, structured documents
US7669120B2 (en) Method and system for encoding a mark-up language document
US9300764B2 (en) High efficiency binary encoding
US7143397B2 (en) XML data encoding and decoding
US20030023628A1 (en) Efficient RPC mechanism using XML
US8010889B2 (en) Techniques for efficient loading of binary XML data
US20070143664A1 (en) A compressed schema representation object and method for metadata processing
Werner et al. Compressing SOAP messages by using differential encoding
EP1519279B1 (en) Document transformation system
US7676742B2 (en) System and method for processing of markup language information
US7814408B1 (en) Pre-computing and encoding techniques for an electronic document to improve run-time processing
JP4260481B2 (ja) スキーマ、構文解析方法及びスキーマに基づいてビットストリームを発生する方法
League et al. Type-based compression of xml data
US7716576B1 (en) Flexible XML parsing based on p-code
Werner et al. Advanced data compression techniques for SOAP web services
JP3974606B2 (ja) 構造化文書変換装置、構造化文書変換方法及びプログラム
Zoitl et al. Utilizing binary XML representations for improving the performance of the IEC 61499 configuration interface
Werner et al. Efficient encodings for web service messages
Hepes A Binary Encoding for OpenMath Guided Research Project Report

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application