WO2010112356A1 - Komprimierungsverfahren, dekomprimierungsverfahren, komprimierungseinheit, dekomprimierungseinheit sowie komprimiertes dokument - Google Patents

Komprimierungsverfahren, dekomprimierungsverfahren, komprimierungseinheit, dekomprimierungseinheit sowie komprimiertes dokument Download PDF

Info

Publication number
WO2010112356A1
WO2010112356A1 PCT/EP2010/053662 EP2010053662W WO2010112356A1 WO 2010112356 A1 WO2010112356 A1 WO 2010112356A1 EP 2010053662 W EP2010053662 W EP 2010053662W WO 2010112356 A1 WO2010112356 A1 WO 2010112356A1
Authority
WO
WIPO (PCT)
Prior art keywords
eta
eas
decompression
compression
base type
Prior art date
Application number
PCT/EP2010/053662
Other languages
English (en)
French (fr)
Inventor
Jörg Heuer
Thomas Kurz
Daniel Peintner
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Priority to CN201080015288.XA priority Critical patent/CN102379087B/zh
Priority to EP10712918A priority patent/EP2415174A1/de
Priority to US13/262,590 priority patent/US20120124017A1/en
Publication of WO2010112356A1 publication Critical patent/WO2010112356A1/de

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Definitions

  • Compression method decompression method, compression unit, decompression unit and compressed document
  • structured documents For several years, information has been presented using structured documents.
  • a well-known standard for presenting structured documents is XML (XML-En- rich Markup Language) from W3C (W3C - World Wide Web Consortium).
  • XML XML-En- rich Markup Language
  • W3C W3C - World Wide Web Consortium
  • This provides information in many applications and devices.
  • configuration data for initializing terminals such as e.g. Mobile telephones or plant modules are provided with structured documents.
  • structured documents for the description of multimedia content, as used for example in the standard SVG (SVG - Scalable Vector Graphic).
  • Structured documents have the disadvantage that a data volume required for storage or transmission is large. Therefore, compression methods have been developed that can reduce the data volume of structured documents.
  • GZIP GZIP - GNU ZIP
  • BIM BIM MPEG MPEG
  • EXI Efficient XML Interchange
  • Invention to provide an associated decompression method and a decompression unit.
  • the invention relates to a compression method for compressing a structured document, wherein the structured document has at least one information unit that instantiates at least one information unit of one type of a predetermined structure rule, the structural rule comprises a first base type and a second base type, the first base type for Representation of at least one character, the type has a data field represented by the at least one first base type, and a structure of the data field is determined by a regular expression, a predetermined compression method can compress the structured document into a compressed document in which the following steps are performed:
  • Another advantage of the compression method is that decompression of the structured document makes it possible to use the predetermined decompression method, since the compression of the sections is carried out exclusively on predetermined base types of the structural specification by means of the predetermined compression method.
  • the first and second base types are different base types.
  • the predetermined compression method can take into account the structural rule when performing the compression.
  • two parts of the regular section and two sections of the at least one information unit are determined, wherein the two sections are based on the respective part of the regular expression, the two sections are combined into a new section, and the new section of the predetermined compression method is compressed on the basis of the predetermined compression rule for the second base type. This achieves a further increase in the compression rate by combining two or more sections into a new section.
  • a new type based on the basic types may be formed instead of the at least one information unit forming a first number of new information units, this first number corresponding to a second number of parts and the new information units based on the corresponding new types are instantiated and assigned the sections corresponding to the parts.
  • each of the parts of the regular expression is assigned its own type based on predefined base types of the structure rule.
  • a content assignment such as the date of the day, the month or the year, is possible.
  • the compression rate can be increased further, because due to the content assignment a value range of a respective part and thus an associated section is known.
  • this value range can only include the natural numbers 1 to 31.
  • the basic type when assigning basic types, the basic type must be selected which encompasses both the entire range of values and achieves the highest compression rate for the range of values to be covered.
  • the structure rule is defined by the standard XML, where
  • the at least one information unit is an XML element or XML attribute
  • the structured document is an XML document
  • the base types are formed from a set of XML types built-in primitive types and built-in derived types.
  • the present method can also be used when using an XML-based structured document. Especially the XML standard is very widespread, so that in particular for this purpose, a great economic benefit in using the invention comes to light.
  • second means for determining a respective portion of the at least one information unit based on the respective part of the regular expression;
  • the compression unit has the same advantages as the compression method.
  • the compression unit further comprises a fourth means adapted to carry out the above-mentioned method steps of the compression method.
  • the compression unit has the same advantages as the developments of the compression method.
  • a decompression method for decompressing a compressed document is part of the invention, wherein a structured document has been compressed into the compressed document according to one of the above-mentioned method steps of the compression method, the structured document comprises at least one information unit comprising at least one information unit of one type of a predetermined structure specification instantiated, the structural specification comprises a first base type and a second base type, the first basic type is used to represent at least one character, the type has a data field represented by the at least one first base type and a structure of the data field is determined by a regular expression, a predetermined decompression method can decompress the compressed document, in the following Steps to be performed:
  • the decompression method takes advantage of the compression method in decompressing the compressed document.
  • the decompression method two parts of the regular expression can be determined, the new portion obtained by decompressing is divided into two sections based on the two parts so that each of the sections is assigned one of the parts.
  • an increased compression rate can be achieved.
  • Improving the legibility of sections can be achieved in the context of the decompression method by assigning at least one of the sections an identifier which identifies the at least one section. This can be accomplished, in particular, by forming the identifier on the basis of the part of the regular expression underlying the respective section.
  • the structured document is an XML document
  • the base types are formed from a set of XML types built-in primitive types and built-in derived types.
  • the decompression method can be developed in such a way that, before the decompression step, it is decided based on the at least one part of the regular expression whether the section corresponding to the at least one part is based on the respective predetermined decompression rule for the first base type or for the first second basic types.
  • This variant allows a simple implementation of the decompression method, since the structural rule is not to change.
  • the decompression method takes advantage of the compression method in decompressing the compressed document. It should be noted that, depending on an implementation, the assignment of a section obtained by decompression to the respective information unit represents a development, since the section can be directly taken over by a further processing unit, for example, to display information on a screen.
  • a further advantage of the decompression method is that the decompression of the compressed document can be carried out using the predefined decompression method, since the compression of the sections has been carried out exclusively on predefined base types of the structural rule by means of the predetermined compression method. Furthermore, the predetermined decompression method can be carried out on the basis of the structural rule and / or the parts of the regular expression, whereby an adaptation of the specified decompression rule to the specific circumstances of the structural rule and / or the parts of the regular expression can be taken into account.
  • the invention relates to a decompression unit for decompressing a compressed document, wherein a structured document is compressed into the compressed document with the aid of the compression unit, the structured document having at least one information unit that instantiates at least one information unit of a type of a predetermined structure rule Structural rule comprises a first base type and a second base type, the first base type is used to represent at least one character, the type has a data field represented by the at least one first base type and a structure of the data field is determined by a regular expression by predetermined decompression method decompresses the compressed document in which the decompression unit has the following means:
  • the decompression unit has the same advantages as the decompression method.
  • the compression unit further comprises a sixth means, which is designed such that at least one of the method steps is executable according to the decompression method.
  • the decompression unit has the same advantages as the developments of the decompression method.
  • a compressed document also forms part of the invention, being able to be generated according to one of the method steps of the compression method.
  • the compressed document for example in the form of a binary file or a data stream, has a higher compression rate than known compression methods.
  • a further advantage of the compressed document is that the decompression of the compressed document can be carried out using the given decompression method, since the compression of the sections was carried out exclusively on predetermined base types of the structural specification by means of the predetermined compression method. Thus, a cost effective implementation of the invention is made possible.
  • Figure IA An XML element with a string based on the SVG language
  • Figure IB Visual representation of the XML element with a string based on the SVG language, according to
  • FIG. 2 Comparison of Compression Rates of the EXI
  • FIG. 3 Structure of a compression unit for performing the compression method
  • Figure 4 Structure of a system comprising the compression unit, a decompression unit for performing a decompression method and a storage unit for storing a compressed document.
  • a date can be defined using a regular expression RA [1] as follows:
  • a character string generated from the above regular expression for a date is "23.03.2009”.
  • base types are referred to as built-in primitive types and built-in derived types, where the first base type in XML is defined as "string.”
  • a second base type, BTINT may be given to hold non-negative integers XML this is, for example, the base type "nonNegativelnteger”.
  • type TYP typeDate in the form of a string as
  • Table 2 Type typeDate defined in XML using the first base type String
  • CM structured document compression method
  • CM such as MPEG-MPEG (Motion Picture Expert Group) or W3C's EXI (Efficient XML Interchange) standard BIM (BIM)
  • a first part ETA of the regular expression RA is determined such that this first part can be represented by the second base type BTINT.
  • the regular expression two digits are found at the beginning, each with a number between 0 and 9 ([0-9] ⁇ 2, 2 ⁇ ). This gives a number between 0 and 99. If it were known that this number represents the day of a date, the number could be restricted to a value range between 1 and 31.
  • the second base type "nonNegativelnteger" allows a representation of non-negative numbers of 0, 1, etc.
  • the first part ETA [0-9] ⁇ 2,2 ⁇
  • parts of the regular expression as a number, [0-9] ⁇ 2,2 ⁇ and [0-9] ⁇ 4,4 ⁇ , and it can be seen that there is one character between each of the number-recognizable parts of the regular expression "Colon" occurs.
  • the predetermined compression method CM based on a predetermined compression rule CMBTINT for the second base type BTINT can at least partially compress the datum instead of as a string in several sections. This is done from the structured Document the information unit present there, so the XML element date, according to the above determined parts analyzed whereby corresponding parts EAS, EAT, EAU are found to the parts.
  • the following table shows the corresponding parts and sections as well as the basic types underlying each section:
  • the regular expression still has additional information that can be taken into account during compression.
  • Table 8 Document definition in XML for the extended regular expression date
  • the information units to be intoned are given a respective name day, month, year as identification.
  • This respective identifier is the extended regular expression according to Table 6 removable. In English, the technical term for identifier is "day”.
  • Table 9 Part to Section and Base Type Assignment This enhancement has the advantage that each section and every part of the regular expression can be assigned a content-related meaning.
  • the XML type "positive integer” can also be assigned to the new types, because it is known that a value for the day, month and year is due to the assignment of the meaning of content greater than zero.
  • the XML type "PositiveInterger” can achieve a higher compression rate than the "nonNegativelnteger” XML type.
  • the information unit ⁇ date> 23.03.2009 ⁇ / date> of the structured document can be modified as follows before compression in three information units corresponding to a number of new types formed, see table 8:
  • the compression of the two points contained in the regular expression RA can be dispensed with, since the position of the two points is known by the sequence of the element names day, month and year in conjunction with the respectively associated regular expression.
  • SVG Scalable Vector Graphic
  • W3C W3C Scalable Vector Graphic
  • SVC describes two-dimensional vector graphics.
  • the specification defines the structure and functions of SVG using XML. It defines 14 important functional areas, such as basic body shapes, text and color.
  • a very important feature is paths (path). Within a path, defined straight or curved lines of a body to be described, which may for example also be filled.
  • the path is generated by the XML attribute d, which initializes the shape of the body starting from a pair of coordinates (x, y) with the aid of a connoisseur M, defines subsequent pairs of coordinates (x, y) of the form with the aid of a connoisseur L and finally with help of the connoisseur Z the path is completed.
  • FIG. 1a shows a textual description of such an SVG path
  • FIG. 1b a pictorial representation of the body indicated by the textual path.
  • EXI a compression method provided by EXI
  • the original size is 100%
  • the size after compression using the EXI compression method is approximately 87%
  • the size of the compressed structured document is approximately 57% using the EXI + COD compression method.
  • FIG. 2 shows a portion of the path d in percent of the file size of the respective uncompressed or compressed document in the respective layered column.
  • the path comprises 82% of the data, EXI compression 83% in the compressed document, and 50% using the EXI + COD compression method.
  • the aforementioned two structured documents do not include any path information, so that no improvement can be achieved by the method according to the invention when applied to the path data. However, an improvement can be achieved even if the method of the present invention is applied to other structural elements of the structured document, in this example according to SVG standard.
  • the combination of the sections EAS, EAT into the new section EAN forms a section which can also be represented with the second basic type and can be compressed with the associated prescribed compression rule CMBTINT.
  • This can already be done by analysis of the two parts ETA, ETB and the rule for combining the two sections, since the rule for summarizing the two parts is also applicable.
  • This gives a new part to [0-9] ⁇ 2, 2 ⁇ [0-9] ⁇ 2, 2 ⁇ .
  • a number from 0 to 9999 can be described by the new part.
  • the second base type can be used to represent the new part, and later the default compression rule can be used.
  • FIG. 3 shows a compression unit CE for compressing the structured document DOC.
  • the compression unit has the predetermined structure specification SYN, which comprises the first base type BTSTR for representing at least the one character CH and the second base type BTINT.
  • the structure rule defines type TYP, which has a data field represented by at least a first base type and the structure of the data field is determined by the regular expression RA.
  • the dependencies of the type TYP on the first basic type BTSTR and its dependency on the regular expression RA are symbolically represented by an arrow in FIG.
  • FIG. 3 the structured document with at least one information unit ELE, ATT, which is instantiated by the type, can be seen.
  • the instantiation is symbolized by an arrow on the structured document DOC.
  • a first means M1 determines at least a part ETA of the regular expression RA such that this respective part ETA can be represented by the second base type BTINT.
  • the first means Ml reads the regular Expression RA at least partially and then, after performing this step, at least the part ETA to a second means M2 on.
  • the second means M2 is then configured in a second step such that it determines the respective section EAS of the at least one information unit ELE, ATT, which is based on the respective part ETA of the regular expression RA.
  • the at least one part ETA and the information unit are at least partially read in by the second means, processed and passed on at one of its outputs the determined respective section EAS the predetermined compression method CM.
  • the predetermined compression method CM is designed in such a way that it can compress structured documents that are formed on the basis of the predefined structural rule SYN.
  • the predetermined compression method for example for the second base type BTINT, has a predefinable compression regulation CMBTINT.
  • the section EAS of the at least one information unit ELE is compressed.
  • Compressing means a reduction of the storage volume required to store the respective section EAS.
  • the structured document DOC is output in compressed form as a compressed document BDOC.
  • the predetermined compression method CM is based, for example, on BIM or EXI.
  • the compression of the respective section by means of the predetermined compression method CM is performed by a third means M3. It should also be noted that one or more further method steps according to the above exemplary embodiments can be carried out with the aid of a fourth means M4.
  • the decompression unit has the predetermined structure specification SYN comprising the first base type BTSTR for representing at least the one character CH and the second base type BTINT.
  • the structure rule defines type TYP, which has a data field represented by at least a first base type and the structure of the data field is determined by the regular expression RA.
  • the dependencies of the type TYP on the first basic type BTSTR and its dependency on the regular expression RA are symbolically represented by an arrow in FIG.
  • the first means provides the at least part ETA of the regular expression RA.
  • the at least one part ETA and the compressed document are at least partially read in.
  • the fifth means is designed such that it can decompress at least part of the compressed document BDOC into the at least one section EAS.
  • a predetermined decompression method DM is used, which can decompress the compressed document generated with the corresponding predetermined compression method CM.
  • the default decompression method DM is based, for example, on the standard BIM or EXI. It should be noted here that the predetermined decompression method has at least for the second base type BTINT an associated predefined decompression rule DMBTINT with the aid of which a section EAS compressed with the predetermined compression rule CMBTINT corresponding thereto is decompressable.
  • the at least one section EAS is transferred to a sixth means M6.
  • the sixth resource can do two things:
  • the sixth means M6 enters the section EAS obtained by decompression at that position in the reconstructed structured document DOC which is predetermined by the part of the regular section corresponding to the section EAS obtained by decompression.
  • the sixth means M6 may pass the section EAS to another processing unit (not shown), for example passing the connoisseur indicating which part of the regular expression is in the pass passed section EAS trades.
  • the connoisseur can be determined as shown in one of the above exemplary embodiments.
  • the fifth means may also decide prior to performing the decompression on the basis of the at least one part of the regular expression whether the respective predefined decompression provision DMBTSTR, DMBTINT for the first basic type BTSTR or the second one for obtaining the section corresponding to the at least one part BTINT is used.
  • Each base type has its own predefined compression and corresponding decompression rule.
  • the structure rule SYN can be changed on the basis of the changes of the information unit, for example, into new information units, wherein this changed structure rule can be transmitted from the compression unit to the decompression unit or the modified structural rule analogously in the compression unit and in the Decompression unit is generated.
  • An extension takes at least two parts of the regular expression into compression and decompression.
  • the procedure for Considering three parts in practice, at least two parts are taken into account.
  • the first means both on the part of the compression method and the decompression method or in the context of the compression unit or decompression unit, determines the parts ETA, ETB, ETC.
  • the parts ETA, ETB, ETC are generated such that the corresponding parts EAS, EAT, EAU of the information unit are compressible in a later subsequent compression step in a summarized form by the second base types.
  • the parts ETA, ETB, ETC exclusively describe numbers, so that a combination of the corresponding sections EAS, EAT, EAU results in a longer number chain which in the present example is compressible by the second base type.
  • the sections EAS, EAT, EAU corresponding to the parts ETA, ETB, ETC are obtained by the second means.
  • the second means summarizes the sections into a new section EAN. In the present example, this is done by stringing together the sections EAS, EAT, EAU. This is followed by the compression of the new EAN section by the third means.
  • the fifth means obtains the new section EAN from the compressed document BDOC.
  • the fifth means gives the new section EAN to the sixth means M6, which first performs a division of the new section into the sections corresponding to the new section, i. H. into the sections EAS, EAT and EAU. These can be transferred to the reconstructed structured document DOC or to a processing unit as described above.
  • the compression unit CE and the decompression unit DE are shown by way of example in the form of a system.
  • the compressed document BDOC is transferred to a storage unit STOR at the output of the compression unit CE.
  • the storage unit is, for example, a server for caching compressed documents.
  • the compressed document BDOC may be transmitted to the decompression unit for further processing.
  • a direct transmission of the compressed document BDOC from the compression unit to the decompression unit see dotted arrow in FIG. 4, is possible.
  • a transmission over a network such as GSM (Global System for Mobile GSM) or over the Internet, for example by means of LAN and IP / TCP (local area network LAN, IP - Internet Protocol, TCP - Transport Control Protocol) performed become .
  • GSM Global System for Mobile GSM
  • IP / TCP local area network LAN, IP - Internet Protocol, TCP - Transport Control Protocol
  • the compression unit and the decompression unit can be implemented in hardware, software or a mixture of hardware and software. For example, individual process steps are provided in a program code and executed by a microcontroller. In this case, individual intermediate steps are buffered in a memory coupled to the microcontroller. In addition, this memory can store information for describing the prescribed structure specification SYN, as well as the structured document and, at least in part, the compressed document.
  • the compression unit CE may be part of a terminal, such as a video-on-demand server for providing multimedia content.
  • the decompression unit may also be part of a terminal, such as a navigation system.

Abstract

Die Erfindung betrifft ein Komprimierungsverfahren, das zumindest eine Informationseinheit, die gemäß einem ersten Basistypen ein oder mehrere Zeichen umfasst, in Abschnitte eines zweiten Basistypen aufteilt und diese Abschnitte nach einer vorgegebenen Komprimierungsvorschrift für den zweiten Basistypen komprimiert. Diese Vorgehensweise erzielt eine erhöhte Kompressionsrate. Die Informationselemente sind bspw. Teil einer XML-Sprache. Neben dem Kompressionsverfahren ist auch die korrespondierenden Komprimierungseinheit, Dekomprimierungsverfahren und Dekomprimierungseinheit Teil der Erfindung. Die Erfindung ist anwendbar im Umfeld einer Initialisierung von Endgeräten, bspw. im Anlagenbau oder im IT-Konsumerbereich.

Description

Beschreibung
Komprimierungsverfahren, Dekomprimierungsverfahren, Komprimierungseinheit, Dekomprimierungseinheit sowie komprimiertes Dokument
Die Erfindung betrifft die Komprimierung und Dekomprimierung von strukturierten Dokumenten, insbesondere ein Komprimierungsverfahren, ein Dekomprimierungsverfahren, eine Kompri- mierungseinheit und eine Dekomprimierungseinheit sowie ein komprimiertes Dokument beispielsweise in binarer Form.
Seit mehreren Jahren werden Informationen mit Hilfe strukturierter Dokumente dargestellt. Ein sehr bekannter Standard zur Darstellung strukturierter Dokumente ist XML (XML- eXten- sible Markup Language) von W3C (W3C - World Wide Web Consor- tium) . Hiermit werden in vielen Applikationen und Geraten Informationen bereitgehalten. Beispielsweise können Konfigurationsdaten zum Initialisieren von Endgeraten, wie z.B. Mobil- telefone oder Anlagenbaugruppen mit strukturierten Dokumenten bereitgestellt werden. Ein weiteres Beispiel ist der Einsatz von strukturierten Dokumenten zur Beschreibung von Multimedialen Inhalten, wie dies bspw. bei dem Standard SVG (SVG - Scalable Vektor Graphic) eingesetzt wird.
Strukturierte Dokumente haben den Nachteil, dass ein zur Speicherung oder Übertragung benötigtes Datenvolumen groß ist. Daher wurden Komprimierungsverfahren entwickelt, die das Datenvolumen von strukturierten Dokumenten reduzieren können. Beispielhaft werden GZIP (GZIP - GNU ZIP) , ein Standard BIM (BIM - Binary MPEG format for XML) von MPEG (MPEG - Motion Picture Expert Group) oder EXI (Efficient XML Interchange) von W3C, erwähnt, die ein komprimiertes Dokument in binarer Form erzeugen. Dennoch besteht weiterhin die Notwendigkeit das Datenvolumen weiter zu reduzieren, da insbesondere kleine und sehr preiswerte Endgerate, wie z.B. Sensoren die über ein Mesh-Netzwerk kommunizieren, nur über einen kleinen Speicher verfugen . Daher besteht die Aufgabe der Erfindung ein Komprimierungsverfahren und eine Komprimierungseinheit anzugeben, die ein Datenvolumen bei der Komprimierung eines strukturierten Doku- ments weiter verkleinern. Daneben ist auch die Aufgabe der
Erfindung ein dazugehöriges Dekomprimierungsverfahren und eine Dekomprimierungseinheit anzugeben.
Diese Aufgaben werden durch die unabhängigen Ansprüche ge- löst. Weiterbildungen der Erfindung sind den abhängigen Ansprüchen zu entnehmen.
Die Erfindung betrifft ein Komprimierungsverfahren zum Komprimieren eines strukturierten Dokuments, wobei das struktu- rierte Dokument zumindest eine Informationseinheit aufweist, die zumindest eine Informationseinheit von einem Typen einer vorgegebenen Strukturvorschrift instantiiert ist, die Strukturvorschrift einen ersten Basistypen und einen zweiten Basistypen umfasst, der erste Basistyp zur Darstellung von zu- mindest einem Zeichen eingesetzt wird, der Typ ein Datenfeld aufweist, das durch den zumindest einen ersten Basistypen repräsentiert und eine Struktur des Datenfelds durch einen regulären Ausdrucks bestimmt wird, ein vorgegebenes Komprimierungsverfahren das strukturiere Dokument in ein kompri- miertes Dokument komprimieren kann, bei dem folgende Schritte durchgeführt werden:
- Ermitteln zumindest eines Teils des regulären Ausdrucks derart, dass dieser jeweilige Teil durch den zweiten Basistypen darstellbar ist; - Ermitteln eines jeweiligen Abschnitts der zumindest einen Informationseinheit, der auf dem jeweiligen Teil des regulären Ausdrucks basiert;
- Komprimieren des jeweiligen Abschnitts mittels des vorgegebenen Komprimierungsverfahrens derart, dass durch das vor- gegebene Komprimierungsverfahren der jeweilige Abschnitt auf Basis einer vorgegebenen Komprimierungsvorschrift für den zweiten Basistypen komprimiert wird. Die Erfinder haben erkannt, dass eine Komprimierung von Daten, die mittels des ersten Basistypen String dargestellt werden, zu einer schlechten Komprimierungsrate führt. Dies beruht auf der Erkenntnis, dass der erste Basistyp aufgrund einer Vielzahl von Zeichen, die er darstellen kann, nur eine schlechte Komprimierungsrate erzielt. Das Informationselement, das durch Instantiierung eines Typen basierend auf dem ersten Basistypen erzeugt wird, weist in dem durch den ersten Basistypen definierten Datenfeld eine Zeichenkette auf. Eine Verbesserung der Komprimierungsrate kann dadurch erfolgen, dass die Zeichenkette in zumindest einen Abschnitt aufgeteilt wird, der mit einem zu dem ersten Basistypen verschiedenen zweiten Basistypen komprimiert werden kann. In dem vorliegenden Verfahren liegt der Struktur des Datenfelds ein regulärer Ausdruck, beispielsweise in BNF (BNF - Backus-Naur Form) zugrunde, wobei durch Analyse des regulären Ausdrucks zumindest ein Teil dieses regulären Ausdrucks einem oder mehreren nicht ersten Basistypen zuordnenbar ist. Hierbei ist von Vorteil, dass der reguläre Ausdruck explizit die Struktur und die möglichen Inhalte des Datenfelds bzw. des zumindest einen Abschnitts spezifiziert, so dass der zumindest eine Teil einem der nicht ersten Basistypen zuordnenbar ist, ohne Gefahr zu laufen, dass mögliche Inhalte des Abschnitts durch den gewählten zweiten Basistypen nicht darstellbar sind. Ein weiterer Vorteil des Komprimierungsverfahrens ist darin begründet, dass zur Dekomprimierung des strukturierten Dokuments das vorgegebene Dekomprimierungsverfahren einsetzbar ist, da die Komprimierung der Abschnitte ausschließlich auf vorgegeben Basistypen der Strukturvorschrift mittels des vorgegeben Komprimierungsverfahrens durchgeführt wird. Es ist anzumerken, dass der erste und zweite Basistyp verschiedene Basistypen sind. Ferner kann das vorgegebene Komprimierungs- verfahren die Strukturvorschrift bei der Durchführung der Komprimierung berücksichtigen. In einer Weiterbildung des Komprimierungsverfahrens werden zwei Teile des regulären Abschnitts und zwei Abschnitte der zumindest einen Informationseinheit bestimmt, wobei die zwei Abschnitte auf dem jeweiligen Teil des regulären Ausdrucks basieren, die zwei Abschnitte zu einem neuen Abschnitt zusam- mengefasst werden, und der neue Abschnitt mittels des vorgegebenen Komprimierungsverfahrens auf Basis der vorgegebenen Komprimierungsvorschrift für den zweiten Basistypen komprimiert wird. Hierdurch wird eine weitere Erhöhung der Kompri- mierungsrate durch Zusammenfassen von zwei oder mehreren Abschnitten zu einem neuen Abschnitt erreicht.
Des Weiteren kann für jeden der Teile ein neuer Typ auf Basis der Basistypen gebildet werden, anstelle der zumindest einen Informationseinheit eine erste Anzahl an neuen Informationseinheiten gebildet wird, wobei diese erste Anzahl einer zweiten Anzahl an Teilen entspricht und die neuen Informationseinheiten auf Basis der zu den jeweiligen Teilen korrespondierenden neuen Typen instantiiert und mit den zu den Tei- len korrespondierenden Abschnitten belegt werden. Mit dieser Erweiterung wird jedem der Teile des regulären Ausdrucks ein eigener Typ basierend auf vorgegebene Basistypen der Strukturvorschrift zugeordnet. Hierdurch ist eine inhaltliche Zuordnung wie beispielsweise bei einem Datum der Tag, der Monat oder das Jahr, möglich. Hiermit kann die Komprimierungsrate weiter erhöht werden, da aufgrund der inhaltlichen Zuordnung ein Wertumfang eines jeweiligen Teils und somit eines dazugehörigen Abschnitts bekannt ist. Beispielsweise ist durch die inhaltliche Zuordnung des Abschnitts, der sich auf den Tag des Datums bezieht, klar, dass dieser Werteumfang nur die natürlichen Zahlen 1 bis 31 umfassen kann. Aufgrund dieser Erkenntnis ist bei der Zuordnung von Basistypen derjenige Basistyp auszuwählen, der sowohl den gesamten Wertebereich um- fasst als auch für den abzudeckenden Wertebereich die höchste Komprimierungsrate erzielt.
Ferner kann zumindest einem der Abschnitte (vor seiner Komprimierung eine Kennung angefügt werden, die den zu komprimie- renden Abschnitt identifiziert. Durch diese Weiterbildung kann erreicht werden, dass durch das Einfügen einer Kennung zu dem zu komprimierenden Abschnitt in das komprimierte Dokument eine inhaltliche Identifizeriung der komprimierten Ab- schnitte erleichtert wird. Dies geht einher mit der Erhöhung der Komprimierungsrate, weil durch die Aufteilung in mehrere Abschnitte die Komprimierungsrate erhöht und ferner die Lesbarkeit des jeweiligen Abschnitts durch die Einfügung der Kennung verbessert wird.
Zusätzlich kann die Kennung auf Basis des dem jeweiligen Abschnitt zugrundeliegenden Teils des regulären Abschnitts gebildet wird. Die Bildung der Kennung ist in vorteilhafter Weise durch die Auswertung der Teile des regulären Ausdrucks durchführbar. Beispielsweise weist der reguläre Ausdruck ein sog. „Tag" wie Tag, Monat oder Jahr auf, das als Kennung direkt übernommen werden kann. Diese Vorgehensweise stellt eine Vereinfachung bei der Erstellung der Kennung dar.
Vorzugsweise wird die Strukturvorschrift durch den Standard XML definiert, wobei
- die zumindest eine Informationseinheit ein XML-Element oder XML-Attribut ist,
- das strukturierte Dokument ein XML-Dokument ist, - die Basistypen aus einer Menge an XML-Typen built-in primitive types und built-in derived types gebildet werden. Das vorliegende Verfahren ist auch bei Verwendung eines XML- basierten strukturierten Dokuments einsetzbar. Gerade der XML Standard ist sehr weit verbreitet, so dass insbesondere hier- für ein großer wirtschaftlicher Nutzen bei Verwendung der Erfindung zu Tage tritt.
Des Weiteren ist eine Komprimierungseinheit zum Komprimieren eines strukturierten Dokuments Teil der Erfindung, wobei das strukturierte Dokument zumindest eine Informationseinheit aufweist, die zumindest eine Informationseinheit von einem Typen einer vorgegebenen Strukturvorschrift instantiiert ist, die Strukturvorschrift einen ersten Basistypen und einen zweiten Basistypen umfasst, der erste Basistyp zur Darstellung von zumindest einem Zeichen eingesetzt wird, der Typ ein Datenfeld aufweist, das durch den zumindest einen ersten Basistypen repräsentiert und eine Struktur des Datenfelds durch einen regulären Ausdrucks bestimmt wird, ein vorgegebenes Komprimierungsverfahren das strukturiere Dokument in ein komprimiertes Dokument komprimieren kann, bei dem die Komprimierungseinheit folgende Mitte aufweist:
- erstes Mittel zum Ermitteln zumindest eines Teils des regu- lären Ausdrucks derart, dass dieser jeweilige Teil durch den zweiten Basistypen darstellbar ist;
- zweites Mittel zum Ermitteln eines jeweiligen Abschnitts der zumindest einen Informationseinheit, der auf dem jeweiligen Teil des regulären Ausdrucks basiert; - drittes Mittel zum Komprimieren des jeweiligen Abschnitts mittels des vorgegebenen Komprimierungsverfahrens derart, dass durch das vorgegebene Komprimierungsverfahren der jeweilige Abschnitt auf Basis einer vorgegebenen Komprimierungsvorschrift für den zweiten Basistypen komprimierbar ist.
Die Komprimierungseinheit weist dieselben Vorteile wie das Komprimierungsverfahren auf.
Die Komprimierungseinheit weist ferner ein viertes Mittel auf, das derart ausgestaltet ist, die oben genannten Verfahrenschritte des Komprimierungsverfahrens auszuführen. Die Komprimierungseinheit weist dieselben Vorteile wie die Weiterbildungen des Komprimierungsverfahrens auf.
Zudem ist ein Dekomprimierungsverfahren zum Dekomprimieren eines komprimierten Dokuments Teil der Erfindung, wobei ein strukturiertes Dokument in das komprimierte Dokument gemäß einem der oben genannten Verfahrenschritte des Komprimierungsverfahrens komprimiert wurde, das strukturierte Dokument zumindest eine Informationseinheit aufweist, die zumindest eine Informationseinheit von einem Typen einer vorgegebenen Strukturvorschrift instantiiert ist, die Strukturvorschrift einen ersten Basistypen und einen zweiten Basistypen umfasst, der erste Basistyp zur Darstellung von zumindest einem Zeichen eingesetzt wird, der Typ ein Datenfeld aufweist, das durch den zumindest einen ersten Basistypen repräsentiert und eine Struktur des Datenfelds durch einen regulären Ausdrucks bestimmt wird, ein vorgegebenes Dekomprimierungsverfahren das komprimierte Dokument dekomprimieren kann, bei dem folgende Schritte durchgeführt werden:
- Ermitteln zumindest eines Teils des regulären Ausdrucks derart, dass dieser jeweilige Teil durch den zweiten Basis- typen darstellbar ist;
- Dekomprimieren zumindest teilweise des komprimierten Dokuments in zumindest einen Abschnitt durch das vorgegebene Dekomprimierungsverfahren, wobei der jeweilige Abschnitt auf Basis einer vorgegebenen Dekomprimierungsvorschrift für den zweiten Basistypen gewonnen wird;
- Zuordnen des jeweiligen Abschnitts zu dem jeweiligen Teil des regulären Ausdrucks.
Das Dekomprimierungsverfahren nutzt die Vorteile des Komprimierungsverfahrens bei der Dekomprimierung des komprimierten Dokumentes.
Vorzugsweise wird in dem Dekomprimierungsverfahren der jeweilige Abschnitt der zumindest einen Informationseinheit zugeordnet, wobei der jeweilige Abschnitt auf dem jeweiligen Teil des regulären Ausdrucks basiert. Hiermit kann ein rekonstruiertes strukturiertes Dokument erzeugt werden.
Zudem können durch das Dekomprimierungsverfahren zwei Teile des regulären Ausdrucks bestimmt werden, der durch Dekompri- mieren gewonnene neue Abschnitt auf Basis der zwei Teile in zwei Abschnitte derart aufgeteilt wird, dass jedem der Abschnitte jeweils einer der Teile zugeordnet wird. Somit kann eine erhöhte Kompressionsrate erzielt werden.
In einer Weiterbildung des Dekomprimierungsverfahrens wird für jeden der Teile ein neuer Typ auf Basis der Basistypen gebildet, anstelle der zumindest einen Informationseinheit eine erste Anzahl an neuen Informationseinheiten aufgrund der Dekomprimierung gebildet wird, wobei diese erste Anzahl einer zweiten Anzahl an Teilen entspricht und die neuen Informationseinheiten auf Basis der zu den jeweiligen Teilen korrespondierenden neuen Typen instantiiert und mit den zu den Tei- len korrespondierenden Abschnitten, die durch Dekomprimierung rekonstruiert werden, belegt werden. Der Vorteil hierbei ist analog zur Beschreibung des korrespondierenden Komprimierungsverfahrens .
Ein Verbesserung der Lesbarkeit von Abschnitten kann im Rahmen des Dekomprimierungsverfahrens dadurch erreicht werden, dass zumindest einem der Abschnitte eine Kennung zugeordnet wird, die den zumindest einen Abschnitt identifiziert. Dies kann insbesondere dadurch bewerkstelligt werden, dass die Kennung auf Basis des dem jeweiligen Abschnitt zugrundeliegenden Teils des regulären Ausdrucks gebildet wird.
Vorzugsweise wird bei dem Dekomprimierungsverfahren die Strukturvorschrift durch den Standard XML definiert wird, wo- bei
- die zumindest eine Informationseinheit ein XML-Element oder XML-Attribut ist,
- das strukturierte Dokument ein XML-Dokument ist,
- die Basistypen aus einer Menge an XML-Typen built-in primi- tive types und built-in derived types gebildet werden.
Somit ist das Dekomprimierungsverfahren auch bei einem der gängigsten Standards XML einsetzbar.
Zudem kann das Dekomprimierungsverfahren derart weitergebil- det werden, dass vor dem Schritt Dekomprimieren anhand des zumindest einen Teils des regulären Ausdrucks entschieden wird, ob der zu dem zumindest einen Teil korrespondiere Abschnitt auf Basis der jeweiligen vorgegebenen Dekomprimie- rungsvorschrift für den ersten Basistypen oder für den zwei- ten Basistypen gewonnen wird. Diese Variante erlaubt eine einfache Implementierung des Dekomprimierungsverfahrens, da die Strukturvorschrift nicht zu verändern ist. Das Dekomprimierungsverfahren nutzt die Vorteile des Komprimierungsverfahrens bei der Dekomprimierung des komprimierten Dokumentes. Hierbei ist anzumerken, dass in Abhängigkeit von einer Implementierung die Zuordnung eines durch Dekomprimie- rung gewonnen Abschnitts zu der jeweiligen Informationseinheit eine Weiterbildung darstellt, da der Abschnitt durch eine weiterverarbeitende Einheit direkt übernommen werden kann, beispielsweise zum Darstellen einer Information auf einem Bildschirm.
Ein weiterer Vorteil des Dekomprimierungsverfahrens ist liegt darin, dass zur Dekomprimierung des komprimierten Dokuments das vorgegebene Dekomprimierungsverfahren einsetzbar ist, da die Komprimierung der Abschnitte ausschließlich auf vorgege- ben Basistypen der Strukturvorschrift mittels des vorgegeben Komprimierungsverfahrens durchgeführt wurde. Ferner kann das vorgegebene Dekomprimierungsverfahren auf Basis der Strukturvorschrift und/oder der Teile des regulären Ausdrucks durchgeführt werden, wobei hierdurch eine Anpassung der vorgegebe- ne Dekomprimierungsvorschrift an die spezifischen Gegebenheiten der Strukturvorschrift und/oder der Teile des regulären Ausdrucks berücksichtigt werden kann.
Die Erfindung betrifft eine Dekomprimierungseinheit zum De- komprimieren eines komprimierten Dokuments, wobei ein strukturiertes Dokument in das komprimierte Dokument mit Hilfe der Komprimierungseinheit komprimiert ist, das strukturierte Dokument zumindest eine Informationseinheit aufweist, die zumindest eine Informationseinheit von einem Typen einer vorgegebenen Strukturvorschrift instantiiert ist, die Strukturvorschrift einen ersten Basistypen und einen zweiten Basistypen umfasst, der erste Basistyp zur Darstellung von zumindest einem Zeichen eingesetzt wird, der Typ ein Datenfeld aufweist, das durch den zumindest einen ersten Basistypen repräsentiert und eine Struktur des Datenfelds durch einen regulären Ausdrucks bestimmt wird, durch ein vorgegebenes Dekomprimierungsverfahren das komprimierte Dokument dekompri- mierbar ist, bei dem die Dekomprimierungseinheit folgende Mittel aufweist:
- ein erstes Mittel zum Ermitteln zumindest eines Teils des regulären Ausdrucks derart, dass dieser jeweilige Teil durch den zweiten Basistypen darstellbar ist;
- ein fünftes Mittel zum Dekomprimieren des komprimierten Dokuments in zumindest einen Abschnitt durch das vorgegebene Dekomprimierungsverfahren, wobei der jeweilige Abschnitt auf Basis einer vorgegebenen Dekomprimierungsvorschrift für den zweiten Basistypen dekomprimierbar ist und zum Zuordnen des jeweiligen Abschnitts zu dem jeweiligen Teil des regulären Ausdrucks .
Die Dekomprimierungseinheit weist dieselben Vorteile wie das Dekomprimierungsverfahren auf.
Die Komprimierungseinheit umfasst ferner ein sechstes Mittel, das derart ausgestaltet ist, dass zumindest einer der Verfahrenschritte gemäß dem Dekompressionsverfahren ausführbar ist. Die Dekomprimierungseinheit weist dieselben Vorteile wie die Weiterbildungen des Dekomprimierungsverfahrens auf.
Schließlich bildet ein komprimiertes Dokument auch einen Teil der Erfindung, wobei es gemäß einem der Verfahrenschritte des Komprimierungsverfahrens generierbar ist. Das komprimierte Dokument, beispielsweise in Form einer binären Datei oder eines Datenstroms, weist gegenüber bekannten Komprimierungsverfahren eine höhere Komprimierungsrate auf. Ein weiterer Vorteil des komprimierten Dokuments ist darin begründet, dass zur Dekomprimierung des komprimierten Dokuments das vorgege- bene Dekomprimierungsverfahren einsetzbar ist, da die Komprimierung der Abschnitte ausschließlich auf vorgegeben Basistypen der Strukturvorschrift mittels des vorgegeben Komprimierungsverfahrens durchgeführt wurde. Somit wird eine kostengünstige Implementierung der Erfindung ermöglicht.
Die Erfindung und ihre Weiterbildungen werden anhand von Figuren näher erläutert. Im Einzelnen zeigen: Figur IA Ein XML-Element mit einer Zeichenkette, basierend auf der SVG-Sprache
Figur IB Visuelle Darstellung des XML-Elements mit einer Zeichenkette, basierend auf der SVG-Sprache, gemäß
Figur IA
Figur 2 Vergleich von Komprimierungsraten des EXI-
Komprimierungsverfahrens und des Komprimierungsver- fahrens der vorliegenden Erfindung
Figur 3 Aufbau einer Komprimierungseinheit zum Durchführen des Komprimierungsverfahrens
Figur 4 Aufbau eines Systems umfassend die Komprimierungseinheit, eine Dekomprimierungseinheit zum Durchführen eines Dekomprimierungsverfahrens sowie einer Speichereinheit zum Ablegen eines komprimierten Dokumentes .
Elemente mit der gleicher Funktion und Wirkungsweise sind mit denselben Bezugszeichen versehen.
Die Erfindung wird anhand eines ersten Ausführungsbeispiels näher erläutert. Ein Datum kann mit Hilfe eines regulären Ausdrucks RA [1] folgendermaßen definiert werden:
[0-9] {2,2} [.] [0-9] {2,2} [.] [0-9] {4,4}
Tabelle 1: Datum definiert als regulärer Ausdruck
Somit lautet eine aus dem obigen regulären Ausdruck generierte Zeichenkette für ein Datum beispielsweise „23.03.2009".
Ein strukturiertes Dokument DOC [2] weist eine oder mehrere Informationseinheiten ELE, ATT auf. XML [3], standardisiert durch W3C, ist einer der bekanntesten Vertreter für die Definition strukturierter Dokumente. In XML werden Informations- einheiten durch Elemente und Attribute gebildet. Die Struktur des strukturierten Dokuments wird durch eine Strukturvorschrift SYN vorgegeben, die neben der Syntax auch Typen TYP festlegt. In XML ist die Strukturvorschrift bspw. als Schema oder DTD (DTD - Document Type Definition) bekannt. Die Informationseinheiten werden durch Instantiierung der Typen generiert. Die Strukturvorschrift legt mehrere Basistypen für verschiedene Funktionen fest. So ist ein erster Basistyp (BTSTR) zur Aufnahme bzw. Darstellung von einem oder mehreren Zeichen vorgesehen. In XML werden derartige Basistypen als built-in primitive types und als built-in derived types bezeichnet, wobei der erste Basistyp in XML als „string" definiert wird. Ferner kann ein zweiter Basistyp BTINT zur Aufnahme von ganzen nicht negativen Zahlen vorgegeben sein, in XML ist dies bspw. der Basistyp „nonNegativelnteger" .
So kann das Datum in XML als Typ TYP = typeDatum in Form einer Zeichenkette ausdrückt werden als
<simpleType name="typeDatum" base="string"/>
Tabelle 2: Typ typeDatum definiert in XML mittels des ersten Basistypen String
Zudem kann eine Dokumentendefinition des Typen Datum generiert werden als
<element name="Datum" type="typeDatum"/>
Tabelle 3: Dokumentendefinition in XML für Datum
In dem strukturierten Dokument DOC gemäß XML wird das Datum kodiert als
<Datum>23.03.2009</Datum> Tabelle 4: Ausschnitt eines strukturierten Dokuments in XML mit Datum
Durch die Beschreibung des Datums gemäß Tabelle 1 wird die Struktur eines Datenfelds DF, also die Struktur des Werts kodiert als String gemäß Tabelle 2, bestimmt. Im strukturierten Dokument gemäß Tabelle 4 ist ein konkretes Beispiel für die durch den regulären Ausdruck definierte Zeichenkette Datum abgebildet. Ein vorgegebenes Komprimierungsverfahren CM für strukturierte Dokumente, wie beispielsweise ein Standard BIM (BIM - Binary MPEG format for XML) der Organisation MPEG (MPEG - Motion Picture Expert Group) oder EXI (Efficient XML Interchange) von W3C, erzeugen ein komprimiertes Dokument BDOC.
In einem ersten Schritt wird zumindest ein erster Teil ETA des regulären Ausdrucks RA derart ermittelt, dass dieser erste Teil durch den zweiten Basistypen BTINT darstellbar ist. In dem regulären Ausdruck werden am Anfang zwei Stellen mit jeweils einer Zahl zwischen 0 und 9 ermittelt ( [ 0-9] { 2, 2 } ) . Dies ergibt eine Zahl zwischen 0 und 99. Wäre bekannt, dass diese Zahl den Tag eines Datums repräsentiert, so könnte die Zahl auf einen Wertebereich zwischen 1 und 31 eingeschränkt werden. Der zweite Basistyp „nonNegativelnteger" ermöglicht eine Darstellung von nicht negativen Zahlen von 0, 1 usw. Somit ist der erste Teil ETA = [0-9] {2,2}. Bei einer weiteren Analyse des regulären Ausdrucks wird klar, dass zwei weitere Teile des regulären Ausdrucks als Zahl darstellbar sind, und zwar [0-9] {2,2} und [0-9] {4,4}. Zudem ist ersichtlich, dass zwischen den als Zahlen erkennbaren Teilen des regulären Ausdrucks jeweils ein Zeichen „Doppelpunkt" auftritt.
Unter Verwendung des Wissens, dass der Typ typeDatum den oben genannten Aufbau aufweist, kann das vorgegebene Komprimie- rungsverfahren CM auf Basis einer vorgegebenen Komprimierungsvorschrift CMBTINT für den zweiten Basistypen BTINT zumindest teilweise das Datum anstelle als String in mehreren Abschnitten komprimieren. Dazu wird aus dem strukturierten Dokument die dort vorliegende Informationseinheit, also das XML-Element Datum, nach den oben ermittelten Teilen analysiert wodurch zu den Teilen korrespondierende Abschnitte EAS, EAT, EAU gefunden werden. Der erste Teil ETA= [ 0-9] { 2, 2 } korrespondiert mit dem ersten Abschnitt EAS=23. Die nachfolgende Tabelle zeigt die korrespondierenden Teile und Abschnitte, sowie den pro Abschnitt zugrundeliegenden Basistypen:
Abschnitt Teil Basistyp
23 [0-9] {2, 2} BTINT
. [.] BTSTR
03 [0-9] {2, 2} BTINT
. [.] BTSTR
2009 [0-9] {4, 4} BTINT
Tabelle 5: Zuordnung von Teil zu Abschnitt und zu Basistyp
In dem ersten Ausführungsbeispiel ist eine Zeichenkette für das Datum betrachtet worden, die gemäß der Definition durch den regulären Ausdruck keine Interpretation auf den Inhalt zulässt .
In einem zweiten Ausführungsbeispiel weist der reguläre Aus- druck noch Zusatzinformationen auf, die bei der Komprimierung berücksichtigt werden können. Die Tabelle 6
{Tag} [0-9] {2,2} [.] {Monat} [ 0-9] { 2, 2 } [ . ] {Jahr} [0-9] {4,4}
Tabelle 6: Datum definiert als erweiterter regulärer
Ausdruck
zeigt in den zusätzlichen { } Klammern noch Erläuterungen der einzelnen Felder des regulären Ausdrucks. Somit kann als Zwi- schenschritt vor der Komprimierung bei der Ermittlung der
Teile des regulären Ausdrucks für jeden Teil ein eigener Typ definiert werden, wie bspw. <simpleType name="typeTag" base="nonNegativeInteger "/> <simpleType name="typeMonat" base="nonNegativeInteger "/> <simpleType name="typeJahr" base="nonNegativeInteger "/>
Tabelle 7: Neue Typen für das Datum gemäß dem erweiterten regulären Ausdruck
Zudem kann eine Dokumentendefinition mit den neuen Typen generiert werden als
<element name="Tag" type="typeTag"/> <element name="Monat" type="typeMonat"/> <element name="Jahr" type="typeJahr"/>
Tabelle 8: Dokumentendefinition in XML für das Datum gemäß dem erweiterten regulären Ausdruck
In dieser Dokumentendefinition wird den zu intantiierenden Informationseinheiten ein jeweiliger Name Tag, Monat, Jahr als Kennung mitgegeben. Diese jeweilige Kennung ist dem erweiterten regulären Ausdruck gemäß Tabelle 6 entnehmbar. Im Englischen ist der Fachbegriff für Kennung „Tag".
Die nachfolgende Tabelle zeigt die korrespondierenden Teile ETA, ETB, ETC und Abschnitte EAS, EAT, EAU, sowie den pro Abschnitt zugrundeliegenden Basistypen und neuen Typen:
Abschnitt Teil Basistyp / neuer Typ
EAS=23 ETA=[0-9] {2,2} BTINT = typeTag . [.] BTSTR
EAT=03 ETB=[0-9] {2,2} BTINT = typeMonat
[ . ] BTSTR
EAU=2009 ETC=[0-9] {4, 4} BTINT = typeJahr
Tabelle 9: Zuordnung von Teil zu Abschnitt und zu Basistyp Diese Erweiterung hat den Vorteil, dass jedem Abschnitt und jedem Teil des regulären Ausdrucks eine inhaltliche Bedeutung zuordnenbar ist. So kann bspw. anstelle des XML-Typen „nonNe- gativelnteger" auch der XML-Typ „Positiveinteger" den neuen Typen zugeordnet werden, da aufgrund der Zuordnung der inhaltlichen Bedeutung bekannt ist, dass ein Wert für den Tag, den Monat und das Jahr größer Null ist. Der XML-Typ „Positiveinteger" kann gegenüber dem XML-Typ „nonNegativelnteger" eine höhere Komprimierungsrate erzielen.
In einer Erweiterung kann die Informationseinheit <Da- tum>23.03.2009</Datum> des strukturierten Dokuments folgendermaßen vor der Komprimierung in drei Informationseinheiten entsprechend einer Anzahl an gebildeten neuen Typen, siehe Tabelle 8 verändert werden:
<Tag>23</Tag>
<Monat>03</Monat>
<Jahr>2009</Jahr>
Tabelle 10: Verändertes strukturiertes Dokument
In einer Weiterbildung der Erfindung kann auf die Komprimierung der zwei in dem regulären Ausdruck RA enthaltenen Punkte verzichtet werden, da durch die Abfolge der Elementnamen Tag, Monat und Jahr in Verbindung mit dem jeweils dazugehörigen regulären Ausdruck die Lage der zwei Punkte bekannt ist.
Ein weiteres Ausführungsbeispiel wird anhand von SVG (SVG- Scalable Vector Graphic) [4], einem Standard der Organisation W3C, näher erläutert. SVC beschreibt zweidimensionale Vektorgrafiken. Die Spezifikation definiert die Struktur und Funk- tionen von SVG mittels XML. Dabei werden 14 wichtige Funktionsgebiete wie beispielsweise grundlegende Körperformen (ba- sic shapes) , Text und Farbe definiert. Eine sehr wichtige Funktion sind Pfade (path) . Innerhalb eines Pfades werden ge- rade oder gebogene Linien eines zu beschreibenden Körpers definiert, der beispielsweise auch gefüllt sein kann. Der Pfad wird durch das XML-Attribut d erzeugt, der die Form des Körpers ausgehend einem Koordinatenpaar (x, y) mit Hilfe eines Kenners M initialisiert, mit Hilfe eines Kenners L nachfolgende Koordinatenpaare (x, y) der Form definiert und schließlich mit Hilfe des Kenners Z der Pfad abgeschlossen wird. Figur Ia zeigt eine textuelle Beschreibung eines derartigen SVG-Pfades, Figur Ib eine bildliche Darstellung des durch den textuellen Pfad angegebenen Körpers.
Im Folgenden wird gezeigt, welche Komprimierungsraten bei einem bekannten und dem Verfahren der vorliegenden Erfindung zur Komprimierung des strukturierten Dokuments erzielbar sind. Es werden folgende zwei Komprimierungsalgorithmen verwendet :
Name Erläuterung
XML dies entspricht dem strukturierten Dokument in unkomprimierter Form (Referenzwert) ;
EXI ein Komprimierungsverfahren, das von EXI zur Verfügung gestellt wird;
EXI+COD dieses Komprimierungsverfahren verwendet als vorge- gebenes Komprimierungsverfahren das EXI-
Komprimierungsverfahren und die in dieser Erfindung beschriebene Vorgehensweise.
Es werden fünf XML strukturierte Dokumente Fl, ..., F5 mit Hilfe der oben genannten zwei Komprimierungsverfahren komprimiert. Figur 2 zeigt die Komprimierungsrate bezogen auf das unkomprimierte XML strukturierte Dokument = 100%. Für das Dokument Fl ergibt sich die ursprüngliche Größe zu 100%, die Größe nach Durchführung der Komprimierung mit Hilfe des EXI- Komprimierungsverfahrens zu ca. 87% und die Größe des komprimierten strukturierten Dokuments mit Hilfe des Komprimierungsverfahrens EXI+COD zu ca. 57%. Somit wird durch den Einsatz des in der Erfindung beschriebenen Verfahrens bei der Durchführung der Komprimierung des strukturierten Dokuments eine erhebliche Datenreduktion erzielt.
Ferner ist Figur 2 ein Anteil des Pfades d in Prozent an der Dateigröße des jeweiligen unkomprimierten bzw. komprimierten Dokuments in die jeweilige geschichtete Säule eingetragen. Im ursprünglichen unkomprimierten strukturierten Dokument Fl um- fasst der Pfad einen Datenanteil von 82%, im komprimierten Dokument gemäß EXI-Komprimierungsverfahrens 83% und bei An- wendung des Komprimierungsverfahrens EXI+COD 50%. Somit ist ersichtlich, dass durch die Anwendung des Verfahrens gemäß der vorliegenden Erfindung eine erhebliche Datenreduktion bezüglich der Pfadinformationen erzielbar ist. Diese Beobachtungen sind analog auf die strukturierten Dokumente F2, F4 übertragbar. Bei den Dokumenten F3 und F5 ergibt die Größe des komprimierten Dokuments nach dem EXI-Komprimierungsver- fahren und dem Komprimierungsverfahren EXI+COD keinen Unterschied, da im vorliegenden Ausführungsbeispiel das Verfahren der vorliegenden Erfindung lediglich auf Pfade angewandt wur- de. Die zuvor genannten zwei strukturierten Dokumente umfassen jedoch keinerlei Pfadangaben, so dass hierbei durch das erfindungsgemäße Verfahren bei Anwendung auf die Pfadangaben keine Verbesserung erzielbar ist. Jedoch kann eine Verbesserung auch dann noch erzielt werden, wenn das Verfahren der vorliegenden Erfindung auf andere Strukturelemente des strukturierten Dokuments, in diesem Beispiel gemäß SVG-Standard, angewendet wird.
In einer Weiterbildung des Komprimierungsverfahrens werden zwei Teile ETA, ETB des regulären Abschnitts RA identifiziert. Dabei ist ETA= [ 0-9] { 2, 2 } und ETB= [ 0-9] { 2, 2 } . Zudem werden zwei Abschnitte EAS, EAT der Informationseinheit ELE, ATT bestimmt, wobei diese zwei Abschnitte auf dem jeweiligen Teil ETA und ETB basieren, also EAS=23 und EAT=03. Beide Ab- schnitte werden zu einem neuen Abschnitt zusammengefasst EAN, also EAN=2303. Der neue Abschnitt EAN wird dann anstelle der bisherigen Abschnitte EAS, EAT auf Basis der vorgegebenen Komprimierungsvorschrift CMBTINT des zweiten Basistypen BTINT komprimiert. Bei dieser Erweiterung ist zu berücksichtigen, dass durch die Zusammenfassung der Abschnitte EAS, EAT zu dem neuen Abschnitt EAN ein Abschnitt gebildet wird, der ebenfalls mit dem zweiten Basistypen darstellbar und mit der da- zugehörigen vorgegebenen Komprimierungsvorschrift CMBTINT komprimierbar ist. Dies kann bereits durch Analyse der beiden Teile ETA, ETB und der Vorschrift zum Zusammenfassen der beiden Abschnitte erfolgen, da auch die Vorschrift zum Zusammenfassen auf die beiden Teile anwendbar ist. Hierdurch ergibt sich ein neuer Teil zu [ 0-9] { 2, 2 } [ 0-9] { 2, 2 } . Hierbei kann eine Zahl von 0 bis 9999 durch den neuen Teil beschrieben werden. Somit kann in diesem Fall der zweite Basistyp zur Darstellung des neuen Teils eingesetzt und später die vorgegebene Komprimierungsvorschrift verwendet werden.
Figur 3 zeigt eine Komprimierungseinheit CE zum Komprimieren des strukturierten Dokuments DOC. Die Komprimierungseinheit weist die vorgegebene Strukturvorschrift SYN auf, die den ersten Basistypen BTSTR zur Darstellung von zumindest dem ei- nen Zeichen CH und den zweiten Basistypen BTINT umfasst. Zudem definiert die Strukturvorschrift den Typ TYP, der ein Datenfeld aufweist, das durch zumindest einen ersten Basistypen repräsentiert und die Struktur des Datenfelds durch den regulären Ausdruck RA bestimmt wird. Die Abhängigkeiten des Typen TYP von dem ersten Basistypen BTSTR und seine Abhängigkeit von dem regulären Ausdruck RA sind jeweils durch einen Pfeil in Figur 3 symbolisch dargestellt.
Ferner ist in Figur 3 das strukturierte Dokument mit zumin- dest der einen Informationseinheit ELE, ATT, der von dem Typen instantiiert ist, zu sehen. Die Instantiierung wird durch einen Pfeil auf das strukturierte Dokument DOC versinnbildlicht.
In einem ersten Schritt ermittelt ein erstes Mittel Ml zumindest einen Teil ETA des regulären Ausdrucks RA derart, dass dieser jeweilige Teil ETA durch den zweiten Basistypen BTINT darstellbar ist. Dazu liest das erste Mittel Ml den regulären Ausdruck RA zumindest teilweise ein und gibt dann nach Durchführen dieses Schrittes zumindest den Teil ETA an ein zweites Mittel M2 weiter.
Das zweite Mittel M2 ist in einem zweiten Schritt dann derart ausgestaltet, dass es den jeweiligen Abschnitt EAS der zumindest eine Informationseinheit ELE, ATT, der auf dem jeweiligen Teil ETA des regulären Ausdrucks RA basiert, ermittelt. Hierzu werden der zumindest eine Teil ETA und die Informati- onseinheit zumindest teilweise durch das zweite Mittel eingelesen, verarbeitet und an einem seiner Ausgänge der ermittelte jeweilige Abschnitt EAS dem vorgegeben Komprimierungsverfahren CM übergeben. Das vorgegebene Komprimierungsverfahren CM ist derart ausgestaltet, dass es strukturierte Dokumente, die auf Basis der vorgegebenen Strukturvorschrift SYN gebildet sind, komprimieren kann. Dazu verfügt das vorgegebene Komprimierungsverfahren beispielsweise für den zweiten Basistyp BTINT über eine vorgebbare Komprimierungsvorschrift CMBTINT. Auf Basis dieser vorgegebenen Komprimierungsvor- schrift wird der Abschnitt EAS der zumindest einen Informationseinheit ELE komprimiert. Komprimieren bedeutet eine Reduktion des zum Speichern des jeweiligen Abschnitts EAS benötigten Speichervolumens. Am Ausgang der Komprimierungseinheit CE wird das strukturierte Dokument DOC in komprimierter Form als komprimiertes Dokument BDOC ausgegeben. Das vorgegebene Komprimierungsverfahren CM basiert beispielsweise auf BIM oder EXI. Das Komprimieren des jeweiligen Abschnitts mittels des vorgegebenen Komprimierungsverfahrens CM wird durch ein drittes Mittel M3 durchgeführt. Es ist noch anzumerken, dass ein oder mehrere weitere Verfahrensschritte gemäß der voranstehenden Ausführungsbeispiele mit Hilfe eines vierten Mittels M4 durchführbar sind.
Mit Hilfe von Figur 4 wird im Folgenden ein Dekomprimierungs- verfahren zum Dekomprimieren des komprimierten Dokuments BDOC in ein strukturiertes Dokument DOC sowie die dazu gehörige Dekomprimierungseinheit DE näher erläutert. Die Dekomprimie- rungseinheit weist die vorgegebene Strukturvorschrift SYN auf, die den ersten Basistypen BTSTR zur Darstellung von zumindest dem einen Zeichen CH und den zweiten Basistypen BTINT umfasst. Zudem definiert die Strukturvorschrift den Typ TYP, der ein Datenfeld aufweist, das durch zumindest einen ersten Basistypen repräsentiert und die Struktur des Datenfelds durch den regulären Ausdruck RA bestimmt wird. Die Abhängigkeiten des Typen TYP von dem ersten Basistypen BTSTR und seine Abhängigkeit von dem regulären Ausdruck RA sind jeweils durch einen Pfeil in Figur 3 symbolisch dargestellt. Das ers- te Mittel stellt den zumindest einen Teil ETA des regulären Ausdrucks RA zur Verfügung. Im Rahmen des Dekomprimierungs- verfahrens bzw. durch ein fünftes Mittel M5 werden der zumindest eine Teil ETA und das komprimierte Dokument zumindest teilweise eingelesen.
Das fünfte Mittel ist derart ausgestaltet, dass es zumindest einen Teil des komprimierten Dokuments BDOC in den zumindest einen Abschnitt EAS dekomprimieren kann. Hierzu wird ein vorgegebenes Dekomprimierungsverfahren DM eingesetzt, das das mit dem dazu korrespondierenden vorgegeben Komprimierungsverfahren CM generierte komprimierte Dokument dekomprimieren kann. Das vorgegebene Dekomprimierungsverfahren DM basiert beispielsweise auf dem Standard BIM oder EXI. Hierbei ist anzumerken, dass das vorgegebene Dekomprimierungsverfahren zu- mindest für den zweiten Basistypen BTINT über eine dazugehörige vorgegebene Dekomprimierungsvorschrift DMBTINT verfügt, mit dessen Hilfe ein mit der hierzu korrespondierenden vorgegebenen Komprimierungsvorschrift CMBTINT komprimierten Abschnitt EAS dekomprierbar ist. Am Ausgang des fünften Mittels M5 wird der zumindest eine Abschnitt EAS an ein sechstes Mittel M6 übergeben. Das sechste Mittel kann folgende zwei Aufgaben übernehmen:
i) das sechste Mittel M6 trägt den durch Dekomprimierung ge- wonnenen Abschnitt EAS an diejenige Position im rekonstruierten strukturierten Dokument DOC ein, der durch den zum durch Dekomprimierung gewonnenen Abschnitt EAS korrespondierenden Teil des regulären Abschnitts vorgegeben ist. ii) in einer Alternative oder Ergänzung kann das sechste Mittel M6 den Abschnitt EAS an eine weitere Verarbeitungseinheit (nicht gezeichnet) übergeben, wobei bei der Uber- gäbe beispielsweise der Kenner mitgegeben wird, der anzeigt, um welchen Teil des regulären Ausdrucks es sich bei dem ubergebenen Abschnitt EAS handelt. Der Kenner kann wie in einem der obigen Ausfuhrungsbeispiele dargestellt ermittelt werden.
Das fünfte Mittel kann ferner vor der Durchfuhrung der De- komprimierung anhand des zumindest einen Teils des regulären Ausdrucks entscheiden, ob zur Gewinnung des zu dem zumindest einen Teil korrespondierenden Abschnitts die jeweilige vorge- gebene Dekomprimierungsvorschrift DMBTSTR, DMBTINT für den ersten Basistypen BTSTR oder den zweiten BTINT verwendet wird. Jeder Basistyp hat seine eigene vorgegebene Komprimie- rungs- und dazu korrespondierende Dekomprimierungsvorschrift . Somit kann mit dieser Erweiterung ohne Änderung der Struktur- Vorschrift das Verfahren durchgeführt werden, da im Falle eines Vorhandenseins einer Informationseinheit, die zumindest teilweise von dem ersten Basistyp instantiiert ist, erkannt wird, dass zur Gewinnung der jeweiligen Abschnitte durch De- komprimierung ein zu verwendender Basistyp auf Basis des re- gularen Ausdruck ermittelt werden kann.
In einer Alternative oder Ergänzung hierzu kann zumindest teilweise die Strukturvorschrift SYN auf Basis der Änderungen der Informationseinheit bspw. in neue Informationseinheiten geändert werden, wobei diese geänderte Strukturvorschrift von der Komprimierungseinheit zur Dekomprimierungseinheit übertragen werden kann bzw. die geänderte Strukturvorschrift analog in der Komprimierungseinheit und in der Dekomprimierungseinheit erzeugbar ist.
In einer Erweiterung werden zumindest zwei Teile des regulären Ausdrucks bei der Komprimierung und Dekomprimierung berücksichtigt. Es wird exemplarisch die Vorgehensweise bei Be- rücksichtigung von drei Teilen dargestellt, wobei in der Praxis zumindest zwei Teile berücksichtigt werden. Das erste Mittel, sowohl auf Seiten des Komprimierungsverfahrens als auch Dekomprimierungsverfahrens bzw. im Rahmen der Komprimie- rungseinheit bzw. Dekomprimierungseinheit, ermittelt die Teile ETA, ETB, ETC. Die Teile ETA, ETB, ETC werden derart generiert, dass die dazu korrespondierenden Teile EAS, EAT, EAU der Informationseinheit in einem später nachfolgenden Komprimierungsschritt in zusammengefasster Form durch den zweiten Basistypen komprimierbar sind. Beispielsweise beschreiben die Teile ETA, ETB, ETC ausschließlich Zahlen, so dass durch eine Zusammenreihung der dazu korrespondierenden Abschnitte EAS, EAT, EAU eine längere Zahlenkette entsteht, die im vorliegenden Beispiel durch den zweiten Basistypen komprimierbar ist. In einem nächsten Schritt werden durch das zweite Mittel die zu den Teilen ETA, ETB, ETC korrespondierenden Abschnitte EAS, EAT, EAU gewonnen. Ferner fasst das zweite Mittel die Abschnitte zu einem neuen Abschnitt EAN zusammen. Im vorliegenden Beispiel wird dies durch Aneinanderreihung der Ab- schnitte EAS, EAT, EAU durchgeführt. Danach folgt die Komprimierung des neuen Abschnitts EAN durch das dritte Mittel.
Auf der Seite des Dekomprimierungsverfahrens bzw. der Dekomprimierungseinheit wird durch das fünfte Mittel der neue Abschnitt EAN aus dem komprimierten Dokument BDOC gewonnen.
Das fünfte Mittel gibt den neuen Abschnitt EAN an das sechste Mittel M6, welches zunächst eine Aufteilung des neuen Abschnitts in die zu dem neuen Abschnitt korrespondierenden Abschnitte durchführt, d. h. in die Abschnitte EAS, EAT und EAU. Diese können gemäß obiger Beschreibung in das rekonstruierte strukturierte Dokument DOC oder an eine Verarbeitungseinheit übergeben werden.
In Figur 4 ist die Komprimierungseinheit CE und die Dekompri- mierungseinheit DE in Form eines Systems exemplarisch dargestellt. Hierbei wird am Ausgang der Komprimierungseinheit CE das komprimierte Dokument BDOC an eine Speichereinheit STOR übergeben. Die Speichereinheit ist beispielsweise ein Server zum Zwischenspeichern von komprimierten Dokumenten. Auf Anforderung der Dekomprimierungseinheit DE kann das komprimierte Dokument BDOC an die Dekomprimierungseinheit zum weiteren Verarbeiten übertragen werden. Alternativ dazu ist eine di- rekte Übertragung des komprimierten Dokuments BDOC von der Komprimierungseinheit zur Dekomprimierungseinheit, siehe gestrichelten Pfeil in Figur 4, möglich. Dabei kann eine Übertragung über ein Netzwerk, wie beispielsweise GSM (GSM - Global System for Mobile) oder über das Internet, beispielsweise mittels LAN und IP/TCP (LAN - Local Area Network, IP - Internet Protocol, TCP - Transport Control Protocol) durchgeführt werden .
Die Komprimiereinheit und die Dekomprimiereinheit können in Hardware, Software oder in einer Mischung aus Hardware und Software realisiert werden. Beispielsweise werden einzelne Verfahrensschritte in einem Programmcode bereitgestellt und durch einen MikroController ausgeführt. Dabei werden einzelne Zwischenschritte in einem dem MikroController angekoppelten Speicher zwischengespeichert. Dieser Speicher kann zusatzlich Informationen zur Beschreibung der vorgegebenen Strukturvorschrift SYN auch das strukturierte Dokument und zumindest teilweise das komprimierte Dokument speichern.
Die Komprimierungseinheit CE kann Teil eines Endgerates sein, wie beispielsweise eines Video-on-Demand Servers zum Bereitstellen von multimedialen Inhalten. Die Dekomprimiereinheit kann auch Teil eines Endgerates sein, wie beispielsweise eines Navigationssystems.
Die Erfindung wurde anhand von Ausfuhrungsbeispielen erläutert. Es ist anzumerken, dass die Erfindung nicht auf diese Ausfuhrungsbeispiele beschrankt ist. Zudem wird hingewiesen, dass die einzelnen Weiterbildungen und Alternativen der Aus- fuhrungsbeispiele kombinierbar sind. Literaturangaben
[1] „Regulär expression", h ....c....L...D....:.../..../...e....n.........w....i...k....i...p...e....d....i....a........o....r....q.../...w....i....k....i..../...R....e...α...u....l....a....r.......e....x...o...r....e....s....s...i....o....n...
[2] „structured Document",
IT t; Lp : //sdval idator , sourcef orge , net/secL ion3. shtml
[3] „Extensible Markup Language (XML)", http://www.w3.org/XML
[4] SVG 1.1, hLtp: //www. w3.org/TR/2003/REC-SVGIl- 20030114/REC- SVGIl -2U030114.pdf

Claims

Patentansprüche
1. Komprimierungsverfahren zum Komprimieren eines strukturierten Dokuments (DOC) , wobei das strukturierte Dokument (DOC) zumindest eine Informationseinheit (ELE, ATT) aufweist, die zumindest eine Informationseinheit (ELE, ATT) von einem Typen (TYP) einer vorgegebenen Strukturvorschrift (SYN) instantiiert ist, die Strukturvorschrift (SYN) einen ersten Basistypen (BTSTR) und einen zwei- ten Basistypen (BTINT) umfasst, der erste Basistyp (BTSTR) zur Darstellung von zumindest einem Zeichen (CH) eingesetzt wird, der Typ (TYP) ein Datenfeld (DF) aufweist, das durch den zumindest einen ersten Basistypen (BTSTR) repräsentiert und eine Struktur des Datenfelds (DF) durch einen regulären Ausdrucks (RA) bestimmt wird, ein vorgegebenes Komprimierungsverfahren (CM) das strukturiere Dokument (DOC) in ein komprimiertes Dokument (BDOC) komprimieren kann,
dadurch gekennzeichnet, dass folgende Schritte durchgeführt werden:
Ermitteln zumindest eines Teils (ETA) des regulären Ausdrucks (RA) derart, dass dieser jeweilige Teil (ETA) durch den zweiten Basistypen (BTINT) darstellbar ist;
Ermitteln eines jeweiligen Abschnitts (EAS) der zumindest einen Informationseinheit (ELE, ATT), der auf dem jeweiligen Teil (ETA) des regulären Ausdrucks (RA) basiert;
Komprimieren des jeweiligen Abschnitts (EAS) mittels des vorgegebenen Komprimierungsverfahrens (CM) derart, dass durch das vorgegebene Komprimierungsverfahren (CM) der jeweilige Abschnitt (EAS) auf Basis einer vorgegebenen Komprimierungsvorschrift (CMBTINT) für den zweiten Basistypen (BTINT) komp- rimiert wird.
2. Komprimierungsverfahren nach Anspruch 1, bei dem zwei Teile (ETA, ETB) des regulären Abschnitts (RA) und zwei Abschnitte (EAS, EAT) der zumindest einen Informationseinheit (ELE, ATT) bestimmt werden, wobei die zwei Abschnitte (EAS, EAT) auf dem jeweiligen Teil (ETA, ETB) des regulären Aus- drucks (RA) basieren, die zwei Abschnitte (EAS, EAT) zu einem neuen Abschnitt (EAN) zusammengefasst werden, der neue Abschnitt (EAN) mittels des vorgegebenen Komprimierungsverfahrens (CM) auf Basis der vorgegebenen Komprimie- rungsvorschrift (CMBTINT) für den zweiten Basistypen (BTINT) komprimiert wird.
3. Komprimierungsverfahren nach einem der Ansprüche 1 und 2, bei dem für jeden der Teile (ETA, ETB, ETC) ein neuer Typ (typeTag, typeMonat, typeJahr) auf Basis der Basistypen (BTINT, BTSTR) gebildet wird, anstelle der zumindest einen Informationseinheit (ELE, ATT) eine erste Anzahl an neuen Informationseinheiten (Tag, Monat, Jahr) gebildet wird, wobei diese erste Anzahl einer zweiten
Anzahl an Teilen (ETA, ETB, ETC) entspricht und die neuen Informationseinheiten (Tag, Monat, Jahr) auf Basis der zu den jeweiligen Teilen (ETA, ETB, ETC) korrespondierenden neuen Typen (typeTag, typeMonat, typeJahr) instantiiert und mit den zu den Teilen (ETA, ETB, ETC) korrespondierenden Abschnitten (EAS, EAT, EAU) belegt werden.
4. Komprimierungsverfahren nach einem der Ansprüche 1 bis 3, bei dem zumindest einem der Abschnitte (EAS) vor seiner Komprimierung eine Kennung (Tag, Monat, Jahr) angefügt wird, die den zu komprimierenden Abschnitt (EAS) identifiziert.
5. Komprimierungsverfahren nach Anspruch 4, bei dem die Kennung (Tag, Monat, Jahr) auf Basis des dem jeweiligen Abschnitt (EAS) zugrundeliegenden Teils (ETA) des regulären Abschnitts (RA) gebildet wird.
6. Komprimierungsverfahren nach einem der Ansprüche 1 bis 5, bei dem die Strukturvorschrift (SYN) durch den Standard XML definiert wird, wobei - die zumindest eine Informationseinheit (ELE, ATT) ein XML- Element oder XML-Attribut ist,
- das strukturierte Dokument (DOC) ein XML-Dokument ist,
- die Basistypen (BTINT, BTSTR) aus einer Menge an XML-Typen built-in primitive types und built-in derived types gebil- det werden.
7. Komprimierungseinheit (CE) zum Komprimieren eines strukturierten Dokuments (DOC) , wobei das strukturierte Dokument (DOC) zumindest eine Informations- einheit (ELE, ATT) aufweist, die zumindest eine Informationseinheit (ELE, ATT) von einem Typen (TYP) einer vorgegebenen Strukturvorschrift (SYN) instantiiert ist, die Strukturvorschrift (SYN) einen ersten Basistypen (BTSTR) und einen zweiten Basistypen (BTINT) umfasst, der erste Basistyp (BTSTR) zur Darstellung von zumindest einem Zeichen (CH) eingesetzt wird, der Typ (TYP) ein Datenfeld (DF) aufweist, das durch den zumindest einen ersten Basistypen (BTSTR) repräsentiert und eine Struktur des Datenfelds (DF) durch einen regulären Ausdrucks (RA) bestimmt wird, ein vorgegebenes Komprimie- rungsverfahren (CM) das strukturiere Dokument (DOC) in ein komprimiertes Dokument (BDOC) komprimieren kann,
dadurch gekennzeichnet, dass die Komprimierungseinheit (CE) folgende Mitte aufweist:
- erstes Mittel (Ml) zum Ermitteln zumindest eines Teils (ETA) des regulären Ausdrucks (RA) derart, dass dieser jeweilige Teil (ETA) durch den zweiten Basistypen (BTINT) darstellbar ist;
- zweites Mittel (M2) zum Ermitteln eines jeweiligen Abschnitts (EAS) der zumindest einen Informationseinheit (ELE, ATT), der auf dem jeweiligen Teil (ETA) des regulären Ausdrucks (RA) basiert;
- drittes Mittel (M3) zum Komprimieren des jeweiligen Ab- Schnitts (EAS) mittels des vorgegebenen Komprimierungsverfahrens (CM) derart, dass durch das vorgegebene Komprimierungsverfahren (CM) der jeweilige Abschnitt (EAS) auf Basis einer vorgegebenen Komprimierungsvorschrift (CMBTINT) für den zweiten Basistypen (BTINT) komprimierbar ist.
8. Komprimierungseinheit (CE), das ferner ein viertes Mittel (M4) aufweist, das derart ausgestaltet ist, die Verfahrenschritte gemäß einem der Ansprüche 2 bis 6 auszuführen.
9. Dekomprimierungsverfahren zum Dekomprimieren eines komprimierten Dokuments (BDOC) , wobei ein strukturiertes Dokument (DOC) in das komprimierte Dokument (BDOC) gemäß einem der Ansprüche 1 bis 6 komprimiert wurde, das strukturierte Dokument (DOC) zumindest eine Informationseinheit (ELE, ATT) aufweist, die zumindest eine Informationseinheit (ELE, ATT) von einem Typen (TYP) einer vorgegebenen Strukturvorschrift (SYN) instantiiert ist, die Strukturvorschrift (SYN) einen ersten Basistypen (BTSTR) und einen zweiten Basistypen (BTINT) umfasst, der erste Basistyp
(BTSTR) zur Darstellung von zumindest einem Zeichen (CH) eingesetzt wird, der Typ (TYP) ein Datenfeld (DF) aufweist, das durch den zumindest einen ersten Basistypen (BTSTR) repräsentiert und eine Struktur des Datenfelds (DF) durch einen regu- lären Ausdrucks (RA) bestimmt wird, ein vorgegebenes Dekomprimierungsverfahren (DM) das komprimierte Dokument (BDOC) dekomprimieren kann,
dadurch gekennzeichnet, dass folgende Schritte durchgeführt werden: Ermitteln zumindest eines Teils (ETA) des regulären Ausdrucks (RA) derart, dass dieser jeweilige Teil (ETA) durch den zweiten Basistypen (BTINT) darstellbar ist;
Dekomprimieren zumindest teilweise des komprimierten Dokuments (BDOC) in zumindest einen Abschnitt (EAS, EAN) durch das vorgegebene Dekomprimierungsverfahren (DM), wobei der jeweilige Abschnitt (EAS, EAN) auf Basis einer vorgegebenen De- komprimierungsvorschrift (DMBTINT) für den zweiten Basistypen (BTINT) gewonnen wird;
Zuordnen des jeweiligen Abschnitts (EAS) zu dem jeweiligen Teil (ETA) des regulären Ausdrucks (RA) .
10. Dekomprimierungsverfahren nach Anspruch 9, bei dem der jeweilige Abschnitt (EAS) der zumindest einen Informationseinheit (ELE, ATT) zugeordnet wird, wobei der jeweilige Abschnitt (EAS) auf dem jeweiligen Teil (ETA) des regulären Ausdrucks (RA) basiert.
11. Dekomprimierungsverfahren nach Anspruch 9 oder 10, bei dem zwei Teile (ETA, ETB) des regulären Ausdrucks (RA) bestimmt werden, der durch Dekomprimieren gewonnene neue Abschnitt (EAN) auf
Basis der zwei Teile (ETA, ETB) in zwei Abschnitte (EAS, EAT) derart aufgeteilt wird, dass jedem der Abschnitte (EAS, EAT) jeweils einer der Teile (ETA, ETB) zugeordnet wird.
12. Dekomprimierungsverfahren nach einem der Ansprüche 9 bis 11, bei dem für jeden der Teile (ETA, ETB, ETC) ein neuer Typ (typeTag, typeMonat, typeJahr) auf Basis der Basistypen (BTINT, BTSTR) gebildet wird, anstelle der zumindest einen Informationseinheit (ELE, ATT) eine erste Anzahl an neuen Informationseinheiten (Tag, Monat, Jahr) aufgrund der Dekomprimierung gebildet wird, wobei diese erste Anzahl einer zweiten Anzahl an Teilen (ETA, ETB, ETC) entspricht und die neuen Informationseinheiten (Tag, Monat, Jahr) auf Basis der zu den jeweiligen Teilen (ETA, ETB, ETC) korrespondierenden neuen Typen (typeTag, typeMonat, typeJahr) instantiiert und mit den zu den Teilen (ETA, ETB, ETC) kor- respondierenden Abschnitten (EAS, EAT, EAU) , die durch De- komprimierung rekonstruiert werden, belegt werden.
13. Dekomprimierungsverfahren nach einem der Ansprüche 9 bis 12, bei dem Zumindest einem der Abschnitte (EAS) eine Kennung (Tag, Monat, Jahr) zugeordnet wird, die den zumindest einen Abschnitt (EAS) identifiziert.
14. Dekomprimierungsverfahren nach Anspruch 13, bei dem Die Kennung (Tag, Jahr, Monat) auf Basis des dem jeweiligen Abschnitt (EAS) zugrundeliegenden Teils (EAT) des regulären Ausdrucks (RA) gebildet wird.
15. Dekomprimierungsverfahren nach einem der Ansprüche 9 bis 14, bei dem die Strukturvorschrift (SYN) durch den Standard XML definiert wird, wobei
- die zumindest eine Informationseinheit (ELE, ATT) ein XML- Element oder XML-Attribut ist, - das strukturierte Dokument (DOC) ein XML-Dokument ist,
- die Basistypen (BTINT, BTSTR) aus einer Menge an XML-Typen built-in primitive types und built-in derived types gebildet werden.
16. Dekomprimierungsverfahren nach einem der Ansprüche 9 bis 15, bei dem vor dem Schritt Dekomprimieren anhand des zumindest einen Teils (ETA, ETB, ETC) des regulären Ausdrucks entschieden wird, ob der zu dem zumindest einen Teil (ETA) korrespondiere Abschnitt (EAS) auf Basis der jeweiligen vorgegebenen De- komprimierungsvorschrift (DMBTSTR, DMBTINT) für den ersten Basistypen (BTSTR) oder für den zweiten Basistypen (BTINT) gewonnen wird.
17. Dekomprimierungseinheit (DE) zum Dekomprimieren eines komprimierten Dokuments (BDOC) , wobei ein strukturiertes Dokument (DOC) in das komprimierte Doku- ment (BDOC) gemäß einem der Ansprüche 7 oder 8 komprimiert ist, das strukturierte Dokument (DOC) zumindest eine Informationseinheit (ELE, ATT) aufweist, die zumindest eine Informationseinheit (ELE, ATT) von einem Typen (TYP) einer vorgegebenen Strukturvorschrift (SYN) instantiiert ist, die Struk- turvorschrift (SYN) einen ersten Basistypen (BTSTR) und einen zweiten Basistypen (BTINT) umfasst, der erste Basistyp (BTSTR) zur Darstellung von zumindest einem Zeichen (CH) eingesetzt wird, der Typ (TYP) ein Datenfeld (DF) aufweist, das durch den zumindest einen ersten Basistypen (BTSTR) repräsen- tiert und eine Struktur des Datenfelds (DF) durch einen regulären Ausdrucks (RA) bestimmt wird, durch ein vorgegebenes Dekomprimierungsverfahren (DM) das komprimierte Dokument (BDOC) dekomprimierbar ist,
dadurch gekennzeichnet, dass die Dekomprimierungseinheit folgende Mittel aufweist:
ein erstes Mittel (Ml) zum Ermitteln zumindest eines Teils (ETA) des regulären Ausdrucks (RA) derart, dass dieser jewei- lige Teil (ETA) durch den zweiten Basistypen (BTINT) darstellbar ist;
ein fünftes Mittel (M5) zum Dekomprimieren des komprimierten Dokuments (BDOC) in zumindest einen Abschnitt (EAS) durch das vorgegebene Dekomprimierungsverfahren (DM), wobei der jeweilige Abschnitt (EAS) auf Basis einer vorgegebenen Dekompri- mierungsvorschrift (DMBTINT) für den zweiten Basistypen (BTINT) dekomprimierbar ist und zum Zuordnen des jeweiligen Abschnitts (EAS) zu dem jeweiligen Teil (ETA) des regulären Ausdrucks (RA) .
18. Dekomprimierungseinheit (DE) gemäß Anspruch 17, bei dem die Komprimierungseinheit (DE) ferner ein sechstes Mittel (M6) aufweist, das derart ausgestaltet ist, dass zumindest einer der Verfahrenschritte gemäß einem der Ansprüche 9 bis 16 ausführbar ist.
19. Komprimiertes Dokument (BDOC), das gemäß einem der Ansprüche 1 bis 6 generierbar ist.
PCT/EP2010/053662 2009-03-31 2010-03-22 Komprimierungsverfahren, dekomprimierungsverfahren, komprimierungseinheit, dekomprimierungseinheit sowie komprimiertes dokument WO2010112356A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201080015288.XA CN102379087B (zh) 2009-03-31 2010-03-22 压缩方法、解压缩方法、压缩单元、解压缩单元以及压缩文档
EP10712918A EP2415174A1 (de) 2009-03-31 2010-03-22 Komprimierungsverfahren, dekomprimierungsverfahren, komprimierungseinheit, dekomprimierungseinheit sowie komprimiertes dokument
US13/262,590 US20120124017A1 (en) 2009-03-31 2010-03-22 Compression method, decompression method, compression unit, decompression unit and compressed document

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102009015734A DE102009015734A1 (de) 2009-03-31 2009-03-31 Komprimierungsverfahren, Dekomprimierungsverfahren, Komprimierungseinheit, Dekomprimierungseinheit sowie komprimiertes Dokument
DE102009015734.4 2009-03-31

Publications (1)

Publication Number Publication Date
WO2010112356A1 true WO2010112356A1 (de) 2010-10-07

Family

ID=42244880

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2010/053662 WO2010112356A1 (de) 2009-03-31 2010-03-22 Komprimierungsverfahren, dekomprimierungsverfahren, komprimierungseinheit, dekomprimierungseinheit sowie komprimiertes dokument

Country Status (5)

Country Link
US (1) US20120124017A1 (de)
EP (1) EP2415174A1 (de)
CN (1) CN102379087B (de)
DE (1) DE102009015734A1 (de)
WO (1) WO2010112356A1 (de)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8595197B2 (en) 2010-06-29 2013-11-26 International Business Machines Corporation Message validation in a service-oriented architecture
US9128912B2 (en) * 2012-07-20 2015-09-08 Fujitsu Limited Efficient XML interchange schema document encoding
US10019418B2 (en) * 2012-07-20 2018-07-10 Fujitsu Limited Efficient XML interchange profile stream decoding
DE102014219090A1 (de) 2014-09-22 2016-03-24 Siemens Aktiengesellschaft Gerät mit Kommunikationsschnittstelle und Verfahren zur Steuerung eines Datenbankzugriffs
CN107633158B (zh) * 2016-07-18 2020-12-01 三星(中国)半导体有限公司 对基因序列进行压缩和解压缩的方法和设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6635088B1 (en) * 1998-11-20 2003-10-21 International Business Machines Corporation Structured document and document type definition compression
AUPR063400A0 (en) * 2000-10-06 2000-11-02 Canon Kabushiki Kaisha Xml encoding scheme
US7165239B2 (en) * 2001-07-10 2007-01-16 Microsoft Corporation Application program interface for network software platform
CN1492322A (zh) * 2003-08-20 2004-04-28 放 黄 xml数据压缩和解压方法
CN101364235A (zh) * 2008-09-27 2009-02-11 复旦大学 一种基于文件差异的xml文档压缩方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
GARZIA F ET AL.: "Evolutionary computation and genetic algorithms for energy management and conservation", INTELEC 2002. 24 TH. INTERNATIONAL TELECOMMUNICATIONS ENERGY CONFER-ENCE. MONTREAL, QUEBEC, CANADA, 29 September 2002 (2002-09-29), pages 386 - 393
GARZIA F ET AL: "Evolutionary computation and genetic algorithms for energy management and conservation", INTELEC 2002. 24TH. INTERNATIONAL TELECOMMUNICATIONS ENERGY CONFERENCE. MONTREAL, QUEBEC, CANADA, vol. CONF. 24, 29 September 2002 (2002-09-29) - 3 October 2002 (2002-10-03), NEW YORK, NY : IEEE, US, pages 386 - 393, XP010614651, ISBN: 978-0-7803-7512-3, DOI: 10.1109/INTLEC.2002.1048685 *
LEE D ET AL.: "SIGMOND RECORD", vol. 29, 1 September 2000, ACM, article "Comparative analysis of six XML Schmema languages", pages: 76 - 87
LEE D ET AL: "Comparative analysis of six XML Schema languages", SIGMOD RECORD, vol. 29, no. 3, 1 September 2000 (2000-09-01), ACM, NEW YORK, NY, US, pages 76 - 87, XP002579960, ISSN: 0163-5808 *
LIEFKE H ET AL.: "SIGMOND RECORD", vol. 29, 1 June 2000, ACM, article "XMILL: AN EFFICIENT COMPRESSOR FOR XML DATA", pages: 153 - 164
LIEFKE H ET AL: "XMILL: AN EFFICIENT COMPRESSOR FOR XML DATA", SIGMOD RECORD, vol. 29, no. 2, 1 June 2000 (2000-06-01), ACM, NEW YORK, NY, pages 153 - 164, XP001002286, ISSN: 0163-5808, DOI: 10.1145/335191.335405 *
NASSIM KOBEISSY ET AL: "Mapping XML to OWL for seamless information retrieval in context-aware environments", PERVASIVE SERVICES, IEEE INTERNATIONAL CONFERENCE ON, IEEE, PI, 1 July 2007 (2007-07-01), pages 361 - 366, XP031123251, ISBN: 978-1-4244-1325-6 *
W3C: "XML SCHEMA PART 2: DATATYPES", 24 October 2000 (2000-10-24), pages 1 - 3, XP002588386, Retrieved from the Internet <URL:HTTP://WWW.W3.ORG/TR/2000/CR-XMLSCHEMA-2-20001024> [retrieved on 20100622] *
YEN-JUNG CHEN ET AL: "SCORM/IMS-based Standards for Describing Personal and Environmental Contexts in Ubiquitous Learning Environments", INNOVATIVE COMPUTING, INFORMATION AND CONTROL, 2007. ICICIC '07. SECOND INTERNATIONAL CONFERENCE ON, IEEE, PI, 1 September 2007 (2007-09-01), pages 156 - 156, XP031200212, ISBN: 978-0-7695-2882-3 *

Also Published As

Publication number Publication date
CN102379087B (zh) 2015-07-08
DE102009015734A1 (de) 2010-10-07
CN102379087A (zh) 2012-03-14
US20120124017A1 (en) 2012-05-17
EP2415174A1 (de) 2012-02-08

Similar Documents

Publication Publication Date Title
DE60213760T2 (de) Verfahren zur kompression und dekompression eines strukturierten dokuments
DE60123596T2 (de) Verfahren zur Komprimierung einer Baumhierarchie, zugehöriges Signal und Verfahren zur Dekodierung eines Signals
WO2003091905A2 (de) Generische datenstrombeschreibung
EP2415174A1 (de) Komprimierungsverfahren, dekomprimierungsverfahren, komprimierungseinheit, dekomprimierungseinheit sowie komprimiertes dokument
DE60107964T2 (de) Vorrichtung zur kodierung und dekodierung von strukturierten dokumenten
WO2006005646A1 (de) Verfahren zum codieren eines xml-dokuments, sowie verfahren zum decodieren, verfahren zum codieren und decodieren, codiervorrichtung, decodiervorrichtung und vorrichtung zum codieren und decodieren
EP2197210A2 (de) Verfahren zur Verbesserung der Funktionalität der binären Repräsentation von MPEG-7 und andere XML basierten Inhaltsbeschreibungen
DE60100204T2 (de) Lokalisierung von MPEG-Flüssen für IP-Netzwerke
EP1323313B1 (de) Verfahren und anordnung zum übertragen eines vektors
EP1952540B1 (de) Verfahren zur kompression für einen rechnerarchitektur-unabhängigen datentransfer und/oder zur dekompression eines datensatzes
EP1833258A2 (de) Hybrides Bildkompressionsverfahren
EP1616274A1 (de) Verfahren zur codierung eines strukturierten dokuments
WO2008062041A1 (de) Verfahren und drucksystem zum trapping von druckdaten
DE102006055626B4 (de) Verfahren, Computerprogramm und Drucksystem zum Trapping von Druckdaten mit einer Vielzahl von Objekten
DE10146356A1 (de) Verfahren zum Komprimiern von dynamischen Webseiten und eine Datenverarbeitungseinrichtung zur Durchführung des Verfahrens
DE60103379T2 (de) Darstellung des allgemeinen technischen gebiets und des stands der technik
DE60120745T2 (de) Verfahren und gerät zur zusammenstellung von videoszenen aus verschiedenartigen daten
DE602004002104T2 (de) Ultraleicht browser
DE10248758B4 (de) Verfahren und Vorrichtungen zum Encodieren/Decodieren von XML-Dokumenten
DE69734196T2 (de) Effiziente Darstellung und Uebertragung von Objekten mit Varianten
DE10230810B4 (de) Verfahren zur Komprimierung und Dekomprimierung von Bilddaten
DE10142024A1 (de) Kompressionsverfahren
DE10128147A1 (de) Verfahren zur Übermittlung von Daten in einem Computer-Netzwerk
EP1787474A1 (de) Verfahren zur codierung eines xml-basierten dokuments
DE10327265A1 (de) Bildmanipulationsvorrichtung und -verfahren

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080015288.X

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10712918

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2010712918

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2010712918

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13262590

Country of ref document: US