KR20080087191A - Method for compressing and decompressing url - Google Patents

Method for compressing and decompressing url Download PDF

Info

Publication number
KR20080087191A
KR20080087191A KR1020070017225A KR20070017225A KR20080087191A KR 20080087191 A KR20080087191 A KR 20080087191A KR 1020070017225 A KR1020070017225 A KR 1020070017225A KR 20070017225 A KR20070017225 A KR 20070017225A KR 20080087191 A KR20080087191 A KR 20080087191A
Authority
KR
South Korea
Prior art keywords
string
bits
url
bit string
uel
Prior art date
Application number
KR1020070017225A
Other languages
Korean (ko)
Inventor
이상호
한인규
Original Assignee
숭실대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숭실대학교산학협력단 filed Critical 숭실대학교산학협력단
Priority to KR1020070017225A priority Critical patent/KR20080087191A/en
Publication of KR20080087191A publication Critical patent/KR20080087191A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0236Filtering by address, protocol, port number or service, e.g. IP-address or URL
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32144Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title embedded in the image data, i.e. enclosed or integrated in the image, e.g. watermark, super-imposed logo or stamp
    • H04N1/32149Methods relating to embedding, encoding, decoding, detection or retrieval operations
    • H04N1/32203Spatial or amplitude domain methods
    • H04N1/32208Spatial or amplitude domain methods involving changing the magnitude of selected pixels, e.g. overlay of information or super-imposition
    • H04N1/32213Modulating the least significant bits of pixels

Abstract

A method for compressing and decompressing a URL(Uniform Resource Locator) is provided to use a web storage space efficiently by compressing/storing the URL to a web storage space and decompressing the compressed URL, and cache the URLs more than two times of a usual storage capacity to a main memory. A raw URL is contracted in a hexadecimal character string by using MD5(Message Digest)(S110), and the contracted hexadecimal character string is converted into a binary bit string(S120). The binary bit string is rearranged in a 6-bit unit by adding four '0' bits to the binary bit string(S130). The rearranged bit string is replaced with a base 64 code(S140). The contracted character string is converted into the bit string by using the base 64 code. The bit string is rearranged in a 4-bit unit by erasing four '0' bits from the bit string. The rearranged bit string is converted into the hexadecimal character string. The hexadecimal character string is restored to the raw URL by using MD5.

Description

유알엘 압축 및 복원 방법{Method for compressing and decompressing URL}Method for compressing and decompressing URL

도 1은 본 발명에 따른 유알엘 압축 방법,1 is a UEL compression method according to the present invention,

도 2는 본 발명에 따른 유알엘 복원 방법,2 is a method of restoring a UEL according to the present invention,

도 3은 본 발명에 적용된 베이스64 코드표.Figure 3 is a base64 code table applied to the present invention.

본 발명은 유알엘 압축 및 복원 방법에 관한 것으로, 보다 자세하게는 유알엘의 크기를 압축하여 저장함으로써, 웹 저장 공간을 효율적으로 사용할 수 있는 유알엘 압축 및 복원 방법에 관한 것이다.The present invention relates to a method for compressing and restoring a UEL, and more particularly, to a method for compressing and restoring a UEL that can efficiently use a web storage space by compressing and storing the size of the UEL.

웹 검색 서비스 업체들은 웹 문서들을 수집하고 웹 데이터베이스(Web Database)를 구축하여 사용자가 원하는 정보를 포함한 최신 문서를 제공하려고 노력하고 있다. 구글, 야후, 네이버, 엠파스 등과 같은 검색 서비스는 자체적으로 웹 데이터베이스를 구축하여 사용자들이 정보를 검색하면 웹 데이터베이스에 저장된 정보를 제공한다.Web search service companies are trying to collect web documents and build a web database to provide the latest documents with the information they want. Search services like Google, Yahoo, Naver, Empas, etc. build their own web databases, which provide information stored in the web database when users search for information.

유알엘(URL, Uniform Resource Locator)은 인터넷상에 있는 다양한 정보들의 위치를 표시하는 체계로 접속해야될 서비스의 종류, 서버의 위치, 파일의 위치를 포함한다.Uniform Resource Locator (URL) is a system that indicates the location of various information on the Internet. It includes the type of service to be accessed, the location of a server, and the location of a file.

점점 웹 페이지들이 빠른 속도로 증가하는 추세로, 웹 데이터베이스 저장 공간의 효율적인 사용을 위해, 웹 데이터를 전부 저장하는 것보다 유알엘을 압축하여 저장하는 방법이 필요하다. 더불어 사용자 시스템의 주기억장치(Main Memory)에 대용량의 유알엘을 캐싱(Caching)할 필요가 있을 때, 기억장치의 용량에는 한계가 있으므로 유알엘의 길이 압축은 필수적이라 할 수 있다.Increasingly, web pages are rapidly increasing, and for efficient use of web database storage space, there is a need for compressing and storing UALs rather than storing all web data. In addition, when it is necessary to cache a large amount of UAL in the main memory of the user system (Main Memory), because the capacity of the memory is limited, the length compression of the UEL may be essential.

따라서, 본 발명은 종래 기술의 문제점을 해결하기 위한 것으로, 유알엘의 크기를 압축하여 저장함으로써, 웹 저장 공간을 효율적으로 사용하도록 함에 목적이 있다.Accordingly, an object of the present invention is to solve the problems of the prior art, and has an object to efficiently use the web storage space by compressing and storing the size of the UEL.

또한, 본 발명은 기존용량보다 두 배 이상의 유알엘을 주기억장치에 캐싱할 수 있도록 하는 다른 목적이 있다.In addition, the present invention has another object to enable the cache to the main memory device more than twice the existing capacity.

본 발명의 목적은 원본 유알엘을 16진수 문자열로 축약하는 제 1단계; 축약된 상기 16진수 문자열을 2진수 비트열로 변환하는 제 2단계; 변환된 상기 2진수 비트열에 0의 비트 4개를 추가하여 6비트씩 재배열하는 제 3단계; 및 재배열된 상 기 비트열을 베이스64 코드로 치환하는 제 4단계를 포함하는 유알엘 압축 방법에 의해 달성된다.An object of the present invention is the first step of reducing the original UAL to a hexadecimal string; Converting the abbreviated hexadecimal string into a binary bit string; A third step of rearranging six bits by adding four bits of zero to the converted binary bit string; And a fourth step of replacing the rearranged bit string with the base 64 code.

본 발명의 또 다른 목적은 축약된 문자열을 베이스64를 이용하여 비트로 변환하는 제 1단계; 변환된 상기 비트열을 0의 비트 4개를 소거하고 4비트씩 재배열하는 제 2단계; 재배열된 상기 비트열을 16진수로 변환하는 제 3단계; 및 변환된 상기 16진수 문자열을 원본 유알엘로 복원하는 제 4단계를 포함하는 유알엘 복원 방법에 의해 달성된다.Still another object of the present invention is a first step of converting an abbreviated string into bits using base64; A second step of erasing four bits of 0 and rearranging the converted bit strings by 4 bits; Converting the rearranged bit string into a hexadecimal number; And a fourth step of restoring the converted hexadecimal string to the original URL.

이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. Prior to this, terms or words used in the specification and claims should not be construed as having a conventional or dictionary meaning, and the inventors should properly explain the concept of terms in order to best explain their own invention. Based on the principle that can be defined, it should be interpreted as meaning and concept corresponding to the technical idea of the present invention.

따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.Therefore, the embodiments described in the specification and the drawings shown in the drawings are only the most preferred embodiment of the present invention and do not represent all of the technical idea of the present invention, various modifications that can be replaced at the time of the present application It should be understood that there may be equivalents and variations.

도 1은 본 발명에 따른 유알엘 압축 방법이다.1 is a UEL compression method according to the present invention.

먼저 원본 유알엘을 MD5(Message Digest 5) 알고리즘을 사용하여 32바이트(Byte) 크기의 문자열로 변환한다(S110). MD5는 보안관련 분야에서 데이터 무결 성을 검증하는데 사용되는 알고리즘으로서, 주어진 원문에서 고정된 길이의 의사난수(pseudo-random number)를 생성하는 기법이다. 본 발명에서는 이 알고리즘을 원본 유알엘 문자열을 일정한 길이로 변환하려고 하는 목적으로 사용한다. MD5는 원본 유알엘의 길이에 제한받지 않으며, 불가역적인 일방향함수를 포함하고 있기 때문에 어떠한 경우에라도 서로 다른 두 개의 유알엘이 동일한 결과로 나오는 경우는 없다. MD5 변환과정을 거치면 16진수로 이루어진 32바이트 크기의 문자열을 얻는다.First, the original UAL is converted into a string having a size of 32 bytes by using a message digest 5 (MD5) algorithm (S110). MD5 is an algorithm used to verify data integrity in security-related fields and generates a pseudo-random number of fixed length in a given text. In the present invention, this algorithm is used for the purpose of converting the original UAL string to a constant length. MD5 is not limited to the length of the original UAL, and contains an irreversible one-way function, so in no case two different UALs result in the same result. MD5 conversion yields a 32-byte string of hexadecimal digits.

얻어진 32바이트 크기의 문자열을 비트(bit)로 표현한다(S120). 각각의 문자는 16진수로서, 2진수 4비트로 표현될 수 있다.The obtained 32 byte sized string is represented as a bit (S120). Each character is a hexadecimal number and can be represented by binary four bits.

이렇게 하여 나열된 총 128비트열을 6개씩 재배열한다(S130). 6개씩 재배열하면 21개의 부분 비트열과 2개의 비트가 남는다. 마지막에 남은 2개의 비트는 '0'을 4개 채워 넣어 총 22개의 6비트 부분 문자열을 얻을 수 있다.In this way, the total 128 bit strings are rearranged by six (S130). Rearranging by six leaves 21 partial bit sequences and two bits. The last two bits are filled with four zeros to get a total of 22 six-bit substrings.

이렇게 얻어진 각 6비트 크기의 총 22개의 부분 비트열은 베이스64(Base64) 코드표의 문자에 대응하여 표현한다(S140). 베이스64는 2진 데이터를 아스키(ASCII, American Standard Code for Information Interchange) 텍스트로 변환하거나 그 반대로 변환하는 인코딩 방법으로, 모든 플랫폼에서 안보이거나 깨지는 일이 생기지 않도록 공통으로 64개 아스키 코드를 이용하여 2진 데이터를 변환한다. 모든 부분 비트열을 베이스64의 문자에 맞게 표현하면, 도 1의 마지막 부분과 같은 22바이트의 축약된 문자열을 얻는다. 이러한 방법으로 원본 유알엘을 22바이트 크기로 압축하여 저장할 수 있다. A total of 22 partial bit strings of 6 bit sizes obtained in this manner are represented corresponding to the characters of the Base64 code table (S140). Base64 is an encoding method that converts binary data into ASCII (American Standard Code for Information Interchange) text and vice versa. Convert binary data. If all the partial bit strings are represented in accordance with the characters of Base64, a shortened string of 22 bytes is obtained as in the last part of FIG. In this way, the original URL can be compressed to 22 bytes in size.

상기와 같은 방법은 웹의 평균 유알엘 길이인 55바이트를 22바이트로 압축하기 때문에 저장 공간의 효율적인 사용이 가능하다.The above method compresses 55 bytes, which is the average UEL length of the web, into 22 bytes, thereby enabling efficient use of storage space.

도 2는 본 발명에 따른 유알엘 복원 방법이다.2 is a method of restoring the UEL according to the present invention.

도 1의 유알엘 압축 방법의 전체 수행 과정을 반대로 수행함으로써 복원할 수 있다. 먼저 22바이트로 축약되어 있는 문자열을 베이스64 코드를 사용하여 2진 비트로 표현한다(S210).The entire process of the UEL compression method of FIG. 1 can be restored by performing the reverse operation. First, the string shortened to 22 bytes is expressed as binary bits using the base64 code (S210).

이렇게 하여 나열된 비트열에서 압축과정 시 추가한 4개의 '0'을 소거한, 총 128비트열을 4비트씩 재배열한다(S220).In this way, the total 128-bit string from which four '0's added during the compression process are erased is rearranged by four bits (S220).

총 32개의 부분 비트열로 나누어지고 각각의 비트열은 16진수로 표현할 수 있다(S230). 상기 과정을 수행하면 32바이트 크기의 문자열을 얻을 수 있고, 이것은 도 1의 S110 과정을 수행한 후 생성되는 문자열과 일치한다.A total of 32 partial bit strings may be divided, and each bit string may be represented by a hexadecimal number (S230). By performing the above process, a 32-byte string can be obtained, which is consistent with the string generated after the process of S110 of FIG. 1.

이 문자열에 MD5 역방향 디코딩을 수행하면 원본 유알엘로 복원할 수 있다(S240).When MD5 reverse decoding is performed on the string, the original UAL can be restored (S240).

상기와 같은 방법으로 유알엘을 22바이트로 축약하고, 다시 원본 유알엘로 복원할 수 있으며, 사용되는 알고리즘은 간단하고 수행속도가 빠르다. 따라서 시스템의 주기억장치에 대용량의 유알엘을 캐싱할 때, 기존 용량보다 두 배 이상의 유알엘을 주기억장치에 캐싱할 수 있다.In the same way as above, UAL can be shortened to 22 bytes, and restored to the original UAL, and the algorithm used is simple and fast. Therefore, when caulking a large amount of UAL in the main memory of the system, it is possible to cache more than twice the existing capacity in the main memory.

도 3은 본 발명에 적용된 베이스64 코드표이다. 2진수 6자리가 표현할 수 있는 64개의 변수를, 알파벳 대문자 26개, 소문자 26개, 숫자 10개, 부호 2개의 아스키 코드로 나타낸다. MIME(Multipurpose Internet Mail Extension)에 의해 사용되 는 방법으로, 모든 플랫폼에서 안보이거나 깨지는 일이 생기지 않도록 공통으로 64개 아스키 코드를 이용하여 2진 데이터를 변환하기 위해 사용한다.3 is a base64 code table applied to the present invention. 64 variables that can be represented by 6 binary digits are represented by ASCII codes of 26 uppercase letters, 26 lowercase letters, 10 numbers, and two signs. Used by the MIME (Multipurpose Internet Mail Extension), it is commonly used to convert binary data using 64 ASCII codes to prevent invisible or broken on all platforms.

본 발명의 유알엘 압축 및 복원 방법에 따른 일실시예는 다음과 같다.One embodiment according to the UEL compression and decompression method of the present invention is as follows.

웹 검색 서비스 업체들은 웹 데이터베이스를 구축하여 사용자가 원하는 정보를 포함한 웹 문서들을 수집한다. 수집된 웹 문서의 유알엘은, 상기의 도 1의 설명과 같은 본 발명의 유알엘 압축 방법을 사용하여 저장된다. 따라서 웹 데이터베이스 저장 공간을 효율적으로 사용할 수 있다. 사용자의 검색에 의해 정보 요청이 들어오면, 압축저장된 유알엘중 요청된 유알엘의 압축복원이 상기의 도 2의 설명과 같은 방법에 의해 이루어지고, 복원된 원본 유알엘은 사용자에게 제공이 된다. 이런 압축 및 복원 과정에 사용되는 알고리즘은 간단하고 수행속도가 빠르다. 또한 유알엘의 길이를 절반 이상으로 압축하기 때문에, 다수의 사용자가 검색을 해도 시스템의 주기억장치에 캐싱되는 유알엘의 용량을 두 배 이상 처리할 수 있다.Web search service providers build a web database to collect web documents that contain information they want. The URLs of the collected web documents are stored using the UELEL compression method of the present invention as described above in FIG. 1. This allows you to use your Web database storage space efficiently. When a request for information is received by a user's search, compression and restoration of the requested UAL among compressed UALs are performed by the method as described in FIG. 2 above, and the restored original UAL is provided to the user. The algorithm used for this compression and decompression process is simple and fast. In addition, since the length of the UEL is compressed to more than half, it is possible to double the capacity of the UEL cached in the main memory of the system even when many users search.

본 발명은 이상에서 살펴본 바와 같이 바람직한 실시예를 들어 도시하고 설명하였으나, 상기한 실시예에 한정되지 아니하며 본 발명의 정신을 벗어나지 않는 범위 내에서 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변경과 수정이 가능할 것이다. Although the present invention has been shown and described with reference to the preferred embodiments as described above, it is not limited to the above embodiments and those skilled in the art without departing from the spirit of the present invention. Various changes and modifications will be possible.

따라서, 본 발명의 유알엘 압축 및 복원 방법은 유알엘의 크기를 압축하여 저장함으로써, 웹 저장 공간을 효율적으로 사용할 수 있다.Therefore, the UEL compression and restoration method of the present invention can efficiently use the web storage space by compressing and storing the size of the UEL.

또한, 기존용량보다 두 배 이상의 유알엘을 주기억장치에 캐싱할 수 있도록 하는 현저하고도 유리한 효과가 있다.In addition, there is a remarkable and advantageous effect of caching in the main memory device more than twice the existing capacity.

Claims (4)

원본 유알엘을 16진수 문자열로 축약하는 제 1단계;A first step of shortening the original UAL into a hexadecimal string; 축약된 상기 16진수 문자열을 2진수 비트열로 변환하는 제 2단계;Converting the abbreviated hexadecimal string into a binary bit string; 변환된 상기 2진수 비트열에 0의 비트 4개를 추가하여 6비트씩 재배열하는 제 3단계; 및A third step of rearranging six bits by adding four bits of zero to the converted binary bit string; And 재배열된 상기 비트열을 베이스64 코드로 치환하는 제 4단계A fourth step of substituting the rearranged bit strings with base64 codes 를 포함하는 유알엘 압축 방법.UEL compression method comprising a. 제 1 항에 있어서,The method of claim 1, 상기 원본 유알엘을 16진수 문자로 축약하는 것은 MD5를 사용하는 유알엘 압축 방법.The abbreviation of the original UEL in hexadecimal characters is UAL compression method using MD5. 축약된 문자열을 베이스64를 이용하여 비트로 변환하는 제 1단계;Converting the abbreviated character string into bits using base64; 변환된 상기 비트열을 0의 비트 4개를 소거하고 4비트씩 재배열하는 제 2단계;A second step of erasing four bits of 0 and rearranging the converted bit strings by 4 bits; 재배열된 상기 비트열을 16진수로 변환하는 제 3단계; 및Converting the rearranged bit string into a hexadecimal number; And 변환된 상기 16진수 문자열을 원본 유알엘로 복원하는 제 4단계A fourth step of restoring the converted hexadecimal string to the original URL 를 포함하는 유알엘 복원 방법.UAL restore method comprising a. 제 3 항에 있어서,The method of claim 3, wherein 상기 16진수 문자열을 원본 유알엘로 복원하는 것은 MD5를 사용하는 유알엘 복원 방법.Restoring the hexadecimal string to the original UEL is a UEL restoration method using MD5.
KR1020070017225A 2007-02-21 2007-02-21 Method for compressing and decompressing url KR20080087191A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070017225A KR20080087191A (en) 2007-02-21 2007-02-21 Method for compressing and decompressing url

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070017225A KR20080087191A (en) 2007-02-21 2007-02-21 Method for compressing and decompressing url

Publications (1)

Publication Number Publication Date
KR20080087191A true KR20080087191A (en) 2008-10-01

Family

ID=40149876

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070017225A KR20080087191A (en) 2007-02-21 2007-02-21 Method for compressing and decompressing url

Country Status (1)

Country Link
KR (1) KR20080087191A (en)

Similar Documents

Publication Publication Date Title
US5953503A (en) Compression protocol with multiple preset dictionaries
US7877364B2 (en) Method of storing and retrieving miniaturised data
US7185018B2 (en) Method of storing and retrieving miniaturized data
TW312771B (en)
US8109441B2 (en) System and method for encoding and decoding data and references to data in machine-readable graphical codes
KR20130062889A (en) Method and system for data compression
US20130262486A1 (en) Encoding and Decoding of Small Amounts of Text
JP3778087B2 (en) Data encoding apparatus and data decoding apparatus
US11070231B2 (en) Reducing storage of blockchain metadata via dictionary-style compression
JP6021930B2 (en) Method and device for generating and decoding messages
JP2005501303A (en) Method and system for handling large character sets
JP2014526098A (en) Method and system for downloading font files
Nandi et al. Modified compression techniques based on optimality of LZW code (MOLZW)
WO2018226221A1 (en) Context-dependent shared dictionaries
US8463759B2 (en) Method and system for compressing data
KR20080087191A (en) Method for compressing and decompressing url
JP2005004560A (en) Method for creating inverted file
Arif et al. An enhanced static data compression scheme of Bengali short message
JP7006462B2 (en) Data generation program, data generation method and information processing equipment
WO2017027226A1 (en) On the fly statistical delta differencing engine
Moffat et al. Binary codes for locally homogeneous sequences
Baruah et al. Enhancing dictionary based preprocessing for better text compression
Nakano et al. Highly efficient universal coding with classifying to subdictionaries for text compression
Rincy et al. Preprocessed text compression method for Malayalam text files
JPH08149016A (en) Character string coding method

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application