KR20080087191A - Method for compressing and decompressing url - Google Patents
Method for compressing and decompressing url Download PDFInfo
- Publication number
- KR20080087191A KR20080087191A KR1020070017225A KR20070017225A KR20080087191A KR 20080087191 A KR20080087191 A KR 20080087191A KR 1020070017225 A KR1020070017225 A KR 1020070017225A KR 20070017225 A KR20070017225 A KR 20070017225A KR 20080087191 A KR20080087191 A KR 20080087191A
- Authority
- KR
- South Korea
- Prior art keywords
- string
- bits
- url
- bit string
- uel
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/02—Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
- H04L63/0227—Filtering policies
- H04L63/0236—Filtering by address, protocol, port number or service, e.g. IP-address or URL
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/32—Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
- H04N1/32101—Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
- H04N1/32144—Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title embedded in the image data, i.e. enclosed or integrated in the image, e.g. watermark, super-imposed logo or stamp
- H04N1/32149—Methods relating to embedding, encoding, decoding, detection or retrieval operations
- H04N1/32203—Spatial or amplitude domain methods
- H04N1/32208—Spatial or amplitude domain methods involving changing the magnitude of selected pixels, e.g. overlay of information or super-imposition
- H04N1/32213—Modulating the least significant bits of pixels
Abstract
Description
도 1은 본 발명에 따른 유알엘 압축 방법,1 is a UEL compression method according to the present invention,
도 2는 본 발명에 따른 유알엘 복원 방법,2 is a method of restoring a UEL according to the present invention,
도 3은 본 발명에 적용된 베이스64 코드표.Figure 3 is a base64 code table applied to the present invention.
본 발명은 유알엘 압축 및 복원 방법에 관한 것으로, 보다 자세하게는 유알엘의 크기를 압축하여 저장함으로써, 웹 저장 공간을 효율적으로 사용할 수 있는 유알엘 압축 및 복원 방법에 관한 것이다.The present invention relates to a method for compressing and restoring a UEL, and more particularly, to a method for compressing and restoring a UEL that can efficiently use a web storage space by compressing and storing the size of the UEL.
웹 검색 서비스 업체들은 웹 문서들을 수집하고 웹 데이터베이스(Web Database)를 구축하여 사용자가 원하는 정보를 포함한 최신 문서를 제공하려고 노력하고 있다. 구글, 야후, 네이버, 엠파스 등과 같은 검색 서비스는 자체적으로 웹 데이터베이스를 구축하여 사용자들이 정보를 검색하면 웹 데이터베이스에 저장된 정보를 제공한다.Web search service companies are trying to collect web documents and build a web database to provide the latest documents with the information they want. Search services like Google, Yahoo, Naver, Empas, etc. build their own web databases, which provide information stored in the web database when users search for information.
유알엘(URL, Uniform Resource Locator)은 인터넷상에 있는 다양한 정보들의 위치를 표시하는 체계로 접속해야될 서비스의 종류, 서버의 위치, 파일의 위치를 포함한다.Uniform Resource Locator (URL) is a system that indicates the location of various information on the Internet. It includes the type of service to be accessed, the location of a server, and the location of a file.
점점 웹 페이지들이 빠른 속도로 증가하는 추세로, 웹 데이터베이스 저장 공간의 효율적인 사용을 위해, 웹 데이터를 전부 저장하는 것보다 유알엘을 압축하여 저장하는 방법이 필요하다. 더불어 사용자 시스템의 주기억장치(Main Memory)에 대용량의 유알엘을 캐싱(Caching)할 필요가 있을 때, 기억장치의 용량에는 한계가 있으므로 유알엘의 길이 압축은 필수적이라 할 수 있다.Increasingly, web pages are rapidly increasing, and for efficient use of web database storage space, there is a need for compressing and storing UALs rather than storing all web data. In addition, when it is necessary to cache a large amount of UAL in the main memory of the user system (Main Memory), because the capacity of the memory is limited, the length compression of the UEL may be essential.
따라서, 본 발명은 종래 기술의 문제점을 해결하기 위한 것으로, 유알엘의 크기를 압축하여 저장함으로써, 웹 저장 공간을 효율적으로 사용하도록 함에 목적이 있다.Accordingly, an object of the present invention is to solve the problems of the prior art, and has an object to efficiently use the web storage space by compressing and storing the size of the UEL.
또한, 본 발명은 기존용량보다 두 배 이상의 유알엘을 주기억장치에 캐싱할 수 있도록 하는 다른 목적이 있다.In addition, the present invention has another object to enable the cache to the main memory device more than twice the existing capacity.
본 발명의 목적은 원본 유알엘을 16진수 문자열로 축약하는 제 1단계; 축약된 상기 16진수 문자열을 2진수 비트열로 변환하는 제 2단계; 변환된 상기 2진수 비트열에 0의 비트 4개를 추가하여 6비트씩 재배열하는 제 3단계; 및 재배열된 상 기 비트열을 베이스64 코드로 치환하는 제 4단계를 포함하는 유알엘 압축 방법에 의해 달성된다.An object of the present invention is the first step of reducing the original UAL to a hexadecimal string; Converting the abbreviated hexadecimal string into a binary bit string; A third step of rearranging six bits by adding four bits of zero to the converted binary bit string; And a fourth step of replacing the rearranged bit string with the base 64 code.
본 발명의 또 다른 목적은 축약된 문자열을 베이스64를 이용하여 비트로 변환하는 제 1단계; 변환된 상기 비트열을 0의 비트 4개를 소거하고 4비트씩 재배열하는 제 2단계; 재배열된 상기 비트열을 16진수로 변환하는 제 3단계; 및 변환된 상기 16진수 문자열을 원본 유알엘로 복원하는 제 4단계를 포함하는 유알엘 복원 방법에 의해 달성된다.Still another object of the present invention is a first step of converting an abbreviated string into bits using base64; A second step of erasing four bits of 0 and rearranging the converted bit strings by 4 bits; Converting the rearranged bit string into a hexadecimal number; And a fourth step of restoring the converted hexadecimal string to the original URL.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. Prior to this, terms or words used in the specification and claims should not be construed as having a conventional or dictionary meaning, and the inventors should properly explain the concept of terms in order to best explain their own invention. Based on the principle that can be defined, it should be interpreted as meaning and concept corresponding to the technical idea of the present invention.
따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.Therefore, the embodiments described in the specification and the drawings shown in the drawings are only the most preferred embodiment of the present invention and do not represent all of the technical idea of the present invention, various modifications that can be replaced at the time of the present application It should be understood that there may be equivalents and variations.
도 1은 본 발명에 따른 유알엘 압축 방법이다.1 is a UEL compression method according to the present invention.
먼저 원본 유알엘을 MD5(Message Digest 5) 알고리즘을 사용하여 32바이트(Byte) 크기의 문자열로 변환한다(S110). MD5는 보안관련 분야에서 데이터 무결 성을 검증하는데 사용되는 알고리즘으로서, 주어진 원문에서 고정된 길이의 의사난수(pseudo-random number)를 생성하는 기법이다. 본 발명에서는 이 알고리즘을 원본 유알엘 문자열을 일정한 길이로 변환하려고 하는 목적으로 사용한다. MD5는 원본 유알엘의 길이에 제한받지 않으며, 불가역적인 일방향함수를 포함하고 있기 때문에 어떠한 경우에라도 서로 다른 두 개의 유알엘이 동일한 결과로 나오는 경우는 없다. MD5 변환과정을 거치면 16진수로 이루어진 32바이트 크기의 문자열을 얻는다.First, the original UAL is converted into a string having a size of 32 bytes by using a message digest 5 (MD5) algorithm (S110). MD5 is an algorithm used to verify data integrity in security-related fields and generates a pseudo-random number of fixed length in a given text. In the present invention, this algorithm is used for the purpose of converting the original UAL string to a constant length. MD5 is not limited to the length of the original UAL, and contains an irreversible one-way function, so in no case two different UALs result in the same result. MD5 conversion yields a 32-byte string of hexadecimal digits.
얻어진 32바이트 크기의 문자열을 비트(bit)로 표현한다(S120). 각각의 문자는 16진수로서, 2진수 4비트로 표현될 수 있다.The obtained 32 byte sized string is represented as a bit (S120). Each character is a hexadecimal number and can be represented by binary four bits.
이렇게 하여 나열된 총 128비트열을 6개씩 재배열한다(S130). 6개씩 재배열하면 21개의 부분 비트열과 2개의 비트가 남는다. 마지막에 남은 2개의 비트는 '0'을 4개 채워 넣어 총 22개의 6비트 부분 문자열을 얻을 수 있다.In this way, the total 128 bit strings are rearranged by six (S130). Rearranging by six
이렇게 얻어진 각 6비트 크기의 총 22개의 부분 비트열은 베이스64(Base64) 코드표의 문자에 대응하여 표현한다(S140). 베이스64는 2진 데이터를 아스키(ASCII, American Standard Code for Information Interchange) 텍스트로 변환하거나 그 반대로 변환하는 인코딩 방법으로, 모든 플랫폼에서 안보이거나 깨지는 일이 생기지 않도록 공통으로 64개 아스키 코드를 이용하여 2진 데이터를 변환한다. 모든 부분 비트열을 베이스64의 문자에 맞게 표현하면, 도 1의 마지막 부분과 같은 22바이트의 축약된 문자열을 얻는다. 이러한 방법으로 원본 유알엘을 22바이트 크기로 압축하여 저장할 수 있다. A total of 22 partial bit strings of 6 bit sizes obtained in this manner are represented corresponding to the characters of the Base64 code table (S140). Base64 is an encoding method that converts binary data into ASCII (American Standard Code for Information Interchange) text and vice versa. Convert binary data. If all the partial bit strings are represented in accordance with the characters of Base64, a shortened string of 22 bytes is obtained as in the last part of FIG. In this way, the original URL can be compressed to 22 bytes in size.
상기와 같은 방법은 웹의 평균 유알엘 길이인 55바이트를 22바이트로 압축하기 때문에 저장 공간의 효율적인 사용이 가능하다.The above method compresses 55 bytes, which is the average UEL length of the web, into 22 bytes, thereby enabling efficient use of storage space.
도 2는 본 발명에 따른 유알엘 복원 방법이다.2 is a method of restoring the UEL according to the present invention.
도 1의 유알엘 압축 방법의 전체 수행 과정을 반대로 수행함으로써 복원할 수 있다. 먼저 22바이트로 축약되어 있는 문자열을 베이스64 코드를 사용하여 2진 비트로 표현한다(S210).The entire process of the UEL compression method of FIG. 1 can be restored by performing the reverse operation. First, the string shortened to 22 bytes is expressed as binary bits using the base64 code (S210).
이렇게 하여 나열된 비트열에서 압축과정 시 추가한 4개의 '0'을 소거한, 총 128비트열을 4비트씩 재배열한다(S220).In this way, the total 128-bit string from which four '0's added during the compression process are erased is rearranged by four bits (S220).
총 32개의 부분 비트열로 나누어지고 각각의 비트열은 16진수로 표현할 수 있다(S230). 상기 과정을 수행하면 32바이트 크기의 문자열을 얻을 수 있고, 이것은 도 1의 S110 과정을 수행한 후 생성되는 문자열과 일치한다.A total of 32 partial bit strings may be divided, and each bit string may be represented by a hexadecimal number (S230). By performing the above process, a 32-byte string can be obtained, which is consistent with the string generated after the process of S110 of FIG. 1.
이 문자열에 MD5 역방향 디코딩을 수행하면 원본 유알엘로 복원할 수 있다(S240).When MD5 reverse decoding is performed on the string, the original UAL can be restored (S240).
상기와 같은 방법으로 유알엘을 22바이트로 축약하고, 다시 원본 유알엘로 복원할 수 있으며, 사용되는 알고리즘은 간단하고 수행속도가 빠르다. 따라서 시스템의 주기억장치에 대용량의 유알엘을 캐싱할 때, 기존 용량보다 두 배 이상의 유알엘을 주기억장치에 캐싱할 수 있다.In the same way as above, UAL can be shortened to 22 bytes, and restored to the original UAL, and the algorithm used is simple and fast. Therefore, when caulking a large amount of UAL in the main memory of the system, it is possible to cache more than twice the existing capacity in the main memory.
도 3은 본 발명에 적용된 베이스64 코드표이다. 2진수 6자리가 표현할 수 있는 64개의 변수를, 알파벳 대문자 26개, 소문자 26개, 숫자 10개, 부호 2개의 아스키 코드로 나타낸다. MIME(Multipurpose Internet Mail Extension)에 의해 사용되 는 방법으로, 모든 플랫폼에서 안보이거나 깨지는 일이 생기지 않도록 공통으로 64개 아스키 코드를 이용하여 2진 데이터를 변환하기 위해 사용한다.3 is a base64 code table applied to the present invention. 64 variables that can be represented by 6 binary digits are represented by ASCII codes of 26 uppercase letters, 26 lowercase letters, 10 numbers, and two signs. Used by the MIME (Multipurpose Internet Mail Extension), it is commonly used to convert binary data using 64 ASCII codes to prevent invisible or broken on all platforms.
본 발명의 유알엘 압축 및 복원 방법에 따른 일실시예는 다음과 같다.One embodiment according to the UEL compression and decompression method of the present invention is as follows.
웹 검색 서비스 업체들은 웹 데이터베이스를 구축하여 사용자가 원하는 정보를 포함한 웹 문서들을 수집한다. 수집된 웹 문서의 유알엘은, 상기의 도 1의 설명과 같은 본 발명의 유알엘 압축 방법을 사용하여 저장된다. 따라서 웹 데이터베이스 저장 공간을 효율적으로 사용할 수 있다. 사용자의 검색에 의해 정보 요청이 들어오면, 압축저장된 유알엘중 요청된 유알엘의 압축복원이 상기의 도 2의 설명과 같은 방법에 의해 이루어지고, 복원된 원본 유알엘은 사용자에게 제공이 된다. 이런 압축 및 복원 과정에 사용되는 알고리즘은 간단하고 수행속도가 빠르다. 또한 유알엘의 길이를 절반 이상으로 압축하기 때문에, 다수의 사용자가 검색을 해도 시스템의 주기억장치에 캐싱되는 유알엘의 용량을 두 배 이상 처리할 수 있다.Web search service providers build a web database to collect web documents that contain information they want. The URLs of the collected web documents are stored using the UELEL compression method of the present invention as described above in FIG. 1. This allows you to use your Web database storage space efficiently. When a request for information is received by a user's search, compression and restoration of the requested UAL among compressed UALs are performed by the method as described in FIG. 2 above, and the restored original UAL is provided to the user. The algorithm used for this compression and decompression process is simple and fast. In addition, since the length of the UEL is compressed to more than half, it is possible to double the capacity of the UEL cached in the main memory of the system even when many users search.
본 발명은 이상에서 살펴본 바와 같이 바람직한 실시예를 들어 도시하고 설명하였으나, 상기한 실시예에 한정되지 아니하며 본 발명의 정신을 벗어나지 않는 범위 내에서 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변경과 수정이 가능할 것이다. Although the present invention has been shown and described with reference to the preferred embodiments as described above, it is not limited to the above embodiments and those skilled in the art without departing from the spirit of the present invention. Various changes and modifications will be possible.
따라서, 본 발명의 유알엘 압축 및 복원 방법은 유알엘의 크기를 압축하여 저장함으로써, 웹 저장 공간을 효율적으로 사용할 수 있다.Therefore, the UEL compression and restoration method of the present invention can efficiently use the web storage space by compressing and storing the size of the UEL.
또한, 기존용량보다 두 배 이상의 유알엘을 주기억장치에 캐싱할 수 있도록 하는 현저하고도 유리한 효과가 있다.In addition, there is a remarkable and advantageous effect of caching in the main memory device more than twice the existing capacity.
Claims (4)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070017225A KR20080087191A (en) | 2007-02-21 | 2007-02-21 | Method for compressing and decompressing url |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070017225A KR20080087191A (en) | 2007-02-21 | 2007-02-21 | Method for compressing and decompressing url |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20080087191A true KR20080087191A (en) | 2008-10-01 |
Family
ID=40149876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070017225A KR20080087191A (en) | 2007-02-21 | 2007-02-21 | Method for compressing and decompressing url |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20080087191A (en) |
-
2007
- 2007-02-21 KR KR1020070017225A patent/KR20080087191A/en not_active Application Discontinuation
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5953503A (en) | Compression protocol with multiple preset dictionaries | |
US7877364B2 (en) | Method of storing and retrieving miniaturised data | |
US7185018B2 (en) | Method of storing and retrieving miniaturized data | |
TW312771B (en) | ||
US8109441B2 (en) | System and method for encoding and decoding data and references to data in machine-readable graphical codes | |
KR20130062889A (en) | Method and system for data compression | |
US20130262486A1 (en) | Encoding and Decoding of Small Amounts of Text | |
JP3778087B2 (en) | Data encoding apparatus and data decoding apparatus | |
US11070231B2 (en) | Reducing storage of blockchain metadata via dictionary-style compression | |
JP6021930B2 (en) | Method and device for generating and decoding messages | |
JP2005501303A (en) | Method and system for handling large character sets | |
JP2014526098A (en) | Method and system for downloading font files | |
Nandi et al. | Modified compression techniques based on optimality of LZW code (MOLZW) | |
WO2018226221A1 (en) | Context-dependent shared dictionaries | |
US8463759B2 (en) | Method and system for compressing data | |
KR20080087191A (en) | Method for compressing and decompressing url | |
JP2005004560A (en) | Method for creating inverted file | |
Arif et al. | An enhanced static data compression scheme of Bengali short message | |
JP7006462B2 (en) | Data generation program, data generation method and information processing equipment | |
WO2017027226A1 (en) | On the fly statistical delta differencing engine | |
Moffat et al. | Binary codes for locally homogeneous sequences | |
Baruah et al. | Enhancing dictionary based preprocessing for better text compression | |
Nakano et al. | Highly efficient universal coding with classifying to subdictionaries for text compression | |
Rincy et al. | Preprocessed text compression method for Malayalam text files | |
JPH08149016A (en) | Character string coding method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |