KR101791877B1 - 유티에프-8 코드 문자의 압축 방법 및 장치 - Google Patents

유티에프-8 코드 문자의 압축 방법 및 장치 Download PDF

Info

Publication number
KR101791877B1
KR101791877B1 KR1020160158508A KR20160158508A KR101791877B1 KR 101791877 B1 KR101791877 B1 KR 101791877B1 KR 1020160158508 A KR1020160158508 A KR 1020160158508A KR 20160158508 A KR20160158508 A KR 20160158508A KR 101791877 B1 KR101791877 B1 KR 101791877B1
Authority
KR
South Korea
Prior art keywords
byte
code
characters
code group
utf
Prior art date
Application number
KR1020160158508A
Other languages
English (en)
Inventor
김정훈
Original Assignee
바이너리랩(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 바이너리랩(주) filed Critical 바이너리랩(주)
Priority to KR1020160158508A priority Critical patent/KR101791877B1/ko
Application granted granted Critical
Publication of KR101791877B1 publication Critical patent/KR101791877B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/70Type of the data to be coded, other than image and sound
    • H03M7/705Unicode
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/46Conversion to or from run-length codes, i.e. by representing the number of consecutive digits, or groups of digits, of the same kind by a code word and a digit indicative of that kind
    • H03M7/48Conversion to or from run-length codes, i.e. by representing the number of consecutive digits, or groups of digits, of the same kind by a code word and a digit indicative of that kind alternating with other codes during the code conversion process, e.g. run-length coding being performed only as long as sufficientlylong runs of digits of the same kind are present
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6017Methods or arrangements to increase the throughput
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 압축부가 유티에프-8(UTF-8) 코드 문자를 입력받는 입력단계; 및 압축부가 UTF-8 코드 문자를 압축하는 압축단계를 포함하되, UTF-8 코드 문자 중, 1바이트 코드군에 포함된 문자는 최상위비트로부터 0으로 시작하고 1바이트로 이루어진 문자이고, 2바이트 코드군에 포함된 문자는 최상위비트로부터 110으로 시작하고 2바이트로 이루어진 문자이고, 3바이트 코드군에 포함된 문자는 최상위비트로부터 1110으로 시작하고 3바이트로 이루어진 문자이고, 4바이트 코드군에 포함된 문자는 최상위비트로부터 11110으로 시작하고 4바이트로 이루어진 문자이고, 5바이트 코드군에 포함된 문자는 최상위비트로부터 111110으로 시작하고 5바이트로 이루어진 문자이고, 6바이트 코드군에 포함된 문자는 최상위비트로부터 1111110으로 시작하고 6바이트로 이루어진 문자이고, 압축단계에서 압축부는 3바이트 코드군에 포함된 문자의 압축시, 유니코드 U+A000 내지 U+DFFF에 대응하는 3바이트 코드군 문자에 대해서는, 첫번째 바이트의 맨앞의 1110은 10으로 치환하되, 첫번째 바이트의 나머지 4비트에 대해서는, 1010, 1011, 1100, 1101의 각각을 110, 0, 10, 111 중 어느 하나에 각각 일대일로 대응하여 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 방법에 관한 것이다.

Description

유티에프-8 코드 문자의 압축 방법 및 장치{METHOD AND APPARATUS FOR COMPRESSING UTF-8 CODE CHARACTER}
본 발명은 유티에프-8 코드 문자의 압축 방법 및 장치에 관한 것으로서, 보다 구체적으로는 간단한 연산을 통해 유티에프-8 코드(UTF-8 CODE) 방식의 문자를 효과적이고 효율적으로 압축할 수 있도록 하는, 유티에프-8 코드 문자의 압축 방법 및 장치에 관한 것이다.
일반적으로, 통상의 전송 채널에서 이용 가능한 주파수 대역폭은 제한되어 있으므로, 많은 양의 데이터를 전송하기 위해서 모뎀과 같은 다양한 전송 시스템은 전송 데이터의 양을 압축하거나 줄일 수 있는 효과적인 데이터 압축 기법을 이용해 왔다.
다양한 압축기법 중의 하나로서, 국제 전기 통신 동맹(ITU : International Telecommunication Union)에 의해 표준화된 부호화 알고리즘으로, 모뎀과 같은 데이터 전송 시스템에서 채용하고 있는 CCITT V.42 bis 가 있다. 이 부호화 표준안에 적용된 기초는 Ziv-Lempel code(ZLC)이며, 이 방식은 입력 데이터로부터 적응적으로 사전을 형성해 가면서 앞의 입력 데이터와 동일한 구문(phrase)이 저장되어 있는 사전의 주소값을 부호어로 전송하는 방법이다. 사전화(dictionary) 작업은 입력 데이터와 계속적인 스트링 매칭(string matching)을 수행하여 최대 길이의 매칭 스트링에 매칭안된 문자를 결합하여 사전에 추가하는 과정으로 사전을 업데이트한다.
그러나, 이러한 종래의 압축 방식은 데이터의 압축 및 압축 해제에 대한 처리 연산이 복잡하고 비교적 고사양의 하드웨어적 장치를 필요로 하며, 처리 속도의 향상에 제한이 따르고 압축 결과값에 대한 신뢰성을 높이기 힘든 문제점이 있었다.
한편, 유티에프-8 코드(UTF-8 code)는 유니코드를 위한 가변 길이 문자 인코딩 방식 중 하나로, 켄 톰프슨과 롭 파이크에 의해 만들어졌다. UTF-8 코드는 Universal Coded Character Set + Transformation Format-8bit의 약자이다. 본래는 FSS-UTF(File System Safe UCS/Unicode Transformation Format)라는 이름으로 제안되었다. UTF-8 코드는 아스키코드 체계와 다국어코드를 모두 포함하기 위한 전세계적 표준코드이며, 우리나라에서는 한글을 표현하기 위한 한글 표준 엔코딩 방법이며, 각종 검색엔진에서도 기준코딩으로 쓸만큼 매우 범용적으로 활용되고 있는 코드이다.
도 3은 UTF-8 코드를 포함한 각 문자코드의 웹에서의 활용빈도를 나타낸 것이다. 도 3에 도시된 바와 같이 UTF-8코드는 그 중요도와 활용도가 갈수록 증가하고 있으며, 이러한 UTF-8코드를 보다 효율적이고 최적화된 방법으로 압축하는 기술에 대한 필요성이 갈수록 증가하고 있다.
본 발명의 배경기술은 대한민국 공개특허공보 제 2003-0022630호(2003. 3. 17 공개)에 개시되어 있다.
본 발명이 이루고자 하는 기술적 과제는, 간단한 연산을 통해 유티에프-8 코드(UTF-8 CODE) 방식의 문자를 효과적이고 효율적으로 압축할 수 있도록 하는, 유티에프-8 코드 문자의 압축 방법 및 장치를 제공하는 데에 있다.
본 발명의 일측면에 따르면, 본 발명은 압축부가 유티에프-8(UTF-8) 코드 문자를 입력받는 입력단계; 및 상기 압축부가 UTF-8 코드 문자를 압축하는 압축단계를 포함하되, 상기 UTF-8 코드 문자 중, 1바이트 코드군에 포함된 문자는 최상위비트로부터 0으로 시작하고 1바이트로 이루어진 문자이고, 2바이트 코드군에 포함된 문자는 최상위비트로부터 110으로 시작하고 2바이트로 이루어진 문자이고, 3바이트 코드군에 포함된 문자는 최상위비트로부터 1110으로 시작하고 3바이트로 이루어진 문자이고, 4바이트 코드군에 포함된 문자는 최상위비트로부터 11110으로 시작하고 4바이트로 이루어진 문자이고, 5바이트 코드군에 포함된 문자는 최상위비트로부터 111110으로 시작하고 5바이트로 이루어진 문자이고, 6바이트 코드군에 포함된 문자는 최상위비트로부터 1111110으로 시작하고 6바이트로 이루어진 문자이고,
상기 압축단계에서 상기 압축부는 3바이트 코드군에 포함된 문자의 압축시, 유니코드 U+A000 내지 U+DFFF에 대응하는 3바이트 코드군 문자에 대해서는, 첫번째 바이트의 맨앞의 1110은 10으로 치환하되, 상기 첫번째 바이트의 나머지 4비트에 대해서는, 1010은 110으로, 1011은 0으로, 1100은 10으로, 1101은 111로 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 방법을 제공한다.
본 발명의 다른 측면에 따르면, 본 발명은 압축부가 유티에프-8(UTF-8) 코드 문자를 입력받는 입력단계; 및 상기 압축부가 UTF-8 코드 문자를 압축하는 압축단계를 포함하되, 상기 UTF-8 코드 문자 중, 1바이트 코드군에 포함된 문자는 최상위비트로부터 0으로 시작하고 1바이트로 이루어진 문자이고, 2바이트 코드군에 포함된 문자는 최상위비트로부터 110으로 시작하고 2바이트로 이루어진 문자이고, 3바이트 코드군에 포함된 문자는 최상위비트로부터 1110으로 시작하고 3바이트로 이루어진 문자이고, 4바이트 코드군에 포함된 문자는 최상위비트로부터 11110으로 시작하고 4바이트로 이루어진 문자이고, 5바이트 코드군에 포함된 문자는 최상위비트로부터 111110으로 시작하고 5바이트로 이루어진 문자이고, 6바이트 코드군에 포함된 문자는 최상위비트로부터 1111110으로 시작하고 6바이트로 이루어진 문자이고,
상기 압축단계에서 상기 압축부는 3바이트 코드군에 포함된 문자의 압축시, 유니코드 U+A000 내지 U+DFFF에 대응하는 3바이트 코드군 문자에 대해서는, 첫번째 바이트의 맨앞의 1110은 10으로 치환하되, 상기 첫번째 바이트의 나머지 4비트에 대해서는, 1010, 1011, 1100, 1101의 각각을 00, 01, 10, 11 중 어느 하나에 각각 일대일로 대응하여 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 방법을 제공한다.
본 발명의 또 다른 측면에 따르면, 본 발명은 유티에프-8 코드 문자를 압축하는 압축부를 포함하되, 상기 UTF-8 코드 문자 중, 1바이트 코드군에 포함된 문자는 최상위비트로부터 0으로 시작하고 1바이트로 이루어진 문자이고, 2바이트 코드군에 포함된 문자는 최상위비트로부터 110으로 시작하고 2바이트로 이루어진 문자이고, 3바이트 코드군에 포함된 문자는 최상위비트로부터 1110으로 시작하고 3바이트로 이루어진 문자이고, 4바이트 코드군에 포함된 문자는 최상위비트로부터 11110으로 시작하고 4바이트로 이루어진 문자이고, 5바이트 코드군에 포함된 문자는 최상위비트로부터 111110으로 시작하고 5바이트로 이루어진 문자이고, 6바이트 코드군에 포함된 문자는 최상위비트로부터 1111110으로 시작하고 6바이트로 이루어진 문자이고,
상기 압축부는 3바이트 코드군에 포함된 문자의 압축시, 유니코드 U+A000 내지 U+DFFF에 대응하는 3바이트 코드군 문자에 대해서는, 첫번째 바이트의 맨앞의 1110은 10으로 치환하되, 상기 첫번째 바이트의 나머지 4비트에 대해서는, 1010은 110으로, 1011은 0으로, 1100은 10으로, 1101은 111로 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 장치를 제공한다.
본 발명의 또 다른 측면에 따르면, 본 발명은 유티에프-8 코드 문자를 압축하는 압축부를 포함하되, 상기 UTF-8 코드 문자 중, 1바이트 코드군에 포함된 문자는 최상위비트로부터 0으로 시작하고 1바이트로 이루어진 문자이고, 2바이트 코드군에 포함된 문자는 최상위비트로부터 110으로 시작하고 2바이트로 이루어진 문자이고, 3바이트 코드군에 포함된 문자는 최상위비트로부터 1110으로 시작하고 3바이트로 이루어진 문자이고, 4바이트 코드군에 포함된 문자는 최상위비트로부터 11110으로 시작하고 4바이트로 이루어진 문자이고, 5바이트 코드군에 포함된 문자는 최상위비트로부터 111110으로 시작하고 5바이트로 이루어진 문자이고, 6바이트 코드군에 포함된 문자는 최상위비트로부터 1111110으로 시작하고 6바이트로 이루어진 문자이고,
상기 압축부는 3바이트 코드군에 포함된 문자의 압축시, 유니코드 U+A000 내지 U+DFFF에 대응하는 3바이트 코드군 문자에 대해서는, 첫번째 바이트의 맨앞의 1110은 10으로 치환하되, 상기 첫번째 바이트의 나머지 4비트에 대해서는, 1010, 1011, 1100, 1101의 각각을 00, 01, 10, 11 중 어느 하나에 각각 일대일로 대응하여 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 장치를 제공한다.
본 발명의 일측면에 따른 유티에프-8 코드 문자의 압축 방법 및 장치는 간단한 연산을 통해 유티에프-8 코드(UTF-8 CODE) 방식의 문자를 효과적이고 효율적으로 압축할 수 있도록 함으로써, UTF-8코드 문자들의 데이터량을 줄일 수 있고 또한 이를 처리해야 하는 프로세서의 부담도 덜 수 있을 뿐만 아니라, 대용량의 데이터를 전송함에 있어서도 매우 효과적이다.
도 1은 본 발명에 의한 일 실시예에 따른 유티에프-8 코드 문자의 압축 장치 및 복원 장치의 구성을 도시한 것이다.
도 2는 본 발명에 의한 일 실시예에 따른 유티에프-8 코드 문자의 압축 방법을 설명하기 위한 흐름도이다.
도 3은 UTF-8 코드를 포함한 각 문자코드의 웹에서의 활용빈도를 나타낸 것이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고, 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 발명에 의한 일 실시예에 따른 유티에프-8 코드 문자의 압축 장치 및 복원장치의 구성을 도시한 것이고, 도 2는 본 발명에 의한 일 실시예에 따른 유티에프-8 코드 문자의 압축 방법을 설명하기 위한 흐름도로서, 이를 참조하여 본 발명의 실시예를 설명하면 다음과 같다.
도 1에 도시된 바와 같이, 본 실시예에 따른 유티에프-8 코드 문자의 압축 장치(100, 이하 "압축 장치"라 함)는 압축부(110) 및 출력부(120)를 포함한다.
압축부(110)는 유티에프-8(UTF-8) 코드 문자를 압축한다. 압축부(110)는 상기 UTF-8 코드 문자 중 각각 구별되는 규칙을 가지고 있는 바이트군들에 포함된 각 문자들을 압축한다.
상기 UTF-8 코드 문자 중, 1바이트 코드군에 포함된 문자는 최상위비트로부터 0으로 시작하고 1바이트로 이루어진 문자를 의미하고, 2바이트 코드군에 포함된 문자는 최상위비트로부터 110으로 시작하고 2바이트로 이루어진 문자를 의미한다. 그리고, 3바이트 코드군에 포함된 문자는 최상위비트로부터 1110으로 시작하고 3바이트로 이루어진 문자를 의미하고, 4바이트 코드군에 포함된 문자는 최상위비트로부터 11110으로 시작하고 4바이트로 이루어진 문자를 의미한다. 또한, 5바이트 코드군에 포함된 문자는 최상위비트로부터 111110으로 시작하고 5바이트로 이루어진 문자를 의미하고, 6바이트 코드군에 포함된 문자는 최상위비트로부터 1111110으로 시작하고 6바이트로 이루어진 문자를 의미한다.
압축부(110)는 상기와 같이 정의된 UTF-8코드 문자 각각에 대하여 이것이 어느 코드군에 포함된 것인지에 따라 서로 다른 방법으로 압축을 수행하게 된다. 즉, 압축부(110)는 코드군의 맨 앞에 있는 첫번째 바이트의 맨앞의 식별코드라고 할 수 있는 헤더를 일정 방법에 따라 치환하고, 그리고 두번째 바이트 이후의 바이트(들)에 대해서는 각 바이트의 맨앞에 있는 10을 삭제하거나 1 또는 0으로 치환하는 방법을 통하여 각 UTF-8 코드 문자를 압축하는 바, 이에 대해서는 이하 본 실시예의 동작 및 작용 설명시 보다 자세하게 설명한다.
이와 같이 구성된 본 실시예의 동작 및 작용을 도 1 및 도 2를 참조하여 구체적으로 설명한다.
먼저, 압축부(110)는 입력부(미도시)를 통해 UTF-8 코드 문자를 입력받는다(S201).
이어서, 압축부(110)는 상기 UTF-8 코드 문자의 헤더에 근거하여 해당 UTF-8코드 문자의 유형을 확인(식별)한다(S202).
bits of First Last 바이트 Byte 1 Byte 2 Byte 3 Byte 4 Byte 5 Byte 6
code point code point code point 코드군
7 U+0000 U+007F 1 0xxxxxxx
11 U+0080 U+07FF 2 110xxxxx 10xxxxxx
16 U+0800 U+FFFF 3 1110xxxx 10xxxxxx 10xxxxxx
21 U+10000 U+1FFFFF 4 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
26 U+200000 U+3FFFFFF 5 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
31 U+4000000 U+7FFFFFFF 6 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
표 1은 UTF-8 코드 체계를 나타낸 것이다. UTF-8 코드 체계는 표 1에서와 같이 유니코드의 값의 범위에 따라, 맨 앞에 있는 제 1바이트(byte 1)의 헤더비트(표 1에서 이진수로 표시된 부분)를 달리하면서, 제 1바이트의 헤더비트의 유형에 대응하여 그 이후 제 2바이트에서 제 6바이트(byte 2~byte 6)를 가변적으로 읽어 들일 수 있게 되어 있다. 제 1바이트 후인 제 2바이트 내지 제 6바이트에는 최상위 비트앞에 “10”이 규칙적으로 부가되어 있다.
표 1에서 볼 수 있는 바와 같이 각 UTF-8코드 문자는 맨 앞에 있는 제 1바이트의 헤더비트가 어떤 값인가에 따라 그 유형을 식별할 수 있다. 구체적으로, 제 1바이트가 "0"으로 시작하면 1바이트 코드군으로서 1바이트로 구성되고; 제 1바이트가 "110"으로 시작하면 2바이트 코드군으로서 2바이트로 구성되고; 제 1바이트가 "1110"으로 시작하면 3바이트 코드군으로서 3바이트로 구성되고; 제 1바이트가 "11110"으로 시작하면 4바이트 코드군으로서 4바이트로 구성되고, 제 1바이트가 "111110"으로 시작하면 5바이트 코드군으로서 5바이트로 구성되고, 제 1바이트가 "1111110"으로 시작하면 6바이트 코드군으로서 6바이트로 구성된다.
상기 표 1의 x로 표기한 부분은 유니코드 포인터인 First code point ~ Last code point의 이진화된 비트가 순서대로 표기된 내용을 나타낸다. 예를 들어, U+07FF는 이진수로 111 1111 1111 으로서 전체 11비트이며, 표 1에서처럼 110 xxxxx 10 xxxxxx 안에 110 11111 10 111111 형태로 포함되어 2바이트의 UTF-8 코드로 치환되며, 이러한 원리에 따라 각각의 UTF-8 코드가 구성된다.
UTF-8 코드는 바이트 코드군의 특정 영역 또는 대응하는 유니코드 영역에 각 국가의 문자코드가 할당되어 있는데, 영문자가 포함되어 있는 유니코드의 범위는 (U+0000~U+007F)로서 표 1의 1바이트 코드군에 포함되어 있다. 그리고, 특히 한글이 포함되어 있는 유니코드의 범위는 (U+AC00~U+D7AF)으로서 표 1에서 3바이트 코드군에 포함되어 있다. 이와 같이 각 국가의 문자 코드는 바이트 코드군의 특정 영역 또는 대응하는 유니코드 영역에 할당되어 있다.
한글이 포함되어 있는 3바이트 코드군의 UTF-8 코드를 예로 들면, 3바이트 코드군의 제 1바이트의 헤더는 "1110"이다. 구체적으로, 상기 3바이트 코드군의 문자는 1110으로 시작하는 제 1바이트, 상기 제 1바이트 다음에 위치하고 10으로 시작하는 제 2바이트, 및 상기 제 2바이트 다음에 위치하고 10으로 시작하는 제 3바이트를 포함한다. 본 실시예는 UTF-8 코드 문자들을 각 바이트 코드군에 따라 각각 압축을 수행하며, 특히 한글이 포함되어 있는 3바이트 코드군의 문자에 관한 압축이 큰 비중을 차지하는 바 이를 중심으로 하여 압축 동작을 설명한다.
본 실시예에서는 UTF-8코드 문자 코드의 유형에 따라 다음과 같이 압축을 수행한다(S203).
제 1실시예
표 2는 UTF-8 코드 체계에서 각 UTF-8 코드의 문자를 압축하는 것을 나타낸 것이다.
Figure 112016115741178-pat00001
우선 압축부(110)는 3바이트 코드군에 포함된 문자의 압축시, 유니코드 U+A000 내지 U+DFFF에 대응하는 3바이트 코드군 문자에 대해서는 첫번째 바이트의 맨앞의 1110(헤더비트)은 10으로 치환한다. 즉, 표 2에 표시된 바와 같이 첫번째 바이트의 후반부 4비트(즉, 바디비트)가 1010(유니코드 U+A000 ~ U+AFFF), 1011(유니코드 U+B000 ~ U+BFFF), 1100(유니코드 U+C000 ~ U+CFFF), 1101(유니코드 U+D000 ~ U+DFFF)인 경우에는 헤더비트인 1110을 10으로 치환한다. 반면 3바트 코드군에 포함된 문자라 할지라도, 대응하는 유니코드가 U+0800 ~ U+9FFF, 및 U+E000 ~ U+FFFF)인 문자에 대해서는 1110을 다른 코드로 치환하지 않고 그대로 사용한다.
추가적으로, 압축부(110)는 유니코드 U+A000 내지 U+DFFF에 대응하는 3바이트 코드군 문자의 후반부 4비트(즉, 바디비트)에 대해서도 치환을 통해 압축을 수행한다. 즉, 압축부(110)는 바디비트 1010은 110으로 치환하고, 바디비트 1011(유니코드 U+B000 ~ U+BFFF)은 0으로, 바디비트 1100(유니코드 U+C000 ~ U+CFFF)은 10으로, 1101(유니코드 U+D000 ~ U+DFFF)은 111로 치환하여 압축한다. 여기서 치환된 110, 0, 10, 111 등의 압축된 바디비트(이하, "압축비트"라 함)는 일종의 허프만 코드를 차용한 것이다. 이렇게 각 바디비트를 서로 다른 길이의 다른 이진코드인 압축비트로 치환하는 것은 한글 코드 체계에서 그 바디비트의 사용빈도를 고려한 것으로서, 사용빈도가 상대적으로 높은 비트일수록 그 압축비트의 길이를 작게 함으로써 압축효과를 높인 것이다.
결과적으로 상기와 같이 압축을 수행하면, 헤더비트가 1110인 3바이트 코드군의 문자 중 첫번째 바이트의 바디비트가 1010인 문자는 3비트의 압축효과가 발생하고, 바디비트가 1011인 문자는 5비트의 압축효과가 발생하고, 바디비트가 1100인 문자는 4비트의 압축효과가 발생하며, 바디비트가 1101인 문자는 3비트의 압축효과가 발생한다. 이에 대하여 만약 3바이트 코드군 문자의 두번째 바이트와 세번째 바이트의 맨앞에 있는 10을 모두 삭제하는 압축을 추가적으로 실시한다면 4비트의 압축효과가 더 발생할 수 있다.
물론, 상기에서는 바디비트 1010, 1011, 1100, 1101를 각각 110, 0, 10, 111로 치환하여 압축하였으나, 그 대응순서는 설계자의 의도에 따라 임의적으로 결정될 수 있다. 즉, 1010, 1011, 1100, 1101를 각각 0, 110, 111, 10으로 치환하여 압축할 수도 있을 것이다. 하지만 상술한 압축 방법(바디비트 1010, 1011, 1100, 1101를 각각 110, 0, 10, 111로 치환)이 최적화된 압축효과를 얻을 수 있다.
한편 상기의 경우 외에, 3바이트 코드군 문자 중 유니코드 U+8000 내지 U+8FFF에 대응하는 3바이트 코드군의 문자는 첫번째 바이트의 후반부 4비트(바디비트)인 1000을 100으로 치환하고, 유니코드 U+9000 내지 U+9FFF에 대응하는 3바이트 코드군의 문자는 첫번째 바이트의 후반부의 4비트인 1001을 101로 치환하여 압축을 수행할 수 있다. 이렇게 압축을 수행하면 표 2에 표시된 바와 같이 이들 코드군의 문자에 대해서도 1비트의 압축효과가 발생될 수 있다.
또한, 압축부(110)는 3바이트 코드군 문자 중 유니코드 U+E000 내지 U+EFFF에 대응하는 문자는 첫번째 바이트의 바디비트인 1100을 110으로 치환하고, 유니코드 U+F000 내지 U+FFFF에 대응하는 문자는 바디비트인 1111을 111로 치환하여 압축을 수행할 수 있다. 이렇게 압축을 수행하면 표 2에 표시된 바와 같이 이들 코드군의 문자에 대해서도 1비트의 압축효과가 발생할 수 있다.
추가적으로, 압축부(110)는 2바이트 코드군에 포함된 문자의 압축시, 유니코드 U+0080 내지 U+00FF에 대응하는 2바이트 코드군의 문자의 후반부 5비트(바디비트)인 0001x를 000x(x는 0 또는 1)로 치환하여 압축을 수행할 수 있다.
한편, 압축부(110)는 압축시 상기와는 별도로 특정 코드비트를 추가함으로써, 미리 설정된 기능이나 문자열을 자동으로 적용 또는 추가하는 것을 통해 추가적인 압축효과를 얻을 수도 있다. 그 일 예로서, 압축부(110)는 압축시 일련의 유티에프-8 코드들 사이에, 111110 및 그 이어서 특정 비트길이의 이진코드를 추가하거나, 1111110 및 그 이어서 특정 비트길이의 이진코드를 추가하거나, 11111110 및 그 이어서 특정 비트길이의 이진코드를 추가하거나, 또는 11111111 및 그 이어서 특정 비트길이의 이진코드를 추가할 수 있다. 압축시 이러한 일련의 코드들을 추가하게 되면, 복원장치(200)는 111110이나 1111110, 11111110, 11111111 등을 만나게 될 경우 이러한 문자열을 일종의 식별자 코드로서 인식하게 되고, 그 문자열 이후에 있는 미리 설정된 특정 비트길이의 이진코드들을 읽어서 이에 대응하는 문자열 또는 기능으로 복원할 수 있다.
상기 특정 비트길이의 이진코드가 "스페이스"라는 기능에 대응되도록 설정되어 있는 코드라면, 복원시 복원장치(200)는 해독된 각 문자 사이에 스페이스를 추가할 수 있다. 이 경우 "스페이스"(본 실시예에서는 00100000)를 나타내는 코드는 압축시 그에 대응되는 코드로 치환되면서 압축될 수 있다. 즉, 상기 111110, 1111110, 11111110, 11111111과 같은 식별자 코드와 함께 사용하여 복호기에 특정한 행동 또는 기능을 하도록 정보제공의 역할을 할 수 있다. 예를 들어, 상기 특정길이의 이진코드 “111110”으로서 스페이스 문자인 “00100000”을 대체하여, 2비트의 압축효과를 얻을 수 있고, 또한 “00100000”이라는 코드는, 8비트의 코드로서, 원문에서는 모두 “111110”으로 치환됨에 따라서 다른 용도로 사용할 수 있게 되므로, “00100000”을 상기 특정길이의 이진코드로서도 압축기 및 압축해제기에서 사용할 수 있게 된다. 이러한 방식은 반드시 스페이스 문자에만 해당하지는 않고 다양한 설정으로 특정 타겟 문자에 대해서 적용할 수 있다.
또한 상기 특정 비트길이의 이진코드가 "THIS"라는 특정 문자열에 대응되는 코드라면, 복원시 복원장치(200)는 상기 문자를 복원해 낼 수 있다. 이러한 압축 및 복원을 수행하게 되면 다빈도로 사용되는 기능이나 문자열을 자동으로 복원해 낼 수 있기 때문에 압축효과가 한층 더 높아질 수 있다.
제 2실시예
다른 실시예로서, 압축부(110)는 3바이트 코드군에 포함된 문자의 압축시, 유니코드 U+A000 내지 U+DFFF에 대응하는 3바이트 코드군 문자에 대해서는 첫번째 바이트의 맨앞의 1110(헤더비트)은 10으로 치환한다. 즉, 첫번째 바이트의 후반부 4비트(즉, 바디비트)가 1010(유니코드 U+A000 ~ U+AFFF), 1011(유니코드 U+B000 ~ U+BFFF), 1100(유니코드 U+C000 ~ U+CFFF), 1101(유니코드 U+D000 ~ U+DFFF)인 경우에는 헤더비트인 1110을 10으로 치환한다. 반면 3바트 코드군에 포함된 문자라 할지라도, 대응하는 유니코드가 U+0800 ~ U+9FFF, 및 U+E000 ~ U+FFFF)인 문자에 대해서는 1110을 다른 코드로 치환하지 않고 그대로 사용한다.
추가적으로, 압축부(110)는 유니코드 U+A000 내지 U+DFFF에 대응하는 3바이트 코드군 문자의 후반부 4비트(즉, 바디비트)에 대해서도 치환을 통해 압축을 수행한다. 즉, 압축부(110)는 바디비트 1010은 00으로 치환하고, 바디비트 1011(유니코드 U+B000 ~ U+BFFF)은 01로, 바디비트 1100(유니코드 U+C000 ~ U+CFFF)은 10으로, 1101(유니코드 U+D000 ~ U+DFFF)은 11로 치환하여 압축한다.
결과적으로 상기와 같이 압축을 수행하면, 헤더비트가 1110인 3바이트 코드군의 문자 중 바디비트가 1010, 1011, 1100, 1101인 문자(유니코드 U+A000 내지 U+DFFF에 대응하는 3바이트 코드군 문자)는 4비트의 압축효과가 발생한다. 이에 대하여 만약 3바이트 코드군 문자의 두번째 바이트와 세번째 바이트의 맨앞에 있는 10을 모두 삭제하는 압축을 추가적으로 실시한다면 4비트의 압축효과가 더 발생할 수 있다.
물론, 상기에서는 바디비트 1010, 1011, 1100, 1101를 각각 00, 01, 10, 11로 치환하여 압축하였으나, 그 대응순서는 설계자의 의도에 따라 임의적으로 결정될 수 있다. 즉, 1010, 1011, 1100, 1101를 각각 01, 00, 11, 10로 치환하여 압축할 수도 있을 것이다.
한편, 상술한 제 2실시예에 관한 기술적 특징 외에 다른 기술적인 특징들은 제 1실시예의 경우와 동일하므로, 그 구체적인 설명은 생략한다.
---------------------------------------------------------------------
마지막으로, 출력부(120)는 상기와 같이 압축된 문자를 유티에프-8 코드 문자의 복원장치(200) 등의 목적장치로 출력한다(S204).
이후, 유티에프-8 코드 문자의 복원장치(200)에서 복원부(220)는 입력부(210)를 통해 상기 압축된 UTF-8코드 문자를 입력받아 이를 복원한다. 복원부(220)는 상기 압축부(210)에서 적용된 압축규칙을 역으로 적용하여 원본 UTF-8 코드문자를 복원한다.
이상 살펴 본 바와 같이, 본 발명의 일측면에 따른 유티에프-8 코드 문자의 압축 방법 및 장치는 간단한 연산을 통해 유티에프-8 코드(UTF-8 CODE) 방식의 문자를 효과적이고 효율적으로 압축할 수 있도록 함으로써, UTF-8코드 문자들의 데이터량을 줄일 수 있고 또한 이를 처리해야 하는 프로세서의 부담도 덜 수 있을 뿐만 아니라, 대용량의 데이터를 전송함에 있어서도 매우 효과적이다.
이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고, 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
100 : 유티에프-8 코드 문자의 압축 장치
110 : 압축부 120 : 출력부
200 : 유티에프-8 코드 문자의 복원장치
210 : 입력부 220 : 복원부

Claims (30)

  1. 압축부가 유티에프-8(UTF-8) 코드 문자를 입력받는 입력단계; 및
    상기 압축부가 UTF-8 코드 문자를 압축하는 압축단계를 포함하되,
    상기 UTF-8 코드 문자 중, 1바이트 코드군에 포함된 문자는 최상위비트로부터 0으로 시작하고 1바이트로 이루어진 문자이고, 2바이트 코드군에 포함된 문자는 최상위비트로부터 110으로 시작하고 2바이트로 이루어진 문자이고, 3바이트 코드군에 포함된 문자는 최상위비트로부터 1110으로 시작하고 3바이트로 이루어진 문자이고, 4바이트 코드군에 포함된 문자는 최상위비트로부터 11110으로 시작하고 4바이트로 이루어진 문자이고, 5바이트 코드군에 포함된 문자는 최상위비트로부터 111110으로 시작하고 5바이트로 이루어진 문자이고, 6바이트 코드군에 포함된 문자는 최상위비트로부터 1111110으로 시작하고 6바이트로 이루어진 문자이고,
    상기 압축단계에서 상기 압축부는 3바이트 코드군에 포함된 문자의 압축시, 유니코드 U+A000 내지 U+DFFF에 대응하는 3바이트 코드군 문자에 대해서는,
    첫번째 바이트의 맨앞의 1110은 10으로 치환하되,
    상기 첫번째 바이트의 나머지 4비트에 대해서는, 1010, 1011, 1100, 1101의 각각을 110, 0, 10, 111 중 어느 하나에 각각 일대일로 대응하여 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 방법.
  2. 제 1항에 있어서,
    상기 첫번째 바이트의 나머지 4비트에 대해서는, 1010은 110으로, 1011은 0으로, 1100은 10으로, 1101은 111로 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 방법.
  3. 제 1항에 있어서,
    상기 압축단계에서 상기 압축부는 3바이트 코드군에 포함된 문자의 압축시,
    유니코드 U+8000 내지 U+8FFF에 대응하는 3바이트 코드군의 문자는 첫번째 바이트의 후반부의 4비트인 1000을 100으로 치환하고,
    유니코드 U+9000 내지 U+9FFF에 대응하는 3바이트 코드군의 문자는 첫번째 바이트의 후반부의 4비트인 1001을 101로 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 방법.
  4. 제 1항에 있어서,
    상기 압축단계에서 상기 압축부는 2바이트 코드군에 포함된 문자의 압축시,
    유니코드 U+0080 내지 U+00FF에 대응하는 2바이트 코드군의 문자는 첫번째 바이트의 후반부의 5비트인 0001x를 000x(x는 0 또는 1)로 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 방법.
  5. 제 1항에 있어서,
    상기 압축단계에서 상기 압축부는 3바이트 코드군에 포함된 문자의 압축시,
    유니코드 U+E000 내지 U+EFFF에 대응하는 3바이트 코드군의 문자는 첫번째 바이트의 후반부의 4비트인 1100을 110으로 치환하고,
    유니코드 U+F000 내지 U+FFFF에 대응하는 3바이트 코드군의 문자는 첫번째 바이트의 후반부의 4비트인 1111을 111로 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 방법.
  6. 제 1항에 있어서, 상기 압축단계에서 상기 압축부는,
    상기 입력된 일련의 유티에프-8 코드들 사이에, 111110 및 그 이어서 특정 비트길이의 이진코드를 추가하거나, 1111110 및 그 이어서 특정 비트길이의 이진코드를 추가하거나, 11111110 및 그 이어서 특정 비트길이의 이진코드를 추가하거나, 또는 11111111 및 그 이어서 특정 비트길이의 이진코드를 추가할 수 있고,
    상기 특정 비트길이의 이진코드는 미리 지정된 문자열 또는 기능에 대응하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 방법.
  7. 제 6항에 있어서,
    상기 기능은 실제 문자 간의 스페이스 기능에 대응하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 방법.
  8. 제 6항에 있어서,
    상기 특정 비트길이의 이진코드로 대체된 상기 미리 지정된 문자열 또는 기능에 대응하는 원코드는, 상기 원코드 이후에 오는 특정 이진코드열의 존재를 알리는 식별코드로서 사용되는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 방법.
  9. 압축부가 유티에프-8(UTF-8) 코드 문자를 입력받는 입력단계; 및
    상기 압축부가 UTF-8 코드 문자를 압축하는 압축단계를 포함하되,
    상기 UTF-8 코드 문자 중, 1바이트 코드군에 포함된 문자는 최상위비트로부터 0으로 시작하고 1바이트로 이루어진 문자이고, 2바이트 코드군에 포함된 문자는 최상위비트로부터 110으로 시작하고 2바이트로 이루어진 문자이고, 3바이트 코드군에 포함된 문자는 최상위비트로부터 1110으로 시작하고 3바이트로 이루어진 문자이고, 4바이트 코드군에 포함된 문자는 최상위비트로부터 11110으로 시작하고 4바이트로 이루어진 문자이고, 5바이트 코드군에 포함된 문자는 최상위비트로부터 111110으로 시작하고 5바이트로 이루어진 문자이고, 6바이트 코드군에 포함된 문자는 최상위비트로부터 1111110으로 시작하고 6바이트로 이루어진 문자이고,
    상기 압축단계에서 상기 압축부는 3바이트 코드군에 포함된 문자의 압축시, 유니코드 U+A000 내지 U+DFFF에 대응하는 3바이트 코드군 문자에 대해서는,
    첫번째 바이트의 맨앞의 1110은 10으로 치환하되,
    상기 첫번째 바이트의 나머지 4비트에 대해서는, 1010, 1011, 1100, 1101의 각각을 00, 01, 10, 11 중 어느 하나에 각각 일대일로 대응하여 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 방법.
  10. 제 9항에 있어서,
    상기 압축단계에서 상기 압축부는 3바이트 코드군에 포함된 문자의 압축시,
    유니코드 U+8000 내지 U+8FFF에 대응하는 3바이트 코드군의 문자는 첫번째 바이트의 후반부의 4비트인 1000을 100으로 치환하고,
    유니코드 U+9000 내지 U+9FFF에 대응하는 3바이트 코드군의 문자는 첫번째 바이트의 후반부의 4비트인 1001을 101로 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 방법.
  11. 제 9항에 있어서,
    상기 압축단계에서 상기 압축부는 2바이트 코드군에 포함된 문자의 압축시,
    유니코드 U+0080 내지 U+00FF에 대응하는 2바이트 코드군의 문자는 첫번째 바이트의 후반부의 5비트인 0001x를 000x(x는 0 또는 1)로 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 방법.
  12. 제 9항에 있어서,
    상기 압축단계에서 상기 압축부는 3바이트 코드군에 포함된 문자의 압축시,
    유니코드 U+E000 내지 U+EFFF에 대응하는 3바이트 코드군의 문자는 첫번째 바이트의 후반부의 4비트인 1100을 110으로 치환하고,
    유니코드 U+F000 내지 U+FFFF에 대응하는 3바이트 코드군의 문자는 첫번째 바이트의 후반부의 4비트인 1111을 111로 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 방법.
  13. 제 9항에 있어서, 상기 압축단계에서 상기 압축부는,
    상기 입력된 일련의 유티에프-8 코드들 사이에, 111110 및 그 이어서 특정 비트길이의 이진코드를 추가하거나, 1111110 및 그 이어서 특정 비트길이의 이진코드를 추가하거나, 11111110 및 그 이어서 특정 비트길이의 이진코드를 추가하거나, 또는 11111111 및 그 이어서 특정 비트길이의 이진코드를 추가할 수 있고,
    상기 특정 비트길이의 이진코드는 미리 지정된 문자열 또는 기능에 대응하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 방법.
  14. 제 13항에 있어서,
    상기 기능은 실제 문자 간의 스페이스 기능에 대응하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 방법.
  15. 제 13항에 있어서,
    상기 특정 비트길이의 이진코드로 대체된 상기 미리 지정된 문자열 또는 기능에 대응하는 원코드는, 상기 원코드 이후에 오는 특정 이진코드열의 존재를 알리는 식별코드로서 사용되는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 방법.
  16. 유티에프-8(UTF-8) 코드 문자를 압축하는 압축부를 포함하되,
    상기 UTF-8 코드 문자 중, 1바이트 코드군에 포함된 문자는 최상위비트로부터 0으로 시작하고 1바이트로 이루어진 문자이고, 2바이트 코드군에 포함된 문자는 최상위비트로부터 110으로 시작하고 2바이트로 이루어진 문자이고, 3바이트 코드군에 포함된 문자는 최상위비트로부터 1110으로 시작하고 3바이트로 이루어진 문자이고, 4바이트 코드군에 포함된 문자는 최상위비트로부터 11110으로 시작하고 4바이트로 이루어진 문자이고, 5바이트 코드군에 포함된 문자는 최상위비트로부터 111110으로 시작하고 5바이트로 이루어진 문자이고, 6바이트 코드군에 포함된 문자는 최상위비트로부터 1111110으로 시작하고 6바이트로 이루어진 문자이고,
    상기 압축부는 3바이트 코드군에 포함된 문자의 압축시, 유니코드 U+A000 내지 U+DFFF에 대응하는 3바이트 코드군 문자에 대해서는, 첫번째 바이트의 맨앞의 1110은 10으로 치환하되,
    상기 첫번째 바이트의 나머지 4비트에 대해서는, 1010, 1011, 1100, 1101의 각각을 110, 0, 10, 111 중 어느 하나에 각각 일대일로 대응하여 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8(UTF-8) 코드 문자의 압축 장치.
  17. 제 16항에 있어서,
    상기 압축부는 상기 첫번째 바이트의 나머지 4비트에 대해서는, 1010은 110으로, 1011은 0으로, 1100은 10으로, 1101은 111로 각각 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 장치.
  18. 제 17항에 있어서,
    상기 압축부는 3바이트 코드군에 포함된 문자의 압축시,
    유니코드 U+8000 내지 U+8FFF에 대응하는 3바이트 코드군의 문자는 첫번째 바이트의 후반부의 4비트인 1000을 100으로 치환하고,
    유니코드 U+9000 내지 U+9FFF에 대응하는 3바이트 코드군의 문자는 첫번째 바이트의 후반부의 4비트인 1001을 101로 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 장치.
  19. 제 17항에 있어서,
    상기 압축부는 2바이트 코드군에 포함된 문자의 압축시,
    유니코드 U+0080 내지 U+00FF에 대응하는 2바이트 코드군의 문자는 첫번째 바이트의 후반부의 5비트인 0001x를 000x(x는 0 또는 1)로 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 장치.
  20. 제 17항에 있어서,
    상기 압축부는 3바이트 코드군에 포함된 문자의 압축시,
    유니코드 U+E000 내지 U+EFFF에 대응하는 3바이트 코드군의 문자는 첫번째 바이트의 후반부의 4비트인 1100을 110으로 치환하고,
    유니코드 U+F000 내지 U+FFFF에 대응하는 3바이트 코드군의 문자는 첫번째 바이트의 후반부의 4비트인 1111을 111로 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 장치.
  21. 제 17항에 있어서, 상기 압축부는, 상기 입력된 일련의 유티에프-8 코드들 사이에, 111110 및 그 이어서 특정 비트길이의 이진코드를 추가하거나, 1111110 및 그 이어서 특정 비트길이의 이진코드를 추가하거나, 11111110 및 그 이어서 특정 비트길이의 이진코드를 추가하거나, 또는 11111111 및 그 이어서 특정 비트길이의 이진코드를 추가할 수 있고,
    상기 특정 비트길이의 이진코드는 미리 지정된 문자열 또는 기능에 대응하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 장치.
  22. 제 21항에 있어서,
    상기 기능은 실제 문자 간의 스페이스 기능에 대응하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 장치.
  23. 제 21항에 있어서,
    상기 특정 비트길이의 이진코드로 대체된 상기 미리 지정된 문자열 또는 기능에 대응하는 원코드는, 상기 원코드 이후에 오는 특정 이진코드열의 존재를 알리는 식별코드로서 사용되는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 장치.
  24. 유티에프-8(UTF-8) 코드 문자를 압축하는 압축부를 포함하되,
    상기 UTF-8 코드 문자 중, 1바이트 코드군에 포함된 문자는 최상위비트로부터 0으로 시작하고 1바이트로 이루어진 문자이고, 2바이트 코드군에 포함된 문자는 최상위비트로부터 110으로 시작하고 2바이트로 이루어진 문자이고, 3바이트 코드군에 포함된 문자는 최상위비트로부터 1110으로 시작하고 3바이트로 이루어진 문자이고, 4바이트 코드군에 포함된 문자는 최상위비트로부터 11110으로 시작하고 4바이트로 이루어진 문자이고, 5바이트 코드군에 포함된 문자는 최상위비트로부터 111110으로 시작하고 5바이트로 이루어진 문자이고, 6바이트 코드군에 포함된 문자는 최상위비트로부터 1111110으로 시작하고 6바이트로 이루어진 문자이고,
    상기 압축부는 3바이트 코드군에 포함된 문자의 압축시, 유니코드 U+A000 내지 U+DFFF에 대응하는 3바이트 코드군 문자에 대해서는,
    첫번째 바이트의 맨앞의 1110은 10으로 치환하되,
    상기 첫번째 바이트의 나머지 4비트에 대해서는, 1010, 1011, 1100, 1101의 각각을 00, 01, 10, 11 중 어느 하나에 각각 일대일로 대응하여 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8(UTF-8) 코드 문자의 압축 장치.
  25. 제 24항에 있어서,
    상기 압축부는 3바이트 코드군에 포함된 문자의 압축시,
    유니코드 U+8000 내지 U+8FFF에 대응하는 3바이트 코드군의 문자는 첫번째 바이트의 후반부의 4비트인 1000을 100으로 치환하고,
    유니코드 U+9000 내지 U+9FFF에 대응하는 3바이트 코드군의 문자는 첫번째 바이트의 후반부의 4비트인 1001을 101로 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 장치.
  26. 제 24항에 있어서,
    상기 압축부는 2바이트 코드군에 포함된 문자의 압축시,
    유니코드 U+0080 내지 U+00FF에 대응하는 2바이트 코드군의 문자는 첫번째 바이트의 후반부의 5비트인 0001x를 000x(x는 0 또는 1)로 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 장치.
  27. 제 24항에 있어서,
    상기 압축부는 3바이트 코드군에 포함된 문자의 압축시,
    유니코드 U+E000 내지 U+EFFF에 대응하는 3바이트 코드군의 문자는 첫번째 바이트의 후반부의 4비트인 1100을 110으로 치환하고,
    유니코드 U+F000 내지 U+FFFF에 대응하는 3바이트 코드군의 문자는 첫번째 바이트의 후반부의 4비트인 1111을 111로 치환하여 압축을 수행하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 장치.
  28. 제 24항에 있어서, 상기 압축부는, 상기 입력된 일련의 유티에프-8 코드들 사이에, 111110 및 그 이어서 특정 비트길이의 이진코드를 추가하거나, 1111110 및 그 이어서 특정 비트길이의 이진코드를 추가하거나, 11111110 및 그 이어서 특정 비트길이의 이진코드를 추가하거나, 또는 11111111 및 그 이어서 특정 비트길이의 이진코드를 추가할 수 있고,
    상기 특정 비트길이의 이진코드는 미리 지정된 문자열 또는 기능에 대응하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 장치.
  29. 제 28항에 있어서,
    상기 기능은 실제 문자 간의 스페이스 기능에 대응하는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 장치.
  30. 제 28항에 있어서,
    상기 특정 비트길이의 이진코드로 대체된 상기 미리 지정된 문자열 또는 기능에 대응하는 원코드는, 상기 원코드 이후에 오는 특정 이진코드열의 존재를 알리는 식별코드로서 사용되는 것을 특징으로 하는, 유티에프-8 코드 문자의 압축 장치.
KR1020160158508A 2016-11-25 2016-11-25 유티에프-8 코드 문자의 압축 방법 및 장치 KR101791877B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160158508A KR101791877B1 (ko) 2016-11-25 2016-11-25 유티에프-8 코드 문자의 압축 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160158508A KR101791877B1 (ko) 2016-11-25 2016-11-25 유티에프-8 코드 문자의 압축 방법 및 장치

Publications (1)

Publication Number Publication Date
KR101791877B1 true KR101791877B1 (ko) 2017-11-20

Family

ID=60809214

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160158508A KR101791877B1 (ko) 2016-11-25 2016-11-25 유티에프-8 코드 문자의 압축 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101791877B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143239A (zh) * 2019-12-27 2020-05-12 广东电科院能源技术有限责任公司 一种智能电表的冻结电量数据压缩存储方法和解压方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143239A (zh) * 2019-12-27 2020-05-12 广东电科院能源技术有限责任公司 一种智能电表的冻结电量数据压缩存储方法和解压方法
CN111143239B (zh) * 2019-12-27 2021-08-13 南方电网电力科技股份有限公司 一种智能电表的冻结电量数据压缩存储方法和解压方法

Similar Documents

Publication Publication Date Title
US6100824A (en) System and method for data compression
JP3541930B2 (ja) 符号化装置及び復号化装置
US5293379A (en) Packet-based data compression method
US5389922A (en) Compression using small dictionaries with applications to network packets
US5229768A (en) Adaptive data compression system
US7764202B2 (en) Lossless data compression with separated index values and literal values in output stream
US8872677B2 (en) Method and apparatus for compressing data-carrying signals
EP0914718A1 (en) Data compression and decompression system with immediate dictionary updating interleaved with string search
EP0903866B1 (en) Method and apparatus for data compression
CN108737976A (zh) 一种基于北斗短报文的压缩传输方法
US6778109B1 (en) Method for efficient data encoding and decoding
KR101791877B1 (ko) 유티에프-8 코드 문자의 압축 방법 및 장치
US6240213B1 (en) Data compression system having a string matching module
KR101791880B1 (ko) 유티에프-8 코드 문자의 압축 방법 및 장치
Shanmugasundaram et al. IIDBE: A lossless text transform for better compression
KR101752281B1 (ko) 유티에프-8 코드 문자의 압축 방법 및 장치
KR102098644B1 (ko) 유티에프-8 코드 문자의 압축 방법 및 장치
Yamamoto et al. A Universal Data Compression Scheme based on the AIVF Coding Techniques
US7750826B2 (en) Data structure management for lossless data compression
Tsai et al. An improved LZW algorithm for large data size and low bitwidth per code
KR20180047738A (ko) Utf-8 문자코드의 압축방법
KR20180004409A (ko) 일반적인 utf-8 형태로 엔코딩된 이진데이터의 실시간 무손실 압축방법
KR20190091586A (ko) TCP/IP 패킷에 있어서 고정비트 길이 이진데이터의 Octet 규격사이즈 압축을 위한 패킷 데이터 압축 방법 및 그 장치
KR20180006011A (ko) Utf-8 코드 문자체계에 있어서, byte 1 에 대한 3비트 압축을 통한 한글메시지의 집중적 압축방법 및 그 장치
CN109831211B (zh) 使用控制符的半动态数据压缩算法

Legal Events

Date Code Title Description
GRNT Written decision to grant