RU2497277C2 - Способ сжатия двоичных данных в виде структурированных информационных блоков - Google Patents

Способ сжатия двоичных данных в виде структурированных информационных блоков Download PDF

Info

Publication number
RU2497277C2
RU2497277C2 RU2010132066/08A RU2010132066A RU2497277C2 RU 2497277 C2 RU2497277 C2 RU 2497277C2 RU 2010132066/08 A RU2010132066/08 A RU 2010132066/08A RU 2010132066 A RU2010132066 A RU 2010132066A RU 2497277 C2 RU2497277 C2 RU 2497277C2
Authority
RU
Russia
Prior art keywords
binary data
structured information
information blocks
bit sequences
block
Prior art date
Application number
RU2010132066/08A
Other languages
English (en)
Other versions
RU2010132066A (ru
Inventor
Александр Петрович Мартынов
Дмитрий Борисович Николаев
Original Assignee
Российская Федерация, от имени которой выступает государственный заказчик-Государственная корпорация по атомной энергии "Росатом"
Федеральное государственное унитарное предприятие "Российский Федеральный ядерный центр-Всероссийский научно-исследовательский институт экспериментальной физики"-ФГУП "РФЯЦ-ВНИИЭФ"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Российская Федерация, от имени которой выступает государственный заказчик-Государственная корпорация по атомной энергии "Росатом", Федеральное государственное унитарное предприятие "Российский Федеральный ядерный центр-Всероссийский научно-исследовательский институт экспериментальной физики"-ФГУП "РФЯЦ-ВНИИЭФ" filed Critical Российская Федерация, от имени которой выступает государственный заказчик-Государственная корпорация по атомной энергии "Росатом"
Priority to RU2010132066/08A priority Critical patent/RU2497277C2/ru
Publication of RU2010132066A publication Critical patent/RU2010132066A/ru
Application granted granted Critical
Publication of RU2497277C2 publication Critical patent/RU2497277C2/ru

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Изобретение относится к вычислительной технике и может быть использовано в системах передачи и обработки цифровой информации. Технический результат заключается в улучшении свойств сжатия структурированных информационных блоков. Способ сжатия двоичных данных в виде структурированных информационных блоков, заключающийся в том, что для входного потока двоичных данных, который содержит символы, представленные битовыми последовательностями одинакового фиксированного размера, производят подсчет частоты повторяемости символов, затем для обозначения часто и редко встречающихся символов входного потока двоичных данных производят соответственно выработку более короткой и более длинной битовых последовательностей, которые объединяют в совокупную битовую последовательность переменного размера, отличающийся тем, что из совокупной битовой последовательности исключают битовые последовательности, соответствующие повторяющимся символам входного потока двоичных данных. 3 ил.

Description

Изобретение относится к вычислительной технике и может быть использовано в системах передачи и обработки цифровой информации.
Известен способ сжатия (см. Лэнгсам И., Огенстайн М., Тененбаум А. Структуры данных для персональных ЭВМ: Пер. с англ. - М.: Мир, 1989), в котором положение блока закодированных данных относительно начала входного потока информации постоянно меняется, блок скользит по входному потоку информации. При этом используются указатели, которые позволяют делать ссылки на любой элемент в блоке закодированных данных установленного размера, который предшествует текущему элементу входного потока. Если соответствие найдено, текущий элемент заменяется указателем на соответствующий элемент блока закодированных данных. Указатель включает в себя смещение в блоке закодированных данных и длину элемента. Дополнительно в выходной поток записывается непосредственно следующий за совпавшим элементом символ. Затем блок закодированных данных смещается на длину совпавшего элемента плюс один символ и выполняется новый цикл кодирования. Способ позволяет сжимать только сравнительно длинные последовательности.
Недостатком указанного способа является отсутствие существенных результатов при сжатии структурированных информационных блоков. Например, перестановку из 24 символов с использованием данного способа сжатия можно представить в виде 112-битной строки.
Известен способ сжатия (см. Лэнгсам И., Огенстайн М., Тененбаум А. Структуры данных для персональных ЭВМ: Пер. с англ. - М.: Мир, 1989), использующий только частоту появления одинаковых байтов во входном блоке данных и базирующийся на структуре данных бинарного дерева. Часто встречающимся символам входного потока данных ставится в соответствие цепочка битов меньшей длины, а встречающимся редко - цепочка большей длины. За счет применения этого метода для сжатия очень длинных сообщений, которые содержат встречающиеся чрезвычайно редко символы, достигается существенная экономия: степень сжатия может достигать 8. Сказанное справедливо в большей части для текстовых сообщений и сообщений с неравномерной плотностью распределения символов. Указанный способ взят в качестве наиболее близкого аналога заявляемого изобретения.
Недостатком наиболее близкого аналога является медленная сходимость, то есть маленькая скорость приближения к энтропии источника. Таким образом, представленный метод существенных результатов при сжатии двоичных данных в виде структурированных информационных блоков не дает.
Технический результат, на достижение которого направлено заявляемое изобретение, заключается в улучшении свойств способа сжатия двоичных данных в виде структурированных информационных блоков (далее способ сжатия двоичных данных), позволяющем приблизить коэффициент сжатия к теоретически возможному значению.
Для достижения указанного технического результата в способе сжатия двоичных данных, в котором для входного потока двоичных данных, содержащего символы, представленные битовыми последовательностями одинакового фиксированного размера, производят подсчет частоты повторяемости символов, затем для обозначения часто и редко встречающихся символов входного потока двоичных данных производят соответственно выработку более короткой и более длинной битовых последовательностей, которые объединяют в совокупную битовую последовательность переменного размера, новым является то, что из совокупной битовой последовательности исключают битовые последовательности, соответствующие повторяющимся символам входного потока двоичных данных.
Указанная совокупность существенных признаков позволяет улучшить свойства способа сжатия двоичных данных в виде структурированных информационных блоков за счет использования факториальной системы счисления и пропорционального динамического кодирования.
На фиг.1 представлена схема способа сжатия двоичных данных в виде структурированных информационных блоков.
На фиг.2 представлена зависимость длины сжатого информационного блока от количества элементов в структурированном блоке (Ls - длина информационного блока без сжатия, Lpdk - длина информационного блока, сжатого с использованием наиболее близкого аналога разработанного способа сжатия двоичных данных, Lmak - длина информационного блока, сжатого с использованием разработанного способа сжатия двоичных данных в виде структурированных информационных блоков).
На фиг.3 представлена зависимость достигаемой степени сжатия от количества элементов в структурированном информационном блоке (Kkpdk - степень сжатия, достигаемая с использованием наиболее близкого аналога разработанного способа сжатия двоичных данных, Kkmak - степень сжатия, достигаемая с использованием разработанного способа сжатия двоичных данных в виде структурированных информационных блоков).
По существу предлагается для сжатия двоичных данных в виде структурированных информационных блоков использовать факториальную систему счисления. Структурированные информационные блоки, таким образом, описываются аналитически и представляются в виде однозначно соответствующих им натуральных чисел P = C ( x i m ) ( ( N 1 ) i ) ! ,
Figure 00000001
0≤i<N, где C ( x m )
Figure 00000002
- двоичный код хm, | C ( x i m ) | = log 2 x i m .
Figure 00000003
Длина информационного блока L соответствующего дискретного представления структурированного информационного блока равна
L = | P | = | C ( x i m ) i ! | = log 2 N ! ,
Figure 00000004
0≤i≤N.
Сжатое численное представление Р структурированного информационного блока из N элементов может принимать N! значений от 0 для случая, когда блок представлен минимальными численными значениями элементов из допустимых множеств, т.е. нулями 0, 0,…, 0, 0
Р=0·(N-1)!+0·(N-2)!+…+0·1!+0·0!=0,
до (N!-1) для случая, когда блок представлен максимальными численными значениями элементов из допустимых множеств, т.е. (N-1), (N-2),…, 1, 0
Р=(N-1)·(N-1)!+(N-2)·(N-2)!+…+1·1!+0·!=(N!-(N-1)!)+((N-1)!-(N-2!)+…+(2·2!-1·1!)=N!-1.
Таким образом, дискретный информационный блок сжатого численного представления перестановки из N элементов будет иметь длину log 2 N !
Figure 00000005
бит, которая является минимально необходимой длиной для дискретного представления структурированного информационного блока заданного вида.
Способ (фиг.1) включает в себя следующие процедуры преобразования:
- упаковка произвольного структурированного информационного блока (x0, x1,…, хN-1) (процедура преобразования несжатого блока в сжатую форму);
- распаковка предварительно упакованного структурированного информационного блока Р (процедура преобразования сжатой формы блока в несжатую).
Процедура упаковки исходной произвольного структурированного информационного блока из N элементов в сжатую форму осуществляется следующим образом.
Структурированные информационные блоки представляются последовательностью модифицированных численных значений одинакового фиксированного размера (хm0, xm1,…, xmN-1). Затем производят подсчет частоты повторяемости символов, при этом для обозначения часто и редко встречающихся символов входного потока двоичных данных производят соответственно выработку более короткой и более длинной битовых последовательностей вида Si=xim·((N-1)-i)!. Полученные последовательности объединяют в совокупную битовую последовательность переменного размера структурированного информационного блока Р суммированием слагаемых Si. При этом исключаются битовые последовательности, соответствующие повторяющимся символам входного потока двоичных данных.
Процедура распаковки предварительно упакованного структурированного информационного блока осуществляется следующим образом.
Формируются остатки от деления вида Di=Di-1mod(N-i)!, D0=P, представляющие собой более короткую и более длинную битовые последовательности, соответствующие часто и редко встречающимся символам входного потока двоичных данных, из которых формируются фиксированные последовательности модифицированных численных значений (xm0, xm1,…, xmN-1), представляющие исходный структурированный информационный блок вычислением x i m = ( D i / ( N 1 ) i ) ! ,
Figure 00000006
где a
Figure 00000007
- целая часть числа а (наибольшее целое число, не большее а).
На фиг.2 и фиг.3 представлены соответственно графики зависимостей длины сжатого информационного блока от количества элементов в структурированном информационном блоке и достигаемой степени сжатия от количества элементов в структурированном информационном блоке.
Как видно из графиков, представленных на фиг.2 и фиг.3, разработанный способ позволяет полностью исключить информационную избыточность, возникающую при дискретном представлении структурированного информационного блока из N элементов, и достигает, таким образом, максимально теоретически возможного сжатия дискретных информационных блоков.
Важными свойствами способа являются:
- хорошее сжатие структурированных информационных блоков ввиду того, что методы специально разрабатывались для сжатия такого типа данных;
- относительно высокая скорость сжатия и восстановления, связанная с невысокой сложностью этих процедур;
- скромные требования к вычислительным ресурсам, в частности к объему памяти для реализации соответствующих преобразований;
- симметричность относительно трудоемкости и соответственно скорости прямого и обратного преобразований.
Следует отметить, что способ не зависит от размерности исходного блока информации, подвергаемого сжатию, так как изначально не привязан к определенной размерности информационного блока. Это делает его универсальным. Размер исходного блока информации является входным параметром, который настраивает рабочие параметры алгоритмов преобразования, реализующих данный способ. Кроме того, разработанный способ является относительно несложным в реализации и может быть практически реализован на любом ЭВС с микропроцессором, обладающим минимальным набором математических функций.
Таким образом, способ обеспечивает улучшение свойств сжатия двоичных данных в виде структурированных информационных блоков, что позволяет приблизить коэффициент сжатия к теоретически возможному значению.
Реализация данного способа сжатия подтвердила осуществимость и практическую ценность заявляемого способа.

Claims (1)

  1. Способ сжатия двоичных данных в виде структурированных информационных блоков, заключающийся в том, что для входного потока двоичных данных, который содержит символы, представленные битовыми последовательностями одинакового фиксированного размера, производят подсчет частоты повторяемости символов, затем для обозначения часто и редко встречающихся символов входного потока двоичных данных производят соответственно выработку более короткой и более длинной битовых последовательностей, которые объединяют в совокупную битовую последовательность переменного размера, отличающийся тем, что из совокупной битовой последовательности исключают битовые последовательности, соответствующие повторяющимся символам входного потока двоичных данных.
RU2010132066/08A 2010-07-29 2010-07-29 Способ сжатия двоичных данных в виде структурированных информационных блоков RU2497277C2 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2010132066/08A RU2497277C2 (ru) 2010-07-29 2010-07-29 Способ сжатия двоичных данных в виде структурированных информационных блоков

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2010132066/08A RU2497277C2 (ru) 2010-07-29 2010-07-29 Способ сжатия двоичных данных в виде структурированных информационных блоков

Publications (2)

Publication Number Publication Date
RU2010132066A RU2010132066A (ru) 2012-02-10
RU2497277C2 true RU2497277C2 (ru) 2013-10-27

Family

ID=45853124

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2010132066/08A RU2497277C2 (ru) 2010-07-29 2010-07-29 Способ сжатия двоичных данных в виде структурированных информационных блоков

Country Status (1)

Country Link
RU (1) RU2497277C2 (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2697794C1 (ru) * 2018-03-22 2019-08-19 Федеральное государственное бюджетное образовательное учреждение высшего образования "Тихоокеанский государственный университет" Способ сжатия телеметрических кадров данных
RU2700401C1 (ru) * 2019-03-19 2019-09-16 Российская Федерация, от имени которой выступает Государственная корпорация по атомной энергии "Росатом" (Госкорпорация "Росатом") Способ формирования идентификационных признаков для группы объектов

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2158487C2 (ru) * 1994-12-28 2000-10-27 Кабусики Кайся Тосиба Система кодирования/декодирования видеоинформации
US7224293B2 (en) * 2003-10-17 2007-05-29 Pacbyte Software Pty Limited Data compression system and method
US20080270868A1 (en) * 2007-04-27 2008-10-30 Sony Corporation Decoding apparatus
RU2007127167A (ru) * 2007-07-16 2009-01-27 Государственное образовательное учреждение высшего профессионального образовани "Поволжска государственна академи телекоммуникаций и информатики" (RU) Способ сжатия данных
RU2008139888A (ru) * 2006-02-17 2010-04-20 Франс Телеком (Fr) Усовершенствованное кодирование/декодирование цифровых сигналов, в частности, при векторном квантовании с перестановочными кодами

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2158487C2 (ru) * 1994-12-28 2000-10-27 Кабусики Кайся Тосиба Система кодирования/декодирования видеоинформации
US7224293B2 (en) * 2003-10-17 2007-05-29 Pacbyte Software Pty Limited Data compression system and method
RU2008139888A (ru) * 2006-02-17 2010-04-20 Франс Телеком (Fr) Усовершенствованное кодирование/декодирование цифровых сигналов, в частности, при векторном квантовании с перестановочными кодами
US20080270868A1 (en) * 2007-04-27 2008-10-30 Sony Corporation Decoding apparatus
RU2007127167A (ru) * 2007-07-16 2009-01-27 Государственное образовательное учреждение высшего профессионального образовани "Поволжска государственна академи телекоммуникаций и информатики" (RU) Способ сжатия данных

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2697794C1 (ru) * 2018-03-22 2019-08-19 Федеральное государственное бюджетное образовательное учреждение высшего образования "Тихоокеанский государственный университет" Способ сжатия телеметрических кадров данных
RU2700401C1 (ru) * 2019-03-19 2019-09-16 Российская Федерация, от имени которой выступает Государственная корпорация по атомной энергии "Росатом" (Госкорпорация "Росатом") Способ формирования идентификационных признаков для группы объектов

Also Published As

Publication number Publication date
RU2010132066A (ru) 2012-02-10

Similar Documents

Publication Publication Date Title
US11722148B2 (en) Systems and methods of data compression
US20110181448A1 (en) Lossless compression
CN101420231A (zh) 编码方法和装置、以及程序
Li et al. Cryptanalyzing a class of image encryption schemes based on Chinese remainder theorem
CN113486369B (zh) 具有对称加密和无损压缩的编码方法、装置、设备及介质
CN107332570B (zh) 分段级联Hash序列的极化码编码方法
Gupta et al. Data compression-lossless and lossy techniques
RU2497277C2 (ru) Способ сжатия двоичных данных в виде структурированных информационных блоков
US20100321218A1 (en) Lossless content encoding
Al-Hashemi et al. A new lossless image compression technique based on Bose, Chandhuri and Hocquengham (BCH) codes
Ryabko et al. “Book stack” as a new statistical test for random numbers
CN102362231A (zh) 使用具有不确定性的数值表示的模拟计算技术
CN117014017A (zh) 一种基于高位宽数据计算多项式除法余数的crc计算方法
RU2488960C2 (ru) Способ компрессии-декомпрессии данных и устройство для его осуществления
Lin et al. Generalized arithmetic coding using discrete chaotic maps
JP2017135708A5 (ru)
JP6833643B2 (ja) 圧縮処理装置、伸長処理装置、圧縮処理用プログラム、伸長処理用プログラム
US8537038B1 (en) Efficient compression method for sorted data representations
Lawal et al. An Improve Shannon Fano Data Compression Algorithm using Residue Number System
Nandi et al. Comparative study and analysis of adaptive region based Huffman compression techniques
Mesra et al. New concept of universal coding using one step reversible low contrast mapping (1RLCM)
Viraktamath et al. Impact of selection of source coding technique on the efficiency
Rawat et al. Evaluation of Burrows Wheeler Transform based image compression algorithm for multimedia applications
Ryabko Statistical Testing of Randomness
PM N Survey on lossless dictionary based datacompression algorithms