RU2710669C1

RU2710669C1 - Способ шифрования данных

Info

Publication number: RU2710669C1
Application number: RU2018138851A
Authority: RU
Inventors: Андрей Сергеевич Рыбкин
Original assignee: Открытое Акционерное Общество "Информационные Технологии И Коммуникационные Системы"
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2019-12-30

Abstract

Изобретение относится к вычислительной технике. Технический результат заключается в повышении производительности процесса шифрования. Способ шифрования s сообщений m₁, m₂, …, m_s, представленных в двоичном виде и имеющих длину, равную 128 бит каждый, где s=t⋅n, причем t, n - натуральные числа, реализуемый посредством вычислительной системы, имеющей процессор с SIMD-архитектурой, заключающийся в том, что вычисляют u=0; (А) вычисляют параллельно с использованием SIMD-инструкций процессора значения c_ut+1, c_ut+2, c_ut+3, …, c_ut+t∈ V₁₂₈; вычисляют преобразования RSHIFT₄ вида V₈→V₈, преобразования CMPR вида V₈×V₈→V₈ и преобразования BLEND вида V₈×V₈×V₈→V₈; преобразования Т₂, T₃, T₄ вида V₄→V₄ и преобразования α₀, α₁, T₁, T₅, T₆ вида V₄→V₈ вычисляют путем загрузки данных из вспомогательных таблиц, содержащих векторы значений этих преобразований; преобразования MULT_148,0, MULT_148,1, MULT_195,0, MULT_195,1 вида V₄→V₈ вычисляют путем загрузки данных из вспомогательных таблиц, содержащих векторы значений этих преобразований; вычисляют u=u+1; если u<n, то переходят к этапу (А); получают зашифрованные сообщения c_i, i=1, 2, …, s. 1 табл.

Description

Область техники, к которой относится изобретение

Предполагаемое изобретение относится к способам шифрования данных, в частности к блочному шифрованию данных с применением вычислительных платформ с SIMD-архитектурой.

Уровень техники

Шифрование является традиционным способом обеспечения конфиденциальности данных при их передаче и хранении. К одним из наиболее распространенных методов шифрования относятся алгоритмы, основанные на применении блочных шифров. Такие шифры оперируют фрагментами данных фиксированной длины - блоками, и сочетают в себе стойкость и высокую скорость работы.

Тенденция на увеличение объемов хранимой информации и скорости передаваемых данных требует от используемых блочных шифров высокой производительности. Эффективным методом увеличения быстродействия алгоритма шифрования является использование параллельных вычислений. Одним из способов организации параллельных вычислений в случае программной реализации алгоритма является использование SIMD-технологий, в основе которых лежит применение одной инструкции процессора для одновременной обработки нескольких фрагментов данных, предварительно размещенных на одном регистре.

SIMD-технологии получили широкое распространение и поддерживаются на большинстве современных вычислительных платформ, в том числе на процессорах общего назначения Intel и AMD. В настоящее время существует несколько типовых наборов SIMD-инструкций, каждый из которых предназначен для работы с регистрами определенной длины.

Применительно к программной реализации алгоритмов блочного шифрования, SIMD-технологии, как правило, используются для эффективной обработки сразу нескольких входных блоков данных. С помощью SIMD-технологий алгоритм шифрования, предназначенный для обработки одного блока, выполняют одновременно для нескольких блоков. Эффективность такого подхода напрямую зависит от возможности параллельного выполнения использующихся в алгоритме шифрования преобразований и операций, которая, в свою очередь, определяется наличием в вычислительной платформе соответствующих им SIMD-инструкций. В случае возможности распараллеливания каждой из операций такой подход позволяет выполнять обработку нескольких блоков данных за время, необходимое для обработки одного блока данных, то есть производительность алгоритма растет пропорциональному количеству одновременно обрабатываемых блоков. Поскольку число одновременно обрабатываемых блоков определяется длиной используемых регистров, производительность в этом случае растет пропорционально увеличению длины используемых регистров.

Национальный стандарт Российской Федерации ГОСТ Р 34.12-2015 специфицирует два блочных шифра: «Кузнечик» и «Магма» [1]. Для алгоритма шифрования «Магма» известен способ выполнения, допускающий эффективное применение SIMD-технологий в случае его программной реализации [2]. Под эффективностью здесь и далее будем подразумевать достаточно высокую скорость выполнения относительно других способов и пропорциональный рост производительности программных реализаций на основе способа при увеличении длины используемых регистров.

Рассмотрим существующие способы выполнения алгоритма зашифрования блочного шифра «Кузнечик». При описании преобразований шифра «Кузнечик» будем придерживаться обозначений, принятых в [1], опуская при этом, для простоты, вспомогательные преобразования, введенные для установления соответствия между двоичными строками, числами и элементами поля.

Известен способ выполнения алгоритма зашифрования блочного шифра «Кузнечик» в соответствии с его описанием в [1]. Недостатками способа являются низкая производительность алгоритма в случае его программного исполнения без использования SIMD-технологий, а также невозможность эффективного применения существующих SIMD-инструкций при реализации способа.

Известен способ выполнения алгоритма зашифрования блочного шифра «Кузнечик» на основе использования таблиц большого размера [3]. Все вычисления при использовании такого способа сводятся к операциям загрузки данных из больших таблиц и побитовому сложению двоичных строк. Способ обладает достаточно высокой скоростью работы в случае его программного исполнения даже без применения SIMD-технологий, а в случае их применения производительность способа может быть дополнительно увеличена.

Недостатком способа является неэффективность применения существующих SIMD-инструкций для параллельного выполнения операций загрузки данных из больших таблиц, что приводит к тому, что производительность реализаций на основе способа растет непропорционально увеличению длины используемых регистров.

Другим недостатком является потенциальная уязвимость программных реализаций на основе способа к атакам по времени обращения к кэш-памяти вычислительной платформы [4], что приводит к недопустимости применения этих реализаций в случае возможности осуществления такого рода атак.

Известен способ выполнения нелинейного преобразования алгоритма «Кузнечик», являющегося частью алгоритма зашифрования, основанный на декомпозиции этого преобразования [5]. Согласно данному способу, преобразование π: V₈→V₈, использующееся в блочном шифре «Кузнечик» для определения нелинейного преобразования [1], вычисляют следующим образом:

где

- операция умножения в поле GF(2⁴)[Х]/(Х⁴⊕X³⊕1), а линейные преобразования α, ω вида V₈→V₈ и нелинейные преобразования ν₀, ν₁, σ, φ, I вида V₄→V₄ определены в [5].

Данный способ расширяет возможности применения SIMD-технологий в случае программной реализации преобразования π. В частности, он позволяет свести ряд вычислений к преобразованиям вида V₄→V₄, имеющим эффективную реализацию с помощью SIMD-технологий.

Недостатком способа является наличие преобразований вида V₈→V₈ и операций умножения в поле GF(2⁴)[Х]/(Х⁴⊕X³⊕1), имеющих относительно высокую сложность реализации в случае применения SIMD-технологий.

Наиболее близким к предлагаемому способу является способ выполнения алгоритма зашифрования блочного шифра «Кузнечик» с помощью слайсинг техники, представленный в [3]. Способ основан на применении преобразований, эквивалентных имеющимся в шифре, но обладающих при этом более эффективной реализацией с использованием SIMD-технологий.

Согласно данному способу, алгоритм зашифрования блочного шифра «Кузнечик» выполняют в соответствии с соотношениями, приведенными в [1]:

где

K₁, …, K₁₀∈V₁₂₈ - итерационные ключи.

Вычисление преобразования

:(V₈)¹⁶→V₈ основывают на алгоритме, приведенном в [1]:

где «⋅» - операция умножения в поле GF(2⁸)[Х]/(Х⁸⊕X⁷⊕X⁶⊕Х⊕1).

При этом для возможности эффективной реализации преобразования

с использованием SIMD-технологий в данный алгоритм вносят ряд изменений.

Для каждой константы const ∈ {1, 148, 32, 133, 16, 194, 192, 251} вводят преобразования вида V₄→V₈:

где

Операции умножения в поле, имеющиеся в (4), выполняют на основе преобразований из (5) и соотношений:

Эффективность использования преобразований из (5) обуславливается тем, что любое преобразование вида V₄→V₈ может быть реализовано с помощью таблицы, состоящей из 2⁴ элементов, длиной 8 бит каждый. Вычисление преобразования в этом случае сводится к загрузке выходного значения из таблицы по входному значению, используемому в качестве индекса для выбора соответствующего элемента таблицы. Преимуществом применения таблиц такого размера является возможность эффективного распараллеливания операции загрузки из этих таблиц при помощи существующих SIMD-инструкций. Данное замечание справедливо и для таблиц, состоящих из меньшего числа элементов и/или из элементов меньшей длины.

Вычисление преобразования π: V₈→V₈ основывают на алгоритме, предложенном в [5] и описанном в (1). Для повышения эффективности реализации преобразования π с использованием SIMD-технологий вводят следующие преобразования вида V₄→V₈:

Преобразования α и ω выполняют на основе преобразований (8) и соотношений, справедливых в силу линейности α и ω:

Поскольку преобразования α₀, α₁, ω₀, ω₁, ν₀, ν₁, σ, φ, I имеют вид V₄→V₄, V₄→V₈, их вычисление может быть эффективно распараллелено при помощи существующих SIMD-инструкций по аналогии с преобразованиями (5).

Описанный способ принимается за прототип. Преимуществом способа является возможность эффективного применения существующих SIMD-инструкций для используемых операций, в том числе для загрузки данных из используемых таблиц. Это приводит к пропорциональному росту скорости программных реализаций на основе способа при увеличении длины используемых регистров.

Еще одним преимуществом способа является возможность получения на его основе программных реализаций, стойких к атакам по времени обращения к кэш-памяти вычислительной платформы, в силу задействования только малых по размеру вспомогательных таблиц.

Недостатком способа является его относительно невысокая производительность, обусловленная, в том числе, выполнением преобразования

без учета взаимосвязи между константными элементами поля, содержащимися в (4), а также необходимостью выполнения трудоемкой операции умножения в поле GF(2⁴)[Х]/(Х⁴⊕X³⊕1) при вычислении преобразования π.

Раскрытие изобретения

Техническим результатом является повышение производительности процесса зашифрования.

При этом предлагаемый способ сохраняет возможность эффективного применения SIMD-технологий при его реализации, выражающуюся в пропорциональном росте производительности в случае увеличения длины используемых регистров, а также сохраняет возможность получения реализаций на основе способа, стойких к атакам по времени обращения к кэш-памяти вычислительной платформы.

Предлагаемый способ шифрования s сообщений m₁, m₂, …, m_s, представленных в двоичном виде и имеющих длину равную 128 бит каждый, где s=t⋅n, причем t, n - натуральные числа, реализуемый посредством вычислительной системы, имеющей процессор с SIMD-архитектурой, заключается в том, что

вычисляют

u=0;

(А) вычисляют параллельно с использованием SIMD-инструкций процессора значения c_ut+1, c_ut+2, c_ut+3, …, c_ut+t∈V₁₂₈:

где

X[k]:V₁₂₈→V_128, X[k](x)=k⊕x, причем k, x∈V₁₂₈;

S:V₁₂₈→V₁₂₈,

причем

x_i∈V₈, i=0, 1,…, 15;

L: V₁₂₈→V₁₂₈, L(x)=R¹⁶(x), причем x∈V₁₂₈;

причем

x_i∈V₈, i=0, 1,…, 15;

K₁, …, K₁₀∈V₁₂₈ - итерационные ключи;

V_p - множество всех двоичных строк длины р;

р - неотрицательное целое число;

причем для получения значения π(α)∈V₈, для произвольного a∈V₈, вычисляют

r₄=T₂(r₂)+₂₅₆T₃(r₃),

r₆=T₄(r₅)+₂₅₆T₃(r₂),

где «+₂₅₆» - операция сложения в кольце вычетов по модулю 256;

- операция побитового "И";

- операция побитового "И" с отрицанием одного из аргументов;

«⊕» - операция побитового сложения;

преобразование RSHIFT₄ вида V₈→V₈ преобразование CMPR вида V₈×V₈→V₈ и преобразование BLEND вида V₈×V₈×V₈→V₈ вычисляют в соответствии с соотношениями

где значения y_i∈V₁, i=0, 1, 2, 3,

значения x_i∈V₁, i=0, 1,…, 7,

где MSB₁: V₈→V₁,

преобразования T₂, Т₃, T₄ вида V₄→V₄ и преобразования α₀, α₁, T₁, T₅, T₆ вида V₄→V₈ вычисляют путем загрузки данных из вспомогательных таблиц, содержащих векторы значений этих преобразований:

α₀=(0, 112, 58, 74, 20, 100, 46, 94, 154, 234, 160, 208, 142, 254, 180, 196),

α₁=(0, 2, 17, 19, 116, 118, 101, 103, 24, 26, 9, 11, 108, 110, 125, 127),

Т₁=(32, 20, 48, 34, 36, 2, 54, 50, 0, 4, 38, 16, 18, 6, 22, 52),

Т₂=(0, 15, 14, 3, 13, 6, 2, 8, 12, 11, 5, 10, 1, 4, 7, 9),

Т₃=(0, 15, 1, 12, 2, 9, 13, 7, 3, 4, 10, 5, 14, 11, 8, 6),

Т₄=(14, 8, 5, 14, 2, 13, 9, 1, 3, 5, 3, 5, 12, 13, 12, 15),

Т₅=(52, 22, 0, 4, 20, 54, 50, 16, 48, 38, 34, 32, 2, 18, 6, 36),

Т₆=(220, 0, 152, 147, 153, 146, 215, 78, 214, 11, 69, 1, 68, 10, 79, 221),

где векторы значений приведены в виде

ƒ=(ƒ(0), ƒ(1), …, ƒ(15)),

где ƒ - произвольное преобразование, множеством входных аргументов которого является V₄;

для получения значения

для произвольных

а₁₅, а₁₄, …, а₀∈V₈, вычисляют

t₁=а₃⊕а₁₃,

t₂₌а₈+₂₅₆a₈,

t₃=a₁⊕a₁₅⊕t₁⊕BLEND(t₂, t₂⊕195, a₈),

t₄=a₂⊕a₁₄,

t₅=t₄+₂₅₆t₄,

t₆=BLEND(t₅, t₅⊕195, t₄)⊕t₁⊕a₄⊕a₁₂⊕a₈,

t₇=a₆⊕a₁₀,

t₈=t₇+₂₅₆t₇,

t₉=a₅⊕a₁₁⊕t_7,

где преобразование LSHIFT₄ вида V₄→V₈ вычисляют в соответствии с соотношением

LSHIFT₄: V₄→V₈,

x_i∈V₁, i=0, 1, …, 3;

преобразования MULT_148,0, MULT_148,1, MULT_195,0, MULT_195,1 вида V₄→V₈

вычисляют путем загрузки данных из вспомогательных таблиц, содержащих векторы значений этих преобразований:

MULT_148,0=(0, 148, 235, 127, 21, 129, 254, 106, 42, 190, 193, 85, 63, 171, 212, 64),

MULT_148,1=(0, 84, 168, 252, 147, 199, 59, 111, 229, 177, 77, 25, 118, 34, 222, 138),

MULT_195,0=(0, 195, 69, 134, 138, 73, 207, 12, 215, 20, 146, 81, 93, 158, 24, 219),

MULT_195,1=(0, 109, 218, 183, 119, 26, 173, 192, 238, 131, 52, 89, 153, 244, 67, 46),

где векторы значений приведены в виде

ƒ=(ƒ(0), ƒ(1), …, ƒ(15)),

вычисляют

u=u+1;

если u<n, то переходят к этапу (А);

получают зашифрованные сообщения c_i, i=1, 2, …, s.

Результат достигается за счет сведения базовых преобразований алгоритма зашифрования блочного шифра «Кузнечик» к эквивалентным преобразованиям, имеющим более эффективную реализацию с помощью существующих SIMD-инструкций, а также за счет учета особенностей базовых преобразований с целью минимизации количества требуемых для их выполнения операций.

Согласно предлагаемому способу, алгоритм зашифрования блочного шифра «Кузнечик» выполняют в соответствии с (2). Преобразования X, S, L вычисляют в соответствии с (3).

Рассмотрим способ выполнения преобразования

Заметим, что в силу свойства дистрибутивности операции умножения относительно сложения в поле GF(2⁸)[X]/(X⁸⊕X⁷⊕X⁶X⊕1), а также в силу равенств, справедливых

133⋅х=(1⊕16⊕148)⋅х=1⋅x⊕16⋅х⊕148⋅х,

32⋅х=(16⋅2)⋅х=16⋅(2⋅х),

251⋅х=(148⋅2⊕16)⋅х=148⋅(2⋅х)⊕16⋅х,

192⋅х=(194⊕2)⋅х=194⋅х⊕2⋅х,

194⋅х=(195⊕1)⋅х=195⋅х⊕1⋅х,

16⋅х=195⋅MSB₄(х)⊕LSHIFT₄(LSB₄(х)),

преобразование

для любых а₁₅, а₁₄, …, а₀∈V₈ может быть вычислено следующим образом:

Для выполнения операций умножения в поле введем следующие преобразования:

где

MSB₁:V₈→V₁,

x_i∈V₁, i=0, 1, ..., 7

С учетом (10) и равенства

2⋅128=195,

где 2, 128, 195∈GF(2⁸)[X]/(X⁸⊕X⁷⊕Х⁶⊕X⊕1),

получаем, что

2⋅х=BLEND(x+₂₅₆х, (х+₂₅₆х)⊕195, х),

148⋅х=MULT_148,0(LSB₄(х))⊕MULT_148,1(MSB₄(х)),

195⋅х=MULT_195,0(LSB₄(x))⊕MULT_195,1(MSB₄(x)),

где «+₂₅₆» - операция сложения в кольце вычетов по модулю 256.

Для выполнения преобразования LSHIFT₄ воспользуемся (6). Для выполнения преобразований MSB₄, LSB₄ воспользуемся соотношениями

где

- операция побитового "И",

RSHIFT₄:V₈→V₈,

причем y_j∈V₁, i=0, 1, 2, 3 - не зависящие от x_i∈V₁, i=0, 1, …, 7 значения.

В результате способ вычисления преобразования

принимает следующий вид:

- на вход преобразованию

поступают значения а₁₅, a₁₄,…, а₀∈V₈;

- вычисляют значения

Предложенный способ позволяет вычислять преобразование

при помощи пяти преобразований вида V₄→V₈: MULT_148,0, MULT_148,1, MULT_195,0, MULT_195,1, LSHIFT₄; преобразования RSHIFT₄ вида V₈→V₈; преобразования BLEND вида V₈×V₈×V₈→V₈; а также операций сложения в кольце вычетов по модулю 256 («+₂₅₆»), побитового "И" (

) и побитового сложения («⊕»).

Преобразования MULT_148,0, MULT_148,1, MULT_195,0, MULT_195,1 могут быть вычислены с помощью вспомогательных таблиц, содержащих векторы значений этих преобразований:

где векторы значений получены из (10) и приведены в виде

ƒ=(ƒ(0), ƒ(1), …, ƒ(15)),

где ƒ - произвольное преобразование, множеством входных аргументов которого является V₄.

Рассмотрим способ выполнения преобразования π. Согласно [5], преобразование π может быть вычислено в соответствии с (1).

Для выполнения операции умножения в поле GF(2⁴)[Х]/(Х⁴⊕X³⊕1) перейдем от векторного представления элементов поля к степенному представлению. Для этого введем преобразования:

где X=2 - элемент поля GF(2⁴)[Х]/(Х⁴⊕X³⊕1), являющийся образующим элементом мультипликативной группы этого поля.

Тогда

y∈V₄, х≠0, у≠0:

С учетом (8), (9) и (13), а также соотношений

преобразование π может быть вычислено как

Перейдем от величины а' к величине а''=EXP^-1(ν₁ ^-1(a')). С учетом того, что

ω₀(σ(0))=220∈V₈,

получаем, что

Введем преобразования

Тогда

Для выполнения преобразования MOD заметим, что

, y∈V₄, х≠0, у≠0: LOG(х)+₂₅₆LOG(у)∈{2, 3,…,30},

=2, 3, …, 30∈V₈: MOD(х)=LSB₄(х+₂₅₆MSB₄(x))

Для выполнения преобразований α, LSB₄, MSB₄ воспользуемся (9) и (11).

Для вычисления кусочно-заданных функций воспользуемся соотношениями:

где «¬» - операция побитового отрицания,

В результате, способ вычисления преобразования π принимает следующий вид:

- на вход преобразованию π поступает значение а∈V₈;

- вычисляют значения

Предложенный способ позволяет вычислять преобразование π при помощи трех преобразований вида V₄→V₄: Т₂, Т₃, Т₄; пяти преобразований вида V₄→V₈: α₀, α₁, T₁, Т₅, Т₆; преобразования RSHIFT₄ вида V₈→V₈; преобразования CMPR вида V₈×V₈→V₈; преобразования BLEND вида V₈×V₈×V₈→V₈; а также операций сложения в кольце вычетов по модулю 256 («+₂₅₆»), побитового "И" (

), побитового "И" с отрицанием одного из аргументов («х

(¬у)») и побитового сложения («⊕»).

Преобразования α₀, α₁, T₁, Т₂, Т₃, Т₄, Т₅, Т₆ могут быть вычислены с помощью вспомогательных таблиц, содержащих векторы значений этих преобразований:

α₁=(0, 2, 17, 19, 116, 118, 101, 103, 24, 26, 9, 11, 108, 110, 125, 127),

T₁=(32, 20, 48, 34, 36, 2, 54, 50, 0, 4, 38, 16, 18, 6, 22, 52),

T₂=(0, 15, 14, 3, 13, 6, 2, 8, 12, 11, 5, 10, 1, 4, 7, 9),

T₃=(0, 15, 1, 12, 2, 9, 13, 7, 3, 4, 10, 5, 14, 11, 8, 6),

Т₄=(14, 8, 5, 14, 2, 13, 9, 1, 3, 5, 3, 5, 12, 13, 12, 15),

Т₅=(52, 22, 0, 4, 20, 54, 50, 16, 48, 38, 34, 32, 2, 18, 6, 36),

Т₆=(220, 0, 152, 147, 153, 146, 215, 78, 214, 11, 69, 1, 68, 10, 79, 221),

где векторы значений получены из формул (8), (14) и приведены в виде

ƒ=(ƒ(0), ƒ(1), …, ƒ(15)),

Итоговое количество преобразований и операций, необходимых для вычисления преобразований

и π предлагаемым способом, а также способом, выбранным в качестве прототипа, приведено в табл. 1. Для наглядности, однотипные преобразования, предполагающие одинаковый способ выполнения при реализации, например, использование вспомогательных таблиц, объединены в одной строке, при этом численные значения в соответствующей строке означают суммарное количество применений преобразований данного типа в конкретном способе.

Для возможности сравнения предлагаемого способа со способом, выбранным в качестве прототипа, используется следующий вариант выполнения умножения в поле GF(2⁴)[Х]/(Х⁴⊕X³⊕1), допускающий применение SIMD-инструкций для каждой из имеющихся операций:

- на вход операции умножения поступают значения x, y∈V₄;

- вычисляют значения

где

LSHIFT₁, LSHIFT₂, LSHIFT₃:V₄→V₈,

x_i∈V₁, i=0, 1, 2, 3,

Тогда алгоритм вычисления преобразования π согласно способу, выбранному в качестве прототипа, принимает следующий вид:

- на вход преобразованию π поступает значение a∈V₈;

- вычисляют значения

причем умножение в поле GF(2⁴)[X]/(X⁴⊕X³⊕1) выполняют описанным выше способом.

Преобразование

в прототипе выполняется в соответствии с (4), (5), (7).

Таким образом, практически по каждому типу преобразований и операций, использующемуся в прототипе, удается добиться существенного сокращения количества преобразований и операций этого типа в случае применения предлагаемого способа. При этом в предлагаемом способе появляется необходимость выполнения незначительного числа новых типов преобразований и операций, однако, малочисленность и эффективность этих операций позволяет утверждать, что негативный эффект от их введения значительно меньше позитивного эффекта от сокращения количества имеющихся в прототипе преобразований и операций.

В связи с тем, что предлагаемый способ и способ, выбранный в качестве прототипа, отличаются только в части вычисления преобразования

и π, а производительность выполнения этих преобразований выше в предлагаемом способе, общая производительность предлагаемого способа превосходит общую производительность прототипа. Следует отметить, что данное соотношение производительности способов справедливо как в случае обработки одного блока данных, так и в случае параллельной обработки нескольких блоков данных с помощью SIMD-инструкций.

При этом предлагаемый способ сохраняет важные свойства прототипа. Сохраняется пропорциональный рост скорости программных реализаций на основе способа при увеличении длины используемых регистров, поскольку все использующиеся в предлагаемом способе преобразования и операции эффективно распараллеливаются с помощью существующих SIMD-инструкций. Также сохраняется возможность получения на основе способа реализаций, стойких к атакам по времени обращения к кэш-памяти вычислительной платформы, поскольку в предлагаемом способе используются только малые по размеру вспомогательные таблицы и, как следствие, появляется возможность задействования только инструкций с фиксированным временем выполнения.

Осуществление изобретения

Для осуществления предложенного способа рассмотрим вариант его программной реализации на вычислительной платформе с SIMD-архитектурой.

В качестве вычислительной платформы с SIMD-архитектурой используем процессор общего назначения Intel Core i7-4700. Для повышения эффективности параллельных вычислений задействуем регистры максимальной для данной модели процессора длины - 256 бит. Для работы с этими регистрами используем SIMD-инструкций из наборов AVX и AVX2.

Рассмотрим пример одновременного зашифрования 32 блоков данных, длиной 128 бит каждый. Будем считать, что итерационные ключи K₁, …, K₁₀∈V₁₂₈ уже вычислены и алгоритм зашифрования получает их на вход вместе с шифруемыми данными а₁, а₂, …, а₃₂∈V₁₂₈.

Для осуществления предложенного способа выполняют следующие предварительные процедуры:

- для каждого преобразования MULT_148,0, MULT_148,1, MULT_195,0, MULT_195,1, α₀, α₁, T₁, T₂, T₃, T₄, T₅, T₆ формируют переменную длиной 256 бит, необходимую для табличного вычисления соответствующего преобразования, и

- побайтно заполняют младшие 128 бит каждой переменной элементами вектора значений соответствующего преобразования, причем в младшем (первом) байте размещают первый элемент вектора значений, во втором байте - второй элемент вектора значений и т.д.;

- заполняют старшие 128 бит переменной аналогично младшим 128 битам переменной;

- для константы mask формируют переменную длиной 256 бит и побайтно заполняют ее значениями константы mask;

- для итерационного ключа формируют переменную rk к длиной 256 бит;

- для данных формируют 16 переменных длиной 256 бит каждая: data₁, data₂, …, data₁₆, и

- побайтно заполняют переменную data_i, i=1, 2, …, 16, размещая в ней i-е байты каждого из 32 блоков а₁, а₂, …, а₃₂∈V₁₂₈: в младшем (первом) байте размещают i-й байт блока а₁, во втором байте размещают i-й байт блока а₂ и т.д.

Для одновременного зашифрования блоков a_i, i=1, 2, …, 32, в соответствии с формулой:

E_{K1, …, K10} : V₁₂₈→V₁₂₈,

Е_{К1,…, K10} (a_i)=X[K₁₀]LSX[K₉]…LSX[K₂]LSX[K₁(a_i),

последовательно осуществляют изменение значений переменных data₁, data₂, …, data₁₆, соответствующее выполнению преобразований: X[K_j], j=1, 2, …, 10, L и S.

Для выполнения преобразования X[K_j], j=1, 2, …, 10: для каждого i=1, 2, …, 16

- побайтно заполняют переменную rk значениями i-го байта ключа K_j;

- вычисляют data_i:=data_i⊕rk.

Для выполнения линейного преобразования L: для каждого i=0, 1, …, 15 последовательно вычисляют

где

представляет собой параллельное применение преобразования

к j-м байтам аргументов

для получения j-го байта результата преобразования

j=1, 2, …, 32.

Преобразование

выполняют в соответствии (12), а параллельное применение

осуществляют с использованием следующих SIMD-инструкций:

- "vpshufb" для реализации преобразований MULT_148,0, MULT_148,1, MULT_195,0, MULT_195,1;

- "vpblendvb" для реализации преобразования BLEND;

- "vpsrlw" для реализации преобразования RSHIFT₄;

- "vpsllw" для реализации преобразования LSHIFT₄;

- "vpaddb" для реализации операции «+₂₅₆»;

- "vpand" для реализации операции

- "vpxor" для реализации операции «⊕».

При реализации преобразований MULT_148,0, MULT_148,1, MULT_195,0, MULT_195,1, и задействовании константы mask используют введенные для них переменные.

Для осуществления нелинейного преобразования S: для каждого i=1, 2, …, 16 вычисляют

data_i:=π'(data_i),

где π' представляет собой параллельное применение преобразования π к j-му байту аргумента π' для получения j-го байта результата π', j=1, 2, …, 32.

Преобразование π выполняют в соответствии с (15), а параллельное применение π осуществляют с использованием следующих SIMD-инструкций:

- "vpshufb" для реализации преобразований α₀, α₁, Т₁, Т₂, Т₃, Т₄, Т₅, Т₆;

- "vpblendvb" для реализации преобразования BLEND;

- "vpsrlw" для реализации преобразования RSHIFT₄;

- "vpcmpeqb" для реализации преобразования CMPR;

- "vpaddb" для реализации операции «+₂₅₆»;

- "vpand" для реализации операции

- "vpandn" для реализации операции

- "vpxor" для реализации операции «⊕».

При реализации преобразований α₀, α₁, Т₁, Т₂, Т₃, Т₄, Т₅, Т₆ и задействовании константы mask используют введенные для них переменные.

Для получения зашифрованных блоков b₁, b₂, …, b₃₂∈V₁₂₈ из итоговых значений переменных data₁, data₂, …, data₁₆, выполняют перекомпоновку байт, обратную той, что применялась при начальном заполнении переменных data₁, data₂, …, data₁₆, для чего побайтно заполняют блок b_i, i=1, 2, …, 32, размещая в нем i-e байты каждой из 16 переменных data₁, data₂, …, data₁₆, причем в младшем (первом) байте размещают i-й байт переменной data₁, во втором байте размещают i-й байт переменной data₂ и т.д.

В случае необходимости применения алгоритма зашифрования к большему числу блоков данных выполняют разбиение всех входных блоков на группы, состоящие не более чем из 32 блоков, после чего обрабатывают каждую группу в отдельности. При этом, если обрабатываемая группа содержит менее 32 блоков, ее предварительно дополняют произвольными блоками в количестве, необходимом для получения 32 блоков в группе, а результат зашифрования добавленных блоков игнорируют.

Скорость описанной программной реализации алгоритма зашифрования блочного шифра «Кузнечик», основанной на предлагаемом способе, составляет 360 Мбайт/с при выполнении вычислений в одном потоке на одном ядре процессора Intel Core i7-4700. Программная реализация алгоритма зашифрования блочного шифра «Кузнечик», основанная на способе, выбранном в качестве прототипа, согласно [3], имеет скорость равную 300 Мбайт/с на аналогичной вычислительной платформе. Таким образом, прирост производительности предлагаемого способа относительно прототипа составляет порядка 20%.

Источники информации, принятые во внимание при составлении заявки

1. ГОСТ Р 34.12-2015. Информационная технология, Криптографическая защита информации, Блочные шифры. Москва, Стандартинформ, 2016.

2. Евразийский патент №021803, приоритет от 25.04.2012 г.

3. Rybkin A. S. On software implementation of Kuznyechik on Intel CPUs. Математические вопросы криптографии, 9:2 (2018), с. 117-127.

4. Bernstein D. J. Cache-timing attacks on AES. 2005 (статья по адресу: https://cr.yp.to/antiforgery/cachetiming-20050414.pdf).

5. Biryukov, A., Perrin, L., Udovenko, A. Reverse-engineering the S-box of Streebog, Kuznyechik and STRIBOBrl. In Annual International Conference on the Theory and Applications of Cryptographic Techniques (2016), 372-402, Springer, Berlin, Heidelberg.

Claims

Способ шифрования s сообщений m₁, m₂, …, m_s, представленных в двоичном виде и имеющих длину, равную 128 бит каждый, где s=t⋅n, причем t, n - натуральные числа, реализуемый посредством вычислительной системы, имеющей процессор с SIMD-архитектурой, заключающийся в том, что
вычисляют
u=0;
(А) вычисляют параллельно с использованием SIMD-инструкций процессора значения c_ut+1, c_ut+2, c_ut+3, …, c_ut+t ∈ V₁₂₈:
где
X[k]:V₁₂₈→V₁₂₈, X[k](x)=k⊕x, причем k, x∈V₁₂₈;
S:V₁₂₈→V₁₂₈,
причем
x_i∈V₈, i=0, 1, …, 15;
L: V₁₂₈→V₁₂₈, L(x)=R^l6(x), причем x∈V₁₂₈;
, причем
x_i∈V₈, i=0, 1, …, 15;
K₁, …, K₁₀∈V₁₂₈ - итерационные ключи;
V_p - множество всех двоичных строк длины р;
р - неотрицательное целое число;
причем для получения значения π(а)∈V₈, для произвольного a∈V₈, вычисляют
r₄=T₂(r₂)+₂₅₆T₃(r₃),
r₆=T₄(r₅)+₂₅₆T₃(r₂),
где «+₂₅₆» - операция сложения в кольце вычетов по модулю 256;
- операция побитового "И";
- операция побитового "И" с отрицанием одного из аргументов;
« ⊕ » - операция побитового сложения;
преобразование RSHIFT₄ вида V₈→V_8, преобразование CMPR вида V₈×V₈→V₈ и преобразование BLEND вида V₈×V₈×V₈→V₈ вычисляют в соответствии с соотношениями
где y_i∈V₁, i=0, 1, 2, 3, - не зависящие от x_i∈V₁, i=0, 1,…, 7, значения;
где MSB₁:V₈→V₁,
x_i∈V₁, i=0, 1, …, 7;
преобразования Т₂, T₃, T₄ вида V₄→V₄ и преобразования α₀, α₁, T₁, T₅, T₆ вида V₄→V₈ вычисляют путем загрузки данных из вспомогательных таблиц, содержащих векторы значений этих преобразований:
α₀=(0, 112, 58, 74, 20, 100, 46, 94, 154, 234, 160, 208, 142, 254, 180, 196),
α₁=(0, 2, 17, 19, 116, 118, 101, 103, 24, 26, 9, 11, 108, 110, 125, 127),
T₁=(32, 20, 48, 34, 36, 2, 54, 50, 0, 4, 38, 16, 18, 6, 22, 52),
Т₂=(0, 15, 14, 3, 13, 6, 2, 8, 12, 11, 5, 10, 1, 4, 7, 9),
T₃=(0, 15, 1, 12, 2, 9, 13, 7, 3, 4, 10, 5, 14, 11, 8, 6),
Т₄=(14, 8, 5, 14, 2, 13, 9, 1, 3, 5, 3, 5, 12, 13, 12, 15),
Т₅=(52, 22, 0, 4, 20, 54, 50, 16, 48, 38, 34, 32, 2, 18, 6, 36),
Т₆=(220, 0, 152, 147, 153, 146, 215, 78, 214, 11, 69, 1, 68, 10, 79, 221),
где векторы значений приведены в виде
ƒ=(ƒ(0), ƒ(1), …, ƒ(15)),
где ƒ - произвольное преобразование, множеством входных аргументов которого является V₄;
для получения значения
для произвольных а₁₅, а₁₄, …, а₀∈V₈, вычисляют
t₁=а₃⊕a_l3,
t₂=а₈+₂₅₆а₈,
t₃=а₁⊕а₁₅⊕t₁⊕BLEND(t₂, t₂⊕195, а₈),
t₄=a₂⊕a₁₄,
t₅=t₄+₂₅₆t₄,
t₆=BLEND(t₅, t₅⊕195, t₄)⊕t₁⊕a₄⊕a₁₂⊕a₈,
t₇=a₆⊕a₁₀,
t₈=t₇+₂₅₆t₇,
t₉=a₅⊕a₁₁⊕t₇,
где преобразование LSHIFT₄ вида V₄→V₈ вычисляют в соответствии с соотношением
LSHIFT₄ : V₄→V₈,
x_i∈V₁, i=0, 1, …, 3;
преобразования MULT_148,0, MULT_148,1, MULT_195,0, MULT_195,1 вида V₄→V₈ вычисляют путем загрузки данных из вспомогательных таблиц, содержащих векторы значений этих преобразований:
MULT_148,0=(0, 148, 235, 127, 21, 129, 254, 106, 42, 190, 193, 85, 63, 171, 212, 64),
MULT_148,1=(0, 84, 168, 252, 147, 199, 59, 111, 229, 177, 77, 25, 118, 34, 222, 138),
MULT_195,0=(0, 195, 69, 134, 138, 73, 207, 12, 215, 20, 146, 81, 93, 158, 24, 219),
MULT_195,1=(0, 109, 218, 183, 119, 26, 173, 192, 238, 131, 52, 89, 153, 244, 67, 46),
где векторы значений приведены в виде
ƒ=(ƒ(0), ƒ(1), …, ƒ(15)),
где ƒ - произвольное преобразование, множеством входных аргументов которого является V₄;
вычисляют
u=u+1;
если u<n, то переходят к этапу (А);
получают зашифрованные сообщения c_i, i=1, 2, …, s.