RU2726266C1

RU2726266C1 - Способ работы регистра сдвига с линейной обратной связью

Info

Publication number: RU2726266C1
Application number: RU2020107680A
Authority: RU
Inventors: Андрей Сергеевич Рыбкин
Original assignee: Открытое Акционерное Общество "Информационные Технологии И Коммуникационные Системы"
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2020-07-10

Abstract

Изобретение относится к области вычислительной техники. Технический результат заключается в повышении производительности работы РСЛОС типа Фибоначчи при использовании вычислительной системы, позволяющей параллельно вычислять k одинаковых линейных функций от разных аргументов. Технический результат достигается за счет способа работы регистра сдвига с линейной обратной связью (РСЛОС) в вычислительной системе, включающего задание конечного поля Р с операцией сложения ⊕, операцией умножения ⊗, нулевым элементом θ и единичным элементом е; выбор вычислительной системы, имеющей процессор с SIMD-архитектурой, задание натурального числа n; задание натурального числа k, k ≤ n; задания РСЛОС в конфигурации Фибоначчи, задания количества тактов работы РСЛОС - m, где m ≥ 1, m=kν+w, где ν, w - целые неотрицательные числа, 0 ≤ w ≤ k-1; осуществление m тактов работы РСЛОС.

Description

Область техники, к которой относится изобретение

Предлагаемое изобретение относится к области вычислительной техники, в к использованию регистров сдвига с линейной обратной связью на вычислительных платформах с SIMD-архитектурой.

Уровень техники

Регистры сдвига с линейной обратной связью (РСЛОС) используются в различных сферах информационных технологий, в том числе в криптографии, сетевых технологиях и цифровой передаче данных. РСЛОС позволяют генерировать линейные рекуррентные последовательности и могут применяться, например, для выработки псевдослучайных последовательностей, вычисления линейных отображений или получения множества различных значений определенной длины.

РСЛОС определяется полем, которому принадлежат элементы входной и выходной последовательности регистра, а также линейной функцией над этим полем, которая задает обратную связь РСЛОС. Различают два типа РСЛОС: РСЛОС в конфигурации Галуа и РСЛОС в конфигурации Фибоначчи. Два этих типа являются эквивалентными, то есть для каждого РСЛОС в конфигурации Галуа может быть построен РСЛОС в конфигурации Фибоначчи (и наоборот), порождающий ту же самую линейную рекуррентную последовательность, возможно, с некоторым сдвигом. В дальнейшем будем рассматривать только РСЛОС в конфигурации Фибоначчи.

Рассмотрим принцип работы РСЛОС, определенного над конечным полем Р и имеющего линейную функцию обратной связи РСЛОС ƒ : Pⁿ → Р вида

ƒ(x_n-1, x_n-2, …, х₀) = (c_n-1 ⊗ х_п-1) ⊕ (c_n-2 ⊗ x_n-2) ⊕…⊕ (c₀ ⊗ x₀),

где n - натуральное число,

c_i; ∈ Р, i=0, 1, …, n-1, - константные элементы поля Р,

x_i ∈ P, i=0, 1, …, n-1, - аргументы функции,

«⊗» и «⊕» - операции умножения и сложения в поле Р:

• в качестве входной последовательности РСЛОС берут последовательность из n элементов:

a ₀, a ₁, …, a _n-1, a _i ∈ P, i=0, 1, …, n-1;

• формируют начальное состояние РСЛОС, представляющее собой вектор длины n:

(q_n-1, q_n-2, …, q₀),

где q_i ∈ Р, i=0, 1, …, n-1,

в виде:

q_i=a _i, i=0, 1, …, n-1;

• задают количество тактов работы РСЛОС - m, где m - натуральное число;

• выполняют m тактов работы РСЛОС, причем на s-м такте, 1 ≤ s ≤ m:

вычисляют новое состояние РСЛОС, представляющее собой вектор длины n:

(q_n+s-1, q_n+s-2, …, q_s),

где q_n+s-1=ƒ(q_n+s-2, q_n+s-3, …, q_s-1)∈P,

вычисляют элемент выходной последовательности РСЛОС

b_s-1 = q_s-1 ∈ P:

• в качестве выходной последовательности РСЛОС берут последовательность из m элементов:

b₀, b₁, …, b_m-1.

Повсеместное использование РСЛОС делает актуальной задачу получения его высокопроизводительных реализаций. Одним из базовых способов повышения производительности программных и аппаратных реализаций является использование параллельных вычислений.

Обозначим класс линейных функций, определенных над полем Р и имеющих n переменных, через L_n:

Рассмотрим вычислительную систему, выполненную с возможностью для любой линейной функции h ∈ L_n и любых элементов x_r,i ∈ P, r=0, 1, …, k-1, i=0, 1, n-1, осуществлять параллельное вычисление k значений h(x_{0, n-1}, x_{0, n-2}, …, x_{0, 0}), h(x_{1, n-1}, x_{1, n-2}, …, x_{1, 0}), …, h(x_{k-1, n-1}, x_{k-1, n-2}, …, x_{k-1, 0}), где k - натуральное число. Обозначим эту вычислительную систему через S_k.

Согласно своему свойству, система S_k позволяет вычислять одновременно k одинаковых линейных функций от разных аргументов. Данное требование является более слабым по сравнению с требованием о возможности параллельного вычисления k произвольных линейных функций от разных аргументов. Это позволяет использовать в качестве вычислительной системы S_k не только системы с возможностью параллельного вычисления k произвольных линейных функций, но и системы, не имеющие данной возможности, но допускающие параллельное вычисление k одинаковых линейных функций.

Примером вычислительной системы S_k может являться вычислительная система с поддержкой SIMD-технологий (Single Instruction, Multiple Data - одна инструкция, несколько блоков данных). В основе SIMD-технологий лежит возможность одновременного выполнения одного и того же преобразования сразу для нескольких фрагментов данных. Таким образом, вычислительная система с поддержкой SIMD-технологий, позволяющая выполнять каждую операцию, применяющуюся при вычислении функции из L_n, одновременно для k фрагментов данных, обеспечивает возможность параллельного вычисления k одинаковых функций из L_n. При этом, в общем случае, такая система не обязана обеспечивать возможность параллельного вычисления k произвольных функций из L_n, поскольку преобразования, используемые при вычислении различных функций, могут отличаться друг от друга, что не позволит или крайне затруднит использование SIMD-технологий для одновременного вычисления этих функций.

Известен способ работы РСЛОС в конфигурации Фибоначчи (патент РФ №2598781, приоритет от 31.07.2015 г.), предусматривающий использование вспомогательных таблиц. Данный способ позволяет на каждом шаге вычислять сразу несколько новых элементов состояния РСЛОС.

Недостатком данного способа является необходимость хранения и использования таблиц, размер которых пропорционален количеству одновременно вычисляемых элементов состояния.

Известен способ работы РСЛОС в конфигурации Фибоначчи в соответствии с традиционным определением РСЛОС, приведенным выше (Алферов А.П., Зубов А.Ю., Кузьмин А.С., Черемушкин А.В. Основы криптографии. 2-е изд., М., Гелиос АРВ, 2002). Способ позволяет на каждом шаге вычислять один новый элемент состояния РСЛОС посредством вычисления одной линейной функции.

Известный способ принят за прототип.

Недостатком данного способа является неэффективное использование возможностей вычислительной системы S_k, выражающееся в том, что способ подразумевает вычисление только одной линейной функции в произвольный момент времени. В результате, производительность способа на вычислительной системе S_k не зависит от значения k, соответствующего количеству линейных функций, которые могут быть вычислены параллельно на этой системе, и равна производительности способа на вычислительной системе S₁, то есть системе без возможности осуществления параллельных вычислений.

Раскрытие изобретения

Техническим результатом является повышение производительности работы РСЛОС типа Фибоначчи при использовании вычислительной системы, позволяющей параллельно вычислять k одинаковых линейных функций от разных аргументов. При этом предлагаемый способ не требует хранения и использования вспомогательных таблиц.

Предлагаемый способ работы регистра сдвига с линейной обратной связью (РСЛОС) в вычислительной системе, заключается в том, что

• задают конечное поле Р с операцией сложения ⊕, операцией умножения ⊗, нулевым элементом θ и единичным элементом е;

• выбирают вычислительную систему, имеющую процессор с SIMD-архитектурой и выполненную с возможностью

преобразования элементов поля Р в интерпретируемый вычислительной системой вид и обратного преобразования элементов вида, интерпретируемого вычислительной системой, в элементы поля Р;

выполнения операций с преобразованными элементами поля Р, эквивалентных операциям сложения и умножения в поле Р;

• задают натуральное число n;

• задают натуральное число k, k≤n;

• задают РСЛОС в конфигурации Фибоначчи, в котором

входные и выходные элементы РСЛОС являются элементами поля Р;

количество элементов вектора состояний РСЛОС равно n;

линейная функция обратной связи РСЛОС ƒ : Pⁿ → Р имеет вид

ƒ(x_n-1, x_n-2, …, x₀) = (c_n-1 ⊗ x_n-1) ⊕ (c_n-2 ⊗ x_n-2) ⊕…⊕ (c₀ ⊗ x₀),

где c_i ∈ Р, i=0, 1, …, n-1, - константные элементы поля Р,

x_i ∈ Р, i=0, 1, …, n-1;

причем

при подаче на вход РСЛОС последовательности из n элементов

а ₀, а ₁, …, a _n-1, где a _i ∈ Р, i=0, 1, …, n-1,

начальное состояние РСЛОС, представляющее собой вектор длины n:

(q_n-1, q_n-2, …, q₀), где q_i ∈ P, i=0, 1, …, n-1,

формируется в виде:

q_i=a _i, i=0, 1, …, n-1;

в результате выполнения s-го такта работы РСЛОС, s≥1:

новым состоянием РСЛОС становится вектор длины n:

(q_n+s-1, q_n+s-2, …, q_s),

где q_n+s-1=ƒ(q_n+s-2, q_n+s-3, …, q_s-1)∈Р,

выходным элементом РСЛОС становится элемент

b_s-1=q_s-1 ∈ P;

• задают входную последовательность РСЛОС, состоящую из n элементов поля Р:

а'₀, а'₁, a'_n-1, где а'_i ∈ Р, i=0, 1, …, n-1;

• задают количество тактов работы РСЛОС - m, где m≥1, m=kν+w, где ν, w - целые неотрицательные числа, 0 ≤ w ≤ k-1;

• осуществляют m тактов работы РСЛОС, выполняя следующие действия

формируют начальное состояние РСЛОС, представляющее собой вектор длины n:

(q'_n-1, q'_n-2, …, q'_s), где q'_i ∈ P, i=0, 1, …, n-1,

в виде:

q'_i=а'_i, i=0, 1, …, n-1;

вычисляют j=0;

если ν=0, то переходят к этапу (В);

(А) вычисляют с использованием SIMD-инструкций процессора параллельно k элементов u_n+jk, u_n+jk+1, …, u_n+jk+k-1 ∈ P:

u_n+jk+t=ƒ(θ, θ, …, θ, q'_n+jk-1, q'_n+jk-2, …, q'_jk+t), t=0, 1, …, k-1;

вычисляют с использованием SIMD-инструкций процессора параллельно k элементов q'_n+jk, q'_n+jk+1, …, q'_n+jk+k-1 ∈ P:

q'_n+jk+t=g(θ, θ, …, θ, u'_n+jk, u_n+jk+1, …, u'_n+jk+t), t=0, 1, …, k-1;

где функция g : P^k → Р имеет вид

g(x_k-1, x_k-2, …, x₀) = (d_k-1 ⊗ x_k-1) ⊕ (d_k-2 ⊗ x_k-2) ⊕…⊕ (d₀ ⊗ x₀),

где d_i ∈ Р, i=0, 1, …, k-1, - константные элементы поля Р, для которых справедливо соотношение

d_i=F_n-1+i (е, θ, θ, …, θ), i=0, 1, …, k-1,

где функции F_i : Pⁿ → Р, i=0, 1, …, имеют вид

F_i(x_n-1, x_n-2, …, x₀)=x_i, i=0, 1, …, n-1;

F_i((x_n-1, x_n-2, …, x₀)=F_i-1(ƒ(x_n-1, x_n-2, …, x₀), x_n-1, x_n-2, …, x₁), i=n, n+1, …;

формируют новое состояние РСЛОС, представляющее собой вектор длины n:

(q'_n+jk+k-1,q'_n+jk+k-2, …, q'_n+jk, q'_n+jk+-1, …, q' _jk+k);

вычисляют k элементов выходной последовательности РСЛОС

b'_jk, b'_jk+1, …, b'_jk+k-1 ∈ P:

b'_i=q'_i, i=jk, jk+1, …, jk+k-1;

вычисляют j=j+1;

если j<ν, то переходят к этапу (A);

если w=0, то переходят к этапу (С);

(В) вычисляют с использованием SIMD-инструкций процессора параллельно w элементов u_n+jk, u_n+jk+1, …, u_n+jk+w-1 ∈ Р:

u_n+jk+t=ƒ(θ, θ, …, θ, q'_n+jk-1, q'_n+jk-2, …, q'_jk+t), t=0, 1, …, w-1;

вычисляют с использованием SIMD-инструкций процессора параллельно w элементов q'_n+jk, q'_n+jk+1, …, q'_n+jk+w-1 ∈ Р:

q'_n+jk+t=g(θ, θ, …, θ, u_n+jk, u_n+jk+1, …, u_n+jk+t), t=0, 1, …, w-1;

(q'_n+jk+w-1, q'_n+jk+w-2, …, q'_n+jk, q'_n+jk-1, …, q'_jk+w);

вычисляют w элементов выходной последовательности РСЛОС

b'_jk, b'_jk+1, …, b'_jk+w-1 ∈ P:

b'_i=q'_i, i=jk, jk+1, …, jk+w-1;

• (С) получают выходную последовательность РСЛОС за m тактов работы:

b'₀, b'₁, …, b'_m-1 ∈ Р.

Результат достигается за счет изменения хода вычисления элементов состояния РСЛОС с целью организации возможности их параллельного вычисления.

Рассмотрим вопросы корректности предлагаемого способа. Заметим, что процедура формирования выходных элементов РСЛОС из элементов состояния РСЛОС в предлагаемом способе идентична соответствующей процедуре в способе, выбранном в качестве прототипа. Таким образом, для обоснования корректности предлагаемого способа достаточно показать, что для одной и той же входной последовательности РСЛОС справедливы равенства:

q'_i=q_i, i=0, 1, …, n+m-1,

где q'_i - элементы состояния РСЛОС при использовании предлагаемого способа,

q_i - элементы состояния РСЛОС при использовании способа, выбранного в качестве прототипа.

Используемые в предлагаемом способе функции F_i, i=0, 1, …, определяются через композицию функций из L_n и, следовательно, сами принадлежат L_n. Это значит, что для любых x_j, y_j, c ∈ Р, j=0, 1, …, n-1, справедливы следующие тождества:

Кроме того, для любых q_n+s-1, q_n+s-2, …, q_s ∈ P - элементов состояния РСЛОС при использовании способа, выбранного в качестве прототипа, и любых неотрицательных целочисленных значений s, i, таких что i+s ≤ n+m-1, выполняется:

Заметим, что процедура формирования начального состояния РСЛОС из входных элементов РСЛОС в предлагаемом способе идентична соответствующей процедуре в способе, выбранном в качестве прототипа. Отсюда следует, что для одной и той же входной последовательности РСЛОС справедливы равенства:

q'_i=q_i, i=0, 1, …, n-1.

Примем данный факт за базу индукции. Осуществим шаг индукции, показав, что если для некоторого j, 0 ≤ j< ν, выполняется

q'_i=q_i, i=0, 1, …, n+jk-1,

то справедливы равенства:

q'_i=q_i, i=n+jk, n+jk+1, n+jk+k-1.

Для этого заметим, что любого t=0, 1, …, k-1 выполняется:

Первое слагаемое данной суммы можно представить в виде

Прибавляя к полученному значению второе слагаемое, имеем

Прибавляя к полученному значению третье слагаемое, имеем

Действуя аналогичным образом, на этапе прибавления последнего слагаемого получаем:

Таким образом, для любого t=0, 1, …, k-1:

q'_n+jk+t=q_n+jk+t,

то есть

q'_i=q_i, i=n+jk, n+jk+1, …, n+jk+k-1.

Последовательно осуществляя приведенный шаг индукции для всех j, 0 ≤ j ≤ ν, получаем, что

q'_i=q_i, i=0, 1, …, n+νk-1.

Обоснование равенства оставшихся w элементов состояния РСЛОС

q'_i=q_i, i=n+νk, n+ν+1, …, n+νk+w-1.

выполняется аналогично очередному шагу индукции с тем отличием, что вместо k элементов состояния рассматриваются w элементов состояния.

В результате имеем, что все элементы состояния, получающиеся в процессе работы РСЛОС при использовании предлагаемого способа, равны соответствующим элементам состояния, получающимся в процессе работы РСЛОС при использовании способа, выбранного в качестве прототипа. С учетом идентичности алгоритмов вычисления выходных значений из элементов состояния в рассматриваемых способах, это доказывает корректность предлагаемого способа работы РСЛОС.

Рассмотрим вопросы эффективности предлагаемого способа.

Выберем вычислительную систему, выполненную с возможностью для любой линейной функции h∈L_n и любых элементов x_r,i ∈ P, r=0, 1, k-1,

i=0, 1, n-1, осуществлять параллельное вычисление k значений

h(x_{0, n-1}, x_{0, n-2}, …, x_{0, 0}), h(x_{1, n-1}, x_{1, n-2}, …, x_{1, 0}), …h(x_k-1,n-1, x_{k-1, n-2}, …, x_{k-1, 0}),

где k - натуральное число.

Возможность параллельного вычисления k функций h подразумевает, что для любого р, 1 ≤ р ≤ k, время параллельного вычисления р функций h равно времени вычисления одной функции h. Обозначим это время через Т. Необходимо отметить, что описанная вычислительная система, в том числе, позволяет осуществлять параллельное вычисление k функций h^* ∈ L_s, 1 ≤ s ≤ n-1, ввиду возможности представления функции h^* как функции из L_n путем добавления n-s несущественных переменных.

Оценим время выполнения m последовательных тактов работы РСЛОС, m ≥ 1, на данной вычислительной системе в случае использования способа, выбранного в качестве прототипа, и в случае использования предлагаемого способа. При использовании способа, выбранного в качестве прототипа, данное время составит

T_old=mT,

поскольку в этом случае выполнение каждого такта работы РСЛОС потребует одного вычисления функции ƒ.

При использовании предлагаемого способа рассмотрим три возможных варианта значений параметров:

• k=1;

• k ≥ 2, w=1;

• k ≥ 2, w≠1,

где m=kν+w.

При k=1 время выполнения m последовательных тактов работы РСЛОС составит

поскольку в этом случае для вычисления каждого нового элемента состояния РСЛОС согласно предлагаемому способу достаточно одного вычисления функции ƒ:

q'_n+jk = g(θ, θ, …, θ, u_n+jk) = d₀ ⊗ u_n+jk = u_n+jk = ƒ(q'_n+jk-1, q'_n+jk-2, …, q'_jk),

так как d₀=F_n-1(е, θ, θ, …, θ)=е.

При k ≥ 2, w=1 время выполнения m последовательных тактов работы РСЛОС составит:

поскольку в этом случае для вычисления последнего элемента состояния РСЛОС согласно предлагаемому способу достаточно одного вычисления функции ƒ:

а для вычисления остальных элементов состояния потребуется вычисление функций ƒ и g на каждые k элементов. В результате, при k ≥ 2, w=1:

При k ≥ 2, w ≠ 1 время выполнения m последовательных тактов работы РСЛОС составит:

поскольку для вычисления каждых k элементов состояния (w элементов состояния на последнем шаге) потребуется вычисление функций ƒ и g. Причем, если w=0, то

В случае же w ≥ 2, имеем

Таким образом, производительность предлагаемого способа больше или равна производительности способа, выбранного в качестве прототипа во всех трех рассмотренных случаях. Более того, при k ≥ 2 и достаточно больших значениях m предлагаемый способ позволяет увеличить производительность работы РСЛОС приблизительно в

раз по сравнению со способом, выбранным в качестве прототипа.

На практике весьма вероятна ситуация, при которой вычисление линейной функции g, зависящей от k аргументов, k ≤ n, может оказаться быстрее вычисления линейной функции ƒ, зависящей от n аргументов. В этом случае разница в производительности способов лишь увеличится.

Обозначим время вычисления функции от k переменных через T_k, а время вычисления функции от n переменных через T_n, T_k ≤ T_n.

Рассмотрим в данных обозначениях третий вариант значений параметров: k ≥ 2, w ≠ 1, как наиболее общий из всех. В этом случае время выполнения m последовательных тактов работы РСЛОС, m ≥ 1,

• при использовании способа, выбранного в качестве прототипа, составит

• при использовании предлагаемого способа составит:

Таким образом, при k ≥ 2 и достаточно больших значениях m производительность предлагаемого способа превысит производительность способа, выбранного в качестве прототипа, приблизительно в

раз.

Сделаем еще одно практическое предположение о том, что T_k/T_n=k/n. Тогда отношение производительностей способов примет следующий вид:

Рассмотрим несколько вариантов значений k и соответствующих значений отношения производительности способов:

• при k ≤ n:

• при k=n/t, где t - натуральное число:

• при k=n:

В рамках сделанных предположений, производительность предлагаемого способа превысит производительность способа, выбранного в качестве прототипа, в приблизительно от k/2 до k раз. При этом эффективность повышения производительности будет определяться тем, насколько близко значение k к значению n:

Осуществление изобретения

Рассмотрим пример реализации предлагаемого способа.

Предлагаемый способ может быть реализован в виде прикладной программы, предназначенной для выполнения на вычислительной системе. В качестве вычислительной системы может использоваться компьютер с процессором, поддерживающим SIMD-вычисления, например, процессор Intel Core i7-2600 с поддержкой SSE-инструкций (Streaming SIMD Extensions) [статья по адресу: https://ark.intel.com/content/www/ru/ru/ark/products/52213/intel-core-i7-2600-processor-8m-cache-up-to-3-80-ghz.html].

Прикладная программа, реализующая работу РСЛОС в конфигурации Фибоначчи согласно предлагаемому способу, может быть составлена специалистом по программированию (программистом).

Рассмотрим поле Р с операциями умножения ⊗ и сложения ⊕, состоящее из 16 элементов и заданное над неприводимым многочленом Х⁴ ⊕ Х ⊕ 1, X ∈ {0, 1}: Р = GF(2⁴) = GF(2)[X] / (X⁴ ⊕ X ⊕ 1). Для удобства записи будем обозначать элементы поля Р целыми числами, предполагая, что элементу поля (z₃ ⊗ X³) ⊕ (z₂ ⊗ X²) ⊕ (z₁ ⊗ X) ⊕ z₀ ∈ Р, z_i ∈ {0, 1}, i=0, 1, 2, 3, соответствует целое число z₃ ⋅2³+z₂ ⋅2²+z₁ ⋅2+z₀ ∈ Z.

Для возможности представления элементов поля Р в виде, интерпретируемом вычислительной системой, можно использовать взаимно однозначное преобразование элементов поля в двоичные строки, которое сопоставляет элементу поля (z₃ ⊗ X³) ⊕ (z₂ ⊗ X²) ⊕ (z₁ ⊗ X) ⊕ z₀ ∈ Р, z_i ∈{0, 1}, i=0, 1, 2, 3, двоичную строку

, где V_s - множество всех двоичных строк длины s,

- операция конкатенации двоичных строк.

Для реализации на вычислительной системе операции сложения в поле Р можно использовать SSE-инструкцию «pxor», предназначенную для выполнения побитовой операции «исключающее ИЛИ» двух двоичных строк длиной 128. Для реализации на вычислительной системе операции умножения в поле Р можно использовать, например, классический алгоритм умножения в столбик без переноса значимого бита с последующим приведением результата умножения по модулю поля X⁴ ⊕ X ⊕ 1, или алгоритм, основанный на табличном задании результатов умножения и осуществлении поиска по этим таблицам. В первом случае можно использовать SSE-инструкции «pxor», «pand», предназначенные для выполнения побитовых операций «исключающее ИЛИ», «И» двух двоичных строк длиной 128, и SSE-инструкции «psrlw», «psllw», предназначенные для выполнения битовых сдвигов двоичных строк длиной 128 вправо и влево. Во втором случае можно использовать SSE-инструкцию «pshufb», предназначенную для осуществления поиска по заранее вычисленным таблицам.

Зададим значения параметров n=8 и k=4.

Вычисление значения h(x₇, x₆, …, x₀), где h ∈ L₈ - произвольная линейная функция вида:

h(x₇, x₆, …, x₀) = (h₇ ⊗ x₇) ⊕ (h₆ ⊗ x₆) ⊕ … ⊕ (h₀ ⊗ x₀),

h_i, x_i ∈ Р, i=0, 1, …, 7,

на вычислительной системе можно осуществлять с использованием упомянутых выше реализаций операций сложения и умножения в поле Р посредством SSE-инструкций. Параллельное вычисление четырех значений h(x_{0, 7}, x_{0, 6}, …, x_0, ₀), h(x_{1, 7}, x_{1, 6}, …, x_{1, 0}), …, h(х_{3, 7}, х_{3, 6}, …, х_{3, 0}), где x_{r, i} ∈ P, r=0, 1, 2, 3, i=0, 1, …, 7, на вычислительной системе можно осуществлять аналогично вычислению одного значения h(x₇, x₆, …, x₀) с предварительной группировкой элементов x_{0, i}, x_{1, i}, x_{2, i}, x_{3, i} на одном 128-битном SSE-регистре с целью одновременного выполнения операций, требуемых при вычислении функции h, сразу для четырех этих элементов.

Рассмотрим РСЛОС в конфигурации Фибоначчи, входные и выходные элементы которого принадлежат конечному полю Р, а линейная функция обратной связи ƒ:Р⁸ →Р задается в виде

Заданные РСЛОС и значение k однозначно определяют функцию g:Р⁴ →Р:

где элементы d_i ∈ P, i=0, 1, …, 3, вычисляются следующим образом

d₀ = F₇(1, 0, 0, …, 0) = 1,

d₁ = F₈(1, 0, 0, …, 0) = F₇(ƒ(1, 0, 0, …, 0), 1, 0, 0, 0) = ƒ(1, 0, 0, …, 0) = 8 ⊗ 1 = 8,

d₂ = F₉(1, 0, 0, …, 0) = F₈(ƒ(1, 0, 0, …, 0), 1, 0, 0, …, 0) = F₈(8, 1, 0, 0, …, 0) = F₇(ƒ(8, 1, 0, 0, …, 0), 8, 1, 0, 0, …, 0) = ƒ(8, 1, 0, 0, …, 0) = (8 ⊗ 8) ⊕ (1 ⊗ 1) = 12 ⊕ 1 = 13,

d₃ = F₁₀(1, 0, 0, …, 0) = F₉(ƒ(1, 0, 0, …, 0), 1, 0, 0, …, 0) = F₉(8, 1, 0, 0, …, 0) = F₈(ƒ(8, 1, 0, 0, …, 0), 8, 1, 0, 0, …, 0) = F₈ (13, 8, 1, 0, 0, …, 0) = = F₇ (ƒ(13, 8, 1, 0, 0…, 0), 13, 8, 1, 0, 0, …, 0) = ƒ(13, 8, 1, 0, 0, …, 0) = (8 ⊗ 13) ⊕ (1 ⊗ 8) ⊕ (10 ⊗ 1) = 2 ⊕ 8 ⊕ 10 = 0.

Зададим входную последовательность РСЛОС, состоящую из 8 элементов а'₀, а'₁, …, а'₇, где а'_i ∈ Р, i=0, 1, …, 7:

а'₀=0, а'₁=2, a'₂=4, a'₃=6,

а'₄=9, а'₅=11, а'₆=13, а'₇=15.

Зададим количество тактов работы РСЛОС m=11. Тогда m=kν+w=4⋅2+3, то есть ν=2, w=3.

Осуществим 11 тактов работы РСЛОС, для чего выполним следующие действия:

• сформируем начальное состояние РСЛОС, представляющее собой вектор длины 8:

(q'₇, q'₆, …, q'₀), где q'_i ∈ Р, i=0, 1, …, 7,

в виде

(q'₇, q'₆, …, q'₀) = (а'₇, а'₆, …, а'₀) = (15, 13, 11, 9, 6, 4, 2, 0);

• вычислим j=0; поскольку ν=2 ≠ 0, то

вычислим с помощью SIMD-инструкций параллельно 4 элемента

u₈, u₉, u₁₁, ∈ P:

u₈ = ƒ(q'₇, q'₆, …, q'₀) = ƒ(15, 13, 11, 9, 6, 4, 2, 0) = 0,

u₉ = ƒ(0, q'₇, q'₆, …, q'₁) = ƒ(0, 15, 13, 11, 9, 6, 4, 2) = 2,

u₁₀ = ƒ(0, 0, q'₇, q'₆, …, q'₂) = ƒ(0, 0, 15, 13, 11, 9, 6, 4) = 3,

u₁₁ = ƒ(0, 0, 0, q'₇, q'₆, …, q'₀) = ƒ(0, 0, 0, 15, 13, 11, 9, 6) = 6;

q'₈, q'₉, q'₁₀, q'₁₁, ∈ P

q'₈ = g(0, 0, 0, u₈) = g(0, 0, 0, 0) = 0,

q'₉ = g(0, 0, u₈, u₉) = g(0, 0, 0, 2) = 2,

q'₁₀ = g(0, u₈, u₉, u₁₀) = g(0, 0, 2, 3) = 0,

q'₁₁ = g(u₈, u₉, u₁₀, u₁₁) = g(0, 2, 3, 6) = 4;

сформируем новое состояние РСЛОС, представляющее собой вектор длины 8:

(q'₁₁, q'₁₀, …, q'₈, q'₇, q'₄) = (4, 0, 2, 0, 15, 13, 11, 9);

вычислим 4 выходных элемента РСЛОС b'₀, b'₁, b'₂, b'₃ ∈ P:

b'₀=q'₀=0, b'₁=q'₁=2, b'₂=q'₂=4, b'₃=q'₃=6;

• вычислим j=j+1=1; поскольку j=1<2=ν, то

вычислим с помощью SSE-инструкций параллельно 4 элемента

u₁₂, u₁₃, u₁₄, u₁₅ ∈ P:

u₁₂ = ƒ(q'₁₁, q'₁₀, …, q'₄) = ƒ(4, 0, 2, 0, 15, 13, 11, 9) = 7,

u₁₃ = ƒ(0, q'₁₁, q'₁₀, …, q'₅) = ƒ(0, 4, 0, 2, 0, 15, 13, 11) = 10,

u₁₁ = ƒ(0, 0, q'₁₁, q'₁₀, …, q'₆) = ƒ(0, 0, 4, 0, 2, 0, 15, 13) = 5,

u₁₅ = ƒ(0 , 0, 0, q'₁₁, q'₁₀, …, q'₇) = ƒ(0, 0, 0, 4, 0, 2, 0, 15) = 13;

q'₁₂, q'₁₃, q'₁₄, q'₁₅, ∈ P

q'₁₂ = g(0, 0, 0, u₁₂) = g(0, 0, 0, 7) = 7,

q'₁₃ = g(0, 0, u₁₂, u₁₃) = g(0, 0, 7, 10) = 7,

q'₁₄ = g(0, u₁₂, u₁₃, u₁₄) = g(0, 7, 10, 5) = 15,

q'₁₅ = g(u₁₂, u₁₃, u₁₄, u₁₅) = g(7, 10, 5, 13) = 8;

(q'₁₅, q'₁₄, …, q'₁₂, q'₁₁, …, q'₈) = (8, 15, 7, 7, 4, 0, 2, 0);

вычислим 4 выходных элемента РСЛОС b'₄, b'₅, b'₆, b'₇ ∈ P:

b'₄=q'₄=9, b'₅=q'₅=11, b'₆=q'₆=13, b'₇=q'₇=15;

• вычислим j=j+1=2; поскольку j=2 ≥ 2=ν, то проверим равенство w=0; поскольку w=3 ≠ 0, то

вычислим с помощью SSE-инструкций параллельно 3 элемента

u₁₆, u₁₇, u₁₈ ∈ P:

u₁₆ = ƒ(q'₁₅, q'₁₄, …, q'₈) = ƒ(8, 15, 7, 7, 4, 0, 2, 0) = 3,

u₁₇ = ƒ(0, q'₁₅, q'₁₄, …, q'₉) = ƒ(0, 8, 15, 7, 7, 4, 0, 2) = 6,

u₁₈ = ƒ(0, 0, q'₁₅, q'₁₄, …, q'₁₀) = ƒ(0, 0, 8, 15, 7, 7, 4, 0) = 10;

q'₁₂₆ q'₁₇, q'₁₈, ∈ P

q'₁₆ = g(0, 0, 0, u₁₆) = g(0, 0, 0, 3) = 3,

q'₁₇ = g(0, 0, u₁₆, u₁₇) = g(0, 0, 3, 6) = 13,

q'₁₈ = g(0, u₁₆, u₁₇, u₁₈) = g(0, 3, 6, 10) = 11;

(q'₁₈, q'₁₇, q'₁₆, q'₁₅, …, q'₁₁)=(11, 13, 3, 8, 15, 7, 7, 4);

вычислим 3 выходных элемента РСЛОС b'₈, b'₉, b'₁₀ ∈ Р:

b'₈=q'₈=0, b'₉=q'₉=2, b'₁₀=q'₁₀=0.

В результате получим выходную последовательность РСЛОС за 11 тактов работы b'₀, b'₁, …, b'₁₀ ∈Р : 0, 2, 4, 6, 9, 11, 13, 15, 0, 2, 0.

Практическое измерение производительности работы рассмотренного РСЛОС, выполненное при больших значениях m (m≈10⁷) в одном потоке одного ядра процессора Intel Core i7-2600, показало, что

• в случае осуществления работы РСЛОС согласно способу, выбранному в качестве прототипа, производительность работы РСЛОС составляет порядка 85⋅10⁶ тактов работы РСЛОС в секунду;

• в случае осуществления работы РСЛОС согласно предлагаемому способу, производительность работы РСЛОС составляет порядка 185⋅10⁶ тактов работы РСЛОС в секунду.

Таким образом, производительностей способов отличается приблизительно в 2,18 раз, что соответствует приведенным теоретическим оценкам, согласно которым предлагаемый способ позволяет увеличить производительность работы РСЛОС в приблизительно от k/2 до k раз.

Рассмотренный РСЛОС и используемые значения параметров выбраны для наглядной демонстрации работы предлагаемого способа. Следует отметить, что предлагаемый способ может быть по аналогии осуществлен и при реализации других РСЛОС в конфигурации Фибоначчи, в том числе РСЛОС, используемых на практике, например, при выработке псевдослучайных последовательностей, вычислении линейных отображений или получении множества различных значений определенной длины.

Claims

Способ работы регистра сдвига с линейной обратной связью (РСЛОС) в вычислительной системе, заключающийся в том, что
• задают конечное поле Р с операцией сложения ⊕, операцией умножения ⊗, нулевым элементом θ и единичным элементом е;
• выбирают вычислительную систему, имеющую процессор с SIMD-архитектурой и выполненную с возможностью
преобразования элементов поля Р в интерпретируемый вычислительной системой вид и обратного преобразования элементов вида, интерпретируемого вычислительной системой, в элементы поля Р;
выполнения операций с преобразованными элементами поля Р, эквивалентных операциям сложения и умножения в поле Р;
• задают натуральное число n;
• задают натуральное число k, k ≤ n;
• задают РСЛОС в конфигурации Фибоначчи, в котором
входные и выходные элементы РСЛОС являются элементами поля Р;
количество элементов вектора состояний РСЛОС равно n;
линейная функция обратной связи РСЛОС ƒ : Pⁿ → Р имеет вид
ƒ(x_n-1, x_n-2, …, х₀) = (c_n-1⊗ x_n-1) ⊕ (c_n-2⊗ x_n-2) ⊕…⊕ (c₀ ⊗ x₀),
где c_i ∈ P, i=0, 1, …, n-1, - константные элементы поля Р,
x_i ∈ P, i=0, 1 …, n-1;
причем
при подаче на вход РСЛОС последовательности из n элементов
a ₀, a ₁, …, a _n-1, где a _i ∈ P, i=0, 1, …, n-1,
начальное состояние РСЛОС, представляющее собой вектор длины n:
(q_n-1, q_n-2, …, q₀), где q_i ∈ Р, i=0, 1, …, n-1,
формируется в виде:
q_i=a _i, i=0, 1, …, n-1;
в результате выполнения s-го такта работы РСЛОС, s≥1:
новым состоянием РСЛОС становится вектор длины n:
(q_n+s-1, q_n+s-2, …, q_s),
где q_n+s-1=ƒ(q_n+s-2, q_n+s-3, …, q_s-1)∈P,
выходным элементом РСЛОС становится элемент
b_s-1=q_s-1 ∈ P;
• задают входную последовательность РСЛОС, состоящую из n элементов поля Р:
а'₀, а'₁, …, a'_n-1, где а' _i ∈Р, i=0, 1, …, n-1;
• задают количество тактов работы РСЛОС - m, где m ≥ 1, m=kν+w, где ν, w - целые неотрицательные числа, 0 ≤ w ≤ k-1;
• осуществляют m тактов работы РСЛОС, выполняя следующие действия:
формируют начальное состояние РСЛОС, представляющее собой вектор длины n:
(q'_n-1, q'_n-2, …, q'₀), где q'_i ∈ P, i=0, 1, …, n-1,
в виде:
q'_i=а'_i, i=0, 1, …, n-1;
вычисляют j=0;
если ν=0, то переходят к этапу (В);
(А) вычисляют с использованием SIMD-инструкций процессора параллельно k элементов u_n+jk, u_n+jk+1, …, u_n+jk+k-1 ∈ P:
u_n+jk+t=ƒ(θ, θ, …, θ, q'_n+jk-1, q'_n+jk-2, …, q'_jk+t), t=0, 1, …, k-1;
вычисляют с использованием SIMD-инструкций процессора параллельно k элементов q'_n+jk, q'_n+jk+1, …, q'_n+jk+k-1 ∈ P:
q'_n+jk+t=g(θ, θ, …, θ, u_n+jk, u_n+jk+1, …, u_n+jk+t), t=0, 1, …, k-1,
где функция g : P^k → Р имеет вид
g(x_k-1, x_k-2, …, x₀) = (d_k-1 ⊗ x_k-1) ⊕ (d_k-2 ⊗ x_k-2) ⊕…⊕ (d₀ ⊗ x₀),
где d_i ∈ P, i=0, 1, …, k-1, - константные элементы поля Р, для которых справедливо соотношение
d_i=F_n-1+i (е, θ, θ, …, θ), i=0, 1, …, k-1,
где функции F_i : Pⁿ → Р, i=0, 1, …, имеют вид
F_i(x_n-1, x_n-2, …, x₀)=x_i, i=0, 1, …, n-1;
F_i(x_n-1, x_n-2, …, x₀)=F_i-1(ƒ(x_n-1, x_n-2, …, x₀), x_n-1, x_n-2, …, x₁), i=n, n+1, …;
формируют новое состояние РСЛОС, представляющее собой вектор длины n:
(q'_n+jk+k-1, q'_n+jk+k-2, …, q'_n+jk, q'_n+jk-1, …, q'_jk+k);
вычисляют k элементов выходной последовательности РСЛОС
b'_jk, b'_jk+1, …, b'_jk+k-1 ∈ P:
b'_i=q'_i, i=jk, jk+1, …, jk+k-1;
вычисляют j=j+1;
если j<ν, то переходят к этапу (А);
если w=0, то переходят к этапу (С);
(В) вычисляют с использованием SIMD-инструкций процессора параллельно w элементов u_n+jk, u_n+jk+1, …, u_n+jk+w-1 ∈ Р:
u_n+jk+t=ƒ(θ, θ, …, θ, q'_n+jk-1, q'_n+jk-2,…, q'_jk+t), t=0, 1, …, w-1;
вычисляют с использованием SIMD-инструкций процессора параллельно w элементов q'_n+jk, q'_n+jk+1, …, q'_n+jk+w-1 ∈ Р:
q'_n+jk+t=g(θ, θ, …, θ, u_n+jk, u_n+jk+1, …, u_n+jk+t), t=0, 1, …, w-1;
формируют новое состояние РСЛОС, представляющее собой вектор длины n:
(q'_n+jk+w-1, q'_n+jk+w-2, …, q'_n+jk, q'_n+jk-1, …, q'_jk+w);
вычисляют w элементов выходной последовательности РСЛОС
b'_jk, b'_jk+1, …, b'_jk+w-1 ∈ P:
b'_i=q'_i, i=jk, jk+1, …, jk+w-1;
• (С) получают выходную последовательность РСЛОС за m тактов работы:
b'₀, b'₁, …, b'_m-1 ∈ Р.