WO2013051139A1

WO2013051139A1 - 有限体上の乗算方法、計算機、およびプログラム

Info

Publication number: WO2013051139A1
Application number: PCT/JP2011/073136
Authority: WO
Inventors: 恒太井手口; 渡辺　大
Original assignee: 株式会社日立製作所
Priority date: 2011-10-06
Filing date: 2011-10-06
Publication date: 2013-04-11

Abstract

　テーブル管理手段は、前記有限体の元であり一方の乗算対象である第１の元と、n番目のビットからnビット毎のm個のビットに0か1を設定し他のビットに0を設定した前記有限体の(2^m)個の元との乗算の結果である(2^m)個の第１のビット列をテーブルとして保持する。繰り返し演算手段は、前回のシフト・表参照演算の結果に前記有限体上での２倍算を行い、前記２倍算の結果と、前記有限体の元であり他方の乗算対象である第２の元に基づいて前記テーブルから選択した第１のビット列とのビット毎の排他的論理和を行うシフト・表参照演算を繰り返す。

Description

有限体上の乗算方法、計算機、およびプログラム

　本発明は、有限体GF(2^m)上の乗算を行う方法に関する。

　従来、有限体上の乗算を高速に行う方法として、事前に計算した表を参照する方法が用いられてきた。２つの値XとYの乗算を行う場合、XをX=x0||x1||...||x(n-1)とn個のmビットに分割し、Y・2^((n-1)・m)・x0+Y・2^((n-2)・m)・x1+...Y・x(n-1)を計算する。ただし、||はビット列の結合を表す。その計算に先立ってY・2^((n-1-i)・m)・xiをxiの可能な全ての値に対して事前に計算し、計算結果を表Tiに予め格納しておく。そして、Y・2^((n-1)・m)・x0+Y・2^((n-2)・m)・x1+...Y・x(k-1)を計算するときには、iについて0からn-1まで表Tiをxiで参照し、得られる値を足し合わせることで高速に計算を実行することができる。

　その場合、表Tiは|Y|×2^mビットの容量をもつ。ただし、ここで|Y|という記号はビット列Yのビット数を表すものとする。

　表Tiを参照する回数と表Tiの容量との間には、表Tiを参照する回数を多くすると表Tiの容量が大きくなり、表Tiを参照する回数を少なくすると表Tiの容量が大きくなる、という関係にある。

　上述の計算方法は、xi毎に異なる参照表Tiを用いる方法である。しかし、他の計算方法として、1種類の参照表T(n-1)のみを用いて実装する方法がある。

　1種類の参照表T(n-1)を用いる計算方法は、表T0の参照によってY・xiを得た後に、有限体上の2^m倍算を行い、これらを繰り返すというものである。この2^m倍算の計算は、mビットだけシフトするシフト演算と、表を参照して得た値をフィードバックする演算とを組み合わせることで実現できる。この計算方法ではY・xi(i=0,..,k-1)を求める際の参照表をT(n-1)の1種類にすることで、参照する表T(n-1)に必要なメモリ容量を減らしている（非特許文献１参照）。

Victor Shoup, On Fast andProvably Secure Message Authentication Based on Universal Hashing, Advances inCryptology - Proceedings of CRYPTO'96, 1996.

　しかし、非特許文献１に記載された計算方法では、mビットだけシフトするシフト処理の計算に時間がかかり、計算速度が大きく低下してしまう。そして、シフト処理の速度は、有限体の元のビット長がＣＰＵのレジスタのビット長よりも長い場合に特に顕著に低下する。このため、非特許文献１の計算方法では、高速な応答が求められる機器で要求される計算速度を達成できない可能性がある。

　本発明の目的は、有限体上の乗算を高速かつ省メモリで行う技術を提供することである。

　上記目的を達成するために、本発明の一態様による有限体上の乗算方法は、プロセッサによって有限体上の乗算を行うための、有限体上の乗算方法であって、テーブル管理手段が、前記有限体の元であり一方の乗算対象である第１の元と、n番目のビットからnビット毎のm個のビットに0か1を設定し他のビットに0を設定した前記有限体の(2^m)個の元との乗算の結果である(2^m)個の第１のビット列をテーブルとして保持する第１のステップと、繰り返し演算手段が、前回のシフト・表参照演算の結果に前記有限体上での２倍算を行い、前記２倍算の結果と、前記有限体の元であり他方の乗算対象である第２の元に基づいて前記テーブルから選択した第１のビット列とのビット毎の排他的論理和を行うシフト・表参照演算を繰り返す第２のステップと、を有している。

本実施形態において有限体上の乗算の処理を行う計算機の構成図である。本実施形態における有限体上の乗算を行う処理を示すフローチャートである。ＸからＸ’へのビット配置の変換の様子を示す図である。本実施形態における計算機２００の機能ブロック図である。図２の各ステップの説明図である。テーブルTの例図である。

　本発明を実施するための形態について図面を参照して詳細に説明する。

　図１は、本実施形態において有限体上の乗算の処理を行う計算機の構成図である。図２は、本実施形態における有限体上の乗算を行う処理を示すフローチャートである。

　本実施形態の有限体上の乗算の処理には、テーブルを生成する処理と、乗算する有限体の元のビットを入れ替える処理と、ビットシフトおよび表参照の処理とが含まれる。ここでは、テーブルを生成する処理、乗算する有限体の元のビットを入れ替える処理、およびビットシフトおよび表参照の処理をそれぞれ関数として行うものとする。テーブル生成関数、データシャッフル関数、シフト・表参照関数の順に処理を実行することで、有限体上の乗算が実現される。図２におけるステップ１０１がテーブル生成関数の処理であり、ステップ１０２がデータシャッフル関数の処理であり、ステップ１０３～１１０がシフト・表参照関数の処理である。

　テーブル生成関数は、乗算の片方の値のみに依存したテーブルを作成するものである。この変数が変更されない限り、テーブルを再び計算する必要はない。片方の値を固定し、他方の値を順次変えて乗算を繰り返すような利用態様では、最初の乗算の際に一度だけテーブル生成関数の処理を行えばよい。本実施形態では、このように片方の元を固定し、他方の元を変えていくような状況における有限体の乗算が特に効率化される。

　本実施形態においては、一例として、有限体はGF(2¹²⁸)であり、有限体の元は１２８ビットで表現され、有限体の定義多項式はf(x) = x¹²⁸ + x⁷
+ x² + x + 1であるものとする。そして、本実施形態ではGF(2¹²⁸)の２つの元XとYの乗算X・Yの計算を行うものとする。

　図１を参照すると、計算機２００は、ソフトウェアの処理を実行する３２ビットのプロセッサであるＣＰＵ（Central Processing Unit）２０１と、ソフトウェアやデータを記憶する記憶装置であるメモリ２０２と、を備える。また、ＣＰＵ２０１は、複数のレジスタ２０３と、少なくとも１つのキャリーフラグ２０４と、を備える。レジスタ２０３は３２ビットであり、キャリーフラグ２０４は１ビットである。メモリ２０２は、後述するテーブル生成方法で生成されるテーブルを格納するテーブル格納部２０５を備える。

　図４を参照すると、計算機２００は、テーブルを作成および管理するテーブル管理部４０１と、データのビット列を並び替える並び替え部４０２と、２倍算と表参照を繰り返し演算する繰り返し演算部と、を備える。

　ＣＰＵ２０１が実行可能な命令セットには、排他的論理和命令ＸＯＲ　Ａ，Ｂと、論理積命令ＡＮＤ　Ａ，Ｂと、論理和命令ＯＲ　Ａ，Ｂと、コピー命令ＣＯＰＹ　Ａ，Ｂと、が含まれる。

　排他的論理和命令ＸＯＲ　Ａ，Ｂは、２つのレジスタＡ、Ｂに格納された値に対して、ビット毎の排他的論理和を行い、その結果をＡに上書きする命令である。

　論理積命令ＡＮＤ　Ａ，Ｂは、２つのレジスタＡ、Ｂに格納された値に対して、ビット毎の論理積を行い、その結果をＡに上書きする命令である。

　論理和命令ＯＲ　Ａ，Ｂは、２つのレジスタＡ、Ｂに格納された値に対して、ビット毎の論理和を行い、その結果をＡに上書きする命令である。

　コピー命令ＣＯＰＹ　Ａ，Ｂは、Ｂの値をＡにコピーする命令である。

　さらに、ＣＰＵ２０１が実行可能な命令セットには、即値との論理積命令ＡＮＤｉ　Ａ，ＩＭＭと、即値との排他的論理和命令ＸＯＲｉ　Ａ，ＩＭＭと、が含まれる。

　即値との論理積命令ＡＮＤｉ　Ａ，ＩＭＭは、１つのレジスタＡと１つの３２ビットの即値ＩＭＭに対して、ＡとＩＭＭのビット毎の論理積を行い、その結果をＡに上書きする命令である。

　即値との排他的論理和命令ＸＯＲｉ　Ａ，ＩＭＭは、１つのレジスタＡと１つの３２ビットの即値ＩＭＭに対して、ＡとＩＭＭとのビット毎の排他的論理和を行い、その結果をＡに上書きする命令である。

　さらに、ＣＰＵ２０１が実行可能な命令セットには、１ビットシフト命令ＲＯＬ　Ａと、キャリー付き１ビットシフト命令ＲＯＬＣ　Ａと、が含まれる。

　１ビットシフト命令ＲＯＬ　Ａは、１つのレジスタＡとキャリーフラグＣに対して、Ａを１ビットだけ左にシフトし、Ａからはみ出したＡのもとの最上位ビットをＣに格納する命令である。

　キャリー付き１ビットシフト命令ＲＯＬＣ　Ａは、１つのレジスタＡとキャリーフラグＣに対して、Ａを１ビットだけ左にシフトした後にＡの最下位ビットにＣに格納されているビットを移しＡからはみ出したＡの元の最上位ビットをＣに格納する命令である。

　さらに、ＣＰＵ２０１が実行可能な命令セットには、ＳＨＲ　Ａ，ｉｍｍと、ＳＨＬ　Ａ，ｉｍｍと、ＲＯＬｉ　Ａ，ｉｍｍと、が含まれる。

　ＳＨＲ　Ａ，ｉｍｍは、１つのレジスタＡと１つの即値ｉｍｍに対して、Ａをｉｍｍビットだけ右にシフトする命令である。

　ＳＨＬ　Ａ，ｉｍｍは、１つのレジスタＡと１つの即値ｉｍｍに対して、Ａをｉｍｍだけ左にシフトする命令である。

　ＲＯＬｉ　Ａ，ｉｍｍは、１つのレジスタＡと１つの即値ｉｍｍに対して、Ａをｉｍｍだけ左に巡回シフトする命令である。

　さらに、ＣＰＵ２０１が実行可能な命令セットには、ＩＦノットキャリー命令ＩＦＮＣ　Ｍが含まれる。

　ＩＦノットキャリー命令ＩＦＮＣ　Ｍは、キャリーフラグとメモリ番地Ｍに対して、キャリーフラグが０の場合のみメモリ番地Ｍにプログラムカウンタを設定する命令である。

　さらに、ＣＰＵ２０１が実行可能な命令セットには、メモリロード命令ＬＯＡＤ　Ａ，Ｍが含まれる。

　メモリロード命令ＬＯＡＤ　Ａ，Ｍは、メモリ番地Ｍに格納されている３２ビットデータをレジスタＡにコピーする命令である。

　上述した命令のうち、ＸＯＲ，ＡＮＤ，ＯＲ，ＡＮＤｉ，ＸＯＲｉ，ＲＯＬ，ＲＯＬＣ，ＳＨＲ，ＳＨＬ，ＲＯＬｉ，ＩＦＮＣ命令はＣＰＵ２０１のＡＬＵを用いて１サイクルで実行できるものとする。また、ＬＯＡＤ命令はＣＰＵ２０１のメモリアクセスユニットを用いて１サイクルで実行できるものとする。

　次に、本実施形態の説明に用いる記法について説明する。

　bビット変数Wの各ビットは、左のビットから順にW{0}、W{1}、…、W{b-1}と記述され、W{0}が最上位ビットである。また、W{i}からW{j}までの連続するj-i+1ビットをW{i-j}と記述する。m個の要素を持つテーブルTの要素は、１番目から順にT[0],
T[1], …, T[m-1]と記述される。つまり、i番目の要素がT[i-1]と記述される。

　X・Yは、GF(2¹²⁸)の元XとYのGF(2¹²⁸)上の乗算を表す。A^Bは、３２ビットのビット列ＡとＢのビット毎排他的論理和を表す。Ａ|Ｂは、３２ビットのビット列ＡとＢのビット毎論理和を表す。Ａ&Ｂは、３２ビットのビット列ＡとＢのビット毎論理積を表す。Ａ||Ｂは、二つのビット列ＡとＢの結合を表す。Ａ<<nは、３２ビット変数Ａの左nビットシフトを表す。Ａ>>nは、３２ビット変数Ａの右nビットシフトを表す。A<<<nは、３２ビット変数Ａの左nビット巡回シフトを表す。

　２つの整数mとnに対して、m/nとm%nは、それぞれmをnで割った商と余りを表す。

　本実施形態においては、有限体の元Ｘを４つの３２ビットに分割し、それぞれがＲ０、Ｒ１、Ｒ２、Ｒ３の４つのレジスタ２０３に格納されるものとする。つまり、R0=X{0-31}、R1=X{32-63}、R2=X{64-95}、R3=X{96-127}である。

　図２を参照して、本実施形態における有限体上での元ＸとＹの乗算の処理について説明する。ここでの有限体上の乗算の利用態様として、元Ｙは比較的固定されており、元Ｘが比較的変動するものであるとする。

　テーブル管理部４０１は、テーブル格納部２０５に記憶された有限体の元Ｙに対応するテーブルが格納されているか否か判定する（ステップ１００）。元Ｙに対応するテーブルが格納されている場合、テーブル管理部４０１は格納されたテーブルを繰り返し演算部４０３に受け渡す。元Ｙに対応するテーブルが格納されていない場合、テーブル管理部４０１は、Ｙに対応するテーブルを作成して、テーブルをテーブル格納部２０５に格納し（ステップ１０１）、テーブルを繰り返し演算部４０３に受け渡す。

　ステップ１０１では、テーブル管理部４０１はＣＰＵ２０１を用いてテーブル生成関数を実行する。

　テーブル生成関数は、有限体の元Ｙを入力として、２５６バイトのテーブルＴを生成し、テーブルＴをテーブル格納部２０５に格納する関数である。テーブル生成関数のテーブルの生成方法は次の通りである。

　本実施形態においては、有限体の元が１２８ビットであり、ＣＰＵのレジスタ長が３２ビットである。そのため、１２８ビット値が格納される１つのテーブルＴを、プログラム上では、テーブルＴ＿０、Ｔ＿１、Ｔ＿２、Ｔ＿３という３２ビットの４枚のテーブルに分割して持つことになる。分割されたＴ＿ｉを以下では小テーブルと呼ぶことにする。

　小テーブルはそれぞれ４ビット入力３２ビット出力のテーブルであり、つまり、それぞれの小テーブルは１６個の４バイトの要素からなる。従って、各小テーブルはデータ量が６４バイトであり、テーブルＴのデータ量は４つの小テーブルの合計で２５６バイトとなる。

　小テーブルのi番目の要素は、インデックスi-1で指定される。つまり、Ｔ＿０のi番目の要素はT_0[i-1]と記述される。他のテーブルに関しても同様である。各小テーブルのi番目の要素をT_0[i-1],
T_1[i-1], T_2[i-1], T_3[i-1]の順で結合した１２８ビットがテーブルＴのi番目の要素T[i-1]である。つまりT_0[i] = T[i]{0-31}、T_1[i] = T[i]{32-63}、T_2[i]
= T[i]{64-95}、T_3[i] = T[i]{96-127}である。

　ここで、T[i]は以下のように定義される。
T[i] =
Y・g(i)

　ただし、ここで、ｉは０から１５の整数である。iを４ビットで表した場合、ｇは４ビットの値ｉから１２８ビットの値への写像であり、以下のように定義される。

g(i){32*j+31} = i{j} j=0,1,2,3
g(i){j} = 0, j:それ以外

　ただし、ここでg(i){j}およびi{j}は、それぞれg(i)およびiの左からj+1番目のビットである。

　g(i)の32*j+31+1番目のビットには、iの各ビットの有意な値(0または1)がそれぞれ設定され、g(i)のそれ以外のビットには固定的に0が設定されている。このようなg(i)とYとの乗算結果をテーブルTに保持し、そのTの出力を用いることにより、有限体上の乗算を２倍算によって実行することが可能になる。G(i)とYの乗算を行う方法は特に限定されない。また、テーブルTは、メモリ上の一連の領域にiをオフセットとして格納され、iによって参照することができる。図５の(a)は、T[i]の計算を説明する図である。テーブルTの一例として、Y= 0x111bef395a787fa57ce604911142c307とした場合のテーブルが図６に記載してある。

　なお、ステップ１０１で作成された有限体の元Ｙに対するテーブルはテーブル格納部２０５に格納されるため、同じ値の元Ｙに対応するテーブルが再び必要になった場合、ＣＰＵ２０１は、ステップ１０１に進まず、直接ステップ１０２に進めばよい。つまり、一方の乗算対象である有限体の元Ｙを変更せずに、他方の乗算対象である複数の有限体の元Ｘに対して、ＸとＹの乗算を行う場合、テーブル生成関数は最初の乗算の際にのみ実行すればよく、二度目以降の乗算の際には、テーブル生成関数の実行は省略できる。

　本実施形態において、二度目以降の乗算は特に高速になる。ただし、従来の方法でも二度目以降の乗算は一度目よりも高速になる。従って、本実施形態による計算速度の高速化の効果は、後述において、本実施形態と従来方法とで二度目以降の乗算の速度を比較して検証することにする。

　次にステップ１０２で行うデータシャッフル関数について説明する。ステップ１０２は、並び替え部４０２がＸを取得し、データシャッフル関数でＸをＸ´に変換するステップである。

　データシャッフル関数は、１２８ビットの値Ｘを入力としてとり、１２８ビットの値Ｘ’を出力する関数である。図３は、ＸからＸ’へのビット配置の変換の様子を示す図である。Ｘをビット数が３２である４個の部分に区切り、各部分のそれぞれの同一位置にあるビットを集めると、Ｘ’になる。

　Ｘ’は、Ｘのビットの配置を図３のように入れ替えたものであり、Ｘ’、Ｘのｊビット目をそれぞれX'{j-1}、X{j-1}とすると、
X'{j} = X{(j%4)*32+j/4} (1)
と表わされる。

　データシャッフル関数を、計算機２００で計算する場合は、例えば以下のように計算できる。ただし、Xは４つの３２ビット変数X0,
X1, X2, X3に分割され、X=X0||X1||X2||X3であるものとする。まず、X0, X1, X2, X3から４つの３２ビットの中間変数S0, S1, S2, S3を計算する。
S0 =
(X0&0xff00ff00)|((X1&0xff00ff00)>>8),
S1 =
((X0&0x00ff00ff)<<8)|(X1&0x00ff00ff),
S2 =
((X2&0xff00ff00)<<<16)|((X3&0xff00ff00)<<<8),
S3 =
((X2&0x00ff00ff)<<<24)|((X3&0x00ff00ff)<<<16).

　さらに、S0, S1, S2, S3から４つの３２ビットの中間変数U0, U1, U2, U3を計算する。
U0 =
(S0&0xffff0000)|(S2&0x0000ffff),
U1 =
(S1&0xffff0000)|(S3&0x0000ffff),
U2 =
(S0<<16)|(S2>>16),
U3 =
(S1<<16)|(S3>>16).

　計算前にはX0, X1, X2, X3が、ＣＰＵ２０１の備える４つのレジスタ２０３であるR0, R1, R2, R3にそれぞれ保持されている。ＣＰＵ２０１の実行可能な命令を用いて、S0, S1, S2, S3を計算し、さらに、U0, U1, U2, U3を計算する。計算後には、４つのレジスタ２０３にはU0, U1, U2, U3が格納されている。

　ここでは、この計算の過程で中間値や結果をメモリ２０２に退避する必要がないだけの十分な数のレジスタ２０３をＣＰＵ２０１が備えているものとする。そうであれば、計算機２００のＣＰＵ２０１が実行可能な命令を用いることにより、３８命令でデータシャフルの計算を終えることができる。たとえば、ＣＰＵ２０１のレジスタ２０３の数が１６であれば、メモリ退避は不要である。

　次に、ＣＰＵ２０１は、各U0, U1, U2, U3に対して以下の計算を行う。
V = (Ui ^ (Ui>>4))&0x00f000f0;
Ui = Ui ^ V ^ (V<<4);
V = (Ui ^
(Ui>>1))&0x22222222; Ui = Ui ^ V ^ (V<<1);
V = (Ui ^
(Ui>>2))&0x0c0c0c0c; Ui = Ui ^ V ^ (V<<2);
V = (Ui ^ (Ui>>1))&0x22222222;
Ui = Ui ^ V ^ (V<<1);
V = (Ui ^
(Ui>>14))&0x0000cccc; Ui = Ui ^ V ^ (V<<14);
V = (Ui ^
(Ui>>8))&0x0000ff00; Ui = Ui ^ V ^ (V<<8);

　以上の計算で得られるUi(i=0,1,2,3)を結合すると、X'が得られる。つまり、X'=U0||U1||U2||U3である。このX'は前記式(1)を満たすものになっている。先ほどと同様にメモリ退避が必要ないだけ数のレジスタ２０３をＣＰＵ２０１が備えていれば、この計算は、計算機２００が実行可能な命令を用いて、１７６命令で実行できる。たとえば、レジスタ数が１６であれば、メモリ退避は不要である。

　従って、データシャッフル関数は、計算機２００を用いることで、３８＋１７６＝２１４命令で実行できる。

　なお、上述した最終行の２つの式V=(Ui^(Ui>>8))&0x0000ff00;
Ui=Ui^V^(V<<8);の計算は行わなくても、Uiは、後述するx'jを結合した形となる。具体的には、Ui =
x'(8*i)||x'(8*i+1)||x'(8*i+4)||x'(8*i+5)||x'(8*i+2)||x'(8*i+3)||x'(8*i+6)||x'(8*i+7)となる。よって、後述する表参照の処理の際、Uiからx'jを取り出すときに、この形に合うように取り出せば、このUiによって乗算が実行できる。この場合、データシャッフル関数の実行にかかる命令数は２１４命令から１８６命令に減る。

　次に、ステップ１０３～１１０で実行するシフト・表参照関数について説明する。ステップ１０３～１１０は、繰り返し演算部４０３がＺを取得し、以下に説明する演算でＺを変換し、変換されたＺを出力するステップである。

　シフト・表参照関数は、ステップ１０２で求められた１２８ビット値Ｘ’とテーブル格納部２０５にあるテーブルＴとを入力とし、それらに基づいて得られる１２８ビット値Ｚを出力する関数である。ＺはＺ＝Ｘ・Ｙであり、乗算の計算結果である。

　シフト・表参照関数の処理は以下の手順からなる。

　繰り返し演算部４０３は、取得したＸ’を左から４ビット毎に３２個に分割する（ステップ１０３）。つまり、Ｘ’＝ｘ’０｜｜ｘ’１｜｜…｜｜ｘ’３１であり、x'iは４ビット変数とする。図５の(b)は、Ｘ’からｘ’ｉへの分割の様子を示す図である。

　続いて、繰り返し演算部４０３は、初期値としてＺ＝０およびｉ＝０を設定し（ステップ１０４）、次のループ処理に進む。

　ループ処理において、繰り返し演算部４０３は、まずＺをＧＦ（２^１２８）上で２倍する（ステップ１０５）。図５の(c)は、ステップ１０５のＺの２倍算の様子を図示したものである。続いて、ｘ’ｉによってテーブルＴを参照し、テーブルＴから得られる参照結果をｔとおく（ｔ＝Ｔ[ｘ’ｉ]）（ステップ１０６）。図５の(d)はステップ１０６のテーブル参照の様子を図示したものである。更に、Ｚとｔとの排他的論理和を求め、その結果を新たにＺとする（ステップ１０７）。図５の(e)はステップ１０７の排他的論理和の様子を図示したものである。

　ここで、繰り返し演算部４０３は、はｉを１だけインクリメントし（ステップ１０８）、ｉが３２に達しているか否か判定する（ステップ１０９）。ｉが３２に達していなければ、ＣＰＵ２０１はステップ１０５に戻ってループ処理を繰り返す。ｉが３２に達していれば、ＣＰＵ２０１はループを抜けてステップ１１０に進む。そして、ループから抜けたときのＺを乗算の結果として出力する（ステップ１１０）。

　以上説明した処理から分かるとおり、ステップ１０５から１０９のループ処理のループ回数は３２回である。ただし、ｉ＝０のときには、Ｚ＝０であり、２倍算しても２・Ｚ＝０である。そのため、ステップ１０５とステップ１０７は行う必要がない。従って、ループにおいてｉ＝０のときにはステップ１０５とステップ１０７を省略してもよい。

　１２８ビット変数Ｚが４つの３２ビット変数Ｚ０，Ｚ１，Ｚ２，Ｚ３に分割され、Z = Z0||Z1||Z2||Z3と表わされる場合、ステップ１０５におけるGF(2¹²⁸)上での２倍算は疑似コードであらわすと、
tmp = Z0>>31;
Z0 =
(Z0<<1)|(Z1>>31);
Z1 =
(Z1<<1)|(Z2>>31);
Z2 =
(Z2<<1)|(Z3>>31);
if(tmp==1)
　then
Z3 = (Z3<<1) ^ 0x0000008b;
　else
Z3 = (Z3<<1);
と記述できる。ただし、0x0000008bは、上記の定義多項式から求まるフィードバックのビット列である。このビット列をフィードバックすることにより、２倍算の結果がGF(2¹²⁸)の元として表現される。

　この２倍算の疑似コードは、計算機２００を用いると以下のように６命令で実装できる。ただし、Ｚ０はレジスタＲ０に格納され、Ｚ１はレジスタＲ１に格納され、Ｚ２はレジスタＲ２に格納され、Ｚ３はレジスタＲ３に格納されているとする。

START of CALC.
ROL R3
ROLC R2
ROLC R1
ROLC R0
IFNC .L0
XORi R3, 0x0000008b
.L0:
END of CALC.

　本実施形態では２倍算を行えばよいので、キャリー付き１ビットシフト演算命令ＲＯＬＣ　Ａを用いて効率良く処理を実行できる。これに対して従来のように、例えば１６倍算であれば、４ビットのシフトが必要なので、あふれる桁の値をキャリーではなく別のレジスタに格納し、その後にレジスタ同士の値を加算するという処理が必要になる。すなわち本発明はＸからＸ’に並び替え、２倍算と４ビットずつの表参照を繰り返し演算することで、従来と同じループ数で計算できる。その結果、従来より高速で計算することが可能である。

　なお、ＣＰＵ２０１の命令において、XORiがXORに比べて実行時間が遅い場合、0x0000008bを利用していないレジスタに格納してXOR命令を用いてもよい。ただし、その場合、シフト・表参照関数を１回実行する毎に、１回のメモリアクセス命令が余分に必要となる。

　ステップ１０６における、ｘ’ｉによるテーブルＴの参照は、ｔがt=t0||t1||t2||t3と４つの３２ビット変数t0, t1, t2, t3に分割されているとして、疑似コードで表わすと、
x'i =
(X'j>>k)&0x0000000f;
t0 = T_0[x'i];
t1 = T_1[x'i];
t2 = T_2[x'i];
t3 = T_3[x'i];
と記述できる。ただし、x'iはX'jの左から(28-k)ビット目から始まる４ビットであるとする。メモリ退避が必要ないだけの数のレジスタがあるとすれば、この疑似コードは、計算機２００を用いて２回のALU命令と４回のメモリアクセス命令とで実行できる。例えば、レジスタ数が１６であれば、メモリ退避は不要である。

　ステップ１０７における、Ｚとｔの排他的論理和は、
Z0 = Z0^t0;
Z1 = Z1^t1;
Z2 = Z2^t2;
Z3 = Z3^t3;
と疑似コードで記述できる。メモリ退避が必要ないだけの数のレジスタがあるとすれば、この疑似コードは、計算機２００を用いて４回のＡＬＵ命令で実行できる。例えば、レジスタ数が１６であればメモリ退避は不要である。

　なお、ステップ１０４とステップ１０８とステップ１０９での変数ｉに関する処理は３２回のループを実現するための処理である。実装において、ループ処理をアンロールすれば、これらの処理が不要となるので、プログラム実行時間としてはそれだけ削減することができる。

　以下、本実施形態による有限体上の乗算における高速化の効果について検証する。

　本実施形態では、シフト・表参照関数において、２倍算が３１回、テーブルＴの参照が３２回、Ｚとｔの排他的論理和が３１回だけ繰り返される。従って、シフト・表参照関数は、６×３１＋２×３２＋４×３１＝３７４ＡＬＵ命令と、４×３２＝１２８メモリアクセス命令とで実行できる。

　従って、本実施形態によると、Ｙに対するテーブルがテーブル格納部２０５にすでに格納されている状況において、計算機２００によってＸ・Ｙを計算するのに、２１４＋３７４＝５８８ＡＬＵ命令と１２８メモリアクセス命令が必要ということになる。

　なお、前述したように、データシャッフル関数で最後の２つの式の処理を省略した場合、データシャッフル関数の命令数は、２１４ＡＬＵ命令から１８６ＡＬＵ命令に削減される。この場合、本実施形態による有限体上の乗算は、１８６＋３７４＝５６０ＡＬＵ命令と１２８メモリアクセス命令とで実行できるものとなる。

　本実施形態との比較のために、従来の方法での有限体上の乗算について検討する。

　従来の有限体上の乗算の計算方法は、従来のテーブル生成関数と、従来のシフト・表参照関数とからなる。まず、従来のテーブル生成関数が実行され、次に、従来のシフト・表参照関数が実行される。

　本実施形態と同様に、従来のテーブル生成関数は乗算の片方の変数のみに依存したテーブルを作成するものである。この変数が変更されない限り、テーブルを再び計算する必要はないので、計算は最初の乗算の際に一度だけ行えばよい。

　従来のシフト・表参照関数は、処理量としては、本実施形態におけるシフト・表参照関数における２倍算を１６倍算に置き換えたものに相当する。

　ＧＦ（２＾１２８）上での１６倍算は疑似コードであらわすと、
tmp = Z0>>28;
Z0 =
(Z0<<4)|(Z1>>28);
Z1 =
(Z1<<4)|(Z2>>28);
Z2 = (Z2<<4)|(Z3>>28);
Z3 = (Z3<<4) ^ FBTBL[tmp];
と記述できる。ただし、FBTBLは１６ビットまたは３２ビットの要素１６個からなるテーブルである。このFBTBLは、シフトによりはみ出す最上位４ビットを入力としてとり、その４ビットに対して定義多項式から得られるフィードバックの値を返すテーブルである。

　この疑似コードは、メモリ退避が必要ないだけの数のレジスタがあるとすれば、計算機２００を用いて、以下のようにＡＬＵ１６命令とメモリアクセス１命令とで実行できる。ただし、Ｚ０はレジスタＲ０に格納され、Ｚ１はレジスタＲ１に格納され、Ｚ２はレジスタＲ２に格納され、Ｚ３はレジスタＲ３に格納されているとする。レジスタＲ４，Ｒ５，Ｒ６，Ｒ７は中間値を格納するために用いられている。
START of CALC.
COPY R4, R0
COPY R5, R1
COPY R6, R2
COPY R7, R3
SHL R0, 4
SHR R4, 28
SHL R1, 4
SHR R5, 28
SHL R2, 4
SHR R6, 28
SHL R3, 4
SHR R7, 28
OR R0, R5
OR R1, R6
OR R2, R7
LOAD R4, FBTBL[R4]
XOR R3, R4
END of CALC.

　以上より、従来のシフト・表参照関数では、１６倍算が３１回、テーブルＴでの参照が３２回、Ｚとｔの排他的論理和が３１回だけ繰り返される。従って、シフト・表参照関数は１６×３１＋２×３２＋４×３１＝６８４ＡＬＵ命令と１×３１＋４×３２＝１５９メモリアクセス命令とで実行できるということになる。

　従って、従来の方法を用いて、Ｙに対するテーブルがテーブル格納部２０５にすでに格納されている状況において、計算機２００でＸ・Ｙを計算するには、６８４ＡＬＵ命令と１５９メモリアクセス命令が必要ということになる。

　これら本実施形態と従来の方法とを比べると、本実施形態によれば従来の方法よりも命令数を約２０％削減されると言える。さらに本実施形態では、FBTBLが必要ないため、その分のメモリ量３２バイトまたは６４バイトも削減できる。

　なお、本実施形態による高速化の効果をモデルによって検証するために、ＣＰＵ２０１の備える命令とその実行時間について仮定を行ったが、これ以外のモデルのＣＰＵを用いた場合にも本発明を適用することはできる。

　また、本実施形態では、有限体は１２８ビットの大きさであり、表参照は４ビット毎に行うものとした例を示した。しかし、本発明がこの組み合わせに限定されることは無い。例えば、有限体が２５６ビットの大きさであり、表参照を８ビット毎に行うものとすることも可能である。更には、これら以外に、有限体の大きさと参照表のビット数を任意に組み合わせて本発明を適用することが可能である。

　また、本実施形態における計算機２００は、ソフトウェアプログラムを実行することにより実現される機能ブロックによって、上述したような各機能を実現するものである。図４は、本実施形態における計算機２００の機能ブロック図である。図１は計算機２００のハードウェア構成に着目した構成図であったが、図４は計算機２００の機能に着目した機能ブロック図である。

　図４を参照すると、計算機２００は、テーブル管理部４０１、並べ替え部４０２、および繰り返し演算部４０３を有している。各部の基本的な機能は一例として以下の通りであり、更に上述したような様々な機能を果たす。

　テーブル管理部４０１は、一方の乗算対象である１２８ビットの元Yと、１２８ビットのうち３２番目のビットから３２ビット毎の４ビットに０か１を設定し、その他のビットを０に設定した１６個の元ｇ（ｉ）との乗算の結果であるビット列をテーブルに保持する。

　並べ替え部４０２は、もう一方の乗算対象である元Ｘを、３２ビットの４個の第１の部分ビット列に区切り、それら部分ビット列のそれぞれの同一位置にあるビットを集めることにより、元Ｘのビット列のビットの順番を並び替え、並び替えたビット列を、ビット数が４である３２個の第２の部分ビット列とする。

　繰り返し演算部４０３は、有限体上での２倍算を行い、その２倍算の結果と、第２の部分ビット列に基づいてテーブルから選択したビット列とのビット毎の排他的論理和を行うという演算を３２回繰り返す。

　また、本実施形態に適用した技術は、例えば、組み込み向けＣＰＵ等のような低リソース機器を用いたシステムに、有限体の乗算を用いたアルゴリズムを実装する場合などに広く適用できる。低リソース機器においては、実装の高速性と省メモリ性が要求される場合が多く、本発明を適用することでこのニーズに応えることが可能になる。有限体上の乗算を用いたアルゴリズムの例としては、例えば、認証暗号方式ＧＣＭ、ＭＵＬＴＩ－Ｓ０１等の暗号アルゴリズム、および、各種符号アルゴリズム等が挙げられる。

２００…計算機、２０１…ＣＰＵ、２０２…メモリ、２０３…レジスタ、２０４…キャリーフラグ、２０５…テーブル格納部、４０１…テーブル管理部、４０２…並べ替え部、４０３…演算部

Claims

　プロセッサによって有限体上の乗算を行うための、有限体上の乗算方法であって、
　テーブル管理手段が、前記有限体の元であり一方の乗算対象である第１の元と、n番目のビットからnビット毎のm個のビットに0か1を設定し他のビットに0を設定した前記有限体の(2^m)個の元との乗算の結果である(2^m)個の第１のビット列をテーブルとして保持する第１のステップと、
　繰り返し演算手段が、前回のシフト・表参照演算の結果に前記有限体上での２倍算を行い、前記２倍算の結果と、前記有限体の元であり他方の乗算対象である第２の元に基づいて前記テーブルから選択した第１のビット列とのビット毎の排他的論理和を行うシフト・表演算を繰り返す第２のステップと、
を有する有限体上の乗算方法。
　前記第１のステップにおいて、前記テーブル管理手段が、前記(2^m)個の第１のビット列を、前記m個のビットで表現されるビット数がm個の値に対応づけて、前記テーブルとして保持し、
　前記第２のステップが開始される前に、並べ替え手段が、前記第２の元のビット列を、ビット数がnであるm個の第１の部分ビット列に区切り、前記第１の部分ビット列のそれぞれの同一位置にあるビットを集めることにより、前記ビット列のビットの順番を並び替え、並び替えた前記ビット列を、ビット数がmであるn個の第２の部分ビット列とする第３のステップを更に有し、
　前記第２のステップにおいて、前記繰り返し演算手段が、前記２倍算の結果と、前記各第２の部分ビット列で表現される値による前記テーブルの参照で得られる第１のビット列とのビット毎の排他的論理和を行う、
請求項１に記載の有限体上の乗算方法。
　前記第１のステップは、
　前記第１の元と、n番目のビットからnビット毎に0か1の値を設定し他のビットに0を設定した前記有限体の(2^m)個の元との乗算を行う第４のステップと、
　前記乗算の結果である(2^m)個の第１のビット列をテーブルとして記録する第５のステップと、を含む、請求項１に記載の有限体上の乗算方法。
　前記プロセッサは、キャリー付き１ビットシフト演算命令を実行することができ、
　前記繰り返し演算手段が、前記キャリー付き１ビットシフト演算命令を用いて、前記第２のステップにおける前記２倍算を行う、
請求項１に記載の有限体上の乗算方法。
　プロセッサによって有限体上の乗算を行う計算機であって、
　前記有限体の元であり一方の乗算対象である第１の元と、n番目のビットからnビット毎のm個のビットに0か1を設定し他のビットに0を設定した前記有限体の(2^m)個の元との乗算の結果である(2^m)個の第１のビット列をテーブルとして保持するテーブル管理部と、
　前回のシフト・表参照演算の結果に前記有限体上での２倍算を行い、前記２倍算の結果と、前記有限体の元であり他方の乗算対象である第２の元に基づいて前記テーブルから選択した第１のビット列とのビット毎の排他的論理和を行うシフト・表演算演算を繰り返す繰り返し演算部と、を有する計算機。
　有限体上の乗算をコンピュータに行わせるためのプログラムであって、
　前記有限体の元であり一方の乗算対象である第１の元と、n番目のビットからnビット毎のm個のビットに0か1を設定し他のビットに0を設定した前記有限体の(2^m)個の元との乗算の結果である(2^m)個の第１のビット列をテーブルとして保持する手順と、
　前回のシフト・表参照演算の結果に前記有限体上での２倍算を行い、前記２倍算の結果と、前記有限体の元であり他方の乗算対象である第２の元に基づいて前記テーブルから選択した第１のビット列とのビット毎の排他的論理和を行うシフト・表参照演算を繰り返す手順と、をコンピュータに実行させるためのプログラム。