WO2007080652A1

WO2007080652A1 - モンゴメリ法用乗算剰余計算装置

Info

Publication number: WO2007080652A1
Application number: PCT/JP2006/300396
Authority: WO
Inventors: Kazuyoshi Furukawa; Masahiko Takenaka
Original assignee: Fujitsu Limited
Priority date: 2006-01-13
Filing date: 2006-01-13
Publication date: 2007-07-19
Also published as: US20100023571A1; EP1975906B1; JPWO2007080652A1; JP4783382B2; EP1975906A4; EP1975906A1; US8352529B2

Abstract

　モンゴメリのアルゴリズムＲＥＤＣによって、ｒ進数のＡとＢについて、ＲＥＤＣ（Ａ×Ｂ）を計算する。プロセッサには、３入力２出力の積和回路が設けられているものを用いる。ＲＥＤＣをｒ進数の１桁ずつの演算に分解した場合の、Ａ×Ｂにあたる部分を、３入力２出力の積和回路に行わせる。積和回路には、ｒ進数で表されたＡの１桁ａｉと、Ｂの１桁ｂｊと、キャリー値ｃ１とを入力し、ａｉ×ｂｊ＋ｃ１を計算させ、結果のｒ進数２桁の上位桁をキャリー値ｃ１とし、下位桁を後の計算に使用する。また、積和回路には、ＲＥＤＣのための法Ｎの１桁ｎｉと、所定の値ｍと、キャリー値ｃ２を入力し、ｍ×ｎｉ＋ｃ２を計算させ、上位桁をキャリー値ｃ２とし、下位桁を後の計算に用いる。アルゴリズムが３入力２出力の積和計算で構成されているので、積和回路を有効利用して高速に処理できると共に、積和回路が２つ設けられている場合には、更に、演算を高速化できる。

Description

明細書

モンゴメリ法用乗算剰余計算装置

技術分野

[0001] 本発明は、例えば、公開鍵暗号系の RSA暗号処理において、モンゴメリのアルゴリズムを用いて乗算剰余計算を高速に行う乗算剰余計算装置に関する。

背景技術

[0002] 近年におけるコンピュータネットワークの発達により、データベースを検索する機会、電子メール，電子-ユース等の電子化された情報をネットワークを経由して送受する機会が急速に増加してきている。更に、これらを利用して、オンラインショッピング等のサービスも提供されつつある。しかし、それに伴って、ネットワーク上の電子化されたデータを盗聴する、改竄する、他人になりすましてサービスを無償で受ける等の問題も指摘されている。特に、無線を利用したネットワークにおいては、傍受が容易なために、これらの問題を防止する対策が望まれている。

[0003] これらの問題に対して暗号技術を応用した暗号ィ匕電子メール，利用者認証システムが提案され、種々のネットワークにも導入されつつある。

この意味で、コンピュータネットワークにおいては暗号ィ匕が必須の技術であるといえる。このような暗号技術の中の一つにディジタル署名即ち認証に適した公開鍵暗号方式がある。公開鍵暗号方式は、暗号化 Z復号に大量の演算処理が必要なために高速ィ匕が望まれており、様々な高速ィ匕アルゴリズムが発表されている。

[0004] 暗号化方式は、大別すると秘密鍵暗号系と公開鍵暗号系との二つに分類できる。

秘密鍵暗号系は、送信者と受信者とが同じ暗号鍵を持つことにより暗号通信を行う方式である。即ち、秘密鍵暗号系では、あるメッセージを秘密の暗号鍵に基づいて暗号化して相手に送り、受け手はこの暗号鍵を用いて暗号文を復号して元のメッセージに戻して情報を入手する。公開鍵暗号系は、送信者が公開されている受信者の公開鍵でメッセージを暗号ィ匕して送信し、受信者が自分の秘密鍵でその暗号化メッセージを復号することにより通信を行う方式である。

[0005] 即ち、公開鍵暗号系では、公開鍵は暗号ィ匕のための鍵、秘密鍵は公開鍵により暗号ィ匕された暗号を復号するための鍵であり、公開鍵で暗号ィ匕した暗号は秘密鍵でのみ復号することができる。

[0006] 秘密鍵暗号系では、個人が秘密に保管しなければならない鍵が通信相手の数だけ必要であり、必要な総鍵数は n人のネットワークの場合 n(n— 1) Z2個である。また、初めて通信する相手に対しては、何らかの方法で秘密鍵の配送が必要であるという欠点がある。

[0007] この欠点を解消するために、大規模なネットワークでは、鍵管理センタを設置し、センタとの間の秘密鍵のみを保管し、暗号通信を行う場合は、センタカゝら送信相手との秘密鍵を得る方法が用いられる。

[0008] 一方、公開鍵暗号系では、個人が秘密に保管する鍵は自分の秘密鍵のみであり、必要な総秘密鍵数も n人のネットワークの場合 n個である。

また、初めて通信する相手に対しては、公開鍵の配送を行えば良ぐ鍵管理センタを設置して、ユーザの公開鍵を n個公開簿に登録し、センタ力送信相手の公開鍵を得る方法が用いられる。

[0009] この場合、センタは公開鍵の改竄を防ぐだけで、秘密に保管する必要がな、。但し、公開鍵方式は秘密鍵方式に比べて鍵のビット数が大きいため保管に要するフアイルサイズは大きくなる。また、認証の場合、秘密鍵暗号系では、例えば送信するメッセージを秘密鍵で圧縮変換し、送信文に付加して送り、受信側では同様に圧縮変換して比較する方式がとられてヽる。

[0010] しかし、送受信が同じ鍵であるため、受信者は認証データを偽造することができる。

これに対して、公開鍵暗号系では、秘密鍵で暗号ィ匕することができるのは本人だけであるので、偽造することはできない。公開鍵暗号系では、送信者はメッセージを圧縮変換して秘密鍵で暗号化し、公開鍵を送信文に付加して送り、受信者は送信者の公開鍵で付加されたデータを復号し、同様に圧縮変換したものと比較する方式がとられている。この場合、受信者は不正ができない。

[0011] このように認証系では公開鍵暗号系の技術は必要不可欠であるといえる。しかし、公開鍵暗号系には、暗号ィ匕 Z復号に大量の演算処理が必要であるという大きな欠点があるため、一般には、処理が速い秘密鍵暗号系をメッセージの暗号化に、公開鍵暗号系は認証用にと、うように組み合わせて用いられる場合が多、。

[0012] 公開鍵暗号系の中で、現在最も有力なものが 1977年にリヴエス HRivest) ,シャミア

(Shamir)及びエイドルマン (Adlman)の三人によって発明された RSA暗号である。この RSA暗号の基本原理は次のようなものである。

(RSAの基本アルゴリズム）

暗号鍵 (e, N)と対応する復号鍵 (d, N)とにおいて、 eと Nとは公開鍵であり、 dは秘密鍵である。

[0013] 平文を M,暗号文を Cとすると、暗号化 Eと復号 Dとのアルゴリズムは次のようにあらわされる。

C = E (M) =M° mod N

M = D (C) =C^d mod N

但し、 d'e= lmod LCM{ (p— 1) , (q— 1) }

N = p -q

LCM：最小公倍数 (lowest common multiple)

p, qは大きな素数

通常、 e, d, M, Nなどは 1024ビット程度の大きな整数が用いられているので、高速指数計算法を使用しても 1回の RSA演算で平均 1500回程度の多重精度乗算と剰余算とを行わなければならな！/、。

[0014] 特に剰余計算については、演算処理を高速化するために、近似法，剰余テーブル方式，モンゴメリのアルゴリズム等、多くの高速ィ匕手法が提案されている。

このような、 RSA暗号に代表される公開鍵暗号系の多くで利用される、べき乗剰余アルゴリズムを高速に処理するためには、 1回あたりの剰余アルゴリズムの高速化が要求される。

[0015] この剰余演算の高速ィ匕を実現する一方法であるモンゴメリのアルゴリズムについて説明する。モンゴメリのアルゴリズムについては、 Modulo Multiplication Without Trial Division, Peter L. Montgomery, Mathematics of computation, Volume 44, Number 170, April 1985 pp. 519〜528を参照されたい。

(モンゴメリのァノレゴリズム）モンゴメリのアルゴリズムは、剰余の法 N (N> 1)と、剰余の法 Nと互いに素である基数 R (R>N)とを用いると、被剰余数 Tから TR— Wxi Nの計算が基数 Rによる除算のみで行えることを利用して、 Nによる除算を用いることなく剰余計算を行うアルゴリズムである。

[0016] 以下において、 N, N' , R, R—¹及び Tは整数であり、被剰余数丁は0≤丁<1^？^、

R—¹は剰余の法 Nの上での基数 Rの逆数であり、 R'R— i— Ν·Ν' = 1 (0≤R— ¹く Ν, 0

≤Ν' く R)の関係を満たす。

[0017] 更に、この基数 Rに 2のべキ乗数を使用した場合、基数 Rによる除算をシフト操作に置き換えることができるため、 T→TR— od Nの計算の高速処理が可能となる。次に、アルゴリズム 1として、 T→TR— od Nのアルゴリズム REDC (T)を示す。

[0018] 但し、アルゴリズム 1において (T+m'N) ZRは必ず割り切れることが証明されている。

(アルゴリズム

T→TR^_1mod Nのアルゴリズム Y=REDC (T)は次のようにあらわされる。

M= (Tmod R) 'N' mod R

Υ= (Τ+Μ·Ν) ZR

if Y≥N then Y=Y— N

if Y<N then return Y

1回の REDCでは、剰余 Tmod Nではなく TR— od Nが求められるだけである。よって、剰余 Tmod Nを求めるためには、次に示すように REDC (T)と、予め求めておいた R²mod Nとの積で、再び REDCを行えば良い。

REDC (REDC (T) · (R² mod N) )

= (TR^_1mod N) · (R² mod N) -R' mod N

=TR^_1 -R² -R' mod N

=Tmod N

このようにして、剰余 Tmod Nを求めることができる。

(REDCの多重精度計算への拡張）

次に、剰余の法 Nまたは基数 Rが多倍長即ち多重精度である場合について、 RED cのアルゴリズムを拡張する。

剰余の法 N,基数 Rが多重精度である場合、 REDCの (Tmod R) ·Ν' 及び Μ·Ν の計算は、多重精度 X多重精度の処理となり、汎用の計算機では非常に大きな処理量と処理時間とが必要となる。そこで、この部分を多重精度 X単精度の処理で行えるように拡張したアルゴリズム 2を示す。

(ァノレゴリズム 2)

REDCを多重精度へ拡張したアルゴリズムは次に示すようになる。被剰余数 Τ, ノラメータ Ν' ,出力用変数 Υが何れも r進数で、

T= (t , t , · ··, t ) ,

g-l -2 O r

N= (n , n , · · ·, n ) ,

g-l g-2 O r

Y= (yg , y , · ··, y ) ,

g-l 0 r

n' ,

0

r= 2 ,

R=r^g

とあらわされる場合、次に示す j = 0〜g—lの繰り返し処理により TR— odNを多重精度 X単精度として、以下のアルゴリズムによって求めることができる。なお、ここで、（ )は、 r進数で表された数であることを示す。また、ここで単精度とは r進数 1桁のこととし、同じ文字を使用した場合、基本的に大文字を多重精度、小文字を単精度、小文字の添字を多重精度での桁の位置とする。

Y=T

for j = 0 to g— 1

m=y ·η' mod r

0 0

Y=Y+m-N

Y=Y/r

if Y<N then return Y

このようにして得られる TR^_1mod Nと、上述したように予め求めておいた R² mod Nとの積で再び REDCを行うことにより、 Tmod Nを求めることができる。

(REDCの多重精度乗算剰余への拡張）

次に、 REDCのアルゴリズムを乗算剰余演算に拡張する。

[0020] 上記のアルゴリズムにおいて、入力 Tは 0≤T<R'Nを満たす値である力実際の R SA演算では、入力 Tが整数 A, B (0≤A, B<N)の乗算結果であることが多い。その場合、整数 A, Bの乗算も多重精度整数演算であるため、多重精度拡張 RED Cと同様の繰り返し計算が行われる。

[0021] この場合、乗算と REDCとを別々に繰り返し計算すると、繰り返し計算制御による口スが 2倍になってしまう。

そこで、乗算と REDCとを同一の繰り返しループで行えるように拡張したァルゴリズム 3を示す。

(ァノレゴリズム 3)

REDCを多重精度乗算剰余へ拡張したアルゴリズム REDC (AX B)は次に示すようになる。

[0022] 乗算する 2数 A, B,パラメータ N' ,モンゴメリ乗算のパラメータ η， ,出力用変数 Y が何れも r進数で、

A= (a , a , · ··, a )

B = (b ， b ， · ··, b )

N = (n ， n ， · ··, n )

Y= (y , y ， · ·' '， y ) ，

n ,

r= 2，

R=r^g

とあらわされる場合、次に示す j = 0〜g—lの繰り返し処理により、 ABR mod Nを多重精度 X単精度の計算として求めることができる。

Y=0

for j = 0 to g—上

Y=Y+A-b m=y ·η' mod r

0 0

Y=Y+m-N

Y=Y/r

if Y<N then return Y

上記のアルゴリズム 3においては、 A、 Nが多重精度で、 b、 n' が単精度であり、 A

j o

との乗算を行って、るので、多重精度 X単精度の計算として演算が行われて、る。

[0023] このようにして得られる ABR^_1mod Nと、上述したように予め求めておいた R² mod N との積で再び REDCを行うことにより、 ABmod Nを求めることができる。

(REDCの単精度 X単精度処理への拡張）

アルゴリズム 3では、多重精度のモンゴメリ乗算剰余を多重精度 X単精度で実現可能として!/、るが、この多重精度 X単精度の計算部分をさらに単精度 X単精度の計算を組み合わせて行えるよう拡張する。

[0024] この場合、 AX bの計算部分と mX Nの計算部分とが繰り返し計算となり、上述の場合と同様に 2つの乗算を別々に繰り返し計算すると、繰り返し計算制御によるロス力倍になってしまう。

[0025] そこで、 2つの乗算を同一の繰り返しループで行えるようにすれば、ロスの低減が可能である。

2つの乗算を同一の繰り返しループで行えるように拡張したアルゴリズム 4を示す。 (アルゴリズム 4)

REDCを単精度 X単精度へ拡張したアルゴリズム REDC (A X B)は次に示すようになる。

[0026] 乗算する 2数 A, B,パラメータ N' ,モンゴメリ乗算のパラメータ η， ,出力用変数 Y

0

,キャリー変数 Cが何れも r進数で、

A= (a , a , · ··, a ) ,

g-l g-2 O r

B= (b , b , · ··, b ) ,

g-l g-2 O r

N= (n , n , · ··, n ) , Y= (y , y

g -l，…， y )

O r，

C= (c , c ) ,

1 0 r

n， ,

0

r= 2，

R=r^g

とあらわされ、 r進 1桁の一時変数を tmpl, tmp2, tmp3, tmp4とする場合、次に示す i， jの繰り返し処理により ABR— ^od Nを単精度 X単精度の計算で求めることができる。

Y=0

for j = 0 to g— 1

(tmp2, tmpl) =y +a ^eb

r 0 0 j

m=tmpl ·η' mod r

o

(tmp4, tmpl) =tmpl +m^en コア刖処理

r 0

(c , c ) =tmp2+tmp4

1 0 r

for i=0 to g— 1

(tmp3, tmp2, tmpl) ⁼y.+ (c c ) +a ^eb

(tmp4, y ) =tmpl +m-n コア処理

i— 1 r i

(cl , cO ) =tmp4+ (tmp3, tmp2)

next i

(c , c ) = (c , c ) +y

1 0 r 1 0 r g

y =c コア後処理

g-l 0

y =c

g 1

next j

if Y≥N then Y=Y—N 補正処理

if Y<N then return Y

ここで、（は、括弧内の r進数 1桁の変数を多重精度として扱うことを示している。 tmpl〜tmp4、 c、 cは、 r進数で表された多重精度の数を複数のビットに列に分割し

0 1

、それぞれを単精度の値として表したものである。たとえば、 tmplは、単精度の積和計算 y +a 'bの計算結果の下半分のビットで表される単精度の値であり、 tmp2は、当該積和計算の計算結果の上半分のビットで表される単精度の値である。また、 tmp 3, clは r進数 1桁で表現している力内容は 1ビットの値である。

[0028] 出力用変数 Yについて、計算に使用する値が yのとき、出力が y に格納されるの

i i-1

は、アルゴリズム 3における Y=YZrの機能をこれにより実現しているためである。また、便宜上、外側のループを jループ、内側のループを i/レープと呼び、 jループの始め力 i/レープまでをコア前処理、 iループ内の処理をコア処理、 i/レープの終わりから jループの終わりまでをコア後処理と呼ぶこととする。

[0029] 図 1は、上述したアルゴリズム 4のコア処理を実行する乗算剰余計算装置の構成図である。

なお、以下のすべての説明において、 kビットの kとは、単精度の値が表されるビット数であり、 32ビットプロセッサの場合であれば、 kは 32となる。

[0030] 図 1に示す乗算剰余計算装置は、内部で乗算及び加算を行う α積和回路 10及び j8積和回路 11と、乗算する一方の数 A : (a , a , · · · , a0)を保持する Aレジスタ 12

g-l g-2

と、乗算する一方の数 B : (b , b , · · · , bO )を保持する Bレジスタ 13と、剰余の法 N

g-l g-2

： (n , η , · · · , η )を保持する Νレジスタ 14と、 j8積和回路 11の出力の下位 kビ g-l g-2 0

ットを格納する Yレジスタ 15と、モンゴメリのパラータ mを保持する mレジスタ 16と、 a 積和回路 10の出力の上位 (k + 1)ビット及び β積和回路 11の出力の上位 kビットを加算するキャリー計算部としての加算回路 17と、加算回路 17の加算結果を格納する Cレジスタ 18と、 jの値と 0とを比較して出力を選択する選択回路 19とを有する。

[0031] また、 α積和回路 10, |8積和回路 11の内部構成を図 2Α, Βに夫々示す。

a積和回路 10は、 Aレジスタ 12及び Bレジスタ 13からの出力を乗算する kビット乗算器 20と、 kビット乗算器 20の出力及び選択回路 19 (Yレジスタ 15)の出力を加算する 2kビット加算器 21と、 2kビット加算器 21の出力及び Cレジスタ 18の出力を加算する 2 k+ 1ビット加算器 22とを有する。

[0032] β積和回路 11は、 Νレジスタ 14及び mレジスタ 16からの出力を乗算する kビット乗算器 23と、 kビット乗算器 23の出力及び α積和回路 10からの下位 kビットの出力を加算する 2kビット加算器 24とを有する。

[0033] 図 3は、アルゴリズム 4のコア処理の内容を示す説明図である。 α積和回路 10内にて、 Αレジスタ 12の出力 a (kビット）と Bレジスタ 13の出力 b (kビット）とを乗算し、その乗算結果 (2kビット； 30)に、選択回路 19 (Yレジスタ 15)の出力（kビット；31)と Cレジスタ 18の出力（k+ 1ビット； 32)とを加算する。

[0034] なお、選択回路 19は、 jの値と 0とを比較し、 jの値が 0である場合には α積和回路 1 0へ 0を出力し、 jの値力 ^でない場合には Υレジスタ 15の格納値 yを α積和回路 10 へ出力する。

[0035] α積和回路 10は、その演算結果（2k+ lビット； 33)の上位 (k+ 1)ビット（34)をカロ算回路 17へ出力し、その下位 kビット（35)を積和回路 11へ出力する。

[0036] j8積和回路 11内にて、 Nレジスタ 14の出力 n (kビット）と mレジスタ 16の出力（kビット）とを乗算し、その乗算結果 (2kビット； 36)に α積和回路 10からの下位 kビット出力（35)を加算する。

[0037] |8積和回路 11は、その演算結果（2kビット； 37)の上位 kビット（38)を加算回路 17 へ出力し、その下位 kビット（39)を Yレジスタ 15へ出力する。 Yレジスタ 15は、その k ビットのデータを値 y として格納する。

i-l

[0038] 加算回路 17は、 α積和回路 10からの出力（k+ 1ビット； 34)と j8積和回路 11からの出力（kビット； 38)とを加算し、その加算結果 (k+ 1ビット）を Cレジスタ 18へ出力する。 Cレジスタ 18は、これを格納する。

[0039] アルゴリズム 4の変形例をアルゴリズム 5として説明する。

(ァノレゴリズム 5)

乗算する 2数 A, B,パラメータおモンゴメリ乗算のパラメータ η' ,出力用変数 Yが何れも r進数で、

A= (a , a , · ··, a )

B = (b ， b ， · ··, b )

N = (n ， n ， · ··, n )

Y= (y , y ， · ·' '， y ) ，

η , とあらわされ、 r進数 1桁の一時変数を tmpl, tmp2, tmp4,キャリー変数を c , cとする

1 2 場合、次に示す i， jの繰り返し処理により ABR— imod Nを単精度 X単精度の計算として求めることができる。

[0040] Y=0

for j = 0 to g— 1

(tmp2, tmpl) =y +a ^eb

r 0 0 j

m=tmpl ·η' mod r

o

(tmp4, tmpl) =tmpl +m^en コア刖処理

r 0

(c , c ) =tmp2+tmp4

2 1 r

for i= 1 to g— 1

(tmp2, tmpl) =y +c +a ^eb

r i 1 i j

(tmp4, y ) =tmpl +m-n コア処理

i— 1 r i

(c , c ) = tmp4 + tmp2 + c

2 1 r 2

next i

(c , c ) = (c , c ) +y

2 1 r 2 1 r g

y C コア後処理

g-1 1

y =c

g

next j

if Y≥N then Y=Y—N 補正処理

if Y<N then return Y

ここで、（は、括弧内の r進数 1桁の変数を多重精度として扱うことを示している。またキャリー変数 c は r進数 1桁で表現している力内容は 1ビットの値である。

2

[0041] 図 4は、上述したアルゴリズム 5のコア処理を実行する乗算剰余計算装置の構成図である。

図 4に示す乗算剰余計算装置は、内部で乗算及び加算を行う第 1積和回路 10a及び第 2積和回路 11aと、乗算する一方の数 A: (a , a , · ··, a )を保持する第 1レ

g-1 g-2 0

ジスタとしての Aレジスタ 12と、乗算する一方の数 B : (b ， b ，…， b )を保持する

g-1 g-2 0

第 2レジスタとしての Bレジスタ 13と、第 2積和回路 11aの前回の下位 kビット出力を保持し、次回の下位 kビット出力を格納する第 3レジスタとしての Yレジスタ 15と、キヤリ一変数 cを保持する第 4レジスタとしての cレジスタ 18aと、剰余の法 N : (η , η ,

1 1 g-1 g-2

· · ·, n )を保持する第 5レジスタとしての Nレジスタ 14と、モンゴメリアルゴリズムにおけ

0

るパラータ mを保持する第 6レジスタとしての mレジスタ 16と、キャリー変数 c2を保持する第 7レジスタとしての c2レジスタ 18bと、第 1積和回路 10aの上位 kビット出力，第 2積和回路 11aの上位 kビット出力及び c2レジスタ 18bの出力を加算するキャリー計算部としての加算回路 17aと、 jの値と 0とを比較してその出力を選択する選択回路 1 9とを有する。

[0042] また、第 1積和回路 10a,第 2積和回路 11aの内部構成を図 5A, Bに夫々示す。

第 1積和回路 10aは、 kビット乗算器 20と 2kビット加算器 21と 2kビット加算器 22aとを有する。 kビット乗算器 20は、 Aレジスタ 12及び Bレジスタ 13からの出力を乗算し、 2kビット加算器 21は、 kビット乗算器 20の出力と選択回路 19 (Yレジスタ 15)の出力とを加算し、 2kビット加算器 22aは、 2kビット加算器 21の出力と cレジスタ 18aの出力と

1

を加算する。

[0043] なお、図 5Aに示す構成例では、乗算結果に選択回路 19 (Yレジスタ 15)の出力を先に加算し、その後に cレジスタ 18aの出力を加算するようになっている力これとは

1

逆に、先に cレジスタ 18aの出力、その後に選択回路 19 (Yレジスタ 15)の出力を加

1

算するように構成しても良い。

[0044] 第 2積和回路 11aは、 Nレジスタ 14及び mレジスタ 16からの出力を乗算する kビット乗算器 23と、 kビット乗算器 23の出力及び第 1積和回路 10aからの下位 kビットの出力を加算する 2kビット加算器 24とを有する。

[0045] 図 6は、アルゴリズム 5のコア処理の内容を示す説明図である。

第 1積和回路 10a内にて、 Aレジスタ 12の出力 a (kビット）と Bレジスタ 13の出力 b ( kビット）とを乗算し、その乗算結果（2kビット； 30)に、選択回路 19 (Yレジスタ 15)の出力（kビット； 31) cレジスタ 18aの出力（kビット； 32a)とを加算する。なお、選択回

1

路 19は、 jの値と 0とを比較し、 jの値力^である場合には第 1積和回路 10aへ 0を出力し、 jの値力^でない場合には Yレジスタ 15の格納値 yを第 1積和回路 10aへ出力する。第 1積和回路 10aは、その演算結果 (2kビット； 33)の上位 kビット（34)を加算回路 17aへ出力し、その下位 kビット（35)を第 2積和回路 11aへ出力する。

[0046] 第 2積和回路 11a内にて、 Nレジスタ 14の出力 n (kビット）と mレジスタ 16の出力（k ビット）とを乗算し、その乗算結果 (2kビット； 36)に、第 1積和回路 10aからの出力下位 kビット（35)を加算する。第 2積和回路 11aは、その演算結果 (2kビット； 37)の上位 kビット（38)をカ卩算回路 17aへ出力し、その下位 kビット（39)を Yレジスタ 15へ出力する。 Yレジスタ 15は、その kビットのデータを値 V として格納する。

i-l

[0047] 加算回路 17aは、第 1積和回路 10aからの出力（kビット； 34)と第 2積和回路 11aからの出力（kビット； 38)と cレジスタ 18bからの出力（1ビット； 32b)とを加算する。そし

2

て、次回の演算用として、その加算結果 (k+ 1ビット）の上位 1ビットを cレジスタ 18b

2

へ、その下位 kビットを cレジスタ 18aへ夫々出力する。各 cレジスタ 18a， cレジスタ 1

1 1 2

8bは、これを格納する。

[0048] アルゴリズム 5を更に変形したアルゴリズムをアルゴリズム 6として説明する。

(アルゴリズム 6)

乗算する 2数 A, B,パラメータおモンゴメリ乗算のパラメータ η' ,出力用変数 Yが

0

何れも r進数で、

A= (a , a , - ··, a

g-i g-2 0 ) r

B = (b , b , · ··, b )

g-i g-2 0 r

N = (n ， n , · ··, n )

g-i g-2 0 l

Y= (y , y , · ·· '， y ) ，

g-i 0 r

n ,

0

r= 2 ，

R=r^g

とあらわされ、 r進 1桁の一時変数を tmpl,キャリー変数を c ， cとする場合、次に示

3 4

す i, jの繰り返し処理により ABR— iod Nを単精度 X単精度の計算として求めることができる。

Y=0

for j = 0 to g— 1

(c , tmpl) =y +a 'b m=tmpl 'n' mod r コア前処理

o

(c , tmpl) =tmpl +m'n

4 r 0

for i= 1 to g— 1

(c , tmpl) =yi +c +a -b

3 r 3 i j

(c , y ) =tmpl +m-n +c コア処理

4 i-1 r i 4

next i

(c , c ) =c +c +y

4 3 r 3 4 g

y =c コア後処理

g-l 3

y =c

g 4

next j

if Y≥N then Y=Y—N 補正処理

if Y<N then return Y

図 7は、上述したアルゴリズム 6のコア処理を実行する乗算剰余計算装置の構成図である。

[0050] 図 7に示す乗算剰余計算装置は、内部で乗算及び加算を行う第 3積和回路 10b及び第 4積和回路 l ibと、図 4に示すものと同様の第 1レジスタとしての Aレジスタ 12, 第 2レジスタとしての Bレジスタ 13,第 3レジスタとしての Yレジスタ 15,第 5レジスタとしての Nレジスタ 14,第 6レジスタとしての mレジスタ 16及び選択回路 19と、キャリー変数 cを保持する第 4レジスタとしての cレジスタ 18cと、キャリー変数 cを保持する第

3 3 4

7レジスタとしての c レジスタ 18dとを有する。

4

[0051] なお、第 3積和回路 10b及び第 4積和回路 l ibの内部構成は、図 5Aに示す第 1積和回路 10aの内部構成と同じであり、各積和回路 10b及び l ibは、 kビット乗算器 20 と 2kビット加算器 21と 2kビット加算器 22aとから構成されている。

[0052] 第 3積和回路 10bの kビット乗算器 20は、 Aレジスタ 12及び Bレジスタ 13からの出力を乗算し、 2kビット加算器 21は、 kビット乗算器 20の出力と選択回路 19 (Yレジスタ 15)の出力とを加算し、 2kビット加算器 22aは、 2kビット加算器 21の出力と cレジスタ

3

18cの出力とを加算する。

[0053] なお、図 5Aに示す構成例では、乗算結果に選択回路 19 (Yレジスタ 15)の出力を先に加算し、その後に cレジスタ 18cの出力を加算するようになっている力これとは

3

逆に、先に cレジスタ 18cの出力、その後に選択回路 19 (Yレジスタ 15)の出力を加

3

算するように構成しても良い。

[0054] 一方、第 4積和回路 l ibの kビット乗算器 20は、 Nレジスタ 14及び mレジスタ 16からの出力を乗算し、 2kビット加算器 21は、 kビット乗算器 20の出力と第 3積和回路 10b 力の下位 kビットの出力とを加算し、 2kビット加算器 22aは、 2kビット加算器 21の出力と cレジスタ 18dの出力とを加算する。

4

[0055] なお、図 5Aに示す構成例では、乗算結果に第 3積和回路 10bからの下位 kビットの出力を先に加算し、その後に cレジスタ 18dの出力を加算するようになっている力こ

4

れとは逆に、先に c レジスタ 18dの出力、その後に第 3積和回路 10bからの下位 kビ

4

ットの出力を加算するように構成しても良、。

[0056] 図 8は、アルゴリズム 6のコア処理の内容を示す説明図である。

第 3積和回路 10b内にて、 Aレジスタ 12の出力 a (kビット）と Bレジスタ 13の出力 b ( kビット）とを乗算し、その乗算結果（2kビット； 30)に、選択回路 19 (Yレジスタ 15)の出力（kビット； 31)と cレジスタ 18cの出力（kビット； 32c)とを加算する。

3

[0057] なお、選択回路 19は、 jの値と 0とを比較し、 jの値が 0である場合には第 3積和回路 10bへ 0を出力し、 jの値が 0でない場合には Yレジスタ 15の格納値 y.を第 3積和回路 10bへ出力する。

[0058] 第 3積和回路 10bは、その演算結果（2kビット）の上位 kビット（34)を cレジスタ 18c

3

へ出力し、その下位 kビット（35)を第 4積和回路 l ibへ出力する。 cレジスタ 18cは、

3

この kビットを次回の演算用のキャリー変数として格納する。

[0059] 第 4積和回路 l ib内にて、 Nレジスタ 14の出力 n (kビット）と mレジスタ 16の出力 m

(kビット）とを乗算し、その乗算結果 (2kビット； 36)に、第 3積和回路 10bからの下位 kビット出力（35)と、 cレジスタ 18dの kビット出力（32d)を加算する。

4

[0060] 第 4積和回路 l ibは、その演算結果（2kビット； 37)の上位 kビット（38)を cレジスタ

4

18dへ出力し、その下位 kビット（39)を Yレジスタ 15へ出力する。 cレジスタ 18dは、

4

この kビットを次回の演算用のキャリー変数として格納する。また、 Yレジスタ 15は、その kビットのデータを値 y として格納する。 [0061] 図 9は、モンゴメリ法による乗算剰余処理の一例を示すフローチャートの概観図である。

このフローチャートにおいて、 jループが（アルゴリズム 3)のループ処理に当たる。 j ループの内側では、 A X b及び m X Nの多重精度 X単精度の部分乗算を行っている。 iループは、 A X b及び m X Nの多重精度 X単精度の計算を単精度 X単精度の部分乗算で行って、る部分である。 1/レープの内部では a X bと m X nとの部分乗算を行っている。

[0062] 以下に、アルゴリズム 6における、コア処理以外の処理も含めた全体の処理の流れの具体例にっ、て説明する。

以下の例では、 N, A, Bのビット長を 1024ビット、 g = 32、処理単位 k=32、 R= 2¹⁰²⁴ 、r= 2³²とする。

(コア前処理）

図 10は、コア前処理を行う構成の一例を示す図である。

[0063] レジスタ 41はモンゴメリ計算用のパラメータ n，を保持する。乗算回路 40は第 3積

0

和回路 10bの出力とレジスタ 41の出力とを乗算する。このコア前処理では、コア処理で使用する cレジスタ 18c, cレジスタ 18d及び mレジスタ 16aの初期化を行っている

3 4

。第 3積和回路 10bは、まず、 Aレジスタ 12, Bレジスタ 13からの入力 a , bを乗算し

0 j

、その乗算結果と Yレジスタ 15からの入力 y とを加算する。

0

[0064] なお、コア処理と同じ積和回路を使用する場合は、更にその結果と 0とを加算する。

そして、結果の上位 32ビットを cレジスタ 18cに格納し、下位 32ビットを第 4積和回路

3

1 lbとパラメータ mを計算するための乗算回路 40とへ出力する。

[0065] 乗算回路 40は、第 3積和回路 10bの出力とレジスタ 41の出力 n' とを乗算し、その

0

乗算結果の下位 32ビットを mレジスタ 16aに出力する。第 4積和回路 l ibは、 Nレジスタ 14からの入力 nと mレジスタ 16aの値とを乗算し、その乗算結果と第 3積和回路 10

0

bからの出力とを加算する。

[0066] なお、コア処理と同じ積和回路を使用する場合は、更にその結果と 0とを加算する。

そして、結果の上位 32ビットを cレジスタ 29に格納する。下位 32ビットは使用しない。

4

(コア処理）図 11は、 iループ内部処理であるコア処理を行う構成の一例を示す図である。

[0067] Yレジスタ 15は前回の処理結果の保持及び今回の処理結果の出力用レジスタである。選択回路 19は、アルゴリズム 3における Y=0の処理に相当するものである。第 3 積和回路 10bは、まず、 Aレジスタ 12, Bレジスタ 13からの入力 a , bを乗算し、その乗算結果と Yレジスタ 15からの入力 yとを加算し、更にその加算結果と cレジスタ 18c

i 3

の値とを加算する。そして、結果の上位 32ビットを cレジスタ 18cに格納し、下位 32ビ

3

ットを第 4積和回路 1 lbへ出力する。

[0068] 第 4積和回路 l ibは、まず、 Nレジスタ 14からの入力 nと mレジスタ 16aの値とを乗算し、その乗算結果と第 3積和回路 10bからの出力とを加算し、更にその加算結果と cレジスタ 18dの値とをカ卩算する。そして、結果の上位 32ビットを cレジスタ 18dに格

4 4

納し、下位 32ビットを Yレジスタ 15の y に格納する。

i-l

[0069] アルゴリズム 3の Y= YZrの処理は、 i回目の計算結果を yi_lに格納することで実現している。

(コア後処理）

図 12は、コア後処理を行う構成の一例を示す図である。

[0070] 加算回路 45は、 cレジスタ 18cの出力と、 cレジスタ 18dの出力と、選択回路 19の

3 4

出力とを加算する。選択回路 46は、加算回路 45からのキャリー出力を 0, 1と比較し、 0であれば 0を、 1であれば 1を、 Yレジスタ 15へ出力する。このコア後処理では、コァ処理終了後のキャリー変数 c , c の値の処理を行っている。

3 4

[0071] cレジスタ 18c, cレジスタ 18dの値、及び、 Yレジスタ 15からの入力 y を加算回路

3 4 32

45〖こ入力し、その加算結果を Yレジスタ 15の y に出力し、キャリーを処理単位である

31

32ビットの値に変換して Yレジスタ 15の y に出力する。ここで、出力からもわ力るよう

32

に、 y の値は Yレジスタ 15では 32ビットとして扱われている力実際は 1ビットの値で

32

あるので、加算結果は 32ビット +キャリーの範囲で収まる。

(積和回路の構成）

図 13は、上述の構成例で用いた積和回路の構成の一例を示す図である。

[0072] ここでは、全ての処理単位を 32ビットになるように構成している。

積和回路は、 1個の 32ビット乗算器 51と、 4個の 32ビット加算器 52, 53, 54, 55とを有する。

[0073] A, Bの入力値は 32ビット乗算器 51で乗算され、上位 32ビットと下位 32ビットとの 2つで出力される。 32ビット加算器 53は、 32ビット乗算器 51の出力の下位 32ビットと入力 Rの値とを加算し、その加算結果の出力 32ビットを 32ビット加算器 55へ、キャリーを 32 ビット加算器 52へそれぞれ出力する。 32ビット加算器 52は、 32ビット乗算器 51の出力上位 32ビットと 32ビット加算器 53のキャリー出力とを加算し、その加算結果の出力 3 2ビットを 32ビット加算器 54へ出力する。この加算ではキャリーが発生しないことが理論的に証明されている。 32ビット加算器 55は、 32ビット加算器 53の出力と入力 Cの値とを加算し、その加算結果の出力 32ビットを積和回路の L出力（下位 32ビット）として出力し、キャリーは 32ビット加算器 54へ出力される。 32ビット加算器 54は、 32ビットカロ算器 52の出力と 32ビット加算器 55のキャリー出力とを加算し、その加算結果の出力 3 2ビットを積和回路の H出力（上位 32ビット）として出力する。この加算ではキャリーが発生しな!ヽことが理論的に証明されて！、る。

[0074] 上記したすべてのアルゴリズム及び回路は特許文献 1に記載されて、る。

上述した従来の乗算剰余装置に使用した積和回路は、図 13に示されるように、 4入力 2出力の積和回路であった。この積和回路は、 2入力の乗算及びその結果と残る 2 入力との加算を行う。一般的なプロセッサには 4入力 2出力積和回路が搭載されておらず、図 12の 2つの積和回路を単純ィ匕できないという問題がある。また、通常、 Penti urn (登録商標）プロセッサにお、ては、 2入力 2出力の乗算器し力搭載されて、なヽ。それでも、 2入力 2出力の乗算器と加算器を使って、上記 4入力 2出力の積和回路と同等の機能を実現する場合には、あまり性能劣化は問題にはならなかった。ところ 1S 最近の Itanium2プロセッサに代表されるプロセッサには、 3入力 2出力の積和回路が搭載されている。特に、 Itanium2プロセッサには、 3入力 2出力の積和回路が 2 台搭載されている。しかし、上記従来の 4入力 2出力の積和演算を使用するアルゴリズムでは、このような 3入力 2出力の積和回路を搭載したプロセッサの能力を最大限生かすことはできない。

特許文献 1：特開平 11— 212456号公報

発明の開示 [0075] 本発明の課題は、モンゴメリ法に適した、 3入力 2出力の積和演算を用いた、効率の良い乗算剰余計算装置、及び、その方法を提供することである。

本発明のモンゴメリ法用乗算剰余計算装置は、ある値 Aと Bの乗算をし、法 Nによる剰余算を行って、結果 Yを計算するモンゴメリ法用乗算剰余計算装置において、 Aのある 1桁の値と、 Bのある 1桁の値と、キャリー値との 3値を入力とし、 Aのある 1桁の値と Bのある 1桁の値の乗算を行い、これにキャリー値を加算した結果を、自身の新たなキャリー値としての上位桁と、下位桁の 2値に分けて出力する第 1の積和計算手段と、 Nのある 1桁の値と、ある 1桁の値 mと、キャリー値との 3値を入力とし、 Nのある 1桁の値とある値 mとの乗算を行い、これにキャリー値を加算した結果を、自身の新たなキャリー値としての上位桁と、下位桁の 2値に分けて出力する第 2の積和計算手段と、第 1の積和計算手段の出力の下位桁と、第 2の積和計算手段の出力の下位桁と、変数 Yのある 1桁と、キャリー値とを加算した結果を、自身の新たなキャリー値としての上位桁と、下位桁の 2値に分けて出力し、該下位桁を変数 Yのある 1桁に格納する加算手段とを備えることを特徴とする。

図面の簡単な説明

[0076] [図 1]従来のアルゴリズム 4のコア処理を実行する乗算剰余計算装置の構成図である [図 2A]図 1の場合の従来の積和回路の構成図（その 1)である。

[図 2B]図 1の場合の従来の積和回路の構成図（その 2)である。

[図 3]従来のアルゴリズム 4のコア処理の内容を示す説明図である。

[図 4]従来のアルゴリズム 5のコア処理を実行する乗算剰余計算装置の構成図である

[図 5A]図 4の場合の従来の積和回路の構成図（その 1)である。

[図 5B]図 4の場合の従来の積和回路の構成図（その 2)である。

[図 6]従来のアルゴリズム 5のコア処理の内容を示す説明図である。

[図 7]従来のアルゴリズム 6のコア処理を実行する乗算剰余計算装置の構成図である

[図 8]従来のアルゴリズム 6のコア処理の内容を示す説明図である。

[図 9]モンゴメリ法による乗算剰余処理の一例を示すフローチャートの概観図である。 [図 10]コア前処理を行う構成の一例を示す図である。

[図 11]1/レープ内部処理であるコア処理を行う構成の一例を示す図である。

[図 12]コア後処理を行う構成の一例を示す図である。

[図 13]従来の積和回路の構成の一例を示す図である。

[図 14]本発明の実施形態のアルゴリズムのコア処理を実行する乗算剰余計算装置の構成図である。

[図 15]本発明の実施形態のアルゴリズムにおけるコア前処理を行うための装置構成を示す図である。

[図 16]本発明の実施形態のアルゴリズムにおけるコア後処理を行うための装置構成を示す図である。

発明を実施するための最良の形態

[0077] 本発明の実施形態においては、 3入力 2出力の積和回路を有効に使用した、モンゴメリ法の使用のための演算回路を提供する。

以下に、 3入力 2出力の積和回路に適した本発明の実施形態について説明する。

[0078] 本発明の実施形態では、上記アルゴリズム 6のコア処理部において、 2つの 3入力 2 出力積和回路を用いてアルゴリズムを実行する。本発明の実施形態のアルゴリズムを実行する演算回路においては、第 1積和回路が出力する上位 kビットはキャリー変数 cとして第 1積和回路に戻し、第 2積和回路が出力する上位 kビットはキャリー変数 cとして第 2積和回路に戻し、加算回路の出力結果である (k+ 2)ビットを上位 2ビット

2

と下位 kビットとに分離し、上位 2ビットをキャリー変数 cとして加算回路に戻す。

3

この場合のアルゴリズムを以下に示す。

(アルゴリズム）

乗算する 2数 A, B,剰余の法 N,モンゴメリ乗算のパラメータ η ,出力用変数 Yが

0

何れも r進数で、

A= (a , a , - ··, a

g-i g-2 0 ) r

B = (b , b , · ··, b )

g-i g-2 0 r

N = (n ， n , · ··, n )

g-i g-2 0 l

Y= (y , y , · ·· '， y ) ， n ,

0

r=2 ,

R=r^g

とあらわされ、 r進 1桁の一時変数を tmpl, tmp2,キャリー変数を c , c , cとする場合

1 2 3

、次に示す i， jの繰り返し処理により ABR— ^od Nを単精度 X単精度の計算として求めることができる。

[0079] Y=0

for j = 0 to g— 1

(c， tmpl) =a ^eb +y

1 r 0 j 0

m=tmpl ·η' mod r

o

(c , tmpl) =tmpl+m-n コア前処理

2 r 0

c =0

3

for i= 1 to g— 1

(c^, tmpl) = a ^eb

(c , tmp2 ) = m-n+c コア処理

2 r i 2

(c， y ) = tmpl+tmp2 + c +y

3 i-1 r 3 i

next i

(c , c ) =c +c +c +y

2 1 r 1 2 3 g

y c コア後処理

g-l 1

y =c

g

next j

if Y≥N then Y=Y—N 補正処理

if Y<N then return Y

2

[0080] 図 14は、本発明の実施形態のアルゴリズムのコア処理を実行する乗算剰余計算装置の構成図である。

図 14に示す乗算剰余計算装置は、内部で乗算及び加算を行う積和回路 60及び積和回路 61と、加算回路 62と、乗算する一方の数 A: (a , a , · ··, a )を保持す g-l g-2 0 る第 1レジスタとしての Aレジスタ 63と、乗算する一方の数 B: (b , b , · ··, !) )を g-l g-2 0 保持する第 2レジスタとしての Bレジスタ 64と、加算回路 62の前回の演算結果の下位 kビット出力を保持し、次回の演算の下位 kビット出力を格納する第 3レジスタとしての Yレジスタ 65と、モンゴメリアルゴリズムにおけるパラータ mを保持する第 4レジスタとしての mレジスタ 66と、剰余の法 N: (η , η , · ··, n )を保持する第 5レジスタとして g-l g-2 0

の Nレジスタ 67と、キャリー変数 cを保持する第 6レジスタとしての cレジスタ 68と、キ

1 1

ャリー変数 cを保持する第 7レジスタとしての cレジスタ 69と、キャリー変数 cを保持

2 2 3 する第 8レジスタとしての cレジスタ 70と、 jの値と 0とを比較してその出力を選択する

3

選択回路 71とを有する。

[0081] なお、図 14中、積和回路 60、積和回路 61の A,B,C,H,Lは全て kビットである。 kビットの kとは、演算に使用するプロセッサが単精度の数を表現する場合に用いるビット数であり、 32ビットプロセッサの場合には、 kは 32である。 AX B+Cの積和結果 2kビットを (H,L)と表現し、 Hが上位 kビット、 Lが下位 kビットとなる。図 14中、加算回路 62は、 A,B,C,D,Lは全て kビット、 Hのみ 2ビット（ソフトウェアの場合には Hも kビット）。 A+B+C +Dの加算結果 (k+2)ビットを (H,L)と表現し、 Hが上位 2ビット（ソフトウェアの場合には kビット）、 Lが下位 kビットとなる。なお、加算回路 62は、 4入力 2出力の加算回路を用いなくても良い。すなわち、加算演算は、乗算演算に比べ、計算量が少ないので、モンゴメリ法による演算に要する時間や負荷に与える影響は少ない。したがって、たとえば、 2入力 2出力の加算回路を組み合わせて加算回路 62としても、本発明のアルゴリズムの性能には大きな影響は与えない。よって、図 14では、加算回路は 4入力 2 出力加算回路を使っているが、その構成法はここでは規定しない。 2入力 2出力加算を 3個使用すれば、加算回路 62と同様の回路は実現可能であるし、キャリー付加算命令を使用する方法もあり、この加算は多種の構成法がある。

[0082] 図 14において、積和回路 60は、 Aの 1桁と Bの 1桁と、キャリー 1桁とを入力し、積和計算をし、答えを (H、 L)として出力している。すなわち、積和回路 60では、前述の本発明の実施形態のアルゴリズムのコア処理の内、（c , tmpl) = a -b +cを計算している。積和回路 61は、 1桁の mと、 Nの 1桁と、キャリー 1桁を入力し、積和計算を行い、答えを (H、 L)として出力している。すなわち、積和回路 61では、前述の本発明の実施形態のアルゴリズムのコア処理の内、（c , tmp2 ) = m-n +cを行っている

2 r i 2

[0083] 加算回路 62では、積和回路 60の演算結果の下位 kビットと積和回路 61の演算結果の下位 kビットと、 Yの 1桁と、キャリー 1桁を入力し、演算結果の下位 kビットを Yに格納している。すなわち、加算回路 62では、（c , y ) = tmpl +tmp2 + c +yを行

3 i-1 r 3 i つている。

[0084] なお、積和回路 60と 61は、 2つの 3入力 2出力の積和回路を用いて並列に行うのが好ましぐまた、加算回路 62の演算が行われている間に、積和回路 60と 61は、次回の演算を行って、ることが好まし、。

[0085] 更に、以下に、コア前処理とコア後処理を行う乗算剰余計算装置の構成を示すが、本発明の実施形態のアルゴリズムが、従来技術のアルゴリズム 6の変形構成であるため、アルゴリズム 6の場合とほぼ同じである。

[0086] 図 15は、本発明の実施形態のアルゴリズムにおけるコア前処理を行うための装置構成を示す図である。

レジスタ 41はモンゴメリ計算用のパラメータ n，を保持する。乗算回路 40は積和回

0

路 60の出力とレジスタ 41の出力とを乗算する。このコア前処理では、コア処理で使用する cレジスタ 68, cレジスタ 69、 cレジスタ 70及び mレジスタ 66の初期化を行つ

1 2 3

ている。積和回路 60は、まず、 Aレジスタ 63, Bレジスタ 64からの入力 a , bを乗算し

0 j

、その乗算結果と Yレジスタ 65からの入力 yとを加算する。

[0087] そして、結果の上位 kビットを cレジスタ 68に格納し、下位 kビットを積和回路 61とパラメータ mを計算するための乗算回路 40とへ出力する。

乗算回路 40は、積和回路 60の出力とレジスタ 41の出力 n とを乗算し、その乗算

0

結果の下位 kビットを mレジスタ 66に出力する。積和回路 61は、 Nレジスタ 67からの入力 nと mレジスタ 66の値とを乗算し、その乗算結果と積和回路 60からの出力とを

0

加算する。そして、結果の上位 kビットを cレジスタ 69に格納する。下位 kビットは使用

2

しない。

[0088] 以上のコア前処理の演算装置においても、 3入力 2出力の積和回路を使っている。従来のアルゴリズム 6の場合には、コア前処理で、コア処理のときに使用する積和回路と同じ積和回路を使用する場合には、 4入力の内、 1つを 0としたが、本発明の実施形態においては、使用する積和回路が 3入力 2出力であるので、このような設定は不要である。

[0089] また、コア前処理においては、積和回路 60の処理の後に、積和回路 61の処理を行う必要があるため、コア処理のように、積和回路 60と 61を並列に実行することができない。したがって、 3入力 2出力の積和回路を 2つ持っていても、コア前処理では、コア処理ほど効果は出ないが、それでも、 3入力 2出力の積和回路を有効に使うことはできる。

[0090] 図 16は、本発明の実施形態のアルゴリズムにおけるコア後処理を行うための装置構成を示す図である。

加算回路 45は、 cレジスタ 68の出力と、 cレジスタ 69の出力と、 cレジスタ 70の出

1 2 3

力と、選択回路 19の出力とを加算する。選択回路 46は、加算回路 45からのキャリー出力を 0, 1と比較し、 0であれば 0を、 1であれば 1を、 Yレジスタ 65へ出力する。このコア後処理では、コア処理終了後のキャリー変数 c , c , cの値の処理を行っている

1 2 3

[0091] cレジスタ 68, cレジスタ 69, cレジスタ 70の値、及び、 Yレジスタ 65からの入力 y

1 2 3 g を加算回路 45に入力し、その加算結果を Yレジスタ 15の y に出力し、キャリーを処

g-i

理単位である kビットの値に変換して Yレジスタ 65の yに出力する。ここで、出力から

g

もわ力るように、 yの値は Yレジスタ 65では kビットとして扱われている力実際は 1ビ

g

ットの値であるので、加算結果は kビット +キャリーの範囲で収まる。

[0092] 以上の、本発明の実施形態によれば、 3つの変数を入力とし、 2つの出力で演算結果を返すような積和命令を持ち、同時に積和命令を 2つ処理することの出来る Itaniu m2プロセッサに代表されるプロセッサにおいて、従来法で構成したものに比べ、 4倍の高速化を実現した。これは、積和回路 61、 62を並列化したこと、更に、この並列化により伝播遅延時間が短縮されたことによる。本発明の 3入力 2出力の積和演算回路は積和回路 61、 62を従来どおりに直列に接続したものにも適用できる。

[0093] 以上、本発明によれば、 3入力 2出力の積和演算回路を有する演算装置に適したモンゴメリ法用乗算剰余計算装置を実現できる。同様に、同じような積和回路を持つ DSPに実装する場合に高速ィ匕が可能であると期待できる。

Claims

請求の範囲

[1] ある値 Aと Bの乗算をし、法 Nによる剰余算を行って、結果 Yを計算するモンゴメリ法用乗算剰余計算装置において、

Aのある 1桁の値と、 Bのある 1桁の値と、キャリー値との 3値を入力とし、 Aのある 1桁の値と Bのある 1桁の値の乗算を行い、これにキャリー値を加算した結果を、自身の新たなキャリー値としての上位桁と、下位桁の 2値に分けて出力する第 1の積和計算手段と、

Nのある 1桁の値と、ある 1桁の値 mと、キャリー値との 3値を入力とし、 Nのある 1桁の値とある値 mとの乗算を行い、これにキャリー値を加算した結果を、自身の新たなキャリー値としての上位桁と、下位桁の 2値に分けて出力する第 2の積和計算手段と第 1の積和計算手段の出力の下位桁と、第 2の積和計算手段の出力の下位桁と、変数 Yのある 1桁と、キャリー値とを加算した結果を、自身の新たなキャリー値としての上位桁と、下位桁の 2値に分けて出力し、該下位桁を変数 Yのある 1桁に格納する加算手段と、

を備えることを特徴とするモンゴメリ法用乗算剰余計算装置。

[2] 前記第 1の積和計算手段の演算と、前記第 2の積和計算手段の演算とは、並列に行われることを特徴とする請求項 1に記載のモンゴメリ法用乗算剰余計算装置。

[3] 前記モンゴメリ法用乗算剰余計算装置は、公開鍵暗号方式の演算に使用されることを特徴とする請求項 1に記載のモンゴメリ法用乗算剰余計算装置。

[4] 前記演算の入力及び出力の 1桁の値は、プロセッサが単精度の数値を表す場合に用いられるビット数力なることを特徴とする請求項 1に記載のモンゴメリ法用乗算剰余計算装置。

[5] 前記加算手段が演算を行っている間に、前記第 1の積和計算手段と、前記第 2の積和計算手段が次回の演算を行うことを特徴とする請求項 1に記載のモンゴメリ法用乗算剰余計算装置。

[6] Aの最下位の 1桁の値と、 Bのある 1桁の値と、結果を格納する変数 Yの 1桁とを入力とし、 Aの最下位の 1桁の値と、 Bのある 1桁の値とを乗算し、これに変数 Yの 1桁を加算した結果を、前記第 1の積和計算手段へのキャリー値の初期値としての上位桁の値と、下位桁の 2値として出力する第 3の積和計算手段と、

該第 3の積和計算手段の出力の内の下位桁と、モンゴメリ法用のパラメータとを入力し、これらを乗算して出力する乗算手段と、

該第 3の積和計算手段の出力の内の下位桁と、該乗算手段の出力と、 Nのある 1桁の 3値を入力として、 Nのある 1桁の値と該乗算手段の出力とを乗算し、これらに該第 3の積和計算手段の出力の内の下位桁を加算し、加算結果の上位桁を前記第 2の積和計算手段へのキャリー値の初期値として出力する第 4の積和計算手段と、を更に備えることを特徴とする請求項 1に記載のモンゴメリ法用乗算剰余計算装置。

[7] 前記第 1の積和計算手段と、前記第 2の積和計算手段と、前記加算手段のそれぞれの出力であるキャリー値と、前記加算手段の演算後の変数 Yの最上位桁値を入力し、これらを加算した結果の上位桁を変数 Yの最上位桁に、下位桁を変数 Yの上位力 2番目の桁に格納する第 2の加算手段を更に備えることを特徴とする請求項 1に記載のモンゴメリ法用乗算剰余計算装置。

[8] ある値 Aと Bの乗算をし、法 Nによる剰余算を行って、結果 Yを計算するモンゴメリ法用乗算剰余計算方法において、

(a) Aのある 1桁の値と、 Bのある 1桁の値と、キャリー値との 3値を入力とし、 Aのある 1桁の値と Bのある 1桁の値の乗算を行い、これにキャリー値を加算した結果を、自身の新たなキャリー値としての上位桁と、下位桁の 2値に分けて出力し、

(b) Nのある 1桁の値と、ある 1桁の値 mと、キャリー値との 3値を入力とし、 Nのある 1 桁の値とある値 mとの乗算を行い、これにキャリー値を加算した結果を、自身の新たなキャリー値としての上位桁と、下位桁の 2値に分けて出力し、

(c)ステップ (a)の出力の下位析と、ステップ (b)の出力の下位析と、変数 Yのある 1 桁と、キャリー値とを加算した結果を、自身の新たなキャリー値としての上位桁と、下位桁の 2値に分けて出力し、該下位桁を変数 Yのある 1桁に格納する、

ことを特徴とするモンゴメリ法用乗算剰余計算方法。

[9] ある値 Aと Bの乗算をし、法 Nによる剰余算を行って、結果 Yを計算するモンゴメリ法用乗算剰余計算方法をコンピュータに実現させるプログラムにおいて、 (a) Aのある 1桁の値と、 Bのある 1桁の値と、キャリー値との 3値を入力とし、 Aのある 1桁の値と Bのある 1桁の値の乗算を行い、これにキャリー値を加算した結果を、自身の新たなキャリー値としての上位桁と、下位桁の 2値に分けて出力し、

ことを特徴とするモンゴメリ法用乗算剰余計算方法をコンピュータに実行させるプログラム。

モンゴメリのアルゴリズムを用いて、プロセッサの単精度 (kビット)演算による乗算剰余計算を行う装置において、

積和演算を行い、その演算結果を上位 kビットと下位 kビットとに分けて出力する第 1 積和回路と、

積和演算を行いその演算結果を上位 kビットと下位 kビットとに分けて出力する第 2 積和回路と、

加算演算を行いその演算結果を上位 2ビットと下位 kビットとに分けて出力する加算回路と、

前記第 1積和回路で乗算される 2数を保持する第 1及び第 2レジスタと、

前記加算回路の下位 kビット出力を保持し、前記加算回路のその次の回の kビット入力を格納する第 3レジスタと、

モンゴメリのアルゴリズムにおけるパラメータの値を保持する第 4レジスタと、剰余の法を保持する第 5レジスタと、

前記第 1積和回路の上位 kビット出力を保持し、同第 1積和回路のその次の回の加算される入力となる数を格納する第 6レジスタと、

前記第 2積和回路の上位 kビット出力を保持し、同第 2積和回路のその次の回の加算される入力となる数を格納する第 7レジスタと、前記加算回路の上位 2ビット出力を保持し、同加算回路のその次の回の入力となる数を格糸内する第 8レジスタとを備え、

前記第 1積和回路は、前記第 1及び第 2レジスタに保持された 2数の所定ビットの値を乗算し、その乗算結果に前記第 6レジスタに保持された値を加算する演算を行い、前記第 2積和回路は、前記第 4レジスタに保持された値と前記第 5レジスタに保持された数の所定ビットの値とを乗算し、その乗算結果に前記第 7レジスタに保持された値を加算する演算を行い、前記加算回路は、前記第 1積和回路の下位 kビット出力と前記第 2積和回路の下位 kビット出力と前記第 3レジスタに保持された所定ビットの値と前期第 8レジスタに保持された値を加算する演算を行うように構成したことを特徴とするモンゴメリ法による乗算剰余計算装置。

[11] 前記第 1積和回路は、前記第 1及び第 2レジスタに保持された 2数の所定ビットの値を乗算し、その乗算結果に前記第 6レジスタに保持された値を加算するように構成した請求項 10に記載のモンゴメリ法による乗算剰余計算装置。

[12] 前記第 2積和回路は、前記第 4レジスタに保持された値と第 5レジスタに保持された所定ビットの値を乗算し、その乗算結果に前記第 7レジスタに保持された値を加算するように構成した請求項 10に記載のモンゴメリ法による乗算剰余計算装置。

[13] 前記加算回路による演算中に、前記第 1及び第 2積和回路によりその次の回の演算を行うように構成した請求項 10〜 12の何れか一つに記載のモンゴメリ法による乗算剰余計算装置。

[14] 前記加算回路が演算を行う間、前記第 1積和回路及び前記第 2積和回路で次の回の演算を行うように、パイプライン処理すべく構成したことを特徴とする請求項 10に記載のモンゴンメリ法による乗算剰余計算装置。

[15] 前記第 1積和回路及び第 2積和回路にあって、各自身の上位出力を各自身の次の回のキャリア入力とするようにした請求項 10に記載のモンゴンメリ法による乗算剰余計算装置。

[16] 前記第 1積和回路及び第 2積和回路は、 2つの kビットの数を乗算する手段と、その乗算結果に 1つの kビットの数を加算する手段とを有する請求項 10に記載のモンゴンメリ法による乗算剰余計算装置。