JPWO2007080652A1

JPWO2007080652A1 - モンゴメリ法用乗算剰余計算装置

Info

Publication number: JPWO2007080652A1
Application number: JP2007553818A
Authority: JP
Inventors: 和快古川; 武仲　正彦; 正彦武仲
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-01-13
Filing date: 2006-01-13
Publication date: 2009-06-11
Anticipated expiration: 2026-01-13
Also published as: US20100023571A1; WO2007080652A1; JP4783382B2; EP1975906A1; EP1975906B1; EP1975906A4; US8352529B2

Abstract

モンゴメリのアルゴリズムＲＥＤＣによって、ｒ進数のＡとＢについて、ＲＥＤＣ（Ａ×Ｂ）を計算する。プロセッサには、３入力２出力の積和回路が設けられているものを用いる。ＲＥＤＣをｒ進数の１桁ずつの演算に分解した場合の、Ａ×Ｂにあたる部分を、３入力２出力の積和回路に行わせる。積和回路には、ｒ進数で表されたＡの１桁ａｉと、Ｂの１桁ｂｊと、キャリー値ｃ１とを入力し、ａｉ×ｂｊ＋ｃ１を計算させ、結果のｒ進数２桁の上位桁をキャリー値ｃ１とし、下位桁を後の計算に使用する。また、積和回路には、ＲＥＤＣのための法Ｎの１桁ｎｉと、所定の値ｍと、キャリー値ｃ２を入力し、ｍ×ｎｉ＋ｃ２を計算させ、上位桁をキャリー値ｃ２とし、下位桁を後の計算に用いる。アルゴリズムが３入力２出力の積和計算で構成されているので、積和回路を有効利用して高速に処理できると共に、積和回路が２つ設けられている場合には、更に、演算を高速化できる。

Description

本発明は、例えば、公開鍵暗号系のＲＳＡ暗号処理において、モンゴメリのアルゴリズムを用いて乗算剰余計算を高速に行う乗算剰余計算装置に関する。

近年におけるコンピュータネットワークの発達により、データベースを検索する機会、電子メール，電子ニュース等の電子化された情報をネットワークを経由して送受する機会が急速に増加してきている。更に、これらを利用して、オンラインショッピング等のサービスも提供されつつある。しかし、それに伴って、ネットワーク上の電子化されたデータを盗聴する、改竄する、他人になりすましてサービスを無償で受ける等の問題も指摘されている。特に、無線を利用したネットワークにおいては、傍受が容易なために、これらの問題を防止する対策が望まれている。

これらの問題に対して暗号技術を応用した暗号化電子メール，利用者認証システムが提案され、種々のネットワークにも導入されつつある。
この意味で、コンピュータネットワークにおいては暗号化が必須の技術であるといえる。このような暗号技術の中の一つにディジタル署名即ち認証に適した公開鍵暗号方式がある。公開鍵暗号方式は、暗号化／復号に大量の演算処理が必要なために高速化が望まれており、様々な高速化アルゴリズムが発表されている。

暗号化方式は、大別すると秘密鍵暗号系と公開鍵暗号系との二つに分類できる。秘密鍵暗号系は、送信者と受信者とが同じ暗号鍵を持つことにより暗号通信を行う方式である。即ち、秘密鍵暗号系では、あるメッセージを秘密の暗号鍵に基づいて暗号化して相手に送り、受け手はこの暗号鍵を用いて暗号文を復号して元のメッセージに戻して情報を入手する。公開鍵暗号系は、送信者が公開されている受信者の公開鍵でメッセージを暗号化して送信し、受信者が自分の秘密鍵でその暗号化メッセージを復号することにより通信を行う方式である。

即ち、公開鍵暗号系では、公開鍵は暗号化のための鍵、秘密鍵は公開鍵により暗号化された暗号を復号するための鍵であり、公開鍵で暗号化した暗号は秘密鍵でのみ復号することができる。

秘密鍵暗号系では、個人が秘密に保管しなければならない鍵が通信相手の数だけ必要であり、必要な総鍵数はｎ人のネットワークの場合ｎ（ｎ−１）／２個である。また、初めて通信する相手に対しては、何らかの方法で秘密鍵の配送が必要であるという欠点がある。

この欠点を解消するために、大規模なネットワークでは、鍵管理センタを設置し、センタとの間の秘密鍵のみを保管し、暗号通信を行う場合は、センタから送信相手との秘密鍵を得る方法が用いられる。

一方、公開鍵暗号系では、個人が秘密に保管する鍵は自分の秘密鍵のみであり、必要な総秘密鍵数もｎ人のネットワークの場合ｎ個である。
また、初めて通信する相手に対しては、公開鍵の配送を行えば良く、鍵管理センタを設置して、ユーザの公開鍵をｎ個公開簿に登録し、センタから送信相手の公開鍵を得る方法が用いられる。

この場合、センタは公開鍵の改竄を防ぐだけで、秘密に保管する必要がない。但し、公開鍵方式は秘密鍵方式に比べて鍵のビット数が大きいため保管に要するファイルサイズは大きくなる。また、認証の場合、秘密鍵暗号系では、例えば送信するメッセージを秘密鍵で圧縮変換し、送信文に付加して送り、受信側では同様に圧縮変換して比較する方式がとられている。

しかし、送受信が同じ鍵であるため、受信者は認証データを偽造することができる。これに対して、公開鍵暗号系では、秘密鍵で暗号化することができるのは本人だけであるので、偽造することはできない。公開鍵暗号系では、送信者はメッセージを圧縮変換して秘密鍵で暗号化し、公開鍵を送信文に付加して送り、受信者は送信者の公開鍵で付加されたデータを復号し、同様に圧縮変換したものと比較する方式がとられている。この場合、受信者は不正ができない。

このように認証系では公開鍵暗号系の技術は必要不可欠であるといえる。しかし、公開鍵暗号系には、暗号化／復号に大量の演算処理が必要であるという大きな欠点があるため、一般には、処理が速い秘密鍵暗号系をメッセージの暗号化に、公開鍵暗号系は認証用にというように組み合わせて用いられる場合が多い。

公開鍵暗号系の中で、現在最も有力なものが1977年にリヴェスト（Rivest），シャミア（Shamir）及びエイドルマン（Adlman）の三人によって発明されたＲＳＡ暗号である。
このＲＳＡ暗号の基本原理は次のようなものである。
（ＲＳＡの基本アルゴリズム）
暗号鍵（ｅ，Ｎ）と対応する復号鍵（ｄ，Ｎ）とにおいて、ｅとＮとは公開鍵であり、ｄは秘密鍵である。

平文をＭ，暗号文をＣとすると、暗号化Ｅと復号Ｄとのアルゴリズムは次のようにあらわされる。
Ｃ＝Ｅ（Ｍ）＝Ｍ^e mod Ｎ
Ｍ＝Ｄ（Ｃ）＝Ｃ^d mod Ｎ
但し、ｄ・ｅ＝１mod ＬＣＭ｛（ｐ−１），（ｑ−１）｝
Ｎ＝ｐ・ｑ
ＬＣＭ：最小公倍数（lowest common multiple）
ｐ，ｑは大きな素数
通常、ｅ，ｄ，Ｍ，Ｎなどは1024ビット程度の大きな整数が用いられているので、高速指数計算法を使用しても１回のＲＳＡ演算で平均1500回程度の多重精度乗算と剰余算とを行わなければならない。

特に剰余計算については、演算処理を高速化するために、近似法，剰余テーブル方式，モンゴメリのアルゴリズム等、多くの高速化手法が提案されている。
このような、ＲＳＡ暗号に代表される公開鍵暗号系の多くで利用される、べき乗剰余アルゴリズムを高速に処理するためには、１回あたりの剰余アルゴリズムの高速化が要求される。

この剰余演算の高速化を実現する一方法であるモンゴメリのアルゴリズムについて説明する。モンゴメリのアルゴリズムについては、Modulo Multiplication Without Trial Division, Peter L. Montgomery, Mathematics of Computation, Volume 44, Number 170, April 1985 pp. 519〜528を参照されたい。
（モンゴメリのアルゴリズム）
モンゴメリのアルゴリズムは、剰余の法Ｎ（Ｎ＞１）と、剰余の法Ｎと互いに素である基数Ｒ（Ｒ＞Ｎ）とを用いると、被剰余数ＴからＴＲ^-1mod Ｎの計算が基数Ｒによる除算のみで行えることを利用して、Ｎによる除算を用いることなく剰余計算を行うアルゴリズムである。

以下において、Ｎ，Ｎ′，Ｒ，Ｒ^-1及びＴは整数であり、被剰余数Ｔは０≦Ｔ＜Ｒ・Ｎ、Ｒ^-1は剰余の法Ｎの上での基数Ｒの逆数であり、Ｒ・Ｒ^-1−Ｎ・Ｎ′＝１（０≦Ｒ^-1＜Ｎ，０≦Ｎ′＜Ｒ）の関係を満たす。

更に、この基数Ｒに２のベキ乗数を使用した場合、基数Ｒによる除算をシフト操作に置き換えることができるため、Ｔ→ＴＲ^-1mod Ｎの計算の高速処理が可能となる。
次に、アルゴリズム１として、Ｔ→ＴＲ^-1mod ＮのアルゴリズムＲＥＤＣ（Ｔ）を示す。

但し、アルゴリズム１において（Ｔ＋ｍ・Ｎ）／Ｒは必ず割り切れることが証明されている。
（アルゴリズム１）
Ｔ→ＴＲ^-1mod ＮのアルゴリズムＹ＝ＲＥＤＣ（Ｔ）は次のようにあらわされる。
Ｍ＝（Ｔmod Ｒ）・Ｎ′mod Ｒ
Ｙ＝（Ｔ＋Ｍ・Ｎ）／Ｒ
if Ｙ≧Ｎ then Ｙ＝Ｙ−Ｎ
if Ｙ＜Ｎ then return Ｙ
１回のＲＥＤＣでは、剰余Ｔmod ＮではなくＴＲ^-1mod Ｎが求められるだけである。
よって、剰余Ｔmod Ｎを求めるためには、次に示すようにＲＥＤＣ（Ｔ）と、予め求めておいたＲ²mod Ｎとの積で、再びＲＥＤＣを行えば良い。
ＲＥＤＣ（ＲＥＤＣ（Ｔ）・（Ｒ² mod Ｎ））
＝（ＴＲ^-1mod Ｎ）・（Ｒ² mod Ｎ）・Ｒ^-1mod Ｎ
＝ＴＲ^-1・Ｒ² ・Ｒ^-1mod Ｎ
＝Ｔmod Ｎ
このようにして、剰余Ｔmod Ｎを求めることができる。
（ＲＥＤＣの多重精度計算への拡張）
次に、剰余の法Ｎまたは基数Ｒが多倍長即ち多重精度である場合について、ＲＥＤＣのアルゴリズムを拡張する。

剰余の法Ｎ，基数Ｒが多重精度である場合、ＲＥＤＣの（Ｔmod Ｒ）・Ｎ′及びＭ・Ｎの計算は、多重精度×多重精度の処理となり、汎用の計算機では非常に大きな処理量と処理時間とが必要となる。そこで、この部分を多重精度×単精度の処理で行えるように拡張したアルゴリズム２を示す。
（アルゴリズム２）
ＲＥＤＣを多重精度へ拡張したアルゴリズムは次に示すようになる。被剰余数Ｔ，パラメータＮ′，出力用変数Ｙが何れもｒ進数で、
Ｔ＝（ｔ_g-1，ｔ_g-2，…，ｔ₀ ）_r，
Ｎ＝（ｎ_g-1 ，ｎ_g-2，…，ｎ₀ ）_r ，
Ｙ＝（ｙg ，ｙ_g-1 ，…，ｙ₀ ）_r，
ｎ’₀，
ｒ＝２^k，
Ｒ＝ｒ^g
とあらわされる場合、次に示すｊ＝０〜ｇ−１の繰り返し処理によりＴＲ^-1modＮを多重精度×単精度として、以下のアルゴリズムによって求めることができる。なお、ここで、（）_ｒは、ｒ進数で表された数であることを示す。また、ここで単精度とはｒ進数１桁のこととし、同じ文字を使用した場合、基本的に大文字を多重精度、小文字を単精度、小文字の添字を多重精度での桁の位置とする。
Ｙ＝Ｔ
for ｊ＝０ to ｇ−１
ｍ＝ｙ₀ ・ｎ’₀ mod ｒ
Ｙ＝Ｙ＋ｍ・Ｎ
Ｙ＝Ｙ／ｒ
next
if Ｙ≧Ｎ then Ｙ＝Ｙ−Ｎ
if Ｙ＜Ｎ then return Ｙ
このようにして得られるＴＲ^-1mod Ｎと、上述したように予め求めておいたＲ² mod Ｎとの積で再びＲＥＤＣを行うことにより、Ｔmod Ｎを求めることができる。
（ＲＥＤＣの多重精度乗算剰余への拡張）
次に、ＲＥＤＣのアルゴリズムを乗算剰余演算に拡張する。

上記のアルゴリズムにおいて、入力Ｔは０≦Ｔ＜Ｒ・Ｎを満たす値であるが、実際のＲＳＡ演算では、入力Ｔが整数Ａ，Ｂ（０≦Ａ，Ｂ＜Ｎ）の乗算結果であることが多い。
その場合、整数Ａ，Ｂの乗算も多重精度整数演算であるため、多重精度拡張ＲＥＤＣと同様の繰り返し計算が行われる。

この場合、乗算とＲＥＤＣとを別々に繰り返し計算すると、繰り返し計算制御によるロスが２倍になってしまう。
そこで、乗算とＲＥＤＣとを同一の繰り返しループで行えるように拡張したアルゴリズム３を示す。
（アルゴリズム３）
ＲＥＤＣを多重精度乗算剰余へ拡張したアルゴリズムＲＥＤＣ（Ａ×Ｂ）は次に示すようになる。

乗算する２数Ａ，Ｂ，パラメータＮ′，モンゴメリ乗算のパラメータｎ’₀，出力用変数Ｙが何れもｒ進数で、
Ａ＝（ａ_g-1 ，ａ_g-2，…，ａ₀ ）_r ，
Ｂ＝（ｂ_g-1 ，ｂ_g-2，…，ｂ₀ ）_r ，
Ｎ＝（ｎ_g-1 ，ｎ_g-2，…，ｎ₀ ）_r ，
Ｙ＝（ｙ_g ，ｙ_g-1，…，ｙ₀ ）_r ，
ｎ’₀，
ｒ＝２^k，
Ｒ＝ｒ^g
とあらわされる場合、次に示すｊ＝０〜ｇ−１の繰り返し処理により、ＡＢＲ^-1mod Ｎを多重精度×単精度の計算として求めることができる。

Ｙ＝０
for ｊ＝０ to ｇ−１
Ｙ＝Ｙ＋Ａ・ｂ_j
ｍ＝ｙ₀ ・ｎ’₀ mod ｒ
Ｙ＝Ｙ＋ｍ・Ｎ
Ｙ＝Ｙ／ｒ
next
if Ｙ≧Ｎ then Ｙ＝Ｙ−Ｎ
if Ｙ＜Ｎ then return Ｙ
上記のアルゴリズム３においては、Ａ、Ｎが多重精度で、ｂ_ｊ、ｎ’_０が単精度であり、Ａとｂ_ｊの乗算を行っているので、多重精度×単精度の計算として演算が行われている。

このようにして得られるＡＢＲ^-1mod Ｎと、上述したように予め求めておいたＲ² mod Ｎとの積で再びＲＥＤＣを行うことにより、ＡＢmod Ｎを求めることができる。
（ＲＥＤＣの単精度×単精度処理への拡張）
アルゴリズム３では、多重精度のモンゴメリ乗算剰余を多重精度×単精度で実現可能としているが、この多重精度×単精度の計算部分をさらに単精度×単精度の計算を組み合わせて行えるよう拡張する。

この場合、Ａ×ｂ_i の計算部分とｍ×Ｎの計算部分とが繰り返し計算となり、上述の場合と同様に２つの乗算を別々に繰り返し計算すると、繰り返し計算制御によるロスが２倍になってしまう。

そこで、２つの乗算を同一の繰り返しループで行えるようにすれば、ロスの低減が可能である。
２つの乗算を同一の繰り返しループで行えるように拡張したアルゴリズム４を示す。
（アルゴリズム４）
ＲＥＤＣを単精度×単精度へ拡張したアルゴリズムＲＥＤＣ（Ａ×Ｂ）は次に示すようになる。

乗算する２数Ａ，Ｂ，パラメータＮ′，モンゴメリ乗算のパラメータｎ’₀，出力用変数Ｙ，キャリー変数Ｃが何れもｒ進数で、
Ａ＝（ａ_g-1 ，ａ_g-2，…，ａ₀）_r ，
Ｂ＝（ｂ_g-1 ，ｂ_g-2，…，ｂ₀ ）_r ，
Ｎ＝（ｎ_g-1 ，ｎ_g-2，…，ｎ₀ ）_r ，
Ｙ＝（ｙ_g ，ｙ_g-1，…，ｙ₀ ）_r ，
Ｃ＝（ｃ₁ ，ｃ₀）_r ，
ｎ’₀，
ｒ＝２^k，
Ｒ＝ｒ^g
とあらわされ、ｒ進１桁の一時変数をtmp1，tmp2，tmp3，tmp4とする場合、次に示すｉ，ｊの繰り返し処理によりＡＢＲ^-1mod Ｎを単精度×単精度の計算で求めることができる。

Ｙ＝０
for ｊ＝０ to ｇ−１ ……………………………
（tmp2，tmp1）_r ＝ｙ₀ ＋ａ₀・ｂ_j
ｍ＝tmp1・ｎ’₀ mod ｒ
（tmp4，tmp1）_r ＝tmp1＋ｍ・ｎ₀ コア前処理
（ｃ₁ ，ｃ₀）_r ＝tmp2＋tmp4
for ｉ＝０ to ｇ−１ ……………………………
（tmp3，tmp2，tmp1）_r ＝ｙ_i＋（ｃ₁ ，ｃ₀ ）_r ＋ａ_i・ｂ_j
（tmp4，ｙ_i-1 ）_r ＝tmp1＋ｍ・ｎ_i コア処理
（ｃ1 ，ｃ0 ）_r ＝tmp4＋（tmp3，tmp2）_r
next ｉ ……………………………
（ｃ₁ ，ｃ₀）_r ＝（ｃ₁ ，ｃ₀ ）_r ＋ｙ_g
ｙ_g-1 ＝ｃ₀ コア後処理
ｙ_g ＝ｃ₁
next ｊ ……………………………
if Ｙ≧Ｎ then Ｙ＝Ｙ−Ｎ補正処理
if Ｙ＜Ｎ then return Ｙ
ここで、（）_r は、括弧内のｒ進数１桁の変数を多重精度として扱うことを示している。tmp1〜tmp４、ｃ_０、ｃ_１は、ｒ進数で表された多重精度の数を複数のビットに列に分割し、それぞれを単精度の値として表したものである。たとえば、tmp1は、単精度の積和計算ｙ_０＋a_０・ｂ_ｊの計算結果の下半分のビットで表される単精度の値であり、tmp2は、当該積和計算の計算結果の上半分のビットで表される単精度の値である。また、tmp3，ｃ1 はｒ進数１桁で表現しているが、内容は１ビットの値である。

出力用変数Ｙについて、計算に使用する値がｙ_i のとき、出力がｙ_i-1 に格納されるのは、アルゴリズム３におけるＹ＝Ｙ／ｒの機能をこれにより実現しているためである。
また、便宜上、外側のループをｊループ、内側のループをｉループと呼び、ｊループの始めからｉループまでをコア前処理、ｉループ内の処理をコア処理、ｉループの終わりからｊループの終わりまでをコア後処理と呼ぶこととする。

図１は、上述したアルゴリズム４のコア処理を実行する乗算剰余計算装置の構成図である。
なお、以下のすべての説明において、ｋビットのｋとは、単精度の値が表されるビット数であり、３２ビットプロセッサの場合であれば、ｋは３２となる。

図１に示す乗算剰余計算装置は、内部で乗算及び加算を行うα積和回路10及びβ積和回路11と、乗算する一方の数Ａ：（ａ_g-1，ａ_g-2 ，…，ａ0）を保持するＡレジスタ１２と、乗算する一方の数Ｂ：（ｂ_g-1 ，ｂ_g-2，…，ｂ0 ）を保持するＢレジスタ１３と、剰余の法Ｎ：（ｎ_g-1 ，ｎ_g-2 ，…，ｎ₀ ）を保持するＮレジスタ１４と、β積和回路１１の出力の下位ｋビットを格納するＹレジスタ１５と、モンゴメリのパラータｍを保持するｍレジスタ１６と、α積和回路１０の出力の上位（ｋ＋１）ビット及びβ積和回路１１の出力の上位ｋビットを加算するキャリー計算部としての加算回路１７と、加算回路１７の加算結果を格納するＣレジスタ１８と、ｊの値と０とを比較して出力を選択する選択回路１９とを有する。

また、α積和回路１０，β積和回路１１の内部構成を図２Ａ，Ｂに夫々示す。
α積和回路１０は、Ａレジスタ１２及びＢレジスタ１３からの出力を乗算するｋビット乗算器２０と、ｋビット乗算器２０の出力及び選択回路１９（Ｙレジスタ１５）の出力を加算する2kビット加算器２１と、2kビット加算器２１の出力及びＣレジスタ１８の出力を加算する2k＋１ビット加算器２２とを有する。

β積和回路１１は、Ｎレジスタ１４及びｍレジスタ１６からの出力を乗算するｋビット乗算器２３と、ｋビット乗算器２３の出力及びα積和回路１０からの下位ｋビットの出力を加算する2kビット加算器２４とを有する。

図３は、アルゴリズム４のコア処理の内容を示す説明図である。
α積和回路１０内にて、Ａレジスタ１２の出力ａ_i（ｋビット）とＢレジスタ１３の出力ｂ_j（ｋビット）とを乗算し、その乗算結果（２ｋビット；３０）に、選択回路１９（Ｙレジスタ１５）の出力（ｋビット；３１）とＣレジスタ１８の出力（ｋ＋１ビット；３２）とを加算する。

なお、選択回路１９は、ｊの値と０とを比較し、ｊの値が０である場合にはα積和回路１０へ０を出力し、ｊの値が０でない場合にはＹレジスタ１５の格納値ｙ_iをα積和回路１０へ出力する。

α積和回路１０は、その演算結果（２ｋ＋１ビット；３３）の上位（ｋ＋１）ビット（３４）を加算回路１７へ出力し、その下位ｋビット（３５）をβ積和回路１１へ出力する。

β積和回路１１内にて、Ｎレジスタ１４の出力ｎ_i（ｋビット）とｍレジスタ１６の出力（ｋビット）とを乗算し、その乗算結果（２ｋビット；３６）にα積和回路１０からの下位ｋビット出力（３５）を加算する。

β積和回路１１は、その演算結果（２ｋビット；３７）の上位ｋビット（３８）を加算回路１７へ出力し、その下位ｋビット（３９）をＹレジスタ１５へ出力する。Ｙレジスタ１５は、そのｋビットのデータを値ｙ_i-1 として格納する。

加算回路１７は、α積和回路１０からの出力（ｋ＋１ビット；３４）とβ積和回路１１からの出力（ｋビット；３８）とを加算し、その加算結果（ｋ＋１ビット）をＣレジスタ１８へ出力する。Ｃレジスタ１８は、これを格納する。

アルゴリズム４の変形例をアルゴリズム５として説明する。
（アルゴリズム５）
乗算する２数Ａ，Ｂ，パラメータＮ，モンゴメリ乗算のパラメータｎ’₀，出力用変数Ｙが何れもｒ進数で、
Ａ＝（ａ_g-1 ，ａ_g-2，…，ａ₀ ）_r ，
Ｂ＝（ｂ_g-1 ，ｂ_g-2，…，ｂ₀ ）_r ，
Ｎ＝（ｎ_g-1 ，ｎ_g-2，…，ｎ₀ ）_r ，
Ｙ＝（ｙ_g ，ｙ_g-1，…，ｙ₀ ）_r ，
ｎ’₀，
ｒ＝２^k，
Ｒ＝ｒ^g
とあらわされ、ｒ進数１桁の一時変数をtmp1，tmp2，tmp4，キャリー変数をｃ₁，ｃ₂とする場合、次に示すｉ，ｊの繰り返し処理によりＡＢＲ^-1mod Ｎを単精度×単精度の計算として求めることができる。

Ｙ＝０
for ｊ＝０ to ｇ−１ ……………………………
（tmp2，tmp1）_r ＝ｙ₀ ＋ａ_０・ｂ_ｊ
ｍ＝tmp1・ｎ’₀ mod ｒ
（tmp4，tmp1）_r ＝tmp1＋ｍ・ｎ₀ コア前処理
（ｃ₂ ，ｃ₁）_r ＝tmp2＋tmp4
for ｉ＝１ to ｇ−１ ……………………………
（tmp2，tmp1）_r ＝ｙ_i ＋ｃ₁＋ａ_i ・ｂ_j
（tmp4，ｙ_i-1）_r ＝tmp1＋ｍ・ｎ_i コア処理
（ｃ₂ ，ｃ₁）_r ＝tmp4＋tmp2＋ｃ₂
next ｉ ……………………………
（ｃ₂ ，ｃ₁）_r ＝（ｃ₂ ，ｃ₁ ）_r ＋ｙ_g
ｙ_g-1 ＝ｃ₁ コア後処理
ｙ_g ＝ｃ₂
next ｊ ……………………………
if Ｙ≧Ｎ then Ｙ＝Ｙ−Ｎ補正処理
if Ｙ＜Ｎ then return Ｙ
ここで、（）_r は、括弧内のｒ進数１桁の変数を多重精度として扱うことを示している。またキャリー変数ｃ₂ はｒ進数１桁で表現しているが、内容は１ビットの値である。

図４は、上述したアルゴリズム５のコア処理を実行する乗算剰余計算装置の構成図である。
図４に示す乗算剰余計算装置は、内部で乗算及び加算を行う第１積和回路１０ａ及び第２積和回路１１ａと、乗算する一方の数Ａ：（ａ_g-1 ，ａ_g-2 ，…，ａ₀ ）を保持する第１レジスタとしてのＡレジスタ１２と、乗算する一方の数Ｂ：（ｂ_g-1，ｂ_g-2 ，…，ｂ₀ ）を保持する第２レジスタとしてのＢレジスタ１３と、第２積和回路１１ａの前回の下位ｋビット出力を保持し、次回の下位ｋビット出力を格納する第３レジスタとしてのＹレジスタ１５と、キャリー変数ｃ₁を保持する第４レジスタとしてのｃ₁レジスタ１８ａと、剰余の法Ｎ：（ｎ_g-1 ，ｎ_g-2 ，…，ｎ₀）を保持する第５レジスタとしてのＮレジスタ１４と、モンゴメリアルゴリズムにおけるパラータｍを保持する第６レジスタとしてのｍレジスタ１６と、キャリー変数ｃ2を保持する第７レジスタとしてのｃ2レジスタ１８ｂと、第１積和回路１０ａの上位ｋビット出力，第２積和回路１１ａの上位ｋビット出力及びｃ2レジスタ１８ｂの出力を加算するキャリー計算部としての加算回路１７ａと、ｊの値と０とを比較してその出力を選択する選択回路１９とを有する。

また、第１積和回路１０ａ，第２積和回路１１ａの内部構成を図５Ａ，Ｂに夫々示す。
第１積和回路１０ａは、ｋビット乗算器２０と2kビット加算器２１と2kビット加算器２２ａとを有する。ｋビット乗算器２０は、Ａレジスタ１２及びＢレジスタ１３からの出力を乗算し、2kビット加算器２１は、ｋビット乗算器２０の出力と選択回路１９（Ｙレジスタ１５）の出力とを加算し、2kビット加算器２２ａは、2kビット加算器２１の出力とｃ₁レジスタ１８ａの出力とを加算する。

なお、図５Ａに示す構成例では、乗算結果に選択回路１９（Ｙレジスタ１５）の出力を先に加算し、その後にｃ₁レジスタ１８ａの出力を加算するようになっているが、これとは逆に、先にｃ₁レジスタ１８ａの出力、その後に選択回路１９（Ｙレジスタ１５）の出力を加算するように構成しても良い。

第２積和回路１１ａは、Ｎレジスタ１４及びｍレジスタ１６からの出力を乗算するｋビット乗算器２３と、ｋビット乗算器２３の出力及び第１積和回路１０ａからの下位ｋビットの出力を加算する2kビット加算器２４とを有する。

図６は、アルゴリズム５のコア処理の内容を示す説明図である。
第１積和回路１０ａ内にて、Ａレジスタ１２の出力ａ_i（ｋビット）とＢレジスタ１３の出力ｂ_j（ｋビット）とを乗算し、その乗算結果（２ｋビット；３０）に、選択回路１９（Ｙレジスタ１５）の出力（ｋビット；３１）とｃ₁レジスタ１８ａの出力（ｋビット；３２ａ）とを加算する。なお、選択回路１９は、ｊの値と０とを比較し、ｊの値が０である場合には第１積和回路１０ａへ０を出力し、ｊの値が０でない場合にはＹレジスタ１５の格納値ｙ_iを第１積和回路１０ａへ出力する。第１積和回路１０ａは、その演算結果（２ｋビット；３３）の上位ｋビット（３４）を加算回路１７ａへ出力し、その下位ｋビット（３５）を第２積和回路１１ａへ出力する。

第２積和回路１１ａ内にて、Ｎレジスタ１４の出力ｎ_ｉ（ｋビット）とｍレジスタ１６の出力（ｋビット）とを乗算し、その乗算結果（２ｋビット；３６）に、第１積和回路１０ａからの出力下位ｋビット（３５）を加算する。第２積和回路１１ａは、その演算結果（２ｋビット；３７）の上位ｋビット（３８）を加算回路１７ａへ出力し、その下位ｋビット（３９）をＹレジスタ１５へ出力する。Ｙレジスタ１５は、そのｋビットのデータを値ｙ_i-1として格納する。

加算回路１７ａは、第１積和回路１０ａからの出力（ｋビット；３４）と第２積和回路１１ａからの出力（ｋビット；３８）とｃ₂レジスタ１８ｂからの出力（１ビット；３２ｂ）とを加算する。そして、次回の演算用として、その加算結果（ｋ＋１ビット）の上位１ビットをｃ₂レジスタ１８ｂへ、その下位ｋビットをｃ₁レジスタ１８ａへ夫々出力する。各ｃ₁レジスタ１８ａ，ｃ₂レジスタ１８ｂは、これを格納する。

アルゴリズム５を更に変形したアルゴリズムをアルゴリズム６として説明する。
（アルゴリズム６）
乗算する２数Ａ，Ｂ，パラメータＮ，モンゴメリ乗算のパラメータｎ’₀，出力用変数Ｙが何れもｒ進数で、
Ａ＝（ａ_g-1 ，ａ_g-2，…，ａ₀）_r ，
Ｂ＝（ｂ_g-1 ，ｂ_g-2，…，ｂ₀ ）_r ，
Ｎ＝（ｎ_g-1 ，ｎ_g-2，…，ｎ₀ ）_r ，
Ｙ＝（ｙ_g ，ｙ_g-1，…，ｙ₀ ）_r ，
ｎ’₀，
ｒ＝２^k，
Ｒ＝ｒ^g
とあらわされ、ｒ進１桁の一時変数をtmp1，キャリー変数をｃ₃，ｃ₄とする場合、次に示すｉ，ｊの繰り返し処理によりＡＢＲ^-1mod Ｎを単精度×単精度の計算として求めることができる。

Ｙ＝０
for ｊ＝０ to ｇ−１ ……………………………
（ｃ₃，tmp1）_r＝ｙ₀ ＋ａ₀ ・ｂ_j
ｍ＝tmp1・ｎ’₀mod ｒコア前処理
（ｃ₄ ，tmp1）_r＝tmp1＋ｍ・ｎ₀
for ｉ＝１ to ｇ−１ ……………………………
（ｃ₃ ，tmp1）_r＝ｙi ＋ｃ₃ ＋ａ_i ・ｂ_j
（ｃ₄ ，ｙ_i-1）_r ＝tmp1＋ｍ・ｎ_i +ｃ₄ コア処理
next ｉ ……………………………
（ｃ₄ ，ｃ₃）_r ＝ｃ₃ ＋ｃ₄ ＋ｙ_g
ｙ_g-1 ＝ｃ₃ コア後処理
ｙ_g ＝ｃ₄
next ｊ ……………………………
if Ｙ≧Ｎ then Ｙ＝Ｙ−Ｎ補正処理
if Ｙ＜Ｎ then return Ｙ
図７は、上述したアルゴリズム６のコア処理を実行する乗算剰余計算装置の構成図である。

図７に示す乗算剰余計算装置は、内部で乗算及び加算を行う第３積和回路１０ｂ及び第４積和回路１１ｂと、図４に示すものと同様の第１レジスタとしてのＡレジスタ１２，第２レジスタとしてのＢレジスタ１３，第３レジスタとしてのＹレジスタ１５，第５レジスタとしてのＮレジスタ１４，第６レジスタとしてのｍレジスタ１６及び選択回路１９と、キャリー変数ｃ₃を保持する第４レジスタとしてのｃ₃レジスタ１８ｃと、キャリー変数ｃ₄を保持する第７レジスタとしてのｃ₄レジスタ１８ｄとを有する。

なお、第３積和回路１０ｂ及び第４積和回路１１ｂの内部構成は、図５Ａに示す第１積和回路１０ａの内部構成と同じであり、各積和回路１０ｂ及び１１ｂは、ｋビット乗算器２０と2kビット加算器２１と2kビット加算器２２ａとから構成されている。

第３積和回路１０ｂのｋビット乗算器２０は、Ａレジスタ１２及びＢレジスタ１３からの出力を乗算し、2kビット加算器２１は、ｋビット乗算器２０の出力と選択回路１９（Ｙレジスタ１５）の出力とを加算し、2kビット加算器２２ａは、2kビット加算器２１の出力とｃ₃レジスタ１８ｃの出力とを加算する。

なお、図５Ａに示す構成例では、乗算結果に選択回路１９（Ｙレジスタ１５）の出力を先に加算し、その後にｃ₃レジスタ１８ｃの出力を加算するようになっているが、これとは逆に、先にｃ₃レジスタ１８ｃの出力、その後に選択回路１９（Ｙレジスタ１５）の出力を加算するように構成しても良い。

一方、第４積和回路１１ｂのｋビット乗算器２０は、Ｎレジスタ１４及びｍレジスタ１６からの出力を乗算し、2kビット加算器２１は、ｋビット乗算器２０の出力と第３積和回路１０ｂからの下位ｋビットの出力とを加算し、2kビット加算器２２ａは、2kビット加算器２１の出力とｃ₄レジスタ１８ｄの出力とを加算する。

なお、図５Ａに示す構成例では、乗算結果に第３積和回路１０ｂからの下位ｋビットの出力を先に加算し、その後にｃ₄レジスタ１８ｄの出力を加算するようになっているが、これとは逆に、先にｃ₄レジスタ１８ｄの出力、その後に第３積和回路１０ｂからの下位ｋビットの出力を加算するように構成しても良い。

図８は、アルゴリズム６のコア処理の内容を示す説明図である。
第３積和回路１０ｂ内にて、Ａレジスタ１２の出力ａ_i （ｋビット）とＢレジスタ１３の出力ｂ_j（ｋビット）とを乗算し、その乗算結果（２ｋビット；３０）に、選択回路１９（Ｙレジスタ１５）の出力（ｋビット；３１）とｃ₃レジスタ１８ｃの出力（ｋビット；３２ｃ）とを加算する。

なお、選択回路１９は、ｊの値と０とを比較し、ｊの値が０である場合には第３積和回路１０ｂへ０を出力し、ｊの値が０でない場合にはＹレジスタ１５の格納値ｙ_iを第３積和回路１０ｂへ出力する。

第３積和回路１０ｂは、その演算結果（２ｋビット）の上位ｋビット（３４）をｃ₃レジスタ１８ｃへ出力し、その下位ｋビット（３５）を第４積和回路１１ｂへ出力する。ｃ₃レジスタ１８ｃは、このｋビットを次回の演算用のキャリー変数として格納する。

第４積和回路１１ｂ内にて、Ｎレジスタ１４の出力ｎ_i（ｋビット）とｍレジスタ１６の出力ｍ（ｋビット）とを乗算し、その乗算結果（２ｋビット；３６）に、第３積和回路１０ｂからの下位ｋビット出力（３５）と、ｃ_４レジスタ１８ｄのｋビット出力（３２ｄ）を加算する。

第４積和回路１１ｂは、その演算結果（２ｋビット；３７）の上位ｋビット（３８）をｃ₄レジスタ１８ｄへ出力し、その下位ｋビット（３９）をＹレジスタ１５へ出力する。ｃ₄レジスタ１８ｄは、このｋビットを次回の演算用のキャリー変数として格納する。また、Ｙレジスタ１５は、そのｋビットのデータを値ｙ_i-1 として格納する。

図９は、モンゴメリ法による乗算剰余処理の一例を示すフローチャートの概観図である。
このフローチャートにおいて、ｊループが（アルゴリズム３）のループ処理に当たる。ｊループの内側では、Ａ×ｂ_j 及びｍ×Ｎの多重精度×単精度の部分乗算を行っている。ｉループは、Ａ×ｂ_j 及びｍ×Ｎの多重精度×単精度の計算を単精度×単精度の部分乗算で行っている部分である。ｉループの内部ではａ_i ×ｂ_jとｍ×ｎ_i との部分乗算を行っている。

以下に、アルゴリズム６における、コア処理以外の処理も含めた全体の処理の流れの具体例について説明する。
以下の例では、Ｎ，Ａ，Ｂのビット長を1024ビット、ｇ＝32、処理単位ｋ＝32、Ｒ＝２¹⁰²⁴、ｒ＝２³²とする。
（コア前処理）
図１０は、コア前処理を行う構成の一例を示す図である。

レジスタ４１はモンゴメリ計算用のパラメータｎ’₀ を保持する。乗算回路４０は第３積和回路１０ｂの出力とレジスタ４１の出力とを乗算する。このコア前処理では、コア処理で使用するｃ₃レジスタ１８ｃ，ｃ₄レジスタ１８ｄ及びｍレジスタ１６ａの初期化を行っている。第３積和回路１０ｂは、まず、Ａレジスタ１２，Ｂレジスタ１３からの入力ａ₀，ｂ_j を乗算し、その乗算結果とＹレジスタ１５からの入力ｙ₀ とを加算する。

なお、コア処理と同じ積和回路を使用する場合は、更にその結果と０とを加算する。
そして、結果の上位32ビットをｃ₃レジスタ１８ｃに格納し、下位32ビットを第４積和回路１１ｂとパラメータｍを計算するための乗算回路４０とへ出力する。

乗算回路４０は、第３積和回路１０ｂの出力とレジスタ４１の出力ｎ’₀ とを乗算し、その乗算結果の下位32ビットをｍレジスタ１６ａに出力する。第４積和回路１１ｂは、Ｎレジスタ１４からの入力ｎ₀とｍレジスタ１６ａの値とを乗算し、その乗算結果と第３積和回路１０ｂからの出力とを加算する。

なお、コア処理と同じ積和回路を使用する場合は、更にその結果と０とを加算する。
そして、結果の上位32ビットをｃ₄レジスタ29に格納する。下位32ビットは使用しない。
（コア処理）
図１１は、ｉループ内部処理であるコア処理を行う構成の一例を示す図である。

Ｙレジスタ１５は前回の処理結果の保持及び今回の処理結果の出力用レジスタである。選択回路１９は、アルゴリズム３におけるＹ＝０の処理に相当するものである。第３積和回路１０ｂは、まず、Ａレジスタ１２，Ｂレジスタ１３からの入力ａ_i ，ｂ_jを乗算し、その乗算結果とＹレジスタ１５からの入力ｙ_iとを加算し、更にその加算結果とｃ₃レジスタ１８ｃの値とを加算する。そして、結果の上位32ビットをｃ₃レジスタ１８ｃに格納し、下位32ビットを第４積和回路１１ｂへ出力する。

第４積和回路１１ｂは、まず、Ｎレジスタ１４からの入力ｎ_i とｍレジスタ１６ａの値とを乗算し、その乗算結果と第３積和回路１０ｂからの出力とを加算し、更にその加算結果とｃ₄レジスタ１８ｄの値とを加算する。そして、結果の上位32ビットをｃ₄レジスタ１８ｄに格納し、下位32ビットをＹレジスタ１５のｙ_i-1に格納する。

アルゴリズム３のＹ＝Ｙ／ｒの処理は、ｉ回目の計算結果をｙi-1 に格納することで実現している。
（コア後処理）
図１２は、コア後処理を行う構成の一例を示す図である。

加算回路４５は、ｃ₃レジスタ１８ｃの出力と、ｃ₄レジスタ１８ｄの出力と、選択回路１９の出力とを加算する。選択回路４６は、加算回路４５からのキャリー出力を０，１と比較し、０であれば０を、１であれば１を、Ｙレジスタ１５へ出力する。このコア後処理では、コア処理終了後のキャリー変数ｃ₃ ，ｃ₄ の値の処理を行っている。

ｃ₃レジスタ１８ｃ，ｃ₄レジスタ１８ｄの値、及び、Ｙレジスタ１５からの入力ｙ₃₂を加算回路４５に入力し、その加算結果をＹレジスタ１５のｙ₃₁に出力し、キャリーを処理単位である32ビットの値に変換してＹレジスタ１５のｙ₃₂に出力する。ここで、出力からもわかるように、ｙ₃₂の値はＹレジスタ１５では32ビットとして扱われているが、実際は１ビットの値であるので、加算結果は32ビット＋キャリーの範囲で収まる。
（積和回路の構成）
図１３は、上述の構成例で用いた積和回路の構成の一例を示す図である。

ここでは、全ての処理単位を32ビットになるように構成している。
積和回路は、１個の32ビット乗算器５１と、４個の32ビット加算器５２，５３，５４，５５とを有する。

Ａ，Ｂの入力値は32ビット乗算器５１で乗算され、上位32ビットと下位32ビットとの２つで出力される。32ビット加算器５３は、32ビット乗算器５１の出力の下位32ビットと入力Ｒの値とを加算し、その加算結果の出力32ビットを32ビット加算器５５へ、キャリーを32ビット加算器５２へそれぞれ出力する。32ビット加算器５２は、32ビット乗算器５１の出力上位32ビットと32ビット加算器５３のキャリー出力とを加算し、その加算結果の出力32ビットを32ビット加算器５４へ出力する。この加算ではキャリーが発生しないことが理論的に証明されている。32ビット加算器５５は、32ビット加算器５３の出力と入力Ｃの値とを加算し、その加算結果の出力32ビットを積和回路のＬ出力（下位32ビット）として出力し、キャリーは32ビット加算器５４へ出力される。32ビット加算器５４は、32ビット加算器５２の出力と32ビット加算器５５のキャリー出力とを加算し、その加算結果の出力32ビットを積和回路のＨ出力（上位32ビット）として出力する。この加算ではキャリーが発生しないことが理論的に証明されている。

上記したすべてのアルゴリズム及び回路は特許文献１に記載されている。
上述した従来の乗算剰余装置に使用した積和回路は、図１３に示されるように、４入力２出力の積和回路であった。この積和回路は、２入力の乗算及びその結果と残る２入力との加算を行う。一般的なプロセッサには４入力２出力積和回路が搭載されておらず、図１２の２つの積和回路を単純化できないという問題がある。また、通常、Ｐｅｎｔｉｕｍ（登録商標）プロセッサにおいては、２入力２出力の乗算器しか搭載されていない。それでも、２入力２出力の乗算器と加算器を使って、上記４入力２出力の積和回路と同等の機能を実現する場合には、あまり性能劣化は問題にはならなかった。ところが、最近のＩｔａｎｉｕｍ２プロセッサに代表されるプロセッサには、３入力２出力の積和回路が搭載されている。特に、Ｉｔａｎｉｕｍ２プロセッサには、３入力２出力の積和回路が２台搭載されている。しかし、上記従来の４入力２出力の積和演算を使用するアルゴリズムでは、このような３入力２出力の積和回路を搭載したプロセッサの能力を最大限生かすことはできない。
特開平１１−２１２４５６号公報

本発明の課題は、モンゴメリ法に適した、３入力２出力の積和演算を用いた、効率の良い乗算剰余計算装置、及び、その方法を提供することである。
本発明のモンゴメリ法用乗算剰余計算装置は、ある値ＡとＢの乗算をし、法Ｎによる剰余算を行って、結果Ｙを計算するモンゴメリ法用乗算剰余計算装置において、Ａのある１桁の値と、Ｂのある１桁の値と、キャリー値との３値を入力とし、Ａのある１桁の値とＢのある１桁の値の乗算を行い、これにキャリー値を加算した結果を、自身の新たなキャリー値としての上位桁と、下位桁の２値に分けて出力する第１の積和計算手段と、Ｎのある１桁の値と、ある１桁の値ｍと、キャリー値との３値を入力とし、Ｎのある１桁の値とある値ｍとの乗算を行い、これにキャリー値を加算した結果を、自身の新たなキャリー値としての上位桁と、下位桁の２値に分けて出力する第２の積和計算手段と、第１の積和計算手段の出力の下位桁と、第２の積和計算手段の出力の下位桁と、変数Ｙのある１桁と、キャリー値とを加算した結果を、自身の新たなキャリー値としての上位桁と、下位桁の２値に分けて出力し、該下位桁を変数Ｙのある１桁に格納する加算手段とを備えることを特徴とする。

従来のアルゴリズム４のコア処理を実行する乗算剰余計算装置の構成図である図１の場合の従来の積和回路の構成図（その１）である。図１の場合の従来の積和回路の構成図（その２）である。従来のアルゴリズム４のコア処理の内容を示す説明図である。従来のアルゴリズム５のコア処理を実行する乗算剰余計算装置の構成図である。図４の場合の従来の積和回路の構成図（その１）である。図４の場合の従来の積和回路の構成図（その２）である。従来のアルゴリズム５のコア処理の内容を示す説明図である。従来のアルゴリズム６のコア処理を実行する乗算剰余計算装置の構成図である。従来のアルゴリズム６のコア処理の内容を示す説明図である。モンゴメリ法による乗算剰余処理の一例を示すフローチャートの概観図である。コア前処理を行う構成の一例を示す図である。ｉループ内部処理であるコア処理を行う構成の一例を示す図である。コア後処理を行う構成の一例を示す図である。従来の積和回路の構成の一例を示す図である。本発明の実施形態のアルゴリズムのコア処理を実行する乗算剰余計算装置の構成図である。本発明の実施形態のアルゴリズムにおけるコア前処理を行うための装置構成を示す図である。本発明の実施形態のアルゴリズムにおけるコア後処理を行うための装置構成を示す図である。

本発明の実施形態においては、３入力２出力の積和回路を有効に使用した、モンゴメリ法の使用のための演算回路を提供する。
以下に、３入力２出力の積和回路に適した本発明の実施形態について説明する。

本発明の実施形態では、上記アルゴリズム６のコア処理部において、２つの３入力２出力積和回路を用いてアルゴリズムを実行する。本発明の実施形態のアルゴリズムを実行する演算回路においては、第1積和回路が出力する上位ｋビットはキャリー変数ｃ_１として第１積和回路に戻し、第2積和回路が出力する上位ｋビットはキャリー変数ｃ_２として第2積和回路に戻し、加算回路の出力結果である（ｋ＋２）ビットを上位2ビットと下位ｋビットとに分離し、上位２ビットをキャリー変数ｃ_３として加算回路に戻す。
この場合のアルゴリズムを以下に示す。
（アルゴリズム）
乗算する２数Ａ，Ｂ，剰余の法Ｎ，モンゴメリ乗算のパラメータｎ’₀，出力用変数Ｙが何れもｒ進数で、
Ａ＝（ａ_g-1 ，ａ_g-2，…，ａ₀ ）_r ，
Ｂ＝（ｂ_g-1 ，ｂ_g-2，…，ｂ₀ ）_r ，
Ｎ＝（ｎ_g-1 ，ｎ_g-2，…，ｎ₀ ）_r ，
Ｙ＝（ｙ_g ，ｙ_g-1，…，ｙ₀ ）_r ，
ｎ’₀，
ｒ＝２^k，
Ｒ＝ｒ^g
とあらわされ、ｒ進１桁の一時変数をtmp1，tmp2，キャリー変数をｃ₁，ｃ_２，ｃ_３とする場合、次に示すｉ，ｊの繰り返し処理によりＡＢＲ^-1mod Ｎを単精度×単精度の計算として求めることができる。

Ｙ＝０
for ｊ＝０ to ｇ−１ ……………………………
（ｃ_１，tmp1）_r ＝ａ₀・ｂ_j ＋ｙ₀
ｍ＝tmp1・ｎ’₀ mod ｒ
（ｃ_２，tmp1）_r ＝tmp1＋ｍ・ｎ₀ コア前処理
ｃ_３＝0
for ｉ＝１ to ｇ−１ ……………………………
（ｃ_１，tmp1）_r ＝ａ_i・ｂ_j＋ｃ_１
（ｃ_２，tmp2 ）_r ＝ｍ・ｎ_i＋ｃ_２コア処理
（ｃ_３，ｙ_i-1 ）_r ＝ tmp1＋tmp2＋ｃ₃＋ｙ_i
next ｉ ……………………………
（ｃ₂，ｃ₁）_r ＝ｃ₁ ＋ｃ₂ ＋ｃ_３＋ｙ_g
ｙ_g-1 ＝ｃ₁ コア後処理
ｙ_g ＝ｃ₂
next ｊ ……………………………
if Ｙ≧Ｎ then Ｙ＝Ｙ−Ｎ補正処理
if Ｙ＜Ｎ then return Ｙ
ここで、（）_r は、括弧内のｒ進数１桁の変数を多重精度として扱うことを示している。またキャリー変数ｃ₂ はｒ進数１桁で表現しているが、内容は１ビットの値である。

図１４は、本発明の実施形態のアルゴリズムのコア処理を実行する乗算剰余計算装置の構成図である。
図１４に示す乗算剰余計算装置は、内部で乗算及び加算を行う積和回路６０及び積和回路６１と、加算回路６２と、乗算する一方の数Ａ：（ａ_g-1 ，ａ_g-2 ，…，ａ₀ ）を保持する第１レジスタとしてのＡレジスタ６３と、乗算する一方の数Ｂ：（ｂ_g-1，ｂ_g-2 ，…，ｂ₀ ）を保持する第２レジスタとしてのＢレジスタ６４と、加算回路６２の前回の演算結果の下位ｋビット出力を保持し、次回の演算の下位ｋビット出力を格納する第３レジスタとしてのＹレジスタ６５と、モンゴメリアルゴリズムにおけるパラータｍを保持する第４レジスタとしてのｍレジスタ６６と、剰余の法Ｎ：（ｎ_g-1，ｎ_g-2 ，…，ｎ₀ ）を保持する第５レジスタとしてのＮレジスタ６７と、キャリー変数ｃ₁を保持する第６レジスタとしてのｃ₁レジスタ６８と、キャリー変数ｃ₂を保持する第７レジスタとしてのｃ₂レジスタ６９と、キャリー変数ｃ_３を保持する第８レジスタとしてのｃ_３レジスタ７０と、ｊの値と０とを比較してその出力を選択する選択回路７１とを有する。

なお、図１４中、積和回路６０、積和回路６１のA,B,C,H,Lは全てｋビットである。ｋビットのｋとは、演算に使用するプロセッサが単精度の数を表現する場合に用いるビット数であり、３２ビットプロセッサの場合には、ｋは３２である。A×B+Cの積和結果２ｋビットを（H,L）と表現し、Hが上位ｋビット、Lが下位ｋビットとなる。図１４中、加算回路６２は、A,B,C,D,Lは全てｋビット、Hのみ２ビット（ソフトウェアの場合にはHもkビット）。A+B+C+Dの加算結果（k+2）ビットを（H,L）と表現し、Hが上位２ビット（ソフトウェアの場合にはｋビット）、Lが下位ｋビットとなる。なお、加算回路６２は、４入力２出力の加算回路を用いなくても良い。すなわち、加算演算は、乗算演算に比べ、計算量が少ないので、モンゴメリ法による演算に要する時間や負荷に与える影響は少ない。したがって、たとえば、２入力２出力の加算回路を組み合わせて加算回路６２としても、本発明のアルゴリズムの性能には大きな影響は与えない。よって、図１４では、加算回路は４入力２出力加算回路を使っているが、その構成法はここでは規定しない。２入力２出力加算を３個使用すれば、加算回路６２と同様の回路は実現可能であるし、キャリー付加算命令を使用する方法もあり、この加算は多種の構成法がある。

図１４において、積和回路６０は、Ａの１桁とＢの１桁と、キャリー１桁とを入力し、積和計算をし、答えを（Ｈ、Ｌ）として出力している。すなわち、積和回路６０では、前述の本発明の実施形態のアルゴリズムのコア処理の内、（ｃ_１，tmp1）_r ＝ａ_i・ｂ_j＋ｃ_１を計算している。積和回路６１は、１桁のｍと、Ｎの１桁と、キャリー１桁を入力し、積和計算を行い、答えを（Ｈ、Ｌ）として出力している。すなわち、積和回路６１では、前述の本発明の実施形態のアルゴリズムのコア処理の内、（ｃ_２，tmp2 ）_r ＝ｍ・ｎ_i＋ｃ_２を行っている。

加算回路６２では、積和回路６０の演算結果の下位ｋビットと積和回路６１の演算結果の下位ｋビットと、Ｙの１桁と、キャリー１桁を入力し、演算結果の下位ｋビットをＹに格納している。すなわち、加算回路６２では、（ｃ_３，ｙ_i-1 ）_r ＝ tmp1＋tmp2＋ｃ₃＋ｙ_iを行っている。

なお、積和回路６０と６１は、２つの３入力２出力の積和回路を用いて並列に行うのが好ましく、また、加算回路６２の演算が行われている間に、積和回路６０と６１は、次回の演算を行っていることが好ましい。

更に、以下に、コア前処理とコア後処理を行う乗算剰余計算装置の構成を示すが、本発明の実施形態のアルゴリズムが、従来技術のアルゴリズム６の変形構成であるため、アルゴリズム６の場合とほぼ同じである。

図１５は、本発明の実施形態のアルゴリズムにおけるコア前処理を行うための装置構成を示す図である。
レジスタ４１はモンゴメリ計算用のパラメータｎ’₀ を保持する。乗算回路４０は積和回路６０の出力とレジスタ４１の出力とを乗算する。このコア前処理では、コア処理で使用するｃ_１レジスタ６８，ｃ_２レジスタ６９、ｃ_３レジスタ７０及びｍレジスタ６６の初期化を行っている。積和回路６０は、まず、Ａレジスタ６３，Ｂレジスタ６４からの入力ａ₀，ｂ_j を乗算し、その乗算結果とＹレジスタ６５からの入力ｙ_i とを加算する。

そして、結果の上位ｋビットをｃ_１レジスタ６８に格納し、下位ｋビットを積和回路６１とパラメータｍを計算するための乗算回路４０とへ出力する。
乗算回路４０は、積和回路６０の出力とレジスタ４１の出力ｎ’₀ とを乗算し、その乗算結果の下位ｋビットをｍレジスタ６６に出力する。積和回路６１は、Ｎレジスタ６７からの入力ｎ₀とｍレジスタ６６の値とを乗算し、その乗算結果と積和回路６０からの出力とを加算する。そして、結果の上位ｋビットをｃ_２レジスタ６９に格納する。下位ｋビットは使用しない。

以上のコア前処理の演算装置においても、３入力２出力の積和回路を使っている。従来のアルゴリズム６の場合には、コア前処理で、コア処理のときに使用する積和回路と同じ積和回路を使用する場合には、４入力の内、１つを０としたが、本発明の実施形態においては、使用する積和回路が３入力２出力であるので、このような設定は不要である。

また、コア前処理においては、積和回路６０の処理の後に、積和回路６１の処理を行う必要があるため、コア処理のように、積和回路６０と６１を並列に実行することができない。したがって、３入力２出力の積和回路を２つ持っていても、コア前処理では、コア処理ほど効果は出ないが、それでも、３入力２出力の積和回路を有効に使うことはできる。

図１６は、本発明の実施形態のアルゴリズムにおけるコア後処理を行うための装置構成を示す図である。
加算回路４５は、ｃ_１レジスタ６８の出力と、ｃ_２レジスタ６９の出力と、ｃ_３レジスタ７０の出力と、選択回路１９の出力とを加算する。選択回路４６は、加算回路４５からのキャリー出力を０，１と比較し、０であれば０を、１であれば１を、Ｙレジスタ６５へ出力する。このコア後処理では、コア処理終了後のキャリー変数ｃ_１，ｃ_２，ｃ_３の値の処理を行っている。

ｃ_１レジスタ６８，ｃ_２レジスタ６９，ｃ_３レジスタ７０の値、及び、Ｙレジスタ６５からの入力ｙ_ｇを加算回路４５に入力し、その加算結果をＹレジスタ１５のｙ_ｇ−１に出力し、キャリーを処理単位であるｋビットの値に変換してＹレジスタ６５のｙ_ｇに出力する。ここで、出力からもわかるように、ｙ_ｇの値はＹレジスタ６５ではｋビットとして扱われているが、実際は１ビットの値であるので、加算結果はｋビット＋キャリーの範囲で収まる。

以上の、本発明の実施形態によれば、３つの変数を入力とし、２つの出力で演算結果を返すような積和命令を持ち、同時に積和命令を２つ処理することの出来るItanium2プロセッサに代表されるプロセッサにおいて、従来法で構成したものに比べ、４倍の高速化を実現した。これは、積和回路６１、６２を並列化したこと、更に、この並列化により伝播遅延時間が短縮されたことによる。本発明の３入力２出力の積和演算回路は積和回路６１、６２を従来どおりに直列に接続したものにも適用できる。

以上、本発明によれば、３入力２出力の積和演算回路を有する演算装置に適したモンゴメリ法用乗算剰余計算装置を実現できる。同様に、同じような積和回路を持つDSPに実装する場合に高速化が可能であると期待できる。

Claims

ある値ＡとＢの乗算をし、法Ｎによる剰余算を行って、結果Ｙを計算するモンゴメリ法用乗算剰余計算装置において、
Ａのある１桁の値と、Ｂのある１桁の値と、キャリー値との３値を入力とし、Ａのある１桁の値とＢのある１桁の値の乗算を行い、これにキャリー値を加算した結果を、自身の新たなキャリー値としての上位桁と、下位桁の２値に分けて出力する第１の積和計算手段と、
Ｎのある１桁の値と、ある１桁の値ｍと、キャリー値との３値を入力とし、Ｎのある１桁の値とある値ｍとの乗算を行い、これにキャリー値を加算した結果を、自身の新たなキャリー値としての上位桁と、下位桁の２値に分けて出力する第２の積和計算手段と、
第１の積和計算手段の出力の下位桁と、第２の積和計算手段の出力の下位桁と、変数Ｙのある１桁と、キャリー値とを加算した結果を、自身の新たなキャリー値としての上位桁と、下位桁の２値に分けて出力し、該下位桁を変数Ｙのある１桁に格納する加算手段と、
を備えることを特徴とするモンゴメリ法用乗算剰余計算装置。
前記第１の積和計算手段の演算と、前記第２の積和計算手段の演算とは、並列に行われることを特徴とする請求項１に記載のモンゴメリ法用乗算剰余計算装置。
前記モンゴメリ法用乗算剰余計算装置は、公開鍵暗号方式の演算に使用されることを特徴とする請求項１に記載のモンゴメリ法用乗算剰余計算装置。
前記演算の入力及び出力の１桁の値は、プロセッサが単精度の数値を表す場合に用いられるビット数からなることを特徴とする請求項１に記載のモンゴメリ法用乗算剰余計算装置。
前記加算手段が演算を行っている間に、前記第１の積和計算手段と、前記第２の積和計算手段が次回の演算を行うことを特徴とする請求項１に記載のモンゴメリ法用乗算剰余計算装置。
Ａの最下位の１桁の値と、Ｂのある１桁の値と、結果を格納する変数Ｙの１桁とを入力とし、Ａの最下位の１桁の値と、Ｂのある１桁の値とを乗算し、これに変数Ｙの１桁を加算した結果を、前記第１の積和計算手段へのキャリー値の初期値としての上位桁の値と、下位桁の２値として出力する第３の積和計算手段と、
該第３の積和計算手段の出力の内の下位桁と、モンゴメリ法用のパラメータとを入力し、これらを乗算して出力する乗算手段と、
該第３の積和計算手段の出力の内の下位桁と、該乗算手段の出力と、Ｎのある１桁の３値を入力として、Ｎのある１桁の値と該乗算手段の出力とを乗算し、これらに該第３の積和計算手段の出力の内の下位桁を加算し、加算結果の上位桁を前記第２の積和計算手段へのキャリー値の初期値として出力する第４の積和計算手段と、
を更に備えることを特徴とする請求項１に記載のモンゴメリ法用乗算剰余計算装置。
前記第１の積和計算手段と、前記第２の積和計算手段と、前記加算手段のそれぞれの出力であるキャリー値と、前記加算手段の演算後の変数Ｙの最上位桁値を入力し、これらを加算した結果の上位桁を変数Ｙの最上位桁に、下位桁を変数Ｙの上位から２番目の桁に格納する第２の加算手段を更に備えることを特徴とする請求項１に記載のモンゴメリ法用乗算剰余計算装置。
ある値ＡとＢの乗算をし、法Ｎによる剰余算を行って、結果Ｙを計算するモンゴメリ法用乗算剰余計算方法において、
（ａ）Ａのある１桁の値と、Ｂのある１桁の値と、キャリー値との３値を入力とし、Ａのある１桁の値とＢのある１桁の値の乗算を行い、これにキャリー値を加算した結果を、自身の新たなキャリー値としての上位桁と、下位桁の２値に分けて出力し、
（ｂ）Ｎのある１桁の値と、ある１桁の値ｍと、キャリー値との３値を入力とし、Ｎのある１桁の値とある値ｍとの乗算を行い、これにキャリー値を加算した結果を、自身の新たなキャリー値としての上位桁と、下位桁の２値に分けて出力し、
（ｃ）ステップ（ａ）の出力の下位桁と、ステップ（ｂ）の出力の下位桁と、変数Ｙのある１桁と、キャリー値とを加算した結果を、自身の新たなキャリー値としての上位桁と、下位桁の２値に分けて出力し、該下位桁を変数Ｙのある１桁に格納する、
ことを特徴とするモンゴメリ法用乗算剰余計算方法。
ある値ＡとＢの乗算をし、法Ｎによる剰余算を行って、結果Ｙを計算するモンゴメリ法用乗算剰余計算方法をコンピュータに実現させるプログラムにおいて、
（ａ）Ａのある１桁の値と、Ｂのある１桁の値と、キャリー値との３値を入力とし、Ａのある１桁の値とＢのある１桁の値の乗算を行い、これにキャリー値を加算した結果を、自身の新たなキャリー値としての上位桁と、下位桁の２値に分けて出力し、
（ｂ）Ｎのある１桁の値と、ある１桁の値ｍと、キャリー値との３値を入力とし、Ｎのある１桁の値とある値ｍとの乗算を行い、これにキャリー値を加算した結果を、自身の新たなキャリー値としての上位桁と、下位桁の２値に分けて出力し、
（ｃ）ステップ（ａ）の出力の下位桁と、ステップ（ｂ）の出力の下位桁と、変数Ｙのある１桁と、キャリー値とを加算した結果を、自身の新たなキャリー値としての上位桁と、下位桁の２値に分けて出力し、該下位桁を変数Ｙのある１桁に格納する、
ことを特徴とするモンゴメリ法用乗算剰余計算方法をコンピュータに実行させるプログラム。
モンゴメリのアルゴリズムを用いて、プロセッサの単精度（ｋビット）演算による乗算剰余計算を行う装置において、
積和演算を行い、その演算結果を上位ｋビットと下位ｋビットとに分けて出力する第１積和回路と、
積和演算を行いその演算結果を上位ｋビットと下位ｋビットとに分けて出力する第２積和回路と、
加算演算を行いその演算結果を上位２ビットと下位ｋビットとに分けて出力する加算回路と、
前記第１積和回路で乗算される２数を保持する第１及び第２レジスタと、
前記加算回路の下位ｋビット出力を保持し、前記加算回路のその次の回のｋビット入力を格納する第３レジスタと、
モンゴメリのアルゴリズムにおけるパラメータの値を保持する第４レジスタと、
剰余の法を保持する第５レジスタと、
前記第１積和回路の上位kビット出力を保持し、同第1積和回路のその次の回の加算される入力となる数を格納する第6レジスタと、
前記第2積和回路の上位ｋビット出力を保持し、同第２積和回路のその次の回の加算される入力となる数を格納する第７レジスタと、
前記加算回路の上位２ビット出力を保持し、同加算回路のその次の回の入力となる数を格納する第８レジスタとを備え、
前記第１積和回路は、前記第１及び第２レジスタに保持された２数の所定ビットの値を乗算し、その乗算結果に前記第６レジスタに保持された値を加算する演算を行い、前記第２積和回路は、前記第４レジスタに保持された値と前記第５レジスタに保持された数の所定ビットの値とを乗算し、その乗算結果に前記第７レジスタに保持された値を加算する演算を行い、前記加算回路は、前記第１積和回路の下位ｋビット出力と前記第２積和回路の下位ｋビット出力と前記第３レジスタに保持された所定ビットの値と前期第８レジスタに保持された値を加算する演算を行うように構成したことを特徴とするモンゴメリ法による乗算剰余計算装置。
前記第１積和回路は、前記第１及び第２レジスタに保持された２数の所定ビットの値を乗算し、その乗算結果に前記第６レジスタに保持された値を加算するように構成した請求項１０に記載のモンゴメリ法による乗算剰余計算装置。
前記第２積和回路は、前記第４レジスタに保持された値と第５レジスタに保持された所定ビットの値を乗算し、その乗算結果に前記第７レジスタに保持された値を加算するように構成した請求項１０に記載のモンゴメリ法による乗算剰余計算装置。
前記加算回路による演算中に、前記第１及び第２積和回路によりその次の回の演算を行うように構成した請求項１０〜１２の何れか一つに記載のモンゴメリ法による乗算剰余計算装置。
前記加算回路が演算を行う間、前記第１積和回路及び前記第２積和回路で次の回の演算を行うように、パイプライン処理すべく構成したことを特徴とする請求項１０に記載のモンゴンメリ法による乗算剰余計算装置。
前記第１積和回路及び第２積和回路にあって、各自身の上位出力を各自身の次の回のキャリア入力とするようにした請求項１０に記載のモンゴンメリ法による乗算剰余計算装置。
前記第１積和回路及び第２積和回路は、２つのｋビットの数を乗算する手段と、その乗算結果に１つのｋビットの数を加算する手段とを有する請求項１０に記載のモンゴンメリ法による乗算剰余計算装置。