TWI438678B

TWI438678B - 大數量乘法之方法、系統及電腦程式產品

Info

Publication number: TWI438678B
Application number: TW097130432A
Authority: TW
Inventors: Vincent Dupaquis; Russell Hobson
Original assignee: Inside Contactless S A
Priority date: 2007-08-10
Filing date: 2008-08-08
Publication date: 2014-05-21
Also published as: CN101790718B; DE112008002158B4; WO2009023595A1; DE112008002158T5; US20090043836A1; CN101790718A; TW200915174A; US8028015B2

Description

大數量乘法之方法、系統及電腦程式產品

本發明係關於資訊管理。

例如一固態器件中之習知乘法硬體將具有一大小限制，例如，可由該硬體同時處置的一已規定位元數目。通常，乘法硬體係定義成具有一對單字運算元輸入及一二字結果輸出。為了實現乘法累加運算，可將該乘法器輸出連接至一累加器，其寬度通常係至少二字加一位元寬。在該運算之累加部分，該補充位元可係該結果的一部分，或簡單地存在而作為進位資訊，其指示加法情況中的一溢位，或者減法情況中的一欠位。

在密碼學及其他應用中，需要乘包含大數量字之極大整數。為了使用較該乘法硬體更寬之運算元實行此等運算，可將該等運算元截割成一字寬片段，並且以某種規定順序饋送至該硬體中。其對該等片段運算，並且累加中間結果，因而計算最終產物，以作為各種權重之交叉乘積的一和。該等字寬運算元片段以及該等部分結果係儲存於一記憶體中，其係由該乘法器硬體之操作定序器加以定址。例如，一順序可將一第一運算元之片段保持恆定，同時將該等運算元之片段一次掃描一字至該乘法器中，然後使該第一運算元增量至該下一字寬片段，並且重複該第二運算元之掃描。

本發明係關於大數量乘法。一般而言，在一態樣中，本發明之特點係一種電腦實施方法、系統及電腦程式產品，其用於操作一乘法電路，以計算二個運算元(A及B)之乘積，該二個運算元之至少一者係寬於與該乘法電路相關聯的一寬度。該等運算元之每一者包含一或多個相連有序字寬運算元片段(A_j 及B_i )，其特徵為特定權重j及i，其中j係從0至k的一整數，其中i係從0至m的一整數，而且一字係一已規定位元數目(n)。該乘法電路執行字寬運算元片段對乘法運算的一矩陣，該矩陣包含m＋1列及k＋m＋2行，每一列具有一權重x，並且每一行具有一權重y。該乘法電路具有對一記憶體之存取。乘法運算係同時對一對列加以實行。對於每一對列，從該記憶體讀取一對對應B_i 字寬運算元片段，而且對於k＋2行之每一者反覆地實行字寬運算元片段對乘法運算(A_j *B_i )，因而對於該矩陣中之每一行，要求二個額外記憶體讀取操作及一個記憶體寫入操作的一最大值。揭示其他實施方案。

本發明之實施方案可實現一或多個下列優點。描述之乘法電路可同時計算一對列，並且僅要求每行三個記憶體存取(2個讀取及1個寫入)(對應於每一列之字寬運算元片段之最初讀取除外)，使設計如一單一雙埠RAM或二個單埠RAM的一較有效記憶體介面成為可能。另一優點係可失序地計算數對列。隨機化該等列計算之次序可提供該等計算中使用之敏感資料之改良式保護。由於已減少之記憶體存取所致，藉由該乘法電路之功率消耗可係低於其他習知電路。

附圖及以下描述中提出本發明的一或多項具體實施例之細節。依據描述與附圖及申請專利範圍可明白本發明的其他特點、目的及優點。

特定應用程式要求將大於用以計算該結果之硬體之一機器大小之數字一起乘。藉由一解說性範例，可要求具有一32位元之機器大小的一微處理器計算具有128位元輸入運算元之一乘法之結果。因為該等輸入資料係大於該微處理器之機器大小，所以可將該等輸入資料儲存於RAM或另一類似暫時儲存記憶體中，或者可常駐於該微處理器內部之快取記憶體或暫存器中。給定二個128位元輸入運算元A及B，其係儲存於RAM中，而且係由一32位元微處理器加以運算，其中：A＝0x11111111222222223333333344444444；而且B＝0x55555555666666667777777788888888；其中0x表示一十六進位數；可將該計算分解成機器大小之字(在此範例中，其係32位元字寬運算元片段)如下：A＝A₀ ＋A₁ *2³² ＋A₂ *2⁶⁴ ＋A₃ *2⁹⁶ ；而且B＝B₀ ＋B₁ *2³² ＋B₂ *2⁶⁴ ＋B₃ *2⁹⁶ ；其中：A₀ ＝0x44444444；A₁ ＝0x33333333；A₂ ＝0x22222222；A₃ ＝0x11111111；而且 B₀ ＝0x88888888；B₁ ＝0x77777777；B₂ ＝0x66666666；B₃ ＝0x55555555。

該計算以該第一運算元A之每一32位元字寬運算元片段乘以另一第二運算元B中之字寬運算元片段之每一者進行。以下描述一種乘法電路及程序，其用於操作該乘法電路，以便可減少對包含該等運算元A及B之一記憶體之讀取及寫入存取之數目，因而提供一有效記憶體介面。

包含乘法電路之範例系統

參考圖1，其顯示包含一乘法電路102的一系統100。該系統100可計算可寬於該乘法電路102之二個運算元的一乘積。例如，該乘法電路102可使用32位元寬硬體加以實施，而且該等運算元可係64位元、128位元、1024位元，或寬於32位元之其他位元數目。該系統100係組態成用以有效地計算該等運算元之乘積，其係藉由減少記憶體操作之數目，同時使用一已減少硬體大小。

該乘法電路102包含一快取記憶體104、一乘法器106，及一累加器108。該乘法器106包含來自該快取記憶體104之輸入。例如，該等輸入可係該等乘法運算元之字寬運算元片段。在某些實施方案中，乘法器106可乘二個字寬運算元片段，以形成一至少二字寬中間乘積。例如，該乘法器106可乘二個32位元運算元片段，以形成一至少64位元中間乘積。該累加器108接收由該字寬運算元片段對乘法運算所致的一中間乘積。

該累加器108接收來自該乘法器106及該快取記憶體104 之輸入。例如，該累加器108可接收來自該乘法器106之中間乘積，及來自該快取記憶體104的一中間行結果。該累加器包含一累加暫存器110。在特定實施方案中，該累加暫存器110可係至少2n＋2位元(其中n係一字中之位元數目)的一暫時資料儲存器。在其他實施方案中，該累加暫存器110可以寬於2n＋2位元之大小實施。

在某些實施方案中，可將該累加器108組態成用以累加該累加暫存器110中之輸入。例如，該累加器108可將該中間乘積(來自該乘法器106)加至儲存於該累加暫存器110的一值。然後，該累加器108可將該累加結果儲存於該累加暫存器110中。亦可將該累加器108組態成用以重設儲存於該累加暫存器110的一值。例如，該累加器108可將該累加暫存器110重設成零。在另一範例中，該累加器108可將該累加暫存器110重設成該已累加值的一上字。

該累加器108係連接至一記憶體元件，例如，一隨機存取記憶體(RAM)112。在某些實施方案中，該累加器108可將一字寬資料傳輸至該RAM 112。在一範例操作中，該累加器108可擷取欲寫入至該RAM 112之已累加值的一下字。其次，該累加器108可重設該累加暫存器110，其係藉由僅將該已累加值之上字儲存於該累加暫存器110中。

該RAM 112可將資料傳輸至該快取記憶體104。如所示，該RAM 112可將二個一字寬運算元片段傳輸至該快取記憶體104。因為一乘法循環(如進一步描述於下)僅要求來自該RAM 112之二個讀取，所以該RAM 112可包含每行二個記憶體介面。在一實施方案中，該RAM 112係一雙埠RAM，而且在另一實施方案中，該RAM 112係具有二個單埠RAM的一記憶體模組。雖然在此範例中使用一RAM，但在其他實施方案中亦可使用其他讀取寫入記憶體，例如快閃記憶體、串列存取記憶體，或者其他讀取寫入資料儲存器件。

該系統100包含一狀態機114，其用以控制該乘法電路102之操作。例如，該狀態機114可控制從該快取記憶體104至該RAM 112之記憶體存取。如所示，該狀態機114接收來自該乘法電路102之狀態信號。基於該狀態信號，該狀態機114可決定該乘法電路102的一目前狀態。基於該目前狀態，該狀態機114則可將控制信號傳輸至該RAM 112及/或該乘法電路102。在一範例中，該狀態機114可接收該等狀態信號，以決定該快取記憶體104是否已完成從該RAM 112讀取運算元片段。若該快取記憶體104已完成讀取該運算元片段，則該狀態機114可(例如)將控制信號傳輸至該乘法電路102，以便使用該乘法器106乘該等運算元片段。該狀態機114之運算元順序之某些範例係參考圖3描述於下。

在某些實施方案中，該狀態機114可係一數位邏輯電路(例如，場可程式閘極陣列(FPGA)、特定應用積體電路(ASIC)、離散數位電路組件，或者其一組合)，其包含一硬體狀態機結構，用以控制該乘法電路。在其他實施方案中，該狀態機114可係由該系統100加以處理的一電腦程式，用以操作該乘法電路102。在另一實施方案中，該狀態機114可係一處理器，其執行軟體指令，而使用該乘法電路102實行用以乘二個運算元之操作順序。

在各種範例中，該狀態機114可係一操作定序器，其係用以控制由該快取記憶體104存取該RAM 112，而且用以控制分別由該乘法器106與該累加器108所實行之乘法及累加運算之順序。在另一範例中，該狀態機114可指示該乘法電路102使用該乘法器106乘二字寬運算元。例如，該狀態機102可規定由該乘法器106乘來自該快取記憶體104之二字寬運算元。在另一範例中，該狀態機114可指示該乘法電路102將來自該乘法器的一結果累加於該累加暫存器110中。例如，該累加器108可累加該二字寬乘法結果與該累加暫存器110中的一現存值，並將該累加結果儲存於該累加暫存器110中。在另一範例中，該狀態機114可指示該乘法電路102將來自該累加暫存器110的一字(例如，一上字或一下字)儲存至該RAM 112。例如，該狀態機114可造成該累加器108從該累加暫存器110擷取一上字及/或一下字，並將該(等)已擷取資料字儲存於該RAM 112中。在另一範例中，該狀態機114可指示該乘法電路102重設該累加暫存器110。例如，該狀態機114可造成該累加器108從該累加暫存器110擷取一上字，並將該累加暫存器110重設成該已擷取之上字。

乘法電路操作之解說性範例

參考圖2，該乘法電路102之操作將使用以上定義之A及 B運算元藉由一解說性範例加以描述。每一運算元A及B包含相連有序字寬運算元片段A_j 及B_i ，例如以上定義之A₀ 至A₃ 及B₀ 至B₃ 。每一字寬運算元片段之特徵為一特定權重j或i。每一A字寬運算元片段之權重j係從0至k的一整數，其中k係該最大權重，在此範例中，其係"3"。每一B字寬運算元片段之權重i係從0至m的一整數，其中m係該最大權重，在此範例中，其係"3"。

圖2顯示一乘法矩陣200的一示意表示法，其包含m＋1列及k＋m＋2行。每一列具有一權重x，並且每一行具有一權重y。在此範例中，該等列權重之範圍係從0至3，而且該等行權重之範圍係從0至7。該等乘法運算係同時對一對列而非對一單一逐列為基礎加以實行。對於每一對列，從該記憶體讀取一對對應B_i 字寬運算元片段，而且對於每一行(其包含對於一對給定列所填入之單元)反覆地實行字寬運算元片段對乘法運算(A_j *B_i )。如此，當實行每一行之乘法運算時，要求二個額外記憶體讀取操作及一個記憶體寫入操作的一最大值。有利的是，藉此可在該系統中使用一有效記憶體介面，例如一個雙埠RAM或二個單埠RAM。

該狀態機114可操作該乘法電路102以執行由該乘法矩陣200所代表之字寬運算元片段對乘法運算。該狀態機114選擇一次對該乘法矩陣200中的一對列實行乘法運算。於完成該對列之乘法運算後，該狀態機114選擇另一對列，直到完成所有字寬運算元片段對乘法。

在所繪示範例中，該狀態機114選擇以圖2中之箭頭所指示之順序實行字寬運算元片段乘法。如所示，該狀態機114可選擇該乘法矩陣200中之列202、204。於完成該等乘法運算後，該狀態機114選擇列206、208。在一實施方案中，該狀態機114選擇一對列，其係根據每一對中所包含之列之權重之遞增或遞減權重值的一數值順序。例如，該狀態機114可選擇具有權重t及t＋1的一對列，繼而選擇具有權重t＋2及t＋3的一對列。然而，在另一實施方案中，可將列對之選擇隨機化。隨機化列對計算之順序可提供用於該等乘法運算之資料之改良式安全。

再次參考圖2，於選擇該等列202、204時，該狀態機114可指示該乘法電路102讀取一對對應B字寬運算元片段。亦即，將具有對應權重值之B字寬運算元片段讀取至該快取記憶體104，在此範例中，其係B₀ 及B₁ 。該狀態機114可將該等單元填入該等列202、204中，其係藉由對於從權重0至權重4之每一行反覆地實行字寬運算元片段對乘法運算。

作為一範例，該狀態機114可先指示該快取記憶體104從該RAM 112讀取一運算元片段A₀ 。其次，該狀態機114可指示該乘法電路102計算A₀ *B₀ 的一中間乘積。該乘法電路102將該中間乘積儲存於該累加暫存器110。該狀態機114可指示該乘法電路102將該下字(亦即，最低有效n位元)從該累加暫存器110寫入至該RAM 112作為該第0行的一最終行結果(R₀ )，因為不計算第0行中之任何另外值，亦即，對於此對列或任何其他列。該狀態機114可將該累加暫存器 110重設成該已累加暫存器110中之上字，其中該上字係用於計算一下一行254之一結果的一進位值(C₀ )。因此，為了計算第0行，僅要求往返於該RAM 112的一讀取操作(讀取A₀ )及一寫入操作(寫入R₀ )。

使用該進位值C₀ 及讀取自該RAM 112的一額外運算元片段A₁ ，該狀態機114可使用該乘法電路102計算該下一行254的一結果。該狀態機114指示該快取記憶體104從該RAM 112讀取A₁ 。其次，該乘法器106可計算一中間乘積A₀ *B₁ ，而且該累加器108可將A₀ *B₁ 與該進位值C₀ 累加於該累加暫存器110中。如此，該累加暫存器110儲存該進位值C₀ 與A₀ *B₁ 之乘積之和。該乘法器106進一步計算A₁ *B₀ 的一中間乘積。該乘法乘積A₁ *B₀ 係累加於該累加暫存器110中。於累加該乘法乘積後，該累加器108可將來自該累加暫存器110的一下字寫入至RAM 112作為一最終行結果(R₁ )，而且以該累加暫存器110中的一上字重設該累加暫存器作為一下一行256的一進位值C₁ 。總之，對於計算第1行之乘法循環：讀取操作：讀取A₁ (A₀ 係先前所讀取，並且在該快取記憶體中)；寫入操作：寫入R₁ ；R₁ ＝(C₀ ＋A₀ *B₁ ＋A₁ *B₀ )之下字；而且C₁ ＝(C₀ ＋A₀ *B₁ ＋A₁ *B₀ )之上字。

該等字寬運算元片段之權重之和等於該對應行之權重。亦即，在具有一"1"權重之第1行254之以上範例中，對於該二個乘法運算之每一者，該等字寬運算元片段之權重係0＋1＝1及1＋0＝1。

對於該第2行256，該累加器108可累加該乘法乘積A₂ *B₀ 與A₁ *B₁ ，及來自該行254之進位值C₁ 。因為該等列202、204並非對於該行254所計算之最終列，所以該累加器108寫入該累加結果之上字作為第2行的一中間行結果(Int₂ )。總之，對於計算第2行之乘法循環：讀取操作：讀取A2(A1係先前所讀取，並且在該快取記憶體中)；寫入操作：寫入Int2；Int₂ ＝(C₁ ＋A₁ *B₁ ＋A₂ *B₀ )之下字；而且C₂ ＝(C₁ ＋A₁ *B₁ ＋A₂ *B₀ )之上字。

類似地，對於第3行258，該累加器108將該累加結果之下字寫入至該RAM 112作為中間行結果Int₃ ，而且對於第4行260，將該累加結果之下字寫入至該RAM 112作為中間行結果Int₄ 。此時，因為並無另外A字寬運算元片段從RAM 112讀取，所以該狀態機114指示該累加器108將該累加暫存器110之上字寫入至RAM 112作為該下一行(亦即，第5行262)的一中間結果(Int₅ )。

該狀態機114可重設儲存於該乘法電路102之資料。例如，該狀態機114可重設儲存於該累加暫存器110之值。在某些範例中，該狀態機114亦可選擇性清除儲存於該快取記憶體104之值。

其次，該狀態機114可選擇先前尚未選擇之另一對列。在此範例中，該狀態機114選擇列206、208。該狀態機114指示該快取記憶體104將對應於該等列206、208之B運算元片段(亦即，B₂ 及B₃ )讀取至該快取記憶體104。在一實施方案中，B₂ 及B₃ 可取代該快取記憶體104中之B₀ 及B₁ ，以減少該快取記憶體104之大小要求。

該狀態機114將A₀ 值從該RAM 112讀取至該快取記憶體104中。A₀ 及B₂ 之權重之和係欲計算之一第一行(亦即，第2行256)之權重。使用該已決定之權重，該狀態機114可檢查第2權重的一中間結果(Int₂ )是否在該RAM 112中可取得。如先前所描述，Int₂ 係先前已計算，而且係儲存於該RAM 112中，而且係讀取至該快取記憶體104中。在一實施方案中，該狀態機114可指示該累加器108將該累加暫存器110重設成Int₂ 。

藉由累加Int₂ 及A₀ *B₂ 的一乘法乘積，該乘法電路102獲得該第2行256的一最終結果(R₂ )及該下一第3行258之計算的一進位值(C₂ )。亦即，於累加後，該狀態機114可指示該乘法電路102儲存該累加結果之下n位元字作為R₂ ，而且將該累加暫存器110重設成該累加結果之上字作為該進位值C₂ 。在此實例中，該下字係一最終行結果，因為第2行中並無要求計算之額外列。總之，對於計算第2及3列之第2行之乘法循環：讀取操作：讀取Int₂ ；讀取A₀ ；寫入操作：寫入R₂ ；R₂ ＝[(A₀ *B₂ )＋Int₂ ]之下字； C₂ ＝[(A₀ *B₂ )＋Int₂ ]之上字。

因此，對於每行之乘法循環，要求二個讀取操作及一個寫入操作。此不包含讀取B₂ 及B₃ ，因為其係最初已讀取，並且在與第2及3列相關之全部計算中加以快取及使用。如藉由此範例所示範，當計算該乘法矩陣200時所要求之記憶體操作之最大數目係每行二個讀取及一個寫入。如此，該RAM 112可係一個雙埠或二個單埠記憶體。

再次參考圖2，類似地，該狀態機114可指示該乘法電路102藉由累加該進位值C₂ 、A₁ *B₂ 、A₀ *B₃ 及Int₃ 而計算R₃ 。例如，該狀態機114可指示該乘法電路102從該RAM 112讀取A₁ 及Int₃ 。其次，該狀態機114可指示該乘法電路102將Int₃ 累加至該累加暫存器110。於累加Int₃ 後，該狀態機114可順序地指示該乘法電路102計算並且累加該等乘法乘積A₁ *B₂ 及A₀ *B₃ 。藉由擷取該累加結果之下字及上字，該狀態機114可指示該累加器108寫入該累加結果之下字作為R₃ ，及將該累加暫存器110重設成該累加結果之上剩餘位元作為一進位值C₃ 。

以一類似方式，該狀態機114可操作該乘法電路102以計算該最終行結果R₄ 及R₅ 。例如，該乘法電路102可藉由累加來自該第3行258之進位值C₃ 、Int₄ 、A₂ *B₂ 及A₁ *B₃ 而計算R₄ 。該乘法電路102可藉由累加來自該第4行260之進位值C₄ 與Int₅ 、A₃ *B₂ 及A₂ *B₃ 而計算R₅ 。

因為對於一行264，並無可用之中間行結果，所以該狀態機114可指示該乘法電路102累加A₃ *B₃ 及來自第5行262 之進位值C₅ 。於累加後，該乘法電路102可將該累加結果之下字寫入至RAM 112作為R₆ 。此時，完成該等列206、208之字寬運算元片段乘法運算，而且沒有欲計算之更多列。因此，將該累加結果之上剩餘位元寫入至該RAM 112作為第7行266之最終結果(亦即，作為R₇ )。

可從該RAM 112讀取A及B之乘法結果，其係藉由計算：R＝R₀ ＋R₁ *2³² ＋R₂ *2⁶⁴ ＋R₃ *2⁹⁶ ＋R₄ *2¹²⁸ ＋R₅ *2¹⁶⁰ ＋R₆ *2¹⁹² ＋R₇ *2²²⁴ 。

用以實行一乘法矩陣計算之範例程序

現在參考圖3，其顯示一程序300的一實施方案，該程序可用於使用該系統100實行一乘法矩陣之計算。為了解說性用途，該程序300將在以上所討論範例及圖2中所示之範例乘法矩陣200之背景中描述。該程序300以於步驟302中接收具有字寬運算元片段A₀ 、A₁ 、A₂ 、...、A_k 的一第一運算元開始。例如，該系統100可接收一第一運算元A，其具有運算元片段A₀ 至A₃ (亦即，k＝3)。其次，該程序300包含在步驟304中接收一第二運算元B，其具有字寬運算元片段B₀ 、B₁ 、B₂ 、...B_m 。例如，該系統100可接收一第二運算元B，其具有運算元片段B₀ 至B₃ (亦即，m＝3)。

在步驟306中，該程序300包含選擇先前尚未計算的一對列：列_i 及列_i＋1 (其中im－1)。例如，該狀態機114可選擇該等列202、204以使用該運算元片段實行乘法運算。其次，該程序300包含在步驟308中從記憶體讀取一對字寬運算元B_i 及B_i＋1 。例如，該快取記憶體104可從該RAM 112讀取一對字寬運算元片段。該程序300包含在步驟310中設定j＝0，亦即，該狀態機114可選擇最初為零之A_j 的一權重j。

該程序300包含在步驟312中從該記憶體讀取A_j 。例如，該快取記憶體104可從該RAM 112讀取該運算元片段A₀ 。在步驟314中，該程序300包含決定是否j＝0。若j＝0，則該程序300包含在步驟316中實行乘法g＝A_j *B_i 。例如，當選擇該等列206、208時，該乘法電路102可實行該第2行256的一乘法A₀ *B₂ 。若j≠0，則該程序300包含在步驟318中實行乘法g＝A_j *B_i ＋A_j－1 *B_i＋1 。例如，當選擇該等列202、204時，該乘法電路102可實行在行254的一乘法A₁ *B₀ ＋A₀ *B₁ ，以計算R₁ 。

在步驟316或318中實行乘法後，該程序300包含在步驟320中決定Int_i＋j (具有權重＝i＋j的一中間行結果)是否存在。例如，該狀態機114可檢查Int₂ 是否存在於RAM 112中。若Int_i＋j 存在，則該程序300包含在步驟322中從該記憶體讀取Int_i＋j 。在以上描述之範例中，當選擇該等列206、208時，該快取記憶體104可讀取Int₂ ，因為先前已計算該行256(在該等列202、204中)。若Int_i＋j 不存在，則該程序300包含在步驟324中將Int_i＋j 設定為零，否則實行步驟322，以便從該記憶體讀取Int_i＋j 。

在步驟322中從該記憶體讀取Int_i＋j 或者在步驟324中將Int_i＋j 設定為零後，該程序300包含在步驟326中累加 g＋Int_i＋j ＋C_i＋j－1 (其中C_i＋j－1 係來自前一行乘法的一進位)。例如，該累加器108可累加Int₃ 、A₁ *B₂ 、A₀ *B₃ 及來自該第2行256之乘法的一進位C₂ ，以計算該第3行258的一行結果。於累加後，該程序300包含在步驟328中決定對於Col_i＋j 所計算之更多列。例如，該狀態機114可決定是否需要對於Col_i＋j 填入該矩陣200中之更多列，若對於Col_i＋j 不計算更多列，則該程序300中包含在步驟330中寫入該累加結果之下字作為Col_i＋j 的一最終結果(R_i＋j )。例如，對於第1行254，該累加器108可寫入A₁ *B₀ 、A₀ *B₁ 及來自第0行252之進位C₁ 之累加結果之下字作為R₁ ，因為對於第1行254不計算更多列。若對於該Col_i＋j 欲計算更多列，則該程序300包含在步驟332中寫入該累加結果之下字作為一中間結果(Int_i＋j )。例如，在計算該等列202、204中，該累加器108可寫入A₃ *B₀ 、A₂ *B₁ 及來自該行256之進位C₂ 之累加結果之下字作為Int₃ (而非R₃ )，因為對於該第3行258必須再計算更多列。

該程序300包含在步驟334中設定該累加結果之上剩餘位元作為進位(C_i＋j )。例如，該累加器108可將該累加暫存器110重設為目前儲存於該累加暫存器110之一值之上字。在步驟336中，該程序300包含決定是否j>k。若jk，則重複該步驟312。若j>k，則該程序300包含在步驟340中實行乘法g＝A_j *B_i＋1 。例如，在實行該第6行264之乘法(其中j＝k＝3)中，該乘法電路102可實行A₃ *B₃ 。

在步驟342中，該程序300包含決定是否欲計算更多列。例如，該狀態機114可檢查是否未填入該矩陣200中之任何列。若欲計算更多列，則該程序300包含在步驟344中寫入該累加結果之下字作為一中間結果(Int_i＋j )。其次，該程序300包含在步驟346中寫入該累加結果之上字作為中間結果(Int_i＋j＋1 )，而且程序循環回至步驟306並且繼續。例如，當選擇該等列202、204時，於實行該第4行260之乘法運算後，該乘法電路102可將該下字寫入至該累加暫存器110中作為Int₄ ，而且將該上字寫入至該累加暫存器110中作為Int₅ 。

在步驟342中，若不計算更多列，則該程序300包含在步驟348中寫入累加結果之下字作為一最終結果(R_i＋j )。其次，該程序300包含在步驟350中寫入該累加結果之上字作為一最終結果R_i＋j＋1 ，而且該程序300結束。例如，當完成計算該等列202、204後之行264時，該累加器108可將該下字寫入至該累加暫存器110中作為R6，而且將該上字寫入至該累加暫存器110中作為該R7。然後可從該RAM 112讀取A及B之乘法結果，其係藉由計算：R＝R₀ ＋R₁ *2³² ＋R₂ *2⁶⁴ ＋R₃ *2⁹⁶ ＋R₄ *2¹²⁸ ＋R₅ *2¹⁶⁰ ＋R₆ *2¹⁹² ＋R₇ *2²²⁴ 。

雖然描述該乘法系統及程序之某些實施方案，但亦可使用其他實施方案。在各種實施方案中，該狀態機114可從該等m＋1列隨機地選擇一對列。例如，該狀態機114可包含一亂數產生器。使用該亂數產生器，該狀態機114可產生一亂數，其代表先前未選擇之矩陣200中的一對列。然後該狀態機114可進行至使用該等隨機選擇之列以實行乘法運算。在某些範例中，該隨機選擇可改良該系統100之安全。一對列不必係一對相鄰列；任二列可係一對。

在某些實施方案中，可將該狀態機114組態成用以一次實行二列以上之乘法運算。在此一實施方案中，可要求一較大累加器。在一範例中，該系統100可選擇一群三或多個列，以便同時實行乘法運算。在某些實施方案中，該三或多個列係根據每一群中包含之列之權重之遞增或遞減權重值的一數值順序所選擇。在某些範例中，選擇更多列進行乘法可進一步減少用於乘二個大數量之記憶體存取。

程序300中及關於圖2所描述之範例中之步驟可以與上述不同的一次序加以實行。本文之解說性範例中描述之步驟之次序係解說性，而且所需結果可藉由以一不同次序實現某些或全部該等步驟加以達成。

在其他實施方案中，以上描述之技術亦可用以實行一系列數學運算，例如，A*B＋Z或Z－A*B或A*B－Z，然而其他運算係可能。藉由解說性範例，圖4顯示一乘法矩陣400，其可經執行以計算：A*B＋Z，其中：A＝0x11111111222222223333333344444444；B＝0x55555555666666667777777788888888；而且Z＝0x99999999101010101212121214141414161616161818181820202020224242424

其中0x表示一十六進位數；可將該計算分解成機器大小之字(在此範例中，其係32位元字寬運算元片段)如下：A＝A₀ ＋A₁ *2³² ＋A₂ *2⁶⁴ ＋A₃ *2⁹⁶ ；B＝B₀ ＋B₁ *2³² ＋B₂ *2⁶⁴ ＋B₃ *2⁹⁶ ；而且Z＝Z₀ ＋Z₁ *2³² ＋Z₂ *2⁶⁴ ＋Z₃ *2⁹⁶ ＋Z₄ *2¹²⁸ ＋Z₅ *2¹⁶⁰ ＋Z₆ *2¹⁹² ＋Z₇ *2²²⁴

其中：A₀ ＝0x44444444；A₁ ＝0x33333333；A₂ ＝0x22222222；A₃ ＝0x11111111；B₀ ＝0x88888888；B₁ ＝0x77777777；B₂ ＝0x66666666；B₃ ＝0x55555555；而且Z₀ ＝0x24242424；Z₁ ＝0x20202020；Z₂ ＝0x18181818；Z₃ ＝0x16161616；Z₄ ＝0x14141414；Z₅ ＝0x12121212；Z₆ ＝0x10101010；Z₇ ＝0x99999999。

參考該矩陣400，A及B之乘法運算之出現實質上與以上參考圖2所描述之運算相同。然而在此實施方案中，當計算第0(402)及1(404)列時，將該等Z字寬運算元片段加總至該等乘法乘積，其係以類似於在計算第2(406)及3(408)列時將該等中間值(例如Int2、Int3等)加總至該等乘法乘積的一方式。亦即(例如)，當對於第0(402)及1(404)列計算第0行(410)時，在讀取數值B₀ 及B₁ 的一最初讀取操作後，該等運算係如下：讀取操作：讀取Z₀ 及A₀ 寫入操作：寫入R₀

其中R₀ ＝(A₀ *B₀ ＋Z₀ )之下字；而且進位C₀ ＝(A₀ *B₀ ＋Z₀ )之上字。

對於第0(402)及1(404)列計算第1行(412)之運算係如下：讀取操作：讀取Z₁ 及A₁ 寫入操作：寫入R₁

其中R₁ ＝(A₁ *B₀ ＋A₀ *B₁ ＋C₀ ＋Z₁ )之下字；而且進位C₁ ＝(A₁ *B₀ ＋A₀ *B₁ ＋C₀ ＋Z₁ )之上字。

該矩陣之餘數可以如上的一類似方式計算。因此，對於一對列，每行可無需二個以上讀取操作而實現該等計算。

本說明書中所描述之本發明及所有功能操作可以數位電子電路或者以電腦硬體、韌體或者以其組合加以實施。本發明之裝置可以一電腦程式產品(其有形地體現於一機器可讀取儲存器件中)加以實施，以便由一可程式處理器執行；而且本發明之方法步驟可由一可程式處理器加以實行，該可程式處理器執行本發明之指令的一程式以實行藉由對輸入資料操作並且產生輸出的本發明之功能。

本發明可以一或多個電腦程式有利地實施，其係可在一可程式系統上執行，該可程式系統包含至少一可程式處理器(其經耦合以接收自一資料儲存系統之資料及指令及傳輸資料及指令至一資料儲存系統)、至少一輸入器件，及至少一輸出器件。每一電腦程式可以一高階程序或物件導向程式設計語言或者若有必要則以組合或機器語言加以實施；而且在任何情況中，該語言可係一已編譯或已解譯語言。

藉由範例，適合之處理器包含通用及專用微處理器兩者。一般而言，一處理器將接收來自一唯讀記憶體及/或一隨機存取記憶體之指令及資料。一般而言，一電腦將包含用於儲存資料檔案的一或多個大量儲存器件；此類器件包含磁碟，例如內部硬碟及可移式磁碟；一磁光碟；及光碟。適合用於有形地體現電腦程式指令及資料之儲存器件包含所有形式之非揮發記憶體，藉由範例，其包含半導體記憶體器件(例如EPROM、EEPROM，及快閃記憶體器件)；磁碟(例如內部硬碟及可移式磁碟)；磁光碟；及CD－ROM碟片。前述之任一者可以ASIC(特定應用積體電路)加以補充或合併。

為了提供與一使用者之互動，可將本發明實施於一電腦系統，其具有一顯示器件，例如一監視器或LCD螢幕，用於顯示資訊給該使用者，及一鍵盤與一指向器件，例如一滑鼠或一軌跡球，該使用者可藉此提供輸入給該電腦系統。該電腦系統可經程式化以提供一圖形使用者介面，電腦程式透過其與使用者互動。

已描述本發明之數個具體實施例。儘管如此，將瞭解可進行各種修改，而不致偏離本發明之精神與範疇。因此，其他具體實施例係於下列申請專利範圍之範疇內。

100‧‧‧系統

102‧‧‧乘法電路

104‧‧‧快取記憶體

106‧‧‧乘法器

108‧‧‧累加器

110‧‧‧累加暫存器

112‧‧‧隨機存取記憶體(RAM)

114‧‧‧狀態機

200‧‧‧乘法矩陣

202‧‧‧第0列

204‧‧‧第1列

206‧‧‧第2列

208‧‧‧第3列

252‧‧‧第0行

254‧‧‧第1行

256‧‧‧第2行

258‧‧‧第3行

260‧‧‧第4行

262‧‧‧第5行

264‧‧‧第6行

266‧‧‧第7行

400‧‧‧乘法矩陣

402‧‧‧第0列

404‧‧‧第1列

406‧‧‧第2列

408‧‧‧第3列

410‧‧‧第0行

412‧‧‧第1行

圖1係一方塊圖，其顯示一乘法電路的一範例。

圖2係一第一範例乘法矩陣的一示意表示法。

圖3係一流程圖，其顯示用於根據圖2之乘法矩陣計算二個運算元之乘積的一範例程序。

圖4係一第二範例乘法矩陣的一示意表示法。

各種圖式中之類似參考符號指示類似元件。