TW384447B

TW384447B - Processor with reconfigurable arithmetic data path

Info

Publication number: TW384447B
Application number: TW87108029A
Authority: TW
Inventors: Earle Jennings; George Landers; Glen Haas; Tim B Smith
Original assignee: Infinite Technology Inc
Priority date: 1996-01-22
Filing date: 1998-05-22
Publication date: 2000-03-11

Description

經浐部屮夾"準^U-T消於合竹W印" A7 B7 五、發明説明（/ ) 本發明之技術背景

本發明大致係有關於雙處理器，並且更特定地有關於一種具有複數個可重組構的執行單元且利用一個同步的乘法器_累加器之數位處理器。 I 本發明之背景數位信號處理器在近年來已可見成長的利用。這是因爲製造技術已進步到大型且快速的處理器可被製出之地步。這些處理器的速度可容許大置的計算被執行，使得非常複雜的演算法可在非常短的時間內被執行。這些數位信號處理器的一種用途係爲即時的應用，其中在一輸入上資料的接收、變換器函數的演算法之計算、以及所產生的輸出均幾乎爲即時的。當數位信號處理器被製出時，它們通常被製成提供一特定的計算的演算法以及其相關連的資料路徑。例如，在數位濉波器中，一種有限脈衝響應(FIR)濾波器通常係用一種數位信號處理器(DSP)而加以利用並寅現。典型地，一組係數是被存在RAM中，而然後一乘法器/累加器電路係被設置爲可運作以一種多tap的型態來處理各種的係數與資料。然而，此種類型的應用之缺點係爲DSP係爲了各種特定的應用而爲“客戶訂製的(customized)”》其原因係爲特定的演算法需要不同順序的計算。例如，在數位濾波器中，其通常有一乘法而接著是一個累加的運算。其它的演算法可能需要額外的乘法或是額外的運算以及甚至是某些位 4 (請先M15背面之注項存填寫本萸) r 本紙張尺度適用中闼國家樣準（CNS ) A4規格（210X297公釐） A7 _____B7_ 五、發明说明（> ) 移的運算以達成整個功能。因此，道需要不同的資料路徑的型態*在目前，可重組構的DSP尙未是真寅存在之物* 並且其尙未提供必要的多樣性(versatility)以容許其被組構來涵盖廣大範圃的應用。本發明之槪要好浐部中夾ir'^^h-T消处合竹.ilfpi? (請先《讀背面之注項再填寫本頁) 在此所揭示並主張的本發明係包括一種可重組構的處理單元b此可重組構的處理軍元係包含複數個執行單元，毎個單元具有至少一個輸入以及至少一個輸出。這些執行單元係彼此平行地運算，在每個單元均具有一個與其相關的預定之可執行的演算法之下。一輸出選擇器係被設置用以選出該些複數個執行單元的至少一個输出之一或是多個· 輸出，並提供至少一個輸出至一外部位置以及至少一個回授路徑•一輸入選擇器係被設置用以接收至少一個外部输入以及該回授路徑β界接每個執行單元的至少一個輸入之中的至少一個係爲可實行的，並且進一步選擇性地連接該至少一個的外部_入以及該回授路徑的其中之一或是兩者以選擇該些執行單元的至少一個輸入之中的多個输入係爲可實行的。—個可重組構的暂存器被設置來儀存一個可重組構的指令。此係爲一個組構的控制器所利用，用以根嫌該可重組構的指令來組構該輸出選擇器以及該輸入選擇器，以在一個給定的指令週期之內定義出一個通過該些執行單元的資料路徑型態。在本發明之另一寅施例中，一輸入裝置被設置用以爲 ______5 __ 本紙張尺度適扣中國國家梯準（CNS)A4规格（210X297公釐）經免部中央^準而hJ消资合竹.71卬妒 A7 __B7_ / 月说明（）） / 了下一個指令週期而幢入一個新的可重組構的指令進入該可重組構的暫存器•該組構的控制器係可爲了下一個指令週期而運作來重組構通過該些已被組構的執行單元的資料之資料路徑。一指令記憶髏被設置用以儎存複數個可重組構的指令，而一排序器(sequencer)被設置用以根據一預^ 的執行順序在下一個指令週期中輸出所儀存的可重組構的指令至該可重組構的暫存器。在仍然是本發明之另一特黏中，該些執行軍元的其中至少一個軍元係具有多個可組構的資料路徑經遇其間，在該一執行單元的執行演算法根嫌該指令暫存器的內容係爲可重組構的以選擇該多個資料路徑的其中之一之下•此容許每個執行單元的運算均爲可根據該可重組構的暫存器之內容而爲可程式化的*使得該組構的控制器將組構該通過一執行單元的資料路徑以及相關連的可執行之演算法。圖式之簡要說明爲了更完整地理解本發明與其優點，現將參考結合附圖之以下的說明，其中：圖1說明根嫌本發明之一可重組構的算術資料路徑處理器之一資料流圖；圓2說明該巨排序器(MacroSequencer)的最上層方塊國 « f 圚3說明該巨排序器之更詳細的方塊圖；圖4說明該輸入暫存器之邏轘圖； _6__ 篇 ---------------ο------1------線 ο--------------- {請先«讀背面之注意事項再填寫本頁) 本紙張尺度適中國國家梯率（CNS ) A4規格（210X297公釐） A7 _^_B7__ 五、發明説明（厶）圖5說明該輸入選捍器之邏轘圓；圓6說明該乘法器-累加器的方塊圖：圓7說明該加法器之邏輯圈；圖8說明該位移器的方塊圓；圖9說明該邇緝單元的方塊圖；圖1〇說明該一埠的記億雔之方塊鼷；钃11說明該三埠的記憶髖之方塊価；圖12說明該三埠的索引指標器圖；圓13說明該輸出選擇器之邏辑圖；圖14說明該I/O介面之邏辑圖；圈15說明該巨排序器資料路徑择制器的其塊圖；圖16說明該甓PLA的方塊鼷；圖Π說明基本的乘法器之方塊圖；圓18說明該MAC的另一實施例；圖19說明該爲多項式計算最佳化的MAC之一實施例 * 圖20具有額外四個產生於該乘法器方塊中的數目；圈21說明一基本的乘法器-累加器；圓22說明支援最隹的多項式計算步驟之延伸電路；圓23說明一具有最少的支援電路之乘法器的方塊圖；圖24說明一具有加法器的基本核心，一埠以及三埠的記憶髖之乘法器·累加器的方塊圖；以及圖25說明一具有多個加法器、一埠以及三埠的記憶髏之乘法器-寒加器的方塊圖。 (饋先W讀背面之注項再填寫本頁> 訂本紙張尺度適州中國國家標準（CNS > A4規格（210X297公釐）好浐部中决4|-4'·^^^ T,消价合竹.=(1卬絮 A7 B7__ 五、發明说明（ΐΤ ) 本發明之詳細說明現在參考酾1，本發明之可重組構的算術資料路徑處理器(RADP)之方塊圖係被說明。此RADP係由四個巨排序器分別是10,12,14與16所組成。巨排序器10與12構成 • 一對，而巨排序器14與16則構成第二對。每個巨排序器均有四條匯流排18，標示爲BusO，Busl，Bus2與Bus3的其中一條與其相連。BusO係與巨排序器10相連、Busl則與巨排序器12、Bus2則與巨排序器14、而Bus3則與巨排序器16相連》這些均爲通用的(global>16位元匯流排》—控制匯流排20也被設置，其係爲每8個位元分別連接至該些巨排序器1〇·16的32位元匯流排*每個巨排序器也都有與其相連的I/O匯流排22，每條匯流排22均包括16條I/O 線以容許該些巨排序器ΗΜ6與64個I/O接脚界接。此外，其設置有界接每個巨排序器10-16之一條16位元的输入匯流排24以容許資訊輸入到其中。雙PLA 26係被設置，其具有內建的週邊邏輯以控制資訊到該雙向的控制匯流排 20。該PLA 26透過一條12位元的匯流排28與控制匯流排20界接，在一條20位元的控制匯流排30界接該控制匯流排20並且也透遇一條8位元的控制匯流排32界接到 PLA 26。每個巨排序器10-16係爲一種16位元的固定小數黏 (fixed-point)之處理器，其可以藉由利用該雙PLA 26或直接由該控制匯流排20個別地啓始動作•該匯流排18容許資料根據各種的設計需求而在該些巨排序器10-16之間被 ___8 _ 本紙張尺度適扣中國國家標準（CNS > A4规格（2丨0X297公釐） ---------------訂------線C (請先閱讀背面之注項再填寫本頁) ."中次打碑/,-^-"'消於合竹.?,"— A7 B7_ 五、發明说明（t) 共用<•藉由設置該些匯流排18 * —條16位元的通道係被設置，因而增進了巨排序器之間的資料產出置。此外，每一對巨排序器10與12或14與16係藉由兩條本身的16位元匯流排34、即兩個方向上均爲16位元而彼此互連接。道些自身的匯流排34容許每一對巨排序器因額外的資料& 享而被連成一對。每個巨排序器均用一種長指令字元(LIW)的架構設計，其容許每個時脈週期可進行多個運算•在LIW中獨立的運算擱位係控制巨排序器的資料記憶髏、16位元的加法器、乘法器-累加器、邏辑單元、位移器、以及I/O暫存器，因而它們可在分支(branch)控制之下同時被利用。此種管線化 (pipelined)的架構在每個遇期容許至多該些執行單元的七個運算》此種UW架構容許演算法以小數量的長指令字元來完成而健得效能最佳化。每個巨排序器可被組構來獨立地運算、或是可爲了 32位元的算術運算而被組成對。內建的Glue邏輯該雙PLA 26可被用以啓始串列(stream)程序、輪出致能信號的產生、以及界面的glue邇輯。該八個I/O接脚36 可被個別地組構爲輸入或是輸出的接脚。這些接脚可被用於外部的界面控制》程序的啓始與回應可透過輸入接脚38 由外部直接供應至巨排序器，或者是可透過該控制匯流排 20由該可程式化的PLA來供應。此RADP係可運作在一種 ___9 ---------------1T------^o~ (讀先聞讀背面之注f項再填寫本頁) 本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐） A7 __ _B7__ 五、發明说明（7 ) 組構的運算模式或是一種正常模式之下•該組構的模式係被用來啓始或是重組構該RADP，而該正常模式則係被用來執行演算法· 成對的巨排序器運算的支援該些巨排序器可分別用於16位元的運算、或是成對地用於32位元的加法、減法以及邏辑運算。當成對之時，該些巨排序器是不能夠彼此交換的。巨排序器10與12形成一對，而巨排序器14與16則形成另一對。最低有效16個位元是由巨排序器10與12所處理。該兩條匯流排34係可供該些巨排序器對用於資料的直接交換》資料匯流排由資料匯流排18與輸入資料匯流排24所組成的五條通用的資料匯流排可同時被所有的巨排序器所存取。該些匯流排18之四條匯流排BusO,Busl,Bus2與Bus3係分別與巨排序器10,12,14與16相連。這四條匯流排係從巨排序器的I/O接脚22或是在巨排序器中的一個輸出暫存器（未示出）接收資料·第五條匯流排Bus4都從BUS4IN[15:0] 接脚接收資料》控制匯流排該控制匯流排20是被用來傅達控制、狀態、以及_出致能的資訊在巨排序器與該PLA 26或是外部的巨排序器接 (請先Μ讀背面之注意事項再填寫本頁) 訂 0: 本紙張尺度適州中阐國家標準（CNS ) A4規格（2I0X297公釐） A7 _ _B7____ 五、發明説明（分）脚之間。有六個信號與每個巨排序器相連•兩個被送到巨排序器的控制信號係在以下參考一巨排序器資料路徑控制器而加以描述，並且是被用來：啓始兩個可用的LIW序列其中之一，雄纊該LIW序列的執行*或是藉由重置該傳送與等待的狀籣位元來應答 (acknowledge)巨排序器的狀態旗標· 狀態信號兩個狀態信號，等待與傅送係從巨排序器送出，其係在以下參考一巨排序器資料路徑控制器而加以詳細描述，並且其係指：程式計數器正在排序(sequencing); 巨排序器處於傅送的狀態並已執行遇一特定的LIW ; 該程式計數器繼續來排序；該巨排序器處於等待的狀態並已執行過一特定的LIW :以及該程式計數器不雄績來排序，其在重新開始之前係等待進一步的命令。輸出致能對於每個巨排序器之兩個輸出致能信號係在以下參考一_出選擇的動作而加以描述，並且其係容許輸出致能爲本紙張尺度適用，丨，阈网家標率（€奶）八4规格（210><297公釐） ---------^------1T-----丨線C (請先閱讀背面之注$項再填商本頁) 經浐部-5-^^^^h-T消赍合竹.ίι卬裝 A7 B7 五、發明説明（y) 來自該雙PLA 26的oepla輸出、或是來自巨排序器(》) 的输出致能Ms/ιΟΕ接脚；永速輸出；永逮输入（電源開啓時）；或是選擇性地反轉。输入時脈五個輸入時脈係被提供來容許RADP在不同的傳輸速度之下處理多個資料流。對於每個巨排序器均有一個時脈，而對於該PLA 26則有一個別的時脈。每個巨排序器均可在不同的速率下在個別的資料路徑上運算。該些時脈信號可以爲了該四個巨排序器10-16以及該雙PLA 26之間的同步化而被連在一起。巨排序器之說明現參照圓2，其說明有每個巨排序器10-14的整體方塊圖。此巨排序器大致係由兩個功能方塊、一個算術資料路徑方塊40以及一資料路徑控制器方塊42所組成。除了內含於其中（未顯示）各種的執行方塊之外，該算術資料路徑方塊40係包含一個三埠的記憶體43以及一個一埠的記憶餵44。該三埠的記憶體43以及一埠的記憶體44係由該算術資料路徑46所存取》該資料路徑控制器42係包含一個指令記憶體48 »該三埠的記億體43、一埠的記憶體 44、以及指令記億體48均在一種主動的(active)組構模式 12 __ 本紙張尺度適州中®國家標芈（CNS ) A4規格（210X29*7公釐） (請先《讀背面之注項再填寫本頁} Ί ί A7 B7_ 五、發明说明（期間被載入。該算術資料路徑40係從該資料輸入匯流排 24接收输入，並且透過該界面匯流排18並也透過該對專用的界面匯流排34來提供一個界面。控制信號係透遇控制信號匯流排50、在該控制匯流排20的6個位元上被接收，而狀態信號係透過狀態信號線52而由該控制匯流排20 的2個位元所提供。在正常的運作模式下，該些控制信號可以起始在指令記憧髏48中的兩個程式化之LIW序列的其中之一序列。一旦一序列開始，它將會無限地執行或是進行迴圈，直到由該些控制信號停止爲止。一個規割進入該LIW序列的等待狀態將會停止程式計數器繼績增加LIW序列係爲資料控制、資料處理以及分支的運算之組合》每個巨排序器均可在每個時脈週期執行分支、記憶體存取、邏輯位移、加法、減法、乘法·累加、以及驗入/输出運算的組合。指令記憶髖可在任何時候藉由轉換到主動的組構模式而動態地被重新載入，該模式也起始化整個裝置中所有的暫存器。現參照圖3，其說明巨排序器10-16的巨排序器資料路徑之方塊钃。該資料匯流排18與資料匯流排24係被輸入到輸入暫存器60，該暫存器也接收一個常數當作一値。在該輸入暂存器60中有兩個暫存器，輸入暫存器Α以及输入暂存器B。該輸入暫存器A的輸出係被輸出到線62之上，而該輸入暫存器B的輸出則被輸出到線64之上。在線 62與64之上的輸入暫存器A與B之內容係被输入到一個輸入選擇器方塊66。如同以下將描述的，該输入選擇器可 _^___13_ 本紙張尺度適州中®國家標率（CNS ) A4規格（210X297公兼) (請先《讀背面之注$項再填寫本頁) ΧΙ7 訂

線C A7 B7__ 五、發明説明（〖（）實行來提供管線化結構的中央部份*其中資料係透過六階段(stage)來加以處理。在此巨排序器算術資料路徑中有九個基本的單元β其中六個是資料處理單元而三個是資料控制功能，其中該输入選擇器66是該些資料控制功能的其中之一 •該些資料k 理單元係包含一乘法器·累加器(MAC>68、一加法器70、一邏辑單元72以及一位移器74。該三埠的記憶雔43以及該一埠的記憶髖44也構成該些資料處理單元。該些資料控制功能除了該輸入選擇器66之外，也包括該輸入暫存器方塊 60以及該輸出暫存器方塊76。該_入暫存器方塊60如上所述地可抓取任意兩個連接到其之输入。該輸入選擇器66如上所述地除了接收該兩條線62與64之外*也接收來自該三埠的記憶镰43之輸出於兩條線78之上的兩個輸出，以及接收一條來自該一埠的記憶雔44之輸出線80。其也接收在線82之上、來自該輸出暫存器方塊76的一個輸出，該输出係來自一個暫存器A。該也是輸出自該輸出暫存器方塊76之暫存器B的輸出係被輸出至一條線84之上而到該輸入選擇器◊此外，一個“0” 的値係被輸入到該輸入選擇器方塊66。該輸入選擇器方塊 66係可實行來任意三個運算元用於資料處理單元。這些運算元係被供應至三條匯流排之上，匯流排86、匯流排88 以及匯流排90。匯流排86係被輸入到該MAC 68、加法器 70以及遍輯單元72，而匯流排88亦被輸入到該MAC 68 、加法器70以及邏輯單元72 〇匯流排90只被輸入到一個 __14 _ 本紙張尺度適用中ΐ國家標準（CNS ) A4規格]2]〇\297公釐1 ---------ο------—1Τ------6 (請先《讀背面之注意事項再填寫本頁) A7 ____ B7 五、發明说明（/>) 位移器74 ·該MAC 68也接收在線92之上暫存器B的輸出以及該一埠的記憶髏44的籀出作爲輸入· MAC 68的輸出係包括該加法器70的另一個輸入，該加法器7〇的輸出則係輸入至該輸出選揮器方塊76。該邏輯單元72具有一個被連到該输出選擇器76的輸出，並且一位移器74係具有一個連至該_出選擇器方塊76的輸出。該輸出選擇器方塊76也接收在該輸入暫存器方塊60中來自暫存器B的_ 出作爲一個輸入。暫存器B的輸出係被連接至該巨排序器的pier匯流排34中的輸出線，然而暫存器B的輸出係被輸出至連接到該四條資料匯流排18的其中一條以及該I/O 匯流排22之界面方塊96的_入。該I/O匯流排22也包括一個進入該輸出選捍器76的输入。因此，將於以下更詳細描述，該輸出選擇器/暫存器方塊76可實行來選擇該些資料處理單元的哪兩個係被儀存。好浐部中夾iT.^-^d消赍合竹=ii卬>t {請先閎讀背面之注$項再填寫本頁> 該四個平行的資料處理單元，MAC 68、加法器70、邏輯單元72以及位移器74之每個單元係彼此平行地執行而容許每個週期多個運算之執行。在此巨排序器的資料路徑中的每個資料處理功能將於以下詳細地加以說明。然而，它們是由該巨排序器的LIW暫存器中的運算欄位所控制。如在此所述地，應注意的是該些詞“外部的”與“內部的”並非指相對於RADP爲外部與內部的信號’而只是相對於一個巨排序器爲外部與內部的信號* 在暫存器方塊60中的16位元之輸入暫存器係包含 InRegA與InRegB。共有六個外部的輸入以及一個內部的輸本紙张尺度通州中國ϋ家標準（CNS ) A4規格（210X297公釐） A7 B7 五、發明説明（厂夕）入爲該些輸入暫存器所能利用。該些輸入暫存器係由一個 8至1的多工器100所構成，該多工器的輸出係連接到一暫存器102，該暫存器102的输出係構成該InRegA輸出。同樣地，一個8至1的多工器104係被設g且具有連璋到一暫存器106的輸出*該输出係提供該輸出IiiRegB。多工器100與104兩者的七個輸入係連接到六個輸入，一個輸入是匯流排24的16位元輸入、一個是16位元的常數輸入匯流排108、四個是該些16位元的資料匯流排18、以及一個是該同樣是16位元的成對(pair)鼷流排34。該常數是一個從變化到“65535”的値，其係由該LIW暫存器的位元所產生。該多工器1〇〇的第八個輸入係連接到暫存器 102的輸出，而該多工器104的第八個輸入係連接到暫存器106的輸出。該常數係導入16位元的常數値到任意的計算中》該巨排序器的常數係與巨排序器的控制器以及該MAC 68、位移器74、以及邏辑單元72共用內部的信號。由於LIW的常數櫚位係被共用，故必需小心以確保該些信號的重叠不會發生。RADP的組譯器(assembler)係檢測並報告任何重叠的問題。輸入選擇器現參照圖5，其說明有該輸入選擇器方塊66之方塊圖。該输入選擇器方塊66式由一個4至1的多工器110、一個6至1的多工器112以及一個2至1的多工器114所構 ______]β_ 本紙張尺度適國家標準（CNS) Α4規袼（2丨0X297公釐） ---------ο------1T------ο (請先閱讀背面之注$項再填寫本頁} 經來‘部中央榀隼而只工消費合作私印1t A7 ________B7___ 五、發明说明（/參）成*該多工器112係連接到一個互斥或_ 116的一個輸入。該多工器110的输出係連接到一條匯流排118以提供 IiiBusA信號、互斥或閘116的輸出係連接到一條匯流排 120以提供InBiisB信號、以及多工器114的输出係連接到一條匯流排122以提供IiiBusC信號。進到該輸入選擇器 66的输入係包括：來自該輸入暫存器60的InRegA與InRegB、來自該输出暫存器76的OutRegA與OntRegB、來自該三埠記憶髖的讀取埠1與2而分別在線78之上的 meml 與 mem2、來自該一埠記憶髗的讀取埠而在線80之上的memO、以及 .產生在該輸入選擇器66的常數’0’。來自該巨排序器的控制器（未顯示）的控制信號係決定該八個可能的輸入之哪三個係被利用，並且決定InBusB 是否被反轉。該輸入選擇器66係自動地被用於該MAC 68 、加法器70、位移器74以及邏輯單元72之組合語言運算所控制，因而不需要個別的程式化》輸入的選擇係由該 MAC 68、加法器70、邏輯單元72以及位移器74所利用的相同之組合運算所控制》乘法器·累加器現參照圓6，其說明有該MAC 68的方塊圖。此乘法 ___17____ 本紙張尺度適用t國國家揉準（CNS ) A4規格（210X297公釐） ---------c^------IT-------Cr {請先閱讀背面之注f項再填寫本頁) 籽浐部中央榀羋而工消炝合作社印^ A7 ________B7_ 五、發明説明（丨<) 器·累加器(MAC)68係爲一種三階段的、能夠每兩個週期產生一個16乘16的乘法之一個完整的32位元乘稹之16乘 8乘法器。此種架構係容許在結果從最後一階學輸出之前下一個乘法可被開始於第一階段中，因而一旦管線被載入之後，毎個時脈週期係產生一個16乘8的結果（24位元乘稹）。此MAC 68的輸入係由一個運算元A以及一個運算元 B所構成•該運算元A係由在線80之上該一埠記憶體44 的輸出以及InBiisA 86所構成·其係被輸入到一個3至1 的多工器126，此多工器的輸出係被輸入至一個暫存器130 ，該暫存器130的输出則連到一條16位元的匯流排132 » 該暫存器130的輸出也被輸入回到該多工器126作爲第三

個輸入。該運算元Β係由OutRegB匯流排84以及InBusB 匯流排88所構成•這些匯流排係被輸入到一個3至1的多工器Π4，此多工器的輸出係連到暫存器136。它們也输入到一個兩輸入的多工器138,此多工器的輸出係被輸入至一個暫存器140，暫存器140的輸出則輸入到該多工器134 作爲第三個輸入。暫存器130與136的輸出係被輸入至一個16乘8的乘法器142，此乘法器可寅行來相乘兩個在输入上的運算元以在一條匯流排144之上提供一個24位元的輸出。此係被輸入到一個暫存器146，此暫存器的输出被輸入至一個48位元的累加器148 ·累加器148的輸出係被存在一個暫存器150，此暫存器的输出係反饋到累加器148 的輸入並且饋入一個4至2的多工器152的輸入，暫存器 __18_ 本紙張尺度適Λ中國國家標準（CNS ) Α4規格（210X297公釐） --------ο----------0— (請先閱讀背面之注$項再填寫本頁) 經济部中夾"準而只工消价合竹私卬繁 A7 _______B7_ 五、發明说明 150的輸出係連接到多工器152所有的四個輸入。然後該多工器152在匯流排154與156之上提供兩個用於該加法器70的輸入之輸出。此MAC 68的動作將在以下更詳細地加以說明*任一個運算元或是兩個運算元都可以爲帶有符猇(signed)或是不帶有符號(unsigned)。此乘法器的输入多工器有兩個目的： 1) 它們爲了乘法器而對齊來自運算元B的高或是低位元組，此乘法器係容許16乘8或是16乘16的乘法運算；以及 2) 它們容許每個運算元選自三個不同的來源：運算元A係選自該一埠的記憶髄44、InBiisA 86、或是來自前一週期的運算元A。運算元B係選自OutRegB 84、InBusB 88、或是先前的運算元B之最低有效位元組。乘法器階段142從被暫存的16位元之運算元A以及運算元B的最高有效位元組（8個位元）或是最低有效位元組來產生一個24位元的乘積。累加器階段148係對齊並累加該乘稹•在累加器中的控制係容許此乘稹被乘上1當 <weight>爲低時，或乘上2爲高時。其結果然後爲：當<仙&1)10爲acc時被加到累加器148中的結果、當 <姐心1«>爲clr時被放入累加器148中取代任何先前的値、或是被保持在累加器中取代mult3的運算。每個乘法之週期 ___19__ 本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐） ,QIT4 (請先《讀背面之注$項再填寫本頁) A7 _____ B7 五、發明说明（丨/ρ 〜對於乘法與MAC所需之週期數目係顯示於表1與2 之中。表1 —____ 新乘法之 _ 1 ·— 一乘法 m 16乘8 i6 mt 1 24位元 2 16 HI 16 life% 2 16乘8^6乘8 32位元 3 表2 ηΜΚ^Κ^·Ι»ΗΙ之閜_ Η 乘法 mm 麵 W乘8 16位元 η 32位元 η+1 48位元 η+2 16 乘 16 16位元 2η 32位元 2η+1 48位元 2η+2 --------.Q------1T------01 (4F先閑4!^面之注再填疼本頁) 經漪部中央榀4,-而只^-消货合作私卬家 MAC內部的格式係被該加法器70轉換成標準的整數格式》爲了此原因，所有的乘法與乘·累加的輸出都必須通過該加法器70。若所罾要的是16乘8位元的MAC 68，每個週期都必須載入新的運算元。乘法器142產生一個24位元的乘稹，此乘*然後在第三階段中被累加成爲一個48位元的結果値。在溢位發生前，此容許至少224次的乘-累加的運算。假 ___20____ 本紙張尺度速州中爾國家揉率（CNS ) A4规搞「（ 210X297公釐) " 好浐部屮夾榀^'Λ只工消費合作私卬聚 A7 _B7_ 五、發明説明（P) 如24位元的結果只有上位的16位元爲所需要的，則下位的8個位元可被抛棄。若大於一個16位元的字元被取出時，累加的結果必須以一種特定的順序被取出。首先下位的 16位元的字元係被移到該加法器70、接著是中間的16個位元，而然後是上位之16個位元。在溢位將發生前，此容許至少216次的乘-累加的運算。加法器現參照圓7，其說明有該加法器70的方塊圖。此加法器70可每個週期產生16與16位元的加法、減法、或是 16位元的資料轉換成二補數之16位元的結果。加法器70 也被用於相等、小於、以及大於的比較。加法器70係由兩個加法器管(pipe)160，162所構成。在其輪入係設有兩個多工器164與166，多工器164係接收在匯流排154之上的乘法器输出信號，而多工器166則接收在匯流排156之上的乘法器輸出。此外，多工器164接收在InBusA 86之上的信號，而多工器166則接收在InBusB 88之上的信號作爲一個輸入。多工器164與166的输出係被輸入到加法器管160，此加法器管的輸出係則輸入到一個暫存器168。暫存器168的輸出係被輸入到加法器管162，此加法器管也接收一個外部的進位N位元、一個指示該運算爲32位元或是16位元的運算之信號以及一帶有符號/不帶有符號的位元。加法器管162係提供一個4位元的輸出到一個結合對於相等、溢位、符號以及進位之加法器狀態旗標的暫存 ____21__ 本紙張尺度適用t闽國家標準（CNS ) A4规格（210X297公釐) --------ά------IT------q (請先閲讀背面之注$項再填寫本頁) A7 ΒΊ__ 五、發明说明（if ) 器170、以及在一條匯流排172之上的16位元輸出選擇器。此架構容許結果從最後一階段輸出之前，讓下一個加法器的運算開始於第一階段之中。該输入多工器164與166選擇兩個甩於加法器70運算的資料來源之其中之一 β運算元係從InBusA 86與InBusB 88、或是從乘法器(S8選出》選擇InBusA 86與InBusB 88 是用於簡軍的加法或是減法並且設定該些加法器狀態旗標。該乘法器68的輪出，MultOutA 154與MultOutB 156係被選來用於轉換》第一加法器階段160係接收該些運算元並開始運算。第二加法器階段162則完成該運算並指定該輸出選擇器中其結果將被儲存的輸出暫存器。此兩個加法器階段160與162可分別被控制而用於加與減的運算。來自一對的巨排序器之加法器70可以被一起使用來產生32位元的和或是差。對於這些32位元的運算而言，在管線的等待時間上並沒有增加β加法器70可被處在帶有符號或是不帶有符號的模式下。加法器狀態位元-相等、符號、溢位以及進位等旗標係在一個加法運算(addl或是subl)發生的兩個週期後被設定，並有效地保持一個時脈週期：相等旗標係在一個加法運算期間當兩個運算元爲相等時的兩個週期後被設定；當加法或減法的結果產生一個16位元超出範圍的値時，溢位旗標係被設定；當加法器70爲了不帶有符號的整數算術而被組構時， ____22__—_ 本纸張尺度適用中國國家梂準（CNS ) A4规格（2丨0X297公釐） ---------0------^------Q, (請先《讀背面之注f項再填寫本頁} 經浐部中夾榀卒而h-T·'消於合作私卬掣 A7 B7_ 五、發明説明（/〇) 溢位=進位、範圈=〇到65535 : 當加法器爲了帶有符號的整數算術而被組構時，溢位 =進位XOR符號、範圍=-32768到+32767 ; 當加法或減法的結果爲負値時，符號旗標係被設定；進位旗標係指出進位値是否存在。當輸入是選自MAC 68的输出時，加法器/70可被用來轉換乘法器142的累加器148中的資料成爲標準的整數格式。由於累加器148係爲48位元，乘法器的累加結果必須以一特定的順序被轉換：低位-中間用於32位元的轉換，而低位-中間-高位用於48位元的轉換。一旦轉換的過程蘭始之後，其必須持縷每個週期直到完成。帶有符號的數字轉換係利用到位元30:15。位移器位移模式信號係控制哪些位移功能係被執行：向左邏辑位移η個位元（將低位的位元移向高位的位元）·自該位移器移出的資料係被抛棄，而邏輯’〇’係被用來塡入所移入的位元。向右邏輯位移η個位元（將髙位的位元移向低位的位元）。自該位移器移出的資料係被拋棄，而邏輯’〇’係被用來塡入所移入的位元。向右算術位移η個位元。此係相同於該向右邏輯的位移，除了所移入的位元係塡入位元[15]，該符號位元◊此係等效於將該數目除以2η。本紙張尺度適州中國國家梯準（CNS ) Α4规格（210Χ 297公釐） --------d-----—IT------ο— (請先《讀背面之注f項再填寫本頁) A7 ___B7_ 五、發明説明（// ) 向左旋轉位移η個位元。從最高位的位元移出的位元係被移入最低位的位元。向右規格化(normalized)位移1個位元。所有的位元在次序上係向下位移一位。最低位元係被抛棄而最高的位元係由加法器的溢位暫存器位元所取代。此係被用來調整當兩個16位元的字元相加來產生17位元的結果之數目。邏輯、算術與旋轉的位移可位移〇到15個位元，如該位移長度控制信號所決定的* 邏輯單元現參照圖9，其說明有該邏辑單元72的方塊圖。此邏辑單元72能夠執行兩個16位元的向量之位元對位元的邏輯功能而得到16位元的結果。所有的位元位置都將被施以相同的功能。2個位元之所有16種邏辑功能均被支援。邏辑功能之控制係決定所執行的功能。此遲辑單元72係被描述於美國專利號5,394,030之中，其在此被納入做參考。一埠的記憶髖現參照圖10,其說明有該一埤的記憶體44的方塊圖。此一埠的記憶體44係由一個32乘16的隨機存取計體體

(RAM)所構成》此RAM 44在其輸入上接收來自OutRegA 匯流排82的資料。此RAM 44的輸出係被输入到一多工器 180，此多工器的輸出係被輸入到一暫存器182，此暫存器 182的輸出係被連接到匯流排80。此匯流排80也被輸入回 ___ 本紙張尺度適用中國國家標準（CNS > Α4规格（210X297公釐） (請先閲讀背面之注f項再填寫本頁) 1^1 1.^1 In a 經才‘部屮央ir-準而只Η消货合作乜印絮 A7 B7__ 五、發明説明（//) 到該多工器180的另一個輪入。用於該RAM 178的5位元位址係在一個5位元的位址匯流排184之上被接收•此一埠的記憶髏44支援單一週期的讀取與單一週期的寫入，但不同時支援兩者。在此一埠的記憶髏44中有32個可定址的16位元之記憶體位置。該暫存器182係爲一被設匿來儲存與保持一個讀取動作之結果直到一個新的讀取被執行之後的個別暫存器。讀取或寫入的運算元係控制是讀取或是寫入記憶«被請求。當讀取與寫入的控制均不動作 (inactive)時，沒有動作係被執行。每一個週期只能產生一個動作，讀取或是寫入。索引暫存器〇提供讀取與寫入的位址到此一埠的記憶體。此索引暫存器可隨著每個動作而被增加、減少、或是保持不變。索引的動作與讀取或是寫入的動作均由巨排序器的LIW所控制。三埠的記憶» 現參照國U，其說明有該三埠的記憶體43的方塊圖。此三埠的記憶體43係由一個16乘16的RAM 186所構成，此RAM係接收在匯流排84之上OutBusB的內容作爲輸入並提供兩個輸出，一個翰出係提供一多工器188的輸入而一個輸出則提供一多工器190的输入。多工器188的輸出係被輸入至一暂存器192，而多工器190的輸出則被輪入至一暫存器194。暫存器192的輸出係提供該meml 輸出在線78之上，而哲存器194的輸出係提供該mem2輸出在匯流排78之上，匯流排78各包含16位元的匯流排^ _25_ 本紙張尺度边扣中國國家標準（CNS ) A4规格（210X297公釐) (請先閱讀背面之注f項再填寫本頁) Q. 訂 -9. A 7 ______ B7_ 五、發明説明（ >々）此外，暫存器192的輸出係回授到多工器188的另一個輸入，而暫存器194的輪出則回授到多工器190的輸入·有兩個由該RAM 186所提供之讀取動作，其係藉由兩個讀取位址所提供，一個在4位元的匯流排196之上的Readl位址以及一個在匯流排198之上的4位元位址Read2。寫入的位址則被提供在4位元的匯流排200之上。此三埠的記憶« 43在每個時脈週期係支援兩個讀取以及一個寫入的動作*該兩個讀取埠可獨立地被利用；然而*資料不可以在相同的時脈週期裡寫入任一個讀取的位址。四個索引暫存器係相閨於此三埠的記憶髏。兩個別的暫存器係爲寫入索引而設S :寫入偏移(offset)與寫入索引。此二暫存器可同時或是獨立地被載入或是重置。寫入偏移係提供一種機構將讀取的索引暫存器偏移自該寫入偏移一段固定的距離。遞增與遞減均施加到兩個寫入暫存器，因而該偏移係被維持。該兩個讀取的索引暫存器可被獨立地重置或是對齊至該寫入偏移》智慧型的索引(indexing) 現參照圓12,其說明有該三埠的記憶體之索引指標器的方塊圖。智慧型的索引係運作多個被存取的記億體位址。此在資料爲對稱時特別有用。對稱的係數是藉由提供該寫入偏移從資料的中心並且將讀取索引對齊到該寫入偏移 *讀取索引可由一虛(dummy)讀取來隔開。以一個索引遞增而另一個索引遞減之額外的同時讀取係容許利用相同或 ^_____26 _ 本紙張尺度通用中國國家標準（CNS ) A4规格（2丨0X297公釐） (請先聞讀背面之注f項再填寫本頁) iQ. 訂- -QI. A7 __B7_ 五、發明説明（外）是反轉的係數之資料的加法或是減法。每個索引都有個別的控制來控制其方向。每個索引可遞增或是遞減，以及/或是改欒其方向。在每個索引暫存器的位址中的改變係發生在相關連的埠之上的讀取或是寫入動作之後。智慧型的索引對於其中資料的片段是從離開對稱的資料中心相等的距離處取得之濉波器以及DCT之應用而言爲理想的》此用於資料記憶體中之智慧型的索引方法容許對稱的資料在一半之通常所需要的週期數下被相乘。來自兩側的資料可被加在一起，然後乘上共同的係數》例如，一種通常要花6個乘法以及7個週期之6-抽頭的(tap)濂波器可用一個巨排序器來做成，並且只需要3個週期來完成計算。一個通常需要64個乘法以及65個週期之8點的DCT可用一個巨排序器來做成，並且只需要32個時脈週期來完成計算。输出選擇器現參照圖13，其說明有該輸出選擇器76的方塊圖。此輸出選擇器76是由兩個多工器，一個4輸入的多工器 202以及一個6輸入的多工器204所構成。兩個多工器202 與204都在個別的16位元的匯流排上從該加法器70、邏輯單元72以及位移器74接收輸出。多工器202的輸出係被輸入至一暂存器206，此暫存器的輸出係提供16位元的信號給匯流排82上的OutRegA _出。此匯流排82係回授到該多工器202的刺餘的輸入，並且也回授到該輸入選擇器66。多工器204也接收匯流排64之上的InRegB的內容 ____27__ 本紙張尺度適用中國國家#準（CNS ) A4规格（21〇X297公釐） (婧先《讀背面之注$項再填寫本頁訂好Μ部中失榀羋>PJM.t..消价合竹ii印衆 A7 _B7_ 五、發明説明（〇作爲輸入，並且巨排序器係共用在匯流排64之上的資料。多工器204的輸出係被輪入至一暫存器208，此暫存器的輸出係係構成在匯流排84上的OntRegB之內容，此输出也回授到該多工器204的一個输入並且也回授到該輸入選擇器66 ◊此输出選擇器76係控制输出暫存器OutRegA 206 與OutRegB 2〇8的狀態，並且控制Ms«I/O[15:0]匯流排接脚的狀態。此輸出選擇器76係多工5條16位元的匯流排並且將結果放在該兩個16位元的輸出暫存器206與208之上，此二输出暫存器係驕動兩條晶片上的匯流排82與84 以及巨排序器I/O接脚22。該些輸出暫存器可被保持多個週期》 I/O界面

現參照圖14，其說明有該巨排序器I/O界面的方塊圖。匯流排82之上的輸出暫存器206之內容係被輸入至一個 2輪入的多工器210，另一個輸入則連接到匯流排203以提供巨排序器I/O資料。多工器210的輸出係提供該資料至四條各爲16位元之匯流排18的其中相關連之一條。此外，該16位元的匯流排82係被輸入到一個以輸出致能信號 OE來致能的囅動器212。此驅動器212的輸出係驕動該 I/O匯流排22用於輸出的動作，當此驅動器被禁能 (disabled)時，其係被供應回到該多工器204作爲一個輸入。用於此麇動器212的輸出致能電路是由一個輸出致能信號Ms/ιΟΕ以及一個來自PLA 26的內部信號之信號OEPLA _28____ 本紙張尺Ιϋϋ國國家樣準（CNS ) A4規格（210X297公釐) (請先閱讀背面之注f項再填寫本頁) 訂. 經浐部中决榀2ί-Λκ工消fr合作私印絮 A7 _______^B7__ 五、發明説明（％) 所騸動。此二信猇被输入到一個2輸入的多工器214，其係由一個組構位元5所控制而輸入到多工器216，多工器 216的另一個输入則連接到’Γ的値。此多工器216係由一個組構位元6所控制。多工器216的输出係直接地驅動該二輸入的多工器218之一輸入，並且透過一個反相器220 驅動多工器218之另一個輸入。此多工器218係由組構位元7所控制並且提供OE信號至該騙動器212 ·該組構位元 4係決定多工器210的狀態。此I/O界面對於每個巨排序器的遘擇係決定：對於資料bUS;i的輸入來源以及輸出的致能組構。 bus/ι之選擇 .該些匯流排18的输入資料，bus«，係藉由組構位元4 而選自該MS«I/O[15:0]接脚22或是巨排序器⑻的 OutRegA 206賴ί出。當與巨排序器⑻相連的bus«連接到該 OutRegA 206信號時，此巨排序器仍可透過該輸出選擇器對於該MS«I/0接脚22做輸入。输出致能控制至該MS«I/0接脚的輸出致能係由組構位元的選擇所控制β至該輸出致能控制電路的輸入係包括用於巨排序器 ⑻的Ms«OE接脚以及來自該PLA 26的〇epla[«]。該輸出致能電路的輸出選擇器圖係代表在正常運作模式下組構位元5,6與7之輸出致能選擇的等效》 ___29__ 本紙張尺度適用中困國家標準（CNS ) A4規格（210X297公釐） (請先W讀背面之注f項再填寫本頁) .Q. 訂· 經浐部+决"·率而只工消处合作妇卬來 A7 _______B7 _ 五、發明説明（>；) 巨排序器資料路徑控制器現參照圖15，其說明有該巨排序器資料路徑控制器42 的方塊圓β此巨排序器資料路徑控制器42係包含並執行兩序列的長指令字元(LIW)的其中之一可被組構進入指令記憶髖48之中的序列。此資料路徑控制器42係產生控制巨排序器的算術資料路徑之LIW位元。其也產生値給該一埠與三埠的索引暫存器。對於每個巨排序器的資料路徑控制器 42之動作係由它的LIW暫存器的內容以及兩個控制信號所決定。資料路徑控制器42具有相關連的序列控制器220，此序列控制器220可實行來控制對於特定巨排序器的整個指令序列。此序列控制器220接收來自該加法器70且被儎存在該暫存器170中的加法器狀態位元，並接收來自一條內部的巨排序器的控制匯流排222或是來自該PLA 26且被僂存在一暫存器224中的控制信號。該暫存器224的內容或是該匯流排222的內容係由一個多工器226所選出，該多工器226係由組構位元8所控制。其設有兩個計數器，與此序列控制器220相關連之計數器0 228以及計數器1 230 。該指令記憶髗48係由一個與一堆叠234界接的程式計數器232所控制。此程式計數器232係由該序列控制器220 以及該堆疊234所控制。如上所指出的指令記憶體48係預先載入指令。該些指令係在序列控制器220的控制下輸出到一個LIW暫存器236以提供基本上組構整個系統的LIW 控制位元。此外，其係提供有讀取位址，以一個索引暫存 --------.Q------1Τ------0— (請先《讀背面之注意事項再填寫本頁) 本紙張尺度適月]中國國家橾準（CNS ) Α4规格（210Χ297公釐） A7 _B7_ 五、發明说明（β) 器238儲存在匯流排84之上用於該一埠的位址之位址、一個索引暫存器240用以儲存在匯流排196之上用於該三埠的讀取位址之讀取位址、一個索引暫存器242用以儲存用於三埠的讀取位址匯流排198之讀取位址、一個索引暫存器244用以儲存用於三埠的寫入位址匯流排200之寫入位址。這些都是由序列控制器220所控制。狀態位元也被提供以儎存於哲存器248中提供狀態信號。如上所指出的LIW暫存器236係包含正在執行的LIW *該LIW係取自於一個32x48可再程式化的記憶雔之指令記憶« 48。該程式計數器232是由該堆叠234所控制，該堆叠是一用於“呼叫(caU)”的返回堆叠並可實行來保存四個返回位址》該控制器42係接收來自該PLA CtrlReg信號或是外部的MSwCTRL接脚之啓始兩個可能的LIW序列之一序列的控制信號。其係输出傳送與等待的狀態信號至該PLA 26以及外部的MSwCTRL與MSwAWAIT接脚。此資料路徑控制器42係爲一種同步的管線化結構◊一個48位元的指令係在一個時脈週期之內取自指令記億體 48在該程式計數器232所產生的位址處，並且被暫存到 LIW暫存器236之中。在下一個時脈週期發生之動作係由上一個時脈週期之LIW暫存器236的內容所決定。同時，下一個指令正從記億髖中讀出，並且LIW暫存器236的內容係爲下一個時脈週期而被改變，因而指令是在每一個時脈週期被執行。由於同步的管線化結構，資料路徑控制器 ____31 ___ 本紙張尺度適用中闽國家榇率（CNS ) Α4规格（210X297公釐） --------ο------訂------9 (請先閲讀背面之注意事項再填寫本頁) A7 B7_ 五、發明説明（y) 42將一直執行下一個指令直到分支(branch)動作被執行爲止。該程式計數器232可被控制信號所啓始。其係遞增或是分支到下一個被執行之該LIW的位址。在資料路徑控制器中該些加法器的狀態信號、堆叠 234以及兩個計數器228與230係支援該程式計數器232。他們的支援角色爲：加法器的狀態位元係報告該相等、溢位以及符號的値以爲了用在分支的動作上；堆叠234包含返回位址；以及計數器0 228以及計數器1 230保持迴圈-計數器的値用於分支的動作。五個索引暫存器238-246係保持用於該一埠與三埠的記憶體之寫入、讀取以及寫入偏移的位址値。該寫入偏移索引暫存器246係被用於該兩個讀取索引暫存器的對準，並且保持該兩個讀取索引偏離該三埠的記憶體43之寫入索引一個偏移距離的値。控制信號顯示在圖2中的MS/ι直接控制與狀態接腳係爲直接連接在接脚與每個巨排序器之間的控制與狀態界面信號》該些直接控制信號係爲MS«CTRL[1:0]以及Ms»OE。該些直接狀態信號係爲MS/iAWAIT以及MS«SEND。或者是，巨排序器10-16可利用來自該雙PLA 26的控制信號。該雙 PLA也接收巨排序器的狀態信號。對於每個巨排序器之兩本紙張尺度通用中闽國家揉準（CNS ) A4規格（210X297公釐） ----------Q------ΤΓ------ο, {請先閱讀背面之注意寧項再填寫本頁) 經浐部中央榀準而工消费合作社印家 A7 ___ _B7_ 五、發明説明（今。）個控制信號係指明四個控制命令的其中之一。它們係選自 MSuCTRL[l:0]接脚或是選自該兩個PLA的Control«信號。在下一個時脈週期巨排序器之控制狀態是由以上的元件狀態以及該些C〇ntr〇bi[l:0]信號的値所決定。該四個控制命令包括：設定序列〇設定序列〇係設定並保持該程式計數器232爲’0’，並且重匿傅送與等待的狀態暫存器爲’〇’，而不啓始化巨排序器中任何其它的暫存器。在設定序列〇收到的兩個時脈週期後，該資料路徑控制器42每個時脈週期將會執行該LIW 暫存器236的內容（其係爲該LIW記憶體在位址’〇’的內容）直到一個執行或是繼嫌的控制命令收到爲止。設定序列2 設定序列2係設定並保持該程式計數器232爲’2’，並且重匿傅送與等待的狀態暫存器爲’〇’，而不啓始化巨排序器中任何其它的暫存器。在設定序列2收到的兩個時脈週期後，該資料路徑控制器42每個時脈週期將會執行該 LIW暫存器236的內容（其係爲該LIW記憶髖在位址’2’ 的內容）直到一個執行或是繼績的控制命令收到爲止。執行執行係容許該資料路徑控制器42之正常動作。此控制命令在正常動作期間應該每個週期均被發出，除了當重置該傅送與/或等待旗棵、或是用設定序列〇或設定序列2來 --------4------IT------ο, (锖先閱讀背面之注f項再填寫本頁) 本紙張尺度適用中困國家標準（CNS ) A4规格（210X297公釐） A7 _____B7_. 五、發明説明（々/) 啓始一個LIW序列時。雄績繼纊係重置該傅送與等待之狀態信號，並且容許正常動作。若等待狀態被發出時，該程式計數器232將會在下一個時脈週期重新開始正常動作當繼纊的控制命令處於有效狀態下，若遇到一個等待的動作時，該繼績的控制命令將會適用，而等待的動作將不會停止該程式計數器232，也不會使等待的狀態暫存器被設爲’Γ 〇因此，該雄績的控制命令在兩個時脈週期後應該會被轉變爲一個執行的控制命令。當級嫌的控制命令處於有效狀態下，若遇到一個傳送的動作時，該繼嫌的控制命令將會適用，而傅送的狀態暫存器將不會被設爲’Γ。下表係歸納對於可能來自CtrlPLA«或是來自 MS/iCTRL接脚之Control/i[1.0]該四種控制命令的選擇：表3 0α*ο1>ιΓΐ:0ΐ wm 0 0 0 1 mm 1 0 1 1 sswamnM.2，· 藉由容許兩個序列的啓始點，故每個巨排序器都可以 — _____34.______ ^紙張尺度適扣中困國家棣率（CNS ) A4規格（210X297公釐） --------ύ------1Τ------ΟΊ (請先聞讀背面之注f項再填寫本頁} A7 ___________B7_ 五、發明説明（:p) 被規舾來執行兩個演算法而不需重新載入該些序列。該兩個PLA的Cofitrobi信號係於巨排序器之內被同步化。該兩個MS/iCTRL接脚信號並未在巨排序器之內被同步化；因而對於時序(timing)要求的考置是必要的。狀態信號當巨排序器在其動作序列中已到達一個預定點時，有兩個單一位元暫存的狀態信號來通知外部的接脚以及該 PLA 26 »它們是等待與傳送的狀態信號。兩個狀態信號以及它們的暫存器在以下的任何狀況下都被重置爲’〇’ ：在電源開啓重置的期間、該RADP的任一部份主動之組構、或是在控制狀態期間：設定序列〇、設定序列2、或是繼縷。當一個等待的動作從該LIW暫存器發出時，巨排序器係執行下一個指令，並且重複地執行該下一個指令直到一個繼績或是設定序列的控制命令收到爲止。該等待的動作係停止程式計數器繼績地改變，並設定等待的狀態信號以及暫存器爲’Γ。一個雄績的控制命令則重置該等待的狀態信號以及暫存器爲以讓該程式計數器232再開始。當傅送的動作被發出時，該傅送的狀態信號以及暫存器被設定爲’Γ，並且序列的執行係繼嫌下去。該程式計數器232並未被停止。一個織嫌的控制命令則重置該傳送的狀態信號以及暫存器爲’〇’。狀態信號是藉由該雙PLA 26與 PLACLK再同步化。加法器的狀態位元，相等、溢位以及符號，係被供作 __35__ 本紙張尺度適用中國國家橾準（CNS ) Α4規格（210X297公f) (請先閲讀背面之注f項再填寫本頁) 訂 OI. 經辦部中夾榀率而h-T·消炝合作私卬54 A7 __ B7 __ 五、發明説明條件式的(conditional)跳躍(jump)之用。長指令字元暫存器 48位元的LIW暫存器236之目的是來保存目前被執行的LIW之內容》它的位元係連接到資料路徑中的單元》此LIW暫存器236係在該程式計數器232被更新後的一個週期中被載入由該程式計數器232所指到昀指令之內容。該指令的結果係在下一個時脈遇期被計算。每一個巨排序器10-16都是由長指令字元(LIW)的位元所控制的單元來構成的。在元件組構的期間，LIWs係被程式化進入巨排序器的指令記億體48中》該資料路徑控制器則執行控制算術的資料路徑之UWs。某些禰位是每個週期均可得到的。某些是共用在大於一個運算單元之間。以下的運算櫚位是每個週期均可得到的：一埠的記憶髓存取三埠的記憶«存取输入暫存器之多工器输入 MuxA,B，C 輸出多工器加法器1 加法器2 這些運算欄位是每個週期均可得到的，除了當一常數係因一個運算而被要求時：本紙張尺度適扣中闽國家榡率（CNS ) Α4規格（210X297公釐） --------Θ------IX-----19 (請先《讀背面之注意事項再填寫本頁) 經沪部中央^^^^工消费合作^卬^ A7 B7 五、發明説明（#) 乘法器乘法器-累加器道些運算欏位是彼此衝突的。只有一個能出現在每個 LIW 中：位移器邐輯單元資料路徑控制器（若參數被需要時）程式計數器程式計數器232是一種根據一些情況而改變狀態之5 位元的暫存器。此程式計數器可被遞增、直接載入、或是被設爲’〇’或’2’。影響巨排序器的程式計數器之三種類型的 LIW運算明確地爲：分支運算、設定序列〇與設定序列2之運算、以及等待狀態運算。程式計數器232被設爲’0’ ：在電源開啓重置的期間、在該RADP的任一部份主動之組構的期間、在設定序列〇的控制命令期間、當程式計數器232到達値’31’時，並且前一個LIW並未包含一個到其它位址的分支、或者是 _37_____ ^紙張尺度適用中困國家標準（CNS ) A4規格（210X297公釐） ' ---------0------?τ------0— (請先閱讀背面之注f項再填寫本頁) 經浐部中夾扰卑Λ只-T消费合竹ii-a-t! A7 ____ _B7__ 五、發明説明在一個分支運算至位址’〇’之執行時。控制信號之效果該些c〇ntn>l;i[l:0】信號是分別和設定序列0或是設定序列2 —起被用以重置該程式計數器爲’0’或是’2’。一個執行的控制命令是根據該LIW藉由該程式計數器而開始並且保持執行。一個繼績的控制狀態係在一個等待的狀態之後再開始該程式計數器的動作，並且在下一個上升的時脈信號時重置傅送與等待暫存器爲’〇’。在一個傳送的狀態之後的繼績之控制命令是在下一個上升的時脈信號時重置傳送的暫存器爲’〇’。狀態信號的效果在遭遇到一個等待的動作之後，該等待的暫存器被設定爲’Γ並且該程式計數器232在下一個時脈週期時停止。一個繼纊的控制狀態係重置傳送與等待暫存器並且容許該程式計數器232再開始。在一個傳送的動作之後，該傳送的狀態暫存器在下一個時脈週期時被設定爲’Γ。在傳送的狀態下，該程式計數器係根據該LIW而繼績動作。一個繼績的控制狀態是需要來重置該傳送的暫存器。分支的動作該LIW暫存器一次可包含一個分支的動作β條件式的分支在設定序列的控制命令期間不應該被進行以確保可預 —__ 38______ ^紙张尺度通州中國國家梯準（CNS } Α4規格（210X297公釐） ' --------.Q------1T------.0— (請先閲讀背面之注意事項再4寫本頁) A7 B7 M-浐部中央i?:^-^h工消合作ii印5? 五、發明説明（^) 測的條件。 _ 組含癯《1#式分重 janp<addrM> 計 jumpcounlvrtKtddr·*» junpcoanlMrl<«klrm> 粉· 0丨臟 AttfHIffiltttftoddre*» . «nmitemitttW 於下ΗίβηκηηβΜ. 件：雜、雌、《«2下分支 jump#qnel<id*e«i> jinpovcfflow<adilren> iwopeieB^omst^ cs!1<hIA«mp» «HSsttfM中目細地址加±τ«_Λ堆AZ中· rttmi η»ΜΜΗ^Μ)ΙΜϋΚϋΰΚΛ83ΕΜΐ» 中· 指令記憶體指令記憶體48是依據巨排序器組合語言程式而被組構由32個字元的48位元之RAM所組成。此指令記憶雔48 在電源開啓重置的期間並未被初始化。爲了可靠度，此 LIW RAM必須在巨排序器執行開始之前被組構。在該些 LIW暫存器中的位元欐位係控制資料路徑的動作與程式的流程。計數器〇與計數器1 該些計數器228與230均爲5位元的迴圈計數器。此二迴圈計數器在電源開啓重置以及在RADP中任何組件之主動組構的期間被塡入’0’。計數器〇與計數器1可分別由設定計數器〇與設定計數器1的動作加以載入。跳躍計 39 本紙张尺度適州中國國家梯準（CNS ) A4^!t格（2丨0X297公釐〉 , IT (請先閲讀背面之注$項再填寫本頁) 經沪部中决i:r:卑而工消汝合竹私卬5? A7 __ _B7_ 五、發明説明U?) 數器〇與跳躍計數器1的動作將會在下一個時脈週期分別遞減計數器，直到計數器的値到達爲止。設定序列〇與設定序列2之控制信號並不改變或重置該些迴圈計數器。因此，該些計數器在被程式中參照之前應該被設定計數器〇與設定計數器1的動作加以初始化。堆叠堆叠234係保存返回位址。其係包含四個5位元的暫存器以及一個2位元的堆叠指標器。在電源開啓重置或是在RADP中任何組件之主動組構之後，該堆叠指標器以及所有的5位元暫存器都被初始化爲’0’。一個呼叫在執行下一個指令之後係進行無條件式的跳躍，並接著將在該呼叫之後的第二個指令之返回位址推入該堆叠234之中》返回的動作從該堆叠234取出返回位址並且送入該程式計數器 232。若呼叫與返回的動作存在於一個等待的動作之後下一個LIW之中時，該些呼叫與返回的動作將會重複並且改變該堆叠234，因爲該程式計數器232被保持在該位址，並且巨排序器重複地在該位址執行該LIW。索引暫存器該UW暫存器236係控制被用於資料記憶體位址的產生之五個索引暫存器。該索引暫存器238保存有一埠的記億髖位址資訊。其它四個索引暫存器240-246保存有三埠的記憶*位址資訊。在電源開啓重置或是在RADP中任何 ____________ 本紙張尺度適扣中圃國家搞準（CNS ) Α4规格（210Χ297公釐） --------Ό------1------Cr (請先閲讀背面之注f項再填寫本頁) 經浐部中夾*?.準Λ只工消货合作社卬11 A7 ___ _ B7___ 五、發明説明（子g) 組件之主動組構期間，所有的索引暫存器位元都被設爲’〇’ 。該些控制狀態，執行、繼績、設定序列0或是設定序列 2都不影響或是重置該些索引暫存器。在每個相關的記憶髖存取被執行之時脈週期時，記憶體位址可以依據設定在每個索引暫存器中的控制位元而被載入、遞增、遞減或是維持。巨排序器組構位元在每個巨排序器中有九個可規劃的組構位元。它們被列在下表之中。三個帶有符號/不帶有符號相關之位元係在規劃巨排序器時以指令加以設定。其它則是在組構的選項被選擇時由軟髏設計工具加以設定。表5 m 她 «tt7C=〇 ^¢556-1 0 mm 1 mm Bwmm 2 mm mirntzim 3 asm 32/M 航 32 位元emissK 式 · 4 mmmmt 脚 Oufi^sA 朗 MSal/O «Μ» («Μ9〇Λ%Α Ι»»«λ贼自 MSrVOMD 5 v〇fm OB 來 ΰΜηΟΕΜ OE來自FLA 6 W>界面 x»〇Eina»9v OT-OE OB-U* 7 won® OEl^Wf OBf<3B O&-OE 8 9W8Sf^MII C〇mrol[l:0]3^|BUf Coolrol(l:0】來由 wncrmmwm C〇〇M[1:0]來自 9LA0 之 ariPLV41:〇] ‘1’·邏輯1，邏輯0 41_ 本紙张尺度適相中阐國家標牟（CNS ) A4規格（210X297公羡) --------ο------^------9 (請先聞讀背面之注f項再填寫本頁) A7 ______B7__ 五、發明説明（）/) 該些組構位元係以指令記憶髏48加以組構，其中16 位元的程式資料字元之位元〇至8係爲上列的九個組構位元。雙PLA之說明現參照圖16，其說明有該雙PLA 26的方塊圖。其係設有兩個PLA，PLAO 260以及PLA1 261。每個PLA都是由一個用以按收七個梅入之輸入選擇器264所構成。其各接收一條16位元匯流排的16位元BUS4IN匯流排24、在匯流排266之上的傳送狀態位元、在匯流排268之上的等待狀態位元、在匯流排38之上的PLA輸入信號、在匯流排40之上的PLA I/O信號、每個PLA 260與261的输出。每個輸入選擇器在16位元匯流排上提供一個Α與一個Β 輸出至一個提供64位元的輸出之最小項(term)產生器268 。對於每個PLA 260與261，此係被輸入到一個34x32的 AND陣列270，該陣列的輸出是一個被輸入到一個固定的 OR閘272之32位元的輸出· AND陣列270也提供輸出致能信號，兩個給PLA 260而兩個給PLA 261。對於PLA 260，固定的OR閘272的输出是一個被輸入到一個控制的 OR閘274之8位元的輸出，然而PLA 261之固定的OR閘 272之輸出則係爲一個被輸入到一個輸出OR閘276同時也輸入到PLA 260的控制OR閘274之14位元的輸出。PLA 260的控制OR閘274的輸出被輸入到一個8位元的控制暫存器278，此暫存器的輸出係提供PLA控制信號，其共有 __£____ 本紙張尺度適州中B國家榇準（CNS ) A4规格(2丨0X297公釐） ύII (請先》讀背面之注$項再填寫本頁) 訂 ΟΙ. A7 ______—_B7_ 五、發明説明U〇) 四個输出自此暫存器的2位元之控制信號。此控制暫存器 278也提供此輸出回到PLA 260與261兩者的輸入選擇器 264。PLA 261之輸出OR閘276的输出係被輸入到一個輪出暂存器280，此暫存器的韉出係提供一個被輸入回到 PLA 260與261兩者的輸入選擇器264同時也輸入到一個 I/O緩衝器282之8位元的_出》該I/O緩衝器的輸出係被連接到被輸入至該輸入選擇器264並且由8個位元的_出所構成之I/O匯流排40。該I/O緩衝器282也接收該鍮出 OR閘276的輸出。此PLA大槪的動作是描述於公告在 1994 年 10 月 18 日、E.W. Jennings 與 G.H. Landers 之美國專利第5,357，152號専利案中，其在此被納入作爲參考* 此雙PLA 26提供了兩個在線的(in-circuit)可程式化之 32個輸入乘上34個乘稹項的PLA 260與261。PLA0 260 可當作一個狀態機器來協調(coordinate)巨排序器陣列的動作以及外部的裝置。PLA1 261可被用於隨機界面的邏輯。此雙PLA 26可依搛BUS4IN、PLAIN以及PLAI/0匯流排狀態與控制匯流排20的狀態來進行週邊的邏輯或是控制功能。此可被任一或是全部的巨排序器利用之雙PLA控制功能係包括：暫存的控制輸出，CtHReg[7:0]用於： LIW序列的啓始：以及對於傅送與等待狀態信號的控制回應。組合_出，〇epU[3:0]，被用來產生輸出致能信號給巨排序器。此〇epla[3:0]信號係產生自個別的乘稹項。本紙張尺度適扣中國國家揉準（CNS ) A4規格（210X297公釐） I-------ο------1T------CT (請先《讀背面之注f項再填寫本頁) A 7 _B7_ 五、發明説明（47 ) PLAO 260產生八個可被用作爲巨排序器控制信號的 CtrlReg輸出*其中兩個信號可爲每個巨排序器10-14所利用來當作控制信號。它們也可被用作爲回授至PLA0 260與 PLA1 261兩者。該些CtdReg[7.0]信號在多晶片的陣列處理器之應用上係爲有用的*其中的系統控制信號係被傳送到每個RADP。PLA1 261係產生組合或是暫存的I/O輸出給PLAI/O[7:0]接脚40。來自PLA1 261之OR閘272的十四個固定OR的輸出(FOl)也可用於PLA0 260中的控制OR 陣列274中。該些PLAI/0信號對於需要少量的界面/聯繫交換(handshake)的信號之單晶片的應用係爲有用的，並且它們在其中的系統控制信號係被傳送到每個裝置之多晶片的陣列處理器之應用上也是有用的。 RADP組構 RADP係藉由將組構的檑案載入裝置中來加以組構。 RADP可組構的記憶體在四個巨排序器以及一個雙PLA組構記憶體中均各有三個記憶《。在每個巨排序器中係有：具有九個組構位元的LIW記憶體、一埠的資料記憶讎、以及三埠的資料記憧髖。在每個巨排序器中的九個可程式化之組構位元係被組 _____44_ 本紙張尺度適和中固國家榡率（CMS } A4规格（210X297公釐） (請先聞讀背面之注ί項再填寫本頁) 訂 A7 B7 五、發明说明（分>) 構成LIW組構資料封包(packet)中額外的組構資料字元。該LIW記億體、組構位元、以及雙PLA記憶雔只可以在主動的組構模式期間被載入。每個巨排序器之一埠以及三埠的資料記憶髖可以在主動的組構期間被載入，並且在正常的動作期間可由每個巨排序器的LIW暫存器所命令地被存取β RADP的動作模式組構係在主動的組構模式期間被載入到該RADP。 RADP可依PGMO與PGM1的邏輯狀態而處於三種動作模式的其中之一：在正常的動作模式中，RADP的巨排序器同時執行被規劃到每個LIW記憶髄之中的LIW。 RADP係在主動的組構模式期間被組構，此模式容許每個巨排序器之指令記憶體與資料記憶體以及該雙PLA被規割。經方‘部中央«:^·^·-^工消介合竹私卬製 (讀先閎讀背面之注f項再填寫本頁) 被動的組構模式係禁能裝置的I/O接腳正常地運作或是被規劃，此容許在相同電路中其它的RADP被組稱。四個名稱爲PGMO、PGM1、PRDY以及PACK的組構接脚係被用來控制動作模式以及組構的過程。 BUS4IN[15:0]接脚係被用來翰入該些組構的資料字元。本紙張尺度適用中國困家標準（CNS ) A4规格（210X297公釐）鳑浐部中失榀^-^以工消免合竹私卬絮 A7 ______B7 五、發明説明（W) 乘法器·累加器該乘法器-累加器(MAC)68係參考圖3與圖6在以上被描述。一般而言，此係爲一種同步的乘法器·累加器電路並且由兩個管線階段所構成。第一個管線階段是由一個網路的多個小位元的乘法器、多個形成多個樹狀之本地進位傅遞加法器、以及用以保持每個加法器樹之根部的結果之管線化暫存器電路所構成 *這些加法器樹的樹葉係來自該些小位元的乘法器電路之多個數位輸出。第二個管線階段是由多個本地進位傅遞加法器所構成，其中除了一個之外所有的加法器構成一個樹，該樹係取得該第一個管線階段之多個加法器樹的同步化結果並形成所有來自該第一個管線階段之加法器樹的結果之単一總和。一個界面電路係在此結果的總和以及此管線階段的累加器暫存器內容之一個可能選出的部份上做運算。此界面電路可以使來自累加器148中的累加器暫存器14 之回授爲〇並且將來自此管線階段中的上述加法器樹的結果總和通過其中、其或者是可以將該結果總和與該（可能 )選出的累加器結果對齊而由最後的本地進位傳遞加法器處理》此加法器的輸出再次地被送到一個第二界面電路，此電路可藉由對齊、或是使該結果爲〇來修改該些加法器的輸出。此界面電路的_出之後被儲存在構成此管線階段的管線暫存器庫之（可能）多個累加器暫存器的其中之一裏β賁現此可能包含部份的小位元的乘法器電路之管線階段的乘法器-累加器之延伸、對於兩個管線階段中的本地進 ύ ^I-. 0- (婧先閱讀背面之注f項再填寫本頁) 本紙張尺度適用中國國家標準（CNS ) Α4规格（210X297公釐） A7 ______B7_ 五、發明説明（公心）位傅遞加法器樹之樹狀結構的變化均被主張。此基本電路與實現標準的整數、定點與浮黏算術、以及純量(scalar)與矩陣模數(modular)的分解、p-adic定點與p-adic浮點與延伸的科學準確度標準及p-adic浮黏算術之延伸均被包含》容納有乘法器-累加器之施行的延伸也都被包含，該乘法器 -累加器包含有一或多個進位傳遞加法器、多個最少包括有一埠的RAM與三埠（兩個讀取卑與一個寫入埠）的RAM 以及同步化的暫存器、位移與對齊電路、再加上內容可定址的記憶體以及位元等階段的封裝(pack)與解開(unpack)電路之資料記億髏電路。在單一稹懺電路中內含有多個任一以上主張的電路之實施例子的延伸也包含在內。爲了描述此MAC 68，某些定義也許是有用的。它們將被說明於下：導線妗浐部中央從卑^只工消汝合作社卬5? (請先閎讀背面之注f項再填寫本頁) Q! 導線是一種透過界面電路而相互連接複數個通訊裝置的機構，該些界面電路將被指明爲傳送、接收或是雙向的界面•一個雙向的界面將會由一個傳送器與接收器界面所橋成。每個傅送器可被做成使得其可被禁能來傳送。此容許大於一個傳送器被界接到一導線。每個接收器可被做成使得其可被禁能來接收其所界接到的導線狀態。一導線可假設爲在某個最小單元的時間內，將信號從一或多個傳送器散佈至界接到該導線的接收器。此信號可被稱爲導線的狀態。信號是形成一個字母之一有限集合的符號之一部分。通常此字母係由一個兩單元的集合所構成’雖然具有大本紙張尺度適用中®國家標率（CNS ) A4规格（210X297公釐）經濟部中央揉準局貝工消费合作社印装 A7 __B7__ 五、發明説明u<) 於兩個符號的多層階段字母的利用具有實際上的應用。最普遍的導線是一個薄的金屬片，其狀態爲兩個不相連的電壓範園，通常表示爲’〇’與’Γ。此字母已證明在數位系統從電報到現代的數位電腦之整個發展過程中是極爲有用的。其它包括多個電K範圃、電流與調頻之金屬片系統也已被利用。其關鍵的類似性係爲導線狀態之有限、良好定義之字母。此之一例子係爲在VLSI電路中多個値的電流模式編磚的導線，如Kawhito等人所著之“利用多個値的甯流模式電路之高速、節省面積的乘法器設計”。導線也已經從光傳輸線以及流雔的傅輸線而加以構成。導線的一個特定製成之實際的寅施例可以由任一種該些機構所構成，但並不限於以上所述。誚注意的是，在某些高速的應用中，在導線的最小單元的時間內其狀態可能是導線之中的位置函數•此種現象普遍地見於液體、撤波以及光學網路之中，因爲傅播延遲的結果所導致的。此可能是某些設計之有目的之部份而由此種方式所包含β 信號束與信號匯流排信號束與信號匯流排都是由複數條導線所組成。信號束的每條導線係透過爲傳送器或是接收器的界面電路而連接到複數個通訊裝置β在信號束中的通訊方向並不隨時間改變，該些爲傳送的通訊裝置就一直在傳送。而該些爲接收的通訊裝置就一直在接收。同樣地，信號匯流排的每條導線也連接到複數個通訊裝置。界接到信號匯流排之通訊 ---I — — II - - I (請先Μ讀背面之注$項再填寫本頁) 訂本紙《I尺度逋用中國國家梯準（CNS ) Α4規格（210X297公釐）經濟部中央揉準局貝工消费合作社印装 A7 __B7_ 五、發明说明裝置一律附接到每條導線，因而不論是哪一個在傳送的裝置均傅送在所有的導線上，並且不論是哪一個在接收的裝置均在所有的導線上接收。再者，每個通訊裝置可同時具有傅送器與接收器，該些傅送器與接收器可在不同的時間區間內爲動作的。此容許資訊的流動透過連嫌的時間區間而在方向上改變，亦即信號的來源與目的地可在連嫌的時間區間上變化。管線暫存器與階段在此所主張之電路是根據一種已知爲管線階段的序列之控制結構。一個管線階段將被定義爲一個管線暫存器以及可能有一個組合的邏輯階段所組成。管線階段的正常操作狀態將會是在該管線暫存器中的記憶體組件之內容。額外的狀態資訊也可取得來迎合可測試性的需求或是超出本專利案之意圖外的額外系統需求。管線階段電路之典型的製成可在同步的數位邏輯系統中找到。此種系統係利用小數目的已知爲時脈之控制信號來同步化在各個管線階段之內的狀態轉移事件。一、二與四相位的提供時脈技術已廣泛地被利用在此種處理方式之中。請參見被列在名爲“典型的提供時脈技術”之章節中的參考資料，其係爲討論應用到VLSI設計之該些處理方式。當時脈在要加以控制的網路中必須横越長距離以及/或是橫跨不同的路徑之大變化的電容性負載時，這些典型的處理方式係面臨嚴重的限制。這些限制在次微米的CMOS VLSI製造技術中是常見的。更本纸ft尺度逋用中國_家揉準（CNS ) A4规格（210X297公釐） ------------ (锖先閱讀背面之注$項再填寫本I) 訂經濟部中央橾準局胄工消费合作社印«. A7 __ B7 _ 五、發明説明up 具有彈性之時序(timing)技術的利用已經在“替代的提供時脈技術”參考文獻中被討論。將假設管線階段會包含一個由一傳統的同步、或是例如在替代的提供時脈技術之參考文獻中提及的技術之控制信號所控制的管線暫存器組件。

I K叉樹、具有回授之K叉且均勻的樹爲了本文件，一個有向(directed)圖G(V，E)是一對物件，其係由一個有限、非空的頂點V={v[l]，…，v[n]}集合以及一個有限集合的邊E=(e[l】，...，e[fc])所組成，其中每條邊e 是一個隸屬於V的一對有順序的頂點。用eUni]表示e[j] 的第一個單元，而用βϋΠ2]表示第二個單元β頂點將也可認作是以下的節點。若是每個頂點均爲至少一條邊之中的單元，一個有向圓係爲連結的。若存在一個有限序列的邊 (ek[l],ek[2],...,ek[h】），其中 h>=2 是 Ε 的一個子集合，使得對於j=l，...，h-l，ekU+l]的第一個單元也是ek[j]的第二個單元時，則一個有向圖G(V,E)具有一條路徑》若存在有一條路徑(ek[l],ek[2],. .,ek[h])，其中 h>=2 使得 ek[h] 的第二個單元也是ek[l]的第一個單元時，則一個有向圖 G(V,E)具有一個循環。一個不具有循環的連結有向囫是爲樹》請注意一般這將會稱做有向樹，但由於有向圖是在此所考盧的唯一一種圖，故該名稱被簡化爲樹。K叉樹係爲一種樹，其中K是正整數並且該樹的每個頂點（節點）是 K個邊中的第一個單元或是剛好一條邊之中的第一個單元。具有回授之K叉樹係爲一種有向圖G(V，E)，使得存在一本紙張尺度逍用中B國家揉準（CNS ) A4规格（210X297公釐） 0¾-- (請先閱讀背面之注$項再填寫本霣) 訂經濟部中央橾準局貝工消费合作社印製 A7 B7 五、發明説明（f艺）條邊ew來使有向圓G1(V，E1)是一個K叉樹，其中E1包含除了 ew之外E的所有單元。請注意G(V，E)包含一個循環。一個均勻的樹係爲使得頂黏形成稱爲層L[l]，...，L[m]的集合之樹，使得該樹的高度爲m並且該樹的根部隸羼於L[l] ，所有供給此根部頂黏的頂點係隸屬於L[2]，...，所有供給L[k]的頂黏之頂酤係隸羼於L[k+1]等等》在每一餍中的頂酤都必須有相同數目之朝向該層中的每個頂點之邊》此表示法(fcl,k2，...,kn)，其中kl,...,kn爲正整數，將表示kl 個邊供給在L[l]中的頂黏、k2個邊係供給在L[2]中的每個頂點、…、kn個邊係供給在L[n]中的每個頂黏。一具有回授之均勻的樹不同於一個均勻的樹係在於一個邊在該圖中係形成一迴路》 P-adic數値系統 P-adic數値系統係根搛一個給定的質數p。一個不帶有符號的整數k之p-adic的表示法是一個多項式 :k=anpn+an.1pn-1+_"+a1p+a〇，其中 an,an_ 丨，...Α,α。係爲介於 0 到P-1的整數。帶有符號的p-adic數値之固定長度字元的實現也是被表示成一個多項式，其具有一個不同處爲最高有效的P位數，an現在範圃是介於-(p-l)/2與(p_l)/2之間· 二補數的數値系統二補數的數値係爲以一個固定字元長度或是多個固定字元長度做成之一種帶有符號的2-adic數値系統。在現代 51 ----------Q-- (請先聞讀背面之注意事項再球寫本頁) 訂本紙張又度逍用中國國家揉率（CNS ) A4规格（210X297公釐）經濟部中央橾準局員工消费合作社印製 A7 B7_ 五、發明説明（4/) 的數位電腦中，此爲最普遍被使用的整數數値系統。冗餘數値系統與本地進位傅播加法器冗餘數値系統係爲一種對於相同的數字具有多種不同的表示法之數値系統。一種普遍的冗餘數値系統係利用一種由兩個部分所組成的實雔(entity) 〇每個部分都具有相同的位元長度。由此種實髏所表示的數字係爲一個介於該二部分的函數（通常爲差分）。本地進位傅播加法器將被定義爲任一種實施例的加法及/或減法的功能，其對於任何的運算元長度之施行均係在固定的時間之內實行其動作。此一般係藉由只將對於任何位數位置的進位信號傳播到具有較高精確度之小的固定數目之位數而被達成。冗餘數値系統的一種主要的應用是提供一種用於加法與減法之本地進位傅播的格式之表示法。此種數値系統在執行乘法之電腦電路的設計上係被廣泛地利用。在以下的討論中，冗餘的二進位加法器單元係典型地被用來建造像是以下的施行。在此所討論的本地進位傳播加法器電路也可以用進位儲存之加法器的方式加以建構。有其它的本地或是有限的進位傅播加法器可被用來寅行以下的電路。然而’爲了簡潔與淸楚的緣故，只有冗餘的加法器方式將在以下的說明中被利用。以下許多有關於高速的算術電路之參考資料係討論或是利用冗餘數値系統。模數分解之數値系統模數分解之數値系統是依搛中國的餘數理論。此種對 ___52____ 本紙張尺度遑用中國國家揉準（CNS ) A4规格（210 X 297公釐） -- (請先Μ讀背面之注f項再填寫本頁) 訂經濟部中央棣準局貞工消费合作社印装 A7 _B7_ _ 五、發明说明（0) 於整數的理論係在二十個世紀之前於中國被發現並做成文獻》此中國的餘數理論是說：令《1[1]，01[2],...,1»[11]爲正整數，使得對於i不等於j之下m[i]與m[j]爲相對互質(prime) 。若b[l],b[2]，".,b[n】爲任意的整數，則同餘(congruences) 的系統x=b[I](m〇d m[I])、i=l，.",n，係具有由模數 m=m[l]*m[2]*...m[ii]唯一決定之整數解答。此中國的餘數理論在過去的一百五十年已被擴展到一個更全面性的結果，其係在任何的非無效(nontrivial)之代數環(ring)中均爲真。請注意的是矩陣係形成代數環，並且模數分解矩陣以及 p-adic數値系統對於一些包含矩陣反轉(inversion)的重大動作而言*其可被建構成相對於典型的定黏或是浮黏的方法而具有效能及/或準確度上之優點》模數分解數値系統在密碼的(cryptographic)系統上已有廣泛的應用。一個重要類型的密碼系統是依據在非常大的數字上執行乘法。該些數字通常牽涉到1000個位元。算術的運算已經被分解成非常小的數字之模數乘法。這些分解容許在稹體電路中有效率的硬體施行i該些小數字之模數乘法可以用以下描述的乘法器架構而加以良好地賁行β此種乘法器之寅行將具有如傳統的數値實行一般相同類型的優黏。標準的浮黏表示法標準的浮點表示法係由ANSI所發行之一文件中所指明。浮點的算術運算通常需要四種捨入(rounding)模式的其中之一加以引用來完成結果之產生。只要該運算的確實結 _________ 本纸張尺度逋用中國國家揉準（CNS ) Α4规格（210Χ297公釐） ---------9! (請先Μ讀背面之注$項再填寫本頁) 訂經濟部中央橾準局負工消费合作社印製 A7 _B7___ 五、發明说明（r/) 果在假數(mantissa)上需要比該格式所能容許之更多的精確度時，該些捨入楔式係被利用。捨入模式的目的是提供一種演算的方式來限制結果爲正在使用的格式所能夠支援的値。以C，PASCAL，BASIC，FORTRAN以及其它大多數的電腦語言所寫的編譯過（compiled)之程式所使用的內定 (default)模式係爲捨入到最接近的値。許多範圍受限的演算法之計算，特別是在FORTRAN,C,PASCAL以及BASIC中可用之標準的超越(transcendental)函數之計算係镰要所有其它三種模式：捨入到正無限大、捨入到負無限大、以及捨入到零。捨入到最接近的値係査看該結果的位元，從所支援的最低有效位元一直繼績到該結果之最低有效位元。其它三種模式係爲捨入到零、捨入到負無限大、以及捨入到正無限大，此在IEEE-ANSI對於標準的浮黏算術之說明書中係被詳細記載。延伸的精確度之浮黏表示法延伸的精確度之浮點表示法係爲標準的浮點之一種被提出之表示上以及意義上的延伸，以解決其某些原有的限制。延伸的精確度之浮點係需要利用到本身假數格式兩倍長的累加器假數欄位。此提供了更爲準確的乘法-累加的運算序列。其也最低地需要兩個累加器可用，對於每個運算一個用於低邊界而一個則用於高邊界。具有雙倍長度的累加之四則運算的利用係帶來潁著更爲可靠並且可驗證的科學算術處理》長精確度之浮黏表示法係牽涉到較長格式的 _54____ 本紙張i逋用t國國家^ ( CNS ) A4规格（210X297公 (請先58讀背面之注$項再填寫本霣) -订經濟部中央揉準局貝工消费合作社印製 A7 B7_ 五、發明説明（S一>) 使用。例如，此可能會採用一個爲240個位元（包括符號 )之假數以及一個具有16位元之指數的格式。延伸的長精確度之浮黏表示法將也具有支援兩倍的運算元長度之假數的累加器。這些對於標準的浮點之延伸在需要極高的精確度之計算上具有極大的用處，例如行星間的軌道計算、解非線性的微分方程式、在幾乎奇異的(singular)矩陣上進行乘法的反轉計算。 p-adic浮點系統 p-adic的算術可被用作爲一個浮點數目的假數部分。目前的浮黏作法係利用P=2。當p>2時，捨入到最接近之處在執行一序列的運算之過程中具有收歛到正確答案之效果，而非通常從該答案發散(diverging)。此種方法最大的限制在於其所能夠表示的實數比起基數2的算術表示法所能夠表示的實數爲較小的子集合。請注意的是P越大並且越靠近2的一個次方時*對於固定的字元長度而言則越多的數目可以用這種表示法來表示。一種對於p-adic浮點算術的解決方式將會根搛具有標準字元長度的P之特定値。以下的兩個表係假設以下的格式要求：假數檷位的大小必須是儲存P所花费的位元數目之一個倍數。假數欏位的大小必須至少和標準的浮點表示法一樣大 ◊ 指數檷位將會被當作一個帶有符號的2補數之整數。 _ 55 __ 本紙張尺度逋用中國國家梂準（CNS ) A4规格（2丨0X 297公釐） -- (請先聞讀背面之注f項再填寫本霣) 訂經濟部中央梂準局貝工消费合作社印簟 A7 B7 五、發明说明（㈠）假數的符號位元係爲格式中之明白的(explicit)位元。以下的表6係歸納對於字元長度32並根據該些假設之 P 小小 «μμώμρ 的mm (以基· i〇) 3 7 24 «Τ3* 12麵特：至W*> 7 7 24 價err纖 *個字7°至产(10°至 15 7 U 價ins織 « 15* 至 1344 (1〇^至 10^ 31 6 25 «»•31· 3 Ma至31λ (M»*S 10^) 從此表應注意事項：樣準的單精度浮黏假數係爲23個位元，具有一個隱含的第24位元。其指數欏位係爲8個位元。標準的單精度浮黏之動態範圔是2127至Γ128 (1038至 10_39).。 P=7，15與31的格式都具有較大的動態範圍以及至少與標準的單精度的格式一樣多的假數精確度。以下的表7係歸納對於字元長度64並根搛該些假設之結果： P 糊MNUO (以期《ο 3 9 54 mn^m 27 Λ»» J2» 萑 3^(10111 至 Iff*) 7 9 54 讎 i* mt?： τ2" a〇"s$ ιΟ 13 7 56 31 8 35 ««•31 雛 11 Λ»字 31丨”苹31·™(1〇**至 W1") 從此表應注意事項：標準的倍精度浮黏假數係爲53個位元，具有一個隱含的第54位元。 56 本紙張尺度逋用中國國家標準（CNS ) A4规格（210X297公釐） ------------ (請先《讀背面之注意事項再瑱寫本寊) 訂經濟部中央樣準局負工消费合作社印裝 A7 __B7_ 五、發明説明（β) 其指數欐位係爲10個位元。標準的倍精度浮點之動態範圍是2511至Γ512 (1〇153至 10·154)。 ρ=7與31的格式都具有較大的動態範圍以及至少與標準的倍精度的格式一樣多的k數精確度。從以上的兩個表可得結論爲根據p=7與p=31的p-adic 浮黏格式對於單與倍兩種精確度（32與64位元）的格式在具有至少一樣好的假數準確度之下、於動態範困上都提供優黏。在固有的製作複雜度上，p=7具有相對於p=31之優勢是似乎合理的。一個浮點的數値系統之假數部分也可以由兩個部分所構成，在此已知爲MSC舆LSC，分別爲最高有效部分以及最低有效部分。此MSC可以被建構成一個二進位或是2-adic的系統，而該LSC則可被建構自一個p-adic的系統，其中p>2。此種配置在捨入到最近之處的模式下也將會收歛到正確的答案，並且將具有優點爲完全利用該些構成MSC的位元。若LSC佔有浮點算術電路的“ 防護位元”時，則可被表示的浮點數目之子集合上可見的效果是所產生的結果之一致性的收歛》此將有助於標準的浮點表示法之製成。若P爲靠近2的次方時，則以p-adk 數字爲主的假數之計算將被有效率地儲存在記憶體中。特別是對於P=3與7，該模數的算術乘法器架構可等同於將每個加法器帶（strip)中之冗餘的二進位加法器鍵專門化 (specializing)，並且些撤地改變在以下的製作討論中被論及的Booth編碼演算法。若MSC代表假數的2,3或5個位元 _____57_____ 本紙張尺度逋用中國國家標率（CNS > Α4规格（210Χ297公釐） ---------0^— (請先Η讀背面之注$項再填寫本頁) 订經濟部中央揉準局負工消费合作社印装 A7 _B7__ 五、發明説明（以）之外的位元時，則p-adic算術的p=3,7或31之版本可分別被利用而具有對於該些表示法所能表示的數目上有最小的影響。請注意對於此種類型的應用，P不必被限制爲質數。只要Ρ爲奇數，所要的捨入收歛將會產生。在此文中將被一般性地假設Ρ=3,7，15 _ 31係爲p-adic浮點延伸之最佳的選擇，其大部分都是質數。在先前的段落中論及的兩種數値系統將被指定爲p-adic浮點系統，而第二種版本係包括被指定爲當在以下中相關之混合的p-adic浮點系統之 MSC與LSC部分。兩種表示法均可被應用到延伸的精確度之浮點算術上。 MAC的槪要討論乘法器142的基本動作是從兩個數A與B產生一個代表某些像是標準的整數乘法之結果的數〇此種結果之累加、再與乘法結合係爲乘法器/累加器的整體功能。應注意的是此累加可以是加、減或是兩者》此段說明係開始於一個乘法器/累加器的基本方塊圖以及該乘法器/累加器的一個基本的延伸，此係提供成本與效能顧著地優於其它達到類似結果之解決方式β這些電路方塊將可見有利於標準的定點與浮黏之應用上，以及長精確度浮黏、延伸的精確度样點、標準的P-adic定黏與浮點與模數分解乘法器的應用上》在廣泛類型的應用中，這些乘法器/累加器電路的任何一種電路之最佳效能都需要該乘法器/累加器電路接收一個本紙張尺度逋用中國國家揉率（CNS > A4规格（210X297公釐） ----------- (請先聞讀背面之注意事項再填寫本頁) 訂經濟部t央樣準局貝工消费合作社印装 A7 £7_ 五、發明説明（妙）連績的資料運算元流(stream)。所主張的元件之下一層係詳細描繪一個乘法器/累加器竜路、再加上至少一個加法器與一個本地資料儀存系統，此系統由兩個或是多個結合在網路中的記憶嫌所組成。這些記憶體之最小電路是由兩個記憶髖，該一埠的記憶雔44以及三埠的記憶體43所組成。到此所描述的電路係提供許多實際、有效率的定點演算法處理核心(engine)用於處理線性轉換、FFT、DCT以及數位的濂波器。支援各種浮點方法之延伸係需要有將一個產生自一個算術運算的假數與一個第二假數對齊之能力。此種對齊的運算最好是由一個能夠有效率地位移之專用的電路，位移器74所執行。對於各種浮點格式的支援也需要有效率的邏糈合併指數、符號以及假數部份。在此段落中提及的位移電路（假設其也支援旋轉的運算）結合該邏輯合倂電路係提供用於像是JPEG與MPEG中被利用之Huffman編碼方式的影像壓縮的應用中所必須的位元包裝(packing)能力之必要的電路。一旦對齊後，這兩個假數並需能夠彼此地相加減。該長與延伸的格式基本上需要至少一個加法器能夠進行多個字元長度“鏈結”之加法型式的運算，因而執行的結果必須有效率地來支援此。對於p-adic的算術系統之支援係要求該乘法器/累加器之製成支援p-adic的算術。在一種製成的方式中，類似的要求必須被做在至少一個加法器中。P-adic假數對齊電路也對於該位移器有類似的要求。模數的算術應用一般爲非 _^_59__ 本纸浓尺度遑用中國國家揉準（CNS M4规格（210X297公兼1 ----------- (請先W讀背面之注項再填寫本頁) 訂經濟部中央揉準局貝工消费合作社印装 A7 _ B7_ 五、發明説明（3) 常長的整數系統。此主要的要求變得能夠執行其中模數的分解在演算法的執行過程期間可能會變化之高速的模數算術。此種要求係爲針對乘法器/累加器以及加法器之電路。基本的乘法器142與其k件之基本的乘法器槪要現參照圓17，其說明有該基本乘法器的方塊圖。一種非常快速加總2P個數目之方法（其中P假設爲一個正整數 )係被稱做二進位加法器樹·加法器D1-D7係形成加總今 8=23個在小位元的乘法器300中之數目C1至C8之二進位加法器樹。該些數目C1至C8係爲被輸入到乘法器300的運算元A與運算元B的部份之部份乘稹，然後其被送到加法器D1-D7。這些部份乘積是藉由一網路的小位元乘法器在該乘法器300中被產生。加法器D8與方塊G1中的遲輯係對齊來自加法器D7所產生的乘積以及代表管線暫存器的第二階段之一個對齊的方塊H1選出之內容。累加的結果係被保存在方塊H1中的記憶髄電路中。此係提供累加的乘積儲存之用，使乘法器/累加器所需的基本功能完備〇在階段1的管線暫存器E1中之電路係當作使基本電路成爲兩個管線階段的機器之管線暫存器。對於信號從進入乘法器300的入口傳播到E1的管線暫存器所花费的時間是大約相同於從進入加法器D7的入口到H1中的管線暫存器之傅播時間。因此，管線的週期時間是大約爲沒有E1的暫存器之時間的一半。轉換電路J1係被設置在該執行數種功能的HI之輸出本纸張尺度逋用中國國家橾準（CNS ) A4规格（210X297公釐） ----------0^.-- (請先閎讀背面之注$項再埃寫本霣) 訂經濟部中央橾準局貝工消費合作社印装 A7 B7 五、發明说明（θ) 上。其係選出哪種記憶體內容的組合是要被送出乘法器/累加器，並轉換要被送出的信號束成爲可能不同的格式；其係選出哪種記憶髖內容的組合是要被到送加法器D8用以累加，並且若需要的話，其係轉換要被送到送加法器D8 的信號束成爲可能不同的格k。在J1中的電路可使此乘法器/累加器的第二個管線階段中的傳播延遲降低，因爲最後需要用以產生結果的遍辑電路可在H1的管線暫存器以及像是在加法器單元D1至D9中冗餘的二進位表示法之非標準的算術表示法之後於J1中進行，因爲用於此乘法器/累加器內部的表示法可被轉換以被用於最後的轉換之標準的 2補數加法器所利用。以上的一個例子可見於如下所實行一種冗餘的二進位表示法中：表8 目如同用於Takagi之研究中的 «01表雜即:〇】非標準的帶有符猇之大小表示法Sn[l:0】 0 00 10 1 01 11 -1 10 01 此種表示法對於根據圖17的一個8乘16位元的乘法器之某種CMOS邏辑做法結果係爲最佳的。藉由一個標準的2補數加法器之轉換係需要從非標準的帶有符號之大小的表示法轉換成一種標準的表示法。此係藉由做成此邏辑轉換而被達成：

St[l]=not Sn[l]

St[0]=Sn[0] 61 本纸張尺度逋用中國國家榡準（CNS ) A4规格（210X297公釐） ---------0¾.-- (請先W讀背面之注f項再填寫本霣) 订經濟部中央橾準局貞工消費合作社印装 A7 _B7_ 五、發明説明（9^) 冗餘的Ρ-adic表示法至進位傅播p-adic表示法的轉換之最佳做法也需要此。在以上所註明的結構之下，以下的運算可被實現：帶有符號與不帶有符號之8乘16位元的乘法以及乘法 -累加帶有符號與不帶有符號之16乘16位元的乘法以及乘法-累加帶有符號與不帶有符號之24乘16位元的乘法以及乘法-累加帶有符號與不帶有符號之24乘24位元的乘法以及乘法-累加帶有符號與不帶有符號之24乘32位元的乘法以及乘法-累加帶有符號與不帶有符號之32乘32位元的乘法以及乘法·累加最佳的多項式計算步騍以上的定點版本：標準的浮黏單精度假數乘法延伸精度之浮點單精度假數乘法 P-Adic浮點單精度假數乘法 P-Adic定黏乘法以及乘法/累加該些運算可被用於各種的應用中，其中每些係爲如下

1. 8乘16的乘法/累加係被用來轉換24位元的RGB 62 _ 本紙張尺度適用中國國家梯率（CNS ) A4规格（210X297公釐） ----------- (请先Μ1»背面之注$項再填寫本I ) 訂經濟部中央揉準局貝工消费合作社印装 A7 B7 五、發明説明（k) 至YUV之彩色編碼。YUV是標準的廣播NTSC彩色編碼格式。此之標準的使用者版本對於RGB與/或YUV的製成係爵要8位元的數位組件 2· 16位元的算術是內建的控制電腦所用的算術之一種非常普暹的型式。 3. 具有多於48位元的累加之16乘24位元的乘法/累加是能夠對於像是資料Μ縮演算法之光碟應用在音訊資料上進行1024黏複數的FFT。這原因是FFT的係數包括了等級爲ΡΙ/512的數字，其具有大約爲1/256的大小。因此定黏的做法需要累加16乘24位元的乘法以保存輸入資料的準確度〇 4. 24乘24的乘法/累加也普遍用於音訊的信號處理之要求上。請注意的是藉由類似上一段的論點，24乘32位元的乘法對於保存1024黏的複數FFT資料的準確度是必要的。 5. 32位元的算術是繼16位元之後被許多人認爲是整數算術的下一個最普遍使用的型式。應注意的是此種算術係被C與C++電腦語言執行環境所需求而用於長整數型式的施行。 6. 多項式計算步騍的運算，特別是定點版本，係普遍被用於低次(degree)的多項式內插。這些運算是用於寅行像是sin, cos，tan, log等之標準的超越函數之一般的機構《 7·標準的浮點算術係爲當今最廣泛使用的動態範園算術。 _ 63 本纸張尺度適用中國國家揉準（CNS ) A4规格（210X297公釐） ----------— (請先閱讀背面之注意事項再埃寫本頁) 訂 A7 _________B7_ 五、發明説明（ς|) 8. 延伸精度之浮點算術係可應用於任何標準的浮黏目前被使用之場合，並且其解決某些具有捨入誤差或是緩慢收歛的結果之嚴重問題。此種方式的主要缺黏是相較於標準的浮黏算術，其係執行相當緩慢。重要的是請注意在此種方式下，並不會有效能上的損害以及牽涉到支援此種在品質上顯著的增進之非常特別的額外電路複雜度。 9. P-Adic浮點與定黏算術係分別可應用於任何標準的浮黏或是定點被使用之場合》這些算術的優黏係爲它們在捨入到最近的模式下將會收歛到正確的答案，而非隨機地發散，並且當用此種方式做成時可以只花費與標準的算術一樣的時間與電路。應注意的是在相同於標準的浮點位元數目下，P=7的p-adic浮點之做法具有較大的動態範圍以及至少相同的假數精確度，使得這些數値格式儍於標準的浮酤。進一步參照圖17,各個組件之動作將更詳細地描述。在小位元的乘法器方塊300中的乘法器係對於Α與Β執行小位元的乘法並且將信號束A與B轉換成一組信號束C1 至C8，其之後被加法器電路D1-D4。信號束A與B在某些數値系統中係各自代表數字，而兩者數字格式不必相同。例如，A可能是冗餘的二進位表示法，而B可能是2補數的數字。此容許A包含來自在第二管線階段的累加器之回授。此將支援最佳的多項式計算步蹀的運算。可應用的數値系統係包括（但不限於）帶有符號與不帶有符號之2補 _ 64 ύ II (請先閲讀背面之注f項再填疼本頁) 訂 .ΟΊ. A7 B7 五、發明説明（心>) 數、p-adic、冗餘的二進位表示法、或是根據中國的餘數理論之某種變形的模數分解系統。先

訂信號束C1至C8係爲根搛運算元（A或B)的其中之一的小子集合與另一運算元的全部之部份乘稹。在以下的討論中，將會假設A信號束係以其全部用以產生每個C信號束，而B信號束的一子集合係被用在產生每個C信號束。產生信號束C1-C8的邏輯電路將會依據用於A與B的數値系統、用於D1-D4加法器的數値系統、信號束A與B的大小、再加上被實現的乘法演算法之確實本質而變。在以下的實施例之討論中，某些特定的例子將被詳述。但是將不會詳述所有可根搛本專利的實際製成，而是呈現某些具有高寅際價値、並便於討論的應用》好浐部中决*?.4'-^0~,消贤合竹ii印狀 .現參照圓18，其說明有該MAC 68另一實施例的方塊圖。在此實施例中，一個根搛4-3修正型(modified)Bo〇th 編碼方式之16位元乘16位元的乘法器/累加器係被說明，其中對於此基本運算只需要C1-6。C7=Y將可用於加上一個偏移値。此係使得製成能夠在每個週期開始時支援多項式步驟的計算，假設該種製成在第二個管線階段具有兩個累加器。多項式步騾需要計算Χ*Ζ+Υ，其中X與Y爲輸入的數字而Ζ是Η1中累加器暫存器的狀態。4-3修正型 Booth編碼方式的施行以及其它類似的機構將會需要乘法器300包含一類似於以下所論及之加法器的等效物》現參照圖19,其說明有對於多項式計算最佳化的 MAC 68之一實施例。在此例中，所有八個小位元的乘法 65 本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐）經浐部中次*?準而只工消价合作私卬掣 A7 ____ _B7__ 五、發明説明（{^) (Cl至C8)都被使用。在此種情況下，該J1組件可透過多工器302來提供Z用於該計算。G1係進行用作爲乘法器 300與加法器D7可能的輸入之累加器的對齊。加法器D9 現需要控制來支援該乘積與該目標累加器的對齊》此係藉由傅送信號通過D9中的本地進位傳播鏈而加以完成，該些信號係作爲遮蔽進位傅播至連嫌的數位單元並且控制最髙位數的進位傳播信號至最低單元的傳輸。此使得加法器 D9進入一迴圈的加法器單元之中，該迴圈的加法器單元可以在數個地方被打斷。J1在回授之前已經有一個對齊且可，能運作其累加器所傣存的狀態之要件，此電路的製成只是些微地加入該製成。請注意由圖U與19所表示的電路中，存在至少兩個累加器是極爲想要的，使得兩個多項式的計算之後可在一個被執行時幾乎可同時間地被執行》這是因爲在乘法器中兩個管線階段的延運之故。加法器D1至D4係進行本地進位傳播的加法，其典型是依據某種％餘的二進位表示法或是進位保留(carry-save) 加法器的製成。它們適合總和該些部份乘積Cl至C8成爲四個數字。該些部份乘稹C1至C8係以一種在之後更詳細論及的方式透過它們是如何被連接到加法器而加以位數對齊。這些加法器以及接著在此所論及的加法器可以被看成一行或是一鏈的加法器單元，除了明白提到的加法器之外 *此種m路將在以下被稱爲加法器鍵。應注意的是所有在此被描述的加法器都可被做成以支援爲一種類似於明顯地 ____66 _ 本紙張^度適用中國國家標準（CNS ) A4規格（210X297公釐) — (請先閱讀背面之注f項再4寫本頁) 訂經浐部中央榀4'-而只T,消赍合作私卬>t A7 __ _B7________ 五、發明説明（t—) 在以下被利用之更典型的2-adic或是冗餘的二進位型式之冗餘的型式之p-adic以及模數的算術。加法器D5至D6係分別在加法器D1,D2與D3，D4的結果上進行本地進位傳播的加法。在E1中的電路係當作爲使得基本的電路成爲兩個管線階段之機器的管線暫存器。E1的記億雔電路係保存加法器D5與D6的結果》其可能也保存圖19中的Y，Y可以從一個匯流排直接被送到E1、或可藉由乘法器方塊300轉換成一個不同於其輸入的型式之表示法β在某些實施例中，在加法器D5與D6中的邇辑最後幾餍可以被移到Ε1的管線暂存器之輸出電路的一部份。此將被執行以平衡在第一與第二管線階段之間的組合傅播延遲。因而，對於信號從乘法器方塊300的入口處傅播到Ε1的管線暫存器所花费的時間是大約等於從進入加法器D7之Ε1暫存器的輸出傳播到Η1中的管線暫存器的傳播時間。因此，管線的週期時間是大約爲沒有Ε1的暫存器之時間的一半。在某些應用中，此暫存器方塊Ε1可藉由具有額外機構的外部電路而加以讀取與寫入。此可能包括（但不限於）信號匯流排界面以及掃描路徑相關的電路。加法器D7與D8接收Ε1的記憶體電路之內容，該些記億體電路包含來自前一個時脈週期之加法器D5與D6的結果。D7與D8係在該些信號束之上進行本地進位傅播的加法。加法器D7的結果是完整的Α與Β之乘法。此通常以某種冗餘的二進位表示法來加以表示。 ___67_ 本紙張尺度適用t國®家榇準（CNS > A4規格（210X297公釐} <請先聞讀背面之注f項再填寫本頁)

.IT 好济部中决^^^,-^-·1·消炝合竹·衫印來 A7 ______B7_ 五、發明説明（卜彡〉 G1係將已經被產生作爲加法器D7的結果之乘稹對齊於該累加器H1所選的內容· CH爲H1所選的內容之每個位數選擇來自加法器D7的結果之一位數或是一個位數表示爲’〇’，以被加在加法器1)8。01也可以支援將產生自08 的乘積改變符號而用於與H1的暫存器內容累加。假設H1 的內容係被組成Ρ個位元，並且假設加法器D7的乘法結果係爲Q個位元，且Α的長度是R個位元而Β的長度是S 個位元•假設在大多數的數値系統中，Q>=R+S且P>=Q是合理的。若P>=Q+S，則G1可被用來將加法器D7的結果對齊至位數S至Q+Max(R，S)，因而讓倍（或是多）精度的乘法在此單元之內有效率地執行。此提供一個顯著的優黏，讓多精度的整數算術運算以一個具有遠少於一般對於要被執行的整個運算所需的邏輯單元之電路來加以執行《在與兩個管線階段架構的結合之下，此使得倍精度的乘法之產生與具有大槪多一半的邏輯閘數目之單一管線階段的方式大約一樣快。在圖17與18中，加法器D9係如同在加法器D1至 D7之中一般地是由本地進位傅播加法器單元所構成。其係將該加法器D7對齊過的結果加到H1所選出的內容以提供信號束至H1用以儲存作爲H1中的一個記憶髖組件之新內容》在圖19中，加法器D9係由一迴圈的本地進位傳播加法器單元所構成，其可在數個地方的其中之一被打斷以進行該乘積與累加器的對齊。 HI係包含一或多個被提供時脈的記憶體組件（以下稱 (婧先閱讀背面之注f項再填寫本頁) 訂本紙張尺度適扣中困國家榇準（CNS ) A4规格（210X297公釐） A7 B7 五、發明説明（“）

做爲暫存器），其係當作暂時的儎存累加器用以累加來自加法器D9的乘法。在說明了乘法器方塊300確實的本質之下，G1與每個H1的暫存器中的位數數目、以及此霣路之一特定的製成之效能要求、內含在H1中的暂存器最佳數目將會變化》在某些應用中，此暫存器方塊H1可藉由具有額外機構的外部電路而加以讀取與寫入。此可能包括 (但不限於）信號匯流排界面以及掃描路徑相閬的電路。訂若H1有大於一個的暂存器時，係選擇該些暫存器的哪幾個將會被輸出到外部電路。J1也選擇該些暫存器的哪幾個是要被用於回授至圓1與2中的加法器D9以及圖 19中的加法器D8。J1係選擇Η1所選出的暫存器之哪些部份將會被傳送，假設其中暫存器係比將要進入之接收的匯流排或是進位傳播加法器要來的長。若此電路之製成的內部表示法並非是一種標準的表示法時，則將被傳送到外部電路之信號束係被J1轉換成爲一種標準的表示法，其然後可被進位傅播加法器所轉換成爲相關的標準算術表示法。在延伸精度的算術是必要之實施例中，J1可以被用來“向下移動更多的有效位元”並且插入’〇’到空出的最高有效位元。在需要累加器的內容從來自加法器D7產生之乘稹減去的實施例中，J1也將會執行將所選出的暫存器內容改變符號用以傅遞至圖1與2中的加法器D9之輸入以及圖19 中的加法器D8。此架構之實施例係支援髙速、多精度的運算，此在典型的整數或是定點算術電路中是不可能的。多精度的運算 69 本紙張尺度適用中國國家標準（CNS ) Α4規格（210Χ297公釐） A7 £7_ 五、發明说明（ky) 執行係降低產出置，但卻保存了結果之確實性。逭些在於任何同時達成該產出量以及根據此方塊圖的電路大小是不可能的。此架構之實施例可用遠少於先前的方法之邏輯電路來支援標準的單精度浮黏假數的乘法。此架構之實施例似乎是支援小>adic假數乘法唯一的電路。作者係相信遺是此種浮點表示法的首先揭示。此架構之寅施例提供了一種用最少的邏辑電路之用於做出延伸精度浮點運算的主要機構6此架構之實施例也提供有效率的高速模數算術的計算器之施行。根搛圖Π加以做成8乘N的乘法器_累加器之基本的乘法器在此討論中，A0代表數字A的最低有效位數。A的位數係以重要度遞減的順序被表示爲 AfAeAdAc，AbAaA9A8，A7A6A5A4，A3A2AlA0〇 B 被表示爲一個由B7B6B5B4，B3B2B1B0代表之8位數的數字。乘法器300被一信號束所控制。—個被稱做爲 Ul.Asign的控制信號係決定A運算元被當作一個帶有符號或是不帶有符號的整數。一個被稱做爲Ul.Bsign的第二控制信號係決定B運算元被當作一個帶有符號或是不帶有符號的整數β四個不同的一位數乘以一位數的乘法係在用於加法器D1至D4的C1至C8位數部份的產生中加以執行。令Αχ代表Α的一個位數，而By代表Β的一個位數。運算 AxuBy永逮是位數Αχ與位數By之不帶有符號的乘法》當 ---------------------訂------^^—vi (請先閲讀背面之注$項再填寫本頁) 本紙張尺度適用中國國家梂车（CNS } A4規格（210X297公釐） A7 _ B7_ 五、發明说明（1^)

Ul.Asign指出A運算元是不帶有符號時，運算AxsBy是 Αχ與By之不帶有符猇的乘法•當Ul.Asign指出A運算元是帶有符號的整數時，運算AxsBy是帶有符號的乘法。當 Ul.Bsign指出B運算元是不帶有符號時，運算BysAx是 Αχ與By之不帶有符號的乘法。當Ul.Bsign指出B運算竞是帶有符號的整數時，運算BysAx是帶有符號的乘法。當 Ul.Asign與Ul.Bsign都指出是不帶有符號的整數運算元時，運算AxSBy是不帶有符號的乘法•運算AxSBy係有關於 A與B的最高有效位元之乘法。此運算是由指明該些運算元分別爲帶有符號或是不帶有符號的控制所決定。以下的表9係說明對於位數0至23之C1-C8 : ；__—_71 本紙張尺度適汛中國國家梯率（CNS ) Α4規格（210Χ297公釐） ---------V------1Τ------^9 (請先閲讀背面之注$項再填筠本頁) A7B7 五、發明说明（7 )

Ci C2 a C4 C3 C6 C7 CS 位《k 0 0 0 0 0 0 0 0 23 0 0 0 0 0 0 0 AISB7 22 0 0 0 0 0 0 AfiB6 A«UB7 21 0 0 0 0 0 A&B5 AeuB6 AduB7 20 0 0 0 0 AfiB4 AeuB5 AdaB6 AcuB7 19 0 0 0 A6B3 A«uB4 ΑΛΒ5 AcaB6 AbuB7 18 0 0 A£kB2 AmB3 AdoB4 AcuB5 AboB6 AwB7 I7 0 AfiBl AeuB2 AduB3 AcuB4 AbaB5 AnB6 A9UB7 16 AfiBO AraBl AduB2 AcnB3 AI»B4 AanB5 A9uB6 A8uB7 13 AmBO AduBl AaaB2 AbuB3 AauB4 A9uB3 A8uB6 A7uB7 14 AduBO AcuBl AbaB2 AauB3 A9uB4 AauB5 A7UB6 A6iiB7 13 AcnBO AbaBl AmaBt A9uB3 AftuB4 A7ttB5 A6uB6 A5uB7 12 AboBO AmBI A9uB2 A9uB3 A7kiB4 A6oB5 A5nB6 MuB7 ll AnfiO A9nBl A8nB2 A7iiB3 ASviBA A5uB5 A4oB6 A3iiB7 10 A9«B0 ASoBl A7uB2 A6oB3 A5uB4 A4UB3 A3uB6 A2UB7 9 ASoBO ATnBl A6aB2 A3uB3 A4uB4 A3uE3 Α2Φ6 AluB7 8 A7^iB0 AtiUBl A3aB2 A4uB3 A3uB4 A2uB5 AlaB6 AO〇B7 7 AtfoBO A5oBl A4«B2 A3oB3 A2oB4 AluB5 AO〇B6 0 6 A5UB0 A4uBl A3uB2 A2aB3 AIoB4 A0uB2 0 0 3 A4uB0 A3«Bl A2uB2 AluB3 A0iiB4 0 0 0 4 A3uB0 A2uBl AluB2 0 0 0 0 3 A2uB0 AloBl A(W2 0 0 0 0 0 2 AluBO AOiAl 0 0 0 0 0 0 l AOuBO 0 0 0 0 0 0 0 0 (請先閲讀背面之注$項再填寫本頁) 訂 -線^ 加法器D1至D7之討論加法器D1至D4包含18個位數單元用於加法。加法器D5與D6包含21個位數單元用於加法。加法器D7包含 25個位數單元用於加法。每個這些加法器都包含比數字的 72 本紙張尺度適州中國國家標準（CNS ) A4说格（210X297公釐） A7 B7 五、發明说明（ρ) 位數多一個單元，此並沒有輸入。D8，G1，H1與J1的施行係達成各種的算術需求。 1位元的小位元乘法器之效能評估 _ 表10係說明在根據圖17之N=16之下，能力對於大小之比較。 ΛΜ Accii7B 9tWt 元 EHH1 位元 mms 柬之撕 mm下期 -mm wm s HR#存 1 棚 Mni8«16 40 2 172 120 2 1 IU 80 容許2**次 mti 3 2 236 80 容rp2*次财 MdI8*16 48 3 180 m 2 1 12S 96 容If 2**次伽雜2 Mid 16*16 3 2 256 96 撕2'*次 ΙΑύ 16*24 4 3 394 96 咨許2*次 JUD Mu!8*16 56 4 188 136 2 1 228 112 赛許2«次 IUD mn.3 Mttl16*16 3 2 256 112 和Τί4次 JUD Mul 24*16 4 3 384 112 撕2W次 JUD ΜβΙ32·1« 3 4 376 112 赛許2*次用於以下的效能評估表之行的定義 73 紙張尺度適用中阐國家梂準（CNS ) A4規格（210X297公釐） (婧先《讀背面之注f項再填寫本頁) 訂 0. 好米部中次"-ίν·而h-T17i於含竹"印繁 A7 ________Β7__ 五'發明説明（7/) “運算”係描述產生可被累加的確實結果之整數乘法的一種型式。 “Acc位元”係表示該累加器被做成可保存以標準的整數算術之等效的位元數。 “對齊槽”係表示所有圖中的G1以及圖3中的加^ 器D7，D8與D9之製成。有關於每種製成的特定細節將在有關於每個於**說明”行中被參考的電路之備註之中加以討論。 ΊΙ口法器單元”係表示需要來製成加法器的加法器單元數目，該些加法器係有關於製成根搛本專利相關的方塊圓之備註的電路。除非另有標註，加法器單元將會是兩個輸入的單元，亦即它們執行兩個數字的總和。在不只是兩個输入且有三個輸入的加法器單元被包含其中的情形下，所使用的表示法將爲“a，b”，其中a代表兩個輸入的加法器單元之數字，而b代表三個輸入的加法器單元之數字。 “E1+H1位元”係表示假設基數(radix)2之冗餘二進位算術表示法之下*建構此電路所需的記憶體儲存之位元數〇 “開始到結束之週期”係表示從運算的開始到所有的活動都完成之間時脈週期的數目。 “到開始下一個之週期”係表示從運算的開始到下一個運算可以開始之間時脈週期的數目。 “一般加法器單元數目”係代表一種直接以不具有中間管線暫存器或是對齊電路的累加之最終加法器鏈施行運 ---------Q------^—----- (請先《讀背面之注意事項再填寫本K ) 本紙張尺度通州中國國家標準（CNS ) A4规格（210X297公釐） A7 B7 五、發明说明（f") <請先《讀背面之注意事項再填寫本頁算的電路。越大的乘法將需要越大的加法器樹。此行的數字將會根據使用類似於如乘法器300的適當的討論中所述及的小位元乘法器。 **一般暫存器位元數目”係表示一般的設計保存在一 . · 般的應用中只有一個累加器之基數2之冗餘二進位表示法所需的記憶髏位元數。 “說明”係包含一段有關於在可能溢位之前此電路所能執行的最小數目的運算之敘述。 Γ 此說明的項目也可以包含參考到“備註”，其將詳細描述正被檢視的乘法器-累加器電路之製作細節。備註所在的表中之列係描述所執行的基本乘法運算、累加器的大小、對齊槽的數目。該備註將詳細補充應該爲對齊槽項目之間的加權係數與任何其它適切的細節、比較以及任何其它特定的註解。備註：在此新電路中的對齊係與將乘積乘上1與28=256相同。其係功能上等效於一個16乘16位元的乘法器，接著有本地進位傳播加法器用於累加。比起172個加法器單元以及120位元的記憶體’此等效電路將需要256個加法器單元以及80位元的累加器記憶體。其時脈週期時間大約是標準的等效裝置之一半並且具有與標準的作法相同的產出量〇在此新電路中的對齊係與將乘積乘上1，28=256以及 216=2562相同。其係功能上等效於一個16乘24位元的乘

7S 本紙張尺度適用中國國家標準（CNS ) A4規格（210x297公羞） A7 B7 五、發明説明（/j3) 法器，接著有本地進位傳播加法器用於累加。比起180個加法器單元以及128位元的記憶髏，此等效電路將需要 384個加法器單元以及96位元的累加器記憶雔。此新的電路將需要大約一半的標準功能等效電路之邏辑。其時脈週期時間大約是標準的等效裝置之一半。標準的作法之產tij 量將會是其每個時脈週期爲一次（或者是此新電路爲每兩個時脈週期），然而16乘24位元的乘法效能在此新電路中可能每三個週期而被執行。然而，此新電路將會比8乘上16位元的乘法快兩倍，而將具有與16乘16位元的乘法相同的效能。在此新電路中的對齊係與將乘稹乘上 1，28=256,216=2562以及224=2563相同。其係功能上等效於一個16乘32位元的乘法器，接著有本地進位傳播加法器用於累加。比起188個加法器單元以及136位元的記憶雔，此等效電路將需要576個加法器單元以及112位元的累加器記憶體。此新的電路將需要大約三分之一的標準功能等效竜路之邏輯。其時脈週期時間大約是標準的等效裝置之一半》標準的作法對於之產出量將會是其每個時脈週期爲一次（或者是此新電路爲每兩個時脈週期），然而16乘 24位元的乘法效能在此新電路中可能每四個週期而被執行 »然而’此新電路將會比8乘上16位元的乘法快兩倍，而將具有與16乘16位元的乘法相同的效能，以及能夠每三個時脈週期執行一個16乘24位元的乘法。本紙張尺度適扪中國國家槺率（CNS ) A4ii格（210X29*7公釐） (請先W讀背面之注f項再填寫本頁} -- ,1

IA7B7 五、發明説明（表11係說明在根搛圈17之Ν=24之下，能力對於大小之比較。表11 好米·部中A^^^h-T>7i价合竹.*5·印來 α» AccfSi^ 9twm m»軍元 EHH1 位元 mem jnzm »R»TF -mtm 期 -mam «w元ft s 存 9mtk s 獅 Mul8*24 4« 3 236 160 3 1 192 80 撕21‘次 JMD «Si Itiol 16*24 4 2 3S4 96 容Tf2*次 USD Mol 24*24 6 3 576 96 和T1次 aw Mol 8*24 64 4 244 184 3 1 192 129 撕2*次 JUD «C2 Mill 16*24 4 2 129 128 容許2J•次 «ft! Mol 24^24 5 3 576 128 和nw次 mm 刚32*24 65 43 1098 128 容許2*次 JUD Mol 8*24 64 64 244 312 3 1 192 236 «% 瓶3 铷 16*24 4 2 129 256 容TF浐次 jUD Mol 24*24 5 3 376 256 窨杆俨次 JUD Mul 32*24 6 4 1098 256 容許2*次 JUD Rnul 24*24 5 3 376 256 撕柳細JM0 ---------ο! (請先閲讀背面之注^^項再填寫本頁) -^ΟΓ. 77_本紙張尺度適/1]中國國家標準（CNS ) Α4規格（210Χ297公釐） A7 B7 五、發明説明（於）備註·’ 在此電路中的對齊係與將乘積乘上1，28=256以及 21<5=2562相同。其係功能上等效於一個24乘24位元的乘法器，接著有本地進位傅播加法器用於累加。比起236個加法器單元以及160位元的記憶體，此等效電路將需^ 576個加法器單元以及96位元的累加器記憶體。此新的電路將需要大約一半的標準功能等效電路之邏輯。其時脈週期時間大約是標準的等效裝置之一半。標準的作法之產出量將會是其每個時脈週期爲一次（或者是此新電路爲每兩個時脈週期），然而24乘24位元的乘法效能在此新電路中可能每三個遇期而被執行。然而，此新電路將會比8乘上24位元的乘法快兩倍*而將具有與16乘24位元的乘法相同的效能。在此乘法器-累加器中的對齊係與將乘積乘上 1,28=256,216=2562以及224=2563相同。其係功能上等效於一個24乘32位元的乘法器，接著有本地進位傳播加法器用於累加。比起244個加法器單元以及184位元的記憶體，此等效電路將需要1098個加法器單元以及128位元的累加器記憶«。此乘法器-累加器將需要大約四分之一的標準功能等效電路之邏辑。其時脈週期時間將少於標準的等效裝鼴時脈週期時間之一半。24乘32位元的乘法之標準的作法之產出量將會是其每個時脈週期爲一次（或者是此乘法器-累加器爲每兩個時脈週期），然而32乘24位元的乘法效能在此乘法器·累加器中可能每四個週期而被執行。然 (讀先聞讀背面之注意事項再填寫本頁) -訂· 本紙張尺度適/0十國國家標率（CNS M4規格（210X297公釐）經浐部中夾jl^^M-T消於合竹"印y A7 _______B7_ 五、發明说明（7士）而，此乘法器·累加器將會比8乘上24位元的乘法快兩倍、將具有與16乘24位元的乘法相同的效能、以及能夠每三個時脈週期執行一個24乘24位元的乘法。這是乘法器-累加器中的第一個能夠執行單精度假數乘 9 法。其係被指明爲支援一種延伸的科學表示法，其係強迫製成雙累加器。乘積的對齊係爲到任意的位元邊界，因而 2的任何次方之權重都必須被支援。在該累加器或是部份乘積電路中“被去掉的位元”之截斷係需要G1能夠遮蔽 (mask)位數。有關於2*24,16*24,24*24以及32*24算術的整數效能係與先前備註中所描述的相同。此電路也可以每 5個時脈週期來執行40*24的算術，此可運用在具有超過 —千個複數點的FFT。利用3-2B〇〇th編碼之16乘N的乘法器-累加器 (N>=16)之乘法器在乘法器方塊300中改良的3-2位元的Booth乘法編碼方法介於該種8乘N的製成與本製成間的主要差別係在於乘法器方塊300 在本製成中，一種版本的Booth演算法係被利用以將所需要的加法運算數目減到最少。此Booth 演算法係根據該算術的恆等式：2^+2^+2+1=2^1。此恆等式的效果係爲一個數乘上一串的1之乘法可藉由一個位移的運算、一個加法以及一個減法而被執行β 以下的演算法係根據檢査3個連嫌的位元、判定要執 ----------Q------IT------oi (請先閱讀背面之注意事項再填寫本頁) 本紙張尺度適扣中圃國家梯率（CNS > Α4規格（210X297公釐） A7 ______B7_ 五、發明説明行加法或是減法、然後在2個位元位置上處理並重複此流程。此係爲3·2位元的編碼方式。有一個位元重叠，一次檢査中的最低有效位元係爲上一次檢査中的最高有效位元 3-2位元的Booth乘法編碼方式之表12 : _ 表12 BTW1 細 ΒΓί·!1 ΜΛ 獅 0 0 0 em：奉 0 ❶ 1 ♦A »»£8[拉1醉畢 0 1 0 +A BCiMW-Kl 0 1 1 +2A «束在BtW]之1的军· 1 0 0 -2A BWMEBCW]之 1 醉· 1 0 1 -A 枯*在刚之1的字串 aujw&tt 即η]之 1 鹏· 1 1 0 •A 籣始任BH之1辟摩 1 1 1 -0 «μβ所有的元z 1的宇¥ (請先聞讀背面之注f項再填寫本頁) 訂對於位數0至30之C1-C8的表13 : ___80 本紙張尺度適用中國國家樣率（CNS > A4规格（2丨0X297公釐）

7 7 A B 五、發明説明（yg)表13 經浐部中次^^-^h η消於合竹"卬絮 C1 C2 C3 C4 C3 C6 C7 C8 位ftlc 0 0 0 0 0 0 0 ABe 30 0 0 0 0 0 0 0 AfiBe 29 0 0 0 0 0 0 ABc AeoBe 28 * 0 0 0 0 0 0 AfiiBc AduB« 27 0 0 0 0 0 ABa AeuBc AcuBc 26 0 0 0 0 0 Α&Βλ AduBc AbuB· 23 0 0 0 0 AB8 AeuBa AcuBc AauBe 24 0 0 0 0 A&BS AdaB» AbviBc A9uBe 23 0 0 0 AB6 AeoB8 AeuBa AanBc A8uBe 22 0 0 0 A&B6 AduB8 AbuBa A9uBc A7nB« 21 0 0 AB4 AcuB6 AcuB8 AauB· ASuBc A6uBe 20 0 0 A&B4 AduB6 AbuB8 A9uBa A7^Bc A5uBe 19 0 AB2 AeuB4 AcuB6 AmaBS AteBa AtiuBc A4uBe 18 0 A6B2 AduB4 AbuB6 A9uB8 AToBft A5uBc A3uBe 17 ΑΒ0 Ac«iB2 AaiB4 AmB6 A8iiB8 A6nBa A4uBc A2uBe 16 AfiBO AduB2 AbuB4 A9iA6 ATuBS A3uBa A3uBc AloBe 15 AcoBO AcuB2 AwB4 A8uB6 A6ttB8 A4uBa A2uBc AOuBe 14 AduBO AbuB2 A9uB4 A7uB6 A5nB9 A3uBa AluBc 0 13 AcuBO AmB2 A80B4 A6nB6 A4uB8 A2uBa AOuBc 0 12 AbuBO A9oB2 A7aB4 A3uB6 A3uB8 AluB« 0 0 11 AmsBO ABaB2 A6oB4 A4uB6 A2uB8 AOnBa 0 0 10 A9uB0 A7uB2 A5uB4 A3uB6 AluB8 0 0 0 9 A8uB0 A6uB2 A4«B4 A2uB6 AOuBS 0 0 0 8 A7UB0 A3uB2 A3uB4 AluB6 0 0 0 0 7 A6uB0 A4uB2 A2iA4 AO0B6 0 0 0 0 6 A3uB0 A3uB2 A1UB4 0 0 0 0 0 5 A4«B0 A2oB2 A0uB4 0 0 0 0 0 4 A3uB0 A1UB2 0 0 0 0 0 0 3 A2uB0 A0uB2 0 0 0 0 0 0 2 AluBO 0 0 0 0 0 0 0 1 AOuBO 0 0 0 0 0 0 0 0 (請先閲讀背面之注f項再填寫本頁} .0. 訂 6.. 81 本紙張尺度適用中國國家榇準（CNS ) Α4規格（210X297公釐） A7 B7 發明说明 (?；) 用以達成各種要求的製成參數係被歸納在以下的表14 之中，其係說明以(3,2)B〇〇th編碼器小位元乘法器單元之效能評估，其係顯示在以下根據圖1的能力對大小比較 (N=16)之表中。在此表中的一般加法器單元數目是根據利用類似表12中的3-2位元改良的Booth編碼方式。 sn Acc位元 sme mmm 元 HI棚位元 inzm ΗΚϋ 期 W7C«t 百 HR*存 wsem 目 m Mdl I6M6 56 2 205 14S 2 1 128 112 研θ次 mo «mi Mol 16*32 3 2 256 12S 容ff2*次 Μύα Mul 16*16 64 3 213 156 2 1 12S m iFTfi® 次 JK8D 2 Kittl 16*32 3 2 256 128 MW Mttt3Z*32 6 4 512 128 WM次 MM . Mul 16*16 72 4 221 164 3 1 128 144 JUD 細3 Mnll6*32 4 2 156 144 Wf#次累加 - Mol 32*32 6 4 512 144 erp2* 次 jm _ Mil 32*4$ β 6 768 144 次 m 尺度適中國國家棣率（CNS ) A4規格（2丨Ox297公釐） ---------Q------1T------OI (請先閱讀背面之注f項再填寫本頁) 82 A7 B7 五、發明説明（f) 備註： (請先聞讀背面之注f項再填寫本頁) 在此乘法器·累加器中的對齊係與將乘稹乘上1以及 216=65536相同。其係功能上等效於一個16乘32位元的乘法器，接著有本地進位傅播加法器用於累加。比起205 P 加法器單元以及148位元的記憶體，此等效電路將裔要 256個加法器單元以及12S位元的累加器記憶體。其將具有大約相同的邏辑電路大小。其時脈週期時間大約是標準的等效裝置之一半，且將具有與標準的作法相同之產出童〇在此乘法器-累加器中的對齊係與將乘稹乘上 1,216=65536以及(216)2相同《其係功能上等效於一個32乘 32位元的乘法器，接著有本地進位傳播加法器用於累加。比起213個加法器單元以及156位元的記憶體，此等效電路將需要512個加法器單元以及128位元的累加器記億體。此將大約是一半的邏輯電路大小。其時脈週期時間大約是標準的等效裝置之一半。此將花费兩倍時間來執行一個 32乘32位元的乘法。此乘法器，累加器將會是標準的用於 16乘16位元的乘法之電路兩倍快。其將以與標準的乘法器-累加器所能執行地一樣的速度來執行一個16乘32位元的乘法。對齊係與將乘積乘上1，216=65536,(216)2以及(216)3相同。其係功能上等效於一個32乘48位元的乘法器，接著有本地進位傳播加法器用於累加。比起221個加法器單元以及164位元的記憶體，此等效電路將需要768個加法器單本紙張尺度適用中圏國家梯準（CNS ) A4規格（210X297公釐）

7 7 A B 衂浐部中央«.準而=C.T消贤合竹=ίι印絮五、發明説明（4) 元以及144位元的累加器記憶雔。此將大約是三分之一的邏辑電路β其時脈週期時間大約是標準的等效裝置之一半 *此將花费三倍時間來執行一個32乘48位元的乘法。此乘法器-累加器將會是標準的用於16乘16位元的乘法之寧路兩倍快。其將以與標準的電路所能執行地一樣的速度來執行一個16乘32位元的乘法。其將以大約標準的電路的兩倍時間來執行一個32乘32位元的乘法。以下的表15係說明根據圖17的能力對大小比較 (N=24)。在此表中的一般加法器單元數目是根據利用類似表12中的3-2位元改良的Booth編碼方式。表15 an Acc (¢7¾ mm 元 El+Hl 位元 vmsm mzm -mzm 期 -earn 百 -*w存 g 獅 Mul 16*24 64 2 283 196 3 1 256 m Wf2w?JC HfiD «ei Mui 32*24 4 2 44$ m 次 Ka 細 16*24 88 4 303 212 3 1 280 176 撕2*次 mo mm Mul 32*24 4 2 472 176 謇許沪次 HDD Viol 16*48 5 2 463 176 撕f次 mm Μη!32·幼 6 4 76S 176 mjb 備註：對齊係與將乘積乘上1以及2 24=(28)3相同。其係功能本紙張尺度通扣中國围家棟率（CNS ) Α4规格（210X297公釐） ---------Q II (請先閱讀背面之注11^項再填寫本頁) 訂 -ο. A7 _ _B7__ 五、發明说明（多y) 上等效於一個32乘24位元的乘法器，接著有本地進位傅播加法器用於累加•比起205個加法器單元以及148位元的記憶髖*此等效電路將需要256個加法器單元以及128 位元的累加器記憶慷。其將具有大約相同的邏輯電路大小。其時脈週期時間大約是標準的等效裝置之一半，且將具有與標準的作法相同之產出置。對齊係與將乘稹乘上1，224,216以及24G=216+24相同。其係功能上等效於一個32乘48位元的乘法器，接著有本地進位傳播加法器用於累加。比起303個加法器單元以及 212位元的記憶體，此等效電路將需要768個加法器單元以及176位元的累加器記憶體。此將具有大約一半的邏輯電路。其時脈週期時間比標準的等效裝置之一半略小。在此新電路中的執行將花费四個新電路時脈週期來執行花費 •一個標準的時脈週期（或是兩個新電路時脈週期）所執行之運算。然而，在一個時脈週期中，一個16乘24位元的乘法可以產生，而在兩個時脈週期中一個16乘48或是一個32乘24位元的乘法可以產生。此電路大小係爲一半，並且對於許多重要的DSP算術運算而言均爲與具有相同能力之標準電路一樣快、或甚至顯著地更快^ 24乘N的乘法器-累加器(尺>=24)之乘法器改良的4-3位元的Booth乘法編碼方法之利用此實施例與其先前者主要差別係在於乘法器方塊3〇〇。如前一般地’一種版本的Booth演算法係被利用以將所 ________ 85_ 本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公羞） (請先閱讀背面之注意事項再填寫本頁) 訂表16 A7 B7 五、發明説明（d) 需要的加法運算數目減到最少。以下的演算法係根嫌檢査 4個連績的位元、判定要執行加法或是減法、然後在3個位元位置上處理並重複此流程。此係爲4-3位元的編碼方式β有一個位元重ft，一次檢査中的最低有效位元係爲亭下一次檢査中的最高有效位元。表16係說明改良的4-3位元Booth乘法編碼方式： Βίι+21 Bfi+11 ΒΓΠ BTi-ll am 棚 0 0 0 0 40 0 0 0 1 +A _絲細之 0 0 1 ❶ +A BBMWI-WI 0 0 1 l +2A _粧_1之1的字串 0 1 0 0 +2A 0 1 0 1 +M «Wtt BM之1的字串加上BC WMWt-951 0 1 1 0 +3A 在Βίί+l〗興B[iM之想字串<-3> 0 1 1 1 ΜΑ ®柬在之1的字串 I 0 0 0 -4Α 明始在B[i+2]之1的字· 1 0 0 1 ·3Α 之1的字串加上β束在BP]之 1的字串 1 0 1 0 ·3Α 两始在之1的字串mtBPM唯一W 1 1 0 1 1 ·2Α 明洽在Bli+2]之1的字•加上枯柬在B[i+1] 之1的字串 1 1 0 0 -2Α RttMEBIi+Ι]之1的字串 1 1 0 1 •Α 脚电在ΒΠ+1]之1的字串加上枯束在BW之 1的字摩 I 1 ζ 0 •Α 明始ίΒΗ之1的字* 1 1 1 1 •0 Μί&««所細位紋1的字串本紙張尺度適州中囤阁家樣準（CNS > A4規格（210X297公釐） -- (請先閲讀背面之注$項再填寫本I ) b A7 _B7 五、發明说明（4) 較佳倍精度的浮點假數乘法一種根據24乘32位元的乘法之製成將能夠每兩個週期執行一個標準的56位元精度的浮點假數乘法。此56位元的長度係來自於IEEE標準的倍精度的浮點數之固有的要 * 求，其需要一個64-10位元的假數，加上兩個位了中間捨入準確度之防護位元。此種製成將只需要兩個對齊槽。一種16乘24位元的乘法之製成將能夠支援56位元的浮點假數乘法，但極可能要花费更多的時脈週期來完成。將需要更多的對齊槽。然而，此種製成的邏辑電路將遠比專用的乘法器要少。對於P=3或7的|)4<1化的製成將很容易以此種製成來加以最佳化。 .對於位數0至47之C1-C8的表17: (請先閲讀背面之注意事項再填寫本頁) 訂表17 經"·部中 A^4,-^hJ"·介 Α"竹彩卬絮 C1 C2 C3 C4 C3 C6 C7 C8 位激让 0 0 0 0 0 0 0 AB13 47 0 0 0 0 0 0 0 A19oB15 46 0 0 0 0 0 0 0 A18UB13 43 0 0 0 0 0 0 AB12 Α17^Β15 44 ❶ 0 0 0 0 0 A19uB12 Al6uBX5 43 0 0 0 0 0 0 A18uB12 A15uB15 42 0 0 0 0 0 ABf A17ikB12 A141IB15 41 0 0 0 0 0 A19uBf A16uB12 A13uB15 40 0 0 0 0 0 A18uBf A15uB12 A12nB15 39 0 0 0 0 ABc AlTUBf A14uB12 All 必 13 38 0 0 0 0 A19dBc A16iiBf A13uB12 A10uB15 37 0 0 0 0 A18uBc AlSuBf A12i£12 AfiBt5 36 0 0 0 AB9 AlTuBc A14uBf AlliiBU AWB15 35 0 0 0 A19UB9 A16uDc A13uBf A10dB12 AdoB13 34 _ __87 本紙張尺度適州中國國家棣準（CNS ) A4規格（210X297公釐）

五、發明説明（9<) 紂浐部中夾|?.^·而h.t消价合竹·χ印欠 0 0 0 A18uB9 A15uBc A&B12 AcuB13 33 0 0 AB6 Al7aB9 AUiiBc AllaBf ΑμιΒΠ AbuBlS 32 0 0 Al9vB6 A16bB9 A13aBc AlOnBf ΑΑΛ1Ζ AnB13 31 0 0 A18UB6 A13uB9 AlZaBc Afifif AcaB12 A9〇B15 30 0 AB3 A17nB6 A14«B9 AllaDc AcaBf AboB12 A8aB15 29 0 A)9nB3 A16uB6 A13oB9 AlOiiBc AdnBf AwB12 AToBIS 28 0 AlteB3 A15uB6 A12uB9 AS^e AcuBf A9iiB12 A6uB15 27 ΑΒ0 A17UB3 A14v&6 AUu&9 AeidBc AbOBf ASUB12 A3vBX5 26 A19sB0 A1MB3 A13oB6 A10dB9 AcUDc AwBf A7uB12 A4uB15 25 Α1ΜΒ0 A15aB3 A12iiD6 AfitB9 AcuBc A9aBf A6aB12 A3i£15 24 A17sB0 A14UB3 AUuB6 AmB9 AbuBc A8kiBf A5aB12 A2uB” 23 A16A0 A13y£3 A10UB6 AduB9 AmBc ΑΤύΒί A4UB12 AluB15 22 A15sB0 A12nB3 A&B6 AcaB9 A9aDc A6aBf A3uB12 A0aB15 21 A14>B0 ΑΠ1ΙΒ3 AenB6 AbuB9 AftiBc A5uBf A2uB12 0 20 A13sB0 A10〇B3 AdnB6 Am^9 A7Wc A4uBf AIaB12 0 19 A12>B0 AfiB3 AcdB6 A9ttB9 A6uBc A3uBf A0uB12 0 IS AUsBO Am£B3 Abo&6 ASeB9 A5uBc A2oBf 0 0 17 Ai<taB0 AduB3 A7nB9 A4uBc AluBf 0 0 16 AfiBO AcvB3 A9oB6 A她9 A3uBc AOaBf 0 0 15 AcnBO AMB3 A8uB« A3aB9 A2«iBc 0 0 0 14 AdnBO A«B3 A7i£6 A4uB9 AluBc 0 0 0 13 AcuBO A9uB3 A6uB6 A3uB9 AOuBc 0 0 0 n AbnBO A8dB3 A3uB6 A2aB9 0 0 0 0 11 AmBO A7taB3 A4oB6 AluB9 0 0 0 0 10 A9dB0 Atia£3 A3UB6 A0aB9 0 0 0 0 9 A8UB0 A5uB3 A2idB6 0 0 0 0 0 8 A7ifi0 A4uB3 AlttB6 0 0 0 0 0 7 MuBO A3uB3 A〇aB6 0 0 0 0 0 6 A5tiB0 A2eB3 0 0 0 0 0 0 5 A4〇BO AluB3 0 0 0 0 0 0 4 A3uB0 A0nB3 0 0 0 0 0 0 3 A2uB0 0 0 0 0 0 0 0 2 AluBO 0 0 0 0 0 0 0 1 AOuBO 0 0 0 0 0 0 0 0 ---------------訂------^or{請先聞讀背面之注意事項再填窍本頁) 88 本紙張尺度速W中國圃家標率（CNS ) Α4規格（210X297公釐） B7 五、發明说明（¥) \rntf. ---------QII {請先閲讀背面之注f項再填寫本頁) 以下的表18係說明根撺圖Π的能力對大小比較 (N=24)之效能評估。在此表中的一般加法器單元數目是根據一個利甩4-3位元改良的Booth編碼方式之乘法器設計表18

Acc赋 stmt 元 E14«| 位元 xzm iOWTF -mzm 期 -mm WlTCft 目 -tarn 9mm s m Mul 24*24 56 1 272 244 3 1 272 112 容次 Mm umi Mnl 24*24 80 2 296 292 3 1 296 160 容許2*次 MbI 24*48 4 2 312 160 «Τί* 次 HDD Mill 24*24 64 64 280 260 3 1 576 25« 撕2»次 Mnl 24*24 33 12 236 mm 許2*次累加 Mul24n4 48 16 264 260 3 1 376 19Z 欲Μ次 xunm£4 FMul 24*24 3 1 192 mm ?WR2D 備註：此電路主要的優點係爲在相同的時間內其執行了兩倍於標準的製成之多的乘法·累加。由於在E1電路中的記憶體位元之緣故，其多少係較大。在此種新電路中的對齊係與將乘積乘上1以及 224=(28)3相同。其係功能上等效於一個24乘48位元的乘本紙張尺度適Λ]中國國家標準（CNS ) A4規格（210X297公釐〉 A7 B7 五、發明说明（巧）〜法器，接著有本地進位傅播加法器用於累加。比起296 jg 加法器¥元以及292位元的記憶髖，此等效電路將需要 512個加法器單元以及160位元的累加器記憶體。其將具有大約60%的邏輯電路。其時脈遇期時間大約是標準的等 • 效裝置之一半。此種新電路將具有與24乘48位元的乘法之標準的作法相同之產出置，但對於24乘24位元的乘法則將以兩倍快地執行。此電路係能夠執行單精度的假數乘法。其係被指明爲支援一種延伸的科學表示法，其係強迫製成雙累加器。乘稹的對齊係爲到任意的位元邊界，因而2的每一個次方之權重都必須被支援。在該累加器或是部份乘積電路中“被去掉的位元”之截断係需要G1能夠遮蔽位數。整數的效能係與先前的備註中所描述的相同。請注意的是本乘法器-累加器每個時脈週期可支援一個新的單精度的浮點乘法·累加〇此爲本專利中所論及的第一個電路能夠支援p-adic浮點，P=7。由於對齊係在p-位數的邊界，一個48位元（係爲16個P-位數）的累加器只需要16個對齊槽，使得其對齊機構之製成較不吃力。在此所利用的加法器單元係爲P-adic加法器軍元，其係假設工作在一個冗餘的p-位數表示法之三個位元之每個位元上。這些加法器單元大槪對於一個位數之內的每個位元爲不相同的，但在此討論中將被當作具有相同的整體複雜度。此電路的主要優點係爲其效能爲標準的製成之效能的兩倍。本紙張尺度適用中囷困家標準（CNS ) A4規格（210X297公釐） ----------Q|通 f請先開讀背面之注f項再填寫本頁) 訂 MM.部中央i?:si->CJh-T消 Φ;合竹；5-印妒 A7 B7 五、發明说明（0 ) 圖18中利用4-3B〇〇th編碼方式的16乘N之乘法器表19係說明用於乘法器300之係數的產生：表19 M浐部中爽irsi-而h-τ消於合竹ii卬ΐ! C1 C2 C3 C4 CS C6 C7 C8 位ftfc 0 0 0 0 0 ABf Zlf 0 31 0 0 0 0 0 AfiBf Zle 0 30 0 0 0 0 0 AcdBf Zld 0 29 0 0 0 0 ABc AdtiBf Zlc 0 28 0 0 0 0 AfiBc AciiBf Zlb 0 27 0 0 0 0 AeuBc AboBf Zla 0 26 0 0 0 AB9 AduBc AauBf Z19 0 25 0 0 0 A&B9 AcuBc A9uBf Z18 0 24 0 0 0 AeuB9 AlwBc A8uBf ZX7 0 23 0 0 AB6 AduB9 AadBc A7uBf Z16 0 22 0 0 A&B6 AcaB9 A9uBc A6dBf Z13 0 21 0 0 AeuB6 AbnB9 ASuBc A5uBf Z14 0 20 0 AB3 AduB6 AnB9 ATuBc A4uBf Z13 0 19 0 A&B3 AcuB6 A9uB9 A6uBc A3uBf Z12 0 18 0 Ac«iB3 AbaB6 A8uB9 A5uBc A2nBf Zll 0 17 ΑΒΟ AduB3 AauB6 A7iiB9 A4uBc AluBf Z10 0 U AfiBO AcuB3 A9uB6 A6uB9 A3uBc AOuBf 2f 0 15 AcuBO AbuB3 A8uB6 A5uB9 A2uBc 0 Ze ❶ 14 AdnBO AmB3 A7uB6 A4uB9 AloBc 0 Zd 0 13 AcoBO AMB3 AtfuB6 A3oB9 AOnBc 0 Zc 0 n AfanBO A8oB3 A5uB6 A2oB9 0 0 2b 0 u AauBO A7uB3 A4«iB6 AluB9 0 0 Za 0 10 A9uB0 A6<S3 A3uB6 A0uB9 0 0 29 0 9 ASnBO A5uB3 A2uB6 0 0 0 Z8 0 8 Α7ιβ0 A4uB3 AluB6 0 0 0 27 0 7 AtioBO A3uB3 A0iiB6 0 0 0 26 0 6 A5^m A2uB3 0 0 0 0 Z5 0 5 A4ttB0 AluB3 0 0 0 0 TA 0 4 A3〇BO A0uB3 0 0 0 0 23 0 3 A2〇BO 0 0 0 0 0 72 0 Z AluBO 0 0 0 0 0 Z1 0 l AOuBO 0 0 0 0 0 ZO 0 0 (請先閲讀背面之注^^項再填寫本頁) 訂 91 本紙張尺度適用中國國家標率（CNS > Α4規格（210X297公釐） Α7 Β7 五、發明说明（β) 調整後之加法器樹的要件檢視表19係顯示出加法器D4並不必達成一種定點多項式步騄之施行。加法器D4與D6對於沒有支援單週期多項式步嫌運算之施行而言爲不必要的。多項式步驟運算之施行定點算術多項式步騄之計算將不需要加法器D4 此假設將會是計算的精度將會符合或是小於Ν個位元，因而在此例子中的Ζ輸入將爲16個位元，其將被對齊至乘稹的最高有效位元。整數算術多項式步驟之計算也將不需要加法器1)4。主要的不同將會是在此種情況下之偏移將被假設爲具有與乘法的結果相同之精度，因而Ζ將被假設爲32個位元。表20係說明Ν=16的效能對於大小》 ---------------訂------ (請先閏讀背面之注'項再填寫本耳} 本紙張尺度適/»】中國國家榇準（CNS)A4規格（ 210X297公釐） A7 B7 經"—部中决ii:4,-^h-T消贽合竹·*5-印來五、發明説明（P )

Aec^TC ftmm tumm 元 EHffl位元 nmm nuzm iomrF -mz» 期 Hum 9m?m s HMR? miym M 獅 AAd 16*16 40 1 14S 132 t 1 19« to 撕^次· ma 備Kl Mnl 16*16 36 2 196 !4β 2 1 196 112 害詳浐次 IUMIt£2 Mnl 16*32 - 3 t 300 112 赛肝？次 ma ΚΑιΙ 16*16 64 3 220 156 2 1 220 m 謇許产次 juattes Μη! 16*32 3 2 31« 12S WP2M 次 mo Mul 32*32 5 4 600 144 和Ϊ21次 DUD Mid 16*16 88 4 270 196 2 1 270 176 容If 25•次 Mul 16*32 3 2 374 176 容杆2*次 JRffl Mul 32*32 3 4 64S 176 赛IT2W次 MUD ΜηΙ32φ4β 8 6 900 17« 容許2*次 «2D 備註：此電路有其主要之優點爲在相同的時間之內能夠執行兩倍於標準的製成之多的乘法-累加。對齊的權重係與乘上1與21δ相同。此電路具有70¾ 的能夠執行相同運算的標準乘法器電路。對於16乘16位元的乘法，其具有標準的電路之兩倍的效能，而對於16乘 93 .紙張尺度適州中«闽家標率（CNS M4規格（210X297公釐） (請先5?讀背面之注f項再填寫本頁) 訂 A7 B7 五、發明说明d 1) 32位元的乘法，其具有相同的效能此種新電路具有1，216以及232= (216)2的權重。其具有大約一半之標準製成的邇辑》其在本身的四個時脈週期內執行一個32乘32位元的乘法，相較於標準的製成係花琴兩個新電路的時脈週期。然而，其係每個時脈週期執行一個16乘16位元的乘法，此係比標準的製成快兩倍。此種新電路具有1，216,232= (216)2以及248= (216)3的權重》其具有大約三分之一的標準製成之邏輯。其在本身的 6個時脈週期內執行一個32乘48位元的乘法，相較於標準的製成係花費兩個新電路的時脈週期》然而，其係每個時脈週期執行一個16乘16位元的乘法，此係比標準的製成快兩倍。在圖20的MAC與以上圖19的MAC的基本不同處係爲有額外的四個數被產生於乘法器方塊300中，C9-C12。此需要六個保存器D1-D6在其輸出。加法器D5與D6係延伸能夠藉由超過50%的上述對照的基本乘法器電路所能達成的乘法精度。一個32位元乘N位元的單週期乘法可在不需D6之下而被完成。在此種製成中，D6將提供施行型式爲X*Y+Z的多項式步騵的運算之能力，其中X與Z爲輸入數而Υ是內含於Η1的累加器暫存器之狀態。此將以一種類似於有關圖18與19所討論的方式加以達成。此種製成爲了最佳的效能將會需要至少兩個累加器於Η1中。若Ν>=32，則在具有適當的對齊槽於G1與G2之下，這些 ____94 ______ g张尺;中國國家梯準（CNS ) Α4规格（210X297公|Γ) ~ ---------— (請先閲讀背面之注$項再填寫本頁) 訂 C: A7 B7 五、發明说明運算可支援多種精度的整數計算。此種運算係被利用於商業的符號計算套裝軟雔中，尤其是包括Mathematica, Macsyma 以及 MAPLE V。 28乘N位元的乘法之施行在利用D6之下將足夠提供 « 支援兩週期的Χ*γ+Ζ的多項式步臃計算之偏移加法用於標準的倍精度浮點假數乘法》以上包含四個累加暫存器於Η1中之兩種製成中的任 —種製成均將能夠支援作用於兩個複數(complex number)之延伸精度的浮點惲數乘法/累加，此爲FORTRAN程序環境之一需求。在以上的討論之下，任何一種以上討論的製成均可被建構成具有支援標準或是延伸的精度浮點之p-adic 浮點的運算。加法器鍵D7，D8與D9係以樹狀型態被設置在加法器D1-D6的輸出上。這些加法器鏈D7，D8與D9係分別將D1,D2,D3，D4,D5以及D6的結果當作输入。該原始的乘法器並不包含D9。其對於在此所討論的實施例而言爲特別的。如同在圖Π之最初的乘法器/累加器架構中，加法器 10的_入係爲加法器D7與D8的結果，此被暫存於方塊 £1之中。加法器D11將加法器D9對齊後之結果以及H1 所選出的記憶體內容之對齊後的結果當作輸入•在此對於基本的乘法器/累加器架構中，加法器D11將加法器D9對齊後之結果以及H1所選出的記憶體內容之對齊後的結果當作输入。在上一句中提及的對齊係由G1來執行。加法器D9對齊後之結果係已通過E1，其中它們被同步地抓取 ~~-------95_ 本紙張尺度適月〗巾國國家樣準（CNS ) A4規格（210X297公釐） (讀先Μ讀背面之注意事項再填寫本頁)

,1T A7 B7 五、發明说明（0) 〇加法器D12係接收加法器D10對齊後之結果以及加法器D11之結果在對齊過的信號束翰入到加法器D12 之前，先對齊加法器D10之結果。其運算的結果係被送至 « 方塊H1，其中一或多個方塊H1內部的暫存器可儲存該結果。主要的效能改進係來自於能夠在一個時脈週期內平行地處理更多的位元。第二個效能改進係來自於能夠在第一個運算才通過如原始的電路討論中所述的加法器樹之一半時，即可以開始第二個運算。第三個效能改進係來自於能 .夠多精度的計算而不潁著地影響電路的大小之能力。根據此圖已一種修改過之加法器樹的製成可以支援32乘N位元的乘法-累加。表21係說明支援32乘32乘法的修改過之加法器樹（ N=32之效能對大小）。 · (婧先聞讀背面之注f項再填寫本頁) 本紙張尺度適扪中阐國家棣率（CNS ) A4規格（210X297公釐） A7 B7 五、發明説明（γφ) 表21

Acc (ΰτδ «Ml 元 EMH1 位元 wmm nzm mmr -mzm. 期 »11 絲 S HR»存 I 獅 l«d 32*32 80 1 508 400 2 1 508 160 赛許作 mofiei Mnl 32*32 U2 2 572 464 2 1 572 224 容許ί*次 iuxme.1 Mnl 32*64 3 2 860 224 軎杆俨次 ma Mnl 32*32 144 3 636 32$ 2 1 636 288 Wf2* 次 XUMHE3 MbI 32*64 3 2 924 m 容貯浐次 ma Mul 64*64 3 4 1664 288 撕2«次 IUD λΑιΙ 32*32 160 4 672 360 2 1 66S 320 和Ϊ2*次 mamt* Mul 32*64 3 2 · 960 320 和T2*次 JUD Mol 64*64 3 4 1694 320 «ΙΤ2Μ 次 JK8D Kbil 64*96 8 6 2176 320 «Ϊ2* 次 JUQ ---------— {請先閱讀背面之注f項再填寫本頁) 訂好"•部中决^4,-^u η消贤合竹·ίΛ印妒備註：此電路在相同的時間之內係執行兩倍於標準的製成之多的乘法·累加。對於此電路之對齊的權重係與乘上1與232相同。此電路具有70¾的能夠執行相同運算的標準乘法器電路。對於32乘32位元的乘法，其具有標準的電路之兩倍的效能，而對於32乘64位元的乘法，其具有相同的效能。本紙張尺度適州中國國家樣準（CNS ) Α4現格（210X297公釐）鲟浐部中夾ir.-^-^M.T消价合竹.衫卬^ A7 B7 五、發明説明（γ<) 此電路具有1，232以及264= (232)2的權重。其具有少於一半之標準製成的驪辑。其在本身的四個時脈週期內執行一個64乘64位元的乘法，相較於標準的製成係花费大約兩個電路的時脈週期。然而，其係每個時脈週期執行一領 32乘32位元的乘法，此係比標準的製成快兩倍。此電路具有1，232，：264= (f2)2以及公6= (232)3的權重。其具有大約三分之一的標準製成之邏辑。其在本身的6個時脈週期內執行一個64乘96位元的乘法，相較於標準的製成係花费大約兩個電路的時脈週期。然而，其係每個時脈週期執行一個32乘32位元的乘法，此係比標準的製成快兩倍。現參照圖21與22，其係說明有MAC 68的兩個另外的實施例。圖21與22兩者都支援單週期、倍精度的浮點假數乘法。它們可被製成支援具有相同程度的效能之延伸的科學浮黏表示法以及p-adic浮點與延伸的浮點。圖21代表一種基本的乘法器-累加器。圖22係代表一種支援最佳的多項式計算步騍之延伸電路。 4-3改良的Booth乘法編碼之利用將被假設用於乘法器方塊300中。小p-adiC浮點假數或是模數算術的乘法之支援將會需要此種方式的一種變化。所產生的18個部份乘稹係支援兩種標準的倍精度之54位元的假數欄位以及p=7的 p-adic倍精度。因而，圖21與22係代表電路能夠做54乘 54位元的檫準假數乘法以及18乘18位數（54位元）的 ____ 98__ 本紙張尺度適州中國围家標準（CNS ) A4規格（210X297公釐〉 ---------QII <請先閱讀背面之注ί項再填寫本頁) 訂經才·部中次^.^-^,-=^消价合竹；； Α7 Β7 五、發明说明（74) p-adic假數計算。從左邊開始，在乘法器方塊300的输出上之加法器 (D1-D6)的第一屠以及在管線暫存器E1的輸出上之加法器 (D10)的第三屠係爲三個數目之總和的加法器鏈。該第二學第四層的加法器(D7-D9與DU)係爲兩個數目之總和的加法器該對齊電路G1以及在D11中一個加法器環之利用係提供所要的特定浮點表示法所需的對齊能力。在H1中的電路可被製成來支援延伸的科學浮黏表示法以及將 FORTRAN之複數處理的執行條件最佳化。由ji執行的功能與上述的實施例大致並無不同。進一步參照圖21，應注意的主要項目是在乘法器方塊 300中產生超過6個圚20所能產生的數目。加法器D1至 D6係各自加總三個由信號束C1至C18所代表的數》標準的、以及P=7之p-adic、浮黏倍精度假數乘法均需要54位元（18個p=7之p-adic位數）之假數。此乘法器方塊300 將能夠平行地執行所有的小位元乘法。該些小位元乘法的結果然後將被送到加法器D1至D6以產生較大的部份乘積該加法器鏈D7，D8與D9係分別將D1，D2，D3，D4，D5以及D6的結果當作輸入。該原始聲稱的乘法器並不包含D9 。其對於在此所討論的實施例而言爲特別的。加法器D10 也加總三個數。加法器D10的输入係爲加法器D7，D8與 D9的結果，該些結果係被暫存在方塊E1之中》加法器 D11係接收加法器D10對齊後之結果以及Η1所選出的內 ____99 __ 本紙張尺度適用中闽囷家梯率（CNS ) Α4規格（2丨0><297公釐） ---------------訂------ (請先閱讀背面之注f項再填寫本頁) 好济部中次^準而，-^-7·消赍合竹d印家 A7 ______B7_ 五、發明说明（%) 容。G1係對齊加法器D10的結果》其運算的結果係被送至方塊H1，其中一或多個方塊H1內部的暫存器可儲存該結果。暫存器方塊H1與界面J1在圈22中有一額外的功能 • :被載入一個額外的數”Y”之能力，該數之後可被用來計算 B*Z+Y。主要的效能改進係來自於能夠在具有必要的累加器來支援對於標準或是P=7的p-adic算術之延伸的科學精度浮黏之下，於每個時脈週期內處理一個倍精度的假數乘法。第二個效能改進係來自於能夠在第一個運算才通過如原始的電路討論中所述的加法器樹之一半時，即可以開始第二個運算。以下的表22係描述能夠每個時脈週期支援延伸的科學倍精度標準與P=7的ρ-adk之乘法-累加的具有兩個累加器之乘法器的效能分析。表22 ΜΛ Acc(2)tt元 nmm msm* 元 E14H1 位元 mms 束之》η mm下 -mzm 期 «WtgK s 存 B 獅 FMul 54*54 256 128 473(3) 338(2) 932 2 1 475(3) 338(2) 512 備驻1 PFMol 18*18 216 36 473(3) 298(2) 812 2 1 475(3) 2W2) 432 mmz 備註：此設計係製成目標是延伸的科學表示法累加器之標準的倍精度假數乘法·累加β 此種表示法係需要具有兩倍的假數長度之雙累加器。 ____100 __ 本紙張尺度適州中國國家標半（CNS ) Α4规格（210Χ297公釐） (請先閱讀背面之注$項再填寫本頁)

.-Q *1Τ A7 B7 好來·^中"打^^·*^-τ消货合竹·衫印裏五、發明説明（|g) 最少108個對齊槽將會是足夠的。爲了簡化設計，該些對齊槽係最做成2的次方。此_使累加器必須保存128個位元之冗餘二進位表示法。請注意的是複數的支援將會加倍所需的累加器數目。此種支援爲FORTRAN所需要，並县對於根據複數計算的數位信號處理的應用而言爲最佳的。加法器單元的數目係被分成兩類型：加總3個數的以及加總2個數的。該些加法器單元的數目係代表分別在加法器D1-D11中，全部當作爲相同類型的單元，此爲一種簡化。介於此與標準的方式之間的主要差別係爲效能：此種新電路在相同的時間之內係執行兩倍多的乘法。利用以圖22爲基礎的電路係因容許多項式計算步驟的最佳化而增進效能。此代表在這些計算中兩倍率的加快。此種設計係製成目標是延伸的科學表示法累加器之 ρ=7的p-adic倍精度假數乘法-累加。兩倍長度的累加器需要36個位數的儲存，此提出一個問題：若在此新電路1中所採取的方式(對齊槽的簡化)在此被利用，則其將需要64個對齊槽，導致64位數的累加器。此比似乎所保證的更加準確。在此所作的假設係爲36 個對齊槽，具有兩個累加器各自需要的36個冗餘的p-adic 位數。每個冗餘的p-adic位數將被假設需要6個位元的記憶雔。請注意的是複數的支援將會加倍所需的累加器數目。此種支援爲FORTRAN所需要，並且對於根據複數計算的 101____________ (請先W讀背面之注f項再填转本1) b ί

T

P 本紙張尺度適用中阐國家榇率（CNS ) A4規格（2丨0><297公釐）經浐部中央ii.^'->rJ^:.T消费合竹ii卬>ί A7 ___________B7___ 五、發明说明（1) 數位信號處理的應用而言爲最佳的。將進一步假設冗餘的p-adic加法器單元之每個位數係大約等效於3個冗餘二進位加法器單元。加法器單元的數目係被分成兩類型：加總3個數的以及加總2個數的。寧些加法器單元的數目係代表分別在加法器D1-D11中，全部當作爲相同類型的單元，此爲一種簡化。由於沒有已知的等效電路，比較將是較爲假設性的：此電路的產出係爲一個沒有Ε1管線暫存器的電路之兩倍。利用以圓22爲基礎的電路係因容許多項式計算歩騍的最佳化而增進效能。此代表在這些計算中兩倍率的加快。現參照圖23，其係說明有一種具有最少的支援電路之乘法器的方塊圖。如上所述，一乘法器-累加器方塊310係包含一個由一乘法器312以及一累加器314所構成的乘法器-累加器，再加上一個標示爲“L2.MUlInReg”的输入暫存器方塊316。其來源爲此電路外部之信號束係藉由複數個標示爲“K2:IN Mux(s)”的多工器318所選出。所選出的信號束係同步地被儲存在標示爲“Ll.IN Reg(s)”的記憶體方塊320之內。該乘法器-累加器方塊310的输入係由一個標示爲“K3:Mult Mux(s)”的多工器電路322所選出。來自方塊3220之複數個信號束然後將被送到322以及一個標示爲 HAddMux(s)” 的方塊 324。該K4方塊係在來自方塊320之被同步的外部來源之信號束以及標示爲“L4:MulAcReg(s)”的累加器方塊314 ______102____ 本紙張尺度適州中國國家標準（CNS ) A4規格（210X297公釐） _________QII (請先閏禎背面之注^^項再填寫本頁) 訂 A7 B7____ 五、發明説明（（#) 所選的記憶體內容之內容（或是部分內容）之間做選擇β 這些信猇束然後被同步地儎存到加法器方塊328中標示爲 “L5:AddInReg”的方塊326之記憶雔內容中。此加法器經考量可選擇性地具有一個標示爲“L6:AddMidReg(s)”的中間-管線的暫存器方塊。該加法器同步的結果係被儎存在標示爲-L7:AddAccReg(s)”的方塊之記憶體組件之中。在最簡單的製成中，以下的組件將不存在：K2，L1，K：3，K4與L6 〇現參照圖24，其係說明有一個具有基本的加法器核心、一埠與三埠的記憶體之乘法器-累加器的方塊圖。此電路係容納圖23所有的功能方塊，再加上類似於一埠的記億體 44之一埠記憶體330、類似於三埠的記憶體43之三埠記億體332、輸出暫存器多工器334以及輸出暫存器336 »此乘法器的輸入選擇器332現係在來自輸入暫存器方塊 320(Ll(ir0-im))的信號束、記憶體讀取埠同步化的信號束 (mr0-mr2)以及輸出暫存器方塊336的同步化之結果 (L7(or0-orn))之間做選擇》在方塊 334 “K5:OutRegMux(s)” 係在加法器結果的效號束、輸入暫存器的效號束(irO-irn)以及記憶體讀取埠同步化的信號束(mrO-nir2)做選擇之下，此加法器的累加器L7現在當作輸出暫存器。加法器328也可具有狀態信號，例如等於、零-檢測、溢位、進位等等，其也可以被暫存。它們在此圖中係未被表示以簡化討論。該一埠記憶髖方塊330係包含一個標示爲“K6:l-port Write Mux”之寫入資料多工器方塊340，此係在輸入暫存 (請先聞讀背面之注意事項再填寫本瓦) *1Τ Ρ. ϋ張尺度適/fl中國國家標準（CNS ) A4规格（210Χ2ϋ>釐） A7 B7 五、發明说明（ι〇|) 器信號束‘irO-im’以及輸出暂存器信號束‘orO-oni’之間做選擇。所選出的信號束係被送到該記億髖的寫入埠。該讀取埠將其信號束送到一個標示爲“L8:l-p〇rt Read Reg” 的讀取暫存器342，其係將用於其它地方的信號同步化。此記憶髏在一個時脈週期內只能執行一次存取，讀取或是寫入。方塊342的內容係假設爲只有當記億體電路進行讀取時才會改變。請注意的是位址的產生以及讀取/寫入控制信號束均在此圖中係未被表示以簡化討論。該三埠記憶嫌方塊332係包含一個標示爲“K7:3-p〇rt Write Μιιχ”之寫入資料多工器方塊344，此係在輸入暫存器信號束‘irO-irn’以及輸出暫存器信號束·〇Γ〇-οπι’之間做選擇。所選出的信號束係被送到該記憶體的寫入埠。該讀取埠將其信號束送到一個標示爲“L9:3-p〇rt Read Reg” 的讀取暫存器346·以及一個標示爲“L10:3-p〇rt Read Reg” 的讀取暫存器348，其係將用於其它地方的信號同步化。此記憶體332在一個時脈週期內能夠執行兩次讀取以及一次寫入存取。方塊346與349的內容係假設爲只有當記億雔電路進行讀取時才會改變。請注意的是位址的產生以及讀取/寫入控制信號束均在此圖中係未被表示以簡化討論。現參照晒25，其係說明有一個具有多個加法器、以及一埠與三埠的記億體之乘法器-累加器的方塊圖。此電路係容納圖24所有的功能方塊，再加上一或多個額外的加法器方塊，其各含有多個標示爲“L7:AddAcc(S)”的累加器350 »加法器的輸入多工可以被獨立控制到每個加法器方塊。 _ 104 (請先閲讀背面之注f項再填寫本頁)

T 本紙张尺度通州中國囷家標準（CNS ) A4规格（210X297公釐）經浐部中戎«.^-*^?^.消货合竹il卬^ A7 B7_ 五、發明説明（ι〇>) 多個信號束(ac[l，0]至ac[p，k])係被假設爲產生自該些加法器方塊•任何的加法器狀態信號，例如溢位、等於、零檢測等等均被假設爲同步地儲存並可被用於適當的控制信號產生電路。這些狀態信號束、同步化電路以及控制信號產生電路均在此圈中係未被表示以簡化討論。該乘法器多工器 322係被延伸來選擇任何來自所產生的加法器信號束 (ac[l，0]至aC[p，k])中的任一信號。該輸出暫存器多工器 334係被延伸爲來自所產生的加法器信號束（ac[l，〇]至 ac[p，k])中的任一信號。由圖23至25所代表之電路的基本優點現將加以說明。根據圈23的電路係包含根據以上所述的寅施例而被完成的乘法器•累加器之優點。有關乘法器的主要系統限制係爲有效率地提供運算元到電路。圖23的實施例並未著重此問題。根嫌圖24與25的電路係解決圖23中對於作用在一串 (stream)資料之廣大類型的有用之演算法上系統的限制。一串資料之特點爲資料値的序列傳輸》其具有顯著的優點在於對資料流執行線性轉換（其包括快速傅立葉轉換(FFTs) 、有限脈衝響應(FIR)濾波器、離散餘弦轉換(DCTs))、叠積(convolution)以及多項式計算之能力。線性轉換之特點爲一個矩形的Μ乘Μ陣列a乘上一個向童v產生一個結果向量。在一般情形中，每個被輸出的結果係需要a[i，j]與v[j] 對於之Μ個乘法。此結果之後可被送至一或多個其中可被寫入任一記憶體中的输出暫存器。若矩陣對於中 ___ 105__ 本紙乐尺度適州中國國家標率（CNS ) Α4規格（210X297公釐） )r.. ---------Γ^!-----IT------cl (請先《讀背面之注意事項再填寫本頁) A7 B7 五、發明说明心爲對稱的，因而 a[i，j]=a[i,n-j]或是 a[i,j]=-a[i，n-j]，則一個最佳的排序係包含加或減v[j]與v[n-j]，接著將結果乘上 a[i，j] ’其係被累加到乘法器的累加器中。此種資料流 (dataflow)減少執行時間爲一半。請注意的是假設該矩陣a 可被儀存在該一埠的記憶髖中並且該向量v可被儲存在該三埠的記憶體中時，此乘法器係大致永遠爲動作中。此種系統資料流並不暫停該乘法器。事實上，當矩陣對於中心爲對稱的，其產出效能係加倍。 ^:浐部中夾ir^-^h-T>7i於合竹^印 y {請先閲讀背面之注^^項再填寫本頁) 叠積之特點爲作用在一串資料之上。令对-n]，··，x[0]，…x[Il]表示中心在x[0]的一串列。叠稹係爲此總和 c[0]*x[-n]*x[0]+...+c[n]*x[0]*x[n]。在計算完每個叠積結果之後，該資料χ[-η]係被移去，其餘的資料係被向下移一個單元且一件新資料變爲χ[η]»假設該X向量可被儲存在該三埠的記億體中時，新資料單元的取得並不減緩此乘法器。此乘法器係大致一直爲動作中。多項式計算係在乘法器·累加器中在架構上地最佳化。假設有足夠的記憶體來保存其係數，該些乘法器·累加器的計算可在每個時脈週期被執行。大字元的整數乘法也有效率地以圖7與8的電路被施行。令Α[0]至Α[η]爲一個大整數，而Β[0]至B[m]爲第二個大整數。其乘稹係爲一個數C[0]至C[n+m]，其係可被表不爲. C[0]=A[0]*B[0]的最低有效字元 C[l]= A[1]*B[0]+A[0]*B[1]+ C[0]的第二個字元本紙張尺度適用中國國家標率（CNS ) A4規格（210X297公釐） A7 ____B7_ 五、發明説明（\ C[n+m]=A[n]*B[m]+C[n+m]的最高有效字元這些計算對於該乘法器也可以用花费非常少的週期而被執行。以圓25來建構的電路係具有優黏在於邊界檢査（其需要至少兩個加法器）可以在單一週期內被完成。並阜對稱的矩陣線性轉換可在加減向置單元之同時，另一個加法器正在轉換乘法器的累加器》雖然較佳實施例已經詳細地加以描述，應了解的是各種的改變、替換以及變化在此均可被進行而不脫離如後附的申請專利範圃所界定的本發明之精神舆範疇。 (請先閏讀背面之注W*'項再填寫本頁) -xmt/ *1T- .cr. ________107 本紙張尺度通用中國國家樣率（CNS ) A4規格（210X297公釐）

Claims

經濟部中央標隼局負工消费合作社印装 ί! C8 g7T 08η _Ρ» _^_ 六、申請專利範固 L一種可重組構之處理單元，其包括：複數個執行單元，其各具有至少一個輸入以及至少一個輸出，並且該些執行單元彼此平行地運作，且各具有一個與其相關之預設的可執行演算法；一用以選擇該複數個執行單元的至少一個輸出之一或多個輸出的輸出選擇器，其並且提供至少一個输出到一外部位置以及至少一條回授路徑；一用以接收至少一個外部輸入以及該回授路徑之輸入選擇器，其並且可實行來界接至每個該些執行單元之至少一個輸入的其中至少一個，並更可實行來選擇性地連接一個或全部的該至少一個外部輸入以及該回授路徑以選出該些執行單元之至少一個輸入中的輸入； —用以儀存一個可重組構指令的可重組構暫存器；一用以根據該可重組構指令來組構該輸出選擇器以及該輸入選擇器以定義出在一個給定的指令週期內通過該些執行單元之一種資料路徑組態的組態控制器。 2. 如申請專利範圃第1項之可重組構之處理單元，其更包括一用以輸入用於下一指令週期之新的可重組構指令進入該可重組構暫存器之輸入裝置，並且其中該組態控制器係可實行來重新組構用於該下一指令週期之通過該些已組構的執行單元之資料的資料路徑。 3. 如申請專利範圔第2項之可重組構之處理單元，其更包括一用以儲存複數個可重組構指令的指令記憶髖、以及一用以根搛一個預設的執行序列在接下來的指令週期中本纸張尺度逋用中困國家揉率（CNS > A4规格（210X297公釐） (請先閏讀背面之注意事項再填寫本K ) 訂 ?I ?I 經濟部中央標隼局貞工消費合作社印製 D8_. 六、申請專利範困輸出該些被儲存的可重組構指令到該可重組構暂存器之排序器。 4. 如申請專利範圈第1項之可重組構之處理單元，其中該些執行單元的至少一個執行單元係具有多個輸入。 5. 如申請專利範困第1項之可重組構之處理單元，其中該些執行單元的至少一個$行單元係具有多個通遇其中之可組構的資料路徑，其中該一執行單元的執行演算法根嫌該指令暫存器的內容係爲可重組構的，以在其中該多個資料路徑之間做選擇。 6. 如申請專利範圍第1項之可重組構之處理單元，其中每個該些執行單元的運算根搛該可重組構暫存器的內容係爲可程式化的，使得該組態控制器將同時組構通過該一執行單元的資料路徑以及與該一執行單元有關的可執行之演算法。 7. 如申請專利範圍第1項之可重組構之處理單元，其中該輸入選擇器係包括在該至少一個外部輸入之上用以儲存該外部输入的値之晳存器，該暫存器係被該組態控制器以及該可重組構暫存器的內容所控制，使得該暫存器可被置放入此可重組構之處理單元的已組構的資料路徑中。 8. 如申請專利範園第1項之可重組構之處理單元，其中該輸出選擇器係包括在該至少一個外部輸出之上用以儲存該外部輸出的値之暫存器，該暫存器係被該組態控制器以及該可重組構暫存器的內容所控制，使得該暫存器可被置放入此可重組構之處理單元的已組構的資料路徑中。 __2__ 本纸fltXA逍用中•困家輮率< CNS > 格（210X297公釐） (請先etft背面之注$項再稹寫本買) 訂經濟部中央橾率局貝工消费合作社印轚 ?s ____·__D8 _ 六、申請專利範圍 9·如申請專利範晒第1項之可重組構之處理單元，其中該些執行單元的至少一個執行單元係具有一個乘法器的功能。 10.如申請專利範圃第1項之可重組構之處理單元，其中該些執行單元的至少一個執行單元係包含一個加法器的功能。 11·如申請專利範園第1項之可重組構之處理單元，其中該些執行單元的至少一個執行單元係包含一個在一第二回授路徑中之記憶雔，其用以將來自由該輸出選擇器所選出的中該些執行單元的至少一個輸出中被選出的输出之資訊寫入其中，並且自其中讀取資訊用於輸入到該||入選擇器作爲其可選擇的輸入之其中之一，並且其中該組態控制器係包含一用以儲存一個用於該記憶體之位址的位址暫存器，其係根據與儲存在該可重組構暫存器的可重組構指令一起傣存的指令而被輸出。 12. 如申請專利範圍第1項之可重組構之處理單元，其中該些執行單元的至少一個執行單元係包含一個在一外部來源上被規劃之可程式化的邏辑單元。 13. —種可重組構之處理系統，其包括：複數個可重組構之處理單元，其各包含：複數個執行單元，其各具有至少一個翰入以及至少一個輸出，並且該些執行單元彼此平行地運作，且各具有一個與其相關之預設的可執行演算法；一用以選擇該複數個執行單元的至少一個輸出之一或 ___3___ 本紙張尺度逋用中國國家橾率（CNS ) A4規格（210X297公釐） <請先®讀背面之注$項再填寫本I) 訂經濟部t央標率局貝工消费合作社印製六、申請專利範困多個輸出的輸出選擇器，其並且提供至少一個輸出到一外部位置以及至少一條回授路徑；一用以接收至少一個外部输入以及該回授路徑之輸入選擇器，其並且可實行來界接至每個該些執行單元之至少一個輸入的其中至少一個，並更可實行來選擇性地連接一個或全部的該至少一個外部輸入以及該回授路徑以選出該些執行単元之至少一個輸入中的輸入；一用以僂存一個可重組構指令的可重組構暫存器；一用以根據該可重組構指令來組構該输出選擇器以及該輸入選擇器以定義出在一個給定的指令週期內通過該些執行單元之一種資料路徑組態的組態控制器；以及複數條用以相互連接該些输出選擇器中被選擇的输出選擇器之輸出到該些輸入選擇器中被選擇的輸入選擇器之通訊匯流排· 14. 如申請專利範圍第13項之處理系統，其中該複數條通訊匯流排對於每個該些可重組構之處理單元均包含一條互連匯流排，該相關的互連匯流排係被連接到在該相關連的可重組構之處理單元上的輸出選擇器之至少一個外部輸出，並且係作爲所有的可重組構之處理單元的每個輸入選擇器之一可選擇的輸入· 15. 如申請專利範園第13項之處理系統，其更包含一用以輸入用於下一指令週期之新的可重組構指令進入所選出的該些可重組構之處理單元的可重組構暫存器之輸入裝置，並且其中該組態控制器係可寅行來重新組構用於該下 _____4___ 本紙張尺度逋用中«家樑率（CNS > A4規格（21〇Χ297公羡） (請先閱Ϊ面之注$項再*寫本貫) 订

經濟部中央橾準局貝工消费合作社印輦六、申請專利範圍一指令週期之通過該些已組構的執行單元之資料的資料路徑。 16. 如申請專利範圃第15項之處理系統，其在每個該些可重組構之處理單元均更包括一用以儲存複數個可重組構指令的指令記憶體、以及一個在每個該些可重組構之處理單元中用以根搛一個預設的執行序列在接下來的指令週期中輸出該些被儲存的可重組構指令到該相關的可重組構暫存器之排序器。 17. 如申誚專利範圍第16項之處理系統，其中該输入裝置係包含一用以輸入指令與序列資訊而用於組構該些可重組構之處理軍元的資料路徑之控制匯流排。 18. —種同步的乘法器·累加器，其係包括：一第一管線階段，其包含：小位元乘法器以自算術資料信號產生部分乘積、一耦接至該些小位元乘法器之加法器網路以接收並總和該些部分乘積；該加法器網路係包括本地進位傅播加法器單元，該些加法器單元被組構爲一種多層的加法器樹以在此加法器樹的一個輸出層之處產生該些算術資料信號的乘積；此第一管線階段也包含一具有複數個暫存器以儲存來自該加法器樹的一層之結果用於輸入 _______ .· 到該加法器樹的下一層之第一累加器；此第一管線階段係可在一個時脈週期期間實行來產生並總和該些部分乘積並且來儲存在該第一累加器中的該些結果；一第二管線階段，其包含一具有複數個暫存器以儲存來自另一具有複數個本地進位傳播加法器單元之加法器的 5 本纸張尺度逋用中•家輮準（CNS ) A4规格（210X297公釐） (請先H讀背面之注$項再#寫本貰) 〇六、申請專利範困經濟部中失標準局負工消费合作社印装結果之第二累加器；以及一個耦接至該第二累加器之界面電路以遘擇性地存取一或多個由該第二累加器所儲存之結果；該加法器樹的輸出層係耦接以输入該乘稹到該另一加法器；此第二管線階段係可在一個接著該一時脈週期的時脈週期期間實行來選擇性地輸出一或多個來自該第二累加‘ 器所儀存的結果用於從此乘法器·累加器輸出、並且/或是用於回授至該另一加法器，並且來操作該另一加法器以及該加法器樹的輸出層* 19. 如申請專利範圍第18項之乘法器·累加器，其中該第一累加器係位於該加法器樹的層之間已提供從該乘法器的输入至該第一累加器、以及從該第一累加器至該第二累加器大致相等的信號傳播延遲。 20. 如申請專利範圈第18項之乘法器-累加器，其中該多層的加法器樹係具有3或4層。 21. 如申請專利範圍第18項之乘法器-累加器，其中該第二管線階段係包含對齊電路以將來自該加法器樹的算術資料信號之乘積與該第二累加器所儲存的結果之精確度部分對齊，並且其中該回授的輸入係藉由此對齊電路而被耦接至該另一加法器。 22. 如申請專利範囫第18項之乘法器-累加器，其中該接著的時脈週期係爲該一時脈週期的下一個。 23. 如申請專利範圔第18項之乘法器-累加器，其中該加法器樹係包括一種均勻的加法器樹或是一種k叉的加法器樹。 {請先閱讀背面之注$項再球寫本頁) 本紙張尺度逋用中Η困家梯率（CNS ) A4规格（210X297公釐）經濟部中央樑率局貝工消费合作社印装六、申請專利範圍 24. 如申誚專利範圃第18項之乘法器-累加器，其中該些小位元乘法器係支援p-adic算術資料信號的處理，其中 P是一個質數。 25. 如申請專利範園第24項之乘法器-累加器，其中 p<==31 〇 26. 如申請專利範圃第24項之乘法器-累加器，其中 P=7 或 ρβ31。 27. 如申請專利範圃第18項之乘法器-累加器，其中該些小位元乘法器係包含一個輸入多工器，其係可寊行來選擇性地將算術資料信號或是由該界面電路所選的該第二累加器之暫存器的內容耦接至該些小位元乘法器。 28. 如申請專利範圍第18項之乘法器-累加器，其中該第二管線階段係包含至少一個另一第二累加器以儲存來自該另一加法器的結果，並且其中該界面電路也耦接來存取一或多個由該至少一個另一第、二累加器所儲存的結果。 29. —種在兩個管線運算期間的浮黏假數乘法之方法，其包括步嫌有：從複數個代表將被相乘的數目之假數的算術資料信號產生部分乘稹信號；利用一種多層的加法器樹來加總該些部分乘積信號以在此加法器樹的一個输出層之處產生該些算術資料信號的乘稹；累加在第一管線暫存器中輸出自該加法器樹的一層之中間層信號用以輸入至該加法器樹之後的一層；其中一第一管線運算係包括產生該些部分乘積信號並且累加在該些第一管線暫存器中之中間層信號，此第 _____2__ 本纸張尺度逋用中國目家橾率（CNS ) Α4規格（210X297公釐） (詩先Hlft背面之注f項再填寫本頁) 訂經濟部中央標率爲真工消费合作社印東 E! 六'申請專利範困一管線運算係在一個時脈週期之內被完成；累加在第二管線暫存器中來自一個包括本地進位傅播加法器單元之另一加法器的输出信號；選擇性地回授代表一個常數或是至少某些第二管線暫存器的內容之信號至_ 另一加法器的一個输入；並且供應該乘積信號作爲該另一加法器政另一個輸入；其中該些到另一加法器的输入係與來自該另一加法器的輸出信號且由該些第二管線暫存器儲存之精確度部分對齊；並且其中信號的對齊、來自該另一加法器的输出信號在該些第二管線暫存器中之儀存、以及該選擇性的回授係在一個接4T該一時脈週期的單一時脈週期期間被達成。 30. 如申誧專利範圍第29項之方法，其中該些算術資料信號係包含代表相當小的模數的模數部分之信號集，並且兩個或是多個該些信號集的乘法係在相同的時脈週期期間被達成。 31. 如申請專利範圍第29項之方法，其中兩個m位元的算術資料信號之單精度浮點假數乘法係在相同的時脈週期之內被達成》 32. 如申請專利範圈第29項之方法，其中兩個m位元的算術資料信號之倍精_浮黏假數乘法係在相同的時脈週期之內被逯成。 33. 如申請專利範圔第29項之方法，其中該些算術資料信號係分別代表一個P位元的數目以及一個q位元的數目，其中P與q係爲m的因數，並且其中兩個m位元的假 ____J___ ^紙浪尺度逋用中躅·家標準（CNS >A4规格（210X297公釐) V/ ί/.. ---------------------------訂 (请先聞讀背面之注f項再壤寫本霣) B8 經濟部中央橾率局員工消费合作杜印装六、申請專利範圍數乘法係在接下來的一些時脈週期之內被達成。 34.如申請專利範圔第29項之方法，其中該些算術資料信號係代表兩個浮點數目，並且其中該些數目的其中之一的假數可選擇性地被一個常數或是被另一導自該些第二管線暫存器的浮點假數所取代。 (請先U讀背面之注$項再填寫本頁) 訂線本紙張尺度適用中國國家揉準（CNS ) A4规格（210X 297公釐）