TW384447B - Processor with reconfigurable arithmetic data path - Google Patents

Processor with reconfigurable arithmetic data path Download PDF

Info

Publication number
TW384447B
TW384447B TW87108029A TW87108029A TW384447B TW 384447 B TW384447 B TW 384447B TW 87108029 A TW87108029 A TW 87108029A TW 87108029 A TW87108029 A TW 87108029A TW 384447 B TW384447 B TW 384447B
Authority
TW
Taiwan
Prior art keywords
adder
input
output
register
reconfigurable
Prior art date
Application number
TW87108029A
Other languages
English (en)
Inventor
Earle Jennings
George Landers
Glen Haas
Tim B Smith
Original Assignee
Infinite Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US08/787,496 external-priority patent/US6247036B1/en
Application filed by Infinite Technology Inc filed Critical Infinite Technology Inc
Application granted granted Critical
Publication of TW384447B publication Critical patent/TW384447B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7867Architectures of general purpose stored program computers comprising a single central processing unit with reconfigurable architecture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/49Computations with a radix, other than binary, 8, 16 or decimal, e.g. ternary, negative or imaginary radices, mixed radix non-linear PCM
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/544Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
    • G06F7/5443Sum of products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
    • G06F9/3893Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled in tandem, e.g. multiplier-accumulator
    • G06F9/3895Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled in tandem, e.g. multiplier-accumulator for complex operations, e.g. multidimensional or interleaved address generators, macros
    • G06F9/3897Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled in tandem, e.g. multiplier-accumulator for complex operations, e.g. multidimensional or interleaved address generators, macros with adaptable data path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2207/00Indexing scheme relating to methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F2207/38Indexing scheme relating to groups G06F7/38 - G06F7/575
    • G06F2207/3804Details
    • G06F2207/386Special constructional features
    • G06F2207/3884Pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/483Computations with numbers represented by a non-linear combination of denominational numbers, e.g. rational numbers, logarithmic number system or floating-point numbers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/499Denomination or exception handling, e.g. rounding or overflow
    • G06F7/49936Normalisation mentioned as feature only

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Nonlinear Science (AREA)
  • Logic Circuits (AREA)

Description

經浐部屮夾"準^U-T消於合竹W印" A7 B7 五、發明説明(/ ) 本發明之技術背景
本發明大致係有關於雙處理器,並且更特定地有關於 一種具有複數個可重組構的執行單元且利用一個同步的乘 法器_累加器之數位處理器。 I 本發明之背景 數位信號處理器在近年來已可見成長的利用。這是因 爲製造技術已進步到大型且快速的處理器可被製出之地步 。這些處理器的速度可容許大置的計算被執行,使得非常 複雜的演算法可在非常短的時間內被執行。這些數位信號 處理器的一種用途係爲即時的應用,其中在一輸入上資料 的接收、變換器函數的演算法之計算、以及所產生的輸出 均幾乎爲即時的。 當數位信號處理器被製出時,它們通常被製成提供一 特定的計算的演算法以及其相關連的資料路徑。例如,在 數位濉波器中,一種有限脈衝響應(FIR)濾波器通常係用一 種數位信號處理器(DSP)而加以利用並寅現。典型地,一組 係數是被存在RAM中,而然後一乘法器/累加器電路係被 設置爲可運作以一種多tap的型態來處理各種的係數與資 料。然而,此種類型的應用之缺點係爲DSP係爲了各種特 定的應用而爲“客戶訂製的(customized)”》其原因係爲特 定的演算法需要不同順序的計算。例如,在數位濾波器中 ,其通常有一乘法而接著是一個累加的運算。其它的演算 法可能需要額外的乘法或是額外的運算以及甚至是某些位 4 (請先M15背面之注項存填寫本萸) r 本紙張尺度適用中闼國家樣準(CNS ) A4規格(210X297公釐) A7 _____B7_ 五、發明说明(> ) 移的運算以達成整個功能。因此,道需要不同的資料路徑 的型態*在目前,可重組構的DSP尙未是真寅存在之物* 並且其尙未提供必要的多樣性(versatility)以容許其被組構 來涵盖廣大範圃的應用。 本發明之槪要 好浐部中夾ir'^^h-T消处合竹.ilfpi? (請先《讀背面之注項再填寫本頁) 在此所揭示並主張的本發明係包括一種可重組構的處 理單元b此可重組構的處理軍元係包含複數個執行單元, 毎個單元具有至少一個輸入以及至少一個輸出。這些執行 單元係彼此平行地運算,在每個單元均具有一個與其相關 的預定之可執行的演算法之下。一輸出選擇器係被設置用 以選出該些複數個執行單元的至少一個输出之一或是多個· 輸出,並提供至少一個輸出至一外部位置以及至少一個回 授路徑•一輸入選擇器係被設置用以接收至少一個外部输 入以及該回授路徑β界接每個執行單元的至少一個輸入之 中的至少一個係爲可實行的,並且進一步選擇性地連接該 至少一個的外部_入以及該回授路徑的其中之一或是兩者 以選擇該些執行單元的至少一個輸入之中的多個输入係爲 可實行的。—個可重組構的暂存器被設置來儀存一個可重 組構的指令。此係爲一個組構的控制器所利用,用以根嫌 該可重組構的指令來組構該輸出選擇器以及該輸入選擇器 ,以在一個給定的指令週期之內定義出一個通過該些執行 單元的資料路徑型態。 在本發明之另一寅施例中,一輸入裝置被設置用以爲 ______5 __ 本紙張尺度適扣中國國家梯準(CNS)A4规格(210X297公釐) 經免部中央^準而hJ消资合竹.71卬妒 A7 __B7_ / 月说明()) / 了下一個指令週期而幢入一個新的可重組構的指令進入該 可重組構的暫存器•該組構的控制器係可爲了下一個指令 週期而運作來重組構通過該些已被組構的執行單元的資料 之資料路徑。一指令記憶髏被設置用以儎存複數個可重組 構的指令,而一排序器(sequencer)被設置用以根據一預^ 的執行順序在下一個指令週期中輸出所儀存的可重組構的 指令至該可重組構的暫存器。 在仍然是本發明之另一特黏中,該些執行軍元的其中 至少一個軍元係具有多個可組構的資料路徑經遇其間,在 該一執行單元的執行演算法根嫌該指令暫存器的內容係爲 可重組構的以選擇該多個資料路徑的其中之一之下•此容 許每個執行單元的運算均爲可根據該可重組構的暫存器之 內容而爲可程式化的*使得該組構的控制器將組構該通過 一執行單元的資料路徑以及相關連的可執行之演算法。 圖式之簡要說明 爲了更完整地理解本發明與其優點,現將參考結合附 圖之以下的說明,其中: 圖1說明根嫌本發明之一可重組構的算術資料路徑處 理器之一資料流圖; 圓2說明該巨排序器(MacroSequencer)的最上層方塊國 « f 圚3說明該巨排序器之更詳細的方塊圖; 圖4說明該輸入暫存器之邏轘圖; _6__ 篇 ---------------ο------1------線 ο--------------- {請先«讀背面之注意事項再填寫本頁) 本紙張尺度適中國國家梯率(CNS ) A4規格(210X297公釐) A7 _^_B7__ 五、發明説明(厶) 圖5說明該輸入選捍器之邏轘圓; 圓6說明該乘法器-累加器的方塊圖: 圓7說明該加法器之邏輯圈; 圖8說明該位移器的方塊圓; 圖9說明該邇緝單元的方塊圖; 圖1〇說明該一埠的記億雔之方塊鼷; 钃11說明該三埠的記憶髖之方塊価; 圖12說明該三埠的索引指標器圖; 圓13說明該輸出選擇器之邏辑圖; 圖14說明該I/O介面之邏辑圖; 圈15說明該巨排序器資料路徑择制器的其塊圖; 圖16說明該甓PLA的方塊鼷; 圖Π說明基本的乘法器之方塊圖; 圓18說明該MAC的另一實施例; 圖19說明該爲多項式計算最佳化的MAC之一實施例 * 圖20具有額外四個產生於該乘法器方塊中的數目; 圈21說明一基本的乘法器-累加器; 圓22說明支援最隹的多項式計算步驟之延伸電路; 圓23說明一具有最少的支援電路之乘法器的方塊圖; 圖24說明一具有加法器的基本核心,一埠以及三埠的 記憶髖之乘法器·累加器的方塊圖;以及 圖25說明一具有多個加法器、一埠以及三埠的記憶髏 之乘法器-寒加器的方塊圖。 (饋先W讀背面之注項再填寫本頁> 訂 本紙張尺度適州中國國家標準(CNS > A4規格(210X297公釐) 好浐部中决4|-4'·^^^ T,消价合竹.=(1卬絮 A7 B7__ 五、發明说明(ΐΤ ) 本發明之詳細說明 現在參考酾1,本發明之可重組構的算術資料路徑處 理器(RADP)之方塊圖係被說明。此RADP係由四個巨排序 器分別是10,12,14與16所組成。巨排序器10與12構成 • 一對,而巨排序器14與16則構成第二對。每個巨排序器 均有四條匯流排18,標示爲BusO,Busl,Bus2與Bus3的其 中一條與其相連。BusO係與巨排序器10相連、Busl則與 巨排序器12、Bus2則與巨排序器14、而Bus3則與巨排序 器16相連》這些均爲通用的(global>16位元匯流排》—控 制匯流排20也被設置,其係爲每8個位元分別連接至該些 巨排序器1〇·16的32位元匯流排*每個巨排序器也都有與 其相連的I/O匯流排22,每條匯流排22均包括16條I/O 線以容許該些巨排序器ΗΜ6與64個I/O接脚界接。此外 ,其設置有界接每個巨排序器10-16之一條16位元的输入 匯流排24以容許資訊輸入到其中。雙PLA 26係被設置, 其具有內建的週邊邏輯以控制資訊到該雙向的控制匯流排 20。該PLA 26透過一條12位元的匯流排28與控制匯流 排20界接,在一條20位元的控制匯流排30界接該控制匯 流排20並且也透遇一條8位元的控制匯流排32界接到 PLA 26。 每個巨排序器10-16係爲一種16位元的固定小數黏 (fixed-point)之處理器,其可以藉由利用該雙PLA 26或直 接由該控制匯流排20個別地啓始動作•該匯流排18容許 資料根據各種的設計需求而在該些巨排序器10-16之間被 ___8 _ 本紙張尺度適扣中國國家標準(CNS > A4规格(2丨0X297公釐) ---------------訂------線C (請先閱讀背面之注項再填寫本頁) ."中次打碑/,-^-"'消於合竹.?,"— A7 B7_ 五、發明说明(t) 共用<•藉由設置該些匯流排18 * —條16位元的通道係被 設置,因而增進了巨排序器之間的資料產出置。此外,每 一對巨排序器10與12或14與16係藉由兩條本身的16位 元匯流排34、即兩個方向上均爲16位元而彼此互連接。 道些自身的匯流排34容許每一對巨排序器因額外的資料& 享而被連成一對。 每個巨排序器均用一種長指令字元(LIW)的架構設計, 其容許每個時脈週期可進行多個運算•在LIW中獨立的運 算擱位係控制巨排序器的資料記憶髏、16位元的加法器、 乘法器-累加器、邏辑單元、位移器、以及I/O暫存器,因 而它們可在分支(branch)控制之下同時被利用。此種管線化 (pipelined)的架構在每個遇期容許至多該些執行單元的七個 運算》 此種UW架構容許演算法以小數量的長指令字元來完 成而健得效能最佳化。每個巨排序器可被組構來獨立地運 算、或是可爲了 32位元的算術運算而被組成對。 內建的Glue邏輯 該雙PLA 26可被用以啓始串列(stream)程序、輪出致 能信號的產生、以及界面的glue邇輯。該八個I/O接脚36 可被個別地組構爲輸入或是輸出的接脚。這些接脚可被用 於外部的界面控制》程序的啓始與回應可透過輸入接脚38 由外部直接供應至巨排序器,或者是可透過該控制匯流排 20由該可程式化的PLA來供應。此RADP係可運作在一種 ___9 ---------------1T------^o~ (讀先聞讀背面之注f項再填寫本頁) 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) A7 __ _B7__ 五、發明说明(7 ) 組構的運算模式或是一種正常模式之下•該組構的模式係 被用來啓始或是重組構該RADP,而該正常模式則係被用 來執行演算法· 成對的巨排序器運算的支援 該些巨排序器可分別用於16位元的運算、或是成對地 用於32位元的加法、減法以及邏辑運算。當成對之時,該 些巨排序器是不能夠彼此交換的。巨排序器10與12形成 一對,而巨排序器14與16則形成另一對。最低有效16個 位元是由巨排序器10與12所處理。該兩條匯流排34係可 供該些巨排序器對用於資料的直接交換》 資料匯流排 由資料匯流排18與輸入資料匯流排24所組成的五條 通用的資料匯流排可同時被所有的巨排序器所存取。該些 匯流排18之四條匯流排BusO,Busl,Bus2與Bus3係分別與 巨排序器10,12,14與16相連。這四條匯流排係從巨排序 器的I/O接脚22或是在巨排序器中的一個輸出暫存器(未 示出)接收資料·第五條匯流排Bus4都從BUS4IN[15:0] 接脚接收資料》 控制匯流排 該控制匯流排20是被用來傅達控制、狀態、以及_出 致能的資訊在巨排序器與該PLA 26或是外部的巨排序器接 (請先Μ讀背面之注意事項再填寫本頁) 訂 0: 本紙張尺度適州中阐國家標準(CNS ) A4規格(2I0X297公釐) A7 _ _B7____ 五、發明説明(分) 脚之間。有六個信號與每個巨排序器相連•兩個被送到巨 排序器的控制信號係在以下參考一巨排序器資料路徑控制 器而加以描述,並且是被用來: 啓始兩個可用的LIW序列其中之一, 雄纊該LIW序列的執行*或是 藉由重置該傳送與等待的狀籣位元來應答 (acknowledge)巨排序器的狀態旗標· 狀態信號 兩個狀態信號,等待與傅送係從巨排序器送出,其係 在以下參考一巨排序器資料路徑控制器而加以詳細描述, 並且其係指: 程式計數器正在排序(sequencing); 巨排序器處於傅送的狀態並已執行遇一特定的LIW ; 該程式計數器繼續來排序; 該巨排序器處於等待的狀態並已執行過一特定的LIW :以及 該程式計數器不雄績來排序,其在重新開始之前係等 待進一步的命令。 輸出致能 對於每個巨排序器之兩個輸出致能信號係在以下參考 一_出選擇的動作而加以描述,並且其係容許輸出致能爲 本紙張尺度適用,丨,阈网家標率(€奶)八4规格(210><297公釐) ---------^------1T-----丨線C (請先閱讀背面之注$項再填商本頁) 經浐部-5-^^^^h-T消赍合竹.ίι卬裝 A7 B7 五、發明説明(y) 來自該雙PLA 26的oepla輸出、或是來自巨排序器(》) 的输出致能Ms/ιΟΕ接脚; 永速輸出; 永逮输入(電源開啓時);或是 選擇性地反轉。 输入時脈 五個輸入時脈係被提供來容許RADP在不同的傳輸速 度之下處理多個資料流。對於每個巨排序器均有一個時脈 ,而對於該PLA 26則有一個別的時脈。每個巨排序器均可 在不同的速率下在個別的資料路徑上運算。該些時脈信號 可以爲了該四個巨排序器10-16以及該雙PLA 26之間的同 步化而被連在一起。 巨排序器之說明 現參照圓2,其說明有每個巨排序器10-14的整體方 塊圖。此巨排序器大致係由兩個功能方塊、一個算術資料 路徑方塊40以及一資料路徑控制器方塊42所組成。除了 內含於其中(未顯示)各種的執行方塊之外,該算術資料 路徑方塊40係包含一個三埠的記憶體43以及一個一埠的 記憶餵44。該三埠的記憶體43以及一埠的記憶體44係由 該算術資料路徑46所存取》該資料路徑控制器42係包含 一個指令記憶體48 »該三埠的記億體43、一埠的記憶體 44、以及指令記億體48均在一種主動的(active)組構模式 12 __ 本紙張尺度適州中®國家標芈(CNS ) A4規格(210X29*7公釐) (請先《讀背面之注項再填寫本頁} Ί ί A7 B7_ 五、發明说明( 期間被載入。該算術資料路徑40係從該資料輸入匯流排 24接收输入,並且透過該界面匯流排18並也透過該對專 用的界面匯流排34來提供一個界面。控制信號係透遇控制 信號匯流排50、在該控制匯流排20的6個位元上被接收 ,而狀態信號係透過狀態信號線52而由該控制匯流排20 的2個位元所提供。 在正常的運作模式下,該些控制信號可以起始在指令 記憧髏48中的兩個程式化之LIW序列的其中之一序列。 一旦一序列開始,它將會無限地執行或是進行迴圈,直到 由該些控制信號停止爲止。一個規割進入該LIW序列的等 待狀態將會停止程式計數器繼績增加LIW序列係爲資料 控制、資料處理以及分支的運算之組合》每個巨排序器均 可在每個時脈週期執行分支、記憶體存取、邏輯位移、加 法、減法、乘法·累加、以及驗入/输出運算的組合。指令記 憶髖可在任何時候藉由轉換到主動的組構模式而動態地被 重新載入,該模式也起始化整個裝置中所有的暫存器。 現參照圖3,其說明巨排序器10-16的巨排序器資料 路徑之方塊钃。該資料匯流排18與資料匯流排24係被輸 入到輸入暫存器60,該暫存器也接收一個常數當作一値。 在該輸入暂存器60中有兩個暫存器,輸入暫存器Α以及 输入暂存器B。該輸入暫存器A的輸出係被輸出到線62之 上,而該輸入暫存器B的輸出則被輸出到線64之上。在線 62與64之上的輸入暫存器A與B之內容係被输入到一個 輸入選擇器方塊66。如同以下將描述的,該输入選擇器可 _^___13_ 本紙張尺度適州中®國家標率(CNS ) A4規格(210X297公兼) (請先《讀背面之注$項再填寫本頁) ΧΙ7 訂
線C A7 B7__ 五、發明説明(〖() 實行來提供管線化結構的中央部份*其中資料係透過六階 段(stage)來加以處理。 在此巨排序器算術資料路徑中有九個基本的單元β其 中六個是資料處理單元而三個是資料控制功能,其中該输 入選擇器66是該些資料控制功能的其中之一 •該些資料k 理單元係包含一乘法器·累加器(MAC>68、一加法器70、一 邏辑單元72以及一位移器74。該三埠的記憶雔43以及該 一埠的記憶髖44也構成該些資料處理單元。該些資料控制 功能除了該輸入選擇器66之外,也包括該輸入暫存器方塊 60以及該輸出暫存器方塊76。 該_入暫存器方塊60如上所述地可抓取任意兩個連接 到其之输入。該輸入選擇器66如上所述地除了接收該兩條 線62與64之外*也接收來自該三埠的記憶镰43之輸出於 兩條線78之上的兩個輸出,以及接收一條來自該一埠的記 憶雔44之輸出線80。其也接收在線82之上、來自該輸出 暫存器方塊76的一個輸出,該输出係來自一個暫存器A。 該也是輸出自該輸出暫存器方塊76之暫存器B的輸出係被 輸出至一條線84之上而到該輸入選擇器◊此外,一個“0” 的値係被輸入到該輸入選擇器方塊66。該輸入選擇器方塊 66係可實行來任意三個運算元用於資料處理單元。這些運 算元係被供應至三條匯流排之上,匯流排86、匯流排88 以及匯流排90。匯流排86係被輸入到該MAC 68、加法器 70以及遍輯單元72,而匯流排88亦被輸入到該MAC 68 、加法器70以及邏輯單元72 〇匯流排90只被輸入到一個 __14 _ 本紙張尺度適用中ΐ國家標準(CNS ) A4規格]2]〇\297公釐1 ---------ο------—1Τ------6 (請先《讀背面之注意事項再填寫本頁) A7 ____ B7 五、發明说明(/>) 位移器74 ·該MAC 68也接收在線92之上暫存器B的輸 出以及該一埠的記憶髏44的籀出作爲輸入· MAC 68的輸 出係包括該加法器70的另一個輸入,該加法器7〇的輸出 則係輸入至該輸出選揮器方塊76。該邏輯單元72具有一 個被連到該输出選擇器76的輸出,並且一位移器74係具 有一個連至該_出選擇器方塊76的輸出。該輸出選擇器方 塊76也接收在該輸入暫存器方塊60中來自暫存器B的_ 出作爲一個輸入。暫存器B的輸出係被連接至該巨排序器 的pier匯流排34中的輸出線,然而暫存器B的輸出係被 輸出至連接到該四條資料匯流排18的其中一條以及該I/O 匯流排22之界面方塊96的_入。該I/O匯流排22也包括 一個進入該輸出選捍器76的输入。因此,將於以下更詳細 描述,該輸出選擇器/暫存器方塊76可實行來選擇該些資 料處理單元的哪兩個係被儀存。 好浐部中夾iT.^-^d消赍合竹=ii卬>t {請先閎讀背面之注$項再填寫本頁> 該四個平行的資料處理單元,MAC 68、加法器70、 邏輯單元72以及位移器74之每個單元係彼此平行地執行 而容許每個週期多個運算之執行。在此巨排序器的資料路 徑中的每個資料處理功能將於以下詳細地加以說明。然而 ,它們是由該巨排序器的LIW暫存器中的運算欄位所控制 。如在此所述地,應注意的是該些詞“外部的”與“內部 的”並非指相對於RADP爲外部與內部的信號’而只是相 對於一個巨排序器爲外部與內部的信號* 在暫存器方塊60中的16位元之輸入暫存器係包含 InRegA與InRegB。共有六個外部的輸入以及一個內部的輸 本紙张尺度通州中國ϋ家標準(CNS ) A4規格(210X297公釐) A7 B7 五、發明説明(厂夕) 入爲該些輸入暫存器所能利用。該些輸入暫存器係由一個 8至1的多工器100所構成,該多工器的輸出係連接到一 暫存器102,該暫存器102的输出係構成該InRegA輸出。 同樣地,一個8至1的多工器104係被設g且具有連璋到 一暫存器106的輸出*該输出係提供該輸出IiiRegB。多工 器100與104兩者的七個輸入係連接到六個輸入,一個輸 入是匯流排24的16位元輸入、一個是16位元的常數輸入 匯流排108、四個是該些16位元的資料匯流排18、以及一 個是該同樣是16位元的成對(pair)鼷流排34。該常數是一 個從變化到“65535”的値,其係由該LIW暫存器的位 元所產生。該多工器1〇〇的第八個輸入係連接到暫存器 102的輸出,而該多工器104的第八個輸入係連接到暫存 器106的輸出。 該常數係導入16位元的常數値到任意的計算中》該巨 排序器的常數係與巨排序器的控制器以及該MAC 68、位 移器74、以及邏辑單元72共用內部的信號。由於LIW的 常數櫚位係被共用,故必需小心以確保該些信號的重叠不 會發生。RADP的組譯器(assembler)係檢測並報告任何重叠 的問題。 輸入選擇器 現參照圖5,其說明有該輸入選擇器方塊66之方塊圖 。該输入選擇器方塊66式由一個4至1的多工器110、一 個6至1的多工器112以及一個2至1的多工器114所構 ______]β_ 本紙張尺度適國家標準(CNS) Α4規袼(2丨0X297公釐) ---------ο------1T------ο (請先閱讀背面之注$項再填寫本頁} 經來‘部中央榀隼而只工消費合作私印1t A7 ________B7___ 五、發明说明(/參) 成*該多工器112係連接到一個互斥或_ 116的一個輸入 。該多工器110的输出係連接到一條匯流排118以提供 IiiBusA信號、互斥或閘116的輸出係連接到一條匯流排 120以提供InBiisB信號、以及多工器114的输出係連接到 一條匯流排122以提供IiiBusC信號。進到該輸入選擇器 66的输入係包括: 來自該輸入暫存器60的InRegA與InRegB、 來自該输出暫存器76的OutRegA與OntRegB、 來自該三埠記憶髖的讀取埠1與2而分別在線78之上 的 meml 與 mem2、 來自該一埠記憶髗的讀取埠而在線80之上的memO、 以及 .產生在該輸入選擇器66的常數’0’。 來自該巨排序器的控制器(未顯示)的控制信號係決 定該八個可能的輸入之哪三個係被利用,並且決定InBusB 是否被反轉。該輸入選擇器66係自動地被用於該MAC 68 、加法器70、位移器74以及邏輯單元72之組合語言運算 所控制,因而不需要個別的程式化》輸入的選擇係由該 MAC 68、加法器70、邏輯單元72以及位移器74所利用 的相同之組合運算所控制》 乘法器·累加器 現參照圓6,其說明有該MAC 68的方塊圖。此乘法 ___17____ 本紙張尺度適用t國國家揉準(CNS ) A4規格(210X297公釐) ---------c^------IT-------Cr {請先閱讀背面之注f項再填寫本頁) 籽浐部中央榀羋而工消炝合作社印^ A7 ________B7_ 五、發明説明(丨<) 器·累加器(MAC)68係爲一種三階段的、能夠每兩個週期產 生一個16乘16的乘法之一個完整的32位元乘稹之16乘 8乘法器。此種架構係容許在結果從最後一階學輸出之前 下一個乘法可被開始於第一階段中,因而一旦管線被載入 之後,毎個時脈週期係產生一個16乘8的結果(24位元 乘稹)。 此MAC 68的輸入係由一個運算元A以及一個運算元 B所構成•該運算元A係由在線80之上該一埠記憶體44 的輸出以及InBiisA 86所構成·其係被輸入到一個3至1 的多工器126,此多工器的輸出係被輸入至一個暫存器130 ,該暫存器130的输出則連到一條16位元的匯流排132 » 該暫存器130的輸出也被輸入回到該多工器126作爲第三
個輸入。該運算元Β係由OutRegB匯流排84以及InBusB 匯流排88所構成•這些匯流排係被輸入到一個3至1的多 工器Π4,此多工器的輸出係連到暫存器136。它們也输入 到一個兩輸入的多工器138,此多工器的輸出係被輸入至 一個暫存器140,暫存器140的輸出則輸入到該多工器134 作爲第三個輸入。暫存器130與136的輸出係被輸入至一 個16乘8的乘法器142,此乘法器可寅行來相乘兩個在输 入上的運算元以在一條匯流排144之上提供一個24位元的 輸出。此係被輸入到一個暫存器146,此暫存器的输出被 輸入至一個48位元的累加器148 ·累加器148的輸出係被 存在一個暫存器150,此暫存器的输出係反饋到累加器148 的輸入並且饋入一個4至2的多工器152的輸入,暫存器 __18_ 本紙張尺度適Λ中國國家標準(CNS ) Α4規格(210X297公釐) --------ο----------0— (請先閱讀背面之注$項再填寫本頁) 經济部中夾"準而只工消价合竹私卬繁 A7 _______B7_ 五、發明说明 150的輸出係連接到多工器152所有的四個輸入。然後該 多工器152在匯流排154與156之上提供兩個用於該加法 器70的輸入之輸出。此MAC 68的動作將在以下更詳細地 加以說明*任一個運算元或是兩個運算元都可以爲帶有符 猇(signed)或是不帶有符號(unsigned)。此乘法器的输入多 工器有兩個目的: 1) 它們爲了乘法器而對齊來自運算元B的高或是低位 元組,此乘法器係容許16乘8或是16乘16的乘法運算; 以及 2) 它們容許每個運算元選自三個不同的來源: 運算元A係選自該一埠的記憶髄44、InBiisA 86、或 是來自前一週期的運算元A。 運算元B係選自OutRegB 84、InBusB 88、或是先前 的運算元B之最低有效位元組。 乘法器階段142從被暫存的16位元之運算元A以及 運算元B的最高有效位元組(8個位元)或是最低有效位 元組來產生一個24位元的乘積。累加器階段148係對齊並 累加該乘稹•在累加器中的控制係容許此乘稹被乘上1當 <weight>爲低時,或乘上2爲高時。其結果然 後爲:當<仙&1)10爲acc時被加到累加器148中的結果、當 <姐心1«>爲clr時被放入累加器148中取代任何先前的値、 或是被保持在累加器中取代mult3的運算。 每個乘法之週期 ___19__ 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) ,QIT4 (請先《讀背面之注$項再填寫本頁) A7 _____ B7 五、發明说明(丨/ρ 〜 對於乘法與MAC所需之週期數目係顯示於表1與2 之中。 表1 —____ 新乘法之 _ 1 ·— 一 乘法 m 16乘8 i6 mt 1 24位元 2 16 HI 16 life% 2 16乘8^6乘8 32位元 3 表2 ηΜΚ^Κ^·Ι»ΗΙ之閜_ Η 乘法 mm 麵 W乘8 16位元 η 32位元 η+1 48位元 η+2 16 乘 16 16位元 2η 32位元 2η+1 48位元 2η+2 --------.Q------1T------01 (4F先閑4!^面之注再填疼本頁) 經漪部中央榀4,-而只^-消货合作私卬家 MAC內部的格式係被該加法器70轉換成標準的整數 格式》爲了此原因,所有的乘法與乘·累加的輸出都必須通 過該加法器70。 若所罾要的是16乘8位元的MAC 68,每個週期都必 須載入新的運算元。乘法器142產生一個24位元的乘稹, 此乘*然後在第三階段中被累加成爲一個48位元的結果値 。在溢位發生前,此容許至少224次的乘-累加的運算。假 ___20____ 本紙張尺度速州中爾國家揉率(CNS ) A4规搞「( 210X297公釐) " 好浐部屮夾榀^'Λ只工消費合作私卬聚 A7 _B7_ 五、發明説明(P) 如24位元的結果只有上位的16位元爲所需要的,則下位 的8個位元可被抛棄。若大於一個16位元的字元被取出時 ,累加的結果必須以一種特定的順序被取出。首先下位的 16位元的字元係被移到該加法器70、接著是中間的16個 位元,而然後是上位之16個位元。在溢位將發生前,此容 許至少216次的乘-累加的運算。 加法器 現參照圓7,其說明有該加法器70的方塊圖。此加法 器70可每個週期產生16與16位元的加法、減法、或是 16位元的資料轉換成二補數之16位元的結果。加法器70 也被用於相等、小於、以及大於的比較。加法器70係由兩 個加法器管(pipe)160,162所構成。在其輪入係設有兩個多 工器164與166,多工器164係接收在匯流排154之上的 乘法器输出信號,而多工器166則接收在匯流排156之上 的乘法器輸出。此外,多工器164接收在InBusA 86之上 的信號,而多工器166則接收在InBusB 88之上的信號作 爲一個輸入。多工器164與166的输出係被輸入到加法器 管160,此加法器管的輸出係則輸入到一個暫存器168。暫 存器168的輸出係被輸入到加法器管162,此加法器管也 接收一個外部的進位N位元、一個指示該運算爲32位元 或是16位元的運算之信號以及一帶有符號/不帶有符號的 位元。加法器管162係提供一個4位元的輸出到一個結合 對於相等、溢位、符號以及進位之加法器狀態旗標的暫存 ____21__ 本紙張尺度適用t闽國家標準(CNS ) A4规格(210X297公釐) --------ά------IT------q (請先閲讀背面之注$項再填寫本頁) A7 ΒΊ__ 五、發明说明(if ) 器170、以及在一條匯流排172之上的16位元輸出選擇器 。此架構容許結果從最後一階段輸出之前,讓下一個加法 器的運算開始於第一階段之中。 該输入多工器164與166選擇兩個甩於加法器70運算 的資料來源之其中之一 β運算元係從InBusA 86與InBusB 88、或是從乘法器(S8選出》選擇InBusA 86與InBusB 88 是用於簡軍的加法或是減法並且設定該些加法器狀態旗標 。該乘法器68的輪出,MultOutA 154與MultOutB 156係 被選來用於轉換》第一加法器階段160係接收該些運算元 並開始運算。第二加法器階段162則完成該運算並指定該 輸出選擇器中其結果將被儲存的輸出暫存器。此兩個加法 器階段160與162可分別被控制而用於加與減的運算。 來自一對的巨排序器之加法器70可以被一起使用來產 生32位元的和或是差。對於這些32位元的運算而言,在 管線的等待時間上並沒有增加β加法器70可被處在帶有符 號或是不帶有符號的模式下。 加法器狀態位元-相等、符號、溢位以及進位等旗標係 在一個加法運算(addl或是subl)發生的兩個週期後被設定 ,並有效地保持一個時脈週期: 相等旗標係在一個加法運算期間當兩個運算元爲相等 時的兩個週期後被設定; 當加法或減法的結果產生一個16位元超出範圍的値時 ,溢位旗標係被設定; 當加法器70爲了不帶有符號的整數算術而被組構時, ____22__—_ 本纸張尺度適用中國國家梂準(CNS ) A4规格(2丨0X297公釐) ---------0------^------Q, (請先《讀背面之注f項再填寫本頁} 經浐部中夾榀卒而h-T·'消於合作私卬掣 A7 B7_ 五、發明説明(/〇) 溢位=進位、範圈=〇到65535 : 當加法器爲了帶有符號的整數算術而被組構時,溢位 =進位XOR符號、範圍=-32768到+32767 ; 當加法或減法的結果爲負値時,符號旗標係被設定; 進位旗標係指出進位値是否存在。 當輸入是選自MAC 68的输出時,加法器/70可被用來 轉換乘法器142的累加器148中的資料成爲標準的整數格 式。由於累加器148係爲48位元,乘法器的累加結果必須 以一特定的順序被轉換:低位-中間用於32位元的轉換, 而低位-中間-高位用於48位元的轉換。一旦轉換的過程蘭 始之後,其必須持縷每個週期直到完成。帶有符號的數字 轉換係利用到位元30:15。 位移器 位移模式信號係控制哪些位移功能係被執行: 向左邏辑位移η個位元(將低位的位元移向高位的位 元)·自該位移器移出的資料係被抛棄,而邏輯’〇’係被用 來塡入所移入的位元。 向右邏輯位移η個位元(將髙位的位元移向低位的位 元)。自該位移器移出的資料係被拋棄,而邏輯’〇’係被用 來塡入所移入的位元。 向右算術位移η個位元。此係相同於該向右邏輯的位 移,除了所移入的位元係塡入位元[15],該符號位元◊此 係等效於將該數目除以2η。 本紙張尺度適州中國國家梯準(CNS ) Α4规格(210Χ 297公釐) --------d-----—IT------ο— (請先《讀背面之注f項再填寫本頁) A7 ___B7_ 五、發明説明(// ) 向左旋轉位移η個位元。從最高位的位元移出的位元 係被移入最低位的位元。 向右規格化(normalized)位移1個位元。所有的位元在 次序上係向下位移一位。最低位元係被抛棄而最高的位元 係由加法器的溢位暫存器位元所取代。此係被用來調整當 兩個16位元的字元相加來產生17位元的結果之數目。 邏輯、算術與旋轉的位移可位移〇到15個位元,如該 位移長度控制信號所決定的* 邏輯單元 現參照圖9,其說明有該邏辑單元72的方塊圖。此邏 辑單元72能夠執行兩個16位元的向量之位元對位元的邏 輯功能而得到16位元的結果。所有的位元位置都將被施以 相同的功能。2個位元之所有16種邏辑功能均被支援。邏 辑功能之控制係決定所執行的功能。此遲辑單元72係被描 述於美國專利號5,394,030之中,其在此被納入做參考。 一埠的記憶髖 現參照圖10,其說明有該一埤的記憶體44的方塊圖 。此一埠的記憶體44係由一個32乘16的隨機存取計體體
(RAM)所構成》此RAM 44在其輸入上接收來自OutRegA 匯流排82的資料。此RAM 44的輸出係被输入到一多工器 180,此多工器的輸出係被輸入到一暫存器182,此暫存器 182的輸出係被連接到匯流排80。此匯流排80也被輸入回 ___ 本紙張尺度適用中國國家標準(CNS > Α4规格(210X297公釐) (請先閲讀背面之注f項再填寫本頁) 1^1 1.^1 In a 經才‘部屮央ir-準而只Η消货合作乜印絮 A7 B7__ 五、發明説明(//) 到該多工器180的另一個輪入。用於該RAM 178的5位元 位址係在一個5位元的位址匯流排184之上被接收•此一 埠的記憶髏44支援單一週期的讀取與單一週期的寫入,但 不同時支援兩者。在此一埠的記憶髏44中有32個可定址 的16位元之記憶體位置。該暫存器182係爲一被設匿來儲 存與保持一個讀取動作之結果直到一個新的讀取被執行之 後的個別暫存器。讀取或寫入的運算元係控制是讀取或是 寫入記憶«被請求。當讀取與寫入的控制均不動作 (inactive)時,沒有動作係被執行。每一個週期只能產生一 個動作,讀取或是寫入。索引暫存器〇提供讀取與寫入的 位址到此一埠的記憶體。此索引暫存器可隨著每個動作而 被增加、減少、或是保持不變。索引的動作與讀取或是寫 入的動作均由巨排序器的LIW所控制。 三埠的記憶» 現參照國U,其說明有該三埠的記憶體43的方塊圖 。此三埠的記憶體43係由一個16乘16的RAM 186所構 成,此RAM係接收在匯流排84之上OutBusB的內容作爲 輸入並提供兩個輸出,一個翰出係提供一多工器188的輸 入而一個輸出則提供一多工器190的输入。多工器188的 輸出係被輸入至一暂存器192,而多工器190的輸出則被 輪入至一暫存器194。暫存器192的輸出係提供該meml 輸出在線78之上,而哲存器194的輸出係提供該mem2輸 出在匯流排78之上,匯流排78各包含16位元的匯流排^ _25_ 本紙張尺度边扣中國國家標準(CNS ) A4规格(210X297公釐) (請先閱讀背面之注f項再填寫本頁) Q. 訂 -9. A 7 ______ B7_ 五、發明説明( >々) 此外,暫存器192的輸出係回授到多工器188的另一個輸 入,而暫存器194的輪出則回授到多工器190的輸入·有 兩個由該RAM 186所提供之讀取動作,其係藉由兩個讀取 位址所提供,一個在4位元的匯流排196之上的Readl位 址以及一個在匯流排198之上的4位元位址Read2。寫入 的位址則被提供在4位元的匯流排200之上。此三埠的記 憶« 43在每個時脈週期係支援兩個讀取以及一個寫入的動 作*該兩個讀取埠可獨立地被利用;然而*資料不可以在 相同的時脈週期裡寫入任一個讀取的位址。四個索引暫存 器係相閨於此三埠的記憶髏。兩個別的暫存器係爲寫入索 引而設S :寫入偏移(offset)與寫入索引。此二暫存器可同 時或是獨立地被載入或是重置。寫入偏移係提供一種機構 將讀取的索引暫存器偏移自該寫入偏移一段固定的距離。 遞增與遞減均施加到兩個寫入暫存器,因而該偏移係被維 持。該兩個讀取的索引暫存器可被獨立地重置或是對齊至 該寫入偏移》 智慧型的索引(indexing) 現參照圓12,其說明有該三埠的記憶體之索引指標器 的方塊圖。智慧型的索引係運作多個被存取的記億體位址 。此在資料爲對稱時特別有用。對稱的係數是藉由提供該 寫入偏移從資料的中心並且將讀取索引對齊到該寫入偏移 *讀取索引可由一虛(dummy)讀取來隔開。以一個索引遞 增而另一個索引遞減之額外的同時讀取係容許利用相同或 ^_____26 _ 本紙張尺度通用中國國家標準(CNS ) A4规格(2丨0X297公釐) (請先聞讀背面之注f項再填寫本頁) iQ. 訂- -QI. A7 __B7_ 五、發明説明(外) 是反轉的係數之資料的加法或是減法。每個索引都有個別 的控制來控制其方向。每個索引可遞增或是遞減,以及/或 是改欒其方向。在每個索引暫存器的位址中的改變係發生 在相關連的埠之上的讀取或是寫入動作之後。智慧型的索 引對於其中資料的片段是從離開對稱的資料中心相等的距 離處取得之濉波器以及DCT之應用而言爲理想的》此用於 資料記憶體中之智慧型的索引方法容許對稱的資料在一半 之通常所需要的週期數下被相乘。來自兩側的資料可被加 在一起,然後乘上共同的係數》例如,一種通常要花6個 乘法以及7個週期之6-抽頭的(tap)濂波器可用一個巨排 序器來做成,並且只需要3個週期來完成計算。一個通常 需要64個乘法以及65個週期之8點的DCT可用一個巨排 序器來做成,並且只需要32個時脈週期來完成計算。 输出選擇器 現參照圖13,其說明有該輸出選擇器76的方塊圖。 此輸出選擇器76是由兩個多工器,一個4輸入的多工器 202以及一個6輸入的多工器204所構成。兩個多工器202 與204都在個別的16位元的匯流排上從該加法器70、邏 輯單元72以及位移器74接收輸出。多工器202的輸出係 被輸入至一暂存器206,此暫存器的輸出係提供16位元的 信號給匯流排82上的OutRegA _出。此匯流排82係回授 到該多工器202的刺餘的輸入,並且也回授到該輸入選擇 器66。多工器204也接收匯流排64之上的InRegB的內容 ____27__ 本紙張尺度適用中國國家#準(CNS ) A4规格(21〇X297公釐) (婧先《讀背面之注$項再填寫本頁 訂 好Μ部中失榀羋>PJM.t..消价合竹ii印衆 A7 _B7_ 五、發明説明(〇 作爲輸入,並且巨排序器係共用在匯流排64之上的資料。 多工器204的輸出係被輪入至一暫存器208,此暫存器的 輸出係係構成在匯流排84上的OntRegB之內容,此输出 也回授到該多工器204的一個输入並且也回授到該輸入選 擇器66 ◊此输出選擇器76係控制输出暫存器OutRegA 206 與OutRegB 2〇8的狀態,並且控制Ms«I/O[15:0]匯流排接 脚的狀態。此輸出選擇器76係多工5條16位元的匯流排 並且將結果放在該兩個16位元的輸出暫存器206與208之 上,此二输出暫存器係驕動兩條晶片上的匯流排82與84 以及巨排序器I/O接脚22。該些輸出暫存器可被保持多個 週期》 I/O界面
現參照圖14,其說明有該巨排序器I/O界面的方塊圖 。匯流排82之上的輸出暫存器206之內容係被輸入至一個 2輪入的多工器210,另一個輸入則連接到匯流排203以提 供巨排序器I/O資料。多工器210的輸出係提供該資料至 四條各爲16位元之匯流排18的其中相關連之一條。此外 ,該16位元的匯流排82係被輸入到一個以輸出致能信號 OE來致能的囅動器212。此驅動器212的輸出係驕動該 I/O匯流排22用於輸出的動作,當此驅動器被禁能 (disabled)時,其係被供應回到該多工器204作爲一個輸入 。用於此麇動器212的輸出致能電路是由一個輸出致能信 號Ms/ιΟΕ以及一個來自PLA 26的內部信號之信號OEPLA _28____ 本紙張尺Ιϋϋ國國家樣準(CNS ) A4規格(210X297公釐) (請先閱讀背面之注f項再填寫本頁) 訂. 經浐部中决榀2ί-Λκ工消fr合作私印絮 A7 _______^B7__ 五、發明説明(%) 所騸動。此二信猇被输入到一個2輸入的多工器214,其 係由一個組構位元5所控制而輸入到多工器216,多工器 216的另一個输入則連接到’Γ的値。此多工器216係由一 個組構位元6所控制。多工器216的输出係直接地驅動該 二輸入的多工器218之一輸入,並且透過一個反相器220 驅動多工器218之另一個輸入。此多工器218係由組構位 元7所控制並且提供OE信號至該騙動器212 ·該組構位元 4係決定多工器210的狀態。此I/O界面對於每個巨排序器 的遘擇係決定:對於資料bUS;i的輸入來源以及輸出的致能 組構。 bus/ι之選擇 .該些匯流排18的输入資料,bus«,係藉由組構位元4 而選自該MS«I/O[15:0]接脚22或是巨排序器⑻的 OutRegA 206賴ί出。當與巨排序器⑻相連的bus«連接到該 OutRegA 206信號時,此巨排序器仍可透過該輸出選擇器 對於該MS«I/0接脚22做輸入。 输出致能控制 至該MS«I/0接脚的輸出致能係由組構位元的選擇所 控制β至該輸出致能控制電路的輸入係包括用於巨排序器 ⑻的Ms«OE接脚以及來自該PLA 26的〇epla[«]。該輸出 致能電路的輸出選擇器圖係代表在正常運作模式下組構位 元5,6與7之輸出致能選擇的等效》 ___29__ 本紙張尺度適用中困國家標準(CNS ) A4規格(210X297公釐) (請先W讀背面之注f項再填寫本頁) .Q. 訂· 經浐部+决"·率而只工消处合作妇卬來 A7 _______B7 _ 五、發明説明(>;) 巨排序器資料路徑控制器 現參照圖15,其說明有該巨排序器資料路徑控制器42 的方塊圓β此巨排序器資料路徑控制器42係包含並執行兩 序列的長指令字元(LIW)的其中之一可被組構進入指令記憶 髖48之中的序列。此資料路徑控制器42係產生控制巨排 序器的算術資料路徑之LIW位元。其也產生値給該一埠與 三埠的索引暫存器。對於每個巨排序器的資料路徑控制器 42之動作係由它的LIW暫存器的內容以及兩個控制信號所 決定。 資料路徑控制器42具有相關連的序列控制器220,此 序列控制器220可實行來控制對於特定巨排序器的整個指 令序列。此序列控制器220接收來自該加法器70且被儎存 在該暫存器170中的加法器狀態位元,並接收來自一條內 部的巨排序器的控制匯流排222或是來自該PLA 26且被僂 存在一暫存器224中的控制信號。該暫存器224的內容或 是該匯流排222的內容係由一個多工器226所選出,該多 工器226係由組構位元8所控制。其設有兩個計數器,與 此序列控制器220相關連之計數器0 228以及計數器1 230 。該指令記憶髗48係由一個與一堆叠234界接的程式計數 器232所控制。此程式計數器232係由該序列控制器220 以及該堆疊234所控制。如上所指出的指令記憶體48係預 先載入指令。該些指令係在序列控制器220的控制下輸出 到一個LIW暫存器236以提供基本上組構整個系統的LIW 控制位元。此外,其係提供有讀取位址,以一個索引暫存 --------.Q------1Τ------0— (請先《讀背面之注意事項再填寫本頁) 本紙張尺度適月]中國國家橾準(CNS ) Α4规格(210Χ297公釐) A7 _B7_ 五、發明说明(β) 器238儲存在匯流排84之上用於該一埠的位址之位址、一 個索引暫存器240用以儲存在匯流排196之上用於該三埠 的讀取位址之讀取位址、一個索引暫存器242用以儲存用 於三埠的讀取位址匯流排198之讀取位址、一個索引暫存 器244用以儲存用於三埠的寫入位址匯流排200之寫入位 址。這些都是由序列控制器220所控制。狀態位元也被提 供以儎存於哲存器248中提供狀態信號。 如上所指出的LIW暫存器236係包含正在執行的LIW *該LIW係取自於一個32x48可再程式化的記憶雔之指令 記憶« 48。該程式計數器232是由該堆叠234所控制,該 堆叠是一用於“呼叫(caU)”的返回堆叠並可實行來保存四 個返回位址》 該控制器42係接收來自該PLA CtrlReg信號或是外部 的MSwCTRL接脚之啓始兩個可能的LIW序列之一序列的 控制信號。其係输出傳送與等待的狀態信號至該PLA 26以 及外部的MSwCTRL與MSwAWAIT接脚。 此資料路徑控制器42係爲一種同步的管線化結構◊一 個48位元的指令係在一個時脈週期之內取自指令記億體 48在該程式計數器232所產生的位址處,並且被暫存到 LIW暫存器236之中。在下一個時脈週期發生之動作係由 上一個時脈週期之LIW暫存器236的內容所決定。同時, 下一個指令正從記億髖中讀出,並且LIW暫存器236的內 容係爲下一個時脈週期而被改變,因而指令是在每一個時 脈週期被執行。由於同步的管線化結構,資料路徑控制器 ____31 ___ 本紙張尺度適用中闽國家榇率(CNS ) Α4规格(210X297公釐) --------ο------訂------9 (請先閲讀背面之注意事項再填寫本頁) A7 B7_ 五、發明説明(y) 42將一直執行下一個指令直到分支(branch)動作被執行爲 止。該程式計數器232可被控制信號所啓始。其係遞增或 是分支到下一個被執行之該LIW的位址。 在資料路徑控制器中該些加法器的狀態信號、堆叠 234以及兩個計數器228與230係支援該程式計數器232。 他們的支援角色爲: 加法器的狀態位元係報告該相等、溢位以及符號的値 以爲了用在分支的動作上; 堆叠234包含返回位址;以及 計數器0 228以及計數器1 230保持迴圈-計數器的値 用於分支的動作。 五個索引暫存器238-246係保持用於該一埠與三埠的 記憶體之寫入、讀取以及寫入偏移的位址値。該寫入偏移 索引暫存器246係被用於該兩個讀取索引暫存器的對準, 並且保持該兩個讀取索引偏離該三埠的記憶體43之寫入索 引一個偏移距離的値。 控制信號 顯示在圖2中的MS/ι直接控制與狀態接腳係爲直接連 接在接脚與每個巨排序器之間的控制與狀態界面信號》該 些直接控制信號係爲MS«CTRL[1:0]以及Ms»OE。該些直 接狀態信號係爲MS/iAWAIT以及MS«SEND。或者是,巨 排序器10-16可利用來自該雙PLA 26的控制信號。該雙 PLA也接收巨排序器的狀態信號。對於每個巨排序器之兩 本紙張尺度通用中闽國家揉準(CNS ) A4規格(210X297公釐) ----------Q------ΤΓ------ο, {請先閱讀背面之注意寧項再填寫本頁) 經浐部中央榀準而工消费合作社印家 A7 ___ _B7_ 五、發明説明(今。) 個控制信號係指明四個控制命令的其中之一。它們係選自 MSuCTRL[l:0]接脚或是選自該兩個PLA的Control«信號 。在下一個時脈週期巨排序器之控制狀態是由以上的元件 狀態以及該些C〇ntr〇bi[l:0]信號的値所決定。 該四個控制命令包括: 設定序列〇 設定序列〇係設定並保持該程式計數器232爲’0’,並 且重匿傅送與等待的狀態暫存器爲’〇’,而不啓始化巨排序 器中任何其它的暫存器。在設定序列〇收到的兩個時脈週 期後,該資料路徑控制器42每個時脈週期將會執行該LIW 暫存器236的內容(其係爲該LIW記憶體在位址’〇’的內 容)直到一個執行或是繼嫌的控制命令收到爲止。 設定序列2 設定序列2係設定並保持該程式計數器232爲’2’,並 且重匿傅送與等待的狀態暫存器爲’〇’,而不啓始化巨排 序器中任何其它的暫存器。在設定序列2收到的兩個時脈 週期後,該資料路徑控制器42每個時脈週期將會執行該 LIW暫存器236的內容(其係爲該LIW記憶髖在位址’2’ 的內容)直到一個執行或是繼績的控制命令收到爲止。 執行 執行係容許該資料路徑控制器42之正常動作。此控制 命令在正常動作期間應該每個週期均被發出,除了當重置 該傅送與/或等待旗棵、或是用設定序列〇或設定序列2來 --------4------IT------ο, (锖先閱讀背面之注f項再填寫本頁) 本紙張尺度適用中困國家標準(CNS ) A4规格(210X297公釐) A7 _____B7_. 五、發明説明(々/) 啓始一個LIW序列時。 雄績 繼纊係重置該傅送與等待之狀態信號,並且容許正常 動作。若等待狀態被發出時,該程式計數器232將會在下 一個時脈週期重新開始正常動作 當繼纊的控制命令處於有效狀態下,若遇到一個等待 的動作時,該繼績的控制命令將會適用,而等待的動作將 不會停止該程式計數器232,也不會使等待的狀態暫存器 被設爲’Γ 〇因此,該雄績的控制命令在兩個時脈週期後應 該會被轉變爲一個執行的控制命令。當級嫌的控制命令處 於有效狀態下,若遇到一個傳送的動作時,該繼嫌的控制 命令將會適用,而傅送的狀態暫存器將不會被設爲’Γ。 下表係歸納對於可能來自CtrlPLA«或是來自 MS/iCTRL接脚之Control/i[1.0]該四種控制命令的選擇: 表3 0α*ο1>ιΓΐ:0ΐ wm 0 0 0 1 mm 1 0 1 1 sswamnM.2,· 藉由容許兩個序列的啓始點,故每個巨排序器都可以 — _____34.______ ^紙張尺度適扣中困國家棣率(CNS ) A4規格(210X297公釐) --------ύ------1Τ------ΟΊ (請先聞讀背面之注f項再填寫本頁} A7 ___________B7_ 五、發明説明(:p) 被規舾來執行兩個演算法而不需重新載入該些序列。該兩 個PLA的Cofitrobi信號係於巨排序器之內被同步化。該兩 個MS/iCTRL接脚信號並未在巨排序器之內被同步化;因 而對於時序(timing)要求的考置是必要的。 狀態信號 當巨排序器在其動作序列中已到達一個預定點時,有 兩個單一位元暫存的狀態信號來通知外部的接脚以及該 PLA 26 »它們是等待與傳送的狀態信號。兩個狀態信號以 及它們的暫存器在以下的任何狀況下都被重置爲’〇’ :在電 源開啓重置的期間、該RADP的任一部份主動之組構、或 是在控制狀態期間:設定序列〇、設定序列2、或是繼縷。 當一個等待的動作從該LIW暫存器發出時,巨排序器 係執行下一個指令,並且重複地執行該下一個指令直到一 個繼績或是設定序列的控制命令收到爲止。該等待的動作 係停止程式計數器繼績地改變,並設定等待的狀態信號以 及暫存器爲’Γ。一個雄績的控制命令則重置該等待的狀態 信號以及暫存器爲以讓該程式計數器232再開始。當傅 送的動作被發出時,該傅送的狀態信號以及暫存器被設定 爲’Γ,並且序列的執行係繼嫌下去。該程式計數器232並 未被停止。一個織嫌的控制命令則重置該傳送的狀態信號 以及暫存器爲’〇’。狀態信號是藉由該雙PLA 26與 PLACLK再同步化。 加法器的狀態位元,相等、溢位以及符號,係被供作 __35__ 本紙張尺度適用中國國家橾準(CNS ) Α4規格(210X297公f) (請先閲讀背面之注f項再填寫本頁) 訂 OI. 經辦部中夾榀率而h-T·消炝合作私卬54 A7 __ B7 __ 五、發明説明 條件式的(conditional)跳躍(jump)之用。 長指令字元暫存器 48位元的LIW暫存器236之目的是來保存目前被執 行的LIW之內容》它的位元係連接到資料路徑中的單元》 此LIW暫存器236係在該程式計數器232被更新後的一個 週期中被載入由該程式計數器232所指到昀指令之內容。 該指令的結果係在下一個時脈遇期被計算。每一個巨排序 器10-16都是由長指令字元(LIW)的位元所控制的單元來構 成的。在元件組構的期間,LIWs係被程式化進入巨排序器 的指令記億體48中》該資料路徑控制器則執行控制算術的 資料路徑之UWs。某些禰位是每個週期均可得到的。某些 是共用在大於一個運算單元之間。以下的運算櫚位是每個 週期均可得到的: 一埠的記憶髓存取 三埠的記憶«存取 输入暫存器之多工器 输入 MuxA,B,C 輸出多工器 加法器1 加法器2 這些運算欄位是每個週期均可得到的,除了當一常數 係因一個運算而被要求時: 本紙張尺度適扣中闽國家榡率(CNS ) Α4規格(210X297公釐) --------Θ------IX-----19 (請先《讀背面之注意事項再填寫本頁) 經沪部中央^^^^工消费合作^卬^ A7 B7 五、發明説明(#) 乘法器 乘法器-累加器 道些運算欏位是彼此衝突的。只有一個能出現在每個 LIW 中: 位移器 邐輯單元 資料路徑控制器(若參數被需要時) 程式計數器 程式計數器232是一種根據一些情況而改變狀態之5 位元的暫存器。此程式計數器可被遞增、直接載入、或是 被設爲’〇’或’2’。影響巨排序器的程式計數器之三種類型的 LIW運算明確地爲: 分支運算、 設定序列〇與設定序列2之運算、以及 等待狀態運算。 程式計數器232被設爲’0’ : 在電源開啓重置的期間、 在該RADP的任一部份主動之組構的期間、 在設定序列〇的控制命令期間、 當程式計數器232到達値’31’時,並且前一個LIW並 未包含一個到其它位址的分支、或者是 _37_____ ^紙張尺度適用中困國家標準(CNS ) A4規格(210X297公釐) ' ---------0------?τ------0— (請先閱讀背面之注f項再填寫本頁) 經浐部中夾扰卑Λ只-T消费合竹ii-a-t! A7 ____ _B7__ 五、發明説明 在一個分支運算至位址’〇’之執行時。 控制信號之效果 該些c〇ntn>l;i[l:0】信號是分別和設定序列0或是設定 序列2 —起被用以重置該程式計數器爲’0’或是’2’。一個執 行的控制命令是根據該LIW藉由該程式計數器而開始並且 保持執行。一個繼績的控制狀態係在一個等待的狀態之後 再開始該程式計數器的動作,並且在下一個上升的時脈信 號時重置傅送與等待暫存器爲’〇’。在一個傳送的狀態之後 的繼績之控制命令是在下一個上升的時脈信號時重置傳送 的暫存器爲’〇’。 狀態信號的效果 在遭遇到一個等待的動作之後,該等待的暫存器被設 定爲’Γ並且該程式計數器232在下一個時脈週期時停止。 一個繼纊的控制狀態係重置傳送與等待暫存器並且容許該 程式計數器232再開始。在一個傳送的動作之後,該傳送 的狀態暫存器在下一個時脈週期時被設定爲’Γ。在傳送的 狀態下,該程式計數器係根據該LIW而繼績動作。一個繼 績的控制狀態是需要來重置該傳送的暫存器。 分支的動作 該LIW暫存器一次可包含一個分支的動作β條件式的 分支在設定序列的控制命令期間不應該被進行以確保可預 —__ 38______ ^紙张尺度通州中國國家梯準(CNS } Α4規格(210X297公釐) ' --------.Q------1T------.0— (請先閲讀背面之注意事項再4寫本頁) A7 B7 M-浐部中央i?:^-^h工消合作ii印5? 五、發明説明(^) 測的條件。 _ 組含 癯《1#式分重 janp<addrM> 計 jumpcounlvrtKtddr·*» junpcoanlMrl<«klrm> 粉· 0丨臟 AttfHIffiltttftoddre*» . «nmitemitttW 於下ΗίβηκηηβΜ. 件:雜 、雌、《«2下分支 jump#qnel<id*e«i> jinpovcfflow<adilren> iwopeieB^omst^ cs!1<hIA«mp» «HSsttfM中目細地址加±τ«_Λ堆AZ中· rttmi η»ΜΜΗ^Μ)ΙΜϋΚϋΰΚΛ83ΕΜΐ» 中· 指令記憶體 指令記憶體48是依據巨排序器組合語言程式而被組構 由32個字元的48位元之RAM所組成。此指令記憶雔48 在電源開啓重置的期間並未被初始化。爲了可靠度,此 LIW RAM必須在巨排序器執行開始之前被組構。在該些 LIW暫存器中的位元欐位係控制資料路徑的動作與程式的 流程。 計數器〇與計數器1 該些計數器228與230均爲5位元的迴圈計數器。此 二迴圈計數器在電源開啓重置以及在RADP中任何組件之 主動組構的期間被塡入’0’。計數器〇與計數器1可分別 由設定計數器〇與設定計數器1的動作加以載入。跳躍計 39 本紙张尺度適州中國國家梯準(CNS ) A4^!t格(2丨0X297公釐〉 , IT (請先閲讀背面之注$項再填寫本頁) 經沪部中决i:r:卑而工消汝合竹私卬5? A7 __ _B7_ 五、發明説明U?) 數器〇與跳躍計數器1的動作將會在下一個時脈週期分別 遞減計數器,直到計數器的値到達爲止。設定序列〇與 設定序列2之控制信號並不改變或重置該些迴圈計數器。 因此,該些計數器在被程式中參照之前應該被設定計數器 〇與設定計數器1的動作加以初始化。 堆叠 堆叠234係保存返回位址。其係包含四個5位元的暫 存器以及一個2位元的堆叠指標器。在電源開啓重置或是 在RADP中任何組件之主動組構之後,該堆叠指標器以及 所有的5位元暫存器都被初始化爲’0’。一個呼叫在執行下 一個指令之後係進行無條件式的跳躍,並接著將在該呼叫 之後的第二個指令之返回位址推入該堆叠234之中》返回 的動作從該堆叠234取出返回位址並且送入該程式計數器 232。若呼叫與返回的動作存在於一個等待的動作之後下一 個LIW之中時,該些呼叫與返回的動作將會重複並且改變 該堆叠234,因爲該程式計數器232被保持在該位址,並 且巨排序器重複地在該位址執行該LIW。 索引暫存器 該UW暫存器236係控制被用於資料記憶體位址的產 生之五個索引暫存器。該索引暫存器238保存有一埠的記 億髖位址資訊。其它四個索引暫存器240-246保存有三埠 的記憶*位址資訊。在電源開啓重置或是在RADP中任何 ____________ 本紙張尺度適扣中圃國家搞準(CNS ) Α4规格(210Χ297公釐) --------Ό------1------Cr (請先閲讀背面之注f項再填寫本頁) 經浐部中夾*?.準Λ只工消货合作社卬11 A7 ___ _ B7___ 五、發明説明(子g) 組件之主動組構期間,所有的索引暫存器位元都被設爲’〇’ 。該些控制狀態,執行、繼績、設定序列0或是設定序列 2都不影響或是重置該些索引暫存器。在每個相關的記憶 髖存取被執行之時脈週期時,記憶體位址可以依據設定在 每個索引暫存器中的控制位元而被載入、遞增、遞減或是 維持。 巨排序器組構位元 在每個巨排序器中有九個可規劃的組構位元。它們被 列在下表之中。三個帶有符號/不帶有符號相關之位元係在 規劃巨排序器時以指令加以設定。其它則是在組構的選項 被選擇時由軟髏設計工具加以設定。 表5 m 她 «tt7C=〇 ^¢556-1 0 mm 1 mm Bwmm 2 mm mirntzim 3 asm 32/M 航 32 位元emissK 式 · 4 mmmmt 脚 Oufi^sA 朗 MSal/O «Μ» («Μ9〇Λ%Α Ι»»«λ贼自 MSrVOMD 5 v〇fm OB 來 ΰΜηΟΕΜ OE來自FLA 6 W>界面 x»〇Eina»9v OT-OE OB-U* 7 won® OEl^Wf OBf<3B O&-OE 8 9W8Sf^MII C〇mrol[l:0]3^|BUf Coolrol(l:0】來由 wncrmmwm C〇〇M[1:0]來自 9LA0 之 ariPLV41:〇] ‘1’·邏輯1,邏輯0 41_ 本紙张尺度適相中阐國家標牟(CNS ) A4規格(210X297公羡) --------ο------^------9 (請先聞讀背面之注f項再填寫本頁) A7 ______B7__ 五、發明説明()/) 該些組構位元係以指令記憶髏48加以組構,其中16 位元的程式資料字元之位元〇至8係爲上列的九個組構位 元。 雙PLA之說明 現參照圖16,其說明有該雙PLA 26的方塊圖。其係 設有兩個PLA,PLAO 260以及PLA1 261。每個PLA都是 由一個用以按收七個梅入之輸入選擇器264所構成。其各 接收一條16位元匯流排的16位元BUS4IN匯流排24、在 匯流排266之上的傳送狀態位元、在匯流排268之上的等 待狀態位元、在匯流排38之上的PLA輸入信號、在匯流 排40之上的PLA I/O信號、每個PLA 260與261的输出。 每個輸入選擇器在16位元匯流排上提供一個Α與一個Β 輸出至一個提供64位元的輸出之最小項(term)產生器268 。對於每個PLA 260與261,此係被輸入到一個34x32的 AND陣列270,該陣列的輸出是一個被輸入到一個固定的 OR閘272之32位元的輸出· AND陣列270也提供輸出致 能信號,兩個給PLA 260而兩個給PLA 261。對於PLA 260,固定的OR閘272的输出是一個被輸入到一個控制的 OR閘274之8位元的輸出,然而PLA 261之固定的OR閘 272之輸出則係爲一個被輸入到一個輸出OR閘276同時也 輸入到PLA 260的控制OR閘274之14位元的輸出。PLA 260的控制OR閘274的輸出被輸入到一個8位元的控制暫 存器278,此暫存器的輸出係提供PLA控制信號,其共有 __£____ 本紙張尺度適州中B國家榇準(CNS ) A4规格(2丨0X297公釐) ύII (請先》讀背面之注$項再填寫本頁) 訂 ΟΙ. A7 ______—_B7_ 五、發明説明U〇) 四個输出自此暫存器的2位元之控制信號。此控制暫存器 278也提供此輸出回到PLA 260與261兩者的輸入選擇器 264。PLA 261之輸出OR閘276的输出係被輸入到一個輪 出暂存器280,此暫存器的韉出係提供一個被輸入回到 PLA 260與261兩者的輸入選擇器264同時也輸入到一個 I/O緩衝器282之8位元的_出》該I/O緩衝器的輸出係被 連接到被輸入至該輸入選擇器264並且由8個位元的_出 所構成之I/O匯流排40。該I/O緩衝器282也接收該鍮出 OR閘276的輸出。此PLA大槪的動作是描述於公告在 1994 年 10 月 18 日、E.W. Jennings 與 G.H. Landers 之美國 專利第5,357,152號専利案中,其在此被納入作爲參考* 此雙PLA 26提供了兩個在線的(in-circuit)可程式化之 32個輸入乘上34個乘稹項的PLA 260與261。PLA0 260 可當作一個狀態機器來協調(coordinate)巨排序器陣列的動 作以及外部的裝置。PLA1 261可被用於隨機界面的邏輯。 此雙PLA 26可依搛BUS4IN、PLAIN以及PLAI/0匯流排 狀態與控制匯流排20的狀態來進行週邊的邏輯或是控制功 能。此可被任一或是全部的巨排序器利用之雙PLA控制功 能係包括: 暫存的控制輸出,CtHReg[7:0]用於: LIW序列的啓始:以及 對於傅送與等待狀態信號的控制回應。 組合_出,〇epU[3:0],被用來產生輸出致能信號給巨 排序器。此〇epla[3:0]信號係產生自個別的乘稹項。 本紙張尺度適扣中國國家揉準(CNS ) A4規格(210X297公釐) I-------ο------1T------CT (請先《讀背面之注f項再填寫本頁) A 7 _B7_ 五、發明説明(47 ) PLAO 260產生八個可被用作爲巨排序器控制信號的 CtrlReg輸出*其中兩個信號可爲每個巨排序器10-14所利 用來當作控制信號。它們也可被用作爲回授至PLA0 260與 PLA1 261兩者。該些CtdReg[7.0]信號在多晶片的陣列處 理器之應用上係爲有用的*其中的系統控制信號係被傳送 到每個RADP。PLA1 261係產生組合或是暫存的I/O輸出 給PLAI/O[7:0]接脚40。來自PLA1 261之OR閘272的十 四個固定OR的輸出(FOl)也可用於PLA0 260中的控制OR 陣列274中。該些PLAI/0信號對於需要少量的界面/聯繫 交換(handshake)的信號之單晶片的應用係爲有用的,並且 它們在其中的系統控制信號係被傳送到每個裝置之多晶片 的陣列處理器之應用上也是有用的。 RADP組構 RADP係藉由將組構的檑案載入裝置中來加以組構。 RADP可組構的記憶體 在四個巨排序器以及一個雙PLA組構記憶體中均各有 三個記憶《。在每個巨排序器中係有: 具有九個組構位元的LIW記憶體、 一埠的資料記憶讎、以及 三埠的資料記憧髖。 在每個巨排序器中的九個可程式化之組構位元係被組 _____44_ 本紙張尺度適和中固國家榡率(CMS } A4规格(210X297公釐) (請先聞讀背面之注ί項再填寫本頁) 訂 A7 B7 五、發明说明(分>) 構成LIW組構資料封包(packet)中額外的組構資料字元。 該LIW記億體、組構位元、以及雙PLA記憶雔只可以在主 動的組構模式期間被載入。每個巨排序器之一埠以及三埠 的資料記憶髖可以在主動的組構期間被載入,並且在正常 的動作期間可由每個巨排序器的LIW暫存器所命令地被存 取β RADP的動作模式 組構係在主動的組構模式期間被載入到該RADP。 RADP可依PGMO與PGM1的邏輯狀態而處於三種動作模 式的其中之一: 在正常的動作模式中,RADP的巨排序器同時執行被 規劃到每個LIW記憶髄之中的LIW。 RADP係在主動的組構模式期間被組構,此模式容許 每個巨排序器之指令記憶體與資料記憶體以及該雙PLA被 規割。 經方‘部中央«:^·^·-^工消介合竹私卬製 (讀先閎讀背面之注f項再填寫本頁) 被動的組構模式係禁能裝置的I/O接腳正常地運作或 是被規劃,此容許在相同電路中其它的RADP被組稱。 四個名稱爲PGMO、PGM1、PRDY以及PACK的組構 接脚係被用來控制動作模式以及組構的過程。 BUS4IN[15:0]接脚係被用來翰入該些組構的資料字元。 本紙張尺度適用中國困家標準(CNS ) A4规格(210X297公釐) 鳑浐部中失榀^-^以工消免合竹私卬絮 A7 ______B7 五、發明説明(W) 乘法器·累加器 該乘法器-累加器(MAC)68係參考圖3與圖6在以上被 描述。一般而言,此係爲一種同步的乘法器·累加器電路並 且由兩個管線階段所構成。 第一個管線階段是由一個網路的多個小位元的乘法器 、多個形成多個樹狀之本地進位傅遞加法器、以及用以保 持每個加法器樹之根部的結果之管線化暫存器電路所構成 *這些加法器樹的樹葉係來自該些小位元的乘法器電路之 多個數位輸出。第二個管線階段是由多個本地進位傅遞加 法器所構成,其中除了一個之外所有的加法器構成一個樹 ,該樹係取得該第一個管線階段之多個加法器樹的同步化 結果並形成所有來自該第一個管線階段之加法器樹的結果 之単一總和。一個界面電路係在此結果的總和以及此管線 階段的累加器暫存器內容之一個可能選出的部份上做運算 。此界面電路可以使來自累加器148中的累加器暫存器14 之回授爲〇並且將來自此管線階段中的上述加法器樹的結 果總和通過其中、其或者是可以將該結果總和與該(可能 )選出的累加器結果對齊而由最後的本地進位傳遞加法器 處理》此加法器的輸出再次地被送到一個第二界面電路, 此電路可藉由對齊、或是使該結果爲〇來修改該些加法器 的輸出。此界面電路的_出之後被儲存在構成此管線階段 的管線暫存器庫之(可能)多個累加器暫存器的其中之一 裏β賁現此可能包含部份的小位元的乘法器電路之管線階 段的乘法器-累加器之延伸、對於兩個管線階段中的本地進 ύ ^I-. 0- (婧先閱讀背面之注f項再填寫本頁) 本紙張尺度適用中國國家標準(CNS ) Α4规格(210X297公釐) A7 ______B7_ 五、發明説明(公心) 位傅遞加法器樹之樹狀結構的變化均被主張。此基本電路 與實現標準的整數、定點與浮黏算術、以及純量(scalar)與 矩陣模數(modular)的分解、p-adic定點與p-adic浮點與延 伸的科學準確度標準及p-adic浮黏算術之延伸均被包含》 容納有乘法器-累加器之施行的延伸也都被包含,該乘法器 -累加器包含有一或多個進位傳遞加法器、多個最少包括有 一埠的RAM與三埠(兩個讀取卑與一個寫入埠)的RAM 以及同步化的暫存器、位移與對齊電路、再加上內容可定 址的記憶體以及位元等階段的封裝(pack)與解開(unpack)電 路之資料記億髏電路。在單一稹懺電路中內含有多個任一 以上主張的電路之實施例子的延伸也包含在內。 爲了描述此MAC 68,某些定義也許是有用的。它們 將被說明於下: 導線 妗浐部中央從卑^只工消汝合作社卬5? (請先閎讀背面之注f項再填寫本頁) Q! 導線是一種透過界面電路而相互連接複數個通訊裝置 的機構,該些界面電路將被指明爲傳送、接收或是雙向的 界面•一個雙向的界面將會由一個傳送器與接收器界面所 橋成。每個傅送器可被做成使得其可被禁能來傳送。此容 許大於一個傳送器被界接到一導線。每個接收器可被做成 使得其可被禁能來接收其所界接到的導線狀態。一導線可 假設爲在某個最小單元的時間內,將信號從一或多個傳送 器散佈至界接到該導線的接收器。此信號可被稱爲導線的 狀態。信號是形成一個字母之一有限集合的符號之一部分 。通常此字母係由一個兩單元的集合所構成’雖然具有大 本紙張尺度適用中®國家標率(CNS ) A4规格(210X297公釐) 經濟部中央揉準局貝工消费合作社印装 A7 __B7__ 五、發明説明u<) 於兩個符號的多層階段字母的利用具有實際上的應用。最 普遍的導線是一個薄的金屬片,其狀態爲兩個不相連的電 壓範園,通常表示爲’〇’與’Γ。此字母已證明在數位系統從 電報到現代的數位電腦之整個發展過程中是極爲有用的。 其它包括多個電K範圃、電流與調頻之金屬片系統也已被 利用。其關鍵的類似性係爲導線狀態之有限、良好定義之 字母。此之一例子係爲在VLSI電路中多個値的電流模式編 磚的導線,如Kawhito等人所著之“利用多個値的甯流模 式電路之高速、節省面積的乘法器設計”。導線也已經從 光傳輸線以及流雔的傅輸線而加以構成。導線的一個特定 製成之實際的寅施例可以由任一種該些機構所構成,但並 不限於以上所述。誚注意的是,在某些高速的應用中,在 導線的最小單元的時間內其狀態可能是導線之中的位置函 數•此種現象普遍地見於液體、撤波以及光學網路之中, 因爲傅播延遲的結果所導致的。此可能是某些設計之有目 的之部份而由此種方式所包含β 信號束與信號匯流排 信號束與信號匯流排都是由複數條導線所組成。信號 束的每條導線係透過爲傳送器或是接收器的界面電路而連 接到複數個通訊裝置β在信號束中的通訊方向並不隨時間 改變,該些爲傳送的通訊裝置就一直在傳送。而該些爲接 收的通訊裝置就一直在接收。同樣地,信號匯流排的每條 導線也連接到複數個通訊裝置。界接到信號匯流排之通訊 ---I — — II - - I (請先Μ讀背面之注$項再填寫本頁) 訂 本紙《I尺度逋用中國國家梯準(CNS ) Α4規格(210X297公釐) 經濟部中央揉準局貝工消费合作社印装 A7 __B7_ 五、發明说明 裝置一律附接到每條導線,因而不論是哪一個在傳送的裝 置均傅送在所有的導線上,並且不論是哪一個在接收的裝 置均在所有的導線上接收。再者,每個通訊裝置可同時具 有傅送器與接收器,該些傅送器與接收器可在不同的時間 區間內爲動作的。此容許資訊的流動透過連嫌的時間區間 而在方向上改變,亦即信號的來源與目的地可在連嫌的時 間區間上變化。 管線暫存器與階段 在此所主張之電路是根據一種已知爲管線階段的序列 之控制結構。一個管線階段將被定義爲一個管線暫存器以 及可能有一個組合的邏輯階段所組成。管線階段的正常操 作狀態將會是在該管線暫存器中的記憶體組件之內容。額 外的狀態資訊也可取得來迎合可測試性的需求或是超出本 專利案之意圖外的額外系統需求。管線階段電路之典型的 製成可在同步的數位邏輯系統中找到。此種系統係利用小 數目的已知爲時脈之控制信號來同步化在各個管線階段之 內的狀態轉移事件。一、二與四相位的提供時脈技術已廣 泛地被利用在此種處理方式之中。請參見被列在名爲“典 型的提供時脈技術”之章節中的參考資料,其係爲討論應 用到VLSI設計之該些處理方式。當時脈在要加以控制的網 路中必須横越長距離以及/或是橫跨不同的路徑之大變化的 電容性負載時,這些典型的處理方式係面臨嚴重的限制。 這些限制在次微米的CMOS VLSI製造技術中是常見的。更 本纸ft尺度逋用中國_家揉準(CNS ) A4规格(210X297公釐) ------------ (锖先閱讀背面之注$項再填寫本I) 訂 經濟部中央橾準局胄工消费合作社印«. A7 __ B7 _ 五、發明説明up 具有彈性之時序(timing)技術的利用已經在“替代的提供時 脈技術”參考文獻中被討論。將假設管線階段會包含一個 由一傳統的同步、或是例如在替代的提供時脈技術之參考 文獻中提及的技術之控制信號所控制的管線暫存器組件。
I K叉樹、具有回授之K叉且均勻的樹 爲了本文件,一個有向(directed)圖G(V,E)是一對物件 ,其係由一個有限、非空的頂點V={v[l],…,v[n]}集合以及 一個有限集合的邊E=(e[l】,...,e[fc])所組成,其中每條邊e 是一個隸屬於V的一對有順序的頂點。用eUni]表示e[j] 的第一個單元,而用βϋΠ2]表示第二個單元β頂點將也可 認作是以下的節點。若是每個頂點均爲至少一條邊之中的 單元,一個有向圓係爲連結的。若存在一個有限序列的邊 (ek[l],ek[2],...,ek[h】),其中 h>=2 是 Ε 的一個子集合, 使得對於j=l,...,h-l,ekU+l]的第一個單元也是ek[j]的第 二個單元時,則一個有向圖G(V,E)具有一條路徑》若存在 有一條路徑(ek[l],ek[2],. .,ek[h]),其中 h>=2 使得 ek[h] 的第二個單元也是ek[l]的第一個單元時,則一個有向圖 G(V,E)具有一個循環。一個不具有循環的連結有向囫是爲 樹》請注意一般這將會稱做有向樹,但由於有向圖是在此 所考盧的唯一一種圖,故該名稱被簡化爲樹。K叉樹係爲 一種樹,其中K是正整數並且該樹的每個頂點(節點)是 K個邊中的第一個單元或是剛好一條邊之中的第一個單元 。具有回授之K叉樹係爲一種有向圖G(V,E),使得存在一 本紙張尺度逍用中B國家揉準(CNS ) A4规格(210X297公釐) 0¾-- (請先閱讀背面之注$項再填寫本霣) 訂 經濟部中央橾準局貝工消费合作社印製 A7 B7 五、發明説明(f艺) 條邊ew來使有向圓G1(V,E1)是一個K叉樹,其中E1包含 除了 ew之外E的所有單元。請注意G(V,E)包含一個循環 。一個均勻的樹係爲使得頂黏形成稱爲層L[l],...,L[m]的集 合之樹,使得該樹的高度爲m並且該樹的根部隸羼於L[l] ,所有供給此根部頂黏的頂點係隸屬於L[2],...,所有供 給L[k]的頂黏之頂酤係隸羼於L[k+1]等等》在每一餍中的 頂酤都必須有相同數目之朝向該層中的每個頂點之邊》此 表示法(fcl,k2,...,kn),其中kl,...,kn爲正整數,將表示kl 個邊供給在L[l]中的頂黏、k2個邊係供給在L[2]中的每個 頂點、…、kn個邊係供給在L[n]中的每個頂黏。一具有回 授之均勻的樹不同於一個均勻的樹係在於一個邊在該圖中 係形成一迴路》 P-adic數値系統 P-adic數値系統係根搛一個給定的質數p。一個不帶 有符號的整數k之p-adic的表示法是一個多項式 :k=anpn+an.1pn-1+_"+a1p+a〇,其中 an,an_ 丨,...Α,α。係爲介於 0 到P-1的整數。帶有符號的p-adic數値之固定長度字元的 實現也是被表示成一個多項式,其具有一個不同處爲最高 有效的P位數,an現在範圃是介於-(p-l)/2與(p_l)/2之間· 二補數的數値系統 二補數的數値係爲以一個固定字元長度或是多個固定 字元長度做成之一種帶有符號的2-adic數値系統。在現代 51 ----------Q-- (請先聞讀背面之注意事項再球寫本頁) 訂 本紙張又度逍用中國國家揉率(CNS ) A4规格(210X297公釐) 經濟部中央橾準局員工消费合作社印製 A7 B7_ 五、發明説明(4/) 的數位電腦中,此爲最普遍被使用的整數數値系統。 冗餘數値系統與本地進位傅播加法器 冗餘數値系統係爲一種對於相同的數字具有多種不同 的表示法之數値系統。一種普遍的冗餘數値系統係利用一 種由兩個部分所組成的實雔(entity) 〇每個部分都具有相同 的位元長度。由此種實髏所表示的數字係爲一個介於該二 部分的函數(通常爲差分)。本地進位傅播加法器將被定 義爲任一種實施例的加法及/或減法的功能,其對於任何的 運算元長度之施行均係在固定的時間之內實行其動作。此 一般係藉由只將對於任何位數位置的進位信號傳播到具有 較高精確度之小的固定數目之位數而被達成。冗餘數値系 統的一種主要的應用是提供一種用於加法與減法之本地進 位傅播的格式之表示法。此種數値系統在執行乘法之電腦 電路的設計上係被廣泛地利用。在以下的討論中,冗餘的 二進位加法器單元係典型地被用來建造像是以下的施行。 在此所討論的本地進位傳播加法器電路也可以用進位儲存 之加法器的方式加以建構。有其它的本地或是有限的進位 傅播加法器可被用來寅行以下的電路。然而’爲了簡潔與 淸楚的緣故,只有冗餘的加法器方式將在以下的說明中被 利用。以下許多有關於高速的算術電路之參考資料係討論 或是利用冗餘數値系統。 模數分解之數値系統 模數分解之數値系統是依搛中國的餘數理論。此種對 ___52____ 本紙張尺度遑用中國國家揉準(CNS ) A4规格(210 X 297公釐) -- (請先Μ讀背面之注f項再填寫本頁) 訂 經濟部中央棣準局貞工消费合作社印装 A7 _B7_ _ 五、發明说明(0) 於整數的理論係在二十個世紀之前於中國被發現並做成文 獻》此中國的餘數理論是說:令《1[1],01[2],...,1»[11]爲正整 數,使得對於i不等於j之下m[i]與m[j]爲相對互質(prime) 。若b[l],b[2],".,b[n】爲任意的整數,則同餘(congruences) 的系統x=b[I](m〇d m[I])、i=l,.",n,係具有由模數 m=m[l]*m[2]*...m[ii]唯一決定之整數解答。此中國的餘數 理論在過去的一百五十年已被擴展到一個更全面性的結果 ,其係在任何的非無效(nontrivial)之代數環(ring)中均爲真 。請注意的是矩陣係形成代數環,並且模數分解矩陣以及 p-adic數値系統對於一些包含矩陣反轉(inversion)的重大動 作而言*其可被建構成相對於典型的定黏或是浮黏的方法 而具有效能及/或準確度上之優點》模數分解數値系統在密 碼的(cryptographic)系統上已有廣泛的應用。一個重要類型 的密碼系統是依據在非常大的數字上執行乘法。該些數字 通常牽涉到1000個位元。算術的運算已經被分解成非常小 的數字之模數乘法。這些分解容許在稹體電路中有效率的 硬體施行i該些小數字之模數乘法可以用以下描述的乘法 器架構而加以良好地賁行β此種乘法器之寅行將具有如傳 統的數値實行一般相同類型的優黏。 標準的浮黏表示法 標準的浮點表示法係由ANSI所發行之一文件中所指 明。浮點的算術運算通常需要四種捨入(rounding)模式的其 中之一加以引用來完成結果之產生。只要該運算的確實結 _________ 本纸張尺度逋用中國國家揉準(CNS ) Α4规格(210Χ297公釐) ---------9! (請先Μ讀背面之注$項再填寫本頁) 訂 經濟部中央橾準局負工消费合作社印製 A7 _B7___ 五、發明说明(r/) 果在假數(mantissa)上需要比該格式所能容許之更多的精確 度時,該些捨入楔式係被利用。捨入模式的目的是提供一 種演算的方式來限制結果爲正在使用的格式所能夠支援的 値。以C,PASCAL,BASIC,FORTRAN以及其它大多數的電 腦語言所寫的編譯過(compiled)之程式所使用的內定 (default)模式係爲捨入到最接近的値。許多範圍受限的演算 法之計算,特別是在FORTRAN,C,PASCAL以及BASIC中 可用之標準的超越(transcendental)函數之計算係镰要所有 其它三種模式:捨入到正無限大、捨入到負無限大、以及 捨入到零。捨入到最接近的値係査看該結果的位元,從所 支援的最低有效位元一直繼績到該結果之最低有效位元。 其它三種模式係爲捨入到零、捨入到負無限大、以及捨入 到正無限大,此在IEEE-ANSI對於標準的浮黏算術之說明 書中係被詳細記載。 延伸的精確度之浮黏表示法 延伸的精確度之浮點表示法係爲標準的浮點之一種被 提出之表示上以及意義上的延伸,以解決其某些原有的限 制。延伸的精確度之浮點係需要利用到本身假數格式兩倍 長的累加器假數欄位。此提供了更爲準確的乘法-累加的運 算序列。其也最低地需要兩個累加器可用,對於每個運算 一個用於低邊界而一個則用於高邊界。具有雙倍長度的累 加之四則運算的利用係帶來潁著更爲可靠並且可驗證的科 學算術處理》長精確度之浮黏表示法係牽涉到較長格式的 _54____ 本紙張i逋用t國國家^ ( CNS ) A4规格(210X297公 (請先58讀背面之注$項再填寫本霣) -订 經濟部中央揉準局貝工消费合作社印製 A7 B7_ 五、發明説明(S一>) 使用。例如,此可能會採用一個爲240個位元(包括符號 )之假數以及一個具有16位元之指數的格式。延伸的長精 確度之浮黏表示法將也具有支援兩倍的運算元長度之假數 的累加器。這些對於標準的浮點之延伸在需要極高的精確 度之計算上具有極大的用處,例如行星間的軌道計算、解 非線性的微分方程式、在幾乎奇異的(singular)矩陣上進行 乘法的反轉計算。 p-adic浮點系統 p-adic的算術可被用作爲一個浮點數目的假數部分。 目前的浮黏作法係利用P=2。當p>2時,捨入到最接近之 處在執行一序列的運算之過程中具有收歛到正確答案之效 果,而非通常從該答案發散(diverging)。此種方法最大的限 制在於其所能夠表示的實數比起基數2的算術表示法所能 夠表示的實數爲較小的子集合。請注意的是P越大並且越 靠近2的一個次方時*對於固定的字元長度而言則越多的 數目可以用這種表示法來表示。一種對於p-adic浮點算術 的解決方式將會根搛具有標準字元長度的P之特定値。以 下的兩個表係假設以下的格式要求: 假數檷位的大小必須是儲存P所花费的位元數目之一 個倍數。 假數欏位的大小必須至少和標準的浮點表示法一樣大 ◊ 指數檷位將會被當作一個帶有符號的2補數之整數。 _ 55 __ 本紙張尺度逋用中國國家梂準(CNS ) A4规格(2丨0X 297公釐) -- (請先聞讀背面之注f項再填寫本霣) 訂 經濟部中央梂準局貝工消费合作社印簟 A7 B7 五、發明说明(㈠) 假數的符號位元係爲格式中之明白的(explicit)位元。 以下的表6係歸納對於字元長度32並根據該些假設之 P 小 小 «μμώμρ 的mm (以基· i〇) 3 7 24 «Τ3* 12麵特:至W*> 7 7 24 價err纖 *個字7°至产(10°至 15 7 U 價ins織 « 15* 至 1344 (1〇^至 10^ 31 6 25 «»•31· 3 Ma至31λ (M»*S 10^) 從此表應注意事項: 樣準的單精度浮黏假數係爲23個位元,具有一個隱含 的第24位元。 其指數欏位係爲8個位元。 標準的單精度浮黏之動態範圔是2127至Γ128 (1038至 10_39).。 P=7,15與31的格式都具有較大的動態範圍以及至少 與標準的單精度的格式一樣多的假數精確度。 以下的表7係歸納對於字元長度64並根搛該些假設之 結果: P 糊MNUO (以期《ο 3 9 54 mn^m 27 Λ»» J2» 萑 3^(10111 至 Iff*) 7 9 54 讎 i* mt?: τ2" a〇"s$ ιΟ 13 7 56 31 8 35 ««•31 雛 11 Λ»字 31丨”苹31·™(1〇**至 W1") 從此表應注意事項: 標準的倍精度浮黏假數係爲53個位元,具有一個隱含 的第54位元。 56 本紙張尺度逋用中國國家標準(CNS ) A4规格(210X297公釐) ------------ (請先《讀背面之注意事項再瑱寫本寊) 訂 經濟部中央樣準局負工消费合作社印裝 A7 __B7_ 五、發明説明(β) 其指數欐位係爲10個位元。 標準的倍精度浮點之動態範圍是2511至Γ512 (1〇153至 10·154)。 ρ=7與31的格式都具有較大的動態範圍以及至少與標 準的倍精度的格式一樣多的k數精確度。 從以上的兩個表可得結論爲根據p=7與p=31的p-adic 浮黏格式對於單與倍兩種精確度(32與64位元)的格式 在具有至少一樣好的假數準確度之下、於動態範困上都提 供優黏。在固有的製作複雜度上,p=7具有相對於p=31之 優勢是似乎合理的。一個浮點的數値系統之假數部分也可 以由兩個部分所構成,在此已知爲MSC舆LSC,分別爲最 高有效部分以及最低有效部分。此MSC可以被建構成一個 二進位或是2-adic的系統,而該LSC則可被建構自一個p-adic的系統,其中p>2。此種配置在捨入到最近之處的模 式下也將會收歛到正確的答案,並且將具有優點爲完全利 用該些構成MSC的位元。若LSC佔有浮點算術電路的“ 防護位元”時,則可被表示的浮點數目之子集合上可見的 效果是所產生的結果之一致性的收歛》此將有助於標準的 浮點表示法之製成。若P爲靠近2的次方時,則以p-adk 數字爲主的假數之計算將被有效率地儲存在記憶體中。特 別是對於P=3與7,該模數的算術乘法器架構可等同於將 每個加法器帶(strip)中之冗餘的二進位加法器鍵專門化 (specializing),並且些撤地改變在以下的製作討論中被論及 的Booth編碼演算法。若MSC代表假數的2,3或5個位元 _____57_____ 本紙張尺度逋用中國國家標率(CNS > Α4规格(210Χ297公釐) ---------0^— (請先Η讀背面之注$項再填寫本頁) 订 經濟部中央揉準局負工消费合作社印装 A7 _B7__ 五、發明説明(以) 之外的位元時,則p-adic算術的p=3,7或31之版本可分別 被利用而具有對於該些表示法所能表示的數目上有最小的 影響。請注意對於此種類型的應用,P不必被限制爲質數 。只要Ρ爲奇數,所要的捨入收歛將會產生。在此文中將 被一般性地假設Ρ=3,7,15 _ 31係爲p-adic浮點延伸之最 佳的選擇,其大部分都是質數。在先前的段落中論及的兩 種數値系統將被指定爲p-adic浮點系統,而第二種版本係 包括被指定爲當在以下中相關之混合的p-adic浮點系統之 MSC與LSC部分。兩種表示法均可被應用到延伸的精確度 之浮點算術上。 MAC的槪要討論 乘法器142的基本動作是從兩個數A與B產生一個代 表某些像是標準的整數乘法之結果的數〇此種結果之累 加、再與乘法結合係爲乘法器/累加器的整體功能。應注意 的是此累加可以是加、減或是兩者》 此段說明係開始於一個乘法器/累加器的基本方塊圖以 及該乘法器/累加器的一個基本的延伸,此係提供成本與效 能顧著地優於其它達到類似結果之解決方式β這些電路方 塊將可見有利於標準的定點與浮黏之應用上,以及長精確 度浮黏、延伸的精確度样點、標準的P-adic定黏與浮點與 模數分解乘法器的應用上》 在廣泛類型的應用中,這些乘法器/累加器電路的任何 一種電路之最佳效能都需要該乘法器/累加器電路接收一個 本紙張尺度逋用中國國家揉率(CNS > A4规格(210X297公釐) ----------- (請先聞讀背面之注意事項再填寫本頁) 訂 經濟部t央樣準局貝工消费合作社印装 A7 £7_ 五、發明説明(妙) 連績的資料運算元流(stream)。所主張的元件之下一層係詳 細描繪一個乘法器/累加器竜路、再加上至少一個加法器與 一個本地資料儀存系統,此系統由兩個或是多個結合在網 路中的記憶嫌所組成。這些記憶體之最小電路是由兩個記 憶髖,該一埠的記憶雔44以及三埠的記憶體43所組成。 到此所描述的電路係提供許多實際、有效率的定點演算法 處理核心(engine)用於處理線性轉換、FFT、DCT以及數位 的濂波器。 支援各種浮點方法之延伸係需要有將一個產生自一個 算術運算的假數與一個第二假數對齊之能力。此種對齊的 運算最好是由一個能夠有效率地位移之專用的電路,位移 器74所執行。對於各種浮點格式的支援也需要有效率的邏 糈合併指數、符號以及假數部份。在此段落中提及的位移 電路(假設其也支援旋轉的運算)結合該邏輯合倂電路係 提供用於像是JPEG與MPEG中被利用之Huffman編碼方 式的影像壓縮的應用中所必須的位元包裝(packing)能力之 必要的電路。一旦對齊後,這兩個假數並需能夠彼此地相 加減。該長與延伸的格式基本上需要至少一個加法器能夠 進行多個字元長度“鏈結”之加法型式的運算,因而執行 的結果必須有效率地來支援此。 對於p-adic的算術系統之支援係要求該乘法器/累加器 之製成支援p-adic的算術。在一種製成的方式中,類似的 要求必須被做在至少一個加法器中。P-adic假數對齊電路 也對於該位移器有類似的要求。模數的算術應用一般爲非 _^_59__ 本纸浓尺度遑用中國國家揉準(CNS M4规格(210X297公兼1 ----------- (請先W讀背面之注項再填寫本頁) 訂 經濟部中央揉準局貝工消费合作社印装 A7 _ B7_ 五、發明説明(3) 常長的整數系統。此主要的要求變得能夠執行其中模數的 分解在演算法的執行過程期間可能會變化之高速的模數算 術。此種要求係爲針對乘法器/累加器以及加法器之電路。 基本的乘法器142與其k件之基本的乘法器槪要 現參照圓17,其說明有該基本乘法器的方塊圖。一種 非常快速加總2P個數目之方法(其中P假設爲一個正整數 )係被稱做二進位加法器樹·加法器D1-D7係形成加總 今 8=23個在小位元的乘法器300中之數目C1至C8之二進位 加法器樹。該些數目C1至C8係爲被輸入到乘法器300的 運算元A與運算元B的部份之部份乘稹,然後其被送到加 法器D1-D7。這些部份乘積是藉由一網路的小位元乘法器 在該乘法器300中被產生。加法器D8與方塊G1中的遲輯 係對齊來自加法器D7所產生的乘積以及代表管線暫存器 的第二階段之一個對齊的方塊H1選出之內容。累加的結 果係被保存在方塊H1中的記憶髄電路中。此係提供累加 的乘積儲存之用,使乘法器/累加器所需的基本功能完備〇 在階段1的管線暫存器E1中之電路係當作使基本電 路成爲兩個管線階段的機器之管線暫存器。對於信號從進 入乘法器300的入口傳播到E1的管線暫存器所花费的時間 是大約相同於從進入加法器D7的入口到H1中的管線暫存 器之傅播時間。因此,管線的週期時間是大約爲沒有E1的 暫存器之時間的一半。 轉換電路J1係被設置在該執行數種功能的HI之輸出 本纸張尺度逋用中國國家橾準(CNS ) A4规格(210X297公釐) ----------0^.-- (請先閎讀背面之注$項再埃寫本霣) 訂 經濟部中央橾準局貝工消費合作社印装 A7 B7 五、發明说明(θ) 上。其係選出哪種記憶體內容的組合是要被送出乘法器/累 加器,並轉換要被送出的信號束成爲可能不同的格式;其 係選出哪種記憶髖內容的組合是要被到送加法器D8用以 累加,並且若需要的話,其係轉換要被送到送加法器D8 的信號束成爲可能不同的格k。在J1中的電路可使此乘法 器/累加器的第二個管線階段中的傳播延遲降低,因爲最後 需要用以產生結果的遍辑電路可在H1的管線暫存器以及 像是在加法器單元D1至D9中冗餘的二進位表示法之非標 準的算術表示法之後於J1中進行,因爲用於此乘法器/累 加器內部的表示法可被轉換以被用於最後的轉換之標準的 2補數加法器所利用。 以上的一個例子可見於如下所實行一種冗餘的二進位 表示法中: 表8 目 如同用於Takagi之研究中的 «01表雜即:〇】 非標準的帶有符猇之大小 表示法Sn[l:0】 0 00 10 1 01 11 -1 10 01 此種表示法對於根據圖17的一個8乘16位元的乘法 器之某種CMOS邏辑做法結果係爲最佳的。藉由一個標準 的2補數加法器之轉換係需要從非標準的帶有符號之大小 的表示法轉換成一種標準的表示法。此係藉由做成此邏辑 轉換而被達成:
St[l]=not Sn[l]
St[0]=Sn[0] 61 本纸張尺度逋用中國國家榡準(CNS ) A4规格(210X297公釐) ---------0¾.-- (請先W讀背面之注f項再填寫本霣) 订 經濟部中央橾準局貞工消費合作社印装 A7 _B7_ 五、發明説明(9^) 冗餘的Ρ-adic表示法至進位傅播p-adic表示法的轉換 之最佳做法也需要此。 在以上所註明的結構之下,以下的運算可被實現: 帶有符號與不帶有符號之8乘16位元的乘法以及乘法 -累加 帶有符號與不帶有符號之16乘16位元的乘法以及乘 法-累加 帶有符號與不帶有符號之24乘16位元的乘法以及乘 法-累加 帶有符號與不帶有符號之24乘24位元的乘法以及乘 法-累加 帶有符號與不帶有符號之24乘32位元的乘法以及乘 法-累加 帶有符號與不帶有符號之32乘32位元的乘法以及乘 法·累加 最佳的多項式計算步騍 以上的定點版本: 標準的浮黏單精度假數乘法 延伸精度之浮點單精度假數乘法 P-Adic浮點單精度假數乘法 P-Adic定黏乘法以及乘法/累加 該些運算可被用於各種的應用中,其中每些係爲如下
1. 8乘16的乘法/累加係被用來轉換24位元的RGB 62 _ 本紙張尺度適用中國國家梯率(CNS ) A4规格(210X297公釐) ----------- (请先Μ1»背面之注$項再填寫本I ) 訂 經濟部中央揉準局貝工消费合作社印装 A7 B7 五、發明説明(k) 至YUV之彩色編碼。YUV是標準的廣播NTSC彩色編碼 格式。此之標準的使用者版本對於RGB與/或YUV的製成 係爵要8位元的數位組件 2· 16位元的算術是內建的控制電腦所用的算術之一種 非常普暹的型式。 3. 具有多於48位元的累加之16乘24位元的乘法/累 加是能夠對於像是資料Μ縮演算法之光碟應用在音訊資料 上進行1024黏複數的FFT。這原因是FFT的係數包括了等 級爲ΡΙ/512的數字,其具有大約爲1/256的大小。因此定 黏的做法需要累加16乘24位元的乘法以保存輸入資料的 準確度〇 4. 24乘24的乘法/累加也普遍用於音訊的信號處理之 要求上。請注意的是藉由類似上一段的論點,24乘32位 元的乘法對於保存1024黏的複數FFT資料的準確度是必 要的。 5. 32位元的算術是繼16位元之後被許多人認爲是整 數算術的下一個最普遍使用的型式。應注意的是此種算術 係被C與C++電腦語言執行環境所需求而用於長整數型式 的施行。 6. 多項式計算步騍的運算,特別是定點版本,係普遍 被用於低次(degree)的多項式內插。這些運算是用於寅行像 是sin, cos,tan, log等之標準的超越函數之一般的機構《 7·標準的浮點算術係爲當今最廣泛使用的動態範園算 術。 _ 63 本纸張尺度適用中國國家揉準(CNS ) A4规格(210X297公釐) ----------— (請先閱讀背面之注意事項再埃寫本頁) 訂 A7 _________B7_ 五、發明説明(ς|) 8. 延伸精度之浮點算術係可應用於任何標準的浮黏目 前被使用之場合,並且其解決某些具有捨入誤差或是緩慢 收歛的結果之嚴重問題。此種方式的主要缺黏是相較於標 準的浮黏算術,其係執行相當緩慢。重要的是請注意在此 種方式下,並不會有效能上的損害以及牽涉到支援此種在 品質上顯著的增進之非常特別的額外電路複雜度。 9. P-Adic浮點與定黏算術係分別可應用於任何標準的 浮黏或是定點被使用之場合》這些算術的優黏係爲它們在 捨入到最近的模式下將會收歛到正確的答案,而非隨機地 發散,並且當用此種方式做成時可以只花費與標準的算術 一樣的時間與電路。應注意的是在相同於標準的浮點位元 數目下,P=7的p-adic浮點之做法具有較大的動態範圍以 及至少相同的假數精確度,使得這些數値格式儍於標準的 浮酤。 進一步參照圖17,各個組件之動作將更詳細地描述。 在小位元的乘法器方塊300中的乘法器係對於Α與Β執行 小位元的乘法並且將信號束A與B轉換成一組信號束C1 至C8,其之後被加法器電路D1-D4。信號束A與B在某些 數値系統中係各自代表數字,而兩者數字格式不必相同。 例如,A可能是冗餘的二進位表示法,而B可能是2補數 的數字。此容許A包含來自在第二管線階段的累加器之回 授。此將支援最佳的多項式計算步蹀的運算。可應用的數 値系統係包括(但不限於)帶有符號與不帶有符號之2補 _ 64 ύ II (請先閲讀背面之注f項再填疼本頁) 訂 .ΟΊ. A7 B7 五、發明説明(心>) 數、p-adic、冗餘的二進位表示法、或是根據中國的餘數理 論之某種變形的模數分解系統。 先
訂 信號束C1至C8係爲根搛運算元(A或B)的其中之 一的小子集合與另一運算元的全部之部份乘稹。在以下的 討論中,將會假設A信號束係以其全部用以產生每個C信 號束,而B信號束的一子集合係被用在產生每個C信號束 。產生信號束C1-C8的邏輯電路將會依據用於A與B的數 値系統、用於D1-D4加法器的數値系統、信號束A與B的 大小、再加上被實現的乘法演算法之確實本質而變。在以 下的實施例之討論中,某些特定的例子將被詳述。但是將 不會詳述所有可根搛本專利的實際製成,而是呈現某些具 有高寅際價値、並便於討論的應用》 好浐部中决*?.4'-^0~,消贤合竹ii印狀 .現參照圓18,其說明有該MAC 68另一實施例的方塊 圖。在此實施例中,一個根搛4-3修正型(modified)Bo〇th 編碼方式之16位元乘16位元的乘法器/累加器係被說明, 其中對於此基本運算只需要C1-6。C7=Y將可用於加上一 個偏移値。此係使得製成能夠在每個週期開始時支援多項 式步驟的計算,假設該種製成在第二個管線階段具有兩個 累加器。多項式步騾需要計算Χ*Ζ+Υ,其中X與Y爲輸入 的數字而Ζ是Η1中累加器暫存器的狀態。4-3修正型 Booth編碼方式的施行以及其它類似的機構將會需要乘法 器300包含一類似於以下所論及之加法器的等效物》 現參照圖19,其說明有對於多項式計算最佳化的 MAC 68之一實施例。在此例中,所有八個小位元的乘法 65 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 經浐部中次*?準而只工消价合作私卬掣 A7 ____ _B7__ 五、發明説明({^) (Cl至C8)都被使用。在此種情況下,該J1組件可透過 多工器302來提供Z用於該計算。G1係進行用作爲乘法器 300與加法器D7可能的輸入之累加器的對齊。加法器D9 現需要控制來支援該乘積與該目標累加器的對齊》此係藉 由傅送信號通過D9中的本地進位傳播鏈而加以完成,該 些信號係作爲遮蔽進位傅播至連嫌的數位單元並且控制最 髙位數的進位傳播信號至最低單元的傳輸。此使得加法器 D9進入一迴圈的加法器單元之中,該迴圈的加法器單元可 以在數個地方被打斷。J1在回授之前已經有一個對齊且可 ,能運作其累加器所傣存的狀態之要件,此電路的製成只是 些微地加入該製成。 請注意由圖U與19所表示的電路中,存在至少兩個 累加器是極爲想要的,使得兩個多項式的計算之後可在一 個被執行時幾乎可同時間地被執行》這是因爲在乘法器中 兩個管線階段的延運之故。 加法器D1至D4係進行本地進位傳播的加法,其典型 是依據某種%餘的二進位表示法或是進位保留(carry-save) 加法器的製成。它們適合總和該些部份乘積Cl至C8成爲 四個數字。該些部份乘稹C1至C8係以一種在之後更詳細 論及的方式透過它們是如何被連接到加法器而加以位數對 齊。這些加法器以及接著在此所論及的加法器可以被看成 一行或是一鏈的加法器單元,除了明白提到的加法器之外 *此種m路將在以下被稱爲加法器鍵。應注意的是所有在 此被描述的加法器都可被做成以支援爲一種類似於明顯地 ____66 _ 本紙張^度適用中國國家標準(CNS ) A4規格(210X297公釐) — (請先閱讀背面之注f項再4寫本頁) 訂 經浐部中央榀4'-而只T,消赍合作私卬>t A7 __ _B7________ 五、發明説明(t—) 在以下被利用之更典型的2-adic或是冗餘的二進位型式之 冗餘的型式之p-adic以及模數的算術。 加法器D5至D6係分別在加法器D1,D2與D3,D4的 結果上進行本地進位傳播的加法。 在E1中的電路係當作爲使得基本的電路成爲兩個管 線階段之機器的管線暫存器。E1的記億雔電路係保存加法 器D5與D6的結果》其可能也保存圖19中的Y,Y可以 從一個匯流排直接被送到E1、或可藉由乘法器方塊300轉 換成一個不同於其輸入的型式之表示法β在某些實施例中 ,在加法器D5與D6中的邇辑最後幾餍可以被移到Ε1的 管線暂存器之輸出電路的一部份。此將被執行以平衡在第 一與第二管線階段之間的組合傅播延遲。因而,對於信號 從乘法器方塊300的入口處傅播到Ε1的管線暫存器所花费 的時間是大約等於從進入加法器D7之Ε1暫存器的輸出傳 播到Η1中的管線暫存器的傳播時間。因此,管線的週期 時間是大約爲沒有Ε1的暫存器之時間的一半。在某些應用 中,此暫存器方塊Ε1可藉由具有額外機構的外部電路而加 以讀取與寫入。此可能包括(但不限於)信號匯流排界面 以及掃描路徑相關的電路。 加法器D7與D8接收Ε1的記憶體電路之內容,該些 記億體電路包含來自前一個時脈週期之加法器D5與D6的 結果。D7與D8係在該些信號束之上進行本地進位傅播的 加法。加法器D7的結果是完整的Α與Β之乘法。此通常 以某種冗餘的二進位表示法來加以表示。 ___67_ 本紙張尺度適用t國®家榇準(CNS > A4規格(210X297公釐} <請先聞讀背面之注f項再填寫本頁)
.IT 好济部中决^^^,-^-·1·消炝合竹·衫印來 A7 ______B7_ 五、發明説明(卜彡〉 G1係將已經被產生作爲加法器D7的結果之乘稹對齊 於該累加器H1所選的內容· CH爲H1所選的內容之每個 位數選擇來自加法器D7的結果之一位數或是一個位數表 示爲’〇’,以被加在加法器1)8。01也可以支援將產生自08 的乘積改變符號而用於與H1的暫存器內容累加。假設H1 的內容係被組成Ρ個位元,並且假設加法器D7的乘法結 果係爲Q個位元,且Α的長度是R個位元而Β的長度是S 個位元•假設在大多數的數値系統中,Q>=R+S且P>=Q是 合理的。若P>=Q+S,則G1可被用來將加法器D7的結果 對齊至位數S至Q+Max(R,S),因而讓倍(或是多)精度的 乘法在此單元之內有效率地執行。此提供一個顯著的優黏 ,讓多精度的整數算術運算以一個具有遠少於一般對於要 被執行的整個運算所需的邏輯單元之電路來加以執行《在 與兩個管線階段架構的結合之下,此使得倍精度的乘法之 產生與具有大槪多一半的邏輯閘數目之單一管線階段的方 式大約一樣快。 在圖17與18中,加法器D9係如同在加法器D1至 D7之中一般地是由本地進位傅播加法器單元所構成。其係 將該加法器D7對齊過的結果加到H1所選出的內容以提供 信號束至H1用以儲存作爲H1中的一個記憶髖組件之新內 容》在圖19中,加法器D9係由一迴圈的本地進位傳播加 法器單元所構成,其可在數個地方的其中之一被打斷以進 行該乘積與累加器的對齊。 HI係包含一或多個被提供時脈的記憶體組件(以下稱 (婧先閱讀背面之注f項再填寫本頁) 訂 本紙張尺度適扣中困國家榇準(CNS ) A4规格(210X297公釐) A7 B7 五、發明説明(“)
做爲暫存器),其係當作暂時的儎存累加器用以累加來自 加法器D9的乘法。在說明了乘法器方塊300確實的本質 之下,G1與每個H1的暫存器中的位數數目、以及此霣路 之一特定的製成之效能要求、內含在H1中的暂存器最佳 數目將會變化》在某些應用中,此暫存器方塊H1可藉由 具有額外機構的外部電路而加以讀取與寫入。此可能包括 (但不限於)信號匯流排界面以及掃描路徑相閬的電路。 訂 若H1有大於一個的暂存器時,係選擇該些暫存器 的哪幾個將會被輸出到外部電路。J1也選擇該些暫存器的 哪幾個是要被用於回授至圓1與2中的加法器D9以及圖 19中的加法器D8。J1係選擇Η1所選出的暫存器之哪些部 份將會被傳送,假設其中暫存器係比將要進入之接收的匯 流排或是進位傳播加法器要來的長。若此電路之製成的內 部表示法並非是一種標準的表示法時,則將被傳送到外部 電路之信號束係被J1轉換成爲一種標準的表示法,其然後 可被進位傅播加法器所轉換成爲相關的標準算術表示法。 在延伸精度的算術是必要之實施例中,J1可以被用來“向 下移動更多的有效位元”並且插入’〇’到空出的最高有效位 元。在需要累加器的內容從來自加法器D7產生之乘稹減 去的實施例中,J1也將會執行將所選出的暫存器內容改變 符號用以傅遞至圖1與2中的加法器D9之輸入以及圖19 中的加法器D8。 此架構之實施例係支援髙速、多精度的運算,此在典 型的整數或是定點算術電路中是不可能的。多精度的運算 69 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ297公釐) A7 £7_ 五、發明说明(ky) 執行係降低產出置,但卻保存了結果之確實性。逭些在於 任何同時達成該產出量以及根據此方塊圖的電路大小是不 可能的。此架構之實施例可用遠少於先前的方法之邏輯電 路來支援標準的單精度浮黏假數的乘法。此架構之實施例 似乎是支援小>adic假數乘法唯一的電路。作者係相信遺 是此種浮點表示法的首先揭示。此架構之寅施例提供了一 種用最少的邏辑電路之用於做出延伸精度浮點運算的主要 機構6此架構之實施例也提供有效率的高速模數算術的計 算器之施行。 根搛圖Π加以做成8乘N的乘法器_累加器之基本的 乘法器 在此討論中,A0代表數字A的最低有效位數。A的位 數係以重要度遞減的順序被表示爲 AfAeAdAc,AbAaA9A8,A7A6A5A4,A3A2AlA0〇 B 被表示爲 一個由B7B6B5B4,B3B2B1B0代表之8位數的數字。 乘法器300被一信號束所控制。—個被稱做爲 Ul.Asign的控制信號係決定A運算元被當作一個帶有符號 或是不帶有符號的整數。一個被稱做爲Ul.Bsign的第二控 制信號係決定B運算元被當作一個帶有符號或是不帶有符 號的整數β四個不同的一位數乘以一位數的乘法係在用於 加法器D1至D4的C1至C8位數部份的產生中加以執行。 令Αχ代表Α的一個位數,而By代表Β的一個位數。運算 AxuBy永逮是位數Αχ與位數By之不帶有符號的乘法》當 ---------------------訂------^^—vi (請先閲讀背面之注$項再填寫本頁) 本紙張尺度適用中國國家梂车(CNS } A4規格(210X297公釐) A7 _ B7_ 五、發明说明(1^)
Ul.Asign指出A運算元是不帶有符號時,運算AxsBy是 Αχ與By之不帶有符猇的乘法•當Ul.Asign指出A運算元 是帶有符號的整數時,運算AxsBy是帶有符號的乘法。當 Ul.Bsign指出B運算元是不帶有符號時,運算BysAx是 Αχ與By之不帶有符號的乘法。當Ul.Bsign指出B運算竞 是帶有符號的整數時,運算BysAx是帶有符號的乘法。當 Ul.Asign與Ul.Bsign都指出是不帶有符號的整數運算元時 ,運算AxSBy是不帶有符號的乘法•運算AxSBy係有關於 A與B的最高有效位元之乘法。此運算是由指明該些運算 元分別爲帶有符號或是不帶有符號的控制所決定。 以下的表9係說明對於位數0至23之C1-C8 : ;__—_71 本紙張尺度適汛中國國家梯率(CNS ) Α4規格(210Χ297公釐) ---------V------1Τ------^9 (請先閲讀背面之注$項再填筠本頁) A7B7 五、發明说明(7 )
Ci C2 a C4 C3 C6 C7 CS 位《k 0 0 0 0 0 0 0 0 23 0 0 0 0 0 0 0 AISB7 22 0 0 0 0 0 0 AfiB6 A«UB7 21 0 0 0 0 0 A&B5 AeuB6 AduB7 20 0 0 0 0 AfiB4 AeuB5 AdaB6 AcuB7 19 0 0 0 A6B3 A«uB4 ΑΛΒ5 AcaB6 AbuB7 18 0 0 A£kB2 AmB3 AdoB4 AcuB5 AboB6 AwB7 I7 0 AfiBl AeuB2 AduB3 AcuB4 AbaB5 AnB6 A9UB7 16 AfiBO AraBl AduB2 AcnB3 AI»B4 AanB5 A9uB6 A8uB7 13 AmBO AduBl AaaB2 AbuB3 AauB4 A9uB3 A8uB6 A7uB7 14 AduBO AcuBl AbaB2 AauB3 A9uB4 AauB5 A7UB6 A6iiB7 13 AcnBO AbaBl AmaBt A9uB3 AftuB4 A7ttB5 A6uB6 A5uB7 12 AboBO AmBI A9uB2 A9uB3 A7kiB4 A6oB5 A5nB6 MuB7 ll AnfiO A9nBl A8nB2 A7iiB3 ASviBA A5uB5 A4oB6 A3iiB7 10 A9«B0 ASoBl A7uB2 A6oB3 A5uB4 A4UB3 A3uB6 A2UB7 9 ASoBO ATnBl A6aB2 A3uB3 A4uB4 A3uE3 Α2Φ6 AluB7 8 A7^iB0 AtiUBl A3aB2 A4uB3 A3uB4 A2uB5 AlaB6 AO〇B7 7 AtfoBO A5oBl A4«B2 A3oB3 A2oB4 AluB5 AO〇B6 0 6 A5UB0 A4uBl A3uB2 A2aB3 AIoB4 A0uB2 0 0 3 A4uB0 A3«Bl A2uB2 AluB3 A0iiB4 0 0 0 4 A3uB0 A2uBl AluB2 0 0 0 0 3 A2uB0 AloBl A(W2 0 0 0 0 0 2 AluBO AOiAl 0 0 0 0 0 0 l AOuBO 0 0 0 0 0 0 0 0 (請先閲讀背面之注$項再填寫本頁) 訂 -線^ 加法器D1至D7之討論 加法器D1至D4包含18個位數單元用於加法。加法 器D5與D6包含21個位數單元用於加法。加法器D7包含 25個位數單元用於加法。每個這些加法器都包含比數字的 72 本紙張尺度適州中國國家標準(CNS ) A4说格(210X297公釐) A7 B7 五、發明说明(ρ) 位數多一個單元,此並沒有輸入。D8,G1,H1與J1的施行 係達成各種的算術需求。 1位元的小位元乘法器之效能評估 _ 表10係說明在根據圖17之N=16之下,能力對於大 小之比較。 ΛΜ Accii7B 9tWt 元 EHH1 位 元 mms 柬之撕 mm下 期 -mm wm s HR#存 1 棚 Mni8«16 40 2 172 120 2 1 IU 80 容許2**次 mti 3 2 236 80 容rp2*次 财 MdI8*16 48 3 180 m 2 1 12S 96 容If 2**次 伽 雜2 Mid 16*16 3 2 256 96 撕2'*次 ΙΑύ 16*24 4 3 394 96 咨許2*次 JUD Mu!8*16 56 4 188 136 2 1 228 112 赛許2«次 IUD mn.3 Mttl16*16 3 2 256 112 和Τί4次 JUD Mul 24*16 4 3 384 112 撕2W次 JUD ΜβΙ32·1« 3 4 376 112 赛許2*次 用於以下的效能評估表之行的定義 73 紙張尺度適用中阐國家梂準(CNS ) A4規格(210X297公釐) (婧先《讀背面之注f項再填寫本頁) 訂 0. 好米部中次"-ίν·而h-T17i於含竹"印繁 A7 ________Β7__ 五'發明説明(7/) “運算”係描述產生可被累加的確實結果之整數乘法 的一種型式。 “Acc位元”係表示該累加器被做成可保存以標準的 整數算術之等效的位元數。 “對齊槽”係表示所有圖中的G1以及圖3中的加^ 器D7,D8與D9之製成。有關於每種製成的特定細節將在 有關於每個於**說明”行中被參考的電路之備註之中加以 討論。 ΊΙ口法器單元”係表示需要來製成加法器的加法器單 元數目,該些加法器係有關於製成根搛本專利相關的方塊 圓之備註的電路。除非另有標註,加法器單元將會是兩個 輸入的單元,亦即它們執行兩個數字的總和。在不只是兩 個输入且有三個輸入的加法器單元被包含其中的情形下, 所使用的表示法將爲“a,b”,其中a代表兩個輸入的加法 器單元之數字,而b代表三個輸入的加法器單元之數字。 “E1+H1位元”係表示假設基數(radix)2之冗餘二進位 算術表示法之下*建構此電路所需的記憶體儲存之位元數 〇 “開始到結束之週期”係表示從運算的開始到所有的 活動都完成之間時脈週期的數目。 “到開始下一個之週期”係表示從運算的開始到下一 個運算可以開始之間時脈週期的數目。 “一般加法器單元數目”係代表一種直接以不具有中 間管線暫存器或是對齊電路的累加之最終加法器鏈施行運 ---------Q------^—----- (請先《讀背面之注意事項再填寫本K ) 本紙張尺度通州中國國家標準(CNS ) A4规格(210X297公釐) A7 B7 五、發明说明(f") <請先《讀背面之注意事項再填寫本頁 算的電路。越大的乘法將需要越大的加法器樹。此行的數 字將會根據使用類似於如乘法器300的適當的討論中所述 及的小位元乘法器。 **一般暫存器位元數目”係表示一般的設計保存在一 . · 般的應用中只有一個累加器之基數2之冗餘二進位表示法 所需的記憶髏位元數。 “說明”係包含一段有關於在可能溢位之前此電路所 能執行的最小數目的運算之敘述。 Γ 此說明的項目也可以包含參考到“備註”,其將詳細 描述正被檢視的乘法器-累加器電路之製作細節。備註所在 的表中之列係描述所執行的基本乘法運算、累加器的大小 、對齊槽的數目。該備註將詳細補充應該爲對齊槽項目之 間的加權係數與任何其它適切的細節、比較以及任何其它 特定的註解。 備註: 在此新電路中的對齊係與將乘積乘上1與28=256相同 。其係功能上等效於一個16乘16位元的乘法器,接著有 本地進位傳播加法器用於累加。比起172個加法器單元以 及120位元的記憶體’此等效電路將需要256個加法器單 元以及80位元的累加器記憶體。其時脈週期時間大約是標 準的等效裝置之一半並且具有與標準的作法相同的產出量 〇 在此新電路中的對齊係與將乘積乘上1,28=256以及 216=2562相同。其係功能上等效於一個16乘24位元的乘
7S 本紙張尺度適用中國國家標準(CNS ) A4規格(210x297公羞) A7 B7 五、發明説明(/j3) 法器,接著有本地進位傳播加法器用於累加。比起180個 加法器單元以及128位元的記憶髏,此等效電路將需要 384個加法器單元以及96位元的累加器記憶雔。此新的電 路將需要大約一半的標準功能等效電路之邏辑。其時脈週 期時間大約是標準的等效裝置之一半。標準的作法之產tij 量將會是其每個時脈週期爲一次(或者是此新電路爲每兩 個時脈週期),然而16乘24位元的乘法效能在此新電路 中可能每三個週期而被執行。然而,此新電路將會比8乘 上16位元的乘法快兩倍,而將具有與16乘16位元的乘法 相同的效能。 在此新電路中的對齊係與將乘稹乘上 1,28=256,216=2562以及224=2563相同。其係功能上等效於 一個16乘32位元的乘法器,接著有本地進位傳播加法器 用於累加。比起188個加法器單元以及136位元的記憶雔 ,此等效電路將需要576個加法器單元以及112位元的累 加器記憶體。此新的電路將需要大約三分之一的標準功能 等效竜路之邏輯。其時脈週期時間大約是標準的等效裝置 之一半》標準的作法對於之產出量將會是其每個時脈週期 爲一次(或者是此新電路爲每兩個時脈週期),然而16乘 24位元的乘法效能在此新電路中可能每四個週期而被執行 »然而’此新電路將會比8乘上16位元的乘法快兩倍,而 將具有與16乘16位元的乘法相同的效能,以及能夠每三 個時脈週期執行一個16乘24位元的乘法。 本紙張尺度適扪中國國家槺率(CNS ) A4ii格(210X29*7公釐) (請先W讀背面之注f項再填寫本頁} -- ,1
IA7B7 五、發明説明( 表11係說明在根搛圈17之Ν=24之下,能力對於大 小之比較。 表11 好米·部中A^^^h-T>7i价合竹.*5·印來 α» AccfSi^ 9twm m»軍 元 EHH1 位 元 mem jnzm »R»TF -mtm 期 -mam «w元ft s 存 9mtk s 獅 Mul8*24 4« 3 236 160 3 1 192 80 撕21‘次 JMD «Si Itiol 16*24 4 2 3S4 96 容Tf2*次 USD Mol 24*24 6 3 576 96 和T1次 aw Mol 8*24 64 4 244 184 3 1 192 129 撕2*次 JUD «C2 Mill 16*24 4 2 129 128 容許2J•次 «ft! Mol 24^24 5 3 576 128 和nw次 mm 刚32*24 65 43 1098 128 容許2*次 JUD Mol 8*24 64 64 244 312 3 1 192 236 «% 瓶3 铷 16*24 4 2 129 256 容TF浐次 jUD Mol 24*24 5 3 376 256 窨杆俨次 JUD Mul 32*24 6 4 1098 256 容許2*次 JUD Rnul 24*24 5 3 376 256 撕柳 細JM0 ---------ο! (請先閲讀背面之注^^項再填寫本頁) -^ΟΓ. 77_本紙張尺度適/1]中國國家標準(CNS ) Α4規格(210Χ297公釐) A7 B7 五、發明説明(於) 備註·’ 在此電路中的對齊係與將乘積乘上1,28=256以及 21<5=2562相同。其係功能上等效於一個24乘24位元的乘 法器,接著有本地進位傅播加法器用於累加。比起236個 加法器單元以及160位元的記憶體,此等效電路將需^ 576個加法器單元以及96位元的累加器記憶體。此新的電 路將需要大約一半的標準功能等效電路之邏輯。其時脈週 期時間大約是標準的等效裝置之一半。標準的作法之產出 量將會是其每個時脈週期爲一次(或者是此新電路爲每兩 個時脈週期),然而24乘24位元的乘法效能在此新電路 中可能每三個遇期而被執行。然而,此新電路將會比8乘 上24位元的乘法快兩倍*而將具有與16乘24位元的乘法 相同的效能。 在此乘法器-累加器中的對齊係與將乘積乘上 1,28=256,216=2562以及224=2563相同。其係功能上等效於 一個24乘32位元的乘法器,接著有本地進位傳播加法器 用於累加。比起244個加法器單元以及184位元的記憶體 ,此等效電路將需要1098個加法器單元以及128位元的累 加器記憶«。此乘法器-累加器將需要大約四分之一的標準 功能等效電路之邏辑。其時脈週期時間將少於標準的等效 裝鼴時脈週期時間之一半。24乘32位元的乘法之標準的 作法之產出量將會是其每個時脈週期爲一次(或者是此乘 法器-累加器爲每兩個時脈週期),然而32乘24位元的乘 法效能在此乘法器·累加器中可能每四個週期而被執行。然 (讀先聞讀背面之注意事項再填寫本頁) -訂· 本紙張尺度適/0十國國家標率(CNS M4規格(210X297公釐) 經浐部中夾jl^^M-T消於合竹"印y A7 _______B7_ 五、發明说明(7士) 而,此乘法器·累加器將會比8乘上24位元的乘法快兩倍 、將具有與16乘24位元的乘法相同的效能、以及能夠每 三個時脈週期執行一個24乘24位元的乘法。 這是乘法器-累加器中的第一個能夠執行單精度假數乘 9 法。其係被指明爲支援一種延伸的科學表示法,其係強迫 製成雙累加器。乘積的對齊係爲到任意的位元邊界,因而 2的任何次方之權重都必須被支援。在該累加器或是部份 乘積電路中“被去掉的位元”之截斷係需要G1能夠遮蔽 (mask)位數。有關於2*24,16*24,24*24以及32*24算術的 整數效能係與先前備註中所描述的相同。此電路也可以每 5個時脈週期來執行40*24的算術,此可運用在具有超過 —千個複數點的FFT。 利用3-2B〇〇th編碼之16乘N的乘法器-累加器 (N>=16)之乘法器 在乘法器方塊300中改良的3-2位元的Booth乘法編 碼方法 介於該種8乘N的製成與本製成間的主要差別係在於 乘法器方塊300 在本製成中,一種版本的Booth演算法 係被利用以將所需要的加法運算數目減到最少。此Booth 演算法係根據該算術的恆等式:2^+2^+2+1=2^1。此恆 等式的效果係爲一個數乘上一串的1之乘法可藉由一個位 移的運算、一個加法以及一個減法而被執行β 以下的演算法係根據檢査3個連嫌的位元、判定要執 ----------Q------IT------oi (請先閱讀背面之注意事項再填寫本頁) 本紙張尺度適扣中圃國家梯率(CNS > Α4規格(210X297公釐) A7 ______B7_ 五、發明説明行加法或是減法、然後在2個位元位置上處理並重複此流 程。此係爲3·2位元的編碼方式。有一個位元重叠,一次 檢査中的最低有效位元係爲上一次檢査中的最高有效位元 3-2位元的Booth乘法編碼方式之表12 : _ 表12 BTW1 細 ΒΓί·!1 ΜΛ 獅 0 0 0 em:奉 0 ❶ 1 ♦A »»£8[拉1醉畢 0 1 0 +A BCiMW-Kl 0 1 1 +2A «束在BtW]之1的军· 1 0 0 -2A BWMEBCW]之 1 醉· 1 0 1 -A 枯*在刚之1的字串 aujw&tt 即η]之 1 鹏· 1 1 0 •A 籣始任BH之1辟摩 1 1 1 -0 «μβ所有的元z 1的宇¥ (請先聞讀背面之注f項再填寫本頁) 訂 對於位數0至30之C1-C8的表13 : ___80 本紙張尺度適用中國國家樣率(CNS > A4规格(2丨0X297公釐)
7 7 A B 五、發明説明(yg)表13 經浐部中次^^-^h η消於合竹"卬絮 C1 C2 C3 C4 C3 C6 C7 C8 位ftlc 0 0 0 0 0 0 0 ABe 30 0 0 0 0 0 0 0 AfiBe 29 0 0 0 0 0 0 ABc AeoBe 28 * 0 0 0 0 0 0 AfiiBc AduB« 27 0 0 0 0 0 ABa AeuBc AcuBc 26 0 0 0 0 0 Α&Βλ AduBc AbuB· 23 0 0 0 0 AB8 AeuBa AcuBc AauBe 24 0 0 0 0 A&BS AdaB» AbviBc A9uBe 23 0 0 0 AB6 AeoB8 AeuBa AanBc A8uBe 22 0 0 0 A&B6 AduB8 AbuBa A9uBc A7nB« 21 0 0 AB4 AcuB6 AcuB8 AauB· ASuBc A6uBe 20 0 0 A&B4 AduB6 AbuB8 A9uBa A7^Bc A5uBe 19 0 AB2 AeuB4 AcuB6 AmaBS AteBa AtiuBc A4uBe 18 0 A6B2 AduB4 AbuB6 A9uB8 AToBft A5uBc A3uBe 17 ΑΒ0 Ac«iB2 AaiB4 AmB6 A8iiB8 A6nBa A4uBc A2uBe 16 AfiBO AduB2 AbuB4 A9iA6 ATuBS A3uBa A3uBc AloBe 15 AcoBO AcuB2 AwB4 A8uB6 A6ttB8 A4uBa A2uBc AOuBe 14 AduBO AbuB2 A9uB4 A7uB6 A5nB9 A3uBa AluBc 0 13 AcuBO AmB2 A80B4 A6nB6 A4uB8 A2uBa AOuBc 0 12 AbuBO A9oB2 A7aB4 A3uB6 A3uB8 AluB« 0 0 11 AmsBO ABaB2 A6oB4 A4uB6 A2uB8 AOnBa 0 0 10 A9uB0 A7uB2 A5uB4 A3uB6 AluB8 0 0 0 9 A8uB0 A6uB2 A4«B4 A2uB6 AOuBS 0 0 0 8 A7UB0 A3uB2 A3uB4 AluB6 0 0 0 0 7 A6uB0 A4uB2 A2iA4 AO0B6 0 0 0 0 6 A3uB0 A3uB2 A1UB4 0 0 0 0 0 5 A4«B0 A2oB2 A0uB4 0 0 0 0 0 4 A3uB0 A1UB2 0 0 0 0 0 0 3 A2uB0 A0uB2 0 0 0 0 0 0 2 AluBO 0 0 0 0 0 0 0 1 AOuBO 0 0 0 0 0 0 0 0 (請先閲讀背面之注f項再填寫本頁} .0. 訂 6.. 81 本紙張尺度適用中國國家榇準(CNS ) Α4規格(210X297公釐) A7 B7 發明说明 (?;) 用以達成各種要求的製成參數係被歸納在以下的表14 之中,其係說明以(3,2)B〇〇th編碼器小位元乘法器單元之 效能評估,其係顯示在以下根據圖1的能力對大小比較 (N=16)之表中。在此表中的一般加法器單元數目是根據利 用類似表12中的3-2位元改良的Booth編碼方式。 sn Acc位元 sme mmm 元 HI棚位 元 inzm ΗΚϋ 期 W7C«t 百 HR*存 wsem 目 m Mdl I6M6 56 2 205 14S 2 1 128 112 研θ次 mo «mi Mol 16*32 3 2 256 12S 容ff2*次 Μύα Mul 16*16 64 3 213 156 2 1 12S m iFTfi® 次 JK8D 2 Kittl 16*32 3 2 256 128 MW Mttt3Z*32 6 4 512 128 WM次 MM . Mul 16*16 72 4 221 164 3 1 128 144 JUD 細3 Mnll6*32 4 2 156 144 Wf#次 累加 - Mol 32*32 6 4 512 144 erp2* 次 jm _ Mil 32*4$ β 6 768 144 次 m 尺度適中國國家棣率(CNS ) A4規格(2丨Ox297公釐) ---------Q------1T------OI (請先閱讀背面之注f項再填寫本頁) 82 A7 B7 五、發明説明(f) 備註: (請先聞讀背面之注f項再填寫本頁) 在此乘法器·累加器中的對齊係與將乘稹乘上1以及 216=65536相同。其係功能上等效於一個16乘32位元的乘 法器,接著有本地進位傅播加法器用於累加。比起205 P 加法器單元以及148位元的記憶體,此等效電路將裔要 256個加法器單元以及12S位元的累加器記憶體。其將具 有大約相同的邏辑電路大小。其時脈週期時間大約是標準 的等效裝置之一半,且將具有與標準的作法相同之產出童 〇 在此乘法器-累加器中的對齊係與將乘稹乘上 1,216=65536以及(216)2相同《其係功能上等效於一個32乘 32位元的乘法器,接著有本地進位傳播加法器用於累加。 比起213個加法器單元以及156位元的記憶體,此等效電 路將需要512個加法器單元以及128位元的累加器記億體 。此將大約是一半的邏輯電路大小。其時脈週期時間大約 是標準的等效裝置之一半。此將花费兩倍時間來執行一個 32乘32位元的乘法。此乘法器,累加器將會是標準的用於 16乘16位元的乘法之電路兩倍快。其將以與標準的乘法 器-累加器所能執行地一樣的速度來執行一個16乘32位元 的乘法。 對齊係與將乘積乘上1,216=65536,(216)2以及(216)3相同 。其係功能上等效於一個32乘48位元的乘法器,接著有 本地進位傳播加法器用於累加。比起221個加法器單元以 及164位元的記憶體,此等效電路將需要768個加法器單 本紙張尺度適用中圏國家梯準(CNS ) A4規格(210X297公釐)
7 7 A B 衂浐部中央«.準而=C.T消贤合竹=ίι印絮 五、發明説明(4) 元以及144位元的累加器記憶雔。此將大約是三分之一的 邏辑電路β其時脈週期時間大約是標準的等效裝置之一半 *此將花费三倍時間來執行一個32乘48位元的乘法。此 乘法器-累加器將會是標準的用於16乘16位元的乘法之寧 路兩倍快。其將以與標準的電路所能執行地一樣的速度來 執行一個16乘32位元的乘法。其將以大約標準的電路的 兩倍時間來執行一個32乘32位元的乘法。 以下的表15係說明根據圖17的能力對大小比較 (N=24)。在此表中的一般加法器單元數目是根據利用類似 表12中的3-2位元改良的Booth編碼方式。 表15 an Acc (¢7¾ mm 元 El+Hl 位 元 vmsm mzm -mzm 期 -earn 百 -*w存 g 獅 Mul 16*24 64 2 283 196 3 1 256 m Wf2w?JC HfiD «ei Mui 32*24 4 2 44$ m 次 Ka 細 16*24 88 4 303 212 3 1 280 176 撕2*次 mo mm Mul 32*24 4 2 472 176 謇許沪次 HDD Viol 16*48 5 2 463 176 撕f次 mm Μη!32·幼 6 4 76S 176 mjb 備註: 對齊係與將乘積乘上1以及2 24=(28)3相同。其係功能 本紙張尺度通扣中國围家棟率(CNS ) Α4规格(210X297公釐) ---------Q II (請先閱讀背面之注11^項再填寫本頁) 訂 -ο. A7 _ _B7__ 五、發明说明(多y) 上等效於一個32乘24位元的乘法器,接著有本地進位傅 播加法器用於累加•比起205個加法器單元以及148位元 的記憶髖*此等效電路將需要256個加法器單元以及128 位元的累加器記憶慷。其將具有大約相同的邏輯電路大小 。其時脈週期時間大約是標準的等效裝置之一半,且將具 有與標準的作法相同之產出置。 對齊係與將乘稹乘上1,224,216以及24G=216+24相同。其 係功能上等效於一個32乘48位元的乘法器,接著有本地 進位傳播加法器用於累加。比起303個加法器單元以及 212位元的記憶體,此等效電路將需要768個加法器單元 以及176位元的累加器記憶體。此將具有大約一半的邏輯 電路。其時脈週期時間比標準的等效裝置之一半略小。在 此新電路中的執行將花费四個新電路時脈週期來執行花費 •一個標準的時脈週期(或是兩個新電路時脈週期)所執行 之運算。然而,在一個時脈週期中,一個16乘24位元的 乘法可以產生,而在兩個時脈週期中一個16乘48或是一 個32乘24位元的乘法可以產生。此電路大小係爲一半, 並且對於許多重要的DSP算術運算而言均爲與具有相同能 力之標準電路一樣快、或甚至顯著地更快^ 24乘N的乘法器-累加器(尺>=24)之乘法器 改良的4-3位元的Booth乘法編碼方法之利用 此實施例與其先前者主要差別係在於乘法器方塊3〇〇 。如前一般地’一種版本的Booth演算法係被利用以將所 ________ 85_ 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公羞) (請先閱讀背面之注意事項再填寫本頁) 訂 表16 A7 B7 五、發明説明(d) 需要的加法運算數目減到最少。以下的演算法係根嫌檢査 4個連績的位元、判定要執行加法或是減法、然後在3個 位元位置上處理並重複此流程。此係爲4-3位元的編碼方 式β有一個位元重ft,一次檢査中的最低有效位元係爲亭 下一次檢査中的最高有效位元。 表16係說明改良的4-3位元Booth乘法編碼方式: Βίι+21 Bfi+11 ΒΓΠ BTi-ll am 棚 0 0 0 0 40 0 0 0 1 +A _絲細之 0 0 1 ❶ +A BBMWI-WI 0 0 1 l +2A _粧_1之1的字串 0 1 0 0 +2A 0 1 0 1 +M «Wtt BM之1的字串加上BC WMWt-951 0 1 1 0 +3A 在Βίί+l〗興B[iM之想字串<-3> 0 1 1 1 ΜΑ ®柬在之1的字串 I 0 0 0 -4Α 明始在B[i+2]之1的字· 1 0 0 1 ·3Α 之1的字串加上β束在BP]之 1的字串 1 0 1 0 ·3Α 两始在之1的字串mtBPM唯一W 1 1 0 1 1 ·2Α 明洽在Bli+2]之1的字•加上枯柬在B[i+1] 之1的字串 1 1 0 0 -2Α RttMEBIi+Ι]之1的字串 1 1 0 1 •Α 脚电在ΒΠ+1]之1的字串加上枯束在BW之 1的字摩 I 1 ζ 0 •Α 明始ίΒΗ之1的字* 1 1 1 1 •0 Μί&««所細位紋1的字串 本紙張尺度適州中囤阁家樣準(CNS > A4規格(210X297公釐) -- (請先閲讀背面之注$項再填寫本I ) b A7 _B7 五、發明说明(4) 較佳倍精度的浮點假數乘法 一種根據24乘32位元的乘法之製成將能夠每兩個週 期執行一個標準的56位元精度的浮點假數乘法。此56位 元的長度係來自於IEEE標準的倍精度的浮點數之固有的要 * 求,其需要一個64-10位元的假數,加上兩個位了中間捨 入準確度之防護位元。此種製成將只需要兩個對齊槽。一 種16乘24位元的乘法之製成將能夠支援56位元的浮點假 數乘法,但極可能要花费更多的時脈週期來完成。將需要 更多的對齊槽。然而,此種製成的邏辑電路將遠比專用的 乘法器要少。對於P=3或7的|)4<1化的製成將很容易以此 種製成來加以最佳化。 .對於位數0至47之C1-C8的表17: (請先閲讀背面之注意事項再填寫本頁) 訂 表17 經"·部中 A^4,-^hJ"·介 Α"竹彩卬絮 C1 C2 C3 C4 C3 C6 C7 C8 位激让 0 0 0 0 0 0 0 AB13 47 0 0 0 0 0 0 0 A19oB15 46 0 0 0 0 0 0 0 A18UB13 43 0 0 0 0 0 0 AB12 Α17^Β15 44 ❶ 0 0 0 0 0 A19uB12 Al6uBX5 43 0 0 0 0 0 0 A18uB12 A15uB15 42 0 0 0 0 0 ABf A17ikB12 A141IB15 41 0 0 0 0 0 A19uBf A16uB12 A13uB15 40 0 0 0 0 0 A18uBf A15uB12 A12nB15 39 0 0 0 0 ABc AlTUBf A14uB12 All 必 13 38 0 0 0 0 A19dBc A16iiBf A13uB12 A10uB15 37 0 0 0 0 A18uBc AlSuBf A12i£12 AfiBt5 36 0 0 0 AB9 AlTuBc A14uBf AlliiBU AWB15 35 0 0 0 A19UB9 A16uDc A13uBf A10dB12 AdoB13 34 _ __87 本紙張尺度適州中國國家棣準(CNS ) A4規格(210X297公釐)
五、發明説明(9<) 紂浐部中夾|?.^·而h.t消价合竹·χ印欠 0 0 0 A18uB9 A15uBc A&B12 AcuB13 33 0 0 AB6 Al7aB9 AUiiBc AllaBf ΑμιΒΠ AbuBlS 32 0 0 Al9vB6 A16bB9 A13aBc AlOnBf ΑΑΛ1Ζ AnB13 31 0 0 A18UB6 A13uB9 AlZaBc Afifif AcaB12 A9〇B15 30 0 AB3 A17nB6 A14«B9 AllaDc AcaBf AboB12 A8aB15 29 0 A)9nB3 A16uB6 A13oB9 AlOiiBc AdnBf AwB12 AToBIS 28 0 AlteB3 A15uB6 A12uB9 AS^e AcuBf A9iiB12 A6uB15 27 ΑΒ0 A17UB3 A14v&6 AUu&9 AeidBc AbOBf ASUB12 A3vBX5 26 A19sB0 A1MB3 A13oB6 A10dB9 AcUDc AwBf A7uB12 A4uB15 25 Α1ΜΒ0 A15aB3 A12iiD6 AfitB9 AcuBc A9aBf A6aB12 A3i£15 24 A17sB0 A14UB3 AUuB6 AmB9 AbuBc A8kiBf A5aB12 A2uB” 23 A16A0 A13y£3 A10UB6 AduB9 AmBc ΑΤύΒί A4UB12 AluB15 22 A15sB0 A12nB3 A&B6 AcaB9 A9aDc A6aBf A3uB12 A0aB15 21 A14>B0 ΑΠ1ΙΒ3 AenB6 AbuB9 AftiBc A5uBf A2uB12 0 20 A13sB0 A10〇B3 AdnB6 Am^9 A7Wc A4uBf AIaB12 0 19 A12>B0 AfiB3 AcdB6 A9ttB9 A6uBc A3uBf A0uB12 0 IS AUsBO Am£B3 Abo&6 ASeB9 A5uBc A2oBf 0 0 17 Ai<taB0 AduB3 A7nB9 A4uBc AluBf 0 0 16 AfiBO AcvB3 A9oB6 A她9 A3uBc AOaBf 0 0 15 AcnBO AMB3 A8uB« A3aB9 A2«iBc 0 0 0 14 AdnBO A«B3 A7i£6 A4uB9 AluBc 0 0 0 13 AcuBO A9uB3 A6uB6 A3uB9 AOuBc 0 0 0 n AbnBO A8dB3 A3uB6 A2aB9 0 0 0 0 11 AmBO A7taB3 A4oB6 AluB9 0 0 0 0 10 A9dB0 Atia£3 A3UB6 A0aB9 0 0 0 0 9 A8UB0 A5uB3 A2idB6 0 0 0 0 0 8 A7ifi0 A4uB3 AlttB6 0 0 0 0 0 7 MuBO A3uB3 A〇aB6 0 0 0 0 0 6 A5tiB0 A2eB3 0 0 0 0 0 0 5 A4〇BO AluB3 0 0 0 0 0 0 4 A3uB0 A0nB3 0 0 0 0 0 0 3 A2uB0 0 0 0 0 0 0 0 2 AluBO 0 0 0 0 0 0 0 1 AOuBO 0 0 0 0 0 0 0 0 ---------------訂------^or{請先聞讀背面之注意事項再填窍本頁) 88 本紙張尺度速W中國圃家標率(CNS ) Α4規格(210X297公釐) B7 五、發明说明(¥) \rntf. ---------QII {請先閲讀背面之注f項再填寫本頁) 以下的表18係說明根撺圖Π的能力對大小比較 (N=24)之效能評估。在此表中的一般加法器單元數目是根 據一個利甩4-3位元改良的Booth編碼方式之乘法器設計 表18
Acc赋 stmt 元 E14«| 位 元 xzm iOWTF -mzm 期 -mm WlTCft 目 -tarn 9mm s m Mul 24*24 56 1 272 244 3 1 272 112 容次 Mm umi Mnl 24*24 80 2 296 292 3 1 296 160 容許2*次 MbI 24*48 4 2 312 160 «Τί* 次 HDD Mill 24*24 64 64 280 260 3 1 576 25« 撕2»次 Mnl 24*24 33 12 236 mm 許2*次累 加 Mul24n4 48 16 264 260 3 1 376 19Z 欲Μ次 xunm£4 FMul 24*24 3 1 192 mm ?WR2D 備註: 此電路主要的優點係爲在相同的時間內其執行了兩倍 於標準的製成之多的乘法·累加。由於在E1電路中的記憶 體位元之緣故,其多少係較大。 在此種新電路中的對齊係與將乘積乘上1以及 224=(28)3相同。其係功能上等效於一個24乘48位元的乘 本紙張尺度適Λ]中國國家標準(CNS ) A4規格(210X297公釐〉 A7 B7 五、發明说明(巧) 〜 法器,接著有本地進位傅播加法器用於累加。比起296 jg 加法器¥元以及292位元的記憶髖,此等效電路將需要 512個加法器單元以及160位元的累加器記憶體。其將具 有大約60%的邏輯電路。其時脈遇期時間大約是標準的等 • 效裝置之一半。此種新電路將具有與24乘48位元的乘法 之標準的作法相同之產出置,但對於24乘24位元的乘法 則將以兩倍快地執行。 此電路係能夠執行單精度的假數乘法。其係被指明爲 支援一種延伸的科學表示法,其係強迫製成雙累加器。乘 稹的對齊係爲到任意的位元邊界,因而2的每一個次方之 權重都必須被支援。在該累加器或是部份乘積電路中“被 去掉的位元”之截断係需要G1能夠遮蔽位數。整數的效能 係與先前的備註中所描述的相同。請注意的是本乘法器-累 加器每個時脈週期可支援一個新的單精度的浮點乘法·累加 〇 此爲本專利中所論及的第一個電路能夠支援p-adic浮 點,P=7。由於對齊係在p-位數的邊界,一個48位元(係 爲16個P-位數)的累加器只需要16個對齊槽,使得其對 齊機構之製成較不吃力。在此所利用的加法器單元係爲P-adic加法器軍元,其係假設工作在一個冗餘的p-位數表示 法之三個位元之每個位元上。這些加法器單元大槪對於一 個位數之內的每個位元爲不相同的,但在此討論中將被當 作具有相同的整體複雜度。此電路的主要優點係爲其效能 爲標準的製成之效能的兩倍。 本紙張尺度適用中囷困家標準(CNS ) A4規格(210X297公釐) ----------Q|通 f請先開讀背面之注f項再填寫本頁) 訂 MM.部中央i?:si->CJh-T消 Φ;合竹;5-印妒 A7 B7 五、發明说明(0 ) 圖18中利用4-3B〇〇th編碼方式的16乘N之乘法器 表19係說明用於乘法器300之係數的產生: 表19 M浐部中爽irsi-而h-τ消於合竹ii卬ΐ! C1 C2 C3 C4 CS C6 C7 C8 位ftfc 0 0 0 0 0 ABf Zlf 0 31 0 0 0 0 0 AfiBf Zle 0 30 0 0 0 0 0 AcdBf Zld 0 29 0 0 0 0 ABc AdtiBf Zlc 0 28 0 0 0 0 AfiBc AciiBf Zlb 0 27 0 0 0 0 AeuBc AboBf Zla 0 26 0 0 0 AB9 AduBc AauBf Z19 0 25 0 0 0 A&B9 AcuBc A9uBf Z18 0 24 0 0 0 AeuB9 AlwBc A8uBf ZX7 0 23 0 0 AB6 AduB9 AadBc A7uBf Z16 0 22 0 0 A&B6 AcaB9 A9uBc A6dBf Z13 0 21 0 0 AeuB6 AbnB9 ASuBc A5uBf Z14 0 20 0 AB3 AduB6 AnB9 ATuBc A4uBf Z13 0 19 0 A&B3 AcuB6 A9uB9 A6uBc A3uBf Z12 0 18 0 Ac«iB3 AbaB6 A8uB9 A5uBc A2nBf Zll 0 17 ΑΒΟ AduB3 AauB6 A7iiB9 A4uBc AluBf Z10 0 U AfiBO AcuB3 A9uB6 A6uB9 A3uBc AOuBf 2f 0 15 AcuBO AbuB3 A8uB6 A5uB9 A2uBc 0 Ze ❶ 14 AdnBO AmB3 A7uB6 A4uB9 AloBc 0 Zd 0 13 AcoBO AMB3 AtfuB6 A3oB9 AOnBc 0 Zc 0 n AfanBO A8oB3 A5uB6 A2oB9 0 0 2b 0 u AauBO A7uB3 A4«iB6 AluB9 0 0 Za 0 10 A9uB0 A6<S3 A3uB6 A0uB9 0 0 29 0 9 ASnBO A5uB3 A2uB6 0 0 0 Z8 0 8 Α7ιβ0 A4uB3 AluB6 0 0 0 27 0 7 AtioBO A3uB3 A0iiB6 0 0 0 26 0 6 A5^m A2uB3 0 0 0 0 Z5 0 5 A4ttB0 AluB3 0 0 0 0 TA 0 4 A3〇BO A0uB3 0 0 0 0 23 0 3 A2〇BO 0 0 0 0 0 72 0 Z AluBO 0 0 0 0 0 Z1 0 l AOuBO 0 0 0 0 0 ZO 0 0 (請先閲讀背面之注^^項再填寫本頁) 訂 91 本紙張尺度適用中國國家標率(CNS > Α4規格(210X297公釐) Α7 Β7 五、發明说明(β) 調整後之加法器樹的要件 檢視表19係顯示出加法器D4並不必達成一種定點多 項式步騄之施行。加法器D4與D6對於沒有支援單週期多 項式步嫌運算之施行而言爲不必要的。 多項式步驟運算之施行 定點算術多項式步騄之計算將不需要加法器D4 此假 設將會是計算的精度將會符合或是小於Ν個位元,因而在 此例子中的Ζ輸入將爲16個位元,其將被對齊至乘稹的最 高有效位元。整數算術多項式步驟之計算也將不需要加法 器1)4。主要的不同將會是在此種情況下之偏移將被假設爲 具有與乘法的結果相同之精度,因而Ζ將被假設爲32個位 元。 表20係說明Ν=16的效能對於大小》 ---------------訂------ (請先閏讀背面之注'項再填寫本耳} 本紙張尺度適/»】中國國家榇準(CNS)A4規格( 210X297公釐) A7 B7 經"—部中决ii:4,-^h-T消贽合竹·*5-印來 五、發明説明(P )
Aec^TC ftmm tumm 元 EHffl位 元 nmm nuzm iomrF -mz» 期 Hum 9m?m s HMR? miym M 獅 AAd 16*16 40 1 14S 132 t 1 19« to 撕^次· ma 備Kl Mnl 16*16 36 2 196 !4β 2 1 196 112 害詳浐次 IUMIt£2 Mnl 16*32 - 3 t 300 112 赛肝?次 ma ΚΑιΙ 16*16 64 3 220 156 2 1 220 m 謇許产次 juattes Μη! 16*32 3 2 31« 12S WP2M 次 mo Mul 32*32 5 4 600 144 和Ϊ21次 DUD Mid 16*16 88 4 270 196 2 1 270 176 容If 25•次 Mul 16*32 3 2 374 176 容杆2*次 JRffl Mul 32*32 3 4 64S 176 赛IT2W次 MUD ΜηΙ32φ4β 8 6 900 17« 容許2*次 «2D 備註: 此電路有其主要之優點爲在相同的時間之內能夠執行 兩倍於標準的製成之多的乘法-累加。 對齊的權重係與乘上1與21δ相同。此電路具有70¾ 的能夠執行相同運算的標準乘法器電路。對於16乘16位 元的乘法,其具有標準的電路之兩倍的效能,而對於16乘 93 .紙張尺度適州中«闽家標率(CNS M4規格(210X297公釐) (請先5?讀背面之注f項再填寫本頁) 訂 A7 B7 五、發明说明d 1) 32位元的乘法,其具有相同的效能 此種新電路具有1,216以及232= (216)2的權重。其具有 大約一半之標準製成的邇辑》其在本身的四個時脈週期內 執行一個32乘32位元的乘法,相較於標準的製成係花琴 兩個新電路的時脈週期。然而,其係每個時脈週期執行一 個16乘16位元的乘法,此係比標準的製成快兩倍。 此種新電路具有1,216,232= (216)2以及248= (216)3的權 重》其具有大約三分之一的標準製成之邏輯。其在本身的 6個時脈週期內執行一個32乘48位元的乘法,相較於標 準的製成係花費兩個新電路的時脈週期》然而,其係每個 時脈週期執行一個16乘16位元的乘法,此係比標準的製 成快兩倍。 在圖20的MAC與以上圖19的MAC的基本不同處係 爲有額外的四個數被產生於乘法器方塊300中,C9-C12。 此需要六個保存器D1-D6在其輸出。加法器D5與D6係延 伸能夠藉由超過50%的上述對照的基本乘法器電路所能達 成的乘法精度。一個32位元乘N位元的單週期乘法可在 不需D6之下而被完成。在此種製成中,D6將提供施行型 式爲X*Y+Z的多項式步騵的運算之能力,其中X與Z爲 輸入數而Υ是內含於Η1的累加器暫存器之狀態。此將以 一種類似於有關圖18與19所討論的方式加以達成。此種 製成爲了最佳的效能將會需要至少兩個累加器於Η1中。 若Ν>=32,則在具有適當的對齊槽於G1與G2之下,這些 ____94 ______ g张尺;中國國家梯準(CNS ) Α4规格(210X297公|Γ) ~ ---------— (請先閲讀背面之注$項再填寫本頁) 訂 C: A7 B7 五、發明说明 運算可支援多種精度的整數計算。此種運算係被利用於商 業的符號計算套裝軟雔中,尤其是包括Mathematica, Macsyma 以及 MAPLE V。 28乘N位元的乘法之施行在利用D6之下將足夠提供 « 支援兩週期的Χ*γ+Ζ的多項式步臃計算之偏移加法用於標 準的倍精度浮點假數乘法》 以上包含四個累加暫存器於Η1中之兩種製成中的任 —種製成均將能夠支援作用於兩個複數(complex number)之 延伸精度的浮點惲數乘法/累加,此爲FORTRAN程序環境 之一需求。在以上的討論之下,任何一種以上討論的製成 均可被建構成具有支援標準或是延伸的精度浮點之p-adic 浮點的運算。加法器鍵D7,D8與D9係以樹狀型態被設置 在加法器D1-D6的輸出上。這些加法器鏈D7,D8與D9係 分別將D1,D2,D3,D4,D5以及D6的結果當作输入。該原始 的乘法器並不包含D9。其對於在此所討論的實施例而言爲 特別的。 如同在圖Π之最初的乘法器/累加器架構中,加法器 10的_入係爲加法器D7與D8的結果,此被暫存於方塊 £1之中。加法器D11將加法器D9對齊後之結果以及H1 所選出的記憶體內容之對齊後的結果當作輸入•在此對於 基本的乘法器/累加器架構中,加法器D11將加法器D9對 齊後之結果以及H1所選出的記憶體內容之對齊後的結果 當作输入。在上一句中提及的對齊係由G1來執行。加法 器D9對齊後之結果係已通過E1,其中它們被同步地抓取 ~~-------95_ 本紙張尺度適月〗巾國國家樣準(CNS ) A4規格(210X297公釐) (讀先Μ讀背面之注意事項再填寫本頁)
,1T A7 B7 五、發明说明(0) 〇 加法器D12係接收加法器D10對齊後之結果以及加法 器D11之結果在對齊過的信號束翰入到加法器D12 之前,先對齊加法器D10之結果。其運算的結果係被送至 « 方塊H1,其中一或多個方塊H1內部的暫存器可儲存該結 果。主要的效能改進係來自於能夠在一個時脈週期內平行 地處理更多的位元。第二個效能改進係來自於能夠在第一 個運算才通過如原始的電路討論中所述的加法器樹之一半 時,即可以開始第二個運算。第三個效能改進係來自於能 .夠多精度的計算而不潁著地影響電路的大小之能力。根據 此圖已一種修改過之加法器樹的製成可以支援32乘N位 元的乘法-累加。 表21係說明支援32乘32乘法的修改過之加法器樹( N=32之效能對大小)。 · (婧先聞讀背面之注f項再填寫本頁) 本紙張尺度適扪中阐國家棣率(CNS ) A4規格(210X297公釐) A7 B7 五、發明説明(γφ) 表21
Acc (ΰτδ «Ml 元 EMH1 位 元 wmm nzm mmr -mzm. 期 »11 絲 S HR»存 I 獅 l«d 32*32 80 1 508 400 2 1 508 160 赛許作 mofiei Mnl 32*32 U2 2 572 464 2 1 572 224 容許ί*次 iuxme.1 Mnl 32*64 3 2 860 224 軎杆俨次 ma Mnl 32*32 144 3 636 32$ 2 1 636 288 Wf2* 次 XUMHE3 MbI 32*64 3 2 924 m 容貯浐次 ma Mul 64*64 3 4 1664 288 撕2«次 IUD λΑιΙ 32*32 160 4 672 360 2 1 66S 320 和Ϊ2*次 mamt* Mul 32*64 3 2 · 960 320 和T2*次 JUD Mol 64*64 3 4 1694 320 «ΙΤ2Μ 次 JK8D Kbil 64*96 8 6 2176 320 «Ϊ2* 次 JUQ ---------— {請先閱讀背面之注f項再填寫本頁) 訂 好"•部中决^4,-^u η消贤合竹·ίΛ印妒 備註: 此電路在相同的時間之內係執行兩倍於標準的製成之 多的乘法·累加。 對於此電路之對齊的權重係與乘上1與232相同。此 電路具有70¾的能夠執行相同運算的標準乘法器電路。對 於32乘32位元的乘法,其具有標準的電路之兩倍的效能 ,而對於32乘64位元的乘法,其具有相同的效能。 本紙張尺度適州中國國家樣準(CNS ) Α4現格(210X297公釐) 鲟浐部中夾ir.-^-^M.T消价合竹.衫卬^ A7 B7 五、發明説明(γ<) 此電路具有1,232以及264= (232)2的權重。其具有少於 一半之標準製成的驪辑。其在本身的四個時脈週期內執行 一個64乘64位元的乘法,相較於標準的製成係花费大約 兩個電路的時脈週期。然而,其係每個時脈週期執行一領 32乘32位元的乘法,此係比標準的製成快兩倍。 此電路具有1,232,:264= (f2)2以及公6= (232)3的權重。 其具有大約三分之一的標準製成之邏辑。其在本身的6個 時脈週期內執行一個64乘96位元的乘法,相較於標準的 製成係花费大約兩個電路的時脈週期。然而,其係每個時 脈週期執行一個32乘32位元的乘法,此係比標準的製成 快兩倍。 現參照圖21與22,其係說明有MAC 68的兩個另外 的實施例。圖21與22兩者都支援單週期、倍精度的浮點 假數乘法。它們可被製成支援具有相同程度的效能之延伸 的科學浮黏表示法以及p-adic浮點與延伸的浮點。圖21代 表一種基本的乘法器-累加器。圖22係代表一種支援最佳 的多項式計算步騍之延伸電路。 4-3改良的Booth乘法編碼之利用將被假設用於乘法器 方塊300中。小p-adiC浮點假數或是模數算術的乘法之支 援將會需要此種方式的一種變化。所產生的18個部份乘稹 係支援兩種標準的倍精度之54位元的假數欄位以及p=7的 p-adic倍精度。因而,圖21與22係代表電路能夠做54乘 54位元的檫準假數乘法以及18乘18位數(54位元)的 ____ 98__ 本紙張尺度適州中國围家標準(CNS ) A4規格(210X297公釐〉 ---------QII <請先閱讀背面之注ί項再填寫本頁) 訂 經才·部中次^.^-^,-=^消价合竹;; Α7 Β7 五、發明说明(74) p-adic假數計算。 從左邊開始,在乘法器方塊300的输出上之加法器 (D1-D6)的第一屠以及在管線暫存器E1的輸出上之加法器 (D10)的第三屠係爲三個數目之總和的加法器鏈。該第二學 第四層的加法器(D7-D9與DU)係爲兩個數目之總和的加 法器該對齊電路G1以及在D11中一個加法器環之利用係 提供所要的特定浮點表示法所需的對齊能力。在H1中的 電路可被製成來支援延伸的科學浮黏表示法以及將 FORTRAN之複數處理的執行條件最佳化。由ji執行的功 能與上述的實施例大致並無不同。 進一步參照圖21,應注意的主要項目是在乘法器方塊 300中產生超過6個圚20所能產生的數目。加法器D1至 D6係各自加總三個由信號束C1至C18所代表的數》標準 的、以及P=7之p-adic、浮黏倍精度假數乘法均需要54位 元(18個p=7之p-adic位數)之假數。此乘法器方塊300 將能夠平行地執行所有的小位元乘法。該些小位元乘法的 結果然後將被送到加法器D1至D6以產生較大的部份乘積 該加法器鏈D7,D8與D9係分別將D1,D2,D3,D4,D5以 及D6的結果當作輸入。該原始聲稱的乘法器並不包含D9 。其對於在此所討論的實施例而言爲特別的。加法器D10 也加總三個數。加法器D10的输入係爲加法器D7,D8與 D9的結果,該些結果係被暫存在方塊E1之中》加法器 D11係接收加法器D10對齊後之結果以及Η1所選出的內 ____99 __ 本紙張尺度適用中闽囷家梯率(CNS ) Α4規格(2丨0><297公釐) ---------------訂------ (請先閱讀背面之注f項再填寫本頁) 好济部中次^準而,-^-7·消赍合竹d印家 A7 ______B7_ 五、發明说明(%) 容。G1係對齊加法器D10的結果》其運算的結果係被送至 方塊H1,其中一或多個方塊H1內部的暫存器可儲存該結 果。 暫存器方塊H1與界面J1在圈22中有一額外的功能 • :被載入一個額外的數”Y”之能力,該數之後可被用來計算 B*Z+Y。主要的效能改進係來自於能夠在具有必要的累加 器來支援對於標準或是P=7的p-adic算術之延伸的科學精 度浮黏之下,於每個時脈週期內處理一個倍精度的假數乘 法。第二個效能改進係來自於能夠在第一個運算才通過如 原始的電路討論中所述的加法器樹之一半時,即可以開始 第二個運算。 以下的表22係描述能夠每個時脈週期支援延伸的科學 倍精度標準與P=7的ρ-adk之乘法-累加的具有兩個累加器 之乘法器的效能分析。 表22 ΜΛ Acc(2)tt元 nmm msm* 元 E14H1 位 元 mms 束之》η mm下 -mzm 期 «WtgK s 存 B 獅 FMul 54*54 256 128 473(3) 338(2) 932 2 1 475(3) 338(2) 512 備驻1 PFMol 18*18 216 36 473(3) 298(2) 812 2 1 475(3) 2W2) 432 mmz 備註: 此設計係製成目標是延伸的科學表示法累加器之標準 的倍精度假數乘法·累加β 此種表示法係需要具有兩倍的假數長度之雙累加器。 ____100 __ 本紙張尺度適州中國國家標半(CNS ) Α4规格(210Χ297公釐) (請先閱讀背面之注$項再填寫本頁)
.-Q *1Τ A7 B7 好來·^中"打^^·*^-τ消货合竹·衫印裏 五、發明説明(|g) 最少108個對齊槽將會是足夠的。爲了簡化設計,該些對 齊槽係最做成2的次方。此_使累加器必須保存128個位 元之冗餘二進位表示法。請注意的是複數的支援將會加倍 所需的累加器數目。此種支援爲FORTRAN所需要,並县 對於根據複數計算的數位信號處理的應用而言爲最佳的。 加法器單元的數目係被分成兩類型:加總3個數的以 及加總2個數的。該些加法器單元的數目係代表分別在加 法器D1-D11中,全部當作爲相同類型的單元,此爲一種 簡化。 介於此與標準的方式之間的主要差別係爲效能:此種 新電路在相同的時間之內係執行兩倍多的乘法。 利用以圖22爲基礎的電路係因容許多項式計算步驟的 最佳化而增進效能。此代表在這些計算中兩倍率的加快。 此種設計係製成目標是延伸的科學表示法累加器之 ρ=7的p-adic倍精度假數乘法-累加。 兩倍長度的累加器需要36個位數的儲存,此提出一個 問題:若在此新電路1中所採取的方式(對齊槽的簡化)在 此被利用,則其將需要64個對齊槽,導致64位數的累加 器。此比似乎所保證的更加準確。在此所作的假設係爲36 個對齊槽,具有兩個累加器各自需要的36個冗餘的p-adic 位數。每個冗餘的p-adic位數將被假設需要6個位元的記 憶雔。 請注意的是複數的支援將會加倍所需的累加器數目。 此種支援爲FORTRAN所需要,並且對於根據複數計算的 101____________ (請先W讀背面之注f項再填转本1) b ί
T
P 本紙張尺度適用中阐國家榇率(CNS ) A4規格(2丨0><297公釐) 經浐部中央ii.^'->rJ^:.T消费合竹ii卬>ί A7 ___________B7___ 五、發明说明(1) 數位信號處理的應用而言爲最佳的。 將進一步假設冗餘的p-adic加法器單元之每個位數係 大約等效於3個冗餘二進位加法器單元。加法器單元的數 目係被分成兩類型:加總3個數的以及加總2個數的。寧 些加法器單元的數目係代表分別在加法器D1-D11中,全 部當作爲相同類型的單元,此爲一種簡化。 由於沒有已知的等效電路,比較將是較爲假設性的: 此電路的產出係爲一個沒有Ε1管線暫存器的電路之兩倍。 利用以圓22爲基礎的電路係因容許多項式計算歩騍的 最佳化而增進效能。此代表在這些計算中兩倍率的加快。 現參照圖23,其係說明有一種具有最少的支援電路之 乘法器的方塊圖。如上所述,一乘法器-累加器方塊310係 包含一個由一乘法器312以及一累加器314所構成的乘法 器-累加器,再加上一個標示爲“L2.MUlInReg”的输入暫存 器方塊316。其來源爲此電路外部之信號束係藉由複數個 標示爲“K2:IN Mux(s)”的多工器318所選出。所選出的 信號束係同步地被儲存在標示爲“Ll.IN Reg(s)”的記憶體 方塊320之內。該乘法器-累加器方塊310的输入係由一個 標示爲“K3:Mult Mux(s)”的多工器電路322所選出。來自 方塊3220之複數個信號束然後將被送到322以及一個標示 爲 HAddMux(s)” 的方塊 324。 該K4方塊係在來自方塊320之被同步的外部來源之 信號束以及標示爲“L4:MulAcReg(s)”的累加器方塊314 ______102____ 本紙張尺度適州中國國家標準(CNS ) A4規格(210X297公釐) _________QII (請先閏禎背面之注^^項再填寫本頁) 訂 A7 B7____ 五、發明説明((#) 所選的記憶體內容之內容(或是部分內容)之間做選擇β 這些信猇束然後被同步地儎存到加法器方塊328中標示爲 “L5:AddInReg”的方塊326之記憶雔內容中。此加法器經 考量可選擇性地具有一個標示爲“L6:AddMidReg(s)”的中 間-管線的暫存器方塊。該加法器同步的結果係被儎存在標 示爲-L7:AddAccReg(s)”的方塊之記憶體組件之中。在最 簡單的製成中,以下的組件將不存在:K2,L1,K:3,K4與L6 〇 現參照圖24,其係說明有一個具有基本的加法器核心 、一埠與三埠的記憶體之乘法器-累加器的方塊圖。此電路 係容納圖23所有的功能方塊,再加上類似於一埠的記億體 44之一埠記憶體330、類似於三埠的記憶體43之三埠記億 體332、輸出暫存器多工器334以及輸出暫存器336 »此乘 法器的輸入選擇器332現係在來自輸入暫存器方塊 320(Ll(ir0-im))的信號束、記憶體讀取埠同步化的信號束 (mr0-mr2)以及輸出暫存器方塊336的同步化之結果 (L7(or0-orn))之間做選擇》在方塊 334 “K5:OutRegMux(s)” 係在加法器結果的效號束、輸入暫存器的效號束(irO-irn)以 及記憶體讀取埠同步化的信號束(mrO-nir2)做選擇之下, 此加法器的累加器L7現在當作輸出暫存器。加法器328也 可具有狀態信號,例如等於、零-檢測、溢位、進位等等, 其也可以被暫存。它們在此圖中係未被表示以簡化討論。 該一埠記憶髖方塊330係包含一個標示爲“K6:l-port Write Mux”之寫入資料多工器方塊340,此係在輸入暫存 (請先聞讀背面之注意事項再填寫本瓦) *1Τ Ρ. ϋ張尺度適/fl中國國家標準(CNS ) A4规格(210Χ2ϋ>釐) A7 B7 五、發明说明(ι〇|) 器信號束‘irO-im’以及輸出暂存器信號束‘orO-oni’之間 做選擇。所選出的信號束係被送到該記億髖的寫入埠。該 讀取埠將其信號束送到一個標示爲“L8:l-p〇rt Read Reg” 的讀取暫存器342,其係將用於其它地方的信號同步化。 此記憶髏在一個時脈週期內只能執行一次存取,讀取或是 寫入。方塊342的內容係假設爲只有當記億體電路進行讀 取時才會改變。請注意的是位址的產生以及讀取/寫入控制 信號束均在此圖中係未被表示以簡化討論。 該三埠記憶嫌方塊332係包含一個標示爲“K7:3-p〇rt Write Μιιχ”之寫入資料多工器方塊344,此係在輸入暫存 器信號束‘irO-irn’以及輸出暫存器信號束·〇Γ〇-οπι’之間 做選擇。所選出的信號束係被送到該記憶體的寫入埠。該 讀取埠將其信號束送到一個標示爲“L9:3-p〇rt Read Reg” 的讀取暫存器346·以及一個標示爲“L10:3-p〇rt Read Reg” 的讀取暫存器348,其係將用於其它地方的信號同步化。 此記憶體332在一個時脈週期內能夠執行兩次讀取以及一 次寫入存取。方塊346與349的內容係假設爲只有當記億 雔電路進行讀取時才會改變。請注意的是位址的產生以及 讀取/寫入控制信號束均在此圖中係未被表示以簡化討論。 現參照晒25,其係說明有一個具有多個加法器、以及 一埠與三埠的記億體之乘法器-累加器的方塊圖。此電路係 容納圖24所有的功能方塊,再加上一或多個額外的加法器 方塊,其各含有多個標示爲“L7:AddAcc(S)”的累加器350 »加法器的輸入多工可以被獨立控制到每個加法器方塊。 _ 104 (請先閲讀背面之注f項再填寫本頁)
T 本紙张尺度通州中國囷家標準(CNS ) A4规格(210X297公釐) 經浐部中戎«.^-*^?^.消货合竹il卬^ A7 B7_ 五、發明説明(ι〇>) 多個信號束(ac[l,0]至ac[p,k])係被假設爲產生自該些加法 器方塊•任何的加法器狀態信號,例如溢位、等於、零檢 測等等均被假設爲同步地儲存並可被用於適當的控制信號 產生電路 。這些狀態信號束、同步化電路以及控制信號產生電 路均在此圈中係未被表示以簡化討論。該乘法器多工器 322係被延伸來選擇任何來自所產生的加法器信號束 (ac[l,0]至aC[p,k])中的任一信號。該輸出暫存器多工器 334係被延伸爲來自所產生的加法器信號束(ac[l,〇]至 ac[p,k])中的任一信號。 由圖23至25所代表之電路的基本優點現將加以說明 。根據圈23的電路係包含根據以上所述的寅施例而被完成 的乘法器•累加器之優點。有關乘法器的主要系統限制係爲 有效率地提供運算元到電路。圖23的實施例並未著重此問 題。根嫌圖24與25的電路係解決圖23中對於作用在一串 (stream)資料之廣大類型的有用之演算法上系統的限制。一 串資料之特點爲資料値的序列傳輸》其具有顯著的優點在 於對資料流執行線性轉換(其包括快速傅立葉轉換(FFTs) 、有限脈衝響應(FIR)濾波器、離散餘弦轉換(DCTs))、叠 積(convolution)以及多項式計算之能力。線性轉換之特點爲 一個矩形的Μ乘Μ陣列a乘上一個向童v產生一個結果向 量。在一般情形中,每個被輸出的結果係需要a[i,j]與v[j] 對於之Μ個乘法。此結果之後可被送至一或多個 其中可被寫入任一記憶體中的输出暫存器。若矩陣對於中 ___ 105__ 本紙乐尺度適州中國國家標率(CNS ) Α4規格(210X297公釐) )r.. ---------Γ^!-----IT------cl (請先《讀背面之注意事項再填寫本頁) A7 B7 五、發明说明 心爲對稱的,因而 a[i,j]=a[i,n-j]或是 a[i,j]=-a[i,n-j],則一 個最佳的排序係包含加或減v[j]與v[n-j],接著將結果乘上 a[i,j] ’其係被累加到乘法器的累加器中。此種資料流 (dataflow)減少執行時間爲一半。請注意的是假設該矩陣a 可被儀存在該一埠的記憶髖中並且該向量v可被儲存在該 三埠的記憶體中時,此乘法器係大致永遠爲動作中。此種 系統資料流並不暫停該乘法器。事實上,當矩陣對於中心 爲對稱的,其產出效能係加倍。 ^:浐部中夾ir^-^h-T>7i於合竹^印 y {請先閲讀背面之注^^項再填寫本頁) 叠積之特點爲作用在一串資料之上。令对-n],··,x[0],…x[Il]表示中心在x[0]的一串列。叠稹係爲此總 和 c[0]*x[-n]*x[0]+...+c[n]*x[0]*x[n]。在計算完每個叠積 結果之後,該資料χ[-η]係被移去,其餘的資料係被向下移 一個單元且一件新資料變爲χ[η]»假設該X向量可被儲存 在該三埠的記億體中時,新資料單元的取得並不減緩此乘 法器。此乘法器係大致一直爲動作中。多項式計算係在乘 法器·累加器中在架構上地最佳化。假設有足夠的記憶體來 保存其係數,該些乘法器·累加器的計算可在每個時脈週期 被執行。大字元的整數乘法也有效率地以圖7與8的電路 被施行。令Α[0]至Α[η]爲一個大整數,而Β[0]至B[m]爲 第二個大整數。其乘稹係爲一個數C[0]至C[n+m],其係可 被表不爲. C[0]=A[0]*B[0]的最低有效字元 C[l]= A[1]*B[0]+A[0]*B[1]+ C[0]的第二個字元 本紙張尺度適用中國國家標率(CNS ) A4規格(210X297公釐) A7 ____B7_ 五、發明説明(\ C[n+m]=A[n]*B[m]+C[n+m]的最高有效字元 這些計算對於該乘法器也可以用花费非常少的週期而 被執行。以圓25來建構的電路係具有優黏在於邊界檢査( 其需要至少兩個加法器)可以在單一週期內被完成。並阜 對稱的矩陣線性轉換可在加減向置單元之同時,另一個加 法器正在轉換乘法器的累加器》 雖然較佳實施例已經詳細地加以描述,應了解的是各 種的改變、替換以及變化在此均可被進行而不脫離如後附 的申請專利範圃所界定的本發明之精神舆範疇。 (請先閏讀背面之注W*'項再填寫本頁) -xmt/ *1T- .cr. ________107 本紙張尺度通用中國國家樣率(CNS ) A4規格(210X297公釐)

Claims (1)

  1. 經濟部中央標隼局負工消费合作社印装 ί! C8 g7T 08η _Ρ» _^_ 六、申請專利範固 L一種可重組構之處理單元,其包括: 複數個執行單元,其各具有至少一個輸入以及至少一 個輸出,並且該些執行單元彼此平行地運作,且各具有一 個與其相關之預設的可執行演算法; 一用以選擇該複數個執行單元的至少一個輸出之一或 多個輸出的輸出選擇器,其並且提供至少一個输出到一外 部位置以及至少一條回授路徑; 一用以接收至少一個外部輸入以及該回授路徑之輸入 選擇器,其並且可實行來界接至每個該些執行單元之至少 一個輸入的其中至少一個,並更可實行來選擇性地連接一 個或全部的該至少一個外部輸入以及該回授路徑以選出該 些執行單元之至少一個輸入中的輸入; —用以儀存一個可重組構指令的可重組構暫存器; 一用以根據該可重組構指令來組構該輸出選擇器以及 該輸入選擇器以定義出在一個給定的指令週期內通過該些 執行單元之一種資料路徑組態的組態控制器。 2. 如申請專利範圃第1項之可重組構之處理單元,其 更包括一用以輸入用於下一指令週期之新的可重組構指令 進入該可重組構暫存器之輸入裝置,並且其中該組態控制 器係可實行來重新組構用於該下一指令週期之通過該些已 組構的執行單元之資料的資料路徑。 3. 如申請專利範圔第2項之可重組構之處理單元,其 更包括一用以儲存複數個可重組構指令的指令記憶髖、以 及一用以根搛一個預設的執行序列在接下來的指令週期中 本纸張尺度逋用中困國家揉率(CNS > A4规格(210X297公釐) (請先閏讀背面之注意事項再填寫本K ) 訂 ?I ?I 經濟部中央標隼局貞工消費合作社印製 D8_. 六、申請專利範困 輸出該些被儲存的可重組構指令到該可重組構暂存器之排 序器。 4. 如申請專利範圈第1項之可重組構之處理單元,其 中該些執行單元的至少一個執行單元係具有多個輸入。 5. 如申請專利範困第1項之可重組構之處理單元,其 中該些執行單元的至少一個$行單元係具有多個通遇其中 之可組構的資料路徑,其中該一執行單元的執行演算法根 嫌該指令暫存器的內容係爲可重組構的,以在其中該多個 資料路徑之間做選擇。 6. 如申請專利範圍第1項之可重組構之處理單元,其 中每個該些執行單元的運算根搛該可重組構暫存器的內容 係爲可程式化的,使得該組態控制器將同時組構通過該一 執行單元的資料路徑以及與該一執行單元有關的可執行之 演算法。 7. 如申請專利範圍第1項之可重組構之處理單元,其 中該輸入選擇器係包括在該至少一個外部輸入之上用以儲 存該外部输入的値之晳存器,該暫存器係被該組態控制器 以及該可重組構暫存器的內容所控制,使得該暫存器可被 置放入此可重組構之處理單元的已組構的資料路徑中。 8. 如申請專利範園第1項之可重組構之處理單元,其 中該輸出選擇器係包括在該至少一個外部輸出之上用以儲 存該外部輸出的値之暫存器,該暫存器係被該組態控制器 以及該可重組構暫存器的內容所控制,使得該暫存器可被 置放入此可重組構之處理單元的已組構的資料路徑中。 __2__ 本纸fltXA逍用中•困家輮率< CNS > 格(210X297公釐) (請先etft背面之注$項再稹寫本買) 訂 經濟部中央橾率局貝工消费合作社印轚 ?s ____·__D8 _ 六、申請專利範圍 9·如申請專利範晒第1項之可重組構之處理單元,其 中該些執行單元的至少一個執行單元係具有一個乘法器的 功能。 10.如申請專利範圃第1項之可重組構之處理單元,其 中該些執行單元的至少一個執行單元係包含一個加法器的 功能。 11·如申請專利範園第1項之可重組構之處理單元,其 中該些執行單元的至少一個執行單元係包含一個在一第二 回授路徑中之記憶雔,其用以將來自由該輸出選擇器所選 出的中該些執行單元的至少一個輸出中被選出的输出之資 訊寫入其中,並且自其中讀取資訊用於輸入到該||入選擇 器作爲其可選擇的輸入之其中之一,並且其中該組態控制 器係包含一用以儲存一個用於該記憶體之位址的位址暫存 器,其係根據與儲存在該可重組構暫存器的可重組構指令 一起傣存的指令而被輸出。 12. 如申請專利範圍第1項之可重組構之處理單元,其 中該些執行單元的至少一個執行單元係包含一個在一外部 來源上被規劃之可程式化的邏辑單元。 13. —種可重組構之處理系統,其包括: 複數個可重組構之處理單元,其各包含: 複數個執行單元,其各具有至少一個翰入以及至少一 個輸出,並且該些執行單元彼此平行地運作,且各具有一 個與其相關之預設的可執行演算法; 一用以選擇該複數個執行單元的至少一個輸出之一或 ___3___ 本紙張尺度逋用中國國家橾率(CNS ) A4規格(210X297公釐) <請先®讀背面之注$項再填寫本I) 訂 經濟部t央標率局貝工消费合作社印製 六、申請專利範困 多個輸出的輸出選擇器,其並且提供至少一個輸出到一外 部位置以及至少一條回授路徑; 一用以接收至少一個外部输入以及該回授路徑之輸入 選擇器,其並且可實行來界接至每個該些執行單元之至少 一個輸入的其中至少一個,並更可實行來選擇性地連接一 個或全部的該至少一個外部輸入以及該回授路徑以選出該 些執行単元之至少一個輸入中的輸入; 一用以僂存一個可重組構指令的可重組構暫存器; 一用以根據該可重組構指令來組構該输出選擇器以及 該輸入選擇器以定義出在一個給定的指令週期內通過該些 執行單元之一種資料路徑組態的組態控制器;以及 複數條用以相互連接該些输出選擇器中被選擇的输出 選擇器之輸出到該些輸入選擇器中被選擇的輸入選擇器之 通訊匯流排· 14. 如申請專利範圍第13項之處理系統,其中該複數 條通訊匯流排對於每個該些可重組構之處理單元均包含一 條互連匯流排,該相關的互連匯流排係被連接到在該相關 連的可重組構之處理單元上的輸出選擇器之至少一個外部 輸出,並且係作爲所有的可重組構之處理單元的每個輸入 選擇器之一可選擇的輸入· 15. 如申請專利範園第13項之處理系統,其更包含一 用以輸入用於下一指令週期之新的可重組構指令進入所選 出的該些可重組構之處理單元的可重組構暫存器之輸入裝 置,並且其中該組態控制器係可寅行來重新組構用於該下 _____4___ 本紙張尺度逋用中«家樑率(CNS > A4規格(21〇Χ297公羡) (請先閱Ϊ面之注$項再*寫本貫) 订
    經濟部中央橾準局貝工消费合作社印輦 六、申請專利範圍 一指令週期之通過該些已組構的執行單元之資料的資料路 徑。 16. 如申請專利範圃第15項之處理系統,其在每個該 些可重組構之處理單元均更包括一用以儲存複數個可重組 構指令的指令記憶體、以及一個在每個該些可重組構之處 理單元中用以根搛一個預設的執行序列在接下來的指令週 期中輸出該些被儲存的可重組構指令到該相關的可重組構 暫存器之排序器。 17. 如申誚專利範圍第16項之處理系統,其中該输入 裝置係包含一用以輸入指令與序列資訊而用於組構該些可 重組構之處理軍元的資料路徑之控制匯流排。 18. —種同步的乘法器·累加器,其係包括: 一第一管線階段,其包含:小位元乘法器以自算術資 料信號產生部分乘積、一耦接至該些小位元乘法器之加法 器網路以接收並總和該些部分乘積;該加法器網路係包括 本地進位傅播加法器單元,該些加法器單元被組構爲一種 多層的加法器樹以在此加法器樹的一個輸出層之處產生該 些算術資料信號的乘積;此第一管線階段也包含一具有複 數個暫存器以儲存來自該加法器樹的一層之結果用於輸入 _______ .· 到該加法器樹的下一層之第一累加器;此第一管線階段係 可在一個時脈週期期間實行來產生並總和該些部分乘積並 且來儲存在該第一累加器中的該些結果; 一第二管線階段,其包含一具有複數個暫存器以儲存 來自另一具有複數個本地進位傳播加法器單元之加法器的 5 本纸張尺度逋用中•家輮準(CNS ) A4规格(210X297公釐) (請先H讀背面之注$項再#寫本貰) 〇 六、申請專利範困 經濟部中失標準局負工消费合作社印装 結果之第二累加器;以及一個耦接至該第二累加器之界面 電路以遘擇性地存取一或多個由該第二累加器所儲存之結 果;該加法器樹的輸出層係耦接以输入該乘稹到該另一加 法器;此第二管線階段係可在一個接著該一時脈週期的時 脈週期期間實行來選擇性地輸出一或多個來自該第二累加‘ 器所儀存的結果用於從此乘法器·累加器輸出、並且/或是用 於回授至該另一加法器,並且來操作該另一加法器以及該 加法器樹的輸出層* 19. 如申請專利範圍第18項之乘法器·累加器,其中該 第一累加器係位於該加法器樹的層之間已提供從該乘法器 的输入至該第一累加器、以及從該第一累加器至該第二累 加器大致相等的信號傳播延遲。 20. 如申請專利範圈第18項之乘法器-累加器,其中該 多層的加法器樹係具有3或4層。 21. 如申請專利範圍第18項之乘法器-累加器,其中該 第二管線階段係包含對齊電路以將來自該加法器樹的算術 資料信號之乘積與該第二累加器所儲存的結果之精確度部 分對齊,並且其中該回授的輸入係藉由此對齊電路而被耦 接至該另一加法器。 22. 如申請專利範囫第18項之乘法器-累加器,其中該 接著的時脈週期係爲該一時脈週期的下一個。 23. 如申請專利範圔第18項之乘法器-累加器,其中該 加法器樹係包括一種均勻的加法器樹或是一種k叉的加法 器樹。 {請先閱讀背面之注$項再球寫本頁) 本紙張尺度逋用中Η困家梯率(CNS ) A4规格(210X297公釐) 經濟部中央樑率局貝工消费合作社印装 六、申請專利範圍 24. 如申誚專利範圃第18項之乘法器-累加器,其中該 些小位元乘法器係支援p-adic算術資料信號的處理,其中 P是一個質數。 25. 如申請專利範園第24項之乘法器-累加器,其中 p<==31 〇 26. 如申請專利範圃第24項之乘法器-累加器,其中 P=7 或 ρβ31。 27. 如申請專利範圃第18項之乘法器-累加器,其中該 些小位元乘法器係包含一個輸入多工器,其係可寊行來選 擇性地將算術資料信號或是由該界面電路所選的該第二累 加器之暫存器的內容耦接至該些小位元乘法器。 28. 如申請專利範圍第18項之乘法器-累加器,其中該 第二管線階段係包含至少一個另一第二累加器以儲存來自 該另一加法器的結果,並且其中該界面電路也耦接來存取 一或多個由該至少一個另一第、二累加器所儲存的結果。 29. —種在兩個管線運算期間的浮黏假數乘法之方法, 其包括步嫌有: 從複數個代表將被相乘的數目之假數的算術資料信號 產生部分乘稹信號;利用一種多層的加法器樹來加總該些 部分乘積信號以在此加法器樹的一個输出層之處產生該些 算術資料信號的乘稹;累加在第一管線暫存器中輸出自該 加法器樹的一層之中間層信號用以輸入至該加法器樹之後 的一層;其中一第一管線運算係包括產生該些部分乘積信 號並且累加在該些第一管線暫存器中之中間層信號,此第 _____2__ 本纸張尺度逋用中國目家橾率(CNS ) Α4規格(210X297公釐) (詩先Hlft背面之注f項再填寫本頁) 訂 經濟部中央標率爲真工消费合作社印東 E! 六'申請專利範困 一管線運算係在一個時脈週期之內被完成; 累加在第二管線暫存器中來自一個包括本地進位傅播 加法器單元之另一加法器的输出信號;選擇性地回授代表 一個常數或是至少某些第二管線暫存器的內容之信號至_ 另一加法器的一個输入;並且供應該乘積信號作爲該另一 加法器政另一個輸入;其中該些到另一加法器的输入係與 來自該另一加法器的輸出信號且由該些第二管線暫存器儲 存之精確度部分對齊;並且其中信號的對齊、來自該另一 加法器的输出信號在該些第二管線暫存器中之儀存、以及 該選擇性的回授係在一個接4T該一時脈週期的單一時脈週 期期間被達成。 30. 如申誧專利範圍第29項之方法,其中該些算術資 料信號係包含代表相當小的模數的模數部分之信號集,並 且兩個或是多個該些信號集的乘法係在相同的時脈週期期 間被達成。 31. 如申請專利範圍第29項之方法,其中兩個m位元 的算術資料信號之單精度浮點假數乘法係在相同的時脈週 期之內被達成》 32. 如申請專利範圈第29項之方法,其中兩個m位元 的算術資料信號之倍精_浮黏假數乘法係在相同的時脈週 期之內被逯成。 33. 如申請專利範圔第29項之方法,其中該些算術資 料信號係分別代表一個P位元的數目以及一個q位元的數 目,其中P與q係爲m的因數,並且其中兩個m位元的假 ____J___ ^紙浪尺度逋用中躅·家標準(CNS >A4规格(210X297公釐) V/ ί/.. ---------------------------訂 (请先聞讀背面之注f項再壤寫本霣) B8 經濟部中央橾率局員工消费合作杜印装 六、申請專利範圍 數乘法係在接下來的一些時脈週期之內被達成。 34.如申請專利範圔第29項之方法,其中該些算術資 料信號係代表兩個浮點數目,並且其中該些數目的其中之 一的假數可選擇性地被一個常數或是被另一導自該些第二 管線暫存器的浮點假數所取代。 (請先U讀背面之注$項再填寫本頁) 訂 線 本紙張尺度適用中國國家揉準(CNS ) A4规格(210X 297公釐)
TW87108029A 1996-01-22 1998-05-22 Processor with reconfigurable arithmetic data path TW384447B (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US1031796P 1996-01-22 1996-01-22
US08/787,496 US6247036B1 (en) 1996-01-22 1997-01-21 Processor with reconfigurable arithmetic data path

Publications (1)

Publication Number Publication Date
TW384447B true TW384447B (en) 2000-03-11

Family

ID=26681029

Family Applications (1)

Application Number Title Priority Date Filing Date
TW87108029A TW384447B (en) 1996-01-22 1998-05-22 Processor with reconfigurable arithmetic data path

Country Status (1)

Country Link
TW (1) TW384447B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI459398B (zh) * 2010-09-24 2014-11-01 Toshiba Kk Memory system
CN104335177A (zh) * 2012-06-15 2015-02-04 国际商业机器公司 有选择地控制事务处理中的指令执行
US9436477B2 (en) 2012-06-15 2016-09-06 International Business Machines Corporation Transaction abort instruction
US9442737B2 (en) 2012-06-15 2016-09-13 International Business Machines Corporation Restricting processing within a processor to facilitate transaction completion
US9448796B2 (en) 2012-06-15 2016-09-20 International Business Machines Corporation Restricted instructions in transactional execution
US9477514B2 (en) 2012-06-15 2016-10-25 International Business Machines Corporation Transaction begin/end instructions
US9740549B2 (en) 2012-06-15 2017-08-22 International Business Machines Corporation Facilitating transaction completion subsequent to repeated aborts of the transaction
US9740521B2 (en) 2012-06-15 2017-08-22 International Business Machines Corporation Constrained transaction execution
US9766925B2 (en) 2012-06-15 2017-09-19 International Business Machines Corporation Transactional processing
US9792125B2 (en) 2012-06-15 2017-10-17 International Business Machines Corporation Saving/restoring selected registers in transactional processing
US9811337B2 (en) 2012-06-15 2017-11-07 International Business Machines Corporation Transaction abort processing
CN108351763A (zh) * 2015-11-12 2018-07-31 Arm有限公司 重叠传播操作
US10223214B2 (en) 2012-06-15 2019-03-05 International Business Machines Corporation Randomized testing within transactional execution
US10430199B2 (en) 2012-06-15 2019-10-01 International Business Machines Corporation Program interruption filtering in transactional execution
US10599435B2 (en) 2012-06-15 2020-03-24 International Business Machines Corporation Nontransactional store instruction
TWI758978B (zh) * 2020-11-30 2022-03-21 創意電子股份有限公司 時脈樹的修正裝置及其修正方法

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI459398B (zh) * 2010-09-24 2014-11-01 Toshiba Kk Memory system
US9858082B2 (en) 2012-06-15 2018-01-02 International Business Machines Corporation Restricted instructions in transactional execution
US10437602B2 (en) 2012-06-15 2019-10-08 International Business Machines Corporation Program interruption filtering in transactional execution
US9442737B2 (en) 2012-06-15 2016-09-13 International Business Machines Corporation Restricting processing within a processor to facilitate transaction completion
US9983882B2 (en) 2012-06-15 2018-05-29 International Business Machines Corporation Selectively controlling instruction execution in transactional processing
US9448796B2 (en) 2012-06-15 2016-09-20 International Business Machines Corporation Restricted instructions in transactional execution
US9448797B2 (en) 2012-06-15 2016-09-20 International Business Machines Corporation Restricted instructions in transactional execution
US9477514B2 (en) 2012-06-15 2016-10-25 International Business Machines Corporation Transaction begin/end instructions
US9529598B2 (en) 2012-06-15 2016-12-27 International Business Machines Corporation Transaction abort instruction
TWI564808B (zh) * 2012-06-15 2017-01-01 萬國商業機器公司 異動處理中之選擇控制指令執行
US9740549B2 (en) 2012-06-15 2017-08-22 International Business Machines Corporation Facilitating transaction completion subsequent to repeated aborts of the transaction
US9740521B2 (en) 2012-06-15 2017-08-22 International Business Machines Corporation Constrained transaction execution
US9766925B2 (en) 2012-06-15 2017-09-19 International Business Machines Corporation Transactional processing
US9772854B2 (en) 2012-06-15 2017-09-26 International Business Machines Corporation Selectively controlling instruction execution in transactional processing
US9792125B2 (en) 2012-06-15 2017-10-17 International Business Machines Corporation Saving/restoring selected registers in transactional processing
US9811337B2 (en) 2012-06-15 2017-11-07 International Business Machines Corporation Transaction abort processing
CN104335177B (zh) * 2012-06-15 2017-11-21 国际商业机器公司 有选择地控制事务处理中的指令执行
US9851978B2 (en) 2012-06-15 2017-12-26 International Business Machines Corporation Restricted instructions in transactional execution
CN104335177A (zh) * 2012-06-15 2015-02-04 国际商业机器公司 有选择地控制事务处理中的指令执行
US9442738B2 (en) 2012-06-15 2016-09-13 International Business Machines Corporation Restricting processing within a processor to facilitate transaction completion
US9983915B2 (en) 2012-06-15 2018-05-29 International Business Machines Corporation Facilitating transaction completion subsequent to repeated aborts of the transaction
US9983881B2 (en) 2012-06-15 2018-05-29 International Business Machines Corporation Selectively controlling instruction execution in transactional processing
US9983883B2 (en) 2012-06-15 2018-05-29 International Business Machines Corporation Transaction abort instruction specifying a reason for abort
US9996360B2 (en) 2012-06-15 2018-06-12 International Business Machines Corporation Transaction abort instruction specifying a reason for abort
US11080087B2 (en) 2012-06-15 2021-08-03 International Business Machines Corporation Transaction begin/end instructions
US10185588B2 (en) 2012-06-15 2019-01-22 International Business Machines Corporation Transaction begin/end instructions
US10223214B2 (en) 2012-06-15 2019-03-05 International Business Machines Corporation Randomized testing within transactional execution
US10353759B2 (en) 2012-06-15 2019-07-16 International Business Machines Corporation Facilitating transaction completion subsequent to repeated aborts of the transaction
US10430199B2 (en) 2012-06-15 2019-10-01 International Business Machines Corporation Program interruption filtering in transactional execution
US9436477B2 (en) 2012-06-15 2016-09-06 International Business Machines Corporation Transaction abort instruction
US10558465B2 (en) 2012-06-15 2020-02-11 International Business Machines Corporation Restricted instructions in transactional execution
US10599435B2 (en) 2012-06-15 2020-03-24 International Business Machines Corporation Nontransactional store instruction
US10606597B2 (en) 2012-06-15 2020-03-31 International Business Machines Corporation Nontransactional store instruction
US10684863B2 (en) 2012-06-15 2020-06-16 International Business Machines Corporation Restricted instructions in transactional execution
US10719415B2 (en) 2012-06-15 2020-07-21 International Business Machines Corporation Randomized testing within transactional execution
CN108351763A (zh) * 2015-11-12 2018-07-31 Arm有限公司 重叠传播操作
CN108351763B (zh) * 2015-11-12 2022-08-23 Arm有限公司 用于重叠传播操作的方法和装置
TWI758978B (zh) * 2020-11-30 2022-03-21 創意電子股份有限公司 時脈樹的修正裝置及其修正方法

Similar Documents

Publication Publication Date Title
US6247036B1 (en) Processor with reconfigurable arithmetic data path
TW384447B (en) Processor with reconfigurable arithmetic data path
WO1998032071A9 (en) Processor with reconfigurable arithmetic data path
JP7428787B2 (ja) 再構成可能プロセッサ回路アーキテクチャ
US8024394B2 (en) Dual mode floating point multiply accumulate unit
US5081573A (en) Parallel processing system
US5226171A (en) Parallel vector processing system for individual and broadcast distribution of operands and control information
US4689738A (en) Integrated and programmable processor for word-wise digital signal processing
CN101201644B (zh) 指数处理方法与系统
TW310406B (zh)
JP3244506B2 (ja) 小型乗算器
Shieh et al. Word-based Montgomery modular multiplication algorithm for low-latency scalable architectures
JPH0731669B2 (ja) ベクトル・プロセツサ
TW200411542A (en) Processor executin SIMD instructions
CN100504758C (zh) 多字乘法-累加电路和蒙哥马利模乘法-累加电路
TW200428275A (en) Processor executing SIMD instructions
US20210326111A1 (en) FPGA Processing Block for Machine Learning or Digital Signal Processing Operations
US6675286B1 (en) Multimedia instruction set for wide data paths
US20220188072A1 (en) Systems and methods for calculating large polynomial multiplications
Chalamalasetti et al. MORA-an architecture and programming model for a resource efficient coarse grained reconfigurable processor
US8577952B2 (en) Combined binary/decimal fixed-point multiplier and method
US5164724A (en) Data format converters for use with digit-serial signals
US5016011A (en) Increased performance of digital integrated circuits by processing with multiple-bit-width digits
US7847349B2 (en) Single-cycle FFT butterfly calculator
US5034908A (en) Digit-serial transversal filters

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees