TWI537819B - 運算模組、裝置及系統 - Google Patents

運算模組、裝置及系統 Download PDF

Info

Publication number
TWI537819B
TWI537819B TW101117524A TW101117524A TWI537819B TW I537819 B TWI537819 B TW I537819B TW 101117524 A TW101117524 A TW 101117524A TW 101117524 A TW101117524 A TW 101117524A TW I537819 B TWI537819 B TW I537819B
Authority
TW
Taiwan
Prior art keywords
shifter
adder
input
coupled
result signal
Prior art date
Application number
TW101117524A
Other languages
English (en)
Other versions
TW201349102A (zh
Inventor
劉志尉
張國強
歐士豪
陳鈺文
Original Assignee
國立交通大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立交通大學 filed Critical 國立交通大學
Priority to TW101117524A priority Critical patent/TWI537819B/zh
Priority to US13/611,146 priority patent/US8972471B2/en
Publication of TW201349102A publication Critical patent/TW201349102A/zh
Application granted granted Critical
Publication of TWI537819B publication Critical patent/TWI537819B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/52Multiplying; Dividing
    • G06F7/523Multiplying only
    • G06F7/527Multiplying only in serial-parallel fashion, i.e. one operand being entered serially and the other in parallel

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Complex Calculations (AREA)

Description

運算模組、裝置及系統
本發明係關於一種運算模組、裝置及系統,尤其是關於一種用於數位訊號處理器之運算模組、裝置及系統。
隨著行動裝置於電子產業中之蓬勃發展,電子產品也逐漸要求薄型化、輕量化且高性能。然而,受限於行動裝置之體積大小,其電池容量亦隨之減少,故降低行動裝置中電子元件之功率消耗以延長電池使用時間,已成為目前重要之課題。
又,由於現今電子產品之生命週期越來越短暫。因此,可程式化之核心電路,以令多數系統功能可以軟體形式呈現,從而使設計者利用軟體的彈性更輕易地調整功能、提高重覆使用率、縮短設計時間,亦為目前電子產品之趨勢。例如數位訊號處理器(Digital Signal Processor,DSP)即為一可程式化之通用處理器,其指令集和架構則專門針對數位訊號應用而特別強化設計。
惟,習知之數位訊號處理器主要可採用純量處理器(Scalar)或多指令分發(Multi-issue)處理器,其中,純量處理器一次僅能處理一個指令,故運算效率不佳,若為了提升純量處理器之運算效率,又將造成面積及功率消耗較大之問題。另一方面,多指令分發處理器將運算單元平行地配置在一起並平行地做運算,因此,每一個指令在運算週期時間較短。然而,多指令分發處理器之輸入與輸出 端的硬體複雜度隨著運算單元之增加而增加,例如在超長指令(Very lLong Instruction Word,VLIW)處理器中,以N個算術單元而言,其暫存器組之輸入埠及輸出埠的需求將造成面積與延遲會隨著N3與N3/2比例成長。
因此,如何對數位訊號處理器中之運算模組進行改良以降低功率損耗,遂成為本領域中目前亟待解決的課題。
為解決前述習知技術之缺點,本發明之目的在於提供一種串接式資料路徑設計之運算模組,包括第一加法器,係具有接收外部之資料訊號之二輸入端以及將所產生之第一加法結果訊號輸出之一輸出端;第一移位器,係耦接至該第一加法器之輸出端,以接收該第一加法器產生之第一加法結果訊號;乘法器,係具有第一輸入端、第二輸入端以及將所產生之乘法結果訊號輸出之一輸出端,其中,該乘法器之第一輸入端係耦接至該第一移位器,且該第二輸入端係用以接收外部之運算參數訊號;位數對齊單元,係耦接至該乘法器之輸出端以接收該乘法器所產生之乘法結果訊號,以使該乘法結果訊號與來自外部之累加暫存器之輸入訊號的位數對齊;第二加法器,係具有二輸入端以及將所產生之第二加法結果訊號輸出之一輸出端,其中,該第二加法器之二輸入端與該位數對齊單元耦接;以及第二移位器,係耦接至該第二加法器之輸出端,用以接收該第二加法器所產生之第二加法結果訊號。
前述之運算模組中,該位數對齊單元復包括多工器, 係具有相對之第三與第四輸入端及二輸出端,其中,該第三輸入端係用以接收該乘法器之乘法結果訊號,且該第四輸入端係用以接收來自外部之該累加暫存器之輸入訊號;以及第三移位器,係耦接至該多工器之一輸出端,其中,該多工器係依據預定控制規則選擇該乘法器之乘法結果訊號或該來自外部之該累加暫存器之輸入訊號作為該第三移位器之輸入訊號。
又,前述之運算模組係利用已知係數之極值(peak value)分析,估算執行時可能產生之最大數值,再利用該第一移位器及該第二移位器係分別將該第一加法結果訊號以及該第二加法結果訊號的數值正規化至0.5到1之間。
本發明復提供一種運算裝置,包括控制器,係具有複數輸入端及輸出端,用以接收外部之訊號與資料,並輸出控制訊號及該運算裝置之結果訊號;儲存單元,係耦接至該控制器以接收該控制器之控制訊號,以對應輸出所儲存之微指令、資料及運算參數;以及前述之運算模組,係用以接收該儲存單元之指令及資料以進行數值運算。
本發明又提供一種運算系統,包括資料記憶體;程式記憶體,係用以儲存控制指令集;前述之運算裝置;以及處理器,係與該資料記憶體、該程式記憶體及該運算裝置耦接,且依據程式設計者撰寫之程式碼控制處理器行為,以獨自進行數值運算或控制該運算裝置進行數值運算。
相較於習知技術,本發明之運算模組藉由串接式資料路徑之設計,相較於純量處理器之單一指令單一運算,可 有效地減少整體運算時間,,且相較於多指令分發處理器具有更少的輸出端及輸入端之需求,因此可大幅降低數位訊號處理器之功率消耗。
以下係藉由特定的具體實施例說明本發明之實施方式,本領域中具有通常知識者可由本說明書所揭示之內容輕易地瞭解本發明之其他優點與功效。本發明亦可藉由其他不同的具體實施例加以施行或應用。
第1圖係為本發明之運算模組之實施例的架構示意圖。如圖所示,本發明之運算模組1包括第一加法器10、第一移位器11、乘法器12、位數對齊單元13、第二加法器14以及第二移位器15,其中,本發明之運算模組1係使用串接式資料路徑之設計,以避免習知之多指令分發處理器中將運算單元平行配置,所造成之輸入與輸出端的硬體複雜度提高之問題。
該第一加法器10係具有接收外部之資料訊號之二輸入端,以及將所產生之第一加法結果訊號輸出之一輸出端。
該第一移位器11,係耦接至該第一加法器10之輸出端,以接收該第一加法器10產生之第一加法結果訊號。
於一較佳態樣中,該運算模組1係依據靜態浮點數(Static Floating Point,SFP)演算法,利用該第一移位器11將該第一加法結果訊號的數值正規化至0.5到1之間,其中,靜態浮點數演算法使用小數定點表示法,將運算過程中表示位數的最大值自動捨去太小之數值,增加 位數之使用率,並且在設計時先使用最大數值分析法,記綠何時需要調整資料位數,以預防溢位的情況發生。此些運算過程皆係於靜態時間分析完成,相對於浮點數運算係於動態時間處理位數對齊與正規化運算,可節省功率消耗。又,藉由將該第一加法結果訊號經極值分析後的最大可能數值正規化至0.5到1之間,可提供較佳之資料位數使用率與運算精確度。因靜態浮點數演算法係於靜態時間使用軟體(例如,Cmodel)計算中間暫存值與移動暫存值的範圍,可省去額外用以表示小數點位置之位數。因此本發明之運算模楚具有浮點數表示法之精確度以及固定點表示法之較低的硬體複雜度。
該乘法器12係具有第一輸入端、第二輸入端以及將所產生之乘法結果訊號輸出之一輸出端,其中,該乘法器12之第一輸入端係耦接至該第一移位器11,且該第二輸入端係用以接收外部之運算參數訊號。
該位數對齊單元13係耦接至該乘法器12之輸出端,以接收該乘法器12所產生之乘法結果訊號,以使該乘法結果訊號與來自外部之累加暫存器之輸入訊號的位數對齊。
於一較佳實施態樣中,該位數對齊單元13復包括多工器131以及第三移位器132。
該多工器131係具有相對之第三與第四輸入端及二輸出端,其中,該第三輸入端係用以接收該乘法器12之乘法結果訊號,且該第四輸入端係用以接收來自外部之該累加暫存器之輸入訊號。
該第三移位器132係耦接至該多工器131之一輸出端,其中,該多工器131係依據預定控制規則選擇該乘法器12之乘法結果訊號或該來自外部之該累加暫存器之輸入訊號作為該第三移位器132之輸入訊號。
該第二加法器14係具有二輸入端以及將所產生之第二加法結果訊號輸出之一輸出端,其中,該第二加法器14之二輸入端與該位數對齊單元13耦接。
該第二移位器15係耦接至該第二加法器14之輸出端,用以接收該第二加法器14所產生之第二加法結果訊號,並輸出第二移位結果訊號至外部之累加暫存器。
於一較佳實施態樣中,該運算模組1係依據靜態浮點數演算法,利用該第二移位器15將該第二加法結果訊號的數值正規化至0.5到1之間。
第2圖係為本發明之運算裝置之實施例的架構示意圖。如圖所示,本發明之運算裝置2包括控制器20、儲存單元21以及運算模組22。
該控制器20係具有複數輸入端及輸出端,用以接收外部之訊號與資料,並輸出控制訊號及該運算裝置之結果訊號。
於一較佳實施態樣中,該控制器20復包括控制暫存器201,用以儲存開頭位址(head address)、結尾位址(tail address)、延遲線起始位址(delay line start address)、延遲線結束位址(delay line end address)、運算參數起始位址(coefficient start address)以及微指 令起始位址(microinstruction start address)。
該儲存單元21係耦接至該控制器20以接收該控制器20之控制訊號,以對應輸出所儲存之微指令211、資料212及運算參數213。
該運算模組22係用以接收該儲存單元21之指令及資料以進行數值運算,其內部結構與前述之運算模組1相同,故在此不予贅述。
第3圖係為本發明之運算系統之實施例的架構示意圖。如圖所示,本發明之運算系統3包括資料記憶體30、程式記憶體31、運算裝置32以及處理器33,其中,該運算裝置32係與前述之運算裝置2相同,故在此不予贅述。
該資料記憶體30係用以儲存待運算之資料、運算過程之中間結果以及運算後之最終結果。
該程式記憶體31係用以儲存控制指令集。
該處理器33係與該資料記憶體30、該程式記憶體31及該運算裝置32耦接,且依據程式設計者撰寫之程式碼控制處理器行為,以獨自進行數值運算或控制該運算裝置進行數值運算。
於一較佳實施態樣中,該處理器33係為精簡化指令集處理器,其精簡化指令集架構可為ARM之指令,其中,共包含二十五個指令:LDR與STR係為儲存與提取指令,以將外部資料與內部資料做交換。LI、LSI、LLR、ADDI、ADD、SUBI、SUB、FMUL、ASR、LSR、LSL、MVN、AND與ORR用以對暫存器數值作運算。CMP係為改變狀態暫存器指 令。B、BL、BR與B<cond>為程式流程之控制指令。NOP表示不作操作,Trap係為程式結束。
綜上所述,本發明之運算模組、裝置及系統利用靜態浮點數演算法以及串接式資料路徑之設計,使運算模組、裝置及系統之面積及功率消耗減小,並維持數位訊號處理所需要之高準確度。
上述實施例僅為例示性說明本發明之原理及其功效,而非用於限制本發明。任何本領域中具有通常知識者均可在不違背本發明之精神及範疇下,對上述實施例進行修飾與變化。
1‧‧‧運算模組
10‧‧‧第一加法器
11‧‧‧第一移位器
12‧‧‧乘法器
13‧‧‧位數對齊單元
131‧‧‧多工器
132‧‧‧第三移位器
14‧‧‧第二加法器
15‧‧‧第二移位器
2‧‧‧運算裝置
20‧‧‧控制器
201‧‧‧控制暫存器
21‧‧‧儲存單元
211‧‧‧微指令
212‧‧‧資料
213‧‧‧運算參數
22‧‧‧運算模組
3‧‧‧運算系統
30‧‧‧資料記憶體
31‧‧‧程式記憶體
32‧‧‧運算裝置
33‧‧‧處理器
第1圖係為本發明之運算模組之實施例的架構示意圖;第2圖係為本發明之運算裝置之實施例的架構示意圖;以及第3圖係為本發明之運算系統之實施例的架構示意圖。
1‧‧‧運算模組
10‧‧‧第一加法器
11‧‧‧第一移位器
12‧‧‧乘法器
13‧‧‧位數對齊單元
131‧‧‧多工器
132‧‧‧第三移位器
14‧‧‧第二加法器
15‧‧‧第二移位器

Claims (9)

  1. 一種運算模組,係設計為串接式資料路徑,包括:第一加法器,係具有接收外部之資料訊號之二輸入端以及將所產生之第一加法結果訊號輸出之一輸出端;第一移位器,係耦接至該第一加法器之輸出端,以接收該第一加法器產生之第一加法結果訊號;乘法器,係具有第一輸入端、第二輸入端以及將所產生之乘法結果訊號輸出之一輸出端,其中,該乘法器之第一輸入端係耦接至該第一移位器,且該第二輸入端係用以接收外部之運算參數訊號;位數對齊單元,係耦接至該乘法器之輸出端以接收該乘法器所產生之乘法結果訊號,以使該乘法結果訊號與來自外部之累加暫存器之輸入訊號的位數對齊,其中,該位數對齊單元具有多工器及第三移位器,該多工器耦接至該乘法器之輸出端,該第三移位器耦接至該多工器之一輸出端;第二加法器,係具有二輸入端以及將所產生之第二加法結果訊號輸出之一輸出端,其中,該第二加法器之二輸入端分別耦接至該位數對齊單元之多工器及第三移位器;以及第二移位器,係耦接至該第二加法器之輸出端,用以接收該第二加法器所產生之第二加法結果訊號,並輸出第二移位結果訊號至外部之該累加暫存器, 其中,該第一加法器係依序串接該第一移位器、乘法器、位數對齊單元之多工器及第三移位器、第二加法器與第二移位器。
  2. 如申請專利範圍第1項所述之運算模組,其中,該位數對齊單元之該多工器係具有相對之第三與第四輸入端及二輸出端,其中,該第三輸入端係用以接收該乘法器之乘法結果訊號,且該第四輸入端係用以接收來自外部之該累加暫存器之輸入訊號;以及該位數對齊單元之該第三移位器係依據預定控制規則選擇該乘法器之乘法結果訊號或該來自外部之該累加暫存器之輸入訊號作為該第三移位器之輸入訊號。
  3. 如申請專利範圍第1項所述之運算模組,其中,該第一移位器及該第二移位器係分別將該第一加法結果訊號以及該第二加法結果訊號的數值正規化至0.5到1之間。
  4. 一種運算裝置,包括:控制器,係具有複數輸入端及輸出端,用以接收外部之訊號與資料,並輸出控制訊號及該運算裝置之結果訊號;儲存單元,係耦接至該控制器以接收該控制器之控制訊號,以對應輸出所儲存之微指令、資料及運算參數;以及運算模組,係設計為串接式資料路徑,用以接收 該儲存單元之微指令及資料以進行數值運算,包括:第一加法器,係具有接收該儲存單元之資料之二輸入端以及將所產生之第一加法結果訊號輸出之一輸出端;第一移位器,係耦接至該第一加法器之輸出端,以接收該第一加法器產生之第一加法結果訊號;乘法器,係具有第一輸入端、第二輸入端以及將所產生之乘法結果訊號輸出之一輸出端,其中,該乘法器之第一輸入端係耦接至該第一移位器,且該第二輸入端係用以接收該儲存單元之運算參數;位數對齊單元,係耦接至該乘法器之輸出端以接收該乘法器所產生之乘法結果訊號,以使該乘法結果訊號與來自外部之累加暫存器之輸入訊號的位數對齊,其中,該位數對齊單元具有多工器及第三移位器,該多工器耦接至該乘法器之輸出端,該第三移位器耦接至該多工器之一輸出端;第二加法器,係具有二輸入端以及將所產生之第二加法結果訊號輸出之一輸出端,其中,該第二加法器之二輸入端分別耦接至該位數對齊單元之多工器及第三移位器;以及第二移位器,係耦接至該第二加法器之輸出端,用以接收該第二加法器所產生之第二加法結 果訊號,並輸出第二移位結果訊號至外部之該累加暫存器,其中,該第一加法器係依序串接該第一移位器、乘法器、位數對齊單元之多工器及第三移位器、第二加法器與第二移位器。
  5. 如申請專利範圍第4項所述之運算裝置,其中,該控制器復包括控制暫存器,用以儲存開頭位址、結尾位址、延遲線起始位址、延遲線結束位址、運算參數起始位址以及微指令起始位址。
  6. 如申請專利範圍第4項所述之運算裝置,其中,該位數對齊單元之該多工器係具有相對之第三與第四輸入端及二輸出端,其中,該第三輸入端係用以接收該乘法器之乘法結果訊號,且該第四輸入端係用以接收來自外部之該累加暫存器之輸入訊號;以及該位數對齊單元之該第三移位器係依據預定控制規則選擇該乘法器之乘法結果訊號或該來自外部之該累加暫存器之輸入訊號作為該第三移位器之輸入訊號。
  7. 如申請專利範圍第4項所述之運算裝置,其中,該第一移位器及該第二移位器係分別將該第一加法結果訊號以及該第二加法結果訊號的數值正規化至0.5到1之間。
  8. 一種運算系統,包括:資料記憶體; 程式記憶體,係用以儲存控制指令集;運算裝置,係包括:控制器,係具有複數輸入端及輸出端,用以接收外部之訊號與資料,並輸出控制訊號及該運算裝置之結果訊號;儲存單元,係耦接至該控制器以接收該控制器之控制訊號,以對應輸出所儲存之微指令、資料及運算參數;運算模組,係設計為串接式資料路徑,用以接收該儲存單元之指令及資料以進行數值運算,包括:第一加法器,係具有接收該儲存單元之資料之二輸入端以及將所產生之第一加法結果訊號輸出之一輸出端;第一移位器,係耦接至該第一加法器之輸出端,以接收該第一加法器產生之第一加法結果訊號;乘法器,係具有第一輸入端、第二輸入端以及將所產生之乘法結果訊號輸出之一輸出端,其中,該乘法器之第一輸入端係耦接至該第一移位器,且該第二輸入端係用以接收該儲存單元之運算參數;位數對齊單元,係耦接至該乘法器之輸出端以接收該乘法器所產生之乘法結果訊 號,以使該乘法結果訊號與來自外部之累加暫存器之輸入訊號的位數對齊,其中,該位數對齊單元具有多工器及第三移位器,該多工器耦接至該乘法器之輸出端,該第三移位器耦接至該多工器之一輸出端;第二加法器,係具有二輸入端以及將所產生之第二加法結果訊號輸出之一輸出端,其中,該第二加法器之二輸入端分別耦接至該位數對齊單元之多工器及第三移位器;以及第二移位器,係耦接至該第二加法器之輸出端,用以接收該第二加法器所產生之第二加法結果訊號,並輸出第二移位結果訊號至外部之該累加暫存器,其中,該第一加法器係依序串接該第一移位器、乘法器、位數對齊單元之多工器及第三移位器、第二加法器與第二移位器;以及處理器,係與該資料記憶體、該程式記憶體及該運算裝置耦接,且依據程式設計者撰寫之程式碼控制處理器行為,以獨自進行數值運算或控制該運算裝置進行數值運算。
  9. 如申請專利範圍第8項所述之運算系統,其中,該處理器係為精簡化指令集處理器。
TW101117524A 2012-05-17 2012-05-17 運算模組、裝置及系統 TWI537819B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW101117524A TWI537819B (zh) 2012-05-17 2012-05-17 運算模組、裝置及系統
US13/611,146 US8972471B2 (en) 2012-05-17 2012-09-12 Arithmetic module, device and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW101117524A TWI537819B (zh) 2012-05-17 2012-05-17 運算模組、裝置及系統

Publications (2)

Publication Number Publication Date
TW201349102A TW201349102A (zh) 2013-12-01
TWI537819B true TWI537819B (zh) 2016-06-11

Family

ID=49582200

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101117524A TWI537819B (zh) 2012-05-17 2012-05-17 運算模組、裝置及系統

Country Status (2)

Country Link
US (1) US8972471B2 (zh)
TW (1) TWI537819B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI537819B (zh) * 2012-05-17 2016-06-11 國立交通大學 運算模組、裝置及系統
CN108196881B (zh) * 2017-12-01 2020-10-16 北京时代民芯科技有限公司 一种基于可配置技术的定点运算加速单元
US20230234472A1 (en) * 2021-12-30 2023-07-27 Sustainable Energy Technologies, Inc. Supercapacitor to electrochemical hybrid system with a supercapacitor battery management capability

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7080111B2 (en) * 2001-06-04 2006-07-18 Intel Corporation Floating point multiply accumulator
US6904446B2 (en) * 2001-08-24 2005-06-07 Freescale Semiconductor, Inc. Floating point multiplier/accumulator with reduced latency and method thereof
TWI258698B (en) * 2004-04-06 2006-07-21 Ind Tech Res Inst Static floating-point processor suitable for embedded digital signal processing and shift control method thereof
US7676535B2 (en) * 2005-09-28 2010-03-09 Intel Corporation Enhanced floating-point unit for extended functions
US8694572B2 (en) * 2010-07-06 2014-04-08 Silminds, Llc, Egypt Decimal floating-point fused multiply-add unit
TWI537819B (zh) * 2012-05-17 2016-06-11 國立交通大學 運算模組、裝置及系統
US9317250B2 (en) * 2012-11-12 2016-04-19 Advanced Micro Devices, Inc. Floating point multiply-add unit with denormal number support

Also Published As

Publication number Publication date
US8972471B2 (en) 2015-03-03
TW201349102A (zh) 2013-12-01
US20130311529A1 (en) 2013-11-21

Similar Documents

Publication Publication Date Title
WO2019127731A1 (zh) 卷积神经网络硬件加速装置及卷积计算方法及存储介质
CN109661647B (zh) 数据处理装置和方法
CN107392308B (zh) 一种基于可编程器件的卷积神经网络加速方法与系统
US9141131B2 (en) Methods and systems for performing exponentiation in a parallel processing environment
US20180189649A1 (en) Neural network processor
US9684632B2 (en) Parallel processing and internal processors
US20120216011A1 (en) Apparatus and method of single-instruction, multiple-data vector operation masking
JP2008530689A (ja) 効率的なデジタル信号処理に適用するデータプロセッサとその方法
JPH10187438A (ja) 乗算器の入力に対する遷移を減少させる方法
US20190095175A1 (en) Arithmetic processing device and arithmetic processing method
TWI537819B (zh) 運算模組、裝置及系統
CN104156195A (zh) 扩展双精度的80位浮点处理单元在处理器中的集成系统及方法
EP3794443A1 (en) System and method of loading and replication of sub-vector values
US8918446B2 (en) Reducing power consumption in multi-precision floating point multipliers
CN101739383A (zh) 一种可配置处理器体系结构和控制方法
Kulshreshtha et al. Analysis of 16-bit and 32-bit RISC processors
WO2024032027A1 (zh) 降低功耗的方法、处理器、电子设备及存储介质
US20130262819A1 (en) Single cycle compare and select operations
WO2021147602A1 (zh) 数据处理装置、人工智能芯片
CN106547514B (zh) 一种基于时钟拉伸技术的高能效二进制加法器
EP2709003B1 (en) Loopback structure and data loopback processing method for processor
JP2014160393A (ja) マイクロプロセッサ及び演算処理方法
US20230401434A1 (en) Lstm circuit with selective input computation
US10534608B2 (en) Local computation logic embedded in a register file to accelerate programs
TWI807927B (zh) 具有向量歸約方法與元素歸約方法的向量處理器