TWI323850B - - Google Patents

Download PDF

Info

Publication number
TWI323850B
TWI323850B TW095148299A TW95148299A TWI323850B TW I323850 B TWI323850 B TW I323850B TW 095148299 A TW095148299 A TW 095148299A TW 95148299 A TW95148299 A TW 95148299A TW I323850 B TWI323850 B TW I323850B
Authority
TW
Taiwan
Prior art keywords
register
unit
fourier transform
multiplexer
fast fourier
Prior art date
Application number
TW095148299A
Other languages
English (en)
Other versions
TW200828044A (en
Inventor
Wei Hwang
Original Assignee
Univ Nat Chiao Tung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Nat Chiao Tung filed Critical Univ Nat Chiao Tung
Priority to TW095148299A priority Critical patent/TW200828044A/zh
Priority to US11/650,557 priority patent/US7849123B2/en
Publication of TW200828044A publication Critical patent/TW200828044A/zh
Application granted granted Critical
Publication of TWI323850B publication Critical patent/TWI323850B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • G06F17/142Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm

Landscapes

  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Complex Calculations (AREA)

Description

九、發明說明: 【發明所屬之技術領域】 本發明是有關於一種管線化架構可重組混合基底 h速傅利葉轉換處理器,尤指一種可於數位訊號處 理方面,有關快速傅利葉轉換處理器之架構者。 【先前技術】 離散傅利葉轉換((jiscrete F〇urier transf〇rm,dFT) • 被廣泛運用在數位訊號處理相關演算法與系統的分 ^、設計及實現上。然而,直接計算—個心的離散 傅利葉,的計算複雜度為〇(N2),不僅要花費相當 長的計算時間,並且需要大量的硬體花費。幸好,在 計算離散傳利葉轉換時,其變數與係數存在著許多的 對稱性’這些對稱的特性可以減少所需要的運算,進 短計算離散傅利葉轉換的時間。這些有效計算離 ·=利葉轉換的演算法’統稱為快逮傅利葉轉換 快速傅利葉轉換主要是藉著拆解離散傅利葉轉換 來計算。在這㈣程中,複數指數 的對稱與職特性被充分㈣用。以拆解 小序列的演算法,稱之為時間拆解 列的面,#^讀輪4㈣成較小序 稱之為頻率拆解(DIF)演算法。目前最並 遍的快速傅利葉演算法為C00ley_Tukey演算法,4 6 Ι323β50 合用於拆解點數為2的次方的離散傅利葉轉換。 一個Ν點的複數資料序列χ[η],其離散傅利葉轉 換定義為^ 雄)=艺4«]< k=0,l,·.··.,Ν-1 η=0 ’ (1) 係數時的定義為稱之為_葉旋㈣ 數(twiddle factor)。藉著利用這些係數的對稱性與週期 性來增進快速傅利葉轉換的效率:
(對稱性) (2) =Wp+N、 N (n與k的週期性)(3) 如上所示,利用週期的特性,我們可以把方程式 (1)中的η與(n+N)子項群組成: 4nW- + 4« + N]wr)k = (4«] + ,[« + N])WnNk (4)
相似的群組方式也可以用在方程式⑴的其他子 項上;藉著這個方法,所需複數乘法的個數便可大約 減半。我們也可以利用某些係數其實數或虛數部分為 或0的情形’免去使用乘法的運算。總而言之,利 用上述的特性可以有效的達到簡化運算複雜度的目 快速傅利葉轉換器架構是一種實現快速傅利苹轉 寅算法的訊號流程圖的方式。對於即時應用方面, 有兩種實現快速傅利葉轉換演算法的架構非常受歡 7 ^323^50 迎,分別是管線化架構與記憶體架構。 管線化架構具有很高的規則性,並且實現時易於 參數化,與記憶體架構相較,它的特色為較高的產出 率’同時維持硬體的複雜度不至於過大。一個有效得 至:管線化架構的方法’即是將傅利葉演算法的訊號流 程圖直接映射成硬體的資料流程。有兩種常見的管線 化架構’分別為單-路徑延遲回饋(SDF),以及多重路 徑延遲交換器架構(MDC)。 第1 6圖為基底·2頻率拆解演算法的_架構7 區塊^在快㈣㈣轉換為16點時’訊號流程圖上 需:4個碟型階段7 1 ’而每一階段分別有一個碟型 ,算單元7 2 ’而回饋暫存器7 3用來儲存碟型運算 單元72的輸出資料。這些碟型運算單元72在所需 資料都到達輸入端時,進行碟型運算的動作,否則只 進行交換動作並把資料存入回饋暫存器7 3中。在 SDF架構中’所需要的記憶單^數是最少的;然而, 其碟型運具單元與乘法器使用率只有5〇%。 與基底-2SDF架構類似,基底_4SDF的架構也可 以直接重訊號流程圖導出,基底_4的架構可以用較少 的階段來實現相同點數的快速傅利葉轉換,然而其碟 型運算單元的設計卻較為複雜。 如第1 7圖所示MDC架構8比SDF架構7更為 直接’如同訊號流程圖上的碟型路徑,硬體架構上直 8 1323^50 接使用平行的資料路徑,而延遲單元8 i直接擺放在 資料路徑上以取代SDF架構7之回饋暫存器7 3的方 法;在兩個運算階段中間,交換器82用來轉換資料 至正確的位置’第17圖中由於平行資料路徑的使 用,基底-2 MDC架構8的產出率為基底_2 SDF架構 7的兩倍,然而,所需要的記憶單元數目也比sdf架 構7多’並且額外需要交換器8 2的使用。
基底-4 MDC架構的原理跟基底·2的相同,在基 底-4 MDC架構中,因為使用了 4個平行資料路徑,可 以達到更高的產出_ ’㈣’其記憶單元的需求與硬 體複雜度也相對提高。 記憶體架構被認為是最省面積的實現快速傅利葉 轉換的方法。它通常包含了 一個計算單元、傅利葉旋 轉係數記憶體及用來儲存輸出輸入與内部資料的記憶 體。這種架構的特點在於它通常只使用一個或極少的 籲碟型運算單元’通常碟型運算單元跟乘法器消耗了管 線化架構中大部分的面積與功率,因此記憶體架構可 以降低這方面的硬體面積,近一步的可以降低功率的 消耗。 第1 8圖為一般的記憶體架構之區塊圖。記憶體 架構的硬體複雜度主要集中在控鮮it 9 _L,由於它 只有一個或極少的碟型運算單元9丄,對於訊號流程 圖上的執行順序通常是一次一個階段;記憶體架構使 1323^50 用έ己憶體模組9 2來儲存内部t繼資料,由於各個階 段的資料排序各不相同,它們在每次運算後被存進記 憶體的方法必須經過特別的設計。 雖然可用的碟型運算單元9 1數目減少了,但是 訊號流程圖上所需的碟型運算數目卻沒變,因此,記 憶體架構有者較低的產出率。在基底—r的演算法中, 一個N點的快速傅利葉轉換需要個基底_r的 碟型運算。假設記憶體頻寬為K,而一個碟型運算需 時t,那麼計算一個N點的快速傅利葉轉換需要: —次FFT的時間=Axl〇g,x:xi =罝xi〇g r K Κ (5) 從上面的方程式可以看出,計算一次快速傅 利葉轉換的時間隨著Κ線性地遞減,而隨著Γ指數性 地遞減;因此’在記憶體架構中想要提升產出率,使 用較高基底的演算法是比較有效率的方法。 一個能執行不同點數的快速傅利葉轉換處理器通 常佔有優勢,對於管線化架構來說,可重組的架構可 以容易的達成;根據快速傅利葉轉換演算法的原理, 其用意在於巡迴地將Ν點的傅利葉轉換拆解成較小點 數的傅利葉轉換;因此’在每個基底-r的碟型階段後, N點的傅利葉轉換會被拆解成r個N/r點的傅利葉轉 換,而管線化架構為訊號流程圖的直接映射,其後面 的階段其實便是較小點數的快速傅利葉轉換架構。因 此,藉著直接將輸入資料輸入後方階段的方法,管線 化可重組用來計算較小點數的快速傅利葉轉換。 …:而,這樣的重組方式需要相當多的多工器,尤 其當我們想要在快速傅利葉轉換點數上有較大彈性 時。在各階段間加上多工器不僅增加了面積與功率的 〇 消耗,也影響了整體架構在速度上的表現 【發明内容】 本發明之主要目的係在於,可利用第一及第二碟 型,算單元與可重組碟型運算單元,並透過第一碟型 運算單元的重覆使用’將不同點數之快速傅利葉轉換 最多分為四級運算階段,達到節省計算時間及硬體成 本之功效。 為達上述之目的,本發明係一種管線化架構可重 組混合基底的快速傅利葉轉換處理器,包含一第一交 換器;一與第一交換器連接之第一多功器;一與第一 ^力器連接之第-碟型運算單元;—與第—碟型運算 单元連接之乘法H與乘法器連接之記憶單元;一 與乘法器及第-多工力器連接之第一暫存器;-與第一 暫存器連接之第-浮點處理單元;—與乘法器連接之 第二暫存器;一與乘法器連接之第三暫存器;一盘 二、三暫存器連接之第二浮點處理單元;一與第二、 三暫存器連接之第二多功器;一與第―交一 多功器連接之第三多功器;一盥第_夕、壷槌第一 乐二多功器連接之第 二碟型運算單it卜與第二碟型運算單元連接之常數 1323850 乘法器;一與常數乘法器連接之第四暫存器;一與常 數乘法器連接之第五暫存器;一與第四、五暫存器連 接之第三浮點處理單元;一與第四、五暫存器連接之 第四多功器;一與第四多功器連接之可重組碟型運算 單元;以及一與可重組碟型運算單元連接之第二交換 器。 、 【實施方式】 請參閱『第1〜1 5圖』所示:本發明係一種管 線化架構可重組混合基底的快速傅利葉轉換處理器, 其係由第一交換器11、第二交換器12、第一多功 器21、第二多功器22、第三多功器23、第四多 功器2 4、第一碟型運算單元3 1、第二碟型運算單 元32、可重組碟型運算單元33、乘法器41、記 憶單元42、常數乘法器43、第一暫存器51、第 一暫存器5 2、第三暫存器5 3、第四暫存器5 4、 第五暫存器5 5、第一浮點處理單元6 1、第二浮點 處理單元6 2以及第三浮點處理單元6 3所構成; 而該第一多功器2 1係與第一交換器1 1連接, 第一碟型運算單元3 1係與第一多功器2 1連接,乘 法器係與第一碟型運算單元3 1連接,記憶單元42 係與乘法器4 1連接,第一暫存器5 1係與乘法器4 1及第一多功器2 1連接,第一浮點處理單元6 1係 與第一暫存器5 1連接,第二暫存器5 2係與乘法器 12 4 1連接,第二暫存器5 3係與乘法器4 i連接,第 二浮點處理單元62係與第二、三暫存器52、53 連接’第二多功器22係與第二、三暫存器52、5 3連接’第三多功器2 3係與第一交換器工丄及第二 多功器2 2連接’第二碟型運算單元3 2係與第三多 功器2 3連接,常數乘法器4 3係與第二碟型運算單 703 2連接,第四暫存器5 4係與常數乘法器4 3連 接,第五暫存器55係與常數乘法器43連接,第三 浮點處理單元63係與第四、五暫存器連接54'5 5 ’第四多功器24係與第四、五暫存器54、55 連接,可重組碟型運算單元3 3係與第四多功器24 連接,第一父換器1 2係與可重組碟型運算單元3 3 連接。 本發明所提出之主要方式係在於,可使第一碟型 運元3 1、第二碟型運算單元3 2、可重組碟型 運算單元3 3能用來計算點數從16到4〇96點範圍的 快速傅利葉轉換演算法,唯此範圍内需為2的次方; 也就疋說,把Ν點的快速傅利葉轉換拆解成最多四個 不同點數的傅利葉轉換,每個點數都是2的次方,且 Ν為此最多四個不同點數的乘積。然而,同一個快速 傅利葉轉換可用好幾種不同點數的拆解方式來組合, 對於相同點數的快速傅利葉轉換來說,硬體設計使用 多個不同的組合方式是多餘的,因此本發明對不同點 1323850 數的快速傅利葉轉換各指配了一個特定的混合基底演 算法。 較高基底的演算法被排在較前面的階段,並且以 基底-8演算法為基礎,點數較小的快速傅利葉轉換使 用跳過刖面階段的方法來實現。例如,對512點的快 速傅利葉轉換’可以使用基底_8演算法將其分解成三 級管線化架構,而不用使用四級;在這種情形下,本 發明便如同一般管線化可重組架構,跳過第一級的運 算階段,採用基底-8/8/8三級分解的演算法而不是使 用基底-8/8/4/2或其他需要四級分解的演算法。小於8 的基底演算法被安排在最後一個階段,這樣本發明只 需要把最後-級設計成可重組碟型運算階段,而前面 三級在所有模式下皆為基底的碟型運算階段。所產 生的基底安排方式如第2圖所示;對於快速傅利葉轉 換點數為{1024, 2048, 4096}的情形,本發明最多只需 要4級的碟型運鼻p身段;同時’對於快速傅利葉轉換 點數為{128, 256, 512}的情形需要3級,而對{16, 32 64}點只需要2級。 ’ 因此,在本發明中,所需要的碟型運算單元的種 類即疋基底-2、基底·4跟基底_8的碟型運算單元。根 據頻率拆解的演算法,8點離散傅利葉轉換的流程圖 场圖6所示其並不需要使用到真正的複數乘法運 异’而是簡單的複數乘法:±j、、及例)/, 2’廷些可使用簡單的移位與加法的運算來 圖6中,若忽略第-級,餘下之部分其實便是兩個平 订的4點傅利葉轉換的組合;亦或在忽略第一、二級 的情況下,其實便是四個_ 风疋四個千灯的2點傅利葉轉換的組 。。因此’基底-8的碟型運算單元也可以作為基底·4 或基底_2的碟型運算單元。另-個好處則是,在改變 基底模式的過程當中,資料路徑的寬度可—直保持在 在實體電路設計時,由於各暫存器5 1、5 2、 3 54 55位元寬度的限制,想要有完全準確 度通常是不可能的。例如,在實現快速傅利葉演算法 時,本發明必須防難㈣㈣;躲每個定點加法 來說:Μ位元為例,需要(M+丨)位元來儲存其和丨然 而到最後’仍需要使用進位的方法取其當做最 終結果’如此—來便產生了量化錯誤。對於訊號的品 質分析’可用抗雜訊比(SNR)來表示,而每一次的進位 、、。果都會ie成抗雜訊比的衰弱^簡單的分析顯示,抗 雜訊,Ik著N2遞減’或者是每個階段遞減—個位元。 也就疋說,如果想要維持抗雜訊比不變,在每經一 個基底·2的碟型運算階段,各暫存器51、52、5 3 5 4 5 5長度就必須多增加一個位元。 在本發月所k出之架構中,係使用第一浮點處理 單元6 1第—浮點處理單元6 2以及第三浮點處理 15 1323850 單元6 3以區塊浮點方法(BFP)來降低量化錯誤;而區 塊浮點的概念在於:把現行資料分為互不重疊的區 塊’而每一區塊根據其中數值最大的資料樣本作調 整’並對該區塊指定其指數。如圖8所示,初使區塊 對其中最大的字元作常化(normalize),並且得到一個 *化係數K,接著對常化後的資料作定點運算,當這 個區塊中的資料都計算完畢,再根據先前得到的常化 係數’將整個區塊的資料移位回原來的準確點。由於 輸入訊號運算前都先常化過,區塊浮點通常比定點運 异有著較好的表現。 為使用第一浮點處理單元6 1、第二浮點處理單 元6 2以及第二浮點處理單元6 3之區塊浮點方法 (BFP) ’本發明首先必須先分割出所謂的區塊,第3圖 係為128點快速傅利葉轉換使用本發明的方法,其區 塊被安排的情形〇在每次基底_Γ的碟型階段後,資料 便會被分割成r個群組’而每個群組之後的運算資料 只會來自於該群組或其之前的區塊;在範例中,在第 1個基底-8階段後,資料被分成了 B-0〜b-7八個區 塊,而從B-0之後開始的運算,只會用到B_〇中的資 料,也就是說,C-0〜C-7區塊中的運算,並不會牽扯 到B-1〜B-7區塊中的資料。本發明可稱B_〇為C-0〜 C-7區塊的供給區塊,而A-Ο則為B-0〜b_7區塊的供 給區塊。 ^323,850 為了採用區塊浮點的方法》區塊的執行順序必須 根據兩個原則:首先,在其供給區塊尚未計算完成時, 任何區塊不能開始運算;另外,對於每一階段的執行順 序,皆是從上到下。 在每計算完一個區塊的資料後,這些資料會被衡 量並得到一個常化係數;根據這個常化係數,資料在 進入下一級運算階段前會被常化。這些常化係數在執 行時被儲存起來,而最後的常化係數則是所有供給區 塊的常化系數加總,最後的輸出要根據最後的常化係 數來移位,得回與輸入資料相同的準確度。也就是說, 對於x(0)來說,其最後輸出的常化係數,乃區塊A_〇 跟B-0的常化係數加總;而X(4)的輸出常化係數則是 區塊A-ο跟1的常化係數加總,以此類推。 且用來儲存中繼資料的所需暫存器5 1、5 2、 5 3、5 4、5 5儲存空間數目分別與對應之區塊的 大小有關;第4圖列出了在不同點數的快速傅利葉轉 換下,每—階段間所需要的暫存器5 1、5 2、5 3、 5 4 5 5儲存空間數目。以128點快速傅利葉轉換 為丨如第3圖之訊號流程圖所示,本發明的混合基 f =算法將其分解成3個階段;剛開始,第一級的128 筆貝料必須先計算完才能開始第二級之後的運算,因 此=一、二級中間需要128單位的記憶單元來儲存 中"貝料對第二級來說,128筆資料被基底-8的演 17 ^^850 算法拆解成8個16點的區塊,同樣的,在二、三級中 間本發明需要16單位的記憶單元來儲存中繼資料。 >本發明中資料路徑的寬度為8個字元(點數),而 凡代表一個包含實數與虛數部分的複數資料每 :部分位元長度為16位元’所以資料路徑的寬度總共 為 8x2x16=256 位元, 所提出的可重組架構實際上有四級的碟型運算階 段丄然而第1圖中所顯示只有三級,這是因為本發明 將前兩級合併為一個階段,配合第2圖,第一級的碟 型運算只有在i 024、2048或4096 ·點快速傅利葉轉換 時啟動。由區塊執行順序之原則,在傅利葉轉換拆解 成四個運算階段的情況下’第一運算階段與第二運算 階段在實際計算上並不會重疊,因為第二個運算階段 的區塊要等到第-個運算階段的區塊計算完成才會啟 動,因此,本發明可以用相同的硬體,即第一碟型運 算單元3 1,來計算這兩個運算階段。 再如第2圖所示’最後一級為可重組碟型運算單 元33 m為第一碟型運算單元31及第二碟型 運算單元32,而在第一碟型運算單元31、第二碟 型運算單it 3 2及可重組碟型運算單元3 3各個;段 之間,第-暫存器51、第二暫存器52、第三暫存 器53、第四暫存器54及第五暫存器55與記憶單 元4 2用來儲存及轉換中繼資料。 1323850 c 而該帛豸型運算單元31、第二碟型運算單元 3 2及可重組碟型運算單元3 3,分別係用以計算8 點傅利葉轉換的基底_8碟型運算單元、以及可重組 基底-2、基底-4或基底_8的可重組碟型運算單元。苴 中第-碟型運算單元31及第二碟型運算單元⑴斤 需要的乘法運算均是簡單的乘法,土卜(1办,2跟 例)/m以㈣運算錢正負號與實虛數部份的 調換調整,而乘以的運算可由第5圖之方法加 以實現。因此’這些簡單乘法僅需要移位 換的動作即可完成’在不需要用到額外乘法器的狀= 下,整個8點的傅利葉轉換式可以在i個時脈週期内 完成(如第6圖);也使用了完全平行的資料路徑。其 内部字元長度為16位元,與輸人的字元長度相同。' 而在實現可重組碟型運算單元3 3時如第7圖所 示’該可重組碟型運算單元33龍塊圖與第一碟型 運算單元3 1及第二碟型運算單元3 2相似,然而在 兩階段中間加上了多工器331,在三級的拆解當 中,使用了兩組的多工器3 3 1,分別利用ENA3 3 2跟ENB3 3 3來控制;多工器3 3丄用來選擇前一 級的資料或是第-碟型運算單元3!及第二碟型運算 單元3 2的輸人;當碟型運算單元要進行基底_8的碟 型運算時,ENA3 3 2跟職3 3 3便設為〇;當碟 型運算單元要進行基底_4的碟型運算時,ENA3 3 2 1323850 便:為1而enb3 3 3設為〇;而當碟型運算單元要 進行基底·2的碟型運算時,僅需要最後—級因此, 將JNB3 3 3設為1。控制訊號與運作模制的關係 如第8圖所示。 另對各暫存器5 _ ^ A dd、D3、54、55 而
。其所需容量會隨著不同點數的快速傅利葉轉換而 改隻’因此’當僅需要較小容量的模式時,多餘的暫 存器空間能夠被切斷電源以達省電㈣·因此需要良 好的電路切割設計。另外,在輸出至下一運算階段前, 各暫存器51、52、53、54、55也必須負責 重新排列資料序列。 此外,本發明提出的各暫存器5 1、5 2、5 3、 54、5 5使用了雙輸入的暫存器乃以D型的正反器 ^礎,於其輸人端使用多卫器5 8來選擇輸入,並 需要增加-個CTRL控制訊號5 6來選擇其輸入,經 由調整CTRL控制訊號5 6與似控制訊號已7便可 控制暫存器51、52、53、54、55裡的資料 流向(如第9、1〇圖所示)。而在本發明第丄圖之架 構中,共需要RB_4096、RB一5 12跟RB一64等各暫在 ^1^2^3^4>55^t^B_4096 跟RB_512可歸類為同一類型,而RB—64則為另一類 型二配合第2圖所示在RB_64之前的階段為第一碟型 運算單元3 1及第二碟型運算單元3 2運算階段,、而 20 1323850 其後則是可重組碟型運算單元3 3運算階段。依據第 4圖所示,對不同的快速傅利葉轉換點數,RB—64可 能的容量為16、32或64字元,如第丄丄圖中即揭示 了在三種不同模式下的16字元區塊54丄、5 5丄下 32字元區塊542、552及64字元區塊54 5 5 3° ' 假設在目前的模式下,第四及第五暫存器54 5 5需要Μ筆資料容量’在每個時脈週期8筆咨 料輸入的情形下,則第四及第五暫存器 _ 要遞個時脈週期接收從上一級來的資料。在輸2 間,進人資料在時脈i的位置索51為: i+(M/8)*k 中一裡^ G〜7代表寬度為8的資料路徑令的其 一“。而在㈣所欲得到的ΐ料排序應為Γ • j*(M/8)+k _在這裡’j為輸出時脈的計數。 5=元模式為例,該第四及第五暫存器5 5需要了時脈週期接收資料, 5
5 5 3 (PHASE=1) g# , - z J 輪入端進入,而每一個時二級的資料從8個指定的 移動純於母個時脈週期’暫存器組進行往上 移動的動作;也就是說 仃任上 55選擇其從下:第四及第五暫存器“、 卜万來的輸人。在輸出相位5 4 4、5 21 4 (PHASE=0)時’第四及第五暫存器54、55 進=往右移動的動作,而所需的輸出資料即可從輸出 端得到。因此’本發明可以利用PHASE訊號來控制第 四及第五暫存器5 4、5 5裡的資料流向;phase在 。匕作為第四及第五暫存器54、裡的ctrl訊 號,也就是用來選擇第四及第五暫存器54、5 5的 輪入資料;類似的操作與資料流向也適用於32字元盥 64字元之模式。 ^ 一為了應付不同的快速傅利葉轉換模式,必須建立 三種不同的第一暫存器51、第二暫存器5 2、第三 暫存器5 3、第四暫存器54及第五暫存器55,當 僅使用部分64字元架構搭配將輸入資料導入相對應 的位置,便可使之進行32字元或16字元的暫存器模 式’此架構優點在於:當僅需要較小容量的暫存器組 時,沒有使用到的暫存器可以完全的切斷電源,因為 它們並不會影響到正確的資料流向運作。 另第一暫存器51 (RB_512)、第二暫存器52 (RB_4096)及第三暫存器5 3 (RB—4096)的結構屬 於同一類型;同樣配合第2圖,可以發現第一暫存器 5 1、第二暫存器5 2及第三暫存器5 3之前與之後 的階段係第一碟型運算單元31及第二碟型運算單元 3 2 ’而所需的容量則可能變換從128字元到4096字 元。 22 如第1 3圖戶斤- 組需要Μ筆資料V假設在目前的模式下,暫存器 輸入的情形下,/’在每個時脈週期8筆平行資料 第三暫存器53需|暫存器51、第二暫存器52及 的資料。在輪人^Μ/8個時脈週期接收從上一級來 為: 功間,進入資料在時脈i的位置索引 (11) i+(M/8)*k =4裡k〜〇〜7代表寬度為8的資料路徑 中一條。而在輪屮甘r旳具 卜封所欲得到的資料排序應為: 8 (12) 在逆裡’ j為輸出時脈的計數。舉12 例’第-暫存器Η、第二暫存器52及;=為 2了視為8個區塊的組合,八筆輸入資料分別進入 -中-個區塊。在輸入期間,最底列的 2第二暫存ϋ52及第三暫存器53進行往右移^ ㈣作’ fit兩個時脈週期’在上方的暫#器便進行 往上移動的動作,進而清空最底列的暫存器,使得接 下來的資料能夠繼續進來。在㈣16個時脈週期之 後’第一組輸出資料便可由輸出端得到;而在輸出期 間,整體暫存器組則是每個時脈週期進行往右移動的 動作,依序輸出資料。 上 述動作所需要的控制訊號也具有簡單的規則 23 1323850 性’本發明必須同時使用CLK跟CTRL訊號來控制。 首先’本發明把暫存器組分成兩個控制區域,如第工 4圖所示。對於區域丨裡的雙輸入暫存器來說,它們 使用相同的時脈訊號,並且利用PHASE訊號作為選擇 輸入的訊號。對區域2裡面的暫存器來說,除了特定 • 的輸入端,其他暫存器的選擇輸入訊號一直都設為〇 以進行往右移動的動作。這8個區塊各有指定的輪入 端,而對於位在輸入端的暫存器來說,pHASE訊號用 籲 來作為選擇輸入的訊號》 ~ 基於上述的設計,本發明可以為這種類型的暫存 器模組歸納出一個規則。這些暫存器模組由八個相同 結構的基本區塊組成,並且依序連接在一起,而每一 個基本區塊由8列雙輸入暫存器所組成。在所需暫存 器容量為Μ筆資料時,基本區塊的寬度為(河/82)字 元,而對兩個不同控制區域僅需使用1^八兕跟時脈訊 鲁號來控制,區域1中的時脈訊號則是每(Μ/82)個週期 觸發一次。 ' 根據第4圖,在不同的快速傅利葉轉換點數下, .第二暫存器52及第三暫存器53可能操作在容量 128、256或512字元的模式’而第—暫存器5丄則可 能操作在1024、2048或4096字元模式。跟之前的第 四暫存器5 4及第五暫存器5 5一樣,本發明也可將 其設計為可重組的架構;5圖揭示了可重組的 24 1323850 RB-512架構,其可重組為128、256或512字元模式; 其基本區塊的寬度為8字元,而指定的輸入負責連接 到了三個不同的暫存器。當RB_512要進行128字元 模式的動作時,輸入資料最右邊的輸入暫存器,同時 也把基本區塊的寬度設為2字元。而輸入暫存器所在 的那一行暫存器,現在則改從前一個基本區塊的輸出 端接收資料,而不是從前一行暫存器。而基本區塊中 最左邊剩下的六行暫存器,因為與正確的資料運行無 關,本發明可以將他們完全的切斷電源。根據這樣的 結構設計,本發明僅需要設定相對應的輸入暫存器並 且調整控制訊號,便可改變暫存器組的模式。而額外 的硬體花費為每個暫存器單元中所增加的多工器 在上述暫存器模組的設計中,這些暫存器模組在 輸出期間,無法接收新的輸人資料,即使其中仍 存器工位’ k疋因為暫存器組裡的資料流動有兩個方 向’而非傳統的單-方向,在正確的管線運作中 存器組應該在每輸出完—組f料後,便能接收 的輸入資料;然而所設計的暫存器模組卻不
個功能,因此整個資料洧動 ^ W 器模組可以使用。動㈣停,直到整個暫存 為了解決這個問題,本發明时法是多插入 一樣的暫存器模組,因此每—級會有兩個4_# 25 個暫存器模組位於輪出期間,前-級 组會進人势Ψ —個暫存^模組;接著第二個暫存器模 二第-個暫― Μ =述’本發明管線化架構可重組混合基底的 可利=處理器可有效改善習用之種種缺點, ?用第-及第二碟型運算單元與可重組碟型運算單 :’並透過第一碟型運算單元的重覆使用,將不同點 、,:速傅利葉轉換最多分為四級運算階段,達到節 ,計算時間及硬體成本之功效,進而使本發明之産生 月fc*更進步、更實用、更符合使用者之所須確已符合 發明專利中請之要件’爰依法提出專利申請。 ,惟以上所述者,僅為本發明之較佳實施例而已, 當不能以此限定本發明實施之範圍;故,凡依本發明 申凊專利1巳圍及發明說明書内容所作之簡單的等效變 化與修飾,皆應仍屬本發明專利涵蓋之範圍内。 26 1323850 【圖式簡單說明】 第1圖,係本發明之管線化架構可重組混合基底的快 速傅利葉轉換處理器(RMR FFT)的架構示意 圖。 第2圖’係本發明之基底安排方式示意圖。 . 第3圖,係本發明之128點快速傅利葉轉換的訊號流 . 程暨區塊示意圖。 φ 第4圖,係本發明不同點數快速傅利葉轉換所需之暫 存器儲存空間數目示意圖。 第5圖,係本發明對1/V2乘法之實現電路區塊示意 圖。 第6圖,係本發明基底_8碟型運算單元之區塊示意 圖。 第7圖,係本發明可重組碟型運算單元之區塊示意 • 圖 第8圖,係本發明控制訊號與可重組碟型運算單元運 作模式間之關係示意圖。 第9、1 〇圖,係本發明雙輸人暫存器之區塊示意圖。 第11圖,係本發明RB一64在不同容量時之區塊示 意圖。 第1 2圖,係本發明暫存器組於16字元模式時之資 料流向示意圖。 27 1323850 第1 3圖,係本發明暫存器於128字元模式 流向示意圖。 #料 第1 4圖,係本發明暫存器之控制區域示意圖。 第1 5圖,係本發明可重組的RB—512之區塊圖示音 圖。 第1 6圖,係習用之基底_2頻率拆解SDF架構示意 . 圖。 # 第17圖’係習用之基底MDC架構示意圖。 第1 8圖,係習用之記憶體架構之區塊圖示意圖。 【主要元件符號說明】 (本發明部分) 第一交換器1 1 第二交換器1 2 第一多功器2 1 •帛二多功器22 第三多功器2 3 第四多功器2 4 第一碟型運算單元3 1 第二碟型運算單元3 2 可重組碟型運算單元3 3 多工器3 3 1 28
1323850 I ΕΝΑ 3 3 2 ENB3 3 3 乘法器4 1 記憶單元4 2 常數乘法器4 3 第一暫存器5 1 第二暫存器5 2 第三暫存器5 3 第四暫存器5 4 輸入相位543、553 輸出相位544、554 第五暫存器5 5 CTRL控制訊號5 6 CLK控制訊號5 7 多工器5 8 第一浮點處理單元61 第二浮點處理單元6 2 第三浮點處理單元6 3 (習用部分) SDF架構7 29 1323850 碟型階段7 1 碟型運算單元7 2 回饋暫存器7 3 MDC架構8 延遲單元8 1 交換器8 2 控制單元9 碟型運算單元9 1 記憶體模組9 2

Claims (1)

  1. I32S850 十、申請專利範圍: 1.一種管線化架構可重組混合基底的快速傅利葉轉換 處理器,其包括: 一第一交換器; 一第一多功器,係與上述第一交換器連接; • 一第一碟型運算單元,係與上述第一多功器連 接; 一乘法器,係與上述第一碟型運算單元連接; 一記憶單元,係與上述乘法器連接; 一第一暫存器,係與上述乘法器及第一多功器 連接; 一第一洋點處理單元,係與上述第一暫存器連 接; • 一第二暫存器,係與上述乘法器連接; 一第三暫存器,係與上述乘法器連接; ' 一第二浮點處理單元,係與上述第二、三暫存 . 器連接; 一第二多功器,係與上述第二、三暫存器連接; 一第三多功器,係與上述第一交換器及第二多 功器連接; 31 1323850 接; 接; 第二碟型運算單元,係與上述第三多功器連 一常數乘法器,係與上述第二碟型運算單元連 四、五暫存 一第四暫存器,係與上述常數乘法器連接; 第五暫存器,係與上述常數乘法器連接; 一第二浮點處理單元,係與上述第 器連接; 第四夕功器,係與上述第四、五暫存器連接; 一可重組碟型運算單元,係與上述第四 連接;以及 15 連接。 第一父換器,係與上述可重組碟型運算單 疋 •依申請專利範圍第1項所述之管線化架構可重組混 合基底的快速傅利葉轉換處理器,其中,該第一 型正 二、三、四及第五暫存器係利用具雙輸入的D 反器(flip-flop)組成。 3·依申請專利範圍第1項所述之管線化架構可重組混 合基底的快速傅利葉轉換處理器,其中,該第一、 二、三、四及第五暫存器係利用時脈及觸發器輸入 控制訊號來決定資料在暫存器組内的流向。 32 4 ·依申請專利範圍第i項所述之管線化架構可重組混 合基底的快速傅利葉轉換處理器,其中,該可重組 碟型運算單元基底-2之運算單元。 5 ·依申請專利範圍第丄項所述之管線化架構可重組混 合基底的快速傅利葉轉換處理器,其中,該可重組 碟型運算單元基底-4之運算單元。 6 ·依申請專利範圍第i項所述之管線化架構可重組混 合基底的快速傅利葉轉換處理器,其中,該可重組 碟型運算單元基底_8之運算單元。
TW095148299A 2006-12-21 2006-12-21 Pipeline structure reconfigurable mixed-radix Fast Fourier Transform TW200828044A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW095148299A TW200828044A (en) 2006-12-21 2006-12-21 Pipeline structure reconfigurable mixed-radix Fast Fourier Transform
US11/650,557 US7849123B2 (en) 2006-12-21 2007-01-08 Pipeline-based reconfigurable mixed-radix FFT processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW095148299A TW200828044A (en) 2006-12-21 2006-12-21 Pipeline structure reconfigurable mixed-radix Fast Fourier Transform

Publications (2)

Publication Number Publication Date
TW200828044A TW200828044A (en) 2008-07-01
TWI323850B true TWI323850B (zh) 2010-04-21

Family

ID=39544455

Family Applications (1)

Application Number Title Priority Date Filing Date
TW095148299A TW200828044A (en) 2006-12-21 2006-12-21 Pipeline structure reconfigurable mixed-radix Fast Fourier Transform

Country Status (2)

Country Link
US (1) US7849123B2 (zh)
TW (1) TW200828044A (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008141311A1 (en) * 2007-05-10 2008-11-20 Quantenna Communications, Inc. Multifunctional signal transform engine
US20080320069A1 (en) * 2007-06-21 2008-12-25 Yi-Sheng Lin Variable length fft apparatus and method thereof
US8275820B2 (en) * 2007-07-06 2012-09-25 Mediatek Inc. Variable length FFT system and method
US8386552B2 (en) * 2008-09-17 2013-02-26 Freescale Semiconductor, Inc. Fourier transform processing and twiddle factor generation
US8516027B2 (en) 2010-04-30 2013-08-20 Src, Inc. Method and system for bit stacked fast Fourier transform
US8990281B2 (en) * 2012-09-21 2015-03-24 International Business Machines Corporation Techniques for improving the efficiency of mixed radix fast fourier transform
US9279883B2 (en) * 2013-02-19 2016-03-08 Infineon Technologies Ag Method and device for radar applications
KR102216063B1 (ko) * 2015-01-21 2021-02-16 한국전자통신연구원 Lte 시스템의 ifft 입력 제어 장치
CN104679720A (zh) * 2015-03-17 2015-06-03 成都金本华科技股份有限公司 一种实现fft的运算方法
CN105445759A (zh) * 2015-11-09 2016-03-30 湖南中森通信科技有限公司 一种导航基带抗干扰多系统复用方法
CN109117188B (zh) * 2018-08-06 2022-11-01 合肥工业大学 一种多路混合基fft可重构蝶形运算器
CN111782581B (zh) * 2020-07-30 2024-01-12 中国电子科技集团公司第十四研究所 一种可重构信号处理运算单元及基于其的重组单元
CN115080503A (zh) * 2022-07-28 2022-09-20 中国人民解放军63921部队 一种针对fft基模块映射的脉动阵列可重构处理器

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4872132A (en) * 1987-03-13 1989-10-03 Zoran Corporation Method and means for block floating point arithmetic
US5163017A (en) * 1990-03-23 1992-11-10 Texas Instruments Incorporated Pipelined Fast Fourier Transform (FFT) architecture
US5293330A (en) * 1991-11-08 1994-03-08 Communications Satellite Corporation Pipeline processor for mixed-size FFTs
US5481488A (en) * 1994-10-21 1996-01-02 United Microelectronics Corporation Block floating point mechanism for fast Fourier transform processor
KR100313501B1 (ko) * 1999-01-12 2001-11-07 김영환 Cbfp알고리즘을 갖는 fft프로세서
KR20020034746A (ko) * 2000-11-03 2002-05-09 윤종용 고속 및 면적효율적인 알고리즘을 적용한 고속 프리에변환 프로세서
US20050015420A1 (en) * 2003-07-18 2005-01-20 Gibb Sean G. Recoded radix-2 pipeline FFT processor
US7428564B2 (en) * 2003-11-26 2008-09-23 Gibb Sean G Pipelined FFT processor with memory address interleaving

Also Published As

Publication number Publication date
US7849123B2 (en) 2010-12-07
TW200828044A (en) 2008-07-01
US20080155003A1 (en) 2008-06-26

Similar Documents

Publication Publication Date Title
TWI323850B (zh)
US10496855B2 (en) Analog sub-matrix computing from input matrixes
CN111291859B (zh) 通用矩阵-矩阵乘法数据流加速器半导体电路
US20170168817A1 (en) Conditional operation in an internal processor of a memory device
US20140289445A1 (en) Hardware accelerator system and method
Chiper et al. Systolic algorithms and a memory-based design approach for a unified architecture for the computation of DCT/DST/IDCT/IDST
US8949650B2 (en) Processor embedded memory structure with lower energy consumption and high speed without memory bottleneck
Chen et al. Continuous-flow parallel bit-reversal circuit for MDF and MDC FFT architectures
US9262378B2 (en) Methods and devices for multi-granularity parallel FFT butterfly computation
Le Ba et al. An area efficient 1024-point low power radix-2 2 FFT processor with feed-forward multiple delay commutators
CN105224505A (zh) 基于矩阵转置操作的fft加速器装置
Mohanty et al. Area–delay–energy efficient vlsi architecture for scalable in-place computation of fft on real data
Xu et al. Heterogeneous systolic array architecture for compact cnns hardware accelerators
CN103412851A (zh) 一种高精度低功耗的fft处理器
WO2014080617A1 (ja) 高速フーリエ変換回路、高速フーリエ変換処理方法及びプログラム記録媒体
Xu et al. HeSA: Heterogeneous systolic array architecture for compact CNNs hardware accelerators
Wang et al. Scheduling of data access for the radix-2k FFT processor using single-port memory
WO2013097236A1 (zh) 多粒度并行fft计算装置
Pascoe et al. Reconfigurable supercomputing with scalable systolic arrays and in-stream control for wavefront genomics processing
EP4168943A1 (en) System and method for accelerating training of deep learning networks
Chang Design of an 8192-point sequential I/O FFT chip
Wahid et al. Hybrid architecture and VLSI implementation of the Cosine–Fourier–Haar transforms
Patil et al. An area efficient and low power implementation of 2048 point FFT/IFFT processor for mobile WiMAX
Li et al. Optimization strategies for digital compute-in-memory from comparative analysis with systolic array
Hazarika et al. Energy efficient VLSI architecture of real‐valued serial pipelined FFT