TWI234738B

TWI234738B - Re-configurable streaming vector processor

Info

Publication number: TWI234738B
Application number: TW092115849A
Authority: TW
Inventors: Philip E May; Kent Donald Moat; Raymond B Essick Iv; Silviu Chiricescu; Brian Geoffrey Lucas
Original assignee: Motorola Inc
Priority date: 2002-06-28
Filing date: 2003-06-11
Publication date: 2005-06-21
Also published as: EP1535171A1; US7159099B2; AU2003228247A1; EP1535171A4; US7100019B2; TW200405981A; WO2004003767A1; US20040117595A1; CN1666187A; US20040003206A1; JP2005531848A

Description

1234738 玖、發明說明：【發明所屬之技術領域】本專利申請案係關於共同待審之專利申請案「具有積體儲存器之互連裝置」（律師檔案號碼CML00101D)、「分數足址之記憶體介面」（律師檔案號碼CML00102D)、「流動向f處理器的排程器」（律師檔案號碼CML00108D)、「流動向里计算之線性圖形程式設計方法」（律師檔案號碼 CML00109D)，該等申請案係於各自的申請日提出，並經引用併入本文。本發明一般係關於電腦處理器領域。更具體而言，本發明係關於可重新配置流動向量處理器。【先前技術】為行動裝置（多媒體、圖形、影像壓縮/解壓等）計劃之許户新應用涉及非常多的流動向量計算。該等應用的計算速率通常超過最好的通用CPU所能提供的性能。因此，可望找到改善該等裝置之現有計算引擎性能的方法，以滿足該寺新應用的計算需要。严同時，該等新應用的本質為，標準及符合標準之最佳演算法在不斷變化’要求可程式且容易進行程式設計的解決万案。而且’時間對市場的壓力在增加。解決該問題之一方法為增加對軟體及硬體之先前投資的再利用。可程式性極大促進了在多個產品上重新利用硬體。藉由在裝置的多個實ί程式中使用統-程式模型，因而保持二進位相容性，藉此促進軟體的重新利用。 85656.doc 1234738 為滿足此需要嘗試使用硬體加速器。但該等方法未解決問題，因其重新程式設計能力有限。該等功能未固定之硬體加速器僅能改變其執行功能之參數，而不能改變功能之類型或排序。可程式解決方案存在於向量處理器、數位信號處理器、 SIMD處理器及 VLIW處理器中。由於其程式模型的限制使其難以進行程式設計且難以在各代硬體中保持統一的程式模型，因而該等解決方案未能解決問題。其程式模型的限制包括：資料路徑管線的程式員直觀性、記憶體的寬度及潛伏、記憶體的資料對準及明確的資源相依性。【發明内容】雖然本發明可容許許多不同形式的具體實施例，且所附圖式將顯示及本文還將詳細說明一或多個特定具體實施例，但是應明白，本文應視為本發明之原則的示範，並無意將本發明限制於所顯示及說明之特定具體實施例。在以下說明中，若干視圖中相同參考號碼係用於說明相同、類似或對應之部分。本發明之可重新配置流動向量處理器（Re-configurable Streaming Vector Processor; RSVP)係實施向量運算（即一資料元件序列上之一組相同運算）的一協同處理器。其係旨在藉由實施高速向量運算而提高嵌入式通用處理器（主機處理器）的性能。在RSVP程式模型中，向量運算之規格被分成兩個部分：存取和計算。【實施方式】 85656.doc 1234738 在本發明之一項具體實施例中，一可重新配置流動向量處理器包括數個功能單元，各單元具有一或多個用於接收資料值的輸入及一個用於提供資料值的輸出，以及一可重新配置互連開關及一微定序器。該可重新配置互連開關包括一或多個鏈路，各鏈路可按該微定序器的指示操作，將一功能單元的輸出耦合至一功能單元的輸入。該向量處理器還包括一或多個輸入流單元，用於從記憶體取回資料。各輸入流單元係由一主機處理器控制並具有至該主機處理器的一定義介面。該向量處理器還包括一或多個輸出流單元，用於向記憶體寫入資料，其也具有至該主機處理器的一定義介面。在另一項具體實施例中，該可重新配置互連開關包括一記憶體，用於儲存中間資料值。在該較佳具體實施例中，該輸入流單元之該定義介面形成該程式模型的第一部分。儲存於指示該可重新配置互連開關之序列的記憶體中的指令形成該程式模型的第二部分。. 圖1顯示RVSP硬體100之一示範性具體實施例。參考圖 1，數個功能單元102的輸出和輸入係藉由一可重新配置互連開關104互連。該功能單元可包括一乘法器106、一加法器108、一邏輯單元110及一移位器112。也可包括其他功能單元及一特定類型的多個功能單元。該功能單元的輸出可為單一暫存器或管線暫存器。該功能單元可支援多個獨立的運算。例如，該乘法器可具有一 128位元輸入及一 128位 85656.doc 1234738 疋輸出，並能夠實施兩個32x32到64或四個16x16到32位元的乘法’或實施其總數不超過128位元輸入或128位元輸出的任何乘法組合。該硬體還包括一或多個累加器丨丨4。在該較佳具體實施例中，該等累加器係當作累加器及儲存暫存 w 並與遠互連開關1 及一外部介面π 6連接。該外部介面116使RSVP可與一主機處理器連接，並允許該主機處理器存取累加器和RSVP的其他部件。功能單元1〇2及該可重新配置互連開關1 〇4定義RSVP的資料路徑。該功能單元及可重新配置互連開關104係鏈接至一微定序器丨丨8，該定序為包括一記憶體12〇(最好為一快取記憶體）以儲存一指令私式，m指令程式說明所需向量計算之資料流圖形的實施特別說明。在處理器時脈的各週期，該微定序器產生控制竽兀，其配置該互連開關中的鏈路並驅動該功能單元。常數單元120提供純量值的儲存和表現及穿隧節點功能。該王機處理器或該指令程式可載入該等純量值及穿隧初始化值。在運算中，輸入資料值係藉由一或多個輸入流單元 122(圖中僅顯示一個單元）提供給互連開關ι〇4。各輸入流單元122係由說明記憶體中資料分配的一組參數控制。該組參數係由該主機處理器提供，該輸人流單元係藉由外_ 介面U6連接至該主機處理器。類似地，各輸出流單元 124(圖中僅顯示-個單元）係由該主機處理器控制，並可操

作將資料自該可重新配置互連開關1〇4傳送至外部記S 體。輸人流單TC122及輸出流單元⑵係連接至同步資的微定序器118。 ~ 机 85656.doc -10 - 1234738 I示範RS VP的架構有利於將向量存取與向量計算分開運作。由輸入或輸出流單元實施的向量存取係由說明各輸入 ^輸出向里（其為部分該向量運算）之位置、形狀及類型構成。在該較佳具體實施例中，該等特性係透過兩個或多個參數說明： 1 ·向1位址·下一向量元件在記憶體中的開始位址。 2 ·跨步-從一個元件到下一個元件的符號增量。 3。跨距-跨越前的跨步數。 4·跨越-計算元件跨距數後的符號增量。 5.大小-各資料元件的大小（例如i、〕*#位元組）。除这等輸入及輸出向量外，該向量處理器還包括數個純量及累加器暫存器，其初始值可由程式員指^。該等暫存器係在向量計算中使用。對於該等累加器，在計算中可改變該等暫存器的值’並可留待以後存取使用。該程式模型的向量存取邵分係在該主機處理器所用的程式語言中說明’並在該主機上執行。向量計算由待應用於該等輸入向量之元件的部分排序運算子組、純量暫存器及導出各輸出向量元件之累加器組成。在本發明之該程式模型中，向量計算係藉由計算之資料流圖形的線性表現實施。在資料流圖形中，圖形中的各節點係使用節點描述符表示，節點描述符指定從中獲取其輸入資料的該節點或該等節點將要實施的運算。與其他 CPU不同，沒有明確命名暫存器以在運算子之間傳遞資 85656.doc -11- 1234738 料。一計算範例的c語言說明如下： void quant(short *out, short *inf int nf short qp) { long rq, b, c; rq = ((1 « 16) + qp) / (qp « 1); b = qp - ! (qp & 1); while (--n > 0) { c = *in++; if(c < 0) c += b; else if(c > 0) c -= b; ★out++ = (c * rq) / (1 «16 ); } } 圖2顯示一對應的資料流圖形。參考圖2，在區塊202載入一向量vl。在節點204獲得該向量的符號。在區塊206與 208分別載入純量值s2與si。在區塊210載入直接移位值 16。在節點212，向量vl由純量s2相乘。在節點214，從vl 中減去該乘法之結果。在節點216,該減法之結果與純量si 相乘，然後，在節點21 8向右移位16。最後在區塊220向量結果當作v0儲存。資料流圖形的線性形式如下： Q1: vld.sl6 (vl) // c = *in++; Q2: vsign.sl6 Q1 Q3: vscalar s2 // s2 is b Q4： vscalar si // si is rq Q5: vimm 16 Q6： vmul.sl6 Q2,Q3 // if(c<0) c+=b; Q7： vsub.sl6 Q1,Q6 // else if (c>0) c-=b; Q8: vmul.s32 Q7,Q4 // c *= rq; Q9: vasrO.sl6 Q8,Q5 // *out++ = c/ (1«16); 85656.doc - 12 - 1234738 該示範線性流形式使用的函數運算為： vld.sl6--自16位元資料值之向量載入下一個資料元件 vsign.sl6--計算該資料值的符號 vscalar--載入一純量值 vmul .sl6_-乘以兩個16位元資料值 vmul .s3 2—乘以兩個32位元資料值 vsub.si 6--減去兩個16位元資料值 vasi:(Ksl6—將一 16位元資料值算術右移該功能單元最好實施各種其他函數運算，包括向量元件加法（vadd)及累加（vadda)。在執行前，該線性圖形係排程於該RSVP資料路徑。該資料路徑可在各時脈週期重新配置。該等功能單元可聚合，即，可組合其子集形成較大的功能單元。該功能單元互連使該等功能單元可具有任意管線。該RSVP透過其程式模型促進高性能目標及快速應市。因其為協同處理器，RSVP最好使用單芯程式模型。雙芯解決方案（如通用CPU/DSP組合中使用的那種）更難以進行程式設計。因為，使用該等類型的解決方案，程式員必須使用兩組不同的程式工具，並且必須明確地處理CPU與DSP之間的同步。在本發明之程式模型内，向量存取說明係與向量計算說明分開。因此，程式員無須應付兩個問題的混雜。因為向量存取僅以五個參數說明，程式員可避免處理資料對準及填塞、記憶體匯流排寬度或記憶體潛伏的問題。在下方的 85656.doc -13 - 1234738 向量存取硬體處理該等問題。藉此，向量存取說明保持一致，而無論記憶體子系統或向量存取硬體的實施如何。這不僅簡化了程式員的工作，而且促進了二進位碼的相容性，因為無須修改RSVP二進位碼以反映該等實施的變化。該資料流圖形形式的向量計算說明不包括實施RSVP資料路徑的特定資訊。除非使用累加器與向量流單元（vector stream units ; VSU)，RSVP沒有任何資源依賴。特定而言，其沒有明確命名暫存器以在運算子之間傳遞資料。此舉消除了排程器的負擔，使排程器更容易實現最佳排程。因此，資料路徑可從一純量資料路徑改變成超純量資料路徑、VLIW或SIMD之類，其為程式員所瞭解，且不用改變 RSVP二進位碼。圖3及圖4說明該程式模型中向量存取說明與向量計算說明的分離。圖3顯示為RSVP產生代碼之方法的流程圖。在開始區塊302後，在區塊304指定計算的一資料流圖形。在區塊306，從該資料流圖形產生計算的一線性圖形。可人工或由一電腦程式自動產生該線性圖形。在一項具體實施例中，該電腦程式為使用者提供圖形使用者介面，以方便讀取該資料流圖形。在區塊308，於區塊306產生之該線性圖形係提供給一排程器。該排程器係一電腦程式，為高效使用RSVP資源依序進行函數運算。一旦排程完成，在區塊310即產生RSVP的二進位碼，過程於區塊312終止。應注意，該過程未考慮向量存取問題，如資料對準與填塞、記憶體匯流排寬度或記憶體潛伏。該等問題均由硬體處理。 85656.doc -14- 1234738 資料存取係由該主機處理器指定。圖4顯示該主機處理器的程式設計過程。參考圖4，在開始區塊402之後，於區塊 404指定記憶體中的資料結構。在區塊406指定相關的資料存取參數（開始位址、跨步、跨距、跨越及大小）。在運算中該等參數將傳遞至該RSVP的輸入流動單元。在區塊408 產生該主機處理器代碼的餘下部分，過程於區塊410終止。因此，該主機處理指定向量存取，但獨立於向量計算。該RSVP硬體利用了該程式模型的若干方面，以便改善性能。由於向量存取與計算的分離，各自的硬體相對於另一方非同步運作。因此，該向量存取硬體可在計算前運作，在需要資料之前擷取資料，因而至少隱藏了部分記憶體潛伏。該向量存取說明足夠簡潔，使所有資訊均保存於存取硬體的少數暫存器中。該主機處理器可存取該等暫存器。同樣地，RSVP資料流圖形結構限定於固定數目的節點（例如 256個節點），因而該RSVP微定序器記憶體足夠容納該資料流圖形的整個線性形式。該方式的優點為，硬體無需擷取指令來決定如何實施位址計算或向量計算。因而無需自服務RSVP計算所需之記憶體頻寬擷取指令。因為向量計算係指定為資料流圖形，包括少數資源依賴性，因此，RSVP資料路徑不同於其他CPU的資料路徑。大多數DSP、SIMD、VLIW及向量處理器裝置不能以任意順序連接其資料路徑的功能單元。且均無可聚合的功能單元0 85656.doc -15 - I234738 :、、心技術人士將明白’本文已經透過基於使用一特定架構〈示範具體實施例說明本發明。但是，本發明不應受此限制，因為本發明可使用同等結構實施。熟悉技術人士將進一步明自’可對本發明做出各種形式與内容之改變而不會背離本發明的精神與範圍。、雖然本發明係結合特定具體實施例說明，但顯然根據上述祝明’對於熟悉技術人士而言，許多替代、修改、改變與變化係顯而易見的。因此’本發明意在包含所有在隨附申請專利範圍内之替代、修改與變化。【圖式簡單說明】隨附的中請專利範圍中提出本發明的新穎功能及特性。但是，藉由參考上文巾之w解具體實施例的詳細說明並配合附圖，更容易完全明白本發明以及使用本發明的較佳模式、進一步目的及其優點，其中：圖1為本發明之一可重新配置流動向量處理器的一具體實施例的圖形表示。圖2為一示範疊代計算的資料流圖形。圖3為程式設計本發明之向量處理器之過程的流程圖。圖4為程式設計一主機處理器’使之與本發明之向量處理器一起運作之過程的流程圖。【圖式代表符號說明】 1〇〇可重新配置流動向量處理器 102 功能單元 104 可重新配置互連開關 85656.doc -16- 乘法器加法器邏輯單元移位器累加器外部介面微定序器記憶體；常數單元輸入流單元輸出流單元區塊節點區塊區塊區塊節點節點節點節點區塊開始區塊區塊區塊 -17- 1234738 308 區塊 310 區塊 312 區塊 402 開始區塊 404 區塊 406 區塊 408 區塊 410 區塊 85656.doc - 18-

Claims

1234738 拾、申請專利範圍： 1 · 一種可重新配置流動向量處理器，包括·· 複數個功能單元，各具有一或多個輸入以接收一資料值及一輸出用以提供一資料值；可重新配置互連開關，其包括一或多個鏈路，各鏈路可操作以將一功能單元的一輸出耦合至一功能單元的該等一或多個輸入的一輸入；以及一微疋序器，其耦合至該可重新配置互連開關，並可操作以控制該可重新配置互連開關。 2·如申印專利範圍第丨項之可重新配置流動向量處理器，其中讀微疋序器包括一程式記憶體以儲存一指令程式。 3 ·如申叫專利範圍第丨項之可重新配置流動向量處理器，其中S可重新配置互連開關包括一開關記憶體以儲存資料值。 /、 4·如申請專利範圍第3項之可重新配置流動向量處理器，其中該開關記憶體包括至少一FIF〇、一程式延遲及一管線暫存咨文件之一。 5·如申請專利範圍第丨項之可重新配置流動向量處理器，其中孩可重新配置互連開關之一鏈路係由該微定序器指示以接文一功能單元之一輸出的一資料值，並向一功能單元的居等一或多個輸入之一輸入提供一資料值。 6·如申请專利範圍第1項之可重新配置流動向量處理器，進一步包括： 85656.doc 1234738 一或多個輸入流單元，其耦合至該可重新配置互連開關’並可操作以從一資料記憶體中取回輸入資料值，且向該可重新配置互連開關提供資料值；以及一或多個輸出流單元，其耦合至該可重新配置互連開關，並可操作以從該可重新配置互連開關接受資料值，且向資料記憶體提供輸出資料值。 7·如申請專利範圍第6項之可重新配置流動向量處理器，其中該等輸入與輸出流單元包括一介面，用以接收一主機電腦的控制指令。 8。如申請專利範圍第7項之可重新配置流動向量處理器，其中該等控制指令至少包括以下各項之一：在該資料記憶體中的資料值之一向量的一開始位址；貫料值之该向量的一跨步；資料值之間的一跨距；要在向量資料值之一跨距之間跨越的數個記憶體位址；以及資料值之向量中各資料值的一大小。 9_如申請專利範圍第6項之可重新配置流動向量處理器，其進一步包括一外部介面，該外部介面可操作以將該等輸入流單元、該等輸出流單元及該微定序器耦合至一主機電腦。 10·如申請專利範圍第1項之可重新配置流動向量處理器，其 85656.doc 1234738 中該等功能單元至少包括以下各項之一：一移位器；一加法器；一邏輯單元；以及一乘法器。 11.如申請專利範圍第10項之可重新配置流動向量處理器，其中6亥等功能單元進一步包括一通過功能草元。 12 ·如申請專利範圍第1項之可重新配置流動向量處理器，其中該等複數個功能單元的至少之一的一輸出包括一暫存器管線。 13.如申請專利範圍第1項之可重新配置流動向量處理器，其進一步包括耦合至該可重新配置互連開關的至少一累加器。 1 4·如申請專利範圍第丨3項之可重新配置流動向量處理器，其中該至少一累加器可操作以耦合至一主機電腦。 1 5 ·如申請專利範圍第丨項之可重新配置流動向量處理器，其進一步包括複數個純量暫存器。 16·如申請專利範圍第15項之可重新配置流動向量處理器，其中該等複數個純量暫存器提供一資料穿隧。 1 7。一種配置包括一互連開關、一微定序器及複數個功能單元的一流動向量處理器的方法，該方法包括：在該微定序器中儲存一指令程式；取回該指令程式之一指令； 85656.doc 1234738 根據自該指令程式取回的該指令配置該互連開關；根據自該指令程式收到的該指令雨一功能卓元提供儲存於一第一記憶體的資料；該功能單元對該等資料進行運算；以及根據自該指令程式收到的該指令將一功能單元的資料儲存於一第二記憶體中。 18·如申請專利範圍第17項之方法，其中該流動向量處理器進一步包括具有一緩衝記憶體的一或多個輸入流單元，且其中，該第一記憶體係該輸入流單元之該等一或多個緩衝記憶體及該互連開關中的一記憶體。 19·如申請專利範圍第18項之方法，該方法進一步包括，根據自一主機電腦接收的一組參數，各輸入流單元從一外部記憶體取回資料值，並將其儲存於該輸入流單元的該緩衝記憶體中。 20·如申請專利範圍第17項之方法，其中該流動向量處理器進一步包括具有一緩衝記憶體的一或多個輸出流單元，且其中，該第二記憶體係該輸出流單元之該等一或多個緩衝記憶體及該互連開關中的一記憶體。 2 1.如申請專利範圍第20項之方法，其進一步包括，根據自一主機處理器接收的一組參數，各輸出流單元將該輸出流單元之該緩衝記憶體的資料值寫入一外部記憶體。 22. —種用於程式設計一流動向量處理器以實施一疊代計算的方法，該流動向量處理器具有一可重新配置資料路徑 85656.doc 1234738 且該方法包括：指定該疊代計算之一疊代的一資料流圖形；自該資料流圖形產生一線性圖形，其指定對應於該資料流圖形之一部分定序運算組；將該線性圖形排程至該流動向量處理器的該資料路徑；以及產生二進位碼指令，其可操作以配置該流動向量處理器的該資料路徑。 23. 如申請專利範圍第22項之方法，其中該流動向量處理器包括具有一記憶體的一微定序器，該方法進一步包括在該微定序器的該記憶體中儲存該等二進位碼指令。 24. 如申請專利範圍第23項之方法，其中係由一電腦排程該線性圖形及產生該等二進位碼指令。 25. 如中請專利範圍第22項之方法，其中產生一線性圖形進一步包括使用一電腦的一圖形使用者介面指定該資料流圖形，而該電腦自該資料流圖形自動產生該線性圖形。 85656.doc