TW563063B

TW563063B - Loop handling for single instruction multiple datapath processor architectures

Info

Publication number: TW563063B
Application number: TW090127898A
Authority: TW
Inventors: John L Redford
Original assignee: Chipwrights Design Inc
Priority date: 2000-11-13
Filing date: 2001-11-09
Publication date: 2003-11-21
Also published as: AU2002234101A1; CN1484786A; KR20030072354A; US6732253B1; DE10196879T5; WO2002039271A1; JP2004513455A; US20040158691A1

Description

563063 五、發明說明（1) 本發明是有關於多資 items)在單指令多資路=陣列（array of data 平行處理是處理多器架構的迴圈處理運算。資料路徑處理器為平行處二車=的有效方法。單指令多制多重資料路徑。每_資^列、，、。構’其中由單指令來控項。舉-簡單的例子，單時間内只能處理一資料料路徑，而每-資料路料路徑處理器有四個資 -具有八個資料項的陣列之迴圈運作來處理配置是可變的，其中一枓員。貝料路徑和資料項的第一資料路徑處^陣列的一通過（first Pass) ’ 陣列的第二資料項，第姓資，項’第二資料路徑處理項，第四資料路徑處理：：㈣的第二貝枓 -資料路徑處理陣列的第五資資：項。第二通過’第列的第六資料項，第三 j，，第二資料路徑處理陣第四資枓路徑處理陣列的第八資料項。貞针貝當陣列的資料項數目不是資踗有錯誤產生。修改上述簡單數的整數倍時就會徑，具有七筆資有四個資料路路徑沒有陣列的第八資料項元素可處；通；；二次通過時去能（disable)第、，。果除非在第料路栌可炉供钽认番命乐四#科路役’不然第四資 =::覆寫記憶體其他的資料結構。避免這種錯誤地覆寫的一種方法換句話說’資料項陣列的數目為資料路徑小，種方法是假設程式設計師事先控制好資料項在陣列的口配故第5頁 1057-4466-PF;Brad.ptd 五、發明說明（2) 置，可是一般並傳統上，單 )位元連結到每能。資料路徑可能。本發明的目徑處理器運算陣其中一個，包括和上述陣列來決所對應的資料路在較佳實施料路徑執行處理小，資料路徑的多少資料路徑）剩餘平行迴圈通資料項在記 (unity-stride 沒有。指令多一資料能會超處理器的處理器致能（PE :二控制資料路徑何時致能或去 ° 列時，這可以使資料路徑去列的資依據單定是否徑之處例中，運算的數目（。處理過的數憶體的 )，連揭露一種方料元素時，指令多資料致此上述資理狀態。資訊包括資平行迴圈通例如，單指狀態是迴圈目° 配置可能是續或條狀間法’當單指令多資料路是否致能複數資料路徑路徑處理器的參數資訊料路徑和陣列的資料項料項在記憶體配置，資過之總數，陣列的大令多資料路徑處理器有處理運算時資料路徑的單一間隔隔（str i ped-str i de 本發明的另一個目令當處理資料項陣列時徑其中一個。較佳實施例中，指平行迴圈通過次數之平序列迴圈通過次數之序的在於包括迴圈控制指令的電腦指能明確指定致能複數處理器資料路令包括處理陣列時能明確指定剩餘行計數攔位和處理陣列時明確指定列計數攔位。

563063 五發明說明（3) 本發明的另’一個目的在於處理器包括存樓的算椒碟給抑_ / 暫存標和輕合暫 ▲以异術邏輯早兀（arithmetic logic 1JnW、专式控制儲存卩办冲七 uni〇，和程 W减仔&來儲存當處理陣列的資料狂生致能多|咨社7々斤4丄 1于储存令處理器產夕数貝枓路徑其中一個的迴圈控制指令。度本發明實施例的其餘目的為具有下點。 I 1 N 個以上的優 Π!ίΙ解資料項陣列的數目而去能資料路徑。本方法可適用變動的記憶體配置方法。迴圈控制指令免除程式設計師的為料數目為資料路徑數目的整數本發明的其餘優點由下列詳細利範圍中表示。迴圈控制指令節省指令的記憶體，因 :大的單指令來明確指定決定是否致能和去力能須的許多運作，如此也可節省暫存空間。去枓路僅所必須強制使資料項陣列倍。的4¾述和圖例和申請專圖式簡單說明：圖：單指令多資料路徑處理器的方塊流程圖；第2圖：具有4個資料路徑的單指令多資以單-間隔的配置記憶體如何控制具有3〇資料項心：迴圈處理的資料表；早歹i之第3圖：迴圈控制指令的語法；第4圖··具有4個資料路徑的單指以連續配置記憶體如何控制具有3 〇資令多資料路徑處理器料項的陣列之迴圈處

1057-4466-PF;Brad.ptd 第7頁 563063 五、發明說明（4) 理的資料表；第5圖：結合迴圈分歧（branch )的迴圈控制指令的語法（syntax );以及第6圖：在迴圈處理時控制單指令多資料路徑處理器的資料路徑致能的處理流程圖。符號說明： 1 2〜指令快取； 14〜控制邏輯； 16〜序列資料路徑； 20〜記憶體； 1 0〜單指令多資料路徑處理器； 22a.22b.22c.22d.22n 〜處理器致能； 18a· 18b· 18c· 18d· 18η〜平行資料路徑。實施例之說明·· 參考第1圖，單指令多資料路徑處理器1 〇包括指令快取1 2，控制邏輯1 4，序列資料路徑丨6和複數平行資料路徑標，為18a，18b，18c，18，···，18n。平行資料路徑“寫 ^記憶體20。每一資料路徑18皆連結到處理器致能（pE)位元22。具體地說，平行資料路徑18a連結到處理器致能 (PE)位元22a，平行資料路徑18b連結到處理器致能（pE)位元22b，以下類推。當PE致能時，所連結的平行資料路徑致能且平行資料路徑寫入資料項。舉例而言，pE 22&致能時，平行資料路徑18a寫入資料項；PE 22b致能時，資料路徑18b寫入資料項。如果pE 22n致能時，平行資料

1057-4466-PF;Brad.ptd 第8頁 563063 五、發明說明（5) 路徑18η窝X咨^ = 徑去能且平行資钭路。去能時，所連結的平行資料路 :订貝料路彼無法寫入資料項。時’控制邏輯1 4從指今供取1 2喊而人往序列資料路秤16决：二“决取12嗔取指♦。指令送別處理器的致*;位令給平？資料路徑18。除非個時讀取和同時寫入/ I旎’否則母-平行資料路徑18同錯誤^=免未使用到的資料路徑超越資料項陣列末端且理運算時一個以卜二、枓、、、口構，在貝料項陣列迴圈處 » 二Γ指令多資料路徑處理器和陣列的車列相關的資料路徑處理狀態之資訊來飛速地決定貢料路徑的致銥盥土 Ah ^ 0 义心〜/六疋括：（1)迴圈户i運不疋由人工來決定。此資訊包巧資料路徑所執行迴圈通過的數目（這指的是陣列的十大 '、_ ’（3)在迴圈處理運算時剩餘平行通過的數目，（八配資料項陣列的資料路徑在記憶體的配置，（5)平行資 f的數目m據迴圈處理運算所提供的資訊來致 =資料路徑的處理器致能位元（因而致能或去能資料路 4工）。有許多種記憶體配置方法來處理單指令多資料路徑理器的資料項陣列。最簡單的記憶體配置是複數資料路徑 (NDP)的每一個取迴圈的第重覆項。這種記憶體配置稱單一間隔（unity stride)。以第2圖為例，資料表圖解表示，以單一間隔記憶體 563063 五、發明說明（6) 分配置的迴圈處理，從〇到29共三料路徑，標示為資料路徑〇(Dp〇)， n f項陣列由具有4資路徑2(DP2)，資料路徑3(Dp3)的二，徑〗（奸〗），資科來個別處理。為了處理此陣列，資料路徑處理器第一次平行迴圈通過，由資料路秒〇久平行迴圈通過。 2和3來處理資料項4，5，6和7。最後一 Ϊ、 4徑〇，1，也就是第八次平行迴圈通過，由 =平行迴路通過，項28和29，而資料路徑2和3必須去能以=和1來處理資料儲存在記憶體的其他資料。、越陣列而覆寫 =2圖的資料表說明為何記憶时隔。在任一資料迴圈通過的每一平置稱為早一間的”間隔”為一。這是說在一、㈤科路徑處理資料項徑處理的兩兩資料項差異為]由平行資料路

的^ 7隔配置中，標示（emerge)出處理的資％I 迴圈通過中僅有二資料圖解表^己戒在最後並列 :月的：號是普通的；t資料路徑的陣:地’第2圖雜但仍可從時間上視別^二二 i餘通過總數(這指陣“nr，參考第3: 過時何時將個別資料路裎去-: 處理操作時剩餘平沿圈、處理器致能指令30包括表示在迴此圈千订迴圈通過的數目之搁位c，4= 1057-4466-PF;Brad.ptd 第10頁 563063 五、發明說明（7) 二處理資料項陣列所需的通過總數目之攔位L。 ^I圮憶體配置指定X。參考第£圖來舉例，記憶體 gp丘對應到單一間隔記憶體配置，換句話說，L = 30 PI? Π · Ί 料項而要求序列引擎結構以3 0迴圈通過。元的形!熊。不貝料路徑1在平行迴圈通過J·的處理器致能位除以ί:所舉例的單一間隔，序列迴圈通過的總數數辦加到下 '的總數來決定平行迴圈通㊣的總冑。並把總 ^30/4 ° 5 疋M/4二則增加到下一個整數值8。元連牡：表間：：2號和c和[的值中得知，處理器致能位到表不資料路徑的資料路徑索引i和資料項丨，如杲行迴圈通過的剩餘數過總數還少時，致能PE[i，,T。路瓜的索引，比序列迴圈通此外，單指令多資料路徑處以第4圖為例，具有4資料路令夕資料路徑處理器以連續問的早指理30資料項（0-29)。為了處理此ϋ ^置來實現如何處次平行通過。第一次平行迴圈通=列：3=項，⑽ 和3來個別處理資料項〇，8，16和2貝二'路徑〇，1，2 過，由資料路徑0，丨，2和3來處理資料項^久平行迴圈通 :此步驟下去即產生記號。在此明確的例子9 ’1;和25。過7和8中，去能資料路徑3以免覆寫在此3〇’資在料並行迴第11頁 l〇57.4466.PF；Brad.ptd 563063

而其他資料路徑在每次迴圈通過時都致列後的記憶體能0 田個別的μ #項卫作在鄰近t料配置顯得很有肖。舉例，資料路栌逆噴間^己憶體古次鈔适Q τ . 貝料路佐0在平行迴圈通過4時已有貝枓項3，平行迴圈通過5時處理資料項4 ^手一迴圈通過時使用資料項5。這種個平打七陰础& 纪種5己憶體配置稱作連續間隔 ’目為每一資料路徑動作在陣列的連續區間。例體配置中’以最後二平行迴圈通過為

::固上不/早一資料路徑在執行時須要去能。對應到 ΓΛ/ 置減x = GGNT表示㈣間隔記憶體配置的方式。對應第4圖的描述來舉例，序列迴圈通過的總數除以資料路徑的總數來決定處理f # p車列項&平行迴圈通過的總數，並把總數增加到下一個整數值。舉例而古，平行迴圈通過的總數是30/4，則增加到8。從連續間隔記憶體配置記號和c值和L值，處理器致能位元連結到資料路徑索引i和資料項〗，這表示，如果平行迴圈通過的總數乘以資料路徑索引加上平行迴圈通過的總數減去剩餘平行迴圈通過的數目比序列迴圈通過的總數少則致能PE[i，j]。

交錯式記憶體允許一次執行許多動作。交錯式記憶體的記憶體排組（bank)的數目M_般而言為二的次方，因為這^許使用最少位址位元來完成記憶排組的選取。如果讀寫和·？的間隔也是二的次方，交錯式記憶體就沒有任何幫助，因為所有的位址都嘗式要對相同的記憶體排組動作。

1057-4466-PF;Brad.ptd $ 12頁 563063 五、發明說明（9) 以Μ = 4為例，而間隔也為4，而讀、 4，8，等等，而全部由記憶排組〇來控制的位址將是0， 2、3將為怠狀（idle)。卫’而記憶排組1、為了避免所有的資料項由相同的記值可以選成奇數。如果Μ是二的次方/則思排處理，間隔的均等地擴大記憶排Μ的位址。因為任何奇=隔選為奇數可此皆為質數（prime)。以30項的陣列為例，與，的次方彼隔選9而非8。資料路徑0對應到陣列的〇 1連績配置時間對應到陣列的9到17項，資料路徑2 |項，資料路徑1 項，資料路徑3對應到陣列的26到29對項應=/_8到26 6項也就是陣列的30到35項時關閉。這$二路徑3在最後間隔記憶體配置相對。己隐體配置與條狀數产：=隔記憶體配置結構中，由序列迴圈通過的總決疋：理陣列的資料項所需的平行迴圈通過總數，數值 I*配窨Τ Ϊ3圖》之隐體-配置指定x = S表示條狀間隔記憶 .，、古志。，S器致能位元連結到資料路徑*引i *資料項 W >不’、如果平行迴圈通過的總數乘以資料路徑索引 & $丨、、。行^圈通過的總數減去剩餘平行迴圈通過的數目比序列迴圈通過的總數少則致能p E [ i j ]。社2考第5圖所不’迴圈處理器致能指令結合迴圈分歧 =V^anch instructi〇n)70。結合指令7〇依據記憶體配、’·口平行迴圈通過的總數和剩餘平行迴圈通過的數目，和檢測平行迴圈通過的剩餘數目是否為零來設定先前

563063 五、發明說明（10) 所述的處理器致能位元。如果平行迴圈通過的剩餘數目比零大，執行分歧（例如，goto PC + disPiacement),來行下個迴圈運算通過。否則，離開迴圈並繼續處理。另一例子，減少剩餘平行迴圈通過的數目且繼續迴算。參考第6圖，在迴圈處理流程100 ,控制單指令多資料路徑處理器資料路徑的致能來決定處理陣列的所有資料項之序列迴圈通過的數目流程102決定處理陣列的剩餘平行、迴圈通過之數目。流程104測試記憶體配置結構是否為單一間隔配置。如果記憶體配置結構是單一間隔配置/且流程108如果平行迴圈通過的總數減去剩餘平行迴圈通過的^ 數目、，全乘以資料路徑的數目加上資料路徑索引比序圈通過的總數少時，則致能杳斜故處理資料項。枓路徑的處理器致能位元來如果記憶體配置結構不是輩一簡試記憶體配置結構是否為隔β ;配f ’流程10。測結構為連續間隔配置配要置：如果記憶體配置數乘以資料路徑索引加果二行迴圈通過的總行迴圈通過的數目比序列迴二、總數減去剩餘平 π 奴圈通過的總數少時，則较妒咨料路徑的處理器致能位元來處理資料項。貝1致靶貝最後，如果記憶體配置处 0 時，流程m測試記憶體配置:構接不，早一或連續間隔配置如果記憶㈣置結構為連續間。構疋否為條狀間隔配置。行迴圈通過的總數乘以資铒^ σ名，且流程11 6如果平貝枓路徑索引加上平行迴圈通過的 563063 五、發明說明（11) 總t減去剩餘平行迴圈通過的少時，則致能資料路目比序列迴圈通過的總數本發明的私社给工、处里态致能位元來處理資料項。 ^ )父實施例描述如上，然而，在不脫離本發产夕月ί和範圍内，當可做些許的更動與潤飾，例如處理較多數的資料項，依據記憶體配置的方法，將實用的查詢表的同一時間上的標記展開。標記展開後，以上述的方法來決定致能的路徭。此外，其餘實施例皆在下列申請專利範圍内。

1057-4466-PF;Brad.ptd 第15頁

Claims

5 ^063— ^^-β23：ι 90127898 六、申諸虞_ 修正 •一種有「吹..：數資料法，包依資料路致能資 2. 包括上 3. 包括上 4· 豳货舌上總數。 5. 指上述 6 · 狀態為 7. 包括上8. 包括上處理運資料路目，或路徑處括：據單指徑相關料路徑如申請述資料如申請述配置如申請述資料如申請陣列的如申請在上述如申請述處理如申請述資料算的平徑執行上述處關於是理器其令多資的陣列〇專利範項在記專利範是否為專利範路徑執專利範大小〇專利範迴圈處專利範器資料專利範項在記行迴圈上述迴理器資否致能單指令多資料路徑處理器的複中一個來運算資料項陣列的控制方料路徑處理為和上述陣列的參數，和資料項之處理狀態的資訊來決定是否圍第1項所述之方法，其中上述資訊憶體的配置。 ' 圍第2項所述之方法，其中上述資訊單一、連續、條狀間隔。、圍第1項所述之方法，其中上述資訊行迴圈處理運算時的平行迴圈通過的圍第1項所述之方法’其中上述資訊圍第1項所述之方法’其中上述處理理運算時剩餘平行迴圈通過的數目。圍第1項所述之方法’其中上述資訊路徑的數目。項所述之方法’其中上述資訊憶體的配置’上述資料路徑執行迴圈 Ϊ過的總數’上述陣列的大小，上述圈處理運算的剩餘承4 一、餘十仃迴圈通過的數料路徑的數目。

1057-4466-PFl.ptc 第16頁 563063 年

案號 90127898 六、申請專利範圍 9.如申請專利範固第8項所述之方法，其中項在上述記憶體的配置為單一間隔。、科 I 〇·如申請專利範圍第9項所述之方法，其圈通過的總數除以上述資料路徑執行的總數，辦 Κ 一個整數值來決定上述平行迴圈通過的總數。θ 下 _i ]:讀孑‘員 Λ ； > II ·如申請專利範圍第丨〇項所述之方法，雩括：丹甲致能包由是否上述平行迴圈通過的總數減去剩，圈通過的數S乘以上述資料路徑執行的總數加上#=== 的數目小於上述序列迴圈通過的總數來決定。、仏 1 12·如申請專利範圍第8項所述之方法，其中上項在上述§己憶體的配置為連續間隔。 7料 1 3·如申請專利範圍第1 2項所述之方法，复中由 ||序列迴圈通過的總數除以資料路徑的數目並增加到下Μ 之整數值來決定上述平行迴圈通過的總數。個 1 4·如申請專利範圍第丨3項所述之方法，复括： t蚁旎包由是否上述平行迴圈通過的總數乘以上述資料路句、數目加上上述平行迴圈通過的總數減去上述剩餘平行=的通過的數目小於上述序列迴圈通過的總數來決定。丁 κ圈 1 5 ·如申請專利範圍第8項所述之方法，复為條狀間隔。 /、中上述配置 1 6 ·如申請專利範圍第丨5項所述之方法，括·· ，、干致能包

1057.4466.PFl.plc 第17頁 563063 A_η

銮號 90127898 六、申請專利範圍由是否上述平行迴圈通過的總數乘以資料路徑的數目加上上述平行迴圈通過的總數減去上述剩餘平行迴、、的數目小於上述序列迴圈通過的總數來決定。35圈通過 1 7· —種電腦可讀取之儲存媒體，其係用以儲腦可執行之指令，上述電腦可執行之指令包括：予 " 好迴圈控制指令在處理資料項陣列時能具體指處理器資料路徑其中一個。疋致此稷 ^ 18·如申請專利範圍第17項所述之電腦可讀媒體，其中上述電腦可執行之指令指令更包括取之儲存目的時具體指定上述剩餘平行迴圈通過的數 i. Yy9./1巾請專利範圍第17項所述之電腦可讀取之儲存媒體’其中上述電腦可執行之指令更包括： ::丨處理上述陣列時具體指定上述序列迴圃捅把 ::序列計數攔位。 a码圈通過的數目的 20. 一種處理器，包括：一暫存檔；來儲：Πΐϊϊΐ ’搞合上述暫存槽和程式控制儲存區理器資；^ΓΓ列時’令上述處理器產生致能多數處寸塔從其中一個的迴圈控制指令。