TWI498728B

TWI498728B - 非搶占式圖形處理單元上互動除錯之方法和裝置

Info

Publication number: TWI498728B
Application number: TW102108211A
Authority: TW
Inventors: Avinash Bantval Baliga; Gregory Paul Smith
Original assignee: Nvidia Corp
Priority date: 2012-03-09
Filing date: 2013-03-08
Publication date: 2015-09-01
Also published as: CN103309786B; US20130238938A1; CN103309786A; US8572573B2; DE102013202495A1; TW201351136A

Description

非搶占式圖形處理單元上互動除錯之方法和裝置

本發明一般係關於除錯，尤其係關於解決非搶占式圖形處理單元(GPU，graphics processing unit)上互動除錯之方法及裝置。

傳統除錯工具提供在一程式內已知點上中止該程式執行，並且使用某種使用者介面，通常為與除錯平台連結的監視器上所顯示之圖形使用者介面，評估該程式內該點上的處理器上下關係(即是記憶體、暫存器等)。一般來說，除錯工具可分類成軟體實施或硬體實施。

軟體除錯包含許多技術來偵測程式內的錯誤。一種程式除錯技術為修改該程式，如此許多變數值寫入替代位置或在該程式執行期間取代正常程式輸出。然後重新執行該程式來收集所要的輸出。雖然這種技術具有偵測某種錯誤的好處，不過也具有許多缺點。要求使用者執行一修改過的程式可能不允許使用者即時分析該程式，若程式尚未決定，則重新執行該程式會顯示不一致的變數值。此外，只有具備程式原始碼存取權限的受信賴方才可執行除錯操作。進一步，重新執行該程式需要大量記憶體傳輸以便重設狀態變數，這會導入額外延遲或不一致。修改該程式也可隱藏某些由該系統執行指令的特定時機所引起之錯誤，或改變由編譯器所產生的該指令串之順序，藉此導向完全不同的結果。進一步，使用者無法分析未修改程式的效率，所以無法決定遇到哪一種處理瓶頸。另一種根據軟體除錯實施的技術可運用軟體模擬器，模擬程式在目標平台上的執行。該軟體模擬器允許使用者逐步執行指令，並且了解這些指令在目標平台的處理器領域上之效果。不過，因為該軟體模擬器僅模擬該目標平台，所以使用該軟體模擬器難以去除指令非同步執行所引起的特定瞬間錯誤。更進一步，該軟體模擬器的行為可能因為自帶的錯誤，或模擬效能與實際間之拉鋸，而與目標硬體平台不同。

除了軟體除錯工具以外，許多硬體平台實施許多硬體儲存工具，可用來替代或加入軟體儲存技術。例如：某些處理器可由除錯器實施硬體中斷點，在執行到特定指令時中止處理器上程式的執行，並且等待發出恢復命令。其他處理器實施某種除錯埠，例如JTAG(Joint Test Action Group)埠，可存取在目標平台的整合式電路上實施之內部除錯模組。

一般來說，除錯可透過軟體模擬器實施，或透過需要一目標平台連接至執行該除錯器的電腦之遠端除錯來實施。在與開發平台分開的目標平台上實施除錯之一項理由為：中止在與該除錯器相同平台上執行的來源程式之執行也會中止運行該除錯器所需的關鍵硬體。例如：運用執行一源程式的CPU上之中斷點，避免該CPU運行該作業系統，藉此避免程式設計師看見CPU的狀態，或使用軟體除錯工具變更記憶體。

因此，業界內需要一種系統及方法，允許一目標GPU的互動除錯，同時也允許該目標GPU繼續從該作業系統接收的正常螢幕繪圖操作。

本發明的一個範例具體實施例揭示一種在非搶占式圖形處理單元上執行互動除錯之方法。該方法包含步驟：導致一著色程式載入一並列處理單元，其中該並列處理單元設置成呈現一圖形使用者介面給一互動除錯環境，以顯示在與該並列處理單元連結的一顯示裝置上；以及發出一工作負載至該並列處理單元來在一第一往返期間處理，其中由在該工作負載內含分開輸入資料上並列執行的複數個執行緒處理該工作負載，並且其中該並列處理單元設置成由該等複數個執行緒內任意執行緒觸發一硬體陷阱時中止該工作負載之處理。該方法另包含步驟：偵測在該工作負載處理內一第一點期間已經發生一硬體陷阱，以及進入一重新啟動迴圈，其包含停止該工作負載的處理，以允許該並列處理單元更新該圖形使用者介面，並且重新發出該工作負載至該並列處理單元來在一或更多後續往返期間處理。

本發明的另一個範例具體實施例揭示一種電腦可讀取儲存媒體，其包含一除錯器設置成執行上述本發明方法的該等步驟。仍舊本發明的另一個範例具體實施例揭示一種系統，其設置成在非搶占式圖形處理單元上執行互動除錯。

該揭示方式的一項優點為用於除錯目的之電腦可使用單一 GPU來進行硬體除錯以及畫面更新。其他優點包含非決定性應用程式除錯的能力，以及對無法取得原始碼的程式除錯之能力。

100‧‧‧電腦系統

102‧‧‧中央處理單元

103‧‧‧裝置驅動程式

104‧‧‧系統記憶體

105‧‧‧記憶體橋接器

106‧‧‧通訊路徑

107‧‧‧輸入/輸出橋接器

108‧‧‧使用者輸入裝置

110‧‧‧顯示裝置

112‧‧‧並行處理子系統

113‧‧‧第二通訊路徑

114‧‧‧系統磁碟

116‧‧‧開關

118‧‧‧網路配接器

120-121‧‧‧外接卡

202‧‧‧並行處理單元

204‧‧‧並行處理記憶體

205‧‧‧輸入/輸出橋接器

206‧‧‧主介面

207‧‧‧任務/工作單元

208‧‧‧一般處理叢集

210‧‧‧記憶體交叉開關單元

212‧‧‧前端

214‧‧‧記憶體介面

215‧‧‧分割單元

230‧‧‧處理叢集陣列

220‧‧‧動態隨機存取記憶體

300‧‧‧任務管理單元

302‧‧‧執行單元

303‧‧‧載入儲存單元

304‧‧‧本機暫存檔

305‧‧‧管線管理員

306‧‧‧共享記憶體

310‧‧‧串流多重處理器

312‧‧‧經線排程器與指令單元

315‧‧‧紋理單元

320‧‧‧L1快取

321‧‧‧排程器表

322‧‧‧任務中繼資料

325‧‧‧預先光柵運算

328‧‧‧記憶體管理單元

330‧‧‧工作分配交叉開關

335‧‧‧第一點五層快取

340‧‧‧工作分配單元

345‧‧‧任務表

352‧‧‧統一位址映射單元

370‧‧‧指令L1快取

380‧‧‧記憶體與快取互連

410‧‧‧應用程式

412‧‧‧著色程式

422‧‧‧作業系統

424‧‧‧應用程式

450‧‧‧除錯器

512‧‧‧第一清單

514‧‧‧第二清單

516‧‧‧第三清單

600‧‧‧方法

如此上面簡單彙總可詳細了解本發明上述特色的方式，本發明的更特定說明則參照具體實施例，某些具體實施例說明於附圖內。不過吾人應該注意，附圖只說明本發明的典型具體實施例，因此並不對發明領域產生限制，本發明承認其他等效具體實施例。

第一圖為例示設置來實施本發明一或多個態樣的電腦系統方塊圖；第二圖為根據本發明的一個範例具體實施例，用於第一圖中該電腦系統的一並行處理子系統之方塊圖；第三A圖為根據本發明的一個範例具體實施例，第二圖中前端的方塊圖；第三B圖為根據本發明的一個範例具體實施例，第二圖中並行處理單元之一者內一般處理叢集的方塊圖；第三C圖為根據本發明的一個範例具體實施例，第三B圖中該串流多重處理器一部分的方塊圖；第四圖為根據本發明的一個範例具體實施例，設置來在一圖形處理單元上對圖形著色除錯的一系統之概念圖；第五圖根據本發明的一個範例具體實施例，例示由除錯器維護以在該圖形處理單元上實施互動除錯的資料結構；以及第六圖根據本發明的一個範例具體實施例，例示一種在非搶占式圖形處理單元上執行互動除錯之方法。

在以下描述中，揭示許多特定細節以對本發明有更徹底之理解。但是，精通此技術的人士應該了解，在無一或多個該等特定細節之下還是可實施本發明。

系統概觀

第一圖為例示設置來實施本發明一或多個態樣的電腦系統100之方塊圖。電腦系統100包含一中央處理單元(central processing unit，CPU)102，以及通過一互連路徑通訊的一系統記憶體104，其中該路徑可包含一記憶體橋接器105。例如可為北橋晶片的記憶體橋接器105透過匯流排或其他通訊路徑106(例如超傳輸連結)，連接至一I/O(輸入/輸出)橋接器107。例如可為南僑晶片的I/O橋接器107接收來自一或多個使用者輸入裝置108(例如鍵盤、滑鼠)的使用者輸入，並透過通訊路徑106和記憶體橋接器105將該輸入轉送至CPU 102。一並行處理子系統112透過匯流排或第二通訊路徑113(例如特快週邊組件互連(PCIe，Peripheral Component Interconnect Express)、加速圖形連接埠(Accelerated Graphics Port)或HyperTransport連結)連接至記憶體橋接器105；在一個具體實施例內，並行處理子系統112為傳遞畫素給顯示裝置110(例如傳統陰極射線管或液晶監視器)的圖形子系統。系統磁碟114也連接至I/O橋接器107。一開關116提供I/O橋接器107與其他組件，像是網路配接器118以及許多外接卡120和121之間的連接。其他組件(未明確顯示)，包含萬用序列匯流排(universal serial bus，USB)或其他連接埠連接、CD光碟機、DVD光碟機、檔案記錄裝置等等，也可連接至I/O橋接器107。第一圖內顯示的許多通訊路徑，包含特地指名的通訊路徑106和113，都可使用任何合適的協定來實施，例如PCI Express、AGP(加速圖形連接埠)、HyperTransport或任何其他匯流排或點對點通訊協定，以及不同組件之間的連接都可使用業界內已知的不同協定。

在一個具體實施例內，並行處理子系統112併入將圖形與視訊處理最佳化的電路，包含例如視訊輸出電路，並且構成一圖形處理單元(graphics processing unit，GPU)。在另一具體實施例內，並行處理子系統112併入將一般用途處理最佳化的電路，同時保留底層計算架構，本文內有更詳細描述。尚且在另一具體實施例內，並行處理子系統112可在單一子系統內合併一或多個其他系統元件，例如結合記憶體橋接器105、CPU 102和I/O橋接器107來形成一晶片上系統(system on chip，SoC)。

吾人將了解，本文中顯示的該系統為例示，所以可進行改變與修改。包含橋接器的數量與配置、CPU 102的數量以及並行處理子系統112的數量這類連接拓撲可依照需求修改。例如在某些具體實施例內，系統記憶體104直接連接至CPU 102，而不是透過橋接器，並且其他裝置透過記憶體橋接器105以及CPU 102與系統記憶體104通訊。在其他替代拓撲中，並行處理子系統112連接至I/O橋接器107或直接連接至CPU 102，而不是連接至記憶體橋接器105。仍舊在其他具體實施例內，I/O橋接器107和記憶體橋接器105可整合成為單一晶片，替代現有的一或多個分散裝置。大型組件可包含二或多個CPU 102以及二或多個並行處理子系統112。本文中顯示的該等特定組件為選擇性；例如可支援任何數量的外接卡或週邊裝置。在某些具體實施例內，省略開關116，並且網路配接器118和外接卡120、121都直接連接至I/O橋接器107。

第二圖例示根據本發明一個範例具體實施例的並行處理子系統112。如所示，並行處理子系統112包含一或多個並行處理子系統(parallel processing unit，PPU)202，每一個都連結至本機並行處理(parallel processing，PP)記憶體204。一般來說，並行處理子系統包含數量為U的PPU，其中U1。(本文中多個類似物體的實例都用參考號碼標示出該物體，並且括號標示所需的實例。)PPU 202以及並行處理記憶體204可使用一或多個積體電路裝置來實施，例如可程式處理器、特殊應用積體電路(application specific integrated circuit，ASIC)或記憶體裝置，或以任何其他技術可行方式。

請再次參閱第一圖，如第二圖內所示，在一些具體實施例內，並行處理子系統112內的某些或全部PPU 202為具有彩現管線的圖形處理器，其可設置成執行許多操作，這些操作有關透過記憶體橋接器105和第二通訊路徑113，從CPU 102及/或系統記憶體104供應的圖形資料產生畫素資料、與本機並行處理記憶體204(可用來當成圖形記憶體，包含例如傳統畫框緩衝區)互動來儲存與更新畫素資料、傳遞畫素資料給顯示裝置110等等。在某些具體實施例內，並行處理子系統112可包含操作當成圖形處理器的一或多個PPU 202，以及用於一般用途計算的一或多個其他PPU 202。該等PPU可一致或不同，並且每一PPU都可擁有一專屬的並行處理記憶體裝置或無專屬的並行處理記憶體裝置。並行處理子系統112內的一或多個PPU 202可輸出資料至顯示裝置110，或並行處理子系統112內的每一PPU 202都可輸出資料至一或多個顯示裝置110。

在操作上，CPU 102為電腦系統100的主要處理器，控制與協調其他系統組件的操作。尤其是，CPU 102發出指令控制PPU 202的操作。在某些具體實施例內，CPU 102將每一PPU 202的指令串流寫入至一資料結構(第一圖或第二圖內未明確顯示)，其可位於系統記憶體104內、並行處理記憶體204內或可存取CPU 102和PPU 202的其他儲存位置內。每一資料結構的指標已經寫入一推送緩衝區，開始在該資料結構內處理該指令串流。PPU 202讀取來自一或多個推送緩衝區的指令串流，然後關於CPU 102的操作非同步執行指令。利用應用程式透過裝置驅動程式103來控制不同推送緩衝區的排程，指定每一推送緩衝區的執行優先順序。

此時請回頭參閱第二圖以及第一圖，每一PPU 202都包含一I/O(輸入/輸出)單元205，其透過連接至記憶體橋接器105(或在替代具體實施例內，直接至CPU 102)的通訊路徑113，與電腦系統100的剩餘組件通訊。PPU 202與電腦系統100剩餘組件的連接也可改變。在某些具體實施例內，並行處理子系統112實施成為可插入電腦系統100內擴充槽的外接卡。在其他具體實施例內，PPU 202可與例如記憶體橋接器105或I/O橋接器107這類匯流排橋接器整合在單一晶片上。仍舊在其他具體實施例內，PPU 202的某些或全部元件可與CPU 102整合在單一晶片上。

在一個具體實施例內，通訊路徑113為一PCI Express連結，其中分配專屬通道給每一PPU 202，如業界內所熟知。在此也可使用其他通訊路徑。一I/O單元205產生在通訊路徑113上傳輸的封包(或其他信號)，也從通訊路徑113上接收所有傳入封包(或其他信號)，將該等傳入封包導引至PPU 202的適當組件。例如：有關處理任務的指令可導引至主介面206，而有關記憶體操作的指令(例如讀取或寫入並行處理記憶體204)可導引至記憶體交叉開關單元210。主介面206讀取每一推送緩衝區，並將該推送緩衝區內儲存的該指令串流輸出至一前端212。

每一PPU 202都有利地實施一高並行處理架構。如細節內所示，PPU 202(0)包含一處理叢集陣列230，其包含數量為C的一般處理叢集(general processing cluster，GPC)208，其中C1。每一GPC 208都可同時執行大量的(例如數百或數千)執行緒，其中每一執行緒都是一程式的實例。在許多應用當中，不同的GPC 208可分配用於處理不同種類的程式，或用於執行不同種類的計算。GPC 208的分配絕大部分取決於針對每一種程式或計算所賦予的工作負擔。

GPC 208從任務/工作單元207內的工作分配單元當中接收要執行的處理任務，該工作分配單元接收指標來處理任務，其編碼為任務中繼資料(task metadata，TMD)並儲存在記憶體內。至TMD的該指標包含在指令串流內，其儲存當成一推送緩衝區並由前端單元212從主介面206接收。可編碼為TMD的處理任務包含要處理的資料索引，以及定義如何處理該資料的狀態參數與指令(例如要執行哪個程式)。任務/工作單元207從前端212接收任務，並且確定在每一TMD指定的處理開始之前已經將GPC 208設置成有效狀態。一優先順序可指定給每一TMD，用來排定該處理任務的執行時間。處理任務也可從處理叢集陣列230接收。選擇性，該TMD可包含一參數，其控制該TMD加入處理任務清單(或處理任務指標清單)的頭部或尾部，藉此提供優先順序之上的另一控制等級。

記憶體介面214包含數量為D的分割單元215，這些單元每一個都直接連接至一部分並行處理記憶體204，其中D1。如所示，分割單元215的數量一般等於動態隨機存取記憶體(dynamic random access memory，DRAM)220的數量。在其他具體實施例內，分割單元215的數量可不等於記憶體裝置的數量。精通技術人士將了解，DRAM 220可用其他合適的儲存裝置取代，並且可為一般傳統設計，因此省略其詳細說明。像是畫框緩衝區或紋理地圖這類彩現目標可通過DRAM 220儲存，允許分割單元215並行寫入每一彩現目標的部分，以有效使用並行處理記憶體204 的可用頻寬。

任一GPC 208都可處理寫入平成處理記憶體204內任一 DRAM 220的資料。交叉開關單元210設置成將每一GPC 208的輸出繞送至任意分割單元215的輸入或至用於進一步處理的其他GPC 208。GPC 208透過交叉開關單元210與記憶體介面214通訊，來讀取或寫入許多外部記憶體裝置。在一個具體實施例內，交叉開關單元210具有一連接至記憶體介面214來與I/O單元205通訊，以及一連接至本機並行處理記憶體204，藉此讓不同GPC 208內的處理核心與系統記憶體104或不在PPU 202本機上的其他記憶體通訊。在第二圖所示的具體實施例中，交叉開關單元210直接連接至I/O單元205。交叉開關單元210可使用虛擬通道，以分隔GPC 208與分割單元215之間的流量串流。

GPC 208同樣可程式編輯來執行有關廣泛應用的處理任務，包含但不受限於線性與非線性資料傳輸、視訊及/或音訊資料篩選、模型化運算(例如套用實體規則來決定位置、速度以及其他物體屬性)、影像彩現運算(例如曲線細分著色、影點著色、幾何著色及/或畫素著色程式)等等。 PPU 202可從系統記憶體104及/或本機並行處理記憶體204將資料傳輸進入內部(晶片上)記憶體、處理該資料並將結果資料寫回系統記憶體104及/或本機並行處理記憶體204，其中這種資料可由其他系統組件存取，包含CPU 102或另一並行處理子系統112。

一PPU 202可提供任何數量的本機並行處理記憶體204，包含非本機記憶體，並且可任何情況下使用本機記憶體和系統記憶體。例如：PPU 202可為統一記憶體架構(unified memory architecture，UMA)具體實施例內的圖形處理器。在這種具體實施例內，提供一些或無專屬圖形(並行處理)記憶體，並且PPU 202完全或幾乎完全使用系統記憶體。在UMA具體實施例內，PPU 202可整合至橋接器晶片或處理器晶片，或提供當成分散式晶片，具有高速連結(例如PCI Express)透過橋接器晶片或其他通訊方式將PPU 202連接至系統記憶體。

如上述，任何數量的PPU 202都可包含在一並行處理子系統112內。例如：單一外接卡上可提供多個PPU 202，或多張外接卡可連接至通訊路徑113，或一或多個PPU 202可整合到一橋接器晶片上。多PPU系統內的PPU 202可彼此一致或不同。例如：不同的PPU 202可具有不同數量的處理核心、不同大小的本機並行處理記憶體等等。當存在多個PPU 202時，這些PPU可並行操作，以比單一PPU 202還要高產量的方式來處理資料。合併一或多個PPU 202的系統可在許多設置與外型因素之下實施，包含桌上型、膝上型或手持式個人電腦、伺服器、工作站、遊戲機、嵌入式系統等等。

多重並行任務排程

多重處理任務可在GPC 208上同時執行，並且一處理任務可在執行期間產生一或多個「子代」處理任務。任務/工作單元207接收該等任務，並且動態排定要由GPC 208執行的處理任務以及子代處理任務。

第三A圖為根據本發明的一個具體實施例，第二圖中任務/ 工作單元207的方塊圖。任務/工作單元207包含一任務管理單元300以及工作分配單元340。任務管理單元300根據執行優先順序等級來組織要排程的任務。針對每一優先順序等級，任務管理單元300儲存指標清單到對應至排程器表321內任務的TMD 322，其中該清單可用連結清單來實施。TMD 322可儲存在PP記憶體204或系統記憶體104內。任務管理單元300接受任務並且將該等任務儲存在排程器表321內的速率與任務管理單元300排定任務來執行的速率無關，因此任務管理單元300可在排定該等任務之前集中許多任務。然後根據優先順序資訊或使用其他技術，例如輪轉排程，來排定集中的任務。

工作分配單元340包含一任務表345，其中有插槽讓TMD 322針對執行的任務所佔用。任務管理單元300可排定任務在任務表345內有空插槽時執行。當無空插槽時，未佔用插槽的較高優先順序任務會驅逐未佔用插槽的較低優先順序任務。一任務遭到驅逐時，該任務會停止，並且若該任務尚未執行完畢，則該任務的指標會加入要排定的任務指標清單中，如此稍後會恢復執行該任務。在一任務執行期間產生子代處理任務時，將該子代任務的指標加入要排定的任務指標清單內。由在處理叢集陣列230內執行的TMD 322可產生一子代任務。

與從前端212的任務/工作單元207所接收的任務不同，子代任務從處理叢集陣列230接收。子代任務並未插入推送緩衝區或傳輸至該前端。子代任務已經產生或該子代任務的資料已經儲存在記憶體內時，並不會通知CPU 102。透過推送緩衝區提供的該等任務與子代任務間之另一差異在於，透過推送緩衝區提供的該等任務由該應用程式定義，而該等子代任務則在該等任務執行期間動態產生。

任務處理概觀

第三B圖為根據本發明的一個範例具體實施例，第二圖中 PPU 202之一者內GPC 208的方塊圖。每一GPC 208都可設置成同時執行大量執行緒，其中「執行緒」一詞代表在特定輸入資料集上執行的特定程式之實例。在某些具體實施例內，單一指令、多重資料(single-instruction,multiple-data，SIMD)指令發行技術用於支援大量執行緒的並行執行，而不用提供多個獨立指令單元。在其他具體實施例內，單一指令、多重執行緒(single-instruction,multiple-thread，SIMT)技術用於支援大量一般同步執行緒的並行執行，使用共用指令單元，其設置成發出指令至每一GPC 208內的處理引擎集。不同於一SIMD執行引擎，其中所有處理區域一般都執行一致的指令，SIMT執行允許不同執行緒更迅速遵循分散的執行路徑通過一已知執行緒程式。業界內精通技術人士將了解，SIMD處理方案代表一SIMT處理方案的功能子集。

透過將處理任務分配至串流多重處理器(streaming multiprocessor，SM)310的管線管理員305可有利地控制GPC 208的操作。藉由指定SM 310所輸出之已處理資料的目的地，管線管理員305也可配置來控制工作分配交叉開關330。

在一個具體實施例內，每一GPC 208都包含數量為M 的SM 310，其中M1，每一SM 310都設置成處理一或多個執行緒群組。另外，每一SM 310有利地包含可管路化的一致功能執行單元集(例如執行單元與載入儲存單元，在第三C圖內顯示為執行單元302以及LSU 303)，允許完成先前指令之前發出新指令，如先前技術所知。可提供功能執行單元的任何組合。在一個具體實施例內，該等功能單元支援許多種運算，包含整數與浮點演算(例如加法與乘法)、比較運算、布林運算(AND、OR、XOR)、位元位移和許多代數函數的計算(例如平面插值、三角函數以及對數函數等等)；並且該相同功能單元可用來執行不同運算。

這一系列指令傳輸至構成一執行緒的特定GPC 208，如本文先前所定義，並且通過SM 310內並行處理引擎(未顯示)的特定數量同時執行的執行緒之集合在此稱為「經線」或「執行緒群組」。如本文所使用，「執行緒群組」代表在不同輸入資料上同時執行相同程式的執行緒群組，其中該群組的一個執行緒指派給SM 310內不同的處理引擎。一執行緒群組可包含數量比SM 310內處理引擎數量還要少的執行緒，在此案例中，某些處理引擎會在循環期間處理該執行緒群組時閒置。執行緒群組也可包含數量比SM 310內處理引擎數量還要多的執行緒，在此案例中，將在連續時脈循環上進行處理。因為每一SM 310都可同時支援最多G 個執行緒群組，所以在任何已知時間上GPC 208內都可執行最多G *M 個執行緒群組。

此外，在SM 310內可同時啟用複數個相關執行緒群組(在不同執行階段內)。此執行緒群組的集合稱為「合作執行緒陣列」(cooperative thread array，CTA)或「執行緒陣列」。特定CTA的大小等於m*k，其中k為執行緒群組內同時執行的執行緒數量，通常為SM 310內並行處理引擎數量的整數倍數，並且m為SM 310內同時啟用的執行緒群組數量。CTA的大小一般由程式設計師以及該CTA可用的硬體資源數量，例如記憶體或暫存器，來決定。

每一SM 310都包含第一層(L1)快取(如第三C圖所示)，或使用SM 310之外對應L1快取內的空間，其用於執行負載與儲存操作。每一SM 310也要存取所有GPC 208之間共享的第二層(L2)快取，並且可用於在執行緒之間傳輸資料。最後，SM 310也要存取至晶片外「全域」記憶體，其可包含例如並行處理記憶體204及/或系統記憶體104。吾人了解，PPU 202之外的任何記憶體都可用來當成全域記憶體。此外，一點五層(L1.5)快取335可包含在GPC 208內，設置成接收並固定由SM 310要求透過記憶體介面214從記憶體擷取的資料，包含指令、統一資料以及常數資料，並且將該要求的資料提供給SM 310。具有GPC 208內多個SM 310的具體實施例得利於共享共用指令和在L1.5快取335內快取的資料。

每一GPC 208都可包含一記憶體管理單元(memory management unit，MMU)328，其設置成將虛擬位址映射至實體位址。在其他具體實施例內，MMU 328可位於記憶體介面214之內。MMU 328包含一組頁面表記錄(page table entry，PTE)，用於將一拼貼以及選擇性一快取線索引的虛擬位址映射至實體位址。MMU 328可包含能夠位於多處理器SM 310或L1快取或GPC 208內的位址轉譯後備緩衝器(translation lookaside buffer，TLB)或快取。該實體位址經過處理來分配本機存取的表面資料，以便讓有效要求交錯於分割單元215之間。該快取線索引可用於決定一快取線的要求是否命中或未命中。

在圖形與計算應用當中，GPC 208可經過設置，如此每一 SM 310都連結至一紋理單元315，用於執行紋理映射操作，例如決定紋理樣本位置、讀取紋理資料以及篩選該紋理資料。紋理資料從內部紋理L1快取(未顯示)讀取，或在某些具體實施例內從SM 310內的該L1讀取，並且依照需求從所有GPC 208之間共享的L2快取、並行處理記憶體204或系統記憶體104擷取。每一SM 310都輸出處理過的任務至工作分配交叉開關330，以便將該處理過的任務提供至另一GPC 208供進一步處理，或透過交叉開關單元210將該處理過的任務儲存在L2快取、並行處理記憶體204或系統記憶體104內。preROP(預先光柵運算)325設置成從SM 310接收資料、將資料引導至分割單元215內的ROP單元，並且執行顏色混合、組織畫素顏色資料以及執行位址轉譯的最佳化。

吾人將了解，本文中顯示的該核心架構為例示，所以可進行改變與修改。任何數量的處理單元，例如SM 310或紋理單元315、preROP 325都可包含在GPC 208內。進一步如第二圖內所示，PPU 202可包含任意數量功能彼此類似的GPC 208，如此執行行為並不取決於接收特定處理任務的GPC 208。進一步，每一GPC 208都得利於與其他GPC 208無關的操作，運用分離並分散的處理單元、L1快取，來執行一或多個應用程式的任務。

精通此技術人士將了解，第一圖、第二圖、第三A圖和第三B圖內描述的架構並非用於限制本發明範疇，本說明書內的技術可在任何正確設置的處理單元上實施，在不背離本發明範疇之下包含但不受限於一或多個CPU、一或多個多核心CPU、一或多個PPU 202、一或多個GPC 208、一或多個圖形或特殊用途處理單元等等。

在本發明的具體實施例內，吾人想要使用一計算系統的PPU 202或其他處理器，運用執行緒陣列來執行一般用途計算。該執行緒陣列內的每一執行緒都可指派一個獨一的執行緒識別碼(「執行緒ID」)，其可在該執行緒執行期間存取該執行緒。該執行緒ID可定義為一維度或多維度數值，控制該執行緒處理行為的許多態樣。例如：一執行緒ID可用於決定設定一執行緒的哪個輸入資料部分要處理及/或決定設定一執行緒的哪個輸入資料部分要產生或寫入。

每個執行緒指令的序列可包含至少一個指令，其定義該代表性執行緒與該執行緒陣列的一或多個其他執行緒之間的合作行為。例如：每一執行緒指令的順序可包含將在該順序內特定點上該代表執行緒運算執行中斷，直到一或多個其他執行緒到達該特定點上為止之指令、讓該代表執行緒將一或多個其他執行緒可存的資料儲存至一共享記憶體內之指令、讓該代表執行緒根據其執行緒ID自動讀取與更新一共享記憶體內一或多個該等其他執行緒已經存取過的資料之指令等等。該CTA程式也可包含一指令，計算該共享記憶體內所要讀取資料的位址，其中該位址為執行緒ID的函數。利用定義合適的功能並且提供同步技術，資料可利用CTA的一個執行緒寫入共享記憶體內一已知位置，並且以可預測方式用相同CTA的不同執行緒從該位置當中讀取。因此，支援在執行緒之間共享的任何資料圖案，並且一CTA內的任何執行緒都可與相同CTA內任何其他執行緒共享資料。在CTA執行緒之間共享的資料內容(若有的話)由該CTA程式決定；如此吾人了解在使用CTA的特定應用當中，根據該CTA程式，CTA的執行緒彼此之間不會確實共享資料，並且在本文中可同時使用「CTA」與「執行緒陣列」等詞。

第三C圖為根據本發明的一個範例具體實施例，第三B圖中SM 310的方塊圖。SM 310包含一指令L1快取370，其設置成透過L1.5 快取335接收指令與常數。經線排程器與指令單元312接收來自指令L1快取370的指令與常數，並且根據該等指令與常數控制本機暫存檔304以及SM 310功能單元。SM 310功能單元包含N個執行(執行或處理)單元302以及P個載入儲存單元(load-store unit，LSU)303。

SM 310提供具備不同存取階層的晶片上(內部)資料儲存。特殊暫存器(未顯示)可由LSU 303讀取但是無法寫入，並且可用於定義每一直執行緒「位置」的參數。在一個具體實施例內，特殊暫存器包含每一執行緒(或SM 310內每一執行單元302)一個暫存器，其儲存一執行緒ID；每一執行緒ID暫存器都只能由個別一個執行單元302存取。特殊暫存器也可包含額外暫存器，可由執行TMD 322(或由所有LSU 303)所呈現相同處理任務的所有執行緒讀取，其儲存一CTA識別碼、該CTA維度、該CTA所屬方格的維度(或若TMD 322編碼一佇列任務而非一方格任務時的佇列位置)以及指派CTA的TMD 322之識別碼。

若TMD 322為一方格TMD，則執行TMD 322會導致啟動並執行固定數量的CTA，來處理佇列525內所儲存的固定數量資料。CTA的數量依照方格寬度、高度與深度的乘積來指定。該固定數量的資料可儲存在TMD 322內，或TMD 322可儲存將由CTA處理的資料之指標。TMD 322也儲存該CTA所執行程式的開始位址。

若TMD 322為佇列TMD，然後使用TMD 322的佇列功能，表示要處理的資料量並不需要固定。佇列記錄儲存指派給TMD 322的CAT所處理的資料。該等佇列記錄也呈現執行緒執行期間由另一TMD 322產生的子代任務，藉此提供巢狀並行。一般來說，執行緒的執行或包含該執行緒的CTA會中止，直到子代任務執行完成為止。該佇列可儲存在TMD 322內，或與TMD 322分開，在此案例中TMD 322儲存至該佇列的佇列指標。有利的是，由該子代任務產生的資料可寫入該佇列，同時TMD 322代表已經執行的該子代任務。該佇列可實施為一圓形佇列，如此資料總量並不受限於該佇列的大小。

屬於一方格的CTA具有暗示的方格寬度、高度和深度參數，指示該方格內個別CTA的位置。在初始化期間會寫入特殊暫存器，以回應透過前端212從裝置驅動程式103接收命令，並且在一處理任務期間不會改變。前端212排程執行每一處理任務。每一CTA都關聯於一特定TMD 322，以便同時執行一或多個任務。此外，單一GPC 208可同時執行多個任務。

一參數記憶體(未顯示)儲存可由相同CTA(或任何LSU 303) 內任何執行緒讀取但無法寫入的執行時間參數(常數)。在一個具體實施例內，裝置驅動程式103在導引SM 310開始執行使用這些參數的任務之前，提供參數至該參數記憶體。任何CTA內的任何執行緒(或SM 310內的任何執行單元)都可透過記憶體介面214存取全域記憶體。全域記憶體的一部分可儲存在L1快取320內。

每一執行緒都使用本機暫存檔304當成伸展空間；每一暫存器都分配給一個執行緒專用，並且任何本機暫存檔304內的資料都只能由分配給該暫存器的該執行緒存取。本機暫存檔304可實施為實體上或邏輯上區分成P個通路的暫存檔，每一通路都具有某些數量的記錄(在此每一記錄都可儲存例如32位元字)。一個通路指派給該N個執行單元302以及P個載入儲存單元LSU 303的每一個，並且不同通路內的對應記錄可填入執行相同程式的不同執行緒之資料，來幫助SIMD執行。通路的不同部分可分配給該G個同時執行緒群組中不同的執行緒，如此本機暫存檔304內的一已知記錄只能由特定執行緒存取。在一個具體實施例內，本機暫存檔304內的特定記錄保留用於儲存執行緒識別碼，實施該等特殊暫存器之一者。此外，一統一L1快取375儲存N個執行單元302以及P個載入儲存單元LSU 303的每一通路之統一或常數值。

共享記憶體306可由單一CTA內的執行緒存取；換言之，共享記憶體306內任何位置都可由相同CTA內任何執行緒(或SM 310內任何處理引擎)來存取。共享記憶體306可實施為具有互連的一共享暫存檔或共享晶片上記憶體，允許任何處理引擎從該共享記憶體內任何位置讀取或寫入。在其他具體實施例內，共享的狀態空間可映射至晶片外記憶體的每一CTA區域，並且快取在L1快取320內。該參數記憶體可實施為該相同共享暫存檔或實施共享記憶體306的共享快取記憶體內一指定區段，或實施為LSU 303具有唯讀存取的一個別共享暫存檔或晶片上快取記憶體。在一個具體實施例內，實施該參數記憶體的區域也用於儲存該CTA ID和任務ID，以及CTA和方格尺寸或佇列位置，實施該特殊暫存器的位置。SM 310內每一LSU 303都連結至統一位址映射單元352，將提供用於載入與儲存統一記憶體空間內所指定指令的一位址轉換至每一分散記憶體空間內一位址。因此，利用指定該統一記憶體空間內一位址，可使用一指令來存取任何該本機、共享或全域記憶體空間。

每一SM 310內的L1快取320都可用於快取私用每一直行緒本機資料，並且也快取每一應用程式全域資料。在某些具體實施例內，該每一CTA共享資料可快取在L1快取320內。LSU 303可透過一記憶體與快取互連380連結至共享記憶體306以及L1快取320。

任務管理單元300管理要排程為TMD群組陣列並儲存在該排程器表321內的計算任務。一TMD群組為具有相同排程優先順序的計算任務集合。TMD群組或優先順序層級的數量可為一個或更多。在每一TMD群組內，在個別優先順序層級上該等計算任務儲存在一清單內，其可用一已連結清單實施，並且之後假設為一已連結清單。已連結清單內每一輸入都儲存至記憶體內一TMD 322的任務指標，以及至該個別已連結清單內下一個輸入的指標。該已連結清單針對每一TMD群組儲存頭指標與尾指標。不具有任務的TMD群組具有相等的頭指標與尾指標，並且一空位元設定為TRUE。

從主介面206接收計算任務時，任務管理單元300將該等計算任務插入一TMD群組。尤其是，除非設定一特殊TMD位元要該任務加入該已連結清單的頭部，否則將對應至該計算任務的該TMD 322之任務指標加入該群組已連結清單的尾部。即使一TMD群組內所有任務都具有相同排程優先順序層級，該TMD群組已連結清單的頭部還是任務管理單元300所選擇的第一計算任務，並且排定來執行。如此，相較於相同優先順序等級上的其他計算任務，該已連結清單頭部上的該計算任務具有相對較高的優先順序。類似地，在該已連結清單內每一連續計算任務都具有與該已連結清單內先前計算任務相關較低優先順序相同的優先順序層級。因此，任務管理單元300可用彼此之間相對的輸入順序來排定TMD群組內的該等計算任務(假設並無特定標記加入該TMD群組的頭部)。因為該TMD群組指定為該TMD結構的一部分，則一計算任務的TMD群組在該計算任務執行時無法改變。計算任務也可從處理叢集陣列230接收。

計算任務根據之前排定的該計算任務優先順序等級收集至群組，允許將由任務管理單元300接收計算任務的速率與將計算任務輸出至工作分配單元340用於執行的速率脫離連結。任務管理單元300通常可接受來自一或多個推送緩衝器並由主介面206輸出的計算任務，其接受速率高於輸出給工作分配單元340執行的該等計算任務。來自不同推送緩衝器的輸入屬於獨立串流，通常由相同的應用程式產生，以便具有多組相依任務，但是在某些具體實施例內，多重應用程式可寫入至該推送緩衝器。任務管理單元300可設置來緩衝排程器表格321內的該等計算任務，稍後從排程器表格321選擇一或多個計算任務來輸出至工作分配單元340。利用緩衝之後選擇該等計算任務，任務管理單元可根據更多資訊與從已接收計算任務當中所選擇的一計算任務做比較來做出選擇。例如：任務管理單元300可緩衝在高優先順序任務之前已經接收的許多低優先順序任務。該緩衝讓任務管理單元300選擇在低優先順序任務之前先輸出高優先順序任務。

任務管理單元300可使用許多不同技術來執行選擇排定該等計算任務：循環、優先順序或分割優先順序排程。針對每一不同排程技術，選擇一計算任務要排程時，該已選取計算任務會從儲存該已選取計算任務的TMD群組當中移除。不管排程技術為何，任務管理單元300都可利用選擇適當群組的已連結清單內第一記錄，快速選擇一計算任務。利用簡單改變該等TMD群組連結清單內任務指標的順序，任務管理單元300就可輕易組織，並且若需要，重新排列該等計算任務。因此，該等計算任務可用一順序來排程及/或執行，該順序與任務管理單元300從主介面206接收該等任務指標的順序不同。

最簡單的排程法則為讓任務管理單元300將該計算任務排在每一群組前頭(若該群組內存在一計算任務)，並且以循環方式輪過該等群組。另一個排程技術為優先順序排程，其用嚴格的優先順序來選擇該等計算任務。任務管理單元300從至少具有一個計算任務的最高優先順序TMD群組當中，從頭開始，選擇一計算任務。

使用非搶占式GPU的互動除錯

第四圖為根據本發明的一個範例具體實施例，設置來在一圖形處理單元上對圖形著色除錯的一系統之概念圖。如第四圖內所示，在系統100上實施一軟體用戶端(即是除錯器450)，可在非搶占式GPU，例如PPU 202之上進行互動硬體除錯。除錯器450可為單獨應用程式，設置成透過裝置驅動程式103所實施的應用程式編輯介面與PPU 202通訊。除錯器450可由系統記憶體104儲存並執行。在一個具體實施例內，PPU 202包含某些硬體除錯能力，例如將在執行時間期間發生的硬體陷阱(例如中斷點、例外、評估等)之通知傳送給裝置驅動程式103、啟用除錯器450來執行某些除錯相關任務，例如將部分PP記憶體204沖至系統記憶體104，或允許裝置驅動程式103寫入PPU 202的暫存器內。一般來說，PPU 202為多執行緒處理單元，允許在二或多個應用程式之間切換。在某些具體實施例內，除錯器450可直接在裝置驅動程式103內實施，並且連結至裝置驅動程式103之外相關軟體用戶端所實施的一圖形使用者介面，允許程式設計師查閱處理器狀態、記憶體內儲存的值以及選擇應用程式410及/或著色程式碼412進行除錯。

在一個具體實施例內，除錯器450根據使用者輸入，選擇程式設計師要除錯的應用程式410及/或著色程式碼412。一般來說，在目標平台上(即PPU 202)執行硬體除錯需要與除錯系統分開並且遠離的一遠端硬體平台。例如：PPU 202(0)通常設置成執行由作業系統422發送的圖形操作及/或在電腦系統100內CPU 102上運行的一或多個其他應用程式424，並且在顯示裝置110上呈現並顯示一畫面影像。硬體除錯通常運用停止事件，例如應用程式410及/或著色程式412的原始碼內之中斷點集，這允許程式設計師執行特定指令的程式碼，如此該程式設計師可試驗記憶體內儲存的中間值，確保正確的程式操作。而由於失敗的軟體評估或導致例外的不合法指令，可引起其他停止事件。嘗試使用PPU 202(0)對著色程式412除錯可導致PPU 202(0)中止執行來自應用程式410的所有傳入操作，以及中止執行由例如作業系統422或一或多個其他應用程式424所發出之任何其他操作。中止所有圖形操作可避免對PP記憶體204內所儲存並且用於更新顯示裝置110的螢幕上所顯示影像之畫面緩衝器進行任何額外更新，藉此清除螢幕更新。PPU 202(0)清除螢幕更新的能力避免程式設計師試驗顯示裝置110上任何中間資料，或甚至若一復原命令與除錯器450的圖形使用者介面綁定時，避免傳送該復原命令繼續執行該程式。

此問題的傳統解決方案為將除錯器450連接至第二PPU 202(1)，當成硬體除錯的目標平台，同時透過第一PPU 202(0)繼續更新顯示裝置110。第二PPU 202(1)可透過通訊路徑113(共享的匯流排組態)或第二類似通訊路徑，直接連接至電腦系統100。另外，第二PPU 202(1)可透過網路配接器118間接連接至電腦系統100，並且透過網路存取。

這種傳統除錯系統的限制相當明顯，所需的額外硬體增加除錯平台的成本，每一除錯平台都需要至少兩個GPU。此外，管理兩個不同圖形平台之間圖形命令的多個通道會提高系統的複雜度。接著，一種較佳解決方案將單一PPU 202運用在螢幕更新以及除錯，實際上可讓配備繪圖卡的任何電腦執行硬體除錯操作。

相較於傳統除錯系統，第四圖例示其中PPU 202為單一非搶占式GPU的除錯系統，可用於螢幕更新以及硬體除錯。在一個具體實施例內，PPU 202可為在應用程式之間切換的領域。一般來說，一旦在PPU 202(0)啟動工作負載，在將PPU 202切換至不同領域之前需要完成或沖掉該工作負載。在正常操作中，作業系統422或另一應用程式424可傳送繪圖命令至裝置驅動程式103，在此將這些命令編譯成機械指令，並且將該等機械指令發送給PPU 202來執行。不過在除錯期間，透過程式應用程式410發送至PPU 202的該等機械指令可導致PPU 202因為發生硬體陷阱而中止，例如中斷點或例外，這可避免PPU 202執行任何進一步繪圖命令。如此PPU 202必須通知除錯器450已經發生硬體陷阱(透過裝置驅動程式103)，然後除錯器450可利用執行儲存執行緒狀態所需的任何操作以及當前執行中執行緒的記憶體值、清除(即中止)任何當前已停止執行緒(以及任何相依子執行緒)的執行，並且由PPU 202執行作業系統422發送的額外繪圖命令以及其他應用程式424，以便操縱該硬體陷阱。接著，除錯器450可讓PPU 202繼續更新顯示裝置110上顯示的螢幕影像。

一般來說，工作負載由PPU 202在相對短的時間週期內執行。例如：工作負載可由圖形繪製呼叫構成，用於呈現螢幕上要顯示的畫面。因為應用程式的畫面速率通常在每秒30個畫面的範圍內，所以圖形繪製呼叫通常將在30毫秒內執行。同樣地，計算工作負載(例如物理計算)也將在類似時間畫面內執行。如此即使針對除錯目的提出的一工作負載可短時間內避免螢幕更新，PPU 202通常也會以夠快的速度完成執行該工作負載(或除錯器將中斷該工作負載，儲存執行緒狀態並且清除與該工作負載相關聯的該等執行緒)，如此PPU 202能夠處理用於執行螢幕更新的圖形工作負載。

在一個具體實施例內，程式設計師可選擇內含著色程式412 的一應用程式410，以便運用PPU 202除錯。應用程式410的原始碼可用C++或C#或某些其他高階程式設計語言撰寫，在編譯成為二進位可執行碼時，例如應用程式410，可由CPU 102執行。該原始碼可包含繪圖命令可建構成API呼叫至圖形API，例如可由裝置驅動程式103實施的OpenGL或DirectX。該原始碼也可合併API呼叫，用於在PPU 202上載入特定著色程式412(即是特別設計由GPU執行的繪圖程式)，以便處理由應用程式410建立的工作負載。著色程式412的原始碼可用高階著色語言撰寫，例如Cg或OpenGL Shading Language(GLSL)。著色程式412為二進位可執行碼，設置成在PPU 202的每一SM 310上運行。除錯器450設置成可讓程式設計師對PPU 202硬體平台上一或多個著色程式412除錯。

在另一具體實施例內，除錯器450可設置成讓程式設計師直接在PPU 202上對著色程式412除錯，不用在CPU 102上執行應用程式410。例如：除錯器450可設置成發出API呼叫至裝置驅動程式103，直接將著色程式412載入PPU 202。一旦著色程式412已經載入PPU 202，除錯器450可設置成建立由選取要除錯的著色程式412所處理之測試工作負載。吾入將了解，工作負載需要由程式設計師預先定義，來提供已知的輸入給著色程式412，以便評估著色程式412是否產生正確輸出。一般來說，除錯的早先階段可由每一著色程式412的低階評估構成，而除錯的最後階段可將CPU 102所執行的主應用程式410與PPU 202上執行的著色程式412合併。

第五圖根據本發明的一個範例具體實施例，例示由除錯器 450維護以在PPU 202上實施互動除錯的資料結構。如第五圖內所示，除錯器450維護與除錯期間發給PPU 202的工作負載相關之清單。「工作負載」為要由GPU處理的資料集合。針對繪圖應用程式，工作負載由Draw呼叫建立(即是發起一或多個圖元，例如三角形，的處理之API方法呼叫)。針對計算應用，工作負載由Kernel啟動建立(即是發起TMD 322處理之API方法呼叫)。

使用除錯器450執行應用程式410時，除錯器450可攔截應用程式410所產生的工作負載，並且傳送給PPU 202執行。在一個具體實施例內，應用程式410在CPU 102上執行，並且可設置成建立用於PPU 202的工作負載，例如利用在PP記憶體204內產生TMD 322，並且發出一Kernel啟動命令給裝置驅動程式103，指定一或多個TMD 322。在一個具體實施例內，除錯器450設置成攔截CPU 102建立的工作負載、產生清單來追蹤已經啟動處理該等工作負載的該等執行緒、發出由除錯器450產生的新工作負載以及清掉傳輸至PPU 202的工作負載，確定將處理由其他應用程式提交的額外工作負載。

在一個具體實施例內，在除錯器450攔截傳送至PPU 202 的工作負載(透過裝置驅動程式103)，然後除錯器450產生並維護與該工作負載相關聯的執行緒清單。第一清單512追蹤「邏輯完成」執行緒，儲存與已完成工作負載相關聯的每一執行緒之執行緒識別碼(ThreadID_x )。第二清單514追蹤「進行中」執行緒，儲存與目前執行中工作負載相關聯的每一執行緒之執行緒識別碼。第三清單516追蹤「尚未啟動」執行緒，儲存與尚未執行工作負載相關聯的每一執行緒之執行緒識別碼。最初，針對已經排定啟動來處理該已攔截工作負載的每一執行緒，可用執行緒識別碼填滿第三清單516，同時第一清單512和第二清單514都空白。一旦除錯器450已經產生該等清單，則除錯器450發出該工作負載至PPU 202要執行的裝置驅動程式103，並且進入一重新啟動迴圈。

該重新啟動迴圈為用於模擬硬體除錯的一反覆迴圈，利用一時間上的少部分指令，使PPU 202步進通過著色程式412，而實際上利用在PPU 202上重新發出該原始工作負載，並且根據在哪邊遇到中斷點來在該處理內不同點上中止執行，以便達成該程式的每一步驟。利用復原先前往返期間已經儲存的所有進行中執行緒之狀態，來執行處理該工作負載，如此已經完成的執行緒以及執行緒進行中之部分都不會重新執行。取而代之，PPU 202試圖重新啟動該執行緒時，將中止已經完成的任何執行緒，並且在先前往返期間已經執行的任何執行緒都將恢復至該執行緒內中止執行的該點。

在一個具體實施例內，該工作負載可與PP記憶體204內建造的TMD 322相關聯，指定針對該工作負載要執行的複數個執行緒。例如：TMD 322可包含最多三維內方格的指標(即CTA的集合)。該方格可包含工作負載所內含總數500個CTA當中大小10個CTA的x維度、大小10個CAT的y維度以及大小5個CTA的z維度。當一工作負載已經執行，來自該方格的CTA可發出至PPU 202的一或多個SM 310。CTA內的每一執行緒都是由應用程式410所指定特定著色程式412之實例。在某些具體實施例內，PPU 202可實施一種功能，允許除錯器450指定一CTA方格的每一尺寸之開始索引。如此，若除錯器450已經判斷在先前執行循環(即往返)期間已經完成執行該x維度內頭4個溝槽內的該等CTA，則除錯器450可指定應該在該x維度內第5CTA上開始執行PPU 202。

如第五圖內所示，當PPU 202執行該工作負載，則在SM 310 上排定執行緒進行處理。由特定SM 310運行執行緒時，某些執行緒可完成執行。除錯器450設置成追蹤哪個執行緒(依照執行緒ID指定)已經排定在PPU 202上執行，並且從第三清單516(即「尚未啟動」)將這些執行緒ID移動到第二清單514(即「進行中」)。當執行緒完成執行，除錯器450將該等執行緒ID從第二清單514移動至第一清單512(即「邏輯完成」)。吾人將了解，在替代具體實施例內，除錯器450可用其他技術可行方式追蹤執行緒，例如使用單一清單並且將該單一清單內的該等執行緒ID與一標記關聯，指出特定執行緒的狀態(例如「尚未啟動」、「進行中」或「邏輯完成」)。例如：除錯器450可依照預設值假設所有執行緒都具有「尚未啟動」的既有狀態。在工作負載處理期間PPU 202啟動SM 310上的執行緒時，除錯器450會將已啟動執行緒的對應執行緒ID加入陣列內(即清單)。隨著執行緒完成執行，該等執行緒ID可關聯於一標記，指出與執行緒ID相關聯的該執行緒「邏輯完成」。如此，除非關聯於指出其為「邏輯完成」的標記，否則該陣列內含的所有執行緒都「進行中」。若特定執行緒的一執行緒ID未含在該陣列內，則除錯器450假設對應至執行緒ID的該執行緒「尚未啟動」。仍舊在其他具體實施例內，除錯器450可運用兩個分離陣列(即清單)，一個清單指出一執行緒「進行中」，另一清單指出該執行緒「邏輯完成」。一執行緒完成執行時，除錯器450可從該第一陣列內移除該執行緒ID，並將該執行緒ID加入該第二陣列。如此，若該執行緒ID包含在該第一陣列內，則一執行緒將視為「進行中」、若該執行緒ID包含在該第二陣列內，則視為「邏輯完成」，並且該執行緒ID不包含該第一和第二陣列內，則視為「尚未啟動」。

在某些點上，PPU 202可遇到一硬體陷阱，中止在SM 310上運行的所有執行緒之執行。在此點上，PPU 202通知裝置驅動程式103，告知PPU 202已經中止執行，並且由於遇到硬體陷阱而停止。在一個具體實施例內，裝置驅動程式103接著將硬體停止事件通知除錯器450。在另一具體實施例內，除錯器450可輪詢裝置驅動程式103或PPU 202，以決定是否遇到一硬體陷阱。在將該硬體停止事件通知除錯器450時，除錯器450儲存第二清單514內含每一執行緒的該執行緒狀態。換言之，針對目前「進行中」的任何執行緒，除錯器450儲存將這些執行緒恢復到當前執行點所需的任何執行緒狀態資訊。例如：除錯器450可將特殊暫存器、每一執行緒本機記憶體以及共享的全體記憶體內儲存之值儲存至系統記憶體104。然後除錯器450可改變PPU 202的整體狀態，以清除(即中止)任何新建立的執行緒以及當前執行中的任何執行緒。例如：除錯器450可設定一特殊暫存器，導致PPU 202在恢復執行時清除任何現有執行緒。然後除錯器450假設PPU 202的執行，清除與當前工作負載相關的所有執行緒，如此PPU 202 可開始處理新工作負載。該等新工作負載可包含由作業系統422或其他應用程式424傳輸至PPU 202的繪圖命令，導致更新顯示裝置110上的影像。

一旦PPU 202已經利用除錯器450回到正常操作，則可更新除錯器450的該GUI，如此程式設計師可檢查關聯於「已停止」著色程式412的任何已儲存處理狀態或變數資料。然後除錯器450等待程式設計師發出恢復命令。例如：程式設計師可設定一新中斷點，並且選擇一按鈕來恢復執行著色程式412。除錯器450接收該恢復命令時，除錯器450將先前的工作負載重新發出至PPU 202。該工作負載將復原至先前硬體陷阱發生處的執行點，並且允許執行直到遭遇一硬體陷阱引起的下一個停止事件，例如到達程式設計師設定的新中斷點，或著色程式412內軟體評估失敗。除錯器450再次儲存該處理器狀態、沖洗PP記憶體204、清除與該工作負載相關聯的任何現有執行緒，並且讓PPU 202返回正常操作。利用循環通過此重新啟動處理，除錯器450可反覆讓一程式設計師步進通過一著色程式412進行除錯，同時避免該硬體停止事件導致顯示裝置110停止更新。

在一個具體實施例內，除錯器450導致PPU 202在運行特定執行緒的任何指令之前，執行一執行緒輸入常式。該執行緒輸入常式為一指令集，用以決定是否應該根據除錯器450維護的該等清單(例如512、514、516)來執行一執行緒。例如：已經啟動一執行緒時，該執行緒輸入常式檢查執行緒是否包含在已經完成執行的第一清單512內(即「邏輯完成」)。若該執行緒ID包含在第一清單512內，則該執行緒輸入常式清除該執行緒，如此SM 310可執行另一執行緒來代替。換言之，在先前重新啟動迴圈期間已經執行該工作負載指定的特定執行緒，並且該執行緒的輸出已經併入該已儲存畫面緩衝器或處理器狀態。因此，在當前重新啟動往返期間不需要執行該執行緒。不過，若該執行緒ID未包含在第一清單512內，則該執行緒輸入常式決定該執行緒ID是否包含在第二清單514內(即「進行中」)，因此需要在PPU 202或PP記憶體204內恢復先前重新啟動往返期間已經儲存的某些狀態或記憶體數量。若該執行緒ID已經包含在第二清單514內，則該執行緒輸入常式復原該執行緒的執行緒狀態，並且允許該執行緒從上一次重新啟動往返期間已經清除的該執行緒點繼續執行。若該執行緒ID未包含在第一清單512或第二清單514內，則該執行緒應該包含在第三清單516內(即「尚未啟動」)，並且該執行緒輸入常式將在PPU 202的一個SM 310上啟動該執行緒的執行。

在其他具體實施例內，PPU 202的某些資源可能無法恢復。例如：某些硬體暫存器可能唯讀(例如硬體執行緒ID或其他狀態可儲存在特殊暫存器內)，因此除錯器450在PPU 202上該工作負載的後續往返期間，無法復原這些狀態變數。例如：PPU 202無法讓除錯器指定在PPU 202的特定SM 310上啟動特定執行緒。因為某些著色程式412可包含使用這些特殊暫存器當成輸入來計算某些中間位址或資料之指令，若在後續往返當中對應至一個SM 310的執行緒狀態恢復至目前在不同SM 310上執行的一執行緒，則這些著色程式412無法正常運作。此問題的一種解決方案為運用PP記憶體204內執行緒本機記憶體虛擬化這些資源，然後針對任何計算變更該等執行緒內的指令來使用這些虛擬位置，而非使用該特殊唯讀暫存器或其他不可復原的資源。此問題的另一可能解決方案為限制PPU 202的並行化，如此執行緒只能在PPU 202的單一SM 310上執行，藉此確保因為都在相同硬體位置啟動該等執行緒，所以由這些暫存器儲存的索引都相同。不過，此解決方案具有CTA序列化執行的缺點，因而隱藏了該著色同時執行所導致的任何錯誤，例如競賽情況以及其他同步議題。

在某些具體實施例內，PPU 202可包含一種功能，允許程式設計師設定一逾時限制，若在該逾時限制過之後尚未完全處理該工作負載，則自動中斷PPU 202所執行的任何程式(即工作負載)。此中斷代表完成一重新啟動往返。換言之，該逾時限制避免PPU 202因為著色程式412內軟體錯誤事件而當機，導致PPU 202中止。當前揭示技術超越傳統除錯技術的一項優點為：該傳統技術通常需要停用PPU 202的逾時保護，因為在硬體中止時，該作業系統將該工作負載視為啟用中。使用者花時間檢查狀態，同時在中斷點上開始計算逾時限制。不過在所揭示的技術中，該工作負載的每個往返期間，逾時保護不需停用，仍舊啟用(不過該逾時限制可能需要增加，來涵蓋該硬體陷阱以及恢復之前該CPU執行的狀態儲存功能所造成的延遲)，同時讓該使用者有較長時間檢視該除錯器內的狀態。

在某些具體實施例內，除錯器450可設置成在後續重新啟動

往返期間，只允許復原「進行中」執行緒。換言之，除錯器450可設置成發出一工作負載至PPU 202，並且等待發生會停止該工作負載處理的一硬體陷阱。在一執行緒處理的此點上，除錯器450已經產生「進行中」執行緒的清單以及「邏輯完成」執行緒的清單。在這些具體實施例內，於後續往返期間，除錯器450設置成清除PPU 202試圖啟動並與「邏輯完成」狀態或「尚未啟動」狀態內執行緒ID相關聯之任何執行緒。此組態可避免在先前「進行中」執行緒之前啟動「尚未啟動」執行緒，這若未避免，則會導致後續在完全不相關的程式碼區段內發生硬體陷阱，將該程式設計師的注意力從導致先前硬體陷阱的程式碼位置轉移出來。如此，在每一後續往返期間，「進行中」清單的大小不會迅速成長。不過此項技術的缺點為：「進行中」處理緒停止等待相關執行緒執行之處，該相關執行緒為「尚未啟動」時，則可能發生死結。

第六圖根據本發明的一個範例具體實施例，例示一種在非搶

占式GPU上執行互動除錯之方法600。雖然已經結合第一圖至第五圖的系統來描述該等方法步驟，精通技術人士將了解，設置來執行該等方法步驟(以任何順序)的任何系統都在本發明範疇內。

方法600由步驟610開啟，在此除錯器450接收應用程式 410和著色程式412，使用例如PPU 202這類非搶占式GPU除錯。PPU 202可為該除錯平台內含唯一的圖形處理器，並且可用於除錯以及螢幕更新。在一個具體實施例內，應用程式410以高階程式編輯語言撰寫，例如C++，而著色程式用高階著色語言撰寫，例如Cg。在步驟612上，除錯器450攔截由應用程式410所產生的命令，將一工作負載傳送至PPU 202。除錯器450產生一清單，用於追蹤與該工作負載相關聯的該等執行緒。在步驟614，除錯器450發出該工作負載至PPU 202，導致至少一個著色程式412載入PPU 202來處理該工作負載。在一個具體實施例內，除錯器450可將著色程式412直接載入PPU 202，並將一預定工作負載直接發給著色程式412，不用在CPU 102上執行來源程式410。

在步驟616上，除錯器450決定是否發生一硬體陷阱。在一個具體實施例內，不管何時只要由PPU 202產生一硬體陷阱時都要通知裝置驅動程式103，並且該程式設置成已經發生該硬體陷阱時通知除錯器450。在另一具體實施例內，除錯器450輪詢裝置驅動程式103，以決定PPU 202的狀態。若除錯器450決定未發生一硬體陷阱，則方法600前往步驟626，在此除錯器450決定該工作負載是否已經完成處理。在步驟626上，若該工作負載已經完成處理，則中止方法600。不過若該工作負載仍舊在處理，則方法600回到步驟616，在此除錯器450等待一硬體陷阱發生，然後方法600前往步驟618。在步驟618上，除錯器450儲存執行緒狀態以及與處理該工作負載的任何現用執行緒相關聯之變數資料。在一個具體實施例內，除錯器450從PPU 202複製暫存器值，同時將來自PP記憶體204的每執行緒本機記憶體複製到系統記憶體104。除錯器450也可將來自PP記憶體204的共享記憶體複製到系統記憶體104。在步驟620上，除錯器450更新PPU 202的處理器狀態，如此在PPU 202恢復操作時，會清除所有目前啟用中的執行緒以及與該當前工作負載相關聯的新建執行緒。然後除錯器450導致202恢復操作，最終導致清除由該工作負載產生的所有執行緒，並且釋放PPU 202來處理額外工作負載。

在步驟622上，除錯器450決定程式設計師是否想要使用當前工作負載恢復著色程式412除錯。例如：除錯器450的該GUI可包含一步驟命令，指出著色程式412應執行下一個指令，或除錯器450的該GUI可包含一復原命令，指出著色程式412應該繼續執行到下一個硬體停止事件(即是一中斷點、例外或失敗的評估等)。若除錯器450決定程式設計師未發出恢復執行的命令，則除錯器450等待，允許PPU 202繼續處理來自其他應用程式的繪圖工作負載，導致更新的影像顯示在顯示裝置110上。不過，若除錯器450決定程式設計師已經發出一恢復命令，則方法600前往步驟624，在此除錯器450重新發出該工作負載給PPU 202。在一個具體實施例內，除錯器450追蹤產生來處理該工作負載的執行緒之狀態。若在先前發出該工作負載期間已經完成執行一執行緒，則會清除並略過該執行緒，或若尚未發出該執行緒，則該執行緒會從頭開始執行。不過，若之前已經部分執行過該執行緒(即「進行中」)，則除錯器450可恢復該執行緒狀態，並且從對應至該執行緒先前中斷點的一點執行該執行緒。方法600回到步驟616，等待處理完成該工作負載，或等待下一個硬體陷阱。

總結來說，一並列處理單元設置成執行著色程式的硬體除錯，後續同時產生並更新一顯示裝置上顯示的影像，讓程式設計師可查閱一開發環境的GUI。一工作負載透過該並列處理單元的反覆、部分處理允許該除錯器停止中斷點之間的該並列處理單元，同時中斷該工作負載的處理，由該並列處理單元處理圖形更新。換言之，一除錯器儲存處理器狀態與記憶體，讓該並列處理單元即使透過不支援範圍切換的硬體也能切換範圍，同時由於一硬體陷阱造成工作負載停止執行。

雖然上述都導引至本發明的具體實施例，在不悖離本發明基本領域之下可提供其他與進一步具體實施例。例如：本發明領域可實現於硬體、軟體或軟體與硬體的組合之上，本發明的一個具體實施例可實施當成搭配電腦系統使用的程式產品。該程式產品的程式定義該等具體實施例(包含本文所述的方法)的功能，並且可包含在電腦可讀取儲存媒體上。例示的電腦可讀取儲存媒體包含但不受限於：(i)其上資訊永久儲存的不可抹寫儲存媒體(例如電腦內的唯讀記憶體裝置，例如CD-ROM光碟機可讀取的CD-ROM光碟、快閃記憶體、ROM晶片或任何一種固態非揮發性半導體記憶體)；以及(ii)上其儲存可變資訊的可抹寫儲存媒體(例如磁碟機或硬碟內的磁碟或任何一種固態隨機存取半導體記憶體)。這種電腦可讀取儲存媒體內儲存具備本發明功能的電腦可讀取指令時，屬於本發明的具體實施例。

在此已經參考特定具體實施例說明本發明。不過精通此技術的人士將會了解，在不背離申請專利範圍內公佈之本發明廣泛精神以及領域下，可進行許多修改與變更。因此前述說明與圖式僅供參考而不做限制。

Claims

一種在非搶占式圖形處理單元上執行互動除錯之方法，該方法包含：允許由一應用程式將一著色程式載入一並列處理單元，其中該並列處理單元設置成呈現一圖形使用者介面給一互動除錯環境，以顯示在與該並列處理單元連結的一顯示裝置上；攔截一命令，將一工作負載傳送至該並列處理單元；發出該工作負載至該並列處理單元來在一第一處理往返的期間處理，其中由在該工作負載內含分開輸入資料上並列執行的複數個執行緒處理該工作負載，並且其中該並列處理單元設置成由該等複數個執行緒內任意執行緒觸發一硬體陷阱時中止該第一處理往返；偵測在該第一處理往返內一第一點期間已經發生一第一硬體陷阱；以及進入一重新啟動迴圈，其包含停止該第一處理往返的處理，以允許該並列處理單元更新該圖形使用者介面，並且重新發出該工作負載至該並列處理單元來在一或更多後續往返期間處理。
如申請專利範圍第1項之方法，其中由至少一中斷點、一硬體例外或一失敗軟體評估之一者觸發該硬體陷阱。
如申請專利範圍第1項之方法，其中該重新啟動迴圈包含：儲存與一系統記憶體內該第一點上由該並列處理單元所執行的每一執行緒相關聯之狀態；中止該並列處理單元已經執行的所有執行緒，如此該並列處理單元可處理傳送給該並列處理單元用於更新該顯示裝置的任何額外工作負載；以及在一後續處理往返期間重新發出要由該並列處理單元處理的該工作負載，其中與在該後續往返期間已啟動並且已經由該並列處理單元在該第一處理往返期間該第一點上執行的任何執行緒相關聯之狀態都復原至該並列處理單元，並且從該等執行緒內的指令，在該第一處理往返期間停止的執行上，恢復該等執行緒的執行。
如申請專利範圍第3項之方法，其中該重新啟動迴圈另包含：將與該並列處理單元所執行每一執行緒相關聯的每執行緒本機記憶體儲存在該系統記憶體的該第一點上，其中與在該後續往返期間已啟動並且已經由該並列處理單元在該第一處理往返期間該第一點上執行的任何執行緒相關聯之每執行緒本機記憶體都復原至與該並列處理單元連結之一並列處理記憶體；儲存與該並列處理單元所執行的每一執行緒相關聯之每執行緒暫存器；以及將與該等複數個執行緒相關聯的共享記憶體儲存在該系統記憶體內，其中共享記憶體在該後續處理往返期間復原至該並列處理記憶體。
如申請專利範圍第3項之方法，另包含追蹤該並列處理單元所啟動的每一該等複數個執行緒之狀態，以便在該第一處理往返或任何後續處理往返期間處理該工作負載。
如申請專利範圍第5項之方法，其中一特定執行緒的狀態包含指出該特定執行緒是否尚未啟動、已經執行或已經邏輯完成執行，同時在該第一處理往返或任何後續處理往返期間處理該工作負載之一指示。
如申請專利範圍第6項之方法，另包含由該並列處理單元啟動一新執行緒時要執行一執行緒輸入常式，其中該執行緒輸入常式設置成：若該新執行緒關聯於一指出在一先前處理往返期間該新執行緒已經邏輯完成執行的執行緒狀態，則中止該新執行緒；復原與該新執行緒相關聯的該狀態與每執行緒本機記憶體，並且若該新執行緒關聯於指出該新執行緒在該先前處理往返期間已經執行之一執行緒狀態，則從該著色程式的一中間指令恢復執行該新執行緒；以及若該新執行緒關聯於一執行緒狀態，指出在該先前處理往返期間該新執行緒尚未啟動，則從該著色程式的一第一指令執行該新執行緒。
如申請專利範圍第6項之方法，其中重新發出在一後續處理往返期間由該並列處理單元處理的該工作負載包含：避免具有一狀態指出該特定執行緒尚未啟動的任何執行緒在該後續處理往返期間啟動，如此只允許具有一狀態指出該特定執行緒已經在該第一處理往返期間該第一點上已經執行之執行緒繼續在該後續處理往返期間執行。
一種在非搶占式圖形處理單元上執行互動除錯之系統，該系統包含：一系統記憶體，其包含一除錯器以及一應用程式，該應用程式包含目標在除錯的一或多個著色程式；一中央處理單元(CPU)，其連結至該系統記憶體；一並列處理單元，其設置成呈現一圖形使用者介面給一互動除錯環境，以顯示在與該並列處理單元連結的一顯示裝置上；以及一圖形記憶體，其連結至該並列處理單元，其中該除錯器由該CPU執行時設置成：允許由該應用程式將該著色程式載入該並列處理單元，攔截一命令，將一工作負載傳送至該並列處理單元；發出該工作負載至該並列處理單元來在一第一處理往返的期間處理，其中由在該工作負載內含分開輸入資料上並列執行的複數個執行緒處理該工作負載，並且其中該並列處理單元設置成由該等複數個執行緒內任意執行緒觸發一硬體陷阱時中止該第一處理往返，偵測在該第一處理往返內一第一點期間已經發生一第一硬體陷阱，以及進入一重新啟動迴圈，其包含停止該第一處理往返的處理，以允許該並列處理單元更新該圖形使用者介面，並且重新發出該工作負載至該並列處理單元來在一或更多後續往返期間處理。
如申請專利範圍第9項之系統，其中該重新啟動迴圈包含：儲存與該系統記憶體內該第一點上由該並列處理單元所執行的每一執行緒相關聯之狀態；中止該並列處理單元已經執行的所有執行緒，如此該並列處理單元可處理傳送給該並列處理單元用於更新該顯示裝置的任何額外工作負載；以及在一後續處理往返期間重新發出要由該並列處理單元處理的該工作負載，其中與在該後續往返期間已啟動並且已經由該並列處理單元在該第一處理往返期間該第一點上執行的任何執行緒相關聯之狀態都復原至該並列處理單元，並且從該等執行緒內的指令，在該第一處理往返期間停止的執行上，恢復該等執行緒的執行。