TWI776338B

TWI776338B - 應用於圖形處理器的編譯器及非暫態電腦可讀式儲存媒體

Info

Publication number: TWI776338B
Application number: TW109146968A
Authority: TW
Inventors: 陳中和; 陳惇介; 許峰銘; 林聖堯
Original assignee: 國立成功大學
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2022-09-01
Also published as: US11567745B2; TW202225953A; US20220206768A1

Abstract

一種編譯器包含前端模組、優化模組、及後端模組。前端模組對源代碼進行前處理以產生中介代碼。優化模組對中介代碼進行優化處理。後端模組將經優化處理的中介代碼進行轉譯處理以產生機器碼。優化處理包含對中介代碼中的分支指令轉譯成執行以下操作：對分支指令建立反向支配樹以找出分支指令的直接反向支配點作為分支指令的第一路徑的指令及第二路徑的指令的收斂節點；於收斂節點前端插入一特定指令，使得當執行完第一路徑上的特定指令後，跳至執行第二路徑的指令。

Description

應用於圖形處理器的編譯器及非暫態電腦可讀式儲存媒體

本發明係關於編譯器的技術領域，特別是關於一種應用於圖形處理器的編譯器。

近年來物聯網（Internet of Things，IoT）的崛起，以及人工智慧、機器學習等領域的快速發展，資料的處理量已大幅提升。傳統的雲端運算已經無法應付這樣即時的龐大資料處理，因而取代的是以分散式計算（例如，霧運算（Fog computing）、邊緣運算（Edge computing）、終端使用者運算（End user computing））的應用架構。舉例來說，邊緣運算將應用程式、數據資料與服務的運算從網路中心節點，移往網路邏輯上的邊緣節點來處理。換言之，邊緣運算將原本完全由中心節點處理大型服務加以分解，切割成更小與更容易管理的部份，分散到邊緣節點去處理。邊緣節點更接近於用戶終端裝置，可以加快資料的處理與傳送速度，減少延遲。

因此，通用型圖形處理器（General Purpose Graph Processing Unit，GPGPU）開始被廣泛運用於這類需要計算大量資料且可高度平行化處理的應用上。這類的圖形處理單元除了可處理圖形資料之外，還可用來計算原本由中央處理器處理的通用計算任務，而這些通用計算任務通常與圖形處理沒有任何關係。由於現代圖形處理器有強大的平行處理能力和可程式化管線，使得在面對單指令流多資料流（SIMD）且資料處理的運算量遠大於資料排程和傳輸的需要時，通用圖形處理器在效能上可大幅度地超越傳統的中央處理器。

然而，大部分的圖形處理器都是用各家廠商自己的系統架構和編譯器，其通常只支援用他們自己的定義的架構和語言的應用程式。即便是這些廠商有釋出一些針對開源（open source）軟體支援的服務，然編譯器等相關軟體或是硬體仍是得使用他們定義的。例如，傳統採用的開放計算語言（OpenCL）編譯器是AMD CLOC，其為閉源（closed source）軟體，且僅提供X86平台使用。換言之，開發人員並無法對其做修正、新增指令以及優化等操作。因此，導致在開發和使用上有一定的難處。因此，如何提供一種可移植性的OpenCL編譯平台及可進行優化的編譯器以提升支援OpenCL的圖形處理器的效能是目前的一個課題。

本發明之一目的在於提供一種應用於圖形處理器的編譯器以及一種非暫態電腦可讀式儲存媒體。

為達上述之目的，本發明提供一種應用於可進行通用運算的圖形處理器的編譯器，經組態以對藉由圖形處理器所執行的應用程式進行編譯以產生相應於應用程式的機器碼以供圖形處理器中的複數個串流多處理器執行。編譯器包含前端模組、優化模組、以及後端模組。前端模組經組態以對相應於應用程式的源代碼進行前處理以產生中介代碼。優化模組經組態以對中介代碼進行優化處理。後端模組經組態以將經優化處理的中介代碼進行轉譯處理以產生機器碼。優化處理包含對中介代碼中的每一分支指令轉譯成執行以下操作：對分支指令建立一反向支配樹以找出分支指令的一直接反向支配點作為分支指令的第一路徑的指令及第二路徑的指令的一收斂節點；以及於收斂節點前端插入一特定指令，使得當執行分支指令的第一路徑的指令時，執行完該第一路徑上的特定指令後，跳至執行分支指令的第二路徑的指令直到執行完第二路徑上的特定指令，才繼續執行該收斂節點開始的指令。

在本發明的一實施例中，分支指令由被分配到的該等串流多處理器中的一者所包含的複數個串流處理器同時執行，其中第一路徑的指令由該等串流處理器中的複數個第一串流處理器以及複數個第二串流處理器使用第一線程遮罩同時執行，以及第二路徑的指令由該等第一串流處理器以及該等第二串流處理器使用第二線程遮罩同時執行。

在本發明的一實施例中，在執行完該第一路徑上的特定指令時，僅該等第一串流處理器所執行的結果被儲存，且在執行完第二路徑上的特定指令前時，僅該等第二串流處理器所執行的結果被儲存。

在本發明的一實施例中，在執行分支指令的該第一路徑的指令時，在執行到該特定指令後，結束使用第一線程遮罩；以及在執行該分支指令的該第二路徑的指令時，在執行到該特定指令後，結束使用該第二線程遮罩。

在本發明的一實施例中，優化處理還包含對中介代碼中的每一調用函式指令轉譯成執行以下操作：將調用函式指令所調用的函式的所有內容直接於使用調用指令函式的調用者中進行內聯擴展。

在本發明的一實施例中，優化處理還包含對中介代碼中的每一迴圈指令轉譯成執行以下操作：對迴圈指令分析迴圈的次數；以及對迴圈指令內所執行的指令根據迴圈的次數全部展開。

在本發明的一實施例中，前端模組係clang編譯器，經組態以產生底層虛擬機器所定義的中介代碼。

在本發明的一實施例中，前處理包含巨集處理、靜態分析、以及產生對應源代碼的語法樹。

本發明還提供一種非暫態電腦可讀式儲存媒體，經組態以儲存複數個指令，當該等指令被電腦系統中的處理器執行時使所述處理器執行一編譯方法以對電腦系統中的圖形處理器所執行的一應用程式進行編譯以產生相應於應用程式的一機器碼以供圖形處理器中的複數個串流多處理器執行，所述編譯方法包含：對相應該應用程式的一源代碼進行一前處理以產生一中介代碼；對該中介代碼進行一優化處理；以及對經優化處理的該中介代碼進行一轉譯處理以產生該機器碼；其中該優化處理包含對該中介代碼中的每一分支指令轉譯成執行以下操作：對該分支指令建立一反向支配樹以找出該分支指令的一直接反向支配點作為該分支指令的一第一路徑的指令及一第二路徑的指令的一收斂節點；以及於該收斂節點前端插入一特定指令，使得當執行該分支指令的該第一路徑的指令時，執行完該第一路徑上的該特定指令後，跳至執行該分支指令的該第二路徑的指令直到執行完該第二路徑上的該特定指令，才繼續執行該收斂節點開始的指令。

本發明透過對上述的分支相關指令、調用指令和迴圈指令進行相應優化的編譯流程，使軟體堆疊更能配合硬體的運作，獲得大幅整體效能之提升，藉以提供開發人員便利的開源執行環境。

為了讓本發明之上述及其他目的、特徵、優點能更明顯易懂，下文將特舉本發明較佳實施例，並配合所附圖式，作詳細說明如下。

請參照第1圖，第1圖係根據本發明一較佳實施例繪示的圖形處理器100的方塊示意圖。通用圖形處理器100是單指令多執行緒（Single Instruction Multiple Thread，SIMT）的架構，其包含互連網路模組110、多個串流多處理器（Streaming Multiprocessor，SM）120、工作排程模組130、以及記憶體140。互連網路模組110電性連接於各個串流多處理器120、工作排程模組130、以及記憶體140，且經組態以在這些元件之間進行資料的傳輸。串流多處理器120經組態以進行運算與執行指令。每個串流多處理器120皆包含執行緒束（warp）排程模組121以及多個串流處理器（Streaming Processor，SP）122，其用途於之後說明。工作群排程模組130經組態以跟外部的中央處理器（圖未繪示）進行通訊，並接收來自中央處理器指派的工作以及將工作排程給串流多處理器120執行。

執行緒（thread）是通用圖形處理器100所執行的程式的最小單位，其排程會經由兩層不同的排程模組來進行派發，分別是工作群排程模組130以及執行緒束排程模組121。當中央處理器發送新的工作時，工作群排程模組130會以執行緒網格（grid）為單位接收所要執行之程式，並對其進行切割與排程後，接著以執行緒塊（block）為單位派發至每個串流多處理器120去執行。某一串流多處理器120在收到執行緒塊後，會根據單指令多資料流（SIMD）的寬度分成多個執行緒束，並且以執行緒束為單位進行運算。多個執行緒束是經由執行緒束排程模組121進行排程，並且派發至每個串流處理器122去執行。同一個執行緒束裡的多個執行緒是經由串流多處理器120裡的串流處理器122同時運算的。例如，若串流多處理器120包含32個串流處理器122（亦即，SIMD的寬度為32個），則在安排上每個執行緒束會盡量具有32個執行緒並且由這些32個串流處理器122同時平行執行，若執行緒束內的執行緒不足32個，則會有一些對應的串流處理器122在當下不工作。須了解的是，在圖形處理器上所執行的程式一般稱為kernel，而一個kernel會對應一個執行緒網格（grid），每一個執行緒網格包含多個執行緒塊（block），每一個執行緒塊又包含多個執行緒（thread）。

請參照第2圖，第2圖係根據本發明一較佳實施例繪示的通用圖形處理器100軟體層級的示意圖。如第2圖所示，最上層為TensorFlow 執行平台（runtime）210，開發人員可在上面使用TensorFlow內有支援的應用程式庫以支援機器學習、深度學習模型開發。然後，透過OpenCL執行平台220支援通用圖形處理器100 來達到大量平行運算以提升效能。換言之，無論是TensorFlow CNN 應用程式或是OpenCL應用程式都能在通用圖形處理器100上達到加速效果。最後，透過異構系統架構（Heterogeneous System Architecture ，HSAHSA）執行平台230提供共同硬體介面，在軟硬體間搭載一個橋樑與通用圖形處理器100進行溝通，以降低 OpenCL執行平台220的設計複雜度。通用圖形處理器100收到軟體端的資訊後便開始運作，最後再將結果傳回中央處理器端的記憶體中，以達到程式加速的效果。

然而，通用圖形處理器100 的軟體層級如果沒有編譯器支援的話，是無法完整將整個通用圖形處理器100的系統平台建立起來的，因此編譯器在整個軟硬體系統上佔有非常重要的地位。在本發明中，編譯器240是OpenCL LLVM 編譯器以支援通用圖形處理器100，其中編譯器240能夠進行優化以及自定義自己的指令集，使得硬體與軟體間達到良好的配合，進而提升執行的效率。

具體來說，針對TensorFlow執行平台210，為了能夠讓 TensorFlow 應用能在 OpenCL 架構底下執行，首先需要了解TensorFlow Stream Executor以及 TF-Coriander的搭配方案。TensorFlow Stream Executor是Google為TensorFlow所定義的Kernel應用程式介面的共用介面。架構概念上是以Stream Executor作為各目標平台的硬體抽象層，上方的Kernel應用程式會透過統一介面對虛擬裝置進行資源管理相關的命令，例如記憶體分配、指令派發、以及程式流程監控（Kernel Process Monitoring）等等。各平台開發人員也可藉此將與平台相關的優化程式放入Kernel實作中以優化各 Kernel 於平台的執行效率。

原生的TensorFlow GPU Support 僅支援採用 CUDA Programming Language 的圖形處理器裝置，對於其他平台開發者需自行針對目標平台設計Stream Executor。由於TensorFlow提供眾多Kernel Operation的種類，如果為了要提供平台更完整的支援會需要大量的人力成本，且TensorFlow若有更新亦會難以同步與維護。為了降低新增硬體的複雜度，一種CUDA-on-CL架構被提出，其利用Coriander的Source-to-Source Compiler將原生的CUDA 應用程式轉譯為OpenCL Device可以執行的Host Code與Device Code，藉此將TensorFlow 原生之CUDA 程式碼轉為OpenCL Device Kernel，並為 OpenCL 設計一種Stream Executor，其獨立為TensorFlow的一個分支，也就是TF-Coriander。

TF-Coriander透過Coriander Compiler將Tensorflow內建的CUDA Code轉譯為OpenCL Device Kernel Code，並搭配clBLAST[11]、DNN[12]等OpenC函式庫（library）取代CUDA內的cuBlast與cuDNN，建置了支援OpenCL裝置的Tensorflow以供OpenCL 1.2的裝置使用。

另外，對於HSA執行平台230而言，由於現今的運算平台普遍由中央處理器（CPU）、圖形處理器（GPU）或特定應用晶（ASIC）等異質性（Heterogeneous）硬體所組成。為此，Apple 提出一種開源語言框架，也就是開放計算語言（Open Computing Language。OpenCL為各種不同架構硬體提供統一抽象軟體架構與語言，並使用相同的應用程式介面連接至目標硬體，提供如Device Memory Allocation、Device Kernel Compilation與Device Code Dispatching等功能。為了支援各平台硬體，OpenCL執行平台在軟體架構中是以Shared Library（Linux）/Dynamic Loadable Library（NT）的形式實現。各硬體開發商會為其硬體根據OpenCL specification實作應用程式介面。

OpenCL應用程式架構上將程式碼分成Host Code及Device Code （kernel）。Host Code所執行的內容大部分是由OpenCL執行平台提供的C++ Classes與Runtime API所組成的Host Code，而針對圖形處理器/加速器等目標裝置則需要另外寫OpenCL Kernel Code，並遵循OpenCL Programming mode進行設計已進行Kernel的派發（dispatch）。OpenCL Kernel Code是基於C99的程式語言，其搭配Kernel應用程式介面提供任務分割/資料分割的平行運算能力。

對於HSA執行平台230而言，為了將CPU、GPU、及DSP等不同架構的硬體平台進行整合，HSA Foundation提出了異構系統架構（（Heterogeneous System Architecture ，HSA）的軟體架構。類似於 OpenCL 提供一個共同的平行運算軟體開發框架，HSA 目的為提供一個共同硬體介面。不同於 OpenCL規範了統一的應用程式開發介面，HSA規範了統一的硬體操作介面，以簡化上層（如 OpenCL等）與底層進行橋接介面之開發複雜度。

在本實施例中，為了提供OpenCL Kernel應用程式與通用圖形處理器100所支援的特殊運算指令，需要另外設置裝置函式庫250以配合編譯器240使用。裝置函式庫250包含OCKL模組251、OCML模組252及OpenCL模組253。OCL模組251經組態以提供Kernel運行時所需的相關參數（例如，工作項目ID、執行緒塊大小、執行緒網格大小等）的應用程式介面。OCML模組252經組態以提供數學運算相關的應用程式介面。OpenCL模組253經組態以提供OpenCL Kernel應用程式介面以跟OCKL模組215及OCML模組252的功能相對應。透過裝置函式庫250，編譯器240可提供OpenCL Kernel應用程式介面相關的資源以供開發人員使用其內部的特殊運算指令集。

請參照第3圖，第3圖係根據本發明一較佳實施例繪示的編譯器240的方塊圖。編譯器240可被實作為電腦程式且儲存於儲存裝置中。儲存裝置包含非暫態電腦可讀取記錄媒體或其他具有儲存功能的裝置。此電腦程式包括一或多個電腦可執行指令。電腦可執行指令可由一個或多個處理器來執行以執行編譯器240的編譯操作。具體來說，編譯器240可用於電腦系統中的通用圖形處理器。電腦系統包含中央處理器、所述通用圖形處理器以及與中央處理器連接的記憶體。編譯器240可儲存於記憶體中，並由中央處理器執行編譯器240以對經由通用圖形處理器100所執行的應用程式（例如以OpenCL語言撰寫的Kernel）進行編譯以產生對應該應用程式的機器碼（binary code），編譯後的機器碼可供如第1圖的通用圖形處理器100的串流多處理器120來執行，而執行緒的派發及執行則如前文所述，於此不再贅述。編譯器240依功能可分成前端模組310、優化模組320及後端模組330。前端模組310經組態以對相應於應用程式的源代碼（source code）進行前處理以產生中介代碼（intermediate representation，IR）。優化模組320經組態以對中介代碼進行優化處理。後端模組330經組態以將經優化處理的中介代碼轉譯為組譯代碼（assembly code），並且呼叫組譯器（assembler）將組譯代碼轉譯為機器碼。

在本實施例中，編譯器240採用LLVM架構做為開發平台。LLVM於編譯器架構設計時即以元件化為設計目標，將各個編譯器功能切分為個別對應的子模組，使得編譯器的核心元件可以於不同語言與不同目標架構之間皆可共用，其中中間資料的傳輸機制採用LLVM所定義的中介語言（LLVM-IR），其為與平台無關的高階抽象中介代碼，可供前端模組310以及後端模組330所使用。

具體來說，前端模組310負責進行與語言相關的處理。舉例來說，前端模組310可將源代碼進行轉譯以產生內部所需的抽象語法樹（abstract syntax tree，AST）資料結構，並對源代碼進行前處理，然後將處理後的源代碼轉譯以生成前述的LLVM-IR以供後端模組330處理。前處理可包含巨集處理（macro processing）、靜態分析（static analysis）等等。巨集處理例如項次展開、常數項處理等語言規範的相關功能。靜態分析則是對程式碼的特性進行分析，如程序大小、使用變數的情形、程式複雜度、效能等等。

在本實施例中，前端模組310可為Clang編譯器，以產生對應的LLVM-IR。在一實施例中，Clang可先對源代碼進行前述的前處理，接著再透過Token based Parser將源代碼轉譯為Clang所定義的語法樹Clang AST。在產生Clang AST之後，Clang可對其進行語言的相關優化，並把Clang AST轉換為LLVM-IR。

優化模組320可對LLVM-IR進行優化處理，例如常數前處理、條件式優化等與語言相依的優化處理。

後端模組330用以將前端模組310和優化模組320所產生的LLVM-IR進行指令統整，並產生出目標可執行的指令以及檔案格式。換言之，後端模組330可將LLVM-IR進行轉譯處理，以產生通用圖形處理器100裡的串流多處理器120可執行的機器碼/檔案。

在本發明中，對於中介代碼（亦即，LLVM-IR）中所含的部分指令，編譯器240的優化模組320會進行進一步的優化處理，其敘述如下。

在一實施例中，當中介代碼包含分支（branch）指令時，優化模組320可將其進行優化處理以轉譯成執行以下操作的對應機器碼：對分支指令建立反向支配樹（post dominator tree）以找出分支指令的一直接反向支配點（immediate post dominator，IPDOM）作為分支指令的第一路徑的指令及第二路徑的指令的收斂節點（reconverge point）；以及於收斂節點前端插入一特定指令（例如，跳躍指令），使得當執行分支指令的第一路徑的指令時，執行完該第一路徑上的特定指令時，跳至分支指令的第二路徑的指令，而不是繼續執行收斂節點開始的剩餘指令，直到執行完第二路徑上的特定指令，才繼續執行收斂節點開始的剩餘指令。

請參照第4圖，第4圖係根據本發明一實施例繪示的分支指令400的操作的示意圖。如第4圖所示，分支指令意味著條件式的執行不同操作。在條件判斷方塊410中，若符合執行A方塊420的條件A則往A方塊420所在第一路徑執行下去，若符合執行B方塊430的條件B則往B方塊430所在第二路徑執行下去。如先前所述，通用圖形處理器100是採用SIMT架構，也就是同一個指令會由多個串流處理器同時執行，但所執行的資料位址則不同。對於分支指令而言，當遇到不同的資料導致分支後的目標位址不同時會產生分歧（divergence），最後會因為串流處理器內的線程（lane）目標不一致而無法以SIMT的方式執行。在本實施例中，通用圖形處理器100採用遮罩執行（masked execution）的模式執行遇到分歧的指令。具體來說，通用圖形處理器100執行分歧的指令仍是會採用SIMT的模式，但會使用線程遮罩（lane mask）來決定哪些線程（亦即，從執行緒束排程模組指派執行緒給串流處理器的通道）是有效的，並根據線程遮罩決定執行結果是否要寫入/儲存至快取/暫存器/記憶體中，等到該流程結束後再切換另一個線程遮罩繼續執行下去。

以第4圖的分支指令400為例，在此例中假設執行緒束裡包含6個執行緒，然而其中3個執行緒是符合條件A的情況並且透過由線程441接收資料的串流處理器來執行，而另外3個執行緒則是符合條件B的情況並且透過由線程442接收資料的串流處理器來執行。因此，對於執行這個執行緒束的串流多處理器而言，這6個執行緒仍然會由串流多處理器裡連接到線程441和442的6個串流處理器同時執行第一路徑（包含A方塊410及C方塊450）的指令，但在執行的同時會使用第一線程遮罩。因此在執行完第一路徑的的指令後，只有經由線程441傳送的資料的運算結果被寫入/儲存至快取/暫存器/記憶體中，而經由線程442傳送的資料的運算結果則是會被丟棄。接著，由連接到線程441和442的6個串流處理器同時繼續執行第二路徑（包含B方塊420及C方塊450）的指令，但在執行的同時會使用第二線程遮罩。因此在執行完第二路徑的的指令後，只有經由線程442傳送的資料的運算結果被寫入/儲存至快取/暫存器/記憶體中，而經由線程441傳送的資料的運算結果則是會被丟棄。在一實施例中，第一線程遮罩和第二線程遮罩可例如具有對應線程數量的位元數的資料結構，每一個位元對應到一個線程，並根據位元的內容來決定對應的線程的資料是否是有效的。例如，第一線程遮罩裡對應線程441的3個位元可以都是高準位，對應線程442的3個位元可以都是低準位。第二線程遮罩裡對應線程441的3個位元可以都是低準位，對應線程442的3個位元可以都是高準位。在線程遮罩裡具有高準位的位元所對應的線程所運算的結果才是有效的，而低準位的位元所對應的線程的運算結果則是無效的，並不會被寫入。

在第4圖的例子中，可以發現對於有分歧的指令而言，第一路徑和第二路徑的C方塊450的指令被執行了兩次，若是C方塊450的指令是龐大的程式，則會大幅影響整個通用圖形處理器的執行效能。

請一併參照第5圖和第6圖，第5圖係根據第4圖的分支指令400所建立的反向支配樹500的示意圖，第6圖係根據本發明一較佳實施例繪示的分支指令400轉譯後的對應操作的示意圖。在本實施例中，本發明的編譯器在進行優化處理時看到中介代碼中的分支指令400後，可進行反向支配樹分析（Post Dominator Tree analysis）對其建立如第6圖所示的反向支配樹（Post Dominator Tree）500。從反向支配樹500可以找出A方塊420與B方塊430所有擁有的反向支配點（Post Dominator，PDOM）與直接反向支配點（Immediate Post Dominator ，IPDOM）皆為C方塊450，因此可以判定C方塊450為分支指令400分歧之後的收斂節點（reconverge point）。接著，可在C方塊450前端插入一特定指令（例如，跳躍指令），可使得當執行分支指令400的A方塊420的指令（亦即，第一路徑的指令）執行到特定指令時，轉而執行分支指令400的B方塊430的指令（亦即，第二路徑的指令），而不是繼續執行C方塊的指令，也就是第一路徑於收斂節點開始的剩餘指令（包含收斂節點的指令）。等到執行B方塊430的指令執行到特定指令時，即可結束分支指令的分歧，此時可清除掉線程遮罩，使得特定指令之後的指令（亦即，C方塊450的指令）同時由連接到線程441和442的串流處理器同時執行，避免了重複執行，進而提升了通用圖形處理器100的執行效率和效能。

在一實施例中，當中介代碼包含調用函式（call）指令時，優化模組320可進行優化處理以將其轉譯成對應的機器碼以執行以下操作：將調用函式指令所調用的函式（callee）的所有內容直接於使用調用指令函式的調用者（caller）中進行內聯擴展（inline）。由於call指令會產生複雜的分歧問題，使得硬體的成本提升以及效率不佳等問題。因此，本發明的編譯器240在處理到call相關的指令時，會直接將指定的函數體插入並取代每一處調用該函數的地方，亦即將調用的函式內容直接於呼叫者（caller）內部全部展開，以避免分歧產生，並從而節省了每次調用函數帶來的額外時間開支。

在一實施例中，當中介代碼包含迴圈指令（例如，loop指令、for指令等）時，優化模組320可對其進行優化處理以將其轉譯成對應的機器碼以執行以下操作：對迴圈指令分析迴圈的次數；以及對迴圈指令內所執行的指令根據迴圈的次數全部展開。由於分支指令會造成分歧，使得串流多處理器在面對分支指令時會阻塞分支指令後的所有指令的派發，等到管線（pipeline）中的指令都完成之後才會執行分支指令，並且等跳至指定的目標之後才能繼續派發後面的指令，導致管線使用效率降低。為了減少分支指令所需的指令數量，本實施例利用迴圈展開（loop unrolling）的方式對迴圈指令內的指令根據其次數在資源允許的情況下全部展開，進而降低在執行期間迴圈指令內分支指令所佔據的比例。

綜上所述，本發明所提供的通用圖形處理器根據 OpenCL 規範設計了圖形處理器的執行平台以及對應的OpenCL LLVM編譯器，進而提供符合及支援OpenCL/TensorFlow的應用程式介面。另外，透過對上述的分支相關指令、調用指令和迴圈指令等進行相應優化的編譯流程，使軟體堆疊更能配合硬體的運作，獲得大幅整體效能之提升，藉以提供開發人員便利的開源執行環境。

雖然本發明已以較佳實施例揭露，然其並非用以限制本發明，任何熟習此項技藝之人士，在不脫離本發明之精神和範圍內，當可作各種更動與修飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者爲準。

100 通用圖形處理器 110 互連網路模組 120 串流多處理器 121 執行緒束排程模組 122 串流處理器 130 工作排程模組 140 記憶體 210 TensorFlow 執行平台 220 OpenCL執行平台 230 異構系統架構執行平台 240 編譯器 250 裝置函式庫 251 OCKL模組 252 OCML模組 253 OpenCL模組 310 前端模組 320 優化模組 330 後端模組 400 分支指令 410 條件判斷方塊 420 A方塊 430 B方塊 441、442 線程 450 C方塊 500 反向支配樹

第1圖係根據本發明一較佳實施例繪示的圖形處理器的方塊示意圖。第2圖係根據本發明一較佳實施例繪示的通用圖形處理器軟體層級的示意圖。第3圖係根據本發明一較佳實施例繪示的編譯器的方塊圖。第4圖係根據本發明一實施例繪示的分支指令的操作的示意圖。第5圖係根據第4圖的分支指令所建立的反向支配樹的示意圖。第6圖係根據本發明一較佳實施例繪示的分支指令轉譯後的對應操作的示意圖。

240 編譯器 310 前端模組 320 優化模組 330 後端模組

Claims

一種編譯器，經組態以對藉由一圖形處理器所執行的一應用程式進行編譯以產生相應於該應用程式的一機器碼以供該圖形處理器中的複數個串流多處理器執行，其中該編譯器包含：一前端模組，經組態以對相應於該應用程式的一源代碼進行一前處理以產生一中介代碼；一優化模組，經組態以對該中介代碼進行一優化處理；以及一後端模組，經組態以將經優化處理的該中介代碼進行一轉譯處理以產生該機器碼；其中該優化處理包含對該中介代碼中的每一分支指令轉譯成執行以下操作：對該分支指令建立一反向支配樹以找出該分支指令的一直接反向支配點作為該分支指令的一第一路徑的指令及一第二路徑的指令的一收斂節點；以及於該收斂節點前端插入一特定指令，使得當執行該分支指令的該第一路徑的指令時，執行完該第一路徑上的該特定指令後，跳至執行該分支指令的該第二路徑的指令直到執行完該第二路徑上的該特定指令，才繼續執行該收斂節點開始的指令；其中該優化處理還包含對該中介代碼中的每一調用函式指令轉譯成執行以下操作：將該調用函式指令所調用的函式的所有內容直接於使用該調用指令函式的調用者中進行內聯擴展。
如請求項1所述的編譯器，其中該分支指令由被分配到的該等串流多處理器中的一者所包含的複數個串流處理器同時執行，其中該第一路徑的指令由該等串流處理器中的複數個第一串流處理器以及複數個第二串流處理器使用一第一線程遮罩同時執行，以及該第二路徑的指令由該等第一串流處理器以及該等第二串流處理器使用一第二線程遮罩同時執行。
如請求項2所述的編譯器，其中在執行完該第一路徑上的該特定指令時，僅該等第一串流處理器所執行的結果被儲存，且在執行完該第二路徑上的該特定指令時，僅該等第二串流處理器所執行的結果被儲存。
如請求項2所述的編譯器，其中在執行該分支指令的該第一路徑的指令時，在執行到該特定指令後，結束使用該第一線程遮罩；以及在執行該分支指令的該第二路徑的指令時，在執行到該特定指令後，結束使用該第二線程遮罩。
如請求項1所述的編譯器，其中該優化處理還包含對該中介代碼中的每一迴圈指令轉譯成執行以下操作：對該迴圈指令分析迴圈的次數；以及對該迴圈指令內所執行的指令根據迴圈的次數全部展開。
如請求項1所述的編譯器，其中該前端模組係clang編譯器，經組態以產生底層虛擬機器所定義的該中介代碼。
如請求項6所述的編譯器，其中該前處理包含巨集處理、靜態分析、以及產生對應該源代碼的語法樹。
一種非暫態電腦可讀式儲存媒體，其經組態以儲存複數個指令，當該等指令被一電腦系統中的一處理器執行時使該處理器執行一編譯方法以對該電腦系統中的一圖形處理器所執行的一應用程式進行編譯以產生相應於該應用程式的一機器碼以供該圖形處理器中的複數個串流多處理器執行，該編譯方法包含：對相應該應用程式的一源代碼進行一前處理以產生一中介代碼；對該中介代碼進行一優化處理；以及對經優化處理的該中介代碼進行一轉譯處理以產生該機器碼；其中該優化處理包含對該中介代碼中的每一分支指令轉譯成執行以下操作：對該分支指令建立一反向支配樹以找出該分支指令的一直接反向支配點作為該分支指令的一第一路徑的指令及一第二路徑的指令的一收斂節點；以及於該收斂節點前端插入一特定指令，使得當執行該分支指令的該第一路徑的指令時，執行完該第一路徑上的該特定指令後，跳至執行該分支指令的該第二路徑的指令直到執行完該第二路徑上的該特定指令，才繼續執行該收斂節點開始的指令；其中該優化處理還包含對該中介代碼中的每一調用函式指令轉譯成執行以下操作：將該調用函式指令所調用的函式的所有內容直接於使用該調用指令函式的調用者中進行內聯擴展。
如請求項8所述的非暫態電腦可讀式儲存媒體，其中該分支指令由被分配到的該等串流多處理器中的一者所包含的複數個串流處理器同時執行，其中該第一路徑的指令由該等串流處理器中的複數個第一串流處理器以及複數個第二串流處理器使用一第一線程遮罩同時執行，以及該第二路徑的指令由該等第一串流處理器以及該等第二串流處理器使用一第二線程遮罩同時執行。
如請求項9所述的非暫態電腦可讀式儲存媒體，其中在執行完該第一路徑上的該特定指令時，僅該等第一串流處理器所執行的結果被儲存，且在執行完該第二路徑上的該特定指令時，僅該等第二串流處理器所執行的結果被儲存。
如請求項9所述的非暫態電腦可讀式儲存媒體，其中在執行該分支指令的該第一路徑的指令時，在執行到該特定指令後，結束使用該第一線程遮罩；以及在執行該分支指令的該第二路徑的指令時，在執行到該特定指令後，結束使用該第二線程遮罩。
如請求項8所述的非暫態電腦可讀式儲存媒體，其中該優化處理還包含對該中介代碼中的每一迴圈指令轉譯成執行以下操作：對該迴圈指令分析迴圈的次數；以及對該迴圈指令內所執行的指令根據迴圈的次數全部展開。