TWI719501B - 中央處理單元(cpu)、中央處理單元(cpu)控制器與在中央處理單元(cpu)中執行指令的方法 - Google Patents

中央處理單元(cpu)、中央處理單元(cpu)控制器與在中央處理單元(cpu)中執行指令的方法 Download PDF

Info

Publication number
TWI719501B
TWI719501B TW108120456A TW108120456A TWI719501B TW I719501 B TWI719501 B TW I719501B TW 108120456 A TW108120456 A TW 108120456A TW 108120456 A TW108120456 A TW 108120456A TW I719501 B TWI719501 B TW I719501B
Authority
TW
Taiwan
Prior art keywords
instruction
thread queue
cpu
executed
instructions
Prior art date
Application number
TW108120456A
Other languages
English (en)
Other versions
TW202009692A (zh
Inventor
馬凌
Original Assignee
開曼群島商創新先進技術有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 開曼群島商創新先進技術有限公司 filed Critical 開曼群島商創新先進技術有限公司
Publication of TW202009692A publication Critical patent/TW202009692A/zh
Application granted granted Critical
Publication of TWI719501B publication Critical patent/TWI719501B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3802Instruction prefetching
    • G06F9/3814Implementation provisions of instruction buffers, e.g. prefetch buffer; banks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3842Speculative instruction execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0875Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with dedicated cache, e.g. instruction or stack
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3802Instruction prefetching
    • G06F9/3804Instruction prefetching for branches, e.g. hedging, branch folding
    • G06F9/3806Instruction prefetching for branches, e.g. hedging, branch folding using address prediction, e.g. return stack, branch history buffer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3818Decoding for concurrent execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3818Decoding for concurrent execution
    • G06F9/382Pipelined decoding, e.g. using predecoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3838Dependency mechanisms, e.g. register scoreboarding
    • G06F9/384Register renaming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3851Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution from multiple instruction streams, e.g. multistreaming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3854Instruction completion, e.g. retiring, committing or graduating
    • G06F9/3856Reordering of instructions, e.g. using queues or age tags
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3861Recovery, e.g. branch miss-prediction, exception handling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/45Caching of specific data in cache memory
    • G06F2212/452Instruction code
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Advance Control (AREA)

Abstract

本說明書實施例提供一種在CPU中執行指令的方法,該方法包括,從當前執行緒佇列中提取指令形成指令塊,以送入CPU執行單元執行,上述指令塊中包含單條跳轉指令作為最後一條指令。還將至少一條指令補充到當前執行緒佇列,形成待執行的執行緒佇列。並且,根據CPU執行單元的執行結果,確定上述跳轉指令的目標指令。接著,判斷待執行的執行緒佇列中是否包含所述目標指令;如果不包含,則清除所述待執行的執行緒佇列,獲取該目標指令,並將該目標指令添加到待執行的執行緒佇列中。

Description

中央處理單元(CPU)、中央處理單元(CPU)控制器與在中央處理單元(CPU)中執行指令的方法
本說明書一個或多個實施例涉及電腦硬體晶片領域,尤其涉及在CPU中執行指令的方法。
在當前的大資料雲環境下,需要對海量資料進行存儲和處理,對資料的計算速度提出了更高的要求。眾所周知,計算速度的決定性因素為中央處理單元CPU的性能。為了實現更高速度的運算,CPU在各個方面,從物理工藝到邏輯控制,都在不斷進行改進。
例如,為了提升並行處理能力,提出CPU超執行緒技術,即利用特殊字元的硬體指令,把兩個邏輯內核類比成物理晶片,讓單個處理器能使用執行緒級平行計算,從而相容多執行緒平行計算。也就是說,超執行緒CPU可以在一個物理核的基礎上,並行運行2個或更多個執行緒,從而得到更多可並行指令,提升總體運行性能。
另一方面,為了更有效地利用CPU的時鐘週期,避免管線(pipeline)停頓或等待,採用指令預測的方案,進行指令預取和指令預執行。
這些方案都在一定程度上提升了CPU的執行效率。然而,指令預測並不總是準確,在指令預測失誤的情況下,會嚴重降低CPU的執行效率。
因此,希望能進行進一步改進,從而進一步提升CPU效率。
本說明書一個或多個實施例描述了一種CPU中執行指令的方法,在原有指令預測的基礎上,避免預測錯誤的指令被執行,進一步提升CPU執行效率。
根據第一面向,提供了一種在CPU中執行指令的方法,包括:從當前執行緒佇列中依次提取指令形成指令塊,以送入CPU執行單元執行,所述指令塊中包含單條跳轉指令,且該跳轉指令為所述指令塊中最後一條指令;將至少一條指令補充到當前執行緒佇列,形成待執行的執行緒佇列;根據CPU執行單元的執行結果,確定所述跳轉指令的目標指令;判斷所述待執行的執行緒佇列中是否包含所述目標指令;在所述待執行的執行緒佇列中不包含所述目標指令的情況下,清除所述待執行的執行緒佇列,獲取所述目標指令,並將所述目標指令添加到待執行的執行緒佇列中。
根據一個實施例,藉由以下方式形成指令塊:從當前執行緒佇列中讀取預定閾值數目的指令,所述預定閾值數目依賴於所述CPU執行單元的數目;判斷所述預定閾值數目的指令中是否包含跳轉指令;在包含跳轉指令的情況下,以該跳轉指令為結尾向前截取,將截取的指令作為所述指令塊。 根據另一實施例,藉由以下方式形成指令塊: 從當前執行緒佇列中讀取第一指令;在當前指令塊中指令數目未達到預定閾值的情況下,將所述第一指令添加到當前指令塊中,其中所述預定閾值依賴於所述CPU執行單元的數目;判斷該第一指令是否為跳轉指令;在該第一指令為跳轉指令的情況下,將所述當前指令塊作為所述指令塊。 在一種可能的設計中,藉由以下方式補充指令到當前執行緒佇列:根據指令預測的預測分支,將預測分支對應的至少一條指令補充到當前執行緒佇列。 在一種可能的方案中,從已解碼快取中讀取對應的指令補充到當前執行緒佇列,以形成待執行的執行緒佇列,其中已解碼快取中存儲有預取並解碼的多條指令。 在一種可能的實施方式中,跳轉指令為暫存器操作指令,所述指令塊還包含至少一條記憶體操作指令。 進一步地,在一個實施例中,在所述至少一條記憶體操作指令執行完畢之前,即可確定出所述跳轉指令的目標指令。 根據一種可能的設計,藉由以下方式獲取目標指令: 判斷已解碼快取中是否包含所述目標指令,其中已解碼快取中存儲有預取並解碼的多條指令; 在包含的情況下,從所述已解碼快取獲取所述目標指令; 在不包含的情況下,從記憶體獲取所述目標指令。 根據第二面向,提供一種CPU控制器,包括: 指令提取邏輯,用於從當前執行緒佇列中依次提取指令形成指令塊,以送入CPU執行單元執行,所述指令塊中包含單條跳轉指令,且該跳轉指令為所述指令塊中最後一條指令; 指令補充邏輯,用於將至少一條指令補充到當前執行緒佇列,形成待執行的執行緒佇列; 目標確定邏輯,用於根據CPU執行單元的執行結果,確定所述跳轉指令的目標指令; 判斷邏輯,用於判斷所述待執行的執行緒佇列中是否包含所述目標指令; 佇列操作邏輯,用於在所述待執行的執行緒佇列中不包含所述目標指令的情況下,清除所述待執行的執行緒佇列,獲取所述目標指令,並將所述目標指令添加到待執行的執行緒佇列中。 根據第三面向,提供一種中央處理單元CPU,包含第二面向的控制器。 藉由本說明書實施例提供的方案,按照原有方式進行指令預取,放到已解碼快取和執行緒佇列中,但是執行時,確保同時執行的代碼塊中至多在最後包含一條跳轉指令,並且在跳轉指令確定出目標指令之前,不再為執行緒佇列中的後續指令進行重命名&分配可執行資源階段。在確定出目標指令之後,比較執行緒佇列中的指令與目標指令是否匹配,以此保證只有正確分支得到執行。如此,在利用原有指令預測方案的優勢的基礎上,避免預測錯誤的指令被執行導致的回滾耗時,提升CPU總體執行效率。
下面結合附圖,對本說明書提供的方案進行描述。 圖1為根據一種實施方案的CPU執行過程。如圖1所示,整個執行過程分為多個階段。首先是取指令階段。當前的主流CPU每個運算速度可以取16位元組,大約每次為4條指令。接著進行指令預解碼。預解碼階段的主要工作是辨別指令長度,同時標注跳轉指令。通常來說,主流CPU在該階段有5指令/週期的輸送量。 預解碼之後即進入解碼階段。解碼階段主要將複雜指令轉變為精簡指令(固定長度),同時指定操作類型。通常該階段也有5指令/週期的輸送量。解碼後的指令會放入到已解碼快取。 已解碼快取作為一個指令快取池,其中可以存儲多條已解碼的指令,供下一階段,即執行緒佇列,讀取。已解碼快取到下一階段的輸送量可以達到每個週期6跳指令。 如前所述,對於超執行緒CPU,可以存在多個執行緒並存執行。在執行過程中,每個執行緒都會讀取接下來待執行的指令,形成自己的執行緒快取佇列,後續又稱為執行緒佇列。在已解碼快取中存在上述待執行指令的情況下,就使用已解碼快取中存儲的指令,否則,從前端(記憶體)得到相應指令添加到佇列中。在圖1中示例性示出了執行緒A和執行緒B各自的執行緒佇列,但是可以理解,超執行緒CPU還可以支持更多執行緒的並存執行。 接著,從形成執行緒佇列進入下一階段:重命名&分配可執行資源。從執行緒佇列到該階段的輸送量可以達到每個週期5跳指令。而在重命名&分配可執行資源階段,主要工作是解決暫存器讀寫依賴關係,去除不必要的依賴關係,力求得到指令更多並存執行能力,同時分配執行時所需要的各種資源。 在分配好執行所需資源之後,指令才會被送入到CPU的執行單元進行執行。目前CPU擁有多個執行單元,當前最普遍的CPU具有8條可以並存執行的管線,也就是每個週期可以執行8個微操作,雖然可以亂序執行,但是最後指令提交的順序與程式的順序相同。 如前所述,為了避免指令缺失帶來的管線停頓或等待,目前幾乎所有CPU都會採用指令預測,又稱為分支預測(Branch Prediction)方案進行指令的預測和預取。在每個週期結束之後,預測單元根據其包含的歷史執行狀態表預測將要預取的指令。如果指令沒有跳轉,在前述取指令階段,就取當前取指位址加16位元組的指令塊。如果指令存在跳轉,則根據指令預測結果,獲取預測分支的指令。 經過不斷改進,當前的指令預測方案的預測準確度已經可以超過90%,有些方案的預測準確度甚至可達98%。但是,仍然存在預測錯誤的可能,此時很有可能將錯誤的指令塊輸入到可執行單元中。 例如,假定存在指令L1、L2、L3、L4、L5,其中L2是跳轉指令,該指令規定,在某判斷條件滿足時,跳轉至指令L5,否則循序執行指令L3和L4。如果在指令預測時,預測該跳轉指令L2的目標分支是L3,那麼在取指令階段就會讀取L3和後續指令,並且在後續執行階段,有可能將L1、L2、L3、L4送入CPU執行單元進行執行。如果實際上L2的執行結果指示,應該跳轉到L5,那麼L3和L4就被錯誤地執行。在這樣的情況下,CPU不得不重新刷新整條管線,回滾(rollback)到之前的分支,然後重新暖開機,選擇另一條分支執行。儘管指令預測錯誤的概率並不高,但是一旦出現,就需要進行上述操作,這樣的操作非常耗時,致使CPU效率最大只能在75%左右。 為此,本說明書的實施例在此基礎上進行進一步改進,盡可能保留和利用高準確率的指令預測所帶來的優勢,同時防止預測失敗情況下錯誤指令被執行。根據一個或多個實施例,仍然按照原有方式進行取指令,同時放到已解碼快取和執行緒佇列中,但是在跳轉指令獲取到有效的目標位址,也就是確定出目標指令之前,不再執行代碼塊的重命名&分配可執行資源階段,保證後續執行操作都是正確完成,沒有預測失敗而導致的效率下降。下面描述上述構思的實現方式。 圖2示出根據一個實施例在CPU中執行指令的方法流程圖,如圖2所示,該方法包括:步驟21,從當前執行緒佇列中提取指令形成指令塊,送入CPU執行單元執行,所述指令塊中包含單條跳轉指令,且該跳轉指令為該指令塊中最後一條指令;步驟22,將至少一條指令補充到當前執行緒佇列,形成待執行的執行緒佇列;步驟23,根據CPU執行單元的執行結果,確定所述跳轉指令的目標指令;步驟24,判斷所述待執行的執行緒佇列中是否包含所述目標指令;在不包含所述目標指令的情況下,在步驟25,清除所述待執行的執行緒佇列,獲取所述目標指令,並將所述目標指令添加到待執行的執行緒佇列中。下面描述以上各個步驟的具體執行方式。 如前所述,根據本說明書的實施例,為了利用原有指令預測方案的優勢,仍然按照原有方式進行取指令,同時放到已解碼快取和執行緒佇列中。也就是說,按照原有方式執行圖1的取指令階段、預解碼階段、解碼階段,並將解碼的指令放入已解碼快取中。各個執行緒可以從已解碼快取中讀取指令,形成執行緒佇列。因此,假定在步驟21之前,已經按照已有方式形成了執行緒佇列。 在步驟21,從當前執行緒佇列中提取指令形成指令塊,以送入CPU執行單元執行。 如果從當前執行緒佇列提取的指令不包含跳轉指令,那麼仍按照正常方式,形成與硬體最大處理能力對應的最大長度的指令塊。通常,CPU硬體的最大處理能力取決於包含的執行單元的數目,可以根據執行單元的數目確定一預定閾值,作為指令塊的最大長度。例如,當前最普遍的CPU具有8條可以並存執行的管線,那麼可以將該預定閾值設為8,相應地,指令塊的最大長度為8。在提取的指令不包含跳轉指令的情況下,可以仍按照正常方式提取8條指令作為指令塊。 與常規方案不同的,在要提取的指令包含跳轉指令時,則要確保送入CPU執行單元的一個指令塊只包含一條跳轉指令,且該跳轉指令為指令塊中最後一條指令。也就是說,在從執行緒佇列向CPU執行單元傳送指令時,對指令類型進行判斷,並以跳轉指令為界劃分指令塊,使得跳轉指令作為送入CPU執行單元的一組指令中的最後一條指令。 可以採用多種方式形成上述指令塊。在一個實施例中,從當前執行緒佇列中一次讀取預定閾值數目的指令,該預定閾值數目對應於CPU最大處理能力,或者說依賴於CPU執行單元的數目。然後,判斷這些指令中是否包含跳轉指令。如果不包含,如前所述,則將這些讀取的指令作為上述指令塊。如果這些指令中包含跳轉指令,那麼以該跳轉指令為結尾向前截取,將截取的指令作為所述指令塊。 例如,假定預定閾值數目為8,則一次從當前執行緒佇列中讀取8條指令。如果這8條指令中沒有跳轉指令,則直接將這8條指令作為上述指令塊,送入CPU執行單元。如果這8條指令中包含跳轉指令,那麼從跳轉指令的位置向前截取,來形成指令塊。例如,如果第5條指令為跳轉指令,那麼就從以第5條指令為結尾向前截取,也就是將第1條到第5條指令作為指令塊。 通過以上方式,確保跳轉指令一定是送入CPU執行單元進行執行的一組指令中的最後一條指令。可以理解,在執行跳轉指令之前,無法準確確定下一條要執行的指令,即目標指令,而指令預測方案是將預測的目標指令預取到執行緒佇列中。如果確保跳轉指令是一次送入CPU執行單元的指令組中的最後一條指令,相當於在該跳轉指令與後續的預測的目標指令之間建立了一個隔離或中斷,確保預測的目標指令不會與該跳轉指令一起被送入CPU執行單元執行。如此,為準確確定目標指令,進而在預測失誤的情況下糾正錯誤的目標指令提供了時機和可能性。 例如,在前述例子中,指令L1、L2、L3、L4、L5中L2是跳轉指令。即使跳轉指令L2的目標分支被錯誤地預測為L3,那麼根據以上實施例,只會將L1和L2作為一個指令塊,送入CPU執行單元進行執行,而不會同時將L1、L2、L3、L4一起執行。在執行L1和L2時,就為確定L2的準確目標分支,並糾正錯誤的預測分支提供了時機。 如上,從執行緒佇列中提取出至少一部分指令送入CPU執行單元,那麼執行緒佇列中待執行指令數目會暫時變少。因此,在形成指令塊送入CPU執行單元的同時或之後,對執行緒佇列進行補充,以維持其佇列長度。也就是,在步驟22,將至少一條指令補充到當前執行緒佇列,形成待執行的執行緒佇列。可以理解,待執行的執行緒佇列用於形成送入CPU執行單元執行的下一指令塊。 根據一種實施方式,在該步驟中,可以按照常規方式,根據指令預測的預測分支,向執行緒佇列補充指令,形成待執行的執行緒佇列。在一個實施例中,根據指令預測結果,從已解碼快取中讀取對應的指令補充到當前執行緒佇列,其中已解碼快取中存儲有預取並解碼的多條指令。在極為少見的情況下,也可以從前端(例如記憶體)請求指令,解碼後補充到執行緒佇列中。 另一方面,在步驟21形成的指令塊被送入CPU執行單元後,CPU執行單元就會將這些指令加入管線,進行執行。特別地,上述指令塊的最後一條指令為跳轉指令,經由執行該跳轉指令,才可以準確確定跳轉的目標位址,也就是確定出目標指令。也就是,在步驟23,根據CPU執行單元的執行結果,確定跳轉指令的目標指令。 接著,在步驟24,判斷步驟23中補充後的待執行的執行緒佇列中是否包含上述目標指令。如果包含,則意味著,接下來要執行的目標指令已經被放入待執行的執行緒佇列中,指令預測結果是正確的,不需要進行額外操作;當前指令塊執行完畢之後可以按照圖2的方法繼續從執行緒佇列取得下一指令塊進行執行。 但是,如果待執行的執行緒佇列中不包含上述目標指令,那就意味著,接下來應該執行的指令(目標指令)沒有被放入執行緒佇列,反過來說,待執行的執行緒佇列中包含的指令序列並不是接下來應該被執行的指令。造成的原因可能就是指令預測失誤,而將錯誤的分支指令預取到了執行緒佇列中。在這樣的情況下,在步驟25,清除(flush)當前的待執行的執行緒佇列,獲取所述目標指令,並將所述目標指令添加到待執行的執行緒佇列中。 具體而言,在步驟25,由於當前的待執行的執行緒佇列包含了錯誤的指令,不應該被執行,因此首先對當前的待執行執行緒佇列進行清除(flush)操作。清除flush是CPU中的一種操作,可以對操作物件中存儲的資料全部清理。清除當前的待執行的執行緒佇列就意味著,刪除佇列中的所有指令,將該佇列清空。 與清除錯誤的指令相應地,還要獲取正確的目標指令,將其添加到待執行執行緒佇列中。 在一個實施例中,首先判斷已解碼快取中是否包含正確的目標指令;在包含的情況下,從已解碼快取獲取該目標指令。可以理解,儘管之前的執行緒佇列添加了錯誤的分支指令,但是往往只是指令執行順序上的錯誤,而基於指令預測方案的指令預取會不斷地預取到許多條指令,解碼後放入已解碼快取。因此,在絕大多數的情況下,都可以從已解碼快取中獲取到正確的目標指令,將其添加到待執行的執行緒佇列。進一步地,在添加目標指令之外,還相應地將該目標指令所在分支的後續指令也添加到待執行的執行緒佇列中。 另一方面,在極其罕見的情況下,已解碼快取中不包含目標指令。這時,可以從記憶體請求獲取該目標指令,解碼後加入到待執行的執行緒佇列中。 經過步驟25的操作,確保待執行的執行緒佇列中包含有待執行的正確指令分支,於是後續送入CPU執行單元的指令塊也是正確的指令塊,預測錯誤的指令不會被執行單元真正執行。 下面結合一個具體例子描述以上過程。假定存在以下一段指令(其中/*…*/中間的內容是對指令的解釋): Loop: 1. fld f0,0(x1) /*按照x1存的位址,將記憶體內容傳到暫存器f0 */ 2. fadd.d f4,f0,f2 /*將f0+f2的結果存入到暫存器 f4 */ 3. fsd f4, 0(x1) /*按照x1存的位址,將f4中的資料存於記憶體中*/ 4. addi x1,x1-8 /*x1的內容-8 同時存於暫存器x1 */ 5. bne x1, x2, Loop /*如果x1 不等於x2跳轉到 Loop,執行指令1, 否則進入指令 6 */ 6. addi x2,x2+1/*x2的內容+1 同時存於暫存器x2 */ 7... 8... 在這一段指令中,指令5為跳轉指令,根據x1與x2是否相等,跳轉到不同分支,第一分支的目標指令為指令1,第二分支的目標指令為指令6。假定這些指令已經按照常規方式預取、解碼,放入到已解碼快取。另外,假定根據指令預測的結果,指令5之後會執行第二分支,因此,將指令1到指令8依次放入到執行緒佇列中。 如果按照常規方式,則有可能將指令1到指令6作為一個指令塊,送入CPU執行單元進行執行。一旦指令預測失誤,指令5之後本應該執行第一分支,即指令1,但是指令6被錯誤地執行,就會引起耗時的清除回滾操作,急劇降低CPU效率。 根據本說明書實施例的方案,在步驟21,由於指令5為跳轉指令,只會將指令1到指令5形成一個指令塊,送入CPU執行單元執行。 在步驟22,從已解碼快取中補充指令到執行緒佇列,形成待執行的執行緒佇列。由於指令預測的分支是指令6,因此這時待執行的執行緒佇列可以包括:指令6,指令7以及補充進來的其他指令。 在步驟23,根據CPU執行單元的執行結果,可以確定跳轉指令5的目標指令實際應該為第一分支中的指令1。 接著,在步驟24,可以判斷出,待執行的執行緒佇列中並不包含目標指令1。這時,在步驟25,清除待執行的執行緒佇列,從已解碼快取中獲取指令1,將其添加到待執行的緒佇列中,以按照正確分支重新形成待執行的執行緒佇列。 如此,在以上實施例中,按照原有方式進行指令預取,放到已解碼快取和執行緒佇列中,但是執行時,確保同時執行的代碼塊中至多在最後包含一條跳轉指令,並且在跳轉指令確定出目標指令之前,不再為執行緒佇列中的後續指令進行重命名&分配可執行資源階段。在確定出目標指令之後,比較執行緒佇列中的指令與目標指令是否匹配,以此保證只有正確分支得到執行,不會產生預測失敗而導致的效率下降。 可以理解,CPU執行效率的提高需要盡可能利用每個執行週期,減少管線停頓和等待,避免無指令空操作。以上的方案為了防止指令預測失誤導致的耗時回滾和效率下降,在確定跳轉指令的目標指令之後,判斷和比較執行緒佇列,以確保後續操作的正確性。這樣的“附加”操作是否會帶來管線等待或者空操作,進而影響CPU執行效率,是需要考慮的問題。不過,經過發明人的研究和分析,以上操作並不會造成CPU執行週期的浪費,影響執行效率。下面是對該問題的論證。 首先本說明書的優化方案並不會帶來中間數個週期的無指令空操作問題。通常,CPU每個週期可以取得多條指令,例如5條指令。經過統計,在5條指令,平均含有1條跳轉指令,1.4條讀記憶體指令,1條寫記憶體指令,以及1.6條計算操作。而統計表明,絕大多數跳轉指令都會依賴簡單的暫存器操作,因此大多數跳轉指令可在1個週期完成。 而另一方面,任何一條記憶體操作都會有較長週期的延遲。具體地,如果記憶體操作命中L1快取,則需要4個週期的延遲;如果命中L2快取,則需要12個週期的延遲;如果沒有命中快取,需要到記憶體中讀取資料,則至少需要50個週期的延遲。因此,跳轉指令會率先執行完畢,因此可以儘早決定目的地址,而不會造成等待。 例如,以上指令1到指令6的例子中,指令1到指令5形成指令塊,送入執行單元。其中指令1需要從記憶體取得資料,即使L1快取命中,也需要4個週期。由於依賴關係必須依次執行指令2和指令3,該過程需要再次增加2個週期。而指令4、5為暫存器操作,可以在一個週期內完成, 因此在指令1、2、3完成之前,就可以預先知道指令5是否需要跳轉。 此外,現有的主流CPU都是採用多執行緒操作,例如若有兩個執行緒,CPU會為每個執行緒輪流取指令,比如先給執行緒A取指令,再給執行緒B取指令,再次為執行緒A取指令。這樣對於執行緒A就會有一個週期的等待,在這樣原本就有的等待週期之內,就可以確定出跳轉指令的目標指令。 實際上,當前在大資料雲伺服器環境下,大多數的性能問題集中於訪問記憶體的延遲,而這種延遲往往達到上百個運算速度,這樣的運算速度足以被利用來確定跳轉指令的目標指令,並確認執行緒佇列的正確性,而不影響CPU運行。因此通過上面的處理,該方案不會引入CPU無指令空操作和等待問題。 另外,還需要考慮以上的優化方案與原有指令預測方案帶來的指令預取問題和資料預取問題。原有的指令預測方法可以在指令預執行階段運行沒有確定的指令,從這個角度來看原有的方法會幫助CPU預取到很多將要執行的代碼,減少指令缺失帶來的延遲。在本方案中可以繼續採用這樣的方案,只不過只有在明確跳轉指令的目標位址之後才執行正確的有效指令。關於資料預取,原有的指令預測執行方法可以在指令預執行階段運行沒有確定的指令,所以可以預先把即將用到資料從記憶體中放入CPU快取。在本說明書的實施例中也可以繼續採用這樣的已有方案,同時,只有在明確目標位址之後才執行有效指令,讀取需要的資料。 因此,本說明書實施例的方案,可以充分利用現有預測方法的優勢,在此基礎上結合當前CPU的各項已有的特徵和主要運行環境,最終充分提升CPU可利用率,提升雲計算集群輸送量。 如本領域技術人員所知,CPU中指令的執行過程係藉由控制器來控制。控制器是整個CPU的指揮控制中心,用於協調各個部件之間的操作。控制器一般包括指令控制邏輯、時序控制邏輯、匯流排控制邏輯、中斷控制邏輯等幾個部分。指令控制邏輯要完成取指令、分析指令和執行指令的操作。 根據以上描述的實施例的方案,對原有的指令控制過程進行了優化和調整,因此相應地,可以在硬體層面上修改控制器電路,特別是其中的指令控制邏輯,使其完成以上實施例描述的控制過程。 圖3示出根據一個實施例的CPU控制器的功能方塊圖。如圖3所示,控制器300可以包括,指令提取邏輯31,用於從當前執行緒佇列中提取指令形成指令塊,以送入CPU執行單元執行,所述指令塊中包含單條跳轉指令,且該跳轉指令為所述指令塊中最後一條指令;指令補充邏輯32,用於將至少一條指令補充到當前執行緒佇列,形成待執行的執行緒佇列;目標確定邏輯33,用於根據CPU執行單元的執行結果,確定所述跳轉指令的目標指令;判斷邏輯34,用於判斷所述待執行的執行緒佇列中是否包含所述目標指令;佇列操作邏輯35,用於在所述待執行的執行緒佇列中不包含所述目標指令的情況下,清除所述待執行的執行緒佇列,獲取所述目標指令,並將所述目標指令添加到待執行的執行緒佇列中。 以上各個邏輯可以根據需要採用各種電路元件實現,例如採用若干比較器來實現判斷邏輯等。 藉由以上的控制器,可以實現如圖2所示的控制過程,從而在利用指令預測和預取的優勢的基礎上,防止和避免預測錯誤導致的效率下降,全面提升CPU執行效率。 本領域技術人員應當理解,以上所述的具體實施方式,對本發明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的具體實施方式而已,並不用於限定本發明的保護範圍,凡在本發明的技術方案的基礎之上,所做的任何修改、等同替換、改進等,均應包括在本發明的保護範圍之內。
300‧‧‧控制器 31‧‧‧指令提取邏輯 32‧‧‧指令補充邏輯 33‧‧‧目標確定邏輯 34‧‧‧判斷邏輯 35‧‧‧佇列操作邏輯
為了更清楚地說明本發明實施例的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其它的附圖。 圖1為根據一種實施方案的CPU執行過程; 圖2示出根據一個實施例在CPU中執行指令的方法; 圖3示出根據一個實施例的CPU控制器的功能方塊圖。

Claims (8)

  1. 一種在CPU中執行指令的方法,包含:從當前執行緒佇列中提取指令形成指令塊,以送入CPU執行單元執行,所述指令塊中包含單條跳轉指令,且所述跳轉指令為所述指令塊中最後一條指令;將至少一條指令補充到所述當前執行緒佇列,形成待執行的執行緒佇列;根據所述CPU執行單元的執行結果,確定所述跳轉指令的目標指令;判斷所述待執行的執行緒佇列中是否包含所述目標指令;在所述待執行的執行緒佇列中不包含所述目標指令的情況下,清除所述待執行的執行緒佇列,獲取所述目標指令,並將所述目標指令添加到待執行的執行緒佇列中;其中,從當前執行緒佇列中提取指令形成指令塊包含:從當前執行緒佇列中讀取預定閾值數目的指令,所述預定閾值數目依賴於所述CPU執行單元的數目;判斷所述預定閾值數目的指令中是否包含所述跳轉指令;在包含所述跳轉指令的情況下,以所述跳轉指令為結尾向前截取,將截取的指令作為所述指令塊。
  2. 如申請專利範圍第1項所述的方法,其中將至少一條指令補充到所述當前執行緒佇列,形成所述待執行的執行緒佇列包含:根據指令預測的預測分支,將預測分支對應的至少一條指令補充到所述當前執行緒佇列。
  3. 如申請專利範圍第1項所述的方法,其中將至少一條指令補充到所述當前執行緒佇列,形成所述待執行的執行緒佇列包含:從已解碼快取(eache)中讀取對應的指令補充到所述當前執行緒佇列,其中所述已解碼快取中存儲有預取並解碼的多條指令。
  4. 如申請專利範圍第1項所述的方法,其中所述跳轉指令為暫存器(register)操作指令,所述指令塊還包含至少一條記憶體操作指令。
  5. 如申請專利範圍第4項所述的方法,其中根據所述CPU執行單元的執行結果,確定所述跳轉指令的所述目標指令包含:在所述至少一條記憶體操作指令執行完畢之前,確定出所述跳轉指令的所述目標指令。
  6. 如申請專利範圍第1項所述的方法,其中獲取所述目 標指令包含:判斷已解碼快取中是否包含所述目標指令,其中所述已解碼快取中存儲有預取並解碼的多條指令;在包含的情況下,從所述已解碼快取獲取所述目標指令;在不包含的情況下,從記憶體獲取所述目標指令。
  7. 一種CPU控制器,包含:指令提取邏輯,用於從當前執行緒佇列中依次提取指令形成指令塊,以送入CPU執行單元執行,所述指令塊中包含單條跳轉指令,且所述跳轉指令為所述指令塊中最後一條指令;指令補充邏輯,用於將至少一條指令補充到所述當前執行緒佇列,形成待執行的執行緒佇列;目標確定邏輯,用於根據所述CPU執行單元的執行結果,確定所述跳轉指令的目標指令;判斷邏輯,用於判斷所述待執行的執行緒佇列中是否包含所述目標指令;佇列操作邏輯,用於在所述待執行的執行緒佇列中不包含所述目標指令的情況下,清除所述待執行的執行緒佇列,獲取所述目標指令,並將所述目標指令添加到待執行執行緒佇列中;其中,從當前執行緒佇列中提取指令形成指令塊包含: 從當前執行緒佇列中讀取預定閾值數目的指令,所述預定閾值數目依賴於所述CPU執行單元的數目;判斷所述預定閾值數目的指令中是否包含所述跳轉指令;在包含所述跳轉指令的情況下,以所述跳轉指令為結尾向前截取,將截取的指令作為所述指令塊。
  8. 一種中央處理單元CPU,包含如申請專利範圍第7項所述的控制器。
TW108120456A 2018-08-14 2019-06-13 中央處理單元(cpu)、中央處理單元(cpu)控制器與在中央處理單元(cpu)中執行指令的方法 TWI719501B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810922723.5A CN109101276B (zh) 2018-08-14 2018-08-14 在cpu中执行指令的方法
CN201810922723.5 2018-08-14

Publications (2)

Publication Number Publication Date
TW202009692A TW202009692A (zh) 2020-03-01
TWI719501B true TWI719501B (zh) 2021-02-21

Family

ID=64849591

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108120456A TWI719501B (zh) 2018-08-14 2019-06-13 中央處理單元(cpu)、中央處理單元(cpu)控制器與在中央處理單元(cpu)中執行指令的方法

Country Status (6)

Country Link
US (1) US11579885B2 (zh)
EP (1) EP3779682A4 (zh)
CN (1) CN109101276B (zh)
SG (1) SG11202010825QA (zh)
TW (1) TWI719501B (zh)
WO (1) WO2020034753A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101276B (zh) * 2018-08-14 2020-05-05 阿里巴巴集团控股有限公司 在cpu中执行指令的方法
CN109947564B (zh) * 2019-03-07 2023-04-11 蚂蚁金服(杭州)网络技术有限公司 业务处理方法、装置、设备及存储介质
CN111538535B (zh) * 2020-04-28 2021-09-21 支付宝(杭州)信息技术有限公司 一种cpu指令处理方法、控制器和中央处理单元
CN113900910A (zh) * 2021-12-08 2022-01-07 北京新唐思创教育科技有限公司 应用程序监控方法、装置、存储介质和电子设备
CN117112033B (zh) * 2023-08-28 2024-04-12 海光信息技术(成都)有限公司 随机指令生成方法、装置、设备以及存储介质
CN117931294B (zh) * 2024-03-22 2024-07-16 芯来智融半导体科技(上海)有限公司 指令处理设备和处理系统
CN118245115B (zh) * 2024-05-27 2024-07-26 北京微核芯科技有限公司 一种转移指令的预测方法及其装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020147758A1 (en) * 2001-04-10 2002-10-10 Lee Rusty Shawn Data processing system and method for high-efficiency multitasking
US7024663B2 (en) * 2002-07-10 2006-04-04 Micron Technology, Inc. Method and system for generating object code to facilitate predictive memory retrieval
US20150106598A1 (en) * 2013-10-15 2015-04-16 Mill Computing, Inc. Computer Processor Employing Efficient Bypass Network For Result Operand Routing

Family Cites Families (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5604909A (en) 1993-12-15 1997-02-18 Silicon Graphics Computer Systems, Inc. Apparatus for processing instructions in a computing system
US5956753A (en) * 1993-12-30 1999-09-21 Intel Corporation Method and apparatus for handling speculative memory access operations
US5870577A (en) * 1996-11-27 1999-02-09 International Business Machines, Corp. System and method for dispatching two instructions to the same execution unit in a single cycle
US6185675B1 (en) * 1997-10-24 2001-02-06 Advanced Micro Devices, Inc. Basic block oriented trace cache utilizing a basic block sequence buffer to indicate program order of cached basic blocks
US6742111B2 (en) * 1998-08-31 2004-05-25 Stmicroelectronics, Inc. Reservation stations to increase instruction level parallelism
US6339822B1 (en) * 1998-10-02 2002-01-15 Advanced Micro Devices, Inc. Using padded instructions in a block-oriented cache
US6647462B1 (en) * 2000-06-29 2003-11-11 Motorola, Inc. Apparatus and a method for providing decoded information
US7139898B1 (en) * 2000-11-03 2006-11-21 Mips Technologies, Inc. Fetch and dispatch disassociation apparatus for multistreaming processors
US7076640B2 (en) * 2002-02-05 2006-07-11 Sun Microsystems, Inc. Processor that eliminates mis-steering instruction fetch resulting from incorrect resolution of mis-speculated branch instructions
US7000095B2 (en) * 2002-09-06 2006-02-14 Mips Technologies, Inc. Method and apparatus for clearing hazards using jump instructions
US7281120B2 (en) * 2004-03-26 2007-10-09 International Business Machines Corporation Apparatus and method for decreasing the latency between an instruction cache and a pipeline processor
US7890735B2 (en) 2004-08-30 2011-02-15 Texas Instruments Incorporated Multi-threading processors, integrated circuit devices, systems, and processes of operation and manufacture
KR100628573B1 (ko) * 2004-09-08 2006-09-26 삼성전자주식회사 조건부실행명령어의 비순차적 수행이 가능한 하드웨어장치 및 그 수행방법
US7552318B2 (en) * 2004-12-17 2009-06-23 International Business Machines Corporation Branch lookahead prefetch for microprocessors
US7613904B2 (en) 2005-02-04 2009-11-03 Mips Technologies, Inc. Interfacing external thread prioritizing policy enforcing logic with customer modifiable register to processor internal scheduler
US7437543B2 (en) 2005-04-19 2008-10-14 International Business Machines Corporation Reducing the fetch time of target instructions of a predicted taken branch instruction
US7769983B2 (en) 2005-05-18 2010-08-03 Qualcomm Incorporated Caching instructions for a multiple-state processor
US7761697B1 (en) * 2005-07-13 2010-07-20 Nvidia Corporation Processing an indirect branch instruction in a SIMD architecture
US7953933B1 (en) * 2005-09-28 2011-05-31 Oracle America, Inc. Instruction cache, decoder circuit, basic block cache circuit and multi-block cache circuit
US7475231B2 (en) 2005-11-14 2009-01-06 Texas Instruments Incorporated Loop detection and capture in the instruction queue
US8812822B2 (en) 2006-02-09 2014-08-19 International Business Machines Corporation Scheduling instructions in a cascaded delayed execution pipeline to minimize pipeline stalls caused by a cache miss
US7487340B2 (en) 2006-06-08 2009-02-03 International Business Machines Corporation Local and global branch prediction information storage
US9146745B2 (en) * 2006-06-29 2015-09-29 Intel Corporation Method and apparatus for partitioned pipelined execution of multiple execution threads
US7711929B2 (en) 2007-08-30 2010-05-04 International Business Machines Corporation Method and system for tracking instruction dependency in an out-of-order processor
WO2010001766A1 (ja) 2008-07-02 2010-01-07 国立大学法人 東京工業大学 実行時間推定方法、実行時間推定プログラムおよび実行時間推定装置
JP5471082B2 (ja) 2009-06-30 2014-04-16 富士通株式会社 演算処理装置および演算処理装置の制御方法
CN101770358B (zh) * 2010-02-10 2013-01-30 龙芯中科技术有限公司 微处理器跳转指令分支预测处理系统和方法
CN106990942A (zh) * 2011-06-29 2017-07-28 上海芯豪微电子有限公司 分支处理方法与系统
US9354874B2 (en) 2011-10-03 2016-05-31 International Business Machines Corporation Scalable decode-time instruction sequence optimization of dependent instructions
US9286072B2 (en) 2011-10-03 2016-03-15 International Business Machines Corporation Using register last use infomation to perform decode-time computer instruction optimization
US9329869B2 (en) 2011-10-03 2016-05-03 International Business Machines Corporation Prefix computer instruction for compatibily extending instruction functionality
CN102520913B (zh) * 2011-11-03 2014-03-26 浙江大学 基于分组更新历史信息的并行分支预测装置
US9298469B2 (en) 2012-06-15 2016-03-29 International Business Machines Corporation Management of multiple nested transactions
CN102968293B (zh) * 2012-11-28 2014-12-10 中国人民解放军国防科学技术大学 基于指令队列的程序循环代码动态检测及执行方法
US9535695B2 (en) 2013-01-25 2017-01-03 Apple Inc. Completing load and store instructions in a weakly-ordered memory model
CN103984523B (zh) 2013-02-08 2017-06-09 上海芯豪微电子有限公司 多发射指令处理系统及方法
US9880842B2 (en) 2013-03-15 2018-01-30 Intel Corporation Using control flow data structures to direct and track instruction execution
GB2519103B (en) * 2013-10-09 2020-05-06 Advanced Risc Mach Ltd Decoding a complex program instruction corresponding to multiple micro-operations
CN103677965B (zh) * 2014-01-03 2017-03-22 北京神舟航天软件技术有限公司 一种全数字快速仿真方法
CN104978282B (zh) * 2014-04-04 2019-10-01 上海芯豪微电子有限公司 一种缓存系统和方法
CN105308557B (zh) * 2014-04-28 2018-06-15 华为技术有限公司 一种数据处理装置及方法
US9477469B2 (en) 2014-06-02 2016-10-25 International Business Machines Corporation Branch predictor suppressing branch prediction of previously executed branch instructions in a transactional execution environment
US10503538B2 (en) 2014-06-02 2019-12-10 International Business Machines Corporation Delaying branch prediction updates specified by a suspend branch prediction instruction until after a transaction is completed
CN104156196B (zh) * 2014-06-12 2017-10-27 龚伟峰 重命名预处理方法
CN104731557A (zh) * 2014-12-10 2015-06-24 康烁 指令执行的控制方法及装置
CN105786448B (zh) * 2014-12-26 2019-02-05 深圳市中兴微电子技术有限公司 一种指令调度方法及装置
CN104793921B (zh) * 2015-04-29 2018-07-31 深圳芯邦科技股份有限公司 一种指令分支预测方法与系统
US20160378491A1 (en) 2015-06-26 2016-12-29 Microsoft Technology Licensing, Llc Determination of target location for transfer of processor control
US20160378488A1 (en) 2015-06-26 2016-12-29 Microsoft Technology Licensing, Llc Access to target address
US20170315812A1 (en) 2016-04-28 2017-11-02 Microsoft Technology Licensing, Llc Parallel instruction scheduler for block isa processor
US20180081690A1 (en) * 2016-09-21 2018-03-22 Qualcomm Incorporated Performing distributed branch prediction using fused processor cores in processor-based systems
US10331454B2 (en) * 2016-09-29 2019-06-25 Intel Corporation System and method for load balancing in out-of-order clustered decoding
US20180095766A1 (en) 2016-10-05 2018-04-05 Centipede Semi Ltd. Flushing in a parallelized processor
CN107688468B (zh) * 2016-12-23 2020-05-15 北京国睿中数科技股份有限公司 推测执行处理器中分支指令与分支预测功能的验证方法
US10922087B2 (en) * 2017-11-30 2021-02-16 International Business Machines Corporation Block based allocation and deallocation of issue queue entries
CN109101276B (zh) * 2018-08-14 2020-05-05 阿里巴巴集团控股有限公司 在cpu中执行指令的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020147758A1 (en) * 2001-04-10 2002-10-10 Lee Rusty Shawn Data processing system and method for high-efficiency multitasking
US7024663B2 (en) * 2002-07-10 2006-04-04 Micron Technology, Inc. Method and system for generating object code to facilitate predictive memory retrieval
US20160041828A1 (en) * 2002-07-10 2016-02-11 Micron Technology, Inc. Method and system for generating object code to facilitate predictive memory retrieval
US20150106598A1 (en) * 2013-10-15 2015-04-16 Mill Computing, Inc. Computer Processor Employing Efficient Bypass Network For Result Operand Routing

Also Published As

Publication number Publication date
US11579885B2 (en) 2023-02-14
CN109101276B (zh) 2020-05-05
EP3779682A1 (en) 2021-02-17
CN109101276A (zh) 2018-12-28
US20210042122A1 (en) 2021-02-11
WO2020034753A1 (zh) 2020-02-20
SG11202010825QA (en) 2020-11-27
EP3779682A4 (en) 2021-06-09
TW202009692A (zh) 2020-03-01

Similar Documents

Publication Publication Date Title
TWI719501B (zh) 中央處理單元(cpu)、中央處理單元(cpu)控制器與在中央處理單元(cpu)中執行指令的方法
JP3548132B2 (ja) マルチスレッド・プロセッサ内でのパイプライン・ステージのフラッシュ方法および装置
US7437537B2 (en) Methods and apparatus for predicting unaligned memory access
US9286072B2 (en) Using register last use infomation to perform decode-time computer instruction optimization
US7725684B2 (en) Speculative instruction issue in a simultaneously multithreaded processor
US6912648B2 (en) Stick and spoke replay with selectable delays
US6247115B1 (en) Non-stalling circular counterflow pipeline processor with reorder buffer
US7734897B2 (en) Allocation of memory access operations to memory access capable pipelines in a superscalar data processing apparatus and method having a plurality of execution threads
US9146745B2 (en) Method and apparatus for partitioned pipelined execution of multiple execution threads
JP4841861B2 (ja) 演算処理装置及びデータ転送処理の実行方法
JP2002508564A (ja) 実行パイプラインの外部に複数のプログラム・カウンタとトレース・バッファを有するプロセッサ
US20060259742A1 (en) Controlling out of order execution pipelines using pipeline skew parameters
JP2008530714A5 (zh)
US20060259741A1 (en) Controlling out of order execution pipelines issue tagging
CN112214241B (zh) 一种分布式指令执行单元的方法及系统
US7454596B2 (en) Method and apparatus for partitioned pipelined fetching of multiple execution threads
WO2021218633A1 (zh) Cpu指令处理方法、控制器和中央处理单元
US20100287358A1 (en) Branch Prediction Path Instruction
JP4420055B2 (ja) マルチスレッドプロセッサ及びそれに用いるスレッド間同期操作方法
KR100431975B1 (ko) 분기에의한중단이없는파이프라인방식의마이크로프로세서를위한다중명령디스패치시스템
CN116414458A (zh) 指令处理方法以及处理器
US7328327B2 (en) Technique for reducing traffic in an instruction fetch unit of a chip multiprocessor
CN111857830A (zh) 一种提前转发指令数据的通路设计方法、系统及存储介质
EP3278212A1 (en) Parallelized execution of instruction sequences based on premonitoring
CN110347400B (zh) 编译加速方法、路由单元和缓存