TW583544B

TW583544B - Infiniband work and completion queue management via head and tail circular buffers with indirect work queue entries

Info

Publication number: TW583544B
Application number: TW091121512A
Authority: TW
Inventors: David F Craddock; Thomas Anthony Gregg; Ian David Judd; Gregory Francis Pfister; Renato John Recio
Original assignee: Ibm
Priority date: 2001-09-24
Filing date: 2002-09-19
Publication date: 2004-04-11
Also published as: US20030061417A1; US6789143B2

Description

583544 ⑴ 玖、發明說明 (發明說明應敘明：發明所屬之技術領域、先前技術、内容、實施方式及圖式簡單說明）相關的應用本申請案係有關於一般性讓渡和申請中的美國專利申請序號_(委託待審案號AUS920010479US1)，命名為 π使用頭部及尾部指標器以管理工作及完成佇列之裝置及方法”，歸檔於_，以及美國專利申請序號_ (委託待審案AUS920010477US1)，命名為’’藉由僅含頭部圓形的緩衝器之無限頻帶工作及完成佇列管理”，歸檔於相同曰期，以及在此被合併參考。發明背景 1 .技術背景：本發明指的是一改良的資料處理系統。更明確地，本發明指的是一種裝置和方法，有效的實現仵列對和完成仔列，其包含分別對工作佇列進入點和完成佇列進入點的參考點。 2 .相關技藝的描述：無限頻帶（ΙΒ)提供一硬體訊息傳遞機制能給I/O (I/O)裝置，以及在内部流程通訊（IPC)和一般計算節點之間使用。用戶藉由宣告發送/接收訊息至在通道配接器（CA)上的發送/接收工作佇列（WQ)，以存取ΙΒ訊息傳遞硬體。該發送/接收工作佇列（WQ)被指派至一用戶當做一佇列對（QP) 。用戶經由ΙΒ發送和接收工作完成（WC)，從一完成佇列（CQ) 取回這些訊息的結果。該源頭的CA負貴分段外送的訊息，以及傳遞它們至該終點。該終點的CA負貴重組回來的 (2) 發明說明續頁訊息’以及將它們放置於由該終點用戶指定的元憶内。這裡有兩種CA型別：主CA和目標CA。該主CA被的計算節點使用，以存取IB光纖。用戶使用IB軟體取主CA的功能。直譯軟體動詞並直接存取該CA的疋眾所皆知的通道介面（CI)。需要一有效率的機制從該用戶傳遞工作請求至硬體。除此之外，需要一相似的機制給該CA的硬工作完成至該用戶。因此，這將會是有益的去擁有方法，裝置和程式與一些最佳技術，傳遞工作請求道配接器硬體，以及從該通道配接器硬體傳遞工作該用戶。發明概述本發明提供一種具有（主機和I/O)末端節點，交換由器和連接器互相連接這些元件的分散式計算系系端節點使用發出和接收佇列對，以傳送和接收訊息訊息已經元全地被送出或接收，以及是否有一錯誤該訊息傳送或接收處理期間，該末端節點會使用完，以通知的該使用者。本發明描述_機制可以將這對和完成仔列實現於硬體中^提供一方法使用參考衝區的頭部和尾部指標器，控制從該用戶的工作請

至該CA硬體中，從該CA硬體億銘T从A 心得移工作完成至該用> QPs和CQs分別不包含工作佇列進 4延入點和芫成佇列j ，但是包含這些進入點的參考％。、丄&、 ^〒點。這使它們變得有3 體空間一般目動詞存軟體就該CA的體傳遞如此的至該通完成至器，路 b。該末 0當一發生於成佇列些佇列圓形緩求傳移。該入點率的 583544 (3) 發明說明續頁和在大小方面變成固定，而工作佇列進入點和完成佇列進入點它們在大小方面自己能改變，例如包括一數目可變的資料分段。另外，提供幾個機制可以用來改善這些程序在不同的記憶體組態下的整個效率。圖示簡單說明

被認為是本發明特點之新穎特徵被敘述於附件的申請專利範圍内。然而，本發明本身和一較佳的使用模式，進一步的目的和優點將會以參照下列說明具體實施例的詳細描述，伴隨著圖表而得到瞭解，其中：圖1是依照本發明較佳的具體實施例，描述一分散式計算系統的圖解；圖2是依照本發明較佳的具體實施例，一主處理器節點的功能方塊圖；圖3A是依照本發明較佳的具體實施例，一主通道配接器的圖解，圖3B是依照本發明較佳的具體實施例，是一交換器的圖解； Φ 圖3C是依照本發明較佳的具體實施例，是路由器的圖解；圖4是依照本發明較佳的具體實施例，說明工作請求處理的圖表；圖5是依照本發明較佳的具體實施例，其使用一可靠的 · 連接服務，說明一分散式計算系統之一部分的圖解； _ 圖6是依照本發明較佳的具體實施例，其使用一可靠的資料元連接服務，說明一分散式計算系統之一邵分的圖解； (4)583544 發明說明續頁圖圖算系圖式網圖子網圖構圖圖接工圖接完圖告一圖運作圖經請本該硬部指和軟 7疋依照本發明較佳的具體實施例，說明一資料封包； 8疋依照本發明較佳的具體實施例，#明一分散式計· 統之一部分的圖解； ' *i 9是依照本發明較佳的具體實施例，說明用於一分散— 路系統的一網路定址圖解； 1〇是依…、本發明較佳的具體實施例，其描述SAN光纖路架構，以說明一分散式計算系統之一部分的圖解； 11疋於較佳的具體實施例内所使用的分層式通信架解； · 12是依照本發明較佳的具體實施例，表示一使用非直作佇列進入點之工作佇列的實例圖解； 13疋依照本發明較佳的具體實施例，表示一使用非直成仵列進入點之完成彳宁列的實例圖解； 14是依照本發明較佳的具體實施例，說明當一用戶宣工作請求至一工作佇列，通道介面運作的流程圖； 15是依照本發明較佳的具體實施例，說明主通配接器的流程圖；以及 _ 16是依照本發明較佳的具體實施例，說明當一用戶已求工作完成訊息，通道介面運作的流程圖；較佳具體實施例的詳細說明發明提供一管理工作及完成佇列的裝置和方法，其在，體裡對工作佇列使用頭部指標器，對完成佇列使用尾 _ 標器。本發明可能被實現於硬體中，軟體中或一硬體體的組合。本發明最妤是實現於一分散式計算系統， -10 - 583544 (5) 發明說明續頁例如一系統區域網路（SAN),具有末端節點，交換器，路由#和連接&互相連接這些元件。每個末端節點使用發送，和接收作列對’以傳送和接收訊息。該末端節點分割訊息 ' 成封包’並傳运該封包於該連接器上。該交換器和路由器‘ 互相連接末端郎點，並遞送該封包至適合的末端節點。該末端節點在孩終點，重新組合該封包成一訊息。圖1是依照本發明較佳具體實施例的一分散式計算系統圖解。圖1所代表的分散式計算系統是一系統區域網路 (SAN) 100的形式，而且只提供來說明的目的，而以下描籲述的本發明具體實施例可以被實現於其他多種類型和組態的電腦系統上。舉例來說，實現本發明的電腦系統可從只有一處理器的小型伺服器加上幾個1/〇 (1/〇)轉接器至大型平行處理的超級電腦系統加上幾百個和幾千個處理器和幾千個I/O轉接器。此外，本發明能被實現於由一網際網路或企業内網路所連接的遠端電腦系統的設備中。 SAN 100是一高頻寬，低延遲時間的網路互相連接節點於分散式計算系統内。一節點是附著於一網路的一個或多 _ 個連接器的任何元件，以及於網路内形成訊息的起始點及 [或]終點。在所描述的例子中，SAN 100包括主處理機節點 102，主處理機節點104，冗餘行列獨立的磁碟（RAID)次系統節點106，和I/O底板節點108 ^於圖1中描述的節點只是 γ 為了說明的目的而已，為SAN 100能連接任何的數目和類型的獨立處理器節點，I/O配接器節點和I/O裝置節點。該任何的節點都能當做末端節點的功能，在此處可定義成一 -11 - 583544 ⑹ 發明說明續頁裝置於SAN 100上開始或最後消耗訊息或框架。在本發明的一個具體實^列中，分散式計#系統裡存在 -錯誤處理機制’其中錯誤處理機制在末端節點之間，允，許可靠的連接或可靠資料元通信於分散式計算系統内，例，如 SAN 100。一訊息，如在此處所使用的，是一資料交換的定義應用單元，其是在合作程序之間的一通信原始單元。一封包是由網路協定的檔頭及[或]檔尾將資料的一個單元裝入。檔頭通常是提供控制和通道遞送訊息以導引該框架通過 SAN 100。檔尾通常包含控制和循環冗餘檢查（CRC)資料，確認傳送的封包沒有内容被破壞。 SAN 100包含通信和管理設施，於分散式計算系統裡支援I/O和内部程序通信（IPC)。在圖1中所示的SAN 100包括一切換的通信光纖116，其允許許多裝置同時地使用高頻寬傳遞資料及低延遲時間於一保密，遠端的管理環境。末端節點能在多個埠上通信’並且利用多種通道通過該SAN光纖。圖1所示的通過該SAN之多個埠和通道用來當作故障容許度，以及增加頻寬資料的轉移。圖1的SAN 100包括交換器112 ’交換器114 ’交換器146和路由器117。一交換器是一裝置可以連接多個連接器’並 τ 且允許在一子網路内使用一小構頭終點區域識別碼（DLID)，襴區，路線遞送封包從一交換器至另一交換器。一路由器是一裝置可以連接多個子網路一起，並且能夠使用一大擋 -12 - ⑺ 發明說明續頁頭終點全域識別碼（DGUID)欄區，從第一個子網路的一連接器遞送框架至第二個子網路的另一連接器。在一個具體實施例中，一連接器是一全對工通道於任何的二個網路光纖元件之間，例如：末端節點，交換器或路由器。適當的連接器包括，但是沒被限制在於例子，銅線，光纖纟覽線和印刷電路版銅線和印刷電路板。對於可靠的服務形式，末端節點，例'如主機處理器末端節點，以及I/O配接器末端節點，產生請求封包和回送回應封包。交換器和路由器向前遞送封包，從該源頭至該終點。除了對不同的CRC檔尾欄區以外，其於該網路内的每個級更新，交換器遞送該封包而不修改。路由器更新不同的CRC檔尾欄區並且於該表頭裡修改其他的攔區當封包被遞送時。如圖1說明的SAN 100中，主機處理器節點102，主處理器節點104和I/O機箱108包括至少一個通道配接器（CA)至介面至SAN 100。在一具體實施例中，每個通道配接器是一末端點，其非常詳細地實現該通道配接器介面至源頭，或破壞在SAN架耩116上傳輸的封包。主處理機節點102包含以主通道配接器118和主通道配接器120形式的通道配接器。主處理器節點104包含主通道配接器122和主通道配接器124。主處理器節點102也包括中央處理單位126- 130和一記憶體132以匯流排系統134互相連接。主處理機節點104 同樣地包括中央處理單位136· 140和一記憶體142由一匯流排系統144互相連接。 ^83544 ⑻ 發明說明續頁主通道配接器118和120提供一連接至交換器112當主通道配接器122和124提供一連接至交換器112和114。

在一個具體實施例中，一主通道配接器是於硬體中實現。在這個實現中，該主通道配接器硬體卸載許多中央處理單元和I/O輸出配接器通信的開銷。該主通道配接器的硬體實現也允許多種協同通信於一開關式網路而不需要與傳統通信協定有關的開銷。在一具體實施例中，圖1的主通遒配接器和SAN 100提供分散式計算系統的I/O和内部程序通信（IPC)用戶零處理器-複製資料轉移，不需要作業系統核心來處理，而且運用硬體提供可靠的，故障容許的通信。如圖1所示，路由器117被耦合至廣域網路（WAN)及[或] 區域網路（LAN)連接至其他的主機或其他的路由器。圖1 的I/O機箱108包括一 I/O開關146和多種I/O模組148- 156。在這些例子中，該I/O模組是一配接器卡的形式。圖1描述的實例轉接器卡包括一 SCSI轉接器作為I/O模組卡148 ; —配接器卡至光纖通道集線器，以及光纖通道仲裁迴路（FC-AL) 鲁裝置給I/O模組152 ; —乙太網路配接器卡給I/O模組150 ; 一圖形配接器卡給I/O模組154，以及一影像配接器卡給I/O 模組156。任何的已知類型配接器卡接能被實現^ I/O配接器也包括一交換器於該I/O配接器背面板，以耦合配接器，卡至該SAN架構《這些模組包含目標通道配接器158- 166。 * 在這個例子中，圖1的RAID次系統節點1〇6包括一處理器 168，一記憶體170，一目標通道配接器（TCA) 172和多種冗 -14 - ⑼ 發明說明續頁餘及[或]條是一全功能 SAN 100 處援I/O需求的需求的極低作業系統核通道配接器合於目前的和電腦群通點在它們之處理器節點工/0配接器節何主處理機在一個具彳料定義和記| 收或推送通/ 傳統的I/O，定一資料的：輸一封包敘: 序記憶體中中，終點處, 在記憶體，遠端節點終, 只需要通知蚊狀儲存碟單位174。目標通道配接器172可以的主通遒配接器。理資料通信給1/0和内部程序通信。SAN 100支而頻寬和可提升性，且也支援内部程序通信延遲時間和低中央處理器開銷。用戶可以省略 u處理’而直接存取網路通信硬體，例如：主 ’其致能有效率的訊息遞送協定。SAN 100適計算模型，而且是一建構方塊給新形式的1/〇 # °進一步地，圖i的San 1〇〇允許I/O配接器節中通信或與任何或全部的分散式計算系統的通#。以一 I/O配接器附上該SAN 100，產生的點大體上有相同的通信能力給SAN ι〇〇裡的任節點。豊實施例中，在圖1所示的SAN 100支援通道資意體資料定義。通遒資料定義有時指的是送/ 言運算。通道資料定義是通信的類型運用於一其中一來源裝置推送資料，和一終點裝置決艮後終點。在通道資料定義，從一來源程序傳 —終點處理通信痒，但沒有敘述在該終勢^ ，該封包將會被寫入。因此，於通道資料定= 里前部署放置該傳輸資料。序直接地讀出或寫入— 點程序的虛擬地址空間。冏。孩遠端即點終點位置緩衝器要求資料，迷 1不力要參與任何資料

資料定義中，一來源程 -15 - ¢83544 (10) 發明說明續頁的轉移。因此，在記憶體資料定義中，一來源程序傳送一資料封包包含該終點糕序的終點緩衝器記憶體位址。在記憶體資料定義中，終點程序先前地允許來源程序存取它的記憶體。通道資料定義和記憶體資料定義典型地都是I/O和内部程序通信兩者所必需的。一典型的運算運用一通道和記憶體資料定義的組合。在圖1分散式計算系統之1/〇運算

說明實例中，一主處理機節點，例如主處理機節點1〇2，藉由使用通道資料定義啟動一 j/Ο運算，以送出一磁碟寫入指令至一磁碟1/〇配接器，例如·· RAID次系統目標通道配接器（TCA) 172。該磁碟I/O配接器檢查該命令和使用記憶體貝料疋義直接地從該主處理機節點的記憶體空間讀取資料緩衝器。在資料缓衝器被讀取之後，該磁碟ι/〇配接器運用通道資料定義以推送一 1/〇完成訊息背板至該主處理機節點。

行一運算，ϋ用虛㈣址和虚*記憶體保護機制，以正確和適當的存取至所有的記憶體。在如此的一分散算系統執行應用程式不需使用實際定址給任何的^】轉到圖2，一主處理機的功能方匕万塊圖依照本發明的具體實施例被描述。主處理機節 • 即.，.，占200疋—主處理機的實例，例如·圖1中的主處j里器# 即·，，占102。在這個例，在圖2所示的主處理機節點2〇〇包 ^ 、，且用戶 202-2Γ)ί 是在主處理機郎點200上的程序勃γ 執仃。王處埋機節點： ** 16 . 583544 ⑼ 發明說明續頁包括通道配接器210和通道配接器212。通遒配接器210包含埠214和216而通道配接器212包含埠218和220。每個埠連接到一連接器。該埠能連接至一 SAN子網路或多個SAN子網路，例如：圖1裡的SAN 100。在這些例子中，通道配接器是主通道配接器的形式。

用戶202-208經由該軟體動詞介面222和訊息和資料服務 224傳遞訊息至SAN。一軟體動詞介面本質上是一主通道配接器功能性的抽象描述。一作業系統可以經由它的程式介面暴露一些或所有的軟體動詞功能性。基本上，這個介面定義該主機的行為。另外地，主處理機節點200包括一訊息和資料服務224，其是一較高層的介面而非軟體動詞層，且被用來處理經由通道配接器210和通道配接器212收到的訊息和資料。訊息和資料服務224提供一介面至用戶 202-208處理訊息和其他的資料。

現在參考至圖3A，一主機通道配接器的圖解依照本發明的較佳具體實施例被描述。在圖3 A中所示的主機通道配接器300A包括一組佇列對（Qps) 302A-310A，用來傳遞訊息至該主通道配接器埠312A-316A。對主通道配接器埠的資料緩衝312A-316A經由虛擬通道（VL) 318A-334A引導，其中每個VL具有它自己的流量控制。子網路管理器以本地位址組態通道配接器給每個實體埠，也就是埠的LID。子網路管理器代理（SMA) 336A是一實體，為了與該子網路管理器通信，以組態化通道配接器。記憶體移轉和保護（MTp) 338A是一轉換虛擬位址至實體位址的機制，且允許存取權 -17 - 583544 (12) 發明說明續頁限。直接記憶體存取（DMA) 340A使用記憶體340A對應佇列對302A-310A提供給直接記憶體存取運算。

一單通道配接器，例如在圖3 A中所示的該主機通道配接器300A，可以支援數千個佇列對。相反的，一 I/O配接器中的目標通道配接器通常只支援少數的佇列對。每個佇列對由一發送工作佇列對和一接收工作佇列對所組成的。該發送工作佇列對用來發送通道和記憶體資料定義訊息。該接收工作佇列對收到通道資料定義的訊息。一用戶呼叫一作業系統特定的程式介面，在此處指的是軟體動詞，以置放工作請求（WRs)在一工作佇列上。圖3B依照本發明的較佳具體實施例描述一交換器300B 。交換器300B包括一分封遞送302B經由虛擬通道，例如：虛擬通道306B，與許多埠304B通信。通常，一交換器，例如：交換器300B，能遞送封包從一埠至相同交換器上的任何其他埠。

同樣地，圖3C依照本發明的較佳具體實施例描述一路由器300C。路由器300C包括一分封遞送302C經由虛擬通道，例如：虛擬通道306C，與許多埠304C通信。如交換器300B ，路由器300C通常將可以遞送封包從一埠至相同交換器上的任何其他埠。通道配接器，交換器和路由器運用多種虛擬通道於單一 < 實體連接器裡内。如圖3A，3B和3C所說明的，實體埠連接 _ 末端節點，交換器和路由器至一子網路。封包從封包的來源隨著一個或多個虛擬通道之内注入該S AN架構網路至 -18 - (13) (13)583544 發明說明續頁該封包的終點。虛擬通道的選擇從與該封包有關的服務層次被映射。在任何一個時間，只有一條虛擬通道在給定的 . 實體連接器上前進。虛擬通道提供一技術用以運用連接層 ' 次流量控制至一虛擬通道，而不影響另一個虛擬通道。當 / 一封包由於碰撞，服務品質（Q〇s)或其他考量，在一虚擬通道阻塞，於一不同的虛擬通道上的封包被允許前進。運用虛擬通道有很多的理由，下列列出某些理由：虛擬通道提供QoS。在一個具體實施例的實例中，某虛擬通道保留為高優先權或等通量以提供Q〇s。 % 虛擬通道避免造成死結。虛擬通道允許網路拓撲包含迴路以傳送封包通過所有的實體連接器，且仍然可保證該迴路不會引起背壓式依存關係而造成死結。虛擬通道減輕首頭阻隔。當一交換器沒有可用的積分給封包使用於給定的虛擬通道，使用不同虛擬通道的封包具有充足的積分而被允許向前進。現在參考圖4，依照本發明的較佳具體實施例，說明工作明求處理的圖解被描述。在圖4中，提出一接收工作佇 _ 歹J 400 ’發送工作佇列4〇2和完成佇列々料處理從或至用戶 406的請求。從用戶4〇2的這些請求最後被送到硬體4〇卜在這個例子中’用戶406產生工作請求410和412而且接收工作完成414。如圖4所示，工作請求被置於工作佇列上被稱為’ 工作佇列元件（WQEs)。發送工作佇列402包含工作佇列元件（wQEs) 422-428，描 ϋ傳輸^料於之SAN架構上。接收工作仵列4〇〇包含工作仵 -19 - 583544 (14) 發明說明續頁列7C件（WQEs) 416-420,描述從該SAN架構置放進作佇列元件於主通道配接器被硬體工資料定義的地方。 408處理該軟體動詞也提供一機制用以從完成佇列4〇4取回完成的工作。如圖4所示，完成佇列404包含完成佇列元件 (CQEs) 43〇_436。完成佇列元件包含關於先前完成的工作佇列元件之資訊。完成作列4〇4被用來產生單_完成通知的點給多種佇列對。一完成佇列元件是在一完成佇列上的資料結構。這個元件描述一完成的工作佇列元件。該完成佇列元件包含足夠的訊息，以決定該佇列對以及特定完成的 :作仵列元件。一完成作列組態内容是一訊息方塊：含指標器，長度和其他的訊息需要被管理個別的完成佇列。在圖4所示支援傳送工作佇列4〇2的實。一、，貝1 J工作請求如下。一傳送工作請求是一通道資料定義運算 < A推送一組本也為料分段至由遠端節點接收工作佇列元件的資料分段。舉例來說，工作佇列元件428包含參考至备M 刀，咨』丨 #料分割4 438

貧料分割5 440和資料分割6 442。每個億從、欠、墁工作請求的為料分段包含一實際相鄰的記憶體空間。被 V 资姐v 谈用來參考本地只竹分段的虛擬位址是在該程序的位址組能 ^ , L &内容中，其創 k本地佇列對。 —遠端直接記憶體存取（RDMA)讀取工作味 %求提供一記憶體資料定義運算以讀取在遠端節點上之 ’、 ^ ^ 〜實際相鄰的 Ζ憶體。一記憶體空間不是一記憶體區域、部分，就是一死憶體視窗的部分◊一記憶體區域參考一相▲ ‘ 、、先前註冊實際 -20 - 583544 (15) I發明說明續ϊ 相鄰的記憶體位址，其被虛擬位址和長度定義。一記憶體視窗參考一組實際相鄰的記憶體位址，其被限制至先前註冊的區域。 RDMA渭取工作請求在一遠端末端節點，讀出實際相鄰的记憶體’以及寫入資料至一實際相鄰的記憶體。類似於發送工作請求’ RDMA讀取工作仔列元件使用的虛擬位址以參考本地資料分段是在創造本地仵列之程序組態内容中。舉例來說，工作佇列元件416於接收工作佇列400參考資料分段1 444，資料分段2 446和資料分段3 448。該遠端虛擬位址是在該程序位址組態内容，其擁有遠端仔列對，被該RDMA項取工作作列元件鎖定。一 RDMA寫入工作佇列元件提供一記憶體資料定義運算，以在一遠端末端節點上，寫入一實際相鄰的記憶體。 RDMA寫入工作佇列元件包含一本地實際相鄰的記憶體的散佈表，以及該遠端記憶體的虛擬位址寫入至本地記憶體。一 RDMA提取運算子工作佇列元件提供一記憶體資料定義運算，以在一遠端字元組執行一原子運算。RDMA提取運算子工作佇列元件是結合了 RDMA讀取，修改和RDMA 寫入運算。該RDMA提取運算子工作仵列元件支援一些讀取修改寫入運算，例如：比較和互換如果相等時。一限制 (非限制）遠端存取鍵（R-鍵）工作佇列元件提供一指令給該主機通道配接器硬體結合（分離）記憶體視窗至一記憶體區域，以修改（破壞）一記憶體視窗。該R鍵是每個RDMA 存取的部份，以及用來使遠端程序允許對該緩衝器的存取 -21 . (16)583544 發明說明續頁有效。在-個具體實施例中，圖4所示的接收工作仔列權只支援工作件列元件的-個類型，其被稱為一接收工作仵列元件。該接收工作仵列元件提供一通道資料定義運算描述一本地記憶體空間至被寫入的送進來發送訊息。該接收工作佇列元件包括-散佈表，描述—些實際相鄰的記憶體空間。一送進來發送訊息是寫入這些記憶體空間的。該虛擬位址是在該程序的位址組態内容中，其創造本地佇列對。對内部程序通信而言，一使用者模式軟體程序直接從記憶體中的緩衝器’經由佇列對轉移資料。在一個具體實施例中’經由作列對的轉移略過作業系統，以及需要很少3 主指令週期。佇列對允許零處理器-拷貝資料轉移，而、需要作業系統核心參與。零處理器·拷貝資料轉移提供= 效率的支援鬲頻寬和低延遲時間的通信。 ....."〜队心Μ π贤一 c選身傳送服務類型。在一個具體實施例中，實現本發明的3 式計算系統支援四類型的傳送服務：可靠的連接，不一連接，可靠的資料元和不可靠的資料元連接服務。合

可靠和不可靠連接服務以一個且只有一個遠端件歹一本地佇列對。連接服務需要一程序，以產生一佇歹給每個程序在SAN架構上通信。因此，如果每一個理機節點包含p程序，且在每個節點上的所有p處埋令望與所有其他節點上的處理通信，每個主處理機節點亦 p2 X (N - 1)佇列對。而且一程序能在相同主通道配接器 -22 - (17) (17)583544 發明說明續頁連接一佇列對至另一個佇列對。圖5概略說明一分散式計算萃 '、勺部分運用可靠_ Jig 務分散式處理之間通信。圖5中j 了靠連接服 _ 的分散式計算 —主處理機節點1，一主處理機# 一’ 匕括。該主處理機節點1包括一處理王處理機即點3 _ # conio ^ 。主處理機節點3包括一處理C 520和一處理D 530。±老

54〇〇王處理機節點2包括一處理E 主處理機節點1包括佇列對4，&二 . r ,, 6和7，每個具有一發送工作佇列和接收工作佇列。主處现祕Μ ^ 屣里機郎點2具有一佇列對9 且王處理器卽點3具有佇列對2釦$。 ^ ^ y 。为散式計算系統500的可非連接服務以一個且只有一個遠、 1U逆鵠佇列結合一本地佇列對。因此，佇列對4被用來與佇列私 /、1丁列對2通信，佇列對7被用來與佇列對5通信，以及佇列對6祜 T 6破用來與佇列對9通信。置於一佇列上的WQE於可靠遠拉胆a丄罪連接服務造成資料被寫入至接收記憶體内，其被連接佇列^ A ^ 1丁 N對的—接收WQE所參考。 RDMA運算在連接佇列對的位址空間上操作。在本發明的一個具體實施例中，該可靠連接服務是可靠的，因為硬體維持順序號碼，且回應所有封包傳遞。一硬體和SAN驅動軟體的組合重試任何已失敗的通信。該佇列對的處理客戶獲得可靠的通信，即使出現位元誤差，收到錯誤和網路擁塞。如果其它可能的通道存在於該SAN架構中’可靠的通信便可被維持甚至失敗出現在光纖交換器，連接器或通遒配接器埠。除此之外，回應可能被運用到通過該SAN架構時，遞 -23 - (18) (18)583544 發明說明績頁送資料的可靠性。該回鹿可以，_ 應了以，或不可以是一程序層次的回應’也就是一回應使一桩跄去口文接收私序4耗資料有效。二者擇一地，該回應可以是口鈔抖；次Μ 疋/、月匕L不具料已到達它的終點。可靠資料元服務以一個釦口古加土 ^ 個和，、有一個遠端端至端組態内谷結合一本地端至端*能向、、且4内备。可靠資料元服務允許一佇 "客戶程序在任何其他遠端節點上，與任何其他佇列、子通L。纟#收X作作列，可靠資料元服務允許在任何其他的遠端節點上，從任何發送工作佇列的送進來訊息。可靠資料元服務大大地改良擴充性，因為可靠資料元服務疋採連接的。因&，具有一固定數目的佇列對的末端節點把用可靠資料7C服務，而非可靠連接傳送服務與更多程序和末端節點通信。舉例來說，如果每一個N主處理機節點包含P程序，且在每個節點的所有p處理希望在所有其他即點上與所有處理通信，在每個節點上，該可靠連接服務需要P X (N - 1)個佇列對。相反地，該無連接可靠資料元服務在每個節點上只需要p個佇列對+ (N ·丨）個ee組態内容做完全相同的通信。圖6概略說明一分散式計算系統的部分運用可靠連接服務分散式處理之間通信。圖6中的分散式計算系統6〇〇包括主處理機節點丨，一主處理機節點2和一主處理機節點3。主處理機節點1包括一處理A 610具有一佇列對4。主處理機節點2有一程序c 62〇 ,其具有一佇列對24和一處理d 63〇 , 其具有一佇列對25。主處理機節點3有一程序Ε “ο，其具有一佇列對14。 -24 - 583544 (19) 發明說明績頁在由分散式計算系統600實現的可靠資料元服務中，佇列對是耦合於一無連接的傳送服務。舉例來說，一可靠資料疋服務耦合佇列對4至佇列對24，25和14。特別的是，一可靠資料元服務允許佇列對4的發送工作仔列可靠地傳遞訊息至佇列對24，25和14中的接收工作件列。同樣地，孩仵列對24，25和14的發送佇列可以可靠地傳遞訊息至佇列對4中的接收工作佇列。

在本發明的一個具體實施例中，該可靠資料元服務運用與每個訊息框架有關的順序號碼和回應，以確定相同程度的可靠度為可靠的連接服務。端至端（EE)的組態内容維持端至端特定的狀態，以追蹤順序數字，回應和逾時值。別組 J内谷的端至端狀態在一對末端節點之間，被所有無連接的仔列對通信所分享。每個末端節點需要至少一個EE組怨内谷給每一個末端節點於可靠資料元服務它想通信（舉例來說：一給定的末端節點至少需要则固EE組態内容可以有可靠資料元服務和N個其他的末端節點的）。

不可靠資料元服務是無連接的，不可靠資料元服務被管 =應用程式運用以發現及整合新的交換器，路由器和末端即點整合至一給定的分散式計算系統。不可靠資料元服務並不提供該可靠連接服務和該可靠資料元服務的可靠度保證。該不可靠資料元服務因此操作以少量狀態的訊息在每個末端節點維護。換到圖7 ’ 一資料封包的說明依照—本發明的較佳具體實施例被描述。一資料封包是一單位的資訊遞送通過該 -25 - (20) _ 發明說明續頁 SAN架構。資料封包是〜此被末端節點創造且=末端節點至末端節點的構造，而因是主機就是目標），兮ί。因為封包到一通道配接器（不 SAN架構裡的交換器和^資料封包既非被產生也不是被該通道配接器，交換器和二由器消耗。不是讓資料封包至一包靠近至最後終點二由器只是移動請求封包或回應封，„ , ^ ^ ^ ^ ^不同連接標頭欄區於該處理。路由為也修改封包的網 ^ ^ %頭當該封包越過一子網路邊界。在穿過一子網路方 _ 早一個封包停留在一單一服務層次上。訊息資料700包含資祖八饥貝抖分段1 702，資料分段2 7〇4和資料分段3 706,其相似於在圖4中說明的資料分段。在這個例子中’這些資料分段形成一封包7〇8，其被置入資料封包 712内的封包負載量另外士备丄u另外地，貝枓封包712包含Crc 714 ’用來當决差檢查。另外祕致雄麻 _ 力外地，路線遞迗標頭716和傳輸標頭718出現於資料封包712内。路緩Μ访押-si 硌、、果遴运標頭716被用來為資料封包712辨認來源和終點琿。傳輸標頭718在這個例子中是敘述資料封包712的終點仔列對。另外地，傳輸標頭川也提供訊息，例如：操作碼，封包順序號 7现螞和分割給資料封包712。該操作碼辨明封包是否是該第一，最後， s τ同或只是一封包訊息。該操作碼也定義出運算是否县

疋一發送，RDMA 窝入，RDMA讀取/或原子的。該封包順序、·，斤唬碼被起始化當通信被建立時，而且每·一次增量一件列對4 * ^ ^ T 0產生—新的封包。一末端節點埠可能被組態化成一個哎 4 Γ此疋多個重疊 -26 - (21) (21)583544 發明說明續頁集的成員，稱為分割。在圖8中刀散式電腦系統部分的描述說明一實例的請求和回應處理。圖8的分散式電腦系統包括一主處理機節點802和-主處理機節點鮮主處理機節點包括一主通道配接器806。主處理機節點8〇4包括一主通道配接器綱。圖8的分散式電腦系統包括一 SAN架構81〇，其包括一交換器812和一交換器814。肖SAN架構包括—連結耦合主通 C配接器806至又換器812; —連結耦合交換器812至交換器 814 ;而且一連結耦合主通道配接器8〇8至交換器814。在該實例處理中，主處理機節點8〇2包括一客戶程序A 。主處理機節點804包括一客戶程序B。客戶程序A由佇列對23 (824和826)與主通道配接器硬體806互動。客戶程序b 由佇列對24 (828和830)與主通道配接器硬體808互動。仵列對23和24是資料結構，包括一發送工作仵列和一接收工作佇列。程序A藉由宣告工作佇列元件，發動訊息請求至仵列對 23的發送彳宁列824。這樣的一個工作仵列元件在圖4中被說明。客戶程序的訊息請求被包含在發送工作佇列元件中的集合列表所參考。該集合列表的每個資料分段指到一實際相鄰的本地記憶體，其包含該訊息的一部份，例如資料分段1，2和3所指示的，其分別地擁有在圖4中的訊息部份i ，2和3。主通道配接器806裡的硬體讀取儲存於實際相鄰緩衝器中的工作仵列元件和分段訊息至資料封包内，例如在圖7中所說明的資料封包。資料封包被遞送通過S AN架構，以及當作可靠的傳遞服務，被最後終點的末端節點 -27 - 583544 (22) 發明說明續頁所回應。如果不連續地回應，該資料封包被來源末端節點再傳送。資料封包被來源末端節點產生和被終點末端節點消耗。參考圖9，依照本發明的較佳具體實施例，說明用於分散式網路系統之網路定址的圖解被描述。一主機名字提供一邏輯識別碼給一主機節點，例如··一主處理機節點或1/〇配接器節點。該主機名字辨認末端節點給訊息，因此訊息被送往程序，其常駐在主機名字定義的末端節點上。因此，每個節點都有一個主機名字，但是一個節點可以有多個 CAs。被指派64-位元識別碼（EUI-64) 902的單一 IEEE可被指定至每個元件。一元件可以是一交換器，路由器或CA。

每個CA埠906分配一個或多個全域獨一 ID (GUID)識別符號904。使用多個GUIDs (a.k.a.IP位址）是有一些理由，有某些是在下列例子中說明。在一個具體實施例中，不同的IP

位址辨認在末端節點上不同的分割或服務。在一不同的具體實施例中，不同的IP位址用來定義不同的服務品質（QoS) 屬性。然而在另一個具體實施例，不同的IP位址辨認通過外部子網路路線的不同路徑。一 GUID 908被指定至一交換器910。一本地ID (LID)指的是一短位址ID，用來於單一子網路内識別一 CA埠。在一個具體實施例中，一子網路最多有 216個末端節點，交換器和路由器，而且因此該LID是16位元。一 LID (SLID)和一終點LID (DLID)是該來源和終點LIDs 被用於本地網路標頭。一單一 CA埠906最多有2£Μ〇： LIDs 912 -28 - 583544 (23) 發明說明續頁被指定到它。LMC代表該CA的LID遮蔽控制欄位。一遮蔽是一位元的樣本用來接受或拒絕位元樣本於另外的資料組0 多種LIDs的使用是有一些理由，某些可由接下來的例子提供。在一個具體實施例中，不同的LIDs於一末端節點辨識不同的分割或服務。在另外的一個具體實施例中，不同的LIDs用來定義不同的Q〇s屬性。在再進一步的具體實施例中，不同的LID定義通過該子網路的不同路徑。一單一交換器埠914具有一 LID 916與它有關。一對一的對應並不需要存在於LIDs和GUIDs之間，因為對每個埠，一個CA比GUIDs可以有更多或較少的LIDs。對有多個冗餘埠和冗餘傳導性的CAs至SAN架構，該CAs，但是不一定要，在它每一個埠上使用相同的LID和GUID。一分散式電腦系統的部分依照本發明的較佳具體實施例於圖10中被說明。分散式電腦系統1〇〇〇包括一子網路 1002和一子網路1〇〇4。子網路1002包括主處理機節點1〇〇6 ，1008和1010。子網路1004包括主處理機節點1012和1014。子網路1002包括交換器1016和1018。子網路1004包括交換器 1020和 1022 〇路由器連接子網路。舉例來說，子網路1002被連接到1004 與路由器1024和1026。在一具體實施例中，一子網路最多有216個末端節點，交換器和路由器。一子網路被定義成一群末端節點和_接交換器，其被處理成一單元。典型地，一子網路佔據單一地理的或功能的 -29 - 583544 (24) 發明說明續頁區域。舉例來說，〜單一電腦系統在一個房間中便能夠被定義為一子網路。在一個具體實施例中，一子網路裡的交換器能執行非常快迷的蟲孔或切過路線給訊息。一交換器於一子網路内檢查DLID於該子網路内的獨特性’以允許該交換器很快地而且有效率地遞送送進來的訊息封包。在一個具體實施例中，交換器是一相對地簡單的電路，而且典型地被實現成一單一的積體電路。—子網路可以有由串接交換器形成的幾百或幾千個末端節點。如圖10所說的’對延伸至較大的系統，子網路與路由器一起被連接，例如：路由器1024和1026。該路由器直譯Ip 終點ID (舉例來說：Ipv6終點id)和遞送像Ip一樣的封包。一 X換器的實例具體實施例被說明於圖3B中。每個I〆。路徑在一交換器或路由器上有一埠。通常，一交換器能遞送封包在相同的交換器上從一埠至任何其他的埠。於一子網路内，例如：子網路1〇〇2或予網路10〇4，從來源埠至一終點埠的路徑是由該終點主通遒配接器淳的lid 決定。在子網路之間，一路徑的決定是由該終點主通道配接器埠的IP位址（舉例來說：IPv6位址）和該路由器痒的[ID 位址，其將被用來到達終點的子網路。在一個具體實施例中，該請求封包使用的路徑和對麻正回應（ACK)或負回應（NAK)框架的請求封包不需要是對稱的。在運用某一路線遞送的具體實施例中，交換器根據 DLID選擇一輸出埠。在一個具體實施例中，在一個具體實施例中，路線遞送的決定標準包含於一個路線遞适表。在 -30 - 583544 (25) 發明說明續買一其它可能的具體實施例中，一交換器運用一分開的標準組給每個輸入埠。一資料處理於本發明的分散式電腦系統典型地疋由一些硬體和軟體步驟所組成。一客戶禚序資料傳送服務可以是一使用者模式或一核心模式程序。客戶程序存取王通遒配接器硬體經由一個或多個佇列對’例如·在圖中3A ’ ' 和6說明的彳宁列對。該客戶程序呼叫一作業系統特足的程式規劃介面，在此處被稱為”軟體動詞"。實現軟體動詞的該軟體碼宣告一工作件列元件至該給定仔列對工作仵列。有許多可能宣告一工作侍列元件的方法’以及终多可能的工作佇列元件格式，其允許各種不同的成本/效能的設計點，但不影響相容性。然而一用戶程序必須在定義明確的方法裡，通信至軟體動詞，以及傳輸至S AN架構的資料格式和協定必須被定義詳細，以允許裝置相容於一相異的環境内。在一個具體實施例中，通道配接器硬體偵測出工作件列元件旦告以及存取該工作仵列元件。在這個具體實施例中 ’通道配接器硬體轉譯並且使該工作佇列元件的虛擬位址有效和存取資料。一送出的訊息被分成一個或多個資料封包。在一個具體實施例中’通遒配接器硬體加入一傳送標頭和一網路標頭至每個封包。該傳送標頭包括順序號碼和其他的傳送訊心網路標頭包括路線遞送訊息，例如終點ip位址和其他的網路路線遞送訊息。該連接標頭包含終點本地的識別碼 -31- 583544 (26) 發明說明續頁 (DLID)或其他的本地路線遞送訊息。該通合的連接標頭總是被加至該封包。該適合的全域網路標碩被加至一給定的封包如果終點末端節點是在一遠端子網路上。如果運用一可靠的傳送服務，當一請求資料封包到達它的終點末端節點，回應資料封包被該終點末端節點使用，以讓請求資料封包發送者知道該請求資料封包是有效的，並在該終點接收。回應資料封包回應〜或多個有效和已接受的請求資料封包。該請求者可以有多個未解決的請求 ’貝料封包在它收到任何的回應之前。在〜個具體實施例中 ’多個未解決訊息的數目，也就是請求資料封包，被決定當一佇列對被創造時。一分層式架構11〇〇的具體實施例用以實現本發明在圖 11中以圖解形式說明。圖η的分層式架構表示各種不同層的資料通訊路徑，和資料和控制訊息的組織在層之間傳遞。主通道配接器末端節點協定層（由末端節點丨丨丨丨所運用，舉例來說）包括一較上層級協定1102被用戶1103，一傳輸層1104 ; —網路層1106 ; —鏈結層1108和一實體層1110所定義。交換器層（由交換器所運用丨丨13，舉例來說）包括鏈結層1108和實體層1110。路由器層（由路由器nl5所運用，舉例來說）包括網路層1106，鏈結層1108和實體層1110。通常分層式架構1100跟隨一典型通信堆疊大綱。對於末端節點1 Π 1的協定，舉例來說，較上層協定丨1〇2運用軟體動詞，以在傳輸層1104產生訊息。網路層11〇6在網路子網路（1116)之間遞送封包。鏈結層1108在一網路子網路（mg) -32 - 583544 (27) 發明說明績頁遞送封包。實體層1110發送位元或位元組至其他裝置的實體層。每一個層不知道較上或較低層如何執行它們的功能。用戶1103和1105代表應用程式或程序，運用於其他的層用以在末端節點之間通信。傳輸層1104提供端至端訊息移動。在一個具體實施例中，傳輸層提供四種類型的傳送服務如上所述是一可靠的連接服務；可靠的資料元服務；不可靠的資料元服務；和原始資料元服務。網路層1 1〇6執行封包遞送通過一子網路或多個子網路至終點末端節點。鏈結層1108執行流量控制，誤差檢查和通過連接器的優先封包遞送。貫體層1110執行相依技術的位元傳輸。位元或位元組經由連接器1122，1124和1126在實體層之間通過。連接能由印刷電路銅線銅纜線’光纖或與其他的適當的連接器一起實現。本發明針對圖1-11在上描述的SAN環境内操作。本發明提供一機制用於管理工作和完成佇列於該SAN架構内，其使用頭和尾部指標器^本發明的插述將會被提供給該工作和完成佇列兩者，為的是要瞭解頭部和尾部指標器是如何的相互使用。將會被激賞的是下列本發明操作的描述有關工作和完成佇列是典範的，且修改是可以做到而不離開本發明的精神和範圍。 χ作佇列結構圖12表示一實例工作佇列，其可以不是一發送佇列就是 —接收佇列。工作佇列1200是由一個或多個頁所組成的， -33 - 583544 (28) 發明說明續頁

雖然其它的容量可以使用，但其典型的容量是4K位元。在圖12裡的例子中，佇列使用四個頁，第〇頁1201，第1頁 1202，第2頁1203，和第3頁1204，其位在系統記憶體1205 。該工作仔列上的每個進入點是^一指標咨至該W Q E ’其包含該資訊需要由該HCA傳送/接收該訊息至/從該終點。舉例來說，WQE指標器1指到WQE 1 1262，WQE指標器2指到 WQE 2 1264，而WQE指標器η指到WQE η 1266。一些訊息包含於該WQE包括，但是不限制在，一連串的資料分段，每個都由一虛擬位址，一 L_Key和該分段的長度所組成。注意該WQE的大小不被這結構所限制，所以在相同工作佇列上的WQEs可以是大小不同，因此可容納不同數目的資料分段。指到該WQE的指標器，被放置在該工作佇列上，典型地

是一 32或64位元的位址，其端賴該作業系統，其可由該CI 和該HCA硬體兩者去存取WQE。它可以是一實際位址，或者是一虛擬位址如果該HCA硬體和記憶體控制器能夠轉譯對該實際位址至虛擬位址。選擇指標器的大小使得指標器的數目容納於一頁内是二的次方。舉例來說，以一 64 位元的指標器’ 512個指標器可容納於一 4K的頁内。在圖 12裡的例子中’這將提供一 2048個指樣器的彳宁列深度其提供給2048個WQEs參考。不同的佇列深度可由改變頁的數目提供，其組成工作佇列。該硬體的簡化可利用將頁數變為二的次方，而仍然維持相當大的彈性於工作佇列大小的選擇〇 -34 - 583544 (29) 發明說明績頁

一工作佇列分頁表（WQPT) 1210被維護，其包含一頁的列表1215以組成該工作佇列。這可以位於系統記憶體或HCA 記憶體，但是在任一情況下，它的位置被儲存於HCA 1220 。對每個工作佇列，HCA維持二個索引給該工作佇列指標器1230。該第一個，WQPT索引1232，被用來將上述的WQPT 列入索引。在圖12裡的例子中，具有一工作佇列包含四個頁，WQPT的索引是二位元。該第二個索引是WQ頁索引1234 ，其被用來將該工作佇列的每個頁編入索引中。舉例來說，以一 64位元組WQ和一 4K大小的頁，WQ頁的索引會是 9 位元。工作佇列1200已進一步與WQ頭部索引1240和在該通道介面（CI)的一 WQ尾部索引有關。該WQ頭部索引1240被該 CI使用去決定如果WQ 1200是滿的，以及該WQ尾部索引 1250被本發明用來於該WQ 1200内，管理該WQE指標器的寫入〇

該HCA維持它自己的WQ頭部索引1236和WQ尾部索引 1238版本。這些WQ索引是由該WQP丁索引1232和WQ頁索引 1234給該WQ頭部索引1236和該WQ尾部索引1238。該HCA 1220使用該WQ尾部索引1238去辨別WQ是否是空的，以及使用WQ頭部索引1236去決定下一個將被該HCA處理的 WQE指標器。該WQ 1200的起始狀態是空的，在此WQ頭部索引1240和 WQ尾部索引1250是相等的，以及提供給該佇列的頂端參考。該WQ頭部索引1236在該HCA中指到下一個將被處理的 -35 - 583544 發明說明續頁 (30) WQE指標器的引1250指到該以被寫入。當 WQ〖200内之位置。由該CI維護的WQ尾部索 WQ 1200内的位置，在此下一個標器可 WQE指標器被寫入至該WQ 1200 ’該WQ尾部

索引⑽的位置移動通過該WQ讓。同樣地，當輝8被虛理時，該WQ頭部索引丨236於該HCA中移動通過該WQ 1200。完成仔列結構

圖13表示一完成佇列的例子。完成佇列1300由一個或多個頁所組成，典型的容量是4 K位元組，然而其它的容量大小能夠被使用。在圖13裡的例子中’該仵列使用位於系統記憶體1305的四個頁，第〇頁1301 ’第1頁1302 ’第2頁1303 和第3頁1304。該CQ上的每個進入點是一指標器至該CQE ，其包含該由該HCA提供的資訊去定義該工作仵列。舉例來說，CQE指標器1指到CQE 1 1362，CQE指標器2指到CQE 2 1364，而CQE指標器η指到CQE η 1366。包含於該CQE之訊息數量的變化端賴該QP的服務類型，其與該工作完成相關。舉例來說，對一不可靠的資料元QP，該CQE包含定址訊息給該通信末端節點，然而這訊息對已連接的QP是不需要的。注意該CQE的大小不被這結構所限制，所以在相同 CQ上的CQEs可以是大小不同，因此在相同CQ上可容納不同數目的服務類型。指到該CQE的指標器，被放置在該CQ上，典型地是一 32 或64位元的位址，其端賴該作業系統，其可由該CI和該HCA 硬體兩者去存取CQE。它可以是一實際位址，或者是一虛 -36 - 583544 (31) 發明說明績頁擬位址如果該HCA硬體和記憶體控制器能夠轉譯對該實際位址至虛擬位址。選擇指標器的大小使得指標器的數目容納於一頁内是二的次方。舉例來說，以一 64位元的指標器，512個指標器可容納於一 4K的頁内。在圖13裡的例子中，這將提供一 2048個指標器的佇列深度其提供給2048個 CQEs參考。不同的仔歹J深度可由改變頁的數目提供，其組成工作佇列。該硬體的簡化可利用將頁數變為二的次方，而仍然維持相當大的彈性於CQ大小的選擇。一完成佇列分頁表（CQPT) 13 10被維護，其包含一頁的列表以組成該CQ。這可以位於系統記憶體或HCA記憶體，但是在任一情況下，它的位置被儲存於HCA 1320。對每個工作佇列，HCA維持二個索引給該完成佇列指標器1330。該第一個，CQPT索引1332，被用來將上述的CQPT列入索引。在圖13裡的例子中，具有一 CQ包含四個頁，CQPT的索引是二位元。該第二個索引是CQ頁索引1334，其被用來將該 CQ的每個頁編入索引中。舉例來說，以一 64位元組CQE和一 4K大小的頁，CQ頁的索引會是9位元。該CQ 1300已進一步與CQ頭部索引1340和一 CQ尾部索引 1350有關。該CQ頭部索引1340被該CI使用去管理CQE指標器於該CQ 1300的處理，以及該CQ尾部索引1350被該CI使用去做決定如果CQ是空的。該HCA維持它自己的CQ頭部索引1336和CQ尾部索引1338 版本。這些CQ索引是由該CQPT索引1332和CQ頁索引1334 給該CQ頭部索引1336和該CQ尾部索引1338。該HCA使用該 -37 - 583544 (32) 發明說明績頁 CQ尾部索引1336去辨別CQ是否是空的，以及使用CQ尾部索引1338去決定下一個將被該HCA宣告的一 CQE指標器。該CQ 1300的起始狀態是空的，在此cq頭部索引1340和 CQ尾部索引丨350是相等的，以及提供給該佇列的頂端參考。該CQ頭部索引1340指到下一個將被CI處理的CQE指標器的CQ 13〇〇内之位置。該CQ尾部索引1338於該HCA内指到該 CQ 1300内的位置，在此下一個CQE指標器可以被寫入。當CQE指標器被寫入至該CQ 1300時，該CQ尾部索引1338 的位置移動通過該CQ 1300。同樣地，當CQE指標器被處理時，由該CI維持的該CQ頭部索引1340移動通過該CQ 1300。詳細的工作請求運算參照圖14，一流程表依照本發明的較佳具體實施例，說明一通道介面的運算當用戶宣告一工作請求至一工作佇列。當一用戶宣告一工作請求至一工作佇列時，程序便開始，CI建立一 WQE，定義該請求（步驟1402)，並且寫入此 WQE至記憶體内，其可對該HCA作存取動作（步驟14〇4)。在宣告WQE之前，做出一決定有關於工作佇列是否是滿的 (步驟1406)。比較增加一的頭部和的尾部索引決定工作佇列是否是滿的。如果它們是相等的，該仵列便是滿的，因此這個工作請求便不被接受直到HCA指出一個或多個 WQEs已經由宣告一個或多個cQEs至該完成佇列而被處理 (步驟 1408)。對此WQE的指標器然後在該尾部工作佇列被寫入（步驟 1410)。該尾部的位置是由該尾部索引所決定的，其是該 • 38 - 583544 (33) 發明說明續頁 WQPT索引和WQ頁索引的組合。進入點該頁内之頁位址和偏移的組合提供該WQE置放的位址。二者擇一地，如果該工作佇列頁對應至一鄰近的虛擬位址空間，該CI可以維持一 WQ尾部指標器，也就是一虚擬位址，和使用硬體位址傳輸在該佇列上，儲存WQE於該適當的位置。如果該尾部索引不是滿的，則該WQE指標器被寫入至由該尾部索引所提供參考的位置（步驟1410)。該尾部索引然後在本地記憶體中被增加，使得它會參考下一個Wqe指標器將會被置放的位置（步驟1412)。該已更新的尾部索引被寫入至HCA (WQPT索引加上WQ頁索引），以告知HCA有一個或多個 WQEs需要處理（步驟1414)，而該程序便結束。當尾部索引被增加時，如果該頁索引包住，WqPT索引被增加一。如果WQPT索引包住，工作佇列已經被包至該佇列的頂端。雖然CI是在檢查和更新該尾部索引和寫入 WQE至該佇列的尾部的程序中，它需要完全鎖住這些資源，以防止它們被其他的程序使用。現在回到圖15’ 一流程表依照本發明的較佳具體實施例，說明一主通道配接器的運算。該程序開始和hca以週期性比較頭部和尾部索引，監視該工作佇列（步驟ΐ5〇ι)，以及決定該工作仵列是否是空的（步驟15〇2)。如果該頭部和尾部指標器是相等的’則該佇列是空的，且程序回到步驟 1501去比較頭部和尾部指標器。如果指標器不相等，則有 -39 - 583544 (34) 發明說明續頁一個WQE會被處理。二者擇一地，當CI更新儲存於該HCA 中的尾部索引時，HCA可以使用這個更新當成一指示，有一需要處理的WQE。HCA決定該WQE指標器（步驟15〇4)的位置是用第一個放置包含指標器的頁。這可以使用該頭部 WQPT索引，將WQPT編入索引。該頁内的位置然後根據該 WQ頁索引以及該WQE的大小來決定。該HCA然後使用這個指標器去讀取該WQE (步驟1506)。如果該指標器是一實際位址，則該HCA直接地讀取該WQE。如果指標器是一虛擬位址，則該HCA使用它的位址轉譯表格，以決定對應該虛擬位址的實際位址，然後使用這個實際位址讀取該WQE。該HCA然後傳送請求的訊息（步驟1508)。在訊息成功地被傳送之後，以及任何可能需要的回應已被收到，該WQE 的處理便被完成。該HCA增加它自己的頭部索引版本（步驟1510)，且由寫入一 CQE於可存取至CI的記憶體内，以通知該CI (步騾1511)。當頭部索引被增加時，如果該頁索引包裹，則該WQPT索引被增加一。如果WQPT索引包裹，則該工作佇列已經包裝至該佇列的頂端。該HCA然後將增加一的頭部索引與尾部索引做比較，檢查該CQ不是滿的（步驟1512)。如果頭部索引等於增加的尾部索引，則該CQ是滿的，以及運算是以錯誤的方式結束（步驟1514)。如果CQ不是滿的，則HCA決定儲存CQE指標的位置是用第一個放置使用CQPT索引的頁（在增加之前）（步驟1516)。該頁内的位置然後根據該CQ頁索引以及該指標器的大小來決定。該HCA然後在該CQ的尾部，寫入指標至 -40 - 583544 (35) 發明說明續頁此CQE (步驟1518)，增加该<^尾部索引（步驟ι52〇),並且結束。如果該頁索引包裹’則CQPT索引被增加一。如果 CQPT索引包裹，則CQ尾部已經包裹至該佇列的頂端。現在回到圖16 ’ 一流程表依照本發明的較佳具體實施例，說明一通道介面的運算當用戶已經請求工作完成訊自、時。在儲存CQE指標器後，該CI被告知hCA於系統記憶體裡儲存增加的CQ尾部索引，一新的CQE在該CQ上已被放置。程序便開始而且檢查完成佇列是否是空的（步騾16〇4)。如果CQ是空的，則該處理便結束。如果CI決定出該Cq不是空的（該頭部和尾部索引不相等）於步驟1604中，該ci在該 CQ的頭部讀取CQE指標器（步驟1606)。這個CQE指標器是被該CQ頭部索引結合該CQ頁表格所參考。ci然後使用實際位址或結合硬體位址轉譯的虚擬位址，從CQE參考的位置讀取該CQE (步驟1608)。該CQE的内容然後被用來將該工作完成訊息送回請求它的用戶（步驟1610)。在CQE被該CI處理之後，該CQ頭部索引的增加方式與CI 增加WQ尾部索引的方式相似（步驟1612)。該更新的頭部索引被儲存於該HCA中，讓該HCA未來檢查Cq是否是滿的（步驟1614)。除此之外，CI現在可將用來檢查該工作佇列是否是滿的之WQ頭部索引的CI拷貝加一，以再利用對應這個 CQE的WQE (步驟1616)，因此該程序便結束。在該CQE被消耗之後，該CI需要執行WQ頭部索引的更新，以保證在該工作件列上釋放2間之前，有一對應的空間於該CQ上。雖然該CI是在檢查和更新該cq頭部索引，從佇列的頭部 -41 -

發明說明績頁讀取該CQE，該CI需要完全鎖住這些資源，以防止它們被其他的程序使用。最佳化下列各項是於此發明中，對較早描述的基本方法之最佳化列表·· 1) 該CI可以在幾個WQEs已經於該工作佇列上被置放後，只更新該工作佇列尾部索引一次，減少對HCA的寫入數目。 2) 該CI可以在幾個CQE指標器已經從該CQ取回之後，只更新HCA的可用CQ頭部索引一次，來減少對HCA的寫入數目。 3) 該HCA可以在該CQ上置放幾個CQEs和它們相關的CQE 指標器後，只更新該CQ尾部索引一次，減少對系統記憶體的寫入數目。 4) 如果該工作佇列或CQ是相鄰於一虛擬位址空間中，CI 可以參考使用虛擬位址和使用硬體位址轉譯機制的佇列，以執行儲存或取回。在這情況下，在針對該佇列末端的虛擬位址所做的存取和檢查以偵測何時一包裹已經發生之後’用來參考該佇列的虛擬位址會以該WQE或CQE指標器的長度增加。 5) 對於工作佇列其容納單頁内的，當佇列很小或該頁容量太大時便可能發生，該WQPT和WQPT的索引可能被消除。該單頁的實際位址會一直需要被儲存。 6) 對於CQ其容納單頁内的，當佇列很小或該頁容量太大時便可能發生，該CQPT和CQPT的索引可能被消除。該單頁的實際位址會一直需要被儲存。 583544 (37) 發明說明續頁 7) 如果該X作佇列位於鄰近的實際記憶體，其可以被CI 和HCA存取的，該WQPT和WQPT的索引可能被消除。 8) 如果該CQ位於鄰近的實際記憶體’其可以被CI和HCA 存取的，該〔卩打和CQPT的索引可能被消除。這是重要的去注意當本發明已在整個功能性資料處理系統的上下文中被描述，那些原來熟悉於該技藝的人士將會激賞本發明的程序能分配於電腦可讀取的指令形式和多種不同的形式和本發明的使用都是相等地，不管是該特定類型的信號媒體實際上用來實行該分配。該電腦可讀取媒體的實例包括可記錄型媒體，例如：一軟式磁碟，一硬式磁碟驅動’ 一隨機存取記憶體，CD-ROM，DVD-ROM，和傳輸型媒體，例如：數位及類比通訊連接器，有線或無線通訊連接器’使用傳輸形式，例如··射頻和光傳輸。該電細可靖取媒體可能是用編碼的格式，其被解碼以實際用於特定的資料處理系統。本發月的描述是當作證明和描述的目的，而不是想要限制本發明於已揭露的形式。許多修改和變更對於熟悉於該技#々^ 士會疋易於明白的。所選擇和描述的具體實施例疋為了詳加解釋本發明的原哥卜實際的應用#使其他熟悉於該技藝的人士能夠了妞约Τ解本發明有各種不同修改的具體實施例，如同適合於該特殊用途。 -43 .

Claims

583544 拾、申請專利範圍 1. 一種管理一工作請求的方法，包含：建立一工作佇列進入點給一工作佇列；將該工作佇列進入點寫入記憶體内；以及將指至該工作佇列進入點之一工作佇列進入點指標器，寫入該工作佇列内。 2. 如申請專利範圍第1項之方法，進一步包含：

將佇列頭部索引和增加一的佇列尾部索引執行比較，以決定工作佇列是否是滿的；以及將該工作佇列進入點寫入，如果工作佇列不是滿的。 3. 如申請專利範圍第1項之方法，其中該工作佇列進入點指標器包含一實際位址。 4. 如申請專利範圍第1項之方法，其中該工作佇列進入點指標器包含一虛擬位址。

5. 如申請專利範圍第1項之方法，其中將該工作佇列進入點指標器寫入的步驟包含在被一佇列尾部索引所參考之位置寫入工作佇列進入點指標器。 6. —種管理一工作請求的方法，包含：決定一工作佇列進入點指標器的位置；讀取一工作佇列進入點，其被該工作佇列進入點指標器所參考；以及傳送一訊息，對應至該工作佇列進入點。 7. 如申請專利範圍第6項之方法，其中該工作佇列進入點指標器包含一實際位址。 -44 - 583544 申請專利範圍續頁 8. 如申請專利範圍第6項之方法，其中該工作佇列進入點指標器包含一虛擬位址。 9. 如申請專利範圍第6項之方法，進一步包含：將一完成佇列進入點寫入，其對應至該記憶體裡的工作佇列進入點。 10. 如申請專利範圍第9項之方法，進一步包含將一完成佇列進入點指標器寫入，其於一完成佇列内，指至該完成佇列進入點。 11. 如申請專利範圍第10項之方法，其中將該完成佇列進入點指標器寫入的步驟包含在被一佇列尾部索引所參考之位置寫入完成佇列進入點指標器。 12. —種管理一請求給工作完成訊息的方法，包含：讀取一完成佇列進入點指標器；讀取一完成佇列進入點，其被該完成佇列進入點指標器所參考；以及使用完成佇列進入點，將工作完成訊息送回。 13. 如申請專利範圍第12項之方法，其中該完成佇列進入點指標器包含一實際位址。 14. 如申請專利範圍第12項之方法，其中該完成佇列進入點指標器包含一虛擬位址。 15. —種於一電腦可讀取的媒介中管理一工作請求的電腦程式產品’包含· 指令以建立一工作佇列進入點給一工作佇列；指令將該工作佇列進入點寫入記憶體内；以及 -45 - 583544 申請專利範圍續頁指令將指至該工作佇列進入點之一工作佇列進入點指標器，寫入該工作佇列内。 16. 如申請專利範圍第15項之電腦程式產品，進一步包含：指令將佇列頭部索引和增加一的佇列尾部索引執行比較，以決定工作佇列是否是滿的；以及指令將該工作佇列進入點寫入如果工作佇列不是滿的。 17. 如申請專利範圍第15項之電腦程式產品，其中該工作佇列進入點指標器包含一實際位址。 18. 如申請專利範圍第15項之電腦程式產品，其中該工作佇列進入點指標器包含一虛擬位址。 19. 如申請專利範圍第15項之電腦程式產品，其中該指令用以將該工作佇列進入點指標器寫入，包含指令在被一佇列尾部索引所參考之位置寫入工作佇列進入點指標器。 20. —種於一電腦可讀取的媒介中管理一工作請求的電腦程式產品，包含：指令決定一工作佇列進入點指標器的位置；指令讀取一工作佇列進入點，其被該工作佇列進入點指標器所參考；以及複數指令傳送一訊息，對應至該工作佇列進入點。 21. 如申請專利範圍第20項之電腦程式產品，其中該工作佇列進入點指標器包含一實際位址。 22. 如申請專利範圍第20項之電腦程式產品，其中該工作 583544 申請專利範圍續頁佇列進入點指標器包含一虛擬位址。 23. 如申請專利範圍第20項之電腦程式產品，進一步包含：指令將一完成佇列進入點寫入，其對應至該記憶體裡的工作仔列進入點。 24. 如申請專利範圍第23項之電腦程式產品，進一步包含指令用以將一完成佇列進入點指標器寫入，其於一完成佇列内，指至該完成佇列進入點。

25. 如申請專利範圍第24項之電腦程式產品，其中該指令用以將該完成佇列進入點指標器寫入，包含指令在被一佇列尾部索引所參考之位置寫入完成佇列進入點指標器。 26. —種於一電腦可讀取的媒介中管理工作完成訊息之請求的電腦程式產品，包含：指令以讀取一完成佇列進入點指標器；

指令以讀取一完成佇列進入點，其被該完成佇列進入點指標器所參考；以及指令使用完成佇列進入點，將工作完成訊息送回。 27. 如申請專利範圍第26項之電腦程式產品，其中該完成佇列進入點指標器包含一實際位址。 28. 如申請專利範圍第26項之電腦程式產品，其中該完成佇列進入點指標器包含一虛擬位址。 29. —種管理一工作請求的裝置，包含：一通道介面，其中該通道介面建立.一工作彳宁列進入點給一工作佇列，將該工作佇列進入點寫入記憶體内，以 -47 - 583544 申請專初範圍續:頁及將指至該工作佇列進入點之一工作佇列進入點指標器，寫入該工作佇列内；以及一主通道配接器耦合至該通道介面，其中該主通道配接器處理該工作佇列進入點。 30. —種管理一工作請求的裝置，包含：

一通道介面，其中該通道介面包括一工作彳宁列；以及一主通道配接器耦合至該通道介面，其中該主通道配接器決定一工作佇列進入點指標器的位置，讀取一工作佇列進入點，其被該工作佇列進入點指標器所參考，以及傳送一訊息，對應至該工作佇列進入點。 31. 如專利申請範圍第30項之裝置，其中該主通道配接器將一完成佇列進入點寫入，其對應至該記憶體裡的工作佇列進入點。

32. 如專利申請範圍第3 1項之裝置，其中該通道介面包括一完成佇列，以及其中該主通道配接器將一完成佇列進入點指標器寫入，其於一完成佇列内指至該完成佇列進入點。 33. —種管理工作完成訊息的請求的裝置，包含：一通道介面，其中該通道介面包括一完成仔列；以及一主通道配接器耦合到該頻道介面，其中該主通道配接器讀取一完成佇列進入點指標器，讀取一完成佇列進入點，其被該完成佇列進入點指標器所參考，以及使用完成佇列進入點，將工作完成訊息送回。 -48 -