TW202201287A

TW202201287A - 具有三維堆疊之類神經網路加速器塊架構

Info

Publication number: TW202201287A
Application number: TW110133520A
Authority: TW
Inventors: 安德烈亞斯喬治諾瓦茲克; 奧利維耶提瑪; 拉非納拉亞那斯瓦密; 烏代庫瑪達沙立
Original assignee: 美商谷歌有限責任公司
Priority date: 2017-06-16
Filing date: 2018-06-04
Publication date: 2022-01-01
Also published as: US9928460B1; CN110462641A; US20220147793A1; TW201905769A; EP3822866B1; JP7058281B2; TWI741187B; WO2018231395A1; KR102385350B1; JP2020521194A; EP3574452B1; KR20190117712A; EP3574452A1; EP3822866A1; US20180365553A1; US11948060B2; TWI771180B

Abstract

本發明揭示一種三維類神經網路加速器，其包含包括一第一傳輸線圈之一第一類神經網路加速器塊、及包括一第二傳輸線圈之一第二類神經網路加速器塊，其中該第一類神經網路加速器塊鄰近該第二類神經網路加速器塊且與該第二類神經網路加速器塊垂直地對準，且其中該第一傳輸線圈經組態以經由電感性耦合與該第二傳輸線圈無線地通信。

Description

具有三維堆疊之類神經網路加速器塊架構

本說明書大體上係關於使硬體中之類神經網路運算加速度。

類神經網路係採用非線性單元之一或多個層來針對一接收輸入預測一輸出之機器學習模型。除一輸出層以外，一些類神經網路亦包含一或多個隱藏層。使用各隱藏層之輸出作為網路中之下一層(即，下一隱藏層或輸出層)之輸入。網路之各層根據參數之一各自集合之當前值從一接收輸入產生一輸出。

一般而言，本說明書中描述之標的之一個新穎態樣可體現在一三維類神經網路加速器中，該三維類神經網路加速器包含具有一第一傳輸線圈之一第一類神經網路加速器塊及具有一第二傳輸線圈之一第二類神經網路加速器塊，其中該第一類神經網路加速器塊鄰近該第二類神經網路加速器塊且與該第二類神經網路加速器塊垂直地對準，該第一傳輸線圈經組態以經由電感性耦合與該第二傳輸線圈建立無線通信，且該第一類神經網路加速器塊及該第二類神經網路加速器塊經組態以藉由透過所建立無線通信形成包含提供一不可中斷資料流之一通信方案之一靜態互連系統而使一類神經網路之運算加速度。

此等及其他實施方案可各自視需要包含以下特徵之一或多者：第一類神經網路加速器塊包含於一第一類神經網路加速器晶片上之一第一塊陣列中；第二類神經網路加速器塊包含於一第二類神經網路加速器晶片上之一第二塊陣列中；第一傳輸線圈進一步經組態以透過近場無線通信在第一類神經網路加速器塊與第二類神經網路加速器塊之間提供一數位邏輯互連；第一傳輸線圈進一步包括一貫通晶片(ThruChip)介面(TCI)接收器及一TCI發射器；TCI接收器經組態以從第二傳輸線圈接收無線通信；TCI發射器經組態以將無線通信傳輸至第二傳輸線圈；第一類神經網路加速器塊進一步包括一處理元件及一環形匯流排；處理元件、第一傳輸線圈、TCI接收器、TCI發射器可透過環形匯流排通信地連接；處理元件包含用以執行硬體中之類神經網路運算之電路；第一傳輸線圈進一步經組態以與第二傳輸線圈建立一TCI連接以形成一垂直環形匯流排；第一類神經網路加速器塊進一步包括一短路平面以防止來自其他傳輸線圈之干擾；第一類神經網路加速器塊相對於第二類神經網路加速器塊旋轉180度；及第一類神經網路加速器塊及第二類神經網路加速器塊定向相同。

可實施本說明書中描述之標的之特定實施例以便實現以下優勢之一或多者。一三維堆疊類神經網路加速器已增大晶片上記憶體容量以(舉例而言)固持較大模型。優於其他三維堆疊解決方案之額外優勢包含較低成本、較高頻寬、更緊湊及提高之可擴縮性。

在隨附圖式及以下描述中陳述本說明書中描述之標的之一或多個實施方案之細節。將從描述、圖式及發明申請專利範圍明白標的之其他潛在特徵、態樣及優勢。

技術在機器人領域、物聯網及使用機器學習演算法之其他領域中正在迅速發展。舉例而言，臉部辨識及使用者偏好判定技術使用諸如類神經網路之機器學習技術來提高結果準確性。可使用通用圖形處理單元、場可程式化閘陣列、特定應用晶片及類似者之其他硬體來執行類神經網路運算。隨著類神經網路模型增大大小及複雜性，其等需要更多運算資源來執行。為處置運算資源之增加，可採用大規模硬體類神經網路加速器。

本文中描述用於一類神經網路加速器之架構。一類神經網路加速器係一硬體運算系統，其經組態以使一類神經網路之運算(即，使用類神經網路來處理一輸入以產生一輸出)加速度。可藉由堆疊各自包含一互連類神經網路加速器塊陣列之類神經網路晶粒(晶片)而製造類神經網路加速器。在一些實施方案中，一類神經網路晶片上之一陣列內之各類神經網路塊可經由一平面環形匯流排嵌入彼此通信地耦合。一旦切割，類神經網路晶片便可三維地堆疊以形成一類神經網路加速器。在堆疊時，一個類神經網路晶片上之塊陣列內之至少一個類神經網路塊可能可無線地通信連結至恰好堆疊於第一晶片上方或下方之另一類神經網路晶片上之一各自類神經網路塊。連結之類神經網路塊形成一靜態互連系統。在一些實施方案中，形成之靜態互連系統組織為透過各自類神經網路加速器塊之一線性處理序列。透過線性序列之處理時間之線性管線開始及結束於稱為一非核心之一特殊控制器。非核心係功能塊之一集合，其可處理一主機電腦之輸入/輸出(I/O)、晶片外記憶體之介面、I/O裝置之連接，及/或執行同步、協調及緩衝功能。

可透過其中晶圓堆疊於彼此之上且接合在一起之晶圓級堆疊來製造一類神經網路加速器。一晶圓係通常為圓形且直徑可介於300毫米或450毫米之間之半導體材料(例如，矽、氮化鎵等)之一薄片。各晶圓具有一系列晶粒(或晶片)，其等各自包含一類神經網路加速器塊陣列。隨著晶圓經堆疊且接合，晶粒(及其等之塊)對準。在堆疊時，不同晶片上之類神經網路加速器塊可透過無線通信(即，使用TCI技術之電感性耦合)或透過垂直互連件(諸如矽穿孔(TSV))彼此通信地耦合。接著，堆疊晶圓切割成晶粒堆疊，其等係類神經網路加速器。

各類神經網路加速器塊係自含型且可獨立地執行一多層類神經網路之一部分所要求之運算。一類神經網路加速器塊包含一處理元件(或處理器、處理器核心)、一記憶體及耦合至傳輸線圈之一環形匯流排。傳輸線圈可經組態以電感性地通信至堆疊於正上方或正下方之一鄰近塊之傳輸線圈。處理元件經組態以執行處理硬體中之類神經網路運算所要求之運算。舉例而言，處理元件可執行硬體中之一或多個類神經網路建置組塊運算，例如，矩陣乘法、啟動函數之運算、輪詢、正規化指數函數(softmax)或邏輯迴歸運算等等。美國專利申請案第15/335,769號中描述用於包含於一類神經網路加速器塊中之一處理元件之例示性架構，該案以引用的方式併入本文中。

在一類神經網路加速器之製造期間，類神經網路加速器晶片/晶粒依以便允許透過嵌入式類神經網路塊實現晶片之間之無線通信的一方式堆疊。類神經網路加速器塊藉由透過嵌入式傳輸線圈實現堆疊塊之間之無線通信而支援此三維擴縮。在一些實施方案中，堆疊塊之間之無線通信基於貫通晶片無線互連技術(2014年8月11日、Dave Ditzel之「Low-Cost 3D Chip Stacking with ThruChip Wireless Connections」中更詳細地描述貫通晶片無線互連技術)。舉例而言，傳輸線圈可係提供一TCI之一對環圈。在一些實施方案中，在類神經網路加速器塊之邏輯及/或記憶體區域上方運用一習知金屬氧化物半導體(CMOS)程序構造傳輸線圈。當一類神經網路加速器塊堆疊至其他塊上(即，各自晶粒/晶片被堆疊)時，TCI (線圈)允許資料發送至各自類神經網路加速器塊上方或下方之類神經網路加速器塊及/或從各自類神經網路加速器塊上方或下方之類神經網路加速器塊接收。在一些實施方案中，如圖2及圖3中展示，陣列中之至少一個塊位點經組態以從堆疊於正上方或正下方之一類神經網路晶片上之一各自塊位點接收無線傳輸且另一塊位點經組態以將無線傳輸發送至相同類神經網路晶片上之一各自塊位點。在一些實施方案中，如圖4中展示，陣列中之一個塊位點經組態以從堆疊於正上方或正下方之一類神經網路晶片上之一各自塊位點接收無線傳輸且將無線傳輸發送至堆疊於正上方或正下方之一類神經網路晶片上之一各自塊位點。

一類神經網路加速器晶片亦包含非核心內之其他晶片上電路，諸如用以將資料耦合進入及離開塊陣列之I/O介面電路、用以提供時脈信號至塊之處理元件之時脈分佈電路及其他介面及控制功能等等。舉例而言，一介面可係至一主機電腦。此一介面可在一三維堆疊中之全部晶片上複製或介面可被委託給採用經由TCI耦合至三維堆疊之一不同處理節點的一第二晶片。

一類神經網路加速器晶片可根據透過一靜態互連系統形成之一序列在各塊之間投送資料。舉例而言，資料可在靜態互連系統中之一個運算塊處接收、經處理，且接著塊之輸出發送至靜態互連系統內之序列中之一下一塊且由其接收。接著，下一塊處理所接收輸入。由序列中之各塊重複此程序。

圖1A係一例示性類神經網路加速器塊100之一方塊圖。例示性塊100包含一處理元件110、環形匯流排120、傳輸線圈130、TCI接收器142及TCI發射器140。可在一相似類神經網路加速器陣列內之一晶圓上製造類神經網路加速器塊100。類神經網路加速器陣列可包含於晶圓上之一製造晶粒中。塊處理器元件(或處理器核心) 110可包含功能單元、記憶體、一資料路徑及控制邏輯，其等用於執行計算及控制功能。在一些實施方案中，在類神經網路加速器塊100之處理元件110 (即，邏輯及/或記憶體區域)上方製造傳輸線圈130以最大化面積節省。

環形匯流排120表示塊100組件(諸如處理元件110、傳輸線圈130、TCI接收器142及TCI發射器140)之互連以及相同晶粒內(即，相同塊陣列內)製造之其他類神經網路加速器之間之互連。在一些實施方案中，環形匯流排120係連接一陣列內之塊以在一定向二分圖(其中藉由一個輸入及一個輸出頂點表示各處理塊且其中處理單元係將輸入連接至輸出之邊緣)中形成一哈密頓(Hamiltonian)電路的各自類神經網路晶片上之一平面嵌入式環形匯流排之一部分。對於環形匯流排120，可藉由將某些輸出連接至某些輸入之多個邊緣表示可能多工器組態。在一些實施方案中，為促成一線性系列塊作為平面嵌入之部分，環形匯流排120在一側進入塊100且在相對側離開塊100。

如上文中描述，塊100係可包含於一類神經網路加速器晶片上之一相似塊陣列內的一個別運算單元。在一些實施方案中，塊100可通信地耦合至一或多個鄰近塊，其等可經堆疊以在一三維堆疊類神經網路加速器內形成一靜態互連系統。採用堆疊塊以跨三維堆疊類神經網路加速器分佈一類神經網路之運算。舉例而言，各塊100與一或多個鄰近塊(即，處於上方或下方且無線地連接之塊或透過平面環形匯流排連接之一類神經網路晶片上之相同塊陣列內之塊)通信以形成靜態互連系統。互連系統可經組態使得處理塊係涵蓋三維堆疊之運算資源之一或多個環形匯流排(諸如環形匯流排120)之部分。此一組態允許有效地利用一三維晶片堆疊中之塊且提供在應用要求之情況下將運算資源重新組織為多個環之可撓性。

傳輸線圈130嵌入在塊100中且提供TCI連接，其等由各自TCI接收器142接收且由各自TCI發射器140發射。傳輸線圈130採用使用磁場之電感性耦合來實現(舉例而言)三維地堆疊於各自塊上方或下方之其他塊100之傳輸線圈130之間的近場無線通信。實現之近場無線通信提供三維堆疊類神經網路加速器晶片之間之數位邏輯互連。在一些實施方案中，一塊100可採用所建立近場無線通信來與三維堆疊中之塊100上方或下方之一鄰近塊通信。傳輸線圈130可如圖1A中展示般彼此偏離使得在兩個塊堆疊時，各自傳輸線圈不干擾其他線圈之間之傳輸。傳輸線圈130、TCI接收器142及TCI發射器140一起形成一TCI。此一TCI相對於塊100係小的，使得TCI連接所需之面積小於可比較TSV之面積。舉例而言，在具有低於20奈米(nm)之特徵大小之一當代程序節點中，超過每秒50千兆位元(Gb/s)之一頻寬係可實現的。實際速度限於工程考量，諸如功率及串行器/解串器(SERDES)邏輯之複雜性。舉例而言，TCI線圈大小取決於堆疊晶粒之厚度。當前減薄技術已證明針對在一側3乘2.6 mm或約8 mm之一線圈大小的2.6微米(µm)晶粒厚度。一更保守晶粒厚度將係4 mm，其中一線圈大小係近似12 mm。

舉例而言，一塊可具有1 mm乘1 mm之數量級且容納近似6000個TCI。具有一高頻寬設計之一塊100可包含覆蓋此塊面積之一大部分之若干TCI (傳輸線圈130、TCI接收器142及TCI發射器140)。舉例而言，一組TCI可以20 Gb/秒操作且需要近似50個TCI來從環形匯流排120發送資料且需要另外50個TCI來接收環形匯流排120之資料。

具有一中等頻寬設計之一塊包含覆蓋塊面積之一較小部分的若干TCI。舉例而言，晶粒厚度可增大至近似15 mm且塊100可包含近似20個至30個TCI。在此一實例中，傳輸線圈130可具有一45 mm側長度且產生近似400個可能TCI位點。可將TCI放置成一1 mm乘1 mm塊(其中TCI發射器140及TCI接收器142兩者接近塊之介面側且以小於10 Gb/秒運行)之一邊緣之一半上的一線性列。圖4中描繪一例示性中等頻寬設計組態。

在一些實施方案中，塊100包含一平面環形匯流排之一部分120。平面環形匯流排可通信地耦合一類神經網路晶片上之陣列中之各塊。環形匯流排具有近似2000個導線，其等從一個塊運行至下一塊(即，點對點)且各自攜載介於每秒0.25至0.5千兆位元(Gb/s)之間之一頻寬。環形匯流排寬度係組成環形匯流排之導線之數目。舉例而言，一晶片上之各塊在近似2000個導線上發送資料且具有從前一塊傳入之另一組近似2000個導線。

在此等實施方案中，塊100之一TCI之傳訊速率可介於20至40 Gb/s之間。在一些實施方案中，TCI可以一高速率運行以節省電力，此係因為歸因於恆定電流切換，發射器汲取獨立於實際資料速率之恆定數量之電力。線圈大小依據個別晶粒厚度而變化。塊100可減薄至介於2.6微米與10微米之間。此對應於12至30微米之一TCI線圈邊緣長度或三倍的晶片間距離。

對於一高頻寬設計而言，可使用厚度之上限範圍(10 mm)處之一塊厚度、一快速傳訊速率及一低多工比率。對於一高頻寬設計之一些實施方案而言，塊100上之TCI可以環形匯流排速率發射或接收資料，但並非兩者兼有。在此等實施方案中，一頻寬假設可使用(每塊可用近似6000個TCI之)較大數目個TCI使得一個塊上存在足夠空間以供足夠TCI發射或接收等效於一個環形匯流排連接之頻寬。圖2及圖3中描繪例示性高頻寬設計組態。

圖1B係一塊100之一抽象表示之一方塊圖。圖1B中之塊100之抽象表示包含處理元件110及藉由一圓圈150表示之一組TCI。用於塊100之該組TCI 150包含來自圖1A之傳輸線圈130、TCI接收器142及TCI發射器140。

圖1C係一塊100之另一抽象表示之一方塊圖。圖1C中之塊100之抽象表示包含處理元件110、藉由圓圈150表示之兩組TCI及多工器160。用於塊100之該組TCI 150包含分組為兩個不同組之來自圖1A之傳輸線圈130、TCI接收器142及TCI發射器140。多工器160控管哪一TCI組發射且哪一TCI組接收且藉由(舉例而言)一組態暫存器靜態地控制。如上文中提及，一個塊之可能TCI位點之數目可能相當大(近似6000個)，因此兩個圓圈之各者表示經組態為發射器或接收器之一組TCI(與圖1B之符號體系一致)。圖2至圖5中使用圖1B及圖1C中之抽象表示。

圖2圖解說明具有兩個類神經網路加速器晶片220及222之一例示性三維堆疊類神經網路加速器200。描繪兩個晶片之一堆疊；然而，可使用任何數目個晶片(層)。類神經網路加速器晶片220及222包含類神經網路加速器塊100，其包含一個TCI組(如圖1B中展示)。在描繪之實例中，類神經網路加速器晶片220及222在相同定向上放置於彼此之上，使得用於各各自類神經網路加速器晶片220及222之環形匯流排(240、242)平行且在相同方向上運行。TCI資料連接232使用如上文中描述之電感性耦合透過鄰近塊100提供加速器晶片220與222之間之通信。交越點230係使用TCI資料連接232來在網路加速器晶片220與222之間路由環形匯流排240及242的位置。藉由將環形匯流排240及242拼接至涵蓋網路加速器晶片220及222兩者之全部塊100之一個環而創建交越點230。一個環通信地耦合類神經網路加速器晶片220及222兩者之塊100。在描繪之實例中，展示一單對TCI資料連接232；然而，可使用類神經網路加速器晶片220與222之間形成之任何數目對TCI資料連接232。可參與一垂直資料交換之各對塊具有連接此等塊(交越點230)之兩組導線，其可能要求使導線數量加倍(即，4000個而非2000個)。

圖3圖解說明具有兩個類神經網路加速器晶片320及322之一例示性三維堆疊類神經網路加速器300。描繪兩個晶片之一堆疊；然而，可使用任何數目個晶片(層)。類神經網路加速器晶片320及322包含類神經網路加速器塊100，其包含一個TCI組(如圖1B中展示)。在描繪之實例中，類神經網路加速器晶片320及322放置在彼此之上但具有相對於彼此旋轉180度之定向。類似於圖2，TCI資料連接332使用電感性耦合透過鄰近塊100提供加速器晶片320與322之間之通信。

在描繪之實例中，在平面環形匯流排340及342嵌入上具有一些較小約束(例如，避免旋轉對稱佈局)之情況下，旋轉類神經網路加速器晶片320及322導致各自環形匯流排340及342在交越位點330處沿相反方向運行。即使當兩個晶片在堆疊時旋轉180度時，所揭示之設計中之TCI位點之位置之約束仍允許TCI之垂直對準。另外，圖3中描繪之佈局減輕一個晶片在交越位點330處具有兩組環形匯流排導線(如圖2中描繪)以攜載資料訊務而另一晶片不使用任何導線。此組態可降低佈線成本，佈線成本可能超過實施一環形匯流排交越之多工器之成本。另外，圖3中之佈局可減少路由開銷。在描繪之實例中，展示一單對TCI資料連接332；然而，可在類神經網路加速器晶片320與322之間形成任何數目對TCI資料連接332。此一設計允許形成在一些應用中可能需要之多個獨立環。

圖4圖解說明具有兩個類神經網路加速器晶片420及422之一例示性三維堆疊類神經網路加速器400。描繪兩個晶片之一堆疊；然而，可使用任何數目個晶片(層)。類神經網路加速器晶片420及422包含類神經網路加速器塊100，其包含兩個TCI組(如圖1C中展示)。在描繪之實例中，類神經網路加速器晶片420及422放置在彼此之上且以相同定向堆疊。TCI資料連接432建立在一對鄰近塊100中之TCI組之間且使用如上文中描述之電感性耦合透過兩個鄰近塊100提供加速器晶片420與422之間之通信。藉由在塊100中採用兩個TCI組，交越局限於僅一個塊位點。此組態可減輕對長導線跨越整個塊之需求。代替地，所描繪加速器400可在控制多工器且控管哪一TCI組發射且哪一TCI組接收的塊組態中採用一對稱破缺位元。在描繪之實例中，展示使用一單對塊來形成TCI資料連接432；然而，可使用類神經網路加速器晶片420與422之間形成之任何數目對TCI資料連接432。

圖5圖解說明具有用於一高頻寬設計之一垂直環形匯流排實施方案之例示性三維堆疊類神經網路加速器500。描繪之實例展示晶片之間具有TCI連接542及544之三個堆疊類神經網路加速器晶片510、520及530。TCI連接542在晶片510上之塊位點512與晶片520上之塊位點524之間。TCI連接544在晶片520上之塊位點522與晶片530上之塊位點532之間。在描繪之例示性情況中，各塊位點512、522、524及532形成使共用相同塊位置之全部堆疊晶片上之全部塊互連之一個垂直環形匯流排(即，各行塊連接為一個環)。各堆疊晶片510、520及530相對於堆疊中之前一晶片旋轉達90度。環形匯流排連接透過堆疊形成一雙線螺旋。頂部(或底部)反映環形匯流排以閉合環。在一些實施方案中，兩個處理塊組合成此行之一個虛擬塊使得至少一個處理塊在向上的途中橫越且另一處理塊在向下的途中橫越。為獨立於堆疊中之晶片數目而控制環中之塊數目，組成一個垂直螺旋之虛擬塊可將較大(偶數)數目個塊處理器分組。在描繪之實例中，底層510可包含至一主機電腦及/或一環形匯流排控制器之一介面，而組成堆疊之剩餘部分之晶片係純塊陣列。此一配置提供額外基於TCI之垂直匯流排，其等可用於同時將控制信號廣播至全部塊，從而避免與跨一晶片一直運行一導線相關聯之延遲。在一些實施方案中，環可在控制器塊510上拼接在一起以創建具有更多塊之更長環。此一組態提供動態改變控制器與塊比率。在描繪之實例中，採用短路平面518、528及538來防止來自TCI線圈之干擾超越下一晶片。在一些實施方案中，短路平面518、528及538係一固體金屬平面或一密集格柵，其可用於縮短TCI之範圍而不在整個製程中造成一顯著成本增加。

雖然本說明書含有許多特定實施方案細節，但此等不應解釋為對任何發明內容之範疇或對可主張之內容之範疇之限制，而係解釋為可能特定於特定發明內容之特定實施例之特徵之描述。本說明書中在不同實施例之背景內容中描述之某些特徵亦可在一單一實施例中組合實施。相反地，在一單一實施例之背景內容中描述之各種特徵亦可在多個實施例中分別或以任何適合次組合實施。此外，儘管特徵在上文中可描述為以某些組合起作用且甚至最初照此主張，然來自一主張組合之一或多個特徵在一些情況中可從組合刪除，且主張組合可能針對一次組合或一次組合之變化例。

類似地，雖然在圖式中以一特定順序描繪操作，但此不應理解為要求以展示之特定順序或以循序順序執行此等操作，或執行全部圖解說明操作，以達成所要結果。在某些情境中，多任務及並行處理可係有利的。此外，上文中描述之實施例中之各種系統模組及組件之分離不應理解為在全部實施例中要求此分離，且應瞭解，描述之程式組件及系統通常可一起整合於一單一軟體產品中或封裝成多個軟體產品。

已描述標的之特定實施例。其他實施例在以下發明申請專利範圍之範疇內。舉例而言，發明申請專利範圍中敘述之動作可按一不同順序執行且仍達成所要結果。作為一個實例，附圖中描繪之程序不一定要求展示之特定順序，或循序順序，以達成所要結果。在某些實施方案中，多任務及並行處理可係有利的。

在以下實例中概述進一步實施方案：

實例1：一種三維類神經網路加速器，其包括：一第一類神經網路加速器塊，其包括一第一傳輸線圈；及一第二類神經網路加速器塊，其包括一第二傳輸線圈，其中該第一類神經網路加速器塊鄰近該第二類神經網路加速器塊且與該第二類神經網路加速器塊垂直地對準，其中該第一傳輸線圈經組態以經由電感性耦合與該第二傳輸線圈建立無線通信，且其中該第一類神經網路加速器塊及該第二類神經網路加速器塊經組態以藉由透過該建立之無線通信形成包含提供一不可中斷資料流之一通信方案之一靜態互連系統而使一類神經網路之運算加速度。

實例2：實例1之三維類神經網路加速器，其中該第一類神經網路加速器塊包含於一第一類神經網路加速器晶片上之一第一塊陣列中，且其中該第二類神經網路加速器塊包含於一第二類神經網路加速器晶片上之一第二塊陣列中。

實例3：實例1或2之三維類神經網路加速器，其中該第一傳輸線圈進一步經組態以透過近場無線通信在該第一類神經網路加速器塊與該第二類神經網路加速器塊之間提供一數位邏輯互連。

實例4：實例1至3中一項之三維類神經網路加速器，其中該第一傳輸線圈進一步包括一貫通晶片介面(TCI)接收器及一TCI發射器，其中該TCI接收器經組態以從該第二傳輸線圈接收無線通信，且其中該TCI發射器經組態以將無線通信傳輸至該第二傳輸線圈。

實例5：實例4之三維類神經網路加速器，其中該第一類神經網路加速器塊進一步包括一處理元件及一環形匯流排，其中該處理元件、該第一傳輸線圈、該TCI接收器及該TCI發射器可透過該環形匯流排通信地連接。

實例6：實例5之三維類神經網路加速器，其中該處理元件包含用以執行硬體中之類神經網路運算的電路。

實例7：實例1至6中一項之三維類神經網路加速器，其中該第一傳輸線圈進一步經組態以與該第二傳輸線圈建立一貫通晶片介面(TCI)連接以形成一垂直環形匯流排。

實例8：實例1至7中一項之三維類神經網路加速器，其中該第一類神經網路加速器塊進一步包括一短路平面以防止來自其他傳輸線圈之干擾。

實例9：實例1至8中一項之三維類神經網路加速器，其中該第一類神經網路加速器塊相對於該第二類神經網路加速器塊旋轉180度。

實例10：實例1至9中一項之三維類神經網路加速器，其中該第一類神經網路加速器塊及該第二類神經網路加速器塊定向相同。

實例11：一種用於製造一類神經網路加速器之方法，該方法包括：將一第一類神經網路加速器塊堆疊成鄰近一第二類神經網路加速器塊且與一第二類神經網路加速器塊垂直地對準，其中該第一類神經網路加速器塊包括一第一傳輸線圈，其中該第二類神經網路加速器塊包括一第二傳輸線圈，其中該第一傳輸線圈經組態以經由電感性耦合與該第二傳輸線圈無線地通信，且其中該第一類神經網路加速器塊及該第二類神經網路加速器塊經組態以藉由透過無線通信形成包含提供一不可中斷資料流之一通信方案之一靜態互連系統而使一類神經網路之運算加速度。

實例12：實例11之方法，其中該第一類神經網路加速器塊包含於一第一類神經網路加速器晶片上之一第一塊陣列中，且其中該第二類神經網路加速器塊包含於一第二類神經網路加速器晶片上之一第二塊陣列中。

實例13：實例11或12之方法，其中該第一傳輸線圈進一步經組態以透過近場無線通信在該第一類神經網路加速器塊與該第二類神經網路加速器塊之間提供一數位邏輯互連。

實例14：實例11至13之方法，其中該第一傳輸線圈進一步包括一貫通晶片介面(TCI)接收器及一TCI發射器，其中該TCI接收器經組態以從該第二傳輸線圈接收無線通信，且其中該TCI發射器經組態以將無線通信傳輸至該第二傳輸線圈。

實例15：實例14之方法，其中該第一類神經網路加速器塊進一步包括一處理元件及一環形匯流排，其中該處理元件、該第一傳輸線圈、該TCI接收器及該TCI發射器可透過該環形匯流排通信地連接。

實例16：實例15之方法，其中該處理元件包含用以執行硬體中之類神經網路運算的電路。

實例17：實例11至16中一項之方法，其中該第一傳輸線圈進一步經組態以與該第二傳輸線圈建立一貫通晶片介面(TCI)連接以形成一垂直環形匯流排。

實例18：實例17之方法，其中該第二類神經網路加速器塊相對於該第一類神經網路加速器塊旋轉90度，且其中該垂直環形匯流排形成穿透該堆疊之一雙線螺旋。

實例19：實例11至18中一項之方法，其中該第一類神經網路加速器塊進一步包括一短路平面以防止來自其他傳輸線圈之干擾。

實例20：實例11至19中一項之方法，其中該第一類神經網路加速器塊相對於該第二類神經網路加速器塊旋轉180度。

100:類神經網路加速器塊 110:處理元件/塊處理器元件/處理器核心 120:環形匯流排 130:傳輸線圈 140:貫通晶片介面(TCI)發射器 142:貫通晶片介面(TCI)接收器 150:圓圈 160:多工器 200:三維堆疊類神經網路加速器 220:類神經網路加速器晶片 222:類神經網路加速器晶片 230:交越點 232:貫通晶片介面(TCI)資料連接 240:環形匯流排 242:環形匯流排 300:三維堆疊類神經網路加速器 320:類神經網路加速器晶片 322:類神經網路加速器晶片 330:交越位點 332:貫通晶片介面(TCI)資料連接 340:環形匯流排 342:環形匯流排 400:三維堆疊類神經網路加速器 420:類神經網路加速器晶片 422:類神經網路加速器晶片 432:貫通晶片介面(TCI)資料連接 500:三維堆疊類神經網路加速器 510:類神經網路加速器晶片/底層/控制器塊 512:塊位點 518:短路平面 520:類神經網路加速器晶片 522:塊位點 524:塊位點 528:短路平面 530:類神經網路加速器晶片 532:塊位點 538:短路平面 542:貫通晶片介面(TCI)連接 544:貫通晶片介面(TCI)連接

圖1A至圖1C係一例示性類神經網路加速器塊之方塊圖。

圖2圖解說明具有兩個類神經網路加速器晶片之一例示性三維堆疊類神經網路加速器。

圖3圖解說明具有兩個類神經網路加速器晶片之另一例示性三維堆疊類神經網路加速器。

圖4圖解說明具有兩個類神經網路加速器晶片之又另一例示性三維堆疊類神經網路加速器。

圖5圖解說明具有用於一中等頻寬設計之一垂直環形匯流排實施方案之一例示性三維堆疊類神經網路加速器。

各個圖式中之相同元件符號及名稱指示相同元件。

100:類神經網路加速器塊

200:三維堆疊類神經網路加速器

220:類神經網路加速器晶片

222:類神經網路加速器晶片

230:交越點

232:貫通晶片介面(TCI)資料連接

240:環形匯流排

242:環形匯流排

Claims

一種三維類神經(neural)網路加速器，其包括：一第一塊陣列(array of tiles)，該第一塊陣列包含一第一類神經網路加速器塊，該第一類神經網路加速器塊包括一第一傳輸線圈；及一第二塊陣列，該第二塊陣列包含一第二類神經網路加速器塊，該第二類神經網路加速器塊包括一第二傳輸線圈，其中該第一塊陣列及該第二塊陣列之每一塊係一自含型(self-contained)組件，其可獨立地執行該三維類神經網路加速器之運算，且其中該第一塊陣列及該第二塊陣列經組態以執行一類神經網路之一運算，其係透過於該第一類神經網路加速器塊之該第一傳輸線圈與該第二類神經網路加速器塊之該第二傳輸線圈之間建立無線通信，而形成包含經組織為透過該第一塊陣列及該第二塊陣列之一線性處理序列(linear sequence of processing)之一通信方案之一靜態互連系統。
如請求項1之三維類神經網路加速器，其中該第一類神經網路加速器塊鄰近該第二類神經網路加速器塊且與該第二類神經網路加速器塊垂直地對準。
如請求項1之三維類神經網路加速器，其中該通信方案經組態以提供一不可中斷資料流。
如請求項1之三維類神經網路加速器，其中該第一傳輸線圈經組態以經由電感性耦合與該第二傳輸線圈建立無線通信。
如請求項1之三維類神經網路加速器，進一步包含一控制器，其具有一或多個功能塊，其中該線性處理序列於該控制器中執行開始或結束之至少一者。
如請求項5之三維類神經網路加速器，其中該一或多個功能塊經組態以處理以下至少一者：(i)一主機電腦之輸入/輸出(I/O)、(ii)晶片外記憶體之介面、(iii)I/O裝置之連接，或(iv)執行同步、協調及/或緩衝功能。
如請求項1之三維類神經網路加速器，進一步包含一交越連接(crossover connection)，其經組態以使用該無線通信，控制該第一塊陣列與該第二塊陣列之間的資料流方向。
如請求項7之三維類神經網路加速器，其中一交越點係藉由將各個平面環形匯流排拼接(stitching)至該第一塊陣列與該第二塊陣列而形成。
如請求項1之三維類神經網路加速器，其中線性處理序列係透過該第一塊陣列及該第二塊陣列。
如請求項1之三維類神經網路加速器，其中該第一傳輸線圈進一步經組態以透過近場無線通信在該第一類神經網路加速器塊與該第二類神經網路加速器塊之間提供一數位邏輯互連。
如請求項1之三維類神經網路加速器，其中該第一塊陣列與該第二塊陣列之各者包含一處理元件及一記憶體。
如請求項11之三維類神經網路加速器，其中該第一傳輸線圈進一步包括一貫通晶片介面(TCI)接收器及一TCI發射器，其中該TCI接收器經組態以從該第二傳輸線圈接收無線通信，且其中該TCI發射器經組態以將無線通信傳輸至該第二傳輸線圈。
如請求項12之三維類神經網路加速器，其中該第一類神經網路加速器塊進一步包括一環形匯流排，其中該第一類神經網路加速器塊之該處理元件、該第一傳輸線圈、該TCI接收器及該TCI發射器可透過該環形匯流排通信地連接。
如請求項1之三維類神經網路加速器，其中該第一傳輸線圈進一步經組態以與該第二傳輸線圈建立一貫通晶片介面(TCI)連接以形成一垂直環形匯流排。
如請求項1之三維類神經網路加速器，其中該第一類神經網路加速器塊進一步包括一短路平面，其經組態以縮短該無線通信之範圍，以防止來自其他傳輸線圈之干擾。
如請求項1之三維類神經網路加速器，進一步包含：一第一類神經網路加速器晶片，其包含該第一塊陣列；及一第二類神經網路加速器晶片，其包含該第二塊陣列，其中該第一類神經網路加速器晶片相對於該第二類神經網路加速器晶片旋轉180度。
如請求項1之三維類神經網路加速器，進一步包含：一第一類神經網路加速器晶片，其包含該第一塊陣列；及一第二類神經網路加速器晶片，其包含該第二塊陣列，其中該第一類神經網路加速器晶片及該第二類神經網路加速器晶片定向相同。
一種用於製造一三維類神經網路加速器之方法，該方法包括：堆疊一第一類神經網路加速器晶片與一第二類神經網路加速器晶片，其中該第一類神經網路加速器晶片包括一第一塊陣列，該第一塊陣列包含一第一類神經網路加速器塊，其中該第二類神經網路加速器晶片包括一第二塊陣列，該第二塊陣列包含一第二類神經網路加速器塊，其中該第一塊陣列及該第二塊陣列之各塊係一自含型組件，其可獨立地執行類神經網路加速器之運算，其中該第一類神經網路加速器塊包括一第一傳輸線圈，其中該第二類神經網路加速器塊包括一第二傳輸線圈，且其中該第一塊陣列及該第二塊陣列經組態以加速一類神經網路之運算，其係透過該第一類神經網路加速器塊之該第一傳輸線圈與該第二類神經網路加速器塊之該第二傳輸線圈之間建立無線通信，而形成包含經組織為透過該第一塊陣列及該第二塊陣列之一線性處理序列之一通信方案之一靜態互連系統。
如請求項18之方法，其中該第一類神經網路加速器塊鄰近該第二類神經網路加速器塊且與該第二類神經網路加速器塊對準。
如請求項18之方法，其中該通信方案經組態以提供一不可中斷資料流。
如請求項18之方法，其中該第一傳輸線圈經組態以經由電感性耦合與該第二傳輸線圈建立無線通信。
如請求項18之方法，其中該線性處理序列開始及結束於具有一或多個功能塊之一控制器中。
如請求項22之方法，其中該一或多個功能塊經組態以處理以下至少一者：(i)一主機電腦之輸入/輸出(I/O)、(ii)晶片外記憶體之介面、(iii)I/O裝置之連接，或(iv)執行同步、協調及/或緩衝功能。
如請求項18之方法，進一步包含建立一交越連接，其經組態以使用該無線通信，控制該第一塊陣列與該第二塊陣列之間的資料流方向。
如請求項24之方法，其中一交越點係藉由將各個平面環形匯流排拼接至該第一塊陣列與該第二塊陣列而形成。
如請求項18之方法，其中線性處理序列係透過該第一塊陣列及該第二塊陣列。
如請求項18之方法，其中該第一傳輸線圈進一步經組態以透過近場無線通信在該第一類神經網路加速器塊與該第二類神經網路加速器塊之間提供一數位邏輯互連。
如請求項18之方法，其中該第一塊陣列與該第二塊陣列之各者包含一處理元件及一記憶體。
如請求項28之方法，其中該第一傳輸線圈進一步包括一貫通晶片介面(TCI)接收器及一TCI發射器，其中該TCI接收器經組態以從該第二傳輸線圈接收無線通信，且其中該TCI發射器經組態以將無線通信傳輸至該第二傳輸線圈。
如請求項29之方法，其中該第一類神經網路加速器塊進一步包括一環形匯流排，其中該第一類神經網路加速器塊之該處理元件、該第一傳輸線圈、該TCI接收器及該TCI發射器可透過該環形匯流排通信地連接。
如請求項18之方法，其中該第一傳輸線圈進一步經組態以與該第二傳輸線圈建立一貫通晶片介面(TCI)連接以形成一垂直環形匯流排。
如請求項18之方法，其中該第一類神經網路加速器塊進一步包括一短路平面，其經組態以縮短該無線通信之範圍。
如請求項18之方法，其中該第一類神經網路加速器晶片相對於該第二類神經網路加速器晶片旋轉180度。
如請求項18之方法，其中該第一類神經網路加速器晶片及該第二類神經網路加速器晶片定向相同。