TWI709910B

TWI709910B - 處理資料之處理器及方法

Info

Publication number: TWI709910B
Application number: TW108130324A
Authority: TW
Inventors: 普雷薩德蘇許瑪宏納法拉
Original assignee: 美商葛如克公司
Priority date: 2018-08-24
Filing date: 2019-08-23
Publication date: 2020-11-11
Also published as: US10516383B1; KR102307805B1; EP3841670B1; KR20210037726A; US20200127646A1; WO2020041362A1; TW202018502A; EP3841670A1; US10778196B2

Abstract

本發明之實施例係關於減少在一處理器電路中之功率消耗。在一項實施例中，一處理器電路包括複數個資料儲存模組。該複數個資料儲存模組各包含具有每位元之一第一功率消耗之一或多個第一多位元正反器電路及具有每位元之一第二功率消耗之一或多個第二正反器電路。該等第一多位元正反器電路可比該等第二正反器電路具有更多位元。另外，每位元之該第一功率消耗可小於每位元之該第二功率消耗，使得當該等第一多位元正反器電路用於儲存以比儲存於該等第二正反器電路中之位元更高之一頻率改變之位元時，功率消耗減少。

Description

處理資料之處理器及方法

本發明係關於資料處理電路且特定言之，係關於減少一處理器電路中之功率。

資料處理器之一基本建置組塊係正反器。一正反器係可在對應於一二進位0或1之兩個狀態之一者中之一電子電路。因此，此等電路在處理器中廣泛地使用以儲存二進位資訊。圖1展示經組態以接收N個二進位資料值D0至DN，儲存二進位值且將值Q1至QN輸出至電路之另一部分之數個正反器100至103。如典型情況，正反器通常回應於一觸發信號(例如，一時脈)而同時接收新資料值D0至DN。

在資料處理電路中，使用正反器來儲存資料係普遍的。現代處理器電路可包含數十萬、數百萬或數千萬個正反器。然而，每次一正反器改變狀態(其中輸出自低變換至高)，正反器便消耗功率。按比例跨一整個處理器，正反器可消耗大量能量。在使用正反器來執行密集資料計算之處理器(諸如(例如)人工智慧處理器)中尤其如此。

本發明提供具有減少之功率消耗之處理器之經改良架構。

以下詳細描述及隨附圖式提供本發明之性質及優點之一更佳理解。

100:正反器

101:正反器

102:正反器

103:正反器

200:資料處理器電路

210:單位元正反器電路(SBFF)

211:單位元正反器電路(SBFF)

212:M位元多位元正反器電路(MBFF)

213:N位元多位元正反器電路(MBFF)

250:資料儲存模組/資料模組

310:多位元正反器電路(MBFF)

311:多位元正反器電路(MBFF)

312:單位元正反器電路(SBFF)

313:多位元正反器電路(MBFF)

314:單位元正反器電路(SBFF)

315:單位元正反器電路(SBFF)

350:資料儲存模組

410:多位元正反器電路(MBFF)

411:單位元正反器電路(SBFF)

412:多位元正反器電路(MBFF)

413:多位元正反器電路(MBFF)

450:資料儲存模組

510:多位元正反器電路(MBFF)

511:多位元正反器電路(MBFF)

512:單位元正反器電路(SBFF)

513:2位元多位元正反器電路(MBFF)

514:單位元正反器電路(SBFF)

515:單位元正反器電路(SBFF)

550A:資料儲存模組組態

550B:資料儲存模組組態

610:4位元多位元正反器電路(MBFF)

611:4位元多位元正反器電路(MBFF)

612:1位元單位元正反器電路(SBFF)

613:4位元多位元正反器電路(MBFF)

614:4位元多位元正反器電路(MBFF)

615:4位元多位元正反器電路(MBFF)

650:資料儲存模組

710:4位元多位元正反器電路(MBFF)

711:4位元多位元正反器電路(MBFF)

712:1位元單位元正反器電路(SBFF)

713:4位元多位元正反器電路(MBFF)

714:4位元多位元正反器電路(MBFF)

715:1位元單位元正反器電路(SBFF)

750:資料儲存模組

810:4位元多位元正反器電路(MBFF)

811:4位元多位元正反器電路(MBFF)

813:4位元多位元正反器電路(MBFF)

814:2位元多位元正反器電路(MBFF)

850:資料儲存模組

900:機器學習處理器

910:向量處理器(VxM)

911:記憶體

912:記憶體

913:開關矩陣(SxM)

914:開關矩陣(SxM)

915:資料格式及呈現控制器(NIM)

916:資料格式及呈現控制器(NIM)

917:矩陣乘法單元(MxM)

918:矩陣乘法單元(MxM)

920:指令控制單元(ICU)

921:外部通信電路

922:晶片控制單元(CCU)

923:晶片對晶片(C2C)電路

924:晶片對晶片(C2C)電路

D0至DN:二進位資料值

Q0至QN:值

圖1繪示一典型正反器電路。

圖2繪示根據一項實施例之一資料儲存模組。

圖3繪示根據一項實施例之一例示性資料儲存模組。

圖4繪示根據一項實施例之另一例示性資料儲存模組。

圖5繪示根據一項實施例之另一例示性資料儲存模組。

圖6繪示根據一項實施例之一例示性21位元格式資料儲存模組。

圖7繪示根據一項實施例之一例示性18位元格式資料儲存模組。

圖8繪示根據一項實施例之一例示性138位元格式資料儲存模組。

圖9繪示根據一項實施例之一例示性機器學習處理器。

在以下描述中，為了解釋目的，闡述數個實例及具體細節以便提供本發明之一透徹理解。此等實例及細節不應解釋為對發明申請專利範圍之元件或所主張標的物作為一整體進行不適當的限制。基於不同請求項之語言，對於熟習此項技術者將顯而易見，所主張標的物可單獨或組合地包含此等實例中之特徵之一些或全部，且可進一步包含本文中描述之特徵及技術之修改及等效物。

本發明之特徵及優點包含可在一處理器電路中使用以減少功率消耗之一資料儲存模組。在一項實施例中，一資料儲存模組經組態以將不同類型之資料位元儲存在不同正反器電路中。不同正反器電路可在其等轉變(例如，自邏輯0或接地轉變至邏輯1或一電力供應電壓)時消耗不同功率。有利地，以一較高頻率轉變之資料位元可儲存於消耗較少功率(例如，且可較緩慢)之正反器電路中，且以一較低頻率轉變之資料位元可儲存於消耗較多功率(例如，但可較快速)之正反器電路中。例如，儲存於消耗較多功率之正反器中之資料位元可在一算數運算電路之一關鍵信號處理路徑中。可在一資料儲存模組中組態此等正反器電路及位元指派，且可跨一處理器電路部署資料儲存模組以減少操作期間由處理器消耗之功率。

圖2繪示根據一項實施例之一資料儲存模組。一資料處理器電路200可具有針對廣泛各種應用跨晶片實施(例如)以達成經改良功率效能之數個資料儲存模組。在250處繪示一例示性資料儲存模組。例如，各資料儲存模組可包括經設計以(例如，在轉變時)每位元使用較少功率之多位元正反器電路(MBFF)，及可快於MBFF但每位元比MBFF消耗更多功率之一或多個單位元正反器電路(SBFF)。更具體言之，例示性SBFF可包含掃描電路及一時脈緩衝器。針對MBFF結構，例如，在一2位元及4位元情況中，可跨「正反器元件」共用掃描電路。此外，在一MBFF中亦可共用時脈緩衝器。因此，MBFF胞區域及功率消耗可低於一SBFF。另外，例如，MBFF胞區域針對一4位元MBFF可比針對一2位元MBFF更低。

資料模組250繪示可根據各項實施例組合以最佳化功率效能之SBFF及MBFF之各種組合。例如，資料模組250包含SBFF 210及211、一M位元MBFF 212及一N位元MBFF 213。MBFF 213可用於儲存以比儲存於其他正反器電路中之位元更高之一頻率改變之位元。當以一較高頻率改變之位元儲存於消耗較少功率之一MBFF中，且以一較低頻率改變之位元儲存於消耗較多功率之一MBFF中時，跨處理器電路之功率消耗減少。在此處僅為了闡釋性目的展示兩個SBFF 210及211以及兩個MBFF 212及213。應理解，可針對儲存不同數目個位元及/或不同類型之位元之資料模組使用SBFF及MBFF之其他組合。

圖2進一步繪示不同位元長度MBFF可用於進一步最佳化功率消耗。例如，一SBFF可在轉變時每位元比一MBFF消耗更多功率。然而，一M位元MBFF 212可經設計以在轉變時每位元比一N位元MBFF 213消耗更多功率，其中M及N係整數且N大於M。例如，一四位元MBFF可在轉變時比一二位元MBFF消耗更少功率。因此，較高階MBFF(例如，N位元MBFF)可與較低階正反器(例如，M位元MBFF或SBFF)組合以跨各種資料儲存模組變體靈活地達成減少之功率消耗，例如，其中較高階MBFF具有小於較低階MBFF之每位元之功率消耗之每位元之一功率消耗，且較低階MBFF具有小於SBFF之每位元之功率消耗之每位元之一功率消耗，且例如，其中較高階MBFF儲存可以高於儲存於較低階MBFF中之位元更高之一頻率改變之位元，且較低階MBFF儲存可以高於儲存於SBFF中之位元更高之一頻率改變之位元。

圖3繪示根據一項實施例之一例示性資料儲存模組。在此實例中，不同正反器電路可儲存不同類型之資料。在一項實施例中，一資料儲存模組350可具有對應於一或多個運算元之位元、一符號位元、狀態位元及零指示符位元(亦稱為，零偵測位元)。例如，一或多個MBFF 310及311可儲存一或多個運算元。例如，SBFF 312可儲存一8位元或16位元運算元之一符號位元。MBFF 313可儲存複數個狀態位元。此外，一些實施例可包含一或多個零指示符位元，在此實例中，該一或多個零指示符位元儲存於SBFF 314及315中。例如，當一對應運算元全部為零值時，零指示符位元可具有一第一狀態(例如，邏輯0)，且當對應運算元具有至少一個非零值時，零指示符位元可具有一第二狀態(例如，邏輯1)。在此實例中，在SBFF 314中之一第一零指示符位元可(例如)對應於儲存於資料儲存模組中之一個運算元，且(例如，當資料儲存模組儲存兩個運算元時)在SBFF 315中之第二零指示符位元可(例如)對應於資料儲存模組中之一第二運算元。替代地，當資料儲存模組僅儲存一個運算元時，一個零指示符位元可對應於一個運算元，且其他零指示符位元可未使用。在一些應用中，運算元可以高於符號位元、狀態位元及/或零指示符位元之一或多者之一頻率改變。因此，一些實施例可將運算元儲存在較高階MBFF中且將符號位元、狀態位元及/或零指示符位元儲存在較低階MBFF或SBFF中以在操作期間消耗更少功率。最低有效位元(LSB)可以高於最高有效位元(MSB)之一頻率改變。因此，例如，LSB可儲存於較高階MBFF中，且MSB可儲存於較低階MBFF或SBFF中。儲存於資料儲存模組350中之特定資料位元類型僅係實例。應理解，例如，可指派MBFF及SBFF之其他配置以儲存其他資料位元類型。圖4繪示資料儲存模組450之一變體，其中(例如)MBFF 410儲存一運算元，SBFF 411儲存一零指示符位元，MBFF 412儲存一運算元，且MBFF 413儲存狀態、符號及另一零指示符位元。

圖5繪示根據一項實施例之另一例示性資料儲存模組。本發明之另一態樣包含可係用於替代地儲存不同長度運算元之多用途模組之資料儲存模組。例如，圖5繪示經組態以在模組550A中儲存兩個八位元運算元或在模組550B中儲存一個十六位元運算元之一個例示性多用途資料儲存模組。資料儲存模組組態550A可在MBFF 510(例如，兩個4位元MBFF)中儲存一第一八位元運算元且在MBFF 511(例如，另外兩個4位元MBFF)中儲存一第二八位元運算元。資料儲存模組組態550A可進一步在SBFF 512中儲存一符號位元，在一2位元MBFF 513中儲存狀態位元且在SBFF 514及515中儲存兩個零指示符位元。替代地，資料儲存模組可如550B中展示般經組態以在MBFF 510/511(例如，四個4位元MBFF)中儲存一個16位元運算元。例如，資料儲存模組組態550B可進一步在SBFF 512中儲存一符號位元，在一2位元MBFF 513中儲存狀態位元且在SBFF 514中儲存一個零指示符位元，其中針對此組態，SBFF 515可未使用。

圖6繪示根據一項實施例之一例示性21位元格式資料儲存模組650。在此實例中，4位元MBFF 610儲存位元3：0，4位元MBFF 611儲存位元7：4，一1位元SBFF 612儲存一第一零偵測位元(位元8)，4位元MBFF 613儲存位元12：9，4位元MBFF 614儲存位元16：13，且4位元MBFF 615儲存位元20：17。在此實例中，位元8及20係零偵測位元，其等以比剩餘位元遠更低之一頻率改變。位元17-19係亦較不頻繁地改變之狀態位元。然而，例如，由於位元20-17可在一個4位元MBFF中經分組，故本實例有利地減少用於實現電路之區域。在此實例中，例如，位元0：7被一起使用且位元9：20被不同地使用，因此本組態可最佳化區域及功率消耗。

圖7繪示根據一項實施例之一例示性18位元格式資料儲存模組750。在此實例中，4位元MBFF 710儲存位元3：0，4位元MBFF 711儲存位元7：4，一1位元SBFF 712儲存一第一零偵測位元(位元8)，4位元MBFF 713儲存位元12：9，4位元MBFF 714儲存位元16：13，且1位元SBFF 715儲存一第二零偵測位元(位元17)。

圖8繪示根據一項實施例之一例示性138位元格式資料儲存模組850。在此實例中，4位元MBFF 810儲存位元3：0，4位元MBFF 811儲存位元7：4等等至儲存位元135：132之4位元MBFF 813及儲存位元137：136之2位元MBFF 814。在此實例中，位元137：136係最高有效位元，其等統計上較不頻繁地轉變。此實例之一個問題係138不可由4整除，但136可。接著，可將最後2個剩餘位元降低至一2位元MBFF。

圖9繪示根據一項實施例之一例示性機器學習處理器。機器學習處理器900(亦稱為，人工智慧(AI)處理器)可包含記憶體及經最佳化以將輸入資料與權重集(例如，經訓練或正在經訓練)相乘及相加用於機器學習應用(例如，訓練或推斷)之算數單元。例如，機器學習處理器900包含用於對向量(即，值之一維陣列)執行運算之一向量處理器(VxM)910。系統之其他元件在VxM 910之任一側上對稱地配置以最佳化處理速度。例如，VxM 910鄰近記憶體911及912、用於控制資料之路由之開關矩陣(SxM)913及914、資料格式及呈現控制器(NIM)915及916以及一矩陣乘法單元(MxM)917及918。一指令控制單元(ICU)920控制(例如)跨區塊910至918之資料之流動及運算之執行。機器學習處理器900包含命令電路，諸如晶片對晶片(C2C)電路923至924及一外部通信電路(例如，PCIe)921。例如，處理器900可進一步包含一晶片控制單元(CCU)922以控制開機操作、時脈重設及其他低位準設置操作。

在一機器學習處理器中，速度及功率消耗折衷可與在一典型微處理器架構中不相同，此係因為一機器學習處理器可執行遠更多算數運算(諸如向量及矩陣乘法)。因此，相較於一典型微處理器，上文描述之本發明之實施例可導致功率消耗之出乎意料的大減少。在一項實施例中，資料儲存模組可跨機器學習處理器900實施於廣泛各種應用中以減少功率消耗。例如，根據上文描述之實施例之資料儲存模組可在(例如)MxM及VxM單元中廣泛地使用以減少晶片之功率消耗。有利地，一旦經實施，處理器便可經分析以判定位元在何處切換較頻繁或較不頻繁。基於使用統計資料，例如，資料儲存模組可經修改以(例如)藉由使以一較高頻率改變之位元與MBFF相關聯且使較不頻繁改變及/或在一關鍵處理路徑中之位元與較低階MBFF或SBFF相關聯而減少功率消耗。對一資料儲存模組定義之一改變(例如)可引起資料儲存模組之全部例項跨整個處理器改變，因此使功率消耗之減少傳播及倍增。

上文描述繪示本發明之各項實施例以及可如何實施特定實施例之態樣之實例。上文之實例不應被視為唯一實施例，且經呈現以繪示如由以下發明申請專利範圍定義之特定實施例之靈活性及優點。基於上文之揭示內容及以下發明申請專利範圍，可採用其他配置、實施例、實施方案及等效物而不脫離如由發明申請專利範圍定義之本發明之範疇。

200:資料處理器電路

210:單位元正反器電路(SBFF)

211:單位元正反器電路(SBFF)

212:M位元多位元正反器電路(MBFF)

213:N位元多位元正反器電路(MBFF)

250:資料儲存模組

Claims

一種處理資料之處理器，其包括：複數個資料儲存模組，該複數個資料儲存模組各包括：一或多個第一多位元正反器電路，其等具有每位元之一第一功率消耗；及一或多個第二正反器電路，其等具有每位元之一第二功率消耗；其中該等第一多位元正反器電路之各者比該等第二正反器電路之各者具有更多位元，其中每位元之該第一功率消耗小於每位元之該第二功率消耗，且其中該等第一多位元正反器電路用於儲存以比儲存於該等第二正反器電路中之位元更高之一頻率改變之位元。
如請求項1之處理器，其中該等第二正反器電路係第二多位元正反器電路，其中該等資料儲存模組進一步包括具有每位元之一第三功率消耗之複數個單位元正反器電路，其中每位元之該第二功率消耗小於每位元之該第三功率消耗，且其中該等第二多位元正反器電路用於儲存以比儲存於該複數個單位元正反器電路中之位元更高之一頻率改變之位元。
如請求項2之處理器，其中該等資料儲存模組係用於儲存兩個八位元運算元或一個十六位元運算元之多用途模組，其中該等第一多位元正反器電路包括用於儲存該兩個八位元運算元或該一個十六位元運算元之四個四位元多位元正反器電路，且其中各資料儲存模組包括該複數個單位元正反器電路之用於儲存一第一零指示符位元或一第二零指示符位元之一者之至少一個單位元正反器電路。
如請求項3之處理器，其中：當該等資料儲存模組儲存兩個八位元運算元時，該第一零指示符位元對應於一第一八位元運算元且該第二零指示符位元對應於一第二八位元運算元；當該等資料儲存模組儲存一十六位元運算元時，該第一零指示符位元對應於該十六位元運算元，且該第二零指示符位元未使用；且當對應運算元全部為零值時，各零指示符位元具有一第一狀態，且當該對應運算元具有至少一個非零值時，各零指示符位元具有一第二狀態。
如請求項1之處理器，其中該等第二正反器電路之一或多者中之第一位元係在一算數運算電路之一關鍵處理路徑中。
如請求項1之處理器，其中該處理器係一機器學習處理器。
如請求項6之處理器，其中該機器學習處理器包括一或多個矩陣乘法單元，且其中該一或多個矩陣乘法單元包括複數個該等資料儲存模組。
如請求項6之處理器，其中該機器學習處理器包括一或多個向量乘法單元，且其中該一或多個向量乘法單元包括複數個該等資料儲存模組。
一種處理資料之處理器，其包括：複數個資料儲存模組，該複數個資料儲存模組各包括：第一構件，其用以儲存複數個位元，該第一構件具有每位元之一第一功率消耗；及第二構件，其用以儲存一或多個位元，該第二構件具有每位元之一第二功率消耗；其中每位元之該第一功率消耗小於每位元之該第二功率消耗，且其中該第一構件儲存以比儲存於該第二構件中之位元更高之一頻率改變之位元。
如請求項9之處理器，其中該第一構件係用於儲存運算元之複數個第一多位元正反器電路且該第二構件係用於儲存零指示符位元之一或多個第二多位元正反器電路或單位元正反器電路。
一種處理資料之方法，其包括：將資料儲存在一處理器上之複數個資料儲存模組中，其中將資料儲存在該複數個資料儲存模組之各者中包括：將資料儲存在具有每位元之一第一功率消耗之一或多個第一多位元正反器電路中；及將資料儲存在具有每位元之一第二功率消耗之一或多個第二正反器電路中；其中該等第一多位元正反器電路之各者比該等第二正反器電路之各者儲存更多位元，其中每位元之該第一功率消耗小於每位元之該第二功率消耗，且其中該等第一多位元正反器電路用於儲存以比儲存於該等第二正反器電路中之位元更高之一頻率改變之位元。
如請求項11之方法，其中該處理器係包括一矩陣乘法單元或向量乘法單元之一或多者之一機器學習處理器，且其中該矩陣乘法單元或該向量乘法單元包括複數個該等資料儲存模組。
如請求項11之方法，其中該等第二正反器電路係第二多位元正反器電路，其中方法進一步包括將資料儲存在具有每位元之一第三功率消耗之複數個單位元正反器電路中，其中每位元之該第二功率消耗小於每位元之該第三功率消耗，且其中該等第二多位元正反器電路用於儲存以比儲存於該複數個單位元正反器電路中之位元更高之一頻率改變之位元。
如請求項13之方法，其中該等資料儲存模組係用於儲存兩個八位元運算元或一個十六位元運算元之多用途模組，其中該等第一多位元正反器電路包括用於儲存該兩個八位元運算元或該一個十六位元運算元之四個四位元多位元正反器電路，且其中各資料儲存模組包括該複數個單位元正反器電路之用於儲存一第一零指示符位元或一第二零指示符位元之一者之至少一個單位元正反器電路。
如請求項14之方法，其中：當該等資料儲存模組儲存兩個八位元運算元時，該第一零指示符位元對應於一第一八位元運算元且該第二零指示符位元對應於一第二八位元運算元；當該等資料儲存模組儲存一十六位元運算元時，該第一零指示符位元對應於該十六位元運算元，且該第二零指示符位元未使用；且當對應運算元全部為零值時，各零指示符位元具有一第一狀態，且當該對應運算元具有至少一個非零值時，各零指示符位元具有一第二狀態。
如請求項11之方法，其中該等第二正反器電路之一或多者中之第一位元係在一算數運算電路之一關鍵處理路徑中。