TWI814618B - 矩陣運算裝置及其操作方法 - Google Patents

矩陣運算裝置及其操作方法 Download PDF

Info

Publication number
TWI814618B
TWI814618B TW111139781A TW111139781A TWI814618B TW I814618 B TWI814618 B TW I814618B TW 111139781 A TW111139781 A TW 111139781A TW 111139781 A TW111139781 A TW 111139781A TW I814618 B TWI814618 B TW I814618B
Authority
TW
Taiwan
Prior art keywords
matrix
weight
weights
column
input data
Prior art date
Application number
TW111139781A
Other languages
English (en)
Other versions
TW202418113A (zh
Inventor
林泂良
阮郁善
周煥然
Original Assignee
創鑫智慧股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 創鑫智慧股份有限公司 filed Critical 創鑫智慧股份有限公司
Priority to TW111139781A priority Critical patent/TWI814618B/zh
Priority to CN202211566152.9A priority patent/CN117917655A/zh
Priority to US18/076,407 priority patent/US20240232286A9/en
Application granted granted Critical
Publication of TWI814618B publication Critical patent/TWI814618B/zh
Publication of TW202418113A publication Critical patent/TW202418113A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/16Handling requests for interconnection or transfer for access to memory bus
    • G06F13/1668Details of memory controller
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/491Computations with decimal numbers radix 12 or 20.
    • G06F7/498Computations with decimal numbers radix 12 or 20. using counter-type accumulators
    • G06F7/4983Multiplying; Dividing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/50Adding; Subtracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/52Multiplying; Dividing
    • G06F7/523Multiplying only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/544Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
    • G06F7/5443Sum of products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/76Arrangements for rearranging, permuting or selecting data according to predetermined rules, independently of the content of the data
    • G06F7/78Arrangements for rearranging, permuting or selecting data according to predetermined rules, independently of the content of the data for changing the order of data flow, e.g. matrix transposition or LIFO buffers; Overflow or underflow handling therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Complex Calculations (AREA)
  • Structure Of Telephone Exchanges (AREA)
  • Vehicle Body Suspensions (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

本發明提供一種矩陣運算裝置以及用於矩陣運算裝置的操作方法。矩陣運算裝置包括儲存單元、控制電路以及運算電路。儲存單元包括權重矩陣。控制電路依據輸出矩陣的矩陣形狀來對權重矩陣中的多個權重的排列順序進行重新定序以確定出所述多個權重的權重讀出順序。運算電路基於權重讀出順序來接收所述多個權重,並對所述多個權重以及輸入資料矩陣進行矩陣運算以產生運算矩陣。控制電路對運算矩陣進行維度轉換以產生輸出矩陣,並且將輸出矩陣寫入至儲存單元。

Description

矩陣運算裝置及其操作方法
本發明是有關於一種運算裝置用於運算裝置的操作方法,且特別是有關於一種矩陣運算裝置用於矩陣運算裝置的操作方法。
圖1是矩陣乘法運算的示意圖。圖1示出矩陣MA、MB。矩陣MA是具有M個列(row)以及K個行(column)的矩陣。矩陣MB是具有K個列以及N個行的矩陣。因此,矩陣MA乘以矩陣MB會產生具有M個列以及N個行的矩陣MP。
應注意的是,基於矩陣乘法,矩陣MA、MB的向量方向彼此不同。也就是說,矩陣MB中的元素值的讀取順序與矩陣MA中的元素值的讀取順序並不相同。一般來說,矩陣的元素值的排列順序是優先完成元素列的排列。一旦矩陣運算裝置完成單一元素列的排列,矩陣運算裝置會進行下一元素列的排列。矩陣的元素值的讀取順序是優先讀取元素列。然而,基於矩陣乘法,矩陣MB的元素值的讀取順序是優先讀取元素行。一旦矩陣運算裝置完 成單一元素行的排列,矩陣運算裝置會進行下一元素行的排列。
矩陣運算裝置利用額外的轉置(transpose)工具(如電路或演算法)來對矩陣MB進行轉置運算。因此,矩陣運算裝置的成本會增加。
本發明提供一種能夠免於轉置運算的矩陣運算裝置以及操作方法。
本發明的矩陣運算裝置包括儲存單元、控制電路以及運算電路。儲存單元包括權重矩陣。控制電路耦接於儲存單元。控制電路依據輸出矩陣的矩陣形狀來對權重矩陣中的多個權重的排列順序進行重新定序以確定出所述多個權重的權重讀出順序。權重讀出順序不同於權重矩陣中的所述多個權重的排列順序。運算電路耦接於控制電路。運算電路基於權重讀出順序來接收所述多個權重,並對所述多個權重以及輸入資料矩陣進行矩陣運算以產生運算矩陣。控制電路對運算矩陣進行維度轉換以產生輸出矩陣,並且將輸出矩陣寫入至儲存單元。
本發明的操作方法用於矩陣運算裝置。矩陣運算裝置包括儲存單元以及運算電路。操作方法包括:依據輸出矩陣的矩陣形狀來對儲存單元的權重矩陣中的多個權重的排列順序進行重新定序以確定出所述多個權重的權重讀出順序,其中權重讀出順序不同於權重矩陣中的所述多個權重的排列順序;由運算電路基於 權重讀出順序來接收所述多個權重,並對所述多個權重以及輸入資料矩陣進行矩陣運算以產生運算矩陣;以及對運算矩陣進行維度轉換以產生輸出矩陣,並且將輸出矩陣寫入至儲存單元。
基於上述,矩陣運算裝置以及操作方法依據輸出矩陣的矩陣形狀來對權重矩陣中的多個權重的排列順序進行重新定序以確定出所述多個權重的權重讀出順序。運算電路基於權重讀出順序來對所述多個權重以及輸入資料矩陣進行矩陣運算以產生運算矩陣。應注意的是,權重讀出順序改變了運算矩陣的元素排列順序。運算矩陣的元素排列順序有助於在進行維度轉換時就實現了轉置效果。因此,矩陣運算裝置並不需要利用額外的轉置工具來對矩陣進行轉置運算。也因此,本發明的矩陣運算裝置的運行成本並不會被增加。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
100:矩陣運算裝置
110:儲存單元
120:控制電路
130、230:運算電路
231(1)~231(N):乘積累加電路
AD:加法器
CH(1)~CH(N):通道
E1~EN、E11~ETS:運算元素值
IN1~INM:輸入元素值
MA、MB、MP:矩陣
MC:運算矩陣
MI:輸入資料矩陣
MO:輸出矩陣
MT:轉置矩陣
MU:乘法器
MV:乘積值
MW:權重矩陣
ORD:權重讀出順序
RO1:第1讀出列
RO2:第2讀出列
RO3:第3讀出列
RON:第N讀出列
RO(S+1):第(S+1)讀出列
RG:暫存器
S100:操作方法
S110~S130:步驟
W11~WNM:權重
圖1是矩陣乘法運算的示意圖。
圖2是依據本發明一實施例所繪示的矩陣運算裝置的示意圖。
圖3是依據本發明一實施例所繪示的矩陣運算的示意圖。
圖4A是現行的矩陣運算的簡易範例示意圖。
圖4B是依據本發明一實施例所繪示的矩陣運算的簡易範例示意圖。
圖5是依據本發明一實施例所繪示的運算電路的電路示意圖。
圖6是依據本發明一實施例所繪示的操作方法的示意圖。
本發明的部份實施例接下來將會配合附圖來詳細描述,以下的描述所引用的元件符號,當不同附圖出現相同的元件符號將視為相同或相似的元件。這些實施例只是本發明的一部份,並未揭示所有本發明的可實施方式。更確切的說,這些實施例只是本發明的專利申請範圍中的範例。
請參考圖2,圖2是依據本發明一實施例所繪示的矩陣運算裝置的示意圖。在本實施例中,矩陣運算裝置100包括儲存單元110、控制電路120以及運算電路130。儲存單元110包括權重矩陣MW。在本實施例中,權重矩陣MW例如是具有N個列以及M個行的二維矩陣(本發明並不以此為限)。權重矩陣MW包括權重W11~WNM。在本實施例中,儲存單元110可以是由本領域技術人員所熟知的記憶體元件來實現。
在本實施例中,控制電路120耦接於儲存單元110。控制電路120依據輸出矩陣MO的矩陣形狀來對權重W11~WNM的排列順序進行重新定序(re-order)以確定出權重W11~WNM的權重讀出 順序ORD。輸出矩陣MO例如是具有T個列以及S個行的二維矩陣(本發明並不以此為限)。在本實施例中,S、T分別是大於1的正整數。
在本實施例中,在權重W11~WNM被寫入儲存單元110的過程中,權重W11~WNM是優先以列方式被寫入。也就是說,權重W11~W1M被依序寫入至權重矩陣MW的第一列。接下來,權重W21~W2M被依序寫入至權重矩陣MW的第二列,依此類推。因此,在權重矩陣MW的行方向上,權重W11~W1M、權重W21~W2M、...、權重WN1~WNM依序排列。透過重新定序,權重W11~WNM的權重讀出順序ORD不同於權重矩陣MW中的權重W11~WNM的排列順序。舉例來說,控制電路120可能基於權重讀出順序ORD先讀出權重W11~W1M,接著讀出權重W31~W3M,隨後讀出權重W21~W2M
在本實施例中,運算電路130耦接於控制電路120。運算電路130基於權重讀出順序ORD來接收權重W11~WNM。因此,在行方向上,運算電路130所接收到的權重W11~WNM的列順序不同於權重矩陣MW中的權重W11~WNM的列順序。運算電路130還接收輸入資料矩陣MI,並對權重W11~WNM以及輸入資料矩陣MI進行矩陣運算以產生運算矩陣MC。在本實施例中,輸入資料矩陣MI例如是具有M個列以及1個行的一維矩陣(本發明並不以此為限)。因此,輸入資料矩陣MI包括輸入元素值IN1~INM。運算電路130對權重W11~WNM以及輸入資料矩陣MI進行矩陣乘法運算以產生運算矩陣MC。因此,運算矩陣MC是具有N個列以及1 個行的一維矩陣(本發明並不以此為限)。運算矩陣MC包括運算元素值E1~EN
控制電路120對運算矩陣MC進行維度轉換(reshape)以產生輸出矩陣MO。控制電路120將輸出矩陣MO寫入至儲存單元110。控制電路120會增加運算矩陣MC的維度以產生輸出矩陣MO。在本實施例中,控制電路120會將運算矩陣MC的維度從一維轉換為二維,從而產生輸出矩陣MO。控制電路120例如依序讀出運算元素值E1~EN,並將運算元素值E1~EN優先以列方式依序寫入至輸出矩陣MO。因此,矩陣MO包括運算元素值E11~ETS。應能理解的是,運算元素值E11等於E1。運算元素值ETS等於EN
在此值得一提的是,控制電路120依據輸出矩陣MO的矩陣形狀來對權重矩陣MW中的權重W11~WNM的排列順序進行重新定序以確定出權重W11~WNM的權重讀出順序ORD。運算電路130基於權重讀出順序ORD來對權重W11~WNM以及輸入資料矩陣MI進行矩陣運算以產生運算矩陣MC。應注意的是,權重讀出順序ORD改變了運算矩陣MC的運算元素值E1~EN的排列順序。運算元素值E1~EN的排列順序有助於在進行維度轉換時就實現了轉置效果。如此一來,矩陣運算裝置100並不需要利用額外的轉置工具來對運算矩陣MC或輸出矩陣MO進行轉置運算。矩陣運算裝置100的運行成本並不會被增加。
在本實施例中,控制電路120可以是由邏輯電路、記憶體控制器、輸入/輸出緩衝器(I/O buffer)或中央處理單元(CPU) 來實施。在本實施例中,運算電路130可適用於類神經網路(neural network,NN)的矩陣運算。
在一些實施例中,輸入資料矩陣MI可以是由外部裝置來提供。在一些實施例中,輸入資料矩陣MI可以是由儲存單元110來提供。
為了便於說明,權重矩陣MW以二維陣列來示例。輸入資料矩陣MI以一維陣列來示例。然本發明並不以此為限。在一些實施例中,權重矩陣MW可以是多列且單行的一維陣列。輸入資料矩陣MI以可以是二維陣列。
請同時參考圖2以及圖3,圖3是依據本發明一實施例所繪示的矩陣運算裝置的示意圖。在本實施例中,權重矩陣MW包括多個權重列。第1權重列包括權重W11~W1M。第2權重列包括權重W21~W2M。第(T+1)權重列包括權重W(T+1)1~W(T+1)M。第(2T+1)權重列包括權重W(2T+1)1~W(2T+1)M。同理可推,第N權重列包括權重WN1~WNM。控制電路120依據輸出矩陣MO的行數以及列數以交錯(interleave)方式來確定出權重W11~WNM的權重讀出順序ORD。
在本實施例中,輸出矩陣MO例如是具有T個列以及S個行的二維矩陣。控制電路120會將權重矩陣MW的第1權重列作為第1讀出列RO1,並將權重矩陣MW的第(nT+1)權重列作為第(n+1)讀出列RO(n+1)。n小於S。控制電路120將權重矩陣MW的第2權重列作為第(S+1)讀出列RO(S+1),並將權重矩陣MW的 第(nT+2)權重列作為第(S+n+1)讀出列(未示出)。因此,基於權重讀出順序ORD所產生的讀出矩陣MW’被形成。換言之,控制電路120依據權重讀出順序ORD將權重矩陣MW轉換為讀出矩陣MW’。第1讀出列RO1包括權重W11~W1M。第2讀出列RO2包括權重W(T+1)1~W(T+1)M(即,n=1)。第3讀出列RO3包括權重W(2T+1)1~W(2T+1)M(即,n=2)。第(S+1)讀出列RO(S+1)包括權重W21~W2M
運算電路130基於權重讀出順序ORD所接收到的權重W11~WNM的排列等同於讀出矩陣MW’的態樣。運算電路130會對讀出矩陣MW’以及輸入資料矩陣MI進行乘法運算以產生運算矩陣MC。運算元素值E1會等於第1讀出列RO1的權重W11~W1M與輸入元素值IN1~INM的乘法累加(Multiply Accumulate)值。運算元素值E2會等於第2讀出列RO2的權重W21~W2M與輸入元素值IN1~INM的乘法累加值,依此類推。運算元素值E1、E2如分別如公式(1)、公式(2)所示
Figure 111139781-A0305-02-0010-1
Figure 111139781-A0305-02-0010-2
控制電路120接收運算矩陣MC,並將運算矩陣MC的維度從一維轉換二維以產生輸出矩陣MO。應注意的是,權重讀出順序ORD改變了運算矩陣MC的運算元素值E1~EN的排列順序。運算元素值E1~EN的排列順序有助於在進行維度轉換時就實現了轉置效果。
在一些實施例中,控制電路120會將讀出矩陣MW’儲存至儲存單元110。因此,在權重W11~WNM不被更新的情況下,控制電路120可讀取讀出矩陣MW’而不需執行重新定序的操作。在一些實施例中,讀出矩陣MW’以及權重矩陣MW分別被儲存在儲存單元110的不同區塊(segment)。在一些實施例中,當讀出矩陣MW’被儲存至儲存單元110時,讀出矩陣MW’會覆蓋權重矩陣MW。
舉例來說明,請同時參考圖4A以及圖4B,圖4A是現行的矩陣運算的簡易範例示意圖。圖4B是依據本發明一實施例所繪示的矩陣運算的簡易範例示意圖。圖4A示出了輸出矩陣MO的產生方式。在現行的矩陣運算中,權重矩陣MW會與輸入資料矩陣MI進行乘法運算以產生運算矩陣MC。因此,運算矩陣MC的運算元素值依序為“37”、“50”、“18”、“36”。經過維度轉換後,輸出矩陣MO的運算元素值同樣依序為“37”、“50”、“18”、“36”。應注意的是,當輸出矩陣MO被用於作為如圖1所示的矩陣MB時,輸出矩陣MO必須透過轉置運算以形成轉置矩陣MT,從而使運算元素值的排列改為“37”、“18”、“50”、“36”。輸出矩陣MO的產生已經涉及輸入元素值的接收。輸入元素值是類神經網路運作時所接收到的變數。因此,已完成的輸出矩陣MO的轉置運算是額外的矩陣運算。在類神經網路的應用中,輸出矩陣MO的轉置運算必須在類神經網路運作時進行。因此,輸出矩陣MO的轉置運算會耗費運算成本。
圖4B示出了本實施例的輸出矩陣MO的產生方式。在本實施例中,權重矩陣MW先被重新定序以產生讀出矩陣MW’。應注意的是,在類神經網路的應用中,權重是參數而不是變數。因此,權重矩陣MW的重新定序可以在離線(offline)狀態下完成。權重矩陣MW的重新定序可以不用在類神經網路運作時進行。也就是說,讀出矩陣MW’的產生並不會增加在類神經網路運作時的運算成本及功耗。讀出矩陣MW’會與輸入資料矩陣MI進行乘法運算以產生運算矩陣MC。因此,運算矩陣MC的運算元素值依序為“37”、“18”、“50”、“36”。經過維度轉換後,輸出矩陣MO的運算元素值同樣依序為“37”、“18”、“50”、“36”。圖4B所示的輸出矩陣MO等於如圖4A所示的轉置矩陣MT。也就是說,本實施例能夠增加權重矩陣MW的重新定序即可實現如圖4A輸出矩陣MO的轉置運算的結果。
請同時參考圖2、圖3以及圖5,圖5是依據本發明一實施例所繪示的運算電路的電路示意圖。在本實施例中,運算電路230包括乘積累加電路231(1)~231(N)。乘積累加電路231(1)~231(N)分別透過不同的通道耦接至控制電路120。乘積累加電路231(1)~231(N)分別透過不同的通道以接收權重矩陣MW的對應權重列。乘積累加電路231(1)透過通道CH(1)耦接至控制電路120。乘積累加電路231(2)透過通道CH(2)耦接至控制電路120。同理可推,乘積累加電路231(N)透過通道CH(N)耦接至控制電路120。
以本實施例為例,乘積累加電路231(1)透過通道CH(1) 接收對應權重列(即,第1讀出列RO1)。因此,乘積累加電路231(1)會透過通道CH(1)在依序接收權重W11~W1M,並且對權重W11~W1M以及輸入資料矩陣MI進行乘積累加運算(multiply-accumulate computing,MAC)以產生運算矩陣MC的運算元素值E1。乘積累加電路231(2)透過通道CH(2)接收對應權重列(即,第2讀出列RO2)。因此,乘積累加電路231(2)會透過通道CH(2)在依序接收權重W(T+1)1~W(T+1)M,並且對權重W(T+1)1~W(T+1)M以及輸入資料矩陣MI進行乘積累加運算以產生運算矩陣MC的運算元素值E2。同理,乘積累加電路231(N)會透過通道CH(N)在依序接收第N讀出列RON的權重WN1~WNM,並且對權重WN1~WNM以及輸入資料矩陣MI進行乘積累加運算以產生運算矩陣MC的運算元素值EN
以乘積累加電路231(1)為例,乘積累加電路231(1)包括乘法器MU、暫存器RG以及加法器AD。暫存器RG在第一時間儲存運算元素值E1。此時,運算元素值E1可以是初始值(例如是“0”)。乘法器MU耦接於通道CH(1)以及輸入資料矩陣MI。乘法器MU在第一時間接收權重W11以及輸入資料矩陣MI中的輸入資料IN1,並對權重W11以及輸入資料IN1進行乘法運算以產生乘積值MV。加法器AD在第一時間接收儲存於暫存器RG的運算元素值E1以及來自於乘法器MU的乘積值MV。加法器AD對運算元素值E1以及乘積值MV進行加法運算以產生新的運算元素值E1,並將新的運算元素值E1儲存至及暫存器RG。在第二時間,乘法器MU接收權重W12以及輸入資料矩陣MI中的輸入資料IN2,並 對權重W12以及輸入資料IN2進行乘法運算以產生新的乘積值MV。加法器AD接收新的乘積值MV以及在第一時間儲存於暫存器RG的運算元素值E1。加法器AD對運算元素值E1以及新的乘積值MV進行加法運算以產生新的運算元素值E1,依此類推。
在本實施例中,乘積累加電路231(2)~231(N)的電路配置相似於乘積累加電路231(1)的電路配置,故不在此重述。
請同時參考圖2以及圖6,圖6是依據本發明一實施例所繪示的操作方法的示意圖。操作方法S100適用於矩陣運算裝置100。操作方法S100包括步驟S110~S130。在步驟S110中,控制電路120依據輸出矩陣MO的矩陣形狀來對儲存單元110的權重矩陣MW中的權重W11~WNM的排列順序進行重新定序以確定出權重W11~WNM的權重讀出順序ORD。
在步驟S120中,運算電路130基於權重讀出順序ORD來接收權重W11~WNM,並對權重W11~WNM以及輸入資料矩陣MI進行矩陣運算以產生運算矩陣MC。
在步驟S130中,控制電路120對運算矩陣MC進行維度轉換以產生輸出矩陣MO,並且將輸出矩陣MO寫入至儲存單元110。步驟S110~S130的實施細節已經在圖1至圖5的實施例清楚說明,故不在此重述。
綜上所述,矩陣運算裝置以及操作方法依據輸出矩陣的矩陣形狀來對權重矩陣中的多個權重的排列順序進行重新定序以確定出所述多個權重的權重讀出順序。運算電路基於權重讀出順 序來對所述多個權重以及輸入資料矩陣進行矩陣運算以產生運算矩陣。權重讀出順序改變了運算矩陣的元素排列順序。運算矩陣的元素排列順序有助於在進行維度轉換時就實現了轉置效果。因此,矩陣運算裝置並不需要利用額外的轉置工具來對矩陣進行轉置運算。本發明的矩陣運算裝置的運行成本並不會被增加。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
100:矩陣運算裝置
110:儲存單元
120:控制電路
130:運算電路
E1~EN、E11~ETS:運算元素值
IN1~INM:輸入元素值
ORD:權重讀出順序
MC:運算矩陣
MI:輸入資料矩陣
MO:輸出矩陣
MW:權重矩陣
W11~WNM:權重

Claims (16)

  1. 一種矩陣運算裝置,包括: 儲存單元,包括權重矩陣; 控制電路,耦接於所述儲存單元,經配置以依據輸出矩陣的矩陣形狀來對所述權重矩陣中的多個權重的排列順序進行重新定序以確定出所述多個權重的權重讀出順序,其中所述權重讀出順序不同於所述排列順序;以及 運算電路,耦接於所述控制電路,經配置以基於所述權重讀出順序來接收所述多個權重,並對所述多個權重以及輸入資料矩陣進行矩陣運算以產生運算矩陣, 其中控制電路對所述運算矩陣進行維度轉換以產生所述輸出矩陣,並且將所述輸出矩陣寫入至所述儲存單元。
  2. 如請求項1所述的矩陣運算裝置,其中所述控制電路依據所述輸出矩陣的行數以及列數以交錯(interleave)方式來確定出所述多個權重的所述權重讀出順序。
  3. 如請求項2所述的矩陣運算裝置,其中: 所述輸出矩陣是具有T個列以及S個行的二維矩陣,其中S、T分別是大於1的正整數, 所述控制電路將所述權重矩陣的第1權重列作為第1讀出列,將所述權重矩陣的第(nT+1)權重列作為第(n+1)列,其中n小於S,並且 所述控制電路將所述權重矩陣的第2權重列作為第(S+1)列,並將所述權重矩陣的第(nT+2)權重列作為第(S+n+1)列。
  4. 如請求項1所述的矩陣運算裝置,其中所述運算電路包括: 多個乘積累加電路,分別透過不同對應通道耦接至所述控制電路,分別經配置以透過所述對應通道接收所述權重矩陣的對應權重列的權重。
  5. 如請求項4所述的矩陣運算裝置,其中所述多個乘積累加電路中的第一乘積累加電路透過所述第1通道接收所述第1權重列並接收所述輸入資料矩陣,並且對所述第1權重列以及所述輸入資料矩陣進行乘積累加運算以產生所述運算矩陣的第一運算元素值。
  6. 如請求項4所述的矩陣運算裝置,其中所述多個乘積累加電路各包括: 乘法器,耦接於所述對應通道以及所述輸入資料矩陣,經配置以在第一時間接收所述對應權重列的第一權重以及所述輸入資料矩陣的第一輸入資料,並對所述第一權重以及所述第一輸入資料進行乘法運算以產生乘積值; 暫存器,經配置以在所述第一時間儲存運算元素值;以及 加法器,耦接於所述乘法器以及所述暫存器,經配置以在所述第一時間接收儲存於所述暫存器的所述運算元素值以及來自於所述乘法器的所述乘積值,並將所述運算元素值以及所述乘積值進行加法運算以產生新運算元素值,並將所述新運算元素值儲存至及所述暫存器。
  7. 如請求項1所述的矩陣運算裝置,其中所述控制電路增加所述運算矩陣的維度以產生所述輸出矩陣。
  8. 如請求項1所述的矩陣運算裝置,其中所述控制電路依據所述權重讀出順序將所述權重矩陣轉換為讀出矩陣,並將所述讀出矩陣儲存至所述儲存單元。
  9. 一種用於矩陣運算裝置的操作方法,其中所述矩陣運算裝置包括儲存單元以及運算電路,所述操作方法包括: 依據輸出矩陣的矩陣形狀來對所述儲存單元的權重矩陣中的多個權重的排列順序進行重新定序以確定出所述多個權重的權重讀出順序,其中所述權重讀出順序不同於所述排列順序; 由所述運算電路基於所述權重讀出順序來接收所述多個權重,並對所述多個權重以及輸入資料矩陣進行矩陣運算以產生運算矩陣;以及 對所述運算矩陣進行維度轉換以產生所述輸出矩陣,並且將所述輸出矩陣寫入至所述儲存單元。
  10. 如請求項9所述的操作方法,其中依據所述輸出矩陣的所述矩陣形狀來對所述儲存單元的所述權重矩陣中的所述多個權重的排列順序進行重新定序以確定出所述多個權重的所述權重讀出順序的步驟包括: 依據所述輸出矩陣的行數以及列數以交錯(interleave)方式來確定出所述多個權重的所述權重讀出順序。
  11. 如請求項10所述的操作方法,其中所述輸出矩陣是具有T個列以及S個行的二維矩陣,其中S、T分別是大於1的正整數,其中依據所述輸出矩陣的所述矩陣形狀來對所述儲存單元的所述權重矩陣中的所述多個權重的排列順序進行重新定序以確定出所述多個權重的所述權重讀出順序的步驟包括: 將所述權重矩陣的第1權重列作為第1讀出列; 將所述權重矩陣的第(nT+1)權重列作為第(n+1)列,其中n小於S; 將所述權重矩陣的第2權重列作為第(S+1)列;以及 將所述權重矩陣的第(nT+2)權重列作為第(S+n+1)列。
  12. 如請求項10所述的操作方法,其中所述運算電路包括多個乘積累加電路,所述操作方法還包括: 由所述多個乘積累加電路分別透過不同對應通道接收所述權重矩陣的對應權重列的權重。
  13. 如請求項12所述的操作方法,其中所述輸出矩陣是具有T個列以及S個行的二維矩陣,其中S、T分別是大於1的正整數,其中由所述多個乘積累加電路分別透過不同對應通道接收所述對應權重列的權重的步驟包括: 由所述多個乘積累加電路中的第一乘積累加電路透過所述第1通道接收所述第1權重列並接收所述輸入資料矩陣;以及 由所述第一乘積累加電路對所述第1權重列以及所述輸入資料矩陣進行乘積累加運算以產生所述運算矩陣的第一運算元素值。
  14. 如請求項12所述的操作方法,其中所述多個乘積累加電路各包括乘法器、暫存器以及加法器,其中由所述多個乘積累加電路分別透過不同對應通道接收所述對應權重列的權重的步驟包括: 由所述乘法器在第一時間接收所述對應權重列的第一權重以及所述輸入資料矩陣的第一輸入資料,並對所述第一權重以及所述第一輸入資料進行乘法運算以產生乘積值; 由所述暫存器在所述第一時間儲存運算元素值;以及 由所述加法器在所述第一時間接收儲存於所述暫存器的所述運算元素值以及來自於所述乘法器的所述乘積值,並將所述運算元素值以及所述乘積值進行加法運算以產生新運算元素值,並將所述新運算元素值儲存至及所述暫存器。
  15. 如請求項10所述的操作方法,其中對所述運算矩陣進行維度轉換以產生所述輸出矩陣的步驟包括: 增加所述運算矩陣的維度以產生所述輸出矩陣。
  16. 如請求項9所述的操作方法,還包括: 依據所述權重讀出順序將所述權重矩陣轉換為讀出矩陣,並將所述讀出矩陣儲存至所述儲存單元。
TW111139781A 2022-10-20 2022-10-20 矩陣運算裝置及其操作方法 TWI814618B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW111139781A TWI814618B (zh) 2022-10-20 2022-10-20 矩陣運算裝置及其操作方法
CN202211566152.9A CN117917655A (zh) 2022-10-20 2022-12-07 矩阵运算装置及其操作方法
US18/076,407 US20240232286A9 (en) 2022-10-20 2022-12-07 Matrix computing device and operation method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW111139781A TWI814618B (zh) 2022-10-20 2022-10-20 矩陣運算裝置及其操作方法

Publications (2)

Publication Number Publication Date
TWI814618B true TWI814618B (zh) 2023-09-01
TW202418113A TW202418113A (zh) 2024-05-01

Family

ID=88966070

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111139781A TWI814618B (zh) 2022-10-20 2022-10-20 矩陣運算裝置及其操作方法

Country Status (3)

Country Link
US (1) US20240232286A9 (zh)
CN (1) CN117917655A (zh)
TW (1) TWI814618B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567241A (zh) * 2010-12-27 2012-07-11 北京国睿中数科技股份有限公司 存储器控制器及存储器访问控制方法
TW201346745A (zh) * 2011-12-30 2013-11-16 Intel Corp 轉置指令之技術
TW201947587A (zh) * 2017-02-17 2019-12-16 美商谷歌有限責任公司 在矩陣向量處理器中之排列
CN111859273A (zh) * 2017-12-29 2020-10-30 华为技术有限公司 矩阵乘法器
TWI746126B (zh) * 2020-08-25 2021-11-11 創鑫智慧股份有限公司 矩陣乘法裝置及其操作方法
CN113850380A (zh) * 2021-09-26 2021-12-28 安徽寒武纪信息科技有限公司 数据处理装置、数据处理方法及相关产品
CN114579929A (zh) * 2022-03-14 2022-06-03 海飞科(南京)信息技术有限公司 加速器执行的方法和电子设备
TW202232344A (zh) * 2019-12-23 2022-08-16 台灣積體電路製造股份有限公司 用於處理數據集的系統

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567241A (zh) * 2010-12-27 2012-07-11 北京国睿中数科技股份有限公司 存储器控制器及存储器访问控制方法
TW201346745A (zh) * 2011-12-30 2013-11-16 Intel Corp 轉置指令之技術
TW201947587A (zh) * 2017-02-17 2019-12-16 美商谷歌有限責任公司 在矩陣向量處理器中之排列
CN111859273A (zh) * 2017-12-29 2020-10-30 华为技术有限公司 矩阵乘法器
TW202232344A (zh) * 2019-12-23 2022-08-16 台灣積體電路製造股份有限公司 用於處理數據集的系統
TWI746126B (zh) * 2020-08-25 2021-11-11 創鑫智慧股份有限公司 矩陣乘法裝置及其操作方法
CN113850380A (zh) * 2021-09-26 2021-12-28 安徽寒武纪信息科技有限公司 数据处理装置、数据处理方法及相关产品
CN114579929A (zh) * 2022-03-14 2022-06-03 海飞科(南京)信息技术有限公司 加速器执行的方法和电子设备

Also Published As

Publication number Publication date
CN117917655A (zh) 2024-04-23
TW202418113A (zh) 2024-05-01
US20240232286A9 (en) 2024-07-11
US20240134931A1 (en) 2024-04-25

Similar Documents

Publication Publication Date Title
Haj-Ali et al. Efficient algorithms for in-memory fixed point multiplication using magic
EP3726399A1 (en) Matrix multiplier
US20220188604A1 (en) Method and Apparatus for Performing a Neural Network Operation
CN111796797B (zh) 一种利用ai加速器实现环上多项式乘法计算加速的方法和装置
JP7435602B2 (ja) 演算装置および演算システム
Wang et al. Solving large systems of linear equations over GF (2) on FPGAs
TW202203053A (zh) 記憶體電路及其操作方法
CN110673824A (zh) 矩阵向量乘电路以及循环神经网络硬件加速器
TWI814618B (zh) 矩陣運算裝置及其操作方法
WO2019206162A1 (zh) 计算装置和计算方法
CN112784951A (zh) Winograd卷积运算方法及相关产品
Katti et al. Low complexity multiplication in a finite field using ring representation
Singh et al. XCRYPT: Accelerating Lattice-Based Cryptography With Memristor Crossbar Arrays
JP5157484B2 (ja) 行列演算コプロセッサ
US11200948B1 (en) System for a flexible conductance crossbar
CN103765493B (zh) 数字平方计算机实现的方法和设备
US11435981B2 (en) Arithmetic circuit, and neural processing unit and electronic apparatus including the same
CN110889080B (zh) 乘积累加运算装置、乘积累加运算方法和系统
CN114706557B (zh) 一种asic芯片及蒙哥马利模乘的实现方法和装置
US20220012222A1 (en) Indexing Elements in a Source Array
Lee et al. Efficient subquadratic space complexity digit-serial multipliers over gf (2 m) based on bivariate polynomial basis representation
JP7023149B2 (ja) 半導体装置
TW202244794A (zh) 記憶體內計算巨集排列的方法、電腦可讀介質及電子裝置
WO2021212972A1 (zh) 运算方法、处理器以及相关产品
CN114237548A (zh) 基于非易失性存储器阵列的复数点乘运算的方法及系统