WO2020084723A1 - 演算処理装置及び演算処理装置の制御方法 - Google Patents
演算処理装置及び演算処理装置の制御方法 Download PDFInfo
- Publication number
- WO2020084723A1 WO2020084723A1 PCT/JP2018/039574 JP2018039574W WO2020084723A1 WO 2020084723 A1 WO2020084723 A1 WO 2020084723A1 JP 2018039574 W JP2018039574 W JP 2018039574W WO 2020084723 A1 WO2020084723 A1 WO 2020084723A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- bit
- arithmetic
- unit
- data
- state
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/499—Denomination or exception handling, e.g. rounding or overflow
Definitions
- the present invention relates to an arithmetic processing device and a control method for the arithmetic processing device.
- a neural network is a model of a nerve cell (neuron) on a computer.
- a nerve cell has a cell body, a dendrite that receives a signal input from another cell body, and an axon that outputs a signal to another cell body.
- a signal transmission structure called a synapse is formed between the end of the axon that outputs the signal and the dendrite that receives the signal.
- information transmission through synapses between nerve cells is modeled.
- the multilayer neural network tends to be large-scaled.
- the number of parameters processed by a multi-layer neural network ranges from several million to 100 million.
- the number of parameters will reach to hundreds of billions. Therefore, it is expected that the learning data in the deep learning will increase and the calculation load and the memory load in the multilayer neural network will increase in the future. Therefore, it is desired to improve the recognition performance and the learning efficiency for the ever-increasing learning data.
- the multilayer neural network be made lightweight.
- the operation using fixed-point numbers is used without using floating-point numbers. It is possible. This is because the fixed-point arithmetic can simplify the circuit configuration rather than the floating-point arithmetic.
- examples of data representations of data such as weights and parameters processed in deep learning include 32-bit floating point numbers, 16-bit fixed point numbers, and 8-bit fixed point numbers.
- a technique for deep learning using fixed point there is a conventional technique for dynamically specifying the decimal point position by acquiring statistics of the bit position distribution of data after the fixed point calculation. Further, there is a conventional technique for determining the decimal point position by the mask size at the time of the convolution operation when the convolution operation is performed by the fixed point operation. Further, there is a conventional technique in which an average value of the magnitudes of input signals is obtained, a decimal point position is determined, and fixed point arithmetic is performed.
- the arithmetic processing unit that executes the arithmetic cannot efficiently acquire the judgment material for reducing the deterioration of the arithmetic precision of the fixed-point arithmetic. Therefore, there is a possibility that the accuracy of the fixed-point number calculation cannot be improved efficiently. Further, even if the decision material for reducing the deterioration of the calculation accuracy of the fixed-point arithmetic is acquired efficiently, since many arithmetic units are used in deep learning, the wiring for collecting information from each arithmetic unit is enormous. May be. Therefore, the circuit mounting area may be increased, which makes mounting difficult.
- the disclosed technique is made in view of the above, and an object thereof is to provide an arithmetic processing device and a control method of the arithmetic processing device that suppress the circuit scale and improve the precision of fixed-point arithmetic.
- the arithmetic processing device and the control method of the arithmetic processing device disclosed in the present application it is possible to suppress the circuit scale and improve the precision of fixed-point arithmetic.
- FIG. 9 is a diagram illustrating a connection when the accumulator and the arithmetic unit are connected in a one-to-one manner.
- FIG. 10 is a diagram of an example of the configurations of the calculation unit and the statistical information acquisition unit according to the second embodiment.
- FIG. 11 is a diagram for explaining state management according to the second embodiment.
- FIG. 12 is a diagram for explaining an example of generation of significant digit position information according to the second embodiment.
- the server 3 is configured such that the Central Processing Unit (CPU) 31, the arithmetic processing unit 30, and the arithmetic processing unit memory 33 are connected by a bus 34 such as Peripheral Component Interconnect Express (PCIe), and the memory 32 is directly connected to the CPU 31.
- PCIe Peripheral Component Interconnect Express
- the arithmetic processing unit 30 is connected to a dedicated arithmetic processing unit memory 33, and executes arithmetic using the arithmetic processing unit memory 33.
- the arithmetic processing unit 30 is, for example, a PCI card.
- the state transition 44 occurs, and the state management units 220 to 227 send the signal having the value of 1 as the enable signal to the arithmetic units 200 to While outputting to 207, it transits to the execution state 42.
- the statistical information collection instruction is an instruction added to the data copy instruction from the accumulators AC0 to AC15 to the vector register of the register file 12.
- An enable signal having a value of 1 corresponds to a signal indicating validity.
- the arithmetic circuit 63 sets the values of the positions of the N ⁇ 4 + 0 to 3rd bits in the 40-bit data to LANE_INC [N * 4 + 0] to [N * 4 + 3]. As a result, the arithmetic circuit 63 generates a bit pattern obtained by setting "1" as a flag bit at each bit position in the range from the least significant bit position to the bit position of the most significant bit that is not coded. To do.
- the flag bit generators 240 to 247 are examples of the “bit pattern generator”.
- the signal path connecting the arithmetic units 200 to 207 and the flag bit generation units 240 to 247 is an example of the “second signal path”.
- the multiplexers 230 to 237 receive the input of the Low signal and select the storage value of the lower accumulator (step S5).
- the arithmetic units 310 to 325 and the accumulators AC0 to AC15 are paired in pairs.
- the statistical information collection instruction may be limited to a level at which there is no problem even if it is restricted, and the allowable issuance frequency of the statistical information collection instruction may be reduced to once every n cycles.
- the state management unit 220 determines the accumulators AC to AC3 to be selected by performing the state management shown in FIG.
- FIG. 11 is a diagram for explaining state management according to the second embodiment.
- ## 0 to ## 3 in the frame represent byte numbers of data processed by the accumulators AC0 to AC3.
- ## 0 to ## 3 in the frame described in each of the states 71 to 76 are byte numbers corresponding to at least the accumulators AC0 to AC3 that have not been selected at the time of transition to that state. For example, at the time of transition to the state 72, at least the selection of the accumulators AC1 and AC0 is not completed.
- the state management unit 220 maintains the state of the initial state 70 when no command is issued. Then, when an instruction other than the byte high instruction or the byte low instruction is issued in the initial state 70, the state transition 170 occurs. In this case, the state management unit 220 maintains the initial state 70 and outputs an enable signal having a value “0” indicating invalidity to the arithmetic unit 200.
- a state transition 171 occurs and the state management unit 220 transitions to the state 72.
- the state transition 172 occurs and the state management unit 220 transits to the state 75.
- the state management unit 220 When transitioning to the state 76, the state management unit 220 transmits to the multiplexer 230 a selection signal for selecting the accumulator AC0 that processes the byte of ## 0 in the leftmost frame described as the state 76. In the state 72, since both the byte low instruction and the byte high instruction have already been issued before 4 cycles, neither instruction is issued. Therefore, the state transition 178 occurs in the cycle next to the state 76 transition, and the state management unit 220 transits to the state 75.
- the state management unit 220 transmits to the multiplexer 230 a selection signal for selecting the accumulator AC0 that processes the byte of ## 0 in the frame described as the state 71.
- the state management unit 220 transits to the state 75.
- the state transition 181 occurs and the state management unit 220 transitions to the initial state 70.
- the occurrence of the state transition 181 means that the state management unit 220 has completed the selection of all the accumulators AC0 to AC3.
- the state management unit 220 transmits to the multiplexer 230 a selection signal for selecting the accumulator AC3 that processes the byte of ## 3 in the leftmost frame described as the state 75.
- the state 75 the byte high instruction has already been issued before 4 cycles, so the byte high instruction is not issued.
- the state transition 176 occurs and the state management unit 220 transits to the state 73.
- the state transition 180 occurs and the state management unit 220 transits to the state 74.
- the state management unit 220 When transitioning to the state 73, the state management unit 220 transmits to the multiplexer 230 a selection signal for selecting the accumulator AC2 that processes the byte of ## 2 in the leftmost frame described as the state 73. In the state 72, since both the byte low instruction and the byte high instruction have already been issued before 4 cycles, neither instruction is issued. Therefore, the state transition 177 occurs in the cycle next to the state 73, and the state management unit 220 transits to the state 72.
- the arithmetic unit 200 receives input of 24-bit data. Then, the arithmetic unit 200 compares the values of the adjacent bits of the input 24-bit data, outputs 1 if they are the same value, and outputs 0 if they are different values, so that the 23-bit data To generate.
- the flag bit generation units 240 to 247 convert the significant digit position information input from the arithmetic units 200 to 207 into a 24-bit bit pattern in which flag bits are set. Then, the flag bit generation units 240 to 247 use the generated bit pattern to perform addition processing to the digit registers AR0 to AR23 and update the counter to generate statistical information.
- the arithmetic core according to the present embodiment collects statistical information when performing a product-sum operation using 8-bit data and 8-bit data. Then, in the arithmetic core according to the present embodiment, four arithmetic units and accumulators are combined into one group, and one arithmetic unit collects information indicating effective digits. As a result, the accumulator and the arithmetic unit are connected by a quarter of the signal line as compared with the case where the accumulator and the arithmetic unit that collects the information indicating the significant digits are combined in a one-to-one manner. Further, the arithmetic unit transmits 5-bit information to the flag bit generation unit as information indicating the significant digit position.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Executing Machine-Instructions (AREA)
Abstract
複数の演算器(310~325)は、所定数毎に組にされ、固定小数点データに対する演算命令をそれぞれ実行する。マルチプレクサ(230~237)は、各組に対応して配置され、対応する組に含まれる各演算器(310~325)から演算結果を順番に取得する。フラグビット生成部(240~247)は、マルチプレクサ(230~237)により取得された演算結果の最下位ビット位置から最上位ビットと異なるビット値を持つビット位置のうちの最上位ビット位置又は最下位ビット位置までの範囲に対応するそれぞれのビット位置にフラグビットを設定することで得られるビットパターンを生成する。加算器(AD0~AD39)は、前記ビットパターン生成部により生成されたビットパターンを各ビット位置に対応する桁ごとに累積した統計情報を取得する。
Description
本発明は、演算処理装置及び演算処理装置の制御方法に関する。
今日、人工知能を用いた機械学習のうち、特に深層学習(DL:Deep Learning)へのニーズが高まっている。深層学習は、多層ニューラルネットワーク(DNN:Deep Neural Network)を用いた機械学習の手法ということができる。ニューラルネットワークは、神経細胞(ニューロン)をコンピュータ上にモデル化したものである。神経細胞は、細胞体と、他の細胞体から入力される信号を受ける樹状突起と、他の細胞体に信号を出力する軸索とを有する。また、信号を出力する軸索の末端と信号を受ける樹状突起との間にはシナプスと呼ばれる信号の伝達構造が形成されている。ニューラルネットワークでは、神経細胞間でのシナプスを介した情報伝達がモデル化されている。
さらに、ニューラルネットワークが多層化された多層ニューラルネットワークでは、深層学習が実行される。そして、深層学習が実行される多層ニューラルネットワークの認識性能を高めるため、多層ニューラルネットワークが大規模化される傾向にある。例えば、多層ニューラルネットワークで処理されるパラメータ数は、数百万から1億数千万にも及ぶ。多層ニューラルネットワークが人の脳に近づくためには、究極的に、パラメータ数は1千数百億にも及ぶと考えられる。したがって、今後、深層学習における学習データは増加し、多層ニューラルネットワークにおける計算負荷、メモリ負荷が増大することが予想される。そのため、増え続ける学習データに対して、認識性能と学習効率の改善が望まれている。認識性能と学習効率を改善し、負荷を軽減するため、多層ニューラルネットワークが軽量化されることが望ましい。
ところで、深層学習においては、乗算、積和演算、ベクトル乗算を含む様々な演算が実行される。ただし、深層学習では、個々の演算精度への要求は、通常の演算処理ほど厳密ではない。例えば、通常の演算処理等では、プログラマは極力桁あふれを発生させないようにコンピュータプログラムを開発する。一方、深層学習では、大きな値がある程度飽和することは許容される。深層学習では、複数の入力データを畳み込み演算するときの係数(重み)の調整が主な処理となり、入力データのうち、極端なデータは重視されないことが多いからである。また、大量のデータを繰り返し用いて係数を調整するため、一度飽和された値も、学習の進行に合わせて桁調整を行なうことで、飽和されずに係数の調整に反映できるようになるためである。
そこで、このような深層学習の特性を考慮し、深層学習用の演算処理装置のチップ面積の削減、電力効率の向上等を図るため、浮動小数点数を用いないで、固定小数点数による演算を用いることが考えられる。浮動小数点数演算よりも固定小数点演算の方が回路構成を簡素にできるからである。
ここで、深層学習で処理する重みやパラメータなどのデータのデータ表現としては、例えば、32ビット浮動小数点数、16ビット固定小数点数及び8ビット固定小数点数などがある。深層学習で処理するデータのデータ表現に用いるビット幅を縮小することで、多層ニューラルネットワークで扱うデータ量を削減できる。扱うデータ量が削減されることで、深層学習の処理量が削減され、学習時間が短縮されることが期待できる。
しかしながら、固定小数点数は、取りうる値のダイナミックレンジが狭いので、浮動小数点数より演算精度が劣化する場合がある。演算精度が低下すると、深層学習がうまく実施できない場合もあり得る。すなわち、深層学習では、フォーワッド方向およびバックワード方向に積和演算が多数回繰り返され、演算結果が固定小数点数のダイナミックレンジを超えてしまうこともあるからである。そこで、演算精度を改善する技術により、ビット幅を削減することに起因する上記課題を克服することが望まれる。
例えば、固定小数点を用いた深層学習の技術として、固定小数点演算の演算後のデータのビット位置の分布の統計を取得して動的に小数点位置を指定する従来技術がある。また、畳み込み演算を固定小数点演算で行う場合に、畳み込み演算時のマスクサイズで小数点位置を決定する従来技術がある。また、入力信号の大きさの平均値を求めて小数点位置を決めて固定小数点演算を行う従来技術がある。
上述のように、従来の技術において、固定小数点演算の演算精度劣化を低減するための工夫が提案されている。しかしながら、従来の技術では、演算を実行する演算処理装置が、固定小数点演算の演算精度劣化を低減するための判断材料を効率よく取得できていない。このため、固定小数点数演算の精度の向上が効率的に実施できないおそれがある。さらに、固定小数点演算の演算精度劣化を低減するための判断材料を効率よく取得するとしても、深層学習では多数の演算器が用いられるため、各演算器からの情報収集のための配線が膨大になるおそれがある。そのため、回路実装面積が大きくなるおそれがあり、実装が困難になる。
また、データのビット位置の分布の統計を取得して小数点位置を指定する従来技術では、回路規模を抑えることは考慮されておらず、回路規模を抑えて固定小数点演算の精度を向上させることは困難である。また、畳み込み演算時のマスクサイズで小数点位置を決定する従来技術や入力信号の大きさの平均値を求めて小数点位置を決めて固定小数点演算を行う従来技術でも同様に、回路規模を抑えて固定小数点演算の精度を向上させることは困難である。
開示の技術は、上記に鑑みてなされたものであって、回路規模を抑えて固定小数点演算の精度を向上させる演算処理装置及び演算処理装置の制御方法を提供することを目的とする。
本願の開示する演算処理装置及び演算処理装置の制御方法は、一つの態様において、複数の演算器は、所定数毎に組にされ、固定小数点データに対する演算命令をそれぞれ実行する。取得部は、各前記組に対応して配置され、対応する組に含まれる各前記演算器から演算結果を順番に取得する。ビットパターン生成部は、前記取得部により取得された前記演算結果の最下位ビット位置から最上位ビットと異なるビット値を持つビット位置のうちの最上位ビット位置又は最下位ビット位置までの範囲に対応するそれぞれのビット位置にフラグビットを設定することで得られるビットパターンを生成する。統計情報取得部は、前記ビットパターン生成部により生成されたビットパターンを各ビット位置に対応する桁ごとに累積した統計情報を取得する。
本願の開示する演算処理装置及び演算処理装置の制御方法の一つの態様によれば、回路規模を抑えて固定小数点演算の精度を向上させることができるという効果を奏する。
以下に、本願の開示する演算処理装置及び演算処理装置の制御方法の実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する演算処理装置及び演算処理装置の制御方法が限定されるものではない。
図1は、サーバの構成の一例を示す図である。サーバ3は、Central Processing Unit(CPU)31、演算処理装置30及び演算処理装置用メモリ33をPeripheral Component Interconnect Express(PCIe)等のバス34で接続し、CPU31にはメモリ32が直接接続された構成を有する。
CPU31は、メモリ32に実行可能に展開されたプログラムにしたがって、演算処理装置30内の複数の演算コア300-1~300-16を制御する。
ここで、本実施例では、演算コア300の制御をCPU31が実行するが、データバス35に制御コアを接続し、その制御コアにより演算コア300-1~300-16の制御が行われてもよい。
演算処理装置30は、専用の演算処理装置用メモリ33に接続され、演算処理装置用メモリ33を使って演算を実行する。演算処理装置30は、例えば、PCIカードである。
演算処理装置30は、SIMD(Single Instruction Multiple data)命令を基本とした演算コア300-1~300-16を有する。ただし、演算コア300の数に特に制限は無い。以下の説明では、演算コア300-1~300-16のそれぞれを区別しない場合、単に「演算コア300」という。
演算処理装置30は、バス34、バスインターフェース36及びデータバス35経由でCPU31の指示を受け、複数の演算コア300により並列に演算を実行する。
各演算コア300は、データバス35を介して相互に通信可能である。また、各演算コア300は、データバス35およびPCIeインターフェース等の上位側とのバスインターフェース36を介して、バス34に接続されたCPU31等と接続される。また、各演算コア300は、データバス35及びメモリインターフェース37を介して、演算処理装置用メモリ33に接続される。
図2は、実施例1に係る演算コアの構成の一例を示す図である。図2では、演算コア300とともに、データバスインターフェース301、データバス35、バスインターフェース36及びメモリインターフェース37も記載されている。なお、データバスインターフェース301は、演算コア300に含まれてもよい。
演算コア300は、PC(Program Counter)111、デコーダ112、レジスタファイル12を有する。さらに、演算コア300は、ベクトル演算用の演算部131、スカラ演算用の演算部141及びアキュムレータ(ACC:Accumulator)132を有する。また、演算コア300は、複数のセレクタ(SEL:selector)101を有する。
さらに、演算コア300は、統計情報取得部102、統計情報集約部104及びデータ変換部103を有する。なお、ここでは、複数の統計情報取得部102を総称して統計情報取得部102と呼ぶ場合がある。また、複数のデータ変換部103を総称してデータ変換部103と呼ぶ場合がある。
演算コア300は、演算処理装置30内に複数設けられ、データバス35を介して相互に接続され、並列に演算を実行する。各演算コア300は、入力された命令で指定されたベクトル演算及びスカラ演算を実行する。また、各演算コア300は、統計情報取得部102で取得したビットパターンを累積分布として取得する。以下、本実施形態では、統計情報取得部102が取得したビットパターンの累積分布を統計情報と呼ぶ。
各演算コア300には、統計情報(累積分布)から取得する桁位置が設定される。ここで、桁位置とは、例えば固定小数点データの演算がなされたときに、固定小数点データの各ビット位置に対応して設けられる桁位置であって、統計情報が累積される桁位置をいう。桁位置はユーザがハイパーパラメータとして任意に指定してもよい。演算コア300は、取得した累積分布のうちの指定された桁の累積分布データを取得する。そして、各演算コア300は、累積分布データをCPU31へ転送する。以下に、演算コア300が有する各部の詳細を説明する。
データバスインターフェース301は、演算コア300をデータバス35に接続するインターフェースである。PC111は、取得する命令の命令用メモリ21におけるアドレスを指定する。
デコーダ112は、PC111の指す命令用メモリ21のアドレスからフェッチされた命令をデコードする。デコーダ112が命令をデコードすると、デコード結果に応じて、演算コア300の各部が制御される。
例えば、デコードの結果、命令がロード命令である場合には、演算処理装置用メモリ33からデータが読み出され、セレクタ101を介して、統計情報取得部102およびデータ変換部103に供給される。
また、デコードの結果、命令が固定小数点演算を実行する命令であった場合、デコーダ112は、シフト量がデータ変換部103に供給されるように指示する。シフト量は、例えば、命令のオペランド、オペランドで指定されたレジスタ、オペランドで指定されたアドレス、レジスタの示すアドレスなどであり、演算処理装置用メモリ33等から取得され、データ変換部103に供給される。
演算部131は、ベクトル演算用の演算器を有する。デコーダ112によるデコードの結果がベクトル演算命令であった場合、演算部131は、レジスタファイル12のベクタレジスタのデータの入力を受ける。そして、演算部131は、入力されたデータを用いてベクトル演算を実行する。演算部131は、セレクタ101を介して統計情報取得部102及びデータ変換部103へ演算結果を供給する。また、演算部131は、演算結果をアキュムレータ132へ出力する。
演算部141は、スカラ演算用の演算器を有する。デコーダ112によるデコードの結果、命令がスカラ演算命令であった場合、演算部141は、レジスタファイル12のスカラ・レジスタのデータの入力を受ける。そして、演算部141は、入力されたデータを用いてスカラ演算を実行する。その後、演算部141は、セレクタ101を介して統計情報取得部102及びデータ変換部103に演算結果を供給する。演算部131及び141については後で詳細に説明する。
セレクタ101は、ベクトル演算用の演算部131、スカラ演算用の演算部141及びアキュムレータ132等の演算結果、並びに、データバスインターフェース301からの読み出し結果の中から出力するデータを選択する。なお、ここでは、複数のセレクタを総称してセレクタ101と呼ぶ場合がある。また、複数のベクトル演算用の演算部を総称して演算部131と呼ぶ場合がある。
データ変換部103は、セレクタ101によって選択されたデータの固定小数点位置を変更する。具体的には、データ変換部103は、ベクトル演算の結果、スカラ演算の結果、アキュムレータ132の演算結果、あるいは、データバスインターフェース301からの読み出し結果等で得られるセレクタ101により選択された固定小数点データの入力を受ける。そして、データ変換部103は、取得した固定小数点数データを指定されたシフト量だけシフトする。また、データ変換部103は、シフトとともに、上位ビットの飽和処理および下位ビットの丸めを実行する。データ変換部103は、例えば、丸め処理部及び飽和処理部(不図示)を有する。
丸め処理部は、入力を40ビットの演算結果とし、下位の所定数のビットを小数部として丸めを行なう。具体的には、丸め処理部は、所定数の下位ビットを小数部として丸めを行なう。シフト量が負の場合には、丸め処理部は、何も行なわない。丸めとしては、最近接丸め、0への丸め、正の無限大への丸め、負の無限大への丸め、乱数丸めなどが例示される。シフト量は、例えば、図2に示すように、デコーダ112が命令から取得して送信するシフト量である。
シフト部は、シフト量だけ算術シフトを実行する。具体的には、シフト部は、シフト量が正の場合はシフト量分の算術右シフトを行う。また、シフト量が負の場合は、シフト部はシフト量分の算術左シフトを行なう。飽和処理部は、シフト結果が正の最大値以上の場合は正の最大値を出力し、負の最小値以下の場合は負の最小値を出力し、それ以外は入力値の下位16ビットを出力する。
データ変換部103は、セレクタ101を介して、演算部131又は141による演算結果の入力を受ける。そして、データ変換部103は、左シフト時上位ビットの符号を維持し、符号ビット以外を飽和処理、すなわち、上位ビットを廃棄し、下位ビットに0を埋め込む。ただし廃棄される上位ビットに符号ビットと異なる値が含まれる場合は、シフト結果を、同符号で表現可能な絶対値最大の数に置き換える(飽和処理)。また、データ変換部103は、右シフト時、上位ビット(符号ビットより下位のビット)に符号ビットを埋め込む。そして、データ変換部103は、上記のように丸め、シフト、飽和処理によって得られるデータを、レジスタファイル12のレジスタ等と同一のビット幅(例えば、16ビットのレジスタ)で出力する。
したがって、演算コア300で実行されるコンピュータプログラムが固定小数点演算を実行する命令のオペランドにシフト量を指定することで、演算コア300は、プログラム実行中に、固定小数点数の小数点位置を指定されたシフト量だけ更新する。
データ変換部103でデータ変換された結果は、レジスタファイル12のレジスタに格納される。
アキュムレータ132は、ベクトル演算用の演算部131の演算結果の入力を受ける。そして、アキュムレータ132は、演算結果を加算する。アキュムレータ132は、セレクタ101を介して統計情報取得部102及びデータ変換部103に演算結果を供給する。
統計情報取得部102は、セレクタ101によって選択されたデータからの統計情報を取得する。統計情報取得部102は、デコーダ112によるデコードの結果、命令に統計情報採取命令が付加されている場合、フラグビットのビットパターンの累積分布を取得する。そして、統計情報取得部102は、フラグビットのビットパターンの累積分布を統計情報集約部104へ出力する。フラグビットのビットパターンとは、演算部131又は141の演算結果である固定小数点数の最上位のビット位置から最上位のビットと異なる値を有するビット位置のうち最上位ビット位置までフラグを設定して得られるビットパターンである。統計情報取得部102については後で詳細に説明する。
統計情報集約部104は、統計情報取得部102によって取得された統計情報であるフラグビットのビットパターンの累積分布を集約する。そして、統計情報集約部104は、フラグビットのビットパターンの累積分布を格納する。統計情報集約部104は、取得した累積分布のうちの指定された桁の累積分布データ(サンプル数ともいう)を出力する。より具体的には、統計情報集約部104は、指定された桁位置の前後-L~+M桁(L、Mは整数)の区間の統計情報のサンプル数情報を抽出する。
次に、図3を参照して、演算部131及び141、並びに、統計情報取得部102の詳細について説明する。図3は、実施例1に係る演算部及び統計情報取得部の構成の一例の図である。ここで、演算部131及び141はベクトル演算とスカラ演算との違いはあるものの同一の機能を有する。以下では、演算部131を例に説明するが、演算部141についても同様である。
演算部131は、バンク#0のレジスタR0~R15、バンク#1のレジスタR100~R115、演算器310~325、アキュムレータAC0~AC15、マルチプレクサ230~237、状態管理部220~227及び演算器200~207を含む。なお、アキュムレータAC0~AC15、演算器310~325、バンク#0のレジスタR0~R15、バンク#1のレジスタR100~R115は、Single Instruction/Multiple Data(SIMD)プロセッサの一部である。レジスタR0~R15及びR100~R115は、SIMD並列幅分のバンク数に応じて配置される。
統計情報取得部102は、フラグビット生成部240~247、加算器AD0~AD39及び桁レジスタAR0~AR39を有する。ここで、加算器AD0~AD39及び桁レジスタAR0~AR39は、演算に用いるデータの各桁(0~39)に対応させて配置される。
演算器310~325は、バンク#0のレジスタR0~R15とバンク#1のレジスタR100~R115から同一のタイミングでデータを取得する。演算器310~325は、デコーダ112で解読された命令にしたがった演算を並列に実行する。図3では、分かり易いように、デコーダ112から演算器310及びアキュムレータAC0に延びる信号線を記載したが、実際には、デコーダ112は、演算器310~325及びアキュムレータAC0~AC15に接続される。
ここでは、演算器310~325が積和命令を実行することを想定する。演算器310~325は、バンク#0のレジスタR0~R15の値とバンク#1のレジスタR100~R115の値の積にアキュムレータAC0~AC15に蓄積済みの累積和を加算する。そして、演算器310~325は、演算結果をアキュムレータAC0~C15に格納する。積和命令では、通常複数回の積和が実行され最終回は演算結果がレジスタファイル12に返される。これに加えて、アキュムレータAC0~AC15は、演算結果をマルチプレクサ230~237を介して演算器200~207に向けて送出する。アキュムレータAC0~AC15は、「格納領域」の一例にあたる。
アキュムレータAC0~AC15と演算器200~207との間には、マルチプレクサ230~237が配置される。マルチプレクサ230~237は、アキュムレータAC0~AC15を2つずつ組にしたそれぞれが接続される。例えば、アキュムレータAC0とアキュムレータAC1とが組となり、マルチプレクサ230に接続される。また、アキュムレータAC2とアキュムレータAC3とが組となり、マルチプレクサ231に接続される。また、アキュムレータAC14とアキュムレータAC15とが組となり、マルチプレクサ237に接続される。そして、各マルチプレクサ230~237は、それぞれ演算器200~207に接続される。アキュムレータAC0~AC15と演算器200~207とは1対1に対応しているので、アキュムレータAC0~AC15の組は、演算器200~207の組と言える。
ここで、本実施例では、アキュムレータAC~AC15における組とされた2つは、一方が演算で用いる32ビットのデータの上位16ビット部分のデータの演算結果を格納し、他方が下位16ビット部分のデータの演算結果を格納する。具体的には、アキュムレータAC0、AC2、・・・、AC14が上位16ビットのデータを取扱い、アキュムレータAC1、AC3、・・・、AC15が下位16ビットのデータを取り扱う。ここでは、上位16ビットのデータを取り扱うアキュムレータAC0、AC2、・・・、AC14を上位側アキュムレータといい、下位16ビットのデータを取り扱うアキュムレータAC1、AC3、・・・、AC15を下位側アキュムレータと言う。
マルチプレクサ230~237は、状態管理部220からの選択信号の入力を受ける。ここで、選択順は特に制限は無いが、本実施例では上位側アキュムレータを先に選択し、次に、下位側アキュムレータを選択する場合で説明する。入力された選択信号がLowの場合、マルチプレクサ230~237は、下位側アキュムレータを選択する。また、入力された選択信号がHighの場合、マルチプレクサ230~237は、上位側アキュムレータを選択する。
状態管理部220~227は、図4に示す状態管理を行うことで選択するアキュムレータAC~AC15を決定する。図4は、実施例1に係る状態管理を説明するための図である。状態管理部220~227は、保留状態41及び実行状態42という2つの状態のいずれかの状態に遷移する。デコーダ112から命令が入力されていない初期状態で、状態管理部220~227は、保留状態41となる。
保留状態41では、状態管理部220~227は、選択信号としてLowの信号をマルチプレクサ230~237へ出力する。この場合、状態管理部220~227は、イネーブル信号として0の値を有する信号を演算器200~207へ出力する。0の値のイネーブル信号は、無効を表す信号にあたる。保留状態41で、デコーダ112から統計情報採取命令以外の命令の入力を受けた場合、状態管理部220~227は、状態遷移43により保留状態を維持する。
これに対して、保留状態41でデコーダ112から統計情報採取命令の入力を受けると状態遷移44が発生し、状態管理部220~227は、イネーブル信号として1の値を有する信号を演算器200~207へ出力するとともに、実行状態42へ遷移する。統計情報採取命令は、アキュムレータAC0~AC15からレジスタファイル12のベクタレジスタへのデータコピーの命令に付加される命令である。1の値を有するイネーブル信号は、有効を表す信号にあたる。
実行状態42では、状態管理部220~227は、選択信号としてHighの信号をマルチプレクサ230~237へ出力する。この場合、状態管理部220~227は、イネーブル信号として1の値を有する信号を演算器200~207へ出力する。
信号出力後に、統計情報採取命令以外の命令が入力されると状態遷移45が発生し、状態管理部220~227は、保留状態41に遷移する。状態管理部220~227は、保留状態41への遷移後は、イネーブル信号として0の値を有する信号を演算器200~207へ出力する。ここで、統計情報命令は連続で入力されることはないことが前提であるが、何らかの理由により統計情報命令が続けて入力された場合、実行状態42にある状態管理部220~227は、エラーを出力して保留状態41に遷移するように構成してもよい。このマルチプレクサ230~237及び状態管理部220~227が、「取得部」の一例にあたる。
図3に戻って説明を続ける。演算器200~207は、マルチプレクサ230~237を介してアキュムレータAC0~AC15から出力された40ビットのデータを取得する。そして、演算器200~207は、入力されたデータにおける非符号となる最上位ビットの位置を示す有効桁位置情報をフラグビット生成部240~247へ出力する。非符号となる最上位ビットとは、符号ビットの値と異なるビット値を有するビットのうち、符号ビット(Most Significant Bit(MSB))に最も近い位置のビットである。すなわち、有効桁位置情報は、MSBから符号ビットと同じ値が何ビット続くかを表す情報である。
ここで、図5を参照して、有効桁位置情報の算出の詳細について説明する。図5は、有効桁位置情報の生成の一例について説明するための図である。ここでは、演算器200を例に説明する。
状態管理部220からLowの選択信号を受けてマルチプレクサ230を介してアキュムレータAC1から出力された40ビットのデータ51が、演算器200に入力される。演算器200は、入力されたデータ51の隣り合うビットの値を比較し、同じ値であれば1を出力し、異なる値であれば0を出力することで、39ビットのデータ52を生成する。
次に、演算器200は、疑似コード53に示すように各データ52に応じた0~39を表す値を取得して6ビットの有効桁位置情報として出力する。具体的には、非符号となる最上位ビットがデータ51の0ビット目(すなわち最下位ビット)にある場合、演算器200は、38を6ビットで表した有効桁位置情報を出力する。また、非符号となる最上位ビットがデータ52の8ビット目にある場合、演算器200は、30を6ビットで表した有効桁位置情報を出力する。また、非符号となる最上位ビットがデータ52の38ビット目にある場合(すなわち符号ビットのすぐ下位が符号ビットと異なる値の場合)、演算器200は、0を6ビットで表した有効桁位置情報を出力する。
その後、演算器200は、有効桁位置情報の6ビットのそれぞれの値と状態管理部220から入力されたイネーブル情報の反転値との論理和54を求めてフラグビット生成部240へ出力する。すなわち、イネーブル信号の値が1の場合、演算器200は、有効桁位置情報をそのままフラグビット生成部240へ出力する。また、イネーブル信号の値が0の場合、すなわち、状態管理部220において、保留状態41にあり状態遷移44が発生していないと、演算器200は、全ての値が1である6ビットのデータを有効桁位置情報としてフラグビット生成部240へ出力する。
次に、状態管理部220が実行状態42に遷移すると、Highの選択信号を受けてマルチプレクサ230を介してアキュムレータAC0から出力された40ビットのデータ51が、演算器200に入力される。その後、演算器200は、上述した有効桁位置情報の算出処理をアキュムレータAC0から出力された40ビットのデータ51に対して実行する。
ここで、統計情報命令が付加される命令は、アキュムレータAC0~AC15からレジスタファイル12のベクタレジスタへのデータコピーの命令であり、アキュムレータAC0~AC15の内容に変化はしない。そこで、統計情報命令後の次のサイクルでもアキュムレータAC0~AC15の値は維持されており、演算器200は、同じタイミングのアキュムレータAC0及びAC1のデータを取得することができる。
演算器200は、組となったアキュムレータAC0及びAC1から演算結果を順番に取得し、取得した演算結果から得られた有効桁位置情報を順次出力する。すなわち、アキュムレータAC0及びAC1のそれぞれを1対1で演算器200に対応させた場合に比べて、本実施例に係る演算コア300は、演算器200と統計情報取得部102とを繋ぐ信号経路を半分に抑えることができる。この演算器200~207が、「位置情報生成部」の一例にあたる。そして、マルチプレクサ230~237と演算器200~207とを結ぶ信号経路が、「第1信号経路」の一例にあたる。
図3に戻って説明を続ける。フラグビット生成部240~247と演算器200~207とは、有効桁位置情報のビット数の信号線により接続される。例えば、本実施例では有効桁位置情報が6ビットであるので、フラグビット生成部240~247と演算器200~207とを結ぶ信号線は6本となる。
フラグビット生成部240~247は、有効桁位置情報の入力を演算器200~207から受ける。そして、フラグビット生成部240~247は、有効桁位置情報を用いて、非符号となる最上位ビット以下LSB(Least Significant Bit)までの範囲に対応するビット位置にフラグビットとして「1」を設定したデータを生成するフラグビット生成処理を行う。フラグビット生成部210~213の処理により、最下位ビット位置から、非符号となる最上位ビットのビット位置までの範囲のそれぞれのビット位置にフラグビットを設定することで得られるフラグビットのビットパターンが生成される。
ここで、図6を参照して、フラグビットのビットパターン生成処理の一例について説明する。図6は、ビットパターン生成処理の一例を説明するための図である。
フラグビット生成部240は、6ビットで表される有効桁位置情報を演算器200から取得する。次に、フラグビット生成部240は、有効桁位置情報の上位4ビットのデータを演算回路61へ入力する。また、フラグビット生成部240は、有効桁位置情報の下位2ビットのデータを演算回路61へ入力する。
演算回路61は、上位4ビットのデータが0~9のいずれの値以下かを判定する。そして、演算回路61は、判定結果に応じてGRP_LE_0~9及びGRP_LT_0~9のいずれのグループに含まれるかを決定し、含まれるグループの値を1とする。GRP_LE_N(N=0~9)は、値がn以下であるグループである。また、GRP_LT_N(N=0~9)は、値がより小さいグループである。例えば、上位4ビットのデータが、“0,0,1,1”であれば、演算回路61は、GRP_LE_3~9の値を1とし、GRP_LT_4~9の値を1とし、それ以外のグループの値は0とする。これにより、演算回路61は、有効桁位置情報を4で割った時の値が0~9の何れの値以下かを区別できる。
一方、演算回路62は、下位2ビットのデータが0~2のいずれの値以下かを判定する。演算回路62は、下位2ビットのデータが、MOD4_LE0、MOD4_LE1又はMOD4_LE2のいずれのグループに含まれるかを判定し、属するグループの値を1とし、他のグループの値を0とする。MOD4_LE0は、割った時の余りが0のグループである。MOD4_LE1は、割った時の余りが1か0のグループである。MOD4_LE2は、割った時の余りが2か1か0のグループである。
次に、演算回路62は、GRP_LE_0~9及びGRP_LT_0~9の値、並びに、MOD4_LE0~LE2の値を演算回路63に入力する。演算回路63は、GRP_LE_N及びGRP_LT_N(N=0~9)のそれぞれについて演算を行う。
具体的には、演算回路63は、GRP_LE_Nの値とMOD4_LE0~LE2の値のそれぞれの論理積を求める。そして、演算回路63は、各論理積とGRP_LT_Nの値の論理和を求める。次に、演算回路63は、各論理和の結果をLANE_INC[N*4+0]~[N*4+2]とし、GRP_LE_Nの値をLANE_INC[N*4+3]とする。そして、演算回路63は、40ビットのデータにおけるN×4+0~3番目のビットの位置の値を、LANE_INC[N*4+0]~[N*4+3]とする。これにより、演算回路63は、最下位ビット位置から非符号となる最上位ビットのビット位置までの範囲のそれぞれのビット位置に、フラグビットとして「1」を設定することで得られるビットパターンを生成する。
なお、フラグビット生成部240~247は非符号となる最下位ビット以上MSBまでの範囲に対応するビット位置にフラグビットである「1」を設定する処理を行うものであってもよい。非符号となる最下位ビットとは、符号ビットの値と異なるビット値を有するビットのうち、符号ビットから最も遠い位置(LSBに最も近い位置)のビットをいう。この場合、フラグビット生成部240~247の処理により、符号ビット(MSB)の位置から、非符号となる最下位ビットのビット位置までの範囲のそれぞれのビット位置にフラグビットを設定することで得られるビットパターンが生成される。
フラグビット生成部240~247が、「ビットパターン生成部」の一例にあたる。そして、演算器200~207とフラグビット生成部240~247を接続する信号経路が、「第2信号経路」の一例にあたる。
図3に戻って説明を続ける。加算器AD0~AD39は、桁レジスタAR0~AR39のそれぞれのビット幅と同じビット幅を有し、フラグビット生成部240~247の結果の桁ごとの加算を行う。加算器AD0~AD39は、フラグビット生成部240~247の演算結果の桁ごとの加算結果と、桁レジスタAR0~AR39に保存した各桁の値と加算して桁レジスタAR0~AR39を更新する。
桁レジスタAR0~AR39は、桁ごとの統計情報を格納する。桁レジスタAR0~AR39の値は、加算器AD0~AD39の出力値により更新される。
加算器AD0~AD39と桁レジスタAR0~AR39との処理によって、フラグビットを設定することで得られるビットパターンをビット位置毎に累積した統計情報が生成される。以上の構成によって、演算器310~317は、演算結果である複数の固定小数点数データに関し、統計情報取得部102によって小数点位置判定用統計情報が収集される。この小数点位置判定用統計情報は、最上位からどの範囲のビットが未使用となっているかを表す指標となる。この加算器AD0~AD39が、「統計情報取得部」の一例にあたる。
また、フラグビット生成部240~247は非符号となる最下位ビット以上MSBまでの範囲に対応するビット位置にフラグビット「1」を設定する処理を行うものである場合について説明する。この場合、加算器AD0~AD39と桁レジスタAR0~AR39との処理によって、非符号となる最下位ビット以上MSBまでの範囲に対応するビット位置にフラグビット「1」を設定して得られるビットパターンを累積した他の統計情報が生成される。この統計情報は、最下位からどの範囲のビットが未使用となっているかを表す指標となる。
ここで、統計情報集約部104により収集された統計情報の利用方法について説明する。例えば、演算処理装置30は、統計情報集約部104に格納された非符号となるビット値を持つ最上位のビット位置から最下位ビットまでフラグビットを設定することで得られるビットパターンを累積した情報を取得する。演算処理装置30は、例えば、ベクトル演算の実行ごとに、ベクトル演算器に含まれるそれぞれの演算器からビットパターンを収集し、累積し、累積分布を生成する。
累積分布の各桁が表すサンプル数は、最上位桁(MSB)からその桁までの累積サンプル数であるため、累積分布のA%を超えた桁位置のサンプル数が、「A%を超えるまでの全桁のサンプル数」に相当する。このため、演算処理装置30は、一桁分のサンプル数情報とその桁位置情報を転送するだけで、所定の閾値を越えた桁位置を特定する情報を得ることが可能である。
なお、累積分布全体に対する所定の閾値を越えた桁位置以上の分布の割合(A%)を算出するためには、分母となる累積分布全体の総サンプル数が要求される。しかしながら、累積分布全体の総サンプル数は、回路構成から既知となる。例えば、演算コア300内で1回のベクトル演算では、ベクトル演算器の並列数だけ演算が実行される。したがって、1回のベクトル演算当りの総サンプル数は、ベクトル演算器の並列数となる。仮に、累積分布全体のサンプル数に、スカラ演算も含める場合には、累積分布の集計対象である各演算器の回数分だけ積算すればよい。
次に、図7を参照して、有効桁位置情報の算出処理の流れについて説明する。図7は、有効桁位置情報の算出処理のフローチャートである。図7は、保留状態41と実行状態42との間の状態遷移が完了する間のサイクルを表す。
状態管理部220~227は、現在の状態が保留状態41か否かを判定する(ステップS1)。
現在の状態が保留状態の場合(ステップS1:肯定)、状態管理部220~227は、統計情報採取命令を取得したか否かを判定する(ステップS2)。統計情報採取命令を取得していない場合(ステップS2:否定)、状態管理部220~227は、0の値を有するイネーブル信号を演算器200~207へ出力する。演算器200~207は、0値を有するイネーブル信号の入力を受けて、全ての値が1の有効桁位置情報をフラグビット生成部240~247へ出力する(ステップS3)。
これに対して、統計情報採取命令を取得した場合(ステップS2:肯定)、状態管理部220~227は、1の値を有するイネーブル信号を演算器200~207へ出力する(ステップS4)。また、状態管理部220~227は、マルチプレクサ230~237にLowの信号を出力する。
マルチプレクサ230~237は、Lowの信号の入力を受けて、下位側のアキュムレータの格納値を選択する(ステップS5)。
演算器200~207は、下位側のアキュムレータの格納値の入力を受ける。そして、演算器200~207は、入力値に応じた有効桁位置情報を算出する(ステップS6)。
その後、演算器200~207は、1の値を有するイネーブル信号の入力を状態管理部220~227から受けて、入力値に対応する有効桁位置情報をフラグビット生成部240~247へ出力する(ステップS7)。
その後、状態管理部220~227は、実行状態42に遷移する(ステップS8)。
一方、現在の状態が保留状態でない場合(ステップS1:否定)、すなわち現在の状態が実行状態の場合、マルチプレクサ230~237にHighの信号を出力する。マルチプレクサ230~237は、Highの信号の入力を受けて、上位側のアキュムレータの格納値を選択する(ステップS9)。
演算器200~207は、上位側のアキュムレータの格納値の入力を受ける。そして、演算器200~207は、入力値に応じた有効桁位置情報を算出する(ステップS10)。
その後、演算器200~207は、1の値を有するイネーブル信号の入力を状態管理部220~227から受けて、入力値に対応する有効桁位置情報をフラグビット生成部240~247へ出力する(ステップS11)。
次に、状態管理部220~227は、0の値のイネーブル信号を出力し、且つ、保留状態41に遷移する(ステップS12)。
次に、図8を参照して、統計情報取得部102の統計情報収集の処理の流れについて説明する。図8は、統計情報取得部による統計情報収集の処理のフローチャートである。
フラグビット生成部240~247は、有効桁位置情報の入力を演算器200~203から受ける(ステップS21)。
次に、フラグビット生成部240~247は、入力された有効桁位置情報の全ての桁の値が1か否かを判定する(ステップS22)。全ての桁の値が1の場合(ステップS22:肯定)、フラグビット生成部240~247は、有効桁位置情報が無効であると判定して処理を終了する。
これに対して、1以外の値の桁が存在する場合(ステップS22:否定)、フラグビット生成部240~247は、有効桁位置情報からビットパターンを生成する(ステップS23)。そして、フラグビット生成部240~247は、生成したビットパターンの各桁の値をそれぞれ加算器AD0~AD39へ出力する。加算器AD0~AD39は、各フラグビット生成部240~247から送られてきた値を集計し、桁レジスタAR0~AR39それぞれが有する各桁のカウンタに集計値を加算する(ステップS24)。その後、統計情報集約部104は、桁レジスタAR0~AR39のそれぞれが保持する集計値を集約する。
ここで、他の接続形態と本実施例に係る演算コアにおける接続形態とを比較する。各アキュムレータAC0~AC15に格納されたデータにおける、非符号となる最下位ビット以上MSBまでの範囲のビット位置にフラグビット「1」を設定して得られるビットパターンを取得するには、他の接続方法が考えられる。例えば、最も簡単な方法として、図7に示すように、個々のアキュムレータAC0~AC15と演算器200~215とを1対1に接続する方法が考えられる。図9は、アキュムレータと演算部とを1対1に接続した場合の接続を表す図である。こでは、演算器200~演算器215が加算器AD0~AD39へ各桁のデータを配布する役割を有することから、図9では演算器200~演算器215が統計情報取得部102の一部に含まれる。
この場合、演算器310~325及びアキュムレータAC0~AC15は、40ビットのデータを取り扱う。そのため、アキュムレータAC0~AC15から統計情報取得部102の間に、フラグビットを出力する40本の信号線が配線される。例えば、統計情報取得部102に、256ビット長のベクトル処理にあたる16個分の16ビットの積和演算器の情報を集約する場合がある。そのような場合、アキュムレータAC0~AC15から統計情報取得部102の間に、640本の信号線が配線されることになる。このように信号線が多くなると、回路自体に加えて信号線のひき込み用の領域の確保により回路実装面積が大きくなってしまう。
例えば、典型的な例として、ベクトル長が256ビットのベクトルレジスタに対するメモリからのリード及びメモリへのライトのパスとして、ベクトル長に合わせて256本の信号線が配線される場合を考える。レジスタへの読み書きの信号の量は、ベクトルレジスタへの読み書きのスループットを決定することになるため、なるべく多くの信号線が確保されることが好ましい。一方、フラグビット用の信号線は、リード及びライトの性能や、演算性能には直接的には寄与しないにも拘らず、性能を決める信号の2.5倍もの配線量を占めることになり、実際の実装には不適である。
これに対して、本実施例に係る演算コア300では、例えば16個の演算器310~325及びアキュムレータAC0~AC15を2つずつの組にした場合、8つの組となる。この場合、アキュムレータAC0~AC15と演算器200~207とを結ぶ信号線は、図9の場合に比べて半分になる。さらに、演算器200~207は、6ビットの情報を取り扱うため、演算器200~207と統計情報取得部102との間の信号線は、48本となり、直接接続した場合に比べて格段に少なく抑えることができる。
ここで、本実施例では、統計情報採取命令の発行頻度を最高で2サイクルに1回とした場合として、演算器310~325及びアキュムレータAC0~AC15を2個ずつ組とした。ただし、統計情報採取命令を制約しても問題のないレベルまで最大限制限して、統計情報採取命令の許容発行頻度をnサイクルに1回まで減らしてもよい。その場合、それに合わせて、演算器310~325及びアキュムレータAC0~AC15のn個ずつを組として、それらの間で順番に信号線を使用する構成にしてもよい。n個ずつ組にすることで、アキュムレータAC0~AC15と演算器200~215とを結ぶ信号線は、図9の場合に比べてn分の1になる。
以上に説明したように、本実施例に係る演算コアは、演算器とアキュムレータとのまとまりの複数個を組として1つの演算器に接続し、順番にデータを演算器に供給させる。これにより、アキュムレータとサンプルデータを算出する演算器との間の信号線を低減できる。また、本実施例に係る演算コアは、演算部は統計処理部に向けてサンプルデータとして6ビットの有効桁位置情報を送信する。これにより、実際の演算を行う演算部と、補助的な統計処理を行う統計情報取得部との間の信号線の数を低減できる。したがって、回路規模を抑えて固定小数点演算の精度を向上させることができる。
図10は、実施例2に係る演算部及び統計情報取得部の構成の一例の図である。本実施例に係る演算器310は、8ビットデータと8ビットデータとを乗算して、アキュムレータAC0~AC31に格納された24ビットデータに加算し、アキュムレータAC0~AC31に格納する積和演算を行う。この場合も、256ビット長ベクトル同士の演算として、各演算器310~341及び各アキュムレータAC0~AC31は、32個ずつ配置される。以下の説明では、実施例1と同様の各部の動作については説明を省略する場合がある。
演算器310~341は、32ビットデータと32ビットデータとを乗算する処理を単位としてグループ分けされる。この単位はFMA(Fused Multiply Adder)と呼ばれる場合がある。すなわち、1つのFMAには、演算器310~341のうちの4つと、アキュムレータAC0~AC31のうちの4つが含まれる。各演算器310~341は、32ビットデータにおける異なるバイト位置のデータを処理する。例えば、演算器310は、32ビットデータのうちの0バイト目のデータを処理する。また、演算器311は、32ビットデータの内の2バイト目のデータを処理する。演算器312は、32ビットデータの内の3バイト目のデータを処理する。演算器313は、32ビットデータの内の1バイト目のデータを処理する。
この場合も、統計情報採取命令は、アキュムレータAC0~AC31からベクタレジスタへのデータの移動を実行させる命令に付加される。この命令は、飽和処理、丸め及び出力などを実行させることもできる。この命令は、例えば、アキュムレータAC0~AC3を含むFMAを例に説明すると、1つの命令毎に、アキュムレータAC0~AC3のうちの2組ずつに処理を行わせる。ここで、本実施例では、アキュムレータAC0とアキュムレータAC1とを組とし、アキュムレータAC2とアキュムレータAC3とを組とするように、各FMAにおいて上位側のバイトのデータを処理する組と、下位側のバイトのデータを処理する組とに分ける。ここでは、上位側のバイトのデータを処理する組に処理を行わせる命令をバイトハイ命令とよび、下位側のバイトのデータを処理する組に処理を行わせるバイトロー命令と呼ぶ。バイトハイ命令とバイトロー命令とはいずれも、それぞれ1度発行されると以後3サイクルは発行が停止されるという制限が設けられる。すなわち、バイトハイ命令とバイトロー命令とはいずれも、4サイクルに1度の頻度で発行される。
状態管理部220~227はいずれも同様の動作を行うので、状態管理部220を例に説明する。状態管理部220は、4サイクルの間にアキュムレータAC0~AC3が順次演算器200へのデータの入力元として選択され且つ全てが選択されるようにマルチプレクサ230に選択信号を送信する。
状態管理部220は、図11に示す状態管理を行うことで選択するアキュムレータAC~AC3を決定する。図11は、実施例2に係る状態管理を説明するための図である。図11において枠内の##0~##3は、アキュムレータAC0~AC3が処理するデータのバイト番号を表す。さらに、各状態71~76に記載された枠内の##0~##3は、その状態に遷移した時点における少なくとも選択が完了していないアキュムレータAC0~AC3に対応するバイト番号である。例えば、状態72に遷移した時点では、少なくともアキュムレータAC1及びAC0の選択が完了していないことを表す。
状態管理部220は、命令が発行されていない場合、初期状態70の状態を維持する。そして、初期状態70でバイトハイ命令又はバイトロー命令以外の命令が発行されると状態遷移170が発生する。この場合、状態管理部220は、初期状態70を維持して無効を表す値が「0」のイネーブル信号を演算器200へ出力する。
これに対して、初期状態70でバイトロー命令が発行されると、状態遷移171が発生し、状態管理部220は、状態72に遷移する。また、初期状態70でバイトハイ命令が発行されると、状態遷移172が発生し、状態管理部220は、状態75に遷移する。
状態72に遷移した場合、状態管理部220は、状態72として記載した左端の枠内の##1のバイトを処理するアキュムレータAC1を選択する選択信号をマルチプレクサ230へ送信する。状態72では、既に4サイクル以前にバイトロー命令が発行されているので、バイトロー命令が発行されることはない。そして、状態72に遷移した次のサイクルでバイトハイ命令が発行されると状態遷移175が発生し、状態管理部220は、状態76へ遷移する。これに対して、状態72に遷移した次のサイクルでバイトハイ命令が発行されないと状態遷移179が発生し、状態管理部220は、状態71へ遷移する。
状態76に遷移した場合、状態管理部220は、状態76として記載した左端の枠内の##0のバイトを処理するアキュムレータAC0を選択する選択信号をマルチプレクサ230へ送信する。状態72では、既に4サイクル以前にバイトロー命令及びバイトハイ命令の両方が発行されているので、いずれの命令も発行されることはない。そこで、状態76に遷移した次のサイクルで状態遷移178が発生し、状態管理部220は、状態75へ遷移する。
状態71に遷移した場合、状態管理部220は、状態71として記載した枠内の##0のバイトを処理するアキュムレータAC0を選択する選択信号をマルチプレクサ230へ送信する。状態71では、既に4サイクル以前にバイトロー命令が発行されているので、バイトロー命令が発行されることはない。そして、状態71に遷移した次のサイクルでバイトハイ命令が発行されると状態遷移173が発生し、状態管理部220は、状態75へ遷移する。これに対して、状態71に遷移した次のサイクルでバイトハイ命令が発行されないと状態遷移181が発生し、状態管理部220は、初期状態70へ遷移する。状態遷移181が発生するということは、状態管理部220がアキュムレータAC0~AC3の全ての選択を完了したということを表す。
状態75に遷移した場合、状態管理部220は、状態75として記載した左端の枠内の##3のバイトを処理するアキュムレータAC3を選択する選択信号をマルチプレクサ230へ送信する。状態75では、既に4サイクル以前にバイトハイ命令が発行されているので、バイトハイ命令が発行されることはない。そして、状態75に遷移した次のサイクルでバイトロー命令が発行されると状態遷移176が発生し、状態管理部220は、状態73へ遷移する。これに対して、状態75に遷移した次のサイクルでバイトロー命令が発行されないと状態遷移180が発生し、状態管理部220は、状態74へ遷移する。
状態73に遷移した場合、状態管理部220は、状態73として記載した左端の枠内の##2のバイトを処理するアキュムレータAC2を選択する選択信号をマルチプレクサ230へ送信する。状態72では、既に4サイクル以前にバイトロー命令及びバイトハイ命令の両方が発行されているので、いずれの命令も発行されることはない。そこで、状態73に遷移した次のサイクルで状態遷移177が発生し、状態管理部220は、状態72へ遷移する。
状態74に遷移した場合、状態管理部220は、状態74として記載した枠内の##2のバイトを処理するアキュムレータAC2を選択する選択信号をマルチプレクサ230へ送信する。状態74では、既に4サイクル以前にバイトハイ命令が発行されているので、バイトハイ命令が発行されることはない。そして、状態74に遷移した次のサイクルでバイトロー命令が発行されると状態遷移174が発生し、状態管理部220は、状態72へ遷移する。これに対して、状態74に遷移した次のサイクルでバイトハイ命令が発行されないと状態遷移182が発生し、状態管理部220は、初期状態70へ遷移する。状態遷移182が発生するということは、状態管理部220がアキュムレータAC0~AC3の全ての選択を完了したということを表す。
また、状態71~76のいずれに遷移した場合でも、状態管理部220は、有効を表す値が「1」のイネーブル信号を演算器200へ出力する。
演算器200~207について、いずれも同じ動作を行うので、演算器200を例に説明する。演算器200は、アキュムレータAC0~AC3に格納された情報の入力を順次受ける。そして、演算器200は、以下に説明する方法で24ビットにおける有効桁位置情報を生成してフラグビット生成部240へ出力する。
以下に、演算器200による有効桁位置情報の生成を説明する。演算器200は、24ビットのデータの入力を受ける。そして、演算器200は、入力された24ビットのデータの隣り合うビットの値を比較し、同じ値であれば1を出力し、異なる値であれば0を出力することで、23ビットのデータを生成する。
次に、演算器200は、図12における疑似コード55に示すように各データに応じた0~29を表す値を取得して5ビットの有効桁位置情報として出力する。図12は、実施例2における有効桁位置情報の生成の一例を説明するための図である。具体的には、非符号となる最上位ビットがデータの0ビット目(すなわち最下位ビット)にある場合、演算器200は、22を5ビットで表した有効桁位置情報を出力する。また、非符号となる最上位ビットがデータの8ビット目にある場合、演算器200は、14を5ビットで表した有効桁位置情報を出力する。また、非符号となる最上位ビットがデータ52の22ビット目(すなわち符号ビットのすぐ下位が符号ビットと異なる値の場合)にある場合、演算器200は、0を5ビットで表した有効桁位置情報を出力する。
フラグビット生成部240~247は、演算器200~207から入力された有効桁位置情報をフラグビットが設定された24ビットのビットパターンに変換する。そして、フラグビット生成部240~247は、生成したビットパターンを用いて、桁レジスタAR0~AR23への加算処理を行いカウンタを更新して統計情報を生成する。
以上に説明したように、本実施例に係る演算コアは、8ビットデータと8ビットデータとを用いて積和演算を行う場合の統計情報を収集する。そして、本実施例に係る演算コアでは、演算器とアキュムレータをまとめたものの4つを1つの組として1つの演算器で有効桁を表す情報を収集する。これにより、アキュムレータと有効桁を表す情報を収集する演算器とを1対1で組み合わせた場合よりも、4分の1の信号線でアキュムレータと演算器とが接続される。さらに、演算器は有効桁位置を表す情報として5ビットの情報をフラグビット生成部へ送信する。
アキュムレータと有効桁を表す情報を収集する演算器とを1対1で組み合わせた場合、演算部と統計情報取得部とを結ぶ信号線は、例えば、演算部が256ビット長ベクトル同士の演算を行うとすると768本配置される。すなわち、本実施例に係る演算コアは、アキュムレータと有効桁を表す情報を収集する演算器とを1対1で組み合わせた場合に比較して演算部と統計情報取得部とを結ぶ信号線を低減することができる。このように、ビットデータと8ビットデータとを用いて積和演算を行う場合の統計情報を収集する場合であっても、回路規模を抑えて固定小数点演算の精度を向上させることができる。
3 サーバ
12 レジスタファイル
21 命令用メモリ
30 演算処理装置
31 CPU
32 メモリ
33 演算処理装置用メモリ
34 バス
35 データバス
36 バスインターフェース
37 メモリインターフェース
101 セレクタ
102 統計情報取得部
103 データ変換部
104 統計情報集約部
111 PC
112 デコーダ
131 演算部
132 アキュムレータ
141 演算部
200~215 演算器
220~227 状態管理部
230~237 マルチプレクサ
240~247 フラグビット生成部
300,300-1~300-16 演算コア
301 データバスインターフェース
310~341 演算器
AC0~AC31 アキュムレータ
AD0~AD39 加算器
AR0~AR39 桁レジスタ
12 レジスタファイル
21 命令用メモリ
30 演算処理装置
31 CPU
32 メモリ
33 演算処理装置用メモリ
34 バス
35 データバス
36 バスインターフェース
37 メモリインターフェース
101 セレクタ
102 統計情報取得部
103 データ変換部
104 統計情報集約部
111 PC
112 デコーダ
131 演算部
132 アキュムレータ
141 演算部
200~215 演算器
220~227 状態管理部
230~237 マルチプレクサ
240~247 フラグビット生成部
300,300-1~300-16 演算コア
301 データバスインターフェース
310~341 演算器
AC0~AC31 アキュムレータ
AD0~AD39 加算器
AR0~AR39 桁レジスタ
Claims (5)
- 固定小数点データに対する演算命令をそれぞれ実行する、所定数毎に組にされた複数の演算器と、
各前記組に対応して配置され、対応する組に含まれる各前記演算器から演算結果を順番に取得する取得部と、
前記取得部により取得された前記演算結果の最下位ビット位置から最上位ビットと異なるビット値を持つビット位置のうちの最上位ビット位置又は最下位ビット位置までの範囲に対応するそれぞれのビット位置にフラグビットを設定することで得られるビットパターンを生成するビットパターン生成部と、
前記ビットパターン生成部により生成されたビットパターンを各ビット位置に対応する桁ごとに累積した統計情報を取得する統計情報取得部と
を備えたことを特徴とする演算処理装置。 - 前記取得部により取得された前記演算結果の最上位ビットと異なるビット値を持つビット位置のうちの最上位ビット位置又は最下位ビット位置を示す位置情報を生成する位置情報生成部をさらに備え、
前記ビットパターン生成部は、前記位置情報を前記位置情報生成部から取得し、取得した前記位置情報を基に前記ビットパターンを生成する
ことを特徴とする請求項1に記載の演算処理装置。 - 前記演算器により算出された前記演算結果を格納する、所定長を有する格納領域をさらに備え、
前記取得部は、前記格納領域から前記演算結果を取得し、
前記取得部と前記位置情報生成部とは、前記所定長の幅を有する第1信号経路で接続され、
前記位置情報生成部と前記ビットパターン生成部とは、前記所定長より短い前記位置情報の幅を有する第2信号経路で接続される
ことを特徴とする請求項2に記載の演算処理装置。 - 前記取得部は、前記対応する組に含まれる各前記演算器のうちのいずれに接続するかを選択可能な信号経路により前記対応する組に含まれる各前記演算器と接続されることを特徴とする請求項1に記載の演算処理装置。
- 固定小数点データに対する演算命令をそれぞれ実行する、所定数毎に組にされた複数の演算器を有する演算処理装置の制御方法であって、
前記組毎に含まれる各前記演算器から演算結果を順番に取得し、
取得した前記演算結果の最下位ビット位置から最上位ビットと異なるビット値を持つビット位置のうちの最上位ビット位置又は最下位ビット位置までの範囲に対応するそれぞれのビット位置にフラグビットを設定することで得られるビットパターンを生成し、
生成したビットパターンを各ビット位置に対応する桁ごとに累積した統計情報を取得する
ことを特徴とする演算処理装置の制御方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020552441A JP7036224B2 (ja) | 2018-10-24 | 2018-10-24 | 演算処理装置及び演算処理装置の制御方法 |
PCT/JP2018/039574 WO2020084723A1 (ja) | 2018-10-24 | 2018-10-24 | 演算処理装置及び演算処理装置の制御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/039574 WO2020084723A1 (ja) | 2018-10-24 | 2018-10-24 | 演算処理装置及び演算処理装置の制御方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020084723A1 true WO2020084723A1 (ja) | 2020-04-30 |
Family
ID=70330597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2018/039574 WO2020084723A1 (ja) | 2018-10-24 | 2018-10-24 | 演算処理装置及び演算処理装置の制御方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7036224B2 (ja) |
WO (1) | WO2020084723A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4016281A1 (en) | 2020-12-15 | 2022-06-22 | Fujitsu Limited | Arithmetic processing device, arithmetic processing method, and arithmetic processing program |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018124681A (ja) * | 2017-01-30 | 2018-08-09 | 富士通株式会社 | 演算処理装置、情報処理装置、方法、およびプログラム |
-
2018
- 2018-10-24 JP JP2020552441A patent/JP7036224B2/ja active Active
- 2018-10-24 WO PCT/JP2018/039574 patent/WO2020084723A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018124681A (ja) * | 2017-01-30 | 2018-08-09 | 富士通株式会社 | 演算処理装置、情報処理装置、方法、およびプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4016281A1 (en) | 2020-12-15 | 2022-06-22 | Fujitsu Limited | Arithmetic processing device, arithmetic processing method, and arithmetic processing program |
Also Published As
Publication number | Publication date |
---|---|
JP7036224B2 (ja) | 2022-03-15 |
JPWO2020084723A1 (ja) | 2021-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6540770B2 (ja) | 演算処理回路、演算処理回路を含む演算処理装置、演算処理装置を含む情報処理装置、および方法 | |
CN107832082B (zh) | 一种用于执行人工神经网络正向运算的装置和方法 | |
JP6865805B2 (ja) | 計算装置と計算方法 | |
JP6528893B1 (ja) | 学習プログラム、学習方法、情報処理装置 | |
CN110163359B (zh) | 一种计算装置及方法 | |
JP2019148896A (ja) | 演算処理装置、情報処理装置、情報処理方法、およびプログラム | |
JP6540841B1 (ja) | 演算処理装置、情報処理装置、情報処理方法、およびプログラム | |
JP2021524082A (ja) | ニューラル・ネットワーク処理要素 | |
EP3474134A1 (en) | Generating randomness in neural networks | |
JP2023516521A (ja) | 量子誤り訂正復号システム、方法、フォールトトレラント量子誤り訂正システム及びチップ | |
JP7292297B2 (ja) | 確率的丸めロジック | |
Jovanović et al. | A survey of hardware self-organizing maps | |
Geng et al. | CQNN: a CGRA-based QNN framework | |
WO2020084723A1 (ja) | 演算処理装置及び演算処理装置の制御方法 | |
US11551087B2 (en) | Information processor, information processing method, and storage medium | |
EP3841461A1 (en) | Digital circuit with compressed carry | |
CN116362314A (zh) | 一种存算一体装置和计算方法 | |
JP7371499B2 (ja) | 演算処理装置、演算処理装置の制御方法及び演算処理プログラム | |
JP2021140493A (ja) | 情報処理装置、情報処理方法およびプログラム | |
EP0780759A1 (en) | Elimination of math overflow flag generation delay in an alu | |
US20240111525A1 (en) | Multiplication hardware block with adaptive fidelity control system | |
JP2021124849A (ja) | 演算処理装置、演算処理装置の制御方法及び演算処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18937969 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2020552441 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 18937969 Country of ref document: EP Kind code of ref document: A1 |