WO2022029825A1

WO2022029825A1 - 演算回路及びａｉ処理モジュール

Info

Publication number: WO2022029825A1
Application number: PCT/JP2020/029639
Authority: WO
Inventors: 昌一後藤; 幸嗣小畑; 勝笹子; 雅通中川; 寛之後明
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2022-02-10

Abstract

ＡＩ（Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｉｇｅｎｃｅ）処理を行う演算回路（１）は、入力データを記憶するためのメモリ（１０）から入力データの一部を第１処理単位で順次読み出し、読み出したデータに対して、ＡＩ処理に含まれる第１演算を行う第１演算部（２０）と、入力データに対する第１演算の結果である演算結果データを記憶するためのメモリ（３０）と、メモリ（３０）から演算結果データの少なくとも一部を第２処理単位で順次読み出し、読み出したデータに対して、ＡＩ処理に含まれる第２演算を行う第２演算部（４０）と、を備える。第２演算部（４０）は、入力データに対する第１演算が完了する前に、第２演算を開始する。

Description

演算回路及びＡＩ処理モジュール

　本開示は、演算回路及びＡＩ処理モジュールに関する。

　近年、人工知能（ＡＩ）に用いられる様々な演算処理（以下、ＡＩ処理と記載する）を高速に行うことが期待されている。例えば、特許文献１には、畳み込みニューラルネットワークで行われる積和演算を効率良く行うことができる半導体装置が開示されている。畳み込みニューラルネットワークでは、畳み込み層及びプーリング層などの複数の層が含まれている。例えば、畳み込み層では畳み込み演算が実行されるといったように、各層（レイヤ）において対応する演算処理が行われる。

国際公開第２０１８／２１１３４９号

　上記従来の半導体装置では、各レイヤ間でデータを受け渡すためのメモリが必要である。当該メモリのメモリ容量は、各レイヤの演算を実行する演算回路の回路規模に依存して大きくなる。メモリ容量が大きくなると、メモリへのアクセス時間も長くなるので、処理の高速化が難しい。

　そこで、本開示は、ＡＩ処理を高速に実行することができる演算回路及びＡＩ処理モジュールを提供する。

　本開示の一態様に係る演算回路は、ＡＩ（Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｉｇｅｎｃｅ）処理を行う演算回路であって、入力データを記憶するための第１メモリから前記入力データを第１処理単位で順次読み出し、読み出したデータに対して、前記ＡＩ処理に含まれる第１演算を行う第１演算部と、前記入力データに対する前記第１演算の結果である演算結果データを記憶するための第２メモリと、前記第２メモリから前記演算結果データを第２処理単位で順次読み出し、読み出したデータに対して、前記ＡＩ処理に含まれる第２演算を行う第２演算部と、を備え、前記第２演算部は、前記入力データに対する前記第１演算が完了する前に、前記第２演算を開始する。

　本開示の一態様に係るＡＩ処理モジュールは、上記一態様に係る演算回路を複数備え、複数の前記演算回路は、タイル状又はレイヤ状に配置されている。

　本開示によれば、ＡＩ処理を高速に実行することができる。

図１は、実施の形態に係る演算回路の構成を示すブロック図である。図２は、従来の演算回路の処理を示す図である。図３は、実施の形態に係る演算回路による処理を示す図である。図４は、実施の形態に係るＡＩ処理モジュールを示す模式的な斜視図である。図５は、実施の形態に係るＡＩ処理モジュールが備えるシステムチップの構成を示すブロック図である。図６は、実施の形態に係るＡＩ処理モジュールが備える演算ダイの平面レイアウトの一例を示す平面図である。図７は、実施の形態に係る演算ダイが備えるＡＩ処理ブロックの構成を示すブロック図である。図８は、実施の形態に係るＡＩ処理ブロックの演算部の構成を示すブロック図である。図９は、実施の形態に係るＡＩ処理モジュールが備える演算ダイの平面レイアウトの別の一例を示す平面図である。

　（本開示の概要）
　本開示の一態様に係る演算回路は、ＡＩ処理を行う演算回路であって、入力データを記憶するための第１メモリから前記入力データを第１処理単位で順次読み出し、読み出したデータに対して、前記ＡＩ処理に含まれる第１演算を行う第１演算部と、前記入力データに対する前記第１演算の結果である演算結果データを記憶するための第２メモリと、前記第２メモリから前記演算結果データを第２処理単位で順次読み出し、読み出したデータに対して、前記ＡＩ処理に含まれる第２演算を行う第２演算部と、を備え、前記第２演算部は、前記入力データに対する前記第１演算が完了する前に、前記第２演算を開始する。

　これにより、入力データに対する第１演算が完了する前に第２演算が開始されるので、演算回路は、ＡＩ処理を高速に実行することができる。また、第２メモリは、入力データに対応する演算結果データの全てを記憶する必要はなく、第２演算に必要なデータのみを記憶すればよいので、第２メモリのメモリ容量が小さくてもよい。このため、第２メモリとして小型で高速アクセス可能なメモリを利用することができるので、演算回路は、ＡＩ処理をさらに高速に実行することができる。

　また、例えば、前記第１演算部及び前記第２演算部の少なくとも一方は、前記第１演算又は前記第２演算として畳み込み演算を行う積和演算回路を含んでもよい。

　これにより、一のレイヤに対して入力される入力データの全てに対する畳み込み演算が完了する前に次の演算が開始されるので、又は、前の演算が全て完了する前に次の畳み込み演算が開始されるので、演算回路は、ＡＩ処理を高速に実行することができる。例えば、演算回路は、畳み込みニューラルネットワークにおける複数のレイヤを処理する場合において、一のレイヤの処理が完了する前に次のレイヤの処理を開始することができる。

　また、例えば、前記積和演算回路は、乗算を対数表現で行ってもよい。

　これにより、積和演算に含まれる乗算を対数表現の加算によって行うことができるので、簡単な回路構成で積和演算回路を実現することができる。

　また、例えば、前記積和演算回路は、対数表現で行われた乗算結果を実数に変換した後、加算を行ってもよい。

　これにより、対数表現で行われた乗算結果を実数に変換することで、積和演算に含まれる加算をそのまま加算として行うことができる。したがって、簡単な回路構成で積和演算回路を実現することができる。

　また、例えば、前記第２演算部は、前記演算結果データのうち前記第２処理単位分のデータが前記第２メモリに記憶される度に、前記第２演算を行ってもよい。

　これにより、第２演算に必要なデータが揃う度に第２演算を行うことができるので、第２メモリのメモリ容量をさらに小さくすることができる。

　また、例えば、前記第２メモリのメモリ容量は、前記第２処理単位のデータ容量以上で、かつ、前記入力データに対応する前記演算結果データのデータ容量よりも小さくてもよい。

　これにより、第２メモリとして小型で高速アクセス可能なメモリを利用することができるので、演算回路は、ＡＩ処理をさらに高速に実行することができる。

　また、例えば、本開示の一態様に係る演算回路は、前記第１メモリを備え、前記第１メモリのメモリ容量は、前記第１処理単位のデータ容量以上で、かつ、前記入力データのデータ容量よりも小さくてもよい。

　これにより、第１メモリとして小型で高速アクセス可能なメモリを利用することができるので、演算回路は、ＡＩ処理をさらに高速に実行することができる。

　また、本開示の一態様に係るＡＩ処理モジュールは、上記一態様に係る演算回路を複数備え、複数の前記演算回路は、タイル状又はレイヤ状に配置されている。

　これにより、上述した演算回路と同様の効果を得ることができる。

　以下では、実施の形態について、図面を参照しながら具体的に説明する。

　なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

　また、各図は、模式図であり、必ずしも厳密に図示されたものではない。したがって、例えば、各図において縮尺などは必ずしも一致しない。また、各図において、実質的に同一の構成については同一の符号を付しており、重複する説明は省略又は簡略化する。

　また、本明細書において、「上方」及び「下方」という用語は、絶対的な空間認識における上方向（鉛直上方）及び下方向（鉛直下方）を指すものではなく、積層構成における積層順を基に相対的な位置関係により規定される用語として用いる。また、「上方」及び「下方」という用語は、２つの構成要素が互いに間隔を空けて配置されて２つの構成要素の間に別の構成要素が存在する場合のみならず、２つの構成要素が互いに密着して配置されて２つの構成要素が接する場合にも適用される。

　（実施の形態）
　［１．構成］
　まず、実施の形態に係る演算回路の構成について、図１を用いて説明する。図１は、本実施の形態に係る演算回路１の構成を示すブロック図である。

　演算回路１は、ＡＩ処理を実行する。ＡＩ処理は、人工知能を利用するための各種演算処理であり、例えば、自然言語処理、音声認識処理、画像認識処理及びレコメンデーション、並びに、各種機器の制御処理などに利用される。ＡＩ処理には、例えば機械学習又はディープラーニングなどが含まれる。

　ＡＩ処理には、例えば、畳み込みニューラルネットワークの各レイヤで行われる複数の演算が含まれる。複数の演算には、畳み込み演算及びプーリング演算などが含まれる。畳み込み演算では、入力データと重み係数との積和演算が行われる。具体的には、畳み込み演算では、入力データに対して所定の処理単位毎に積和演算が行われる。

　入力データは、一のレイヤ（演算部）に入力されるデータの全てを意味する。例えば、入力データは、所定サイズの二次元画像データである。この場合、入力データのデータ量は、画像の縦×横×チャネル数で表される。例えば、２８×２８サイズのＲＧＢ画像で、１画素が８ビットの場合、入力データのデータ量は、２８×２８×３×８ビットになる。積和演算の処理単位は、重み係数の数（フィルタサイズ）である。例えば、フィルタサイズは、３×３又は５×５などである。入力データは、積和演算の処理単位より大きいデータである。なお、入力データは、音声データ又は文章データであってもよい。

　図１に示されるように、演算回路１は、メモリ１０、３０及び５０と、第１演算部２０と、第２演算部４０と、を備える。

　メモリ１０は、入力データを記憶するための第１メモリの一例である。メモリ１０は、例えば、入力データの少なくとも一部を一時的に記憶する揮発性メモリである。メモリ１０は、例えば、ＦＩＦＯ（Ｆｉｒｓｔ　Ｉｎ　Ｆｉｒｓｔ　Ｏｕｔ）メモリなどの一次元配列のラインメモリであるが、これに限定されない。メモリ１０は、ＳＲＡＭ（Ｓｔａｔｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）であってもよい。

　本実施の形態では、メモリ１０には、第１演算部２０での演算の進行具合に合わせて、入力データが所定の処理単位で順に記憶される。つまり、メモリ１０には入力データの一部のみが記憶され、第１演算部２０によって読み出される度に、入力データの他の一部が新たに記憶される。このため、メモリ１０のメモリ容量は、第１演算部２０での演算の処理単位のデータ容量以上で、かつ、入力データのデータ容量より小さくてよい。

　第１演算部２０は、メモリ１０から入力データを第１処理単位で順次読み出し、読み出したデータに対して第１演算を行う。具体的には、第１演算部２０は、第１演算として畳み込み演算を行う積和演算回路である。この場合、第１処理単位は、畳み込み演算に用いるフィルタサイズ（重み係数の個数）に相当する。フィルタサイズが３×３の場合、第１処理単位も３×３になる。１回に読み出される第１処理単位分のデータは、入力データの一部である。第１演算部２０は、第１演算の演算結果をメモリ３０に出力する。

　メモリ３０は、第１演算結果データを記憶するための第２メモリの一例である。第１演算結果データは、入力データに対する第１演算の結果である。つまり、第１演算結果データは、入力データ全体に対する第１演算の結果である。なお、畳み込み演算が入力データに対して行われた場合、その結果である第１演算結果データは、入力データのサイズより小さくなる。このサイズの減少を防ぐためのパディング処理が第１演算部２０で行われてもよい。この場合、第１演算結果データのサイズは、入力データのサイズと等しくなる。

　メモリ３０は、例えば、第１演算結果データの少なくとも一部を記憶する揮発性メモリである。メモリ３０は、例えばＦＩＦＯメモリなどの一次元配列のラインメモリであるが、これに限定されない。メモリ３０は、ＳＲＡＭであってもよい。

　本実施の形態では、メモリ３０には、第１演算部２０での演算の進行具合、及び、第２演算部４０での演算の進行具合に合わせて、第１演算結果データが所定の処理単位で順に記憶される。つまり、メモリ３０には、第１演算結果データの一部が第２演算部４０によって読み出される度に、第１演算結果データの他の一部が新たに記憶される。このため、メモリ３０のメモリ容量は、第２演算部４０での演算の処理単位のデータ容量以上で、かつ、第１演算結果データのデータ容量より小さくてよい。

　第２演算部４０は、メモリ３０から第１演算結果データを第２処理単位で順次読み出し、読み出したデータに対して第２演算を行う。具体的には、第２演算部４０は、第２演算として畳み込み演算を行う積和演算回路である。この場合、第２処理単位は、畳み込み演算に用いるフィルタサイズに相当する。フィルタサイズが３×３の場合、第２処理単位も３×３になる。１回に読み出される第２処理単位分のデータは、第１演算結果データの少なくとも一部である。第２演算部４０は、第１演算の演算結果をメモリ５０に出力する。なお、第２演算部４０は、第２演算としてプーリング演算を行ってもよい。

　メモリ５０は、第２演算結果データを記憶するための第３メモリの一例である。第２演算結果データは、第１演算結果データに対する第２演算の結果である。つまり、第２演算結果データは、入力データ全体に対する第１演算及び第２演算の結果である。第２演算結果データは、第１演算結果データと同様に、入力データのサイズより小さくてもよく、入力データのサイズに等しくてもよい。

　メモリ５０は、例えば、第２演算結果データの少なくとも一部を記憶する揮発性メモリである。メモリ５０は、例えばＦＩＦＯメモリなどの一次元配列のラインメモリであるが、これに限定されない。メモリ５０は、ＳＲＡＭであってもよい。

　なお、演算回路１は、３つ以上の演算部（レイヤ）を備えていてもよく、各演算部の間にはメモリが配置されていてもよい。

　［２．効果など］
　続いて、本実施の形態に係る演算回路１の処理及び有利な効果について、図２及び図３を用いて説明する。

　図２は、従来の演算回路の処理を示す図である。図３は、本実施の形態に係る演算回路１の処理を示す図である。各図は、３つの入力データＡ～Ｃを順に処理する場合を示している。入力データＡ～Ｃは、例えばそれぞれが１枚の二次元画像データである。

　また、各図において、レイヤＡ～Ｃはそれぞれ、ＡＩ処理に含まれる演算を表している。例えば、レイヤＡは、第１演算部２０で行われる演算であり、レイヤＢは、第２演算部４０で行われる演算である。つまり、レイヤＢの演算は、レイヤＡの演算結果データを用いて行われる。レイヤＣの演算は、レイヤＢの演算結果データを用いて行われる。

　図２に示されるように、従来の演算回路では、各レイヤの演算は、入力データに対して順に行われる。例えば、レイヤＡの演算は、入力データＡ～Ｃの各々に対して、この順で行われる。

　また、入力データＡに着目すると、入力データＡに対するレイヤＡの演算が完了した後、入力データＡの演算結果データに対してレイヤＢの演算が行われる。このため、レイヤＡからレイヤＢにデータを受け渡す際に、入力データＡの演算結果データに相当するメモリ容量が必要になる。

　このため、入力データのデータ量が大きくなる程、大容量のメモリが必要になる。大容量のメモリとしては、例えば、ＤＲＡＭ（Ｄｙｎａｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）を利用することができる。しかしながら、ＤＲＡＭは、通常、演算回路とは別のチップで構成されるので、アクセス時間が長くかかる。つまり、演算の高速化が難しい。

　これに対して、本実施の形態に係る演算回路１では、図３に示されるように、入力データＡに対するレイヤＡの演算が完了する前に、レイヤＢの演算が開始される。つまり、演算回路１では、入力データＡのうち、レイヤＡの演算が終了した一部のデータが順次メモリを介してレイヤＢに転送される。レイヤＢでは、演算に必要なデータが揃った時点で演算が開始される。つまり、レイヤＢでは、入力データＡの演算結果データの全ての到着を待つことなく、演算が開始される。

　このため、レイヤＡとレイヤＢとの間のメモリ（例えば、図１のメモリ３０）のメモリ容量は、従来よりも小さくて済む。例えば、メモリは、ＦＩＦＯメモリ又はＳＲＡＭなどの小型で、かつ、高速アクセス可能なメモリであって、演算回路１と同じチップに構成可能なオンチップメモリで実現される。

　以上のように、本実施の形態に係る演算回路１によれば、ＡＩ処理を高速に実行することができる。

　［３．ＡＩ処理モジュールの構成］
　続いて、上述した演算回路１を備えるＡＩ処理モジュールの具体的な構成について、図４を用いて説明する。図４は、本実施の形態に係るＡＩ処理モジュール１００を示す模式的な斜視図である。

　図４に示されるように、ＡＩ処理モジュール１００は、システムチップ１０１と、１つ以上のメモリダイ２０１と、１つ以上の演算ダイ３０１とを備える。ＡＩ処理モジュール１００は、ＡＩ処理を実行する半導体チップである。１つ以上のメモリダイ２０１及び１つ以上の演算ダイ３０１は、システムチップ１０１に実装されている。１つ以上のメモリダイ２０１及び１つ以上の演算ダイ３０１はそれぞれが、ベアチップである。

　本実施の形態では、図４に示されるように、システムチップ１０１は、データを記憶するメモリダイ２００と、ＡＩ処理に含まれる演算を行う演算ダイ３００と、を備える。このため、システムチップ１０１は、単独でＡＩ処理を実行することができる。つまり、ＡＩ処理モジュール１００は、メモリダイ２０１及び演算ダイ３０１のいずれも備えていなくてもよい。メモリダイ２０１及び演算ダイ３０１は、ＡＩ処理を高速化するために追加的に設けられる。メモリダイ２０１及び演算ダイ３０１はそれぞれ、メモリ容量及び演算能力を向上させるために必要な個数設けられる。

　複数のメモリダイ２０１は、メモリダイ２００の上方に積層される。メモリダイ２０１の個数を増やす程、ＡＩ処理に利用可能なメモリ容量を増やすことができる。メモリダイ２０１の個数は、ＡＩ処理モジュール１００に要求されるメモリ容量に応じて決定される。メモリ容量は、メモリダイの個数に比例して向上する。

　複数の演算ダイ３０１は、演算ダイ３００の上方に積層される。演算ダイ３０１の個数を増やす程、ＡＩ処理に利用できる演算能力を増やすことができる。演算ダイ３０１の個数は、ＡＩ処理モジュール１００に要求される演算能力に応じて決定される。

　演算能力は、例えば、単位時間当たりに実行可能な命令数（ＴＯＰＳ：Ｔｅｒａ　Ｏｐｅｒａｔｉｏｎｓ　Ｐｅｒ　Ｓｅｃｏｎｄ）である。例えば、１つの演算ダイ３０１は、１Ｗの消費電力で４０ＴＯＰＳの命令実行能力を有する。図４に示される例では、演算ダイ３００を含めて合計７つの演算ダイが積層されているので、ＡＩ処理モジュール１００は、７Ｗの消費電力で２８０ＴＯＰＳの命令実行能力を有する。このように、ＡＩ処理モジュール１００の処理能力は、演算ダイの個数に比例して向上する。

　以上のように、ＡＩ処理モジュール１００では、メモリダイ及び演算ダイがそれぞれ、必要に応じた個数を積層可能に構成されている。つまり、メモリ容量が必要な場合は、メモリダイ２０１を必要な個数積層することができる。演算能力が必要な場合は、演算ダイ３０１を必要な個数積層することができる。メモリ容量及び演算能力の両方が必要な場合は、メモリダイ２０１及び演算ダイ３０１をそれぞれ必要な個数積層することができる。このように、ＡＩ処理モジュール１００の性能を簡単にスケーラブルに変更することができる。このため、ＡＩ処理モジュール１００の処理能力を簡単に向上させることができる。

　［３－１．システムチップ］
　次に、システムチップ１０１の構成について、図５を用いて説明する。図５は、本実施の形態に係るＡＩ処理モジュール１００が備えるシステムチップ１０１の構成を示すブロック図である。

　システムチップ１０１は、ＡＩ処理モジュール１００の全体を制御する。具体的には、システムチップ１０１は、複数のメモリダイ２００及び２０１並びに複数の演算ダイ３００及び３０１を制御する。

　図５に示されるように、システムチップ１０１は、マイクロコントローラ１１０と、システムバス１２０と、外部インタフェース１３０と、画像処理エンジン１４０と、ＤＲＡＭコントローラ１５０と、ＡＩアクセラレータ１６０と、を備える。

　マイクロコントローラ１１０は、システムチップ１０１全体の制御を行う制御ブロックの一例である。マイクロコントローラ１１０は、システムバス１２０を介して、外部インタフェース１３０、画像処理エンジン１４０、ＤＲＡＭコントローラ１５０及びＡＩアクセラレータ１６０の各々との間でデータ及び情報の送受信を行い、演算及び命令を実行する。図５に示されるように、マイクロコントローラ１１０は、複数のＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１１と、Ｌ２キャッシュ１１２と、を備える。なお、マイクロコントローラ１１０が備えるＣＰＵ１１１の個数は、１個のみでもよい。また、マイクロコントローラ１１０は、Ｌ２キャッシュ１１２を備えていなくてもよい。

　マイクロコントローラ１１０は、メモリダイ２００及び複数のメモリダイ２０１の中から選択した任意のメモリダイに、ＡＩ処理に必要なデータを記憶させる。つまり、一のメモリダイ２００又は２０１に記憶可能なデータは、他のメモリダイ２００又は２０１にも記憶することができる。マイクロコントローラ１１０は、積層された全てのメモリダイ２０１を有効なメモリ領域として利用する。新たにメモリダイ２０１が積層された場合、マイクロコントローラ１１０は、新たなメモリダイ２０１を既存のメモリダイ２００又は２０１と同等に制御することができる。

　また、マイクロコントローラ１１０は、演算ダイ３００及び複数の演算ダイ３０１の中から選択した任意の演算ダイに、ＡＩ処理に含まれる演算を実行させる。つまり、一の演算ダイ３００又は３０１が実行可能な命令は、他の演算ダイ３００又は３０１が実行することもできる。マイクロコントローラ１１０は、積層された全ての演算ダイ３０１を有効な演算回路として利用する。新たに演算ダイ３０１が積層された場合、マイクロコントローラ１１０は、新たな演算ダイ３０１を既存の演算ダイ３００又は３０１と同等に制御することができる。

　システムバス１２０は、データ及び信号などの送受信に利用される配線である。システムバス１２０には、マイクロコントローラ１１０、外部インタフェース１３０、画像処理エンジン１４０、ＤＲＡＭコントローラ１５０及びＡＩアクセラレータ１６０が電気的に接続され、互いに通信可能である。

　外部インタフェース１３０は、ＡＩ処理モジュール１００とは異なる外部装置とのデータ及び信号の送受信を行うためのインタフェースである。

　画像処理エンジン１４０は、画像信号又は映像信号を処理する信号処理回路である。例えば、画像処理エンジン１４０は、画質調整処理などを実行する。

　ＤＲＡＭコントローラ１５０は、ＡＩ処理モジュール１００とは異なる外部メモリ（具体的には、ＤＲＡＭ）に対するデータの読み出し及び書き込みなどを行うメモリコントローラである。

　ＡＩアクセラレータ１６０は、ＡＩ処理を高速に行う信号処理回路である。図５に示されるように、ＡＩアクセラレータ１６０は、内部バス１６１と、メモリダイ２００と、演算ダイ３００と、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）４００とを備える。

　内部バス１６１は、ＡＩアクセラレータ１６０内でのデータ及び信号などの送受信に利用される配線である。内部バス１６１には、メモリダイ２００、演算ダイ３００及びＤＳＰ４００が電気的に接続され、互いに通信可能である。内部バス１６１は、複数のメモリダイ２０１及び複数の演算ダイ３０１に対するデータ及び信号などの送受信にも利用される。内部バス１６１とシステムバス１２０とは、マイクロコントローラ１１０と、複数のメモリダイ２００及び２０１並びに複数の演算ダイ３００及び３０１とを電気的に接続するバスを構成している。

　メモリダイ２００は、ＡＩ処理モジュール１００が備える１以上のメモリダイの１つである。図４に示されるように、メモリダイ２００が有するレイアウトパターン（第１レイアウトパターン）の上方に複数のメモリダイ２０１が積層されている。

　演算ダイ３００は、ＡＩ処理モジュール１００が備える１以上の演算ダイの１つである。図４に示されるように、演算ダイ３００が有するレイアウトパターン（第２レイアウトパターン）の上方に複数の演算ダイ３０１が積層されている。

　ＤＳＰ４００は、ＡＩ処理に関わるデジタル信号処理を行うプロセッサである。

　なお、システムチップ１０１の構成は、図５に示される例に限定されない。例えば、システムチップ１０１は、画像処理エンジン１４０を備えなくてもよい。システムチップ１０１は、所定の処理に専用の信号処理回路などを備えてもよい。

　［３－２．演算ダイ］
　次に、演算ダイ３００及び３０１の構成について、図６を用いて説明する。図６は、本実施の形態に係るＡＩ処理モジュール１００が備える演算ダイ３００及び３０１の平面レイアウトの一例を示す平面図である。

　演算ダイ３００と複数の演算ダイ３０１の各々とは、同じレイアウトパターンを有する。具体的には、演算ダイ３００と複数の演算ダイ３０１の各々とは、同一の構成を有し、各々の演算能力が同じである。以下では、演算ダイ３０１の構成を中心に説明する。

　演算ダイ３０１は、書き換え可能回路を有する。具体的には、演算ダイ３０１は、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）である。図６に示されるように、演算ダイ３０１は、１つ以上のＡＩ処理ブロック３１０と、１つ以上の論理ブロック３２０と、１つ以上のスイッチブロック３３０と、１つ以上の入出力ポート３４０と、１つ以上の接続ブロック３５０と、１つ以上の配線３６０と、を備える。１つ以上のＡＩ処理ブロック３１０と、１つ以上の論理ブロック３２０と、１つ以上のスイッチブロック３３０と、１つ以上の入出力ポート３４０と、１つ以上の接続ブロック３５０と、１つ以上の配線３６０とは、演算ダイ３０１を構成するシリコン基板の表面又は内部に形成されている。演算ダイ３０１のレイアウトパターンは、ＡＩ処理ブロック３１０、論理ブロック３２０、スイッチブロック３３０、入出力ポート３４０、接続ブロック３５０及び配線３６０の各々の大きさ、形状、個数及び配置によって表される。

　１つ以上のＡＩ処理ブロック３１０はそれぞれ、ＡＩ処理用のアクセラレータ回路である。ＡＩ処理ブロック３１０は、図１に示される演算回路１の少なくとも一部を構成している。例えば、一のＡＩ処理ブロック３１０は、第１演算部２０とメモリ３０とを備える。また、別の一のＡＩ処理ブロック３１０は、第２演算部４０とメモリ５０とを備える。また、別の一のＡＩ処理ブロック３１０は、メモリ１０を備える。このように、演算回路１は、２つ以上のＡＩ処理ブロック３１０によって構成されている。ＡＩ処理ブロック３１０の具体的な構成については、図７を用いて後で説明する。

　１つ以上の論理ブロック３２０はそれぞれ、論理演算を行う演算回路である。１つ以上のＡＩ処理ブロック３１０と１つ以上の論理ブロック３２０とは、タイル状に並んで配置されている。例えば、図６に示される例では、１つ以上のＡＩ処理ブロック３１０と１つ以上の論理ブロック３２０とは、３行×３列に並んで配置されており、各ブロックは、スイッチブロック３３０及び接続ブロック３５０を介して配線３６０によって電気的に接続されている。なお、ＡＩ処理ブロック３１０の個数は、１個のみでもよく、特に限定されない。

　１つ以上のスイッチブロック３３０はそれぞれ、スイッチブロック３３０の隣に位置する２つ～４つの接続ブロック３５０の接続関係を切り替える切替回路である。

　１つ以上の入出力ポート３４０はそれぞれ、演算ダイ３０１に対するデータ及び信号の入出力を行う端子である。演算ダイ３０１は、入出力ポート３４０を介して、上下に積層された演算ダイ３００又は３０１と接続される。演算ダイ３０１は、演算ダイ３００と接続されており、演算ダイ３００を介して内部バス１６１及びシステムバス１２０に接続される。図６に示される例では、１つ以上の入出力ポート３４０が演算ダイ３０１の外周に沿って環状に配置されているが、これに限らない。例えば、１つ以上の入出力ポート３４０は、演算ダイ３０１の中央に設けられていてもよい。

　１つ以上の接続ブロック３５０はそれぞれ、接続ブロック３５０の隣に位置するＡＩ処理ブロック３１０、論理ブロック３２０及びスイッチブロック３３０と接続するための回路である。

　１つ以上の配線３６０は、入出力ポート３４０とＡＩ処理ブロック３１０及び論理ブロック３２０などとを接続する電気配線であり、データの送受信に用いられる。図６に示される例では、１つ以上の配線３６０は、格子状に設けられているが、ストライプ状であってもよい。

　演算ダイ３０１は、スイッチブロック３３０及び接続ブロック３５０において、入出力ポート３４０、ＡＩ処理ブロック３１０及び論理ブロック３２０の接続関係が切り替えられることにより、特定の演算処理を行うことができる。スイッチブロック３３０及び接続ブロック３５０の切り替えは、例えば、図示されないメモリに記憶された構成情報（コンフィギュレーションデータ）を用いて行われる。

　なお、演算ダイ３００及び３０１のレイアウトは、図６に示される例に限定されない。具体的には、ＡＩ処理ブロック３１０及び論理ブロック３２０などの各々の個数、形状及び配置は、特に限定されない。スイッチブロック３３０、入出力ポート３４０、接続ブロック３５０及び配線３６０についても同様である。

　［３－３．ＡＩ処理ブロック］
　次に、ＡＩ処理ブロック３１０の具体的な構成について、図７を用いて説明する。図７は、本実施の形態に係る演算ダイ３００及び３０１が備えるＡＩ処理ブロック３１０の構成を示すブロック図である。

　図７に示されるＡＩ処理ブロック３１０は、例えば、入力データがＲＧＢ画像データである場合に、入力データに対して３チャネルのフィルタ処理を行う例を示している。具体的には、図７に示されるように、ＡＩ処理ブロック３１０は、複数の演算部２１～２３と、複数の加算部６１～６３と、複数のメモリ３１～３３と、重みメモリ７０と、を備える。演算部２１～２３の各々は、フィルタ処理のチャネル数に相当する数、すなわち、３つずつ設けられている。例えば、演算部２１、加算部６１及びメモリ３１は、Ｒ画像の処理を行う。演算部２２、加算部６２及びメモリ３２は、Ｇ画像の処理を行う。演算部２３、加算部６３及びメモリ３３は、Ｂ画像の処理を行う。

　入力データであるＲＧＢ画像データは、メモリ１１～１３にそれぞれ記憶される。例えば、メモリ１１には、Ｒ画像データが記憶されて、メモリ１２には、Ｇ画像データが記憶されて、メモリ１３には、Ｂ画像データが記憶されていてもよい。あるいは、メモリ１１～１３の各々には、Ｒ画像データ、Ｇ画像データ及びＢ画像データの各々が記憶されてもよい。

　メモリ１１～１３は、図１に示されるメモリ１０の一例であり、互いに同じ構成を有する。演算部２１～２３は、図１に示される第１演算部２０の一例であり、互いに同じ構成を有する。メモリ３１～３３は、図１に示されるメモリ３０の一例であり、互いに同じ構成を有する。加算部６１～６３は、互いに同じ構成を有する。以下では、演算部２１、加算部６１、メモリ３１及び重みメモリ７０について説明し、他の構成要素の説明を省略する。

　演算部２１は、畳み込み演算を行う。具体的には、演算部２１は、入力データ画像と重みとの積和演算を行う積和演算回路を含む。演算部２１の具体的な構成については、図８を用いて後で説明する。

　加算部６１は、３つの演算部２１による演算結果を加算する。また、加算部６１は、バイアス加算、及び、活性化関数の計算処理を行ってもよい。なお、ＡＩ処理ブロック３１０は、加算部６１を備えていなくてもよい。

　メモリ３１は、加算部６１による加算結果を記憶する。メモリ３１に記憶された加算結果は、次の第２演算部４０での処理に用いられる。つまり、メモリ３１は、他のＡＩ処理ブロック３１０に含まれる演算部２１にとってのメモリ１１と同じ機能を果たす。なお、メモリ３１は、ＡＩ処理ブロック３１０以外のブロック又は回路に設けられていてもよい。あるいは、ＡＩ処理ブロック３１０は、メモリ３１の代わりに、又は、メモリ３１に加えてメモリ１１を備えていてもよい。

　重みメモリ７０は、畳み込み演算に用いる重みを記憶するメモリである。なお、演算部２１が畳み込み演算以外の演算（例えば、プーリング演算）を行う場合、ＡＩ処理ブロック３１０は、重みメモリ７０を備えなくてもよい。あるいは、重みメモリ７０は、ＡＩ処理ブロック３１０以外のブロック又は回路に設けられていてもよい。

　［３－４．演算部］
　次に、図７に示される演算部２１の具体的な構成について、図８を用いて説明する。図８は、本実施の形態に係るＡＩ処理ブロック３１０の演算部２１の構成を示すブロック図である。

　図８に示されるように、演算部２１は、複数の乗算部５１１～５１９と、実数変換付き加算部５２０と、対数変換部５３０と、バッファメモリ５４０と、を備える。図８に示される演算部２１は、３×３の重み（フィルタ）を利用した畳み込み演算を行う回路である。演算部２１は、メモリ１１～１３の各々から、畳み込み演算に必要なデータを読み出し、読み出したデータをバッファメモリ５４０に一時的に記憶する。

　バッファメモリ５４０は、メモリ１１～１３に記憶された入力データを一時的に記憶するためのメモリである。バッファメモリ５４０は、例えばフリップフロップ回路で構成されている。バッファメモリ５４０には、メモリ１１～１３のいずれかに記憶された３×３の入力値ａ_１～ａ_９が記憶されている。バッファメモリ５４０に記憶されるデータは、演算の進行に合わせて更新される。入力値ａ_１～ａ_９は、入力データの一部であり、演算部２１における演算の処理単位分のデータである。例えば、入力値ａ_１～ａ_９は全て、Ｒ画像（Ｇ画像又はＢ画像でもよい）に含まれる画素値であり、Ｒ画像に対する畳み込み演算が行われる。Ｒ画像の畳み込み演算に用いられる重みｗ_ｉと、Ｇ画像又はＢ画像の畳み込み演算に用いられる重みｗ_ｉとは同じ値でもよく、異なる値でもよい。

　乗算部５１１～５１９はそれぞれ、バッファメモリ５４０に記憶された入力値ａ_ｉ（ｉは自然数）と、重みメモリ７０に記憶された重みｗ_ｉとの乗算を行う。乗算は、ａ_ｉ×ｗ_ｉで表される。本実施の形態では、乗算部５１１～５１９は、乗算を対数表現で行う。つまり、ａ_ｉ×ｗ_ｉの対数をとることにより、以下の式（１）に示されるように、乗算を加算に置き換えることができる。

　（１）　ｌｏｇ（ａ_ｉ×ｗ_ｉ）＝ｌｏｇ（ａ_ｉ）＋ｌｏｇ（ｗ_ｉ）

　加算に置き換えることによって、２進数での加算器を簡単に構成することができる。なお、重みｗ_ｉ及び入力値ａ_ｉはそれぞれ、対数変換後の値が重みメモリ７０又はバッファメモリ５４０に記憶される。

　実数変換付き加算部５２０は、乗算部５１１～５１９の乗算結果を実数に変換した後、加算を行う。つまり、実数変換付き加算部５２０は、式（１）の右辺の結果を実数に変換した後、ｉ＝１～９についての加算を行う。つまり、実数変換付き加算部５２０は、以下の式（２）を行う。

　（２）　Σ（ａ_ｉ×ｗ_ｉ）

　対数変換部５３０は、式（２）の演算結果を対数に変換する。対数に変換された演算結果は、図７に示される加算部６１に出力され、メモリ３１に記憶される。

　なお、対数変換を行う際に誤差が発生して画質の劣化を発生させうるため、一般的な画像処理では対数変換は行われない。しかしながら、ＡＩ処理では、誤差拡散法などの誤差を考慮した処理を行うことができるので、対数変換を利用可能である。このため、演算回路を簡単にすることができる。回路構成の簡単化によって、演算回路の小面積化を実現することができる。また、演算回路の消費電力を低減することができる。

　なお、演算部２１では、乗算部５１１～５１９は、入力データと重みとの乗算を対数表現の加算で行う代わりに、入力データの実数値と対数表現の重みとのシフト演算で行ってもよい。この場合、演算部２１は、対数変換部５３０を備えなくてもよい。また、演算部２１は、実数変換付き加算部５２０の代わりに、通常の（実数変換機能を有しない）加算部を備えてもよい。バッファメモリ５４０には、入力値ａ_ｉそのものが記憶される。

　［３－５．演算ダイの変形例］
　続いて、演算ダイ３００及び３０１の変形例について説明する。１つ以上のＡＩ処理ブロック３１０と１つ以上の論理ブロック３２０の配置は、図６に示されるようなタイル状に限定されることはなく、図９に示されるように、レイヤ状であってもよい。

　図９は、実施の形態に係るＡＩ処理モジュール１００が備える演算ダイ３００及び３０１の平面レイアウトの別の一例を示す平面図である。

　図９に示される例では、ＡＩ処理ブロック３１０ａは、図６に示される複数のＡＩ処理ブロック３１０を含んでいる。例えば、ＡＩ処理ブロック３１０ａは、図１に示される演算回路１と同じであってもよく、第１演算部２０及び第２演算部４０を含んでいる。論理ブロック３２０ａは、図６に示される複数の論理ブロック３２０を含んでいる。

　演算ダイ３００及び３０１に含まれる各処理ブロックの配置は、特に限定されない。例えば、各処理ブロックの平面視における大きさは、互いに等しくてもよく、互いに異なっていてもよい。例えば、複数のＡＩ処理ブロック３１０ａは、互いに大きさが異なっていてもよい。論理ブロック３２０ａについても同様である。

　（他の実施の形態）
　以上、１つ又は複数の態様に係る演算回路及びＡＩ処理モジュールについて、実施の形態に基づいて説明したが、本開示は、これらの実施の形態に限定されるものではない。本開示の主旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したもの、及び、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の範囲内に含まれる。

　例えば、演算回路１は、メモリ１０及び５０の少なくとも一方を備えていなくてもよい。具体的には、メモリ１０及び５０の少なくとも一方は、演算回路１の外部に設けられた大容量のメモリであってもよい。メモリ１０及び５０の少なくとも一方は、ＤＲＡＭであってもよい。メモリ１０のメモリ容量は、入力データのデータ容量以上であってもよい。メモリ５０のメモリ容量は、入力データに対応する第２演算の演算結果データのデータ容量以上であってもよい。

　また、上記の実施の形態において、特定の処理部が実行する処理を別の処理部が実行してもよい。また、複数の処理の順序が変更されてもよく、あるいは、複数の処理が並行して実行されてもよい。

　また、上記の実施の形態は、請求の範囲又はその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

　本開示は、ＡＩ処理を高速に実行することができる演算回路及びＡＩ処理モジュールなどとして利用でき、例えば、各種電化製品及びコンピュータ機器などに利用することができる。

１　演算回路
１０、１１、１２、１３、３０、３１、３２、３３、５０　メモリ
２０　第１演算部
２１、２２、２３　演算部
４０　第２演算部
６１、６２、６３　加算部
７０　重みメモリ
１００　ＡＩ処理モジュール
１０１　システムチップ
１１０　マイクロコントローラ
１１１　ＣＰＵ
１１２　Ｌ２キャッシュ
１２０　システムバス
１３０　外部インタフェース
１４０　画像処理エンジン
１５０　ＤＲＡＭコントローラ
１６０　ＡＩアクセラレータ
１６１　内部バス
２００、２０１　メモリダイ
３００、３０１　演算ダイ
３１０、３１０ａ　ＡＩ処理ブロック
３２０、３２０ａ　論理ブロック
３３０　スイッチブロック
３４０　入出力ポート
３５０　接続ブロック
３６０　配線
４００　ＤＳＰ
５１１、５１２、５１３、５１４、５１５、５１６、５１７、５１８、５１９　乗算部
５２０　実数変換付き加算部
５３０　対数変換部
５４０　バッファメモリ

Claims

　ＡＩ（Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｉｇｅｎｃｅ）処理を行う演算回路であって、
　入力データを記憶するための第１メモリから前記入力データを第１処理単位で順次読み出し、読み出したデータに対して、前記ＡＩ処理に含まれる第１演算を行う第１演算部と、
　前記入力データに対する前記第１演算の結果である演算結果データを記憶するための第２メモリと、
　前記第２メモリから前記演算結果データを第２処理単位で順次読み出し、読み出したデータに対して、前記ＡＩ処理に含まれる第２演算を行う第２演算部と、を備え、
　前記第２演算部は、前記入力データに対する前記第１演算が完了する前に、前記第２演算を開始する、
　演算回路。
　前記第１演算部及び前記第２演算部の少なくとも一方は、前記第１演算又は前記第２演算として畳み込み演算を行う積和演算回路を含む、
　請求項１に記載の演算回路。
　前記積和演算回路は、乗算を対数表現で行う、
　請求項２に記載の演算回路。
　前記積和演算回路は、対数表現で行われた乗算結果を実数に変換した後、加算を行う、
　請求項３に記載の演算回路。
　前記第２演算部は、前記演算結果データのうち前記第２処理単位分のデータが前記第２メモリに記憶される度に、前記第２演算を行う、
　請求項１～４のいずれか１項に記載の演算回路。
　前記第２メモリのメモリ容量は、前記第２処理単位のデータ容量以上で、かつ、前記入力データに対応する前記演算結果データのデータ容量よりも小さい、
　請求項１～５のいずれか１項に記載の演算回路。
　前記第１メモリを備え、
　前記第１メモリのメモリ容量は、前記第１処理単位のデータ容量以上で、かつ、前記入力データのデータ容量よりも小さい、
　請求項１～６のいずれか１項に記載の演算回路。
　請求項１～７のいずれか１項に記載の演算回路を複数備え、
　複数の前記演算回路は、タイル状又はレイヤ状に配置されている、
　ＡＩ処理モジュール。