JPWO2020106781A5

JPWO2020106781A5 -

Info

Publication number: JPWO2020106781A5
Application number: JP2021527941A
Authority: JP
Publication date: 2022-11-22
Anticipated expiration: 2039-11-19

Claims

出力アクティベーションを生成するためにカーネルの重みによって修正された入力値の畳み込みを効率的に計算する方法であって、
入力ストリーム生成器で、前記カーネルと、前記入力値を含む入力テンソルとを受け取るステップと、
前記入力ストリーム生成器によって、前記入力テンソルを複数のタイルに分割するステップであって、各タイルは、前記カーネルのサイズに等しいサイズを有する、ステップと、
前記入力ストリーム生成器によって、前記複数のタイル内の前記入力値を複数の平滑化された入力ベクトルに平滑化するステップと、
拡張カーネル生成器によって、前記カーネルを複数のカーネルベクトルを有する前記カーネルの拡張バージョンに拡張するステップであって、前記カーネルベクトルの数が前記入力テンソルの各タイル内の要素の数に等しい、ステップと、
前記入力ストリーム生成器と前記拡張カーネル生成器とに結合される乗加算ユニットによって、前記複数の平滑化された入力ベクトルと前記複数のカーネルベクトルとの間の前記畳み込みを実行して、前記入力テンソルの各タイルについての前記出力アクティベーションの出力タイルを生成するステップと
を備える、方法。
前記入力ストリーム生成器によって、前記出力アクティベーションのサイズが前記入力テンソルのサイズと同じであるように、前記入力テンソルをパディング値によりパディングするステップ
をさらに備える請求項１に記載の方法。
前記入力ストリーム生成器によって、前記入力テンソルの各次元のサイズが前記カーネルの対応する次元の整数倍になるように、前記入力テンソルをパディング値によりパディングするステップ
をさらに備える請求項１に記載の方法。
前記入力ストリーム生成器によって、前記入力テンソルの各次元のトレーリングエッジを、前記カーネルの対応する次元のサイズに等しい幅を有するパディング値によりパディングするステップ
をさらに備える請求項１に記載の方法。
前記パディング値は、０の値である、請求項４に記載の方法。
前記カーネルの第１の辺と前記カーネルの第２の辺とは互いに垂直であり、前記第１の辺は、前記第２の辺とは異なる長さであり、前記方法は、
前記入力ストリーム生成器によって、前記入力テンソルにわたる前記カーネルのストライドの方向にアラインされた順序で、前記入力テンソルを分割するステップ
をさらに備える請求項１に記載の方法。
前記カーネルの第１の辺と前記カーネルの第２の辺とは互いに垂直であり、前記第１の辺は、前記第２の辺とは異なる長さであり、前記方法は、
前記入力ストリーム生成器によって、前記入力テンソルにわたる前記カーネルのストライドの方向と直交する順序で、前記入力テンソルを分割するステップ
をさらに備える請求項１に記載の方法。
前記複数のタイルの前記入力値を平滑化するステップは、
前記複数のタイルの各々について、
前記入力ストリーム生成器によって、前記各タイルの前記入力値のセットに定義された順序でアクセスするステップと、
前記入力ストリーム生成器によって、前記定義された順序に従ってベクトル内に前記アクセスされた入力値を配置するステップと、
前記入力ストリーム生成器によって、前記複数のタイルに対応する複数のベクトルを平行な構成で配置して、前記複数の平滑化された入力ベクトルを含む平滑化された入力ストリームを生成するステップと
をさらに含む請求項１に記載の方法。
前記定義された順序は、行優先順序、列優先順序、およびアイル優先順序のうちの少なくとも１つであり、前記アイル優先順序は、３次元（３Ｄ）タイル内の要素に、まず、３Ｄタイルの深さに対応する軸に沿ってアクセスし、続いて、前記３Ｄタイルの幅および前記３Ｄタイルの高さに対応する軸に沿って、アクセスする、
請求項８に記載の方法。
前記複数の平滑化された入力ベクトルを含む平滑化された入力ストリームは、バッファに記憶され、前記バッファは、乗加算演算の実行ためにハードウェアアクセラレーテッドプロセッサによって読み取られ、前記乗加算演算は、前記乗加算ユニットによって、１）制御パターンによって選択される、前記平滑化された入力ストリーム内の入力値と、２）前記複数のカーネルベクトルとの間で実行され、前記入力値を前記バッファ内へ複数回ロードすることなく、前記出力アクティベーションを生成する、
請求項１に記載の方法。
前記入力テンソルは、複数の入力チャネルを有し、前記カーネルは、複数のフィルタを有し、前記入力チャネルは、各カーネルフィルタを用いて畳み込まれて、複数の出力チャネルを有する出力が生成される、
請求項１に記載の方法。
プロセッサ回路であって、
カーネルと、入力値を含む入力テンソルとを受け取り、
前記入力テンソルを複数のタイルに分割することであって、各タイルは、前記カーネルのサイズに等しいサイズを有し、
前記複数のタイル内の前記入力値を複数の平滑化された入力ベクトルに平滑化するように構成される入力ストリーム生成器と、
前記カーネルを複数のカーネルベクトルを有する前記カーネルの拡張されたバージョンに拡張するように構成される拡張カーネル生成器であって、前記カーネルベクトルの数が前記入力テンソルの各タイル内の要素の数に等しい拡張カーネル生成器と、
前記入力ストリーム生成器と前記拡張カーネル生成器とに結合される乗加算ユニットであって、前記複数の平滑化された入力ベクトルと前記複数のカーネルベクトルとの間の畳み込みを実行し、前記入力テンソルの各タイルについての出力アクティベーションの出力タイルを生成する乗加算ユニットと、
を備える、プロセッサ回路。
前記入力ストリーム生成器は、
前記出力アクティベーションのサイズが前記入力テンソルのサイズと同じであるように、前記入力テンソルをパディング値によりパディングするようにさらに構成される請求項１２に記載のプロセッサ回路。
前記入力ストリーム生成器は、
前記入力テンソルの各次元のサイズが、前記カーネルの対応する次元の整数倍となるように、前記入力テンソルをパディング値によりパディングするようにさらに構成される請求項１２に記載のプロセッサ回路。
前記入力ストリーム生成器は、
前記入力テンソルの各次元のトレーリングエッジを、前記カーネルの対応する次元のサイズに等しい幅を有するパディング値によりパディングするようにさらに構成される請求項１２に記載のプロセッサ回路。
前記パディング値は、０の値である、請求項１５に記載のプロセッサ回路。
前記カーネルの第１の辺と前記カーネルの第２の辺とは互いに垂直であり、前記第１の辺は、前記第２の辺とは異なる長さであり、前記入力ストリーム生成器は、
前記入力テンソルにわたる前記カーネルのストライドの方向にアラインされた順序で、前記入力テンソルを分割するようにさらに構成される請求項１２に記載のプロセッサ回路。
前記カーネルの第１の辺と前記カーネルの第２の辺とは互いに垂直であり、前記第１の辺は、前記第２の辺とは異なる長さであり、前記入力ストリーム生成器は、
前記入力テンソルにわたる前記カーネルのストライドの方向と直交する順序で、前記入力テンソルを分割するようにさらに構成される請求項１２に記載のプロセッサ回路。
前記入力ストリーム生成器は、
前記複数のタイルの各々について、
前記各タイルの前記入力値のセットに定義された順序でアクセスすることと、
前記定義された順序に従って、ベクトル内に前記アクセスされた入力値を配置することと、
前記複数のタイルに対応する複数のベクトルを平行な構成で配置して、前記複数の平滑化された入力ベクトルを含む平滑化された入力ストリームを生成することと
を行うようにさらに構成される請求項１２に記載のプロセッサ回路。
前記定義された順序は、行優先順序、列優先順序、およびアイル優先順序のうちの少なくとも１つであり、前記アイル優先順序は、３次元（３Ｄ）タイル内の要素に、まず、３Ｄタイルの深さに対応する軸に沿ってアクセスし、続いて、前記３Ｄタイルの幅および前記３Ｄタイルの高さに対応する軸に沿って、アクセスする、
請求項１９に記載のプロセッサ回路。