WO2022196060A1

WO2022196060A1 - 情報処理装置、情報処理方法及び非一時的なコンピュータ可読媒体

Info

Publication number: WO2022196060A1
Application number: PCT/JP2022/000995
Authority: WO
Inventors: 宏福井
Original assignee: 日本電気株式会社
Priority date: 2021-03-15
Filing date: 2022-01-13
Publication date: 2022-09-22
Also published as: JPWO2022196060A1; US20240320957A1; JP7525051B2

Abstract

一実施の形態にかかる情報処理装置（１０）は、特徴マップから、第１の特徴に係る第１特徴マップ、第２の特徴に係る第２特徴マップ、及び第３の特徴に係る第３特徴マップを抽出する抽出手段（１１１）と、１個の第１構成要素に対応する複数個の第２構成要素を示すグリッドパターンを、各第１構成要素の位置に基づいて第２特徴マップ上でシフトすることにより、各第１構成要素について、対応する複数の第２構成要素を示す対応関係を決定する決定手段（１１２）と、対応関係から算出された第１の特徴と第２の特徴との相関関係を第３特徴マップに反映させる反映手段（１１３）を備える。

Description

情報処理装置、情報処理方法及び非一時的なコンピュータ可読媒体

　本発明は情報処理装置、情報処理方法及び非一時的なコンピュータ可読媒体に関する。

　近年、機械学習を用いた各種技術が適用されている。例えば、特許文献１には、音源の全体区間ではない一部のハイライト区間を提供するために、音源、言語又は画像から抽出した特徴から分類情報との関係を学習するニューラルネットワークを利用することが記載されている。

特表２０２０－５１６００４号公報

　この開示は、先行技術文献に開示された技術を改善することを目的とする。

　本実施形態にかかる一態様の情報処理装置は、特徴マップから、複数の第１構成要素で構成された第１の特徴に係る第１特徴マップ、複数の第２構成要素で構成された第２の特徴に係る第２特徴マップ、及び第３の特徴に係る第３特徴マップを抽出する抽出手段と、１個の前記第１構成要素に対応する複数個の前記第２構成要素を示すグリッドパターンを、各前記第１構成要素の位置に基づいて前記第２特徴マップ上でシフトすることにより、各前記第１構成要素について、対応する複数の前記第２構成要素を示す対応関係を決定する決定手段と、前記対応関係から算出された前記第１の特徴と前記第２の特徴との相関関係を前記第３特徴マップに反映させる反映手段を備える。

　本実施形態にかかる一態様の情報処理方法は、特徴マップから、複数の第１構成要素で構成された第１の特徴に係る第１特徴マップ、複数の第２構成要素で構成された第２の特徴に係る第２特徴マップ、及び第３の特徴に係る第３特徴マップを抽出し、１個の前記第１構成要素に対応する複数個の前記第２構成要素を示すグリッドパターンを、各前記第１構成要素の位置に基づいて前記第２特徴マップ上でシフトすることにより、各前記第１構成要素について、対応する複数の前記第２構成要素を示す対応関係を決定し、前記対応関係から算出された前記第１の特徴と前記第２の特徴との相関関係を前記第３特徴マップに反映することを情報処理装置が実行するものである。

　本実施形態にかかる一態様の非一時的なコンピュータ可読媒体は、特徴マップから、複数の第１構成要素で構成された第１の特徴に係る第１特徴マップ、複数の第２構成要素で構成された第２の特徴に係る第２特徴マップ、及び第３の特徴に係る第３特徴マップを抽出し、１個の前記第１構成要素に対応する複数個の前記第２構成要素を示すグリッドパターンを、各前記第１構成要素の位置に基づいて前記第２特徴マップ上でシフトすることにより、各前記第１構成要素について、対応する複数の前記第２構成要素を示す対応関係を決定し、前記対応関係から算出された前記第１の特徴と前記第２の特徴との相関関係を前記第３特徴マップに反映することを情報処理装置に実行させるプログラムが格納されたものである。

第１の関連技術を示す模式図である。第２の関連技術を示す模式図である。この開示の実施例を示す模式図である。各実施の形態にかかる情報処理装置のハードウェア構成を示すブロック図である。実施の形態１にかかる情報処理装置の機能的構成を示すブロック図である。実施の形態１にかかる情報処理装置の動作の流れを示すフローチャートである。実施の形態２にかかる情報処理装置の機能的構成を示すブロック図である。実施の形態２にかかる情報処理装置の動作の流れを示すフローチャートである。実施の形態２にかかる情報処理装置の処理をより詳細に示す模式図である。実施の形態２にかかるクエリとキーの特徴マップを示す図面である。実施の形態２にかかるクエリとキーの特徴マップを示す図面である。実施の形態２にかかるクエリとキーの特徴マップを示す図面である。実施の形態２にかかるクエリとキーの特徴マップを示す図面である。実施の形態２にかかる演算部の詳細な動作の流れを示すフローチャートである。実施の形態３にかかる情報処理装置の機能的構成を示すブロック図である。実施の形態３にかかる情報処理装置の動作の流れを示すフローチャートである。実施の形態４にかかる情報処理装置の機能的構成を示すブロック図である。実施の形態４にかかる情報処理装置の動作の流れを示すフローチャートである。実施の形態５にかかる情報処理装置の機能的構成を示すブロック図である。実施の形態６にかかる情報処理装置の処理を示す模式図である。

　＜関連技術＞
　まず、関連技術の概要について説明する。第１の関連技術として、非特許文献のX.Wang, R. Girshick, A. Gupta, K. He, “Non-Local Neural Networks”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 7794-7803, 2018. は、畳み込みニューラルネットワークの畳み込み層から得られた特徴マップを用いて、注意機構によって特徴マップに重み付けをすることで特徴抽出を改善した技術を開示している。

　また、第２の関連技術として、非特許文献のH.Zhao, J.Jia, V.Koltun,“Exploring Self-Attention for Image Recognition”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp.10076-10085, 2020. は、第１の関連技術と異なり、特徴マップの空間全体でなく、特徴マップの局所的な領域（７×７程度）を用いたパッチベースの注意機構を提案している。

　図１Ａは、第１の関連技術を示す模式図である。図１Ａでは、クエリの１構成要素（例えばピクセル）ｉに対して、キーの特徴マップの空間全体が参照されることで特徴が抽出されることを示している。第１の関連技術では、キーの特徴マップの空間全体が考慮されるため、広域的な特徴抽出が可能となる。しかしながら、キーの特徴マップ全部についての計算が必要となるので、計算コストが大きくなってしまうという課題があった。

　図１Ｂは、第２の関連技術を示す模式図である。図１Ｂでは、クエリの１構成要素ｉに対して、キーの特徴マップにおける部分領域ＡＲが参照されることで特徴が抽出されることを示している。部分領域ＡＲは、クエリの構成要素ｉに対応する、キーの構成要素i及びその周辺の近傍領域である。第２の関連技術は、２つの埋め込み特徴であるクエリとキー間の相関関係に関する計算において、計算対象となる領域が少なくなるので、第１の関連技術に比べて計算コストを下げることができる。しかしながら、部分領域ＡＲはキーの特徴マップの局所的な領域なので、注意機構の本来の目的である広域的な特徴抽出という利点が劣化する可能性が生ずるという、別の課題が生じる。

　以降の実施の形態に記載される技術は、以上の関連技術に係る課題を解決することを、目的の一つとしている。つまり、この技術は、入力される特徴マップの空間全体を考慮した特徴抽出が可能で、少ない計算コストで計算が可能な情報処理装置等を提供することができる。

　図１Ｃは、この開示の一実施例を示す模式図である。図１Ｃでは、クエリの１構成要素ｉに対して、キーの特徴マップの空間全体に分散されたグリッドパターン（チェッカーボードパターン）の領域が参照されることで特徴が抽出されることを示している。この開示において、グリッドパターンは、任意の次元のマップ上において、所定の方向における最近接の構成要素の参照領域同士の間隔が同一となる、複数の構成要素の参照領域からなるパターンである。例えば、２次元マップ上では、グリッドパターンは、１単位の長方形（例えば正方形）の各辺が任意の長さを有する格子状（grating）のパターンであり、参照領域は、格子柄における格子点を示すパターンであるともいえる。なお、グリッドパターンにおける参照領域の１単位は、キーの１構成要素で構成されても良いし、キーの複数の構成要素で構成されても良い。

　以上に示した手法では、キーの特徴マップの空間全体が考慮されるため、広域的な特徴抽出が可能となる。さらに、計算対象となる領域が、キーの特徴マップ全部ではなく一部となるため、必要な計算コストを下げることができる。例えば、図１Ｃのグリッドパターンの領域面積を図１Ｂの部分領域ＡＲの面積と同じにする場合には、計算コストを、第２の関連技術に係る計算コストと同じにすることができる。ただし、この開示に記載の技術は、この実施例に限定されない。また、この手法は、後述の通り、様々な用途に適用可能である。

　＜各実施の形態にかかるハードウェア構成＞
　各実施の形態について説明する前に、図２を用いて、各実施の形態にかかる情報処理装置のハードウェア構成について説明する。

　図２に示すように、情報処理装置１０は、プロセッサ１０１と、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１０２と、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１０３と、記憶装置１０４とを備えている。情報処理装置１０は更に、入力装置１０５と、出力装置１０６とを備えていてもよい。プロセッサ１０１と、ＲＡＭ１０２と、ＲＯＭ１０３と、記憶装置１０４と、入力装置１０５と、出力装置１０６とは、データバス１０７を介して接続されている。このデータバス１０７は、接続された構成要素同士のデータの送受信に用いられる。

　プロセッサ１０１は、コンピュータプログラムを読み込む。例えば、プロセッサ１０１は、ＲＡＭ１０２、ＲＯＭ１０３及び記憶装置１０４のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、プロセッサ１０１は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。プロセッサ１０１は、ネットワークインタフェースを介して、情報処理装置１０の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい（つまり、コンピュータプログラムを読み込んでもよい）。プロセッサ１０１は、読み込んだコンピュータプログラムを実行することで、ＲＡＭ１０２、記憶装置１０４、入力装置１０５及び出力装置１０６を制御する。例えば、プロセッサ１０１が読み込んだコンピュータプログラムを実行することによって、プロセッサ１０１内には、特徴量に関する各種処理を実行するための機能ブロックが実現されてもよい。この機能ブロックについては、各実施の形態で詳述する。

　なお、プロセッサ１０１の一例として、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（Field-programmable Gate Array）、ＤＳＰ（Demand-Side Platform）、ＡＳＩＣ（Application Specific Integrated Circuit）が挙げられる。プロセッサ１０１は、上述した一例のうち一つを用いてもよいし、そのうちの複数を並列で用いてもよい。

　ＲＡＭ１０２は、プロセッサ１０１が実行するコンピュータプログラムを一時的に記憶するメモリである。また、ＲＡＭ１０２は、プロセッサ１０１がコンピュータプログラムを実行している際にプロセッサ１０１が一時的に使用するデータを一時的に記憶してもよい。ＲＡＭ１０２は、例えば、ＤＲＡＭ (Dynamic Random Access Memory)、ＳＲＡＭ (Static Random Access Memory)等のＲＡＭであってもよい。また、ＲＡＭに代えて、他の種類の揮発性メモリが用いられてもよい。

　ＲＯＭ１０３は、プロセッサ１０１が実行するコンピュータプログラムを記憶するメモリである。ＲＯＭ１０３は、その他に固定的なデータを記憶していてもよい。ＲＯＭ１０３は、例えば、ＰＲＯＭ (Programmable ROM)、ＥＰＲＯＭ (Erasable Programmable Read Only Memory)等のＲＯＭであってもよい。また、ＲＯＭに代えて、他の種類の不揮発性メモリが用いられてもよい。

　記憶装置１０４は、情報処理装置１０が長期的に保存するデータを記憶する。記憶装置１０４は、プロセッサ１０１の一時記憶装置として動作してもよい。記憶装置１０４は、例えば、ハードディスク装置、光磁気ディスク装置、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。

　入力装置１０５は、情報処理装置１０のユーザからの入力指示を受け取る装置である。入力装置１０５は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。入力装置１０５は、専用のコントローラ（操作端末）であってもよい。また、入力装置１０５は、ユーザが保有する端末（例えば、スマートフォンやタブレット端末等）を含んでいてもよい。入力装置１０５は、例えばマイクを含む音声入力が可能な装置であってもよい。

　出力装置１０６は、情報処理装置１０に関する情報を外部に対して出力する装置である。例えば、出力装置１０６は、情報処理装置１０に関する情報を表示可能な表示装置（例えば、ディスプレイ）であってもよい。ここでの表示装置は、テレビモニタ、パソコンモニタ、スマートフォンのモニタ、タブレット端末のモニタ、その他の携帯端末のモニタであってよい。また、表示装置は、店舗等の各種施設に設置される大型モニタやデジタルサイネージ等であってよい。また、出力装置１０６は、画像以外の形式で情報を出力する装置であってもよい。例えば、出力装置１０６は、情報処理装置１０に関する情報を音声で出力するスピーカであってもよい。

　以下、各実施の形態における機能的構成及び実行される処理について説明する。

　＜実施の形態１＞
　まず、図３、４を参照して、第１実施形態について説明する。

　（機能的構成）
　図３は、第１実施形態に係る情報処理装置の機能的構成を示すブロック図である。図３に示すように、第１実施形態に係る情報処理装置１１は、その機能を実現するための処理ブロックとして、注意機構ユニット１１０を備える。注意機構ユニット１１０は、抽出部１１１、決定部１１２及び反映部１１３を備えている。なお、抽出部１１１、決定部１１２及び反映部１１３の各々は、上述したプロセッサ１０１（図２参照）によって実現されてよい。つまり、プロセッサ１０１は、コンピュータプログラムを読み込み、実行することで、抽出部１１１、決定部１１２及び反映部１１３の各々の構成要素として機能する。

　抽出部１１１は、注意機構ユニット１１０に入力された特徴マップから、複数の第１構成要素で構成された第１の特徴に係る第１特徴マップ、複数の第２構成要素で構成された第２の特徴に係る第２特徴マップ、及び第３の特徴に係る第３特徴マップを抽出する。なお、第１の特徴、第２の特徴、第３の特徴は、例えば、それぞれクエリ、キー、バリューであっても良い。この場合、第１特徴マップ、第２特徴マップ、第３特徴マップは、それぞれクエリの特徴マップ、キーの特徴マップ、バリューの特徴マップとなる。ただし、各特徴及び特徴マップは、この例に限定されない。

　決定部１１２は、各第１構成要素について、対応する複数の第２構成要素を示す対応関係を決定する。詳細には、決定部１１２は、１個の第１構成要素に対応する複数個の第２構成要素を示すグリッドパターンを、各第１構成要素の位置に基づいて第２特徴マップ上でシフトすることにより、この対応関係を決定する。なお、グリッドパターンの定義は、上述の通りである。

　決定部１１２が決定した対応関係からは、第１の特徴と第２の特徴との相関関係が算出される。反映部１１３は、この相関関係を第３特徴マップに反映させる処理をする。以上のようにして、情報処理装置１０は、入力された特徴マップにおける特徴を抽出することができる。

　（動作の流れ）
　次に、図４を参照しながら、第１実施形態に係る情報処理装置１１の動作の流れについて説明する。図４は、第２実施形態に係る情報処理装置１１の動作の流れを示すフローチャートである。

　図４に示すように、情報処理装置１１の動作が開始されると、まず、抽出部１１１は、注意機構ユニット１１０に入力された特徴マップから、第１の特徴に係る第１特徴マップ、第２の特徴に係る第２特徴マップ、及び第３の特徴に係る第３特徴マップを抽出する（ステップＳ１１；抽出ステップ）。次に、決定部１１２は、各第１構成要素について、対応する複数の第２構成要素を示す対応関係を決定する（ステップＳ１２；決定ステップ）。上述の通り、詳細には、決定部１１２は、グリッドパターンを各第１構成要素の位置に基づいて第２特徴マップ上でシフトすることにより、この対応関係を決定する。

　最後に、反映部１１３は、対応関係から算出された第１の特徴と第２の特徴との相関関係を、第３特徴マップに反映させる（ステップＳ１３；反映ステップ）。

　（技術的効果）
　次に、第１実施形態に係る情報処理装置１１によって得られる技術的効果について説明する。上述で説明した通り、決定部１１２は、１個の第１構成要素に対応する複数個の第２構成要素を示すグリッドパターンを用いて、各第１構成要素について、対応する複数の第２構成要素を示す対応関係を決定する。反映部１１３は、決定部１１２が決定した対応関係から算出された相関関係を第３特徴マップに反映させる。そのため、情報処理装置１１は、対応関係に基づく計算において、各第１構成要素について、第２特徴マップの全領域に関する計算をしなくて済むため、処理に必要な計算量を少なくすることができる。また、グリッドパターンにより、第２特徴マップの局所的な領域でなく、広範囲の領域を抽出することができるため、情報処理装置１１は、第２特徴マップについて、広域的な特徴を抽出することができる。

　上述の通り、画像認識分野等において、特徴量を処理するために注意機構を用いる技術が知られている。注意機構は、抽出した特徴の相関関係を、その抽出した特徴へと反映させる技術である。この注意機構において、入力される特徴マップの空間全体を考慮した特徴抽出をしようとすると、計算コストが大きくなってしまい、逆に特徴マップの一部を考慮した特徴抽出をしようとすると、広域的な特徴抽出という注意機構の利点が劣化する可能性があるという課題があった。

　これに対し、第１実施形態に係る情報処理装置１１は、入力される特徴マップの空間全体を考慮した特徴抽出が可能で、少ない計算コストで計算することが可能である。

　＜実施の形態２＞
　次に、図５、６を参照して、第２実施形態について説明する。第２実施形態では、第１実施形態の具体的な適用例について説明する。

　（機能的構成）
　図５は、第２実施形態に係る情報処理装置の機能的構成を示すブロック図である。図５に示すように、第２実施形態に係る情報処理装置１２は、その機能を実現するための処理ブロックとして、注意機構ユニット１２０を備える。注意機構ユニット１２０は、抽出部１２１、演算部１２２、集計部１２３、出力部１２４を備えている。なお、抽出部１２１、演算部１２２、集計部１２３、出力部１２４の各々は、上述したプロセッサ１０１（図１参照）によって実現されてよい。つまり、プロセッサ１０１は、コンピュータプログラムを読み込み、実行することで、抽出部１２１、演算部１２２、集計部１２３、出力部１２４の各々の構成要素として機能する。

　抽出部１２１は、第１実施形態における抽出部１１１に対応する。詳細には、抽出部１２１は、注意機構ユニット１２０への入力データである特徴マップ（特徴量）を取得し、取得した特徴マップから、注意機構の処理に必要な３つの埋め込み特徴である、クエリ、キー、バリューの各特徴マップを抽出する。抽出部１２１には、例えば畳み込みニューラルネットワークで用いられる畳み込み層又は全結合層が用いられても良い。さらに言えば、抽出部１２１の前段には、畳み込みニューラルネットワークを構成する任意の層が設けられ、その層からの入力が特徴マップとして抽出部１２１に入力されても良い。抽出部１２１は、抽出したクエリとキーを演算部１２２に出力し、バリューを集計部１２３に出力する。

　演算部１２２は、第１実施形態における決定部１１２に対応する。詳細には、演算部１２２は、抽出されたクエリとキーの埋め込み特徴を用いて、クエリとキー間の相関関係（例えばMatmul）を算出する。ここでは、演算部１２２はグリッドパターンを用いることで、計算の処理において、入力される特徴マップの空間全体を参照できる。なお、第２実施形態におけるグリッドパターンは、１単位が正方形で構成された格子状のパターンであって、１個の格子点（参照領域の１単位）が、キーの１構成要素で構成されているものである。

　演算部１２２は、クエリとキーの埋め込み特徴に対してテンソルの形状変換（ｒｅｓｈａｐｅ）を施したのちに、行列積を計算することで、相関関係を求めてもよい。また、演算部１２２は、クエリとキーの埋め込み特徴に対してテンソルの形状変換をした後に、この２つの埋め込み特徴を結合することで相関関係を求めてもよい。演算部１２２は、以上のように算出された行列積又は結合された特徴に、畳み込みと正規化線形関数（ＲｅＬＵ；Rectified Linear Unit）の計算を施すことで、最終的な相関関係を示した特徴マップを得る。

　なお、演算部１２２には、畳み込みのための畳み込み層がさらに設けられても良い。また、演算部１２２は、得られた相関関係を示した特徴マップを、シグモイド関数やソフトマックス関数等により０から１に正規化してもよいし、そのような正規化を施さなくてもよい。算出された相関関係を示した特徴マップは、集計部１２３へと入力される。

　集計部１２３は、第１実施形態における反映部１１３に対応する。詳細には、集計部１２３は、演算部１２２で算出された相関関係を示した特徴マップと、抽出部１２１で抽出した埋め込み特徴であるバリューを用いることで、クエリとキー間の相関関係をバリューの特徴マップへ反映する処理を行う。本処理は、演算部１２２で算出した相関関係（重み）の特徴マップと、バリューとをアダマール積で計算することで、相関関係を反映する。相関関係が反映された特徴マップは、出力部１２４へと入力される。

　出力部１２４は、算出された特徴マップを注意機構ユニット１２０後段の特徴抽出ユニットへ渡すための調整処理を行う。出力部１２４は、主に、調整処理として、線形変換処理と残差処理を実行する。出力部１２４は、線形変換処理として、１×１の畳み込み層、または全結合層を用いることで、特徴マップを処理してもよい。ただし、出力部１２４は、この線形変換処理を施さずに残差処理を実行してもよい。

　出力部１２４は、残差処理として、抽出部１２１に入力された特徴と集計部１２３が出力した特徴マップとを加算する処理をしてもよい。これは、相関関係が仮に算出されなかった場合でも、出力部１２４から特徴マップが生成されなくなるのを防ぐためである。相関関係（重み）として０が算出されると、バリュー値に対してその０が乗算されることにより、集計部１２３が出力した特徴マップにおいて、特徴値が０となる（消失する）ことになる。これを防ぐために、出力部１２４は、入力マップの特徴を加算する残差処理をここで実行することによって、相関関係として０が算出されても、特徴値が０とならないようにする。出力部１２４は、調整処理がなされた特徴マップを、出力データとして出力する。

　（動作の流れ）
　次に、図６を参照しながら、第２実施形態に係る情報処理装置１２の動作の流れについて説明する。図６は、第２実施形態に係る情報処理装置の動作の流れを示すフローチャートである。

　図６に示すように、第２実施形態に係る情報処理装置１２の動作が開始されると、まず抽出部１２１が、入力された特徴マップから埋め込み特徴を抽出する（ステップＳ２１）。次に、演算部１２２が、抽出した埋め込み特徴であるクエリとキーを用いて、両者の相関関係を示した特徴を算出する（ステップＳ２２）。

　その後、集計部１２３が、相関関係を、入力された特徴であるバリューに対して反映する（ステップＳ２３）。最後に、出力部１２４が、集計部１２３で抽出した特徴マップを出力するために、特徴マップの応答値を調整する（ステップＳ２４）。

　図７は、情報処理装置１２の処理をより詳細に示す模式図であり、この図を用いて、処理の詳細を説明する。注意機構ユニット１２０に入力された特徴マップは、抽出部１２１により、クエリ、キー、バリューのそれぞれの特徴マップに分けられる。そして、演算部１２２は、クエリとキーの相関関係を示した特徴を算出する。集計部１２３は、算出された相関関係を、抽出部１２１が抽出したバリューに対して反映し、特徴マップを生成する。出力部１２４は、特徴マップに対し、線形応答処理と残差処理を実行することにより、特徴マップの応答値を調整して、新たな特徴マップを生成する。なお、図７に示された矢印は、本実施形態で説明されるデータの流れを端的に示したものであり、注意機構ユニット１２０内において、他の態様でデータ処理がなされることを妨げるものではない。つまり、図７の描写は、注意機構ユニット１２０の各部において双方向的にデータが交換されることを排除するものではない。

　（キーの特徴マップ参照の詳細）
　演算部１２２がキーの特徴マップを参照する方法の詳細について、さらに説明する。この開示に記載の技術では、クエリの特定位置ｉに対応するキーの参照位置を決定する際に、グリッドパターンを用いる。詳細には、演算部１２２は、クエリの特徴マップ（第１特徴マップ）内の小領域（分割領域）の中でグリッドパターンをずらしながらキーの特徴マップ（第２特徴マップ）を参照することにより、キーの空間内の特徴を全て参照することができる。加えて、クエリの小領域内でキーの空間内の全構成要素を参照できる特性を活かし、クエリの他の小領域内を繰り返しグリッドパターンでずらしながらキーの特徴マップを参照することで、演算部１２２は、クエリの各小領域内で、キーの空間全体を均等に参照できる。

　図８Ａ～８Ｄに示したクエリとキーの特徴マップの図面を用いて、クエリとキーのそれぞれの参照位置についてさらに説明する。なお、図８Ａ～８Ｄの例では、入力データが画像データであり、その構成要素がピクセルである。また、図８Ａ～８Ｄでは、正方形の各特徴マップにおける横方向をｘ方向、縦方向をｙ方向と設定する。

　図８Ａは、あるクエリ側の参照位置ｉを基準位置とした場合における、複数のキーの参照位置である基準位置を示す。図８Ａのクエリにおける太線で囲った領域が、クエリの小領域（ブロック領域）である正方形の３＊３の領域Ａを示しており、キーにおける太線で囲った領域が、クエリｉにおける参照領域を示している。また、クエリの基準位置は、領域Ａにおける左上のピクセルである。

　図８Ａに示されたように、この開示に記載の技術では、演算部１２２は、キーの埋め込み特徴がグリッド状、かつ、全体的に粗くなるように参照している。図８Ａの具体例では、７＊７のキーの参照領域中、実際にキーの参照対象となるキーは９ピクセルである。演算部１２２は、キーの参照位置を、クエリ及びキーの特徴マップのサイズＮ＊Ｎと分割数Ｓを用いて決定する。クエリの破線領域の小領域のサイズＢ＊Ｂは、Ｂ＝Ｎ／Ｓで求まる。そして、キーにおける参照領域の飛ばし幅（グリッドのサイズ、すなわち、参照対象となる最近接のキーの構成要素同士に関する、ｘ軸方向又はｙ軸方向の位置ずれ量）もＢとなる。なお、図８Ａの例では特徴マップのサイズを９×９、分割数Ｓを３としているが、サイズや分割数の値はこれに限られない。このようにして、演算部１２２は、基準位置に係るグリッドパターンを算出する。

　図８Ｂに、領域Ａ内におけるクエリの参照位置を基準位置からずらした場合のキーの参照位置を示す。クエリ側の位置１は、クエリの参照位置を基準位置からｘ軸方向に＋１ずらした場合の位置であり、クエリ側の位置２は、クエリの参照位置を基準位置からｘ軸方向に＋２、ｙ軸方向に＋２ずらした場合の位置である。このように、クエリの参照位置ｉを領域Ａ内でずらした場合には、演算部１２２は、クエリのｘ軸とｙ軸のずれ量（移動量）と同じだけ、キーの参照位置をずらす。つまり、演算部１２２は、クエリの参照位置が位置１にある場合には、キーのグリッドパターン（参照位置）をｘ軸方向に＋１だけずらした位置１とし、クエリの参照位置が位置２にある場合には、キーのグリッドパターン（参照位置）をｘ軸方向に＋２、ｙ軸方向に＋２だけずらした位置２とする。以上の処理により、演算部１２２は、クエリの小領域内において、キー内の特徴マップの空間全てを参照することが可能となる。

　図８Ｃは、クエリの特徴マップを９の小領域Ａ～Ｉで分割された状態を示す。演算部１２２は、小領域Ａ内におけるクエリとキーの対応関係が上述のように設定された後、クエリの各小領域Ｂ～Ｉ内の各クエリについて、各小領域内の左上のブロックを基準位置としたｘ軸方向とｙ軸方向のずれ量を導出する。そして、演算部１２２は、各小領域Ｂ～Ｉ内の各クエリに対応するキーを、小領域Ａ内の各クエリと同様に、キーの特徴マップにおいて、ずれ量を用いてずらしたグリッドパターンを参照することで決定する。このようにして、図８Ｃのクエリのマップにおいて、同じハッチングが付された箇所は、キー内の特徴マップにおいて、グリッドパターンの同じ位置が参照される。これにより、演算部１２２は、クエリにおける各小領域内で、キーの埋め込み特徴マップの空間全体を万遍なく参照できる。

　（正則化方法の詳細）
　さらに、この開示に記載の技術で導入される正則化方法について説明する。ここまでの処理では、クエリと対応するグリッドパターンの位置が固定されている。そのため、学習中の入力画像データに物体の姿勢変化や位置ずれが存在せず、運用中の入力画像データに物体の姿勢変化や位置ずれが生じるとき、演算部１２２が特徴を正確に抽出できない可能性がある。これを防ぐために、演算部１２２は、クエリに対応するキーのグリッドパターンをランダムに一定の確率でシャッフルする（入れ替える）処理を施す。

　図８Ｄは、図８Ｃに示した例に対して、小領域Ｂ及びＦの一部についてシャッフルがされたことを示す。小領域Ｂの一部についてシャッフルがされた領域は領域Ｓ１、小領域Ｆの一部についてシャッフルされた領域は領域Ｓ２で示される。演算部１２２は、このようなシャッフルをすることにより、クエリに対応するグリッドパターンのバリエーションを柔軟に変化させる（増やせる）ため、入力画像データ中における物体の姿勢変化や位置ずれに対して頑健な特徴抽出が可能になる。

　なお、シャッフル対象となる複数のキーは、同じ小領域内にあることが好ましい。これにより、演算部１２２は、確実にシャッフル処理を実行することができる。

　（詳細な動作の流れ）
　次に、図９を参照しながら、演算部１２２の詳細な動作の流れについて説明する。図９は、演算部１２２の詳細な動作の流れを示すフローチャートである。

　まず初めに、演算部１２２は、キーの埋め込み特徴を用いて、基準位置用のグリッドパターンを算出する（ステップＳ２５）。そして、演算部１２２は、算出したチェッカーボードパターンを、クエリの小領域内における基準位置からのずれ量を用いてずらすことで、クエリのある小領域内の全要素に対して、グリッドパターンを割り当てる（ステップＳ２６）。

　その後、演算部１２２は、クエリの他の全小領域に対して、同様の方法でグリッドパターンを割り振る（ステップＳ２７）。そして、演算部１２２は、キーのブロック内の任意の位置において、割り当てるグリッドパターンを一定の確率でシャッフルする処理を導入する（ステップＳ２８）。なお、これらの各ステップの詳細は、それぞれ、図８Ａ～Ｄに関する説明で記載した通りである。以上のようにして、演算部１２２は、クエリの特徴マップの各位置に対して、クエリのグリッドパターンを割り当てる。

　（技術的効果）
　次に、第２実施形態に係る情報処理装置１２によって得られる技術的効果について説明する。

　関連技術である非特許文献１の注意機構は、クエリの特定位置のピクセルｉに対して特徴量全体を参照するために、そのピクセルｉに対して、キーの埋め込み特徴の全空間の位置を参照する必要がある。注意機構への入力が画像、またはその他の２次元の特徴マップの場合、実行する計算量が入力解像度に依存しやすくなるため、解像度が高い画像を取り扱う画像認識タスクでは、この注意機構の使用が困難になる。

　一方で、非特許文献２の注意機構は、解像度に依存する計算量を削減するために、クエリの特定位置のピクセルｉに対して局所的な領域（７＊７程度）のキーの位置を参照することで、実行する計算量を大幅に削減している。しかしながら、この技術では、特徴マップの空間全体を参照することが難しいため、注意機構における特徴抽出能力が下がる。

　これに対して、この開示に記載の技術では、グリッドパターンを効率的に用いることで、特徴マップの空間全体を、非特許文献１の技術よりも少ない計算量（例えば、非特許文献２と同等の計算量）で参照することが可能である。これにより、情報処理装置は、広域的な特徴空間を参照しやすくなるため、注意機構における特徴抽出能力を向上させることができる。

　情報の次元数が膨大な画像が注意機構に入力される場合、非特許文献１の技術では、注意機構の計算量が解像度の二乗に応じて増えるため、実応用の観点上、使用するのが困難になる。本実施形態に係る情報処理装置１２は、演算処理の負荷が極めて大きくなってしまうこのような状態を抑制できるという、顕著な技術的効果を発揮する。

　また、演算部１２２（決定部）は、クエリの構成要素（第１構成要素）と、キーの構成要素（第２構成要素）との対応関係を、次のように決定することができる。演算部１２２は、キーの構成要素が少なくとも１個のクエリの構成要素に対応するように、グリッドパターンを各クエリの構成要素の位置に基づいてキーの特徴マップ上でシフトする。このようにして、演算部１２２は、キーの特徴マップの空間全体を満遍なく参照することができる。そのため、注意機構ユニット１２０は、入力データの全ての特徴を抽出することができる。

　また、演算部１２２は、クエリの構成要素と、キーの構成要素との対応関係を、次のように決定することができる。演算部１２２は、クエリの特徴マップ（第１特徴マップ）を複数の小領域（分割領域）に分割し、キーの構成要素が少なくとも小領域におけるいずれか１個のクエリの構成要素に対応するように、グリッドパターンをクエリの構成要素の位置に基づいてキーの特徴マップ上でシフトする。このようにして、演算部１２２は、クエリの小領域を参照する度に、キーの特徴マップの空間全体を満遍なく参照することができる。そのため、注意機構ユニット１２０は、入力データの特徴を偏りなく広域的に抽出することができる。

　また、演算部１２２は、キーの各構成要素が、各小領域におけるいずれか１個のクエリの構成要素と対応するように、グリッドパターンを各クエリの構成要素の位置に基づいてキーの特徴マップ上でシフトすることにより、対応関係を決定することができる。そのため、注意機構ユニット１２０は、入力データの特徴をさらに偏りなく抽出することができる。

　また、演算部１２２は、グリッドパターンをクエリの各構成要素の位置に基づいて、次のようにキーの特徴マップ上でシフトすることができる。すなわち、演算部１２２は、全ての小分割領域同士で、１対１に対応するクエリの構成要素を設定し、対応するクエリの構成要素同士について、グリッドパターンがキーの特徴マップ上で同じ位置に配置されるように設定することができる。演算部１２２は、グリッドパターンのシフト方法を、このようなシンプルな設定とすることで、入力データの特徴を満遍なく参照するための計算コストを削減することができる。

　また、演算部１２２は、所定の確率で、クエリの各構成要素の位置に応じて決定されるグリッドパターンのキーの特徴マップ上での位置をシャッフルすることで、対応関係を決定しても良い。これにより、注意機構ユニット１２０は、入力画像データ中における物体の姿勢変化や位置ずれに対して頑健な特徴抽出が可能になる。

　また、演算部１２２は、クエリの小領域を、複数個のキーの構成要素を含む合同の図形（例えば正方形）で構成することができる。これにより、演算部１２２は、小領域の設定をこのようにシンプルにすることで、入力データの特徴を満遍なく参照するための計算コストを削減することができる。

　＜実施の形態３＞
　以下、図面を参照して、第３実施形態について説明する。第３実施形態では、第２実施形態で示した注意機構ユニット１２０が繰り返し積層されて設けられることで、情報処理装置１１が一つのネットワークを構築する例を示す。なお、第３～第５実施形態では、第２実施形態で示した注意機構ユニット１２０の具体的な適用例について説明がなされる。そのため、第３～第５実施形態の説明では、第２実施形態と比較した際において異なる一部の構成及び処理が説明され、説明されないその他の構成及び処理については、第２実施形態と共通のものが適用されてもよい。また、第３～第５実施形態の説明において、同一の符号が付された構成要素は、同一の処理を実行するものである。

　（機能的構成）
　図１０を参照しながら、情報処理装置１３を用いた第３実施形態について説明する。図１０は、情報処理装置１３を用いた機能的構成を示すブロック図である。情報処理装置１３は、畳み込みユニット（特徴抽出ユニット）２００及び複数の注意機構ユニット１２０を備える。情報処理装置１３において、最上段に畳み込みニューラルネットワークで用いられる畳み込みユニット２００を設けることで、情報処理装置１３が、入力された入力画像から特徴マップを抽出することができる。畳み込みユニット２００は、キーの特徴マップに関しての局所的なカーネル（３×３程度）の畳み込み層を用いることで、特徴抽出を行うユニットである。その後、情報処理装置１３内に、注意機構ユニット１２０を指定する回数だけ繰り返し配置する。最後に、入力画像に対する何かしらの結果を出力する出力層（不図示）を情報処理装置１３内に配置することで、ネットワーク全体を構築する。

　（動作の流れ）
　次に、図１１を参照しながら、第３実施形態に係る情報処理装置１３の動作の流れについて説明する。図１１は、第３実施形態に係る情報処理装置１３の動作の流れを示すフローチャートである。

　図１１に示すように、情報処理装置１３の動作が開始されると、まず畳み込みユニット２００は、入力された画像データから特徴マップを抽出する（ステップＳ３１）。続いて、ステップＳ３１で出力された特徴マップは注意機構ユニット１２０に入力され、注意機構ユニット１２０内で新たな特徴マップへ変換される（ステップＳ３２）。ステップＳ３２は、指定した回数であるＮ回（つまり、注意機構ユニット１２０が設けられた回数）繰り返し実行されることで、新たな特徴マップが抽出される。続いて、注意機構ユニット１２０の処理をすべて終えた後で、情報処理装置１３は、最終出力層からの応答値を得る（ステップＳ３３）。

　（技術的効果）
　次に、第３実施形態に係る情報処理装置１３によって得られる技術的効果について説明する。図１０および図１１で説明したように、第３実施形態に係る情報処理装置１３では、複数の注意機構ユニット１２０を用いてネットワークが構築されている。第１実施形態で記載した通り、注意機構ユニット１２０は、少ない計算量で、広域的な特徴空間を参照することができる。そのため、情報処理装置１３によって、画像全体から特徴を抽出することに特化したネットワークを構築することが可能である。具体的には、情報処理装置１３は、広域的な情報からの特徴抽出が必要なタスク、例として風景を認識する画像認識タスク等に対して特に有効であると考えられる。

　＜実施の形態４＞
　以下、図面を参照して、第４実施形態について説明する。第４実施形態は、この開示に記載の技術である注意機構ユニット１２０と畳み込みユニット（特徴抽出ユニット）２００を繰り返し積み重ねることでネットワークを構築する例を示す。畳み込みユニット２００は、上述の通り、局所的なカーネル（３×３程度）の畳み込み層を用いて特徴抽出を行うユニットである。

　（機能的構成）
　図１２を参照しながら、注意機構ユニット１２０と畳み込みユニット２００を用いた第４実施形態について説明する。図１２は、注意機構ユニット１２０と畳み込みユニット２００を備えた情報処理装置１４の機能的構成を示すブロック図である。情報処理装置１４の最も前段に畳み込みユニット２００Ｘを設けることで、情報処理装置１４が、入力画像から特徴マップを抽出することができる。そして、その後段に、注意機構ユニット１２０と畳み込みユニット２００を、指定する回数だけ繰り返し配置する。ここで、注意機構ユニット１２０と畳み込みユニット２００を配置する順番、尚且つどちらを連続でどう配置するかは、設計者が自由に決めることができる。図１２の例では、注意機構ユニット１２０を前段に、畳み込みユニット２００ｂがその後段に設けられた組が、情報処理装置１４内に複数設けられている。最後に、入力画像に対する何かしらの結果を出力する出力層（不図示）を情報処理装置１４内に配置することで、１つのネットワークを構築する。

　（動作の流れ）
　次に、図１３を参照しながら、第４実施形態に係る情報処理装置１４の動作の流れについて説明する。図１３は、第４実施形態に係る情報処理装置１４の動作の流れを示すフローチャートである。

　図１３に示すように、第４実施形態に係る情報処理装置１４の動作が開始されると、まず最前段の畳み込みユニット２００Ｘは、入力された画像データから特徴マップを抽出する（ステップＳ４１）。続いて、ステップＳ４１で出力された特徴マップは、後段の注意機構ユニット１２０または畳み込みユニット２００に入力され、各ユニット中で新たな特徴マップへ変換される（ステップＳ４２）。ステップＳ４２は、指定した回数であるＮ回（つまり、注意機構ユニット１２０及び畳み込みユニット２００が設けられた回数であるＮ回）繰り返し実行されることで、その度に新たな特徴マップが抽出される。最後に、ステップＳ４２における特徴マップの抽出処理をすべて終えた段階で、情報処理装置１４は、最終出力層からの応答値を得る（ステップＳ４３）。

　（技術的効果）
　次に、第４実施形態に係る情報処理装置１４によって得られる技術的効果について説明する。図１２および図１３で説明したように、第４実施形態に係る情報処理装置１４では、この開示に記載の技術の注意機構ユニット１２０と畳み込みユニット２００が用いられることで、ネットワークが構築されている。畳み込みユニット２００は、所定の範囲のカーネルとして、局所的なカーネル（３×３程度）の畳み込み層を用いて特徴抽出を行うため、データ中の局所的な領域に着目した特徴抽出が可能である。そのため、情報処理装置１４によって、画像全体と画像の局所的な領域との２つの観点を考慮した特徴抽出を可能にしたネットワークを構築することができる。情報処理装置１４は、様々な種類や大きさの物体が画像中に混在する状況での一般物体認識や物体検出等、様々な種類の認識性能を向上させることが可能である。

　＜実施の形態５＞
　以下、図面を参照して、第５実施形態について説明する。第５実施形態は、この開示に記載の技術である注意機構ユニット１２０とパッチベース注意機構ユニット（特徴抽出ユニット）２１０を繰り返し積み重ねることでネットワークを構築する。パッチベース注意機構ユニット２１０は、非特許文献２に記載されたパッチベースの注意機構を適用したものであり、図１Ｃに示した通り、キーの特徴マップに関して、一部領域のパッチ（７＊７程度）の畳み込み層を用いて特徴抽出を行うユニットである。なお、非特許文献２に記載のパッチベースの注意機構に関する説明は、この開示において援用される。

　（機能的構成）
　図１４を参照しながら、注意機構ユニット１２０、畳み込みユニット２００及びパッチベース注意機構ユニット２１０を用いた第４実施形態について説明する。図１４は、注意機構ユニット１２０、畳み込みユニット２００及びパッチベース注意機構ユニット２１０を備えた情報処理装置１５の機能的構成を示すブロック図である。情報処理装置１５の最も前段に畳み込みユニット２００を設けることで、入力画像から特徴マップを抽出することができる。そして、その後段に、注意機構ユニット１２０とパッチベース注意機構ユニット２１０を、指定する回数であるＮ回、繰り返し配置する。ここで、注意機構ユニット１２０とパッチベース注意機構ユニット２１０を配置する順番、尚且つどちらを連続でどう配置するかは、設計者が自由に決めることができる。図１４の例では、注意機構ユニット１２０を前段に、パッチベース注意機構ユニット２１０がその後段に設けられた組が、情報処理装置１５内に複数設けられている。最後に、入力画像に対する何かしらの結果を出力する出力層（不図示）を情報処理装置１５内に配置することで、ネットワーク全体を構築する。

　（動作の流れ）
　次に、第５実施形態に係る情報処理装置１５の動作の流れについて、図１３を用いて説明する。なお、第４実施形態に係る動作と同一の点については、説明を省略する。

　ステップＳ４１で出力された特徴マップは、後段の注意機構ユニット１２０またはパッチベース注意機構ユニット２１０に入力され、その中で新たな特徴マップへ変換される（ステップＳ４２）。ステップＳ４２は、指定した回数であるＮ回（つまり、注意機構ユニット１２０及びパッチベース注意機構ユニット２１０が設けられた回数）繰り返し実行される。そして、情報処理装置１５は、ステップＳ４３の処理を行う。

　（技術的効果）
　次に、第５実施形態に係る情報処理装置１５によって得られる技術的効果について説明する。図１３および図１４で説明したように、第５実施形態に係る情報処理装置１５では、注意機構ユニット１２０とパッチベース注意機構ユニット２１０を用いてネットワークが構築されている。パッチベース注意機構ユニット２１０は、所定の範囲のカーネルとして、局所的なカーネル（７×７程度）の畳み込み層を用いて特徴抽出を行うため、データ中の局所的な領域に着目した特徴抽出が可能である。パッチベース注意機構ユニット２１０は、局所領域から特徴抽出する点に関しては畳み込みユニット２００と同じ機能を有するが、精度や計算量の観点で畳み込みユニット２００より優れている。そのため、畳み込みユニット２００の代用としてパッチベース注意機構ユニット２１０を用いることで、より高性能なネットワークを構築できる。これらの理由から、画像全体と画像の局所的な領域との２つの観点を考慮した特徴抽出を可能にしたネットワークを構築することができる。情報処理装置１５の具体的な応用例は第４実施形態と同様で、様々な種類や大きさの物体が画像中に混在する状況での一般物体認識や物体検出等、様々な種類の認識性能を向上させることが可能であると考えられる。

　＜実施の形態６＞
　以下、図面を参照して、第６実施形態について説明する。これまでの実施形態は、２次元の特徴マップを用いる画像系のタスクを例として、情報処理装置の動作を説明した。しかしながら、この開示の技術は、入力データが画像のような２次元データだけでなく、音声や自然言語処理のような１次元データである場合でも応用が可能である。

　（機能的構成）
　図１５を参照しながら、１次元特徴を用いる場合の情報処理装置１６について説明する。この情報処理装置の機能的構成の概要は、図３に示した通りであり、以下、第１実施形態と異なる点について、特に説明する。

　抽出部１１１は、注意機構ユニット１１０に入力された特徴マップから、複数の第１構成要素で構成された第１の特徴に係る第１特徴マップ、複数の第２構成要素で構成された第２の特徴に係る第２特徴マップ、及び第３の特徴に係る第３特徴マップを抽出する。第６実施形態では、第１の特徴、第２の特徴、第３の特徴は、それぞれクエリ、キー、バリューである。また、各特徴マップは、１次元のマップである。

　決定部１１２は、各クエリの構成要素について、対応する複数のキーの構成要素を示す対応関係を決定する。詳細には、決定部１１２は、１個のクエリの構成要素に対応する複数個のキーの構成要素を示すグリッドパターンを、各クエリの構成要素の位置に基づいてキーの特徴マップ上でシフトすることにより、キーの構成要素が少なくとも１個のクエリの構成要素に対応するように、この対応関係を決定する。換言すれば、対応関係は、クエリの各構成要素について、対応する複数のキーの構成要素の対応関係を示す。この開示において、グリッドパターンは、１次元のマップ上において、最近接のキーの構成要素（参照領域）同士の間隔が同一となるパターンである。なお、図１５では、グリッドのサイズは３である。このように、１次元の特徴ベクトルに対してこの開示の技術を応用する場合でも、２次元の特徴マップの場合と同様に、決定部１１２は、最近接するキーの参照位置を等間隔として決定することができる。

　そして、反映部１１３は、決定部１１２が決定した対応関係から算出されたクエリとキーの相関関係を、バリューの特徴マップに反映させる処理をする。以上のようにして、情報処理装置１０は、入力された特徴マップにおける特徴を抽出することができる。

　（動作の流れ）
　まず、抽出部１１１は、注意機構ユニット１１０に入力された特徴マップから、クエリ、キー、バリューの各特徴マップを抽出する。決定部１１２は、クエリの特定の構成要素（基準位置）に対して、指定したグリッドパターンを参照する。図１５では、クエリの構成要素ｉに対して、グリッドパターン（１）が指定されている。

　その後、決定部１１２は、基準位置からずれたクエリの構成要素について、そのずらし量と同じずらし量でグリッドパターン（１）をずらしたグリッドパターン（２）又は（３）を、参照用のグリッドパターンとして指定し、割り当てる。このとき、決定部１１２は、２次元の特徴マップの場合と同様に、クエリの構成要素に対して、所定の確率で、参照するキーのグリッドパターンをランダムに変更してもよい。加えて、第３実施形態のように、ネットワークをこの開示に記載の注意機構ユニットで構築してもよく、第４、５形態のように、この開示に記載の注意機構ユニットと、それとは異なる特徴抽出ユニットとを組み合わせることにより、ネットワークを構築してもよい。決定部１１２が決定したこの対応関係からは、クエリとキーの相関関係が算出される。そして、反映部１１３は、その相関関係をバリューの特徴マップに反映させる。

　（技術的効果）
　第６実施形態では、取り扱えるタスクを画像のみでなく、音声や自然言語処理のような１次元データのタスクにも応用できる。

　なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。

　例えば、第２実施形態において、グリッドパターンは、１単位が正方形で構成されていた。しかしながら、グリッドパターンの１単位は、正方形でなく、任意の形状の長方形であっても良い。

　第２実施形態では、（シャッフルされた場合を除き）クエリの各小領域内における同位置の構成要素には、同位置のグリッドパターンが対応している例を説明した。ただし、クエリの各小領域内において、満遍なくキーの特徴マップの空間全体が参照されるように対応関係を決定しつつ、２以上の小領域内において、同位置のグリッドパターンが対応するクエリの構成要素の位置を、小領域内での位置が異なるように設定されても良い。

　演算部１２２は、クエリの小領域を、複数個のキーの構成要素を含む合同の図形でなく、同じ面積を有する異なる形状の図形で構成してもよい。

　第３～第５実施形態において、注意機構ユニット１２０の代わりに注意機構ユニット１１０を、情報処理装置内に積層して設けても良い。また、２次元データ以外の任意の次元のデータ（例えば、１次元データや３次元データ）の処理をする場合でも、第３～第５実施形態で説明した例と同様に、この開示で説明された注意機構ユニットを、情報処理装置内に積層して設けることもできる。

　上述の実施形態における各装置が有する１又は複数のプロセッサは、各図面を用いて説明されたアルゴリズムをコンピュータに行わせるための命令群を含む１又は複数のプログラムを実行する。この処理により、各実施の形態に記載された信号処理方法が実現できる。

　プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
　（付記１）
　特徴マップから、複数の第１構成要素で構成された第１の特徴に係る第１特徴マップ、複数の第２構成要素で構成された第２の特徴に係る第２特徴マップ、及び第３の特徴に係る第３特徴マップを抽出する抽出部と、
　１個の前記第１構成要素に対応する複数個の前記第２構成要素を示すグリッドパターンを、各前記第１構成要素の位置に基づいて前記第２特徴マップ上でシフトすることにより、各前記第１構成要素について、対応する複数の前記第２構成要素を示す対応関係を決定する決定部と、
　前記対応関係から算出された前記第１の特徴と前記第２の特徴との相関関係を前記第３特徴マップに反映させる反映部と、
　を備えた情報処理装置。
　（付記２）
　前記決定部は、各前記第２構成要素が少なくとも１個の前記第１構成要素に対応するように、前記グリッドパターンを各前記第１構成要素の位置に基づいて前記第２特徴マップ上でシフトすることにより、前記対応関係を決定する、
　付記１に記載の情報処理装置。
　（付記３）
　前記決定部は、前記第１特徴マップを複数の分割領域に分割し、各前記第２構成要素が少なくとも各前記分割領域におけるいずれか１個の前記第１構成要素に対応するように、前記グリッドパターンを各前記第１構成要素の位置に基づいて前記第２特徴マップ上でシフトすることにより、前記対応関係を決定する、
　付記２に記載の情報処理装置。
　（付記４）
　前記決定部は、各前記第２構成要素が、各前記分割領域におけるいずれか１個の前記第１構成要素と対応するように、前記グリッドパターンを各前記第１構成要素の位置に基づいて前記第２特徴マップ上でシフトすることにより、前記対応関係を決定する、
　付記３に記載の情報処理装置。
　（付記５）
　前記決定部は、全ての前記分割領域同士で、１対１に対応する前記第１構成要素を設定し、対応する前記第１構成要素同士について、前記グリッドパターンが前記第２特徴マップ上で同じ位置に配置されるよう、前記グリッドパターンを各前記第１構成要素の位置に基づいて前記第２特徴マップ上でシフトすることにより、前記対応関係を決定する、
　付記４に記載の情報処理装置。
　（付記６）
　前記決定部は、所定の確率で、各前記第１構成要素の位置に応じて決定される前記グリッドパターンの前記第２特徴マップ上での位置をシャッフルすることで、前記対応関係を決定する、
　付記５に記載の情報処理装置。
　（付記７）
　前記決定部は、前記各分割領域を、複数個の前記第１構成要素を含む合同の図形で構成する、
　付記３乃至６のいずれか１項に記載の情報処理装置。
　（付記８）
　前記抽出部と、前記決定部と、前記反映部を有する注意機構ユニットを複数備える、
　付記１乃至７のいずれか１項に記載の情報処理装置。
　（付記９）
　所定の範囲のカーネルを用いた特徴抽出ユニット及び前記注意機構ユニットを複数備える、
　付記８に記載の情報処理装置。
　（付記１０）
　特徴マップから、複数の第１構成要素で構成された第１の特徴に係る第１特徴マップ、複数の第２構成要素で構成された第２の特徴に係る第２特徴マップ、及び第３の特徴に係る第３特徴マップを抽出する抽出ステップと、
　１個の前記第１構成要素に対応する複数個の前記第２構成要素を示すグリッドパターンを、各前記第１構成要素の位置に基づいて前記第２特徴マップ上でシフトすることにより、各前記第１構成要素について、対応する複数の前記第２構成要素を示す対応関係を決定する決定ステップと、
　前記対応関係から算出された前記第１の特徴と前記第２の特徴との相関関係を前記第３特徴マップに反映させる反映ステップと、
　を情報処理装置が実行する情報処理方法。
　（付記１１）
　特徴マップから、複数の第１構成要素で構成された第１の特徴に係る第１特徴マップ、複数の第２構成要素で構成された第２の特徴に係る第２特徴マップ、及び第３の特徴に係る第３特徴マップを抽出する抽出ステップと、
　１個の前記第１構成要素に対応する複数個の前記第２構成要素を示すグリッドパターンを、各前記第１構成要素の位置に基づいて前記第２特徴マップ上でシフトすることにより、各前記第１構成要素について、対応する複数の前記第２構成要素を示す対応関係を決定する決定ステップと、
　前記対応関係から算出された前記第１の特徴と前記第２の特徴との相関関係を前記第３特徴マップに反映させる反映ステップと、
　を情報処理装置に実行させるプログラム。

　以上、実施の形態を参照してこの開示を説明したが、この開示は上記によって限定されるものではない。この開示の構成や詳細には、開示のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０２１年３月１５日に出願された日本出願特願２０２１－０４１８５２を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１０～１６　　　情報処理装置
１０１　　　　　プロセッサ
１０２　　　　　ＲＡＭ
１０３　　　　　ＲＯＭ
１０４　　　　　記憶装置
１０５　　　　　入力装置
１０６　　　　　出力装置
１０７　　　　　データバス
１１０　　　　　注意機構ユニット
１１１　　　　　抽出部
１１２　　　　　決定部
１１３　　　　　反映部
１２０　　　　　注意機構ユニット
１２１　　　　　抽出部
１２２　　　　　演算部
１２３　　　　　集計部
１２４　　　　　出力部
２００　　　　　畳み込みユニット
２１０　　　　　パッチベース注意機構ユニット

Claims

　特徴マップから、複数の第１構成要素で構成された第１の特徴に係る第１特徴マップ、複数の第２構成要素で構成された第２の特徴に係る第２特徴マップ、及び第３の特徴に係る第３特徴マップを抽出する抽出手段と、
　１個の前記第１構成要素に対応する複数個の前記第２構成要素を示すグリッドパターンを、各前記第１構成要素の位置に基づいて前記第２特徴マップ上でシフトすることにより、各前記第１構成要素について、対応する複数の前記第２構成要素を示す対応関係を決定する決定手段と、
　前記対応関係から算出された前記第１の特徴と前記第２の特徴との相関関係を前記第３特徴マップに反映させる反映手段と、
　を備えた情報処理装置。
　前記決定手段は、各前記第２構成要素が少なくとも１個の前記第１構成要素に対応するように、前記グリッドパターンを各前記第１構成要素の位置に基づいて前記第２特徴マップ上でシフトすることにより、前記対応関係を決定する、
　請求項１に記載の情報処理装置。
　前記決定手段は、前記第１特徴マップを複数の分割領域に分割し、各前記第２構成要素が少なくとも各前記分割領域におけるいずれか１個の前記第１構成要素に対応するように、前記グリッドパターンを各前記第１構成要素の位置に基づいて前記第２特徴マップ上でシフトすることにより、前記対応関係を決定する、
　請求項２に記載の情報処理装置。
　前記決定手段は、各前記第２構成要素が、各前記分割領域におけるいずれか１個の前記第１構成要素と対応するように、前記グリッドパターンを各前記第１構成要素の位置に基づいて前記第２特徴マップ上でシフトすることにより、前記対応関係を決定する、
　請求項３に記載の情報処理装置。
　前記決定手段は、全ての前記分割領域同士で、１対１に対応する前記第１構成要素を設定し、対応する前記第１構成要素同士について、前記グリッドパターンが前記第２特徴マップ上で同じ位置に配置されるよう、前記グリッドパターンを各前記第１構成要素の位置に基づいて前記第２特徴マップ上でシフトすることにより、前記対応関係を決定する、
　請求項４に記載の情報処理装置。
　前記決定手段は、所定の確率で、各前記第１構成要素の位置に応じて決定される前記グリッドパターンの前記第２特徴マップ上での位置をシャッフルすることで、前記対応関係を決定する、
　請求項５に記載の情報処理装置。
　前記決定手段は、前記各分割領域を、複数個の前記第１構成要素を含む合同の図形で構成する、
　請求項３乃至６のいずれか１項に記載の情報処理装置。
　前記抽出手段と、前記決定手段と、前記反映手段を有する注意機構ユニットを複数備える、
　請求項１乃至７のいずれか１項に記載の情報処理装置。
　所定の範囲のカーネルを用いた特徴抽出ユニット及び前記注意機構ユニットを複数備える、
　請求項８に記載の情報処理装置。
　特徴マップから、複数の第１構成要素で構成された第１の特徴に係る第１特徴マップ、複数の第２構成要素で構成された第２の特徴に係る第２特徴マップ、及び第３の特徴に係る第３特徴マップを抽出し、
　１個の前記第１構成要素に対応する複数個の前記第２構成要素を示すグリッドパターンを、各前記第１構成要素の位置に基づいて前記第２特徴マップ上でシフトすることにより、各前記第１構成要素について、対応する複数の前記第２構成要素を示す対応関係を決定し、
　前記対応関係から算出された前記第１の特徴と前記第２の特徴との相関関係を前記第３特徴マップに反映する、
　ことを情報処理装置が実行する情報処理方法。
　特徴マップから、複数の第１構成要素で構成された第１の特徴に係る第１特徴マップ、複数の第２構成要素で構成された第２の特徴に係る第２特徴マップ、及び第３の特徴に係る第３特徴マップを抽出し、
　１個の前記第１構成要素に対応する複数個の前記第２構成要素を示すグリッドパターンを、各前記第１構成要素の位置に基づいて前記第２特徴マップ上でシフトすることにより、各前記第１構成要素について、対応する複数の前記第２構成要素を示す対応関係を決定し、
　前記対応関係から算出された前記第１の特徴と前記第２の特徴との相関関係を前記第３特徴マップに反映する、
　ことを情報処理装置に実行させるプログラムが格納された非一時的なコンピュータ可読媒体。