WO2022102083A1

WO2022102083A1 - 情報処理装置、情報処理方法、及びコンピュータプログラム

Info

Publication number: WO2022102083A1
Application number: PCT/JP2020/042445
Authority: WO
Inventors: 宏福井
Original assignee: 日本電気株式会社
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2022-05-19
Also published as: US20230394784A1; JPWO2022102083A1

Abstract

情報処理装置（１０）は、画像データから特徴量を抽出する抽出手段（１１０）と、特徴量から特定の位置を切り出して部分特徴量を取得する取得手段（１２０）と、部分特徴量を用いて所定の演算処理を実行する演算手段（１３０）と、所定の演算処理の結果を特徴量のサイズに復元する復元手段（１４０）とを備える。このような情報処理装置によれば、演算処理における演算量を大幅に低減することが可能である。

Description

情報処理装置、情報処理方法、及びコンピュータプログラム

　この開示は、特徴量に関する情報を処理する情報処理装置、情報処理方法、及びコンピュータプログラムの技術分野に関する。

　この種の装置として、注意機構を利用するものが知られている。例えば特許文献１では、音声特徴量を抽出して埋め込みベクトルとして用いる音声認識モデルが注意機構を含んでいてもよいことが開示されている。特許文献２では、入力された文章から新たな文章を出力する際に、単語に重みを付けて文章を生成する注意機構を利用してもよいことが開示されている。

特開２０２０－０１６７８４号公報特開２０２０－１４０４６９号公報

　この開示は、上述した関連する技術を改善することを目的とする。

　この開示の情報処理装置の一の態様は、画像データから特徴量を抽出する抽出手段と、前記特徴量から特定の位置を切り出して部分特徴量を取得する取得手段と、前記部分特徴量を用いて所定の演算処理を実行する演算手段と、前記所定の演算処理の結果を前記特徴量のサイズに復元する復元手段とを備える。

　この開示の情報処理方法の一の態様は、画像データから特徴量を抽出し、前記特徴量から特定の位置を切り出して部分特徴量を取得し、前記部分特徴量を用いて所定の演算処理を実行し、前記所定の演算処理の結果を前記特徴量のサイズに復元する。

　この開示のコンピュータプログラムの一の態様は、画像データから特徴量を抽出し、前記特徴量から特定の位置を切り出して部分特徴量を取得し、前記部分特徴量を用いて所定の演算処理を実行し、前記所定の演算処理の結果を前記特徴量のサイズに復元するようにコンピュータを動作させる。

第１実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。第１実施形態に係る情報処理装置の機能的構成を示すブロック図である。第１実施形態に係る情報処理装置の動作の流れを示すフローチャートである。第２実施形態に係る情報処理装置の機能的構成を示すブロック図である。第２実施形態に係る情報処理装置の動作の流れを示すフローチャートである。第３実施形態に係る情報処理装置の機能的構成を示すブロック図である。第３実施形態に係る情報処理装置の動作の流れを示すフローチャートである。第４実施形態に係る情報処理装置の動作の流れを示すフローチャートである。第５実施形態に係る情報処理装置の機能的構成を示すブロック図である。第５実施形態に係る情報処理装置の動作の流れを示すフローチャートである。特徴マップから部分特徴量を切り出すパターンを示す概念図である。第６実施形態に係る情報処理装置の動作の流れを示すフローチャートである。第６実施形態に係る情報処理装置が備える注意機構の動作を示す概念図である。第７実施形態に係る情報処理装置の動作の流れを示すフローチャートである。第８実施形態に係る情報処理装置の機能的構成を示すブロック図である。第８実施形態に係る情報処理装置の具体的な動作例を示す概念図である。第９実施形態に係る情報処理装置の機能的構成を示すブロック図である。第９実施形態に係る情報処理装置の具体的な動作例を示す概念図である。

　以下、図面を参照しながら、情報処理装置、情報処理方法、及びコンピュータプログラムの実施形態について説明する。

　＜第１実施形態＞
　第１実施形態に係る情報処理装置について、図１から図３を参照して説明する。

　（ハードウェア構成）
　まず、図１を参照しながら、第１実施形態に係る情報処理装置のハードウェア構成について説明する。図１は、第１実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。

　図１に示すように、第１実施形態に係る情報処理装置１０は、プロセッサ１１と、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１２と、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１３と、記憶装置１４とを備えている。情報処理装置１０は更に、入力装置１５と、出力装置１６とを備えていてもよい。プロセッサ１１と、ＲＡＭ１２と、ＲＯＭ１３と、記憶装置１４と、入力装置１５と、出力装置１６とは、データバス１７を介して接続されている。

　プロセッサ１１は、コンピュータプログラムを読み込む。例えば、プロセッサ１１は、ＲＡＭ１２、ＲＯＭ１３及び記憶装置１４のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、プロセッサ１１は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。プロセッサ１１は、ネットワークインタフェースを介して、情報処理装置１０の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい（つまり、読み込んでもよい）。プロセッサ１１は、読み込んだコンピュータプログラムを実行することで、ＲＡＭ１２、記憶装置１４、入力装置１５及び出力装置１６を制御する。本実施形態では特に、プロセッサ１１が読み込んだコンピュータプログラムを実行すると、プロセッサ１１内には、特徴量に関する各種処理を実行するための機能ブロックが実現される。なお、プロセッサ１１の一例として、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＦＰＧＡ（ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅ　ｇａｔｅ　ａｒｒａｙ）、ＤＳＰ（Ｄｅｍａｎｄ－Ｓｉｄｅ　Ｐｌａｔｆｏｒｍ）、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）が挙げられる。プロセッサ１１は、上述した一例のうち一つを用いてもよいし、複数を並列で用いてもよい。

　ＲＡＭ１２は、プロセッサ１１が実行するコンピュータプログラムを一時的に記憶する。ＲＡＭ１２は、プロセッサ１１がコンピュータプログラムを実行している際にプロセッサ１１が一時的に使用するデータを一時的に記憶する。ＲＡＭ１２は、例えば、Ｄ－ＲＡＭ（Ｄｙｎａｍｉｃ　ＲＡＭ）であってもよい。

　ＲＯＭ１３は、プロセッサ１１が実行するコンピュータプログラムを記憶する。ＲＯＭ１３は、その他に固定的なデータを記憶していてもよい。ＲＯＭ１３は、例えば、Ｐ－ＲＯＭ（Ｐｒｏｇｒａｍｍａｂｌｅ　ＲＯＭ）であってもよい。

　記憶装置１４は、情報処理装置１０が長期的に保存するデータを記憶する。記憶装置１４は、プロセッサ１１の一時記憶装置として動作してもよい。記憶装置１４は、例えば、ハードディスク装置、光磁気ディスク装置、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。

　入力装置１５は、情報処理装置１０のユーザからの入力指示を受け取る装置である。入力装置１５は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。入力装置１５は、専用のコントローラ（操作端末）であってもよい。また、入力装置１５は、ユーザが保有する端末（例えば、スマートフォンやタブレット端末等）を含んでいてもよい。入力装置１５は、例えばマイクを含む音声入力が可能な装置であってもよい。

　出力装置１６は、情報処理装置１０に関する情報を外部に対して出力する装置である。例えば、出力装置１６は、情報処理装置１０に関する情報を表示可能な表示装置（例えば、ディスプレイ）であってもよい。ここでの表示装置は、テレビモニタ、パソコンモニタ、スマートフォンのモニタ、タブレット端末のモニタ、その他の携帯端末のモニタであってよい。また、表示装置は、店舗等の各種施設に設置される大型モニタやデジタルサイネージ等であってよい。また、出力装置１６は、画像以外の形式で情報を出力する装置であってもよい。例えば、出力装置１６は、情報処理装置１０に関する情報を音声で出力するスピーカであってもよい。

　（機能的構成）
　次に、図２を参照しながら、第１実施形態に係る情報処理装置１０の機能的構成について説明する。図２は、第１実施形態に係る情報処理装置の機能的構成を示すブロック図である。

　図２に示すように、第１実施形態に係る情報処理装置１０は、その機能を実現するための処理ブロックとして、抽出部１１０と、取得部１２０と、演算部１３０と、復元部１４０とを備えている。なお、抽出部１１０、取得部１２０、演算部１３０、及び復元部１４０の各々は、上述したプロセッサ１１（図１参照）によって実現されてよい。

　抽出部１１０は、画像データから特徴量を抽出可能に構成されている。ここでの「特徴量」は、画像中に存在する対象を特定のタスクで認識するために、認識に用いる特徴的な領域や位置を示すように変換されたデータであり、例えば画像データに対して所定の抽出処理を実行することで抽出することができる。。特徴量の具体的な抽出方法については、既存の技術を適宜採用することができるため、詳細な説明は省略する。抽出部１１０で抽出された特徴量は、取得部１２０に出力される構成となっている。

　取得部１２０は、画像データから抽出された特徴量の一部を切り出して、部分特徴量を取得可能に構成されている。あるいは、取得部１２０は、画像の一部を切り出してから、切り出した一部の画像に対して抽出処理を実行することで部分特徴量を取得してもよい。また、取得部１２０は、特徴量の一部を特定することで部分特徴量を取得してもよい。取得部１２０は、特徴量の一部を絞り込むことで部分特徴量を取得してもよい。取得部１２０は、特徴量を分割して一部を選択することで部分特徴量を取得してもよい。部分特徴量は、上述したように特徴量の一部を切り出したものであるため、もともとの特徴量と比べるとデータ量が小さい。なお、特徴量のどの部分を切り出すかについては、後述する他の実施形態において詳しく説明する。取得部１２０で切り出された部分特徴量は、演算部１３０に入力される構成となっている。

　演算部１３０は、取得部１２０で抽出された部分特徴量を用いて、各種演算処理を実行可能に構成されている。演算部１３０は、演算処理を複数回実行するように構成されてもよい。例えば、演算部１３０は、第１の演算処理を行った後に、第２の演算処理を行ってもよい。この場合、第１の演算処理と第２の演算処理とは、同種の演算処理であってもよいし、異なる演算処理であってもよい。また、演算部１３０は、３つ以上の演算処理を行ってもよい。また演算部１３０は、複数種類の演算処理を実行するように構成されてもよい。演算部１３０は、部分特徴量に加えて、部分特徴量以外の情報（例えば、切り出し前の特徴量）を用いて演算処理を行ってもよい。なお、演算部１３０が実行する演算処理の具体的な内容については、後述する他の実施形態において詳しく説明する。演算部１３０による演算結果は、復元部１４０に出力される構成となっている。

　復元部１４０は、演算部１３０の演算結果（即ち、部分特徴量を用いた演算結果）を、切り出し前の特徴量のサイズ（即ち、抽出部１１０で抽出された特徴量のサイズ）に復元可能に構成されている。なお、復元部１４０が実行する復元処理の具体的な内容については、後述する他の実施形態において詳しく説明する。

　（動作の流れ）
　次に、図３を参照しながら、第１実施形態に係る情報処理装置１０の動作の流れについて説明する。図３は、第１実施形態に係る情報処理装置の動作の流れを示すフローチャートである。

　図３に示すように、第１実施形態に係る情報処理装置１０の動作が開始されると、まず抽出部１１０が画像データから特徴量を抽出する（ステップＳ１１）。続いて、取得部１２０が、抽出した特徴量の一部を切り出して部分特徴量を取得する（ステップＳ１２）。続いて、演算部１３０が、切り出した部分特徴量を用いて演算処理を実行する（ステップＳ１３）。続いて、復元部１４０が、演算部１３０の演算結果をもともとの特徴量のサイズに復元する（ステップＳ１４）。

　（技術的効果）
　次に、第１実施形態に係る情報処理装置１０によって得られる技術的効果について説明する。

　図１から図３で説明したように、第１実施形態に係る情報処理装置１０では、特徴量から部分特徴量が切り出され、切り出した部分特徴量を用いて演算処理が実行される。このようにすれば、特徴量に対してそのまま演算処理を実行する場合と比べて、演算処理に係る負荷を低減することが可能である。なお、演算処理が実行された後には、演算結果が特徴量のサイズに復元される。このため、部分特徴量（言い換えれば、実際の特徴量を小さなサイズへ変換した特徴量）を用いて演算処理を実行した場合でも、最終的に適切な大きさのデータを得ることができる。

　画像データの特徴量は例えば解像度に応じて大きくなるため、特徴量のデータサイズが大きくなってしまうと、演算処理における処理量が膨大な量になってしまうおそれがある。本実施形態に係る情報処理装置１０は、上述したような、演算処理の負荷が極めて大きくなってしまうような場合において、顕著な技術的効果を発揮する。

　＜第２実施形態＞
　第２実施形態に係る情報処理装置１０について、図４及び図５を参照して説明する。なお、第２実施形態は、上述した第１実施形態と比較して一部の構成及び動作が異なるのみであり、例えばハードウェア構成（図１参照）等については、第１実施形態と同様であってよい。このため、以下では、第１実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。

　（機能的構成）
　まず、図４を参照しながら、第２実施形態に係る情報処理装置１０の機能的構成について説明する。図４は、第２実施形態に係る情報処理装置の機能的構成を示すブロック図である。なお、図４では、図２で示した構成要素と同様の要素に同一の符号を付している。

　図４に示すように、第２実施形態に係る情報処理装置１０は、その機能を実現するための処理ブロックとして、抽出部１１０と、取得部１２０と、演算部１３０と、復元部１４０と、物体検出部１５０とを備えている。即ち、第２実施形態に係る情報処理装置１０は、第１実施形態の構成要素（図２参照）に加えて、物体検出部１５０を更に備えて構成されている。なお、物体検出部１５０は、上述したプロセッサ１１（図１参照）によって実現されてよい。

　物体検出部１５０は、画像中に含まれている物体を検出可能に構成されている。例えば、物体検出部１５０は、画像における物体の位置や大きさを検出可能に構成されている。物体部１５０は、物体の輪郭や存在領域（例えば、物体を囲む矩形領域等）を検出可能に構成されてもよい。物体検出部１５０は、検出した物体の種別や属性等を推定する機能を有していてもよい。なお、物体検出部１５０による具体的な検出方法については、既存の技術を適宜採用することができるため、ここでの詳しい説明については省略する。物体検出部１５０で検出された物体に関する情報は、取得部１２０に出力される構成となっている。

　（動作の流れ）
　次に、図５を参照しながら、第２実施形態に係る情報処理装置１０の動作の流れについて説明する。図５は、第２実施形態に係る情報処理装置の動作の流れを示すフローチャートである。なお、図５では、図３で示した処理と同様の処理に同一の符号を付している。

　図５に示すように、第２実施形態に係る情報処理装置１０の動作が開始されると、抽出部１１０が画像データから特徴量を抽出する（ステップＳ１１）。一方で、物体検出部１５０は、画像データから物体を検出する（ステップＳ２１）。なお、ステップＳ２１の処理は、ステップＳ１１の処理と相前後して実行されてもよいし、同時に並行して実行されてもよい。図５に示すように、特徴量を抽出してから物体を検出する場合、物体検出部１５０は、抽出部１１０で抽出した特徴量を用いて物体を検出してもよい。

　続いて、取得部１２０は、検出された物体の位置に基づいて部分特徴量を切り出す（ステップＳ２２）。例えば、取得部１２０は、物体が検出された位置に対応する箇所の特徴量を切り出して、部分特徴量として取得してもよい。取得部１２０は、複数の物体が検出された場合、すべての物体の位置に基づいて部分特徴量を切り出すようにしてもよいし、一部の物体の位置に基づいて部分特徴量を切り出すようにしてもよい。或いは、取得部１２０は、物体が検出されていない位置に対応する箇所の特徴量を切り出して、部分特徴量として取得してもよい。また、取得部１２０は、１枚の画像を複数の分割領域に区切る処理（例えば、正方形画像に十字の線を引いて、４つの正方形領域に分割する処理等）を実行して、物体が存在する分割領域を用いて部分特徴量を切り出すようにしてもよい。

　続いて、演算部１３０が、切り出した部分特徴量を用いて演算処理を実行する（ステップＳ１３）。続いて、復元部１４０が、演算部１３０の演算結果をもともとの特徴量のサイズに復元する（ステップＳ１４）。

　（技術的効果）
　次に、第２実施形態に係る情報処理装置１０によって得られる技術的効果について説明する。

　図４及び図５で説明したように、第２実施形態に係る情報処理装置１０では、物体が検出された位置に基づいて部分特徴量が切り出される。このようにすれば、物体の存在を考慮して適切に部分特徴量を切り出すことが可能となる。例えば、物体が存在する位置は、その他の位置と比べて重要な情報が含まれている可能性が高いと考えることもできる。このような場合に、物体の位置に対応する箇所を切り出すようにすれば、より適切な部分特徴量を取得することができる。

　＜第３実施形態＞
　第３実施形態に係る情報処理装置１０について、図６及び図７を参照して説明する。なお、第３実施形態は、上述した第１及び第２実施形態と比較して一部の構成及び動作が異なるのみであり、その他の部分については、第１及び第２実施形態と同様であってよい。このため、以下では、第１及び第２実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。

　（機能的構成）
　まず、図６を参照しながら、第３実施形態に係る情報処理装置１０の機能的構成について説明する。図６は、第３実施形態に係る情報処理装置の機能的構成を示すブロック図である。なお、図６では、図２で示した構成要素と同様の要素に同一の符号を付している。

　図６に示すように、第３実施形態に係る情報処理装置１０は、その機能を実現するための処理ブロックとして、抽出部１１０と、取得部１２０と、演算部１３０と、復元部１４０とを備えている。そして特に、第３実施形態に係る取得部１２０は、乱数設定部１２１を備えて構成されている。

　乱数設定部１２１は、特徴量から部分特徴量を切り出す際に用いる乱数を設定可能に構成されている。ここでの乱数の種別は特に限定されないが、例えば一様分布の乱数であってもよいし、正規分布の乱数であってもよい。或いは、所定の確率分布に対応する乱数であってもよい。

　（動作の流れ）
　次に、図７を参照しながら、第３実施形態に係る情報処理装置１０の動作の流れについて説明する。図７は、第３実施形態に係る情報処理装置の動作の流れを示すフローチャートである。なお、図７では、図３で示した処理と同様の処理に同一の符号を付している。

　図７に示すように、第３実施形態に係る情報処理装置１０の動作が開始されると、まず抽出部１１０が画像データから特徴量を抽出する（ステップＳ１１）。続いて、乱数設定部１２１が、取得部１２０が部分特徴量を切り出す際に用いる乱数を設定する（ステップＳ３１）。そして、取得部１２０は、抽出した特徴量の一部を乱数に基づいて切り出して部分特徴量を取得する（ステップＳ３２）。続いて、演算部１３０が、切り出した部分特徴量を用いて演算処理を実行する（ステップＳ１３）。続いて、復元部１４０が、演算部１３０の演算結果をもともとの特徴量のサイズに復元する（ステップＳ１４）。

　（技術的効果）
　次に、第３実施形態に係る情報処理装置１０によって得られる技術的効果について説明する。

　図６及び図７で説明したように、第３実施形態に係る情報処理装置１０では、乱数に基づいて部分特徴量が切り出される（言い換えれば、ランダムに切り出される）。このようにすれば、より容易に部分特徴量を切り出すことが可能である。具体的には、部分特徴量を切り出す具体的な位置を予め細かく設定する手間を省くことができる。或いは、部分特徴量を切り出す位置を決定するための別処理を実行せずに済む。更に、部分特徴量として切り出す位置を、画像全体から満遍なく選択することもできる。

　＜第４実施形態＞
　第４実施形態に係る情報処理装置１０について、図８を参照して説明する。なお、第４実施形態は、上述した第３実施形態（即ち、乱数に基づいて部分特徴量を切り出す実施形態）と比較して一部の動作が異なるのみであり、その他の部分については、第３実施形態と同様であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。

　（動作の流れ）
　まず、図８を参照しながら、第４実施形態に係る情報処理装置１０の動作の流れについて説明する。図８は、第４実施形態に係る情報処理装置の動作の流れを示すフローチャートである。なお、図８では、図７で示した処理と同様の処理に同一の符号を付している。

　図８に示すように、第４実施形態に係る情報処理装置１０の動作が開始されると、まず抽出部１１０が画像データから特徴量を抽出する（ステップＳ１１）。続いて、乱数設定部１２１が、取得部１２０が部分特徴量を切り出す際に用いる乱数を設定する（ステップＳ３１）。

　そして第４実施形態では特に、取得部１２０が、部分特徴量の一部を固定位置から切り出して取得し、その他の部分を乱数に基づいて切り出して取得する（ステップＳ４１）。なお、ここでの「固定位置」は、予め設定された固定位置であってもよいし、別処理（例えば、第２実施形態で説明した物体が存在する領域を検出する処理等）によって算出された固定位置であってもよい。

　（技術的効果）
　次に、第４実施形態に係る情報処理装置１０によって得られる技術的効果について説明する。

　図８で説明したように、第４実施形態に係る情報処理装置１０では、特徴量の一部が固定位置で切り出され、それ以外の他部が乱数に基づいて切り出されることで、部分特徴量が取得される。このようにすれば、一部の部分特徴量が固定位置から切り出されるため、すべてを乱数に基づいて切り出す場合と比較して、より適切な位置を部分特徴量として切り出すことが可能となる。また、一部を除く他部が乱数に基づいて切り出されるため、すべてを固定位置に基づいて切り出す場合と比較して、容易に部分特徴量を切り出すことができる。

　＜変形例＞
　上述した第４実施形態では、部分特徴量の一部を固定位置から取得し、その他の部分を乱数に基づいて取得する例を挙げたが、部分特徴量のすべてを固定位置から切り出して取得してもよい。この場合、乱数に基づいて切り出される部分がないため、より適切な位置を部分特徴量として切り出すことが可能となる。

　＜第５実施形態＞
　第５実施形態に係る情報処理装置１０について、図９から図１１を参照して説明する。なお、第５実施形態は、上述した第１から第４実施形態と比較して一部の構成及び動作が異なるのみであり、その他の部分については、第１から第４実施形態と同様であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。

　（機能的構成）
　まず、図９を参照しながら、第５実施形態に係る情報処理装置１０の機能的構成について説明する。図９は、第５実施形態に係る情報処理装置の機能的構成を示すブロック図である。なお、図９では、図２で示した構成要素と同様の要素に同一の符号を付している。

　図９に示すように、第５実施形態に係る情報処理装置１０は、その機能を実現するための処理ブロックとして、抽出部１１０と、取得部１２０と、演算部１３０と、復元部１４０とを備えている。そして特に、第５実施形態に係る取得部１２０は、パターン記憶部１２２を備えて構成されている。パターン記憶部１２２は、上述した記憶装置１４（図１参照）によって実現されてもよい

　パターン記憶部１２２は、特徴量から部分特徴量を切り出す位置を示す所定パターンを記憶可能に構成されている。所定パターンは特に限定されないが、例えばグリッド状のパターンとして設定されてよい。所定のパターンは、事前のシミュレーション結果等に基づいて、より適切な部分特徴量を切り出せる位置を示すパターンとして設定されてよい。また、パターン記憶部１２２は、複数のパターンを記憶可能に構成されてもよい。この場合、取得部１２０は、パターン記憶部１２２が記憶している複数のパターンの中から、使用する１つのパターンを選択して部分特徴量を切り出すようにすればよい。或いは、取得部１２０は、パターン記憶部１２２が記憶している複数のパターンを適宜組み合わせて切り出しパターンを生成し、その切り出しパターンに基づいて部分特徴量を切り出すようにしてもよい。

　（動作の流れ）
　次に、図１０を参照しながら、第５実施形態に係る情報処理装置１０の動作の流れについて説明する。図１０は、第５実施形態に係る情報処理装置の動作の流れを示すフローチャートである。なお、図１０では、図３で示した処理と同様の処理に同一の符号を付している。

　図１０に示すように、第５実施形態に係る情報処理装置１０の動作が開始されると、まず抽出部１１０が画像データから特徴量を抽出する（ステップＳ１１）。続いて、取得部１２０が、パターン記憶部１２２から部分特徴量の切り出しに用いるパターンを読み出す（ステップＳ５１）。そして、取得部１２０は、読みだしたパターンに基づいて部分特徴量を切り出す（ステップＳ５２）。続いて、演算部１３０が、切り出した部分特徴量を用いて演算処理を実行する（ステップＳ１３）。続いて、復元部１４０が、演算部１３０の演算結果をもともとの特徴量のサイズに復元する（ステップＳ１４）。

　（パターンの具体例）
　次に、図１１を参照しながら、第５実施形態に係る情報処理装置１０で用いられる所定パターンの具体例について説明する。図１１は、特徴マップから部分特徴量を切り出すパターンを示す概念図である。なお、以下では、特徴量として抽出された特徴マップから部分特徴量を切り出す例について説明する。

　図１１に示すように、第５実施形態に係る取得部１２０は、画像データの特徴量として抽出された特徴マップから、所定のグリッド状パターンに基づいて、部分特徴量を切り出す。図１１に示す例では、１１×１１のグリッドから９マス分の部分特徴量が切り出されている。このように、取得部１２０は、特徴マップをグリッド状に分割して、所定パターンが示す位置のマス目だけを部分特徴量として切り出してもよい。なお、図１１に示すパターンはあくまで一例であり、これとは異なるパターンを用いて部分特徴量を切り出してもよい。

　（技術的効果）
　次に、第５実施形態に係る情報処理装置１０によって得られる技術的効果について説明する。

　図９から図１１で説明したように、第５実施形態に係る情報処理装置１０では、予め設定された所定のパターンに基づいて部分特徴量が切り出される。このようにすれば、より容易に部分特徴量を切り出すことが可能である。具体的には、部分特徴量として切り出すべき部分を所定パターンとして予め設定しておけば、所定パターンを読み出すだけの簡単な処理で、適切に部分特徴量を切り出すことが可能となる。

　＜第６実施形態＞
　第６実施形態に係る情報処理装置１０について、図１２及び図１３を参照して説明する。なお、第６実施形態は、上述した第１から第５実施形態と比較して一部の動作が異なるのみであり、その他の部分については第１から第５実施形態と同様であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。

　（動作の流れ）
　まず、図１２及び図１３を参照しながら、第６実施形態に係る情報処理装置１０の動作の流れについて説明する。図１２は、第６実施形態に係る情報処理装置の動作の流れを示すフローチャートである。図１３は、第６実施形態に係る情報処理装置が備える注意機構の動作を示す概念図である。なお、注意機構については既存の技術であるため、以下では注意機構に関する各用語の詳しい説明については適宜省略している。

　図１２及び図１３に示すように、第６実施形態に係る情報処理装置１０の動作は、例えばニューラルネットワークが備える注意機構の動作として実現される。第６実施形態に係る情報処理装置１０の動作が開始されると、まず抽出部１１０が画像データからＱ（Ｑｕｅｒｙ：クエリ）、Ｋ（Ｋｅｙ：キー）、及びＶ（Ｖａｌｕｅ：バリュー）の特徴マップを抽出する（ステップＳ６１）。そして、取得部１２０は、抽出したＱ、Ｋ及びＶの特徴マップから一部を切り出して部分特徴量を取得する（ステップＳ６２）。なお、Ｑ、Ｋ及びＶの特徴マップからは、それぞれ共通する位置が部分特徴量として切り出される（図１３参照）。

　続いて、演算部１３０が、Ｑの特徴マップから切り出した部分特徴量と、Ｋの特徴マップから切り出した部分特徴量との行列積を演算する（ステップＳ６３）。その後、演算部１３０は、演算した行列積に対して正規化処理を実行する（ステップＳ６４）。正規化処理には、例えばソフトマックス関数を用いることができる。

　続いて、演算部１３０は、Ｑの部分特徴量とＫの部分特徴量との行列積を正規化したもの（即ち、重み）と、Ｖの特徴マップから切り出した部分特徴量との行列積を演算する（ステップＳ６５）。その後、復元部１４０は、演算した行列積に対して復元処理を実行する（ステップＳ６６）。復元部１４０は更に、残差処理を実行する（ステップＳ６７）。

　（技術的効果）
　次に、第６実施形態に係る情報処理装置１０によって得られる技術的効果について説明する。

　図１２及び図１３で説明したように、第５実施形態に係る情報処理装置１０では、演算部の処理が、注意機構における行列積の演算処理として実行される。このような場合、特徴マップを用いてそのまま行列積を演算すると、特徴マップの大きさに応じて演算量が膨大になってしまう。例えば特徴マップの縦幅と横幅をＨ、Ｗ、チャンネル数をＣとすると、上述したステップＳ６３及びステップＳ６５の演算量は、それぞれ下記式（１）及び（２）のようになる。

　一方、第５実施形態に係る情報処理装置１０では、すでに説明したように特徴マップから切り出された部分特徴量を用いて行列積が演算される。よって、部分特徴量として切り出す個数をＮとすると、上述したステップＳ６３及びステップＳ６５の演算量は、それぞれ下記式（３）及び（４）のようになる。

　ここで、Ｎの値は、ＨＷよりも小さい値である。よって、第５実施形態に係る情報処理装置１０によれば、行列積の演算処理における演算量を低減することが可能である。

　＜第７実施形態＞
　第７実施形態に係る情報処理装置１０について、図１４を参照して説明する。なお、第７実施形態は、上述した第６実施形態（即ち、注意機構の行列積を演算する実施形態）における復元処理の具体例を説明するものであり、その他の部分については、第６実施形態と同様であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。

　（動作の流れ）
　まず、図１４を参照しながら、第７実施形態に係る情報処理装置１０の動作の流れについて説明する。図１４は、第７実施形態に係る情報処理装置の動作の流れを示すフローチャートである。なお、図１４では、図１２で示した処理と同様の処理に同一の符号を付している。

　図１４に示すように、第７実施形態に係る情報処理装置１０の動作が開始されると、まず抽出部１１０が画像データからＱ（Ｑｕｅｒｙ：クエリ）、Ｋ（Ｋｅｙ：キー）、及びＶ（Ｖａｌｕｅ：バリュー）の特徴マップを抽出する（ステップＳ６１）。そして、取得部１２０は、抽出したＱ、Ｋ及びＶの特徴マップから一部を切り出して部分特徴量を取得する（ステップＳ６２）。

　続いて、演算部１３０が、Ｑの特徴マップから切り出した部分特徴量と、Ｋの特徴マップから切り出した部分特徴量との行列積を演算する（ステップＳ６３）。その後、演算部１３０は、演算した行列積に対して正規化処理を実行する（ステップＳ６４）。続いて、演算部１３０は、Ｑの部分特徴量とＫの部分特徴量との行列積を正規化したもの（即ち、重み）と、Ｖの特徴マップから切り出した部分特徴量との行列積を演算する（ステップＳ６５）。

　続いて、復元部１４０は、Ｖの特徴マップに対して、部分特徴量として切り出さなかった部分を「０」で埋める処理（以下、適宜「０埋め処理」と称する）を実行する（ステップＳ７１）。そして、復元部１４０は、０埋め処理を実行したＶの特徴マップを、ステップＳ６５の演算結果に代入する（ステップＳ７２）。このように、第７実施形態に係る復元部１４０は、上述したステップＳ７１及びＳ７２の処理を復元処理として実行する。その後、復元部１４０は、残差処理を実行する（ステップＳ６７）。

　（技術的効果）
　次に、第７実施形態に係る情報処理装置１０によって得られる技術的効果について説明する。

　図１４で説明したように、第７実施形態に係る情報処理装置１０では、切り出した部分以外を０埋め処理した特徴量を代入することで復元処理が実行される。このようにすれば、演算部１３０による演算結果を、比較的簡単な処理で元の特徴量の大きさに復元することができる。

　＜第８実施形態＞
　第８実施形態に係る情報処理装置１０について、図１５及び図１６を参照して説明する。なお、第８実施形態は、上述した第１から第７実施形態と比較して一部の構成及び動作（具体的には動画を対象とする点）が異なるのみであり、その他の部分については、第１から第７実施形態と同様であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。

　（機能的構成）
　まず、図１５を参照しながら、第８実施形態に係る情報処理装置１０の機能的構成について説明する。図１５は、第８実施形態に係る情報処理装置の機能的構成を示すブロック図である。なお、図１５では、図４で示した構成要素と同様の要素に同一の符号を付している。

　図１５に示すように、第８実施形態に係る情報処理装置１０は、その機能を実現するための処理ブロックとして、抽出部１１０と、取得部１２０と、演算部１３０と、復元部１４０と、物体検出部１５０と、物体位置記憶部１６０とを備えている。即ち、第８実施形態に係る情報処理装置１０は、第２実施形態の構成要素（図４参照）に加えて、物体位置記憶部１６０を更に備えて構成されている。なお、物体位置記憶部１６０は、上述した記憶装置１４（図１参照）によって実現されてよい。

　物体位置記憶部１６０は、物体検出部１５０で検出した位置（即ち、画像における物体が存在している位置）を記憶可能に構成されている。物体位置記憶部１６０は、物体検出部１５０で複数の物体が検出された場合、それら複数の物体の位置をそれぞれ記憶可能に構成されてよい。物体位置記憶部１６０は、新たな物体が検出された場合、その都度、その位置を記憶するようにしてもよい。また、物体位置記憶部１６０は、不要になった物体の位置に関する情報を適宜削除する機能を有していてもよい。物体位置記憶部１６０に記憶された物体の位置に関する情報は、取得部１２０によって適宜読み出し可能とされている。

　（具体的な動作例）
　次に、図１６を参照しながら、第８実施形態に係る情報処理装置１０の具体的な動作例について説明する。図１６は、第８実施形態に係る情報処理装置の具体的な動作例を示す概念図である。

　図１６に示すように、第８実施形態に係る情報処理装置１０に、家５０１と、木５０２とが撮像された動画が入力されているとする。この場合、物体検出部１５０は、最初のフレームである第１フレームを処理する際に家５０１と、木５０２とをそれぞれ検出する。そして、物体位置記憶部１６０は、検出された家５０１の位置と、木５０２の位置とをそれぞれ記憶する。

　第１フレームについては、検出された家５０１の位置と、木５０２の位置とに基づいて、取得部１２０が部分特徴量を切り出す。そして、続く第２フレームについては、第１フレームで検出された家５０１の位置と、木５０２の位置とに基づいて、取得部１２０が部分特徴量を切り出す。同様に、続く第３フレームについても、第１フレームで検出された家５０１の位置と、木５０２の位置とに基づいて、取得部１２０が部分特徴量を切り出す。このように、第８実施形態に係る情報処理装置１０では、最初に検出した物体の位置に基づいて、その後のフレームについても部分特徴量の切り出しが行われる。

　なお、部分特徴量の切り出し位置は、所定のタイミングで変更されてもよい。例えば、動画の場面（シーン）が大きく変化した場合には、改めて物体検出部１５０が物体の検出を行い、それ以降のフレームについては、新たに検出された物体の位置に基づいて部分特徴量が切り出されてもよい。

　（技術的効果）
　次に、第８実施形態に係る情報処理装置１０によって得られる技術的効果について説明する。

　図１５及び図１６で説明したように、第８実施形態に係る情報処理装置１０では、動画データ（即ち、時系列で連続する画像データ）を扱う場合に、検出された物体の位置が記憶され、その後については記憶された物体の位置に基づいて部分特徴量が切り出される。このようにすれば、すべてのフレームについて物体の位置を検出する必要がなくなるため、処理不可を大幅に低減することができる。第８実施形態に係る情報処理装置１０は、画像中の位置が大きく変化しない物体（例えば、図１６の例で示した家５０１や木５０２のように動かない物体）が検出対象となる場合において、顕著に効果を発揮する。

　＜第９実施形態＞
　第９実施形態に係る情報処理装置１０について、図１７及び図１８を参照して説明する。なお、第９実施形態は、上述した第８実施形態と比較して一部の構成及び動作（具体的には、物体の位置をトラッキングする点）が異なるのみであり、その他の部分については、第８実施形態と同様であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。

　（機能的構成）
　まず、図１７を参照しながら、第９実施形態に係る情報処理装置１０の機能的構成について説明する。図１７は、第９実施形態に係る情報処理装置の機能的構成を示すブロック図である。なお、図１７では、図１５で示した構成要素と同様の要素に同一の符号を付している。

　図１７に示すように、第８実施形態に係る情報処理装置１０は、その機能を実現するための処理ブロックとして、抽出部１１０と、取得部１２０と、演算部１３０と、復元部１４０と、物体検出部１５０と、トラッキング処理部１７０とを備えている。即ち、第８実施形態に係る情報処理装置１０は、第８実施形態の物体位置記憶部１６０（図１５参照）に代えて、トラッキング処理部１７０を備えて構成されている。なお、トラッキング処理部１７０は、上述したプロセッサ１１（図１参照）によって実現されてよい。

　トラッキング処理部１７０は、物体検出部１５０で検出した物体の位置をトラッキング（言い換えれば、追跡）する処理を実行可能に構成されている。トラッキング処理部１７０は、例えば物体の移動方向や移動速度等から、各フレームにおける物体の位置を推定して出力する。なお、トラッキング処理の具体的な処理内容については、既存の技術を適宜採用することができるため、ここでの詳しい説明については省略する。

　（具体的な動作例）
　次に、図１８を参照しながら、第９実施形態に係る情報処理装置１０の具体的な動作例について説明する。図１８は、第９実施形態に係る情報処理装置の具体的な動作例を示す概念図である。

　図１８に示すように、第９実施形態に係る情報処理装置１０に、人物６０１と、ボール６０２とが撮像された動画が入力されているとする。この場合、物体検出部１５０は、最初のフレームである第１フレームを処理する際に人物６０１と、ボール６０２とをそれぞれ検出する。そして、トラッキング処理部１７０は、検出された人物６０１と、ボール６０２とをそれぞれトラッキングして、その後のフレームにおける人物６０１の位置と、ボール６０２の位置とをそれぞれ推定する。

　第１フレームについては、検出された人物６０１の位置と、ボール６０２の位置とに基づいて、取得部１２０が部分特徴量を切り出す。そして、続く第２フレームについては、トラッキング処理で推定された人物６０１の位置と、ボール６０２の位置とに基づいて、取得部１２０が部分特徴量を切り出す。同様に、続く第３フレームについても、トラッキング処理で推定された人物６０１の位置と、ボール６０２の位置とに基づいて、取得部１２０が部分特徴量を切り出す。このように、第９実施形態に係る情報処理装置１０では、トラッキングした物体の位置に基づいて部分特徴量の切り出しが行われる。

　なお、トラッキング処理部１７０は、画像中のすべての物体に対してトラッキング処理を実行してもよいし、一部の物体（例えば、動きの大きい物体や、重要度の高い物体）のみに対してトラッキング処理を実行してもよい。トラッキング処理部１７０がトラッキング処理を実行しない物体については、第８実施形態（図１５及び図１６参照）のように、記憶された物体の位置に基づいて、部分特徴量を切り出すようにしてもよい。

　（技術的効果）
　次に、第９実施形態に係る情報処理装置１０によって得られる技術的効果について説明する。

　図１７及び図１８で説明したように、第９実施形態に係る情報処理装置１０では、動画データ（即ち、時系列で連続する画像データ）を扱う場合に、物体の位置をトラッキングして部分特徴量が切り出される。このようにすれば、各フレームにおける物体の位置を考慮して（言い換えれば、物体の動きを考慮して）、適切に部分特徴量を切り出すことが可能となる。第９実施形態に係る情報処理装置１０は、画像中の位置が大きく変化する物体（例えば、図１８の例で示した人物６０１やボール６０２のように動いている物体）が検出対象となる場合において、顕著に効果を発揮する。

　＜付記＞
　以上説明した実施形態に関して、更に以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）
　付記１に記載の情報処理装置は、画像データから特徴量を抽出する抽出手段と、前記特徴量から特定の位置を切り出して部分特徴量を取得する取得手段と、前記部分特徴量を用いて所定の演算処理を実行する演算手段と、前記所定の演算処理の結果を前記特徴量のサイズに復元する復元手段とを備えることを特徴とする情報処理装置である。

　（付記２）
　付記２に記載の情報処理装置は、前記画像データから物体を検出する検出手段を更に備え、前記特定の位置は、前記検出手段により前記物体が検出された位置であることを特徴とする付記１に記載の情報処理装置である。

　（付記３）
　付記３に記載の情報処理装置は、前記特定の位置は、乱数に基づいて決定されることを特徴とする付記１に記載の情報処理装置である。

　（付記４）
　付記４に記載の情報処理装置は、前記特定の位置は、一部が予め決定された固定位置であり、前記一部を除く他部が前記乱数に基づいて決定されることを特徴とする付記３に記載の情報処理装置である。

　（付記５）
　付記５に記載の情報処理装置は、前記特定の位置は、グリッド状の所定パターンであることを特徴とする付記１に記載の情報処理装置である。

　（付記６）
　付記６に記載の情報処理装置は、前記所定の演算処理は、複数の前記部分特徴量を用いて行列積を演算する処理であることを特徴とする付記１から５のいずれか一項に記載の情報処理装置である。

　（付記７）
　付記７に記載の情報処理装置は、前記復元手段は、前記部分特徴量として切り出した部分以外の部分に対応する箇所を所定値で埋める処理を実行することを特徴とする付記１から６のいずれか一項に記載の情報処理装置である。

　（付記８）
　付記８に記載の情報処理装置は、前記画像データは、時系列で連続する複数の画像データであることを特徴とする付記１から７のいずれか一項に記載の情報処理装置である。

　（付記９）
　付記９に記載の情報処理方法は、画像データから特徴量を抽出し、前記特徴量から特定の位置を切り出して部分特徴量を取得し、前記部分特徴量を用いて所定の演算処理を実行し、前記所定の演算処理の結果を前記特徴量のサイズに復元することを特徴とする情報処理方法である。

　（付記１０）
　付記１０に記載のコンピュータプログラムは、画像データから特徴量を抽出し、前記特徴量から特定の位置を切り出して部分特徴量を取得し、前記部分特徴量を用いて所定の演算処理を実行し、前記所定の演算処理の結果を前記特徴量のサイズに復元するようにコンピュータを動作させることを特徴とするコンピュータプログラムである。

　（付記１１）
　付記１１に記載の記録媒体は、付記１０に記載のコンピュータプログラムが記録されていることを特徴とする記録媒体である。

　この開示は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う情報処理装置、情報処理方法、及びコンピュータプログラムもまたこの開示の技術思想に含まれる。

　１０　情報処理装置
　１１　プロセッサ
　１１０　抽出部
　１２０　取得部
　１２１　乱数設定部
　１２２　パターン記憶部
　１３０　演算部
　１４０　復元部
　１５０　物体検出部
　１６０　物体位置記憶部
　１７０　トラッキング処理部
　５０１　家
　５０２　木
　６０１　人物
　６０２　ボール

Claims

　画像データから特徴量を抽出する抽出手段と、
　前記特徴量から特定の位置を切り出して部分特徴量を取得する取得手段と、
　前記部分特徴量を用いて所定の演算処理を実行する演算手段と、
　前記所定の演算処理の結果を前記特徴量のサイズに復元する復元手段と
　を備えることを特徴とする情報処理装置。
　前記画像データから物体を検出する検出手段を更に備え、
　前記特定の位置は、前記検出手段により前記物体が検出された位置である
　ことを特徴とする請求項１に記載の情報処理装置。
　前記特定の位置は、乱数に基づいて決定されることを特徴とする請求項１に記載の情報処理装置。
　前記特定の位置は、一部が予め決定された固定位置であり、前記一部を除く他部が前記乱数に基づいて決定されることを特徴とする請求項３に記載の情報処理装置。
　前記特定の位置は、グリッド状の所定パターンであることを特徴とする請求項１に記載の情報処理装置。
　前記所定の演算処理は、複数の前記部分特徴量を用いて行列積を演算する処理であることを特徴とする請求項１から５のいずれか一項に記載の情報処理装置。
　前記復元手段は、前記部分特徴量として切り出した部分以外の部分に対応する箇所を所定値で埋める処理を実行することを特徴とする請求項１から６のいずれか一項に記載の情報処理装置。
　前記画像データは、時系列で連続する複数の画像データであることを特徴とする請求項１から７のいずれか一項に記載の情報処理装置。
　画像データから特徴量を抽出し、
　前記特徴量から特定の位置を切り出して部分特徴量を取得し、
　前記部分特徴量を用いて所定の演算処理を実行し、
　前記所定の演算処理の結果を前記特徴量のサイズに復元する
　ことを特徴とする情報処理方法。
　画像データから特徴量を抽出し、
　前記特徴量から特定の位置を切り出して部分特徴量を取得し、
　前記部分特徴量を用いて所定の演算処理を実行し、
　前記所定の演算処理の結果を前記特徴量のサイズに復元する
　ようにコンピュータを動作させることを特徴とするコンピュータプログラム。