WO2023119642A1

WO2023119642A1 - 情報処理装置、情報処理方法、及び記録媒体

Info

Publication number: WO2023119642A1
Application number: PCT/JP2021/048286
Authority: WO
Inventors: 宏福井
Original assignee: 日本電気株式会社
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2023-06-29

Abstract

情報処理装置（１０）は、入力画像に対応する文頭トークンとパッチトークンとを生成する生成手段（１１０）と、文頭トークンを、パッチトークンを所定のグリッドパターンに応じて領域分割した複数のパッチトークンブロックの数に対応するサイズである文頭トークンブロックに拡張する拡張手段（１２０）と、文頭トークンブロック及びパッチトークンブロックに対し、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づいて演算する演算手段（１３０）と、を備える。このような情報処理装置によれば、入力画像に対して自己注意機構に基づく処理を適切に実行できる。

Description

情報処理装置、情報処理方法、及び記録媒体

　この開示は、情報処理装置、情報処理方法、及び記録媒体の技術分野に関する。

　この種の装置として、画像をグリッド状に分割して各種処理を実行するものが知られている。例えば特許文献１では、画像をグリッド状に分割した各格子内における輝度勾配から、量子化勾配方向特徴量を得ることが開示されている。特許文献２では、画像をＮ×Ｎのグリッドに分けて、グリッド中の各セルからＤ次元特徴ベクトルを抽出することが開示されている。

　また、画像を処理する装置において自己注意機構を用いるものが知られている。例えば特許文献３では、画像を認識する装置のレイヤがセルフアテンション構造を有することが開示されている。特許文献４では、画像に関する特徴量ベクトルを、クエリ、キー、バリューを用いて補正することが開示されている。

特開２０１７－２０１４９８号公報特開２０１７－０９１５２５号公報特開２０２１－０９３１４４号公報国際公開第２０２１／０９５２１２号

　この開示は、先行技術文献に開示された技術を改善することを目的とする。

　この開示の情報処理装置の一の態様は、入力画像に対応する文頭トークンとパッチトークンとを生成する生成手段と、前記文頭トークンを、前記パッチトークンを所定のグリッドパターンに応じて領域分割した複数のパッチトークンブロックの数に対応するサイズである文頭トークンブロックに拡張する拡張手段と、前記文頭トークンブロック及び前記パッチトークンブロックに対し、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づいて演算する演算手段と、を備える。

　この開示の情報処理方法の一の態様は、少なくとも１つのコンピュータによって実行される情報処理方法であって、入力画像に対応する文頭トークンとパッチトークンとを生成し、前記文頭トークンを、前記パッチトークンを所定のグリッドパターンに応じて領域分割した複数のパッチトークンブロックの数に対応するサイズである文頭トークンブロックに拡張し、前記文頭トークンブロック及び前記パッチトークンブロックに対し、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づいて演算する。

　この開示の記録媒体の一の態様は、少なくとも１つのコンピュータに、入力画像に対応する文頭トークンとパッチトークンとを生成し、前記文頭トークンを、前記パッチトークンを所定のグリッドパターンに応じて領域分割した複数のパッチトークンブロックの数に対応するサイズである文頭トークンブロックに拡張し、前記文頭トークンブロック及び前記パッチトークンブロックに対し、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づいて演算する、情報処理方法を実行させるコンピュータプログラムが記録されている。

第１実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。第１実施形態に係る情報処理装置の全体構成を示すブロック図である。第１実施形態に係る情報処理装置における自己注意機構ユニットの構成を示すブロック図である。第１実施形態に係る情報処理装置の機能的構成を示すブロック図である。第１実施形態に係る情報処理装置における特徴埋め込み処理の流れを示すフローチャートである。第１実施形態に係る情報処理装置における文頭トークンの拡張処理、及びパッチトークンの変形処理の一例を示す概念図である。第１実施形態に係る情報処理装置における要素群ごとの自己注意機構に基づく処理の一例を示す概念図である。第２実施形態に係る情報処理装置の機能的構成を示すブロック図である。第２実施形態に係る情報処理装置における特徴変換処理の流れを示すフローチャートである。第２実施形態に係る情報処理装置における復元処理の一例を示す概念図である。第３実施形態に係る情報処理装置における平均値を用いた復元処理の一例を示す概念図である。第４実施形態に係る情報処理装置における最大値を用いた復元処理の一例を示す概念図である。第５実施形態に係る情報処理装置の機能的構成を示すブロック図である。第５実施形態に係る情報処理装置における特徴埋め込み処理の流れを示すフローチャートである。第５実施形態に係る情報処理装置におけるパッチトークンのブロック内変形処理を示す概念図である。第６実施形態に係る情報処理装置の機能的構成を示すブロック図である。第６実施形態に係る情報処理装置における特徴変換処理の流れを示すフローチャートである。

　以下、図面を参照しながら、情報処理装置、情報処理方法、及び記録媒体の実施形態について説明する。

　＜第１実施形態＞
　第１実施形態に係る情報処理装置について、図１から図７を参照して説明する。

　（ハードウェア構成）
　まず、図１を参照しながら、第１実施形態に係る情報処理装置のハードウェア構成について説明する。図１は、第１実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。

　図１に示すように、第１実施形態に係る情報処理装置１０は、プロセッサ１１と、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１２と、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１３と、記憶装置１４とを備えている。情報処理装置１０は更に、入力装置１５と、出力装置１６と、を備えていてもよい。上述したプロセッサ１１と、ＲＡＭ１２と、ＲＯＭ１３と、記憶装置１４と、入力装置１５と、出力装置１６とは、データバス１７を介して接続されている。

　プロセッサ１１は、コンピュータプログラムを読み込む。例えば、プロセッサ１１は、ＲＡＭ１２、ＲＯＭ１３及び記憶装置１４のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、プロセッサ１１は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。プロセッサ１１は、ネットワークインタフェースを介して、情報処理装置１０の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい（つまり、読み込んでもよい）。プロセッサ１１は、読み込んだコンピュータプログラムを実行することで、ＲＡＭ１２、記憶装置１４、入力装置１５及び出力装置１６を制御する。本実施形態では特に、プロセッサ１１が読み込んだコンピュータプログラムを実行すると、プロセッサ１１内には、画像を入力とする自己注意機構に基づく処理を実行する機能ブロックが実現される。即ち、プロセッサ１１は、情報処理装置１０における各制御を実行するコントローラとして機能してよい。

　プロセッサ１１は、例えばＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＦＰＧＡ（ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅ　ｇａｔｅ　ａｒｒａｙ）、ＤＳＰ（Ｄｅｍａｎｄ－Ｓｉｄｅ　Ｐｌａｔｆｏｒｍ）、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）として構成されてよい。プロセッサ１１は、これらのうち一つで構成されてもよいし、複数を並列で用いるように構成されてもよい。

　ＲＡＭ１２は、プロセッサ１１が実行するコンピュータプログラムを一時的に記憶する。ＲＡＭ１２は、プロセッサ１１がコンピュータプログラムを実行している際にプロセッサ１１が一時的に使用するデータを一時的に記憶する。ＲＡＭ１２は、例えば、Ｄ－ＲＡＭ（Ｄｙｎａｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）や、ＳＲＡＭ(Ｓｔａｔｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ)であってよい。また、ＲＡＭ１２に代えて、他の種類の揮発性メモリが用いられてもよい。

　ＲＯＭ１３は、プロセッサ１１が実行するコンピュータプログラムを記憶する。ＲＯＭ１３は、その他に固定的なデータを記憶していてもよい。ＲＯＭ１３は、例えば、Ｐ－ＲＯＭ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）や、ＥＰＲＯＭ(Ｅｒａｓａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ)であってよい。また、ＲＯＭ１３に代えて、他の種類の不揮発性メモリが用いられてもよい。

　記憶装置１４は、情報処理装置１０が長期的に保存するデータを記憶する。記憶装置１４は、プロセッサ１１の一時記憶装置として動作してもよい。記憶装置１４は、例えば、ハードディスク装置、光磁気ディスク装置、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。

　入力装置１５は、情報処理装置１０のユーザからの入力指示を受け取る装置である。入力装置１５は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。入力装置１５は、スマートフォンやタブレット等の携帯端末として構成されていてもよい。入力装置１０５は、例えばマイクを含む音声入力が可能な装置であってもよい。

　出力装置１６は、情報処理装置１０に関する情報を外部に対して出力する装置である。例えば、出力装置１６は、情報処理装置１０に関する情報を表示可能な表示装置（例えば、ディスプレイ）であってもよい。また、出力装置１６は、情報処理装置１０に関する情報を音声出力可能なスピーカ等であってもよい。出力装置１６は、スマートフォンやタブレット等の携帯端末として構成されていてもよい。また、出力装置１０６は、画像以外の形式で情報を出力する装置であってもよい。例えば、出力装置１０６は、情報処理装置１０に関する情報を音声で出力するスピーカであってもよい。

　なお、図１で説明したハードウェアのうち、一部のハードウェアは情報処理装置１０以外の装置が備えていてもよい。例えば、情報処理装置１０は、上述したプロセッサ１１、ＲＡＭ１２、ＲＯＭ１３のみを備えて構成され、その他の構成要素（即ち、記憶装置１４、入力装置１５、出力装置１６）については、例えば情報処理装置１０に接続される外部の装置が備えるようにしてもよい。また、情報処理装置は１０、一部の演算機能を外部の装置（例えば、外部サーバやクラウド等）によって実現するものであってもよい。

　（全体構成）
　次に、図２を参照しながら、第１実施形態に係る情報処理装置１０の全体構成について説明する。図２は、第１実施形態に係る情報処理装置の全体構成を示すブロック図である。

　図２に示すように、第１実施形態に係る情報処理装置１０は、バッチ埋め込み処理部５５と、複数の変換ブロック５０と、を備えて構成されてよい。複数の変換ブロック５０の各々は、自己注意機構ユニット２０と、特徴変換ユニット３０と、を含んで構成されてよい。情報処理装置１０は、例えば、複数の変換ブロック５０によってネットワーク構築するニューラルネットワークとして構成されてよい。なお、第１実施形態に係る特徴変換ユニット３０は、画像を入力とし、画像に関する何らかの特徴量を出力するものとして構成されている。

　バッチ埋め込み処理部５５は、入力に対するバッチ埋め込み処理を実行可能に構成されている。ここでのバッチ埋め込み処理は、畳み込み層をベースに入力画像の局所領域をトークンとして特徴ベクトルに圧縮する処理であってよい。

　自己注意機構ユニット２０は、入力された特徴量をクエリ、キー、バリューの３つの特徴量に分けて所定の演算処理を行うことで、新たな特徴量を生成可能に構成されている。自己注意機構ユニット２０の具体的な構成及び動作については、以下で詳しく説明する。

　特徴変換ユニット３０は、入力される画像から特徴量（特徴マップ）を抽出可能に構成されている。特徴変換ユニット３０は、例えば局所的なカーネルの畳み込み層を用いることで、特徴抽出を行うユニットとして構成されてよい。なお、特徴変換ユニット３０による具体的な特徴量の抽出方法については、既存の技術を適宜採用することができるため、ここでの詳細な説明は省略する。

　（自己注意機構ユニット）
　次に、図３を参照しながら、上述した自己注意機構ユニット２０の構成及び動作について説明する。図３は、第１実施形態に係る情報処理装置における自己注意機構ユニットの構成を示すブロック図である。

　図３に示すように、自己注意機構ユニット２０は、３つの特徴埋め込み処理部３１、３２及び３３と、相関関係算出部３４と、集計処理部３５と、残差処理部３６と、特徴変換処理部３７と、を備えている。

　特徴埋め込み処理部３１は、入力された特徴マップから「クエリ」を抽出可能に構成されている。特徴埋め込み処理部３２は、入力された特徴マップから「キー」を抽出可能に構成されている。特徴埋め込み処理部３３は、入力された特徴マップから「バリュー」を抽出可能に構成されている。特徴埋め込み処理部３１、３２、及び３３の各々は、例えば畳み込みニューラルネットワークで用いられる畳み込み層又は全結合層を用いて特徴量を抽出してよい。特徴埋め込み処理部３１で生成されたクエリと、特徴埋め込み処理部３２で生成されたキーとは、相関関係算出部３４に出力される構成となっている。また、特徴埋め込み処理部３３が生成したバリューは、集計処理部３５に出力される構成となっている。

　相関関係算出部３４は、特徴埋め込み処理部３１で生成されたクエリと、特徴埋め込み処理部３２で生成されたキーと、の相関関係を示す特徴マップを算出可能に構成されている。なお、本実施形態では特に、所定のグリッドパターンを用いることで、入力される特徴マップの空間全体を参照できるように構成されている。このグリッドパターンについては、後に詳しく説明する。相関関係算出部３４は、例えばテンソルの形状変換を施した後に、行列積を計算することで相関関係を求めてもよい。また、相関関係算出部３４は、クエリとキーの埋め込み特徴に対してテンソルの形状変換をした後に、この２つの埋め込み特徴を結合することで相関関係を求めてもよい。相関関係算出部３４は、上記のように算出された行列積又は結合された特徴に、畳み込みと正規化線形関数（ＲｅＬＵ：Ｒｅｃｔｉｆｉｅｄ　Ｌｉｎｅａｒ　Ｕｎｉｔ）の計算を施すことで、最終的な相関関係を示した特徴マップ取得するようにしてもよい。相関関係算出部３４は、畳み込みのための畳み込み層が更に設けられていてもよい。また、相関関係算出部１２２は、相関関係を示した特徴マップを、シグモイド関数やソフトマックス関数等を用いて正規化してもよい。相関関係算出部３４で算出された相関関係を示す特徴マップは、集計処理部３５に出力される構成となっている。

　集計処理部３５は、相関関係算出部３４で算出された相関関係を示す特徴マップを重みとして、特徴埋め込み処理部３３が生成したバリューに反映可能に構成されている。このような処理は、例えば、相関関係（重み）の特徴マップと、バリューとを行列積で計算することで実行されてよい。相関関係が反映された特徴マップは、残差処理部３６に出力される構成となっている。

　残差処理部３６は、集計処理部３５で生成された特徴マップに対して、残差処理を実行可能に構成されている。この残差処理は、集計処理部３５で生成された特徴マップと、自己注意機構ユニット２０に入力された特徴マップとを加算する処理であってよい。これは、相関関係が仮に算出されなかった場合でも、自己注意機構ユニット２０の演算結果としての特徴マップが生成されなくなるのを防ぐためである。例えば、相関関係（重み）として０が算出されると、バリュー値に対してその０が乗算されることにより、集計部１２３が出力した特徴マップにおいて、特徴値が０となる（消失する）ことになる。これを防ぐために、残差処理部３６は上述した残差処理を実行する。残差処理部３６で生成された特徴マップは、特徴変換処理部３７に出力される構成となっている。

　特徴変換処理部３７は、残差処理部３６で生成された特徴マップを適切な状態に変換するための処理（以下、適宜「特徴変換処理」と称する）を実行可能に構成されている。特徴変換処理の具体的な処理内容については、後述する他の実施形態で詳しく説明する。

　（機能的構成）
　次に、図４を参照しながら、第１実施形態に係る情報処理装置１０の機能的構成（特に、上述した特徴埋め込み処理部３１、３２、３３の機能を実現するための構成）について説明する。図４は、第１実施形態に係る情報処理装置の機能的構成を示すブロック図である。

　図４に示すように、第１実施形態に係る情報処理装置１０は、その機能を実現するための構成要素として、生成部１１０と、拡張部１２０と、演算部１３０と、を備えている。生成部１１０、拡張部１２０、及び演算部１３０の各々は、例えば上述したプロセッサ１１（図１参照）によって実現される処理ブロックであってよい。

　生成部１１０は、入力される画像に対応する文頭トークンと、パッチトークンと、を生成可能に構成されている。文頭トークンは、入力トークンの構造理解を補助するための属性トークンであり、他に文節や文末等の属性がある。パッチトークンは、入力画像の局所領域の画素をベクトル化したトークンである。文頭トークン及びパッチトークンは、ＶｉＴ（Ｖｉｓｉｏｎ　Ｔｒａｎｓｒｏｍｅｒ）で扱われるトークンベクトルであってよい。なお、文頭トークンは、乱数をベースに生成されてよい。この場合、学習によりベクトルの要素は最適化されてよい。生成部１１０で生成された文頭トークンは、拡張部１２０に出力される構成となっている。一方、パッチトークンは、演算部１３０に出力される構成となっている。

　拡張部１２０は、生成部１１０で生成された文頭トークンのサイズを拡張可能に構成されている。具体的には、拡張部１２０は、文頭トークンを、パッチトークンに含まれる複数のパッチトークンブロックの数に対応するサイズに拡張可能に構成されている。パッチトークンブロックは、パッチトークンを所定のグリッドパターンに応じて領域分割（等分割）したブロックである。文頭トークンは、典型的に１つの要素のみで構成されるのに対し、パッチトークンブロックは複数の要素を含んで構成される。拡張部１２０は、例えば文頭トークンの１つの要素をコピーアンドペーストすることで、パッチトークンブロックのブロック数と同じサイズの文頭トークンブロックに拡張する。拡張部１２０で拡張された文頭トークンブロックは、演算部１２０に出力される構成となっている。

　演算部１３０は、拡張部１２０で拡張された文頭トークンブロック、及び生成部１２０から取得したパッチトークン（複数のパッチトークンブロック）に対して、自己注意機構に基づく演算処理（即ち、図３で説明した各種処理）を実行可能に構成されている。ここで本実施形態に係る演算部１３０は特に、文頭トークンブロック及びパッチトークンブロックについて、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づく演算処理を実行可能に構成されている。例えば、各ブロックにおける最も左上に位置する要素は、１つの要素群として統合されて自己注意機構に基づく演算処理が実行される。同様に、各ブロックにおける最も右上に位置する要素は、１つの要素群として統合されて自己注意機構に基づく演算処理が実行される。この処理については、後に具体例を挙げて詳しく説明する。

　（動作の流れ）
　次に、図５を参照しながら、第１実施形態に係る情報処理装置１０の動作（特に、上述した特徴埋め込み処理部３１、３２、３３による特徴埋め込み処理）の流れについて説明する。図５は、第１実施形態に係る情報処理装置における特徴埋め込み処理の流れを示すフローチャートである。

　図５に示すように、第１実施形態に係る情報処理装置１０による特徴埋め込み処理（即ち、図３で示した特徴埋め込み処理部３１、３２、３３による処理）が開始されると、まず入力される特徴量に対して線形変換処理が実行される（ステップＳ１０１）。線形変換は、畳み込み層や全結合層で処理してよい。

　続いて、生成部１１０が、入力画像に対応する文頭トークンとパッチトークンとを生成し、パッチトークンを複数の領域に分割する（ステップＳ１０２）。なお、文頭トークンは、すでに説明したように乱数から生成されてよい。文頭トークンについては、拡張部１２０がサイズを拡張して文頭トークンブロックとする（ステップＳ１０３）。一方、パッチトークンについては、テンソル変換処理が実行される（ステップＳ１０４）。ここでのテンソル変換処理は、ブロック内での位置が共通する要素を１つのテンソルに変換する処理である。

　続いて、演算部１３０が、文頭トークンブロックと、テンソル変換されたパッチトークンと、をテンソル変換・統合する（ステップＳ１０５）。具体的には、文頭トークンブロックの要素と、テンソル変換されたパッチトークンとが統合されて、１次元のテンソルに変換される。各テンソルには、各ブロック内で位置が共通する要素同士が含まれることになる。

　（具体的な動作例）
　次に、図６及び図７を参照しながら、第１実施形態に係る情報処理装置１０の具体的な動作例（特に、上述した生成部１１０、拡張部１２０、及び演算部１３０の動作例）について説明する。図６は、第１実施形態に係る情報処理装置における文頭トークンの拡張処理、及びパッチトークンの変形処理の一例を示す概念図である。図７は、第１実施形態に係る情報処理装置における要素群ごとの自己注意機構に基づく処理の一例を示す概念図である。

　図６に示すように、生成部１１０では、入力画像に対応する文頭トークンと、パッチトークンとが生成される。ここでの文頭トークンは１つの要素のみからなり、パッチトークンは１２×１２の要素から構成されている。なお、パッチトークンの要素は、画像の画素数に応じたものであってよい。

　パッチトークンは、所定のグリッドパターンによって複数のパッチトークンブロックに領域分割できる。ここでのパッチトークンブロックは、３×３の要素から構成されている。また、図に示す例では、説明の便宜上、ブロック内の位置によって色（濃淡）が異なるように示されている。

　文頭トークンは、パッチトークンブロックのブロック数と同じサイズ（ここでは４×４）に拡張される。一方で、パッチトークンは、ブロック内の位置が共通する要素ごとにテンソル変換される（即ち、同じ色で示す要素がまとめられる）。

　図７に示すように、文頭トークンとパッチトークンは、１次元のベクトルとして統合される。具体的には、文頭トークンを先頭にして、その後にパッチトークンの各要素が並ぶテンソルが生成される。このテンソルは、ブロック内の位置が共通する要素が集められたものである。このため、各テンソルに含まれるパッチトークンは同じ色で示される要素である。

　本実施形態では、上述したテンソル（即ち、ブロック内の位置が共通する要素群）ごとに自己注意機構に基づく演算処理が実行される。一般的な自己注意機構の場合、入力される要素数に対して２乗の計算量が必要となるが、本実施形態のように要素群ごとの演算処理を行うことで、計算量を要素数×Ｋ^２×Ｃとすることができる（Ｋはカーネルサイズ、Ｃはチャンネル）。自己注意機構による演算結果としては、文頭トークンとパッチトークンに対応する特徴マップが得られる。

　（技術的効果）
　次に、第１実施形態に係る情報処理装置１０によって得られる技術的効果について説明する。

　図１から図７で説明したように、第１実施形態に係る情報処理装置１０では、入力される画像に対応する文頭トークンとパッチトークンとが生成される。そして、拡張した文頭トークンブロックと、パッチトークンとに含まれる複数のパッチトークンブロックとに対して、ブロック内での位置が共通する要素群ごとに自己注意機構に基づく演算処理が実行される。このようにすれば、自己注意機構における計算量を減少させることができる。このような効果は、画像を入力とする場合（即ち、要素数が多い場合）に顕著に発揮される。なお、１つの要素しか持たない文頭トークンが存在するため、そのままパッチトークンと統合することは難しい（各ブロックが同じサイズでないと統合が難しい）が、本実施形態では文頭トークンに対して拡張処理を行っているため、適切な統合を行い、要素群ごとの演算処理を実行することができる。

　本実施形態に係る情報処理装置１０は、例えば高次元な特徴ベクトルを扱うタスクに応用することが可能である。例えば、物体検出、物体追跡、セマンティックセグメンテーション等に応用できる。また、画像のパターン認識にも活用することができる。

　＜第２実施形態＞
　第２実施形態に係る情報処理装置１０について、図８から図１０を参照して説明する。なお、第２実施形態は、上述した第１実施形態と一部の構成が異なるのみであり、その他の部分については第１実施形態と同一であってよい。このため、以下では、すでに説明した第１実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。

　（機能的構成）
　まず、図８を参照しながら、第２実施形態に係る情報処理装置１０の機能的構成（特に、特徴埋め込み処理部３１、３２、３３及び特徴変換処理部３７の機能を実現するための構成）について説明する。図８は、第２実施形態に係る情報処理装置の機能的構成を示すブロック図である。なお、図８では、図４で示した構成要素と同様の要素に同一の符号を付している。

　図８に示すように、第２実施形態に係る情報処理装置１０は、その機能を実現するための構成要素として、生成部１１０と、拡張部１２０と、演算部１３０と、復元部１４０と、を備えている。即ち、第２実施形態に係る情報処理装置１０は、上述した第１実施形態の構成（図４参照）に加えて、復元部１４０を更に備えて構成されている。なお、復元部１４０は、例えば上述したプロセッサ１１（図１参照）によって実現される処理ブロックであってよい。

　復元部１４０は、自己注意機構に基づく演算結果として得られる特徴量のうち、文頭トークンブロックに対応する特徴量を、拡張前の文頭トークンのサイズに復元することが可能に構成されている。例えば、復元部１４０は、プーリング処理によるダウンサイジングを実行可能に構成されてよい。

　（動作の流れ）
　次に、図９を参照しながら、第２実施形態に係る情報処理装置１０の動作（特に、上述した特徴変換処理部３７による特徴変換処理）の流れについて説明する。図９は、第２実施形態に係る情報処理装置における特徴変換処理の流れを示すフローチャートである。

　図９に示すように、第１実施形態に係る情報処理装置１０による特徴変換処理が開始されると、まず生成部１１０が、入力画像に対応する文頭トークンとパッチトークンとを生成し、パッチトークンを複数の領域に分割する（ステップＳ２０１）。この処理は、上述した特徴埋め込み処理における特徴分割（即ち、図５のステップＳ１０１と同様の処理であってよい）。

　分割された文頭トークンについては、復元部１４０が復元処理を行って、拡張部１２０による拡張前のサイズに復元する（ステップＳ２０２）。そして、演算部１３０が、復元された文頭トークンと、パッチトークンと、をテンソル変換・統合する（ステップＳ２０３）。即ち、文頭トークンとパッチトークンとが１つの特徴マップに変換される。

　（具体的な動作例）
　次に、図１０を参照しながら、第２実施形態に係る情報処理装置１０の具体的な動作例（特に、上述した復元部１４０の動作例）について説明する。図１０は、第２実施形態に係る情報処理装置における復元処理の一例を示す概念図である。

　図１０に示すように、自己注意機構に基づく演算結果として得られる文頭トークンに対応する特徴量は、拡張部１２０によって拡張されたサイズ（ここでは４×４）となる。復元部１４０は、これに対して復元処理を実行して、拡張前のサイズ（ここでは１×１）に変換する。なお、復元処理の具体的な手法については、特に限定されるものではない。復元処理の具体例については、後述する他の実施形態で詳しく説明する。

　（技術的効果）
　次に、第２実施形態に係る情報処理装置１０によって得られる技術的効果について説明する。

　図８から図１０で説明したように、第２実施形態に係る情報処理装置１０では、自己注意機構に基づく演算結果として得られた文頭トークン（即ち、拡張されたサイズの文頭トークン）が、拡張前のサイズに復元される。このようにすれば、自己注意機構に基づく演算のために一時的に変更されていた文頭トークンのサイズを元に戻すことができる。即ち、文頭トークンとして適切なサイズへと復元することができる。

　＜第３実施形態＞
　第３実施形態に係る情報処理装置１０について、図１１を参照して説明する。なお、第３実施形態は、上述した第２実施形態のより具体的な一例を説明するものであり、装置構成や全体的な動作については第１及び第２実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。

　（復元処理の具体例）
　まず、図１１を参照しながら、第３実施形態に係る情報処理装置１０における復元処理について説明する。図１１は、第３実施形態に係る情報処理装置における平均値を用いた復元処理の一例を示す概念図である。

　図１１に示すように、第３実施形態に係る情報処理装置１０では、復元部１４０が、文頭トークンに対応する特徴量の平均値を算出することで復元処理を実行する。より具体的には、復元部１４０は、文頭トークンに対応する特徴量に含まれる各要素の平均値を算出して、その平均値を持つ１つの要素から構成される文頭トークンを生成する。

　（技術的効果）
　次に、第３実施形態に係る情報処理装置１０によって得られる技術的効果について説明する。

　図１１で説明したように、第３実施形態に係る情報処理装置１０では、平均値を用いて復元処理が行われる。このようにすれば、全パッチトークンを考慮して統合されたトークンを得ることができるため、文頭トークンの復元処理を容易且つ的確に実行することが可能である。

　＜第４実施形態＞
　第４実施形態に係る情報処理装置１０について、図１２を参照して説明する。なお、第４実施形態は、上述した第３実施形態と同様に第２実施形態のより具体的な一例を説明するものであり、装置構成や全体的な動作については第１及び第２実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。

　（復元処理の具体例）
　まず、図１２を参照しながら、第４実施形態に係る情報処理装置１０における復元処理について説明する。図１２は、第４実施形態に係る情報処理装置における最大値を用いた復元処理の一例を示す概念図である。

　図１２に示すように、第４実施形態に係る情報処理装置１０は、復元部１４０が、文頭トークンに対応する特徴量の最大値を算出することで復元処理を実行する。より具体的には、復元部１４０は、文頭トークンに対応する特徴量に含まれる各要素の最大値を算出して、その最大値を持つ１つの要素から構成される文頭トークンを生成する。

　（技術的効果）
　次に、第４実施形態に係る情報処理装置１０によって得られる技術的効果について説明する。

　図１２で説明したように、第４実施形態に係る情報処理装置１０では、最大値を用いて復元処理が行われる。このようにすれば、代表的なパッチトークンを最大値により選択し、最終的な文頭トークンを得ることができるため、文頭トークンの復元処理を容易且つ的確に実行することが可能である。

　＜第５実施形態＞
　第５実施形態に係る情報処理装置１０について、図１３から図１５を参照して説明する。なお、第５実施形態は、上述した第１から第４実施形態と一部の構成及び動作が異なるのみであり、その他の部分については第１から第４実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。

　（機能的構成）
　まず、図１３を参照しながら、第５実施形態に係る情報処理装置１０の機能的構成（特に、特徴埋め込み処理部３１、３２、３３の機能を実現するための構成）について説明する。図１３は、第５実施形態に係る情報処理装置の機能的構成を示すブロック図である。なお、図１３では、図４で示した構成要素と同様の要素に同一の符号を付している。

　図１３に示すように、第５実施形態に係る情報処理装置１０は、その機能を実現するための構成要素として、生成部１１０と、拡張部１２０と、演算部１３０と、変形部１５０と、を備えている。即ち、第５実施形態に係る情報処理装置１０は、上述した第１実施形態の構成（図４参照）に加えて、変形部１５０を更に備えて構成されている。なお、変形部１５０は、例えば上述したプロセッサ１１（図１参照）によって実現される処理ブロックであってよい。

　変形部１５０は、パッチトークンのテンソルを変形する処理を実行可能に構成されている。より具体的には、変形部１５０は、各パッチトークンブロック内で１×１畳み込み層（全結合層）を施せるようにテンソルを変形する処理を実行可能に構成されている。この処理は、特徴マップにおける局所領域の要素を参照するために実行される処理である。即ち、ブロック内での位置に応じた要素群ごとに演算処理を行うが故に、疎なパターンで要素が参照されてしまうことの影響を抑制するために実行される処理である。以下では、変形部１５０が実行する処理のことを、適宜「ブロック内変形処理」と称する。

　（動作の流れ）
　次に、図１４を参照しながら、第５実施形態に係る情報処理装置１０の動作（特に、特徴埋め込み処理部３１、３２、３３による特徴埋め込み処理）の流れについて説明する。図１４は、第５実施形態に係る情報処理装置における特徴埋め込み処理の流れを示すフローチャートである。なお、図１４では、図５で示した処理と同様の処理に同一の符号を付している。

　図１４に示すように、第５実施形態に係る情報処理装置１０による特徴埋め込み処理が開始されると、まず入力される特徴量に対して線形変換処理が実行される（ステップＳ１０１）。そして、生成部１１０が、入力画像に対応する文頭トークンとパッチトークンとを生成し、パッチトークンを複数の領域に分割する（ステップＳ１０２）。

　文頭トークンについては、拡張部１２０がサイズを拡張して文頭トークンブロックとする（ステップＳ１０３）。一方、パッチトークンについては、テンソル変換処理が実行される（ステップＳ１０４）。そして本実施形態では更に、変形部１４０がブロック内変形処理を実行する（ステップＳ５０１）。

　その後、演算部１３０が、文頭トークンブロックと、ブロック内変形処理が実行されたパッチトークンと、をテンソル変換・統合する（ステップＳ１０５）。

　なお、上述したブロック内変形処理は、クエリ、キー、バリューの少なくとも１つにおいて実行されればよい。例えば、ブロック内変形処理は、クエリ、キー、バリューのいずれか１つに対してのみ実行されてよい。あるいは、ブロック内変形処理は、クエリ、キー、バリューのいずれか２つに対して実行されてよい。あるいは、ブロック内変形処理はクエリ、キー、バリューの３つ全てに対して実行されてよい。

　（具体的な動作例）
　次に、図１５を参照しながら、第５実施形態に係る情報処理装置１０の具体的な動作例（特に、上述したブロック内変形処理の動作例）について説明する。図１５は、第５実施形態に係る情報処理装置におけるパッチトークンのブロック内変形処理を示す概念図である。

　図１５に示すように、Ｈ×Ｗ×Ｃのパッチトークンが変形される場合を考える。この場合、ブロック内変形処理では、各ブロック内の位置が共通する要素（即ち、同じ色で示す要素）がまとまるようにテンソル変換される。その結果、図の縦方向はチャンネル数（Ｃ）となり、横方向は参照する要素数（ここでは１６）となる。そして、奥行方向がブロックサイズ（ここでは３×３）となる。

　ここで、変形後の左上部分には、１つのパッチトークンブロックに含まれていた要素（言い換えれば、局所領域の要素）が並ぶ。このように、ブロック内変形処理を実行すると、ブロックの領域内で１×１畳み込み層（全結合層）を施せるようになる。

　（技術的効果）
　次に、第５実施形態に係る情報処理装置１０によって得られる技術的効果について説明する。

　図１３から図１５で説明したように、第５実施形態に係る情報処理装置１０では、特徴埋め込み処理において、パッチトークンがブロックの領域内で１×１畳み込み層（全結合層）を施せるように変形される。このようにすれば、グリッドパターンを用いた分割に起因する局所領域に関する情報の欠如を解消することができる。よって、例えば、局所領域に関する情報の欠如に起因する処理精度の低下を抑制することができる。
　＜第６実施形態＞
　第６実施形態に係る情報処理装置１０について、図１６及び図１７を参照して説明する。なお、第６実施形態は、上述した第５実施形態と一部の構成及び動作が異なるのみであり、その他の部分については第１から第５実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。

　（機能的構成）
　まず、図１６を参照しながら、第６実施形態に係る情報処理装置１０の機能的構成（特に、特徴埋め込み処理部３１、３２、３３、及び特徴変換処理部３７の機能を実現するための構成）について説明する。図１６は、第６実施形態に係る情報処理装置の機能的構成を示すブロック図である。なお、図１６では、図８で示した構成要素と同様の要素に同一の符号を付している。

　図１６に示すように、第６実施形態に係る情報処理装置１０は、その機能を実現するための構成要素として、生成部１１０と、拡張部１２０と、演算部１３０と、復元部１４０と、変形部１５５と、を備えている。即ち、第６実施形態に係る情報処理装置１０は、上述した第２実施形態の構成（図８参照）に加えて、変形部１５５を更に備えて構成されている。なお、第６実施形態に係る変形部１５５は、上述した第５実施形態に係る変形部１５０と同一の機能を有するものであってよく、例えば上述したプロセッサ１１（図１参照）によって実現される処理ブロックであってよい。

　（動作の流れ）
　次に、図１７を参照しながら、第６実施形態に係る情報処理装置１０の動作（特に、特徴変換処理部３７による特徴変換処理）の流れについて説明する。図１７は、第６実施形態に係る情報処理装置における特徴変換処理の流れを示すフローチャートである。なお、図１７では、図９で示した処理と同様の処理に同一の符号を付している。

　図１７に示すように、第６実施形態に係る情報処理装置１０による特徴変換処理が開始されると、まず生成部１１０が、入力画像に対応する文頭トークンとパッチトークンとを生成し、パッチトークンを複数の領域に分割する（ステップＳ２０１）。

　続いて、分割された文頭トークンについては、復元部１４０が復元処理を行い、サイズを復元する（ステップＳ２０２）。そして本実施形態では特に、一方のパッチトークンについて、変形部１４０がブロック内変形処理を実行する（ステップＳ６０１）。この処理は、上述した第５実施形態におけるブロック内変形処理（即ち、図１４のステップＳ５０１と同様の処理であってよい。

　その後、演算部１３０が、復元された文頭トークンと、ブロック内変形処理が施されたパッチトークンと、をテンソル変換・統合する（ステップＳ２０３）。

　（技術的効果）
　次に、第６実施形態に係る情報処理装置１０によって得られる技術的効果について説明する。

　図１７で説明したように、第６実施形態に係る情報処理装置１０では、特徴変換処理において、パッチトークンがブロックの領域内で１×１畳み込み層（全結合層）を施せるように変形される。このようにすれば、グリッドパターンを用いた分割に起因する局所領域に関する情報の欠如を解消することができる。よって、例えば、局所領域に関する情報の欠如に起因する処理精度の低下を抑制することができる。

　なお、上述した第５実施形態及び第６実施形態は組み合わせて実現されてよい。即ち、ブロック内変形処理は、クエリ、キー、バリューと、自己注意機構の演算結果と、の両方に対して実行されてもよい。

　上述した各実施形態の機能を実現するように該実施形態の構成を動作させるプログラムを記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。

　記録媒体としては例えばフロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、磁気テープ、不揮発性メモリカード、ＲＯＭを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、ＯＳ上で動作して処理を実行するものも各実施形態の範疇に含まれる。更に、プログラム自体がサーバに記憶され、ユーザ端末にサーバからプログラムの一部または全てをダウンロード可能なようにしてもよい。

　＜付記＞
　以上説明した実施形態に関して、更に以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）
　付記１に記載の情報処理装置は、入力画像に対応する文頭トークンとパッチトークンとを生成する生成手段と、前記文頭トークンを、前記パッチトークンを所定のグリッドパターンに応じて領域分割した複数のパッチトークンブロックの数に対応するサイズである文頭トークンブロックに拡張する拡張手段と、前記文頭トークンブロック及び前記パッチトークンブロックに対し、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づいて演算する演算手段と、を備える情報処理装置である。

　（付記２）
　付記２に記載の情報処理装置は、前記演算手段の演算結果として得られる特徴量のうち、前記文頭トークンブロックに対応する特徴量を、拡張前の前記文頭トークンのサイズに復元する復元手段を更に備える、付記１に記載の情報処理装置である。

　（付記３）
　付記３に記載の情報処理装置は、前記復元手段は、前記文頭トークンブロックに対応する特徴量を、該特徴量に含まれる要素の平均値を算出することで拡張前の前記文頭トークンのサイズに復元する、付記２に記載の情報処理装置である。

　（付記４）
　付記４に記載の情報処理装置は、前記復元手段は、前記文頭トークンブロックに対応する特徴量を、該特徴量に含まれる要素の最大値を算出することで拡張前の前記文頭トークンのサイズに復元する、付記２に記載の情報処理装置である。

　（付記５）
　付記５に記載の情報処理装置は、前記パッチトークンを、各ブロック内で１×１畳み込み層を施せるテンソルに変形する変形手段を更に備える、付記１から４のいずれか１項に記載の情報処理装置である。

　（付記６）
　付記６に記載の情報処理装置は、前記変形手段は、前記自己注意機構におけるクエリ、キー、バリュー、及び前記自己注意機構の演算結果として得られる特徴量の少なくとも１つについてテンソルを変形する、付記５に記載の情報処理装置である。

　（付記７）
　付記７に記載の情報処理方法は、少なくとも１つのコンピュータによって実行される情報処理方法であって、入力画像に対応する文頭トークンとパッチトークンとを生成し、前記文頭トークンを、前記パッチトークンを所定のグリッドパターンに応じて領域分割した複数のパッチトークンブロックの数に対応するサイズである文頭トークンブロックに拡張し、前記文頭トークンブロック及び前記パッチトークンブロックに対し、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づいて演算する、情報処理方法である。

　（付記８）
　付記８に記載の記録媒体は、少なくとも１つのコンピュータに、入力画像に対応する文頭トークンとパッチトークンとを生成し、前記文頭トークンを、前記パッチトークンを所定のグリッドパターンに応じて領域分割した複数のパッチトークンブロックの数に対応するサイズである文頭トークンブロックに拡張し、前記文頭トークンブロック及び前記パッチトークンブロックに対し、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づいて演算する、情報処理方法を実行させるコンピュータプログラムが記録された記録媒体である。

　（付記９）
　付記９に記載のコンピュータプログラムは、少なくとも１つのコンピュータに、入力画像に対応する文頭トークンとパッチトークンとを生成し、前記文頭トークンを、前記パッチトークンを所定のグリッドパターンに応じて領域分割した複数のパッチトークンブロックの数に対応するサイズである文頭トークンブロックに拡張し、前記文頭トークンブロック及び前記パッチトークンブロックに対し、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づいて演算する、情報処理方法を実行させるコンピュータプログラムである。

　この開示は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う情報処理装置、情報処理方法、及び記録媒体もまたこの開示の技術思想に含まれる。

　１０　情報処理装置
　１１　プロセッサ
　２０　自己注意機構ユニット
　３０　特徴変換ユニット
　３１　特徴埋め込み処理部（クエリ）
　３２　特徴埋め込み処理部（キー）
　３３　特徴埋め込み処理部（バリュー）
　３４　相関関係算出部
　３５　集計処理部
　３６　残差処理部
　３７　特徴変換処理部
　５０　変換ブロック
　５５　バッチ埋め込み処理部
　１１０　生成部
　１２０　拡張部
　１３０　演算部
　１４０　復元部
　１５０，１５５　変形部

Claims

　入力画像に対応する文頭トークンとパッチトークンとを生成する生成手段と、
　前記文頭トークンを、前記パッチトークンを所定のグリッドパターンに応じて領域分割した複数のパッチトークンブロックの数に対応するサイズである文頭トークンブロックに拡張する拡張手段と、
　前記文頭トークンブロック及び前記パッチトークンブロックに対し、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づいて演算する演算手段と、
　を備える情報処理装置。
　前記演算手段の演算結果として得られる特徴量のうち、前記文頭トークンブロックに対応する特徴量を、拡張前の前記文頭トークンのサイズに復元する復元手段を更に備える、
　請求項１に記載の情報処理装置。
　前記復元手段は、前記文頭トークンブロックに対応する特徴量を、該特徴量に含まれる要素の平均値を算出することで拡張前の前記文頭トークンのサイズに復元する、
　請求項２に記載の情報処理装置。
　前記復元手段は、前記文頭トークンブロックに対応する特徴量を、該特徴量に含まれる要素の最大値を算出することで拡張前の前記文頭トークンのサイズに復元する、
　請求項２に記載の情報処理装置。
　前記パッチトークンを、各ブロック内で１×１畳み込み層を施せるテンソルに変形する変形手段を更に備える、
　請求項１から４のいずれか１項に記載の情報処理装置。
　前記変形手段は、前記自己注意機構におけるクエリ、キー、バリュー、及び前記自己注意機構の演算結果として得られる特徴量の少なくとも１つについてテンソルを変形する、
　請求項５に記載の情報処理装置。
　少なくとも１つのコンピュータによって実行される情報処理方法であって、
　入力画像に対応する文頭トークンとパッチトークンとを生成し、
　前記文頭トークンを、前記パッチトークンを所定のグリッドパターンに応じて領域分割した複数のパッチトークンブロックの数に対応するサイズである文頭トークンブロックに拡張し、
　前記文頭トークンブロック及び前記パッチトークンブロックに対し、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づいて演算する、
　情報処理方法。
　少なくとも１つのコンピュータに、
　入力画像に対応する文頭トークンとパッチトークンとを生成し、
　前記文頭トークンを、前記パッチトークンを所定のグリッドパターンに応じて領域分割した複数のパッチトークンブロックの数に対応するサイズである文頭トークンブロックに拡張し、
　前記文頭トークンブロック及び前記パッチトークンブロックに対し、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づいて演算する、
　情報処理方法を実行させるコンピュータプログラムが記録された記録媒体。