WO2021095211A1

WO2021095211A1 - 出力方法、出力プログラム、および出力装置

Info

Publication number: WO2021095211A1
Application number: PCT/JP2019/044769
Authority: WO
Inventors: 萌山田
Original assignee: 富士通株式会社
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2021-05-20
Also published as: JPWO2021095211A1; JP7205646B2; US20220237263A1

Abstract

出力装置（１００）は、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとの相関に基づいて、第一のモーダルの情報に基づくベクトルを補正する。出力装置（１００）は、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとの相関に基づいて、第二のモーダルの情報に基づくベクトルを補正する。出力装置（１００）は、補正後の第一のモーダルの情報に基づくベクトルから得た異なる種類の２つのベクトルの相関に基づいて、第一のベクトルを生成する。出力装置（１００）は、補正後の第二のモーダルの情報に基づくベクトルから得た異なる種類の２つのベクトルの相関に基づいて、第二のベクトルを生成する。出力装置（１００）は、所定のベクトルと、第一のベクトルと、第二のベクトルとを含む結合ベクトルから得た異なる種類の２つのベクトルの相関に基づいて、第三のベクトルを生成して出力する。

Description

出力方法、出力プログラム、および出力装置

　本発明は、出力方法、出力プログラム、および出力装置に関する。

　従来、複数のモーダルの情報を用いて問題を解く技術がある。この技術は、例えば、文書翻訳や質疑応答、物体検出、状況判断などの問題を解く際に利用される。ここで、モーダルとは、情報の様式や種類を示す概念であり、具体例としては、画像、文書（テキスト）、音声などを挙げることができる。複数のモーダルを用いた機械学習はマルチモーダル学習と呼ばれる。

　先行技術としては、例えば、ＶｉＬＢＥＲＴ（Ｖｉｓｉｏｎ－ａｎｄ－Ｌａｎｇｕａｇｅ　Ｂｉｄｉｒｅｃｔｉｏｎａｌ　Ｅｎｃｏｄｅｒ　Ｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ　ｆｒｏｍ　Ｔｒａｎｓｆｏｒｍｅｒｓ）と呼ばれるものがある。具体的には、ＶｉＬＢＥＲＴは、画像に関するモーダルの情報に基づくベクトルに基づいて補正した、文書に関するモーダルの情報に基づくベクトルと、文書に関するモーダルの情報に基づくベクトルに基づいて補正した、画像に関するモーダルの情報に基づくベクトルとを参照し、問題を解く技術である。

Ｌｕ，　Ｊｉａｓｅｎ，　ｅｔ　ａｌ．　"ｖｉｌｂｅｒｔ：　Ｐｒｅｔｒａｉｎｉｎｇ　ｔａｓｋ－ａｇｎｏｓｔｉｃ　ｖｉｓｉｏｌｉｎｇｕｉｓｔｉｃ　ｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ　ｆｏｒ　ｖｉｓｉｏｎ－ａｎｄ－ｌａｎｇｕａｇｅ　ｔａｓｋｓ．"　ａｒＸｉｖ　ｐｒｅｐｒｉｎｔ　ａｒＸｉｖ：１９０８．０２２６５　（２０１９）．

　しかしながら、従来技術では、複数のモーダルの情報を用いて問題を解いた際の解の精度が悪い場合がある。例えば、ＶｉＬＢＥＲＴにおいて、画像と文書とを基に状況を判断する問題を解くにあたり、補正した文書に関するモーダルの情報に基づくベクトルと、補正した画像に関するモーダルの情報に基づくベクトルとをそのまま参照するだけでは、問題を解いた際の解の精度が悪い。

　１つの側面では、本発明は、複数のモーダルの情報を用いて問題を解いた際の解の精度の向上を図ることを目的とする。

　１つの実施態様によれば、第一のモーダルの情報に基づくベクトルと、前記第一のモーダルとは異なる第二のモーダルの情報に基づくベクトルとの相関に基づいて、前記第一のモーダルの情報に基づくベクトルを補正し、前記第一のモーダルの情報に基づくベクトルと、前記第二のモーダルの情報に基づくベクトルとの相関に基づいて、前記第二のモーダルの情報に基づくベクトルを補正し、補正後の前記第一のモーダルの情報に基づくベクトルから得た異なる種類の２つのベクトルの相関に基づいて、第一のベクトルを生成し、補正後の前記第二のモーダルの情報に基づくベクトルから得た前記異なる種類の２つのベクトルの相関に基づいて、第二のベクトルを生成し、所定のベクトルと、生成した前記第一のベクトルと、生成した前記第二のベクトルとを含む結合ベクトルから得た前記異なる種類の２つのベクトルの相関に基づいて、前記第一のベクトルと前記第二のベクトルとを集約した第三のベクトルを生成し、生成した前記第三のベクトルを出力する出力方法、出力プログラム、および出力装置が提案される。

　一態様によれば、複数のモーダルの情報を用いて問題を解いた際の解の精度の向上を図ることが可能になる。

図１は、実施の形態にかかる出力方法の一実施例を示す説明図である。図２は、情報処理システム２００の一例を示す説明図である。図３は、出力装置１００のハードウェア構成例を示すブロック図である。図４は、出力装置１００の機能的構成例を示すブロック図である。図５は、Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋ５００の具体例を示す説明図である。図６は、ＳＡ層６００の具体例と、ＴＡ層６１０の具体例とを示す説明図である。図７は、ＣＡＮ５００を用いた動作の一例を示す説明図である。図８は、出力装置１００の利用例１を示す説明図（その１）である。図９は、出力装置１００の利用例１を示す説明図（その２）である。図１０は、出力装置１００の利用例２を示す説明図（その１）である。図１１は、出力装置１００の利用例２を示す説明図（その２）である。図１２は、学習処理手順の一例を示すフローチャートである。図１３は、推定処理手順の一例を示すフローチャートである。

　以下に、図面を参照して、本発明にかかる出力方法、出力プログラム、および出力装置の実施の形態を詳細に説明する。

（実施の形態にかかる出力方法の一実施例）
　図１は、実施の形態にかかる出力方法の一実施例を示す説明図である。出力装置１００は、複数のモーダルの情報を用いて、問題の解決に有用な情報を得やすくすることにより、問題を解いた際の解の精度の向上を図るためのコンピュータである。

　従来、問題を解くための手法として、例えば、ＢＥＲＴ（Ｂｉｄｉｒｅｃｔｉｏｎａｌ　Ｅｎｃｏｄｅｒ　Ｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ　ｆｒｏｍ　Ｔｒａｎｓｆｏｒｍｅｒｓ）と呼ばれるものがある。ＢＥＲＴは、具体的には、ＴｒａｎｓｆｏｒｍｅｒのＥｎｃｏｄｅｒ部を積み重ねて形成される。ＢＥＲＴについては、例えば、下記非特許文献２や下記非特許文献３を参照することができる。ここで、ＢＥＲＴは、文書に関するモーダルの情報を用いて問題を解くような状況に適用することが想定されており、複数のモーダルの情報を用いて問題を解くような状況に適用することができない。

　非特許文献２　：　Ｄｅｖｌｉｎ，　Ｊａｃｏｂ　ｅｔ　ａｌ．　“ＢＥＲＴ：　Ｐｒｅ－ｔｒａｉｎｉｎｇ　ｏｆ　Ｄｅｅｐ　Ｂｉｄｉｒｅｃｔｉｏｎａｌ　Ｔｒａｎｓｆｏｒｍｅｒｓ　ｆｏｒ　Ｌａｎｇｕａｇｅ　Ｕｎｄｅｒｓｔａｎｄｉｎｇ．”　ＮＡＡＣＬ－ＨＬＴ　（２０１９）．

　非特許文献３　：　Ｖａｓｗａｎｉ，　Ａｓｈｉｓｈ，　ｅｔ　ａｌ．　“Ａｔｔｅｎｔｉｏｎ　ｉｓ　ａｌｌ　ｙｏｕ　ｎｅｅｄ．”　Ａｄｖａｎｃｅｓ　ｉｎ　ｎｅｕｒａｌ　ｉｎｆｏｒｍａｔｉｏｎ　ｐｒｏｃｅｓｓｉｎｇ　ｓｙｓｔｅｍｓ．　２０１７．

　また、問題を解くための手法として、例えば、ＶｉｄｅｏＢＥＲＴと呼ばれるものがある。ＶｉｄｅｏＢＥＲＴは、具体的には、ＢＥＲＴを、文書に関するモーダルの情報と、画像に関するモーダルの情報とを用いて問題を解くような状況に適用可能に拡張したものである。ＶｉｄｅｏＢＥＲＴについては、例えば、下記非特許文献４を参照することができる。ここで、ＶｉｄｅｏＢＥＲＴは、問題を解くにあたり、文書に関するモーダルの情報と、画像に関するモーダルの情報とを明示的に区別せずに扱うため、問題を解いた際の解の精度が悪い場合がある。

　非特許文献４　：　Ｓｕｎ，　Ｃｈｅｎ，　ｅｔ　ａｌ．　“Ｖｉｄｅｏｂｅｒｔ：　Ａ　ｊｏｉｎｔ　ｍｏｄｅｌ　ｆｏｒ　ｖｉｄｅｏ　ａｎｄ　ｌａｎｇｕａｇｅ　ｒｅｐｒｅｓｅｎｔａｔｉｏｎ　ｌｅａｒｎｉｎｇ．”　ａｒＸｉｖ　ｐｒｅｐｒｉｎｔ　ａｒＸｉｖ：１９０４．０１７６６　（２０１９）．

　また、問題を解くための手法として、例えば、ＭＣＡＮ（Ｍｏｄｕｌａｒ　Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋ）と呼ばれるものがある。ＭＣＡＮは、文書に関するモーダルの情報と、文書に関するモーダルの情報で補正した画像に関するモーダルの情報とを参照し、問題を解くものである。ＭＣＡＮについては、例えば、下記非特許文献５を参照することができる。ここで、ＭＣＡＮは、問題を解くにあたり、文書に関するモーダルの情報を、画像に関するモーダルの情報で補正せず、そのまま参照するため、問題を解いた際の解の精度が悪い場合がある。

　非特許文献５　：　Ｙｕ，　Ｚｈｏｕ，　ｅｔ　ａｌ．　“Ｄｅｅｐ　Ｍｏｄｕｌａｒ　Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋｓ　ｆｏｒ　Ｖｉｓｕａｌ　Ｑｕｅｓｔｉｏｎ　Ａｎｓｗｅｒｉｎｇ．”　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　ＩＥＥＥ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｃｏｍｐｕｔｅｒ　Ｖｉｓｉｏｎ　ａｎｄ　Ｐａｔｔｅｒｎ　Ｒｅｃｏｇｎｉｔｉｏｎ．　２０１９．

　また、上述した通り、問題を解くための手法として、例えば、ＶｉＬＢＥＲＴと呼ばれるものがある。しかしながら、ＶｉＬＢＥＲＴは、画像に関するモーダルの情報で補正した文書に関するモーダルの情報と、文書に関するモーダルの情報で補正した、画像に関するモーダルの情報とをそのまま参照するだけであるため、問題を解いた際の解の精度が悪い場合がある。

　そこで、本実施の形態では、複数のモーダルの情報が集約された集約ベクトルを生成することにより、複数のモーダルの情報を用いて問題を解くような状況に適用可能であり、問題を解いた際の解の精度を向上可能にすることができる出力方法について説明する。

　図１において、出力装置１００は、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとを取得する。モーダルは、情報の様式を意味する。第一のモーダルと、第二のモーダルとは、それぞれ異なるモーダルである。第一のモーダルは、例えば、画像に関するモーダルである。第一のモーダルの情報は、例えば、第一のモーダルに従って表現された、画像である。第二のモーダルは、例えば、文書に関するモーダルである。第二のモーダルの情報は、例えば、第二のモーダルに従って表現された、文書である。

　第一のモーダルの情報に基づくベクトルは、例えば、第一のモーダルに従って表現された、第一のモーダルの情報に基づいて生成されたベクトルである。第一のモーダルの情報に基づくベクトルは、具体的には、画像に基づいて生成されたベクトルである。第二のモーダルの情報に基づくベクトルは、例えば、第二のモーダルに従って表現された、第二のモーダルの情報に基づいて生成されたベクトルである。第二のモーダルの情報に基づくベクトルは、具体的には、文書に基づいて生成されたベクトルである。

　（１－１）出力装置１００は、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとの相関に基づいて、第一のモーダルの情報に基づくベクトルを補正する。出力装置１００は、例えば、第一の補正モデル１１１を用いて、第一のモーダルの情報に基づくベクトルを補正する。第一の補正モデル１１１は、例えば、第一のモーダルに関するターゲットアテンション層である。

　（１－２）出力装置１００は、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとの相関に基づいて、第二のモーダルの情報に基づくベクトルを補正する。出力装置１００は、例えば、第二の補正モデル１１２を用いて、第二のモーダルの情報に基づくベクトルを補正する。第二の補正モデル１１２は、例えば、第二のモーダルに関するターゲットアテンション層である。

　（１－３）出力装置１００は、補正後の第一のモーダルの情報に基づくベクトルから得た異なる種類の２つのベクトルの相関に基づいて、第一のベクトルを生成する。異なる種類の２つのベクトルは、例えば、クエリとなるベクトルと、キーとなるベクトルとである。出力装置１００は、例えば、第一の生成モデル１２１を用いて、第一のベクトルを生成する。第一の生成モデル１２１は、例えば、第一のモーダルに関するセルフアテンション層である。

　（１－４）出力装置１００は、補正後の第二のモーダルの情報に基づくベクトルから得た異なる種類の２つのベクトルの相関に基づいて、第二のベクトルを生成する。異なる種類の２つのベクトルは、例えば、クエリとなるベクトルと、キーとなるベクトルとである。出力装置１００は、例えば、第二の生成モデル１２２を用いて、第二のベクトルを生成する。第二の生成モデル１２２は、例えば、第二のモーダルに関するセルフアテンション層である。

　（１－５）出力装置１００は、所定のベクトルと、生成した第一のベクトルと、生成した第二のベクトルとを含む結合ベクトルを生成する。所定のベクトルは、例えば、予めユーザによって設定される。所定のベクトルは、第一のベクトルと、第二のベクトルとを集約するための集約用ベクトルである。所定のベクトルは、例えば、要素がランダムに設定されたベクトルである。所定のベクトルは、例えば、要素が、ユーザによって設定された既定値のベクトルである。結合ベクトルは、例えば、所定のベクトルと、第一のベクトルと、第二のベクトルとを順に結合することにより得られる。

　そして、出力装置１００は、結合ベクトルから得た異なる種類の２つのベクトルの相関に基づいて、第三のベクトルを生成する。異なる種類の２つのベクトルは、例えば、クエリとなるベクトルと、キーとなるベクトルとである。第三のベクトルは、第一のベクトルと第二のベクトルとを集約したベクトルである。出力装置１００は、第三の生成モデル１３０を用いて、第三のベクトルを生成する。第三の生成モデル１３０は、例えば、セルフアテンション層である。

　これによれば、出力装置１００は、第一のベクトルと第二のベクトルとに基づく、キーとなるベクトルに含まれる部分と、所定のベクトルに基づく、クエリとなるベクトルに含まれる部分との相関に基づいて、所定のベクトルを補正することができる。出力装置１００は、例えば、当該相関に基づいて、第一のベクトルと第二のベクトルとに基づく、バリューとなるベクトルの部分により、所定のベクトルを補正することができる。このため、出力装置１００は、所定のベクトルに対し、第一のベクトルと第二のベクトルとが集約されるような処理を行うことができ、第三のベクトルを得ることができる。

　（１－６）出力装置１００は、生成した第三のベクトルを出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、他のコンピュータへの送信、または、記憶領域への記憶などである。これにより、出力装置１００は、第一のベクトルと第二のベクトルとが集約され、第一のモーダルの情報に基づくベクトルと第二のモーダルの情報に基づくベクトルとのうち問題の解決に有用な情報が反映される傾向がある第三のベクトルを生成し、利用可能にすることができる。出力装置１００は、例えば、実世界の画像や文書の特徴のうち、問題の解決に有用な特徴を、コンピュータ上で精度よく表現した第三のベクトルを利用可能にすることができる。

　出力装置１００は、例えば、第三のベクトルを利用し、第一の補正モデル１１１と、第二の補正モデル１１２と、第一の生成モデル１２１と、第二の生成モデル１２２と、第三の生成モデル１３０となどを更新することができる。このため、出力装置１００は、第一のモーダルの情報に基づくベクトルと第二のモーダルの情報に基づくベクトルとのうち問題の解決に有用な情報が、第三のベクトルに反映されやすくすることができる。結果として、出力装置１００は、以降の、問題を解いた際の解の精度の向上を図ることができる。

　出力装置１００は、例えば、問題を解くにあたり、第一のモーダルの情報に基づくベクトルと第二のモーダルの情報に基づくベクトルとのうち問題の解決に有用な情報が反映される傾向がある第三のベクトルを利用することができ、問題を解いた際の解の精度を向上させることができる。出力装置１００は、具体的には、画像と文書とを基に、対象の状況を判断する問題を解くにあたり、正確に対象の状況を判断することができる。対象の状況を判断する問題は、例えば、対象の状況が、ポジティブな状況であるか、またはネガティブな状況であるかを判断する問題である。

（情報処理システム２００の一例）
　次に、図２を用いて、図１に示した出力装置１００を適用した、情報処理システム２００の一例について説明する。

　図２は、情報処理システム２００の一例を示す説明図である。図２において、情報処理システム２００は、出力装置１００と、クライアント装置２０１と、端末装置２０２とを含む。

　情報処理システム２００において、出力装置１００とクライアント装置２０１とは、有線または無線のネットワーク２１０を介して接続される。ネットワーク２１０は、例えば、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、インターネットなどである。また、情報処理システム２００において、出力装置１００と端末装置２０２とは、有線または無線のネットワーク２１０を介して接続される。

　出力装置１００は、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとに基づいて、第三のベクトルを生成するＣｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋを有する。第一のモーダルは、例えば、画像に関するモーダルである。第二のモーダルは、例えば、文書に関するモーダルである。Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋは、例えば、図１に示した、第一の補正モデル１１１と、第二の補正モデル１１２と、第一の生成モデル１２１と、第二の生成モデル１２２と、第三の生成モデル１３０との全体に対応する。

　出力装置１００は、教師データに基づいて、Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋを更新する。教師データは、例えば、標本となる第一のモーダルの情報に基づくベクトルを生成する元となる第一のモーダルの情報と、標本となる第二のモーダルの情報に基づくベクトルを生成する元となる第二のモーダルの情報と、正解データとを対応付けた対応情報である。教師データは、例えば、出力装置１００のユーザにより出力装置１００に入力される。正解データは、例えば、第三のベクトルに基づいて、問題を解いた場合についての正解を示す。例えば、第一のモーダルが、画像に関するモーダルであれば、第一のモーダルの情報に基づくベクトルを生成する元となる第一のモーダルの情報は、画像である。例えば、第二のモーダルが、文書に関するモーダルであれば、第二のモーダルの情報に基づくベクトルを生成する元となる第二のモーダルの情報は、文書である。

　出力装置１００は、例えば、教師データのうち第一のモーダルの情報となる画像から、第一のモーダルの情報に基づくベクトルを生成することにより取得し、教師データのうち第二のモーダルの情報となる文書から、第二のモーダルの情報に基づくベクトルを生成することにより取得する。そして、出力装置１００は、取得した第一のモーダルの情報に基づくベクトルと、取得した第二のモーダルの情報に基づくベクトルと、教師データの正解データとに基づいて、誤差逆伝搬などにより、Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋを更新する。出力装置１００は、誤差逆伝搬以外の学習方法により、Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋを更新してもよい。

　出力装置１００は、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとを取得する。そして、出力装置１００は、Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋを用いて、取得した第一のモーダルの情報に基づくベクトルと、取得した第二のモーダルの情報に基づくベクトルとに基づいて、第三のベクトルを生成し、生成した第三のベクトルに基づいて、問題を解く。その後、出力装置１００は、問題を解いた結果を、クライアント装置２０１に送信する。

　出力装置１００は、例えば、出力装置１００のユーザにより出力装置１００に入力された第一のモーダルの情報に基づくベクトルを取得する。また、出力装置１００は、第一のモーダルの情報に基づくベクトルを、クライアント装置２０１または端末装置２０２から受信することにより取得してもよい。また、出力装置１００は、例えば、第一のモーダルの情報に基づくベクトルを生成する元となる第一のモーダルの情報を、クライアント装置２０１または端末装置２０２から受信することにより取得してもよい。例えば、第一のモーダルが、画像に関するモーダルであれば、第一のモーダルの情報に基づくベクトルを生成する元となる第一のモーダルの情報は、画像である。

　出力装置１００は、例えば、出力装置１００のユーザにより出力装置１００に入力された第二のモーダルの情報に基づくベクトルを取得する。また、出力装置１００は、第二のモーダルの情報に基づくベクトルを、クライアント装置２０１または端末装置２０２から受信することにより取得してもよい。また、出力装置１００は、例えば、第二のモーダルの情報に基づくベクトルを生成する元となる第二のモーダルの情報を、クライアント装置２０１または端末装置２０２から受信することにより取得してもよい。例えば、第二のモーダルが、文書に関するモーダルであれば、第二のモーダルの情報に基づくベクトルを生成する元となる第二のモーダルの情報は、文書である。

　そして、出力装置１００は、Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋを用いて、取得した第一のモーダルの情報に基づくベクトルと、取得した第二のモーダルの情報に基づくベクトルとに基づいて、第三のベクトルを生成し、生成した第三のベクトルに基づいて、問題を解く。その後、出力装置１００は、問題を解いた結果を、クライアント装置２０１に送信する。出力装置１００は、例えば、サーバやＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）などである。

　クライアント装置２０１は、出力装置１００と通信可能なコンピュータである。クライアント装置２０１は、例えば、第一のモーダルの情報に基づくベクトルを、出力装置１００に送信してもよい。また、クライアント装置２０１は、例えば、第一のモーダルの情報に基づくベクトルを生成する元となる第一のモーダルの情報を、出力装置１００に送信してもよい。クライアント装置２０１は、例えば、第二のモーダルの情報に基づくベクトルを、出力装置１００に送信してもよい。また、クライアント装置２０１は、例えば、第二のモーダルの情報に基づくベクトルを生成する元となる第二のモーダルの情報を、出力装置１００に送信してもよい。

　クライアント装置２０１は、出力装置１００が問題を解いた結果を受信して出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、他のコンピュータへの送信、または、記憶領域への記憶などである。クライアント装置２０１は、例えば、ＰＣ、タブレット端末、またはスマートフォンなどである。

　端末装置２０２は、出力装置１００と通信可能なコンピュータである。端末装置２０２は、例えば、第一のモーダルの情報に基づくベクトルを、出力装置１００に送信してもよい。また、端末装置２０２は、例えば、第一のモーダルの情報に基づくベクトルを生成する元となる第一のモーダルの情報を、出力装置１００に送信してもよい。端末装置２０２は、例えば、第二のモーダルの情報に基づくベクトルを、出力装置１００に送信してもよい。また、端末装置２０２は、例えば、第二のモーダルの情報に基づくベクトルを生成する元となる第二のモーダルの情報を、出力装置１００に送信してもよい。端末装置２０２は、例えば、ＰＣ、タブレット端末、スマートフォン、電子機器、ＩｏＴ機器、またはセンサ装置などである。端末装置２０２は、具体的には、監視カメラであってもよい。

　ここでは、出力装置１００が、Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋを更新し、かつ、Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋを用いて、問題を解く場合について説明したが、これに限らない。例えば、他のコンピュータが、Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋを更新し、出力装置１００が、他のコンピュータから受信したＣｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋを用いて、問題を解く場合があってもよい。また、例えば、出力装置１００が、Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋを更新し、他のコンピュータに提供し、他のコンピュータで、Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋを用いて、問題を解く場合があってもよい。

　ここでは、教師データが、標本となる第一のモーダルの情報に基づくベクトルを生成する元となる第一のモーダルの情報と、標本となる第二のモーダルの情報に基づくベクトルを生成する元となる第二のモーダルの情報と、正解データとを対応付けた対応情報である場合について説明したが、これに限らない。例えば、教師データが、標本となる第一のモーダルの情報に基づくベクトルと、標本となる第二のモーダルの情報に基づくベクトルと、正解データとを対応付けた対応情報である場合があってもよい。

　ここでは、出力装置１００が、クライアント装置２０１や端末装置２０２とは異なる装置である場合について説明したが、これに限らない。例えば、出力装置１００が、クライアント装置２０１と一体である場合があってもよい。また、例えば、出力装置１００が、端末装置２０２と一体である場合があってもよい。

　ここでは、出力装置１００が、ソフトウェア的に、Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋを実現する場合について説明したが、これに限らない。例えば、出力装置１００が、Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋを、電子回路的に実現する場合があってもよい。

（情報処理システム２００の適用例１）
　適用例１において、出力装置１００は、画像と、画像についての質問文となる文書とを記憶する。質問文は、例えば、「画像内で何を切っているか」である。そして、出力装置１００は、画像と文書とに基づいて、質問文に対する回答文を推定する問題を解く。出力装置１００は、例えば、画像と文書とに基づいて、画像内で何を切っているかの質問文に対する回答文を推定し、クライアント装置２０１に送信する。

（情報処理システム２００の適用例２）
　適用例２において、端末装置２０２は、監視カメラであり、対象を撮像した画像を、出力装置１００に送信する。対象は、具体的には、試着室の外観である。また、出力装置１００は、対象についての説明文となる文書を記憶している。説明文は、具体的には、人間が試着室を利用中は、試着室のカーテンが閉まっている傾向があることの説明文である。そして、出力装置１００は、画像と文書とに基づいて、危険度を判断する問題を解く。危険度は、例えば、試着室に避難が未完了の人間が残っている可能性の高さを示す指標値である。出力装置１００は、例えば、災害時に、試着室に避難が未完了の人間が残っている可能性の高さを示す危険度を判断する。

（情報処理システム２００の適用例３）
　適用例３において、出力装置１００は、動画を形成する画像と、画像についての説明文となる文書を記憶している。動画は、例えば、料理の様子を写した動画である。説明文は、具体的には、料理の手順についての説明文である。そして、出力装置１００は、画像と文書とに基づいて、危険度を判断する問題を解く。危険度は、例えば、料理中の危険性の高さを示す指標値である。出力装置１００は、例えば、料理中の危険性の高さを示す危険度を判断する。

（出力装置１００のハードウェア構成例）
　次に、図３を用いて、出力装置１００のハードウェア構成例について説明する。

　図３は、出力装置１００のハードウェア構成例を示すブロック図である。図３において、出力装置１００は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）３０１と、メモリ３０２と、ネットワークＩ／Ｆ（Ｉｎｔｅｒｆａｃｅ）３０３と、記録媒体Ｉ／Ｆ３０４と、記録媒体３０５とを有する。また、各構成部は、バス３００によってそれぞれ接続される。

　ここで、ＣＰＵ３０１は、出力装置１００の全体の制御を司る。メモリ３０２は、例えば、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）およびフラッシュＲＯＭなどを有する。具体的には、例えば、フラッシュＲＯＭやＲＯＭが各種プログラムを記憶し、ＲＡＭがＣＰＵ３０１のワークエリアとして使用される。メモリ３０２に記憶されるプログラムは、ＣＰＵ３０１にロードされることで、コーディングされている処理をＣＰＵ３０１に実行させる。

　ネットワークＩ／Ｆ３０３は、通信回線を通じてネットワーク２１０に接続され、ネットワーク２１０を介して他のコンピュータに接続される。そして、ネットワークＩ／Ｆ３０３は、ネットワーク２１０と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークＩ／Ｆ３０３は、例えば、モデムやＬＡＮアダプタなどである。

　記録媒体Ｉ／Ｆ３０４は、ＣＰＵ３０１の制御に従って記録媒体３０５に対するデータのリード／ライトを制御する。記録媒体Ｉ／Ｆ３０４は、例えば、ディスクドライブ、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポートなどである。記録媒体３０５は、記録媒体Ｉ／Ｆ３０４の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体３０５は、例えば、ディスク、半導体メモリ、ＵＳＢメモリなどである。記録媒体３０５は、出力装置１００から着脱可能であってもよい。

　出力装置１００は、上述した構成部のほか、例えば、キーボード、マウス、ディスプレイ、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、出力装置１００は、記録媒体Ｉ／Ｆ３０４や記録媒体３０５を複数有していてもよい。また、出力装置１００は、記録媒体Ｉ／Ｆ３０４や記録媒体３０５を有していなくてもよい。

（クライアント装置２０１のハードウェア構成例）
　クライアント装置２０１のハードウェア構成例は、具体的には、図３に示した出力装置１００のハードウェア構成例と同様であるため、説明を省略する。

（端末装置２０２のハードウェア構成例）
　端末装置２０２のハードウェア構成例は、具体的には、図３に示した出力装置１００のハードウェア構成例と同様であるため、説明を省略する。

（出力装置１００の機能的構成例）
　次に、図４を用いて、出力装置１００の機能的構成例について説明する。

　図４は、出力装置１００の機能的構成例を示すブロック図である。出力装置１００は、記憶部４００と、取得部４０１と、第一の補正部４０２と、第一の生成部４０３と、第二の補正部４０４と、第二の生成部４０５と、第三の生成部４０６と、解析部４０７と、出力部４０８とを含む。

　記憶部４００は、例えば、図３に示したメモリ３０２や記録媒体３０５などの記憶領域によって実現される。以下では、記憶部４００が、出力装置１００に含まれる場合について説明するが、これに限らない。例えば、記憶部４００が、出力装置１００とは異なる装置に含まれ、記憶部４００の記憶内容が出力装置１００から参照可能である場合があってもよい。

　取得部４０１～出力部４０８は、制御部の一例として機能する。取得部４０１～出力部４０８は、具体的には、例えば、図３に示したメモリ３０２や記録媒体３０５などの記憶領域に記憶されたプログラムをＣＰＵ３０１に実行させることにより、または、ネットワークＩ／Ｆ３０３により、その機能を実現する。各機能部の処理結果は、例えば、図３に示したメモリ３０２や記録媒体３０５などの記憶領域に記憶される。

　記憶部４００は、各機能部の処理において参照され、または更新される各種情報を記憶する。記憶部４００は、Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋを記憶する。Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋは、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとに基づいて、第三のベクトルを生成するモデルである。Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋは、後述する第一のターゲットアテンション層と、第二のターゲットアテンション層と、第一のセルフアテンション層と、第二のセルフアテンション層と、第三のセルフアテンション層との全体に対応する。

　第一のターゲットアテンション層は、例えば、第一のモーダルに関する。第一のターゲットアテンション層は、第一のモーダルの情報に基づくベクトルを補正するモデルである。第一のセルフアテンション層は、例えば、第一のモーダルに関する。第一のセルフアテンション層は、補正後の第一のモーダルの情報に基づくベクトルをさらに補正し、第一のベクトルを生成するモデルである。第二のターゲットアテンション層は、例えば、第二のモーダルに関する。第二のターゲットアテンション層は、第二のモーダルの情報に基づくベクトルを補正するモデルである。第二のセルフアテンション層は、例えば、第二のモーダルに関する。第二のセルフアテンション層は、補正後の第二のモーダルの情報に基づくベクトルをさらに補正し、第二のベクトルを生成するモデルである。第三のセルフアテンション層は、第一のベクトルと、第二のベクトルとに基づいて、第三のベクトルを生成するモデルである。

　例えば、第一のモーダルは、画像に関するモーダルであり、第二のモーダルは、文書に関するモーダルである。例えば、第一のモーダルは、画像に関するモーダルであり、第二のモーダルは、音声に関するモーダルである。例えば、第一のモーダルは、第一の言語の文書に関するモーダルであり、第二のモーダルは、第二の言語の文書に関するモーダルである。Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋは、解析部４０７によって更新され、または解析部４０７によって問題を解く際に利用される。

　記憶部４００は、例えば、Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋのパラメータを記憶する。記憶部４００は、具体的には、第一のターゲットアテンション層と、第二のターゲットアテンション層と、第一のセルフアテンション層と、第二のセルフアテンション層と、第三のセルフアテンション層とのパラメータを記憶する。

　記憶部４００は、教師データを記憶してもよい。教師データは、例えば、標本となる第一のモーダルの情報に基づくベクトルを生成する元となる第一のモーダルの情報と、標本となる第二のモーダルの情報に基づくベクトルを生成する元となる第二のモーダルの情報と、正解データとを対応付けた対応情報である。教師データは、例えば、ユーザにより入力される。正解データは、例えば、第三のベクトルに基づいて、問題を解いた場合についての正解を示す。

　例えば、第一のモーダルが、画像に関するモーダルであれば、第一のモーダルの情報に基づくベクトルを生成する元となる第一のモーダルの情報は、画像である。例えば、第二のモーダルが、文書に関するモーダルであれば、第二のモーダルの情報に基づくベクトルを生成する元となる第二のモーダルの情報は、文書である。教師データは、標本となる第一のモーダルの情報に基づくベクトルと、標本となる第二のモーダルの情報に基づくベクトルと、正解データとを対応付けた対応情報であってもよい。

　取得部４０１は、各機能部の処理に用いられる各種情報を取得する。取得部４０１は、取得した各種情報を、記憶部４００に記憶し、または、各機能部に出力する。また、取得部４０１は、記憶部４００に記憶しておいた各種情報を、各機能部に出力してもよい。取得部４０１は、例えば、ユーザの操作入力に基づき、各種情報を取得する。取得部４０１は、例えば、出力装置１００とは異なる装置から、各種情報を受信してもよい。

　取得部４０１は、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとを取得する。取得部４０１は、Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋを更新する際に、教師データを取得し、教師データに基づいて、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとを取得する。

　取得部４０１は、例えば、ユーザによる教師データの入力を受け付け、教師データの中から、第一のモーダルの情報に基づくベクトルを生成する元となる第一のモーダルの情報と、第二のモーダルの情報に基づくベクトルを生成する元となる第二のモーダルの情報とを取得する。そして、取得部４０１は、取得した各種情報に基づいて、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとを生成する。

　取得部４０１は、具体的には、教師データに含まれる画像を取得し、第一のモーダルの情報に基づくベクトルとして、取得した画像に関する特徴量ベクトルを生成する。画像に関する特徴量ベクトルは、例えば、画像に写る物体ごとの特徴量ベクトルを並べたものである。また、取得部４０１は、具体的には、教師データに含まれる文書を取得し、第二のモーダルの情報に基づくベクトルとして、取得した文書に関する特徴量ベクトルを生成する。文書に関する特徴量ベクトルは、例えば、文書に含まれる単語ごとの特徴量ベクトルを並べたものである。

　取得部４０１は、例えば、教師データを、クライアント装置２０１または端末装置２０２から受信し、受信した教師データの中から、第一のモーダルの情報に基づくベクトルを生成する元となる第一のモーダルの情報と、第二のモーダルの情報に基づくベクトルを生成する元となる第二のモーダルの情報とを取得してもよい。そして、取得部４０１は、取得した情報に基づいて、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとを生成する。

　取得部４０１は、例えば、ユーザによる教師データの入力を受け付け、教師データの中から、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとを、そのまま取得してもよい。取得部４０１は、例えば、教師データを、クライアント装置２０１または端末装置２０２から受信し、受信した教師データの中から、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとを、そのまま取得してもよい。

　取得部４０１は、Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋを利用し、問題を解く際に、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとを取得する。取得部４０１は、例えば、ユーザによる、第一のモーダルの情報に基づくベクトルを生成する元となる第一のモーダルの情報と、第二のモーダルの情報に基づくベクトルを生成する元となる第二のモーダルの情報との入力を受け付ける。そして、取得部４０１は、入力された各種情報に基づいて、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとを生成する。

　取得部４０１は、具体的には、画像を取得し、第一のモーダルの情報に基づくベクトルとして、取得した画像に関する特徴量ベクトルを生成する。画像に関する特徴量ベクトルは、例えば、画像に写る物体ごとの特徴量ベクトルを並べたものである。また、取得部４０１は、具体的には、文書を取得し、第二のモーダルの情報に基づくベクトルとして、取得した文書に関する特徴量ベクトルを生成する。文書に関する特徴量ベクトルは、例えば、文書に含まれる単語ごとの特徴量ベクトルを並べたものである。

　取得部４０１は、例えば、第一のモーダルの情報に基づくベクトルを生成する元となる第一のモーダルの情報と、第二のモーダルの情報に基づくベクトルを生成する元となる第二のモーダルの情報とを、クライアント装置２０１または端末装置２０２から受信してもよい。そして、取得部４０１は、取得した各種情報に基づいて、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとを生成する。

　取得部４０１は、具体的には、画像を取得し、第一のモーダルの情報に基づくベクトルとして、取得した画像に関する特徴量ベクトルを生成する。画像に関する特徴量ベクトルは、例えば、画像に写る物体ごとの特徴量ベクトルを並べたものである。取得部４０１は、具体的には、文書を取得し、第二のモーダルの情報に基づくベクトルとして、取得した文書に関する特徴量ベクトルを生成する。文書に関する特徴量ベクトルは、例えば、文書に含まれる単語ごとの特徴量ベクトルを並べたものである。

　取得部４０１は、例えば、ユーザによる、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとの入力を受け付けてもよい。取得部４０１は、例えば、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとを、クライアント装置２０１または端末装置２０２から受信してもよい。

　取得部４０１は、いずれかの機能部の処理を開始する開始トリガーを受け付けてもよい。開始トリガーは、例えば、ユーザによる所定の操作入力があったことである。開始トリガーは、例えば、他のコンピュータから、所定の情報を受信したことであってもよい。開始トリガーは、例えば、いずれかの機能部が所定の情報を出力したことであってもよい。取得部４０１は、例えば、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとを取得したことを、各機能部の処理を開始する開始トリガーとして受け付ける。

　第一の補正部４０２は、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとの相関に基づいて、第一のモーダルの情報に基づくベクトルを補正する。相関は、例えば、第一のモーダルの情報に基づくベクトルから得たベクトルと、第二のモーダルの情報に基づくベクトルから得たベクトルとの類似度によって表現される。第一のモーダルの情報に基づくベクトルから得たベクトルは、例えば、クエリである。第二のモーダルの情報に基づくベクトルから得たベクトルは、例えば、キーである。類似度は、例えば、内積によって表現される。類似度は、例えば、差分の二乗和などによって表現されてもよい。

　第一の補正部４０２は、例えば、第一のターゲットアテンション層を用いて、第一のモーダルの情報に基づくベクトルから得たベクトルと、第二のモーダルの情報に基づくベクトルから得たベクトルとの内積に基づいて、第一のモーダルの情報に基づくベクトルを補正する。

　第一の補正部４０２は、具体的には、第一のターゲットアテンション層を用いて、第一のモーダルの情報に基づくベクトルから得たクエリと、第二のモーダルの情報に基づくベクトルから得たキーとの内積に基づいて、第一のモーダルの情報に基づくベクトルを補正する。ここで、第一のモーダルの情報に基づくベクトルを補正する一例は、例えば、図５を用いて後述する動作例に示す。これにより、第一の補正部４０２は、第二のモーダルの情報に基づくベクトルのうち、第一のモーダルの情報に基づくベクトルと相対的に関連深い成分ほど、第一のモーダルの情報に基づくベクトルに強く反映されるように、第一のモーダルの情報に基づくベクトルを補正することができる。

　第一の生成部４０３は、補正後の第一のモーダルの情報に基づくベクトルから得た異なる種類の２つのベクトルの相関に基づいて、第一のベクトルを生成する。相関は、例えば、補正後の第一のモーダルの情報に基づくベクトルから得た異なる種類の２つのベクトルの類似度によって表現される。異なる種類の２つのベクトルは、例えば、クエリとキーとである。類似度は、例えば、内積によって表現される。類似度は、例えば、差分の二乗和などによって表現されてもよい。

　第一の生成部４０３は、例えば、第一のセルフアテンション層を用いて、補正後の第一のモーダルの情報に基づくベクトルから得た異なる種類の２つのベクトルの内積に基づいて、補正後の第一のモーダルの情報に基づくベクトルをさらに補正し、第一のベクトルを生成する。

　第一の生成部４０３は、具体的には、第一のセルフアテンション層を用いて、補正後の第一のモーダルの情報に基づくベクトルから得たクエリとキーとの内積に基づいて、補正後の第一のモーダルの情報に基づくベクトルをさらに補正し、第一のベクトルを生成する。ここで、第一のベクトルを生成する一例は、例えば、図５を用いて後述する動作例に示す。これにより、第一の生成部４０３は、補正後の第一のモーダルの情報に基づくベクトルのうち、より有用な成分ほど大きくなるように、補正後の第一のモーダルの情報に基づくベクトルをさらに補正することができる。

　第二の補正部４０４は、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとの相関に基づいて、第二のモーダルの情報に基づくベクトルを補正する。相関は、例えば、第一のモーダルの情報に基づくベクトルから得たベクトルと、第二のモーダルの情報に基づくベクトルから得たベクトルとの類似度によって表現される。第一のモーダルの情報に基づくベクトルから得たベクトルは、例えば、キーである。第二のモーダルの情報に基づくベクトルから得たベクトルは、例えば、クエリである。類似度は、例えば、内積によって表現される。類似度は、例えば、差分の二乗和などによって表現されてもよい。

　第二の補正部４０４は、例えば、第二のターゲットアテンション層を用いて、第一のモーダルの情報に基づくベクトルから得たベクトルと、第二のモーダルの情報に基づくベクトルから得たベクトルとの内積に基づいて、第二のモーダルの情報に基づくベクトルを補正する。

　第二の補正部４０４は、具体的には、第二のターゲットアテンション層を用いて、第一のモーダルの情報に基づくベクトルから得たキーと、第二のモーダルの情報に基づくベクトルから得たクエリとの内積に基づいて、第二のモーダルの情報に基づくベクトルを補正する。ここで、第二のモーダルの情報に基づくベクトルを補正する一例は、例えば、図５を用いて後述する動作例に示す。これにより、第二の補正部４０４は、第一のモーダルの情報に基づくベクトルのうち、第二のモーダルの情報に基づくベクトルと相対的に関連深い成分ほど、第二のモーダルの情報に基づくベクトルに強く反映されるように、第二のモーダルの情報に基づくベクトルを補正することができる。

　第二の生成部４０５は、補正後の第二のモーダルの情報に基づくベクトルから得た異なる種類の２つのベクトルの相関に基づいて、第二のベクトルを生成する。相関は、例えば、補正後の第二のモーダルの情報に基づくベクトルから得た異なる種類の２つのベクトルの類似度によって表現される。異なる種類の２つのベクトルは、例えば、クエリとキーとである。類似度は、例えば、内積によって表現される。類似度は、例えば、差分の二乗和などによって表現されてもよい。

　第二の生成部４０５は、例えば、第二のセルフアテンション層を用いて、補正後の第二のモーダルの情報に基づくベクトルから得た異なる種類の２つのベクトルの内積に基づいて、補正後の第二のモーダルの情報に基づくベクトルをさらに補正し、第二のベクトルを生成する。

　第二の生成部４０５は、具体的には、第二のセルフアテンション層を用いて、補正後の第二のモーダルの情報に基づくベクトルから得たクエリとキーとの内積に基づいて、補正後の第二のモーダルの情報に基づくベクトルをさらに補正し、第二のベクトルを生成する。ここで、第二のベクトルを生成する一例は、例えば、図５を用いて後述する動作例に示す。これにより、第二の生成部４０５は、補正後の第二のモーダルの情報に基づくベクトルのうち、より有用な成分ほど大きくなるように、補正後の第二のモーダルの情報に基づくベクトルをさらに補正することができる。

　ここで、出力装置１００は、第一の補正部４０２～第二の生成部４０５の動作を、１回以上繰り返してもよい。出力装置１００は、例えば、第一の補正部４０２～第二の生成部４０５の動作を繰り返す際には、生成した第一のベクトルを、新たな第一のモーダルの情報に基づくベクトルに設定し、生成した第二のベクトルを、新たな第二のモーダルの情報に基づくベクトルに設定する。これにより、出力装置１００は、問題を解いた際の解の精度をさらに向上可能にすることができる。出力装置１００は、例えば、問題を解いた際の解の精度を向上させる観点で、第三のベクトルをより有用な状態で生成可能にすることができる。

　第三の生成部４０６は、結合ベクトルを生成する。結合ベクトルは、所定のベクトルと、生成した第一のベクトルと、生成した第二のベクトルとを含む。第三の生成部４０６は、例えば、所定のベクトルと第一のベクトルと第二のベクトルとを結合した結合ベクトルを生成する。第三の生成部４０６は、例えば、第一の補正部４０２～第二の生成部４０５の動作を繰り返した後であれば、所定のベクトルと最後に生成した第一のベクトルと最後に生成した第二のベクトルとを結合した結合ベクトルを生成する。

　第三の生成部４０６は、結合ベクトルから得た異なる種類の２つのベクトルの相関に基づいて、第一のベクトルと第二のベクトルとを集約した第三のベクトルを生成する。相関は、例えば、結合ベクトルから得た異なる種類の２つのベクトルの類似度によって表現される。異なる種類の２つのベクトルは、例えば、クエリとキーとである。類似度は、例えば、内積によって表現される。類似度は、例えば、差分の二乗和などによって表現されてもよい。

　第三の生成部４０６は、例えば、第三のセルフアテンション層を用いて、結合ベクトルから得た異なる種類の２つのベクトルの内積に基づいて、結合ベクトルを補正し、第三のベクトルを生成する。第三のベクトルは、例えば、補正後の結合ベクトルのうち、所定のベクトルに対応する位置に含まれる部分的なベクトルである。

　第三の生成部４０６は、具体的には、第三のセルフアテンション層を用いて、結合ベクトルから得たクエリとキーとの内積に基づいて、結合ベクトルを補正することにより、第三のベクトルを含む補正後の結合ベクトルを生成する。ここで、第三のベクトルを生成する一例は、例えば、図５を用いて後述する動作例に示す。これにより、第三の生成部４０６は、問題を解いた際の解の精度を向上させる観点で有用な第三のベクトルを生成し、参照可能にすることができる。

　解析部４０７は、生成した第三のベクトルに基づいて、Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋを更新する。解析部４０７は、例えば、第三のベクトルに基づいて、第一のターゲットアテンション層と、第二のターゲットアテンション層と、第一のセルフアテンション層と、第二のセルフアテンション層と、第三のセルフアテンション層とを更新する。更新は、例えば、誤差逆伝搬によって実施される。

　解析部４０７は、具体的には、生成した第三のベクトルを用いて、試験的に問題を解き、正解データと比較する。問題の一例は、例えば、第一のモーダルと第二のモーダルとに関する状況が、ポジティブな状況であるか、または、ネガティブな状況であるかを判断する問題である。問題の一例は、具体的には、画像が示唆する状況が、人間に危害が及び得る状況であるか、または、人間に危害が及ばない状況であるかを判断する問題である。

　そして、解析部４０７は、比較した結果に基づいて、第一のターゲットアテンション層と、第二のターゲットアテンション層と、第一のセルフアテンション層と、第二のセルフアテンション層と、第三のセルフアテンション層とを更新する。これにより、解析部４０７は、第三のベクトルをより有用な状態で生成可能に、各種アテンション層を更新し、問題を解いた際の解の精度を向上可能にすることができる。

　解析部４０７は、生成した第三のベクトルを用いて、実際の問題を解く。問題の一例は、例えば、第一のモーダルと第二のモーダルとに関する状況が、ポジティブな状況であるか、または、ネガティブな状況であるかを判断する問題である。問題の一例は、具体的には、画像が示唆する状況が、人間に危害が及び得る状況であるか、または、人間に危害が及ばない状況であるかを判断する問題である。これにより、解析部４０７は、問題を解いた際の解の精度を向上させることができる。

　出力部４０８は、いずれかの機能部の処理結果を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークＩ／Ｆ３０３による外部装置への送信、または、メモリ３０２や記録媒体３０５などの記憶領域への記憶である。これにより、出力部４０８は、各機能部の処理結果をユーザに通知可能にし、出力装置１００の利便性の向上を図ることができる。

　出力部４０８は、例えば、更新済みのＣｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋを出力する。出力部４０８は、具体的には、更新済みの第一のターゲットアテンション層と、第二のターゲットアテンション層と、第一のセルフアテンション層と、第二のセルフアテンション層と、第三のセルフアテンション層とを出力する。これにより、出力部４０８は、更新済みのＣｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋを参照可能にすることができる。このため、出力部４０８は、例えば、他のコンピュータで、更新済みのＣｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋを用いて、問題を解いた際の解の精度を向上可能にすることができる。

　出力部４０８は、例えば、生成した第三のベクトルを出力する。これにより、出力部４０８は、第三のベクトルを参照可能にし、Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋを更新可能にしたり、または、問題を解いた際の解の精度を向上可能にすることができる。

　出力部４０８は、例えば、第三のベクトルを、実際の問題を解いた結果に対応付けて出力する。出力部４０８は、具体的には、第三のベクトルを、判断した状況に対応付けて出力する。これにより、出力部４０８は、問題を解いた結果を、ユーザなどに参照可能にすることができる。

　出力部４０８は、例えば、第三のベクトルを出力せずに、実際の問題を解いた結果を出力してもよい。出力部４０８は、具体的には、第三のベクトルを出力せずに、判断した状況を出力する。これにより、出力部４０８は、問題を解いた結果を、ユーザなどに参照可能にすることができる。

（出力装置１００の動作例）
　次に、図５～図７を用いて、出力装置１００の動作例について説明する。まず、図５を用いて、出力装置１００によって用いられるＣｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋ５００の具体例について説明する。

　図５は、Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋ５００の具体例を示す説明図である。以下の説明では、Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋ５００を「ＣＡＮ５００」と表記する場合がある。また、ターゲットアテンションを「ＴＡ」と表記する場合がある。また、セルフアテンションを「ＳＡ」と表記する場合がある。

　図５に示すように、ＣＡＮ５００は、画像ＴＡ層５０１と、画像ＳＡ層５０２と、文書ＴＡ層５０３と、文書ＳＡ層５０４と、結合層５０５と、統合ＳＡ層５０６とを有する。

　図５において、ＣＡＮ５００は、文書に関する特徴量ベクトルＬと画像に関する特徴量ベクトルＩとが入力されたことに応じて、ベクトルＺ_Tを出力する。文書に関する特徴量ベクトルＬは、例えば、文書に関するＭ個の特徴量ベクトルを並べたものである。Ｍ個の特徴量ベクトルは、例えば、文書に含まれるＭ個の単語を示す特徴量ベクトルである。画像に関する特徴量ベクトルＩは、例えば、画像に関するＮ個の特徴量ベクトルを並べたものである。Ｎ個の特徴量ベクトルは、例えば、画像に写ったＮ個の物体を示す特徴量ベクトルである。

　具体的には、画像ＴＡ層５０１は、画像に関する特徴量ベクトルＩと、文書に関する特徴量ベクトルＬとの入力を受け付ける。画像ＴＡ層５０１は、画像に関する特徴量ベクトルＩから得たクエリと、文書に関する特徴量ベクトルＬから得たキーおよびバリューとに基づいて、画像に関する特徴量ベクトルＩを補正する。画像ＴＡ層５０１は、補正後の画像に関する特徴量ベクトルＩを、画像ＳＡ層５０２に出力する。画像ＴＡ層５０１の具体例については、例えば、図６を用いて後述する。

　また、画像ＳＡ層５０２は、補正後の画像に関する特徴量ベクトルＩの入力を受け付ける。画像ＳＡ層５０２は、補正後の画像に関する特徴量ベクトルＩから得たクエリ、キーおよびバリューに基づいて、補正後の画像に関する特徴量ベクトルＩをさらに補正し、新たな特徴量ベクトルＺ_Iを生成し、結合層５０５に出力する。画像ＳＡ層５０２の具体例については、例えば、図６を用いて後述する。

　また、文書ＴＡ層５０３は、文書に関する特徴量ベクトルＬと、画像に関する特徴量ベクトルＩとの入力を受け付ける。文書ＴＡ層５０３は、文書に関する特徴量ベクトルＬから得たクエリと、画像に関する特徴量ベクトルＩから得たキーおよびバリューとに基づいて、文書に関する特徴量ベクトルＬを補正する。文書ＴＡ層５０３は、補正後の文書に関する特徴量ベクトルＬを、文書ＳＡ層５０４に出力する。文書ＴＡ層５０３の具体例については、例えば、図６を用いて後述する。

　また、文書ＳＡ層５０４は、補正後の文書に関する特徴量ベクトルＬの入力を受け付ける。文書ＳＡ層５０４は、補正後の文書に関する特徴量ベクトルＬから得たクエリ、キーおよびバリューに基づいて、補正後の文書に関する特徴量ベクトルＬをさらに補正し、新たな特徴量ベクトルＺ_Lを生成して出力する。文書ＳＡ層５０４の具体例については、例えば、図６を用いて後述する。

　また、結合層５０５は、集約用ベクトルＨと、特徴量ベクトルＺ_Iと、特徴量ベクトルＺ_Lとの入力を受け付ける。結合層５０５は、集約用ベクトルＨと、特徴量ベクトルＺ_Iと、特徴量ベクトルＺ_Lとを結合し、結合ベクトルＣを生成し、統合ＳＡ層５０６に出力する。

　また、統合ＳＡ層５０６は、結合ベクトルＣの入力を受け付ける。統合ＳＡ層５０６は、結合ベクトルＣから得たクエリ、キーおよびバリューに基づいて、結合ベクトルＣを補正し、特徴量ベクトルＺ_Tを生成して出力する。特徴量ベクトルＺ_Tは、集約ベクトルＺ_Hと、文書に関する統合特徴量ベクトルＺ₁～Ｚ_Mと、画像に関する統合特徴量ベクトルＺ_M+1～Ｚ_M+Nとを含む。これにより、出力装置１００は、問題を解いた際の解の精度を向上させる観点で有用な集約ベクトルＺ_Hを含む特徴量ベクトルＺ_Tを生成し、参照可能にすることができる。このため、出力装置１００は、問題を解いた際の解の精度を向上可能にすることができる。

　ここでは、説明の簡略化のため、画像ＴＡ層５０１と、画像ＳＡ層５０２と、文書ＴＡ層５０３と、文書ＳＡ層５０４とのグループ５１０が、１段である場合について説明したが、これに限らない。例えば、画像ＴＡ層５０１と、画像ＳＡ層５０２と、文書ＴＡ層５０３と、文書ＳＡ層５０４とのグループ５１０が、複数段存在する場合があってもよい。これによれば、出力装置１００は、問題を解いた際の解の精度のさらなる向上を図ることができる。

　次に、図６の説明に移行し、ＣＡＮ５００を形成する画像ＳＡ層５０２と文書ＳＡ層５０４と統合ＳＡ層５０６となどのようなＳＡ層６００の具体例について説明する。また、ＣＡＮ５００を形成する画像ＴＡ層５０１と文書ＴＡ層５０３となどのようなＴＡ層６１０の具体例について説明する。

　図６は、ＳＡ層６００の具体例と、ＴＡ層６１０の具体例とを示す説明図である。以下の説明では、Ｍｕｌｔｉ－Ｈｅａｄ　Ａｔｔｅｎｔｉｏｎを「ＭＨＡ」と表記する場合がある。また、Ａｄｄ＆Ｎｏｒｍを「Ａ＆Ｎ」と表記する場合がある。また、Ｆｅｅｄ　Ｆｏｒｗａｒｄを「ＦＦ」と表記する場合がある。

　図６に示すように、ＳＡ層６００は、ＭＨＡ層６０１と、Ａ＆Ｎ層６０２と、ＦＦ層６０３と、Ａ＆Ｎ層６０４とを有する。ＭＨＡ層６０１は、入力ベクトルＸから得たクエリＱとキーＫとバリューＶとに基づいて、入力ベクトルＸを補正する補正ベクトルＲを生成し、Ａ＆Ｎ層６０２に出力する。ＭＨＡ層６０１は、具体的には、入力ベクトルＸを、Ｈｅａｄ個のベクトルに分割して処理する。Ｈｅａｄは、１以上の自然数である。

　Ａ＆Ｎ層６０２は、入力ベクトルＸと補正ベクトルＲとを加算した上で正規化し、正規化後のベクトルを、ＦＦ層６０３とＡ＆Ｎ層６０４とに出力する。ＦＦ層６０３は、正規化後のベクトルを圧縮し、圧縮後のベクトルを、Ａ＆Ｎ層６０４に出力する。Ａ＆Ｎ層６０４は、正規化後のベクトルと、圧縮後のベクトルとを加算した上で正規化し、出力ベクトルＺを生成して出力する。

　また、ＴＡ層６１０は、ＭＨＡ層６１１と、Ａ＆Ｎ層６１２と、ＦＦ層６１３と、Ａ＆Ｎ層６１４とを有する。ＭＨＡ層６１１は、入力ベクトルＸから得たクエリＱと、入力ベクトルＹから得たキーＫとバリューＶとに基づいて、入力ベクトルＸを補正する補正ベクトルＲを生成し、Ａ＆Ｎ層６１２に出力する。Ａ＆Ｎ層６１２は、入力ベクトルＸと補正ベクトルＲとを加算した上で正規化し、正規化後のベクトルを、ＦＦ層６１３とＡ＆Ｎ層６１４とに出力する。ＦＦ層６１３は、正規化後のベクトルを圧縮し、圧縮後のベクトルを、Ａ＆Ｎ層６１４に出力する。Ａ＆Ｎ層６１４は、正規化後のベクトルと、圧縮後のベクトルとを加算した上で正規化し、出力ベクトルＺを生成して出力する。

　上述したＭＨＡ層６０１やＭＨＡ層６１１は、より具体的には、Ｈｅａｄ個のＡｔｔｅｎｔｉｏｎ層６２０により形成される。Ａｔｔｅｎｔｉｏｎ層６２０は、ＭａｔＭｕｌ層６２１と、Ｓｃａｌｅ層６２２と、Ｍａｓｋ層６２３と、ＳｏｆｔＭａｘ層６２４と、ＭａｔＭｕｌ層６２５とを有する。

　ＭａｔＭｕｌ層６２１は、クエリＱとキーＫとの内積を算出し、Ｓｃｏｒｅに設定する。Ｓｃａｌｅ層６２２は、Ｓｃｏｒｅ全体を定数ａで除算し、更新する。Ｍａｓｋ層６２３は、更新後のＳｃｏｒｅをマスク処理してもよい。ＳｏｆｔＭａｘ層６２４は、更新後のＳｃｏｒｅを、正規化し、Ａｔｔに設定する。ＭａｔＭｕｌ層６２５は、ＡｔｔとバリューＶとの内積を算出し、補正ベクトルＲに設定する。

　ここで、ＳＡ層６００の計算例について説明する。具体的には、ＳＡ層６００の計算例の一つとして、ＳＡ層６００で画像ＳＡ層５０２を実現する場合における計算例を示す。また、説明の簡略化のため、Ｈｅａｄ＝１であるとする。

　ここで、入力ベクトルＸは、下記式（１）により表現される画像に関する特徴量ベクトルＸであるとする。ｘ₁，ｘ₂，ｘ₃は、ｄ次元のベクトルである。ｘ₁，ｘ₂，ｘ₃は、それぞれ、画像に写った物体に対応する。

　クエリＱは、下記式（２）により算出される。Ｗ_Qは、変換行列であり、学習により設定される。キーＫは、下記式（３）により算出される。Ｗ_Kは、変換行列であり、学習により設定される。バリューＶは、下記式（４）により算出される。Ｗ_Vは、変換行列であり、学習により設定される。クエリＱと、キーＫと、バリューＶとは、入力ベクトルＸと同じ次元である。

　ＭａｔＭｕｌ層６２１は、下記式（５）に示すように、クエリＱとキーＫとの内積を算出し、Ｓｃｏｒｅに設定する。Ｓｃａｌｅ層６２２は、下記式（６）に示すように、Ｓｃｏｒｅ全体を定数ａで除算し、更新する。ここでは、Ｍａｓｋ層６２３は、マスク処理を省略する。ＳｏｆｔＭａｘ層６２４は、下記式（７）に示すように、更新後のＳｃｏｒｅを、正規化し、Ａｔｔに設定する。ＭａｔＭｕｌ層６２５は、下記式（８）に示すように、ＡｔｔとバリューＶとの内積を算出し、補正ベクトルＲに設定する。

　ＭＨＡ層６０１は、上述したように、補正ベクトルＲを生成する。Ａ＆Ｎ層６０２は、下記式（９）および下記式（１０）に示すように、入力ベクトルＸと補正ベクトルＲとを加算した上で正規化し、入力ベクトルＸを更新する。μは、下記式（１１）により定義される。σは、下記式（１２）により定義される。ＦＦ層６０３は、下記式（１３）に示すように、更新後の入力ベクトルＸを変換し、変換ベクトルＸ’を設定する。ｆは、活性化関数である。Ａ＆Ｎ層６０４は、更新後の入力ベクトルＸと、設定した変換ベクトルＸ’とを加算した上で正規化し、出力ベクトルＺを生成する。

　次に、ＴＡ層６１０の計算例について説明する。具体的には、ＴＡ層６１０の計算例の一つとして、ＴＡ層６１０で画像ＴＡ層５０１を実現する場合における計算例を示す。また、説明の簡略化のため、Ｈｅａｄ＝１であるとする。

　ここで、入力ベクトルＸは、上記式（１）により表現される画像に関する特徴量ベクトルＸであるとする。ｘ₁，ｘ₂，ｘ₃は、ｄ次元のベクトルである。ｘ₁，ｘ₂，ｘ₃は、それぞれ、画像に写った物体に対応する。入力ベクトルＹは、下記式（１４）により表現される文書に関する特徴量ベクトルＹであるとする。ｙ₁，ｙ₂，ｙ₃は、ｄ次元のベクトルである。ｙ₁，ｙ₂，ｙ₃は、それぞれ、文書に含まれる単語に対応する。

　クエリＱは、下記式（１５）により算出される。Ｗ_Qは、変換行列であり、学習により設定される。キーＫは、下記式（１６）により算出される。Ｗ_Kは、変換行列であり、学習により設定される。バリューＶは、下記式（１７）により算出される。Ｗ_Vは、変換行列であり、学習により設定される。クエリＱは、入力ベクトルＸと同じ次元である。キーＫと、バリューＶとは、入力ベクトルＹと同じ次元である。

　ＭａｔＭｕｌ層６２１は、上記式（５）に示すように、クエリＱとキーＫとの内積を算出し、Ｓｃｏｒｅに設定する。Ｓｃａｌｅ層６２２は、上記式（６）に示すように、Ｓｃｏｒｅ全体を定数ａで除算し、更新する。ここでは、Ｍａｓｋ層６２３は、マスク処理を省略する。ＳｏｆｔＭａｘ層６２４は、上記式（７）に示すように、更新後のＳｃｏｒｅを、正規化し、Ａｔｔに設定する。ＭａｔＭｕｌ層６２５は、上記式（８）に示すように、ＡｔｔとバリューＶとの内積を算出し、補正ベクトルＲに設定する。

　ＭＨＡ層６０１は、上述したように、補正ベクトルＲを生成する。Ａ＆Ｎ層６０２は、上記式（９）および上記式（１０）に示すように、入力ベクトルＸと補正ベクトルＲとを加算した上で正規化し、入力ベクトルＸを更新する。ＦＦ層６０３は、上記式（１３）に示すように、更新後の入力ベクトルＸを変換し、変換ベクトルＸ’を設定する。Ａ＆Ｎ層６０４は、更新後の入力ベクトルＸと、設定した変換ベクトルＸ’とを加算した上で正規化し、出力ベクトルＺを生成する。次に、図７を用いて、出力装置１００による、ＣＡＮ５００を用いた動作の一例について説明する。

　図７は、ＣＡＮ５００を用いた動作の一例を示す説明図である。出力装置１００は、文書７００を取得し、画像７１０を取得する。出力装置１００は、文書７００をトークン化し、トークン集合７０１をベクトル化し、文書７００に関する特徴量ベクトル７０２を生成し、ＣＡＮ５００に入力する。また、出力装置１００は、画像７１０から物体を検出し、物体ごとの部分画像の集合７１１をベクトル化し、画像７１０に関する特徴量ベクトル７１２を生成し、ＣＡＮ５００に入力する。

　出力装置１００は、ＣＡＮ５００から、特徴量ベクトルＺ_Tを取得し、特徴量ベクトルＺ_Tに含まれる集約ベクトルＺ_Hを、危険度推定器７２０に入力する。出力装置１００は、危険度推定器７２０から推定結果Ｎｏを取得する。これにより、出力装置１００は、画像と文書との特徴が反映された集約ベクトルＺ_Hを用いて、危険度推定器７２０に推定させることができ、精度よく推定可能にすることができる。危険度推定器７２０は、例えば、銃を持った人物が写っている画像７１０があるが、ミュージアムの展示物であることを示す文書もあるため、推定結果Ｎｏ＝危険ではないと推定することができる。

（出力装置１００の利用例）
　次に、図８～図１１を用いて、出力装置１００の利用例について説明する。

　図８および図９は、出力装置１００の利用例１を示す説明図である。図８において、出力装置１００は、学習フェーズを実施し、ＣＡＮ５００を学習する。出力装置１００は、例えば、何らかのシーンを写した画像８００と、画像８００に対応する字幕となる文書８１０とを取得する。画像８００は、例えば、りんごを切るシーンを写す。出力装置１００は、画像８００を変換器８２０により特徴量ベクトルに変換し、ＣＡＮ５００に入力する。また、出力装置１００は、文書８１０の単語ａｐｐｌｅをマスクした上で、変換器８３０により特徴量ベクトルに変換し、ＣＡＮ５００に入力する。

　出力装置１００は、ＣＡＮ５００により生成された特徴量ベクトルを、識別器８４０に入力し、マスクされた単語を予測した結果を取得し、マスクされた単語の正解「ａｐｐｌｅ」との誤差を算出する。出力装置１００は、算出した誤差に基づいて、誤差逆伝搬によりＣＡＮ５００を学習する。さらに、出力装置１００は、誤差逆伝搬により、変換器８２０，８３０や識別器８４０を学習してもよい。これにより、出力装置１００は、画像８００と字幕となる文書８１０の文脈とを考慮して単語を推定する観点で有用なように、ＣＡＮ５００、および変換器８２０，８３０や識別器８４０を更新することができる。次に、図９の説明に移行する。

　図９において、出力装置１００は、試験フェーズを実施し、学習した変換器８２０，８３０と、学習したＣＡＮ５００とを用いて、回答を生成して出力する。出力装置１００は、例えば、何らかのシーンを写した画像９００と、画像９００に対応する質問文となる文書９１０とを取得する。画像９００は、例えば、りんごを切るシーンを写す。

　出力装置１００は、画像９００を変換器８２０により特徴量ベクトルに変換し、ＣＡＮ５００に入力する。また、出力装置１００は、文書９１０を変換器８３０により特徴量ベクトルに変換し、ＣＡＮ５００に入力する。出力装置１００は、ＣＡＮ５００により生成された特徴量ベクトルを、回答生成器９２０に入力し、回答となる単語を取得して出力する。これにより、出力装置１００は、画像９００と質問文となる文書９１０の文脈とを考慮して、精度よく回答となる単語を推定することができる。

　図１０および図１１は、出力装置１００の利用例２を示す説明図である。図１０において、出力装置１００は、学習フェーズを実施し、ＣＡＮ５００を学習する。出力装置１００は、例えば、何らかのシーンを写した画像１０００と、画像１０００に対応する字幕となる文書１０１０とを取得する。画像１０００は、例えば、りんごを切るシーンを写す。出力装置１００は、画像１０００を変換器１０２０により特徴量ベクトルに変換し、ＣＡＮ５００に入力する。また、出力装置１００は、文書１０１０の単語ａｐｐｌｅをマスクした上で、変換器１０３０により特徴量ベクトルに変換し、ＣＡＮ５００に入力する。

　出力装置１００は、ＣＡＮ５００により生成された特徴量ベクトルを、識別器１０４０に入力し、画像に写ったシーンの危険度を予測した結果を取得し、危険度の正解との誤差を算出する。出力装置１００は、算出した誤差に基づいて、誤差逆伝搬によりＣＡＮ５００を学習する。また、出力装置１００は、誤差逆伝搬により、変換器１０２０，１０３０や識別器１０４０を学習する。これにより、出力装置１００は、画像１０００と字幕となる文書１０１０の文脈とを考慮して危険度を予測する観点で有用なように、ＣＡＮ５００、および変換器１０２０，１０３０や識別器１０４０を更新することができる。次に、図１１の説明に移行する。

　図１１において、出力装置１００は、試験フェーズを実施し、学習した変換器１０２０，１０３０や識別器１０４０と、学習したＣＡＮ５００とを用いて、危険度を予測して出力する。出力装置１００は、例えば、何らかのシーンを写した画像１１００と、画像に対応する説明文となる文書１１１０とを取得する。画像１１００は、例えば、ももを切るシーンを写す。

　出力装置１００は、画像１１００を変換器１０２０により特徴量ベクトルに変換し、ＣＡＮ５００に入力する。また、出力装置１００は、文書１１１０を変換器１０３０により特徴量ベクトルに変換し、ＣＡＮ５００に入力する。出力装置１００は、ＣＡＮ５００により生成された特徴量ベクトルを、識別器１０４０に入力し、危険度を取得して出力する。これにより、出力装置１００は、画像１１００と説明文となる文書１１１０の文脈とを考慮して、精度よく危険度を予測することができる。

（学習処理手順）
　次に、図１２を用いて、出力装置１００が実行する、学習処理手順の一例について説明する。学習処理は、例えば、図３に示したＣＰＵ３０１と、メモリ３０２や記録媒体３０５などの記憶領域と、ネットワークＩ／Ｆ３０３とによって実現される。

　図１２は、学習処理手順の一例を示すフローチャートである。図１２において、出力装置１００は、画像の特徴量ベクトルと、文書の特徴量ベクトルとを取得する（ステップＳ１２０１）。

　次に、出力装置１００は、取得した画像の特徴量ベクトルから生成したクエリと、取得した文書の特徴量ベクトルから生成したキーおよびバリューとに基づいて、画像ＴＡ層５０１を用いて、画像の特徴量ベクトルを補正する（ステップＳ１２０２）。

　そして、出力装置１００は、補正後の画像の特徴量ベクトルに基づいて、画像ＳＡ層５０２を用いて、補正後の画像の特徴量ベクトルをさらに補正し、新たに画像の特徴量ベクトルを生成する（ステップＳ１２０３）。

　次に、出力装置１００は、取得した文書の特徴量ベクトルから生成したクエリと、取得した画像の特徴量ベクトルから生成したキーおよびバリューとに基づいて、文書ＴＡ層５０３を用いて、文書の特徴量ベクトルを補正する（ステップＳ１２０４）。

　そして、出力装置１００は、補正後の文書の特徴量ベクトルに基づいて、文書ＳＡ層５０４を用いて、補正後の文書の特徴量ベクトルをさらに補正し、新たに文書の特徴量ベクトルを生成する（ステップＳ１２０５）。

　次に、出力装置１００は、集約用ベクトルを初期化する（ステップＳ１２０６）。そして、出力装置１００は、集約用ベクトルと、生成した画像の特徴量ベクトルと、生成した文書の特徴量ベクトルとを結合し、結合ベクトルを生成する（ステップＳ１２０７）。

　次に、出力装置１００は、結合ベクトルに基づいて、統合ＳＡ層５０６を用いて、結合ベクトルを補正し、集約ベクトルを生成する（ステップＳ１２０８）。そして、出力装置１００は、集約ベクトルに基づいて、ＣＡＮ５００を学習する（ステップＳ１２０９）。

　その後、出力装置１００は、学習処理を終了する。これにより、出力装置１００は、ＣＡＮ５００を用いて問題を解くにあたり、問題を解いた際の解の精度が向上するように、ＣＡＮ５００のパラメータを更新することができる。

　ここで、出力装置１００は、図１２の一部ステップの処理の順序を入れ替えて実行してもよい。例えば、ステップＳ１２０２，Ｓ１２０３の処理と、ステップＳ１２０４，Ｓ１２０５の処理との順序は入れ替え可能である。また、出力装置１００は、ステップＳ１２０２～Ｓ１２０５の処理を繰り返し実行してもよい。

（推定処理手順）
　次に、図１３を用いて、出力装置１００が実行する、推定処理手順の一例について説明する。推定処理は、例えば、図３に示したＣＰＵ３０１と、メモリ３０２や記録媒体３０５などの記憶領域と、ネットワークＩ／Ｆ３０３とによって実現される。

　図１３は、推定処理手順の一例を示すフローチャートである。図１３において、出力装置１００は、画像の特徴量ベクトルと、文書の特徴量ベクトルとを取得する（ステップＳ１３０１）。

　次に、出力装置１００は、取得した画像の特徴量ベクトルから生成したクエリと、取得した文書の特徴量ベクトルから生成したキーおよびバリューとに基づいて、画像ＴＡ層５０１を用いて、画像の特徴量ベクトルを補正する（ステップＳ１３０２）。

　そして、出力装置１００は、補正後の画像の特徴量ベクトルに基づいて、画像ＳＡ層５０２を用いて、補正後の画像の特徴量ベクトルをさらに補正し、新たに画像の特徴量ベクトルを生成する（ステップＳ１３０３）。

　次に、出力装置１００は、取得した文書の特徴量ベクトルから生成したクエリと、取得した画像の特徴量ベクトルから生成したキーおよびバリューとに基づいて、文書ＴＡ層５０３を用いて、文書の特徴量ベクトルを補正する（ステップＳ１３０４）。

　そして、出力装置１００は、補正後の文書の特徴量ベクトルに基づいて、文書ＳＡ層５０４を用いて、補正後の文書の特徴量ベクトルをさらに補正し、新たに文書の特徴量ベクトルを生成する（ステップＳ１３０５）。

　次に、出力装置１００は、集約用ベクトルを初期化する（ステップＳ１３０６）。そして、出力装置１００は、集約用ベクトルと、生成した画像の特徴量ベクトルと、生成した文書の特徴量ベクトルとを結合し、結合ベクトルを生成する（ステップＳ１３０７）。

　次に、出力装置１００は、結合ベクトルに基づいて、統合ＳＡ層５０６を用いて、結合ベクトルを補正し、集約ベクトルを生成する（ステップＳ１３０８）。そして、出力装置１００は、集約ベクトルに基づいて、識別モデルを用いて、状況を推定する（ステップＳ１３０９）。

　次に、出力装置１００は、推定した状況を出力する（ステップＳ１３１０）。そして、出力装置１００は、推定処理を終了する。これにより、出力装置１００は、ＣＡＮ５００を用いて、問題を解いた際の解の精度を向上させることができる。

　ここで、出力装置１００は、図１３の一部ステップの処理の順序を入れ替えて実行してもよい。例えば、ステップＳ１３０２，Ｓ１３０３の処理と、ステップＳ１３０４，Ｓ１３０５の処理との順序は入れ替え可能である。また、出力装置１００は、ステップＳ１３０２～Ｓ１３０５の処理を繰り返し実行してもよい。

　以上説明したように、出力装置１００によれば、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとの相関に基づいて、第一のモーダルの情報に基づくベクトルを補正することができる。出力装置１００によれば、第一のモーダルの情報に基づくベクトルと、第二のモーダルの情報に基づくベクトルとの相関に基づいて、第二のモーダルの情報に基づくベクトルを補正することができる。出力装置１００によれば、補正後の第一のモーダルの情報に基づくベクトルから得た異なる種類の２つのベクトルの相関に基づいて、第一のベクトルを生成することができる。出力装置１００によれば、補正後の第二のモーダルの情報に基づくベクトルから得た異なる種類の２つのベクトルの相関に基づいて、第二のベクトルを生成することができる。出力装置１００によれば、所定のベクトルと、生成した第一のベクトルと、生成した第二のベクトルとを含む結合ベクトルから得た異なる種類の２つのベクトルの相関に基づいて、第一のベクトルと第二のベクトルとを集約した第三のベクトルを生成することができる。出力装置１００によれば、生成した第三のベクトルを出力することができる。これにより、出力装置１００は、第一のベクトルと第二のベクトルとが集約され、第一のモーダルの情報に基づくベクトルと第二のモーダルの情報に基づくベクトルとのうち問題の解決に有用な情報が反映される傾向がある第三のベクトルを生成し、利用可能にすることができる。このため、出力装置１００は、第三のベクトルを利用し、問題を解いた際の解の精度を向上可能にすることができる。

　出力装置１００によれば、第一のターゲットアテンション層を用いて、第一のモーダルの情報に基づくベクトルから得たベクトルと、第二のモーダルの情報に基づくベクトルから得たベクトルとの内積に基づいて、第一のモーダルの情報に基づくベクトルを補正することができる。出力装置１００によれば、第二のターゲットアテンション層を用いて、第一のモーダルの情報に基づくベクトルから得たベクトルと、第二のモーダルの情報に基づくベクトルから得たベクトルとの内積に基づいて、第二のモーダルの情報に基づくベクトルを補正することができる。出力装置１００によれば、第一のセルフアテンション層を用いて、補正後の第一のモーダルの情報に基づくベクトルから得た異なる種類の２つのベクトルの内積に基づいて、補正後の第一のモーダルの情報に基づくベクトルをさらに補正し、第一のベクトルを生成することができる。出力装置１００によれば、第二のセルフアテンション層を用いて、補正後の第二のモーダルの情報に基づくベクトルから得た異なる種類の２つのベクトルの内積に基づいて、補正後の第二のモーダルの情報に基づくベクトルをさらに補正し、第二のベクトルを生成することができる。出力装置１００によれば、第三のセルフアテンション層を用いて、所定のベクトルと第一のベクトルと第二のベクトルとを結合した結合ベクトルから得た異なる種類の２つのベクトルの内積に基づいて、第三のベクトルを生成することができる。これにより、出力装置１００は、各種アテンション層を用いて、第三のベクトルを生成する処理を、容易に実現することができる。

　出力装置１００によれば、生成した第三のベクトルに基づいて、第一のモーダルと第二のモーダルとに関する状況を判断して出力することができる。これにより、出力装置１００は、状況を判別する問題を解く場合に適用可能にすることができ、問題を解いた結果を参照可能にすることができる。

　出力装置１００によれば、生成した第一のベクトルを、新たな第一のモーダルの情報に基づくベクトルに設定することができる。出力装置１００によれば、生成した第二のベクトルを、新たな第二のモーダルの情報に基づくベクトルに設定することができる。出力装置１００によれば、設定した第一のモーダルの情報に基づくベクトルを補正し、設定した第二のモーダルの情報に基づくベクトルを補正し、第一のベクトルを生成し、第二のベクトルを生成する、処理を１回以上繰り返すことができる。出力装置１００によれば、所定のベクトルと、生成した第一のベクトルと、生成した第二のベクトルとを含む結合ベクトルから得た異なる種類の２つのベクトルの相関に基づいて、第一のベクトルと第二のベクトルとを集約した第三のベクトルを生成することができる。これにより、出力装置１００は、各種ベクトルを多段階に補正し、問題を解いた際の解の精度をさらに向上可能にすることができる。

　出力装置１００によれば、第一のモーダルとして、画像に関するモーダルを採用することができる。出力装置１００によれば、第二のモーダルとして、文書に関するモーダルを採用することができる。これにより、出力装置１００は、画像と文書とに基づいて問題を解く場合に適用可能にすることができる。

　出力装置１００によれば、第一のモーダルとして、画像に関するモーダルを採用することができる。出力装置１００によれば、第二のモーダルとして、音声に関するモーダルを採用することができる。これにより、出力装置１００は、画像と音声とに基づいて問題を解く場合に適用可能にすることができる。

　出力装置１００によれば、第一のモーダルとして、第一の言語の文書に関するモーダルを採用することができる。出力装置１００によれば、第二のモーダルとして、第二の言語の文書に関するモーダルを採用することができる。これにより、出力装置１００は、異なる言語の２つの文書に基づいて問題を解く場合に適用可能にすることができる。

　出力装置１００によれば、生成した第三のベクトルに基づいて、ポジティブな状況、または、ネガティブな状況を判断して出力することができる。これにより、出力装置１００は、ポジティブな状況、または、ネガティブな状況を判別する問題を解く場合に適用可能にすることができ、問題を解いた結果を参照可能にすることができる。

　出力装置１００によれば、生成した第三のベクトルに基づいて、第一のターゲットアテンション層と、第二のターゲットアテンション層と、第一のセルフアテンション層と、第二のセルフアテンション層と、第三のセルフアテンション層とを更新することができる。これにより、出力装置１００は、第三のベクトルをより有用な状態で生成可能に、各種アテンション層を更新し、問題を解いた際の解の精度を向上可能にすることができる。

　なお、本実施の形態で説明した出力方法は、予め用意されたプログラムをＰＣやワークステーションなどのコンピュータで実行することにより実現することができる。本実施の形態で説明した出力プログラムは、コンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。記録媒体は、ハードディスク、フレキシブルディスク、ＣＤ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ）－ＲＯＭ、ＭＯ、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）などである。また、本実施の形態で説明した出力プログラムは、インターネットなどのネットワークを介して配布してもよい。

　１００　出力装置
　１１１，１１２　補正モデル
　１２１，１２２，１３０　生成モデル
　２００　情報処理システム
　２０１　クライアント装置
　２０２　端末装置
　２１０　ネットワーク
　３００　バス
　３０１　ＣＰＵ
　３０２　メモリ
　３０３　ネットワークＩ／Ｆ
　３０４　記録媒体Ｉ／Ｆ
　３０５　記録媒体
　４００　記憶部
　４０１　取得部
　４０２　第一の補正部
　４０３　第一の生成部
　４０４　第二の補正部
　４０５　第二の生成部
　４０６　第三の生成部
　４０７　解析部
　４０８　出力部
　５００　Ｃｏ－Ａｔｔｅｎｔｉｏｎ　Ｎｅｔｗｏｒｋ
　５０１　画像ＴＡ層
　５０２　画像ＳＡ層
　５０３　文書ＴＡ層
　５０４　文書ＳＡ層
　５０５　結合層
　５０６　統合ＳＡ層
　５１０　グループ
　６００　ＳＡ層
　６０１，６１１　ＭＨＡ層
　６０２，６０４，６１２，６１４　Ａ＆Ｎ層
　６０３，６１３　ＦＦ層
　６１０　ＴＡ層
　６２０　Ａｔｔｅｎｔｉｏｎ層
　６２１，６２５　ＭａｔＭｕｌ層
　６２２　Ｓｃａｌｅ層
　６２３　Ｍａｓｋ層
　６２４　ＳｏｆｔＭａｘ層
　７００，８１０，９１０，１０１０，１１１０　文書
　７０１　トークン集合
　７０２，７１２　特徴量ベクトル
　７１０，８００，９００，１０００，１１００　画像
　７１１　集合
　７２０　危険度推定器
　８２０，８３０，１０２０，１０３０　変換器
　８４０，１０４０　識別器
　９２０　回答生成器

Claims

　第一のモーダルの情報に基づくベクトルと、前記第一のモーダルとは異なる第二のモーダルの情報に基づくベクトルとの相関に基づいて、前記第一のモーダルの情報に基づくベクトルを補正し、
　前記第一のモーダルの情報に基づくベクトルと、前記第二のモーダルの情報に基づくベクトルとの相関に基づいて、前記第二のモーダルの情報に基づくベクトルを補正し、
　補正後の前記第一のモーダルの情報に基づくベクトルから得た異なる種類の２つのベクトルの相関に基づいて、第一のベクトルを生成し、
　補正後の前記第二のモーダルの情報に基づくベクトルから得た前記異なる種類の２つのベクトルの相関に基づいて、第二のベクトルを生成し、
　所定のベクトルと、生成した前記第一のベクトルと、生成した前記第二のベクトルとを含む結合ベクトルから得た前記異なる種類の２つのベクトルの相関に基づいて、前記第一のベクトルと前記第二のベクトルとを集約した第三のベクトルを生成し、
　生成した前記第三のベクトルを出力する、
　処理をコンピュータが実行することを特徴とする出力方法。
　前記第一のモーダルの情報に基づくベクトルを補正する処理は、
　前記第一のモーダルに関する第一のターゲットアテンション層を用いて、前記第一のモーダルの情報に基づくベクトルから得たベクトルと、前記第二のモーダルの情報に基づくベクトルから得たベクトルとの内積に基づいて、前記第一のモーダルの情報に基づくベクトルを補正し、
　前記第二のモーダルの情報に基づくベクトルを補正する処理は、
　前記第二のモーダルに関する第二のターゲットアテンション層を用いて、前記第一のモーダルの情報に基づくベクトルから得たベクトルと、前記第二のモーダルの情報に基づくベクトルから得たベクトルとの内積に基づいて、前記第二のモーダルの情報に基づくベクトルを補正し、
　前記第一のベクトルを生成する処理は、
　前記第一のモーダルに関する第一のセルフアテンション層を用いて、補正後の前記第一のモーダルの情報に基づくベクトルから得た前記異なる種類の２つのベクトルの内積に基づいて、補正後の前記第一のモーダルの情報に基づくベクトルをさらに補正し、前記第一のベクトルを生成し、
　前記第二のベクトルを生成する処理は、
　前記第二のモーダルに関する第二のセルフアテンション層を用いて、補正後の前記第二のモーダルの情報に基づくベクトルから得た前記異なる種類の２つのベクトルの内積に基づいて、補正後の前記第二のモーダルの情報に基づくベクトルをさらに補正し、前記第二のベクトルを生成し、
　前記第三のベクトルを生成する処理は、
　第三のセルフアテンション層を用いて、前記所定のベクトルと前記第一のベクトルと前記第二のベクトルとを結合した結合ベクトルから得た前記異なる種類の２つのベクトルの内積に基づいて、前記結合ベクトルを補正し、前記第三のベクトルを生成する、ことを特徴とする請求項１に記載の出力方法。
　生成した前記第三のベクトルに基づいて、前記第一のモーダルと前記第二のモーダルとに関する状況を判断して出力する、
　処理を前記コンピュータが実行することを特徴とする請求項１または２に記載の出力方法。
　生成した前記第一のベクトルを、新たな前記第一のモーダルの情報に基づくベクトルに設定し、
　生成した前記第二のベクトルを、新たな前記第二のモーダルの情報に基づくベクトルに設定し、
　設定した前記第一のモーダルの情報に基づくベクトルと、設定した前記第二のモーダルの情報に基づくベクトルとの相関に基づいて、設定した前記第一のモーダルの情報に基づくベクトルを補正し、
　設定した前記第一のモーダルの情報に基づくベクトルと、設定した前記第二のモーダルの情報に基づくベクトルとの相関に基づいて、設定した前記第二のモーダルの情報に基づくベクトルを補正し、
　補正後の前記第一のモーダルの情報に基づくベクトルから得た前記異なる種類の２つのベクトルの相関に基づいて、前記第一のベクトルを生成し、
　補正後の前記第二のモーダルの情報に基づくベクトルから得た前記異なる種類の２つのベクトルの相関に基づいて、前記第二のベクトルを生成する、
　処理を前記コンピュータが１回以上繰り返し、
　前記第三のベクトルを生成する処理は、
　前記所定のベクトルと、生成した前記第一のベクトルと、生成した前記第二のベクトルとを含む結合ベクトルから得た前記異なる種類の２つのベクトルの相関に基づいて、前記第一のベクトルと前記第二のベクトルとを集約した第三のベクトルを生成する、ことを特徴とする請求項１～３のいずれか一つに記載の出力方法。
　前記第一のモーダルと前記第二のモーダルとの組は、画像に関するモーダルと文書に関するモーダルとの組、画像に関するモーダルと音声に関するモーダルとの組、第一の言語の文書に関するモーダルと第二の言語の文書に関するモーダルとの組のうちいずれかの組である、ことを特徴とする請求項１～４のいずれか一つに記載の出力方法。
　前記状況は、ポジティブな状況、または、ネガティブな状況である、ことを特徴とする請求項３に記載の出力方法。
　生成した前記第三のベクトルに基づいて、前記第一のターゲットアテンション層と、前記第二のターゲットアテンション層と、前記第一のセルフアテンション層と、前記第二のセルフアテンション層と、前記第三のセルフアテンション層とを更新する、
　処理を前記コンピュータが実行することを特徴とする請求項２に記載の出力方法。
　第一のモーダルの情報に基づくベクトルと、前記第一のモーダルとは異なる第二のモーダルの情報に基づくベクトルとの相関に基づいて、前記第一のモーダルの情報に基づくベクトルを補正し、
　前記第一のモーダルの情報に基づくベクトルと、前記第二のモーダルの情報に基づくベクトルとの相関に基づいて、前記第二のモーダルの情報に基づくベクトルを補正し、
　補正後の前記第一のモーダルの情報に基づくベクトルから得た異なる種類の２つのベクトルの相関に基づいて、第一のベクトルを生成し、
　補正後の前記第二のモーダルの情報に基づくベクトルから得た前記異なる種類の２つのベクトルの相関に基づいて、第二のベクトルを生成し、
　所定のベクトルと、生成した前記第一のベクトルと、生成した前記第二のベクトルとを含む結合ベクトルから得た前記異なる種類の２つのベクトルの相関に基づいて、前記第一のベクトルと前記第二のベクトルとを集約した第三のベクトルを生成し、
　生成した前記第三のベクトルを出力する、
　処理をコンピュータに実行させることを特徴とする出力プログラム。
　第一のモーダルの情報に基づくベクトルと、前記第一のモーダルとは異なる第二のモーダルの情報に基づくベクトルとの相関に基づいて、前記第一のモーダルの情報に基づくベクトルを補正し、
　前記第一のモーダルの情報に基づくベクトルと、前記第二のモーダルの情報に基づくベクトルとの相関に基づいて、前記第二のモーダルの情報に基づくベクトルを補正し、
　補正後の前記第一のモーダルの情報に基づくベクトルから得た異なる種類の２つのベクトルの相関に基づいて、第一のベクトルを生成し、
　補正後の前記第二のモーダルの情報に基づくベクトルから得た前記異なる種類の２つのベクトルの相関に基づいて、第二のベクトルを生成し、
　所定のベクトルと、生成した前記第一のベクトルと、生成した前記第二のベクトルとを含む結合ベクトルから得た前記異なる種類の２つのベクトルの相関に基づいて、前記第一のベクトルと前記第二のベクトルとを集約した第三のベクトルを生成し、
　生成した前記第三のベクトルを出力する、
　制御部を有することを特徴とする出力装置。