WO2023053324A1

WO2023053324A1 - 情報処理装置、生体情報推定装置、情報処理方法、及び、記録媒体

Info

Publication number: WO2023053324A1
Application number: PCT/JP2021/036092
Authority: WO
Inventors: 祐亮赤松; 祥史大西
Original assignee: 日本電気株式会社
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2023-04-06

Abstract

情報処理装置１は、複数種類のモーダルのうちの第１の種類のモーダル１Ｍを少なくとも含み、複数種類のモーダルのうちの第２の種類のモーダル２Ｍを含まない部分モーダルセットＩＭＳを取得する取得部１１と、複数種類のモーダルのうちの少なくとも一つが入力された場合に複数種類のモーダルのうちの少なくとも一つを出力するモーダル生成モデルＧＭであって且つ複数種類のモーダルを含む全モーダルセットＭＭＳを用いた機械学習によって生成されたモーダル生成モデルＧＭに、部分モーダルセットＩＧＭを入力することで、少なくとも第２の種類のモーダル２Ｍを出力させるモーダル出力部１３と、部分モーダルセットＩＭＳとモーダル生成モデルＧＭが出力した第２の種類のモーダル２Ｍとを含む生成全モーダルセットＧＭＳを生成するモーダル生成部１２とを備える。

Description

情報処理装置、生体情報推定装置、情報処理方法、及び、記録媒体

　この開示は、情報処理装置、生体情報推定装置、情報処理方法、及び、記録媒体の技術分野に関する。

　顔画像から、心拍数、呼吸数を検出する装置の一例が特許文献１に記載されている。また、顔画像と平均血圧、心拍数、心拍出量、及び全抹消抵抗のうちの複数とに基づいて、被験者のストレス対処様式を判定するシステムの一例が特許文献２に記載されている。また、得られた新たな学習データに基づき、アルゴリズムを再学習させる機能の一例が特許文献３に記載されている。また、音声認識システムを自動的に再学習させる方法が特許文献４に記載されている。

特開２０１２－２３９６６１号公報特開２０２１－０３７２８７号公報国際公開第２０２１／０７５２８８号特表２００３－５２４８０５号公報

　この開示は、先行技術文献に記載された技術の改良を目的とする情報処理装置、生体情報推定装置、情報処理方法、及び、記録媒体を提供することを課題とする。

　情報処理装置の一の態様は、複数種類のモーダルのうちの第１の種類のモーダルを少なくとも含み、前記複数種類のモーダルのうちの第２の種類のモーダルを含まない第１のモーダルセットを取得する取得手段と、前記複数種類のモーダルのうちの少なくとも一つが入力された場合に前記複数種類のモーダルのうちの少なくとも一つを出力するモーダル生成モデルであって且つ前記複数種類のモーダルを含む第２のモーダルセットを用いた機械学習によって生成されたモーダル生成モデルに、前記第１のモーダルセットを入力することで、少なくとも前記第２の種類のモーダルを出力させる出力手段と、前記第１のモーダルセットと前記モーダル生成モデルが出力した前記第２の種類のモーダルとを含む第３のモーダルセットを生成するモーダル生成手段とを備える。

　生体情報推定装置の一の態様は、対象者の顔画像を取得する画像取得手段と、複数種類のモーダルのうちの第１の種類のモーダルを少なくとも含み、前記複数種類のモーダルのうちの第２の種類のモーダルを含まない第１のモーダルセットとモーダル生成モデルが出力した前記第２の種類のモーダルとを含む第３のモーダルセットを用いた機械学習を行うことで、前記複数種類のモーダルのうちの第３の種類のモーダルが入力モーダルとして入力された場合に前記複数種類のモーダルのうちの前記第３の種類とは異なる第４の種類のモーダルを出力モーダルとして出力するモーダル推定モデルに前記対象者の生体情報を前記出力モーダルとして出力させる生体情報推定手段とを備え、前記モーダル生成モデルは、前記複数種類のモーダルのうちの少なくとも一つが入力された場合に前記複数種類のモーダルのうちの少なくとも一つを出力し、且つ前記複数種類のモーダルを含む第２のモーダルセットを用いた機械学習によって生成された。

　情報処理方法の一の態様は、複数種類のモーダルのうちの第１の種類のモーダルを少なくとも含み、前記複数種類のモーダルのうちの第２の種類のモーダルを含まない第１のモーダルセットを取得し、前記複数種類のモーダルのうちの少なくとも一つが入力された場合に前記複数種類のモーダルのうちの少なくとも一つを出力するモーダル生成モデルであって且つ前記複数種類のモーダルを含む第２のモーダルセットを用いた機械学習によって生成されたモーダル生成モデルに、前記第１のモーダルセットを入力することで、少なくとも前記第２の種類のモーダルを出力させ、前記第１のモーダルセットと前記モーダル生成モデルが出力した前記第２の種類のモーダルとを含む第３のモーダルセットを生成する。

　記録媒体の一の態様は、コンピュータに、複数種類のモーダルのうちの第１の種類のモーダルを少なくとも含み、前記複数種類のモーダルのうちの第２の種類のモーダルを含まない第１のモーダルセットを取得し、前記複数種類のモーダルのうちの少なくとも一つが入力された場合に前記複数種類のモーダルのうちの少なくとも一つを出力するモーダル生成モデルであって且つ前記複数種類のモーダルを含む第２のモーダルセットを用いた機械学習によって生成されたモーダル生成モデルに、前記第１のモーダルセットを入力することで、少なくとも前記第２の種類のモーダルを出力させ、前記第１のモーダルセットと前記モーダル生成モデルが出力した前記第２の種類のモーダルとを含む第３のモーダルセットを生成する情報処理方法を実行させるためのコンピュータプログラムが記録されている。

図１は、第１実施形態における情報処理装置の構成を示すブロック図である。図２は、第２実施形態における情報処理装置の構成を示すブロック図である。図３は、第２実施形態において用いられるデータ群のデータ構造の例を示す。図４は、第２実施形態における情報処理装置が行うモーダルセット生成動作の流れを示すフローチャートである。図５は、第３実施形態における情報処理装置が備えるモーダル生成部２１２の構成を示すブロック図である。図６は、第４実施形態における情報処理装置の構成を示すブロック図である。図７は、第４実施形態における情報処理装置が行うモーダル推定モデル生成動作の流れを示すフローチャートである。図８は、第５実施形態における診断支援装置を含むオンライン診断支援システムの構成を示すブロック図である。図９は、第５実施形態における診断支援装置が備える生体情報推定部の構成を示すブロック図である。図１０は、第５実施形態における診断支援装置を含むオンライン診断支援システムが行うオンライン診断支援動作の流れを示す図である。

　以下、図面を参照しながら、情報処理装置、生体情報推定装置、情報処理方法、及び、記録媒体の実施形態について説明する。
　（１）第１実施形態

　はじめに、情報処理装置、情報処理方法、及び、記録媒体の第１実施形態について説明する。以下では、情報処理装置、情報処理方法、及び記録媒体の第１実施形態が適用された情報処理装置１を用いて、情報処理装置、情報処理方法、及び記録媒体の第１実施形態について説明する。
　（１－１）情報処理装置１の構成

　図１は、第１実施形態における情報処理装置１の構成を示すブロック図である。図１に示すように、情報処理装置１は、取得部１１と、モーダル生成部１２とを備えている。

　まず、モーダルとは、生体情報を指していてもよい。また、モーダルセットとは、例えばある個体に関する１種類以上のモーダルを含んだデータを指していてもよい。例えば、ある個体に関するモーダルＡ、モーダルＢ、及びモーダルＣの３種類のモーダルが揃ったデータが必要であったとする。この場合、第１実施形態では、モーダルＡ、モーダルＢ、及びモーダルＣの３種類全てが揃ったデータを全モーダルセットと呼ぶ。他方で、モーダルＡ、モーダルＢ、及びモーダルＣの一部が揃ったデータを部分モーダルセットと呼ぶ。部分モーダルセットは、モーダルＡ及びモーダルＢを含むデータ、モーダルＡ及びモーダルＣを含むデータ、モーダルＢ及びモーダルＣを含むデータ、モーダルＡを含むデータ、モーダルＢを含むデータ、モーダルＣを含むデータの何れかであってよい。
　取得部１１は、第１のモーダルセットとしての部分モーダルセットＩＭＳを取得する。部分モーダルセットＩＭＳは、複数種類のモーダルのうちの第１の種類のモーダル１Ｍを少なくとも含む一方で複数種類のモーダルのうちの第２の種類のモーダル２Ｍを含まない。

　モーダル出力部１３は、モーダル生成モデルに、部分モーダルセットＩＭＳを入力することで、少なくとも第２の種類のモーダルを出力させる。
　モーダル生成部１２は、部分モーダルセットＩＭＳとモーダル生成モデルが出力した第２の種類のモーダルとを含む第３のモーダルセットとしての生成全モーダルセットＧＭＳを生成する。生成全モーダルセットＧＭＳは、全ての種類のモーダルが揃った全モーダルセットである。
　モーダル生成モデルは、複数種類のモーダルのうちの少なくとも一つが入力された場合に複数種類のモーダルのうちの少なくとも一つを出力する。また、モーダル生成モデルは、全種類のモーダルが揃った第２のモーダルセットとしての全モダールセットＭＭＳを用いた機械学習によって生成されたモデルである。
　（１－２）情報処理装置１の技術的効果

　第１実施形態における情報処理装置１は、モーダル生成モデルが少なくとも第２の種類のモーダル、すなわち、部分モーダルセットＩＭＳが含まないモーダルを出力する。これにより、モーダル生成部１２は、複数種類のモーダルが揃った全モーダルセットを生成することができる。つまり、比較的収集が容易な、一部の種類のモーダルを含まない部分モーダルセットを活用して、比較的収集が困難な、複数種類のモーダルが揃った全モーダルセットを生成することができる。したがって、第１実施形態における情報処理装置１は、大量の複数種類のモーダルが揃った全モーダルセットを比較的容易に取得することができる。その大量の複数種類のモーダルが揃った全モーダルセットは、高精度の推定を実現するモデルの機械学習に活用されることができるので、高精度なモーダルの推定の実現に寄与することができる。
　（２）第２実施形態

　続いて、情報処理装置、情報処理方法、及び記録媒体の第２実施形態について説明する。以下では、情報処理装置、情報処理方法、及び記録媒体の第２実施形態が適用された情報処理装置２を用いて、情報処理装置、情報処理方法、及び記録媒体の第２実施形態について説明する。
　（２－１）情報処理装置２の構成

　初めに、図２を参照しながら、第２実施形態における情報処理装置２の構成について説明する。図２は、第２実施形態における情報処理装置２の構成を示すブロック図である。尚、以下の説明では、既に説明済みの構成要素については、同一の参照符号を付することで、その詳細な説明を省略する。

　図２に示すように、情報処理装置２は、演算装置２１と、記憶装置２２とを備えている。更に、情報処理装置２は、通信装置２３と、入力装置２４と、出力装置２５とを備えていてもよい。但し、情報処理装置２は、通信装置２３、入力装置２４及び出力装置２５のうちの少なくとも一つを備えていなくてもよい。演算装置２１と、記憶装置２２と、通信装置２３と、入力装置２４と、出力装置２５とは、データバス２６を介して接続されていてもよい。

　演算装置２１は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｅｃｓｓｉｎｇ　Ｕｎｉｔ）及びＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）のうちの少なくとも一つを含む。演算装置２１は、コンピュータプログラムを読み込む。例えば、演算装置２１は、記憶装置２２が記憶しているコンピュータプログラムを読み込んでもよい。例えば、演算装置２１は、コンピュータで読み取り可能であって且つ一時的でない記録媒体が記憶しているコンピュータプログラムを、情報処理装置２が備える図示しない記録媒体読み取り装置（例えば、後述する入力装置２４）を用いて読み込んでもよい。演算装置２１は、通信装置２３（或いは、その他の通信装置）を介して、情報処理装置２の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい（つまり、ダウンロードしてもよい又は読み込んでもよい）。演算装置２１は、読み込んだコンピュータプログラムを実行する。その結果、演算装置２１内には、情報処理装置２が行うべき動作を実行するための論理的な機能ブロックが実現される。つまり、演算装置２１は、情報処理装置２が行うべき動作（言い換えれば、処理）を実行するための論理的な機能ブロックを実現するためのコントローラとして機能可能である。

　図２には、モーダル生成動作を実行するために演算装置２１内に実現される論理的な機能ブロックの一例が示されている。図２に示すように、演算装置２１内には、「取得手段」の一具体例である取得部２１１と、「モーダル生成手段」の一具体例であるモーダル生成部２１２と、「出力手段」の一具体例であるモーダル出力部２１３と、「第１モデル生成手段」の一具体例である第１モデル生成部２１４とが実現される。第１モデル生成部２１４は、第２のモーダルセットとしての全モーダルセットＭＭＳを用いた機械学習を行うことでモーダル生成モデルＧＭを生成する。

　尚、取得部２１１、モーダル生成部２１２、モーダル出力部２１３、及び第１モデル生成部２１４の夫々の動作の詳細については、図４を参照しながら後に詳述する。但し、演算装置２１は、第１モデル生成部２１４を備えていなくてもよい。

　記憶装置２２は、所望のデータを記憶可能である。例えば、記憶装置２２は、演算装置２１が実行するコンピュータプログラムを一時的に記憶していてもよい。記憶装置２２は、演算装置２１がコンピュータプログラムを実行している場合に演算装置２１が一時的に使用するデータを一時的に記憶してもよい。記憶装置２２は、情報処理装置２が長期的に保存するデータを記憶してもよい。尚、記憶装置２２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ハードディスク装置、光磁気ディスク装置、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。つまり、記憶装置２２は、一時的でない記録媒体を含んでいてもよい。

　記憶装置２２は、全モーダルセットＭＭＳ、部分モーダルセットＩＭＳ、生成全モーダルセットＧＭＳ、及びモーダル生成モデルＧＭを記憶していてもよい。尚、全モーダルセットＭＭＳ及び部分モーダルセットＩＭＳの詳細については、図３を参照しながら後に詳述する。但し、記憶装置２２が、全モーダルセットＭＭＳ、部分モーダルセットＩＭＳ、生成全モーダルセットＧＭＳ、及びモーダル生成モデルＧＭを記憶していなくてもよい。ここで、全モーダルセットＭＭＳとは、全種類のモーダルが揃ったモーダルセットである。

　通信装置２３は、不図示の通信ネットワークを介して、情報処理装置２の外部の装置と通信可能である。

　入力装置２４は、情報処理装置２の外部からの情報処理装置２に対する情報の入力を受け付ける装置である。例えば、入力装置２４は、情報処理装置２のオペレータが操作可能な操作装置（例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つ）を含んでいてもよい。例えば、入力装置２４は情報処理装置２に対して外付け可能な記録媒体にデータとして記録されている情報を読み取り可能な読取装置を含んでいてもよい。

　出力装置２５は、情報処理装置２の外部に対して情報を出力する装置である。例えば、出力装置２５は、情報を画像として出力してもよい。つまり、出力装置２５は、出力したい情報を示す画像を表示可能な表示装置（いわゆる、ディスプレイ）を含んでいてもよい。例えば、出力装置２５は、情報を音声として出力してもよい。つまり、出力装置２５は、音声を出力可能な音声装置（いわゆる、スピーカ）を含んでいてもよい。例えば、出力装置２５は、紙面に情報を出力してもよい。つまり、出力装置２５は、紙面に所望の情報を印刷可能な印刷装置（いわゆる、プリンタ）を含んでいてもよい。

　機械学習によって生成されたモデルにより、モーダルを高精度に推定することの需要は大きい。高精度の推定を実現するモデルを機械学習によって生成するには、大量の学習データを含む学習データ群が必要である。学習データとしては、必要とされる複数種類のモーダル（例えば、顔画像、心拍数、酸素飽和度の３種類）が揃った全モーダルセットが用いられることが好ましい。しかしながら、必要とされる複数種類のモーダル（例えば、顔画像、心拍数、酸素飽和度の３種類）が揃った全モーダルセットを大量に含む学習データ群を収集することは一般に困難である。また、推定の対象となるモーダルの種類が増えるにつれ、揃えるモーダルの種類も増えるので、学習データの収集のコストは増大する。一方で、一部の種類のモーダルが欠けた部分モーダルセットの収集は、全ての種類のモーダルを含む全モーダルセットの収集と比較して容易である。尚、例えば、ある個体に関する顔画像、心拍数、酸素飽和度の３種類のモーダルが揃った全モーダルセットを１件のサンプルと数えることができ、大量の全モーダルセットとは、例えば数千件から１万件以上のサンプル数を含む全モーダルセット群を指してもよい。

　第２実施形態において、複数種類のモーダルは、例えば、顔画像、心拍数、及び酸素飽和度を含んでいてもよい。図３の各々は、第２実施形態において用いられるデータ群のデータ構造の例を示す。

　図３（Ａ）は、第１モデル生成部２１４がモーダル生成モデルＧＭの機械学習に用いる学習データ群のデータ構造を示す。学習データ群は、全モーダルセットＭＭＳを例えば２千件含んでいてよい。第２実施形態において、全モーダルセットＭＭＳは、顔画像、心拍数、及び酸素飽和度を含んでいてよい。尚、第２実施形態において、全モーダルセットＭＭＳに含まれる各モーダルは、実測により得られたデータであってよい。

　図３（Ｂ）は、モーダル出力部２１３がモーダル生成モデルＧＭに入力する第１の入力データ群のデータ構造を示す。第１の入力データ群は、第１の部分モーダルセットＩＭＳ＃１を例えば４千件含んでいてよい。部分モーダルセットＩＭＳは、複数種類のモーダルのうちの第１の種類のモーダル１Ｍを少なくとも含む一方で複数種類のモーダルのうちの第２の種類のモーダル２Ｍを含まない。第２実施形態において、第１の部分モーダルセットＩＭＳ＃１における第１の種類のモーダル１Ｍは、顔画像、及び心拍数であってよく、第１の部分モーダルセットＩＭＳ＃１は顔画像、及び心拍数を含んでいてよい。また、第２の種類のモーダル２Ｍは、酸素飽和度であってよい。顔画像、及び心拍数は、同時に取得される場合が多いので、顔画像、及び心拍数の組み合わせの大量の部分モーダルセットを取得することは比較的容易である。

　図３（Ｃ）は、モーダル出力部２１３がモーダル生成モデルＧＭに入力する第２の入力データ群のデータ構造を示す。第２の入力データ群は、第２の部分モーダルセットＩＭＳ＃２を例えば４千件含んでいてよい。第２実施形態において、第２の部分モーダルセットＩＭＳ＃２における第１の種類のモーダル１Ｍは、心拍数、酸素飽和度であってよく、第２の部分モーダルセットＩＭＳ＃２は心拍数、酸素飽和度を含んでいてよい。また、第２の種類のモーダル２Ｍは、顔画像であってよい。顔画像と比較して、心拍数、及び酸素飽和度のデータはデータ容量が小さい。また、顔画像はプライバシーの観点から収集が困難であるのに対し、心拍数、及び酸素飽和度の収集は比較的容易である。したがって、心拍数、及び酸素飽和度の組み合わせの大量の部分モーダルセットを取得することは比較的容易である。
　尚、第２実施形態において、部分モーダルセットＩＭＳに含まれる各モーダルは、実測により得られたデータであってよい。

　モーダル生成部２１２は、第１の入力データ群及び第２の入力データ群をモーダル生成モデルＧＭに入力し、８千件の生成全モーダルセットＧＭＳを含むデータ群を生成することができる。生成全モーダルセットＧＭＳは、部分モーダルセットＩＭＳとモーダル生成モデルＧＭが出力した第２の種類のモーダル２Ｍとを含む、複数種類のモーダルが揃ったモーダルセットである。したがって、生成全モーダルセットＧＭＳのデータ構造は、図３（Ａ）が示すデータ構造と同様である。すなわち、上述の例の場合、２千件の全モーダルセットＭＭＳと、８千件の生成全モーダルセットＧＭＳとを合わせて、１万件の複数種類のモーダルが揃った全モーダルセットを含む学習データ群を収集することができる。
　（２－２）情報処理装置２が行うモーダルセット生成動作

　続いて、図４を参照しながら、第２実施形態における情報処理装置２が行うモーダルセット生成動作について説明する。図４は、第２実施形態における情報処理装置２が行うモーダルセット生成動作の流れを示すフローチャートである。

　図４に示すように、取得部２１１は、全モーダルセットＭＭＳを取得する（ステップＳ２１）。第２実施形態において、全モーダルセットＭＭＳは、顔画像、心拍数、及び酸素飽和度を含んでいてもよく、例えば２千件であってよい。第１モデル生成部２１４は、ステップＳ２１において取得された全モーダルセットＭＭＳを用いて機械学習を行うことでモーダル生成モデルＧＭを生成する（ステップＳ２２）。

　モーダル生成モデルＧＭは、複数種類のモーダルのうちの少なくとも一つが入力された場合に複数種類のモーダルのうちの少なくとも一つを出力することが可能なモデルである。上述したようにモーダル生成モデルＧＭを生成するために用いられる全モーダルセットＭＭＳが顔画像、心拍数、及び酸素飽和度を含んでいる場合には、第１モデル生成部２１４は、機械学習によって、顔画像、心拍数、及び酸素飽和度の少なくとも一つが入力された場合に顔画像、心拍数、及び酸素飽和度のうちの少なくとも一つを出力可能なモーダル生成モデルＧＭを生成してもよい。具体的には、第１モデル生成部２１４は、モーダル生成モデルＧＭが出力する顔画像と全モーダルセットＭＭＳに含まれる顔画像との誤差、モーダル生成モデルＧＭが出力する心拍数と全モーダルセットＭＭＳに含まれる心拍数との誤差、及び、モーダル生成モデルＧＭが出力する酸素飽和度と全モーダルセットＭＭＳに含まれる酸素飽和度との誤差のうちの少なくとも一つに基づいて設定される損失関数が小さくなる（好ましくは、最小になる）ように、モーダル生成モデルＧＭのパラメータを調整することで、モーダル生成モデルＧＭを生成してもよい。

　次に、取得部２１１は、部分モーダルセットＩＭＳを取得する（ステップＳ２３）。第２実施形態において、部分モーダルセットＩＭＳは、顔画像、及び心拍数を含む第１の部分モーダルセットＩＭＳ＃１を例えば４千件と、心拍数、及び酸素飽和度を含む第２の部分モーダルセットＩＭＳ＃２を例えば４千件とを含んでいてもよい。モーダル出力部２１３は、モーダル生成モデルＧＭに、部分モーダルセットＩＭＳを入力する（ステップＳ２４）。モーダル出力部２１３は、モーダル生成モデルＧＭに少なくとも第２の種類のモーダル２Ｍを出力させる（ステップＳ２５）。モーダル生成モデルＧＭは、部分モーダルセットＩＭＳ＃１の入力に対しては、酸素飽和度を出力してよく、部分モーダルセットＩＭＳ＃２の入力に対しては顔画像を示す情報を出力してもよい。モーダル生成部２１２は、部分モーダルセットＩＭＳとモーダル生成モデルＧＭが出力した第２の種類のモーダル２Ｍとを含む生成全モーダルセットＧＭＳを、例えば８千件生成する（ステップＳ２６）。

　なお、モーダル生成モデルＧＭは、部分モーダルセットＩＭＳとして、顔画像と心拍数が入力された場合に、第２の種類のモーダル２Ｍとしての酸素飽和度だけでなく、顔画像、心拍数の少なくとも１つを出力してもよい。この場合、顔画像、心拍数の少なくとも１つは、モーダル生成モデルＧＭに入力されたモーダルとモーダル生成モデルＧＭから出力されたモーダルの２種類が存在する。第２実施形態では、モーダル生成部２１２は、部分モーダルセットＩＭＳと第２の種類のモーダル２Ｍを含む生成全モーダルセットＧＭＳを生成する場合を説明したが、モーダル生成部２１２は、モーダル生成モデルＧＭから出力されたモーダルと、部分モーダルセットＩＭＳに含まれておりモーダル生成モデルＧＭが出力しなかった種類のモーダルとを含む生成全モーダルセットＧＭＳを生成してもよい。例えば、第１の種類のモーダル１Ｍが顔画像及び心拍数であり、第２の種類のモーダル２Ｍが酸素飽和度であり、モーダル生成モデルＧＭが顔画像と酸素飽和度を出力した場合、モーダル生成部２１２は、モーダル生成モデルＧＭが出力した顔画像と酸素飽和度と、部分モーダルセットＩＭＳに含まれていた心拍数（部分モーダルセットＩＭＳに含まれており、モーダル生成モデルＧＭが出力しなかった種類のモーダルである心拍数）とを含む生成全モーダルセットＧＭＳを生成してもよい。また、モーダル生成部２１２は、部分モーダルセットＩＭＳに含まれていた顔画像とモーダル生成モデルＧＭが出力した顔画像を合成した合成顔画像を求め、当該合成顔画像と部分モーダルセットＩＭＳに含まれている心拍数と、モーダル生成モデルＧＭから出力された酸素飽和度とを含む生成全モーダルセットＧＭＳを生成してもよい。その結果、モーダル生成モデルＧＭを用いて生成可能な生成全モーダルセットＧＭＳの数が増加する。

　部分モーダルセットＩＭＳに含まれているモーダルは実測により得られた確かなデータであってもよく、モーダル生成部２１２は、部分モーダルセットＩＭＳに含まれているモーダルを用いて生成全モーダルセットＧＭＳを生成することが好ましいと考えることができる。一方で、モーダル生成モデルＧＭから出力されたモーダルはノイズが除かれている可能性等があり、モーダル生成部２１２は、モーダル生成モデルＧＭから出力された第２の種類のモーダル２Ｍを用いて生成全モーダルセットＧＭＳを生成することが好ましいと考えることができる。

　または、第２実施形態では、大量のモーダルセットを収集することを目的としているので、部分モーダルセットＩＭＳに含まれているモーダルを用いた第１の生成全モーダルセットＧＭＳ、モーダル生成モデルＧＭから出力されたモーダルを用いた第２の生成全モーダルセットＧＭＳ、両者を合成した合成モーダルを用いた第３の生成全モーダルセットＧＭＳの３種類の生成全モーダルセットＧＭＳを生成してもよい。
　具体的に、例えば、部分モーダルセットＩＭＳとして、顔画像ＩＡと心拍数ＩＢが入力された場合に、モーダル生成モデルＧＭが、第２の種類のモーダル２Ｍとしての酸素飽和度ＯＣ、並びに、顔画像ＯＡ、及び心拍数ＯＢを出力した場合を考える。ここで、顔画像ＩＡと顔画像ＯＡを合成したモーダルを顔画像ＣＡ、心拍数ＩＢと心拍数ＯＢを合成したモーダルを心拍数ＣＢと呼ぶ。この場合、モーダル生成部２１２は、顔画像ＩＡ、心拍数ＩＢ、及び酸素飽和度ＯＣとを含む生成全モーダルセットＧＭＳ１、顔画像ＩＡ、心拍数ＯＢ、及び酸素飽和度ＯＣとを含む生成全モーダルセットＧＭＳ２、顔画像ＯＡ、心拍数ＩＢ、及び酸素飽和度ＯＣとを含む生成全モーダルセットＧＭＳ３、顔画像ＯＡ、心拍数ＯＢ、及び酸素飽和度ＯＣとを含む生成全モーダルセットＧＭＳ４、顔画像ＣＡ、心拍数ＣＢ、及び酸素飽和度ＯＣとを含む生成全モーダルセットＧＭＳ５、顔画像ＣＡ、心拍数ＩＢ、及び酸素飽和度ＯＣとを含む生成全モーダルセットＧＭＳ６、顔画像ＣＡ、心拍数ＯＢ、及び酸素飽和度ＯＣとを含む生成全モーダルセットＧＭＳ７、顔画像ＩＡ、心拍数ＣＢ、及び酸素飽和度ＯＣとを含む生成全モーダルセットＧＭＳ８、顔画像ＯＡ、心拍数ＣＢ、及び酸素飽和度ＯＣとを含む生成全モーダルセットＧＭＳ９の９種類の生成全モーダルセットＧＭＳを生成することができる。

　なお、第２実施形態では、モーダル生成モデルＧＭに顔画像、及び心拍数が入力され、少なくとも酸素飽和度が出力される例、並びに、モーダル生成モデルＧＭに心拍数、及び酸素飽和度が入力され、少なくとも顔画像が出力される例を説明したが、モーダル生成モデルＧＭへのモーダルの入出力はこの２種類に限られない。例えば、モーダル生成モデルＧＭに顔画像、及び酸素飽和度が入力され、少なくとも心拍数が出力されてもよいし、モーダル生成モデルＧＭに顔画像が入力され、少なくとも心拍数、及び酸素飽和度が出力されてもよいし、モーダル生成モデルＧＭに心拍数が入力され、少なくとも顔画像、及び酸素飽和度が出力されてもよいし、モーダル生成モデルＧＭに酸素飽和度が入力され、少なくとも顔画像、及び心拍数が出力されてもよい。
　（２－３）情報処理装置２の技術的効果

　第２実施形態における情報処理装置２は、比較的少量の全モーダルセットＭＭＳを用いた機械学習を行うことで、入力されたモーダル以外のモーダルを、ある程度の精度で推定し、出力するモーダル生成モデルを生成することができる。そして、第２実施形態における情報処理装置２は、モーダル生成モデルにより、部分モーダルセットＩＭＳに含まれない種類のモーダルを取得することができる。つまり、大量の全モーダルセットＭＭＳの収集が困難な場合であっても、大量の部分モーダルセットＩＭＳの収集が可能な場合、第２実施形態における情報処理装置２は、この取得したモーダルを用いて、複数種類のモーダルが揃った生成全モーダルセットＧＭＳを大量に生成することができる。
　例えば、顔画像、心拍数、及び酸素飽和度の３種類のモーダルが揃った全モーダルセットが必要であったとする。大量の全モーダルセットの収取が困難な場合であっても、心拍数及び酸素飽和度を含む部分モーダルセット、顔画像及び心拍数を含む部分モーダルセット等、部分モーダルセットを大量に収集することは可能な場合はある。このような場合、第２実施形態における情報処理装置２は、モーダル生成モデルにより、部分モーダルセットに含まれない種類のモーダルを取得し、顔画像、心拍数、及び酸素飽和度の３種類のモーダルが揃った全モーダルセットを大量に生成することができる。
　この大量の複数種類のモーダルが揃った全モーダルセットは、高精度の推定を実現するモデルの機械学習に活用されることができるので、高精度なモーダルの推定の実現に寄与することができる。

　また、推定したいモーダルの種類が増えると、学習データの収集はより困難になる場合が多い。例えば、３種類のモーダル（Ａ，Ｂ，Ｃ）が揃った全モーダルセットの収集より、４種類のモーダル（Ａ，Ｂ，Ｃ，Ｄ）が揃った全モーダルセットの収集の方が困難になる場合が多い。第２実施形態における情報処理装置２は、生成したモーダル生成モデルＧＭを用いることで、増えた種類のモーダルＤを生成し、取得することができるので、４種類のモーダル（Ａ，Ｂ，Ｃ，Ｄ）が揃った全モーダルセットを比較的容易に収集することができる。したがって、第２実施形態における情報処理装置２は、モーダルの種類が増えた場合にも、大量の全モーダルセットを比較的容易に収集することができる。そして、その大量の全モーダルセットは、高精度の推定を実現するモデルの機械学習に活用されることができるので、様々な種類のモーダルの高精度なモーダルの推定の実現に寄与することができる。
　（３）第３実施形態

　続いて、情報処理装置、情報処理方法、及び、記録媒体の第３実施形態について説明する。以下では、情報処理装置、情報処理方法、及び、記録媒体の第３実施形態が適用された情報処理装置を用いて、情報処理装置、情報処理方法、及び、記録媒体の第３実施形態について説明する。

　第３実施形態における情報処理装置は、上述した第２実施形態の情報処理装置２と同一の構成を有していてもよい。第３実施形態における情報処理装置は、第２実施形態における情報処理装置２と比較して、モーダル出力部２１３が、モーダル生成モデルＧＭに入力する情報が異なる。情報処理装置のその他の特徴は、情報処理装置２のその他の特徴と同一であってもよい。
　（３－１）モーダル生成部２１２の構成

　図５（Ａ）は、モーダル生成部２１２の構成を示すブロック図である。モーダル生成部２１２は、入力値生成部３１２と、モーダル生成モデルＧＭとを少なくとも含んでいてもよい。入力値生成部３１２は、複数種類のモーダルのうちの少なくとも一つが入力された場合に、複数種類のモーダルのうちの少なくとも一つの入力値を生成してよい。モーダル生成モデルＧＭへの複数種類のモーダルのうちの少なくとも一つの入力とは、複数種類のモーダルのうちの少なくとも一つの入力値の入力であってよい。入力値は、例えば、モーダルの特徴量であってよい。この場合、入力値生成部３１２は、ニューラルネットワークを活用した機構等、モーダルの特徴量を抽出できる任意の機構であってよい。

　モーダル生成モデルＧＭは、エンコーダ部ＧＭＥとデコーダ部ＧＭＤとを少なくとも含んでいてよい。エンコーダ部ＧＭＥは、複数種類のモーダルのうちの少なくとも一つが入力された場合に、複数種類のモーダルのうちの少なくとも一つの入力値を圧縮してもよい。デコーダ部ＧＭＤは、圧縮された入力値を展開して複数種類のモーダルのうちの少なくとも一つを生成してもよい。

　第３実施形態におけるモーダル出力部２１３は、モーダル生成モデルＧＭに、部分モーダルセットＩＭＳとともに、部分モーダルセットＩＭＳに含まれる第１の種類のモーダル１Ｍが取得された場合の取得環境を示す環境ラベルＥＬを入力することで、モーダル生成モデルＧＭに第２の種類のモーダル２Ｍを出力させてもよい。モーダル出力部２１３が環境ラベルＥＬを入力することで、第１の種類のモーダル１Ｍの取得環境が、モーダル生成モデルＧＭによる第２の種類のモーダル２Ｍの推定に及ぼす悪影響を防ぐことができる。モーダル生成部２１２は、部分モーダルセットＩＭＳとモーダル生成モデルＧＭが出力した第２の種類のモーダル２Ｍとを含む生成全モーダルセットＧＭＳを生成する。
　モーダル出力部２１３は、エンコーダ部ＧＭＥ及びデコーダ部ＧＭＤの少なくとも一方に、環境ラベルＥＬを入力してもよい。すなわち、図５（Ｂ）に示すように、モーダル出力部２１３は、デコーダ部ＧＭＤに、環境ラベルＥＬを入力してもよい。また、図５（Ｃ）に示すように、モーダル出力部２１３は、エンコーダ部ＧＭＥ及びデコーダ部ＧＭＤの両方に、環境ラベルＥＬを入力してもよい。また、図５（Ｄ）に示すように、モーダル出力部２１３は、エンコーダ部ＧＭＥに、環境ラベルＥＬを入力してもよい。

　環境ラベルＥＬは、推定精度に寄与する情報を与える情報であることが好ましい。環境ラベルＥＬとしては、モーダルを取得する機器に固定的な情報、対象者の情報等、モーダル取得時にわかっている情報をあげることができる。例えば、顔画像を撮像したカメラの特性、照明条件、対象者の性別、年齢、肌の色、モーダル取得時の動作（顔の向き等）の種類等の情報をあげることができる。
　（３－２）情報処理装置３の技術的効果

　第３実施形態における情報処理装置３は、部分モーダルセットＩＭＳとともに、明示的に、入力されたモーダルが取得された場合の取得環境を示す環境情報を入力するので、モーダル生成モデルＧＭは、環境情報が入力されなかった場合と比較して、精度よく第２の種類のモーダル２Ｍを推定することができる。したがって、第３実施形態における情報処理装置３は、精度よく推定された第２の種類のモーダル２Ｍを含む、より本物らしい生成全モーダルセットＧＭＳを生成することができる。また、モーダル出力部２１３は、エンコーダ部ＧＭＥ及びデコーダ部ＧＭＤの少なくとも一方に、環境情報を入力するので、出力される第２の種類のモーダル２Ｍの推定精度を制御することができる。そして、第３実施形態における情報処理装置３は、生成される生成全モーダルセットＧＭＳの本物らしさを制御することができる。モーダル出力部２１３がエンコーダ部に環境情報を入力すると、エンコーダ部による圧縮処理のために、推定精度に寄与する環境情報の影響が小さくなる可能性がある。そこで、モーダル出力部２１３がデコーダ部に環境情報を入力することで、推定精度に寄与する環境情報の影響が小さくなることを避けることができることが期待できる。より本物らしい生成全モーダルセットＧＭＳは、高精度の推定を実現するモデルの機械学習に活用されることができ、高精度なモーダルの推定の実現に寄与することができる。
　（４）第４実施形態

　続いて、情報処理装置、情報処理方法、及び、記録媒体の第４実施形態について説明する。以下では、情報処理装置、情報処理方法、及び、記録媒体の第４実施形態が適用された情報処理装置４を用いて、情報処理装置、情報処理方法、及び、記録媒体の第４実施形態について説明する。
　（４－１）情報処理装置４の構成

　以下、図６を参照しながら、第４実施形態における情報処理装置４の構成について説明する。図６は、第４実施形態における情報処理装置４の構成を示すブロック図である。尚、以下の説明では、既に説明済みの構成要素については、同一の参照符号を付することで、その詳細な説明を省略する。

　図６に示すように、第４実施形態における情報処理装置４は、第２実施形態における情報処理装置２と比較して（或いは、第３実施形態における情報処理装置と比較して）、演算装置２１が第２モデル生成部４１４を備える点で異なる。情報処理装置４のその他の特徴は、情報処理装置２（或いは、第３実施形態における情報処理装置）のその他の特徴と同一であってもよい。

　第２モデル生成部４１４は、生成全モーダルセットＧＭＳを用いた機械学習を行うことで、複数種類のモーダルのうちの一の種類の第３の種類のモーダル３Ｍが入力モーダルとして入力された場合に複数種類のモーダルのうちの一の種類とは異なる第４の種類のモーダル４Ｍを出力モーダルとして出力するモーダル推定モデルＥＭを生成することができる。記憶装置２２は、生成されたモーダル推定モデルＥＭを記憶してもよい。第４実施形態において生成されたモーダル推定モデルＥＭは、例えば、顔画像が入力された場合に心拍・酸素飽和度を出力する学習モデルであってよい。
　（４－２）情報処理装置４が行うモーダル推定モデルＥＭ生成動作

　続いて、図７を参照しながら、第４実施形態における情報処理装置４が行うモーダル推定モデルＥＭ生成動作について説明する。図７は、第４実施形態における情報処理装置４が行うモーダル推定モデルＥＭ生成動作の流れを示すフローチャートである。

　図７に示すように、取得部２１１は、学習データ群を取得する（ステップＳ４１）。学習データ群は、複数種類のモーダルが揃った全モーダルセットであり、全モーダルセットＭＭＳ及び生成全モーダルセットＧＭＳを含んでいてよい。第２モデル生成部４１４は、ステップＳ４１において取得された学習データ群を用いた機械学習を行うことでモーダル推定モデルＥＭを生成する（ステップＳ４２）。

　尚、第４実施形態では、第１モデル生成部２１４と第２モデル生成部４１４とを別々の構成として説明し、モーダル生成モデルＧＭとモーダル推定モデルＥＭとを別々のモデルとして説明したが、第１モデル生成部２１４と第２モデル生成部４１４とは同一の構成であってよく、モーダル生成モデルＧＭとモーダル推定モデルＥＭとは同一のモデルであってもよい。すなわち、制御機構（第１モデル生成部２１４、第２モデル生成部４１４である）が、全モーダルセットＭＭＳを用いた機械学習を行うことで学習モデル（モーダル生成モデルＧＭ、モーダル推定モデルＥＭである）を生成し、生成全モーダルセットＧＭＳを用いた機械学習を行うことで学習モデルを再学習させ、高精度の推定ができる学習モデルを完成してもよい。

　また、推定できるモーダルは、心拍数、酸素飽和度に加えて、例えば、呼吸数、ストレスレベル、血圧値、心拍出量、全抹消抵抗、脈拍、心電図、体温、身体の水分状態、アルコール濃度、乳酸値、血糖値、筋肉の活動量、視線の動き、脳の活動、及び意識レベル等を含んでいてもよい。さらに、推定できるモーダルは、心拍数、酸素飽和度以外の例えば、呼吸数、ストレスレベル、血圧値、心拍出量、全抹消抵抗、脈拍、心電図、体温、身体の水分状態、アルコール濃度、乳酸値、血糖値、筋肉の活動量、視線の動き、脳の活動、及び意識レベル等であってもよい。

　また、機械学習に用いたモーダルセットが収集された対象者の方が、機械学習に用いたモーダルセットが収集されていない対象者（以下「新規対象者」とよぶ）よりも、モーダルの推定精度が高くなることが期待できる。そこで、新規対象者のモーダルを推定する場合は、事前に該当新規対象者のモーダルセットを収集し、モーダル推定モデルＥＭを再学習してもよい。さらに、該当新規対象者の、一部の種類のモーダルが欠けたモーダルセットを用いて、モーダルが揃ったモーダルセットを生成した後に、モーダル推定モデルＥＭを再学習してもよい。これにより、より高精度に新規対象者のモーダルを推定することができるモデルを得ることができる。
　（４－３）情報処理装置４の技術的効果

　機械学習を行うことで生成されたモデルは、対象者の動きや撮影環境の変化等、特に環境の変化があった場合にも、精度よくモーダルを推定できることが期待できる。また、大量の学習データを用いた機械学習の方が、少量の学習データを用いた機械学習よりも、より高精度の推定が実現可能なモデルを生成できることが期待できる。

　第４実施形態における情報処理装置４は、大量の学習データを用いてモーダル生成モデルを生成するので、より高精度な推定ができるなモーダル推定モデルＥＭを得ることができ、高精度なモーダルの推定を実現できる。
　（５）第５実施形態

　続いて、生体情報推定装置の第５実施形態について説明する。以下では、生体情報推定装置の第５実施形態が適用された診断支援装置５０を含むオンライン診断支援システム５００を用いて、生体情報推定装置の第５実施形態について説明する。
　（５―１）オンライン診断支援システム５００の構成

　初めに、図８を参照しながら、第５実施形態におけるオンライン診断支援システム５００の構成について説明する。図８は、第５実施形態におけるオンライン診断支援システム５００の構成を示すブロック図である。図８に示すように、オンライン診断支援システム５００は、診断支援装置５０と、複数の端末装置６０＃１，６０＃２，・・・，６０＃Ｎ（各々を区別しない場合は、単に「６０」と呼ぶ）とを含んでいる。

　診断支援装置５０は、例えば、医師が診断に際し用いる装置であってよい。また、端末装置６０は、例えば、遠隔地に居る患者が用いる装置であってよい。端末装置６０は、対象者を撮像することで顔画像を生成する画像生成装置６１を搭載していてもよい。
　（５－２）診断支援装置５０の構成

　図８に示すように、診断支援装置５０は、演算装置５１と、記憶装置５２とを備えている。更に、診断支援装置５０は、通信装置５３と、入力装置５４と、出力装置５５とを備えていてもよい。但し、診断支援装置５０は、通信装置５３、入力装置５４及び出力装置５５のうちの少なくとも一つを備えていなくてもよい。演算装置５１と、記憶装置５２と、通信装置５３と、入力装置５４と、出力装置５５とは、データバス５６を介して接続されていてもよい。

　演算装置５１は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｅｃｓｓｉｎｇ　Ｕｎｉｔ）及びＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）のうちの少なくとも一つを含む。演算装置５１は、コンピュータプログラムを読み込む。例えば、演算装置５１は、記憶装置５２が記憶しているコンピュータプログラムを読み込んでもよい。例えば、演算装置５１は、コンピュータで読み取り可能であって且つ一時的でない記録媒体が記憶しているコンピュータプログラムを、診断支援装置５０が備える図示しない記録媒体読み取り装置（例えば、後述する入力装置５４）を用いて読み込んでもよい。演算装置５１は、通信装置５３（或いは、その他の通信装置）を介して、診断支援装置５０の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい（つまり、ダウンロードしてもよい又は読み込んでもよい）。演算装置５１は、読み込んだコンピュータプログラムを実行する。その結果、演算装置５１内には、診断支援装置５０が行うべき動作を実行するための論理的な機能ブロックが実現される。つまり、演算装置５１は、診断支援装置５０が行うべき動作（言い換えれば、処理）を実行するための論理的な機能ブロックを実現するためのコントローラとして機能可能である。

　図８には、生体情報推定動作を実行するために演算装置５１内に実現される論理的な機能ブロックの一例が示されている。図８に示すように、演算装置５１内には、「画像取得手段」の一具体例である画像取得部５１５と、「生体情報推定手段」の一具体例である生体情報推定部５１６とが実現される。
　（５－３）モーダル推定モデルＥＭを用いた推定動作

　図９に示すように、生体情報推定部５１６は、入力値生成部３１２とモーダル推定モデルＥＭとを少なくとも含んでいてもよい。入力値生成部３１２は、入力モーダルとして顔画像が入力された場合に、顔画像の入力値を生成してよい。入力値生成部３１２は、モーダル推定モデルＥＭに顔画像の入力値を入力し、生体情報推定部５１６は、モーダル推定モデルＥＭに対象者の生体情報を出力モーダルとして出力させることができる。

　尚、画像取得部５１５、及び生体情報推定部５１６の夫々の動作の詳細については、図１０を参照しながら後に詳述する。

　記憶装置５２は、所望のデータを記憶可能である。例えば、記憶装置５２は、演算装置５１が実行するコンピュータプログラムを一時的に記憶していてもよい。記憶装置５２は、演算装置５１がコンピュータプログラムを実行している場合に演算装置５１が一時的に使用するデータを一時的に記憶してもよい。記憶装置５２は、診断支援装置５０が長期的に保存するデータを記憶してもよい。尚、記憶装置５２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ハードディスク装置、光磁気ディスク装置、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。つまり、記憶装置５２は、一時的でない記録媒体を含んでいてもよい。

　記憶装置５２は、モーダル推定モデルＥＭを記憶していてもよい。但し、記憶装置５２が、モーダル推定モデルＥＭを記憶していなくてもよい。

　通信装置５３は、不図示の通信ネットワークを介して、診断支援装置５０の外部の装置と通信可能である。診断支援装置５０は、端末装置６０と、通信装置５３を介して接続していてもよい。

　入力装置５４は、診断支援装置５０の外部からの診断支援装置５０に対する情報の入力を受け付ける装置である。例えば、入力装置５４は、診断支援装置５０のオペレータが操作可能な操作装置（例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つ）を含んでいてもよい。例えば、入力装置５４は診断支援装置５０に対して外付け可能な記録媒体にデータとして記録されている情報を読み取り可能な読取装置を含んでいてもよい。

　出力装置５５は、診断支援装置５０の外部に対して情報を出力する装置である。例えば、出力装置５５は、情報を画像として出力してもよい。つまり、出力装置５５は、出力したい情報を示す画像を表示可能な表示装置（いわゆる、ディスプレイ）を含んでいてもよい。例えば、出力装置５５は、情報を音声として出力してもよい。つまり、出力装置５５は、音声を出力可能な音声装置（いわゆる、スピーカ）を含んでいてもよい。例えば、出力装置５５は、紙面に情報を出力してもよい。つまり、出力装置５５は、紙面に所望の情報を印刷可能な印刷装置（いわゆる、プリンタ）を含んでいてもよい。
　（５－２）オンライン診断支援システム５００が行うオンライン診断支援動作

　続いて、図１０を参照しながら、第５実施形態におけるオンライン診断支援システム５００が行うオンライン診断支援動作について説明する。図１０は、第５実施形態におけるオンライン診断支援システム５００が行うオンライン診断支援動作の流れを示すフローチャートである。

　図１０に示すように、画像生成装置６１は、対象者としての患者の顔画像を取得し（ステップＳ５１）、端末装置６０は、診断支援装置５０に顔画像を送信する。

　続いて、画像取得部５１５は、通信回線を介して、端末装置６０から、対象者の顔画像を取得する（ステップＳ５３）。生体情報推定部５１６は、モーダル推定モデルＥＭに顔画像を第３の種類のモーダル３Ｍとして入力することで、モーダル推定モデルＥＭに対象者の生体情報を第３の種類のモーダル４Ｍとして推定させる（ステップＳ５４）。モーダル推定モデルＥＭとして、例えば第４実施形態における情報処理装置４が生成したモデルを用いてもよい。また、生体情報は、心拍数及び酸素飽和度のうちの少なくとも一つに関する情報を含んでいてよい。

　続いて、例えば出力装置５５は、診断支援装置５０のユーザに、推定された生体情報を通知する（ステップＳ５５）。
　（５－４）診断支援装置５０の技術的効果

　例えば、感染症に罹患した患者は、医師からの適切な診断を受けるべきであるのに対し、患者が、医療施設に居る患者、医療従事者等と接触することは好ましくない、という事情がある。この事情から、医師からの適切な診断を受けるべき患者が医師を含む医療施設に居る者と直接会うことなく、自宅で診断を受けることができるオンライン診断の需要は高い。

　第５実施形態における診断支援装置５０は、顔画像から生体情報を推定することができるので、例えば患者が送信した顔画像を取得するだけで、例えば医師は心拍数、酸素飽和度等の複数の生体情報の提供を受けることができる。したがって、第５実施形態における診断支援装置５０は、患者が遠隔地に居る場合においても、医師が適切な診断ができように支援することができる。また、第５実施形態が適用された診断支援装置５０を含むオンライン診断システム５００によれば、患者が遠隔地に居る場合においても、医師が適切な診断ができように支援することができるので、オンライン診断の需要に応えることができる。

　なお、上記では、オンライン診断システムに、生体情報推定装置の第５実施形態を適用する例を説明したが、生体情報推定装置は、オンライン診断システム等の医療目的の機構以外にも適用することができる。例えば、病気に罹患しているか否かに関わらず、対象者が自身の身体状態を知りたいという要望がある。このような要望に応えるべく、例えば、対象者が携帯するスマートフォン等の端末装置に、生体情報を推定するための専用のアプリをインストールしてもよい。この専用のアプリは、顔画像の撮像、生体情報推定装置としてのクラウドへの顔画像の送信、クラウドから心拍数、酸素飽和度等の生体情報の受信、生体情報の提示の一連の動作をサポートすることができてよい。この専用のアプリは、インターネットを通じて取得できるようにしてもよい。また、例えば、生体情報推定装置は、対象者が携帯するスマートフォン等の携帯端末に搭載されていてもよい。この場合、携帯端末は、少なくとも、カメラ、生体情報推定装置、ディスプレイを備えていてよい。例えば、まず対象者は、カメラで自身の顔画像を撮像し、続いて生体情報推定装置は、顔画像を取得して、対象者の心拍数、酸素飽和度の少なくとも一方を推定し、ディスプレイを介して対象者に自身の心拍数、酸素飽和度の少なくとも一方を提示してもよい。
　また、第５実施形態では、生体情報推定装置が顔画像を取得する例を説明したが、取得する画像は、顔画像以外の身体の任意の箇所の皮膚画像であってよく、例えば指紋画像であってもよい。さらに生体情報推定装置は、皮膚画像以外の、対象者の音声データ、心拍数、血圧値、心拍出量、全抹消抵抗、脈拍、酸素飽和度、呼吸数、心電図、体温、身体の水分状態、アルコール濃度、乳酸値、血糖値、筋肉の活動量、視線の動き、脳の活動、意識レベル、及びストレスレベル等の生体情報を取得してもよい。この場合、端末装置は、取得する生体情報に応じた光学センサ、生体電位センサ等の検出装置を搭載することができる。また生体情報推定装置は、心拍数、血圧値、心拍出量、全抹消抵抗、脈拍、酸素飽和度、呼吸数、心電図、体温、身体の水分状態、アルコール濃度、乳酸値、血糖値、筋肉の活動量、視線の動き、脳の活動、意識レベル、及びストレスレベル等の生体情報を推定できるように構成されていてもよい。
　（６）付記

　以上説明した実施形態に関して、更に以下の付記を開示する。
　［付記１］
　複数種類のモーダルのうちの第１の種類のモーダルを少なくとも含み、前記複数種類のモーダルのうちの第２の種類のモーダルを含まない第１のモーダルセットを取得する取得手段と、
　前記複数種類のモーダルのうちの少なくとも一つが入力された場合に前記複数種類のモーダルのうちの少なくとも一つを出力するモーダル生成モデルであって且つ前記複数種類のモーダルを含む第２のモーダルセットを用いた機械学習によって生成されたモーダル生成モデルに、前記第１のモーダルセットを入力することで、少なくとも前記第２の種類のモーダルを出力させる出力手段と、
　前記第１のモーダルセットと前記モーダル生成モデルが出力した前記第２の種類のモーダルとを含む第３のモーダルセットを生成するモーダル生成手段と
　を備える情報処理装置。
　［付記２］
　前記第２のモーダルセットを用いた機械学習を行うことで前記モーダル生成モデルを生成する第１モデル生成手段を更に備える
　付記１に記載の情報処理装置。
　［付記３］
　前記出力手段は、前記モーダル生成モデルに、前記第１の種類のモーダルが取得された場合の取得環境を示す環境情報を入力することで、前記モーダル生成モデルに前記第２の種類のモーダルを出力させる
　付記１または２に記載の情報処理装置。
　［付記４］
　前記モーダル生成モデルは、前記複数種類のモーダルのうちの少なくとも一つが入力された場合に、前記複数種類のモーダルのうちの少なくとも一つの特徴量を圧縮するエンコーダ部と、圧縮された前記特徴量を展開して前記複数種類のモーダルのうちの少なくとも一つを生成するデコーダ部とを含み、
　前記出力手段は、前記エンコーダ部及び前記デコーダ部の少なくとも一方に、前記環境情報を入力する
　付記３に記載の情報処理装置。
　［付記５］
　前記第３のモーダルセットを用いた機械学習を行うことで、前記複数種類のモーダルのうちの第３の種類のモーダルが入力モーダルとして入力された場合に前記複数種類のモーダルのうちの前記第３の種類とは異なる第４の種類のモーダルを出力モーダルとして出力するモーダル推定モデルを生成する第２モデル生成手段を更に備える
　付記１から４のいずれか一項に記載の情報処理装置。
　［付記６］
　前記複数種類のモーダルは、顔画像、心拍数及び酸素飽和度のうちの少なくとも一つに関する情報を含む複数種類の生体情報である
　付記１から５のいずれか一項に記載の情報処理装置。
　［付記７］
　対象者の顔画像を取得する画像取得手段と、
　複数種類のモーダルのうちの第１の種類のモーダルを少なくとも含み、前記複数種類のモーダルのうちの第２の種類のモーダルを含まない第１のモーダルセットとモーダル生成モデルが出力した前記第２の種類のモーダルとを含む第３のモーダルセットを用いた機械学習を行うことで、前記複数種類のモーダルのうちの第３の種類のモーダルが入力モーダルとして入力された場合に前記複数種類のモーダルのうちの前記第３の種類とは異なる第４の種類のモーダルを出力モーダルとして出力するモーダル推定モデルに前記対象者の生体情報を前記出力モーダルとして出力させる生体情報推定手段と
　を備え、
　前記モーダル生成モデルは、前記複数種類のモーダルのうちの少なくとも一つが入力された場合に前記複数種類のモーダルのうちの少なくとも一つを出力し、且つ前記複数種類のモーダルを含む第２のモーダルセットを用いた機械学習によって生成された
　生体情報推定装置。
　［付記８］
　前記画像取得手段は、通信回線を介して、前記顔画像を生成する前記対象者を撮像することで前記顔画像を生成する画像生成装置から、前記顔画像を取得する
　付記７に記載の生体情報推定装置。
　［付記９］
　前記生体情報は、心拍数及び酸素飽和度のうちの少なくとも一つに関する情報を含む
　付記７又は８に記載の生体情報推定装置。
　［付記１０］
　複数種類のモーダルのうちの第１の種類のモーダルを少なくとも含み、前記複数種類のモーダルのうちの第２の種類のモーダルを含まない第１のモーダルセットを取得し、
　前記複数種類のモーダルのうちの少なくとも一つが入力された場合に前記複数種類のモーダルのうちの少なくとも一つを出力するモーダル生成モデルであって且つ前記複数種類のモーダルを含む第２のモーダルセットを用いた機械学習によって生成されたモーダル生成モデルに、前記第１のモーダルセットを入力することで、少なくとも前記第２の種類のモーダルを出力させ、
　前記第１のモーダルセットと前記モーダル生成モデルが出力した前記第２の種類のモーダルとを含む第３のモーダルセットを生成する
　情報処理方法。
　［付記１１］
　コンピュータに、
　複数種類のモーダルのうちの第１の種類のモーダルを少なくとも含み、前記複数種類のモーダルのうちの第２の種類のモーダルを含まない第１のモーダルセットを取得し、
　前記複数種類のモーダルのうちの少なくとも一つが入力された場合に前記複数種類のモーダルのうちの少なくとも一つを出力するモーダル生成モデルであって且つ前記複数種類のモーダルを含む第２のモーダルセットを用いた機械学習によって生成されたモーダル生成モデルに、前記第１のモーダルセットを入力することで、少なくとも前記第２の種類のモーダルを出力させ、
　前記第１のモーダルセットと前記モーダル生成モデルが出力した前記第２の種類のモーダルとを含む第３のモーダルセットを生成する
　情報処理方法を実行させるためのコンピュータプログラムが記録された記録媒体。

　上述の各実施形態の構成要件の少なくとも一部は、上述の各実施形態の構成要件の少なくとも他の一部と適宜組み合わせることができる。上述の各実施形態の構成要件のうちの一部が用いられなくてもよい。また、法令で許容される限りにおいて、上述のこの開示で引用した全ての文献（例えば、公開公報）の開示を援用してこの開示の記載の一部とする。

　この開示は、請求の範囲及び明細書全体から読み取るこのできる技術的思想に反しない範囲で適宜変更可能である。そのような変更を伴う情報処理装置、生体情報推定装置、情報処理方法、及び、記録媒体もまた、この開示の技術的思想に含まれる。

１、２、４　情報処理装置
１１、２１１　取得部
１２、２１２　モーダル生成部
１３、２１３　モーダル出力部
ＩＭＳ　部分モーダルセット
ＧＭＳ　生成全モーダルセット
１Ｍ　第１の種類のモーダル
２Ｍ　第２の種類のモーダル
２１、５１　演算装置
２１４　第１モデル生成部
２２、５２　記憶装置
ＭＭＳ　全モーダルセット
ＧＭ　モーダル生成モデル
ＧＭＥ　エンコーダ部
ＧＭＤ　デコーダ部
ＥＬ　環境ラベル
３１２　入力値生成部
４１４　第２モデル生成部
ＥＭ　モーダル推定モデル
３Ｍ　第３の種類のモーダル
４Ｍ　第４の種類のモーダル
５００　オンライン診断システム
５０　診断支援装置
５１５　画像取得部
５１６　生体情報推定部
５３　通信装置
６１　画像生成装置

Claims

　複数種類のモーダルのうちの第１の種類のモーダルを少なくとも含み、前記複数種類のモーダルのうちの第２の種類のモーダルを含まない第１のモーダルセットを取得する取得手段と、
　前記複数種類のモーダルのうちの少なくとも一つが入力された場合に前記複数種類のモーダルのうちの少なくとも一つを出力するモーダル生成モデルであって且つ前記複数種類のモーダルを含む第２のモーダルセットを用いた機械学習によって生成されたモーダル生成モデルに、前記第１のモーダルセットを入力することで、少なくとも前記第２の種類のモーダルを出力させる出力手段と、
　前記第１のモーダルセットと前記モーダル生成モデルが出力した前記第２の種類のモーダルとを含む第３のモーダルセットを生成するモーダル生成手段と
　を備える情報処理装置。
　前記第２のモーダルセットを用いた機械学習を行うことで前記モーダル生成モデルを生成する第１モデル生成手段を更に備える
　請求項１に記載の情報処理装置。
　前記出力手段は、前記モーダル生成モデルに、前記第１の種類のモーダルが取得された場合の取得環境を示す環境情報を入力することで、前記モーダル生成モデルに前記第２の種類のモーダルを出力させる
　請求項１または２に記載の情報処理装置。
　前記モーダル生成モデルは、前記複数種類のモーダルのうちの少なくとも一つが入力された場合に、前記複数種類のモーダルのうちの少なくとも一つの特徴量を圧縮するエンコーダ部と、圧縮された前記特徴量を展開して前記複数種類のモーダルのうちの少なくとも一つを生成するデコーダ部とを含み、
　前記出力手段は、前記エンコーダ部及び前記デコーダ部の少なくとも一方に、前記環境情報を入力する
　請求項３に記載の情報処理装置。
　前記第３のモーダルセットを用いた機械学習を行うことで、前記複数種類のモーダルのうちの第３の種類のモーダルが入力モーダルとして入力された場合に前記複数種類のモーダルのうちの前記第３の種類とは異なる第４の種類のモーダルを出力モーダルとして出力するモーダル推定モデルを生成する第２モデル生成手段を更に備える
　請求項１から４のいずれか一項に記載の情報処理装置。
　前記複数種類のモーダルは、顔画像、心拍数及び酸素飽和度のうちの少なくとも一つに関する情報を含む複数種類の生体情報である
　請求項１から５のいずれか一項に記載の情報処理装置。
　対象者の顔画像を取得する画像取得手段と、
　複数種類のモーダルのうちの第１の種類のモーダルを少なくとも含み、前記複数種類のモーダルのうちの第２の種類のモーダルを含まない第１のモーダルセットとモーダル生成モデルが出力した前記第２の種類のモーダルとを含む第３のモーダルセットを用いた機械学習を行うことで、前記複数種類のモーダルのうちの第３の種類のモーダルが入力モーダルとして入力された場合に前記複数種類のモーダルのうちの前記第３の種類とは異なる第４の種類のモーダルを出力モーダルとして出力するモーダル推定モデルに前記対象者の生体情報を前記出力モーダルとして出力させる生体情報推定手段と
　を備え、
　前記モーダル生成モデルは、前記複数種類のモーダルのうちの少なくとも一つが入力された場合に前記複数種類のモーダルのうちの少なくとも一つを出力し、且つ前記複数種類のモーダルを含む第２のモーダルセットを用いた機械学習によって生成された
　生体情報推定装置。
　前記画像取得手段は、通信回線を介して、前記顔画像を生成する前記対象者を撮像することで前記顔画像を生成する画像生成装置から、前記顔画像を取得する
　請求項７に記載の生体情報推定装置。
　前記生体情報は、心拍数及び酸素飽和度のうちの少なくとも一つに関する情報を含む
　請求項７又は８に記載の生体情報推定装置。
　複数種類のモーダルのうちの第１の種類のモーダルを少なくとも含み、前記複数種類のモーダルのうちの第２の種類のモーダルを含まない第１のモーダルセットを取得し、
　前記複数種類のモーダルのうちの少なくとも一つが入力された場合に前記複数種類のモーダルのうちの少なくとも一つを出力するモーダル生成モデルであって且つ前記複数種類のモーダルを含む第２のモーダルセットを用いた機械学習によって生成されたモーダル生成モデルに、前記第１のモーダルセットを入力することで、少なくとも前記第２の種類のモーダルを出力させ、
　前記第１のモーダルセットと前記モーダル生成モデルが出力した前記第２の種類のモーダルとを含む第３のモーダルセットを生成する
　情報処理方法。
　コンピュータに、
　複数種類のモーダルのうちの第１の種類のモーダルを少なくとも含み、前記複数種類のモーダルのうちの第２の種類のモーダルを含まない第１のモーダルセットを取得し、
　前記複数種類のモーダルのうちの少なくとも一つが入力された場合に前記複数種類のモーダルのうちの少なくとも一つを出力するモーダル生成モデルであって且つ前記複数種類のモーダルを含む第２のモーダルセットを用いた機械学習によって生成されたモーダル生成モデルに、前記第１のモーダルセットを入力することで、少なくとも前記第２の種類のモーダルを出力させ、
　前記第１のモーダルセットと前記モーダル生成モデルが出力した前記第２の種類のモーダルとを含む第３のモーダルセットを生成する
　情報処理方法を実行させるためのコンピュータプログラムが記録された記録媒体。