WO2021140642A1

WO2021140642A1 - 視線推定装置、視線推定方法、モデル生成装置、及びモデル生成方法

Info

Publication number: WO2021140642A1
Application number: PCT/JP2020/000643
Authority: WO
Inventors: 倭竹内; 成典長江; 初美青位; 山本　和夫
Original assignee: オムロン株式会社
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2021-07-15
Also published as: EP4089628A4; CN114787861A; EP4089628A1; US20230036611A1; JP7310931B2; JPWO2021140642A1

Abstract

本発明の一側面に係る視線推定装置は、対象者の目の写る対象画像だけではなく、所定の方向を視る対象者の目の視線に関する特徴情報及びその所定の方向の真値を示す真値情報を含む較正情報を利用して、対象者の視線方向を推定する。これにより、視線推定装置では、個人差を考慮した上で、対象者の視線方向を推定することができる。そのため、対象者の視線方向を推定する精度の向上を図ることができる。

Description

視線推定装置、視線推定方法、モデル生成装置、及びモデル生成方法

　本発明は、視線推定装置、視線推定方法、モデル生成装置、及びモデル生成方法に関する。

　近年、対象者の視線方向を推定する様々な技術が開発されている。視線方向の推定方法の一例として、角膜反射法が知られている。角膜反射法では、光源から照射される光により角膜上に輝点（プルキニエ像）を生成し、生成された輝点と瞳孔との位置関係に基づいて視線を推定する。本手法によれば、顔の向き等に依らずに高精度に視線方向を推定することができる。しかしながら、本手法では、角膜上に輝点を生成できなければ、視線方向を推定するのが困難である。そのため、視線方向を推定可能な範囲が限られてしまう。加えて、頭部の位置の変動に影響を受けて、視線方向の推定精度が悪化してしまう可能性がある。

　視線方向の推定方法の他の例として、瞳孔形状を利用した方法が知られている。本手法では、眼球の形状を球とみなし、瞳孔の輪郭を円とみなして、眼球の動きに伴って瞳孔の見掛け上の形状が楕円形になることを利用する。すなわち、本手法では、撮像画像に写る対象者の瞳孔形状をフィッティングし、得られた瞳孔形状（楕円）の傾き及び長径と短径との比に基づいて、視線方向を推定する。本手法によれば、計算手法がシンプルであるため、視線方向の推定にかかる処理コストを低減し、当該処理を高速化することができる。しかしながら、瞳孔形状を正確に取得できなければ、視線方向の推定精度が悪化してしまう可能性がある。そのため、撮影装置から頭部が離れてしまう、撮影装置の性能が低い等の理由により、得られる撮影画像における瞳孔の像が低解像度である場合には、瞳孔形状のフィッティングが困難であり、これにより、視線方向を推定するのが困難となってしまう可能性がある。

　一方、特許文献１では、ニューラルネットワーク等の学習済みモデルを利用して、視線方向を推定する方法が提案されている。特許文献１で提案される方法では、対象者の顔を撮影することで得られた撮影画像から目の写る部分画像を抽出し、学習済みモデルを利用して、抽出された部分画像から対象者の視線方向を推定する。特許文献１で提案される手法によれば、対象者の頭部の位置の変動等に対してロバストでかつ高精度に視線方向を推定可能なシステムの実現を期待することができる。

特開２０１９－０２８８４３号公報

　本件発明者らは、従来の手法には、次のような問題点があることを見出した。すなわち、人間の網膜の中心には中心窩が存在し、この中心窩が高精細な中心視野での視覚に寄与することが知られている。そのため、人間の視線方向は、中心窩と瞳孔の中心とを結ぶ線により定義することができる。この中心窩の位置には個人差がある。つまり、中心窩は、網膜の完全な中心に位置しているとは限られず、個人差によりその位置は異なり得る。撮像装置により得られた撮像画像から、各個人の中心窩の位置を特定することは困難である。

　従来の方法では、被験者から得られたデータに基づいて、視線方向を推定するためのモデルが構築される。しかしながら、運用場面で視線方向を推定する対象となる対象者と被験者との間には、中心窩の位置に個人差があり、撮影画像に同じように瞳孔が写っていても、視線方向が異なっている可能性がある。そのため、従来の方法では、この中心窩の位置の個人差に起因して、視線方向の推定精度が悪化し得るという問題点があった。

　本発明は、一側面では、このような実情を鑑みてなされたものであり、その目的は、対象者の視線方向を高精度に推定可能な技術を提供することである。

　本発明は、上述した課題を解決するために、以下の構成を採用する。

　すなわち、本発明の一側面に係る視線推定装置は、所定の方向を視る対象者の目の視線に関する特徴情報、及び前記対象者の目の視る前記所定の方向の真値を示す真値情報を含む較正情報を取得する情報取得部と、対象者の目の写る対象画像を取得する画像取得部と、機械学習により生成された学習済み推定モデルを利用して、前記対象画像に写る前記対象者の視線方向を推定する推定部であって、前記機械学習により、前記学習済み推定モデルは、被験者から得られた学習用較正情報及び学習用対象画像の入力に対して、当該学習用対象画像に写る当該被験者の視線方向の真値を示す正解情報に適合する出力値を出力するように訓練されており、前記視線方向を推定することは、取得された前記対象画像及び前記較正情報を当該学習済み推定モデルに入力し、当該学習済み推定モデルの演算処理を実行することで、前記対象画像に写る前記対象者の視線方向を推定した結果に対応する出力値を当該学習済み推定モデルから取得することにより構成される、推定部と、前記対象者の前記視線方向を推定した結果に関する情報を出力する出力部と、を備える。

　当該構成では、対象者の視線方向を推定するのに、対象者の目の写る対象画像だけではなく、特徴情報及び真値情報を含む較正情報も利用する。特徴情報は、所定の方向を視る対象者の目の視線に関する。真値情報は、その所定の方向の真値を示す。特徴情報及び真値情報によれば、真値により既知の方向についてその視線を形成する目の特徴（すなわち、対象者の視線の個性）を把握することができる。したがって、当該構成によれば、視線方向の推定に較正情報を更に利用することにより、被験者及び対象者の間の個人差に起因する視線方向の違いを較正可能である。すなわち、個人差を考慮した上で、対象者の視線方向を推定することができる。そのため、対象者の視線方向を推定する精度の向上を図ることができる。

　上記一側面に係る視線推定装置において、前記較正情報は、複数の異なる前記所定の方向それぞれに対応する前記特徴情報及び前記真値情報を含んでもよい。当該構成によれば、複数の異なる方向についての較正情報から対象者の視線の個性をより正確に把握可能であるため、対象者の視線方向を推定する精度の更なる向上を図ることができる。

　上記一側面に係る視線推定装置において、前記特徴情報及び前記真値情報を含むことは、前記特徴情報及び前記真値情報を結合することにより導出される較正に関する較正特徴量を含むことにより構成されてよい。前記学習済み推定モデルは、第１抽出器及び推定器を備えてよい。前記学習済み推定モデルの演算処理を実行することは、取得された前記対象画像を前記第１抽出器に入力し、前記第１抽出器の演算処理を実行することで、前記対象画像に関する第１特徴量に対応する出力値を前記第１抽出器から取得すること、及び前記較正特徴量及び取得された前記第１特徴量を前記推定器に入力し、前記推定器の演算処理を実行すること、により構成されてよい。当該構成によれば、対象画像及び較正情報から対象者の視線方向を適切に推定可能な学習済み推定モデルを提供することができる。また、当該構成によれば、較正情報の情報量を低減することにより、対象者の視線方向を推定する情報処理のコストを低減することができ、これによって、当該情報処理の高速化を図ることができる。

　上記一側面に係る視線推定装置において、前記特徴情報は、前記所定の方向を視る前記対象者の目の写る基準画像に関する第２特徴量により構成されてよい。前記情報取得部は、結合器を有してもよい。前記較正情報を取得することは、前記第２特徴量を取得すること、前記真値情報を取得すること、並びに取得された前記第２特徴量及び前記真値情報を前記結合器に入力し、前記結合器の演算処理を実行することで、前記較正特徴量に対応する出力値を前記結合器から取得すること、により構成されてよい。当該構成によれば、較正特徴量を導出する演算処理は、視線方向の推定処理ではなく、較正情報の取得処理内で実行される。そのため、推定処理の処理コストを抑えることができる。特に、対象画像の取得処理及び視線方向の推定処理を繰り返し実行する形態では、較正特徴量の導出が済んでいれば、繰り返しの演算において、既に導出された較正特徴量を使い回し、較正情報の取得処理の実行を省略可能である。したがって、一連の演算処理のコストを低減することができ、これによって、当該一連の演算処理の高速化を図ることができる。

　上記一側面に係る視線推定装置において、前記情報取得部は、第２抽出器を更に有してもよい。前記第２特徴量を取得することは、前記基準画像を取得すること、及び取得された前記基準画像を前記第２抽出器に入力し、前記第２抽出器の演算処理を実行することで、前記第２特徴量に対応する出力値を前記第２抽出器から取得すること、により構成されてよい。当該構成によれば、所定の方向を視る対象者の目の視線の特徴が表れた特徴情報（第２特徴量）を適切に取得することができる。

　上記一側面に係る視線推定装置において、前記学習済み推定モデルは、第１抽出器及び推定器を備えてよい。前記学習済み推定モデルの演算処理を実行することは、取得された前記対象画像を前記第１抽出器に入力し、前記第１抽出器の演算処理を実行することで、前記対象画像に関する第１特徴量に対応する出力値を前記第１抽出器から取得すること、並びに前記特徴情報、前記真値情報、及び取得された前記第１特徴量を前記推定器に入力し、前記推定器の演算処理を実行すること、により構成されてよい。当該構成によれば、対象画像及び較正情報から対象者の視線方向を適切に推定可能な学習済み推定モデルを提供することができる。

　上記一側面に係る視線推定装置において、前記特徴情報は、前記所定の方向を視る前記対象者の目の写る基準画像に関する第２特徴量により構成されてよい。前記情報取得部は、第２抽出器を有してよい。前記較正情報を取得することは、前記基準画像を取得すること、取得された前記基準画像を前記第２抽出器に入力し、前記第２抽出器の演算処理を実行することで、前記第２特徴量に対応する出力値を前記第２抽出器から取得すること、及び前記真値情報を取得すること、により構成されてよい。当該構成によれば、所定の方向を視る対象者の目の視線の特徴が表れた特徴情報（第２特徴量）を適切に取得することができる。また、対象画像の取得処理及び視線方向の推定処理を繰り返し実行する形態では、第２特徴量の導出が済んでいれば、繰り返しの演算において、既に導出された第２特徴量を使い回し、較正情報の取得処理の実行を省略可能である。したがって、対象者の視線方向を指定するための一連の演算処理のコストを低減することができ、これによって、当該一連の演算処理の高速化を図ることができる。

　上記一側面に係る視線推定装置において、前記特徴情報は、前記所定の方向を視る前記対象者の目の写る基準画像により構成されてよい。前記学習済み推定モデルは、第１抽出器、第２抽出器、及び推定器を備えてよい。前記学習済み推定モデルの演算処理を実行することは、取得された前記対象画像を前記第１抽出器に入力し、前記第１抽出器の演算処理を実行することで、前記対象画像に関する第１特徴量に対応する出力値を前記第１抽出器から取得すること、前記基準画像を前記第２抽出器に入力し、前記第２抽出器の演算処理を実行することで、前記基準画像に関する第２特徴量に対応する出力値を前記第２抽出器から取得すること、並びに、取得された前記第１特徴量、取得された前記第２特徴量、及び前記真値情報を前記推定器に入力し、前記推定器の演算処理を実行すること、により構成されてよい。当該構成によれば、対象画像及び較正情報から対象者の視線方向を適切に推定可能な学習済み推定モデルを提供することができる。

　上記一側面に係る視線推定装置において、前記学習済み推定モデルは、第１変換器及び推定器を備えてよい。前記学習済み推定モデルの演算処理を実行することは、取得された前記対象画像を前記第１変換器に入力し、前記第１変換器の演算処理を実行することで、前記対象者の視線方向に関する第１ヒートマップに対応する出力値を前記第１変換器から取得すること、並びに、取得された前記第１ヒートマップ、前記特徴情報、及び前記真値情報を前記推定器に入力し、前記推定器の演算処理を実行すること、により構成されてよい。当該構成によれば、対象画像及び較正情報から対象者の視線方向を適切に推定可能な学習済み推定モデルを提供することができる。

　上記一側面に係る視線推定装置において、前記特徴情報は、前記所定の方向を視る前記対象者の目の写る基準画像から導出された、前記所定の方向を視る目の視線方向に関する第２ヒートマップにより構成されてよい。前記情報取得部は、第２変換器を有してよい。前記較正情報を取得することは、前記基準画像を取得すること、取得された前記基準画像を前記第２変換器に入力し、前記第２変換器の演算処理を実行することで、前記第２ヒートマップに対応する出力値を前記第２変換器から取得すること、前記真値情報を取得すること、及び前記所定の方向の真値に関する第３ヒートマップに前記真値情報を変換すること、により構成されてよい。前記第１ヒートマップ、前記特徴情報、及び前記真値情報を前記推定器に入力することは、前記第１ヒートマップ、前記第２ヒートマップ、及び前記第３ヒートマップを前記推定器に入力することにより構成されてよい。当該構成によれば、入力側のデータ形式として共通のヒートマップ形式を採用することにより、推定器の構成を比較的に簡易にすることができ、推定器内で各情報（特徴情報、真値情報及び対象画像）を統合し易くすることで、推定器の推定精度の向上を期待することができる。

　上記一側面に係る視線推定装置において、前記画像取得部により前記対象画像の取得、及び前記推定部による前記対象者の視線方向の推定は繰り返し実行されてよい。当該構成によれば、対象者の視線方向の推定を継続的に行うことができる。

　上記一側面に係る視線推定装置において、前記情報取得部は、前記対象者に所定の方向を視るように指示を出力した後、前記対象者の視線をセンサにより観測することで前記較正情報を取得してもよい。当該構成によれば、対象者の視線の個性が表れた較正情報を適切かつ簡易に取得することができる。

　本発明の一側面は、上記各形態に係る視線推定装置で利用可能な学習済み推定モデルを生成する装置であってもよい。例えば、本発明の一側面に係るモデル生成装置は、所定の方向を視る被験者の目の視線に関する学習用特徴情報、及び前記被験者の目の視る前記所定の方向の真値を示す学習用真値情報を含む学習用較正情報を取得する第１取得部と、被験者の目の写る学習用対象画像、及び前記学習用対象画像に写る前記被験者の視線方向の真値を示す正解情報の組み合わせによりそれぞれ構成される複数の学習データセットを取得する第２取得部と、取得された前記複数の学習データセットを使用して、推定モデルの機械学習を実施する機械学習部であって、機械学習を実施することは、前記各学習データセットについて、前記学習用対象画像及び前記学習用較正情報の入力に対して、対応する前記正解情報に適合する出力値を出力するように前記推定モデルを訓練することにより構成される、機械学習部と、を備える。

　上記各形態に係る視線推定装置及びモデル生成装置それぞれの別の態様として、本発明の一側面は、以上の各構成を実現する情報処理方法であってもよいし、プログラムであってもよいし、このようなプログラムを記憶した、コンピュータ等が読み取り可能な記憶媒体であってもよい。ここで、コンピュータ等が読み取り可能な記憶媒体とは、プログラム等の情報を、電気的、磁気的、光学的、機械的、又は、化学的作用によって蓄積する媒体である。また、本発明の一側面に係る視線推定システムは、上記いずれかの形態に係る視線推定装置及びモデル生成装置により構成されてよい。

　例えば、本発明の一側面に係る視線推定方法は、コンピュータが、所定の方向を視る対象者の目の視線に関する特徴情報、及び前記対象者の目の視る前記所定の方向の真値を示す真値情報を含む較正情報を取得するステップと、対象者の目の写る対象画像を取得するステップと、機械学習により生成された学習済み推定モデルを利用して、前記対象画像に写る前記対象者の視線方向を推定するステップであって、前記機械学習により、前記学習済み推定モデルは、被験者から得られた学習用較正情報及び学習用対象画像であって、当該学習用較正情報は前記較正情報と同種であり、当該学習用対象画像は前記対象画像と同種である、学習用較正情報及び学習用対象画像の入力に対して、当該学習用対象画像に写る当該被験者の視線方向の真値を示す正解情報に適合する出力値を出力するように訓練されており、前記視線方向を推定することは、取得された前記対象画像及び前記較正情報を当該学習済み推定モデルに入力し、当該学習済み推定モデルの演算処理を実行することで、前記対象画像に写る前記対象者の視線方向を推定した結果に対応する出力値を当該学習済み推定モデルから取得することにより構成される、ステップと、前記対象者の前記視線方向を推定した結果に関する情報を出力するステップと、を実行する、情報処理方法である。

　また、例えば、本発明の一側面に係るモデル生成方法は、コンピュータが、所定の方向を視る被験者の目の視線に関する学習用特徴情報、及び前記被験者の目の視る前記所定の方向の真値を示す学習用真値情報を含む学習用較正情報を取得するステップと、被験者の目の写る学習用対象画像、及び前記学習用対象画像に写る前記被験者の視線方向の真値を示す正解情報の組み合わせによりそれぞれ構成される複数の学習データセットを取得するステップと、取得された前記複数の学習データセットを使用して、推定モデルの機械学習を実施するステップであって、機械学習を実施することは、前記各学習データセットについて、前記学習用対象画像及び前記学習用較正情報の入力に対して、対応する前記正解情報に適合する出力値を出力するように前記推定モデルを訓練することにより構成される、ステップと、を実行する、情報処理方法である。

　本発明によれば、対象者の視線方向を高精度に推定することができる。

図１は、本発明が適用される場面の一例を模式的に例示する。図２は、実施の形態に係るモデル生成装置のハードウェア構成の一例を模式的に例示する。図３は、実施の形態に係る視線推定装置のハードウェア構成の一例を模式的に例示する。図４Ａは、実施の形態に係るモデル生成装置のソフトウェア構成の一例を模式的に例示する。図４Ｂは、実施の形態に係るモデル生成装置のソフトウェア構成の一例を模式的に例示する。図５Ａは、実施の形態に係る視線推定装置のソフトウェア構成の一例を模式的に例示する。図５Ｂは、実施の形態に係る視線推定装置のソフトウェア構成の一例を模式的に例示する。図６は、実施の形態に係るモデル生成装置の処理手順の一例を示す。図７は、実施の形態に係る視線推定装置の処理手順の一例を示す。図８は、実施の形態に係る較正情報を取得する場面の一例を模式的に例示する。図９は、変形例に係るモデル生成装置のソフトウェア構成の一例を模式的に例示する。図１０は、変形例に係る視線推定装置のソフトウェア構成の一例を模式的に例示する。図１１は、変形例に係るモデル生成装置のソフトウェア構成の一例を模式的に例示する。図１２は、変形例に係る視線推定装置のソフトウェア構成の一例を模式的に例示する。図１３Ａは、変形例に係るモデル生成装置のソフトウェア構成の一例を模式的に例示する。図１３Ｂは、変形例に係るモデル生成装置のソフトウェア構成の一例を模式的に例示する。図１４は、変形例に係る視線推定装置のソフトウェア構成の一例を模式的に例示する。

　以下、本発明の一側面に係る実施の形態（以下、「本実施形態」とも表記する）を、図面に基づいて説明する。ただし、以下で説明する本実施形態は、あらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。なお、本実施形態において登場するデータを自然言語により説明しているが、より具体的には、コンピュータが認識可能な疑似言語、コマンド、パラメータ、マシン語等で指定される。

　§１　適用例
　図１は、本発明を適用した場面の一例を模式的に例示する。図１に示されるとおり、本実施形態に係る視線推定システム１００は、モデル生成装置１及び視線推定装置２を備えている。

　本実施形態に係るモデル生成装置１は、対象者の視線方向の推定に利用可能な学習済み推定モデル３を生成するように構成されたコンピュータである。具体的には、本実施形態に係るモデル生成装置１は、学習用特徴情報及び学習用真値情報を含む学習用較正情報５０を取得する。学習用特徴情報は、所定の方向を視る被験者の目の視線に関する。学習用真値情報は、被験者の目の視る所定の方向の真値を示す。所定の方向は、真値により既知の視線方向である。所定の方向の具体的な値は、特に限られなくてもよく、実施の形態に応じて適宜選択されてよい。所定の方向の一例として、対象者の視線方向を推定する場面で出現しやすい方向を選択するのが好ましい。

　また、本実施形態に係るモデル生成装置１は、被験者の目の写る学習用対象画像５３、及び正解情報５５の組み合わせによりそれぞれ構成される複数の学習データセット５１を取得する。正解情報５５は、学習用対象画像５３に写る被験者の視線方向の真値を示す。複数の学習データセット５１には、学習用較正情報５０と同様に、所定の方向を視る被験者から得られる学習データセットが含まれてもよい。なお、「学習用」は、機械学習に用いられることを指す。この「学習用」の記載は、省略されてよい。

　そして、本実施形態に係るモデル生成装置１は、取得された複数の学習データセット５１を使用して、推定モデル３の機械学習を実施する。機械学習を実施することは、各学習データセット５１について、学習用対象画像５３及び学習用較正情報５０の入力に対して、対応する正解情報５５に適合する出力値を出力するように推定モデル３を訓練することにより構成される。これにより、対象画像に写る被験者の視線方向を較正情報及び対象画像から推定する能力を獲得した学習済み推定モデル３を生成することができる。なお、「学習済み」は、「訓練済み」と読み替えられてもよい。

　一方、視線推定装置２は、生成された学習済み推定モデル３を利用して、対象者Ｒの視線方向を推定するように構成されたコンピュータである。具体的に、本実施形態に係る視線推定装置２は、対象者Ｒについて、特徴情報及び真値情報を含む較正情報６０を取得する。較正情報６０は、被験者から得られる上記学習用較正情報５０と同種のデータである。対象者Ｒは、被験者と同一人物であってもよいし、同一人物でなくてもよい。

　特徴情報は、所定の方向を視る対象者Ｒの目の視線に関する。特徴情報は、所定の方向の視線を形成する目の特徴に関する成分を含んでいれば、その形式は、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。例えば、特徴情報は、所定の方向を視る対象者の目の写る基準画像により構成されてよい。或いは、特徴情報は、当該基準画像から抽出される視線の特徴量により構成されてよい。特徴情報は、上記学習用特徴情報と同種のデータである。

　真値情報は、対象者Ｒの目の視る所定の方向の真値を示す。真値のデータ形式、すなわち、視線方向の表現形式は、視線方向に関する情報を示すものであれば、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。視線方向は、例えば、仰俯角、方位角等の角度により表現されてよい。或いは、視線方向は、視野範囲内において注視された位置（以下、「注視位置」とも記載する）により表現されてよい。角度又は注視位置は、数値により直接的に表現されてもよいし、或いは、ヒートマップを用いて程度又は確率により表現されてもよい。真値情報は、上記学習用真値情報と同種のデータである。

　較正情報６０が特徴情報及び真値情報を含むことは、特徴情報及び真値情報をそのまま別々のデータとして（例えば、分離可能な形式で）含むことにより構成されてもよいし、或いは、特徴情報及び真値情報を結合することにより導出される情報（例えば、後述の較正特徴量）を含むことにより構成されてもよい。較正情報６０の構成の一例は、後述する。

　また、本実施形態に係る視線推定装置２は、対象者Ｒの目の写る対象画像６３を取得する。本実施形態では、視線推定装置２は、カメラＳに接続されており、このカメラＳから対象画像６３を取得することができる。対象画像６３は、対象者Ｒの目の像を含み得るものであればよい。例えば、対象画像６３は、カメラＳにより得られたそのままの画像であってもよいし、或いは、得られた画像から抽出された部分画像であってもよい。部分画像は、例えば、カメラＳにより得られた画像から少なくとも一方の目の写る範囲を抽出することで得られてよい。部分画像の抽出には、公知の画像処理が用いられてよい。

　次に、本実施形態に係る視線推定装置２は、上記機械学習により生成された学習済み推定モデル３を利用して、対象画像６３に写る対象者Ｒの目の視線方向を推定する。視線方向を推定することは、取得された対象画像６３及び較正情報６０を学習済み推定モデル３に入力し、当該学習済み推定モデル３の演算処理を実行することで、対象画像６３に写る対象者Ｒの目の視線方向を推定した結果に対応する出力値を学習済み推定モデル３から取得することにより構成される。そして、本実施形態に係る視線推定装置２は、対象者Ｒの視線方向を推定した結果に関する情報を出力する。

　以上のとおり、本実施形態では、対象者Ｒの視線方向を推定するのに、対象者Ｒの目の写る対象画像６３だけではなく、特徴情報及び真値情報を含む較正情報６０も利用する。特徴情報及び真値情報によれば、真値により既知の方向についてその視線を形成する目の特徴（すなわち、対象者Ｒの視線の個性）を把握することができる。したがって、本実施形態によれば、視線方向の推定に較正情報６０を更に利用することにより、被験者及び対象者Ｒの間の個人差に起因する視線方向の違いを較正可能である。すなわち、個人差を考慮した上で、対象者Ｒの視線方向を推定することができる。そのため、本実施形態によれば、視線推定装置２において、対象者Ｒの視線方向を推定する精度の向上を図ることができる。また、本実施形態に係るモデル生成装置１によれば、そのような高精度に対象者Ｒの視線方向を推定可能な学習済み推定モデル３を生成することができる。

　本実施形態は、対象者Ｒの視線方向を推定するあらゆる場面に適用されてよい。視線方向を推定する場面の一例として、例えば、車両を運転する運転者の視線方向を推定する場面、ロボット装置とコミュニケーションを取るユーザの視線方向を推定する場面、ユーザインタフェースにおいてユーザの視線方向を推定し、得られた推定結果を入力に利用する場面等を挙げることができる。運転者及びユーザは、対象者Ｒの一例である。視線方向の推定結果は、各場面に応じて適宜利用されてよい。

　なお、図１の例では、モデル生成装置１及び視線推定装置２は、ネットワークを介して互いに接続されている。ネットワークの種類は、例えば、インターネット、無線通信網、移動通信網、電話網、専用網等から適宜選択されてよい。ただし、モデル生成装置１及び視線推定装置２の間でデータをやりとりする方法は、このような例に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、モデル生成装置１及び視線推定装置２の間では、記憶媒体を利用して、データがやりとりされてよい。

　また、図１の例では、モデル生成装置１及び視線推定装置２は、それぞれ別個のコンピュータにより構成されている。しかしながら、本実施形態に係る視線推定システム１００の構成は、このような例に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。たとえば、モデル生成装置１及び視線推定装置２は一体のコンピュータであってもよい。また、例えば、モデル生成装置１及び視線推定装置２のうちの少なくとも一方は、複数台のコンピュータにより構成されてもよい。

　§２　構成例
　［ハードウェア構成］
　＜モデル生成装置＞
　図２は、本実施形態に係るモデル生成装置１のハードウェア構成の一例を模式的に例示する。図２に示されるとおり、本実施形態に係るモデル生成装置１は、制御部１１、記憶部１２、通信インタフェース１３、外部インタフェース１４、入力装置１５、出力装置１６、及びドライブ１７が電気的に接続されたコンピュータである。なお、図２では、通信インタフェース及び外部インタフェースを「通信Ｉ／Ｆ」及び「外部Ｉ／Ｆ」と記載している。

　制御部１１は、ハードウェアプロセッサであるＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等を含み、プログラム及び各種データに基づいて情報処理を実行するように構成される。記憶部１２は、メモリの一例であり、例えば、ハードディスクドライブ、ソリッドステートドライブ等で構成される。本実施形態では、記憶部１２は、モデル生成プログラム８１、複数のデータセット１２０、学習結果データ１２５等の各種情報を記憶する。

　モデル生成プログラム８１は、機械学習を実施することで学習済み推定モデル３を生成する後述の情報処理（図６）をモデル生成装置１に実行させるためのプログラムである。モデル生成プログラム８１は、当該情報処理の一連の命令を含む。各データセット１２０は、学習画像１２１及び正解情報１２３の組み合わせにより構成される。学習結果データ１２５は、機械学習により生成された学習済み推定モデル３に関する情報を示す。本実施形態では、学習結果データ１２５は、モデル生成プログラム８１を実行した結果として生成される。詳細は後述する。

　通信インタフェース１３は、例えば、有線ＬＡＮ（Local Area Network）モジュール、無線ＬＡＮモジュール等であり、ネットワークを介した有線又は無線通信を行うためのインタフェースである。モデル生成装置１は、通信インタフェース１３を利用して、他の情報処理装置との間で、ネットワークを介したデータ通信を実行してもよい。外部インタフェース１４は、例えば、ＵＳＢ（Universal Serial Bus）ポート、専用ポート等であり、外部装置と接続するためのインタフェースである。外部インタフェース１４の種類及び数は任意に選択されてよい。モデル生成装置１は、通信インタフェース１３及び外部インタフェース１４の少なくとも一方を介して、学習画像１２１を得るためのカメラに接続されてよい。

　入力装置１５は、例えば、マウス、キーボード等の入力を行うための装置である。また、出力装置１６は、例えば、ディスプレイ、スピーカ等の出力を行うための装置である。ユーザ等のオペレータは、入力装置１５及び出力装置１６を利用することで、モデル生成装置１を操作することができる。

　ドライブ１７は、例えば、ＣＤドライブ、ＤＶＤドライブ等であり、記憶媒体９１に記憶されたプログラム等の各種情報を読み込むためのドライブ装置である。記憶媒体９１は、コンピュータその他装置、機械等が、記憶されたプログラム等の各種情報を読み取り可能なように、当該プログラム等の情報を、電気的、磁気的、光学的、機械的又は化学的作用によって蓄積する媒体である。上記モデル生成プログラム８１及び複数のデータセット１２０の少なくともいずれかは、記憶媒体９１に記憶されていてもよい。モデル生成装置１は、この記憶媒体９１から、上記モデル生成プログラム８１及び複数のデータセット１２０の少なくともいずれかを取得してもよい。なお、図２では、記憶媒体９１の一例として、ＣＤ、ＤＶＤ等のディスク型の記憶媒体を例示している。しかしながら、記憶媒体９１の種類は、ディスク型に限られなくてもよく、ディスク型以外であってもよい。ディスク型以外の記憶媒体として、例えば、フラッシュメモリ等の半導体メモリを挙げることができる。ドライブ１７の種類は、記憶媒体９１の種類に応じて任意に選択されてよい。

　なお、モデル生成装置１の具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。例えば、制御部１１は、複数のハードウェアプロセッサを含んでもよい。ハードウェアプロセッサは、マイクロプロセッサ、ＦＰＧＡ（field-programmable gate array）、ＤＳＰ（digital signal processor）等で構成されてよい。記憶部１２は、制御部１１に含まれるＲＡＭ及びＲＯＭにより構成されてもよい。通信インタフェース１３、外部インタフェース１４、入力装置１５、出力装置１６及びドライブ１７の少なくともいずれかは省略されてもよい。モデル生成装置１は、複数台のコンピュータで構成されてもよい。この場合、各コンピュータのハードウェア構成は、一致していてもよいし、一致していなくてもよい。また、モデル生成装置１は、提供されるサービス専用に設計された情報処理装置の他、汎用のサーバ装置、ＰＣ（Personal Computer）等であってもよい。

　＜視線推定装置＞
　図３は、本実施形態に係る視線推定装置２のハードウェア構成の一例を模式的に例示する。図３に示されるとおり、本実施形態に係る視線推定装置２は、制御部２１、記憶部２２、通信インタフェース２３、外部インタフェース２４、入力装置２５、出力装置２６、及びドライブ２７が電気的に接続されたコンピュータである。

　視線推定装置２の制御部２１～ドライブ２７及び記憶媒体９２はそれぞれ、上記モデル生成装置１の制御部１１～ドライブ１７及び記憶媒体９１それぞれと同様に構成されてよい。制御部２１は、ハードウェアプロセッサであるＣＰＵ、ＲＡＭ、ＲＯＭ等を含み、プログラム及びデータに基づいて各種情報処理を実行するように構成される。記憶部２２は、例えば、ハードディスクドライブ、ソリッドステートドライブ等で構成される。本実施形態では、記憶部２２は、視線推定プログラム８２、較正情報６０、学習結果データ１２５等の各種情報を記憶する。

　視線推定プログラム８２は、学習済み推定モデル３を利用して、対象画像６３に写る対象者Ｒの視線方向を推定する後述の情報処理（図７）を視線推定装置２に実行させるためのプログラムである。視線推定プログラム８２は、当該情報処理の一連の命令を含む。視線推定プログラム８２、較正情報６０、及び学習結果データ１２５のうちの少なくともいずれかは、記憶媒体９２に記憶されていてもよい。また、視線推定装置２は、記憶媒体９２から、視線推定プログラム８２、較正情報６０、及び学習結果データ１２５のうちの少なくともいずれかを取得してもよい。

　また、図３の例では、視線推定装置２は、外部インタフェース２４を介して、カメラＳ（撮像装置）に接続されている。これにより、視線推定装置２は、カメラＳから対象画像６３を取得することができる。ただし、カメラＳとの接続方法は、このような例に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。カメラＳが通信インタフェースを備える場合、視線推定装置２は、通信インタフェース２３を介して、カメラＳに接続されてもよい。カメラＳの種類は、実施の形態に応じて適宜選択されてよい。カメラＳは、例えば、一般的なＲＧＢカメラ、深度カメラ、赤外線カメラ等であってよい。カメラＳは、対象者Ｒの目を撮影するように適宜配置されてよい。

　なお、視線推定装置２の具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。例えば、制御部２１は、複数のハードウェアプロセッサを含んでもよい。ハードウェアプロセッサは、マイクロプロセッサ、ＦＰＧＡ、ＤＳＰ等で構成されてよい。記憶部２２は、制御部２１に含まれるＲＡＭ及びＲＯＭにより構成されてもよい。通信インタフェース２３、外部インタフェース２４、入力装置２５、出力装置２６、及びドライブ２７の少なくともいずれかは省略されてもよい。視線推定装置２は、複数台のコンピュータで構成されてもよい。この場合、各コンピュータのハードウェア構成は、一致していてもよいし、一致していなくてもよい。また、視線推定装置２は、提供されるサービス専用に設計された情報処理装置の他、汎用のサーバ装置、汎用のＰＣ、ＰＬＣ（programmable logic controller）等であってもよい。

　［ソフトウェア構成］
　＜モデル生成装置＞
　図４Ａ及び図４Ｂは、本実施形態に係るモデル生成装置１のソフトウェア構成の一例を模式的に例示する。モデル生成装置１の制御部１１は、記憶部１２に記憶されたモデル生成プログラム８１をＲＡＭに展開する。そして、制御部１１は、ＲＡＭに展開されたモデル生成プログラム８１に含まれる命令をＣＰＵにより解釈及び実行して、各構成要素を制御する。これにより、図４Ａ及び図４Ｂに示されるとおり、本実施形態に係るモデル生成装置１は、収集部１１１、第１取得部１１２、第２取得部１１３、機械学習部１１４、及び保存処理部１１５をソフトウェアモジュールとして備えるコンピュータとして動作する。すなわち、本実施形態では、モデル生成装置１の各ソフトウェアモジュールは、制御部１１（ＣＰＵ）により実現される。

　収集部１１１は、複数のデータセット１２０を取得する。各データセット１２０は、被験者の目の写る学習画像１２１及び正解情報１２３の組み合わせにより構成される。正解情報１２３は、対応する学習画像１２１に写る被験者の視線方向の真値を示す。第１取得部１１２は、学習用特徴情報５０２及び学習用真値情報５０３を含む学習用較正情報５０を取得する。学習用特徴情報５０２は、所定の方向を視る被験者の目の視線に関する。学習用真値情報５０３は、対応する学習用特徴情報５０２について被験者の目の視る所定の方向の真値を示す。本実施形態では、学習用較正情報５０の取得に、所定の方向を視る被験者について得られたデータセット１２０を利用することができる。学習用較正情報５０は、複数の異なる所定の方向それぞれに対応する学習用特徴情報５０２及び学習用真値情報５０３を含んでもよい。すなわち、人物の視線の個性を把握するための所定の方向は複数設定されてよく、較正情報は、設定された各所定の方向についての特徴情報及び真値情報を含んでもよい。

　第２取得部１１３は、被験者の目の写る学習用対象画像５３、及び当該学習用対象画像５３に写る被験者の視線方向の真値を示す正解情報５５の組み合わせによりそれぞれ構成される複数の学習データセット５１を取得する。本実施形態では、上記各データセット１２０を学習データセット５１として利用可能である。すなわち、上記学習画像１２１を学習用対象画像５３として利用可能であり、上記正解情報１２３を正解情報５５として利用可能である。機械学習部１１４は、取得された複数の学習データセット５１を使用して、推定モデル３の機械学習を実施する。機械学習を実施することは、各学習データセット５１について、学習用対象画像５３及び学習用較正情報５０の入力に対して、対応する正解情報５５に適合する出力値を出力するように推定モデル３を訓練することにより構成される。

　較正情報及び対象画像から人物の視線方向を推定するための演算を実行可能であれば、推定モデル３の構成は、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。また、特徴情報及び真値情報に関する成分（すなわち、既知の方向の視線を形成する目の特徴に関する成分）が含まれていれば、較正情報のデータ形式は、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。機械学習の手順は、推定モデル３及び較正情報の構成に応じて適宜決定されてよい。

　図４Ｂに示されるとおり、本実施形態では、推定モデル３は、抽出器３１及び推定器３２を備える。抽出器３１は、第１抽出器の一例である。また、本実施形態では、特徴情報及び真値情報を含むことは、特徴情報及び真値情報を結合することにより導出される較正に関する較正特徴量を含むことにより構成される。すなわち、較正情報は、較正特徴量により構成される。結合することは、単純に情報を一つにすることであってもよいし、或いは、情報を一つにすると共に情報を圧縮することを含んでもよい。本実施形態では、較正特徴量を取得するために、抽出器３５及び結合器３６が利用される。抽出器３５は、第２抽出器の一例である。

　抽出器３１は、人物の目の写る画像（対象画像）の入力を受け付け、入力された画像に関する特徴量に対応する出力値を出力するように構成される。換言すると、抽出器３１は、人物の目の写る画像から特徴量を抽出するように構成される。推定器３２は、抽出器３１により算出された特徴量及び較正特徴量の入力を受け付け、対応する画像（すなわち、入力された特徴量を得るために抽出器３１に入力された画像）に写る人物の視線方向を推定した結果に対応する出力値を出力するように構成される。換言すると、推定器３２は、画像の特徴量及び較正特徴量から人物の視線方向を推定するように構成される。抽出器３１の出力は、推定器３２の入力に接続される。

　抽出器３５は、抽出器３１と同様に、人物の目の写る画像の入力を受け付け、入力された画像に関する特徴量に対応する出力値を出力するように構成される。抽出器３５には、抽出器３１と共通の抽出器を用いてもよいし（すなわち、抽出器３５は抽出器３１と同一）、抽出器３１とは別の抽出器を用いてもよい（すなわち、抽出器３５は抽出器３１と不同）。結合器３６は、特徴情報及び真値情報の入力を受け付け、入力された特徴情報及び真値情報の結合により導出される較正に関する較正特徴量に対応する出力値を出力するように構成される。本実施形態では、特徴情報は、所定の方向を視る人物（対象者）の目の写る基準画像に関する特徴量により構成される。基準画像を抽出器３５に与えて、抽出器３５の演算処理を実行することで、基準画像の特徴量に対応する出力値を抽出器３５から得ることができる。そのため、抽出器３５の出力は、結合器３６の入力に接続される。各特徴量のデータ形式は、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。

　図４Ａに示されるとおり、機械学習部１１４は、まず、各抽出器（３１、３５）として利用可能な訓練済みの抽出器を生成するために、抽出器４１及び推定器４３を備える学習モデル４を用意する。抽出器４１は、各抽出器（３１、３５）に対応する。抽出器４１の出力は、推定器４３の入力に接続される。推定器４３は、抽出器４１により算出された特徴量の入力を受け付け、対応する画像（すなわち、入力された特徴量を得るために抽出器４１に入力された画像）に写る人物の視線方向を推定した結果に対応する出力値を出力するように構成される。

　機械学習部１１４は、取得された複数のデータセット１２０を使用して、学習モデル４の機械学習を実施する。機械学習部１１４は、各データセット１２０に含まれる学習画像１２１を抽出器４１に入力し、抽出器４１及び推定器４３の演算処理を実行する。この演算処理により、機械学習部１１４は、学習画像１２１に写る被験者の視線方向を推定した結果に対応する出力値を推定器４３から取得する。学習モデル４の機械学習では、機械学習部１１４は、各データセット１２０について、当該演算処理により推定器４３から得られる出力値が正解情報１２３に適合するように、学習モデル４を訓練する。この機械学習の結果、訓練済みの抽出器４１の出力（すなわち、特徴量）には、推定器４３において被験者の視線方向を推定可能なように、学習画像１２１に含まれる被験者の目に関する成分が含まれるようになる。

　各抽出器（３１、３５）に同一の抽出器を用いる場合、機械学習により生成された訓練済みの抽出器４１が、各抽出器（３１、３５）として共通に利用されてよい。この場合、各抽出器（３１、３５）の情報量を低減することができ、かつ機械学習のコストを抑えることができる。一方、各抽出器（３１、３５）に別々の抽出器を用いる場合、機械学習部１１４は、少なくとも抽出器４１の部分について別個の学習モデル４を用意し、それぞれの機械学習を実施してもよい。そして、それぞれの機械学習により生成された訓練済みの抽出器４１が、各抽出器（３１、３５）として利用されてよい。各抽出器（３１、３５）には、訓練済みの抽出器４１がそのまま利用されてもよいし、或いは訓練済みの抽出器４１の複製が利用されてもよい。同様に、所定の方向が複数設定される場合、抽出器３５は、設定された異なる方向毎に別々に用意されてもよいし、設定された複数の異なる方向に対して共通に用意されてもよい。複数の異なる法王に対して抽出器３５を共通に用意する場合には、抽出器３５の情報量を低減することができ、かつ機械学習のコストを抑えることができる。

　次に、図４Ｂに示されるとおり、機械学習部１１４は、抽出器３５、結合器３６、及び推定モデル３を含む学習モデル３０を用意する。本実施形態では、機械学習部１１４は、最終的に推定モデル３の推定器３２が人物の視線方向を推定する能力を獲得するように、学習モデル３０の機械学習を実施する。この学習モデル３０の機械学習の間、結合器３６の出力は、推定器３２の入力に接続される。これにより、学習モデル３０の機械学習において、推定器３２及び結合器３６は共に訓練される。

　この機械学習の過程において、第１取得部１１２は、抽出器３５及び結合器３６を利用して、学習用較正情報５０を取得する。具体的に、第１取得部１１２は、所定の方向を視る被験者の目の写る学習用基準画像５０１及びその所定の方向の真値を示す学習用真値情報５０３を取得する。第１取得部１１２は、所定の方向を視る被験者について得られたデータセット１２０に含まれる学習画像１２１を学習用基準画像５０１として取得し、正解情報１２３を学習用真値情報５０３として取得してもよい。

　第１取得部１１２は、取得された学習用基準画像５０１を抽出器３５に入力し、抽出器３５の演算処理を実行する。これにより、第１取得部１１２は、学習用基準画像５０１に関する特徴量５０２１に対応する出力値を抽出器３５から取得する。本実施形態では、学習用特徴情報５０２は、この特徴量５０２１により構成される。

　続いて、第１取得部１１２は、取得された特徴量５０２１及び学習用真値情報５０３を結合器３６に入力し、結合器３６の演算処理を実行する。これにより、第１取得部１１２は、学習用特徴情報５０２及び学習用真値情報５０３の結合により導出される較正に関する特徴量５０４に対応する出力値を結合器３６から取得する。特徴量５０４は、学習用の較正特徴量の一例である。本実施形態では、学習用較正情報５０は、この特徴量５０４により構成される。第１取得部１１２は、これらの演算処理により、抽出器３５及び結合器３６を利用して、学習用較正情報５０を取得することができる。

　なお、所定の方向が複数設定される場合、第１取得部１１２は、複数の異なる所定の方向それぞれについて学習用基準画像５０１及び学習用真値情報５０３を取得してもよい。第１取得部１１２は、各学習用基準画像５０１を抽出器３５に入力し、抽出器３５の演算処理を実行してもよい。これにより、第１取得部１１２は、各特徴量５０２１を抽出器３５から取得してもよい。続いて、第１取得部１１２は、取得された各特徴量５０２１及び各所定の方向についての学習用真値情報５０３を結合器３６に入力し、結合器３６の演算処理を実行してもよい。これらの演算処理により、第１取得部１１２は、複数の異なる所定の方向それぞれの学習用特徴情報５０２及び学習用真値情報５０３を結合することにより導出される特徴量５０４を取得してもよい。この場合、特徴量５０４には、複数の異なる所定の方向それぞれの学習用特徴情報５０２及び学習用真値情報５０３を集約した情報が含まれ得る。ただし、特徴量５０４を取得する方法は、このような例に限定されなくてもよい。その他の一例として、異なる所定の方向毎に特徴量５０４を算出するようにしてもよい。この場合、特徴量５０４の算出には共通の結合器３６が用いられてもよいし、異なる所定の方向毎に別々の結合器３６が用いられてもよい。

　また、第２取得部１１３は、学習用対象画像５３及び正解情報５５の組み合わせによりそれぞれ構成される複数の学習データセット５１を取得する。本実施形態では、第２取得部１１３は、収集された複数のデータセット１２０の少なくともいずれかを学習データセット５１として使用してもよい。すなわち、第２取得部１１３は、データセット１２０の学習画像１２１を学習データセット５１の学習用対象画像５３として取得し、データセット１２０の正解情報１２３を学習データセット５１の正解情報５５として取得してもよい。

　機械学習部１１４は、取得された各学習データセット５１に含まれる学習用対象画像５３を抽出器３１に入力し、抽出器３１の演算処理を実行する。この演算処理により、機械学習部１１４は、学習用対象画像５３に関する特徴量５４を抽出器３１から取得する。続いて、機械学習部１１４は、結合器３６から取得された特徴量５０４（学習用較正情報５０）及び取得された特徴量５４を推定器３２に入力し、推定器３２の演算処理を実行する。この演算処理により、機械学習部１１４は、学習用対象画像５３に写る被験者の視線方向を推定した結果に対応する出力値を推定器３２から取得する。学習モデル３０の機械学習では、機械学習部１１４は、上記特徴量５０４の算出及び上記推定モデル３の演算処理を伴いながら、各学習データセット５１について、この推定器３２から得られる出力値が対応する正解情報５５に適合するように学習モデル３０を訓練する。

　この学習モデル３０の訓練は、各抽出器（３１、３５）の訓練を含んでもよい。或いは、上記学習モデル４の機械学習により、各抽出器（３１、３５）は、人物の視線方向を推定可能な成分を含む特徴量を画像から抽出する能力を獲得するように訓練されている。そのため、学習モデル３０の訓練において、各抽出器（３１、３５９の訓練は省略されてもよい。学習モデル３０の機械学習により、結合器３６は、特徴情報及び真値情報を結合することで人物の視線方向の推定に有益な較正特徴量を導出する能力を獲得することができる。また、推定器３２は、抽出器３１により得られる画像の特徴量及び結合器３６により得られる較正特徴量から対応する画像に写る人物の視線方向を適切に推定する能力を獲得することができる。

　なお、学習モデル３０の機械学習において、特徴量５０４の算出に使用される学習用基準画像５０１及び学習用真値情報５０３は、その訓練で使用される学習データセット５１と同一の被験者由来であることが好ましい。すなわち、学習用基準画像５０１、学習用真値情報５０３及び複数の学習データセット５１が複数の異なる被験者それぞれから取得されていると想定する。この場合に、同一の被験者から得られた学習用基準画像５０１、学習用真値情報５０３及び複数の学習データセット５１が学習モデル３０の機械学習に使用されるように、それぞれの由来が識別されるのが好ましい。それぞれの由来（すなわち、被験者）は、例えば、識別子等の付加情報により識別されてよい。学習用基準画像５０１、学習用真値情報５０３及び複数の学習データセット５１を複数のデータセット１２０から取得する場合、各データセット１２０は、この付加情報を更に含んでもよい。この場合、付加情報に基づいて、それぞれの由来である被験者を識別することができ、これによって、同一の被験者から得られた学習用基準画像５０１、学習用真値情報５０３及び複数の学習データセット５１が学習モデル３０の機械学習に使用されるようにすることができる。

　保存処理部１１５は、学習済みの学習モデル３０（すなわち、学習済み抽出器３１、学習済み結合器３６、及び学習済み推定モデル３）に関する情報を学習結果データ１２５として生成する。そして、保存処理部１１５は、生成された学習結果データ１２５を所定の記憶領域に保存する。

　（各モデルの構成の一例）
　各抽出器（３１、３５、４１）、各推定器（３２、４３）、及び結合器３６は、演算パラメータを有する機械学習可能なモデルにより構成される。それぞれに利用する機械学習モデルは、それぞれの演算処理を実行可能であれば、その種類は、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。本実施形態では、各抽出器（３１、３５、４１）には、畳み込みニューラルネットワークが用いられる。また、各推定器（３２、４３）及び結合器３６には、全結合型ニューラルネットワークが用いられる。

　図４Ａ及び図４Ｂに示されるとおり、各抽出器（３１、３５、４１）は、畳み込み層（３１１、３５１、４１１）及びプーリング層（３１２、３５２、４１２）を備えている。畳み込み層（３１１、３５１、４１１）は、与えられたデータに対する畳み込み演算を行うように構成される。畳み込み演算とは、与えられたデータと所定のフィルタとの相関を算出する処理に相当する。例えば、画像の畳み込みを行うことで、フィルタの濃淡パターンと類似する濃淡パターンを入力される画像から検出することができる。畳み込み層（３１１、３５１、４１１）は、この畳み込み演算に対応するニューロンであって、入力又は自分の層よりも前（入力側）に配置された層の出力の一部の領域に結合するニューロン（ノード）を備えている。プーリング層（３１２、３５２、４１２）は、プーリング処理を行うように構成される。プーリング処理は、与えられたデータのフィルタに対する応答の強かった位置の情報を一部捨て、当該データ内に現れる特徴の微小な位置変化に対する応答の不変性を実現する。例えば、プーリング処理では、フィルタ内の最も大きな値が抽出され、それ以外の値が削除されてよい。

　各抽出器（３１、３５、４１）に含まれる畳み込み層（３１１、３５１、４１１）及びプーリング層（３１２、３５２、４１２）の数は、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。図４Ａ及び図４Ｂの例では、最も入力側（図の左側）には畳み込み層（３１１、３５１、４１１）が配置されており、この畳み込み層（３１１、３５１、４１１）が入力層を構成している。また、最も出力側（図の右側）にはプーリング層（３１２、３５２、４１２）が配置されており、このプーリング層（３１２、３５２、４１２）が出力層を構成している。ただし、各抽出器（３１、３５、４１）の構造は、このような例に限定されなくてよい。畳み込み層（３１１、３５１、４１１）及びプーリング層（３１２、３５２、４１２）の配置は、実施の形態に応じて適宜決定されてよい。例えば、畳み込み層（３１１、３５１、４１１）及びプーリング層（３１２、３５２、４１２）は交互に配置されてよい。或いは、複数の畳み込み層（３１１、３５１、４１１）が連続して配置された後に、１又は複数のプーリング層（３１２、３５２、４１２）が配置されてもよい。また、各抽出器（３１、３５、４１）に含まれる層の種類は、畳み込み層及びプーリング層に限られなくてもよい。各抽出器（３１、３５、４１）には、例えば、正規化層、ドロップアウト層、全結合層等の他の種類の層が含まれてもよい。

　本実施形態では、各抽出器（３１、３５）の構造は、それぞれに利用する抽出器４１の構造に由来する。各抽出器（３１、３５）を別々に用意する場合、抽出器３１及び抽出器３５の間で構造は一致してもよいし、一致していなくてもよい。同様に、所定の方向が複数設定され、設定された異なる所定の方向毎に別々の抽出器３５を用意する場合、各所定の方向に用意された抽出器３５の構造は一致していてもよいし、或いは少なくとも一部の抽出器３５の構造が他の抽出器３５と異なっていてもよい。

　一方、各推定器（３２、４３）及び結合器３６は、１又は複数の全結合層（３２１、４３１、３６１）を備えている。各推定器（３２、４３）及び結合器３６の備える全結合層（３２１、４３１、３６１）の数は、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。複数の全結合層を備える場合、最も入力側に配置された全結合層が入力層を構成し、最も出力側に配置された全結合層が出力層を構成する。入力層及び出力層の間に配置される全結合層は、中間（隠れ）層を構成する。１つの全結合層を備える場合、当該１つの全結合層が入力層及び出力層として動作する。

　各全結合層（３２１、４３１、３６１）は、１又は複数のニューロン（ノード）を備える。各全結合層（３２１、４３１、３６１）に含まれるニューロン（ノード）の数は、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。入力層に含まれるニューロンの数は、例えば、特徴量、真値情報等の入力されるデータ及びその形式に応じて決定されてよい。また、出力層に含まれるニューロンの数は、例えば、特徴量、推定結果等の出力されるデータ及びその形式に応じて決定されてよい。各全結合層（３２１、４３１、３６１）に含まれる各ニューロンは、隣接する層の全てのニューロンと結合される。ただし、各ニューロンの結合関係は、このような例に限定されなくてよく、実施の形態に応じて適宜決定されてよい。

　畳み込み層（３１１、３５１、４１１）及び全結合層（３２１、４３１、３６１）の各結合には、重み（結合荷重）が設定される。各ニューロンには閾値が設定されており、基本的には、各入力と各重みとの積の和が閾値を超えているか否かによって各ニューロンの出力が決定される。閾値は、活性化関数により表現されてもよい。この場合、各入力と各重みとの積の和を活性化関数に入力し、活性化関数の演算を実行することで、各ニューロンの出力が決定される。活性化関数の種類は任意に選択されてよい。畳み込み層（３１１、３５１、４１１）及び全結合層（３２１、４３１、３６１）に含まれる各ニューロン間の結合の重み及び各ニューロンの閾値は、各抽出器（３１、３５、４１）、各推定器（３２、４３）、及び結合器３６の演算処理に利用される演算パラメータの一例である。

　なお、各抽出器（３１、３５、４１）、各推定器（３２、４３）、及び結合器３６の入力及び出力のデータ形式は、特に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。例えば、各推定器（３２、４３）の出力層は、推定結果を直接的に出力する（例えば、回帰する）ように構成されてもよい。或いは、各推定器（３２、４３）の出力層は、例えば、識別対象のクラス毎に１又は複数のニューロンを備え、各ニューロンから対応するクラスに該当する確率を出力する等のように、推定結果を間接的に出力するように構成されてもよい。また、各抽出器（３１、３５、４１）、各推定器（３２、４３）、及び結合器３６の入力層は、上記基準画像、対象画像、特徴量、真値情報等の入力データ以外の他のデータの入力を更に受け付けるように構成されてもよい。入力データには、入力層に入力される前に任意の前処理が適用されてよい。

　上記学習モデル４の機械学習では、機械学習部１１４は、各データセット１２０について、上記演算処理により推定器４３から得られる出力値と正解情報１２３との間の誤差が小さくなるように、抽出器４１及び推定器４３の各演算パラメータの値の調整を繰り返す。これにより、訓練済みの抽出器４１を生成することができる。また、上記学習モデル３０の機械学習では、機械学習部１１４は、学習用基準画像５０１、学習用真値情報５０３、及び各学習データセット５１について、上記演算処理により推定器３２から得られる出力値と正解情報５５との間の誤差が小さくなるように、各抽出器（３１、３５）、結合器３６、及び推定器３２の各演算パラメータの値の調節を繰り返す。この学習モデル３０の機械学習では、各抽出器（３１、３５）の各演算パラメータの値の調整は省略されてもよい。これにより、学習済みの学習モデル３０を生成することができる。

　保存処理部１１５は、機械学習により生成された学習済み推定モデル３（抽出器３１及び推定器３２）、学習済み抽出器３５、及び学習済み結合器３６を再生するための学習結果データ１２５を生成する。それぞれを再生可能であれば、学習結果データ１２５の構成は任意であってよい。例えば、保存処理部１１５は、生成された学習済み推定モデル３、学習済み抽出器３５、及び学習済み結合器３６の演算パラメータの値を示す情報を学習結果データ１２５として生成する。場合によって、学習結果データ１２５には、それぞれの構造を示す情報が更に含まれてよい。構造は、例えば、ニューラルネットワークにおける入力層から出力層までの層の数、各層の種類、各層に含まれるニューロンの数、隣接する層のニューロン同士の結合関係等により特定されてよい。保存処理部１１５は、生成された学習結果データ１２５を所定の記憶領域に保存する。

　なお、本実施形態では、説明の便宜上、各抽出器（３１、３５）、推定器３２及び結合器３６の機械学習の結果が一つの学習結果データ１２５として保存される例を説明する。しかしながら、学習結果データ１２５の保存形式は、このような例に限定されなくてもよい。各抽出器（３１、３５）、推定器３２及び結合器３６の機械学習の結果は別々のデータとして保存されてもよい。

　＜視線推定装置＞
　図５Ａ及び図５Ｂは、本実施形態に係る視線推定装置２のソフトウェア構成の一例を模式的に例示する。視線推定装置２の制御部２１は、記憶部２２に記憶された視線推定プログラム８２をＲＡＭに展開する。そして、制御部２１は、ＲＡＭに展開された視線推定プログラム８２に含まれる命令をＣＰＵにより解釈及び実行して、各構成要素を制御する。これにより、図５Ａ及び図５Ｂに示されるとおり、本実施形態に係る視線推定装置２は、情報取得部２１１、画像取得部２１２、推定部２１３、及び出力部２１４をソフトウェアモジュールとして備えるコンピュータとして動作する。すなわち、本実施形態では、視線推定装置２の各ソフトウェアモジュールは、上記モデル生成装置１と同様に、制御部２１（ＣＰＵ）により実現される。

　情報取得部２１１は、所定の方向を視る対象者Ｒの目の視線に関する特徴情報６０２及び対象者Ｒの目の視る所定の方向の真値を示す真値情報６０３を含む較正情報６０を取得する。図５Ａに示されるとおり、本実施形態では、情報取得部２１１は、学習結果データ１２５を保持していることで、学習済みの抽出器３５及び結合器３６を有している。情報取得部２１１は、所定の方向を視る対象者Ｒの目の写る基準画像６０１を取得する。情報取得部２１１は、取得された基準画像を学習済みの抽出器３５に入力し、当該抽出器３５の演算処理を実行する。これにより、情報取得部２１１は、基準画像６０１に関する特徴量６０２１に対応する出力値を抽出器３５から取得する。特徴量６０２１は、第２特徴量の一例である。本実施形態では、特徴情報６０２は、この特徴量６０２１により構成される。また、情報取得部２１１は、真値情報６０３を取得する。そして、情報取得部２１１は、取得された特徴量６０２１及び真値情報６０３を学習済みの結合器３６に入力し、当該結合器３６の演算処理を実行する。これにより、情報取得部２１１は、特徴情報６０２及び真値情報６０３の結合により導出される較正に関する特徴量６０４に対応する出力値を結合器３６から取得する。特徴量６０４は、較正特徴量の一例である。本実施形態では、較正情報６０は、この特徴量６０４により構成される。情報取得部２１１は、これらの演算処理により、学習済みの抽出器３５及び結合器３６を利用して、較正情報６０（特徴量６０４）を取得することができる。

　なお、上記学習済み推定モデル３の生成過程に対応して、較正情報６０は、複数の異なる所定の方向それぞれに対応する特徴情報６０２及び真値情報６０３を含んでもよい。この場合、上記生成過程と同様に、情報取得部２１１は、複数の異なる所定の方向それぞれについて基準画像６０１及び真値情報６０３を取得してもよい。情報取得部２１１は、各基準画像６０１を学習済みの抽出器３５に入力し、抽出器３５の演算処理を実行することで、各特徴量６０２１を抽出器３５から取得してもよい。続いて、情報取得部２１１は、取得された各特徴量６０２１及び各所定の方向についての真値情報６０３を学習済みの結合器３６に入力し、結合器３６の演算処理を実行してもよい。これにより、情報取得部２１１は、較正に関する特徴量６０４を結合器３６から取得してもよい。この場合、特徴量６０４には、複数の異なる所定の方向それぞれの特徴情報６０２及び真値情報６０３を執着した情報が含まれ得る。ただし、特徴量６０４を取得する方法は、このような例に限定されなくてもよい。その他の一例として、上記生成過程に対応して、異なる所定の方向毎に特徴量６０４を算出するようにしてもよい。この場合、特徴量６０４の算出には共通の結合器３６が用いられてもよいし、異なる所定の方向毎に別々の結合器３６が用いられてよい。

　図５Ｂに示されるとおり、画像取得部２１２は、対象者Ｒの目の写る対象画像６３を取得する。推定部２１３は、学習結果データ１２５を保持していることで、機械学習により生成された学習済み推定モデル３を有している。推定部２１３は、この学習済み推定モデル３を利用して、対象画像６３に写る対象者Ｒの目の視線方向を推定する。この推定処理として、推定部２１３は、取得された対象画像６３及び較正情報６０を学習済み推定モデル３に入力し、学習済み推定モデル３の演算処理を実行する。これにより、推定部２１３は、対象画像６３に写る対象者Ｒの目の視線方向を推定した結果に対応する出力値を学習済み推定モデル３から取得する。

　学習済み推定モデル３の演算処理は、学習済み推定モデル３の構成に応じて適宜決定されてよい。本実施形態では、学習済み推定モデル３は、学習済みの抽出器３１及び推定器３２を備えている。まず、推定部２１３は、取得された対象画像６３を学習済みの抽出器３１に入力し、抽出器３１の演算処理を実行する。この演算処理により、推定部２１３は、対象画像６３に関する特徴量６４に対応する出力値を抽出器３１から取得する。特徴量６４は、第１特徴量の一例である。上記特徴量６０２１及び特徴量６４はそれぞれ、画像特徴量と読み替えてもよい。続いて、推定部２１３は、情報取得部２１１により取得された特徴量６０４及び抽出器３１から取得された特徴量６４を推定器３２に入力し、推定器３２の演算処理を実行する。本実施形態では、学習済み推定モデル３の演算処理を実行することは、これらの抽出器３１及び推定器３２の演算処理を実行することにより構成される。これらの演算処理の結果、推定部２１３は、対象画像６３に写る対象者Ｒの目の視線方向を推定した結果に対応する出力値を推定器３２から得ることができる。出力部２１４は、対象者Ｒの視線方向を推定した結果に関する情報を出力する。

　＜その他＞
　モデル生成装置１及び視線推定装置２の各ソフトウェアモジュールに関しては後述する動作例で詳細に説明する。なお、本実施形態では、モデル生成装置１及び視線推定装置２の各ソフトウェアモジュールがいずれも汎用のＣＰＵによって実現される例について説明している。しかしながら、以上のソフトウェアモジュールの一部又は全部が、１又は複数の専用のプロセッサにより実現されてもよい。すなわち、上記各モジュールは、ハードウェアモジュールとして実現されてもよい。また、モデル生成装置１及び視線推定装置２それぞれのソフトウェア構成に関して、実施形態に応じて、適宜、ソフトウェアモジュールの省略、置換及び追加が行われてもよい。

　§３　動作例
　［モデル生成装置］
　図６は、本実施形態に係るモデル生成装置１の処理手順の一例を示すフローチャートである。以下で説明する処理手順は、モデル生成方法の一例である。ただし、以下で説明する処理手順は一例に過ぎず、各ステップは可能な限り変更されてよい。更に、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

　（ステップＳ１０１）
　ステップＳ１０１では、制御部１１は、収集部１１１として動作し、複数の学習用のデータセット１２０を被験者から収集する。各データセット１２０は、被験者の目の写る学習画像１２１、及び当該学習画像１２１に写る被験者の視線方向の真値を示す正解情報１２３の組み合わせにより構成される。

　各データセット１２０は適宜生成されてよい。例えば、カメラＳ又はこれと同種のカメラ及び被験者を用意する。被験者の人数は適宜決定されてよい。被験者に様々な方向を視るように指示し、指示された方向を視る被験者の顔をカメラにより撮影する。これにより、学習画像１２１を取得することができる。学習画像１２１は、カメラにより得られたそのままの画像であってもよい。或いは、学習画像１２１は、カメラにより得られた画像に何らかの画像処理を適用することで生成されてもよい。取得された学習画像１２１に、被験者に指示した視線方向の真値を示す情報を正解情報１２３として関連付ける。複数の被験者が存在する場合、データセット１２０の由来を識別するために、被験者の識別子等の付加情報を更に関連付けてもよい。これらの処理により、各データセット１２０を生成することができる。なお、学習画像１２１及び正解情報１２３を取得する方法には、後述する基準画像６０１及び真値情報６０３を取得する方法（図８）と同種の方法が採用されてよい。

　各データセット１２０は、コンピュータの動作により自動的に生成されてもよいし、或いは少なくとも部分的にオペレータの操作を含むことで手動的に生成されてもよい。また、各データセット１２０の生成は、モデル生成装置１により行われてもよいし、モデル生成装置１以外の他のコンピュータにより行われてもよい。データセット１２０をモデル生成装置１が生成する場合、制御部１１は、自動的に又は入力装置１５を介したオペレータの操作により手動的に上記生成処理を実行することで、複数のデータセット１２０を取得する。一方、各データセット１２０を他のコンピュータが生成する場合、制御部１１は、例えば、ネットワーク、記憶媒体９１等を介して、他のコンピュータにより生成された複数のデータセット１２０を取得する。一部のデータセット１２０がモデル生成装置１により生成され、その他のデータセット１２０が１又は複数の他のコンピュータにより生成されてもよい。

　取得するデータセット１２０の件数は、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。複数のデータセット１２０を取得すると、制御部１１は、次のステップＳ１０２に処理を進める。

　（ステップＳ１０２）
　ステップＳ１０２では、制御部１１は、機械学習部１１４として動作し、収集された複数のデータセット１２０を使用して、学習モデル４の機械学習を実施する。この機械学習では、制御部１１は、各データセット１２０について、学習画像１２１を抽出器４１に入力することにより推定器４３から得られる出力値（視線方向の推定結果）が、対応する正解情報１２３に適合するものとなるように、抽出器４１及び推定器４３を訓練する。なお、必ずしも収集された全てのデータセット１２０が学習モデル４の機械学習に使用されなければならない訳ではない。学習モデル４の機械学習に使用されるデータセット１２０は適宜選択されてよい。

　一例として、まず、制御部１１は、機械学習の処理対象となる抽出器４１及び推定器４３それぞれを構成するニューラルネットワークを用意する。各ニューラルネットワークの構造（例えば、層の数、各層の種類、各層に含まれるニューロンの数、隣接する層のニューロン同士の結合関係等）、各ニューロン間の結合の重みの初期値、及び各ニューロンの閾値の初期値は、テンプレートにより与えられてもよいし、オペレータの入力により与えられてもよい。また、再学習を行う場合には、制御部１１は、過去の機械学習により得られた学習結果データに基づいて、抽出器４１及び推定器４３を用意してもよい。

　次に、制御部１１は、各データセット１２０の学習画像１２１を訓練データ（入力データ）として使用し、正解情報１２３を教師データ（教師信号、ラベル）として使用し、抽出器４１及び推定器４３の訓練処理を実行する。この訓練処理には、確率的勾配降下法、ミニバッチ勾配降下法等が用いられてよい。

　例えば、制御部１１は、学習画像１２１を抽出器４１に入力し、抽出器４１の演算処理を実行する。すなわち、制御部１１は、抽出器４１の入力層（図４Ａの例では、最も入力側に配置された畳み込み層４１１）に学習画像１２１を入力し、入力側から順に、例えば、ニューロンの発火判定等の各層（４１１、４１２）の順伝播の演算処理を実行する。この演算処理により、制御部１１は、学習画像１２１から抽出された特徴量に対応する出力値を抽出器４１の出力層（図４Ａの例では、最も出力側に配置されたプーリング層４１２）から取得する。

　続いて、制御部１１は、抽出器４１の演算処理と同様に、得られた出力値（特徴量）を推定器４３の入力層（最も入力側に配置された全結合層４３１）に入力し、推定器４３の順伝播の演算処理を実行する。この演算処理により、制御部１１は、学習画像１２１に写る被験者の視線方向を推定した結果に対応する出力値を推定器４３の出力層（最も出力側に配置された全結合層４３１）から取得する。

　次に、制御部１１は、推定器４３の出力層から得られた出力値と正解情報１２３との間の誤差を算出する。誤差（損失）の算出には、損失関数が用いられてよい。損失関数は、機械学習モデルの出力と正解との差分（すなわち、相違の程度）を評価する関数であり、出力層から得られる出力値と正解との差分値が大きいほど、損失関数により算出される誤差の値は大きくなる。誤差の計算に利用する損失関数の種類は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。

　制御部１１は、誤差逆伝播（Back propagation）法により、算出された出力値の誤差の勾配を用いて、抽出器４１及び推定器４３の各演算パラメータ（各ニューロン間の結合の重み、各ニューロンの閾値等）の値の誤差を出力側から順に算出する。制御部１１は、算出された各誤差に基づいて、抽出器４１及び推定器４３の各演算パラメータの値を更新する。各演算パラメータの値を更新する程度は、学習率により調節されてよい。学習率は、オペレータの指定により与えられてもよいし、プログラム内の設定値として与えられてもよい。

　制御部１１は、上記一連の更新処理により、各データセット１２０について、算出される出力値の誤差の和が小さくなるように、抽出器４１及び推定器４３の各演算パラメータの値を調節する。例えば、規定回数実行する、算出される誤差の和が閾値以下になる等の所定の条件を満たすまで、制御部１１は、上記一連の更新処理による抽出器４１及び推定器４３の各演算パラメータの値の調節を繰り返してもよい。

　この機械学習の結果、制御部１１は、各データセット１２０について、学習画像１２１に写る被験者の視線方向を適切に推定する能力を獲得した訓練済みの学習モデル４を生成することができる。また、訓練済みの抽出器４１の出力（すなわち、特徴量）には、推定器４３において被験者の視線方向を適切に推定可能なように、学習画像１２１に含まれる被験者の目に関する成分が含まれるようになる。学習モデル４の機械学習が完了すると、制御部１１は、次のステップＳ１０３に処理を進める。

　（ステップＳ１０３）
　ステップＳ１０３では、制御部１１は、抽出器４１の学習結果を利用して、推定モデル３を含む学習モデル３０を用意する。

　本実施形態では、制御部１１は、抽出器４１の学習結果に基づいて、各抽出器（３１、３５）を用意する。すなわち、制御部１１は、ステップＳ１０２により生成された訓練済みの抽出器４１又はその複製を各抽出器（３１、３５）として利用する。各抽出器（３１、３５）を別々に用意する場合、又は、所定の方向が複数設定され、設定された異なる所定の方向毎に抽出器３５を別々の用意する場合、上記ステップＳ１０２では、制御部１１は、別個の学習モデル４を用意し、それぞれの機械学習を実施してもよい。そして、制御部１１は、それぞれの機械学習により生成された訓練済みの抽出器４１又はその複製を、各抽出器（３１、３５）に利用してもよい。

　また、制御部１１は、推定器３２及び結合器３６それぞれを構成するニューラルネットワークを用意する。上記抽出器４１等と同様に、推定器３２及び結合器３６それぞれを構成するニューラルネットワークの構造、各ニューロン間の結合の重みの初期値、及び各ニューロンの閾値の初期値は、テンプレートにより与えられてもよいし、オペレータの入力により与えられてもよい。また、再学習を行う場合には、制御部１１は、過去の機械学習により得られた学習結果データに基づいて、推定器３２及び結合器３６を用意してもよい。各抽出器（３１、３５）、推定器３２及び結合器３６により構成される学習モデル３０を用意すると、制御部１１は、次のステップＳ１０４に処理を進める。

　（ステップＳ１０４）
　ステップＳ１０４では、制御部１１は、第１取得部１１２として動作し、学習用特徴情報５０２及び学習用真値情報５０３を含む学習用較正情報５０を取得する。

　本実施形態では、制御部１１は、抽出器３５及び結合器３６を利用して、学習用較正情報５０を取得する。具体的には、制御部１１は、まず、所定の方向を視る被験者の目の写る学習用基準画像５０１及びその学習用基準画像５０１に写る被験者の視る所定の方向（視線方向）の真値を示す学習用真値情報５０３を取得する。制御部１１は、所定の方向を視る被験者について得られたデータセット１２０に含まれる学習画像１２１を学習用基準画像５０１として取得し、正解情報１２３を学習用真値情報５０３として取得してもよい。或いは、制御部１１は、学習用基準画像５０１及び学習用真値情報５０３をデータセット１２０とは別に取得してもよい。学習用基準画像５０１及び学習用真値情報５０３を取得する方法は、データセット１２０を生成する方法と同様であってよい。

　次に、制御部１１は、取得された学習用基準画像５０１を抽出器３５の入力層（図４Ｂの例では、最も入力側に配置された畳み込み層３５１）に入力し、抽出器３５の順伝播の演算処理を実行する。この演算処理により、制御部１１は、学習用基準画像５０１に関する特徴量５０２１（学習用特徴情報５０２）に対応する出力値を抽出器３５の出力層（図４Ｂの例では、最も出力側に配置されたプーリング層３５２）から取得する。続いて、制御部１１は、取得された特徴量５０２１及び学習用真値情報５０３を結合器３６の入力層（最も入力側に配置された全結合層３６１）に入力し、結合器３６の順伝播の演算処理を実行する。この演算処理により、制御部１１は、較正に関する特徴量５０４に対応する出力値を結合器３６の出力層（最も出力側に配置された全結合層３６１）から取得する。

　本実施形態では、制御部１１は、これらの演算処理により、抽出器３５及び結合器３６を利用して、特徴量５０４により構成される学習用較正情報５０を取得することができる。なお、上記のとおり、所定の方向が複数設定される場合、制御部１１は、複数の異なる所定の方向それぞれについて学習用基準画像５０１及び学習用真値情報５０３を取得してもよい。そして、制御部１１は、それぞれについて抽出器３５及び結合器３６の演算処理を実行することで、複数の異なる所定の方向それぞれの学習用特徴情報５０２及び学習用真値情報５０３を含む学習用較正情報５０を取得してもよい。学習用較正情報５０を取得すると、制御部１１は、次のステップＳ１０５に処理を進める。

　（ステップＳ１０５）
　ステップＳ１０５では、制御部１１は、第２取得部１１３として動作し、学習用対象画像５３及び正解情報５５の組み合わせによりそれぞれ構成される複数の学習データセット５１を取得する。

　本実施形態では、制御部１１は、収集された複数のデータセット１２０の少なくともいずれかを学習データセット５１として使用してもよい。すなわち、制御部１１は、データセット１２０の学習画像１２１を学習データセット５１の学習用対象画像５３として取得し、データセット１２０の正解情報１２３を学習データセット５１の正解情報５５として取得してもよい。或いは、制御部１１は、各学習データセット５１を上記データセット１２０とは別に取得してもよい。各学習データセット５１を取得する方法は、データセット１２０を生成する方法と同様であってよい。

　取得する学習データセット５１の件数は、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。複数の学習データセット５１を取得すると、制御部１１は、次のステップＳ１０６に処理を進める。なお、ステップＳ１０５の処理を実行するタイミングは、このような例に限定されなくてもよい。後述するステップＳ１０６の処理を実行する前であれば、ステップＳ１０５の処理は任意のタイミングで実行されてよい。

　（ステップＳ１０６）
　ステップＳ１０６では、制御部１１は、機械学習部１１４として動作し、取得された複数の学習データセット５１を使用して、推定モデル３の機械学習を実施する。この機械学習では、制御部１１は、各学習データセット５１について、学習用対象画像５３及び学習用較正情報５０の入力に対して、対応する正解情報５５に適合する出力値を出力するように推定モデル３を訓練する。

　本実施形態では、制御部１１は、各学習データセット５１の学習用対象画像５３、学習用基準画像５０１、及び学習用真値情報５０３を訓練データとして使用し、各学習データセット５１の正解情報５５を教師データとして使用し、推定モデル３を含む学習モデル３０の訓練処理を実行する。この訓練処理には、確率的勾配降下法、ミニバッチ勾配降下法等が用いられてよい。

　例えば、制御部１１は、各学習データセット５１に含まれる学習用対象画像５３を抽出器３１の入力層（図４Ｂの例では、最も入力側に配置された畳み込み層３１１）に入力し、抽出器３１の順伝播の演算処理を実行する。この演算処理により、制御部１１は、学習用対象画像５３から抽出された特徴量５４に対応する出力値を抽出器３１の出力層（図４Ｂの例では、最も出力側に配置されたプーリング層３１２）から取得する。

　続いて、制御部１１は、結合器３６から得られた特徴量５０４及び抽出器３１から得られた特徴量５４を推定器３２の入力層（最も入力側に配置された全結合層３２１）に入力し、推定器３２の順伝播の演算処理を実行する。この演算処理により、制御部１１は、学習用対象画像５３に写る被験者の視線方向を推定した結果に対応する出力値を推定器３２の出力層（最も出力側に配置された全結合層３２１）から取得する。

　次に、制御部１１は、推定器３２の出力層から得られた出力値と対応する正解情報５５との間の誤差を算出する。上記学習モデル４の機械学習と同様に、誤差の算出には、任意の損失関数が用いられてよい。制御部１１は、誤差逆伝播法により、算出された出力値の誤差の勾配を用いて、各抽出器（３１、３５）、結合器３６、及び推定器３２の各演算パラメータの値の誤差を出力側から順に算出する。制御部１１は、算出された各誤差に基づいて、各抽出器（３１、３５）、結合器３６、及び推定器３２の各演算パラメータの値を更新する。上記学習モデル４の機械学習と同様に、各演算パラメータの値を更新する程度は、学習率により調節されてよい。

　制御部１１は、上記ステップＳ１０４の特徴量５０４の算出及び上記推定モデル３の演算処理を伴いながら、上記一連の更新処理を実行する。これにより、制御部１１は、学習用基準画像５０１、学習用真値情報５０３、及び各学習データセット５１について、算出される出力値の誤差の和が小さくなるように、各抽出器（３１、３５）、結合器３６、及び推定器３２の各演算パラメータの値を調節する。上記学習モデル４の機械学習と同様に、所定の条件を満たすまで、制御部１１は、上記一連の更新処理による各抽出器（３１、３５）、結合器３６、及び推定器３２の各演算パラメータの値の調節を繰り返してもよい。

　なお、上記のとおり、同一の被験者から得られた学習用基準画像５０１、学習用真値情報５０３及び複数の学習データセット５１が学習モデル３０の機械学習に使用されるように、それぞれの由来である被験者が識別されてもよい。また、各抽出器（３１、３５）は、上記学習モデル４の機械学習により、人物の視線方向を推定可能な成分を含む特徴量を画像から抽出する能力を獲得するように訓練されている。そのため、上記更新処理において、各抽出器（３１、３５）の各演算パラメータの値を調節する処理は省略されてよい。また、上記ステップＳ１０４の処理は、推定器３２の演算処理を実行する前の任意のタイミングで実行されてよい。例えば、抽出器３１の演算処理を実行した後に、上記ステップＳ１０４の処理が実行されてもよい。

　この機械学習の結果、制御部１１は、各学習データセット５１について、学習用基準画像５０１、学習用真値情報５０３、及び学習用対象画像５３から人物の視線方向を適切に推定する能力を獲得した訓練済みの学習モデル３０を生成することができる。すなわち、制御部１１は、各学習データセット５１に対して、人物の視線方向の推定に有益な較正特徴量を導出する能力を獲得した学習済み結合器３６を生成することができる。また、制御部１１は、各学習データセット５１について、抽出器３１により得られる画像の特徴量及び結合器３６により得られる較正特徴量から対応する画像に写る人物の視線方向を適切に推定する能力を獲得した学習済み推定器３２を生成することができる。学習モデル３０の機械学習が完了すると、制御部１１は、次のステップＳ１０７に処理を進める。

　（ステップＳ１０７）
　ステップＳ１０７では、制御部１１は、保存処理部１１５として動作し、機械学習により生成された学習済みの学習モデル３０（推定モデル３、抽出器３５、及び結合器３６）に関する情報を学習結果データ１２５として生成する。そして、制御部１１は、生成された学習結果データ１２５を所定の記憶領域に保存する。

　所定の記憶領域は、例えば、制御部１１内のＲＡＭ、記憶部１２、外部記憶装置、記憶メディア又はこれらの組み合わせであってよい。記憶メディアは、例えば、ＣＤ、ＤＶＤ等であってよく、制御部１１は、ドライブ１７を介して記憶メディアに学習結果データ１２５を格納してもよい。外部記憶装置は、例えば、ＮＡＳ（Network Attached Storage）等のデータサーバであってよい。この場合、制御部１１は、通信インタフェース１３を利用して、ネットワークを介してデータサーバに学習結果データ１２５を格納してもよい。また、外部記憶装置は、例えば、外部インタフェース１４を介してモデル生成装置１に接続された外付けの記憶装置であってもよい。

　学習結果データ１２５の保存が完了すると、制御部１１は、本動作例に係る処理を終了する。

　なお、生成された学習結果データ１２５は、任意のタイミングで視線推定装置２に適用されてよい。例えば、制御部１１は、ステップＳ１０７の処理として又はステップＳ１０７の処理とは別に、学習結果データ１２５を視線推定装置２に転送してもよい。視線推定装置２は、この転送を受信することで、学習結果データ１２５を取得してもよい。また、例えば、視線推定装置２は、通信インタフェース２３を利用して、モデル生成装置１又はデータサーバにネットワークを介してアクセスすることで、学習結果データ１２５を取得してもよい。また、例えば、視線推定装置２は、記憶媒体９２を介して、学習結果データ１２５を取得してもよい。また、例えば、学習結果データ１２５は、視線推定装置２に予め組み込まれてもよい。

　更に、制御部１１は、上記ステップＳ１０１～ステップＳ１０７（又はステップＳ１０４～ステップＳ１０７）の処理を定期又は不定期に繰り返すことで、学習結果データ１２５を更新又は新たに作成してもよい。この繰り返しの際に、機械学習に使用するデータの少なくとも一部の変更、修正、追加、削除等が適宜実行されてよい。そして、制御部１１は、更新した又は新たに生成した学習結果データ１２５を任意の方法で視線推定装置２に提供することで、視線推定装置２の保持する学習結果データ１２５を更新してもよい。

　［視線推定装置］
　図７は、本実施形態に係る視線推定装置２の処理手順の一例を示すフローチャートである。以下で説明する処理手順は、視線推定方法の一例である。ただし、以下で説明する処理手順は一例に過ぎず、各ステップは可能な限り変更されてよい。更に、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

　（ステップＳ２０１）
　ステップＳ２０１では、制御部２１は、情報取得部２１１として動作し、特徴情報６０２及び真値情報６０３を含む較正情報６０を取得する。

　図８は、較正情報６０を取得する方法の一例を模式的に例示する。本実施形態では、まず、制御部２１は、対象者Ｒに所定の方向を視るように指示を出力する。図８の例では、出力装置２６は、ディスプレイ２６１を含む。制御部２１は、ディスプレイ２６１上、所定の方向に対応する位置にマーカＭを表示する。そして、制御部２１は、対象者Ｒに対して、ディスプレイ２６１に表示されたマーカＭの方を視るように指示を出力する。指示の出力形式は、実施の形態に応じて適宜選択されてよい。出力装置２６がスピーカを含む場合、指示の出力は、スピーカを介して音声により行われてもよい。また、出力装置２６がディスプレイ２６１等の表示装置を含む場合、指示の出力は、表示装置を介して画像表示により行われてもよい。この指示を出力した後、制御部２１は、マーカＭの方を視る対象者Ｒの顔をカメラＳにより撮影する。カメラＳは、対象者Ｒの視線を観測可能なセンサの一例である。これにより、制御部２１は、所定の方向を視る対象者の目の写る基準画像６０１を取得することができる。また、制御部２１は、出力する指示に応じて真値情報６０３を当然に取得することができる。

　なお、所定の方向の指標は、ディスプレイ２６１上に表示するマーカＭに限られなくてもよく、実施の形態に応じて適宜決定されてよい。例えば、運転者の視線方向を推定する場面の例では、カメラＳを設置する位置を決定すると、ルームミラー等の設置物とカメラＳとの位置関係が規定される。このように、対象者Ｒの視線を観測するセンサに対して位置が規定される対象物が存在する場合、制御部２１は、その対象物を視るように指示を出力してもよい。このように、対象者Ｒの視線を観測するセンサとの位置関係が規定される対象物が存在する場合、制御部２１は、対象者Ｒに対して、その対象物を視るように指示を出力してもよい。この方法によれば、対象者Ｒの視線の個性が表れた基準画像６０１及び対応する真値情報６０３を適切かつ簡易に取得することができる。また、上記モデル生成の場面と視線方向を推定する本場面（運用の場面）とで所定の方向は完全には一致していなくてもよい。これに対応するために、複数の異なる所定の方向が設定され、運用の場面において、少なくともいずれかの所定の方向のデータ（本実施形態では、基準画像６０１及び真値情報６０３）が無作為に選択されてもよい。

　次に、制御部２１は、学習結果データ１２５を参照して、学習済みの抽出器３５及び結合器３６の設定を行う。制御部２１は、取得された基準画像６０１を学習済みの抽出器３５の入力層に入力し、抽出器３５の順伝播の演算処理を実行する。この演算処理により、制御部２１は、基準画像６０１に関する特徴量６０２１（特徴情報６０２）に対応する出力値を学習済みの抽出器３５の出力層から取得する。続いて、制御部２１は、取得された特徴量６０２１及び真値情報６０３を学習済みの結合器３６の入力層に入力し、結合器３６の順伝播の演算処理を実行する。この演算処理により、制御部２１は、較正に関する特徴量６０４に対応する出力値を学習済みの結合器３６の出力層から取得する。本実施形態では、制御部２１は、これらの演算処理により、学習済みの抽出器３５及び結合器３６を利用して、特徴量６０４により構成される較正情報６０を取得することができる。

　なお、上記のとおり、学習済み推定モデル３の生成過程に対応して、較正情報６０は、複数の異なる所定の方向それぞれに対応する特徴情報６０２及び真値情報６０３を含んでもよい。本実施形態では、制御部２１は、異なる所定の方向毎に上記取得処理（図８）を実行することで、複数の異なる所定の方向それぞれの基準画像６０１及び真値情報６０３を取得してもよい。そして、制御部２１は、それぞれについて学習済みの抽出器３５及び結合器３６の演算処理を実行することで、複数の異なる所定の方向それぞれの特徴情報６０２及び真値情報６０３を含む較正情報６０（特徴量６０４）を取得してもよい。較正情報６０を取得すると、制御部２１は、次のステップＳ２０２に処理を進める。

　（ステップＳ２０２）
　ステップＳ２０２では、制御部２１は、画像取得部２１２として動作し、対象者Ｒの目の写る対象画像６３を取得する。本実施形態では、制御部２１は、外部インタフェース２４を介して、対象者Ｒを撮影するようにカメラＳの動作を制御する。これにより、制御部２１は、視線方向の推定処理の対象となる対象画像６３をカメラＳから直接的に取得することができる。対象画像６３は、動画像であってもよいし、静止画像であってもよい。ただし、対象画像６３を取得する経路は、このような例に限定されなくてもよい。例えば、カメラＳは、他のコンピュータにより制御されてよい。この場合、制御部２１は、他のコンピュータを介してカメラＳから間接的に対象画像６３を取得してもよい。対象画像６３を取得すると、制御部２１は、次のステップＳ２０３に処理を進める。

　（ステップＳ２０３）
　ステップＳ２０３では、制御部２１は、推定部２１３として動作し、学習済み推定モデル３を利用して、対象画像６３に写る対象者Ｒの目の視線方向を推定する。この推定処理では、制御部２１は、取得された対象画像６３及び較正情報６０を学習済み推定モデル３に入力し、学習済み推定モデル３の演算処理を実行する。これにより、制御部２１は、対象画像６３に写る対象者Ｒの目の視線方向を推定した結果に対応する出力値を学習済み推定モデル３から取得する。

　本実施形態では、まず、制御部２１は、学習結果データ１２５を参照して、学習済みの抽出器３１及び推定器３２の設定を行う。次に、制御部２１は、取得された対象画像６３を学習済みの抽出器３１の入力層に入力し、抽出器３１の順伝播の演算処理を実行する。この演算処理により、制御部２１は、対象画像６３に関する特徴量６４に対応する出力値を学習済みの抽出器３１の出力層から取得する。続いて、制御部２１は、ステップＳ２０１により取得された特徴量６０４及び抽出器３１から取得された特徴量６４を学習済みの推定器３２の入力層に入力し、推定器３２の順伝播の演算処理を実行する。この演算処理により、制御部２１は、対象画像６３に写る対象者Ｒの目の視線方向を推定した結果に対応する出力値を学習済みの推定器３２の出力層から取得することができる。すなわち、本実施形態では、対象画像６３に写る対象者Ｒの視線方向を推定することは、対象画像６３及び較正情報６０を学習済み推定モデル３に与えて、学習済み推定モデル３の順伝播の演算処理を実行することにより達成される。なお、上記ステップＳ２０１の処理は、推定器３２の演算処理を実行する前の任意のタイミングで実行されてよい。例えば、学習済みの抽出器３１の演算処理を実行した後に、上記ステップＳ２０１の処理が実行されてよい。視線方向の推定処理が完了すると、制御部２１は、次のステップＳ２０４に処理を進める。

　（ステップＳ２０４）
　ステップＳ２０４では、制御部２１は、出力部２１４として動作し、対象者Ｒの視線方向を推定した結果に関する情報を出力する。

　出力先及び出力する情報の内容はそれぞれ、実施の形態に応じて適宜決定されてよい。例えば、制御部２１は、視線方向を推定した結果を、例えば、ＲＡＭ、記憶部２２等のメモリ又は出力装置２６にそのまま出力してもよい。制御部２１は、視線方向を推定した結果をメモリに出力することで、対象者Ｒの視線方向の履歴を作成してもよい。

　また、例えば、制御部２１は、視線方向を推定した結果を利用して、何らかの情報処理を実行してもよい。そして、制御部２１は、その情報処理を実行した結果を、推定の結果に関する情報として出力してもよい。一例として、車両を運転する運転者の状態を監視するために、運転者の視線方向を推定する場面を想定する。この場面では、制御部２１は、推定される視線方向に基づいて、運転者がよそ見をしているか否かを判定してもよい。そして、よそ見をしていると判定される場合に、制御部２１は、ステップＳ２０４の出力処理として、運転に適切な方向を視るように指示したり、車両の走行速度を落としたりする処理を実行してもよい。その他の一例として、ユーザインタフェースにおいて対象者Ｒの視線方向を推定する場面を想定する。この場面では、制御部２１は、ステップＳ２０４の出力処理として、推定される視線方向に存在するアイコンに対応するアプリケーションを実行したり、推定される視線方向に存在する表示物が表示装置の中心に来るように表示範囲を変更したりする処理を実行してもよい。視線方向の推定結果に関する情報を出力すると、制御部２１は、次のステップＳ２０５に処理を進める。

　（ステップＳ２０５）
　ステップＳ２０５では、視線方向の推定処理を繰り返すか否かを判定する。推定処理を繰り返すか否かを判定する基準は、実施の形態に応じて適宜決定されてよい。

　判定基準として、例えば、処理を繰り返す期間又は回数が設定されてもよい。この場合、制御部２１は、視線方向を推定する処理を実行した期間又は回数が規定値に到達したか否かに応じて、視線方向の推定処理を繰り返すか否かを判定してもよい。すなわち、推定処理を実行した期間又は回数が規定値に到達していない場合、制御部２１は、視線方向の推定処理を繰り返すと判定してもよい。他方、推定処理を実行した期間又は回数が規定値に到達した場合、制御部２１は、視線方向の処理を繰り返さないと判定してもよい。

　また、例えば、入力装置２５を介して終了の指示が与えられるまで、制御部２１は、視線方向の推定処理を繰り返してもよい。この場合、終了の指示が与えられていない間、制御部２１は、視線方向の推定処理を繰り返すと判定してもよい。他方、終了の指示が与えられた後、制御部２１は、視線方向の推定処理を繰り返さないと判定してもよい。

　視線方向の推定処理を繰り返すと判定した場合、制御部２１は、ステップＳ２０２に処理を戻し、対象画像６３の取得処理（ステップＳ２０２）及び対象者Ｒの視線方向の推定処理（ステップＳ２０３）を繰り返し実行する。これにより、対象者Ｒの視線方向の推定を継続的に行うことができる。一方、視線方向の推定処理を繰り返さないと判定した場合、制御部２１は、視線方向の推定処理の繰り返し実行を停止し、本動作例に係る処理手順を終了する。

　ステップＳ２０１による較正情報６０（特徴量６０４）の導出が済んでいれば、この較正情報６０を更新しようとしない限り、視線方向の推定処理を実行する各サイクルで、既に導出された較正情報６０を使い回すことができる。そのため、本実施形態のように、視線方向の推定処理を実行する各サイクルでステップＳ２０１の処理は省略されてよい。ただし、視線方向の推定処理を実行する全てのサイクルで、ステップＳ２０１の処理が必ず省略されなければならない訳ではない。較正情報６０を更新する場合、任意のタイミングで、ステップＳ２０１の再度実行されてもよい。また、少なくとも一部のサイクルにおいて、ステップＳ２０４の処理は省略されてよい。

　［特徴］
　以上のとおり、本実施形態では、ステップＳ２０３において、対象者Ｒの視線方向を推定するのに、対象者Ｒの目の写る対象画像６３だけではなく、特徴情報６０２及び真値情報６０３を含む較正情報６０を利用する。特徴情報６０２及び真値情報６０３によれば、真値により既知の方向についての対象者Ｒの視線の個性を把握することができる。したがって、本実施形態によれば、較正情報６０から把握可能な被験者及び対象者Ｒの間の個人差を考慮した上で、対象画像６３に写る対象者Ｒの視線方向を推定することができる。そのため、ステップＳ２０３における対象者Ｒの視線方向を推定する精度の向上を図ることができる。較正情報６０の利用により、斜視等により視線方向に目が向かない対象者Ｒについても、視線方向の推定精度の向上が期待できる。また、本実施形態では、較正情報６０が、複数の異なる所定の方向それぞれに対応する特徴情報６０２及び真値情報６０３を含むようにしてもよい。これにより、複数の異なる所定の方向について較正情報６０から対象者Ｒの視線の個性をより正確に把握可能である。そのため、対象者Ｒの視線方向を推定する精度の更なる向上を図ることができる。本実施形態に係るモデル生成装置１によれば、ステップＳ１０１～ステップＳ１０７の処理により、そのような高精度に対象者Ｒの視線方向を推定可能な学習済み推定モデル３を生成することができる。

　また、本実施形態では、基準画像６０１及び真値情報６０３をそのまま較正情報６０として利用するのではなく、基準画像６０１から特徴量６０２１を抽出し、得られた特徴情報６０２及び真値情報６０３を結合することで導出される特徴量６０４を較正情報６０として利用する。これにより、較正情報６０の情報量を低減することができる。また、本実施形態では、特徴量６０４の導出は、ステップＳ２０１の処理内で実行される。対象者Ｒの視線方向を推定する処理を繰り返す場合に、導出された特徴量６０４を各サイクルで使い回すことができる。これらにより、ステップＳ２０３の処理コストを抑えることができる。したがって、本実施形態によれば、ステップＳ２０３における対象者Ｒの視線方向を推定する処理の高速化を図ることができる。

　なお、学習済みの抽出器３５により、所定の方向を視る対象者Ｒの視線の特徴に関する成分を含む特徴量６０２１（特徴情報６０２）を基準画像６０１から適切に抽出することができる。また、学習済みの結合器３６により、所定の方向を視る対象者Ｒの視線の特徴及びその所定の方向の真値が集約された成分を含む特徴量６０４を特徴量６０２１及び真値情報６０３から適切に導出可能である。そのため、学習済み推定モデル３において、特徴量６０４及び対象画像６３から対象者Ｒの視線方向を適切に推定可能である。

　§４　変形例
　以上、本発明の実施の形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良又は変形を行うことができることは言うまでもない。例えば、以下のような変更が可能である。なお、以下では、上記実施形態と同様の構成要素に関しては同様の符号を用い、上記実施形態と同様の点については、適宜説明を省略した。以下の変形例は適宜組み合わせ可能である。

　＜４．１＞
　上記実施形態では、較正情報６０の取得にカメラＳを利用している。しかしながら、対象者Ｒの視線を観測するためのセンサは、このような例に限定されなくてもよい。センサは、対象者Ｒの視線の特徴を観測可能であれば、その種類は、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。センサには、例えば、コイルを内包した強膜コンタクトレンズ、眼電位センサ等が用いられてよい。この場合、視線推定装置２は、上記実施形態と同様に、対象者Ｒに所定の方向を視るように指示を出力した後に、対象者Ｒの視線をセンサにより観測してもよい。この観測により得られたセンシングデータから特徴情報６０２を取得することができる。特徴情報６０２の取得には、例えば、サーチコイル法、ＥＯＧ（electro-oculogram）法等が用いられてよい。

　＜４．２＞
　上記実施形態では、推定モデル３は、抽出器３１及び推定器３２により構成されている。較正情報６０は、抽出器３５及び結合器３６を利用して、基準画像６０１及び真値情報６０３から導出される特徴量６０４により構成される。推定器３２は、結合器３６により導出される特徴量６０４及び対象画像６３に関する特徴量６４の入力を受け付けるように構成されている。しかしながら、推定モデル３及び較正情報６０の構成は、このような例に限定されなくてもよい。

　例えば、推定モデル３は、結合器３６を更に備えてもよい。この場合、較正情報６０は、特徴情報６０２及び真値情報６０３により構成されてよい。ステップＳ２０１の処理は、基準画像６０１を取得すること、基準画像６０１を抽出器３５に入力し、抽出器３５の演算処理を実行することで、基準画像６０１に関する特徴量６０２１（特徴情報６０２）を取得すること、及び真値情報６０３を取得することにより構成されてよい。ステップＳ２０３の処理は、結合器３６を利用して、特徴量６０２１及び真値情報６０３から特徴量６０４を導出する処理を更に含んでもよい。

　また、例えば、推定モデル３は、抽出器３５及び結合器３６を更に備えてもよい。この場合、特徴情報６０２は、基準画像６０１により構成されてよい。ステップＳ２０１の処理は、基準画像６０１及び真値情報６０３を取得することにより構成されてよい。較正情報６０は、基準画像６０１及び真値情報６０３により構成されてよい。ステップＳ２０３の処理は、抽出器３５及び結合器３６を利用して、基準画像６０１及び真値情報６０３から特徴量６０４を導出する処理を更に含んでよい。

　また、例えば、視線推定装置２において、抽出器３５は省略されてよい。この場合、制御部２１は、特徴情報６０２を直接的に取得してもよい。一例として、特徴情報６０２が特徴量６０２１により構成される場合、基準画像６０１から特徴量６０２１を抽出する処理は、他のコンピュータにより実行されてよい。制御部２１は、他のコンピュータから特徴量６０２１を取得してもよい。その他の一例として、特徴情報６０２は基準画像６０１により構成されてよい。これに応じて、結合器３６は、基準画像６０１及び真値情報６０３の入力を受け付けるように構成されてもよい。

　図９は、第１変形例に係る推定モデル３Ａを生成するモデル生成装置１のソフトウェア構成の一例を模式的に例示する。図１０は、第１変形例に係る推定モデル３Ａを利用する視線推定装置２のソフトウェア構成の一例を模式的に例示する。この第１変形例では、結合器３６が省略される。これに応じて、モデル生成装置１及び視線推定装置２の処理手順において、特徴情報及び真値情報から較正特徴量を導出する処理が省略される。推定器３２Ａは、特徴情報、真値情報、及び対象画像に関する特徴量の入力を受け付けるように構成される。すなわち、推定器３２Ａには、較正特徴量ではなく、特徴情報及び真値情報が直接的に入力される。これらの点を除き、第１変形例は、上記実施形態と同様に構成される。推定器３２Ａは、上記実施形態と同様に、１又は複数の全結合層３２１Ａを備える。推定モデル３Ａは、抽出器３１及び推定器３２Ａにより構成される。

　図９に示されるとおり、この第１変形例では、モデル生成装置１は、上記結合器３６の訓練処理を省略する点を除き、上記実施形態と同様の処理手順により、学習済みの推定モデル３Ａ（抽出器３１及び推定器３２Ａ）及び抽出器３５を生成することができる。上記ステップＳ１０７では、制御部１１は、機械学習により生成された学習済みの推定モデル３Ａ及び抽出器３５に関する情報を学習結果データ１２５Ａとして生成する。そして、制御部１１は、生成された学習結果データ１２５Ａを所定の記憶領域に保存する。学習結果データ１２５Ａは、任意のタイミングで視線推定装置２に提供されてよい。

　同様に、図１０に示されるとおり、視線推定装置２は、上記結合器３６の演算処理を省略する点を除き、上記実施形態と同様の処理手順により、対象者Ｒの視線方向を推定することができる。上記ステップＳ２０１では、制御部２１は、基準画像６０１及び真値情報６０３を取得する。制御部２１は、取得された基準画像６０１を抽出器３５に入力し、抽出器３５の演算処理を実行する。これにより、制御部２１は、基準画像６０１に関する特徴量６０２１（特徴情報６０２）に対応する出力値を抽出器３５から取得する。第１変形例では、較正情報６０は、特徴量６０２１（特徴情報６０２）及び真値情報６０３により構成される。

　上記ステップＳ２０３では、制御部２１は、学習済みの推定モデル３Ａを利用して、対象画像６３に写る対象者Ｒの視線方向を推定する。具体的に、制御部２１は、取得された対象画像６３を抽出器３１に入力し、抽出器３１の演算処理を実行する。この演算処理により、制御部２１は、対象画像６３に関する特徴量６４を抽出器３１から取得する。次に、制御部２１は、特徴量６０２１（特徴情報６０２）、真値情報６０３、及び特徴量６４を推定器３２Ａに入力し、推定器３２Ａの演算処理を実行する。この演算処理により、制御部２１は、対象画像６３に写る対象者Ｒの視線方向を推定した結果に対応する出力値を推定器３２Ａから取得することができる。

　第１変形例によれば、上記実施形態と同様に、学習済み推定モデル３Ａにおいて、特徴情報６０２（特徴量６０２１）、真値情報６０３、及び対象画像６３から対象者Ｒの視線方向を適切に推定可能である。特徴情報６０２及び真値情報６０３を利用することで、ステップＳ２０３における対象者Ｒの視線方向を推定する精度の向上を図ることができる。また、対象者Ｒの視線方向を推定する処理を繰り返す場合に、ステップＳ２０１により導出された特徴量６０２１（特徴情報６０２）を各サイクルで使い回すことができる。この分だけ、ステップＳ２０３における対象者Ｒの視線方向を推定する処理の高速化を図ることができる。

　なお、この第１変形例でも、視線推定装置２において、抽出器３５が省略されてよい。この場合、制御部２１は、上記と同様に、特徴情報６０２を直接的に取得してもよい。特徴情報６０２が基準画像６０１により構成される場合、推定器３２Ａは、基準画像６０１、真値情報６０３、及び特徴量６４の入力を受け付けるように構成されてもよい。

　図１１は、第２変形例に係る推定モデル３Ｂを生成するモデル生成装置１のソフトウェア構成の一例を模式的に例示する。図１２は、第２変形例に係る推定モデル３Ａを利用する視線推定装置２のソフトウェア構成の一例を模式的に例示する。この第２変形例では、推定モデル３Ｂは、抽出器３５を更に含んでいる。すなわち、推定モデル３Ｂは、各抽出器（３１、３５）及び推定器３２Ｂを備えている。これに応じて、特徴情報は、基準画像により構成される。これらの点を除き、第２変形例は、第１変形例と同様に構成される。推定器３２Ｂは、上記推定器３２Ａと同様に構成される。推定器３２Ｂは、上記第１変形例と同様に、１又は複数の全結合層３２１Ｂを備える。

　図１１に示されるとおり、この第２変形例では、モデル生成装置１は、上記第１変形例と同様の処理手順により、学習済みの推定モデル３Ｂを生成することができる。上記ステップＳ１０７では、制御部１１は、機械学習により生成された学習済みの推定モデル３Ｂに関する情報を学習結果データ１２５Ｂとして生成する。そして、制御部１１は、生成された学習結果データ１２５Ｂを所定の記憶領域に保存する。学習結果データ１２５Ｂは、任意のタイミングで視線推定装置２に提供されてよい。

　同様に、図１２に示されるとおり、視線推定装置２は、上記第１変形例と同様の処理手順により、対象者Ｒの視線方向を推定することができる。上記ステップＳ２０１では、制御部２１は、基準画像６０１及び真値情報６０３を取得する。上記ステップＳ２０３では、制御部２１は、学習済みの推定モデル３Ｂを利用して、対象画像６３に写る対象者Ｒの視線方向を推定する。具体的に、制御部２１は、取得された対象画像６３を抽出器３１に入力し、抽出器３１の演算処理を実行する。この演算処理により、制御部２１は、対象画像６３に関する特徴量６４を抽出器３１から取得する。また、制御部２１は、取得された基準画像６０１を抽出器３５に入力し、抽出器３５の演算処理を実行する。これにより、制御部２１は、基準画像６０１に関する特徴量６０２１に対応する出力値を抽出器３５から取得する。各抽出器（３１、３５）の処理順序は任意でよい。次に、制御部２１は、特徴量６０２１、真値情報６０３、及び特徴量６４を推定器３２Ｂに入力し、推定器３２Ｂの演算処理を実行する。この演算処理により、制御部２１は、対象画像６３に写る対象者Ｒの視線方向を推定した結果に対応する出力値を推定器３２Ｂから取得することができる。

　第２変形例によれば、上記実施形態と同様に、学習済み推定モデル３Ｂにおいて、基準画像６０１（特徴情報）、真値情報６０３、及び対象画像６３から対象者Ｒの視線方向を適切に推定可能である。特徴情報及び真値情報６０３を利用することで、ステップＳ２０３における対象者Ｒの視線方向を推定する精度の向上を図ることができる。

　図１３Ａ及び図１３Ｂは、第３変形例に係る推定モデル３Ｃを生成するモデル生成装置１のソフトウェア構成の一例を模式的に例示する。図１４は、第３変形例に係る推定モデル３Ｃを利用する視線推定装置２のソフトウェア構成の一例を模式的に例示する。この第３変形例では、特徴量等における視線方向の表現にヒートマップを用いる。ヒートマップは、人物の注視する方向を画像で表現する。ヒートマップの各画素の値は、例えば、その位置を人物が注視する程度に対応する。各画素の合計値を１に正規化すると、各画素の値は、その位置を人物が注視している確率を示すことができる。

　これに応じて、図１３Ａ及び図１３Ｂに示されるとおり、各抽出器（３１、３５、４１）は、各変換器（３１Ｃ、３５Ｃ、４１Ｃ）に置き換えられる。変換器３１Ｃは、第１変換器の一例であり、変換器３５Ｃは、第２変換器の一例である。各変換器（３１Ｃ、３５Ｃ、４１Ｃ）は、人物の目の写る画像の入力を受け付け、入力された画像から導出される人物の視線方向に関するヒートマップを出力するように構成される。すなわち、各変換器（３１Ｃ、３５Ｃ、４１Ｃ）は、人物の目の写る画像を視線方向に関するヒートマップに変換するように構成される。

　図１３Ａに示されるとおり、学習モデル４において、抽出器４１は変換器４１Ｃに置き換えられ、推定器４３は省略される。変換器４１Ｃは、畳み込み層４１５、プーリング層４１６、アンプーリング層４１７、及び逆畳み込み層４１８を備える。アンプーリング層４１７は、プーリング層４１６のプーリング処理とは逆演算を行うように構成される。逆畳み込み層４１８は、畳み込み層４１５の畳み込み演算の逆演算を行うように構成される。

　各層４１５～４１８の数は、実施の形態に応じて適宜決定されてよい。アンプーリング層４１７、及び逆畳み込み層４１８は、畳み込み層４１５及びプーリング層４１６よりも出力側に配置される。図１３Ａの例では、最も入力側に配置される畳み込み層４１５が入力層を構成しており、最も出力側に配置される逆畳み込み層４１８が出力層を構成している。ただし、変換器４１Ｃの構造は、このような例に限定されなくてよく、実施の形態に応じて適宜決定されてよい。変換器４１Ｃには、正規化層、ドロップアウト層等の他の種類の層が含まれてもよい。本変形例では、上記実施形態と同様に、変換器４１Ｃの機械学習が先に実施され、訓練済みの変換器４１Ｃが各変換器（３１Ｃ、３５Ｃ）に転用される。そのため、各変換器（３１Ｃ、３５Ｃ）の構造は、変換器４１Ｃに由来する。なお、上記実施形態と同様に、各変換器（３１Ｃ、３５Ｃ）には、共通の変換器が用いられてもよいし、別個の変換器が用いられてよい。

　また、図１３Ｂ及び図１４に示されるとおり、本変形例では、推定モデル３Ｃは、変換器３１Ｃ及び推定器３２Ｃを備える。特徴情報は、所定の方向を視る人物（対象者Ｒ）の目の写る基準画像から導出された、所定の方向を視る目の視線方向に関するヒートマップにより構成される。推定器３２Ｃは、対象画像から導出されたヒートマップ、特徴情報、及び真値情報の入力を受け付け、対象画像に写る人物の視線方向を推定した結果に対応する出力値を出力するように構成される。また、本変形例では、特徴情報は、基準画像から導出された、所定の方向を視る目の視線方向に関するヒートマップにより構成される。真値情報は、所定の方向の真値に関するヒートマップに変換される。これに応じて、対象画像から導出されたヒートマップ、特徴情報、及び真値情報の入力を受け付けることは、対象画像から導出されたヒートマップ、基準画像から導出されたヒートマップ（特徴情報）、及び真値情報から得られたヒートマップを受け付けることにより構成される。

　図１３Ｂ及び図１４の例では、推定器３２Ｃは、入力側から順に、連結層３２５、畳み込み層３２６、及び変換層３２７を備える。連結層３２５は、入力される各ヒートマップを連結するように構成される。変換層３２７は、畳み込み層３２６から得られる出力を視線方向の推定結果に変換するように構成される。連結層３２５及び変換層３２７は、複数のニューロン（ノード）により適宜構成されてよい。なお、推定器３２Ｃの構造は、このような例に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。推定器３２Ｃには、プーリング層、全結合層等の他の種類の層が含まれてもよい。これらの点を除き、第３変形例は、上記実施形態と同様に構成される。モデル生成装置１は、上記実施形態と同様の処理手順で、学習済み推定モデル３Ｃを生成する。また、視線推定装置２は、上記実施形態と同様の処理手順で、学習済み推定モデル３Ｃを利用して、対象者Ｒの視線方向を推定する。

　（モデル生成装置の処理手順）
　図１３Ａに示されるとおり、上記ステップＳ１０２では、制御部１１は、複数のデータセット１２０を使用して、変換器４１Ｃの機械学習を実施する。一例として、まず、制御部１１は、各データセット１２０の学習画像１２１を変換器４１Ｃに入力し、変換器４１Ｃの演算処理を実行する。これにより、制御部１１は、学習画像１２１から変換されたヒートマップに対応する出力値を変換器４１Ｃから取得する。

　また、制御部１１は、対応する正解情報１２３をヒートマップ１２９に変換する。正解情報１２３をヒートマップ１２９に変換する方法は、実施の形態に応じて適宜選択されてよい。例えば、制御部１１は、変換器４１Ｃにより出力するヒートマップと同サイズの画像を用意する。続いて、制御部１１は、用意された画像において、正解情報１２３により示される視線方向の真値に対応する位置を中心にして、例えば、ガウス分布等の所定の分布を配置する。分布の最大値は、適宜決定されてよい。これにより、正解情報１２３をヒートマップ１２９に変換することができる。

　次に、制御部１１は、変換器４１Ｃから得られた出力値とヒートマップ１２９との間の誤差を算出する。これ以降の機械学習の処理は、上記実施形態と同様であってよい。制御部１１は、誤差逆伝播法により、算出された出力値の誤差の勾配を用いて、変換器４１Ｃの各演算パラメータの値の誤差を出力側から順に算出し、算出された誤差に基づいて、各演算パラメータの値を更新する。

　制御部１１は、上記一連の更新処理により、各データセット１２０について、算出される出力値の誤差の和が小さくなるように、変換器４１Ｃの各演算パラメータの値を調節する。所定の条件を満たすまで、制御部１１は、変換器４１Ｃの各演算パラメータの値の調節を繰り返してもよい。この機械学習の結果、制御部１１は、各データセット１２０について、人物の目の写る画像をその目の視線方向に関するヒートマップに適切に変換する能力を獲得した訓練済みの変換器４１Ｃを生成することができる。

　次に、図１３Ｂに示されるとおり、上記ステップＳ１０３では、制御部１１は、変換器４１Ｃを各変換器（３１Ｃ、３５Ｃ）に転用する。これにより、制御部１１は、推定モデル３Ｃ及び変換器３５Ｃにより構成される学習モデルを用意する。

　上記ステップＳ１０４では、制御部１１は、変換器３５Ｃを利用して、学習用特徴情報５０２Ｃを取得する。具体的に、制御部１１は、上記実施形態と同様に、学習用基準画像５０１及び学習用真値情報５０３を取得する。次に、制御部１１は、取得された学習用基準画像５０１を変換器３５Ｃに入力し、変換器３５Ｃの演算処理を実行する。この演算処理により、制御部１１は、学習用基準画像５０１から導出された、所定の方向を視る目の視線方向に関する学習用のヒートマップ５０２１Ｃに対応する出力値を変換器３５Ｃから取得する。本変形例では、学習用特徴情報５０２Ｃは、このヒートマップ５０２１Ｃにより構成される。また、制御部１１は、学習用真値情報５０３をヒートマップ５０３１に変換する。この変換には、上記正解情報１２３をヒートマップ１２９に変換する方法と同様の方法が用いられてよい。これらの演算処理により、制御部１１は、２つのヒートマップ（５０２１Ｃ、５０３１）により構成される学習用の較正情報を取得することができる。上記実施形態と同様に、制御部１１は、複数の異なる所定の方向それぞれについて学習用基準画像５０１及び学習用真値情報５０３を取得してもよい。そして、制御部１１は、それぞれの演算処理を実行することで、複数の異なる所定の方向それぞれのヒートマップ（５０２１Ｃ、５０３１）を取得してもよい。上記ステップＳ１０５では、上記実施形態と同様に、制御部１１は、複数の学習データセット５１を取得する。

　上記ステップＳ１０６では、制御部１１は、取得された複数の学習データセット５１を使用して、推定モデル３の機械学習を実施する。本変形例では、制御部１１は、各学習データセット５１の学習用対象画像５３を変換器３１Ｃに入力し、変換器３１Ｃの演算処理を実行する。この演算処理により、制御部１１は、学習用対象画像５３から変換されたヒートマップ５４Ｃに対応する出力値を変換器３１Ｃから取得する。制御部１１は、各ヒートマップ（５０２１Ｃ、５０３１、５４Ｃ）を推定器３２Ｃに入力し、推定器３２Ｃの演算処理を実行する。この演算処理により、制御部１１は、学習用対象画像５３に写る被験者の視線方向を推定した結果に対応する出力値を推定器３２Ｃから取得する。

　次に、制御部１１は、推定器３２Ｃから得られた出力値と対応する正解情報５５との間の誤差を算出する。これ以降の機械学習の処理は、上記実施形態と同様であってよい。制御部１１は、誤差逆伝播法により、算出された出力値の誤差の勾配を用いて、学習モデルの各演算パラメータの値の誤差を出力側から順に算出し、算出された誤差に基づいて、各演算パラメータの値を更新する。

　制御部１１は、変換器３５Ｃの演算処理及び推定モデル３Ｃの演算処理を伴いながら、上記一連の更新処理を実行することにより、学習用基準画像５０１、学習用真値情報５０３、及び各学習データセット５１について、算出される出力値の誤差の和が小さくなるように、学習モデルの各演算パラメータの値の値を調節する。所定の条件を満たすまで、制御部１１は、学習モデルの各演算パラメータの値の調節を繰り返してもよい。この機械学習の結果、制御部１１は、各学習データセット５１について、学習用基準画像５０１、学習用真値情報５０３、及び学習用対象画像５３から人物の視線方向を適切に推定する能力を獲得した訓練済みの学習モデルを生成することができる。

　なお、上記実施形態と同様に、同一の被験者から得られた学習用基準画像５０１、学習用真値情報５０３及び複数の学習データセット５１が学習モデルの機械学習に使用されるように、それぞれの由来である被験者が識別されてもよい。また、各演算パラメータの値の調節を繰り返す間、学習用真値情報５０３から得られたヒートマップ５０３１は使い回されてよく、これによって、学習用真値情報５０３をヒートマップ５０３１に変換する処理は省略されてよい。学習用真値情報５０３は、予めヒートマップ５０３１に変換されていてもよい。また、各変換器（３１Ｃ、３５Ｃ）は、上記変換器４１Ｃの機械学習により、人物の目の写る画像をその目の視線方向に関するヒートマップに変換する能力を獲得するように訓練されている。そのため、上記更新処理において、各変換器（３１Ｃ、３５Ｃ）の各演算パラメータの値を調節する処理は省略されてよい。この場合、各演算パラメータの値の調節を繰り返す間、各変換器（３１Ｃ、３５Ｃ）の演算結果は使い回されてよい。すなわち、各ヒートマップ（５０２１Ｃ、５０３１）を導出する演算は、繰り返し実行されなくてよい。

　上記ステップＳ１０７では、制御部１１は、機械学習により生成された学習済みの推定モデル３Ｃ及び変換器３５Ｃに関する情報を学習結果データ１２５Ｃとして生成する。制御部１１は、生成された学習結果データ１２５Ｃを所定の記憶領域に保存する。学習結果データ１２５Ｃは、任意のタイミングで視線推定装置２に提供されてよい。

　（視線推定装置の処理手順）
　図１４に示されるとおり、本変形例では、学習結果データ１２５Ｃを保持することで、情報取得部２１１は、学習済み変換器３５Ｃを有しており、推定部２１３は、学習済み推定モデル３Ｃを有している。学習済み推定モデル３Ｃは、学習済みの変換器３１Ｃ及び推定器３２Ｃを備えている。

　上記ステップＳ２０１では、制御部２１は、基準画像６０１及び真値情報６０３を取得する。制御部２１は、取得された基準画像６０１を学習済み変換器３５Ｃに入力し、変換器３５Ｃの演算処理を実行する。これにより、制御部２１は、基準画像６０１から導出された、所定の方向を視る目の視線方向に関するヒートマップ６０２１Ｃに対応する出力値を学習済み変換器３５Ｃから取得する。ヒートマップ６０２１Ｃは、第２ヒートマップの一例である。本変形例では、特徴情報６０２Ｃは、このヒートマップ６０２１Ｃにより構成される。また、制御部２１は、所定の方向の真値に関するヒートマップ６０３１に真値情報６０３を変換する。この変換には、上記正解情報１２３をヒートマップ１２９に変換する方法と同様の方法が用いられてよい。ヒートマップ６０３１は、第３ヒートマップの一例である。これにより、制御部２１は、各ヒートマップ（６０２１Ｃ、６０３１）により構成される較正情報を取得することができる。なお、上記実施形態と同様に、制御部２１は、複数の異なる所定の方向それぞれの基準画像６０１及び真値情報６０３を取得してもよい。そして、制御部２１は、それぞれの演算処理を実行することで、複数の異なる所定の方向それぞれのヒートマップ（６０２１Ｃ、６０３１）を取得してもよい。

　上記ステップＳ２０３では、制御部２１は、学習済み推定モデル３Ｃを利用して、対象画像６３に写る対象者Ｒの視線方向を推定する。具体的に、制御部２１は、取得された対象画像６３を学習済み変換器３１Ｃに入力し、変換器３１Ｃの演算処理を実行する。この演算処理により、制御部２１は、対象画像６３から導出された、対象者Ｒの視線方向に関するヒートマップ６４Ｃに対応する出力値を学習済み変換器３１Ｃから取得する。ヒートマップ６４Ｃは、第１ヒートマップの一例である。次に、制御部２１は、各ヒートマップ（６０２１Ｃ、６０３１、６４）を学習済み推定器３２Ｃに入力し、推定器３２Ｃの演算処理を実行する。この演算処理により、制御部２１は、対象画像６３に写る対象者Ｒの視線方向を推定した結果に対応する出力値を学習済み推定器３２Ｃから取得することができる。

　第３変形例によれば、上記実施形態と同様に、学習済み推定モデル３Ｃにおいて、特徴情報６０２Ｃ、真値情報６０３、及び対象画像６３から対象者Ｒの視線方向を適切に推定可能である。特徴情報６０２Ｃ及び真値情報６０３を利用することで、ステップＳ２０３における対象者Ｒの視線方向を推定する精度の向上を図ることができる。また、全結合層は、畳み込み層と比較して、パラメータの数が多くなりやすく、演算速度が低速になりやすい。これに対して、第３変形例によれば、全結合層を用いなくても、各変換器（３１Ｃ、３５Ｃ）及び推定器３２Ｃを構成することができる。そのため、推定モデル３Ｃの情報量を比較的に小さくすることができ、かつ推定モデル３Ｃの処理速度の向上を図ることができる。更には、入力側のデータ形式として共通のヒートマップ形式を採用することにより、推定器３２Ｃの構成を比較的に簡易にすることができ、推定器３２Ｃ内で各情報（特徴情報、真値情報及び対象画像）を統合し易くすることで、推定器３２Ｃの推定精度の向上を期待することができる。

　なお、第３変形例において、推定モデル３Ｃの構成は、このような例に限定されなくてもよい。真値情報６０３は、ヒートマップ６０３１に変換されず、推定器３２Ｃにそのまま入力されてもよい。特徴情報６０２Ｃは、ヒートマップ６０２１Ｃとは異なる形式で推定器３２Ｃに入力されてもよい。例えば、特徴情報６０２Ｃは、上記実施形態と同様に、特徴量の形式で推定器３２Ｃに入力されてもよい。推定器３２Ｃに入力される前に、特徴情報６０２Ｃ及び真値情報６０３は結合されてよい。

　また、推定器３２Ｃは、ヒートマップの形式で視線方向の推定結果を出力してもよい。この場合、推定器３２Ｃにおいて、変換層３２７は省略されてよい。制御部２１は、ヒートマップの重心、最大値の画素の位置等に応じて、対象者Ｒの視線方向を特定してもよい。訓練用のヒートマップから数値化された値を推定することよりも、訓練用のヒートマップから真値のヒートマップを推定することの方が容易であり、高い推定精度を有する学習済みモデルを生成しやすい。そのため、入力側及び出力側のデータ形式として共にヒートマップを採用することで、推定モデル３Ｃによる視線方向の推定精度の向上を図ることができる。加えて、視線方向と共に対象者Ｒの顔の器官点を検出する場面を想定する。この場合、近年の検出方法では、顔の器官点の検出結果がヒートマップ形式で表現されることがある。この形態によれば、視線方向の推定結果を示すヒートマップを顔の器官点の検出結果を示すヒートマップにマージすることができ、それぞれの結果を単一表示で出力することができる。更に、それぞれの推定モデルを単一に構成することができ、リアルタイム性を高めることができる。なお、この形態においても、真値情報６０３及び特徴情報６０２Ｃの少なくともいずれかは、ヒートマップとは異なる形式で推定器３２Ｃに入力されてもよい。

　また、例えば、視線推定装置２において、変換器３５Ｃは省略されてもよい。この場合、制御部２１は、特徴情報６０２Ｃを直接的に取得してもよい。一例として、特徴情報６０２Ｃがヒートマップ６０２１Ｃにより構成される場合、基準画像６０１をヒートマップ６０２１Ｃに変換する処理は、他のコンピュータにより実行されてよい。制御部２１は、他のコンピュータからヒートマップ６０２１Ｃを取得してもよい。その他の一例として、特徴情報６０２Ｃは、基準画像６０１により構成されてよい。これに応じて、推定器３２Ｃは、基準画像６０１の入力を受け付けるように構成されてよい。

　＜４．３＞
　上記実施形態では、各抽出器（３１、３５、４１）には、畳み込みニューラルネットワークが用いられている。各推定器（３２、４３）及び結合器３６には、全結合型ニューラルネットワークが用いられている。しかしながら、各抽出器（３１、３５、４１）、各推定器（３２、４３）、及び結合器３６に利用可能なニューラルネットワークの種類は、このような例に限定されなくてもよい。各抽出器（３１、３５、４１）には、全結合型ニューラルネットワーク、再帰型ニューラルネットワーク等が用いられてよい。各推定器（３２、４３）及び結合器３６には、畳み込みニューラルネットワーク、再帰型ニューラルネットワークが用いられてよい。

　また、学習モデル３０において、各構成要素は、必ずしも分離されていなくてもよい。２つ以上の構成要素の組み合わせが１つのニューラルネットワークにより構成されていてもよい。例えば、推定モデル３（抽出器３１及び推定器３２）は、一つのニューラルネットワークにより構成されてもよい。

　また、各抽出器（３１、３５、４１）、各推定器（３２、４３）、及び結合器３６を構成する機械学習モデルの種類は、ニューラルネットワークに限られなくてもよい。各抽出器（３１、３５、４１）、各推定器（３２、４３）、及び結合器３６には、例えば、サポートベクタマシン、回帰モデル、決定木モデル等の他のモデルが利用されてもよい。

　また、上記実施形態において、学習済みの推定モデル３、抽出器３５及び結合器３６は、モデル生成装置１以外の他のコンピュータにより生成されてもよい。学習モデル４の機械学習が他のコンピュータにより実施される場合、モデル生成装置１の処理手順からステップＳ１０２の処理は省略されてよい。学習モデル３０の機械学習が他のコンピュータにより実施される場合、モデル生成装置１の処理手順からステップＳ１０３～ステップＳ１０７の処理は省略されてよい。モデル生成装置１のソフトウェア構成から第１取得部１１２及び第２取得部１１３は省略されてよい。モデル生成装置１の機械学習の成果を視線推定装置２で利用しない場合、視線推定システム１００からモデル生成装置１は省略されてよい。

　＜４．４＞
　上記実施形態において、例えば、初期設定の処理内で上記ステップＳ２０１の処理が実行される等により、較正情報６０が予め与えられてもよい。この場合、視線推定装置２の処理手順からステップＳ２０１の処理は省略されてよい。また、較正情報６０が取得された後、この較正情報６０を変更しない場合には、視線推定装置２において、学習済みの抽出器３５及び結合器３６は省略又は削除されてよい。較正情報６０を取得する処理の少なくとも一部は他のコンピュータにより実行されてよい。この場合、視線推定装置２は、他のコンピュータの演算結果を取得することで、較正情報６０を取得してもよい。

　また、上記実施形態において、視線推定装置２は、視線方向を推定する処理を繰り返さなくてもよい。この場合、視線推定装置２の処理手順からステップＳ２０５の処理は省略されてよい。

　また、上記実施形態において、各学習データセット５１及び学習用較正情報５０の取得にデータセット１２０が利用されなくてもよい。これに加えて、学習モデル４の機械学習を他のコンピュータが実施する場合、モデル生成装置１の処理手順からステップＳ１０１の処理は省略されてよい。モデル生成装置１のソフトウェア構成から収集部１１１は省略されてよい。

　１…モデル生成装置、
　１１…制御部、１２…記憶部、１３…通信インタフェース、
　１４…外部インタフェース、
　１５…入力装置、１６…出力装置、１７…ドライブ、
　１１１…収集部、１１２…第１取得部、
　１１３…第２取得部、１１４…機械学習部、
　１１５…保存処理部、
　１２０…データセット、
　１２１…学習画像、１２３…正解情報、
　１２５…学習結果データ、
　８１…モデル生成プログラム、９１…記憶媒体、
　２…視線推定装置、
　２１…制御部、２２…記憶部、２３…通信インタフェース、
　２４…外部インタフェース、
　２５…入力装置、２６…出力装置、２７…ドライブ、
　２１１…情報取得部、２１２…画像取得部、
　２１３…推定部、２１４…出力部、
　２６１…ディスプレイ、Ｍ…印、
　８２…視線推定プログラム、９２…記憶媒体、
　３０…学習モデル、３…推定モデル、
　３１…抽出器（第１抽出器）、
　３１１…畳み込み層、３１２…プーリング層、
　３２…推定器、３２１…全結合層、
　３５…抽出器（第２抽出器）、
　３５１…畳み込み層、３５２…プーリング層、
　３６…結合器、３６１…全結合層、
　４…学習モデル、
　４１…抽出器、
　４１１…畳み込み層、４１２…プーリング層、
　４３…推定器、４３１…全結合層、
　５０…学習用較正情報、
　５０１…学習用基準画像、
　５０２…学習用特徴情報、５０２１…特徴量、
　５０３…学習用真値情報、
　５０４…特徴量、
　５１…学習データセット、
　５３…学習用対象画像、５４…特徴量、
　５５…正解情報、
　６０…較正情報、
　６０１…基準画像、
　６０２…特徴情報、６０２１…特徴量（第２特徴量）、
　６０３…真値情報、
　６０４…特徴量（較正特徴量）、
　６３…対象画像、６４…特徴量（第１特徴量）、
　Ｒ…対象者、Ｓ…カメラ

Claims

　所定の方向を視る対象者の目の視線に関する特徴情報、及び前記対象者の目の視る前記所定の方向の真値を示す真値情報を含む較正情報を取得する情報取得部と、
　対象者の目の写る対象画像を取得する画像取得部と、
　機械学習により生成された学習済み推定モデルを利用して、前記対象画像に写る前記対象者の視線方向を推定する推定部であって、
　　前記機械学習により、前記学習済み推定モデルは、被験者から得られた学習用較正情報及び学習用対象画像の入力に対して、当該学習用対象画像に写る当該被験者の視線方向の真値を示す正解情報に適合する出力値を出力するように訓練されており、
　　前記視線方向を推定することは、取得された前記対象画像及び前記較正情報を当該学習済み推定モデルに入力し、当該学習済み推定モデルの演算処理を実行することで、前記対象画像に写る前記対象者の視線方向を推定した結果に対応する出力値を当該学習済み推定モデルから取得することにより構成される、
推定部と、
　前記対象者の前記視線方向を推定した結果に関する情報を出力する出力部と、
を備える、
視線推定装置。
　前記較正情報は、複数の異なる前記所定の方向それぞれに対応する前記特徴情報及び前記真値情報を含む、
請求項１に記載の視線推定装置。
　前記特徴情報及び前記真値情報を含むことは、前記特徴情報及び前記真値情報を結合することにより導出される較正に関する較正特徴量を含むことにより構成され、
　前記学習済み推定モデルは、第１抽出器及び推定器を備え、
　前記学習済み推定モデルの演算処理を実行することは、
　　取得された前記対象画像を前記第１抽出器に入力し、前記第１抽出器の演算処理を実行することで、前記対象画像に関する第１特徴量に対応する出力値を前記第１抽出器から取得すること、及び
　　前記較正特徴量及び取得された前記第１特徴量を前記推定器に入力し、前記推定器の演算処理を実行すること、
により構成される、
請求項１又は２に記載の視線推定装置。
　前記特徴情報は、前記所定の方向を視る前記対象者の目の写る基準画像に関する第２特徴量により構成され、
　前記情報取得部は、結合器を有し、
　前記較正情報を取得することは、
　　前記第２特徴量を取得すること、
　　前記真値情報を取得すること、並びに
　　取得された前記第２特徴量及び前記真値情報を前記結合器に入力し、前記結合器の演算処理を実行することで、前記較正特徴量に対応する出力値を前記結合器から取得すること、
により構成される、
請求項３に記載の視線推定装置。
　前記情報取得部は、第２抽出器を更に有し、
　前記第２特徴量を取得することは、
　　前記基準画像を取得すること、及び
　　取得された前記基準画像を前記第２抽出器に入力し、前記第２抽出器の演算処理を実行することで、前記第２特徴量に対応する出力値を前記第２抽出器から取得すること、
により構成される、
請求項４に記載の視線推定装置。
　前記学習済み推定モデルは、第１抽出器及び推定器を備え、
　前記学習済み推定モデルの演算処理を実行することは、
　　取得された前記対象画像を前記第１抽出器に入力し、前記第１抽出器の演算処理を実行することで、前記対象画像に関する第１特徴量に対応する出力値を前記第１抽出器から取得すること、並びに
　　前記特徴情報、前記真値情報、及び取得された前記第１特徴量を前記推定器に入力し、前記推定器の演算処理を実行すること、
により構成される、
請求項１又は２に記載の視線推定装置。
　前記特徴情報は、前記所定の方向を視る前記対象者の目の写る基準画像に関する第２特徴量により構成され、
　前記情報取得部は、第２抽出器を有し、
　前記較正情報を取得することは、
　　前記基準画像を取得すること、
　　取得された前記基準画像を前記第２抽出器に入力し、前記第２抽出器の演算処理を実行することで、前記第２特徴量に対応する出力値を前記第２抽出器から取得すること、及び
　　前記真値情報を取得すること、
により構成される、
請求項６に記載の視線推定装置。
　前記特徴情報は、前記所定の方向を視る前記対象者の目の写る基準画像により構成され、
　前記学習済み推定モデルは、第１抽出器、第２抽出器、及び推定器を備え、
　前記学習済み推定モデルの演算処理を実行することは、
　　取得された前記対象画像を前記第１抽出器に入力し、前記第１抽出器の演算処理を実行することで、前記対象画像に関する第１特徴量に対応する出力値を前記第１抽出器から取得すること、
　　前記基準画像を前記第２抽出器に入力し、前記第２抽出器の演算処理を実行することで、前記基準画像に関する第２特徴量に対応する出力値を前記第２抽出器から取得すること、並びに、
　　取得された前記第１特徴量、取得された前記第２特徴量、及び前記真値情報を前記推定器に入力し、前記推定器の演算処理を実行すること、
により構成される、
請求項１又は２に記載の視線推定装置。
　前記学習済み推定モデルは、第１変換器及び推定器を備え、
　前記学習済み推定モデルの演算処理を実行することは、
　　取得された前記対象画像を前記第１変換器に入力し、前記第１変換器の演算処理を実行することで、前記対象者の視線方向に関する第１ヒートマップに対応する出力値を前記第１変換器から取得すること、並びに、
　　取得された前記第１ヒートマップ、前記特徴情報、及び前記真値情報を前記推定器に入力し、前記推定器の演算処理を実行すること、
により構成される、
請求項１又は２に記載の視線推定装置。
　前記特徴情報は、前記所定の方向を視る前記対象者の目の写る基準画像から導出された、前記所定の方向を視る目の視線方向に関する第２ヒートマップにより構成され、
　前記情報取得部は、第２変換器を有し、
　前記較正情報を取得することは、
　　前記基準画像を取得すること、
　　取得された前記基準画像を前記第２変換器に入力し、前記第２変換器の演算処理を実行することで、前記第２ヒートマップに対応する出力値を前記第２変換器から取得すること、
　　前記真値情報を取得すること、及び
　　前記所定の方向の真値に関する第３ヒートマップに前記真値情報を変換すること、
により構成され、
　前記第１ヒートマップ、前記特徴情報、及び前記真値情報を前記推定器に入力することは、前記第１ヒートマップ、前記第２ヒートマップ、及び前記第３ヒートマップを前記推定器に入力することにより構成される、
請求項９に記載の視線推定装置。
　前記画像取得部により前記対象画像の取得、及び前記推定部による前記対象者の視線方向の推定は繰り返し実行される、
請求項１から１０のいずれか１項に記載の視線推定装置。
　前記情報取得部は、前記対象者に所定の方向を視るように指示を出力した後、前記対象者の視線をセンサにより観測することで前記較正情報を取得する、
請求項１から１１のいずれか１項に記載の視線推定装置。
　コンピュータが、
　所定の方向を視る対象者の目の視線に関する特徴情報、及び前記対象者の目の視る前記所定の方向の真値を示す真値情報を含む較正情報を取得するステップと、
　対象者の目の写る対象画像を取得するステップと、
　機械学習により生成された学習済み推定モデルを利用して、前記対象画像に写る前記対象者の視線方向を推定するステップであって、
　　前記機械学習により、前記学習済み推定モデルは、被験者から得られた学習用較正情報及び学習用対象画像の入力に対して、当該学習用対象画像に写る当該被験者の視線方向の真値を示す正解情報に適合する出力値を出力するように訓練されており、
　　前記視線方向を推定することは、取得された前記対象画像及び前記較正情報を当該学習済み推定モデルに入力し、当該学習済み推定モデルの演算処理を実行することで、前記対象画像に写る前記対象者の視線方向を推定した結果に対応する出力値を当該学習済み推定モデルから取得することにより構成される、
ステップと、
　前記対象者の前記視線方向を推定した結果に関する情報を出力するステップと、
を実行する、
視線推定方法。
　所定の方向を視る被験者の目の視線に関する学習用特徴情報、及び前記被験者の目の視る前記所定の方向の真値を示す学習用真値情報を含む学習用較正情報を取得する第１取得部と、
　被験者の目の写る学習用対象画像、及び前記学習用対象画像に写る前記被験者の視線方向の真値を示す正解情報の組み合わせによりそれぞれ構成される複数の学習データセットを取得する第２取得部と、
　取得された前記複数の学習データセットを使用して、推定モデルの機械学習を実施する機械学習部であって、機械学習を実施することは、前記各学習データセットについて、前記学習用対象画像及び前記学習用較正情報の入力に対して、対応する前記正解情報に適合する出力値を出力するように前記推定モデルを訓練することにより構成される、機械学習部と、
を備える、
モデル生成装置。
　コンピュータが、
　所定の方向を視る被験者の目の視線に関する学習用特徴情報、及び前記被験者の目の視る前記所定の方向の真値を示す学習用真値情報を含む学習用較正情報を取得するステップと、
　被験者の目の写る学習用対象画像、及び前記学習用対象画像に写る前記被験者の視線方向の真値を示す正解情報の組み合わせによりそれぞれ構成される複数の学習データセットを取得するステップと、
　取得された前記複数の学習データセットを使用して、推定モデルの機械学習を実施するステップであって、機械学習を実施することは、前記各学習データセットについて、前記学習用対象画像及び前記学習用較正情報の入力に対して、対応する前記正解情報に適合する出力値を出力するように前記推定モデルを訓練することにより構成される、ステップと、
を実行する、
モデル生成方法。