WO2022009821A1

WO2022009821A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: WO2022009821A1
Application number: PCT/JP2021/025245
Authority: WO
Inventors: 宏真土井
Original assignee: ソニーセミコンダクタソリューションズ株式会社
Priority date: 2020-07-07
Filing date: 2021-07-05
Publication date: 2022-01-13
Also published as: US20230298194A1; CN115997103A; JPWO2022009821A1

Abstract

本開示は、より正確に、対象のサイズを測定することができるようにする情報処理装置、情報処理方法、及びプログラムに関する。センサにより取得されたデプス画像を少なくとも含む画像、及び画像から得られる情報の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行い、画像に含まれる対象のサイズを測定する処理部を備える情報処理装置が提供される。本開示は、例えば、センサを有するモバイル端末に適用することができる。

Description

情報処理装置、情報処理方法、及びプログラム

　本開示は、情報処理装置、情報処理方法、及びプログラムに関し、特に、より正確に、対象のサイズを測定することができるようにした情報処理装置、情報処理方法、及びプログラムに関する。

　ユーザの足のサイズを測定する方法として、専用の足測定器具を用いる方法や、足を撮影した撮影画像を解析して算出する方法が提案されている。特許文献１には、携帯端末で撮影した足画像を用いて算出した実長比率と、縦横のスライダ間の画素数に基づき、足のサイズを算出する技術が開示されている。

特許第6295400号公報

　ユーザの足などの対象のサイズを測定するに際しては、正確なサイズを測定することが求められる。

　本開示はこのような状況に鑑みてなされたものであり、より正確に、対象のサイズを測定することができるようにするものである。

　本開示の一側面の情報処理装置は、センサにより取得されたデプス画像を少なくとも含む画像、及び前記画像から得られる情報の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行い、前記画像に含まれる対象のサイズを測定する処理部を備える情報処理装置である。

　本開示の一側面の情報処理方法、及びプログラムは、本開示の一側面の情報処理装置に対応する情報処理方法、及びプログラムである。

　本開示の一側面の情報処理装置、情報処理方法、及びプログラムにおいては、センサにより取得されたデプス画像を少なくとも含む画像、及び前記画像から得られる情報の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行が行われ、前記画像に含まれる対象のサイズが測定される。

　なお、本開示の一側面の情報処理装置は、独立した装置であってもよいし、１つの装置を構成している内部ブロックであってもよい。

本開示を適用した情報処理装置の構成例を示すブロック図である。図１の処理部の構成の第１の例を示すブロック図である。足測長処理の流れの第１の例を説明するフローチャートである。図３の足測長処理におけるデータの流れを模式的に表した図である。図１の処理部の構成の第２の例を示すブロック図である。足測長処理の流れの第２の例を説明するフローチャートである。図６の足測長処理におけるデータの流れを模式的に表した図である。図１の処理部の構成の第３の例を示すブロック図である。足測長処理の流れの第３の例を説明するフローチャートである。図９の足測長処理におけるデータの流れを模式的に表した図である。本開示を適用した情報処理装置で実行されるアプリケーションを提供するための開発ワークフローとプラットフォームの例を示す図である。靴試着購入処理の流れを説明するフローチャートである。足測長アプリケーションの表示の第１の例を示す図である。足測長アプリケーションの表示の第２の例を示す図である。足測長アプリケーションの表示の第３の例を示す図である。足測長アプリケーションの表示の第４の例を示す図である。ＡＩ処理を行う装置を含むシステムの構成例を示す図である。電子機器の構成例を示すブロック図である。エッジサーバ又はクラウドサーバの構成例を示すブロック図である。光センサの構成例を示すブロック図である。処理部の構成例を示すブロック図である。複数の装置間でのデータの流れを示す図である。

＜１．第１の実施の形態＞

（装置の構成例）
　図１は、本開示を適用した情報処理装置の構成例を示すブロック図である。

　情報処理装置１は、撮影された画像データを用いて、対象(ターゲット)のサイズを測定する機能を有する。情報処理装置１は、スマートフォン、タブレット型端末、携帯電話機等のモバイル端末として構成される。対象のサイズとしては、モバイル端末を所持するユーザの足のサイズを測定することができる。

　図１において、情報処理装置１は、デプスセンサ１１、デプス処理部１２、RGBセンサ１３、RGB処理部１４、処理部１５、表示部１６、及び操作部１７を含んで構成される。

　デプスセンサ１１は、ToF(Time of Flight)センサなどの測距センサである。ToFセンサは、dToF(direct Time of Flight)方式とiToF(indirect Time of Flight)方式のいずれの方式であってもよい。デプスセンサ１１は、対象までの距離を測定し、その結果得られる測距信号をデプス処理部１２に供給する。なお、デプスセンサ１１は、ストラクチャライト方式のセンサ、LiDAR(Light Detection and Ranging)方式のセンサ、ステレオカメラなどであってもよい。

　デプス処理部１２は、DSP(Digital Signal Processor)等の信号処理回路である。デプス処理部１２は、デプスセンサ１１から供給される測距信号に対し、デプス現像処理やデプス前処理(例えばリサイズ処理等)などの信号処理を行い、その結果得られるデプス画像データを処理部１５に供給する。デプス画像は、対象を深度情報で示した画像である。例えば、デプス画像としては、デプスマップが用いられる。なお、デプス処理部１２は、デプスセンサ１１内に含まれてもよい。

　RGBセンサ１３は、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサやCCD(Charge Coupled Device)イメージセンサ等のイメージセンサである。RGBセンサ１３は、対象の像を撮影し、その結果得られる撮影信号をRGB処理部１４に供給する。なお、RGBセンサ１３を用いたRGBカメラに限らず、モノクロカメラや赤外線カメラなどを用いて対象の像を撮影してもよい。

　RGB処理部１４は、DSP等の信号処理回路である。RGB処理部１４は、RGBセンサ１３から供給される撮影信号に対し、RGB現像処理やRGB前処理(例えばリサイズ処理等)などの信号処理を行い、その結果得られるRGB画像データを処理部１５に供給する。RGB画像は、対象の像を色情報(面情報)で示した画像である。例えば、RGB画像としては、カラーカメラ画像が用いられる。なお、RGB処理部１４は、RGBセンサ１３内に含まれてもよい。

　処理部１５は、CPU(Central Processing Unit)等のプロセッサから構成される。処理部１５には、デプス処理部１２からのデプス画像データと、RGB処理部１４からのRGB画像データとが供給される。

　処理部１５は、デプス画像データ及びRGB画像データに基づいて、対象のサイズを測定する測長処理を行う。対象のサイズとしてユーザの足サイズを測定する足測長処理を行う場合、デプス画像とRGB画像には、被写体としてユーザの足(足首よりも先)が含まれる。なお、測長処理では、デプス画像及びRGB画像の少なくとも一方の画像が用いられ、必ずしも両方の画像を用いる必要はない。

　測長処理では、デプス画像データ及びRGB画像データ、並びにそれらの画像データから得られる情報の少なくとも一部に、機械学習により学習された学習済みモデルを用いた処理が行われ、対象のサイズが測定される。測長処理で測定された対象のサイズは、表示部１６に供給される。

　表示部１６は、液晶パネルやOLED(Organic Light Emitting Diode)パネル等のパネルと信号処理回路等から構成される。表示部１６は、処理部１５から供給される対象のサイズ等の情報を表示する。

　操作部１７は、物理的なボタンやタッチパネル等から構成される。操作部１７は、ユーザの操作に応じた操作信号を処理部１５に供給する。処理部１５は、操作部１７からの操作信号に基づいて、各種の処理を行う。

　なお、図１に示した情報処理装置１の構成は一例であり、構成要素を削除したり、他の構成要素を追加したりしても構わない。例えば、処理部１５における測長処理で、デプス画像のみを用いる場合には、RGBセンサ１３及びRGB処理部１４を設ける必要はない。また、情報処理装置１には、インターネット上のサーバとデータをやり取りするための通信部や、各種のデータやプログラム等を記録する記憶部、マイクロフォン等の入力部、スピーカ等の出力部などを設けることができる。

（処理部の構成例）
　図２は、図１の処理部１５の構成の第１の例を示すブロック図である。

　図２において、処理部１５Ａは、学習済みモデル１１１、３Ｄ座標計算部１１２、足サイズ姿勢計算部１１３、及び学習済みモデル１１４を有する。処理部１５Ａでは、対象のサイズとして、ユーザの足サイズが測定される。

　学習済みモデル１１１は、学習時にディープニューラルネットワーク(DNN：Deep Neural Network)を用いた学習が行われて学習済みとなったモデルである。学習済みモデル１１１を推論時に用いることで、デプス画像又はRGB画像から、足に関する２Ｄ特徴点を予測することができる。

　以下、ディープニューラルネットワークを用いて学習された学習済みモデル１１１を、他の学習済みモデルと区別するために、DNN１とも呼ぶ。DNN１の学習については、図１１を参照して後述する。

　処理部１５Ａには、測定データとしてユーザの足を撮影して得られたデプス画像又はRGB画像が供給され、学習済みモデル１１１に入力される。処理部１５Ａでは、デプス画像又はRGB画像を入力として、学習済みモデル１１１を用いた推論が行われることで、足に関する２Ｄ特徴点が出力される。

　例えば、２Ｄ特徴点は、指先(Tip：Fingertip)、親指の付け根(Base of Thumb)、及び踵(Heal)の少なくとも３つの特徴点を含む。２Ｄ特徴点は、２Ｄ座標により表される。２Ｄ特徴点の数を増やすことで、測定精度を向上させることができる。

　学習済みモデル１１１から出力される２Ｄ特徴点は、３Ｄ座標計算部１１２に供給される。また、測定データとしてのデプス画像は、３Ｄ座標計算部１１２に供給される。

　ここで、学習済みモデル１１１にデプス画像が入力された場合、同じデプス画像が３Ｄ座標計算部１１２に供給される。一方で、学習済みモデル１１１にRGB画像が入力された場合、RGB画像と略同一のタイミングで撮影されたデプス画像が３Ｄ座標計算部１１２に供給される。

　３Ｄ座標計算部１１２は、デプス画像、及び固有のパラメータを用いて、２Ｄ特徴点に対応した３Ｄ座標を計算する。具体的には、撮影時のカメラパラメータを用いて、デプス画像から、３Ｄ座標(x, y, z)の集合であるポイントクラウド(Point Cloud)を生成する。このポイントクラウドを用いることで、足に関する２Ｄ特徴点の座標(X, Y)に対応した３Ｄ特徴点の座標(x, y, z)を取得できる。

　３Ｄ座標計算部１１２により計算された３Ｄ特徴点は、足サイズ姿勢計算部１１３、及び学習済みモデル１１４に供給される。

　足サイズ姿勢計算部１１３は、３Ｄ特徴点等の情報を用いて、ユーザの足のサイズ(Foot Size)と姿勢(Pose)を計算する。

　足サイズとしては、踵から指先までの長さである足長(length)、親指の付け根から小指の付け根までの長さである足幅(width)、及び地面から甲までの高さである足高(height)などがある。以下、足サイズとして、足長を算出する場合を説明する。

　また、足サイズを算出するに際しては、足の指の関節が曲がった状態(指が折れている状態)、あるいは足の指の先端や踵が隠れている状態などでは、そのまま足サイズを計算しても正確な値にはならない。そのため、ここでは、それらの状態を考慮するために、足姿勢を算出する。足姿勢は、カメラ座標系で空間内の位置を表すベクトルなどにより表される。

　足サイズ姿勢計算部１１３により計算された足サイズと足姿勢は、学習済みモデル１１４に供給される。

　学習済みモデル１１４は、学習時にディープニューラルネットワークを用いた学習が行われて学習済みとなったモデルである。学習済みモデル１１４を推論時に用いることで、３Ｄ特徴点、足サイズ、及び足姿勢から、補正済みの足サイズを予測することができる。

　以下、ディープニューラルネットワークを用いて学習された学習済みモデル１１４を、他の学習済みモデルと区別するために、DNN２とも呼ぶ。DNN２の学習については、図１１を参照して後述する。

　学習済みモデル１１４には、３Ｄ座標計算部１１２からの３Ｄ特徴点と、足サイズ姿勢計算部１１３からの足サイズと足姿勢が供給される。処理部１５Ａでは、３Ｄ特徴点、足サイズ、及び足姿勢を入力として、学習済みモデル１１４を用いた推論が行われることで、補正済みの足サイズが出力される。

　例えば、足の指の関節が曲がった状態にある場合に、指先から踵までの長さを計算しても正確な足サイズとはならないが、学習済みモデル１１４では、その情報が足姿勢として入力されるので、入力された足サイズを、足の指の関節が曲がっていない状態での足サイズに補正して、補正後の足サイズを出力することができる。

　学習済みモデル１１４には、ユーザ情報や他の測定結果を入力しても構わない。例えば、ユーザ情報には、性別や年齢などの測定対象のユーザに関する情報を含めることができる。他の測定結果には、足長以外の足サイズの測定結果(例えば、足の指の長さの測定結果)を含めることができる。ユーザ情報等を入力に加えることで、学習済みモデル１１４による予測結果の正解率(Accuracy)をさらに改善することができる。

　学習済みモデル１１４において、入力と出力の値の差、つまり、補正前の足サイズの値と、補正後の足サイズの値との差が所定の閾値を超える場合、補正後の足サイズの値を予測結果として用いなくてもよい。すなわち、デプス画像や３Ｄ特徴点などのデータには、誤差が含まれ、入力と出力の値の差が大きい場合には誤った値である可能性が高いので、予測結果を時間方向に集めて外れ値が除かれるようにする。

　例えば、情報処理装置１では、デプス画像やRGB画像が所定の時間間隔で取得され、それらの画像が取得されるタイミングに応じて足測長処理を実行することができるが、外れ値を除いた予測結果から補正後の足サイズを求めることができるため、足サイズの測定精度を向上させることができる。

　学習済みモデル１１４から出力される補正後の足サイズは、表示部１６に供給される。処理部１５Ａでは、補正後の足サイズに対して所定の処理を施してから、表示部１６に供給してもよい。表示部１６は、処理部１５Ａから供給される補正後の足サイズに応じた情報を表示する。

　以上のように構成される処理部１５Ａでは、デプス画像又はRGB画像に対し、DNN１としての学習済みモデル１１１を用いた処理が行われるとともに、デプス画像又はRGB画像を処理して得られた３Ｄ特徴点、足サイズ、及び足姿勢に対し、DNN２としての学習済みモデル１１４を用いた処理が行われることで、補正済みの足サイズが得られる。

　このように、対象のサイズを測定するに際して、DNN１，DNN２である学習済みモデルを用いた推論を行っているため、学習済みモデルの予測精度の向上に伴い、より正確なサイズを測定することができる。また、DNN２を用いた推論を行うに際しては、対象の姿勢を考慮しているため、対象がサイズを測定するために適した状態になくても、正確なサイズを測定することができる。

　さらに、DNN２の入力としてユーザ情報や他の測定結果などを加えることで、予測結果の正解率を改善することができる。また、DNN２の入力と出力の値の差が大きい場合には、外れ値として予測結果から除かれるようにすることで、測定精度をさらに向上させることができる。

（足測長処理の流れ）
　次に、図３のフローチャートを参照して、図２の処理部１５Ａにより実行される足測長処理の流れを説明する。図４には、図３に示した足測長処理におけるデータの流れを模式的に表しており、適宜参照しながら説明する。

　図３のフローチャートの処理は、ユーザが自身の足に対し、モバイル端末等の情報処理装置１を向けて撮影を行うことで開始される。

　ステップＳ１１において、処理部１５Ａは、デプス処理部１２からのデプス画像、又はRGB処理部１４からのRGB画像を取得する。例えば、デプス画像としてデプスマップ(Depth Map)が取得されるか、又はRGB画像としてカラーカメラ画像(Color Camera Image)が取得される(図４のＳ１１)。

　ステップＳ１２において、処理部１５Ａは、学習済みモデル１１１を用いて、取得されたデプス画像又はRGB画像を入力とした推論を行うことで、２Ｄ特徴点を出力する。例えば、DNN１として学習された学習済みモデル１１１を用い、デプスマップ又はカラーカメラ画像を入力とした推論が行われることで、２Ｄ特徴点(2D Feature points)として、指先(Tip)の座標(100,25)、親指の付け根(Base of Thumb)の座標(85,58)、及び踵(Heal)の座標(65,157)が出力される(図４のＳ１２)。

　ステップＳ１３において、３Ｄ座標計算部１１２は、２Ｄ特徴点に対応した３Ｄ特徴点を計算する。例えば、撮影時のカメラパラメータ(デプスセンサ１１の視野角に関する情報等)を用い、デプスマップ(Depth Map)から、３Ｄ座標(x, y, z)の集合であるポイントクラウドを生成することができる。このポイントクラウドを用い、２Ｄ特徴点に対応した３Ｄ特徴点(3D Feature points)として、指先の座標(15,170,600)、親指の付け根の座標(-2,100,500)、及び踵の座標(-45,85,600)が求められる(図４のＳ１３)。

　ステップＳ１４において、足サイズ姿勢計算部１１３は、足サイズと足姿勢を計算する。例えば、足サイズ(Foot Size)としては、足の指先と踵の３Ｄ座標を用いた演算を行うことで、足長(length)が計算される(図４のＳ１４)。足姿勢(Pose)としては、３Ｄ特徴点等の情報を用いた演算を行うことで、足の指の関節が曲がった状態にあることや、足の指の先端や踵が隠れている状態にあることなどを示す情報が計算される(図４のＳ１４)。例えば、足姿勢は、カメラ座標系の３Ｄベクトルで表される。

　ステップＳ１５において、処理部１５Ａは、学習済みモデル１１４を用いて、３Ｄ特徴点、足サイズ、及び足姿勢を入力とした推論を行うことで、補正後の足サイズを出力する。例えば、DNN２として学習された学習済みモデル１１４を用い、３Ｄ特徴点(３Ｄ座標)と、足長である足サイズ(距離)と、足の指の関節が曲がった状態にあることを示す足姿勢(３Ｄベクトル)が入力されたとき、入力された足長を、足の指の関節が曲がっていない状態での足長に補正して、補正後の足長(Foot Size)を出力する(図４のＳ１５)。

　このように、足の指の関節が曲がった状態や、足の指の先端や踵が隠れている状態などにあるとき、それらの状態で測定した足サイズは正確な値にはならないので、学習済みモデル１１４に対し、足姿勢を入力することで、その出力として理想的な状態での測定に補正された足サイズが出力されるようにしている。また、学習済みモデル１１４には、性別や年齢などのユーザ情報(図４のOption User Information)や、足の指の長さなどの他の測定結果が入力されるようにすることで、予測結果の正解率を改善することができる。なお、情報処理装置１で起動したアプリケーションを、ユーザが操作することで、自身のユーザ情報を予め登録しておくことができる。

　また、足測長処理では、デプス画像又はRGB画像を取得する度に補正後の足サイズを求めることができるので、補正後の足サイズが得られる度に補正前の足サイズと比較して、その差が大きい場合には外れ値として取り除くようにする。これにより、最終的に外れ値を取り除いた足サイズが求められるため、足サイズの測定精度を向上させることができる。

　なお、ステップＳ１２の処理では、デプス画像又はRGB画像から２Ｄ特徴点を求める例を示したが、デプス画像は、RGB画像よりも情報量が少ないため、デプス画像を用いた場合のほうが、処理時の演算量を減らすことができる。

　以上のように、足測長処理では、DNN１として学習された学習済みモデル１１１と、DNN２として学習された学習済みモデル１１４とを用いた処理が行われることで、ユーザの足を撮影して得られたデプス画像等の画像から、補正済みの足サイズが得られる。そのため、学習済みモデル(DNN１，DNN２)の予測精度の向上に伴い、より正確に、足サイズを測定することができる。また、足測長処理では、デプス画像等の画像を入力するだけで、補正済みの足サイズが得られるため、処理部１５Ａの処理能力の向上に伴い、より速やかに、足サイズを測定することができる。

＜２．第２の実施の形態＞

　上述した説明では、図１の処理部１５において、DNN１として学習された学習済みモデル１１１を用いることで、２Ｄ特徴点が出力される場合の構成と処理の流れを示したが、３Ｄ特徴点が出力されるようにしてもよい。次に、図１の処理部１５において、前段の学習済みモデルの出力が３Ｄ特徴点となる場合の構成と処理の流れを説明する。

（処理部の構成例）
　図５は、図１の処理部１５の構成の第２の例を示すブロック図である。

　図５において、処理部１５Ｂは、学習済みモデル２１１、足サイズ姿勢計算部１１３、及び学習済みモデル１１４を有する。処理部１５Ｂでは、対象のサイズとして、ユーザの足サイズが測定される。

　処理部１５Ｂにおいて、処理部１５Ａ（図２）に対応する部分には、同一の符号を付してある。すなわち、処理部１５Ｂでは、処理部１５Ａと比べて、学習済みモデル１１１、及び３Ｄ座標計算部１１２の代わりに、学習済みモデル２１１が設けられる。

　学習済みモデル２１１は、学習時にディープニューラルネットワークを用いた学習が行われて学習済みとなったモデルである。学習済みモデル２１１を推論時に用いることで、デプス画像から、足に関する３Ｄ特徴点を予測することができる。

　以下、ディープニューラルネットワークを用いて学習された学習済みモデル２１１を、他の学習済みモデルと区別するために、DNN３とも呼ぶ。DNN３の学習については、図１１を参照して後述する。

　処理部１５Ｂには、測定データとしてユーザの足を撮影して得られたデプス画像が供給され、学習済みモデル２１１に入力される。処理部１５Ｂでは、デプス画像を入力として、学習済みモデル２１１を用いた推論が行われることで、足に関する３Ｄ特徴点が出力される。例えば、３Ｄ特徴点は、指先、親指の付け根、及び踵の少なくとも３つの特徴点を含む。３Ｄ特徴点は、３Ｄ座標により表される。

　学習済みモデル２１１から出力される３Ｄ特徴点は、足サイズ姿勢計算部１１３、及び学習済みモデル１１４に供給される。足サイズ姿勢計算部１１３と学習済みモデル１１４の説明は繰り返しになるので、適宜省略する。

　足サイズ姿勢計算部１１３では、３Ｄ特徴点等の情報に基づき、足サイズ及び足姿勢が計算される。処理部１５Ｂでは、３Ｄ特徴点、足サイズ、及び足姿勢を入力として、学習済みモデル１１４を用いた推論が行われることで、補正済みの足サイズが出力される。

　以上のように構成される処理部１５Ｂでは、デプス画像に対し、DNN３としての学習済みモデル２１１を用いた処理が行われるとともに、デプス画像を処理して得られた３Ｄ特徴点、足サイズ、及び足姿勢に対し、DNN２としての学習済みモデル１１４を用いた処理が行われることで、補正済みの足サイズが得られる。すなわち、処理部１５Ｂでは、処理部１５Ａ（図２）と比べて、画像を入力とする前段の学習済みモデルを用いて、２Ｄ特徴点ではなく、３Ｄ特徴点を直接求めている。

　このように、対象のサイズを測定するに際して、DNN３，DNN２である学習済みモデルを用いた推論を行っているため、学習済みモデルの予測精度の向上に伴い、より正確なサイズを測定することができる。また、DNN２を用いた推論を行うに際しては、対象の姿勢を考慮しているため、対象がサイズを測定するために適した状態になくても、正確なサイズを測定することができる。

（足測長処理の流れ）
　次に、図６のフローチャートを参照して、図５の処理部１５Ｂにより実行される足測長処理の流れを説明する。図７には、図６に示した足測長処理におけるデータの流れを模式的に表しており、適宜参照しながら説明する。

　図６のフローチャートの処理は、ユーザが自身の足に対し、モバイル端末等の情報処理装置１を向けて撮影を行うことで開始される。

　ステップＳ２１において、処理部１５Ｂは、デプス処理部１２からのデプス画像を取得する。例えば、デプス画像としてデプスマップ(Depth Map)が取得される(図７のＳ２１)。

　ステップＳ２２において、処理部１５Ｂは、学習済みモデル２１１を用いて、取得されたデプス画像を入力とした推論を行うことで、３Ｄ特徴点を出力する。例えば、DNN３として学習された学習済みモデル２１１を用い、デプスマップを入力とした推論が行われることで、３Ｄ特徴点(3D Feature points)として、指先の座標(15,170,600)、親指の付け根の座標(-2,100,500)、及び踵の座標(-45,85,600)が出力される(図７のＳ２２)。

　ステップＳ２３乃至Ｓ２４においては、上述した図３のステップＳ１４乃至Ｓ１５と同様に、足サイズ姿勢計算部１１３によって、足サイズと足姿勢が計算され、DNN２として学習された学習済みモデル１１４を用い、３Ｄ特徴点、足サイズ、及び足姿勢を入力とした推論が行われ、補正後の足サイズ(Foot Size)が出力される(図７のＳ２３，Ｓ２４)。

　以上のように、足測長処理では、DNN３として学習された学習済みモデル２１１と、DNN２として学習された学習済みモデル１１４とを用いた処理が行われることで、ユーザの足を撮影して得られたデプス画像から、補正済みの足サイズが得られる。そのため、学習済みモデル(DNN３，DNN２)の予測精度の向上に伴い、より正確に、足サイズを測定することができる。

＜３．第３の実施の形態＞

　上述した説明では、図１の処理部１５において、２つの学習済みモデルを用いた場合の構成と処理の流れを示したが、学習済みモデルは１つであってもよい。次に、図１の処理部１５において、１つの学習済みモデルを用い、補正済みの足サイズを出力する場合の構成と処理の流れを説明する。

（処理部の構成例）
　図８は、図１の処理部１５の構成の第３の例を示すブロック図である。

　図８において、処理部１５Ｃは、学習済みモデル３１１を有する。処理部１５Ｃでは、対象のサイズとして、ユーザの足サイズが測定される。

　学習済みモデル３１１は、学習時にディープニューラルネットワークによって学習済みとなったモデルである。学習済みモデル３１１を推論時に用いることで、デプス画像から、補正済みの足サイズを予測することができる。

　以下、ディープニューラルネットワークを用いて学習された学習済みモデル３１１を、他の学習済みモデルと区別するために、DNN４とも呼ぶ。DNN４の学習については、図１１を参照して後述する。

　処理部１５Ｃには、測定データとしてユーザの足を撮影して得られたデプス画像が供給され、学習済みモデル３１１に入力される。処理部１５Ｃでは、デプス画像を入力として、学習済みモデル３１１を用いた推論が行われることで、補正済みの足サイズが出力される。

　例えば、ユーザの足の指の関節が曲がった状態などにあるとき、デプス画像から予測される足サイズが正確な値にならないので、学習済みモデル３１１では、学習時に足姿勢などの特徴を学習しておくことで、理想的な状態(足の指の関節が曲がっていない状態)での測定に補正された足サイズが出力されるようにしている。

　なお、図８に示した処理部１５Ｃの構成では、学習済みモデル３１１にデプス画像が入力される場合を示したが、RGB画像を入力しても構わない。

　以上のように構成される処理部１５Ｃでは、デプス画像に対し、DNN４としての学習済みモデル３１１を用いた処理が行われることで、補正済みの足サイズが得られる。このように、対象のサイズを測定するに際して、DNN４である学習済みモデルを用いた推論を行っているため、学習済みモデルの予測精度の向上に伴い、より正確なサイズを測定することができる。

（足測長処理の流れ）
　次に、図９のフローチャートを参照して、図８の処理部１５Ｃにより実行される足測長処理の流れを説明する。図１０には、図９に示した足測長処理におけるデータの流れを模式的に表しており、適宜参照しながら説明する。

　図９のフローチャートの処理は、ユーザが自身の足に対し、モバイル端末等の情報処理装置１を向けて撮影を行うことで開始される。

　ステップＳ３１において、処理部１５Ｃは、デプス処理部１２からのデプス画像を取得する。例えば、デプス画像としてデプスマップ(Depth Map)が取得される(図１０のＳ３１)。

　ステップＳ３２において、処理部１５Ｃは、学習済みモデル３１１を用いて、取得されたデプス画像を入力とした推論を行うことで、補正済みの足サイズを出力する。例えば、モバイル端末での撮影時に、ユーザの足の指の関節が曲がった状態などにあるときには、理想的な状態での測定に補正された足サイズ(Foot Size)が出力される(図１０のＳ３２)。

　以上のように、足測長処理では、DNN４として学習された学習済みモデル３１１を用いた処理が行われることで、ユーザの足を撮影して得られたデプス画像から、補正済みの足サイズが得られる。そのため、学習済みモデル(DNN４)の予測精度の向上に伴い、より正確に、足サイズを測定することができる。

　なお、学習済みモデル３１１は、デプス画像を入力としたときに、その出力として補正済みの足サイズを出力するように学習されるが、学習の際には、学習データをDNN４に入力するだけでなく、DNN４の途中で正解のデータを与えて学習が行われるようにしてもよい。

＜４．開発ワークフロー・プラットフォーム＞

　図１１は、本開示を適用した情報処理装置で実行されるアプリケーションを提供するための開発ワークフローとプラットフォームの例を示す図である。

　図１１においては、PC(Personal Computer)等の情報処理装置２を用いて開発されたアプリケーションが、モバイル端末等の情報処理装置１に提供され、インストールされる。

　情報処理装置２においては、アルゴリズム開発とアプリケーション開発が行われる。アルゴリズム開発では、足測長処理のプログラム(foot measure code)と、足測長処理の実行時に呼び出される学習済みモデル(trained model)の開発が行われる。

　アルゴリズム開発では、学習データを用いた機械学習により学習された学習済みモデルが生成される。撮影用のアプリケーションを起動した撮影装置３により撮影されたデプス画像をデータベース４に蓄積することで、情報処理装置２は、大量の学習データを取得することができる。なお、学習データとしては、RGB画像を含めることができる。

　情報処理装置２では、学習データに対するアノテーション作業が行われる。例えば、開発者がGUIツール(GUI Labeling Tool)を用いて、学習データとしてのデプス画像に含まれる足の特定部分に特徴点(例えば、指先や踵などの正解の特徴点)をラベリングすることで教師データが生成される。

　また、データオーギュメンテーション(Data Augmentation)が行われ、例えば既存の画像を拡大したり、左右反転したりすることで、機械学習で用いられる学習データのバリエーションを増やすことができる。これにより、撮影装置３による撮影だけではカバーできない情報を追加することができる。

　情報処理装置２では、学習データを用い、ディープラーニング(Deep Learning)による機械学習を行うことで、学習済みモデルが生成される。例えば、学習済みモデルとしては、上述したDNN１乃至DNN４のいずれかを生成することができる。

　より具体的には、DNN１では、デプス画像又はRGB画像を入力としたときに、その出力として指先等の２Ｄ特徴点を出力することを期待しているが、学習の初期段階では、指先等とは異なる部分の特徴点を出力してしまう。ここでは、正解の２Ｄ特徴点をラベリングして、学習を繰り返すことで、指先等の正解の２Ｄ特徴点が出力されるようになり、DNN１の学習が収束することになる。

　同様に、DNN３では、デプス画像を入力としたときに、その出力として３Ｄ特徴点を出力することを期待しているので、正解の３Ｄ特徴点をラベリングして、学習を繰り返すことで、正解の３Ｄ特徴点を出力するようになる。

　また、DNN２では、３Ｄ特徴点、足サイズ、及び足姿勢を入力としたときに、その出力として補正済みの足サイズを出力することを期待しているので、人の足の特徴に関する学習を繰り返すことで、正解の足サイズを出力するようになる。DNN４では、デプス画像を入力としたときに、その出力として補正済みの足サイズを出力することを期待しているので、人の足の特徴に関する学習を繰り返すことで、正解の足サイズを出力するようになる。

　なお、DNN２やDNN４では、ユーザ情報や他の測定結果が入力される場合には、それらの情報を考慮した学習が行われる。また、学習済みモデルを学習する際には、学習データをDNNに入力するだけでなく、DNNの途中で正解のデータを与えて学習が行われるようにしてもよい。

　より多くの学習データやラベリングされたデータを用意したり、データオーギュメンテーションにより学習データのバリエーションを増やしたりして、機械学習を行うことで、学習済みモデル(DNN１やDNN２等)の予測精度を向上させることができる。なお、情報処理装置２としては、高性能のPCを使用することが望ましい。

　このようにして生成される学習済みモデル(DNN１やDNN２等)は、足測長処理の実行時に適宜呼び出され、入力に対する予測結果を出力する。

　アプリケーション開発では、アルゴリズム開発で開発された足測長処理のプログラムと学習済みモデルを用い、足測長処理で得られる足サイズを利用したアプリケーション(以下、足測長アプリケーションともいう)の開発が行われる。このようにして開発された足測長アプリケーションが、インターネット上のサーバなどを介して、情報処理装置１に提供され、インストールされる。

　情報処理装置１では、足測長アプリケーションが起動されて、ユーザの足(足首よりも先)が撮影されたとき、足測長処理が実行されて足サイズが表示される。足測長アプリケーションでは、足測長処理の実行時に、DNN１やDNN２等の学習済みモデルを適宜呼び出すことで、入力に対する予測結果が出力として得られるので、それらの出力を用いた処理が行われる。

　なお、図１１では、アルゴリズム開発とアプリケーション開発が１台のPCなどの同一の情報処理装置２で行われる場合を示したが、アルゴリズム開発とアプリケーション開発が異なる情報処理装置で行われてもよい。また、アルゴリズム開発とアプリケーション開発は、それぞれ、複数台の情報処理装置で行われてもよい。

　また、図１１において、アルゴリズム開発では、学習済みモデルを生成する際に、教師データを用いて学習を行う場合を示したが、教師データなしで学習を行っても構わない。

＜５．ユースケース＞

　足測長アプリケーションによって、様々なサービスを提供することが可能となる。例えば、AR(Augmented Reality)技術を利用して、ユーザの足サイズに応じた靴を試着(いわゆるAR試着)できるようにして、その靴をユーザが気に入った場合には、EC(Electronic Commerce)を利用して購入可能なサービスを提供することができる。

（靴試着購入処理）
　図１２のフローチャートを参照して、情報処理装置１により実行される靴試着購入処理の流れを説明する。

　情報処理装置１では、靴試着購入処理が実行されるに際して、足測長アプリケーションが起動されている。

　ステップＳ１１１において、処理部１５は、操作部１７からの操作信号に基づき、ユーザにより所望の靴が選択されたかどうかを判定する。ステップＳ１１１において、ユーザにより所望の靴が選択されたと判定された場合、処理はステップＳ１１２に進められる。

　ステップＳ１１２において、処理部１５は、足測長処理を開始する。足測長処理を開始するに際しては、ユーザが自身の足(足首よりも先)に情報処理装置１を向けることで、デプスセンサ１１とRGBセンサ１３によりユーザの足が撮影(測定)される。

　この足測長処理では、上述した３つ実施の形態のうち、いずれかの実施の形態に示した処理が行われる。すなわち、デプス画像を含む画像、及び当該画像から得られる情報の少なくとも一部に、DNN１とDNN２、DNN３とDNN２、又はDNN４である学習済みモデルを用いた処理が行われる。

　ステップＳ１１３において、処理部１５は、撮影されたRGB画像に含まれるユーザの足に対し、選択された靴のAR画像を重畳し、表示部１６に表示する。

　ステップＳ１１４において、処理部１５は、足の姿勢のバリエーションや撮影時間、足測長処理に要する時間などに連動させた進捗状況を表示部１６に表示する。

　例えば、図１３に示すように、情報処理装置１の表示部１６では、撮影されたRGB画像に応じた撮影画面５１１に含まれるユーザの足の部分に、ユーザにより選択された靴のAR画像５２１が重畳して表示される。なお、AR画像の重畳表示については、公知の技術を用いることができる。足測長処理では足の姿勢などを認識可能であるため、画像マーカ(ARマーカ)は不要である。

　また、撮影画面５１１には、進捗状況５３１が表示される。ユーザが靴のAR試着を行っている間に、足測長処理が行われる。つまり、足測長処理では、足サイズを算出するとともに、時間方向に順次得られる値から外れ値を除去する処理等が行われるため、ある程度の時間を要するが、その時間を考慮した進捗が提示される。

　進捗の提示方法であるが、図１３の進捗状況５３１のように、ドーナツ型のグラフの割合で表すほか、例えば、図１４の進捗状況５３２のように、横棒型のグラフの割合で表してもよい。なお、進捗状況の表示は、ドーナツ型や横棒型のグラフに限らず、他の表示形態を用いてもよい。さらに、進捗の提示方法は、表示に限らず、音出力や振動などの他の提示方法を用いても構わない。

　処理部１５は、足測長処理で得られる情報や他のセンサからの情報などに基づき、情報処理装置１に対するユーザの足の位置が近すぎる場合や遠すぎる場合には、その旨のメッセージを表示部１６に表示することができる。例えば、図１５に示すように、ユーザの足の位置が近すぎる場合には、メッセージ５４１が表示される。メッセージを提示することで、ユーザに対し、情報処理装置１を動かすか、又は自身の足を動かすなどして、足測長に適した距離に誘導することができる。

　図１２に戻り、ステップＳ１１５において、処理部１５は、足測長処理が終了したかどうかを判定する。ステップＳ１１５において、足測長処理が終了していないと判定された場合、処理はステップＳ１１３に戻り、ステップＳ１１３，Ｓ１１４が繰り返され、AR画像とともに進捗状況が表示される。

　一方で、ステップＳ１１５において、足測長処理が終了したと判定された場合、処理はステップＳ１１６に進められる。ステップＳ１１６において、処理部１５は、足測長処理で得られた足サイズを表示部１６に表示する。この足サイズは、補正済みの足サイズであって、例えば、情報処理装置１での撮影時に、ユーザの足の指の関節が曲がった状態などにあるときには、理想的な状態で測定されたときの値に補正されている。

　例えば、図１６に示すように、情報処理装置１の表示部１６では、撮影画面５１１に、靴のAR画像５２１が重畳表示されるとともに、足サイズ５５１が表示される。これにより、ユーザは、自身の足サイズを認識することができる。

　図１２に戻り、ステップＳ１１７において、処理部１５は、操作部１７からの操作信号に基づき、ユーザによりAR試着中の靴の購入が選択されたかどうかを判定する。

　ステップＳ１１７において、靴の購入が選択されたと判定された場合、処理は、ステップＳ１１８に進められる。ステップＳ１１８において、処理部１５は、商品購入処理を行う。

　例えば、図１６に示すように、情報処理装置１の表示部１６には、AR試着した靴を購入するためのボタン５５２が表示される。ユーザは、自身がAR試着した靴を購入したい場合には、ボタン５５２をタップ操作することで、購入画面が表示される。ユーザは、購入画面に対し、必要な操作を行うことで、決済などの処理が行われ、AR試着した靴を購入することができる。購入画面では、足測長処理で得られた補正後の足サイズに応じた靴を購入することができるが、足サイズ５５１を確認したユーザが、自身の足サイズの入力や変更の操作を行えるようにしてもよい。

　なお、足測長アプリケーションでは、ユーザにより選択された靴に限らず、選択された靴に似たモデルの靴をAR試着したり、購入したりする機能が提供されてもよい。また、足測長アプリケーションでは、足測長処理で得られる情報や他のセンサからの情報などに基づき、靴ごとのフィット率を算出して表示してもよい。ユーザは、これらの情報を確認して、靴を購入するかどうかを判断することができる。

　さらに、情報処理装置１が、インターネット上のサーバにアクセスして、足測長処理で得られた補正後の足サイズ、及びユーザ情報(性別や年齢等)を送信し、ユーザの特性に応じた靴の確認を要求することができる。足測長アプリケーションでは、サーバからの応答に基づき、ユーザの特性に応じた靴をリコメンドすることができる。

　ステップＳ１１８の処理が終了すると、一連の処理が終了する。また、ステップＳ１１７において、靴の購入が選択されていないと判定された場合、ステップＳ１１８の処理はスキップされ、一連の処理は終了する。

　以上、靴試着購入処理の流れを説明した。靴試着購入処理では、ユーザに対し、より正確な足サイズを表示するとともに、対象の靴のAR試着と購入を可能にしている。これにより、ユーザが対象の靴の購入に至る割合を増やすことができる。

＜６．変形例＞

（対象のサイズの他の例）
　上述した説明では、ターゲットとなる対象のサイズとして、足サイズを例示したが、情報処理装置１では、ユーザの身体の他の部位を測長し、測長した部位に応じて、被服や装身具等のAR画像が重畳表示されるようにしてもよい。また、情報処理装置１では、測長した部位のサイズが表示されてもよい。

　例えば、ユーザを撮影して得られたデプス画像、及び当該画像から得られる情報の少なくとも一部に学習済みモデルを用いた処理を行うことで、ユーザの肩幅や身幅等が測長され、同時に撮影されたRGB画像に含まれるユーザの上半身の部分に、洋服のAR画像が重畳されて表示される。あるいは、ユーザの指周りの長さが測長されることで、撮影されたRGB画像に含まれるユーザの指の部分に、指輪のAR画像が重畳されて表示される。また、洋服や指輪のAR画像とともに、測長された肩幅や身幅、指周りの長さなどが表示されてもよい。

（ルールベースの適用）
　上述した説明では、情報処理装置１において、処理部１５が、機械学習により学習された学習済みモデルを用いた処理を行うとしたが、一部の処理が、ルールベースで行われても構わない。

（他の構成の例）
　図１７は、ＡＩ処理を行う装置を含むシステムの構成例を示している。

　電子機器２０００１は、スマートフォン、タブレット型端末、携帯電話機等のモバイル端末である。電子機器２０００１は、例えば、図１の情報処理装置１に対応しており、デプスセンサ１１（図１）に対応した光センサ２００１１を有する。光センサは、光を電気信号に変換するセンサ（画像センサ）である。電子機器２０００１は、所定の通信方式に対応した無線通信によって所定の場所に設置された基地局２００２０に接続することで、コアネットワーク２００３０を介して、インターネット等のネットワーク２００４０に接続することができる。

　基地局２００２０とコアネットワーク２００３０の間などのモバイル端末により近い位置には、モバイルエッジコンピューティング（ＭＥＣ：Mobile Edge Computing）を実現するためのエッジサーバ２０００２が設けられる。ネットワーク２００４０には、クラウドサーバ２０００３が接続される。エッジサーバ２０００２とクラウドサーバ２０００３は、用途に応じた各種の処理を行うことができる。なお、エッジサーバ２０００２は、コアネットワーク２００３０内に設けられてもよい。

　電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１により、ＡＩ処理が行われる。ＡＩ処理は、本開示に係る技術を、機械学習等のＡＩを利用して処理するものである。ＡＩ処理は、学習処理と推論処理を含む。学習処理は、学習済みモデルを生成する処理である。また、学習処理には、後述する再学習処理も含まれる。推論処理は、学習済みモデルを用いた推論を行う処理である。学習済みモデルには、上述したDNN１乃至DNN４のいずれかを少なくとも含むことができる。

　電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１においては、ＣＰＵ(Central Processing Unit)等のプロセッサがプログラムを実行したり、あるいは特定用途に特化したプロセッサ等の専用のハードウエアを用いたりすることで、ＡＩ処理が実現される。例えば、特定用途に特化したプロセッサとしては、ＧＰＵ(Graphics Processing Unit)を用いることができる。

　図１８は、電子機器２０００１の構成例を示している。電子機器２０００１は、各部の動作の制御や各種の処理を行うＣＰＵ２０１０１と、画像処理や並列処理に特化したＧＰＵ２０１０２と、ＤＲＡＭ(Dynamic Random Access Memory)等のメインメモリ２０１０３と、フラッシュメモリ等の補助メモリ２０１０４を有する。

　補助メモリ２０１０４は、ＡＩ処理用のプログラムや各種パラメータ等のデータを記録している。ＣＰＵ２０１０１は、補助メモリ２０１０４に記録されたプログラムやパラメータをメインメモリ２０１０３に展開してプログラムを実行する。あるいは、ＣＰＵ２０１０１とＧＰＵ２０１０２は、補助メモリ２０１０４に記録されたプログラムやパラメータをメインメモリ２０１０３に展開してプログラムを実行する。これにより、ＧＰＵ２０１０２を、ＧＰＧＰＵ(General-Purpose computing on Graphics Processing Units)として用いることができる。

　なお、ＣＰＵ２０１０１やＧＰＵ２０１０２は、ＳｏＣ(System on a Chip)として構成されてもよい。ＣＰＵ２０１０１がＡＩ処理用のプログラムを実行する場合には、ＧＰＵ２０１０２を設けなくてもよい。

　電子機器２０００１はまた、本開示に係る技術を適用した光センサ２００１１と、物理的なボタンやタッチパネル等の操作部２０１０５と、少なくとも１以上のセンサを含むセンサ２０１０６と、画像やテキスト等の情報を表示するディスプレイ２０１０７と、音を出力するスピーカ２０１０８と、所定の通信方式に対応した通信モジュール等の通信Ｉ／Ｆ２０１０９と、それらを接続するバス２０１１０を有する。

　センサ２０１０６は、光センサ（画像センサ）、音センサ（マイクロフォン）、振動センサ、加速度センサ、角速度センサ、圧力センサ、匂いセンサ、生体センサ等の各種のセンサを少なくとも１以上有している。ＡＩ処理では、光センサ２００１１から取得したデータ（画像データ）とともに、センサ２０１０６の少なくとも１以上のセンサから取得したデータを用いることができる。すなわち、光センサ２００１１は、デプスセンサ１１（図１）に対応し、センサ２０１０６は、RGBセンサ１３（図１）に対応している。

　なお、センサフュージョンの技術によって２以上の光センサから取得したデータやそれらを統合的に処理して得られるデータが、ＡＩ処理で用いられてもよい。２以上の光センサとしては、光センサ２００１１とセンサ２０１０６内の光センサの組み合わせでもよいし、あるいは光センサ２００１１内に複数の光センサが含まれていてもよい。例えば、光センサには、ＲＧＢの可視光センサ、ＴｏＦ（Time of Flight）等の測距センサ、偏光センサ、イベントベースのセンサ、ＩＲ像を取得するセンサ、多波長取得可能なセンサなどが含まれる。

　電子機器２０００１においては、ＣＰＵ２０１０１やＧＰＵ２０１０２等のプロセッサによってＡＩ処理を行うことができる。電子機器２０００１のプロセッサが推論処理を行う場合には、光センサ２００１１で画像データを取得した後に時間を要さずに処理を開始することができるため、高速に処理を行うことができる。そのため、電子機器２０００１では、短い遅延時間で情報を伝達することが求められるアプリケーションなどの用途に推論処理が用いられた際に、ユーザは遅延による違和感なく操作を行うことができる。また、電子機器２０００１のプロセッサがＡＩ処理を行う場合、クラウドサーバ２０００３等のサーバを利用する場合と比べて、通信回線やサーバ用のコンピュータ機器などを利用する必要がなく、低コストで処理を実現することができる。

　図１９は、エッジサーバ２０００２の構成例を示している。エッジサーバ２０００２は、各部の動作の制御や各種の処理を行うＣＰＵ２０２０１と、画像処理や並列処理に特化したＧＰＵ２０２０２を有する。エッジサーバ２０００２はさらに、ＤＲＡＭ等のメインメモリ２０２０３と、ＨＤＤ(Hard Disk Drive)やＳＳＤ(Solid State Drive)等の補助メモリ２０２０４と、ＮＩＣ(Network Interface Card)等の通信Ｉ／Ｆ２０２０５を有し、それらがバス２０２０６に接続される。

　補助メモリ２０２０４は、ＡＩ処理用のプログラムや各種パラメータ等のデータを記録している。ＣＰＵ２０２０１は、補助メモリ２０２０４に記録されたプログラムやパラメータをメインメモリ２０２０３に展開してプログラムを実行する。あるいは、ＣＰＵ２０２０１とＧＰＵ２０２０２は、補助メモリ２０２０４に記録されたプログラムやパラメータをメインメモリ２０２０３に展開してプログラムを実行することで、ＧＰＵ２０２０２をＧＰＧＰＵとして用いることができる。なお、ＣＰＵ２０２０１がＡＩ処理用のプログラムを実行する場合には、ＧＰＵ２０２０２を設けなくてもよい。

　エッジサーバ２０００２においては、ＣＰＵ２０２０１やＧＰＵ２０２０２等のプロセッサによってＡＩ処理を行うことができる。エッジサーバ２０００２のプロセッサがＡＩ処理を行う場合、エッジサーバ２０００２はクラウドサーバ２０００３と比べて、電子機器２０００１と近い位置に設けられるため、処理の低遅延化を実現することができる。また、エッジサーバ２０００２は、電子機器２０００１や光センサ２００１１に比べて、演算速度などの処理能力が高いため、汎用的に構成することができる。そのため、エッジサーバ２０００２のプロセッサがＡＩ処理を行う場合、電子機器２０００１や光センサ２００１１の仕様や性能の違いに依らず、データを受信できればＡＩ処理を行うことができる。エッジサーバ２０００２でＡＩ処理を行う場合には、電子機器２０００１や光センサ２００１１における処理の負荷を軽減することができる。

　クラウドサーバ２０００３の構成は、エッジサーバ２０００２の構成と同様であるため、説明は省略する。

　クラウドサーバ２０００３においては、ＣＰＵ２０２０１やＧＰＵ２０２０２等のプロセッサによってＡＩ処理を行うことができる。クラウドサーバ２０００３は、電子機器２０００１や光センサ２００１１に比べて、演算速度などの処理能力が高いため、汎用的に構成することができる。そのため、クラウドサーバ２０００３のプロセッサがＡＩ処理を行う場合、電子機器２０００１や光センサ２００１１の仕様や性能の違いに依らず、ＡＩ処理を行うことができる。また、電子機器２０００１又は光センサ２００１１のプロセッサで負荷の高いＡＩ処理を行うことが困難である場合には、その負荷の高いＡＩ処理をクラウドサーバ２０００３のプロセッサが行い、その処理結果を電子機器２０００１又は光センサ２００１１のプロセッサにフィードバックすることができる。

　図２０は、光センサ２００１１の構成例を示している。光センサ２００１１は、例えば複数の基板が積層された積層構造を有する１チップの半導体装置として構成することができる。光センサ２００１１は、基板２０３０１と基板２０３０２の２枚の基板が積層されて構成される。なお、光センサ２００１１の構成としては積層構造に限らず、例えば、撮像部を含む基板が、ＣＰＵやＤＳＰ(Digital Signal Processor)等のＡＩ処理を行うプロセッサを含んでいてもよい。

　上層の基板２０３０１には、複数の画素が２次元に並んで構成される撮像部２０３２１が搭載されている。下層の基板２０３０２には、撮像部２０３２１での画像の撮像に関する処理を行う撮像処理部２０３２２と、撮像画像や信号処理結果を外部に出力する出力Ｉ／Ｆ２０３２３と、撮像部２０３２１での画像の撮像を制御する撮像制御部２０３２４が搭載されている。撮像部２０３２１、撮像処理部２０３２２、出力Ｉ／Ｆ２０３２３、及び撮像制御部２０３２４により撮像ブロック２０３１１が構成される。

　下層の基板２０３０２には、各部の制御や各種の処理を行うＣＰＵ２０３３１と、撮像画像や外部からの情報等を用いた信号処理を行うＤＳＰ２０３３２と、ＳＲＡＭ（Static Random Access Memory）やＤＲＡＭ（Dynamic Random Access Memory）等のメモリ２０３３３と、外部と必要な情報のやり取りを行う通信Ｉ／Ｆ２０３３４が搭載されている。ＣＰＵ２０３３１、ＤＳＰ２０３３２、メモリ２０３３３、及び通信Ｉ／Ｆ２０３３４により信号処理ブロック２０３１２が構成される。ＣＰＵ２０３３１及びＤＳＰ２０３３２の少なくとも１つのプロセッサによってＡＩ処理を行うことができる。

　このように、複数の基板が積層された積層構造における下層の基板２０３０２に、ＡＩ処理用の信号処理ブロック２０３１２を搭載することができる。これにより、上層の基板２０３０１に搭載される撮像用の撮像ブロック２０３１１で取得される画像データが、下層の基板２０３０２に搭載されたＡＩ処理用の信号処理ブロック２０３１２で処理されるため、１チップの半導体装置内で一連の処理を行うことができる。

　光センサ２００１１においては、ＣＰＵ２０３３１等のプロセッサによってＡＩ処理を行うことができる。光センサ２００１１のプロセッサが推論処理等のＡＩ処理を行う場合、１チップの半導体装置内で一連の処理が行われるため、センサ外部に情報が漏れないことから情報の秘匿性を高めることができる。また、画像データ等のデータを他の装置に送信する必要がないため、光センサ２００１１のプロセッサでは、画像データを用いた推論処理等のＡＩ処理を高速に行うことができる。例えば、リアルタイム性が求められるアプリケーションなどの用途に推論処理が用いられた際に、リアルタイム性を十分に確保することができる。ここで、リアルタイム性を確保するということは、短い遅延時間で情報を伝達できることを指す。さらに、光センサ２００１１のプロセッサがＡＩ処理を行うに際して、電子機器２０００１のプロセッサにより各種のメタデータを渡すことで、処理を削減して低消費電力化を図ることができる。

　図２１は、処理部２０４０１の構成例を示している。処理部２０４０１は、図１の処理部１０に対応している。電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１のプロセッサがプログラムに従った各種の処理を実行することで、処理部２０４０１として機能する。なお、同一の又は異なる装置が有する複数のプロセッサを処理部２０４０１として機能させてもよい。

　処理部２０４０１は、ＡＩ処理部２０４１１を有する。ＡＩ処理部２０４１１は、ＡＩ処理を行う。ＡＩ処理部２０４１１は、学習部２０４２１と推論部２０４２２を有する。

　学習部２０４２１は、学習済みモデルを生成する学習処理を行う。学習処理では、DNN１乃至DNN４等の学習済みモデルが生成される。また、学習部２０４２１は、生成済みの学習済みモデルを更新する再学習処理を行ってもよい。以下の説明では、学習済みモデルの生成と更新を区別して説明するが、学習済みモデルを更新することで、学習済みモデルを生成しているとも言えるため、学習済みモデルの生成には、学習済みモデルの更新の意味が含まれるものとする。

　また、生成された学習済みモデルは、電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１などが有するメインメモリ又は補助メモリなどの記憶媒体に記録されることで、推論部２０４２２が行う推論処理において新たに利用可能となる。これにより、当該学習済みモデルに基づく推論処理を行う電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１などを生成することができる。さらに、生成された学習済みモデルは、電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１などとは独立した記憶媒体又は電子機器に記録され、他の装置で使用するために提供されてもよい。なお、これらの電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１などの生成とは、製造時において、それらの記憶媒体に新たに学習済みモデルを記録することだけでなく、既に記録されている生成済学習済みモデルを更新することも含まれるものとする。

　推論部２０４２２は、学習済みモデルを用いた推論処理を行う。推論処理では、DNN１乃至DNN４等の学習済みモデルを用いた処理が行われる。

　機械学習の手法としては、ニューラルネットワークやディープラーニングなどを用いることができる。ニューラルネットワークとは、人間の脳神経回路を模倣したモデルであって、入力層、中間層（隠れ層）、出力層の３種類の層からなる。ディープラーニングとは、多層構造のニューラルネットワークを用いたモデルであって、各層で特徴的な学習を繰り返し、大量データの中に潜んでいる複雑なパターンを学習することができる。

　機械学習の問題設定としては、教師あり学習を用いることができる。例えば、教師あり学習は、与えられたラベル付きの教師データに基づいて特徴量を学習する。これにより、未知のデータのラベルを導くことが可能となる。学習データは、実際に光センサにより取得された画像データや、集約して管理されている取得済みの画像データ、シミュレータにより生成されたデータセットなどを用いることができる。

　なお、教師あり学習に限らず、教師なし学習、半教師あり学習、強化学習などを用いてもよい。教師なし学習は、ラベルが付いていない学習データを大量に分析して特徴量を抽出し、抽出した特徴量に基づいてクラスタリング等を行う。これにより、膨大な未知のデータに基づいて傾向の分析や予測を行うことが可能となる。半教師あり学習は、教師あり学習と教師なし学習を混在させたものであって、教師あり学習で特徴量を学ばせた後、教師なし学習で膨大な学習データを与え、自動的に特徴量を算出させながら繰り返し学習を行う方法である。強化学習は、ある環境内におけるエージェントが現在の状態を観測して取るべき行動を決定する問題を扱うものである。

　このように、電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１のプロセッサがＡＩ処理部２０４１１として機能することで、それらの装置のいずれか又は複数の装置でＡＩ処理が行われる。

　ＡＩ処理部２０４１１は、学習部２０４２１及び推論部２０４２２のうち少なくとも一方を有していればよい。すなわち、各装置のプロセッサは、学習処理と推論処理の両方の処理を実行することは勿論、学習処理と推論処理のうちの一方の処理を実行するようにしてもよい。例えば、電子機器２０００１のプロセッサが推論処理と学習処理の両方を行う場合には、学習部２０４２１と推論部２０４２２を有するが、推論処理のみを行う場合には、推論部２０４２２のみを有していればよい。

　各装置のプロセッサは、学習処理又は推論処理に関する全ての処理を実行してもよいし、一部の処理を各装置のプロセッサで実行した後に、残りの処理を他の装置のプロセッサで実行してもよい。また、各装置においては、学習処理や推論処理などのＡＩ処理の各々の機能を実行するための共通のプロセッサを有してもよいし、機能ごとに個別にプロセッサを有してもよい。

　なお、上述した装置以外の他の装置によりＡＩ処理が行われてもよい。例えば、電子機器２０００１が無線通信などにより接続可能な他の電子機器によって、ＡＩ処理を行うことができる。具体的には、電子機器２０００１がスマートフォンである場合に、ＡＩ処理を行う他の電子機器としては、他のスマートフォン、タブレット型端末、携帯電話機、ＰＣ(Personal Computer)、ゲーム機、テレビ受像機、ウェアラブル端末、デジタルスチルカメラ、デジタルビデオカメラなどの装置とすることができる。

　また、自動車等の移動体に搭載されるセンサや、遠隔医療機器に用いられるセンサなどを用いた構成においても、推論処理等のＡＩ処理を適用可能であるが、それらの環境では遅延時間が短いことが求められる。このような環境においては、ネットワーク２００４０を介してクラウドサーバ２０００３のプロセッサでＡＩ処理を行うのではなく、ローカル側の装置（例えば車載機器や医療機器としての電子機器２０００１）のプロセッサでＡＩ処理を行うことで遅延時間を短くすることができる。さらに、インターネット等のネットワーク２００４０に接続する環境がない場合や、高速な接続を行うことができない環境で利用する装置の場合にも、例えば電子機器２０００１や光センサ２００１１等のローカル側の装置のプロセッサでＡＩ処理を行うことで、より適切な環境でＡＩ処理を行うことができる。

　なお、上述した構成は一例であって、他の構成を採用しても構わない。例えば、電子機器２０００１は、スマートフォン等のモバイル端末に限らず、ＰＣ、ゲーム機、テレビ受像機、ウェアラブル端末、デジタルスチルカメラ、デジタルビデオカメラなどの電子機器、車載機器、医療機器であってもよい。また、電子機器２０００１は、無線LAN(Local Area Network)や有線LANなどの所定の通信方式に対応した無線通信又は有線通信によってネットワーク２００４０に接続してもよい。ＡＩ処理は、各装置のＣＰＵやＧＰＵ等のプロセッサに限らず、量子コンピュータやニューロモーフィック・コンピュータなどを利用しても構わない。

　ところで、学習済みモデルや画像データ、補正済みデータ等のデータは、単一の装置内で用いられることは勿論、複数の装置の間でやり取りされ、それらの装置内で用いられてもよい。図２２は、複数の装置間でのデータの流れを示している。

　電子機器２０００１－１乃至２０００１－Ｎ（Ｎは１以上の整数）は、例えばユーザごとに所持され、それぞれ基地局（不図示）等を介してインターネット等のネットワーク２００４０に接続可能である。製造時において、電子機器２０００１－１には、学習装置２０５０１が接続され、学習装置２０５０１により提供される学習済みモデルを補助メモリ２０１０４に記録することができる。学習装置２０５０１は、シミュレータ２０５０２により生成されたデータセットを学習データとして用いて学習済みモデルを生成し、電子機器２０００１－１に提供する。なお、学習データは、シミュレータ２０５０２から提供されるデータセットに限らず、実際に光センサにより取得された画像データや、集約して管理されている取得済みの画像データなどを用いても構わない。

　図示は省略しているが、電子機器２０００１－２乃至２０００１－Ｎについても、電子機器２０００１－１と同様に、製造時の段階で学習済みモデルを記録することができる。以下、電子機器２０００１－１乃至２０００１－Ｎをそれぞれ区別する必要がない場合には、電子機器２０００１と呼ぶ。

　ネットワーク２００４０には、電子機器２０００１のほかに、学習モデル生成サーバ２０５０３、学習モデル提供サーバ２０５０４、データ提供サーバ２０５０５、及びアプリサーバ２０５０６が接続され、相互にデータをやり取りすることができる。各サーバは、クラウドサーバとして設けることができる。

　学習モデル生成サーバ２０５０３は、クラウドサーバ２０００３と同様の構成を有し、ＣＰＵ等のプロセッサによって学習処理を行うことができる。学習モデル生成サーバ２０５０３は、学習データを用いて学習済みモデルを生成する。図示した構成では、製造時に電子機器２０００１が学習済みモデルを記録する場合を例示しているが、学習済みモデルは、学習モデル生成サーバ２０５０３から提供されてもよい。学習モデル生成サーバ２０５０３は、生成した学習済みモデルを、ネットワーク２００４０を介して電子機器２０００１に送信する。電子機器２０００１は、学習モデル生成サーバ２０５０３から送信されてくる学習済みモデルを受信し、補助メモリ２０１０４に記録する。これにより、その学習済みモデルを備える電子機器２０００１が生成される。

　すなわち、電子機器２０００１では、製造時の段階で学習済みモデルを記録していない場合には、学習モデル生成サーバ２０５０３からの学習済みモデルを新規で記録することで、新たな学習済みモデルを記録した電子機器２０００１が生成される。また、電子機器２０００１では、製造時の段階で学習済みモデルを既に記録している場合、記録済みの学習済みモデルを、学習モデル生成サーバ２０５０３からの学習済みモデルに更新することで、更新済みの学習済みモデルを記録した電子機器２０００１が生成される。電子機器２０００１では、適宜更新される学習済みモデルを用いて推論処理を行うことができる。

　学習済みモデルは、学習モデル生成サーバ２０５０３から電子機器２０００１に直接提供するに限らず、各種の学習済みモデルを集約して管理する学習モデル提供サーバ２０５０４がネットワーク２００４０を介して提供してもよい。学習モデル提供サーバ２０５０４は、電子機器２０００１に限らず、他の装置に学習済みモデルを提供することで、その学習済みモデルを備える他の装置を生成しても構わない。また、学習済みモデルは、フラッシュメモリ等の着脱可能なメモリカードに記録して提供しても構わない。電子機器２０００１では、スロットに装着されたメモリカードから学習済みモデルを読み出して記録することができる。これにより、電子機器２０００１では、過酷環境下で使用される場合や、通信機能を有していない場合、通信機能を有しているが伝送可能な情報量が少ない場合などであっても、学習済みモデルを取得することができる。

　電子機器２０００１は、画像データや補正済みデータ、メタデータなどのデータを、ネットワーク２００４０を介して他の装置に提供することができる。例えば、電子機器２０００１は、画像データや補正済みデータ等のデータを、ネットワーク２００４０を介して学習モデル生成サーバ２０５０３に送信する。これにより、学習モデル生成サーバ２０５０３では、１又は複数の電子機器２０００１から収集された画像データや補正済みデータ等のデータを学習データとして用い、学習済みモデルを生成することができる。より多くの学習データを用いることで、学習処理の精度を上げることができる。

　画像データや補正済みデータ等のデータは、電子機器２０００１から学習モデル生成サーバ２０５０３に直接提供するに限らず、各種のデータを集約して管理するデータ提供サーバ２０５０５が提供してもよい。データ提供サーバ２０５０５は、電子機器２０００１に限らず他の装置からデータを収集してもよいし、学習モデル生成サーバ２０５０３に限らず他の装置にデータを提供しても構わない。

　学習モデル生成サーバ２０５０３は、既に生成された学習済みモデルに対し、電子機器２０００１又はデータ提供サーバ２０５０５から提供された画像データや補正済みデータ等のデータを学習データに追加した再学習処理を行い、学習済みモデルを更新してもよい。更新された学習済みモデルは、電子機器２０００１に提供することができる。学習モデル生成サーバ２０５０３において、学習処理又は再学習処理を行う場合、電子機器２０００１の仕様や性能の違いに依らず、処理を行うことができる。

　また、電子機器２０００１において、補正済みデータやメタデータに対してユーザが修正の操作を行った場合（例えばユーザが正しい情報を入力した場合）に、その修正処理に関するフィードバックデータが、再学習処理に用いられてもよい。例えば、電子機器２０００１からのフィードバックデータを学習モデル生成サーバ２０５０３に送信することで、学習モデル生成サーバ２０５０３では、電子機器２０００１からのフィードバックデータを用いた再学習処理を行い、学習済みモデルを更新することができる。なお、電子機器２０００１では、ユーザによる修正の操作が行われる際に、アプリサーバ２０５０６により提供されるアプリケーションが利用されてもよい。

　再学習処理は、電子機器２０００１が行ってもよい。電子機器２０００１において、画像データやフィードバックデータを用いた再学習処理を行って学習済みモデルを更新する場合、装置内で学習済みモデルの改善を行うことができる。これにより、その更新された学習済みモデルを備える電子機器２０００１が生成される。また、電子機器２０００１は、再学習処理で得られる更新後の学習済みモデルを学習モデル提供サーバ２０５０４に送信して、他の電子機器２０００１に提供されるようにしてもよい。これにより、複数の電子機器２０００１の間で、更新後の学習済みモデルを共有することができる。

　あるいは、電子機器２０００１は、再学習された学習済みモデルの差分情報（更新前の学習済みモデルと更新後の学習済みモデルに関する差分情報）を、アップデート情報として、学習モデル生成サーバ２０５０３に送信してもよい。学習モデル生成サーバ２０５０３では、電子機器２０００１からのアップデート情報に基づき改善された学習済みモデルを生成して、他の電子機器２０００１に提供することができる。このような差分情報をやり取りすることで、全ての情報をやり取りする場合と比べてプライバシを保護することができ、また通信コストを削減することができる。なお、電子機器２０００１と同様に、電子機器２０００１に搭載された光センサ２００１１が再学習処理を行ってもよい。

　アプリサーバ２０５０６は、ネットワーク２００４０を介して各種のアプリケーションを提供可能なサーバである。アプリケーションは、学習済みモデルや補正済みデータ、メタデータ等のデータを用いた所定の機能を提供する。電子機器２０００１は、ネットワーク２００４０を介してアプリサーバ２０５０６からダウンロードしたアプリケーションを実行することで、所定の機能を実現することができる。あるいは、アプリサーバ２０５０６は、例えばＡＰＩ（Application Programming Interface）などを介して電子機器２０００１からデータを取得し、アプリサーバ２０５０６上でアプリケーションを実行することで、所定の機能を実現することもできる。

　このように、本開示を適用した装置を含むシステムでは、各装置の間で、学習済みモデル、画像データ、補正済みデータ等のデータがやり取りされて流通し、それらのデータを用いた様々なサービスを提供することが可能となる。例えば、学習モデル提供サーバ２０５０４を介した学習済みモデルを提供するサービスや、データ提供サーバ２０５０５を介した画像データや補正済みデータ等のデータを提供するサービスを提供することができる。また、アプリサーバ２０５０６を介したアプリケーションを提供するサービスを提供することができる。

　あるいは、学習モデル提供サーバ２０５０４により提供される学習済みモデルに、電子機器２０００１の光センサ２００１１から取得した画像データを入力して、その出力として得られる補正済みデータが提供されてもよい。また、学習モデル提供サーバ２０５０４により提供される学習済みモデルを実装した電子機器などの装置を生成して提供してもよい。さらに、学習済みモデルや補正済みデータ、メタデータ等のデータを読み出し可能な記憶媒体に記録することで、それらのデータが記録された記憶媒体や、当該記憶媒体を搭載した電子機器などの装置を生成して提供してもよい。当該記憶媒体は、磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどの不揮発性メモリでもよいし、ＳＲＡＭやＤＲＡＭなどの揮発性メモリでもよい。

　なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。なお、本明細書において、「２Ｄ」は２次元、「３Ｄ」は３次元を表している。

　また、本開示は、以下のような構成をとることができる。

（１）
　センサにより取得されたデプス画像を少なくとも含む画像、及び前記画像から得られる情報の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行い、前記画像に含まれる対象のサイズを測定する処理部を備える
　情報処理装置。
（２）
　前記学習済みモデルは、前記画像及び前記情報の少なくとも一方を入力とし、前記対象のサイズを出力として学習したディープニューラルネットワークである
　前記（１）に記載の情報処理装置。
（３）
　前記学習済みモデルは、
　　前記画像を入力とし、前記対象の特徴点を出力とする第１の学習済みモデルと、
　　前記対象の特徴点、前記対象のサイズ、及び前記対象の姿勢を入力とし、前記対象のサイズを補正した補正後のサイズを出力とする第２の学習済みモデルと
　を含む
　前記（２）に記載の情報処理装置。
（４）
　前記第２の学習済みモデルは、前記対象の特徴点、前記対象のサイズ、及び前記対象の姿勢とともに前記対象に関するユーザ情報を入力とし、前記補正後のサイズを出力とする
　前記（３）に記載の情報処理装置。
（５）
　前記処理部は、
　　前記第１の学習済みモデルから出力される前記対象の特徴点に基づいて、前記対象のサイズ、及び前記対象の姿勢を算出し、
　　算出した前記対象のサイズ、及び前記対象の姿勢を前記第２の学習済みモデルに入力する
　前記（３）又は（４）に記載の情報処理装置。
（６）
　前記第１の学習済みモデルは、前記特徴点として、２Ｄ特徴点又は３Ｄ特徴点を出力し、
　前記第２の学習済みモデルは、前記特徴点として、３Ｄ特徴点を入力する
　前記（３）乃至（５）のいずれかに記載の情報処理装置。
（７）
　前記処理部は、前記特徴点が２Ｄ特徴点である場合、２Ｄ特徴点から３Ｄ特徴点を算出する
　前記（６）に記載の情報処理装置。
（８）
　前記補正後のサイズを表示する表示部をさらに備える
　前記（３）乃至（７）のいずれかに記載の情報処理装置。
（９）
　前記表示部は、ユーザを撮影した撮影画像に含まれる前記対象に対応する部位に対し、AR画像を重畳して表示する
　前記（８）に記載の情報処理装置。
（１０）
　前記対象は、ユーザの足であり、
　前記対象のサイズは、ユーザの足のサイズである
　前記（１）乃至（９）のいずれかに記載の情報処理装置。
（１１）
　前記画像は、RGB画像をさらに含む
　前記（１）乃至（１０）のいずれかに記載の情報処理装置。
（１２）
　前記センサと、前記処理部と、前記処理部による処理結果を表示する表示部とを有するモバイル端末として構成される
　前記（１）乃至（１１）のいずれかに記載の情報処理装置。
（１３）
　情報処理装置が、
　センサにより取得されたデプス画像を少なくとも含む画像、及び前記画像から得られる情報の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行い、前記画像に含まれる対象のサイズを測定する
　情報処理方法。
（１４）
　コンピュータを、
　センサにより取得されたデプス画像を少なくとも含む画像、及び前記画像から得られる情報の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行い、前記画像に含まれる対象のサイズを測定する処理部を備える
　情報処理装置として機能させるプログラム。

　１　情報処理装置，　２　情報処理装置，　３　撮影装置，　４　データベース，　１１　デプスセンサ，　１２　デプス処理部，　１３　RGBセンサ，　１４　RGB処理部，　１５，１５Ａ，１５Ｂ，１５Ｃ　処理部，　１６　表示部，　１７　操作部，　１１１　学習済みモデル，　１１２　３Ｄ座標計算部，　１１３　足サイズ姿勢計算部，　１１４　学習済みモデル，　２１１　学習済みモデル，　３１１　学習済みモデル

Claims

　センサにより取得されたデプス画像を少なくとも含む画像、及び前記画像から得られる情報の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行い、前記画像に含まれる対象のサイズを測定する処理部を備える
　情報処理装置。
　前記学習済みモデルは、前記画像及び前記情報の少なくとも一方を入力とし、前記対象のサイズを出力として学習したディープニューラルネットワークである
　請求項１に記載の情報処理装置。
　前記学習済みモデルは、
　　前記画像を入力とし、前記対象の特徴点を出力とする第１の学習済みモデルと、
　　前記対象の特徴点、前記対象のサイズ、及び前記対象の姿勢を入力とし、前記対象のサイズを補正した補正後のサイズを出力とする第２の学習済みモデルと
　を含む
　請求項２に記載の情報処理装置。
　前記第２の学習済みモデルは、前記対象の特徴点、前記対象のサイズ、及び前記対象の姿勢とともに前記対象に関するユーザ情報を入力とし、前記補正後のサイズを出力とする
　請求項３に記載の情報処理装置。
　前記処理部は、
　　前記第１の学習済みモデルから出力される前記対象の特徴点に基づいて、前記対象のサイズ、及び前記対象の姿勢を算出し、
　　算出した前記対象のサイズ、及び前記対象の姿勢を前記第２の学習済みモデルに入力する
　請求項３に記載の情報処理装置。
　前記第１の学習済みモデルは、前記特徴点として、２Ｄ特徴点又は３Ｄ特徴点を出力し、
　前記第２の学習済みモデルは、前記特徴点として、３Ｄ特徴点を入力する
　請求項３に記載の情報処理装置。
　前記処理部は、前記特徴点が２Ｄ特徴点である場合、２Ｄ特徴点から３Ｄ特徴点を算出する
　請求項６に記載の情報処理装置。
　前記補正後のサイズを表示する表示部をさらに備える
　請求項３に記載の情報処理装置。
　前記表示部は、ユーザを撮影した撮影画像に含まれる前記対象に対応する部位に対し、AR画像を重畳して表示する
　請求項８に記載の情報処理装置。
　前記対象は、ユーザの足であり、
　前記対象のサイズは、ユーザの足のサイズである
　請求項１に記載の情報処理装置。
　前記画像は、RGB画像をさらに含む
　請求項１に記載の情報処理装置。
　前記センサと、前記処理部と、前記表示部とを有するモバイル端末として構成される
　請求項８に記載の情報処理装置。
　情報処理装置が、
　センサにより取得されたデプス画像を少なくとも含む画像、及び前記画像から得られる情報の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行い、前記画像に含まれる対象のサイズを測定する
　情報処理方法。
　コンピュータを、
　センサにより取得されたデプス画像を少なくとも含む画像、及び前記画像から得られる情報の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行い、前記画像に含まれる対象のサイズを測定する処理部を備える
　情報処理装置として機能させるプログラム。