WO2020230214A1

WO2020230214A1 - 深度推定装置、深度推定モデル学習装置、深度推定方法、深度推定モデル学習方法、及び深度推定プログラム

Info

Publication number: WO2020230214A1
Application number: PCT/JP2019/018831
Authority: WO
Inventors: 豪入江; 川西　隆仁; 柏野　邦夫
Original assignee: 日本電信電話株式会社
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2020-11-19
Also published as: JPWO2020230214A1; US20220215567A1; JP7272428B2

Abstract

深度推定装置の取得部は、入力画像を取得する。そして、深度マップ生成部は、取得部によって取得された入力画像を、画像から該画像に写る空間の深度が該画像の各画素に付与されている深度マップを生成するための深度推定器へ入力し、入力画像に対応する深度マップを表す推定深度マップを生成する。深度推定器は、推定深度マップの深度と正解の深度マップを表す正解深度マップの深度との間の誤差の各々について、誤差が閾値よりも大きい画素に対する損失値の増加度合いが、誤差が閾値以下である画素に対する損失値の増加度合いよりも小さくなるように設定されている損失関数の値が小さくなるように、予め学習されたモデルである。

Description

深度推定装置、深度推定モデル学習装置、深度推定方法、深度推定モデル学習方法、及び深度推定プログラム

　開示の技術は、深度推定装置、深度推定モデル学習装置、深度推定方法、深度推定モデル学習方法、及び深度推定プログラムに関する。

　近年、画像認識技術の進展が目覚ましい。画像認識技術の活用例の一つとしては、ロボットの目としての活用が知られている。例えば、製造業においては、画像に写る空間の深度を推定するための機能を備えたロボットによる、ファクトリーオートメーションの導入が進められている。ロボットによる画像認識技術の進歩に伴い、リテイル又は物流現場における搬送又は在庫管理、及び運送又は運搬など、ロボットによる画像認識技術は、より高度な画像認識が求められるフィールドへの展開が期待されている。

　典型的な画像認識技術の一例として、画像に写る被写体の名称（以下、単に「ラベル」と称する。）を予測する技術が知られている。例えば、任意の画像にリンゴが写っている場合、この画像が、所定の画像認識機能を有するモデルへ入力されたときの望ましい動作としては、「リンゴ」というラベルを出力する、又は、当該画像のリンゴの写る領域を表す画素の集合に対して、「リンゴ」というラベルを割り当てることである。

　一方、前述したようなロボットに実装され得る画像認識技術としては、画像内に写る被写体のラベルを出力するのみでは不十分である場合が多い。例えば、リテーラーにおけるロボットの活用事例として、ロボットが物品棚にある商品を把持又は運搬し、別の商品棚に移すような場面を想定する。この場合、当該タスクを完遂するためには、ロボットは以下の（１）～（３）の工程を実行する必要がある。

（１）ロボットが、物品棚にある様々な商品の中から移動すべき対象の商品を特定する。
（２）ロボットが、特定された商品を把持する。
（３）ロボットが、特定された商品を目的の商品棚まで移動又は運搬する。
（４）ロボットが、望ましいレイアウトとなるように特定された商品を配置する。

　ロボットが備える画像認識技術は、物品棚、商品、及び商品棚を認識できることはもちろんのこと、これに加えて、物品棚の構造又は物体の姿勢（位置、角度、及び大きさ等）等の３次元的な形状も正確に認識できる必要がある。前述したような典型的な画像認識技術には、このような形状を推定する機能は備えておらず、別途、形状を推定するための技術が必要となる。

　物品の形状は、物品の幅、物品の高さ、及び物品の深度等を得ることにより認識される。物品が写る画像からは、物品の幅と物品の高さとが認識されるが、物品の奥行き方向に関する情報を表す深度を認識することはできない。このため、物品の深度を認識可能にするためは、例えば、特許文献１に記載の方法のように、別視点から撮影された２枚以上の物品が写る画像を用いることが考えられる。又は、物品の深度を認識可能にするためは、ステレオカメラなどを用いることが考えられる。

　しかしながら、上述のような装置又は撮影方法を常に利用できるとは限らない。このため、１枚の画像のみからでも物品の深度を得られるような方法が好ましい。このような要望に鑑み、物品が写る画像から物品の深度を推定可能な技術が発明され、開示されている。

　なお、近年において主流となっている技術として、深層ニューラルネットワークを用いた方法が知られている。深層ニューラルネットワークは、画像を入力として受け付ける。そして、深層ニューラルネットワークは、受け付けた画像の各画素の深度を出力する。この前提として、学習用の画像の深度と正解の深度との間の推定の誤差が小さくなるように、深層ニューラルネットワークに対して学習が行われる。この場合、特に重要なのは、深層ニューラルネットワークをどのように学習させるか、という点である。

　例えば、非特許文献１には、非特許文献２に開示されているＤｅｅｐＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ（ＲｅｓＮｅｔ）をベースとしたネットワークを、ＲｅｖｅｒｓｅＨｕｂｅｒ損失（以下、単に「ＢｅｒＨｕ損失」と称する。）を用いて学習させる方法が開示されている。ＢｅｒＨｕ損失は、区分関数である。具体的には、ＢｅｒＨｕ損失は、深度の推定の誤差が小さい部分では誤差の増加に応じて線形に増加する損失値をとり、深度の推定の誤差が大きい部分では誤差の増加に応じて２次関数で増加する損失値をとる関数である。

　非特許文献３には、非特許文献１と同様のネットワークを、誤差の増加に対して線形に増加する関数であるＬ１損失を用いて学習する方法が開示されている。

特開２０１７‐１１２４１９号公報

Iro Laina, Christian Rupprecht, Vasileios Belagianis, Federico Tombari, and Nassir Navab, "Deeper Depth Prediction with Fully Convolutional Residual Networks," In Proc. International Conference on 3D Vision (3DV), pp. 239-248, 2016. Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. "Deep Residual Learning for Image Recognition," In Proc. Conference on Computer Vision and Pattern Recognition (CVPR), 2016. Fangchang Ma and Sertac Karaman. "Sparse-to-Dense: Depth Prediction from Sparse Depth Samples and a Single Image," In Proc. International Conference on Robotics and Automation (ICRA), 2018.

　非特許文献１～非特許文献３に開示されている技術は、Ｌ１損失又はＢｅｒＨｕ損失のように、推定の誤差が大きい領域に対し推定の誤差が小さい領域と同等又は同等以上の重みで学習することを要請する損失関数を用いている。これは、深度が推定される画像の各画素のうち、推定の誤差が大きい領域を推定の誤差が小さい領域以上に重視してネットワークを学習させることに対応する。

　しかしながら、通常、推定の誤差の大きい領域は、カメラと被写体との間の距離が物理的に遠距離であったり、又は非常に繁雑な深度構造を持つような部分であったりといったように、そもそも画像上で見ても深度の不確かな領域であることが多い。

　このため、推定の誤差が大きい部分を重視してネットワークを学習させることは、必ずしも推定の精度を向上させるとは限らない、という問題があった。このため、従来では、画像から当該画像に写る奥行きを表す深度を精度よく推定することができない、という課題があった。

　開示の技術は、上記の点に鑑みてなされたものであり、画像に写る空間の深度を精度よく推定することを目的とする。

　本開示の第１態様は、深度推定装置であって、入力画像を取得する取得部と、前記取得部によって取得された入力画像を、画像から該画像に写る空間の深度が該画像の各画素に付与されている深度マップを生成するための深度推定器へ入力し、前記入力画像に対応する前記深度マップを表す推定深度マップを生成する深度マップ生成部と、を含み、前記深度推定器は、学習用の前記推定深度マップの前記深度と正解の前記深度マップを表す正解深度マップの前記深度との間の誤差の各々について、前記誤差が閾値よりも大きい画素に対する損失値の増加度合いが、前記誤差が閾値以下である画素に対する損失値の増加度合いよりも小さくなるように設定されている損失関数の値が小さくなるように、予め学習されたモデルである。

　本開示の第２態様は、深度推定装置であって、前記損失関数は、前記誤差が閾値よりも大きい場合には、該誤差の増加に対して該誤差の累乗根に応じて増加する前記損失値をとり、前記誤差が閾値以下である場合には、該誤差の増加に対して線形に増加する前記損失値をとる関数である。

　本開示の第３態様は、深度推定モデル学習装置であって、学習用の画像を、画像から該画像に写る空間の深度が該画像の各画素に付与されている深度マップを生成するための深度推定器へ入力して、前記学習用の画像に対応する前記深度マップである学習用の推定深度マップを生成する学習用深度マップ生成部と、前記学習用深度マップ生成部により生成された前記学習用の推定深度マップの前記深度と、正解の前記深度マップを表す正解深度マップの前記深度と、の間の誤差が閾値よりも大きい画素に対する損失値の増加度合いが、前記誤差が閾値以下である画素に対する損失値の増加度合いよりも小さくなるように設定されている損失関数の値が小さくなるように、前記深度推定器を学習させる学習部と、を含む。

　本開示の第４態様は、深度推定モデル学習装置であって、前記損失関数は、前記誤差が閾値以下である場合には、該誤差の増加に対して線形に増加する前記損失値となり、前記誤差が閾値より大きい場合には、該誤差の累乗根に対して線形に変化する前記損失値となる関数である。

　本開示の第５態様は、深度推定モデル学習装置であって、前記学習部は、更に、学習用の前記推定深度マップの前記深度の変化の度合いを表すエッジと、前記正解深度マップの前記深度の変化の度合いを表すエッジとの間の誤差が小さくなるように、前記深度推定器を学習させる。

　本開示の第６態様は、深度推定方法であって、入力画像を取得し、取得された入力画像を、画像から該画像に写る空間の深度が該画像の各画素に付与されている深度マップを生成するための深度推定器へ入力し、前記入力画像に対応する前記深度マップを表す推定深度マップを生成する、処理をコンピュータが実行する深度推定方法であって、前記深度推定器は、学習用の前記推定深度マップの前記深度と正解の前記深度マップを表す正解深度マップの前記深度との間の誤差の各々について、前記誤差が閾値よりも大きい画素に対する損失値の増加度合いが、前記誤差が閾値以下である画素に対する損失値の増加度合いよりも小さくなるように設定されている損失関数の値が小さくなるように、予め学習されたモデルである。

　本開示の第７態様は、深度推定モデル学習方法であって、学習用の画像を、画像から該画像に写る空間の深度が該画像の各画素に付与されている深度マップを生成するための深度推定器へ入力して、前記学習用の画像に対応する前記深度マップである学習用の推定深度マップを生成し、生成された前記学習用の推定深度マップの前記深度と、正解の前記深度マップを表す正解深度マップの前記深度と、の間の誤差が閾値よりも大きい画素に対する損失値の増加度合いが、前記誤差が閾値以下である画素に対する損失値の増加度合いよりも小さくなるように設定されている損失関数の値が小さくなるように、前記深度推定器を学習させる、処理をコンピュータが実行する。

　本開示の第８態様は、深度推定プログラムであって、入力画像を取得し、取得された入力画像を、画像から該画像に写る空間の深度が該画像の各画素に付与されている深度マップを生成するための深度推定器へ入力し、前記入力画像に対応する前記深度マップを表す推定深度マップを生成する、処理をコンピュータに実行させるための深度推定プログラムであって、前記深度推定器は、学習用の前記推定深度マップの前記深度と正解の前記深度マップを表す正解深度マップの前記深度との間の誤差の各々について、前記誤差が閾値よりも大きい画素に対する損失値の増加度合いが、前記誤差が閾値以下である画素に対する損失値の増加度合いよりも小さくなるように設定されている損失関数の値が小さくなるように、予め学習されたモデルである。

　開示の技術によれば、画像に写る空間の深度を精度よく推定することができる。

第１実施形態の深度推定装置１０のハードウェア構成を示すブロック図である。第１実施形態の深度推定装置１０の機能構成の例を示すブロック図である。第１実施形態の深度推定装置１０による深度推定モデル学習処理の流れを示すフローチャートである。第１実施形態の深度推定装置１０による深度推定処理の流れを示すフローチャートである。第２実施形態の深度推定装置１０による深度推定モデル学習処理の流れを示すフローチャートである。実験結果を示す図である。

　以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

[第１実施形態]

　図１は、第１実施形態の深度推定装置１０のハードウェア構成を示すブロック図である。

　図１に示されるように、第１実施形態の深度推定装置１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１２、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１３、ストレージ１４、入力部１５、表示部１６及び通信インタフェース（Ｉ／Ｆ）１７を有する。各構成は、バス１９を介して相互に通信可能に接続されている。

　ＣＰＵ１１は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、ＣＰＵ１１は、ＲＯＭ１２又はストレージ１４からプログラムを読み出し、ＲＡＭ１３を作業領域としてプログラムを実行する。ＣＰＵ１１は、ＲＯＭ１２又はストレージ１４に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ＲＯＭ１２又はストレージ１４には、入力装置より入力された情報を処理する各種プログラムが格納されている。

　ＲＯＭ１２は、各種プログラム及び各種データを格納する。ＲＡＭ１３は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ１４は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。

　入力部１５は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。

　表示部１６は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部１６は、タッチパネル方式を採用して、入力部１５として機能しても良い。

　通信インタフェース１７は、入力装置等の他の機器と通信するためのインタフェースであり、例えば、イーサネット（登録商標）、ＦＤＤＩ、Ｗｉ－Ｆｉ（登録商標）等の規格が用いられる。

　次に、第１実施形態の深度推定装置１０の機能構成について説明する。図２は、深度推定装置１０の機能構成の例を示すブロック図である。図２に示されるように、深度推定装置１０は、機能構成として、学習用取得部１０１、学習用データ記憶部１０２、深度推定器記憶部１０３、学習用深度マップ生成部１０４、学習部１０５、取得部２０１、及び深度マップ生成部２０２を有する。各機能構成は、ＣＰＵ１１がＲＯＭ１２又はストレージ１４に記憶された深度推定モデル学習プログラム及び深度推定プログラムを読み出し、ＲＡＭ１３に展開して実行することにより実現される。

　学習用取得部１０１は、複数の学習用画像データを取得する。学習用画像データの各々は、学習用の画像Ｉ_ｉと、正解深度マップＴ_ｉとが対応付けられているデータである。正解深度マップＴ_ｉは、学習用の画像Ｉ_ｉに写る空間の深度が当該画像の各画素に予め付与されている正解の深度マップである。本実施形態の深度は、画像が撮像されたカメラの位置と当該画像に写る被写体との間の奥行き方向の距離を表す。なお、深度を表す距離の単位は、任意のものを用いることができる。例えば、深度を表す距離の単位として、メートルやミリメートルを単位として用いればよい。

　本実施形態の深度マップには、画像に写る空間の奥行き方向の深度が当該画像の各画素に付与されている。また、深度マップは、カメラによって撮像された画像と同じ幅及び同じ高さを持つ２次元のデータである。なお、ｉは、学習用画像データを識別するためのインデックスである。

　学習用の画像Ｉ_ｉに対応する正解深度マップＴ_ｉを得る手段は様々な公知の手段が複数存在するため、どのようなものを用いてもよい。例えば、上記非特許文献１又は上記非特許文献３に開示されている技術のように、一般のデプスカメラを用いて得た深度マップを正解深度マップＴ_ｉとしてもよい。又は、ステレオカメラによって撮像された画像を用いて計測した深度に基づいて、正解深度マップＴ_ｉを生成してもよい。又は、複数枚の画像を用いて計測した深度に基づいて、正解深度マップＴ_ｉを生成してもよい。

　学習用取得部１０１は、複数の学習用画像データを受け付けると、複数の学習用画像データの各々を学習用データ記憶部１０２へ格納する。

　学習用データ記憶部１０２には、複数の学習用画像データが格納される。１つの学習用画像データには、学習用の画像Ｉ_ｉと当該学習用の画像Ｉ_ｉの正解深度マップＴ_ｉとが対応付けられている。

　深度推定器記憶部１０３には、画像から深度マップを生成するための深度推定器ｆが格納されている。深度推定器ｆは、後述する学習部１０５によって更新される。

　深度推定器ｆとしては、画像又は画素値を入力として、深度マップ又は深度を出力することができる任意の関数が用いられる。例えば、深度推定器ｆとしては、ニューラルネットワークを用いることができる。ニューラルネットワークの構成は、上記のような入出力関係を実現できるものであれば任意の構成をとることができる。ニューラルネットワークのとしては、例えば上記非特許文献１又は上記非特許文献２に記載のニューラルネットワークを用いることができる。又は、ニューラルネットワークとしては、以下の参考文献１に記載のDenseNetに基づくもの等を用いることができる。

（参考文献１）Gao Huang, Zhuang Liu, Laurens van der Maaten, and Kilian Q. Weinberger. “Densely Connected Convolutional Network,” In Proc. Conference on Computer Vision and Pattern Recognition (CVPR), 2017.

　なお、深度推定器ｆとしてのニューラルネットワークの構成は、これに限られるものではなく、上述の入出力関係が満たされる限りどのような構成であってもよい。

　本実施形態の深度推定装置１０は、深度推定器ｆを用いて画像の深度マップを求める深度推定処理と、当該深度推定器ｆを学習する深度推定モデル学習処理との２つの異なる処理を実行する。深度推定モデル学習処理は、画像の深度を推定する前に、少なくとも一度実施する必要のある処理である。例えば、深度推定器ｆがニューラルネットワークである場合には、深度推定モデル学習処理は、ニューラルネットワークのパラメータである重みを学習用画像データに基づいて適切に決定するための処理である。以下では、まず深度推定モデル学習処理について説明した後、深度推定処理について説明する。

　学習用深度マップ生成部１０４は、学習用データ記憶部１０２に格納された学習用の画像Ｉ_ｉの各々について、当該学習用の画像Ｉ_ｉを深度推定器記憶部１０３に格納された深度推定器ｆへ入力する。そして、学習用深度マップ生成部１０４は、学習用の画像Ｉ_ｉの各々について、当該学習用の画像Ｉ_ｉに対応する深度マップである学習用の推定深度マップＤ_ｉを生成する。このため、学習用の画像Ｉ_ｉと深度推定器ｆと学習用の推定深度マップＤ_ｉとの関係は、Ｄ_ｉ＝ｆ（Ｉ_ｉ）となる。

　学習部１０５は、同一の学習用の画像Ｉ_ｉに対する、学習用深度マップ生成部１０４により生成された学習用の推定深度マップＤ_ｉの各画素の深度と、学習用データ記憶部１０２に格納された正解深度マップＴ_ｉの各画素の深度と、の間の誤差に応じた損失値を出力する損失関数を用いて、深度推定器ｆを学習させる。

　同一の学習用の画像Ｉ_ｉに対する、学習用の推定深度マップＤ_ｉの各画素の深度と正解深度マップＴ_ｉの各画素の深度とは、本来、同一の値をとるべきである。しかし、深度推定器ｆの推定の精度が低い場合には、学習用の推定深度マップＤ_ｉの各画素の深度と、正解深度マップＴ_ｉの各画素の深度との間の誤差が生じ得る。

　この場合、所定の損失関数が小さくなるように、深度推定器ｆの学習が行われる。このとき、学習用の推定深度マップＤ_ｉの各画素の深度と正解深度マップＴ_ｉの各画素の深度との間の誤差が小さいほど小さい損失値をとり、学習用の推定深度マップＤ_ｉの各画素の深度と正解深度マップＴ_ｉの各画素の深度との間の誤差が大きいほど大きい損失値をとるような、損失関数が設計されていることは好ましい。

　この点、上記非特許文献３には、正解深度マップＴ_ｉの各画素の深度と学習用の推定深度マップＤ_ｉの各画素の深度との間の誤差の総和を損失関数とすることが開示されている。例えば、学習用の推定深度マップＤ_ｉの各画素の深度との間の誤差としてＬ１損失を用いる場合、損失関数ｌ_Ｌ１は以下の式（１）に示されるように定めることができる。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　（１）

　上記式（１）におけるＸ_ｉはｘの定義域を表し、Ｙ_ｉはｙの定義域を表す。ｘ，ｙは、各深度マップ上の画素の位置を表す。Ｎは学習用画像データの中に含まれる学習用の画像と正解深度マップの組の数、又はそれ以下の定数である。また、｜ｅ_ｉ（ｘ，ｙ）｜は、正解深度マップＴ_ｉの座標（ｘ，ｙ）上の画素の深度Ｔ_ｉ（ｘ，ｙ）と、学習用の推定深度マップＤ_ｉの座標（ｘ，ｙ）上の画素の深度Ｄ_ｉ（ｘ，ｙ）との間の誤差を表す。このため、ｅ_ｉ（ｘ，ｙ）＝Ｔ_ｉ（ｘ，ｙ）－Ｄ_ｉ（ｘ，ｙ）となる。

　上記式（１）の損失関数は、正解深度マップＴ_ｉの各画素の深度と学習用の推定深度マップＤ_ｉとの各画素の深度との間の誤差｜ｅ_ｉ（ｘ，ｙ）｜が小さいほど、小さい損失値をとる。したがって、上記式（１）の損失関数は、正解深度マップＴ_ｉの各画素の深度と学習用の推定深度マップＤ_ｉの各画素の深度が等しい場合には０となる。このため、様々な正解深度マップＴ_ｉと学習用の推定深度マップＤ_ｉとに対して、上記式（１）の損失関数がとる損失値が小さくなるように、深度推定器ｆのパラメータを更新することにより、推定深度マップを出力することが可能な深度推定器ｆを得ることができる。

　又は、上記非特許文献１に開示されている方法のように、以下の式（２）に示される損失関数を用いてもよい。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　（２）

　上記式（２）の損失関数は、正解深度マップＴ_ｉの各画素の深度と学習用の推定深度マップＤ_ｉとの各画素の深度との間の誤差｜ｅ_ｉ（ｘ，ｙ）｜が閾値ｃ以下の場合には、誤差｜ｅ_ｉ（ｘ，ｙ）｜の増加に応じた損失値の増加度合いが線形となる関数である。一方、上記式（２）の損失関数においては、誤差｜ｅ_ｉ（ｘ，ｙ）｜が閾値ｃより大きい場合には、誤差｜ｅ_ｉ（ｘ，ｙ）｜の増加に応じた損失値の増加度合いが、誤差｜ｅ_ｉ（ｘ，ｙ）｜の２次関数となる。

　しかし、上記式（１）又は上記式（２）に示されるような既存の損失関数には問題がある。深度マップのうちの誤差｜ｅ_ｉ（ｘ，ｙ）｜が大きい画素に対応する領域は、カメラと被写体との間の距離が物理的に遠距離である場合が考えられる。又は、深度マップのうちの誤差｜ｅ_ｉ（ｘ，ｙ）｜が大きい画素に対応する領域は、非常に複雑な深度構造を持つような部分である場合が考えられる。

　深度マップのうちの、このような箇所については、不確かさを含む領域であることが多い。このため、深度マップのうちの、このような箇所は、深度推定器ｆによって精度よく深度を推定することができる領域ではないことが多い。そのため、深度マップのうちの誤差｜ｅ_ｉ（ｘ，ｙ）｜の大きい画素を含む領域を重視して学習することは、深度推定器ｆの精度を必ずしも向上させるとは限らない。

　上記式（１）の損失関数は、誤差｜ｅ_ｉ（ｘ，ｙ）｜の大小によらず常に同じ損失値をとる。一方、上記式（２）の損失関数は、誤差｜ｅ_ｉ（ｘ，ｙ）｜が大きい場合には、より大きな損失値をとるような設計となっている。このため、上記式（１）又は上記式（２）に示されるような損失関数を用いて深度推定器ｆを学習させたとしても、深度推定器ｆの推定の精度を向上させるには限界がある。

　そこで、第１実施形態では、以下に示されるような損失関数である第１損失関数を用いる。第１損失関数ｌ_１（Ｔ_ｉ，Ｄ_ｉ）の値は、誤差｜ｅ_ｉ（ｘ，ｙ）｜が閾値ｃ以下である場合には、当該誤差の絶対値｜ｅ_ｉ（ｘ，ｙ）｜の増加に対して線形に増加する損失値となる。また、第１損失関数ｌ_１（Ｔ_ｉ，Ｄ_ｉ）の値は、誤差｜ｅ_ｉ（ｘ，ｙ）｜が閾値ｃより大きい場合には、当該誤差｜ｅ_ｉ（ｘ，ｙ）｜の累乗根に応じて変化する損失値となる。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　（３）

　上記式（３）の第１損失関数ｌ_１（Ｔ_ｉ，Ｄ_ｉ）において、誤差｜ｅ_ｉ（ｘ，ｙ）｜が閾値ｃ以下の画素では、｜ｅ_ｉ（ｘ，ｙ）｜の増加に対して線形に増加する点は、他の損失関数（例えば、上記式（１）又は上記式（２）の損失関数）と同様である。

　しかし、上記式（３）の第１損失関数ｌ_１（Ｔ_ｉ，Ｄ_ｉ）において、誤差｜ｅ_ｉ（ｘ，ｙ）｜が閾値ｃよりも大きい画素では、｜ｅ_ｉ（ｘ，ｙ）｜の増加に対して平方関数となる関数である。このため、本実施形態では、上述したように、不確かさを含む画素については、損失値を小さく見積もり、軽視する。これにより、深度推定器ｆの推定の頑健性を高め、精度を向上させることができる。

　このため、学習部１０５は、上記式（３）の第１損失関数ｌ_１（Ｔ_ｉ，Ｄ_ｉ）の値が小さくなるように、深度推定器記憶部１０３に格納された深度推定器ｆを学習させる。

　なお、上記式（３）の第１損失関数ｌ_１（Ｔ_ｉ，Ｄ_ｉ）は、深度推定器記憶部１０３に格納された深度推定器ｆのパラメータｗに対して区分的に微分可能である。このため、深度推定器ｆのパラメータｗは、勾配法により更新可能である。例えば、学習部１０５は、深度推定器ｆのパラメータｗを確率的勾配降下法に基づいて学習させる場合、１ステップあたり、以下の式（４）に基づいてパラメータｗを更新する。なお、αは予め設定される係数である。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　（４）

　深度推定器ｆの任意のパラメータｗに対する損失関数ｌ_１の微分値は、誤差逆伝搬法により計算することができる。なお、学習部１０５は、深度推定器ｆのパラメータｗを学習させる際に、モーメンタム項を利用する又は重み減衰を利用する等、一般的な確率的勾配降下法の改善法を導入してもよい。又は、学習部１０５は、別の勾配降下法を用いて、深度推定器ｆのパラメータｗを学習させてもよい。

　そして、学習部１０５は、学習済みの深度推定器ｆのパラメータｗを深度推定器記憶部１０３に格納する。これにより、深度マップを精度よく推定するための深度推定器ｆが得られたことになる。

　次に、深度推定装置１０は、深度マップ生成対象の入力画像を受け付けて、当該入力画像の推定深度マップを生成する。

　取得部２０１は、深度マップ生成対象の入力画像を取得する。

　深度マップ生成部２０２は、取得部２０１によって取得された入力画像を、深度推定器記憶部１０３に格納された深度推定器ｆへ入力して、入力画像に対応する深度マップを表す推定深度マップを生成する。

　深度推定器記憶部１０３に格納されている深度推定器ｆは、上記式（３）に示される損失関数を最小化するように予め学習されているモデルであるため、入力画像に対する推定深度マップが精度よく生成される。

　次に、深度推定装置１０の作用について説明する。

　図３は、深度推定装置１０による深度推定モデル学習処理の流れを示すフローチャートである。ＣＰＵ１１がＲＯＭ１２又はストレージ１４から深度推定モデル学習処理プログラムを読み出して、ＲＡＭ１３に展開して実行することにより、深度推定モデル学習処理が行なわれる。また、図３は、深度推定装置１０による深度推定モデル学習処理の流れを示すフローチャートである。ＣＰＵ１１がＲＯＭ１２又はストレージ１４から深度推定モデル学習処理プログラムを読み出して、ＲＡＭ１３に展開して実行することにより、深度推定モデル学習処理が行なわれる。

　まず、ＣＰＵ１１は、学習用取得部１０１として、例えば入力部１５から入力された複数の学習用データを取得し、学習用データ記憶部１０２に格納する。そして、ＣＰＵ１１は、学習処理実行の指示信号を受け付けると、図３に示す深度推定モデル学習処理を実行する。

　ステップＳ１００において、ＣＰＵ１１は、学習用深度マップ生成部１０４として、学習用データ記憶部１０２に格納された学習用の画像Ｉ_ｉの各々を読み出す。

　ステップＳ１０２において、ＣＰＵ１１は、学習用深度マップ生成部１０４として、深度推定器記憶部１０３に格納された深度推定器ｆを読み出す。

　ステップＳ１０４において、ＣＰＵ１１は、学習用深度マップ生成部１０４として、上記ステップＳ１００で読み出された学習用の画像Ｉ_ｉの各々を、上記ステップＳ１０２で読み出された深度推定器ｆへ入力して、当該学習用の画像Ｉ_ｉに対応する学習用の推定深度マップＤ_ｉを生成する。

　ステップＳ１０６において、ＣＰＵ１１は、学習部１０５として、複数の学習用の画像Ｉ_ｉの各々について、同一の学習用の画像Ｉ_ｉに対する、上記ステップＳ１０４で生成された学習用の推定深度マップＤ_ｉの各画素の深度と、学習用データ記憶部１０２に格納された正解深度マップＴ_ｉの各画素の深度と、の間の誤差に応じた損失関数ｌ_１（Ｔ_ｉ，Ｄ_ｉ）の損失値の各々を算出する。

　ステップＳ１０８において、ＣＰＵ１１は、学習部１０５として、上記ステップＳ１０６で算出された損失値の各々に基づいて、上記式（３）の損失関数ｌ_１（Ｔ_ｉ，Ｄ_ｉ）を最小化するように、深度推定器ｆを学習させる。そして、ＣＰＵ１１は、学習部１０５として、学習済みの深度推定器ｆを深度推定器記憶部１０３へ格納する。

　ステップＳ１１０において、ＣＰＵ１１は、学習部１０５として、繰り返しの終了条件が満たされているか否かを判定する。繰り返しの終了条件が満たされている場合には、処理が終了する。一方、繰り返しの終了条件が満たされていない場合には、ステップＳ１００へ戻る。ステップＳ１００～ステップＳ１０８の各処理は、終了条件が満たされるまで繰り返される。

　なお、終了条件は予め設定される。繰り返し条件としては、例えば、「所定の回数（例えば１００回など）繰り返したら終了」又は「損失値の減少が一定繰り返し回数の間、一定の範囲内に収まっていたら終了」等が設定される。

　上記の深度推定モデル学習処理が実行されることにより、深度推定器ｆのパラメータｗが更新され、深度マップを精度よく推定するための深度推定器ｆが深度推定器記憶部１０３へ格納されたことになる。

　次に、ＣＰＵ１１は、取得部２０１として、例えば入力部１５から入力された、深度マップ生成対象の入力画像を受け付けると、図４に示す深度推定処理を実行する。

　ステップＳ２００において、ＣＰＵ１１は、取得部２０１として、入力画像を取得する。

　ステップＳ２０２において、ＣＰＵ１１は、深度マップ生成部２０２として、深度推定器記憶部１０３に格納されている深度推定器ｆを読み出す。

　ステップＳ２０４において、ＣＰＵ１１は、深度マップ生成部２０２として、上記ステップＳ２００で取得された入力画像を、上記ステップＳ２０２で読み出された深度推定器ｆへ入力して、入力画像に対応する深度マップを表す推定深度マップを生成する。

　ステップＳ２０６において、ＣＰＵ１１は、深度マップ生成部２０２として、上記ステップＳ２０４で生成された推定深度マップを出力して、深度推定処理を終了する。

　以上説明したように、本実施形態の深度推定装置１０は、学習用の画像を深度推定器へ入力して、学習用の画像に対応する深度マップである学習用の推定深度マップを生成する。また、深度推定装置は、生成された学習用の推定深度マップの深度と正解深度マップの深度との間の誤差の各々について、誤差が閾値よりも大きい画素に対する損失値の増加度合いが、誤差が閾値以下である画素に対する損失値の増加度合いよりも小さくなるように設定されている損失関数の値が小さくなるように、深度推定器を学習させる。これにより、画像に写る空間の深度を精度よく推定するための深度推定器を得ることができる。

　また、本実施形態の深度推定装置１０は、入力画像を、画像から該画像に写る空間の深度が該画像の各画素に付与されている深度マップを生成するための深度推定器へ入力し、入力画像に対応する推定深度マップを生成する。これにより、画像に写る空間の深度を精度よく推定することができる。

　具体的には、本実施形態の深度推定装置は、上記式（３）に示されるような、深度の推定が困難な箇所である、誤差が大きい領域に対応する画素の重要度を下げた損失関数を用いて、深度推定器ｆを学習させる。上記式（３）に示されるような損失関数を用いることによって、不確定性が低く、誤差が小さい画素の領域に対しては、深度推定器ｆによる学習が確実に行われる。一方、上記式（３）に示されるように、不確定性が高く、誤差が大きい画素の領域に対しては、その重要度が下げられて深度推定器ｆの学習が行われる。これより、深度マップを精度よく推定するための深度推定器ｆを得ることができる。

[第２実施形態]

　次に、第２実施形態について説明する。なお、第２実施形態に係る深度推定装置の構成は、第１実施形態と同様の構成となるため、同一符号を付して説明を省略する。

　第２実施形態の深度推定装置１０は、更に、学習用の推定深度マップの深度の変化の度合いを表すエッジと正解深度マップの深度の変化の度合いを表すエッジとの間の誤差が小さくなるように、深度推定器ｆを学習させる点が、第１実施形態と異なる。

　第１実施形態の深度推定装置によって得られた深度推定器ｆが生成する推定深度マップは、全体的にぼやけている場合がある。特に、畳み込みニューラルネットワークが深度推定器ｆとして用いられた場合、生成された推定深度マップは、過度に滑らかであり、全体的にぼけている場合がある。

　このような推定深度マップは、急峻に変化するエッジ部分の深度が精度よく再現されていないという課題がある。例えば、全体的にぼやけている推定深度マップは、壁の境目又は物体の際の深度が正確に再現されていない場合がある。

　そこで、第２実施形態の深度推定装置１０は、より精度のよい推定深度マップを生成するために、深度推定器ｆを更に学習させる。

　深度推定器ｆの望ましい状態としては、深度推定器ｆによって生成された推定深度マップのエッジと正解深度マップのエッジとが近しくなることである。このため、第２実施形態では、以下の式（５）に示される第２損失関数を導入する。そして、第２実施形態の深度推定装置１０は、以下の式（５）の第２損失関数ｌ_２を最小化するように、深度推定器ｆのパラメータｗを更に更新する。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　（５）

　ここで、上記式（５）におけるＥはエッジ検出器であり、Ｅ（Ｔ_ｉ（ｘ，ｙ））は、正解深度マップＴ_ｉにエッジ検出器Ｅを適用した後の座標（ｘ，ｙ）上の値を表す。また、Ｅ（Ｄ_ｉ（ｘ，ｙ））は、学習用の推定深度マップＤ_ｉにエッジ検出器Ｅを適用した後の座標（ｘ，ｙ）上の値を表す。

　エッジ検出器としては、微分可能な検出器であればどのようなエッジ検出器を用いてもよい。例えば、Ｓｏｂｅｌフィルタをエッジ検出器として用いることができる。Ｓｏｂｅｌフィルタは畳み込み演算として記述することができるため、畳み込みニューラルネットワークの畳み込み層として簡易に実装可能であるという利点もある。

　このため、第２実施形態の学習部１０５は、正解深度マップＴ_ｉの深度の変化の度合いを表すエッジＥ（Ｔ_ｉ（ｘ，ｙ））と、学習用の推定深度マップＤ_ｉの深度の変化の度合いを表すエッジＥ（Ｄ_ｉ（ｘ，ｙ））との間の誤差が小さくなるように、深度推定器ｆを更に学習させる。具体的には、第２実施形態の学習部１０５は、上記式（５）に示される第２損失関数ｌ_２が小さくなるように、深度推定器ｆを更に学習させる。

　上記式（５）に定められる第２損失関数ｌ_２（Ｔ_ｉ，Ｄ_ｉ）も、エッジ検出器Ｅが微分可能である限り、深度推定器ｆのパラメータｗに対して区分的に微分可能である。このため、深度推定器ｆのパラメータｗは、勾配法により更新可能である。例えば、第２実施形態の学習部１０５は、深度推定器ｆのパラメータｗを確率的勾配降下法に基づいて学習させる場合、１ステップあたり、以下の式（６）に基づいてパラメータｗを更新する。なお、αは予め設定される係数である。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　（６）

　深度推定器ｆの任意のパラメータｗに対する損失関数ｌ_２の微分値は、誤差逆伝搬法により計算することができる。なお、学習部１０５は、深度推定器ｆのパラメータｗを学習させる際に、モーメンタム項を利用する又は重み減衰を利用する等、一般的な確率的勾配降下法の改善法を導入してもよい。又は、学習部１０５は、別の勾配降下法を用いて、深度推定器ｆのパラメータｗを学習させてもよい。

　次に、第２実施形態の深度推定装置１０の作用について説明する。

　図５は、第２実施形態の深度推定装置１０による深度推定モデル学習処理の流れを示すフローチャートである。

　ステップＳ１００～ステップＳ１１０の各処理は、第１実施形態と同様に実行される。

　ステップＳ１１２において、ＣＰＵ１１は、学習用深度マップ生成部１０４として、学習用データ記憶部１０２に格納された学習用の画像Ｉ_ｉの各々を読み出す。

　ステップＳ１１４において、ＣＰＵ１１は、学習用深度マップ生成部１０４として、深度推定器記憶部１０３に格納された深度推定器ｆを読み出す。

　ステップＳ１１６において、ＣＰＵ１１は、学習用深度マップ生成部１０４として、上記ステップＳ１１２で読み出された学習用の画像Ｉ_ｉの各々を、上記ステップＳ１１４で読み出された深度推定器ｆへ入力して、当該学習用の画像Ｉ_ｉに対応する学習用の推定深度マップＤ_ｉを生成する。

　ステップＳ１１８において、ＣＰＵ１１は、学習部１０５として、複数の学習用の画像Ｉ_ｉの各々について、同一の学習用の画像Ｉ_ｉに対する、上記ステップＳ１１６で生成された学習用の推定深度マップＤ_ｉの各画素の深度と、学習用データ記憶部１０２に格納された正解深度マップＴ_ｉの各画素の深度との間の誤差に応じた第２損失関数ｌ_２（Ｔ_ｉ，Ｄ_ｉ）の損失値の各々を算出する。

　ステップＳ１２０において、ＣＰＵ１１は、学習部１０５として、上記ステップＳ１１８で算出された損失値の各々に基づいて、上記式（６）の第２損失関数ｌ_２（Ｔ_ｉ，Ｄ_ｉ）を最小化するように、深度推定器ｆを学習させる。そして、ＣＰＵ１１は、学習部１０５として、学習済みの深度推定器ｆを深度推定器記憶部１０３へ格納する。

　ステップＳ１２２において、ＣＰＵ１１は、学習部１０５として、繰り返しの終了条件が満たされているか否かを判定する。繰り返しの終了条件が満たされている場合には、処理が終了する。一方、繰り返しの終了条件が満たされていない場合には、ステップＳ１１２へ戻る。ステップＳ１１２～ステップＳ１２０の各処理は、終了条件が満たされるまで繰り返される。

　上記の深度推定モデル学習処理が実行されることにより、深度推定器ｆのパラメータｗが更新され、エッジを考慮して深度マップを精度よく推定するための深度推定器ｆが深度推定器記憶部１０３へ格納されたことになる。

　なお、第２実施形態に係る深度推定装置の他の構成及び作用については、第１実施形態と同様であるため、説明を省略する。

　以上説明したように、第２実施形態に係る深度推定装置は、推定深度マップの深度の変化の度合いを表すエッジと、正解深度マップの深度の変化の度合いを表すエッジとの間の誤差が小さくなるように、深度推定器を学習させる。これにより、エッジを考慮して深度マップを精度よく推定するための深度推定器ｆを得ることができる。また、第２実施形態に係る深度推定装置は、エッジを考慮して深度マップを精度よく推定するための深度推定器ｆを用いて、画像の深度を精度よく推定することができる。

　なお、第２実施形態に係る深度推定装置１０は、上記式（３）の第１損失関数によって一度学習された深度推定器ｆのパラメータｗを、上記式（５）の第２損失関数によって再び更新させる。この結果、深度推定器ｆの深度の推定の精度が低下することは無い。

　通常、上記式（３）の第１損失関数及び上記式（５）の第２損失関数の双方の損失関数を最小化するように深度推定器ｆのパラメータｗを学習させる場合、上記式（３）の第１損失関数と上記式（５）の第２損失関数との線形結合を取ったものが、新たな損失関数として定義される。そして、新たな損失関数が最小化されるように深度推定器ｆのパラメータｗが更新される。

　これに対し、第２実施形態では、上記式（３）の第１損失関数と上記式（５）の第２損失関数とを個別に最小化させる点が一つの特徴である。第２実施形態に係る深度推定装置１０の学習方法は、上記式（３）の第１損失関数と上記式（５）の第２損失関数とを線形結合させた新たな損失関数を最小化する場合と比較して、線形結合の重みを人手で調整しなくとも、深度推定器ｆのパラメータｗを学習させることができる、という利点を有する。

　上記式（３）の第１損失関数と上記式（５）の第２損失関数とを線形結合させた場合の重みの調整は、一般に非常に難儀である。重みの調整に関しては、線形結合の重みを変えながら何度も学習を繰り返し、最も良い重みを特定するというコストのかかる作業が必要となる。これに対し、第２実施形態に係る深度推定装置１０の学習方法は、このような作業を回避することができる。

＜実験結果＞

　次に、第２実施形態の深度推定装置１０により構築した深度推定器ｆを用いて深度の推定を行った場合の実験結果を示す。

　本実験は、深度センサ付きのカメラで屋内を撮影して得られるデータを用いて行った。学習は、48,000組の学習用の画像と正解深度マップとを含む学習用画像データを用いて実施し、評価は、学習用画像データとは異なる654組の画像と正解深度マップとの組を含む評価用データで行った。

　図６に、各方法での深度の推定の誤差を表す深度推定誤差（ｍ）を示す。図６に示される「従来技術１」は、上記式（１）を用いて学習された深度推定器ｆを用いた場合の結果である。また、図６に示される「従来技術２」は、上記式（２）を用いて学習された深度推定器ｆを用いた場合の結果である。「実施形態」は、第２実施形態の深度推定装置１０により学習された深度推定器ｆを用いた場合の結果である。図６から明らかな通り、本実施形態によれば、従来技術に対して極めて高精度な認識が可能であることがわかる。

　なお、上記各実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した言語処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）、及びＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、深度推定処理及び深度推定モデル学習処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

　また、上記各実施形態では、深度推定プログラム及び深度推定モデル学習プログラムがストレージ１４に予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、及びＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリ等の非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

　また、本実施形態の深度推定処理及び深度推定モデル学習処理を、汎用演算処理装置及び記憶装置等を備えたコンピュータ又はサーバ等により構成して、各処理がプログラムによって実行されるものとしてもよい。このプログラムは記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワークによって接続された複数のコンピュータに分散して実現してもよい。

　なお、本実施形態は、上述した各実施形態に限定されるものではなく、各実施形態の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

　例えば、上記各実施形態では、深度推定装置１０が深度推定処理及び深度推定モデル学習処理を実行する場合を例に説明したが、これに限定されるものではない。例えば、深度推定装置１０が深度推定処理のみを実行し、深度推定装置１０とは異なる装置の一例である深度推定モデル学習装置が深度推定モデル学習処理を実行するようにしてもよい。

　以上の各実施形態に関し、更に以下の付記を開示する。

　（付記項１）
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　入力画像を取得し、
　取得された入力画像を、画像から該画像に写る空間の深度が該画像の各画素に付与されている深度マップを生成するための深度推定器へ入力し、前記入力画像に対応する前記深度マップを表す推定深度マップを生成し、
　前記深度推定器は、学習用の前記推定深度マップの前記深度と正解の前記深度マップを表す正解深度マップの前記深度との間の誤差の各々について、前記誤差が閾値よりも大きい画素に対する損失値の増加度合いが、前記誤差が閾値以下である画素に対する損失値の増加度合いよりも小さくなるように設定されている損失関数の値が小さくなるように、予め学習されたモデルである、
　ように構成されている深度推定装置。

　（付記項２）
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　学習用の画像を、画像から該画像に写る空間の深度が該画像の各画素に付与されている深度マップを生成するための深度推定器へ入力して、前記学習用の画像に対応する前記深度マップである学習用の推定深度マップを生成し、
　生成された前記学習用の推定深度マップの前記深度と、正解の前記深度マップを表す正解深度マップの前記深度と、の間の誤差が閾値よりも大きい画素に対する損失値の増加度合いが、前記誤差が閾値以下である画素に対する損失値の増加度合いよりも小さくなるように設定されている損失関数の値が小さくなるように、前記深度推定器を学習させる、
　ように構成されている深度推定モデル学習装置。

　（付記項３）
　入力画像を取得し、
　取得された入力画像を、画像から該画像に写る空間の深度が該画像の各画素に付与されている深度マップを生成するための深度推定器へ入力し、前記入力画像に対応する前記深度マップを表す推定深度マップを生成する、
　処理をコンピュータに実行させるための深度推定プログラムであって、
　前記深度推定器は、学習用の前記推定深度マップの前記深度と正解の前記深度マップを表す正解深度マップの前記深度との間の誤差の各々について、前記誤差が閾値よりも大きい画素に対する損失値の増加度合いが、前記誤差が閾値以下である画素に対する損失値の増加度合いよりも小さくなるように設定されている損失関数の値が小さくなるように、予め学習されたモデルである、
　深度推定プログラムを記憶した非一時的記憶媒体。

　（付記項４）
　学習用の画像を、画像から該画像に写る空間の深度が該画像の各画素に付与されている深度マップを生成するための深度推定器へ入力して、前記学習用の画像に対応する前記深度マップである学習用の推定深度マップを生成し、
　生成された前記学習用の推定深度マップの前記深度と、正解の前記深度マップを表す正解深度マップの前記深度と、の間の誤差が閾値よりも大きい画素に対する損失値の増加度合いが、前記誤差が閾値以下である画素に対する損失値の増加度合いよりも小さくなるように設定されている損失関数の値が小さくなるように、前記深度推定器を学習させる、
　処理をコンピュータが実行するための深度推定モデル学習プログラムを記憶した非一時的記憶媒体。

１０深度推定装置
１０１学習用取得部
１０２学習用データ記憶部
１０３深度推定器記憶部
１０４学習用深度マップ生成部
１０５学習部
２０１取得部
２０２深度マップ生成部

Claims

　入力画像を取得する取得部と、
　前記取得部によって取得された入力画像を、画像から該画像に写る空間の深度が該画像の各画素に付与されている深度マップを生成するための深度推定器へ入力し、前記入力画像に対応する前記深度マップを表す推定深度マップを生成する深度マップ生成部と、
　を含み、
　前記深度推定器は、学習用の前記推定深度マップの前記深度と正解の前記深度マップを表す正解深度マップの前記深度との間の誤差の各々について、前記誤差が閾値よりも大きい画素に対する損失値の増加度合いが、前記誤差が閾値以下である画素に対する損失値の増加度合いよりも小さくなるように設定されている損失関数の値が小さくなるように、予め学習されたモデルである、
　深度推定装置。
　前記損失関数は、前記誤差が閾値よりも大きい場合には、該誤差の増加に対して該誤差の累乗根に応じて増加する前記損失値をとり、前記誤差が閾値以下である場合には、該誤差の増加に対して線形に増加する前記損失値をとる関数である、
　請求項１に記載の深度推定装置。
　学習用の画像を、画像から該画像に写る空間の深度が該画像の各画素に付与されている深度マップを生成するための深度推定器へ入力して、前記学習用の画像に対応する前記深度マップである学習用の推定深度マップを生成する学習用深度マップ生成部と、
　前記学習用深度マップ生成部により生成された前記学習用の推定深度マップの前記深度と、正解の前記深度マップを表す正解深度マップの前記深度と、の間の誤差が閾値よりも大きい画素に対する損失値の増加度合いが、前記誤差が閾値以下である画素に対する損失値の増加度合いよりも小さくなるように設定されている損失関数の値が小さくなるように、前記深度推定器を学習させる学習部と、
　を含む深度推定モデル学習装置。
　前記損失関数は、前記誤差が閾値以下である場合には、該誤差の増加に対して線形に増加する前記損失値となり、前記誤差が閾値より大きい場合には、該誤差の累乗根に対して線形に変化する前記損失値となる関数である、
　請求項３に記載の深度推定モデル学習装置。
　前記学習部は、更に、学習用の前記推定深度マップの前記深度の変化の度合いを表すエッジと、前記正解深度マップの前記深度の変化の度合いを表すエッジとの間の誤差が小さくなるように、前記深度推定器を学習させる、
　請求項３又は請求項４に記載の深度推定モデル学習装置。
　入力画像を取得し、
　取得された入力画像を、画像から該画像に写る空間の深度が該画像の各画素に付与されている深度マップを生成するための深度推定器へ入力し、前記入力画像に対応する前記深度マップを表す推定深度マップを生成する、
　処理をコンピュータが実行する深度推定方法であって、
　前記深度推定器は、学習用の前記推定深度マップの前記深度と正解の前記深度マップを表す正解深度マップの前記深度との間の誤差の各々について、前記誤差が閾値よりも大きい画素に対する損失値の増加度合いが、前記誤差が閾値以下である画素に対する損失値の増加度合いよりも小さくなるように設定されている損失関数の値が小さくなるように、予め学習されたモデルである、
　深度推定方法。
　学習用の画像を、画像から該画像に写る空間の深度が該画像の各画素に付与されている深度マップを生成するための深度推定器へ入力して、前記学習用の画像に対応する前記深度マップである学習用の推定深度マップを生成し、
　生成された前記学習用の推定深度マップの前記深度と、正解の前記深度マップを表す正解深度マップの前記深度と、の間の誤差が閾値よりも大きい画素に対する損失値の増加度合いが、前記誤差が閾値以下である画素に対する損失値の増加度合いよりも小さくなるように設定されている損失関数の値が小さくなるように、前記深度推定器を学習させる、
　処理をコンピュータが実行する深度推定モデル学習方法。
　入力画像を取得し、
　取得された入力画像を、画像から該画像に写る空間の深度が該画像の各画素に付与されている深度マップを生成するための深度推定器へ入力し、前記入力画像に対応する前記深度マップを表す推定深度マップを生成する、
　処理をコンピュータに実行させるための深度推定プログラムであって、
　前記深度推定器は、学習用の前記推定深度マップの前記深度と正解の前記深度マップを表す正解深度マップの前記深度との間の誤差の各々について、前記誤差が閾値よりも大きい画素に対する損失値の増加度合いが、前記誤差が閾値以下である画素に対する損失値の増加度合いよりも小さくなるように設定されている損失関数の値が小さくなるように、予め学習されたモデルである、
　深度推定プログラム。